Você está na página 1de 15

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Um Metamodelo para a Especificao de Data Warehouses Geogrficos


Rafael Fonseca1, Robson Fidalgo1, Joel da Silva1, Valria Times1
1

Centro de Informtica UFPE Universidade Federal de Pernambuco caixa postal 7851 50732-970 Recife PE Brasil
{rlf,rdnf,js,vct}@cin.ufpe.br

Abstract. The decision-making processses can be supported by many tools such as DW (Data Warehouse), OLAP (On-Line Analytical Processing) and GIS (Geographical Information System). Much research found in literature is aimed at integrating these technologies. However, the metamodeling of spatial and dimensional schemas for GDW (Geographical DW) is still an open question. In this context, this paper proposes GeoDWM (Geographical Data Warehouse Metamodel), that defines a set of pictograms and specifies how different kinds of dimensions and measures (both conventional and geographical) can be organized and associated to model the dimensional schema of a GDW. GeoDWM is based on the CWM and OGC standards and on the concepts provided by GeoDWFrame. To validate the metamodel, a CASE tool and a case study based on meteorological data were developed. Resumo. O processo de tomada de decises pode envolver ferramentas como DW (Data Warehouse), OLAP (On-Line Analytical Processing) e SIG (Sistemas de Informaes Geogrficas). Diversos trabalhos tm o objetivo de integrar essas tecnologias. No entanto, a metamodelagem de esquemas dimensionais e geogrficos para DWG (Data Warehouses Geogrficos) ainda um ponto em aberto. Nesse contexto, este trabalho prope GeoDWM (Geographical Data Warehouse Metamodel), que define um conjunto de pictogramas e especifica como diferentes tipos de dimenses e de medidas (convencionais e geogrficas) podem ser organizadas e associadas para modelar o esquema dimensional e geogrfico de um DWG. GeoDWM baseado em padres do CWM e do OGC e na proposta de GeoDWFrame. Para validar o metamodelo proposto foi desenvolvida uma ferramenta CASE e um estudo de caso sobre dados meteorolgicos.

1. Introduo
O suporte ao processo de tomada de decises pode envolver o uso de tecnologias como DW (Data Warehouse) [Inmon 1997, Kimball 1996], OLAP (On-Line Analytical Processing) [Chaudhuri e Dayal 1997, Thomsen 1997] e SIG (Sistemas de Informaes Geogrficas) [Longley et al. 1999, Demers 2000]. DW uma base de dados tpica para suporte deciso que normalmente implementada sobre o modelo estrela, o qual organizado sobre tabelas de fatos e tabelas de dimenses. OLAP uma categoria de software especfica para realizar processamento multidimensional sobre dados que so extrados do DW e podem ser interpretados por diferentes perspectivas e nveis de

193

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

detalhes. Por fim, os SIG so sistemas especficos para suporte deciso geogrfica que ajudam na aquisio, manipulao, visualizao e anlise de objetos espaciais. Muitos trabalhos visam integrar essas tecnologias [Han et al. 1997, Kouba et al. 2001, Shekhar et al. 2001, Fidalgo 2005, Sampaio et al. 2006], porm ainda no existe um consenso sobre a forma mais adequada de realizar esta tarefa. Contudo, sabe-se que dados convencionais e geogrficos devem estar integrados em uma nica base de dados, a qual corresponde a um DWG (Data Warehouse Geogrfico). A partir de um DWG espera-se, no mnimo, que os SIG realizem anlises espaciais sobre os dados multidimensionais manipulados por uma ferramenta OLAP, enquanto esta ferramenta analise, sob diferentes nveis de detalhes, os vrios cruzamentos possveis entre os dados geogrficos do SIG. Assim, pode-se perceber que a construo de um DWG caracteriza-se como um fator importante no suporte a realizao de consultas multidimensionais e geogrficas. Segundo Fidalgo et al. [Fidalgo et al. 2004b], um DWG pode ser definido como uma extenso da abordagem tradicional de DW, acrescentando-se um componente geogrfico. Basicamente, isto consiste em estender o modelo estrela atravs da insero de propriedades geogrficas (descritivas e geomtricas), as quais podem ser definidas como dimenses e/ou medidas do DWG. No caso das dimenses, estas podem armazenar as geometrias e as descries dos objetos geogrficos, enquanto que as medidas espaciais s armazenam as geometrias. Ressalta-se que um DWG deve manter as caractersticas tradicionais de um DW [Inmon 1997], ou seja, orientado ao assunto, integrado, no voltil e variante no tempo. Alm disso, um DWG deve oferecer suporte ao armazenamento, indexao, agregao e s anlises, em mapas ou tabelas, de dados georeferenciados [Fidalgo 2005]. Apesar de existirem trabalhos relativos ao uso de DWG [Han et al. 1997, Kouba et al. 2001, Shekhar et al. 2001, Fidalgo 2005, Sampaio et al. 2006], ainda no existe uma padronizao sobre o modelo de dados a ser especificado nas suas fases de projetos conceitual e lgico. Por isso, este artigo prope GeoDWM (Geographical Data Waherouse Metamodel), um metamodelo para especificar esquemas dimensionais e geogrficos de DWG. Isto , GeoDWM define como dimenses, medidas e tipos geogrficos podem ser organizados e relacionados de forma a se obter um modelo de DWG livre de inconsistncias sintticas. Salienta-se que GeoDWM pode ser usado como metamodelo para ferramentas CASE (Computer-Aided Software Engineering) que contemplem as fases de projeto conceitual e lgico de um DWG. Tal ferramenta computacional pode oferecer recursos grficos que 1) abstraiam os detalhes de implementao do DWG, auxiliando os projetistas e usurios no entendimento do seu modelo dimensional e geogrfico e 2) permitam que este modelo de alto nvel seja transformado automaticamente em um modelo lgico compatvel com o SGBD que ser utilizado. As demais sees deste artigo esto organizadas como segue. A seo 2 aborda as propostas de referncia que esto sendo consideradas neste trabalho. Em seguida, a seo 3 prope o metamodelo GeoDWM. Ento, a seo 4 apresenta um estudo de caso sobre a modelagem de um DWG utilizando GeoDWM em conjunto com a ferramenta CASE que foi implementada para facilitar o desenvolvimento de aplicaes deste tipo. Em seguida, a seo 5 discute alguns trabalhos relacionados, e finalmente, a seo 6 expe algumas concluses e indicaes de trabalhos futuros.

194

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

2. Contextualizao do Trabalho
De forma a permitir que outros trabalhos possam usar e estender GeoDWM, este baseado nos padres Relational de CWM (Common Warehouse Metamodel) [OMG 2003] e SFS-SQL (Simple Features Specification for SQL) do OGC (Open Geospatial Consortium), os quais so abertos e bem aceitos pelas comunidades acadmica e industrial de DW e SIG, respectivamente. Alm desses padres, GeoDWM tambm baseado nas definies de GeoDWFrame [Fidalgo et al. 2004b, Fidalgo 2005]. Estas propostas so brevemente apresentadas a seguir. 2.1 O Pacote Relational de CWM CWM a proposta padro do OMG (Object Management Group) para aplicaes baseadas em DW. Dentre os pacotes da especificao CWM, o pacote Relational relevante no contexto deste trabalho, pois define um metamodelo com relacionamentos, metadados e restries para bancos de dados relacionais. No principal diagrama de classes deste pacote [OMG 2003], um esquema (Schema) um armazm lgico de todos os outros elementos, sendo tambm o ponto de partida para sua navegao. Um esquema pode conter gatilhos (Trigger), catlogos (Catalog), ndices SQL (SQLIndex), procedimentos (Procedure) e conjuntos nomeados de colunas (NamedColumnSet). Um conjunto de colunas (ColumnSet) representa qualquer forma de dados relacionais. Um conjunto nomeado de colunas (NamedColumnSet) uma verso catalogada de um conjunto de colunas. Um conjunto nomeado de colunas pode ser uma viso lgica (View) ou uma tabela fsica (Table), enquanto que um conjunto de colunas (ColumnSet) pode ser um conjunto de colunas de consulta (QueryColumnSet), o qual resultado de uma consulta SQL. Colunas (Column) esto associadas a tipos de dados SQL (SQLDataType). Tipos simples (SQLSimpleType) so definidos pelo padro SQL, no entanto, alguns sistemas gerenciadores de bancos de dados relacionais implementem tipos extras. Assim, um tipo distinto (SQLDistinctType) pode ser definido a partir de um tipo simples. Em resumo, pode-se dizer que o pacote Relational de CWM um padro que define um conjunto de metadados para aplicaes relacionais, objetivando definir um conjunto de conceitos que sejam essenciais e comuns maioria dos sistemas deste tipo. 2.2 A Especificao SFS-SQL do OGC OGC prope um conjunto de especificaes que objetivam padronizar os dados e metadados espaciais, apresentando um conjunto comum de terminologias, definies, esquemas e procedimentos de extenso. Dentre essas especificaes, a SFS-SQL importante no contexto deste trabalho, pois descreve um modelo de objetos para geometrias. No principal diagrama de classes desta especificao [OGC 1999], a classe geometria (Geometry) tem subclasses para representar os tipos geomtricos ponto (Point), cadeia de linhas (LineString), polgono (Polygon), coleo de geometrias (GeometryCollection), coleo de pontos (MultiPoint), coleo de cadeias de linhas (MultiLineString) e coleo de polgonos (MultiPolygon). Cada objeto geomtrico associado a um sistema de referncia espacial (SRID), o qual descreve o espao de coordenadas no qual o objeto geomtrico definido. Em resumo, a SFS-SQL do OGC prope um metamodelo para feies simples, que objetiva modelar as principais

195

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

caractersticas, os comportamentos, as restries e os relacionamentos das feies geogrficas. 2.3 O Arcabouo GeoDWFrame GeoDWFrame [Fidalgo et al. 2004b] um arcabouo que visa orientar a definio do projeto do esquema dimensional e geogrfico de um DWG. GeoDWFrame respectivamente: 1) no usa o conceito de medidas espaciais; 2) normaliza os dados geomtricos referentes aos objetos espaciais; 3) apresenta um conjunto de conceitos, tipos de dimenses e princpios de projeto para gerenciar mais de uma dimenso espacial; 4) permite o uso de objetos espaciais em qualquer nvel dimensional e 5) armazena as descries das localizaes dos objetos espaciais. GeoDWFrame prope dois tipos de dimenses: Geogrfica e Hbrida. Uma dimenso geogrfica uma dimenso que armazena apenas dados geogrficos (e.g., endereos de clientes e suas referncias geomtricas) e uma dimenso hbrida uma dimenso que armazena tanto dados convencionais quanto dados geogrficos. Dimenses geogrficas so classificadas em Composta e Primitiva. As dimenses geogrficas compostas manipulam, essencialmente, as descries das localizaes de um objeto geogrfico. J as dimenses geogrficas primitivas, armazenam apenas o componente espacial (geometrias) de um objeto geogrfico. Dimenses hbridas so classificadas em Micro, Macro e Conjunta. A dimenso hbrida micro armazena dados convencionais e geogrficos, s que os geogrficos representam a menor granularidade espacial da dimenso (e.g., endereos ou lotes). A dimenso hbrida macro armazena dados convencionais e geogrficos, s que os geogrficos representam informaes de alta granularidade espacial (e.g., Pases, Regies, Estados e Cidades). Por sua vez, a dimenso hbrida conjunta une os conceitos das dimenses hbridas micro e macro em uma nica dimenso. Salienta-se que GeoDWFrame uma especificao em alto nvel que define um conjunto de orientaes que visam guiar a definio do esquema dimensional e geogrfico de um DWG. Por isso, esse arcabouo se abstrai do uso de padres como CWM e OGC, no especifica um metamodelo (o que dificulta o seu uso por ferramentas CASE) e no oferece mecanismos que possibilitem a verificao de consistncia do esquema do DWG.

3. GeoDWM - Geographical DataWarehouse Metamodel


GeoDWM um metamodelo que: 1) especificado utilizando restries OCL (Object Constraint Language) [OMG 2006] e diagrama de classes da UML (Unified Modeling Language) [OMG 2007] de tal forma que sua especificao seja no ambgua e de fcil entendimento; 2) baseia-se no pacote Relational de CWM e SFS-SQL do OGC para facilitar a sua utilizao e extenso por outros trabalhos; 3) define como os conceitos (e.g., medidas e dimenses convencionais ou geogrficas) de um modelo dimensional e geogrfico podem ser organizados e relacionados para descrever um DWG; 4) prov um conjunto de esteretipos com pictogramas que tm o objetivo de facilitar e orientar o projetista na atividade de modelagem do DWG; 5) serve de metamodelo base para ferramentas CASE que visem a modelagem conceitual e gerao automtica de esquemas lgicos de DWG; e finalmente, 6) possibilita, atravs de suas restries OCL, a verificao de consistncia dos modelos gerados. A Figura 1 apresenta o metamodelo GeoDWM proposto neste artigo.

196

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Figura 1. O metamodelo GeoDWM.

As classes Esquema (Schema), Tabela (Table), Coluna (Column), Chave Primria (PrimaryKey) e Chave Estrangeira (ForeignKey) so do pacote Relational de CWM. A classe Esquema (Schema) a base da navegao em GeoDWM e representa o esquema de um DWG. Um esquema um conjunto nomeado de zero ou mais tabelas (Table). Tabelas so compostas por zero ou mais Colunas (Column), por no mximo uma restrio de Chave Primria (PrimaryKey) e por zero ou mais Chaves Estrangeiras (ForeignKey). Estas ltimas associam colunas de uma tabela com colunas de outra tabela. Em um diagrama com base em GeoDWM, o relacionamento entre duas tabelas implica na existncia de uma chave estrangeira na tabela de origem para a tabela de destino do relacionamento. Tabelas podem ser especializadas em Tabelas de Fatos (FactTable) e Tabelas de Dimenso (DimensionTable), enquanto que colunas so especializadas em Atributos de uma tabela (TAttribute), Dimenses Degeneradas (Degenerated) e Medidas (Measure). Estas ltimas, por sua vez, podem ser especializadas em Medidas Comuns (Common) e Medidas Espaciais (Spatial). Medidas espaciais so especializadas em classes que esto associadas a uma classe da SFS-SQL para padronizar e representar geometrias do tipo ponto (PointM), cadeia de linhas (LineStringM), polgono (PolygonM), coleo de geometrias (GeometryCollectionM), mltiplos pontos (MultiPointM), mltiplas cadeias de linhas (MultiLineStringM) e mltiplos polgonos (MultiPolygonM).

197

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Uma Tabela de Dimenso (DimensionTable) pode ser especializada em trs dimenses distintas: Convencionais (Conventional), Geogrficas (Geographical) e Hbridas (Hybrid). No primeiro caso, assim como em um DW tradicional, um DWG tambm prov suporte para dimenses que armazenam apenas dados convencionais (e.g., uma dimenso produto). Os dois outros tipos de dimenses modelam os conceitos da proposta de GeoDWFrame. Dimenses Geogrficas so especializadas em Composta (Composite) e Primitiva (Primitive). Estas ltimas tambm so especializadas em classes que esto associadas a uma classe da SFS-SQL para padronizar e representar geometrias do tipo ponto (PointP), cadeia de linhas (LineStringP), polgono (PolygonP), coleo de geometrias (GeometryCollectionP), mltiplos pontos (MultiPointP), mltiplas cadeias de linhas (MultiLineStringP) e mltiplos polgonos (MultiPolygonP). Dimenses Hbridas so especializadas em Micro (Micro), Macro (Macro) e Conjunta (Joint). Ressalta-se que o uso das dimenses micro, macro e conjunta no obrigatrio, sendo indicado quando o projetista deseja expressar detalhes sobre a granularidade geogrfica de cada dimenso hbrida. Por isso, se o projeto do DWG no exigir este nvel de detalhe, pode-se usar apenas a superclasse Hybrid na representao de uma dimenso hbrida genrica. De forma a dar mais semntica e melhorar a representao grfica de um modelo dimensional e geogrfico, GeoDWM usa esteretipos UML [OMG 2007] para aumentar sua capacidade de expresso e visualizao. Alm disso, objetivando enriquecer a visualizao dos elementos da modelagem, GeoDWM usa pictogramas (i.e., cones) para seus esteretipos. Em GeoDWM, os esteretipos so utilizados para manipular propriedades convencionais e geogrficas. Os Quadros 1 e 2 especificam, respectivamente, os esteretipos de GeoDWM que esto relacionados a fatos e dimenses de um DWG . Os mesmos possuem as colunas: 1) Esteretipo o nome do esteretipo; 2) Pictograma o cone associado ao esteretipo (vazio quando inexistente); 3) Descrio a descrio textual do esteretipo.
Quadro 1 Esteretipos de GeoDWM relacionados a fatos. Esteretipo FactTable TAttribute Degenerated Measure Common Spatial PointM LineStringM PolygonM GeometryCollectionM MultiPointM MultiLineStringM MultiPolygonM Pictograma Descrio Tabela de Fatos. Atributo de uma tabela. Dimenso degenerada. Medida Abstrata. Medida Convencional. Medida Espacial Abstrata. Medida Espacial com geometria Ponto. Medida Espacial com geometria Cadeia de Linhas. Medida Espacial com geometria Polgono. Medida Espacial com geometria Coleo de Geometrias. Medida Espacial com geometria Mltiplos Pontos. Medida Espacial com geometria Mltiplas Cadeias de Linhas. Medida Espacial com geometria Mltiplos Polgonos.

F a
d

198

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Quadro 2 Esteretipos de GeoDWM relacionados dimenses. Esteretipo DimensionTable Conventional Geographical Composite Primitive PointP LineStringP PolygonP GeometryCollectionP MultiPointP MultiLineStringP MultiPolygonP Hybrid Micro Macro Joint Pictograma Descrio Tabela de Dimenso Abstrata. Dimenso Convencional. Dimenso Geogrfica Abstrata. Dimenso Geogrfica Composta. Dimenso Geogrfica Primitiva Abstrata. Dimenso Geogrfica Primitiva com geometria Ponto. Dimenso Geogrfica Primitiva com geometria Cadeia de Linhas. Dimenso Geogrfica Primitiva com geometria Polgono. Dimenso Geogrfica Primitiva com geometria Coleo de Geometrias. Dimenso Geogrfica Primitiva com geometria Mltiplos Pontos. Dimenso Geogrfica Primitiva com geometria Mltiplas Cadeias de Linhas. Dimenso Geogrfica Primitiva com geometria Mltiplos Polgonos. Dimenso Hbrida genrica. Dimenso Hbrida Micro. Dimenso Hbrida Macro. Dimenso Hbrida Conjunta.

gH H H H

A seguir, so apresentadas as restries OCL [OMG 2006] sobre o metamodelo proposto, as quais correspondem a uma lista de regras associadas a um determinado esteretipo e que so herdadas pelos seus descendentes. Ressalta-se que no so apresentadas restries que so: 1) definidas em CWM (e.g., todo nome de tabela ou coluna tem que ser nico e no vazio) e 2) deduzidas pela especificao grfica do metamodelo (e.g., uma medida comum no pode ser do tipo geogrfico e uma tabela s pode ter uma chave primria).
FactTable:
Os elementos de uma Tabela de Fatos devem ser um Atributo de Tabela, uma Dimenso Degenerada ou uma Medida: self.feature select(oclIsKindOf(Attribute)) forAll(oclIsTypeOf(TAttribute) or oclIsTypeOf(Degenerated) or oclIsKindOf(Measure))

DimensionTable:
Os atributos de uma Dimenso devem ser um Atributo de Tabela: self.feature select(oclIsKindOf(Attribute)) forAll(oclIsTypeOf(TAttribute))

TAttribute:
Um Atributo de Tabela pode pertencer a Tabelas de Fatos ou a Tabelas de Dimenso: self.owner.oclIsTypeOf(FactTable)or self.owner.oclIsKindOf(DimensionTable)

Degenerated:
Uma Dimenso Degenerada s pode pertencer a Tabelas de Fatos: self.owner.oclIsTypeOf(FactTable)

199

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Measure:
Uma Medida s pode pertencer a Tabelas de Fatos: self.owner.oclIsTypeOf(FactTable)

Conventional:
Tabelas de Dimenses Convencionais s podem ter chaves estrangeiras para outras Tabelas de Dimenses Convencionais ou para Tabelas de Dimenses Hbridas (incluindo seus subtipos): self.allOppositeAssociationEnds forAll(participant.oclIsTypeOf(Conventional) or participant.oclIsKindOf(Hybrid))

Composite:
Tabelas de Dimenses Geogrficas Compostas s podem ter chaves estrangeiras para Tabelas de Dimenses Geogrficas Primitivas ou para outras Tabelas de Dimenses Geogrficas Compostas: self.allOppositeAssociationEnds forAll(participant.oclIsTypeOf(Composite) or participant.oclIsTypeOf(Primitive))

Primitive:
Tabelas de Dimenses Geogrficas Primitivas no possuem chaves estrangeiras para nenhum outro tipo de Tabela de Dimenso ou Tabela de Fatos: self.allOppositeAssociationEnds forAll(not participant.oclIsKindOf(DimensionTable) or not participant.oclIsTypeOf(FactTable))

Hybrid:
Tabelas de Dimenses Hbridas s podem ter chaves estrangeiras para Tabelas de Dimenses Convencionais, Tabelas de Dimenses Geogrficas Compostas, Dimenses Hbridas (incluindo seus subtipos) ou Tabelas de Dimenses Geogrficas Primitivas: self.allOppositeAssociationEnds forAll(participant.oclIsTypeOf(Conventional) or participant.oclIsKindOf(Geographical) or participant.oclIsKindOf(Hybrid))

4. Estudo de Caso
Para validar e ilustrar o uso de GeoDWM, desenvolveu-se um estudo de caso no qual um DWG foi especificado a partir dos dados do LAMEPE (Laboratrio de Meteorologia de Pernambuco). A motivao para a especificao deste DWG consiste no fato de que dados meteorolgicos so informaes importantes para muitos setores do Estado de Pernambuco, possibilitando o monitoramento de vrios aspectos relativos agropecuria, gerao de energia eltrica, defesa civil, piscicultura e ao abastecimento de gua no Estado. Alm disso, o monitoramento da distribuio temporal e espacial da precipitao em Pernambuco de importncia para a realizao de predies futuras sobre a ocorrncia e o volume de chuvas neste Estado. Para tornar o metamodelo mais prtico e fcil de ser utilizado, foi desenvolvida a ferramenta GeoDWCASE [Fonseca et al. 2007] que implementa GeoDWM. GeoDWCASE uma ferramenta para especificao de DWG que visa tornar esse processo uma tarefa mais amigvel para o projetista. Com o uso dessa ferramenta CASE, o projetista pode facilmente interagir com o modelo, sendo capaz de organizar e editar elementos de diferentes formas (e.g., mudar cores, fontes, preenchimentos), visualizar o modelo sob diferentes nveis de zoom, auto-organizar elementos, alinhar elementos, exportar o modelo como figura (e.g., JPG, GIF, SVG), dentre outras funcionalidades de edio. Alm disso, GeoDWCASE implementa os esteretipos e as restries OCL definidas por GeoDWM (e.g., relacionamentos incorretos entre tabelas de dimenses, tabelas de dimenses com mesmo nome, atributos com mesmo nome em uma mesma tabela de dimenso, palavras reservadas). A partir de um modelo conceitual de DWG projetado em GeoDWCASE, pode-se automaticamente, transformar este

200

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

modelo em um modelo lgico compatvel com o SGBD espacial alvo. GeoDWCASE foi implementada em JAVA sobre a plataforma Eclipse [Eclipse 2007], garantindo assim sua portabilidade para diversos sistemas operacionais. A Figura 2 apresenta o ambiente de modelagem de GeoDWCASE com o modelo dimensional e geogrfico do DWG deste estudo de caso. Na rea 3 da Figura 2, o projetista tem a seu dispor uma paleta com todos os elementos (definidos por GeoDWM) que ele precisa para a modelagem do DWG. A tarefa de modelar se resume a clicar sobre o elemento desejado na paleta e coloc-lo no diagrama. A partir da o projetista edita as propriedades do elemento (rea 4 da Figura 2) e estabelece seus relacionamentos. Note que a semntica de cada tipo de elemento facilmente percebida pelo seu esteretipo com seu pictograma.

Figura 2. Interface de GeoDWCASE com o modelo do DWG para Meteorologia.

Pode-se perceber, no modelo do DWG em estudo (exibido na rea 2 da Figura 2), uma tabela fato e algumas tabelas de dimenses. A tabela fato (Meteorologia) tem precipitao, temperatura do ar, umidade relativa do ar, presso atmosfrica, velocidade do vento e radiao solar como medidas convencionais e possui localizao do PCD (Plataforma de Coleta de Dados) como medida espacial. As tabelas de dimenses so: 1) duas dimenses convencionais (Tempo e PCD); 2) cinco dimenses geogrficas primitivas (Localizao Bacia, Unidade Federao, Cidade, Microrregio e Mesorregio; 3) uma dimenso geogrfica composta (Localizao) e 4) uma dimenso hbrida micro (Bacia Hidrogrfica). Sobre esse DWG, uma ferramenta SOLAP (Spatial OLAP) [Rivest et al. 2001, Rivest et. al 2005] pode criar um cubo multidimensional e geogrfico que permita, por exemplo, responder a seguinte consulta: Para o segundo

201

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

semestre de 2000, mostre as cinco maiores taxas de precipitao que foram capturadas por estaes localizadas em um raio de 50 km da cidade de Recife e que esto contidas na bacia hidrogrfica do rio Capibaribe. GeoDWM guia o mdulo de dicionrio de dados da ferramenta para permitir o armazenamento dos metadados dos elementos do esquema que est sendo modelado. Um modelo em GeoDWCASE possui dois tipos de definies, as de representaes grficas (e.g., posies e desenhos dos elementos de modelagem) e as de metadados de GeoDWM (e.g., nomes e tipos das dimenses, nomes e tipos das medidas, nomes e tipos das colunas, relacionamentos). Na rea 1 da Figura 2, o projetista tem a viso em rvore de todos seus projetos de DWG, juntamente com seus respectivos modelos, organizados em pastas. Cada modelo composto por dois arquivos: um arquivo contendo as representaes grficas do modelo (extenso .geodwm_diagram) e um arquivo contendo os metadados de GeoDWM usados no modelo (extenso .geodwm). As definies contidas nesses arquivos so armazenadas no formato XMI (XML Metadata Interchange) [OMG 2005], uma especificao padro do OMG para o intercmbio de metadados. Cada elemento delimitado por um tag (i.e., marcao) que contm seu nome, seu esteretipo, seu tipo e seus relacionamentos. A Figura 3 exemplifica o dicionrio de dados correspondente tabela fato Meteorologia. A tag tables armazena o esteretipo da tabela, seu nome e referncias dos elementos para os quais a tabela possui chaves estrangeiras (com base nos relacionamentos definidos no modelo). A tag interna columns armazena o esteretipo da coluna, seu nome e seu tipo de dado. O arquivo GeoDWM contendo as demais definies de metadados para o modelo de DWG em estudo pode ser encontrado em http://www.cin.ufpe.br/~golapware/geodwm/dwglamepe.geodwm.

Figura 3. Representao de uma tabela fato GeoDWM em XMI.

Vale ressaltar que para utilizar GeoDWCASE a definio de chaves primrias e estrangeiras para cada tabela no necessria. As chaves primrias so geradas automaticamente no momento da transformao para o modelo lgico. J as chaves estrangeiras so abstradas pela relao de associao existente entre cada elemento, sendo tambm geradas automaticamente. No caso das dimenses geogrficas primitivas, a definio da coluna que ir armazenar a geometria tambm no se faz necessria. Com base no esteretipo, esta coluna gerada automaticamente no modelo lgico. A abstrao dessas propriedades visa tornar o modelo mais fcil de ser entendido e s possvel porque elas so transparentemente especificadas pelos metadados de GeoDWM. Finalizada a modelagem, o projetista acessa o menu Diagram (Diagrama) e valida seu modelo. Isso consiste em uma checagem do modelo com base nas regras OCL de GeoDWM. Todas as inconsistncias de modelagem encontradas sero listadas, apresentando uma descrio do problema e marcando no modelo, o(s) elemento(s) que est(o) com problemas. Corrigidas todas as inconsistncias de modelagem, o projetista pode gerar automaticamente as instrues SQL (Structured Query Language)/DDL (Data

202

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Definition Language) referente ao esquema lgico do DWG (arquivo com extenso .sql). Esse esquema lgico gerado a partir dos metadados de GeoDWM e pode ser prontamente executado em um SGBD espacial escolhido. No momento, esta funcionalidade est disponvel para o SGBD PostgresSQL [PostgresSQL 2007] com a extenso PostGIS [PostGIS 2007]. A Figura 4 exemplifica o esquema lgico da tabela fato Meteorologia. O arquivo contendo o esquema lgico completo do DWG em estudo pode ser encontrado em http://www.cin.ufpe.br/~golapware/geodwm/dwglamepePostGIS.sql.

Figura 4. DDL PostGIS para a tabela fato Meteorologia.

5. Trabalhos Relacionados
Aqui sero brevemente discutidos alguns trabalhos relevantes no contexto deste artigo. A escolha desses trabalhos foi motivada por eles: 1) definirem conceitos importantes sobre a rea de DWG, 2) proporem pictogramas para ampliar a capacidade de expresso do modelo e/ou 3) utilizarem ferramentas CASE para apoiar o processo de modelagem. Stefanovic et al. [Stefanovic et al. 2000] discutem trs tipos de dimenses baseados nas referncias espaciais dos membros de uma hierarquia: no-espacial, espacial-para-no-espacial e totalmente espacial. Eles tambm distinguem medidas numricas e espaciais. Estas ltimas representam uma coleo de ponteiros para objetos espaciais. Alm disso, um mtodo para a construo e materializao de cubos espaciais, bem como a eficincia e a eficcia de alguns algoritmos para a materializao de cubos tambm so investigados. Rivest et al. [Rivest et al. 2001] discutem a importncia de novas ferramentas que permitam explorar o potencial das dimenses espaciais e temporais de um DWG em um processo de anlise espao-temporal. Eles apresentam alguns prottipos de ferramentas SOLAP e estendem a definio de medida espacial atravs da incluso de medidas representadas como objetos espaciais ou calculadas usando-se mtricas espaciais ou operadores topolgicos. Zghal et al. [Zghal et al. 2003] definem o metamodelo e a ferramenta CASME. O metamodelo tambm aborda dimenses espaciais, hierarquias espaciais e medidas espaciais. No entanto, no se baseia em padres nem oferece mecanismos para a verificao de consistncia do modelo. No referido trabalho tambm no so fornecidos

203

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

mais detalhes sobre a implementao e funcionalidades da ferramenta CASE desenvolvida. Malinowski e Zimnyi [Malinowski e Zimnyi 2004] definiram uma extenso do modelo ER para representar dimenses, hierarquias e medidas espaciais. Os autores tambm fazem uso de pictogramas para modelar a geometria dos nveis espaciais na modelagem do cubo, alm de considerarem a incluso de relacionamentos e operadores topolgicos no modelo. Para tal, eles fazem uso do modelo conceitual MADS [Parent et al. 1999], o qual adota uma abordagem objeto-relacional com elementos do modelo padro do ODMG (Object Database Management Group) [Cattel e Barry 1997]. No MADS, a caracterstica espacial pode estar associada a tipos de objetos, atributos, relacionamentos e agregaes. Para isso, os autores definiram tipos abstratos de dados espaciais, tipos de objetos espaciais, tipos de atributos geogrficos e tipos de relacionamentos espaciais. As caractersticas geogrficas so visualizadas atravs de pictogramas que expressam essas propriedades. Miquel et al. [Miquel et al. 2004] distinguem uma medida associada a uma representao espacial de uma medida convencional. Eles definem uma medida espacial como uma medida que mapeada a pelo menos uma dimenso espacial cujos membros armazenam uma representao espacial. Assim uma dimenso espacial deve ser includa no modelo caso uma medida espacial seja desejada. Recentemente, Sampaio et al. [Sampaio et al. 2006] prope um modelo de dados multidimensional para integrao estreita de dados espaciais e dados no-espaciais o qual contempla os conceitos de dimenso espacial, medida espacial, e hierarquia espacial. Esse modelo formalizado em UML e utiliza padres do ODMG. A partir da discusso dos trabalhos relacionados, pode-se perceber que eles no se baseiam nos padres de CWM e OGC e objetivam definir modelos multidimensionais para cubos de dados geogrficos, tendo pouca nfase na especificao de modelos dimensionais para DWG. Isto , estes trabalhos especificam conceitos como hierarquias e nveis, os quais so essenciais para executar operaes SOLAP sobre um cubo de dados geogrfico, mas fogem do escopo do esquema estrela (modelo dimensional) de um DWG. Neste sentido, GeoDWM caracteriza-se como uma proposta nova, que baseada em padres e que visa contribuir para a especificao de modelos dimensionais e geogrficos de um DWG.

6. Concluses e Trabalhos Futuros


GeoDWM um metamodelo que especifica como diferentes tipos de dimenses e de medidas (convencionais e geogrficas) podem ser organizados e associados para modelar o esquema dimensional e geogrfico de um DWG. Alm disso, GeoDWM detalha um conjunto de esteretipos, pictogramas e restries que visam descrever e garantir que esse modelo seja passvel de verificao de consistncia. De forma a facilitar o seu uso e a sua extenso por outros trabalhos, GeoDWM baseia-se nos padres Relational de CWM e SFS-SQL do OGC e na proposta de GeoDWFrame. Ressalta-se que GeoDWM especifica um conjunto de tipos de medidas espaciais, as quais no so previstas por GeoDWFrame, mas podem ser necessrias na modelagem do DWG. Por se tratar de um metamodelo para esquemas dimensionais e geogrficos de DWG, GeoDWM no define conceitos como hierarquia e nveis hierrquicos, os quais

204

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

so pertinentes ao contexto de modelagem multidimensional de um cubo geogrfico (i.e., a partir de um DWG pode-se gerar vrios cubos geogrficos). GeoDWM tambm faz parte de um projeto maior que props uma arquitetura de software, chamada GOLAPA [Fidalgo et al. 2004a, Fidalgo 2005, Silva et al. 2004, Silva et al. 2005, Silva et al. 2006]. A escolha de UML e OCL para a especificao de GeoDWM foi motivada por: 1) UML ser uma linguagem padro para a atividade de metamodelagem, facilmente extensvel e bem aceita pela comunidade de banco de dados; 2) o diagrama de classes de UML prover uma notao grfica detalhada e de fcil entendimento e 3) OCL ter um bom conjunto de expresses que permitam especificar restries em alto nvel sobre modelos. Alm disso, as especificaes Relational de CWM e SFS-SQL de OGC tambm foram concebidas em UML. Para validar a proposta e proporcionar aplicao imediata de GeoDWM, foi desenvolvida a ferramenta GeoDWCASE, a qual permite que um projetista de um DWG realize a sua modelagem conceitual com base no metamodelo proposto neste artigo, e em seguida, gere automaticamente, o seu modelo lgico compatvel com um SGBD espacial. Como visto na seo 4, atualmente, esta funcionalidade s est disponvel para o SGBD PostgresSQL com a extenso PostGIS, mas em trabalhos futuros, outros SGBD espaciais tambm sero contemplados. Outras indicaes de trabalhos futuros so: 1) a extenso de GeoDWM e GeoDWCASE para prover o suporte a dados geogrficos do tipo matricial e 2) a definio de uma metodologia para implementao (projeto conceitual, lgico e fsico) de DWG segundo GeoDWM.

Referncias
Cattel, R. e Barry, D. (1997). The Object Database Standard: ODMG 2.0, Morgan Kaufmann. Chaudhuri, S. e Dayal, U. (1997). An Overview of Data Warehousing and OLAP Technology, SIGMOD Rec., 26(1):6574. Demers, M. N. (2000). Fundamentals of Geographic Information Systems, John Wiley and Sons, New York, 2 edition. Eclipse Platform (2007). http://www.eclipse.org/. Fidalgo, R. N., Times, V. C., Silva, J. (2004a). Providing Multidimensional and Geographical Integration Based on a GDW and Metamodels. In Brazilian Symposium on Databases (SBBD), pages 148162. Fidalgo, R. N., Times, V. C., Silva, J., e Souza, F. F. (2004b). GeoDWFrame: A Framework for Guiding the Design of Geographical Dimensional Schemas. In Proceedings of the International Conference on Data Warehousing and Knowledge Discovery, pages 2637. DaWaK. Fidalgo, R. N. (2005). Uma Infra-estrutura para Integrao de Modelos, Esquemas e Servios Multidimensionais e Geogrficos, PhD thesis, Universidade Federal de Pernambuco, Recife, PE, BR.

205

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Fonseca, R., Fidalgo, R. N., Silva, J., e Times, V. C. (2007). GeoDWCASE: Uma Ferramenta para Projeto de Data Warehouses Geogrficos. In Demos Session of the Brazilian Symposium on Databases (SBBD), Joo Pessoa, Brazil. Han, J., Koperski, K., e Stefanovic, N. (1997). Geominer: A System Prototype for Spatial Data Mining, In SIGMOD 97: Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data, pages 553556, New York, NY, USA. ACM Press. IBM (2003). Rational Rose, http://www.ibm.com/software/rational. Inmon, W. H. (1997). Building the Data Warehouse, John Wiley and Sons, 2 edition. Kimball, R. (1996). The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. John Wiley and Sons, New York. Kouba, Z., Miksovsky, P., e Matousek, K. (2001). On Geographical On-Line Analytical Processing (GOLAP). In ISAS-SCI 01: Proceedings of the World Multiconference on Systemics, Cybernetics and Informatics, pages 201205. IIIS. Longley, P. A., Goodchild, M. F., e Maguire, D. J. (1999). Geographical Information Systems: Principles, Techniques, Applications and Management, JohnWiley and Sons, New York, 2 edition. Malinowski, E. and Zimnyi, E. (2004). Representing Spatiality in a Conceptual Multidimensional Model, In GIS 04: Proceedings of the 12th annual ACM International Workshop on Geographic Information Systems, pages 1222, New York, NY, USA. ACM Press. Miquel, M., Brisebois, A., Bdard, Y. e Edwards, G. (2004). Implementation and Evaluation of Hypercube-based Method for Spatio-temporal Exploration and Anlysis, http://sirs.scg.ulaval.ca/Yvanbedard/article_nonprotege/351_A.pdf. OGC - Open Geospatial Consortium (1999). OpenGIS Simple Features Specification For SQL Revision 1.1, http://portal.opengeospatial.org/files/?artifact_id=829. OMG - Object Management Group (2003). Common Warehouse Metamodel (CWM) Specification 1.1. Disponvel em: http://www.omg.org/docs/formal/03-03-02.pdf. OMG - Object Management Group (2005). XML Metadata Interchange (XMI) Specification 2.1, http://www.omg.org/technology/documents/formal/xmi.htm. OMG - Object Management Group (2006). Object Constraint Language (OCL) Specification 2.0, http://www.omg.org/technology/documents/formal/ocl.htm. OMG - Object Management Group (2007). Unified Modeling Language (UML) Specification 2.1.1, http://www.omg.org/technology/documents/formal/uml.htm. Parent, C., Spaccapietra, S., e Zimanyi, E. (1999). Spatio-temporal Conceptual Models: Data Structures + Space + Time, In GIS 99: Proceedings of the 7th ACM International Symposium on Advances in Geographic Information Systems, pages 2633, New York, NY, USA. ACM Press. PostGIS (2007). http://postgis.refractions.net/. PostgreSQL (2007). http://www.postgresql.org/.

206

XXII Simpsio Brasileiro de Banco de Dados

SBBD 2007

Rivest, S., Bdard, Y. e Marchand, P. (2001). Toward Better Support for Spatial Decision Making: Designing the Characteristics of Spatial On-line Analytical processing (SOLAP). Geomatica, 55(4):539. Rivest, S., Bdard, Y., Proulx, M. J., Nadeaud, M., Hubert, F., Pastor, J. (2005) SOLAP technology: Merging business intelligence with geospatial technology for interactive spatio-temporal exploration and analysis of data. Journal of -Photogrammetry e Remote Sensing, pages 17-33. Sampaio, M. C., Sousa, A. G. e Baptista, C. S. (2006). Towards a Logical Multidimensional Model for Spatial Data Warehousing and OLAP. In Proceedings of the 9th ACM international workshop on Data warehousing and OLAP. ACM Press. New York, NY, USA. Shekhar, S., Lu, C., Tan, X., Chawla, S., e Vatsavai, R. (2001). Map Cube: A Visualization Tool for Spatial Data Warehouses, In: H. Miller and J. Han (eds.), Geographic Data Mining and Knowledge Discovery, pages 74109, Taylor & Francis, 2001. Silva, J., Fidalgo, R. N., e Times, V. C. (2004). Towards a Web Service for Geographic and Multidimensional Processing. In VI Brazilian Symposium on GeoInformatics, pages 217. Silva, J., Times, V. C., et al. (2005). Providing Geographic-Multidimensional Decision Support over the Web. In APWeb 2005, pages 477488. Silva, J., Times, V. C., Salgado, A. C., et al. (2006) An Open Source and Web based Framework for Geographic and Multidimensional Processing. In SAC '06: Proceedings of the 2006 ACM symposium on Applied computing, pages 6367. Stefanovic, N., Han, J. e Koperski, K. (2000). Object-based Selective Materialization for Efficient Implementation of Spatial Data Cubes. IEEE Trans. on Knowledge and Data Engineering, 12(6):938. Thomsen, E. (1997). OLAP Solutions: Building Multidimensional Information, John Wiley & Sons. Zghal, H. B., Faz, S., e Ghzala H. B. (2003). CASME: A CASE Tool for Spatial Data Marts Design and Generation, DMDW.

207