Você está na página 1de 16

UFPE - UNIVERSIDADE FEDERAL DE PERNAMBUCO

CIN - CENTRO DE INFORMTICA

MESTRADO EM CINCIA DA COMPUTAO

PROPOSTA DE DISSERTAO DE MESTRADO


Mestranda VIVYANE COELHO CAIRES (vcc2@cin.ufpe.br)

Orientadora Prof. Dr. Valria Cesrio Times (vct@cin.ufpe.br)

Co-Orientador Prof. Dr. Ricardo Rodrigues Ciferri (ricardo@dc.ufscar.br)

Recife, Maro de 2012

Ttulo Provisrio : Modelo de Dados para um Data Warehouse Espao-Bi-Temporal

Esta proposta de dissertao apresentada ao Programa de Ps-graduao em Cincia da Computao do Centro de Informtica da Universidade Federal de Pernambuco como requisito parcial ao sistema de avaliao e acompanhamento a alunos de ps-graduao SAAP.

De acordo com a proposta: ____________________________ Vivyane Coelho Caires Proponente

____________________________ Dr Valria Cesrio Times Orientadora

____________________________ Dr. Ricardo Rodrigues Ciferri Co-Orientador 2

Resumo Nas aplicaes do mundo real, os dados espaciais e no espaciais mudam ao longo do tempo. E para tanto se faz necessrio a criao de um modelo de dados que seja capaz de representar essas alteraes, disponibilizando assim a evoluo histrica dos dados. O Modelo de Dados para um Data Warehouse Espao-Bi-Temporal (MDEBT) proposto baseado principalmente no Modelo Conceitual Espao-Temporal (CSTM) proposto em [6], permitindo representar os conceitos de dimenses, hierarquias e medidas. O MDEBT tambm permite a utilizao de hierarquias alternativas, por exemplo, podemos ter o tempo representado tanto pelas dimenses Ano Semestre Ms Dia quanto pelas dimenses Ano Bimestre Ms Dia, modificaes sobre valores de atributos, como, a troca do nome de determinada categoria de produto e modificaes sobre valores espaciais (geometria do dado), como a juno de duas geometrias. O objetivo do presente documento apresentar uma proposta de dissertao de mestrado, bem como relatar o andamento das pesquisas feitas at o momento para a construo de um modelo de dados para um data warehouse espao-bi-temporal.

Identificao

Mestranda Vivyane Coelho Caires Orientadora Dr. Valria Cesrio Times Co-Orientador Dr. Ricardo Rodrigues Ciferri

Ttulo Provisrio da Dissertao: Modelo de Dados para um Data Warehouse Espao-Bi-Temporal

reas de interesse: Modelos de dados, Data Warehouse, Data Warehouse Espacial, Data Warehouse Temporal e Data Warehouse Espao-Temporal.

Palavras Chaves: Suporte Tomada de Deciso, Modelo de Dados espaciais, Modelo de Dados Temporais, Modelo de Dados Espao-Temporais, Data Warehouse, Data Warehouse Espacial, Data Warehouse Temporal, Data Warehouse EspaoTemporal.
4

NDICE

IDENTIFICAO..........................................................................................4 1. INTRODUO...........................................................................................6 2. CONCEITOS BSICOS.............................................................................7 2.1 DATA WAREHOUSE.........................................................................7 2.2 DATA WAREHOUSE ESPACIAL.....................................................7 2.3 DATA WAREHOUSE TEMPORAL.................................................8 2.4 DATA WAREHOUSE ESPAO-TEMPORAL..................................8 3. APRESENTAO DO PROBLEMA E OBJETIVOS..............................9 4. CONTRIBUIES ESPERADAS...........................................................10 5. ESTADO ATUAL DA PESQUISA..........................................................11 6. CRONOGRAMA DE ATIVIDADES.......................................................14 7. REFERNCIAS BIBLIOGRFICAS......................................................16

1. Introduo Este trabalho prope um Modelo de Dados para um Data Warehouse Espao-BiTemporal (MDEBT), ou seja, modelo que dados que permite representar os conceitos de dimenses, hierarquias e medidas espao-bi-temporais. O MDEBT tambm permite a utilizao de hierarquias alternativas, por exemplo, podemos ter o tempo representado tanto pelas dimenses Ano Semestre Ms Dia quanto pelas dimenses Ano Bimestre Ms Dia, modificaes sobre valores de atributos, como, a troca do nome de determinada categoria de produto e modificaes sobre valores espaciais (geometria do dado), como a juno de duas geometrias. Para conseguir armazenar a informao temporal dos dados, surge a necessidade de introduzir o campo temporal em todos os membros de dimenso e todas as ligaes hierrquicas entre esses membros, para que eles possuam o timestamp das informaes contidas no DWET. Armazenaremos ento o intervalo [tvs, tve], com tve tvs, onde tvs e tve so os tempos de validade inicial e final, respectivamente e servem para representar o momento em que o dado verdadeiro no domnio do negcio. E o intervalo [tts, tte], com tte tts, onde tve e tvs so os tempos de transao inicial e final, respectivamente e guardam o tempo representam o instante em que o dado foi de fato registrado no bando de dados. O objetivo deste presente documento apresentar uma proposta de dissertao de mestrado bem como relatar o andamento das pesquisas feitas at o momento referentes proposta de um modelo de dados para um data warehouse espao-bitemporal (MDEBT).

2. Conceitos Bsicos 2.1 Data Warehouse Um Data Warehouse (DW) um repositrio de informaes coletadas de mltiplas fontes, armazenadas sob um esquema unificado, e que geralmente reside em um nico local [1]. Um DW normalmente definido como uma coleo de dados orientada a assunto (exemplo, em uma empresa de varejo podem conter dados para a anlise da compra, estoque e vendas de produtos), integrada (oriundos de mltiplas fontes), no voltil (um dw acumula dados de sistemas operacionais por um longo perodo de tempo), e varivel no tempo (mantm a evoluo dos dados) para apoiar decises de gesto [2, 3, 4]. O DW possui tabelas de fatos e de dimenso, medidas numricas e hierarquias que agregam estas medidas de acordo com nveis de granularidade distintos [5]. Ele armazena dados detalhados e dados agregados, formando nveis de agregao. O nvel inferior contm os dados mais detalhados, obtidos na etapa de aquisio dos dados dos diversos provedores de informao. Este nvel a base para qualquer agregao que seja possvel computar gerando assim os nveis superiores [7]. A partir da construo do DW podemos utilizar as ferramentas OLAP para cruzar os dados e analis-los sobre diferentes perspectivas multidimensionais. 2.2 Data Warehouse Espacial Ao longo dos anos, os dados espaciais tem se tornado parte de sistemas operacionais e analticos em diversas reas, como administrao pblica, redes de transporte, sistemas ambientais e sade pblica, entre outros. Bancos de dados espaciais permitem armazenar dados espaciais cuja localizao e forma so descritas em um espao de duas ou trs dimenses. Esses sistemas fornecem um conjunto de funes e operadores que permitem aos usurios consultar e manipular dados espaciais.
7

Segundo [2] Bancos de dados espaciais no so adequados para apoiar o processo de tomada de deciso, surgindo assim, um novo campo, chamado de data warehouse espacial, combinando banco de dados espacial e data warehouse. Um data warehouse espacial uma coleo de dados espaciais e no espaciais, orientados por assunto, no volteis, integrados e variveis no tempo [8]. Ou seja, um data warehouse que suporta operaes OLAP tanto com dados espaciais e no espaciais [9]. 2.3 Data Warehouse Temporal O tempo uma das dimenses encontradas no data warehouse e ela permite comparaes dos dados em diferentes perodos, contudo, alteraes nos dados de dimenso no podem ser adequadamente representadas na tecnologia atual de DW uma vez que todas as dimenses so implicitamente consideradas ortogonais. Ortogonalidade em relao dimenso tempo significa que as outras dimenses devem ser invariantes no tempo. Data Warehouse Temporal vm a resolver esse problema [6]. Data Warehouse Temporal so DW que possuem dados de dimenso com um timestamp para representar o seu tempo de validade e de transao, onde, o primeiro representa o momento em que o dado verdadeiro no domnio do negcio e o segundo o instante em que o dado foi de fato registrado no bando de dados [10]. 2.4 Data Warehouse Espao-Temporal Segundo [3], DWET surgiu da necessidade de descrever as alteraes ocorridas no DW espacial em relao ao tempo. Ainda no existe um consenso na literatura sobre o significado de um data warehouse espao-temporal, mas utilizaremos a definio proposta em [6], onde, data warehouse epao-temporal um data warehouse que no s permitem manter as mudanas nos dados de dimenso, mas tambm permitem armazenar o componente espacial dos dados. Como exemplo de uma consulta desta natureza, podemos citar, qual regio vendeu mais produtos no primeiro semestre do ano de 2011.

3. Apresentao do Problema e Objetivos

Apesar de todo DW possuir uma dimenso temporal, eles no so capazes de gerar um histrico de alteraes de acordo com o tempo. Assim surge a necessidade da abordagem DWET, para armazenar as alteraes dos dados, convencionais e espaciais, em um determinando instante no tempo. Como na literatura no existe um modelo de dados para um data warehouse espao-bi-temporal (nem para um dw espao-temporal), estamos propondo a sua construo, ou seja, este trabalho se prope criao de um modelo que seja capaz de armazenar a informao bi-temporal dos dados e permita a utilizao de hierarquias alternativas. Um modelo bi-temporal aquele que armazena tanto, o tempo de validade quanto, o tempo de transao dos dados, onde o primeiro representa o momento em que o dado verdadeiro no domnio do negcio, e o segundo representa o instante em que o dado foi de fato registrado no bando de dados. Hierarquias alternativas representam a situao em que, no nvel do esquema, existem vrias hierarquias simples que compartilham pelo menos um mesmo nvel, por exemplo, no modelo proposto teremos o tempo representado tanto pelas dimenses Ano Semestre Ms Dia quanto pelas dimenses Ano Bimestre Ms Dia. Para a representao de alteraes nos dados, Kimball props 4 (quatro) tipos de soluo. Utilizaremos a soluo do tipo II, onde cada alterao gera uma nova tupla na tabela de dimenso, pois, esta, segundo [11], a melhor das tcnicas de gerenciamento quando as dimenses mudam lentamente. Optamos por esta soluo tambm porque a soluo do tipo I no proporciona a evoluo histrica das modificaes e, as demais solues tornam o modelo mais complexo e difcil de entender, alm do que no vimos a necessidade de se obter na mesma tupla o valor atual e anterior da modificao, pois, esta informao poder ser obtida atravs do tempo de validade dos atributos.

4. Contribuies Esperadas A principal contribuio do trabalho apresentado nesta proposta de dissertao de mestrado, como descrito na seo anterior, a criao e validao de um modelo de dados para um data warehouse espao-bi-temporal. A ideia a de registrar todas as alteraes ocorridas no dw em relao ao tempo (de validade e de transao). Espera-se obter tambm, a produo de material cientfico sobre os assuntos abordados durante as pesquisas para fins de publicao e divulgao, tanto das pesquisas e testes realizados como dos resultados obtidos.

10

5. Estado Atual da Pesquisa

Tendo ingressado no programa de ps-graduao do CIn-UFPE no ano de 2010, vale-se ressaltar que j foi concludo os crditos necessrios para a concluso do mestrado. Houve a realizao de um levantamento bibliogrfico sobre os assuntos relacionados com esta dissertao, de onde, originou-se a escrita de textos referentes aos conhecimentos adquiridos com a reviso bibliogrfica, realizada em uma das disciplinas eletivas. Outra atividade desenvolvida foi a elaborao da presente proposta de dissertao. Foi concludo a proposta para a construo de um modelo de dados para um data warehouse espao-bi-temporal. Segue abaixo uma breve explicao do modelo e o seu esquema. O MDEBT composto de atributos, nveis, hierarquias e dimenses espaotemporais, relacionamento entre os nveis e o componente de gerenciamento e manuteno das modificaes (Change):
a) Atributos espao-temporais no MDEBT os atributos podem ser

temporais ou no temporais. Um atributo temporal aquele cujo valor no est restrito a ser constante ao longo do tempo, ou seja, pode mudar ou no com o tempo. Ele ainda pode conter caractersticas espaciais (e, portanto, torna-se um dado espaotemporal) ou no espaciais (um atributo apenas temporal). Um atributo no temporal, aquele cujo valor no se altera ao longo do tempo, tambm pode se dividir em espaciais (um atributo apenas espacial) ou no espaciais (um atributo convencional, ou seja, que no possui caractersticas espaciais nem temporais).
b) Nveis espao-temporais um nvel um tipo de entidade do

modelo ER, e composto de atributos. Um nvel espao-temporal se ele possuir um atributo espacial e, se e somente se, este variar ao longo do tempo.

11

c) Hierarquias espao-temporais uma hierarquia espao-temporal

se tiver pelo menos um nvel espao-temporal. Na figura 1 mostramos um exemplo de uma hierarquia espaotemporal, onde temos as dimenses espaciais Pas, Estado e Cidade, e a dimenso espao-temporal Cliente. Um Pas contm vrios Estados, que por sua vez possui vrias Cidades, onde cada cidade tem muitos Clientes. O relacionamento entre Cidade e Cliente dito varivel no tempo (VT), pois o cliente pode mudar a sua localizao.

Figura 1: Exemplo de uma hierarquia espao-temporal.

d) Dimenses espao-temporais uma dimenso espao-temporal se

tiver uma hierarquia espao-temporal. E caso a dimenso no possua hierarquia, ento, para que ela seja espao-temporal, o nvel deve ser espao-temporal. e) Relacionamento entre nveis no nosso modelo, o relacionamento entre dois ou mais nveis vlido em um determinado intervalo de tempo, ou seja, o relacionamento dependente do tempo. Se dois nveis espaciais se relacionam, um relacionamento topolgico (ou seja, uma juno espacial baseada em diferentes predicados espaciais) que liga os diferentes nveis geogrficos se faz necessrio. Caso o relacionamento no seja entre dimenses espaciais, utilizamos um operador relacional Join.
f)

Manuteno das modificaes Como visto anteriormente, as instancias do banco de dados mudam ao longo do tempo e essas alteraes ficam armazenadas na tabela Change.

Para conseguir armazenar a informao temporal dos dados, surge a necessidade de introduzir o campo temporal em todos os membros de dimenso e todas as ligaes hierrquicas entre esses membros, para que eles possuam o timestamp das informaes contidas no DWET. Armazenaremos ento o intervalo [tvs, tve], com tve tvs, onde tvs e tve so os tempos de validade inicial e final, respectivamente e servem para representar
12

o momento em que o dado verdadeiro no domnio do negcio. E o intervalo [tts, tte], com tte tts, onde tve e tvs so os tempos de transao inicial e final, respectivamente e guardam o tempo representam o instante em que o dado foi de fato registrado no bando de dados.

Figura 2: Modelo de dados para um data warehouse espao-temporal

13

6. Cronograma de atividades

Durante os prximos meses, sero realizadas algumas atividades referentes concluso do trabalho apresentado nesta proposta de dissertao de mestrado. As mais relevantes so as seguintes:

1. 2. 3.

Entrega da proposta final de dissertao de mestrado; Preparao e apresentao de um seminrio comisso do SAAP; Preparao de artigos relacionados ao presente trabalho como fins de

publicao;
4.

Planejamento de como ser feita e armazenada as alteraes de

instncias e geometria e a utilizao de hierarquias alternativas; 5.


6.

Realizao de todas as implementaes necessrias; Avaliao, testes e validao das implementaes; Escrita da Dissertao; Ajustes finais e defesa da dissertao; Ajustes da reviso bibliogrfica.

7.
8. 9.

O planejamento referente s atividades acima relacionadas, figura 3, foi distribuda ao longo dos anos de 2011 e 2012.

14

Atividades Jun. 1 2 3 4 5 6 7 8 9 X X

Perodo Ano de 2011 Ano de 2012 Jul. Ago. Set. Out. Nov. Dez. Jan. Fev. Mar. Abr. Mai. Jun. X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

Figura 3: Cronograma de atividades

15

7.

Referncias Bibliogrficas

[1] Han, J. and Kamber, M. Data Mining Concepts and Techiniques, 2 Edio, Editora Elsevier, Reino Unido, 2006. [2] Malinowski, E. and Zimnyi, E. (2008) Advanced Data Warehouse Design: from Conventional to Spatial and Temporal Applications. Springer, 1 Edio. [3] Golfarelli, M., Rizzi, S. A survey on temporal data warehousing in International Journal of Data Warehousing and Mining, 2009; [4] INMON, W. H. Como Construir o Data Warehouse. 2 ed. New York: Editora Campus, 1997. [5] Elmasri, R. e Navathe, S. B. Sistemas de Banco de Dados , 4 Edio, So Paulo: Pearson Addison Wesley, 2005. [6] Castro, C. dissertao de mestrado: CSTM: A conceptual spatiotemporal model for data warehouse in Federal University of Pernambuco, 2010. [7] CIFERRI, C.D.A. Distribuio dos Dados em Ambientes de Data Warehousing: O Sistema WebD2W e Algoritmos voltados Fragmentao Horizontal dos Dados. 2002. 263p. Tese de Doutorado CIn, UFPE, Recife, PE, Brasil, 2002. [8] HAN, J., STEFANOVIC, N., KOPERSKI, K., 1998, Selective Materialization: AnEfficient Method for Spatial Data Cube Construction, [9] PAPADIAS, P., KALNIS, P., ZHANG, J., TAO, Y., 2001, Efficient OLAP Operations inSpatial Data Warehouses, Advances in Spatial and Temporal Databases, 7thInternational Symposium, SSTD 2001, proceedings, Redondo Beach, CA, USA. [10] Johann, E., Koncilia, C. Evolution of Dimension Data in Temporal Data Warehouses in DaWak, 2001. [11] Kimball, R. and Ross, M. (2002) The Data Warehouse Toolkit. Wiley, 2a edio.
16

Você também pode gostar