Você está na página 1de 57

Universidade Federal de Pernambuco

Graduao em Cincia da Computao


Centro de Informtica

ANLISE COMPARATIVA DE ARQUITETURAS


DE DISTRIBUIO DE DATA WAREHOUSE
TRABALHO DE GRADUAO

Aluno: lvaro Alencar Barbosa Palitot (aabp@cin.ufpe.br)


Orientador: Fernando da Fonseca de Souza (fdfd@cin.ufpe.br)

Recife, 04 de Abril de 2007

Universidade Federal de Pernambuco


Graduao em Cincia da Computao
Centro de Informtica
2006.2

lvaro Alencar Barbosa Palitot

ANLISE COMPARATIVA DE ARQUITETURAS DE


DISTRIBUIO DE DATA WAREHOUSE

ESTE TRABALHO FOI APRESENTADO GRADUAO EM


CINCIA DA COMPUTAO DO CENTRO DE INFORMTICA DA
UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO
PARCIAL PARA OBTENO DO GRAU DE BACHAREL EM
CINCIA DA COMPUTAO.

ORIENTADOR: PROF. DR. FERNADO DA FONSECA DE SOUZA

Recife, 04 de Abril de 2007


2

Dedico,
Aos meus pais
Ademar e Socorro
Aos meus avs paternos
Adauto e Francisca
Aos meus avs maternos
Geraldo e Zuleica

Agradecimentos
Primeiramente, agradeo a Deus por ter me dado o dom da vida.
Aos meus pais, Ademar e Socorro, pelo constante incentivo, carinho, compreenso,
dedicao, amor e esforo para que eu pudesse chegar at aqui.
Aos meus avs paternos, Adauto e Francisca, e os meus avs maternos, Geraldo e Zuleica,
pela fora que sempre me deram durante toda a minha vida. Em especial, para o meu av
Adauto, que sempre acreditou no meu potencial, e apesar de no estar presente fisicamente
hoje, me ilumina todos os dias.
Aos meus irmos, Andr e Daniela, pela amizade e compreenso.
A minha namorada, Luciana, pelo trmino do trabalho, em detrimento de v-la.
Ao meu orientador, Fernando da Fonseca de Souza, pela amizade, incentivo, confiana e
disponibilidade na elaborao do trabalho.
E, finalmente, a todos aqueles que contriburam direta ou indiretamente para a realizao
deste trabalho.

Resumo
Um data warehouse consiste em uma coleo de dados orientada por assuntos,
integrada, variante no tempo e no voltil que d suporte tomada de deciso pela alta
gerncia da empresa.
Em geral, o data warehouse representa uma nica base de dados centralizada.
Entretanto, dados extremamente centralizados podem resultar em perda de disponibilidade
e queda de desempenho das consultas. Da surge a necessidade de um ambiente de
distribuio de data warehouse, tendo como vantagens sobre os ambientes centralizados: o
aumento da disponibilidade dos dados, o aumento da disponibilidade de acesso aos dados e
o aumento de desempenho no processamento de consultas OLAP.
Este trabalho analisa propostas de arquiteturas destes ambientes de data
warehousing distribudo, em relao a um conjunto de critrios. Outra contribuio a
apresentao de recomendaes para a construo de arquiteturas de data warehousing
distribudo.
Palavras-chave:
Data Warehouse, Data Warehousing, Sistemas de Suporte Deciso, Data Warehouse
Distribudo.

Abstract
A data warehouse consists of an integrated, variant in time, non-volatile and
subject-oriented data collection that supports senior management decision-making.
In general, the data warehouse represents a unique centered database. However,
extremely centered data might result in availability loss and decrease of queries
performance. Therefore, it is needed a data warehouse distribution environment. Its
advantages over centered environments are: increase of data availability and data access
availability;
and
increase
of
OLAP
queries
processing
performance.
This work analyses distributed data warehouse architecture proposals according to
some criteria. Another contribution is the presentation of recommendations for constructing
distributed data warehouse architectures based on the analysis carried out in this work .
Keywords:
Data Warehouse, Data Warehousing, Decision Support System, Distributed Data
Warehouse.

Sumrio

1.

Introduo ................................................................................................................... 11
1.1 Motivao ................................................................................................................... 11
1.2 Objetivo ...................................................................................................................... 12
1.3 Estrutura do Trabalho ................................................................................................. 12
2. Data Warehousing .......................................................................................................... 13
2.1 Data Warehouse.......................................................................................................... 13
2.2 Banco de Dados Convencional x Data Warehouse .................................................... 14
2.3 Principais Caractersticas do Data Warehouse ........................................................... 14
2.4 Data Mart.................................................................................................................... 15
2.5 OLAP.......................................................................................................................... 16
2.5.1 Servidor ............................................................................................................... 16
2.5.2 Tipos de Sistemas OLAP..................................................................................... 17
2.6 Arquitetura de Data Warehousing .............................................................................. 19
2.6.1 Componente de Integrao e Manuteno........................................................... 20
2.6.2 Componente de Anlise e Consulta..................................................................... 21
2.7 Abordagens para desenvolvimento do Data Warehousing......................................... 21
2.7.1 Abordagem Top-Down ........................................................................................ 22
2.7.2 Abordagem Bottom-Up........................................................................................ 22
2.7.3 Abordagem Intermediria ou Corrente................................................................ 23
3. Distribuio de Data Warehouse................................................................................... 24
3.1 Banco de Dados Distribudos ..................................................................................... 24
3.2 Banco de Dados Distribudo x Data Warehouse Distribudo ..................................... 25
3.3 Arquitetura de Data Warehouse Distribudo de Inmon .............................................. 25
3.4 Arquitetura de Data Warehousing Distribudo de Moeller ........................................ 27
3.4.1 Arquitetura de Data Warehousing Distribudo Homogneo ............................... 27
3.4.2 Arquitetura de Data Warehousing Distribudo Heterogneo .............................. 28
3.4.3 Arquitetura de Data Warehousing Distribudo com SGBD Distribudo nico .. 29
3.4.4 Abordagem para o Problema de Localizao dos Dados .................................... 30
3.5 Arquitetura de Data Warehouse Distribudo Hierrquico de Zhou et al. ................... 32
3.5.1 HDDW orientado a consultas OLAP................................................................... 34
3.6 Arquitetura de Data Warehouse Distribudo de Ciferri (O Sistema WebDW) ......... 35
3.6.1 Arquitetura........................................................................................................... 36
3.6.2 A importncia do Data Warehouse Global.......................................................... 38
3.6.3 Componente de Integrao e Manuteno........................................................... 38
3.6.4 Componente de Manuteno do ambiente distribudo ........................................ 38
3.6.5 Componente de Distribuio ............................................................................... 39
3.6.5.1 Mdulo Requisitos........................................................................................ 39
3.6.5.2 Mdulo Fragmentao.................................................................................. 39
3.6.5.3 Mdulo Alocao ......................................................................................... 40
3.6.5.4 Mdulo Carga ............................................................................................... 40
3.6.6 Componente de Consulta do Ambiente Distribudo............................................ 40
3.6.7 Arquitetura do Sistema WebDW na Web .......................................................... 41
7

4. Anlise Comparativa de Arquiteturas de Distribuio de Data Warehouse ............ 42


4.1 Anlise da Arquitetura de Data Warehouse Distribudo de Inmon ............................ 43
4.2 Anlise das Arquiteturas de Data Warehousing Distribudo de Moeller ................... 44
4.3 Anlise da Arquitetura de Data Warehouse Distribudo Hierrquico de Zhou et al. . 46
4.4 Anlise do Sistema WebDW de Ciferri .................................................................... 48
4.5 Benefcios e Desvantagens das arquiteturas abordadas.............................................. 49
4.6 Recomendaes para a construo de arquiteturas de data warehousing distribudo 51
5. Concluses e Trabalhos Futuros ................................................................................... 53
5.1 Trabalhos Futuros ....................................................................................................... 53
Referncias Bibliogrficas: ................................................................................................ 55

Lista de Figuras
Figura 2.1 Data Marts com dados referentes a um determinado assunto [DAL99] .......... 15
Figura 2.2 Arquitetura ROLAP [TVFR07] ....................................................................... 17
Figura 2.3 Arquitetura MOLAP [TVFR07] ...................................................................... 18
Figura 2.4 Arquitetura HOLAP [TVFR07] ....................................................................... 18
Figura 2.5 Resumo das caractersticas dos tipos de OLAP mais usados [TVFR07]......... 19
Figura 2.6 Arquitetura Tpica de um ambiente de Data Warehousing [CIFE02].............. 19
Figura 2.7 Abordagem Top-Down da arquitetura de Data Warehousing [TVFR07]........ 22
Figura 2.8 Abordagem Bottom-Up da arquitetura de Data Warehousing [TVFR07] ....... 22
Figura 2.9 Abordagem Corrente da arquitetura de Data Warehousing [TVFR07] ........... 23
Figura 3.1 Arquitetura bsica de data warehouse distribudo de Inmon [CIFE02]........... 25
Figura 3.2 Variao da arquitetura bsica de data warehouse distribudo de Inmon
[CIFE02]............................................................................................................................... 26
Figura 3.3 Arquitetura de Data Warehousing Distribudo Homogneo de Moeller
[CIFE02]............................................................................................................................... 28
Figura 3.4 Arquitetura de Data Warehousing Distribudo Heterogneo de Moeller
[CIFE02]............................................................................................................................... 29
Figura 3.5 Arquitetura de Data Warehousing Distribudo com SGBD distribudo nico de
Moeller [CIFE02] ................................................................................................................. 30
Figura 3.6 Esquema estrela da informao econmica do Data Warehouse..................... 32
Figura 3.7 DW Centralizado (Baseado em [AJLW98]) .................................................... 32
Figura 3.8 DW Distribudo ou Federado (Baseado em [AJLW98]).................................. 32
Figura 3.9 Data Warehouse Distribudo Hierrquico (Baseado em [ZZTH00])............... 33
Figura 3.10 - HDDW orientado a consultas OLAP (Baseado em [ZZTH00])..................... 34
Figura 3.11 Mecanismo OLAP do sistema HDDW (Baseado em [ZZTH00]) ................. 35
Figura 3.12 Arquitetura bsica do sistema WebDW [CIFE02]........................................ 37

Lista de Quadros
Quadro 2.1 Comparaes entre o Banco de Dados Convencional e o Data Warehouse
[INM96; BAR96; KIM96; ONE97].................................................................................... 14
Quadro 2.2 Diferenas entre DW e DM [NASC05].......................................................... 16
Quadro 3.1 Comparaes entre DW Centralizado, DW Distribudo de Wells et al. e
HDDW (Baseado em [ZZTH00])......................................................................................... 33
Quadro 4.1 Funcionalidades oferecidas pela arquitetura de data warehouse distribudo de
Inmon [INM02; CIFE02]...................................................................................................... 43
Quadro 4.2 Funcionalidades oferecidas pelas arquiteturas de data warehousing distribudo
de Moeller [MOE01; CIFE02] ............................................................................................. 45
Quadro 4.3 Funcionalidades oferecidas pela arquitetura de data warehouse distribudo
Hierrquico de Zhou et al [ZZTH00] ................................................................................... 47
Quadro 4.4 Funcionalidades oferecidas pelo Sistema WebDW [CIFE02] ...................... 48

10

1. Introduo
A quantidade de informaes e dados nas empresas tem crescido, criando uma
enorme dificuldade para que os profissionais consigam tratar todo esse contedo
disponvel. H, com isso, a necessidade de se filtrar informaes de forma adequada,
utilizando-se somente aquelas realmente relevantes ao modelo de negcio das empresas. O
modelo que tenta simplificar os dados disponveis e direcion-los para os gestores est
vinculado a uma tecnologia denominada de data warehousing [TERRA07].
Um ambiente de data warehousing transforma dados operacionais em informao
voltada tomada de deciso estratgica. Para tanto, oferece um conjunto de funcionalidades
que possibilita, por um lado, a extrao, traduo, filtragem, integrao e armazenamento
no Data Warehouse (DW) dos dados oriundos de provedores de informao autnomos,
distribudos e heterogneos. Por outro lado, este conjunto de funcionalidades tambm
permite que usurios tpicos de Sistemas de Suporte Deciso (SSD), por exemplo,
analistas, executivos, gerentes e administradores, manipulem com flexibilidade e eficincia
os dados pr-armazenados no data warehouse, atravs de vises multidimensionais destes
dados [CHAU97].
O DW, principal componente do ambiente de data warehousing, consiste em um
banco de dados especial, organizado para armazenar uma coleo de dados integrados,
orientados por assunto, variveis com o tempo e no volteis, usados para dar suporte ao
processo gerencial de tomada de deciso [INM02].
Normalmente, o data warehouse representa uma nica base de dados centralizada.
Distribuir os dados armazenados nessa base de dados levando-se em considerao as
caractersticas particulares de aplicaes de data warehousing e as necessidades dos
usurios tpicos de SSD representa, portanto, uma rea de pesquisa muito importante a ser
explorada [CIFE02].
Isto motivou pesquisadores ao desenvolvimento de propostas de arquitetura de data
warehousing distribudo que solucionem os desafios introduzidos por esta distribuio,
gerenciando os diversos data warehouses acoplados aos diferentes computadores ligados
entre si por redes de comunicao e permitido que as informaes dessas bases de dados
sejam armazenadas e recuperadas rapidamente.

1.1 Motivao
Atualmente, a descentralizao das funes de negcios e a distribuio das
corporaes em regies geogrficas distintas motivam a construo de arquiteturas de data
warehousing distribudo.
As vantagens proporcionadas pela distribuio de data warehouses, como as
listadas abaixo, so algumas das motivaes para o desenvolvimento desse trabalho:
Melhoria da confiabilidade e disponibilidade dos dados, devido aos dados poderem
ser acessados em diferentes sites, aumentando o processamento distribudo;
Suporte a um maior nmero de usurios;
Melhoria no desempenho das consultas OLAP, devido ao processamento distribudo
das consultas;
Expanso e manuteno mais fceis, devido ao fraco acoplamento entre os sites; e
11

Transparncia de fragmentao, alocao e replicao, proporcionando uma viso


para o usurio como se fosse um sistema centralizado, mas com as vantagens da
distribuio.

1.2 Objetivo
em razo de todas estas motivaes, que este trabalho tem como principais
objetivos: analisar solues para ambientes de data warehouse distribudo, fazer um estudo
comparativo entre as mesmas, indicando vantagens e desvantagens destas arquiteturas e
elaborar recomendaes para a construo de arquiteturas de data warehouse distribudo.

1.3 Estrutura do Trabalho


Alm deste captulo introdutrio, o trabalho composto por mais cinco captulos. O
captulo 2 tem por objetivo uma introduo a data warehousing, discutindo os principais
conceitos, componentes e funcionalidades desses ambientes. O captulo 3 faz uma breve
comparao entre banco de dados distribudos e data warehouse distribudos, alm de
abordar as quatro arquiteturas existentes atualmente de data warehousing distribudo,
propostas respectivamente feitas por Imon [INM02], Moeller [MOE01], Zhou et al.
[ZZTH00] e Ciferri [CIFE02]. O captulo 4 faz uma anlise comparativa em relao a
alguns critrios pr-estabelecidos no prprio captulo entre as arquiteturas de data
warehousing distribudo, alm de especificar vantagens e desvantagens de cada uma destas
arquiteturas e elaborar recomendaes para a construo de arquiteturas voltadas para a
distribuio de data warehouse. O captulo 5 apresenta a concluso e propostas para
trabalhos futuros.

12

2. Data Warehousing
Atualmente, h uma grande quantidade de dados nas empresas, porm faltam
informaes significativas. Isto ocorre devido extensa utilizao de sistemas de
informao especficos, contribuindo para a pouca integrao dos dados e a existncia de
ambientes no muito adequados para o tratamento analtico dos dados.
O ambiente de data warehousing atende a esta necessidade, promovendo a
integrao dos dados dos sistemas de informao espalhados pela organizao e gerando
um ambiente de consultas com informaes significativas, que permitem alta gerncia,
anlises que ajudam no processo de tomada de deciso da empresa [FFRC07].
Antes de definir o termo data warehouse, preciso fazer uma distino entre data
warehouse e data warehousing, embora a maior parte da literatura trate os dois termos de
maneira idntica. Sempre que ocorrerem referncias ao termo data warehouse neste trabalho,
trata-se de um banco de dados especial que oferece o suporte aos usurios no processo de
tomada de deciso. J as referncias a data warehousing devem ser tratadas como todo o
ambiente de data warehouse, que engloba o prprio data warehouse, suas arquiteturas,
algoritmos e ferramentas, usurios, componentes para realizao de consulta, entre outros
[CIFE02].
Atravs da arquitetura de um ambiente de data warehousing possvel identificar os
componentes que participam no ambiente, o relacionamento que existe entre estes componentes
e as funcionalidades de cada um. Separar estes dois conceitos essenciais importante, a fim
de evitar problemas relacionados ao uso destes termos.

2.1 Data Warehouse


Inicialmente, sero analisadas algumas definies para data warehouse elaboradas
por autores da rea.
Segundo Inmon [INM96], o idealizador do conceito, Data Warehouse uma
coleo de dados integrados, orientados por assunto, variveis com o tempo e no volteis,
usados para dar suporte ao processo gerencial de tomada de deciso.
Para Barquini [BAR96], Data Warehouse uma coleo de tcnicas e tecnologias
que juntas disponibilizam um enfoque pragmtico e sistemtico para tratar com o problema
do usurio final que precisa acessar informaes que esto distribudas em vrios sistemas
da organizao.
Kimball [KIM96] define que um conjunto de ferramentas e tcnicas de projeto,
que quando aplicadas s necessidades especficas dos usurios e aos bancos de dados
especficos permitir que planejem e construam um data warehouse.
Com base nestas definies, pode-se dizer, de forma resumida, que o data
warehouse um banco de dados especial integrado, que serve para dar suporte s altas
gerncias das empresas para anlise de tendncias histricas dos seus produtos,
funcionrios e clientes, aumentando, com isso, a competitividade da mesma.
No DW os dados so extrados de mltiplas fontes de dados internas ou externas
empresa e depois so integrados. Os data warehouses so construdos para que tais dados
possam ser armazenados e acessados de forma que no sejam limitados por tabelas e linhas
estritamente relacionais.
13

2.2 Banco de Dados Convencional x Data Warehouse


de fundamental importncia para este trabalho explicitar as diferenas existentes
entre essas duas metodologias de armazenamento de dados, para permitir melhor
compreenso de seus objetivos. A principal diferena se caracteriza pelo data warehouse
ser um ambiente informacional, enquanto que os bancos de dados convencionais das
organizaes, como os localizados em suas filiais, serem ambientes operacionais.
De acordo com Inmon [INM96], em um ambiente operacional, manipula-se um
volume grande de transaes que geralmente so simples, pequenas e acessam poucos
registros por vez. J no ambiente informacional, manipula-se um baixo volume de
transaes que so longas, complexas e acessam muitos registros, necessitando muitas
vezes realizar funes de juno e agregao.
A partir destas informaes e de outras [INM96; BAR96; KIM96; ONE97],
algumas diferenas existentes entre o banco de dados convencional e o data warehouse j
podem ser verificadas. O Quadro 2.1 destaca estas diferenas:
QUADRO 2.1 COMPARAES ENTRE O BANCO DE DADOS CONVENCIONAL E O DATA
WAREHOUSE [INM96; BAR96; KIM96; ONE97]

Caractersticas
Objetivo
Usurios
Tipo de Processamento
Unidade de Trabalho
Organizao dos dados
Condies dos Dados
Interao do Usurio
Volume
Histrico
Granularidade
Redundncia
Acesso a registros
Atualizao
Nmero de ndices
Inteno de ndices
Manuteno desejada

Banco de Dados Convencional


Operaes dirias do negcio
Funcionrios
OLTP
Incluso, alterao, excluso e
consulta
Orientado a Aplicaes
Dados Operacionais
Somente pr-definida
Megabytes Gibabytes
60 a 90 dias
Detalhados
No ocorre
Dezenas
Contnua (tempo real)
Poucos/ Simples
Localizar um registro
Mnima

Data Warehouse
Analisar o negcio
Alta Administrao
OLAP
Carga e Consulta
Orientado a Assunto
Dados Analticos
Pr-definida e ad-hoc
Gigabytes Terabytes
5 a 10 anos
Detalhados e resumidos
Ocorre
Milhares
Peridica (em batch)
Muitos/Complexos
Aperfeioar consultas
Constante

2.3 Principais Caractersticas do Data Warehouse


A partir da definio de DW feita por Inmon [INM96], vista anteriormente,
possvel encontrar as principais caractersticas de data warehouse, que so:
Integrado - A integrao dos dados ocorre quando os dados so passados do
ambiente operacional, atravs de diversas fontes de dados, para o ambiente de DW.
Todo dado trazido dos sistemas operacionais para o ambiente de DW ,

14

anteriormente, consolidado, de forma que passe a ter um nico significado.


durante a integrao, que os dados so convertidos para um estado uniforme;
Orientado por assuntos - Os dados em um data warehouse so organizados de modo
a facilitar a anlise dos dados, para isso o DW contm informaes orientada a
assuntos importantes para o negcio da empresa e no por aplicao, como em
bancos de dados operacionais;
Variante no Tempo - Os dados no so atualizveis, ou seja, so relativos a um
determinado instante de tempo, o que proporciona o armazenamento do histrico
dos dados; e
No voltil Significa dizer que o data warehouse permite apenas a carga inicial
dos dados e consultas a estes dados. Ou seja, aps serem integrados, transformados
e includos, os dados no podem ser alterados.

2.4 Data Mart


Data Mart (DM) corresponde a um subconjunto lgico do data warehouse,
geralmente visto como um data warehouse setorial ou departamental. Entretanto, os dados
armazenados nos data marts tm as mesmas caractersticas que os dados do DW, vistas
anteriormente. A Figura 2.1 mostra trs DM, cada um referente a um determinado assunto
(Vendas, Compras e Estoque) [DAL99].

FIGURA 2.1 DATA MARTS COM DADOS REFERENTES A UM DETERMINADO ASSUNTO [DAL99]

Segundo Inmon [INM96], os DM apresentam as seguintes caractersticas:


So especificados para atender a uma rea ou conjunto de reas de interesse;
Empregam normalmente um esquema estrela no projeto de banco de dados. Esta
modelagem elaborada com base nas exigncias dos usurios finais;
Contm uma quantidade razovel de informaes histricas, normalmente,
menor que o volume histrico do DW;
Apresentam uma granularidade, normalmente, maior que a do DW. Esta
granularidade tem o propsito de atender s necessidades do usurio final; e
Apresentam um armazenamento dos dados altamente indexado

15

Numa viso comparativa do data warehouse com o data mart, considerando os


critrios: escopo, integrao, tempo, agregao, anlise e dados volteis, percebe-se que a
diferena est no escopo, pois enquanto o DW feito para atender uma empresa como um
todo, o DM criado para atender um subconjunto da empresa. Deve-se observar que
atender a um subconjunto da empresa pode significar reunir dados de outros setores, j que,
na prtica, raramente, um nico setor possui ou gera toda informao que precisa.
O Quadro 2.2 apresenta mais diferenas entre o DW e o DM.
QUADRO 2.2 DIFERENAS ENTRE DW E DM [NASC05]

Data Warehouse
Corporativo
Granularidade em baixo nvel. Dados bem
detalhados
Estrutura normalizada (com tratamento)
Grande volume de histrico de dados
Emprega tecnologia orientada ao
armazenamento de grandes volumes de
dados
Modelagem de dados com o propsito de
atender corporao
Levemente indexado

Data Mart
Departamental
Granularidade em alto nvel
Emprega o esquema estrela como estrutura
de dados
No armazena grande volume de dados
histricos
Emprega tecnologia multidimensional
excelente para acesso e anlise
Modelagem de dados com o objetivo de
atender a um usurio final
Altamente indexado

2.5 OLAP
A origem do nome OLAP baseia-se no acrnimo para Online Analytical Processing,
o qual significa em portugus: Processamento Analtico em Tempo Real. O termo Online
significa que as operaes da ferramenta deveriam ter uma resposta imediata, ou seja, em
tempo real. J a palavra Analytical demonstra o uso de teorias analticas para tornar as
buscas possveis. O vocbulo Processing refora a caracterstica de intenso processamento
quando as consultas em uma grande quantidade de dados so realizadas [CHAU97].
O processamento analtico em tempo real a tecnologia de software front-end que
capacita os analistas, gerentes e executivos a obter discernimento nos dados atravs de um
acesso rpido, consistente e interativo. Esse discernimento pode ser realizado para uma
larga variedade de possibilidades de vises da informao que vm a ser transformadas a
partir de simples dados para refletir o real dimensionamento da corporao como entendido
pelo usurio.

2.5.1 Servidor
O servidor OLAP o principal componente fsico da arquitetura OLAP. Ele o
responsvel por receber as requisies de consultas, processar esses pedidos e retornar o
relatrio. Para realizar essas tarefas, ele necessita de alta capacidade de processamento e
suporte a multiusurio. O servidor OLAP se localiza entre o cliente e o SGBD [CHAU97].
Devido ao pr-processamento dos dados da base OLAP, o servidor opera em
16

estruturas multidimensionais e acessa os dados por interseces entre as dimenses.


Dada a importncia das ferramentas OLAP, os principais sistemas de gerenciamento
de bancos de dados possuem um servidor OLAP. Estes so otimizados para a recuperao
rpida de dados.

2.5.2 Tipos de Sistemas OLAP


Com a demanda da recuperao rpida de dados em diferentes ambientes, os
sistemas OLAP se especializaram. Os principais tipos de sistemas OLAP esto
classificados a seguir:

ROLAP (OLAP Relacional) considerado o mais escalvel. Utiliza banco de


dados relacionais para anlise dos fatos, mas manipulando os dados de forma
multidimensional via SQL. Lida com fatos atmicos e sumarizados e permite o
uso de vrias dimenses. Entretanto, difcil implementar eficientemente um
pr-processamento para grandes volumes, e por isto, frequentemente deixado
de lado. A Figura 2.2 ilustra a arquitetura ROLAP;

FIGURA 2.2 ARQUITETURA ROLAP [TVFR07]

MOLAP (OLAP Multidimensional) o sistema que opera melhor com pequenas


bases de dados. Utiliza banco de dados multidimensionais proprietrios
(MDDB) para manipular fatos agregados. Armazena de forma multidimensional
para poder visualizar tambm de forma multidimensional. Devido ao tamanho
das bases de dados, ele calcula rapidamente as agregaes e repostas. Algumas
desvantagens desse tipo de arquitetura OLAP so: o espao para o seu
armazenamento limitado, no manipula fatos atmicos, no trabalha com

17

muitas dimenses e no gerencia um grande volume de fatos. A Figura 2.3


ilustra a arquitetura MOLAP;

FIGURA 2.3 ARQUITETURA MOLAP [TVFR07]

HOLAP (OLAP Hbrido) a soluo intermediria entre o MOLAP e o


ROLAP. Suporta manipulao de fatos atmicos e agregados, utilizando banco
de dados multidimensionais para analisar fatos agregados. Utiliza SQL para
manipular fatos atmicos. o mais complexo para administrar e implementar. A
Figura 2.4 ilustra a arquitetura HOLAP;

FIGURA 2.4 ARQUITETURA HOLAP [TVFR07]

WOLAP (Web OLAP) o tipo para ser utilizado em sistemas web;


DOLAP (Desktop OLAP) uma especializao da ferramenta OLAP para ser
usada no desktop; e
RTOLAP (Real Time OLAP) o sistema OLAP desenvolvido para ambientes
em tempo real.

18

De todos estes tipos de OLAP, os mais usados atualmente so o ROLAP, MOLAP e


o HOLAP. A Figura 2.5 mostra as principais caractersticas de cada uma destas
arquiteturas.

FIGURA 2.5 RESUMO DAS CARACTERSTICAS DOS TIPOS DE OLAP MAIS USADOS [TVFR07]

2.6 Arquitetura de Data Warehousing


O objetivo de um ambiente de data warehousing transformar o dado em
conhecimento. A definio de uma arquitetura bsica fornece a possibilidade de um melhor
entendimento de todo o processo e das tecnologias que podero ser utilizadas para otimizlo. Em razo disto, tem-se na Figura 2.6, uma imagem de uma arquitetura bsica de um
ambiente de data warehousing proposta por Ciferri [CIFE02].

FIGURA 2.6 ARQUITETURA TPICA DE UM AMBIENTE DE DATA WAREHOUSING [CIFE02]

19

Um estudo detalhado de cada componente da arquitetura da Figura 2.6, permite


compreender como o ambiente de data warehousing faz para armazenar, integrar,
comunicar, processar e apresentar os dados que os usurios utilizaro em suas decises.
Os provedores de informao so compostos por dados operacionais, que podem
estar presentes em vrias formas de armazenamento de dados, como por exemplo: banco de
dados operacionais, sistemas de arquivos e fontes externas.
Um ambiente de data warehousing pode utilizar tanto o data warehouse principal,
quanto pores de dados do mesmo, ou seja, um conjunto de data marts que representam os
fragmentos ou rplicas do data warehouse principal para o armazenamento dos dados.
atravs do componente de anlise e consulta que as consultas dos usurios de SSD so
submetidas e redirecionadas ao data warehouse principal ou aos data marts [NASC05].
O repositrio de metadados armazena as informaes estruturais e semnticas dos
provedores de informao e do data warehouse, alm de quaisquer outros dados
importantes para o ambiente, enquanto que o mdulo de gerenciamento de metadados
manipula essas informaes.
A arquitetura contm ferramentas para o gerenciamento e administrao do
ambiente, que so responsveis pelo monitoramento do sistema, realizando importantes
tarefas, tais como: o gerenciamento de segurana, testes de qualidade dos dados, backup
dos dados e o gerenciamento e a atualizao dos metadados, alm de auditoria e relato da
utilizao do data warehouse [CIFE02].
Nos subtpicos a seguir, sero descritos detalhes das funcionalidades dos
componentes de integrao e manuteno e anlise e consulta.

2.6.1 Componente de Integrao e Manuteno


O componente de integrao responsvel por proporcionar uma viso integrada de
alta qualidade dos dados no data warehouse, sem duplicatas ou inconsistncias. O
componente de integrao e manuteno oferece as funcionalidades de carregamento dos
dados dos provedores de informao no data warehouse, atualizao peridica desta base
de dados e expirao de seus dados.
O carregamento dos dados dos provedores de informao consiste em operaes de
extrao, traduo, limpeza, integrao e carga dos dados. As ferramentas que auxiliam este
processo so chamadas de ferramentas ETL, abordadas anteriormente neste trabalho.
A operao de extrao responsvel por acessar as diversas fontes e extrair os
dados que sejam teis para o sistema de suporte deciso. Depois de escolher os dados
relevantes, os mesmos possuem muita inconsistncia, e para isso precisam ser
transformados. A operao de transformao engloba os processos de traduo, limpeza e
integrao de dados. O processo de traduo consiste na converso dos dados das fontes
para um formato padro adotado pelo ambiente de data warehousing. O processo de
limpeza transforma dados sujos em dados com qualidade, atravs de regras de negcio a
eles associadas.
Segundo Ciferri [CIFE02], o processo de integrao depende da identificao de
similaridades e de diferenas existentes entre os dados das fontes que foram previamente
traduzidos, alm da identificao de conjuntos destes dados que, apesar de serem distintos
entre si, so relacionados por alguma propriedade semntica. Estas similaridades e
diferenas devem ser detectadas tanto em nvel de esquema quanto em nvel de instncia.
20

A operao de carga consiste no processo de armazenamento dos dados integrados


no data warehouse, aps os processos descritos acima serem realizados. Alm disto,
durante esta operao so realizados processamentos adicionais, tais como: verificao de
integridade, a ordenao dos dados, a gerao de agregaes, a construo de ndices e a
condensao dos dados, buscando diminuir o volume dos dados armazenados.
O processo de atualizao dos dados serve para manter os dados integrados
consistentes no data warehouse, em relao s fontes de dados. A periodicidade da
manuteno do data warehouse depende da necessidade da alta gerncia da empresa em ter
os dados consistentes no data warehouse em relao s fontes de dados. Caso as consultas
OLAP requeiram dados correntes, necessrio que toda alterao feita nos provedores de
informao, sejam atualizadas imediatamente para o data warehouse.
O administrador do ambiente de data warehousing quem estabelece a freqncia
com que estas alteraes devem se propagar, podendo cada provedor de informao ter
freqncias diferentes. Geralmente, a freqncia de manuteno diria e ocorre no
perodo em que a empresa efetua poucas ou nenhumas transaes operacionais.
Recomputao e atualizao so duas tcnicas utilizadas para atualizar o data
warehouse. Na recomputao, os dados no data warehouse so descartados e novamente
carregados a partir dos provedores de informao operacionais. J na atualizao
incremental, apenas as alteraes feitas dos provedores de informao operacionais, desde a
ltima atualizao, so propagadas no data warehouse [CIFE02].
O processo de expirao dos dados serve para diminuir o volume de dados
armazenados no data warehouse, que chega a ter terabytes de tamanho, dificultando em
razo disso, a rapidez no processamento de consultas. Para que o volume diminua preciso
que o processo de expirao remova os dados do data warehouse que estejam velhos
(atinjam certo limite de tempo), quando no so mais relevantes, ou quando o espao de
armazenamento insuficiente para armazenar novos dados advindos das fontes.

2.6.2 Componente de Anlise e Consulta


O componente de anlise e consulta serve para garantir o acesso s informaes
armazenadas no data warehouse aos usurios de SSD e aos softwares que participam do
ambiente de data warehousing. Oferece, com isso, funcionalidades relacionadas consulta
e anlise dos dados armazenados, incluindo a habilidade de se determinar a origem dos
dados que esto sendo examinados [CIFE02].
Esta fase realizada atravs de aplicativos que oferecem acesso aos dados das
fontes, atravs de interfaces amigveis. Estas consultas solicitadas pelos usurios sofrem
um processo de otimizao, para que sejam executadas de forma a obter uma melhor
performance [COST05].

2.7 Abordagens para desenvolvimento do Data Warehousing


No desenvolvimento de ambientes de data warehousing podem ser utilizadas as
abordagens top-down, bottom-up e intermediria. A escolha da abordagem fator essencial
na seleo da tecnologia apropriada para o desenvolvimento e implantao deste ambiente.

21

2.7.1 Abordagem Top-Down


Nesta abordagem o desenvolvimento feito de cima para baixo, ou seja, primeiro
deve-se construir o data warehouse corporativo, para depois carregar os dados nos diversos
data marts existentes. A Figura 2.7 apresenta a abordagem top-down da arquitetura do
ambiente de data warehousing.

FIGURA 2.7 ABORDAGEM TOP-DOWN DA ARQUITETURA DE DATA WAREHOUSING [TVFR07]

Esta abordagem possibilita vrias vantagens para ambientes de data warehousing,


como as listadas abaixo:
Facilidade de manuteno devido a todos os data marts serem originados a partir de
um mesmo data warehouse; e
Necessidade de apenas um nico conjunto de aplicaes para extrao, limpeza e
integrao dos dados.

Porm, esta abordagem apresenta algumas desvantagens:


Implementao mais demorada; e
Alto Risco.

2.7.2 Abordagem Bottom-Up


O propsito desta abordagem a construo de um data warehouse incremental, a
partir do desenvolvimento de Data Marts independentes. A Figura 2.8 apresenta a
abordagem bottom-up da arquitetura de data warehousing.

FIGURA 2.8 ABORDAGEM BOTTOM-UP DA ARQUITETURA DE DATA WAREHOUSING [TVFR07]

22

A abordagem bottom-up apresenta algumas vantagens, so elas:


Apresentao de resultados em pouco tempo;
Rpido desenvolvimento; e
Permite os principais assuntos da empresa sejam desenvolvidos inicialmente.

Pode-se destacar como desvantagens:


Necessidade de um maior controle do negcio da empresa, a fim de evitar ilhas de
dados que dificultam futuras integraes; e
Utilizao de esforos e recursos de vrias equipes, devido a, normalmente, o
desenvolvimento ser feito em paralelo.

2.7.3 Abordagem Intermediria ou Corrente


Esta arquitetura tem o propsito de integrar a abordagem top-down com a bottomup, com o planejamento sendo feito top-down e a implementao bottom-up. Segundo
Soares [SOAR98], nesta abordagem efetua-se a modelagem dos dados do DW, sendo o
passo seguinte a implementao dos Data Marts escolhidos por rea de interesse. Cada
Data Mart gerado a partir do modelo de dados do data warehouse integrado no modelo
fsico. A principal vantagem desta abordagem a garantia da consistncia dos dados e a
diminuio ou eliminao das ilhas de dados. Esta garantia obtida em virtude do
modelo de dados para os Data Marts serem nicos, possibilitando realizar o mapeamento e
o controle dos dados. A Figura 2.9 apresenta a abordagem intermediria ou corrente da
arquitetura de data warehousing.

FIGURA 2.9 ABORDAGEM CORRENTE DA ARQUITETURA DE DATA WAREHOUSING [TVFR07]

23

3. Distribuio de Data Warehouse


A maioria das organizaes constri e mantm um nico data warehouse
centralizado, isto feito por vrias razes [INM02]:

Os dados em um data warehouse integrado pela organizao, e uma viso


integrada dos dados usada somente na sede da organizao;

A organizao opera em um modelo centralizado de negcio;

O volume dos dados em um data warehouse tal que um nico repositrio


de dados centralizado faz sentido;

Complexidade de desenvolvimento de um ambiente distribudo;

Maior Segurana; e

Fcil Gerenciamento.
Em resumo, a poltica, a economia e a tecnologia favorecem muito o uso de um
nico data warehouse centralizado.
Entretanto, dados extremamente centralizados podem resultar em perda de
disponibilidade e queda de desempenho das consultas. Da surge a necessidade de um
ambiente de distribuio de data warehouse, tendo como vantagens sobre os ambientes
centralizados: o aumento da disponibilidade dos dados, o aumento da disponibilidade de
acesso aos dados e o aumento de desempenho no processamento de consultas OLAP
[NOA00].

3.1 Banco de Dados Distribudos


Os banco de dados distribudos trazem vantagens da computao distribuda para o
domnio do gerenciamento de banco de dados. Um sistema de computao distribuda
consiste em vrios elementos de processamento, no necessariamente homogneos, que so
interconectados por uma rede de computadores e cooperam na execuo de certas tarefas
[ERNS04].
Os banco de dados distribudos podem ser definidos como uma coleo de mltiplos
bancos de dados logicamente inter-relacionados, distribudos por uma rede de
computadores. Abaixo so destacadas algumas vantagens na utilizao de banco de dados
distribudos:

Transparncia de fragmentao, replicao e alocao;

Melhoria na confiabilidade e disponibilidade;

Melhoria de desempenho; e

Expanso mais fcil;


De acordo com Elmasri e Navathe [ERNS04], a distribuio leva a uma maior
complexidade no projeto e na implementao do sistema. Para obter as vantagens
potenciais listadas anteriormente, o ambiente de banco de dados distribudos deve ser capaz
de prover algumas funes, alm daquelas j presentes em ambientes centralizados, como
por exemplo:

Rastreamento dos dados;

Processamento de consultas distribudas;


24

Gerenciamento de transaes distribudas;


Gerenciamento de dados replicados;
Recuperao de banco de dados distribudo;
Segurana; e
Gerenciamento do diretrio (catlogo) distribudo.

3.2 Banco de Dados Distribudo x Data Warehouse Distribudo


O data warehouse nada mais do que um banco de dados especial integrado,
orientado por assunto, varivel com o tempo e no voltil, usado para dar suporte ao
processo gerencial de tomada de deciso. Por isso, as contribuies obtidas pelos trabalhos
de pesquisa em sistemas de banco de dados distribudos podem ser utilizadas como base
para o desenvolvimento de ambientes de data warehousing distribudos.
Porm, esses trabalhos devem ser estendidos de forma a enfocar aspectos
importantes dos ambientes de data warehousing distribudo, tais como a
multidimensionalidade dos dados do data warehouse, a organizao dos dados dessa base
de dados em diferentes nveis de agregao e as caractersticas das consultas OLAP
comumente realizadas pelos usurios de sistemas de suporte deciso [CIFE02].
Nas prximas sees deste captulo, so mostradas as propostas existentes
atualmente de ambientes de data warehouse distribudo.

3.3 Arquitetura de Data Warehouse Distribudo de Inmon


A arquitetura de data warehouse distribudo definida por Inmon [INM02] baseada
nos conceitos de data warehouse local e de data warehouse global. A Figura 3.1 ilustra esta
arquitetura, onde o data warehouse global situa-se localizado no site correspondente ao
escritrio central ou sede da empresa, enquanto os data warehouses locais esto localizados
em regies geogrficas diferentes ou comunidades tcnicas distintas.

FIGURA 3.1 ARQUITETURA BSICA DE DATA WAREHOUSE DISTRIBUDO DE INMON [CIFE02]

25

Os dados armazenados no data warehouse local so de interesse somente para o


nvel local, ou seja, cada data warehouse local tem como escopo dos seus dados os dados
detalhados que refletem a integrao das informaes provenientes dos sistemas
operacionais do site local ao qual ele serve. Apesar de ser inteiramente possvel a existncia
de algum grau de compartilhamento entre os sistemas do ambiente operacional encontrados
em cada um dos sites, qualquer interseo ou compartilhamento dos dados de um data
warehouse local para outro apenas uma coincidncia [INM02].
Os dados armazenados no data warehouse global so de interesse para a empresa
como um todo. Estes dados so integrados a partir das intersees naturais dos dados
existentes nos sites que compem o ambiente distribudo.
O relacionamento entre o data warehouse global e os data warehouses locais pode
ser observado da seguinte forma. Os dados levemente agregados residem no nvel global,
enquanto que os dados detalhados residem nos nveis locais.
Como pode ser observado, os dados localizados no data warehouse global e nos
data warehouses locais so mutuamente exclusivos: qualquer dado no data warehouse
global no encontrado nos data warehouses locais, e vice-versa. Em contrapartida, o
projeto estrutural dos dados corporativos armazenados no data warehouse global pode
sobrepor pores dos modelos de dados dos data warehouses locais.
Inmon [INM02] prope uma variao desta arquitetura, onde consiste no prarmazenamento dos dados a serem enviados ao data warehouse global por cada um dos
sites locais. Assim, cada site que participa do ambiente armazena os dados globais
correspondentes s informaes locais em uma base de dados especial, chamada de rea de
armazenamento do data warehouse global, antes de envi-los ao data warehouse global
propriamente dito. Neste caso, a restrio de exclusividade mtua dos dados observada
tanto entre os dados localizados nos data warehouses locais e nas reas de armazenamento
do data warehouse global quanto entre os dados localizados nos data warehouses locais e
no data warehouse global. Contudo, pode haver alguma redundncia entre os dados
armazenados no data warehouse global e nas reas de armazenamento do data warehouse
global em cada um dos sites, caso a poltica adotada pela empresa seja a no remoo dos
dados destas reas aps o envio destes ao data warehouse global. A Figura 3.2 representa
as reas de armazenamento do data warehouse global em cada um dos sites.

FIGURA 3.2 VARIAO DA ARQUITETURA BSICA DE DATA WAREHOUSE DISTRIBUDO DE INMON


[CIFE02]

26

Inmon [INM02] sugere que o desenvolvimento desta arquitetura deve ser feito
primeiramente criando os data warehouses locais para cada entidade geogrfica, para que
depois, o data warehouse global seja criado, refletindo a integrao dos negcios atravs
das diferentes localizaes.

3.4 Arquitetura de Data Warehousing Distribudo de Moeller


As arquiteturas de data warehousing distribudo definidas por Moeller [MOE01]
so baseadas na juno de dois conceitos: integrao atravs do elemento banco de dados e
distribuio atravs do elemento rede. Assim, um data warehouse distribudo definido por
Moeller como uma coleo de dados compartilhados logicamente integrada, a qual
fisicamente distribuda atravs dos ns de uma rede de computadores.
Uma vez que o data warehouse distribudo consiste na integrao lgica de diversos
bancos de dados locais, ele no existe fisicamente nas arquiteturas de Moeller. Mais
especificamente, o data warehouse distribudo apenas um conceito virtual. Em particular,
os termos local e global so utilizados para realizar a distino, respectivamente, entre os
aspectos relacionados a um nico site e os aspectos relacionados ao ambiente de data
warehousing como um todo. Por exemplo, um data warehouse local refere-se a um banco
de dados pr-existente que reside em um site especfico da rede, ou seja, refere-se a um
data mart.
H trs diferentes tipos de arquitetura de data warehousing distribudo apresentadas
por Moeller [MOE01]: arquitetura de data warehousing distribudo homogneo,
heterogneo e com um SGBD distribudo nico. Esses tipos sero abordados nas prximas
subsees.
importante salientar que Moeller associa os seus trs tipos de arquitetura de data
warehousing distribudo abordagem de desenvolvimento, na qual uma corporao j
gerencia vrios data marts independentes e deseja possibilitar, como uma atividade
subseqente, o acesso global dos usurios de SSD a estes data marts atravs de um data
warehouse global virtual. Ou seja, os dados so mantidos nas fontes de dados e as consultas
so decompostas em tempo real e submetidas s diversas fontes, onde o resultado
integrado e mostrado para o usurio que efetuou a consulta. Isto obtido atravs do
desenvolvimento de um esquema global da empresa como um todo, que representa a
integrao dos esquemas locais dos data marts existentes, alm da interconexo destes data
marts atravs da rede.

3.4.1 Arquitetura de Data Warehousing Distribudo Homogneo


A Figura 3.3 mostra a arquitetura de data warehousing distribudo homogneo
proposta por Moeller [MOE01], com os seus dois principais componentes: o data
warehouse distribudo e a ferramenta de banco de dados distribudos.

27

FIGURA 3.3 ARQUITETURA DE DATA WAREHOUSING DISTRIBUDO HOMOGNEO DE MOELLER


[CIFE02]

Como visto anteriormente, cada site nesta arquitetura possui o seu prprio banco de
dados autnomo e pode representar um data mart independente. A arquitetura homognea
caracterizada por apresentar em todos os sites o mesmo SGBD. So nestes SGBD que se
armazenam os data marts a serem distribudos.
A ferramenta de gerenciamento do banco de dados distribudo, por sua vez,
responsvel por integrar os diversos bancos de dados locais, oferecendo uma viso lgica
do data warehouse corporativo, alm de gerenciar as consultas dos usurios de SSD aos
bancos de dados fora de suas redes locais. Essa ferramenta baseada em dois elementos
centrais relacionados manipulao dos dados distribudos: esquema de fragmentao e
esquema de alocao. O esquema de fragmentao descreve como os relacionamentos
globais so divididos entre os bancos de dados locais. J o esquema de alocao especifica
a localizao de cada um dos fragmentos, possibilitando a execuo de consultas atravs
dos diversos bancos de dados locais. Este ltimo esquema tambm d suporte
possibilidade de replicao dos dados na arquitetura.

3.4.2 Arquitetura de Data Warehousing Distribudo Heterogneo


A arquitetura de data warehousing distribudo heterogneo proposta por Moeller
[MOE01] baseada nos mesmos componentes principais que a arquitetura de data
warehousing distribudo homogneo: o data warehouse distribudo e uma ferramenta de
gerenciamento do banco de dados distribudo. No entanto, na arquitetura de data
warehousing distribudo heterogneo, estes componentes possuem caractersticas e
funcionalidades particulares relacionadas heterogeneidade dos dados, aumentando, com
isso, a complexidade destes componentes. A Figura 3.4 ilustra esta arquitetura.

28

FIGURA 3.4 ARQUITETURA DE DATA WAREHOUSING DISTRIBUDO HETEROGNEO DE MOELLER


[CIFE02]

Cada site nesta arquitetura possui o seu prprio banco de dados autnomo e pode
representar um data mart independente. A arquitetura heterognea possibilita que
diferentes SGBD sejam utilizados nos sites da arquitetura, para armazenar os bancos de
dados a serem distribudos. de responsabilidade da ferramenta de gerenciamento do
banco de dados distribudo tratar e oferecer os servios adicionais voltados ao tratamento
da heterogeneidade.
Alm desses servios adicionais, as demais funcionalidades da ferramenta de
gerenciamento do banco de dados distribudo na arquitetura de data warehousing
distribudo heterogneo so as mesmas funcionalidades oferecidas por essa ferramenta na
arquitetura homognea:

Conectar os diversos bancos de dados independentes atravs de uma rede de


computadores, oferecendo uma viso lgica integrada dos dados corporativos;

Atender s consultas dos usurios de SSD que requisitam dados atravs dos sites da
arquitetura; e

Proporcionar os esquemas de fragmentao e de alocao.


essencial a presena de um modelo de dados global integrado para o bom
funcionamento da ferramenta de gerenciamento do banco de dados distribudo.

3.4.3 Arquitetura de Data Warehousing Distribudo com SGBD


Distribudo nico
A Figura 3.5 mostra a arquitetura de data warehousing distribudo proposta por
Moeller [MOE01]. Diferentemente do que foi visto nas arquiteturas de data warehousing
distribudo homogneo e heterogneo, na arquitetura com SGBD distribudo nico no
existem banco de dados locais autnomos, ou seja, esta arquitetura no oferece suporte a
data marts independentes.

29

FIGURA 3.5 ARQUITETURA DE DATA WAREHOUSING DISTRIBUDO COM SGBD DISTRIBUDO


NICO DE

MOELLER [CIFE02]

Nesta arquitetura, os dados do data warehouse corporativo podem estar


armazenados em diferentes sites, podendo ser distribudos (fragmentados e/ou replicados)
nestes sites medida que o volume do data warehouse aumenta ou medida que o nmero
de usurios cresce. O acesso a estes dados feito atravs do SGBD distribudo, que
desempenha papel similar ao exercido pela ferramenta de gerenciamento do banco de dados
distribudo nas arquiteturas de data warehousing distribudo homogneo e heterogneo,
fazendo-se desnecessria a presena desta ferramenta nesta arquitetura.
Enquanto nas arquiteturas homognea e heterognea cada banco de dados local
possui o seu prprio modelo de dados individual, na arquitetura com SGBD distribudo
nico no existem modelos de dados locais. Tal restrio est relacionada ao fato de que as
pores do data warehouse corporativo armazenadas nos diversos sites dessa ltima
arquitetura no podem ser consideradas bancos de dados locais autnomos. Apesar disto,
indispensvel a definio de um modelo de dados corporativo na arquitetura com SGBD
distribudo nico [MOE01].

3.4.4 Abordagem para o Problema de Localizao dos Dados


Desde que diversos data marts pr-existentes sejam integrados logicamente entre si
atravs de uma rede a fim de criar um data warehouse corporativo, Moeller [MOE01]
afirma que pode ser interessante realizar uma redistribuio posterior dos dados destes data
marts, considerando-se requisitos globais de fragmentao, de replicao e de alocao,
visando-se um aumento de desempenho do sistema como um todo.
Moeller apresenta uma abordagem prtica para o problema de localizao dos
dados, que dividida em duas partes. A primeira parte desta abordagem discute aspectos
relacionados localizao dos dados de forma a maximizar o desempenho do sistema no
atendimento s consultas dos usurios de SSD. A segunda parte da abordagem proposta
identifica tcnicas que visam minimizar o tempo gasto no carregamento dos dados.
Segundo Ciferri [CIFE02], os doze passos seqenciais da primeira parte da
abordagem proposta por Moeller so:

30

Passo 1 - definir os objetivos particulares e as caractersticas fsicas do data


warehouse distribudo;
Passo 2 - identificar as caractersticas dos SGBD utilizados para implementar os
bancos de dados locais de forma que estas caractersticas tambm sejam seguidas no
projeto do data warehouse distribudo. Este passo aplica-se somente s arquiteturas
de data warehousing distribudo homogneo e heterogneo;
Passo 3 - ajustar (maximizar) o desempenho individual dos bancos de dados locais.
A importncia desta tarefa est relacionada ao fato de que, segundo Moeller, a
maioria das consultas dos usurios de SSD processada por data marts particulares
em um data warehouse distribudo;
Passo 4 - realizar a manuteno peridica dos bancos de dados locais;
Passo 5 - otimizar o cdigo gerado por consultas que acessam dados localizados em
diferentes sites da arquitetura de data warehousing distribudo;
Passo 6 - aplicar tcnicas de otimizao padro para aumentar o desempenho no
processamento de consultas complexas. Por exemplo, pode-se optar pela
incorporao de um ndice ou pelo particionamento de uma tabela grande;
Passo 7 - identificar o relacionamento existente entre os dados, de forma que os
dados fortemente vinculados (ou seja, os dados freqentemente requisitados
conjuntamente) sejam armazenados em um mesmo site;
Passo 8 - identificar os dados predominantemente estticos, ou seja, os dados novolteis ou os dados que so alterados esporadicamente. Esses dados devem ser
localizados no site no qual so mais requisitados. Em especial, dados estticos so
passveis de replicao;
Passo 9 - efetuar o particionamento vertical dos dados do data warehouse
distribudo. Isto pode ser realizado atravs da fragmentao vertical de uma tabela
existente em duas ou mais tabelas, e da posterior alocao dessas novas tabelas aos
data marts adequados. Isto tambm pode ser realizado atravs da unificao de
diferentes tabelas que compartilham chaves primrias, e da posterior alocao da
tabela resultante a um site especfico. Nesse caso, os dados duplicados so
removidos;
Passo 10 - efetuar o particionamento horizontal dos dados do data warehouse
distribudo. Isto pode ser realizado atravs da fragmentao horizontal de uma
tabela grande em duas ou mais tabelas, e da posterior alocao dessas tabelas aos
data marts adequados;
Passo 11 - replicar tabelas ou fragmentos de tabelas, de forma a minimizar o trfego
de dados pela rede no suporte a consultas OLAP. Isto deve ser realizado de forma a
balancear o ganho de desempenho no processamento de consultas OLAP com o
aumento dos custos de manuteno; e
Passo 12 - redistribuir os dados do data warehouse distribudo, os processos e at
mesmo os usurios de determinados data marts, visando reduzir gargalos existentes.

A segunda parte da abordagem para o problema de localizao dos dados proposta


por Moeller visa otimizar o tempo de carregamento dos dados. Nela, discutem-se os
aspectos prticos relacionados: s ferramentas e/ou aos algoritmos empregados no
carregamento dos dados, ao pr-processamento dos dados, possibilidade de carregamento
dos dados em paralelo e ao balanceamento de processamento na fase de carregamento dos
dados entre os data marts da arquitetura de data warehousing distribudo, dentre outros.
31

3.5 Arquitetura de Data Warehouse Distribudo Hierrquico de


Zhou et al.
Zhou et al. [ZZTH00] antes de descreverem sua arquitetura de data warehouse
distribudo hierrquico, primeiramente descrevem um estudo de caso bem simples de data
warehouse modelado com o esquema estrela, ilustrado na Figura 3.6, contendo trs tabelas
de dimenses (rea, Tempo e Indstria) e uma tabela de fatos, apresentando uma medida
representada pelo atributo GNP, que mede a performance da economia.

FIGURA 3.6 ESQUEMA ESTRELA DA INFORMAO ECONMICA DO DATA WAREHOUSE

Zhou et al. [ZZTH00] destacam as desvantagens de se utilizar tanto o data


warehouse centralizado (Figura 3.7), quanto o data warehouse distribudo ou federado
proposto por Wells et al. [WDCP96] (Figura 3.8). As desvantagens encontradas na
construo deste enorme data warehouse em um ambiente centralizado so: a dificuldade
de carga e manuteno desta enorme quantidade de dados e a grande quantidade de
usurios que faro consultas aos servidores OLAP.

FIGURA 3.7 DW CENTRALIZADO (BASEADO EM [AJLW98])

FIGURA 3.8 DW DISTRIBUDO OU FEDERADO (BASEADO EM [AJLW98])

32

J o ambiente distribudo de Wells et. al [WDCP96] oferece uma oportunidade de


construo de um largo data warehouse corporativo integrado, utilizando-se de um
middleware OLAP distribudo para realizar as consultas OLAP e integr-las para serem
retornadas ao usurio. O esquema global utilizado nesta arquitetura serve para ter uma
viso integrada dos esquemas dos data marts existentes.
A desvantagem desta arquitetura, segundo Zhou et al, que os data marts esto em
um nico nvel, impossibilitando dar ateno a nveis de usurios de alto e baixo nvel ao
mesmo tempo. O Quadro 3.1 compara os trs tipos de arquiteturas de data warehouse.
QUADRO 3.1 COMPARAES ENTRE DW CENTRALIZADO, DW DISTRIBUDO DE WELLS ET AL. E
HDDW (BASEADO EM [ZZTH00])

Caractersticas

DW Centralizado

DW Distribudo

HDDW

Distribuio dos Dados


Execuo da Consulta
Custo de Comunicao
Manuteno

Baixo
Fcil
Baixo
Difcil

Moderado
Complexo
Alto
Moderado

Alto
Moderado
Moderado
Fcil

E com isso eles propem como uma melhor alternativa para este estudo de caso, a
sua arquitetura de data warehouse distribudo hierrquico (HDDW). Esta arquitetura tem
duas caractersticas especiais, so elas [ZZTH00]:
1. Cada departamento em todos os nveis deve ter o seu prprio data warehouse ou
data mart; e
2. Cada departamento cuida principalmente do dado econmico da rea em que se
localiza, isto , a tomada de deciso do departamento com nvel estado se preocupa
basicamente com o dado econmico agregado do estado e os dados detalhados das
cidades dos municpios que fazem parte deste estado. E assim por diante com os
outros nveis da arquitetura.
A construo da arquitetura HDDW feita gradualmente, onde se utiliza a
abordagem bottom-up de desenvolvimento do data warehouse, construindo data marts no
nvel mais baixo da arquitetura e subindo gradativamente o nvel de desenvolvimento. A
Figura 3.9 ilustra esta arquitetura dividida em nveis de hierarquias de relacionamento entre
os atributos da dimenso rea (Figura 3.6), onde o desenvolvimento comea no nvel de
bairro e sobe at o nvel nao que corresponde integrao dos data marts existentes no
nvel de estado.

FIGURA 3.9 DATA WAREHOUSE DISTRIBUDO HIERRQUICO (BASEADO EM [ZZTH00])

33

Como visto anteriormente, o desenvolvimento dos data marts na arquitetura


HDDW construda nvel por nvel. Com isso, a implementao e a manuteno fica
realmente fcil, devido aos data marts serem praticamente independentes entre si, portanto,
a manuteno no Quadro 3.1 pode ser considerada fcil nesta arquitetura. A manuteno
acontece quando um dado alterado em um nvel e esta alterao se reflete a todos os data
marts que contenham referncia para este dado de nveis acima at chegar ao topo
[ZZTH00].
O estudo de caso mostra que se pode distribuir os dados de acordo com nveis de
hierarquias de relacionamento entre os atributos de uma dimenso. Como exemplo, neste
estudo de caso podia-se distribuir os dados usando os atributos da dimenso Tempo: ano,
estao e ms para formar uma hierarquia de dados.

3.5.1 HDDW orientado a consultas OLAP


A Figura 3.10 ilustra a arquitetura do HDDW orientada a consultas OLAP. Pode-se
observar nesta figura que os usurios finais utilizam uma ferramenta OLAP comum e um
servidor OLAP especializado, que ser mostrada na Figura 3.11. Todos estes servidores
OLAP conectam-se entre si atravs da rede e operam colaborativamente para responder as
consultas dos usurios do SSD [ZZTH00].

FIGURA 3.10 - HDDW ORIENTADO A CONSULTAS OLAP (BASEADO EM [ZZTH00])

A Figura 3.11 mostra o mecanismo de processamento das consultas OLAP na


arquitetura HDDW. Este mecanismo composto por trs camadas: cliente, servidor OLAP
local (middleware) e servidor de banco de dados. A camada cliente oferece para o usurio
final ferramentas com facilidades para gerar relatrios. A camada do middleware a parte
principal da arquitetura, que esconde os detalhes da distribuio dos dados e tem como
principal objetivo a gerao otimizada da consulta distribuda para responder com
transparncia a consulta feita pelo usurio. A camada do servidor de banco de dados
quem possibilita o acesso aos dados existentes nos data marts.
O cliente acessa o sistema por meio do servidor OLAP. A ferramenta usada pelo
usurio prov interatividade com o ambiente do servidor OLAP local. As consultas
34

requisitadas pelo usurio so transferidas para o servidor local OLAP em uma linguagem
SQL formal.
Quando uma consulta recebida pelo servidor OLAP local, ela analisada
sintaticamente e depois verificado no esquema global quais data marts devem ser
consultados para responder a consulta, com isso a consulta decomposta em sub-consultas
remotas e local. Finalmente, os resultados das sub-consultas so integrados e submetidos ao
usurio. A mquina de agregao responsvel pelo clculo agregado e o gerenciamento,
que um fator chave para o desempenho em servidores OLAP [ZZTH00].

FIGURA 3.11 MECANISMO OLAP DO SISTEMA HDDW (BASEADO EM [ZZTH00])

O gerenciamento dos usurios do sistema feito atravs do agrupamento dos


usurios em determinados nveis de hierarquia. Caso o nvel do usurio seja o mais alto da
hierarquia, ele ter acesso a todos os dados do sistema; j, se for o mais baixo, s ter
acesso aos dados daquele nvel.

3.6 Arquitetura de Data Warehouse Distribudo de Ciferri (O


Sistema WebDW)
O sistema WebDW (Web Distributed Data Warehousing) consiste em um ambiente
de data warehousing distribudo cliente-servidor que visa no somente distribuio dos
dados do data warehouse, mas tambm ao acesso distribudo a esses dados usando a
tecnologia Web como infra-estrutura [CCSF02].
Este sistema utiliza-se da distribuio dos dados do data warehouse, visando
alcanar diversas vantagens sobre a arquitetura de um data warehouse centralizado, tais
como: aumento da disponibilidade dos dados, melhoria na confiabilidade, suporte a um
grande nmero de usurios, melhoria no desempenho das consultas OLAP e uma expanso
mais fcil das unidades de distribuio. Alm destas vantagens, o sistema garante ainda: a

35

transparncia de fragmentao, de replicao e de localizao na manipulao dos dados,


tornando as consultas OLAP transparentes para os usurios dos SSD.

3.6.1 Arquitetura
A arquitetura de um ambiente de data warehousing centralizado, mostrada na
Figura 2.6 deste trabalho, estendida para a arquitetura do sistema WebDW, porm, a
incluso dos componentes de distribuio, o componente de consulta do ambiente
distribudo e o componente de manuteno do ambiente distribudo fazem com que os
outros componentes do sistema apresentem alteraes em suas estruturas internas,
aumentando a complexidade no desenvolvimento dos mesmos.
A arquitetura do sistema WebDW mostrada na Figura 3.12, onde so
identificados todos os componentes, os inter-relacionamentos entre eles e as classes de
usurios existentes no sistema. As funcionalidades existentes em cada componente e as
responsabilidades de cada classe de usurio sero descritas nas prximas sees e
subsees desse captulo.
As informaes estruturais e semnticas das fontes de dados e outras informaes
que possam ser importantes para o ambiente de data warehousing so armazenadas no
repositrio de metadados, sendo manipuladas pelo gerenciador de metadados [CIFE02].
O componente de gerenciamento e administrao do ambiente tem funcionalidades
voltadas para o monitoramento do ambiente de data warehousing distribudo. Tanto o
administrador do data warehouse distribudo quanto o administrador do data warehouse
global interagem com este componente.
A abordagem utilizada para o desenvolvimento do sistema WebDW foi a topdown, onde o data warehouse global foi construdo primeiro, para que, posteriormente, as
unidades de distribuio fossem geradas. Estas unidades de distribuio podem ser vistas
como data warehouses ou data marts, dependendo dos critrios utilizados para a
distribuio dos dados.

36

FIGURA 3.12 ARQUITETURA BSICA DO SISTEMA WEBDW [CIFE02]

37

3.6.2 A importncia do Data Warehouse Global


O sistema WebDW define o data warehouse global como sendo o data warehouse
que contm todos os dados que sero distribudos para os diversos sites. Os dados sero
extrados dos provedores de informao (banco de dados operacionais, sistemas de arquivos
e fontes externas) e depois traduzidos, limpados e integrados pelo componente de
integrao e manuteno, para que se possam carregar os dados no data warehouse global.
A importncia do data warehouse global observada pelo fato de que, como ele
contm todos e os mais atualizados dados do sistema a partir dele que so gerados
fragmentos que sero alocados nas vrias unidades de distribuio do sistema, evitando a
necessidade da comunicao direta entre unidades de distribuio e provedores de
informao. O oposto resultaria em um custo adicional elevado ao sistema, devido fase de
carregamento dos dados ser um processo de atividades extremamente complexas e lentas
[NASC05]. Alm disso, as consultas OLAP poderiam ocasionar um grande volume de
dados trafegando pela rede, sobrecarregando-a e, possivelmente, piorando a performance
destas consultas.
Nas prximas subsees, so descritos brevemente os cinco componentes presentes
na arquitetura do sistema WebDW, que so: componente de integrao e manuteno,
componente de distribuio, componente de anlise e consulta, componente de consulta do
ambiente distribudo e o componente de manuteno do ambiente distribudo.

3.6.3 Componente de Integrao e Manuteno


responsvel pela integrao dos dados existentes nas fontes de dados, aps a
extrao traduo, limpeza, filtragem e integrao dos dados, alm de atualizao peridica
e expirao dos dados.
Como pode ser observado, este componente desempenha as mesmas funes dos
componentes vistos na seo 2.6.1. Porm, no sistema WebDW, o componente de
integrao e manuteno estendido de forma a possibilitar a propagao das alteraes a
serem realizadas nos dados do data warehouse global ao componente de manuteno do
ambiente distribudo.

3.6.4 Componente de Manuteno do ambiente distribudo


responsvel por manter a consistncia dos dados no data warehouse global e nas
unidades de distribuio. Segundo Ciferri [CIFE02], este componente pode desempenhar
duas funcionalidades diretamente relacionadas:
A manuteno da consistncia intra-site A consistncia intra-site resulta da
habilidade de se manter os dados detalhados e agregados armazenados em um site
particular consistentes entre si; e
A manuteno da consistncia entresites - A consistncia entresites resulta da
habilidade de se manter os dados fragmentados e/ou replicados atravs dos diversos
sites do ambiente de data warehousing consistentes entre si.

38

3.6.5 Componente de Distribuio


Tem como principal objetivo aumentar a disponibilidade dos dados do data
warehouse global, alocando os dados replicados e/ou fragmentados atravs dos diversos
data warehouses distribudos no sistema. Este componente tambm responsvel pelo
aumento da confiabilidade e o do suporte a um maior nmero de usurios no sistema. O
componente de distribuio composto por quatro mdulos: requisitos, fragmentao,
alocao e carga que sero descritos nos subtpicos abaixo.
3.6.5.1 Mdulo Requisitos
Tem como responsabilidade determinar um conjunto de critrios que deve ser
utilizado como base pelo projetista do data warehouse distribudo para definir limitaes a
serem aplicadas aos processos de fragmentao, replicao e alocao dos dados do data
warehouse global. So considerados requisitos para o processo de fragmentao e alocao
a obteno de informaes a respeito dos sistemas computacionais, da rede de
comunicao, da carga de trabalho e do banco de dados.
As informaes dos sistemas computacionais requerem um conhecimento dos sites
que sero utilizados pelo ambiente distribudo para alocao das unidades de distribuio:
caractersticas como nvel de segurana oferecido, capacidade de processamento de
hardware e armazenamento de dados, software utilizado, entre outros.
Devem ser obtidas tambm informaes da rede de comunicao, como largura de
banda da rede, para melhor alocar os dados mais acessados em sites com grande largura de
banda e segurana da rede. J as informaes a respeito da carga de trabalho consistem em
saber qual poro de dados acessada mais freqentemente para que uma anlise sobre eles
seja traada e possa resultar em uma fragmentao e alocao adequadas, e que realmente
aumente a disponibilidade dos dados consideravelmente. E por fim, informaes relativas
ao banco de dados, como suas estruturas e caractersticas, de maneira geral [COSTA05].
3.6.5.2 Mdulo Fragmentao
Este mdulo tem como objetivo o particionamento dos dados do data warehouse
global em diversos fragmentos, para que, posteriormente, estes dados sejam alocados nas
diversas unidades de distribuio existentes. O particionamento dos dados pode ser feito de
trs diferentes tipos de fragmentao: a horizontal, a vertical e a mista.
A fragmentao horizontal divide cada fragmento em um subconjunto das tuplas da
relao completa, onde cada tupla de uma relao precisa ser armazenada em pelo menos
uma unidade de distribuio. Na fragmentao vertical, as relaes so decompostas em
relao aos atributos, onde cada fragmento uma projeo da relao completa e cada
fragmento tem, necessariamente, como atributo, a chave primria ou algum atributo que
seja chave candidata da relao completa. A fragmentao mista a combinao da
fragmentao horizontal e vertical, mas sempre uma por vez, ou seja, ou se fragmenta
verticalmente para depois fragmentar horizontalmente, ou o contrrio.
Este mdulo faz uso tanto do algoritmo de fragmentao horizontal proposto por
Ciferri [CIFE02], quanto pelos algoritmos de fragmentao vertical propostos por

39

Nascimento [NASC05] e Costa [COSTA05], que gerar entradas para o mdulo de


alocao.
Segundo Ciferri [CIFE02], sendo considerada uma implementao relacional das
vises materializadas no data warehouse atravs do esquema estrela, pode-se afirmar que
as tcnicas de fragmentao horizontal, vertical e mista devem enfocar principalmente a
fragmentao da tabela de fatos, sendo que a fragmentao das tabelas de dimenso
inerente fragmentao da tabela de fatos.
3.6.5.3 Mdulo Alocao
O mdulo alocao tem como objetivo alocar os fragmentos resultantes do mdulo
fragmentao nas unidades de distribuio. Tambm responsabilidade deste mdulo
escolher quais destes fragmentos devem ser replicados e em qual sites estas rplicas sero
alocadas, aumentando, com isso, a disponibilidade e eficincia das consultas OLAP dos
usurios de SSD. Porm, a replicao pode reduzir a velocidade das operaes de
atualizao, uma vez que, uma atualizao deve ser executada em todas as cpias do banco
de dados, mantendo a consistncia dos seus dados.
Em adio aos custos de manuteno, o problema de alocao tambm deve
considerar os custos de armazenamento dos fragmentos nos sites, os custos associados ao
processamento das consultas e os custos de transmisso. importante destacar que o
problema de alocao consiste em um problema de otimizao muito complexo [ERNS04].
3.6.5.4 Mdulo Carga
O mdulo carga tem como principal objetivo o carregamento inicial dos dados nos
diversos sites, utilizando-se do esquema de fragmentao gerado pelo mdulo
fragmentao e do esquema de alocao gerado pelo mdulo alocao para este propsito.
A transferncia dos dados do data warehouse global para as unidades de distribuio pode
ser realizada atravs da Web ou de forma indireta, quando o volume de dados inviabiliza o
uso da rede [CIFE02].
O mdulo carga desempenha tambm outras funcionalidades complementares ao
carregamento inicial dos dados, so elas:
Armazenamento do projeto do ambiente distribudo no repositrio de metadados;
Criao e carga do repositrio de metadados nos sites das unidades de distribuio; e
Responsvel por inicializar os demais componentes do sistema
Este mdulo pode ser ativado tanto pelo carregamento inicial dos dados nos sites
quanto pela criao de novos sites no sistema WebDW. Neste ltimo caso, as informaes
relativas aos esquemas destas novas unidades devem ser replicadas em todos os repositrios
de metadados presentes.

3.6.6 Componente de Consulta do Ambiente Distribudo


O componente de consulta do ambiente distribudo tem como principal objetivo o
aumento da disponibilidade do acesso aos dados relativos consulta. Este componente
pode ser representado de acordo com duas perspectivas:

40

Funcionalidade de Acesso Local Explora a proximidade do dado buscado na


consulta em relao localidade do usurio, otimizando, com isso, a consulta. Nesta
funcionalidade s so consideradas s consultas submetidas ao sistema WebDW
via Intranet, ou seja, o usurio de SSD que fez a consulta tem que estar em um dos
sites das unidades de distribuio ou no site que contm o data warehouse global; e
Funcionalidade de Acesso Global Explora tambm a proximidade do dado
buscado na consulta em relao localidade do usurio, porm, nesta
funcionalidade s so consideradas as consultas submetidas ao sistema WebDW
oriundas da Internet. Nesse ltimo caso, o usurio de SSD encontra-se localizado
em um site que no armazena dados do data warehouse distribudo.

Atravs da replicao e distribuio destas funcionalidades nos diversos sites do


ambiente distribudo possvel realizar acessos paralelos ao sistema WebDW, alm de se
eliminar gargalos que porventura poderiam existir, caso essas funcionalidades fossem
centralizadas em apenas um site.
Alm disso, o acesso a esses dados deve ser de forma transparente, ou seja, o
sistema deve garantir a transparncia de fragmentao, replicao e alocao. Os usurios
executam consultas ao sistema como se esse ambiente tivesse apenas um data warehouse
centralizado [NASC05].
Por fim, este componente responsvel por redirecionar a consulta ao site mais
apropriado em respond-la, ou simplesmente gerenciar o processamento distribudo da
mesma.

3.6.7 Arquitetura do Sistema WebDW na Web


A arquitetura proposta pelo Sistema WebDW consiste em uma arquitetura de
genrica trs camadas, a qual representa a soluo adotada para o acesso aos dados do data
warehouse distribudo no sistema.
A arquitetura de trs camadas composta por camada de apresentao, camada
lgica e camada de gerenciamento de dados. Cada uma destas camadas detalhada abaixo.
A camada de apresentao responsvel pela definio da lgica da interface
grfica, onde se determina quais dados e de que forma estes dados sero visualizados. Alm
disto, os valores digitados pelo usurio na interface grfica devem ser validados e
verificados. A camada lgica onde se implementa a lgica do negcio, com isso
possvel, atravs desta camada, acessar diferentes SGBD. A camada de gerenciamento de
dados onde residem os SGBD, que responsvel pelo armazenamento, gerenciamento e
recuperao dos dados da aplicao.

41

4. Anlise Comparativa de Arquiteturas de Distribuio de


Data Warehouse
Neste captulo apresentada uma anlise comparativa entre as arquiteturas de
distribuio de data warehouse, descritas no captulo 3, destacando-se vantagens e
desvantagens de cada uma destas arquiteturas. Em seguida, baseando-se no resultado da
anlise so sugeridas algumas boas prticas para o desenvolvimento dessas arquiteturas.
Nesta anlise comparativa tm-se como base uma extenso dos critrios definidos
por Ciferri [CIFE02]:

Aspectos para fragmentao - Se a arquitetura identifica ou discute questes


importantes que poderiam ser utilizadas como base para a fragmentao dos dados;

Aspectos para alocao e/ou replicao - Se a arquitetura identifica ou discute


questes importantes que poderiam ser utilizadas como base para alocao e/ou
replicao dos dados;

Metodologia e/ou algoritmos para fragmentao - Se a arquitetura apresenta


metodologias e/ou algoritmos para fragmentao dos dados;

Metodologia e/ou algoritmos para alocao e/ou replicao - Se a arquitetura


apresenta metodologias e/ou algoritmos para alocao e/ou replicao dos dados;

Redirecionamento de consultas processadas de forma centralizada - Se a arquitetura


apresenta o redirecionamento de consultas ao site mais apropriado em respond-la
de forma centralizada;

Gerenciamento de consultas processadas de forma distribuda - Se a arquitetura


apresenta o gerenciamento de consultas decompostas em diversas subconsultas, de
forma que cada uma dessas subconsultas acesse diferentes partes do data warehouse
distribudo;

Controle local aos sites - Se a arquitetura proporciona controle de acesso local a


cada site que participa do ambiente distribudo;

Controle global aos sites - Se a arquitetura proporciona controle de acesso global ao


ambiente distribudo como um todo;

Manuteno da consistncia - Se a arquitetura apresenta metodologias e/ou


algoritmos para a manuteno da consistncia dos dados distribudos;

Forma de acesso aos dados - Se a arquitetura apresenta alguma forma particular de


acesso aos dados; e

Segurana - Se a arquitetura apresenta metodologias para a segurana dos dados,


promovendo o controle do acesso ao data warehouse e aos provedores de
informao, dos usurios de SSD e das transferncias dos dados.
Nos prximas sees deste captulo, para cada arquitetura vista anteriormente, ser
apresentado um quadro contendo a lista das principais caractersticas do referido trabalho
com relao aos critrios acima especificados. As informaes contidas nestes quadros
sero preenchidas de acordo com a seguinte terminologia apresentada por Ciferri [CIFE02]:

Descrio da Funcionalidade - Caso a arquitetura j oferea alguma funcionalidade


com relao ao critrio analisado, ser apresentada uma breve descrio desta
funcionalidade;

42

No Apresenta - Caso o objetivo da arquitetura esteja diretamente relacionada com


o critrio analisado, mas nenhuma metodologia e/ou algoritmo sejam especificados
ou nenhuma discusso sobre o assunto realizada;
Apenas indica necessidade - Caso a arquitetura cite a funcionalidade referente ao
critrio que est sendo analisado, mas no apresenta soluo; e
No especificado - Caso a arquitetura no considere questes relacionadas ao
critrio analisado.

4.1 Anlise da Arquitetura de Data Warehouse Distribudo de


Inmon
O Quadro 4.1 identifica as funcionalidades oferecidas pela arquitetura de data
warehouse distribudo de Inmon [INM02], em relao aos critrios abordados no incio do
captulo.
QUADRO 4.1 FUNCIONALIDADES OFERECIDAS PELA ARQUITETURA DE DATA WAREHOUSE
DISTRIBUDO DE INMON

Critrio
Aspectos para fragmentao
Aspectos para alocao e/ou replicao

Metodologia e/ou algoritmos para


fragmentao
Metodologia e/ou algoritmos para alocao
e/ou replicao
Redirecionamento de consultas processadas
de forma centralizada
Gerenciamento de consultas processadas de
forma distribuda
Controle local aos sites
Controle global aos sites
Manuteno da consistncia
Forma de acesso aos dados
Segurana

[INM02; CIFE02]

Arquitetura de Inmon [INM02]


Fragmentao por regies geogrficas
diferentes ou comunidades tcnicas distintas
Arquitetura bsica: no existe replicao
Variao da arquitetura: replicao dos
dados locais a serem transferidos para o
data warehouse global
No apresenta
No apresenta
Apenas indica a necessidade
Apenas indica necessidade
Apenas indica a necessidade
Apenas indica a necessidade
No especificado
No especificado
No especificado

Na arquitetura de Inmon [INM02] a regio geogrfica e a comunidade tcnica so


fatores que podem servir de base para a fragmentao, porm nenhuma metodologia e/ou
algoritmo so apresentados para a fragmentao. Na arquitetura bsica de Inmon no existe
replicao, j na variao desta arquitetura pode haver replicao dos dados armazenados
nas reas de armazenamento do data warehouse global, caso a poltica adotada pela
43

empresa seja a no remoo destes dados aps o envio ao data warehouse global. Porm,
nenhuma metodologia e/ou algoritmos so apresentados para a alocao e/ou replicao.
Inmon, em sua arquitetura de data warehouse distribudo, apenas indica a
necessidade de se ter: um redirecionamento das requisies dos usurios de SSD, um
gerenciamento destas requisies de forma a melhorar a performance das mesmas, um
controle local e global, para que, em princpio, os dados locais sejam acessados somente
localmente e os dados globais sejam acessados somente globalmente.
Apesar de poder existir replicao dos dados, como pde ser visto anteriormente,
Inmon no se preocupa com a manuteno da consistncia dos dados devido a tal
replicao. Os critrios forma de acesso aos dados e segurana no so abordados no
trabalho de Inmon.

4.2 Anlise das Arquiteturas de Data Warehousing Distribudo de


Moeller
O Quadro 4.2 identifica as funcionalidades oferecidas pelas arquiteturas de data
warehousing distribudo homogneo, heterogneo e com SGBD distribudo nico propostas
por Moeller [MOE01], de acordo com os critrios listados no incio deste captulo.

44

QUADRO 4.2 FUNCIONALIDADES OFERECIDAS PELAS ARQUITETURAS DE DATA WAREHOUSING


DISTRIBUDO DE

MOELLER [MOE01; CIFE02]

Critrio
Aspectos para fragmentao

Aspectos para alocao e/ou replicao

Metodologia e/ou algoritmos para


fragmentao
Metodologia e/ou algoritmos para alocao
e/ou replicao
Redirecionamento de consultas processadas
de forma centralizada
Gerenciamento de consultas processadas de
forma distribuda
Controle local aos sites

Controle global aos sites

Manuteno da consistncia
Forma de acesso aos dados
Segurana

Arquitetura de Moeller [MOE01]


Passos 7, 9, 10 e 12 (primeira parte da
abordagem para o problema da localizao
dos dados)
Passos 7, 8, 9, 10, 11 e 12 (primeira parte
da abordagem para o problema da
localizao dos dados)
No apresenta
No apresenta
Funcionalidades oferecidas pela ferramenta
de gerenciamento do banco de dados
distribudo ou pelo SGBD distribudo
Usurios de SSD podem submeter consultas
diretamente aos data marts individuais nas
arquiteturas de data warehousing
distribudo homogneo e heterogneo
Funcionalidades oferecidas pela ferramenta
de gerenciamento do banco de dados
distribudo ou pelo SGBD distribudo
Discusso de mecanismos tradicionais de
controle de concorrncia
No especificado
Sugere o uso de ferramentas que melhor se
adeqem necessidade da empresa

Moeller [MOE01] apenas discute alguns direcionamentos que podem ser utilizados
como base em questes relacionadas fragmentao, replicao e alocao dos dados,
como pode ser visto na seo 3.4.4 deste trabalho. Tais direcionamentos no enfocam
caractersticas intrnsecas de ambientes de data warehousing, como exemplo a organizao
dos dados em diferentes nveis de agregao. Alm disto, nenhuma metodologia e/ou
algoritmos de fragmentao, alocao e replicao so apresentados no trabalho de
Moeller.
As funcionalidades de redirecionamento de consultas processadas de forma
centralizada e o gerenciamento de consultas processadas de forma distribuda so
oferecidos pela ferramenta de gerenciamento do banco de dados distribudo ou pelo SBGD
distribudo, respectivamente nas arquiteturas homognea ou heterognea, ou na com SGBD
distribudo nico.
Os usurios de SSD podem submeter consultas diretamente aos data marts
individuais nas arquiteturas de data warehousing distribudo homogneo e heterogneo de
Moeller [MOE01], j que os data marts locais so autnomos: possuem sua prpria

45

estrutura e contedo dos dados, so alimentados por sistemas particulares e no existe


coordenao entre os dados ou de processamento entre os sites. J o controle global aos
sites feito atravs da ferramenta de gerenciamento do banco de dados distribudo ou pelo
SGBD distribudo.
Em seu livro, Moeller [MOE01] discute a funcionalidade de manuteno da
consistncia dos dados, exemplificando vantagens e desvantagens de mecanismos de
controle de concorrncia. Tal discusso engloba mecanismos tradicionais comumente
conhecidos, tais como: mtodos baseados em bloqueio, mtodos baseados em marcadores
de tempo (timestamping) e mtodos otimistas.
O critrio forma de acesso aos dados no especificado na arquitetura de Moeller,
enquanto que o critrio segurana tratado de forma detalhada, onde o autor sugere a
utilizao de firewalls, autenticao dos usurios, criptografia e medidas de segurana
utilizadas nos SGBD.

4.3 Anlise da Arquitetura de Data Warehouse Distribudo


Hierrquico de Zhou et al.
O Quadro 4.3 identifica as funcionalidades oferecidas pela arquitetura de data
warehouse distribudo hierrquico de Zhou et al. [ZZTH00], em relao aos critrios
abordados no incio do captulo.

46

QUADRO 4.3 FUNCIONALIDADES OFERECIDAS PELA ARQUITETURA DE DATA WAREHOUSE


DISTRIBUDO

HIERRQUICO DE ZHOU ET AL [ZZTH00]

Critrio
Aspectos para fragmentao

Aspectos para alocao e/ou replicao


Metodologia e/ou algoritmos para
fragmentao
Metodologia e/ou algoritmos para alocao
e/ou replicao
Redirecionamento de consultas processadas
de forma centralizada
Gerenciamento de consultas processadas de
forma distribuda
Controle local aos sites
Controle global aos sites
Manuteno da consistncia

Forma de acesso aos dados

Segurana

Arquitetura do HDDW [ZZTH00]


Fragmentao por nveis de hierarquia de
relacionamento entre os atributos de uma
dimenso
Replicao dos dados detalhados de um
nvel at o topo da hierarquia
No apresenta
No apresenta
No especificado
Middleware OLAP Distribudo
No especificado
Middleware OLAP Distribudo
A manuteno feita em todos os nveis da
arquitetura que contenha referncia para o
dado alterado
Arquitetura de trs camadas: cliente,
servidor OLAP local (middleware) e
servidor de banco de dados
Gerenciamento dos Usurios

Na arquitetura de data warehouse distribudo hierrquico de Zhou et al. [ZZTH00],


os nveis de hierarquia de relacionamento entre os atributos de uma dimenso so fatores
que servem de base para a fragmentao, porm nenhuma metodologia e/ou algoritmo so
apresentados. A replicao dos dados observada medida que os dados detalhados de um
nvel mais baixo so integrados em um nvel mais alto. Porm, nenhuma metodologia e/ou
algoritmos so apresentados para a alocao e/ou replicao.
Na arquitetura de data warehouse distribudo hierrquico, atravs do middleware
OLAP Distribudo possvel o gerenciamento das consultas de forma distribuda, como
pode ser visto na seo 3.5.1 deste trabalho, enquanto que o redirecionamento de consultas
processadas de forma centralizada no especificado. O controle global aos sites
realizado pelo middleware OLAP distribudo e o controle local no especificado.
A manuteno da consistncia dos dados apenas resumida por Zhou et. al., na
necessidade de se manterem consistentes as referncias dos dados replicados em todos os
nveis da arquitetura, porm neste mtodo, nenhum componente especificado para tratar
este critrio.
Finalmente, o critrio forma de acesso aos dados baseado na arquitetura de trs
camadas e o critrio segurana tratado somente pelo gerenciamento de usurios, onde o
usurio de um determinado nvel de hierarquia s poder acessar dados do seu nvel para o
mais baixo nvel da arquitetura.

47

4.4 Anlise do Sistema WebDW de Ciferri


O Quadro 4.4 identifica as funcionalidades oferecidas pelo sistema WebDW de
Ciferri [CIFE02], de acordo com os critrios listados no incio deste captulo.
QUADRO 4.4 FUNCIONALIDADES OFERECIDAS PELO SISTEMA WEBDW [CIFE02]

Critrio
Aspectos para fragmentao

Aspectos para alocao e/ou replicao

Metodologia e/ou algoritmos para


fragmentao

Metodologia e/ou algoritmos para alocao


e/ou replicao
Redirecionamento de consultas processadas
de forma centralizada
Gerenciamento de consultas processadas de
forma distribuda
Controle local aos sites
Controle global aos sites
Manuteno da consistncia
Forma de acesso aos dados

Segurana

Sistema WebDW [CIFE02]


Definio das restries a serem aplicadas
fragmentao identificadas no mdulo
requisitos do componente de distribuio.
Definio das restries a serem aplicadas
alocao e/ou replicao identificadas no
mdulo requisitos do componente de
distribuio.
Metodologia
e/ou
algoritmos
para
fragmentao so inseridos no mdulo de
fragmentao
do
componente
de
distribuio
Metodologia e/ou algoritmos para alocao
e/ou replicao so inseridos no mdulo
alocao do componente de distribuio

Funcionalidades
componente de
distribudo

oferecidas
pelo
consulta do ambiente

Funcionalidade oferecida pelo componente


de manuteno do ambiente distribudo
Arquitetura genrica de trs camadas para
a Web (apresentao, regras de negcio e
gerenciamento de dados)
Sugere o uso de alguns mecanismos de
segurana, como: criptografia, certificao
digital, firewalls e programas antivrus.

A identificao dos requisitos para o processo de fragmentao, alocao e


replicao dependem tanto de informaes sobre o ambiente de data warehousing j
existente, as quais so obtidas a partir do repositrio de metadados, quanto de informaes
relacionadas s necessidades de distribuio da aplicao, as quais so obtidas a partir de
informaes externas. Estes requisitos so definidos a partir destas informaes e esto
presentes no mdulo requisitos do componente de distribuio.
Propostas de metodologias e/ou algoritmos para fragmentao so inseridas no
mdulo fragmentao do componente de distribuio, de acordo com os requisitos para o
processo de fragmentao definidos pelo mdulo de requisitos. Enquanto que, propostas de

48

metodologias e/ou algoritmos para alocao e/ou replicao so inseridas no mdulo


alocao do componente de distribuio, de acordo com os requisitos para o processo de
alocao definidos pelo mdulo de requisitos e o esquema de fragmentao, que especifica
logicamente como os fragmentos do data warehouse global podem ser obtidos.
O componente de consulta do ambiente distribudo possui duas funcionalidades
mutuamente exclusivas. A primeira delas denominada de redirecionamento de consultas
processadas de forma centralizada. Ou seja, dada uma consulta OLAP, esta funcionalidade
redireciona esta consulta ao site mais apropriado em respond-la, para que a consulta seja
processada nesse site de forma centralizada. A segunda funcionalidade do componente de
consulta do ambiente distribudo denominada gerenciamento de consultas processadas de
forma distribuda. Ou seja, dada uma consulta OLAP, esta funcionalidade decompe esta
consulta em diversas subconsultas, de forma que cada uma dessas subconsultas acesse
diferentes partes do data warehouse distribudo e seja enviada e processada ao site mais
apropriado em respond-la. Os resultados parciais das subconsultas so agrupados at a
obteno de um resultado final que ser retornado para o usurio [CIFE02].
As funcionalidades oferecidas pelo componente de consulta do ambiente distribudo
do sistema WebDW podem ser enfocadas sob duas diferentes perspectivas. A primeira
perspectiva est relacionada ao acesso local a cada site que participa do ambiente
distribudo, enquanto que a segunda perspectiva diz respeito ao acesso global ao ambiente
distribudo como um todo. No sistema WebDW, essas duas perspectivas so nomeadas,
respectivamente, de funcionalidade de acesso local e de funcionalidade de acesso global e
foram detalhadas na seo 3.6.6 deste trabalho.
O componente de manuteno do ambiente distribudo responsvel por manter os
dados consistentes em toda a arquitetura, ou seja, no data warehouse global e nas unidades
de distribuio. Segundo Ciferri [CIFE02], este componente pode desempenhar duas
funcionalidades diretamente relacionadas, que so: a manuteno da consistncia intra-site
e a entresites, que foram vistas em maiores detalhes na seo 3.6.4 deste trabalho.
O principal motivo da escolha da arquitetura de trs camadas como forma de acesso
aos dados do data warehouse distribudo no sistema WebDW refere-se ao fato de que esta
forma de organizao torna possvel a substituio de qualquer um dos componentes
lgicos da aplicao (apresentao, regras de negcio ou gerenciamento de dados) sem que
seja necessrio modificar os demais componentes. Garante, desta forma, a independncia
da aplicao no acesso ao data warehouse.
A tese de Ciferri [CIFE02] apesar de no propor tratar o problema da segurana,
sugere a utilizao de mecanismos de segurana para tornar a arquitetura mais segura,
como por exemplo: criptografia, certificao digital, firewalls e programas antivrus.

4.5 Benefcios e Desvantagens das arquiteturas abordadas


Nesta seo, sero apresentados, individualmente, os principais benefcios e
desvantagens de cada uma das arquiteturas abordadas anteriormente.
Na arquitetura proposta por Inmon [INM02], pode-se apresentar como vantagens:
O fato de se ter um data warehouse global materializado, que armazena todos os
dados agregados, onde no necessrio o gerenciamento de consultas OLAP
distribudas, aumentando a performance no momento da consulta; e

49

O armazenamento dos dados agregados somente na sede da empresa para d suporte


deciso e a diviso dos data warehouses locais em regies geogrficas diferentes
contribuem face realidade da globalizao.
J os pontos negativos desta arquitetura se baseiam nos seguintes fatos:
Nenhum tipo de mecanismo de segurana especificado; e
No apresentar mecanismos para a manuteno da consistncia dos dados, apesar de
poder existir replicao dos dados.
Na arquitetura proposta por Moeller [MOE01], pode-se listar como vantagens:
Apresentao de uma abordagem prtica para o problema da localizao dos dados,
de forma a maximizar o desempenho das consultas dos usurios e minimizar o
tempo gasto no carregamento dos dados;
Discusso de mecanismos tradicionais de controle de concorrncia;
Sugere a utilizao de ferramentas para o aumento da segurana na arquitetura; e
Data Marts autnomos entre si, nas arquiteturas de data warehousing distribudo
homogneo e heterogneo, facilitando manuteno e o acesso local.
As desvantagens desta arquitetura podem ser analisadas atravs dos seguintes
aspectos:
O fato de se ter um data warehouse virtual pode ser considerada uma desvantagem
em ambientes de data warehousing distribudo, pois nestes ambientes o
desempenho das consultas mais importante do que a consistncia imediata dos
dados junto aos data warehouses locais; e
Pouco detalhamento da ferramenta de gerenciamento banco de dados distribudos,
que o componente mais importante desta arquitetura.

Na arquitetura proposta por Zhou et. al. [ZZTH00], pode-se apresentar como
vantagens:
O detalhamento do middleware OLAP distribudo, para que se possa gerenciar
consultas OLAP distribudas, com transparncia de fragmentao, alocao e
replicao para o usurio; e
Implementao e manuteno da arquitetura fcil, devido aos data marts serem
praticamente independentes entre si.

J os pontos negativos desta arquitetura se baseiam nos seguintes fatos:


A questo da segurana apresentada de modo superficial; e
Inexistncia de um componente que se encarrega de fazer a manuteno da
consistncia dos dados.
Na arquitetura proposta por Ciferri [CIFE02], pode-se listar como vantagens:
A definio das funcionalidades de cada componente e as responsabilidades dos
usurios na arquitetura;
Utilizao de algoritmos de fragmentao horizontal e vertical para a distribuio
dos dados nas diversas unidades de distribuio; e

50

Permite o acesso de usurios de sites que no armazenam pores do data


warehouse distribudo.
As desvantagens desta arquitetura podem ser analisadas atravs dos seguintes
aspectos:
Utilizao da abordagem top-down de desenvolvimento, visto que, a abordagem
bottom-up, atualmente, a mais usada nas empresas devido a implementao e
retorno mais rpido.

4.6 Recomendaes para a construo de arquiteturas de data


warehousing distribudo
A partir da anlise desenvolvida neste trabalho sobre as arquiteturas de data
warehousing distribudos, foram definidas recomendaes para a construo de outras
arquiteturas que tambm tratem o problema da distribuio do data warehouse. Assim, esta
seo sugere algumas boas prticas para o desenvolvimento destas arquiteturas.
Primeiramente, preciso definir qual a abordagem de desenvolvimento que ser
utilizada: a bottom-up ou a top-down. Por causa disto, sero feitas sugestes especficas
para cada uma destas abordagens.
Para a abordagem de desenvolvimento bottom-up de uma arquitetura de data
warehousing distribudo, as recomendaes para a sua construo so:
Utilizar uma ferramenta cliente que possibilite a gerao de relatrios e a interao
do usurio com o ambiente distribudo, a partir de consultas no formato MDX
(Multidimensional Expressions), que o mais utilizado atualmente para consultas
multidimensionais;
Utilizar uma ferramenta ETL em cada site de distribuio para fazer a extrao,
transformao e carga dos sistemas operacionais para o data warehouse;
Utilizar um middleware OLAP distribudo ou definir um componente de consulta
do ambiente distribudo, que proporcione o redirecionamento, o gerenciamento e a
posterior integrao das consultas OLAP feitas pelos usurios de SSD;
Se os dados forem replicados nos sites, ser necessria a definio de um
componente de manuteno do ambiente distribudo, que manter os dados
replicados consistentes;
Definir um gerenciador de metadados para manipular e um repositrio de
metadados para armazenar informaes semnticas sobre os esquemas dos data
warehouses locais e do data warehouse global, onde estes dois componentes tero
que ser replicados em cada site do ambiente distribudo;
Utilizar firewalls, autenticao de usurios, gerenciamento de usurios, criptografia
e programa antivrus para aumentar a segurana dos dados na arquitetura;
Utilizao da arquitetura genrica de trs camadas da Web como forma de acesso
aos dados da arquitetura de data warehouse distribudo, com o objetivo de facilitar
a manuteno de qualquer um dos componentes lgicos da aplicao (apresentao,
regras de negcio e gerenciamento de dados);

51

Utilizar a abordagem prtica para o problema da localizao dos dados proposta


por Moeller [MOE01] para maximizar o desempenho do sistema no atendimento s
consultas e minimizar o tempo gasto no carregamento dos dados; e
Utilizar um SGBD confivel, robusto, com baixos tempos de repostas e tolerante a
falhas para o armazenamento de todas as informaes.

Na abordagem bottom-up os data marts so construdos incrementalmente,


sugerindo que os dados j foram previamente fragmentados e alocados de acordo com o
contexto dos data marts locais, o que ocasiona a no utilizao do componente de
distribuio nesta abordagem, que seria responsvel por fragmentar, alocar e carregar os
dados nos data marts locais a serem distribudos. J na abordagem top-down este
componente indispensvel, pois atravs dele que sero gerados os fragmentos a serem
alocados, replicados e carregados em cada unidade de distribuio.
Com isso, pode-se observar que, todas as recomendaes feitas anteriormente para a
construo de uma arquitetura de data warehousing distribudo utilizando a abordagem
bottom-up de desenvolvimento, tambm podem ser usadas para a abordagem top-down. A
nica diferena a definio do componente de distribuio na arquitetura com abordagem
top-down de desenvolvimento, que indicar algumas recomendaes extras, listadas abaixo:
Identificar conjunto de critrios que deve ser utilizado para a definio de
restries a serem aplicadas aos processos de fragmentao, replicao e de
alocao dos dados do data warehouse global;
Utilizar metodologias e algoritmos para a fragmentao horizontal, vertical ou
mista dos dados do data warehouse global;
Utilizar metodologias e algoritmos baseados em heursticas para alocao e/ou
replicao dos fragmentos do data warehouse global em diferentes sites; e
Definir um componente responsvel pelo carregamento dos dados do data
warehouse global nas unidades de distribuio, com base no esquema de
fragmentao e no esquema de alocao.

52

5. Concluses e Trabalhos Futuros

Atualmente, com o grande volume de dados nas empresas, o ambiente de data


warehousing mostra-se como uma interessante tecnologia para auxiliar tomada de
decises estratgicas das empresas de forma rpida e segura.
Entretanto, devido ao crescente volume de dados manipulados, aumento do nmero
de consultas em funo do crescimento de usurios e s disperses geogrficas, os
ambientes de data warehousing podem estar perdendo em desempenho e disponibilidade.
Com isso, surgiram propostas de arquiteturas que tentam solucionar o problema da
distribuio em ambientes de data warehousing, com o intuito de aumentar a performance e
disponibilidade dos mesmos.
Neste trabalho, foram abordadas quatro destas propostas de arquiteturas de
ambiente de data warehousing distribudo, respectivamente as propostas feitas por Inmon
[INM02], Moeller [MOE01], Zhou et al. [ZZTH00] e Ciferri [CIFE02], para uma anlise
comparativa entre as mesmas, baseada em critrios abordados neste trabalho, destacando as
vantagens e desvantagens de cada uma destas arquiteturas.
O trabalho finalizou com a apresentao de recomendaes para construo de
arquiteturas de distribuio de data warehouse, considerando tanto a abordagem bottom-up,
quanto a top-down, a partir dos resultados da anlise desenvolvida.

5.1 Trabalhos Futuros


Em continuidade ao trabalho desta pesquisa, recomenda-se como trabalho futuro o
desenvolvimento de ferramentas que dem suporte a ambientes de data warehousing
distribudo, obtendo todas as vantagens proporcionadas pela distribuio. A anlise
comparativa destas arquiteturas, descrita neste trabalho, contribui para facilitar a escolha da
melhor arquitetura que servir de base para o desenvolvimento destas ferramentas.
No desenvolvimento das referidas ferramentas, pode-se utilizar as recomendaes
feitas neste trabalho como base, considerando:
O software Kettle [PEN07] como ferramenta ETL para o processo de extrao,
traduo e carga dos dados dos ambientes operacionais para os data warehouses
locais ou o data warehouse global;
O SGBD Oracle [ORA07] como ferramenta responsvel por armazenar todas as
informaes do ambiente distribudo;
Uma extenso do software Mondrian [PEN07] para possibilitar o gerenciamento, o
redirecionamento e a posterior integrao das consultas OLAP feitas pelo usurio de
SSD ao ambiente distribudo, funcionando como um Middleware OLAP
Distribudo;
O software JFreeReport [PEN07] como ferramenta responsvel por gerar relatrios
para a alta gerncia da empresa;
Java [SUN07] como linguagem de programao para desenvolver o componente de
manuteno, o gerenciador de metadados e, caso seja necessrio, o componente de
distribuio; e
53

O software Panda Antivirus + Firewall 2007 [PAN07] como ferramenta responsvel


por aumentar a segurana da rede e dos computadores que fazem parte da mesma.

Essas ferramentas, que daro suporte a ambientes de data warehousing distribudo,


tero como objetivo principal aumentar a disponibilidade dos dados, como tambm, o
acesso a estes dados.

54

Referncias Bibliogrficas:
[AJLW98] ALBRECHT, J.; LEHNER, W. 1998. On-Line Analytical Processing in
Distributed Data Warehouses. In Proceedings of the 1998 international Symposium on
Database Engineering & Applications (July 08 - 10, 1998). IDEAS. IEEE Computer
Society, Washington, DC, 78.
[BAR96] BARQUINI, Ramon; Planning and designing the Warehouse, New Jersey,
Prentice-Hall, 1996, 311 pg.
[CCSF02] CIFERRI, C.D.A., SOUZA, F.F. Focusing on Data Distribution in the WebD2W
System. In Proceedings of the 4th International Conference on Data Warehousing and
Knowledge Discovery, pages 265-274, Aix-en-Provence, France, September 2002, volume
2454 of Lecture Notes in Computer Science, Springer, 2002.
[CHAU97] CHAUDHURI, S.; DAYAL, U. An Overview of Data Warehousing and OLAP
technology. SIGMOD record, 26(1):65-74, 1997.
[CIFE02] CIFERRI, C. D. A.; Distribuio dos Dados em Ambientes de Data
Warehousing: O Sistema WebD2W e Algoritmos Voltados Fragmentao Horizontal dos
Dados. Universidade Federal de Pernambuco, 2002.
[COSTA05] COSTA, M.V.C.S., Fragmentao Vertical de Data Warehouse em Termos de
Medidas Numricas: Um Algoritmo Bsico.Universidade Federal de Pernambuco, 2005.
[DAL99] DALALBA, Adriano. Um estudo sobre Data Warehouse, Faculdade de Cincias
Administrativas Valinhos, 1999
[ERNS04] ELMASRI, Ramez; NAVATHE, Shmakant B.; Fundamentals of Database
Systems, 4 ed., Addison-Wesley, 2004.
[FFRC07] FAVARETO, F. ; Rhoden, C.A. Consideraes sobre Atividades de
Identificao, Localizao e Tratamento de Dados na construo de um Data Warehouse,
Pontifcia Universidade Catlica do Paran . Disponvel em
www.pr.gov.br/congressobd/Artigos/Artigo_05.pdf, acessada em 23/03/2007.
[INM96] INMON, W. H. Building the Data Warehouse, John Wiley & Sons Inc., New
York, 1996.
[INM02] INMON, W. H. Building the Data Warehouse, John Wiley & Sons Inc., New
York, 2002.
[KIM96] KIMBALL, Ralph; The Data Warehouse Toolkit. John Wiley & Sons Inc., New
York, 1996.

55

[MOE01] MOELLER, R.A. Distributed Data Warehousing using Web Technology.


AMACONAmerican Management Association, USA, 2001.383 pp. ISBN 0-8144-0588-6.
[NASC05] NASCIMENTO, A.L, Um Algoritmo baseado em Grafo de Derivao para
Realizar Fragmentao Vertical Unidimensional em Data Warehouse.Universidade
Federal de Pernambuco, 2005.
[NOA00] NOAMAN, A. Y., Distributed Data Warehouse Architecture And Design.
University of Manitoba. Canada, 2000.
[ORA07] ORACLE CORPORATION. Disponvel em: www.oracle.com, acessado em
22/03/2007.
[PAN07] PANDA SOFTWARE. Disponvel em: http://www.pandasoftware.com, acessado
em 22/03/2007.
[PEN07] PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE. Disponvel em:
http://www.pentaho.com, acessado em 22/03/2007.
[SOAR98] SOARES, V.J.A, Modelagem Incremental no Ambiente de Data Warehouse.
Universidade Federal do Rio de Janeiro, 1998.
[SUN07] SUN MICROSYSTEMS. Disponvel em: http://java.sun.com, acessado em
22/03/2007.
[TVFR07] TIMES, Valria; FIDALGO,Robson. DW, OLAP e Modelagem
Multidimensional. Disponvel em: www.cin.ufpe.br/~if695, acessado em 21/01/2007.
[TERRA07]
Business
Intelligence.
Disponvel
http://paginas.terra.com.br/negocios/processos2002/bi.htm, acessado em 03/04/2007.

em:

[ZZTH00] ZHOU, Shuigeng; ZHOU, Aoying; TAO, Xiaopeng; HU, Yunfa. Hierarchically
Distributed Data Warehouse, hpc, p. 848, The Fourth International Conference on HighPerformance Computing in the Asia-Pacific Region-Volume 2, 2000.
[WDCP96] WELLS, D. CARNELLY, P. Ovum eveluation: the Data Warehouses. Ovum
Ltd., Londo, 1996.

56