Você está na página 1de 13

FERRAMENTA DE CONSTRUO DE DATA WAREHOUSE

Maurcio Capobianco Lopes1, Percio Alexandre de Oliveira2


1

Departamento de Sistemas e Computao - Universidade Regional de Blumenau (FURB) Rua Braz Wanka, 238 89.035-260 Blumenau, SC Brasil
mclopes@furb.br, percio@inf.furb.br

RESUMO: O Data Warehouse uma soluo que procura de maneira flexvel e eficiente tratar grandes volumes de dados e obter informaes que auxiliem no processo para tomada de deciso. Assim, este artigo apresenta uma ferramenta com foco a usurios e projetistas de data warehouse, visando reduzir custos no processo de construo deste ambiente. A ferramenta foi desenvolvida em Java garantindo a portabilidade de seu sistema que implementa as principais fases de um projeto de data warehouse: extrao, transformao e carga dos dados; visualizao, anlise e tratamento das informaes.

Introduo
A crescente competio em mercados cada vez mais dinmicos est levando as empresas a tomarem decises mais rapidamente. Sendo assim a informao tornou-se o bem mais valioso dentro das instituies. Os administradores tomam suas decises com base na anlise de dados objetivos, sintetizados e confiveis acima de tudo, sempre com o intuito maior de melhorar e aperfeioar processos internos. dentro deste cenrio que hoje se torna imprescindvel a utilizao de recursos computacionais para levantar e analisar as informaes necessrias. Uma das principais ferramentas que constitui a nova gerao de Sistemas de Apoio a Deciso (SAD) o Data Warehouse (DW), um banco de dados especfico para propsitos gerenciais e estratgicos (DW BRASIL, 2005). Para Kimball (1998 apud COME, 2001, p. 2), DW o lugar onde as pessoas podem acessar seus dados. A abordagem de Ralph Kimball veio com um estilo mais simples e incremental, baseado na metodologia estrela que aponta para Data Marts (DM) separados, que devero ser integrados na medida da sua evoluo (BARBIERI, 2001). J Wang (1998 apud COME, 2001, p. 2) tem uma definio um pouco mais elaborada quando diz que DW o processo pelo qual os dados relacionados de vrios sistemas operacionais so fundidos para proporcionar uma nica e integrada viso de informao de negcios que abrange todas as divises da empresa. Assim, este trabalho apresenta uma ferramenta de DW para auxiliar seus usurios no processo de transformao de dados operacionais em informaes gerenciais, viabilizando consultas em diversos nveis de detalhe. A ferramenta totalmente executvel em ambiente web, sendo, desta forma, acessvel atravs dos principais navegadores hoje disponveis no mercado. Trata-se, portanto, de uma ferramenta genrica para a construo e implantao de um DW, sem perder de vista sua

usabilidade, dando suporte tanto ao projetista do DW quanto ao seu usurio. Todos os detalhes de especificao e desenvolvimento desta ferramenta esto disponveis no trabalho de Oliveira (2007).

DATA WAREHOUSE
O termo Data Warehouse significa armazm de dados. definido como um ambiente que prov informaes de suporte deciso que, no ambiente operacional, se tornariam difceis de serem obtidas. Em outras palavras, pode ser comparado como um banco de dados especial, estruturado de forma a facilitar o processamento para anlise dos dados. O conceito de DW surgiu da necessidade de integrar dados corporativos espalhados em diferentes mquinas e sistemas operacionais, para torn-los acessveis a todos os usurios dos nveis decisrios (NAVARRO, 1996). Entretanto, essa integrao deve ser feita com uma seleo cuidadosa e otimizada dos dados j que a prioridade na utilizao do ambiente do DW o processamento de consultas e no o processamento de transaes. A Figura 1 ilustra toda a estrutura interna que o ambiente de DW representa.

Figura 1 Estrutura interna do DW

Um DW exige a criao de metadados que define as principais informaes de um projeto de DW, alm de sua documentao (VIEIRA, 2000). De acordo com Vieira (2000) algumas informaes que o metadados deve conter so: a estrutura dos dados segundo a viso do programador e dos analistas de SAD; a origem das fontes de dados que alimentam o DW; a transformao dos dados ocorrida no processo de migrao para o DW; o modelo de dados e seu relacionamento com o DW; o histrico das extraes de dados; as informaes sobre as consultas e relatrios; acesso e segurana e os indicadores de qualidade de dados. Uma das tcnicas utilizadas para a criao do projeto lgico de um DW a da modelagem dimensional. Esta tcnica caracterizada pela criao do esquema estrela a partir do esquema conceitual criado na fase de anlise do DW. Para Kimball (1997 apud COME, 2001, p. 51) modelagem dimensional uma tcnica utilizada para a definio do projeto lgico de um DW. Trs conceitos bsicos so importantes nesta modelagem: tabelas fatos ou cubos de deciso que representam as transaes de negcios, as dimenses que so os diferentes tipos de vises que os usurios iro utilizar para analisar as mtricas e os indicadores ou mtricas que podem ser definidos como os

atributos numricos de um fato representando o comportamento de um negcio para as dimenses. Outro conceito importante em um projeto de DW o processo de extrao, transformao e carga (ETC) que o mais trabalhoso na construo de um DW. Durante essa etapa importante ter uma eficiente integrao de dados j que os mesmos podem vir de mltiplas fontes. Sua transformao deve ser feita de forma a gerar informaes consistentes e de qualidade. Essa etapa caracterizada por ser uma das mais crticas j que uma informao carregada erroneamente trar conseqncias imprevisveis nas fases posteriores (SILVA, 2005, p. 19).

A FERRAMENTA
A ferramenta para a construo de um DW conta com dois atores: o usurio de consultas e o administrador projetista. Neste trabalho, a nfase principal com as funes disponibilizadas ao administrador, uma vez que ao usurio caber apenas a tarefa de efetuar as consultas. As operaes realizadas pelo administrador podem ser divididas nos seguintes processos: montagem do projeto de DW, ETC, consultas, metadados e recursos adicionais da ferramenta. Para as operaes de montagem de projeto destacam-se os seguintes casos de uso: a) cadastrar Data Warehouse: cria um novo projeto de DW baseado no modelo dimensional estrela; b) cadastrar dimenso: grava as definies referentes a uma dimenso bem como seus atributos e chave primria; c) cadastrar cubo: grava as definies referentes a um cubo de deciso bem como seus indicadores e dimenses relacionadas. Para o processo de ETC destacam-se: a) cadastrar conexo: cria uma nova conexo com um banco de dados que ser disponibilizado para extrao de dados para as dimenses e cubos do DW; b) cadastrar fonte de dados: cria uma ou mltiplas fonte de dados atravs das quais ir se fazer a extrao, transformao e carga dos dados para as dimenses ou cubos de um DW. Para as operaes de consultas destaca-se: a) cadastrar consulta: define consultas gerenciais baseadas na modelagem dimensional do cubo de deciso; b) visualizar e configurar consultas: acesso e configurao sobre as consultas cadastradas. Outros recursos adicionais da ferramenta so: a) exportar metadados: exporta todas as definies referentes a um projeto de DW em padro XML, b) importar metadados: importa para o sistema um novo projeto de DW gerado em XML; c) visualizar agendamento: apresenta ao administrador todos os agendamentos de fontes do dia corrente que ainda esto em aberto para processamento; d) visualizar log de mensagens: mostra as principais ocorrncias dentro do sistema como informaes de importao, erro e tratamento de excees;

e) limpar Data Warehouse: processa limpeza de dados e do contedo dos projetos de DW do sistema; f) cadastrar usurio: cria novos usurios para acesso ao sistema. O diagrama de classes da ferramenta apresentado na Figura 2, foi dividido em trs partes: (a) ETC que apresenta o modelo necessrio para o processo de extrao, transformao e carga dos dados dentro do DW; (b) PROJETO que apresenta o modelo necessrio para o processo de construo de um projeto de DW; (c) CONSULTA que apresenta o modelo necessrio para a visualizao e configurao das consultas do DW. Em cada processo existem classes comuns que so utilizadas e que possuem funcionalidades especficas. ETC

CONSULTA

PROJETO

Figura 2 - Diagrama de classes dos pacotes principais do sistema

O sistema ainda apresenta outros pacotes menores que apresentam diagramas mais simples e que possuem finalidades especficas (OLIVEIRA, 2007). A ferramenta foi desenvolvida na plataforma Java. O sistema foi compilado utilizando o J2SE 1.5 e roda em um servidor que implementa a especificao J2EE 1.4 ou superior. Para o desenvolvimento de aplicaes web foi utilizado o Integrated Development Environment (IDE) Eclipse 3.2.1 acrescido do plugin MyEclipse 5.1.1 que utiliza servlets com interfaces JSP. O servidor de aplicaes utilizado foi o Apache Tomcat 5.5.23. Para a implantao do AJAX foram utilizadas implementaes javascripts com grids, para os quais utilizou-se a biblioteca de scripts da Zapatec, que possui diversas modelagens para tabela de dados. O banco de dados utilizado foi o MySQL 5.0 com interfaces de conexo JDBC. As tabelas do modelo objeto relacional esto descrita no trabalho de Oliveira (2007). A seguir ser apresentada a operacionalidade do sistema assim como suas principais interfaces e operaes. Para ilustrao do funcionamento de todo o processo de construo de um DW tomou-se como estudo de caso o faturamento de uma empresa fictcia com as seguintes definies de projeto: a) manter o histrico de vendas da empresa; b) consultar a soma das vendas em valor total da nota fiscal por data (ano e ms) e clientes (estado); c) consultar a mdia de vendas em valor total da nota fiscal por representante (nome) e clientes (nome), alertando o usurio onde a mdia das vendas foram abaixo de duzentos reais na cor vermelha e acima na cor verde; d) consultar os vinte produtos mais vendidos em quantidade no ano de 2007.

Para apresentar este estudo de caso foi criado dentro da ferramenta um projeto de DW utilizando o usurio padro DWADMIN. A Figura 3 ilustra a tela de login de usurio e a tela onde o administrador pode cadastrar um novo projeto de DW ou j selecionar projetos existentes.

Figura 3 Tela de login

Com o projeto criado, o administrador pode dar seqncia montagem do DW. Assim, inicialmente necessrio cadastrar uma conexo com o banco de origem dos dados de vendas da empresa. Tendo uma conexo estabelecida com uma base de dados, o projeto de DW pode comear a ser definido atravs do cadastro das dimenses e atributos, cubos e indicadores e suas fontes de dados respectivamente. Para o estudo de caso foram feitas as seguintes definies: (a) dimenso cliente: atributos nome e estado; (b) dimenso data: atributos ano e ms; (c) dimenso representante: atributo nome; (d) dimenso produto: atributos nome e tipo; (e) cubo venda: indicadores valor total e quantidade. A Figura 4 ilustra o cadastro de uma dimenso e de um atributo. Aps todos os atributos estarem definidos para a dimenso, realizada a definio da chave primria da dimenso ilustrada pela Figura 5.

Figura 4 Tela de cadastro de dimenso

Figura 5 Tela de definio de chave primria da dimenso

Aps o administrador cadastrar todas as dimenses a serem utilizadas no cubo de deciso, foi feito o cadastro do mesmo e definidos seus indicadores. Para o cubo tambm necessrio a definio das dimenses utilizadas. O cadastro do cubo de deciso determina que o modelo projetado para o DW esteja pronto para ser carregado com os dados. Desta forma, o processo de ETC realizado atravs das fontes de dados que cada dimenso e cubo possuem, pelo roteiro desta fonte de dados que realiza o mapeamento da origem do dado com o projeto definido no DW e, por ltimo, pela importao dos dados que podem ainda ser agendados e processados periodicamente. A Figura 6 ilustra o cadastro de uma fonte de dados, neste caso para o cubo de deciso VENDA e o roteiro desta mesma fonte de dados. Neste caso, por ser um cubo, necessrio mapear tanto os indicadores como as chaves primrias de cada dimenso relacionada. Para as dimenses apenas os atributos necessitam ser roteirizados.

Figura 6 Tela de cadastro de fonte de dados e tela de roteiro de uma fonte de dados

O prximo passo a montagem das consultas. O administrador deve cadastrar a consulta e definir os seus eixos. A Figura 7 ilustra o cadastro de uma consulta e a

definio de um novo eixo para esta consulta. O eixo de indicadores possui a definio das funes de agregao representada na Figura 8, que tambm apresenta a consulta de vendas por estado, onde o administrador utiliza o recurso de drill-down.

Figura 7 Tela de cadastro de consultas e Tela de cadastro de eixos da consulta

Figura 8 Tela de cadastro de eixos de indicadores da consulta e Tela de definio da consulta com drill-down

Para visualizar o resultado das consultas utilizado um perfil de usurio onde apenas a visualizao das consultas, a edio de filtro, alerta e ranking esto disponveis. As Figura 9, Figura 10 e Figura 11 mostram um exemplo do resultado da consulta de vendas por ano, ms e estado do cliente.

Figura 9 Tela de consulta de vendas por ano com drill-down

Figura 10 Tela de consulta de vendas por ano e ms com drill-down

Figura 11 Tela de consulta de vendas por ano, ms e estado com drill-down

Para montar a consulta de vendas por representantes e clientes utilizado o recurso de alerta para destacar os resultados obtidos. A Figura 12 mostra exemplos do resultado da consulta de vendas por representante e por clientes.

Figura 12 Tela de consulta de vendas por representante com alerta e Tela de consulta de vendas por representante e clientes com alerta

Para montar a consulta de vendas por produto so utilizados os recursos de filtro e ranking. A Figura 13 mostra um exemplo do resultado da consulta de produtos.

Figura 13 Tela de consulta de vendas por produto com filtro e ranking

RESULTADOS E DISCUSSO
A ferramenta de DW apresentada neste artigo foi desenvolvida com o propsito final de garantir desempenho e usabilidade funcional nas consultas gerenciais que se utilizam de grande volume de dados gravados em bases histricas e banco de dados transacionais. Para avaliar o resultado obtido foi utilizado o estudo de caso citado neste trabalho sendo feitas comparaes entre as consultas processadas diretamente no banco transacional e um banco de dados gerado pela ferramenta de DW. Os pontos avaliados so: tempo de processamento de um consulta, total de tabelas consultadas e quantidade de registros processados. A Tabela 1 mostra os resultados obtidos para a consulta de vendas por ano, ms e estado do cliente em cada nvel de detalhamento dos dados. A Tabela 2 mostra os resultados obtidos para a consulta de vendas por representante e clientes e a

b'pv@h p g hi h cs p cb e p i qi h @ih p g cb e p i qi VFU )H"GF@#'@#%$ U   ( ! E D ( 9 ! W T b'vx'vh p e gb p w b'q@h p ihi b p ihi 'q@h cdbei vs p h c cdi b e cb e di

i i e g b Y` x@Y f i e i` @ag h h s b b Y` d@@Y g b g Y` %"aY V  9 V A ! 9 U #! T  B%U 3C@W3$ 8H5#u32"")'T'$ 7  4  ! % U    0  ( & U &   ! 9 0 ! !  ( & ( #uSBE8C#8@##'uy

r X 9 P SRQI t r X 9 P SRQI

 V )( ! E D ( 9 ! U % %UH"GFC'@#WT$  

Tabela 3 mostra os resultados obtidos para a consulta de venda por ano e produto.

Tabela 2 Resultados da consulta venda por representante e cliente

i h g f b Y` 1"aY s g h h` u"a"b h b f f Y Y` @aY h s b Y` daY h b g f Y Y` 1aY e c b Y` daY V U  9 V A 9 U #! T  B%U #! @%$ 865#32"1)'%$ 7  4  ! F U    0  ( & & T   !      #" 

Tabela 1 Resultados da consulta venda por data e estado

Tabela 3 Resultados da consulta venda por produto

O processo de ETC das principais fontes de dados envolvidas neste projeto o responsvel por este desempenho favorvel ao DW, tornando as consultas mais eficientes e rpidas. A Tabela 4 mostra o tempo exigido pelo processo de ETC. A otimizao deste processo atravs de consultas SQL, bancos de dados indexados e relacionamentos corretos que garantem um processo de ETC mais eficiente.
Tabela 4 Resultados do processo de ETC

CONSIDERAES FINAIS
Com o propsito principal de obter informaes gerenciais detalhadas e resumidas provenientes de banco de dados histricos e transacionais, a ferramenta apresentada atinge os objetivos a que se prope demonstrando ser bastante eficiente, uma vez que aplica os conceitos e tcnicas de um sistema de apoio deciso, neste caso o DW, auxiliando no processo de extrao de dados, transformando-os em informaes e apresentando-os de forma a obter indicaes da evoluo e histrico dos dados. Uma das principais vantagens de migrar os dados transacionais para um banco de dados DW a organizao dos dados garantindo a integridade e qualidade com que os dados so gravados. no processo de ETC que as informaes passam a ser distribudas e modeladas seguindo as definies do projeto criado na ferramenta. Para obter qualidade dos dados implementado o conceito de chave primria dentro das dimenses e chave estrangeira dos cubos em relao s dimenses. As chaves primrias definidas garantem a unicidade dos registros, no permitindo ocorrncias duplicadas, servindo ainda como referncia na montagem das chaves primrias dos cubos de deciso. A ferramenta utiliza-se destas referncias para executar a limpeza dos dados garantindo que registros que no possuem integridade referencial vlidas sejam descartados. A ferramenta apresenta tcnicas de modelagem de dados que mostram o quanto importante organizar, referenciar e garantir a integridade dos dados, transformando-os em informaes de grande valor para as organizaes. Atravs dos cubos de deciso a ferramenta orienta as informaes por assunto, permitindo montar consultas para cada caracterstica em comum que os dados possam apresentar. Ainda, de forma integrada, preocupa-se em trazer dados que possuam informaes idnticas, porm de diferentes fontes unificando o estado do dado. Desenvolvida em ambiente web a ferramenta acessvel atravs de qualquer navegador de internet, tendo assim um grande diferencial de usabilidade.

b p e gb p w 'vx'vh

sei 2g i f s g 31i gseb 221b Yw s  (! E D ( 9 !  )H"GF@#'@#$

V U %( ! E D ( 9 !   )U H"G%#'@C3$ T

sf seb p cb e 321'di

ee g h vjif eb dml ei h h jie ehb h f "'jiuh eb e ddb 7 E  4  !    0 ( &  &  S55#u32"")''$

V V U  9 % A 9 U C!T  7  4  ! % U    0  ( &  T &  @BU 3#! @W3$ 2H5#2""3'$ ! ( & CF#'uy i h e s b Y` 3d@Y w g c b` c 8d3b

 A n3W C!#!2C%52u3E U  ( & k    ! # 2u3E      ( fU    #!FCg2u3E U ! E9    #u3B2u3E UU

X 9 P SRQI

Ainda por estar em sua primeira verso, a ferramenta pode evoluir em diversas extenses, tais como, novas funes de agregao e aplicao de algoritmos de minerao de dados, entre outros, permitindo ganhos de qualidade e aproveitamento no gerenciamento estratgico, ttico e operacional de uma organizao.

REFERNCIAS BIBLIOGRFICAS
BARBIERI, Carlos. BI Business Intelligence Modelagem & Tecnologia. Rio de Janeiro: Editora Axel Books, 2001. COME, Gilberto. Contribuio ao estudo da implementao de data warehousing: um caso no setor de telecomunicaes. 2001. 132 f. Dissertao (Mestrado em Administrao) Curso de Ps-graduao em Administrao, Universidade de So Paulo, So Paulo. DW BRASIL. Caractersticas de um data warehouse. Braslia, 2005. Disponvel em: <http://www.dwbrasil.com.br/html/artdw_carac.html>. Acesso em: 11 set. 2006. INMON, William H. Como construir o data warehouse. Traduo Ana Maria Netto Guz. Rio de Janeiro: Campus, 1997. NAVARRO, Maria C. O que Data Warehouse? Braslia, 1996. Disponvel em: <http://www.serpro.gov.br/publicacao/tematec/1996/ttec27>. Acesso em: 13 mai. 2007. OLIVEIRA, Prcio A. Ferramenta de construo de Data Warehouse. 2007. 89 f. Trabalho de Concluso de Curso (Bacharelado em Cincia da Computao) Departamento de Sistemas e Computao, Universidade Regional de Blumenau, Blumenau. SILVA, Diogo. SITC: uma ferramenta de transformao e carga para um data warehouse. 2005. 31 f. Trabalho de Concluso de Curso (Bacharelado em Cincia da Computao) Instituto de Matemtica, Universidade da Bahia, Salvador. VIEIRA, Fernando. Alguns conceitos sobre DW. So Paulo, 2000. Disponvel em: <http://www.datawarehouse.inf.br/>. Acesso em: 19 set. 2006.

Você também pode gostar