Escolar Documentos
Profissional Documentos
Cultura Documentos
DATA WAREHOUSE
Apostila originalmente organizada por: Profa. Marina Teresa Pires Vieira Prof. Joaquim Cezar Felipe
1. INTRODUO.............................................................................................................................................4 2. CONCEITOS BSICOS ..............................................................................................................................7 2.1. Data Warehouse.................................................................................................................................7 2.2. Data Warehousing..............................................................................................................................7 2.3. Aplicaes sobre o DW para tomada de deciso ..............................................................................9 2.4. Caractersticas de Data Warehouses...............................................................................................10 2.5. Arquitetura do Data Warehousing ..................................................................................................12 2.6. Data Mart (DM)...............................................................................................................................13 3. MODELAGEM DE DADOS PARA DW..................................................................................................15 3.1. Modelo de dados multi-dimensional ................................................................................................15 3.2. Consultas OLAP...............................................................................................................................18 3.2.1. Agregao......................................................................................................................................19 3.2.2. Roll-up ..........................................................................................................................................19 3.2.2. Drill-down....................................................................................................................................20 3.2.4. Pivot...............................................................................................................................................21 3.2.5. Comparando com consultas SQL..................................................................................................21 4. PROJETO DO DATA WAREHOUSE .....................................................................................................24 4.1. Esquema Estrela ..............................................................................................................................24 4.2. Esquema Snowflack..........................................................................................................................25 4.3. Constelao de Fatos.......................................................................................................................27 4.3. Vises Materializadas.......................................................................................................................27 4.4. Construindo um Data Warehouse....................................................................................................28 4.5. Resumindo as Funcionalidades Tpicas de Data Warehouses ........................................................32 4.6. Consideraes Finais.......................................................................................................................33 4.6.1. Data warehousing e Vises ....................................................................................................33 4.6.2. Dificuldades na Implementao de Data Warehouses..................................................................34 5. SERVIDORES OLAP.................................................................................................................................35 5.1. Servidores ROLAP............................................................................................................................35 5.2. Servidores MOLAP...........................................................................................................................36 5.3. Servidores HOLAP...........................................................................................................................36 5.4. On-Line Analytical Mining (OLAM)................................................................................................37 APNDICE A..................................................................................................................................................39 ESTUDO DE CASO 1 Criao de um Data Mart...............................................................................39 APNDICE B...................................................................................................................................................45 ESTUDO DE CASO 2 Cubo Multidimensional e OLAP......................................................................45 BIBLIOGRAFIA.............................................................................................................................................53
1. Introduo
Os recursos tecnolgicos de hardware e software, oferecidos nos ltimos anos, para o armazenamento, manuteno e compartilhamento de dados tm permitido aos usurios de banco de dados (empresas, pesquisadores e rgos governamentais) manter quantidades de informaes cada vez maiores em suas bases de dados. Esse grande volume de dados excede a capacidade humana de anlise e compreenso, mesmo utilizando mtodos como planilhas eletrnicas e ambientes de consulta ad hoc. Isso motivou o grande investimento em pesquisa, que vem ocorrendo, relacionada s tecnologias envolvidas em data warehousing. Data Warehousing e On-Line Analytical Processing (OLAP) surgiram como elementos essenciais de apoio deciso, atraindo ateno cada vez maior da indstria de bancos de dados. Data Warehousing uma coleo de tecnologias de apoio deciso, voltadas a capacitar o usurio a realizar tomadas de deciso mais rpidas e precisas. O produto da aplicao dessas tecnologias o Data warehouse, uma base de dados temporais, no volteis e integrados, tipicamente mantida separadamente da base de dados operacionais da empresa. Para facilitar anlises e visualizaes complexas, os dados em um warehouse so modelados de forma multi-dimensional, onde cada elemento de importncia relevante corresponde a uma dimenso (por exemplo, produto, tempo e regio num warehouse de vendas). Essas dimenses podem ser organizadas em hierarquias (por exemplo, produto - tipo - categoria) a fim de permitir diferentes nveis de agregao durante a anlise. OLAP (on-line analytical processing) um conjunto de operaes que
podem ser executadas sobre o Data Warehouse, a fim de viabilizar a extrao eficaz de informaes do mesmo. Os requisitos funcionais e de desempenho dessas operaes so totalmente diferentes do processamento de transaes online (OLTP on-line transaction processing) suportadas pelas bases de dados operacionais. das aplicaes tradicionalmente
2. Conceitos Bsicos
2.1. Data Warehouse
Data warehouses tm sido desenvolvidos nas organizaes para resolver necessidades particulares, com enfoques variados, no possuindo, portanto, uma definio nica para o termo. Data warehouses so projetados para suportar extrao, processamento e apresentao eficientes de informao para propsitos analticos e tomada de deciso. O significado de data warehouse tem sido difundido em uma variedade de maneiras na literatura. Inmon [1] caracterizou data warehouse (DW) como uma coleo de dados orientada a assuntos, integrada, no voltil e varivel no tempo, que usada para apoio a decises gerenciais. Em comparao a bancos de dados tradicionais, data warehouses geralmente contm quantidade muito grande de dados vindos de diversas fontes que podem incluir bancos de dados de diferentes modelos de dados e algumas vezes arquivos adquiridos de sistemas e plataformas independentes.
Algumas aplicaes usuais de Data Warehousing: Anlises de vendas e marketing. Movimentao de inventrio e acompanhamento de produo em manufaturas. Otimizao de rotas e anlise de riscos em transportes. Anlise de lucros e riscos em empreendimentos bancrios. Anlise de reclamaes ou deteco de fraudes em seguradoras.
Dados operacionais: so os dados originais utilizados nas transaes normais dos sistemas, ou seja, aqueles dados tipicamente armazenados, recuperados e atualizados pelo sistema. So majoritariamente armazenados em bases de dados relacionais, podendo, porm, ser armazenados em bases hierrquicas ou at mesmo em arquivos simples. Algumas das caractersticas dos dados operacionais incluem: Freqentemente atualizados atravs de transaes online. Dados no histricos (geralmente no mais que trs a seis meses anteriores). Otimizados para processamento transacional. Tipicamente normalizados em bases relacionais, para otimizar
Dados informativos: so dados tipicamente armazenados com o objetivo de tornar a anlise mais eficaz. Essa anlise pode ocorrer na forma de ambientes de apoio deciso, sistemas de informaes executivas ou anlises estatsticas 8
quais requerem dados mais histricos do que aqueles geralmente mantidos em bancos de dados transacionais;
10
isto , a informao no data warehouse muda muito menos freqentemente e pode ser considerado como no sendo de tempo-real com atualizao peridica.
Algumas caractersticas de data warehouses so: Viso conceitual multi-dimensional; Dimensionalidade genrica; Nveis de dimenses e agregaes ilimitadas; Operaes cross-dimensional irrestritas; Manipulao de matriz esparsa dinmica; Arquitetura cliente-servidor; Suporte a multi-usurio; Manipulao de dados intuitiva; Flexibilidade na elaborao de relatrios.
Geralmente data warehouses envolvem grandes volumes de dados (na ordem de terabytes), o que leva a diferentes abordagens: Data warehouses de todo o empreendimento so projetos muito
grandes requerendo investimento massivo de tempo e recursos. Data warehouses virtuais fornecem vises de bancos de dados
operacionais que so materializadas para acesso eficiente. Data marts so geralmente idealizados para um subconjunto da
11
12
Data Mining
Ferramentas
As informaes sobre os dados do warehouse so armazenadas no catlogo do sistema e freqentemente armazenado e gerenciado em um banco de dados separado chamado repositrio de metadados. O tamanho e complexidade do catlogo em parte devido ao tamanho e complexidade do warehouse em si e em parte porque uma grande poro de informao administrativa deve ser mantida. Por exemplo, precisamos ser informados sobre a fonte de cada tabela do warehouse e quando ela sofreu o ltimo refresh, alm da descrio de seus campos.
unidade especfica de negcios. Data Marts no so diferenciados dos DWs com base no tamanho, mas no uso e gerenciamento. Entretanto, DMs so menores e menos complexos do que DWs e portanto so tipicamente mais fceis de construir e manter. Em mdia, um DM pode ser construdo num perodo de 3 a 6 meses, enquanto um DW leva de 2 a 3 anos para ser concludo. Os motivos que levam ao desenvolvimento de um Data Mart podem ser: 13
14
Produto
A figura 3 mostra uma matriz bi-dimensional, apresentando os produtos como linhas, com rendimento de venda para cada local compreendendo as colunas. Essa matriz pode estar representando o rendimento das vendas por
15
LOC2
LOC3
...
A adio de uma dimenso tempo, produz uma matriz tri-dimensional que pode ser representada usando o cubo de dados. A figura 4 mostra um cubo que organiza dados de venda de produto por data e regies de venda. Cada clula representa a venda de um produto especfico, em um perodo de tempo especfico (ano, trimestre, ms,...) em um local especfico. Adicionando outras dimenses, teremos um hipercubo. Tempo t4 (codTempo) Os dados podem ser consultados diretamente em qualquer combinao de t3 dimenses, permitindo que consultas complexas no banco de dados original t2 sejam realizadas de forma mais direta e com maior desempenho. Existem t1 ferramentas que permitem a visualizao dos dados de acordo com a escolha de Reg1 Reg2 Reg3 P1 dimenses do usurio. ... Local . Num ambiente relacional os dados da matriz multi-dimensional podem ser (codLocal) P2 Produto representados como uma relao, como ilustrado na figura 5. Nessa relao as (codProd) tuplas estoP3 agrupadas de acordo com as fatias (slices) verticais, paralelas com relao ao eixo do tempo. Essa relao que associa as dimenses medida de interesse ... chamada tabela fato. Note na figura 5 que somente constam da tabela as composies produto-local-tempo que possuem valor de vendas. Cada dimenso pode ter um conjunto de atributos associados. Por exemplo, a dimenso Local identificada pelo atributo codlocal, que foi usado para identificar um local na tabela Vendas. A dimenso Local pode ter os atributos adicionais Cidade, Estado e Pas. A dimenso Produto pode conter os atributos codProd, Descrio, Marca, Categoria, Estilo, Preo. A Categoria de um produto indica sua 16
Figura 4. Cubo de dados de vendas
As dimenses podem ser representadas como relaes: Local (codLocal, Cidade, Estado, Pas) Produto (codProd, Descrio, Marca, Categoria, Estilo, Preo) Tempo( codTempo, Data, Semana, Ms, Trimestre, Ano)
Para cada dimenso, o conjunto de valores associados podem ser estruturados em uma hierarquia. Por exemplo, cidades pertencem a estados e estados pertencem a pases. Datas pertencem a semanas e a meses; semanas e meses esto contidos em trimestres e trimestres esto contidos em anos. A figura 17
trimestre
cdigo produto
semana
data
Figura 6. Possveis hierarquias para Produto, Tempo e Local
18
Uma operao muito comum agregar uma medida sobre uma ou mais dimenses. Exemplos de consultas tpicas so:
Encontrar o total de vendas. Encontrar o total de vendas para cada cidade. Encontrar o total de vendas para cada estado. Encontrar os cinco produtos mais vendidos. As trs primeiras consultas podem ser expressas como consultas SQL sobre as tabelas fato e dimenso, mas a ltima consulta no pode ser expressa em SQL (embora se possa conseguir um resultado satisfatrio ordenando o total de vendas atravs de ORDER BY). Um outro uso de agregao sumarizar em diferentes nveis de hierarquia. Isso conseguido atravs das operaes OLAP roll-up e drill-down que oferecem visualizaes hierrquicas dos dados.
3.2.2. Roll-up
A operao roll-up realiza um aumento no nvel de agregao dos dados, agrupando em unidades maiores ao longo da dimenso. Por exemplo, a figura 7 mostra os dados de venda usando a operao roll-up que, a partir de informaes de venda de produtos individuais por local (por cidade), faz um agrupamento de categorias de produtos, apresentando o total de vendas por categoria de produto (por exemplo: categoria Roupa abrange os produtos P1 a P10, a categoria Calado abrange os produtos P11 a P15, etc.). LOCAL CATEGORIAS DE PRODUTOS So Carlos 10.000 Ribeiro Preto 15.000 ... ... 19
Roupa
3.2.2. Drill-down
A operao drill-down oferece a capacidade oposta, fornecendo uma viso mais detalhada. Por exemplo, dado o total de vendas por estado e por categoria de produto, podemos solicitar uma apresentao mais detalhada desagregando vendas de cada estado por cidade e tambm quebrando categoria de produtos por estilos, conforme figura 8.
So Paulo ... S.Carlos Rib.Preto A BEstilos Roupa C D Estilos A Calado B D Estilos A Bijouteria B C Lins Assis
20
3.2.4. Pivot
A mudana de uma hierarquia dimensional (orientao) para uma outra facilmente obtida em um cubo de dados utilizando a tcnica chamada pivoting (ou rotao). A operao pivot realiza uma re-orientao do ngulo de viso dos dados. Nessa tcnica, os eixos podem ser mostrados em orientaes diferentes. Por exemplo, pode-se fazer uma rotao no cubo de dados da figura 4 para mostrar rendimentos de vendas regionais como linhas, os totais de rendimentos dirios como colunas e os produtos da companhia na terceira dimenso (figura 9). Isso equivale a ter uma tabela de venda regional para cada produto separadamente, onde cada tabela mostra, para o produto especfico, totais de vendas para cada local e cada perodo considerado.
...
Produto P4
Encontre o total de vendas por ms. Encontre o total de vendas por ms para cada cidade.
Figura 9. Rotao (Pivot) do cubo de dados de vendas
21
Encontre a mdia de movimento de vendas de n dias. (Para cada dia, deve ser calculada a mdia de vendas diria sobre os n dias precedentes).
Um grande nmero de consultas OLAP, entretanto, pode ser expresso em SQL. Tipicamente elas envolvem agrupamento e agregao, e uma nica operao OLAP conduz a vrias consultas relacionadas. Por exemplo, a mesma informao apresentada na tabela da figura 7 pode ser obtida atravs da seguinte consulta:
SELECT SUM (V.vendas) FROM Vendas V, Produto P, Local L WHERE V.codProd=P.codProd AND V.codLocal=L.codLocal GROUP BY P.Categoria, L.Cidade
A operao realizada na tabela da figura 7 a Roll-up, que agrupa os dados em unidades maiores. Cada operao roll-up corresponde a uma consulta SQL com GROUP BY. Em geral, dada uma medida com k dimenses associadas, podemos fazer um roll up sobre qualquer subconjunto dessas k dimenses e ento tem-se 2k possveis consultas SQL. Uma extenso proposta para o SQL chamada CUBE equivalente a uma coleo de comandos GROUP BY, com um comando GROUP BY para cada subconjunto das k dimenses. Por exemplo, considere a consulta: CUBE codProd, codLocal, codTempo BY SUM Vendas Essa consulta far um roll up sobre a tabela Vendas sobre todos os oito subconjuntos do conjunto { codProd, codLocal, codTempo}. Ela equivalente a oito consultas da forma:
22
GROUP BY lista-do-agrupamento
As consultas diferem somente na lista-do-agrupamento, que algum subconjunto do conjunto { codProd, codLocal, codTempo}.
23
(tabelas dimenso)
TEMPO Uma outra maneira de representar esquema estrela fornecido na figura 11. PRODUTO codTempo codProd codTempo Data CodProduto codRegio Semana Categoria TEMPO vendas Ms DescrCategoria O volume maior dos dados est tipicamente na tabela Trimestre no tem fato, que valor-vendas Estilo CodTempo Data Semana Ms Trimestre Ano Preo Ano redundncia. Usualmente ela est na Forma Normal de Boyce Codd (FNBC). REGIO
Para minimizar o tamanho da tabela fato, os identificadores das dimenses (ex. CodRegio Cidade so gerados CodLocal, CodTempo)Estado Pas pelo sistema. As tabelas dimenso usualmente so no normalizadas. AREGIO razo para isso
CodReg que um banco de dados usado para OLAP esttico;VENDA anomalias de assim, Cidade atualizao, insero e eliminao no so importantes. Alm disso, o espao de Estado CodProd CodLocal CodTempo valor-vendas armazenamento ganho atravs da normalizao vendas tabelas dimenso das Figura 10. Esquema estrela do exemplo dado (fig.4) Pas
desprezvel, frente ao tempo de processamento gasto para combinar a tabela fato PRODUTO CodProd Categoria DescrCategoria Estilo Preo 24
(tabelas dimenso)
REGIO CodRegio Cidade Estado ESTADO
Estado Pas
25
PEDIDO NroPedido DataPedido ... PRODUTO CodProduto NomeProduto DescrProduto Categoria DescrCateg EstiloProduto PreoUnitario ... PEDIDO CIDADE NroPedido Cidade DataPedido Estado ... Pas ... PRODUTO
NroPedido CodVendedor CodCliente CodProduto ChaveData Cidade Quantidade ValorTotal ... VENDAS (tabela-fato)
VENDEDOR CodVendedor NomeVendedor CidadeVendedor Cota ... CLIENTE CodCliente NomeCliente EndereoCliente CidadeCliente ... DATA ChaveData VENDEDOR CodVendedor Data NomeVendedor Ms CidadeVendedor Ano Cota ... ...
Categoria DescrCateg
NroPrdido CodVendedor CodProduto 13. Outro exemplo de esquema estrela Figura CodCliente CLIENTE NomeProduto CodCliente CodProduto DescrProduto NomeCliente ChaveData Categoria EndereoCliente Cidade PreoUnitario CidadeCliente Quantidade ... ... ValorTotal ... CIDADE Cidade Estado ... MS Ms Ano DATA ChaveData Data Ms ...
26
(tabela dimenso)
CodProduto Categoria DescrCategoria Estilo Preo
Outro exemplo seria uma constelao de fatos representando despesas projetadas e despesas reais, contendo duas estrelas que compartilham vrias dimenses.
27
Vendas - Estado So Paulo Categoria Trimestre 3 Roupa 21200 Calado 5670 Bijuteria 6980
Figura 16. Agregao
Consultas ad hoc realizadas pelos usurios so respondidas usando as tabelas originais juntamente com sumrios pr-computados.
28
extrao de dados: Os dados podem ser extrados de mltiplas fontes heterogneas. Durante essa fase pode ser necessrio selecionar dados sobre itens especficos ou categorias especfica do pas; de itens, ou de armazns em uma regio
formatao: Os dados devem ser formatados para ficar consistentes com o warehouse. Nomes, significados e domnios de dados vindos de fontes no relacionadas devem ser conciliados. Por exemplo: companhias subsidirias de uma grande corporao podem ter diferentes calendrios fiscais com os trimestres terminando em diferentes datas, tornando difcil agregar dados financiais por trimestre; outro exemplo a existncia de diferentes unidades monetrias. Essas inconsistncias de formato devem ser resolvidas.
para
minimizar erros, preencher informao ausente, quando possvel, e deixar os elementos de dados dentro de formatos e significados padronizados e consistentes. Limpeza dos dados um processo complexo que tem sido
29
S.Paulo)
as datas devem seguir um mesmo formato. valores nulos devem ter um tratamento adequado (data com valor
"000000")
30
Os dados devem ser ajustados no modelo de dados do data warehouse. Os dados vindos de vrias fontes devem ser instalados no modelo de dados do warehouse. Os dados podem ter que ser convertidos de bancos de dados relacionais, orientados a objetos ou legados (redes ou hierrquicos) para um modelo multi-dimensional.
Os dados devem ser carregados no warehouse. Essa tarefa significativa devido ao grande volume de dados do warehouse. So requeridas ferramentas de monitorao para a carga, bem como mtodos para recuperao a partir de cargas incompletas ou incorretas. Questes sobre a atualizao dos dados tambm so levadas em conta. As seguintes questes devem ser consideradas: At que ponto os dados podem ser atualizados? O warehouse pode se tornar off-line e por quanto tempo? Quais so as interdependncias de dados? Qual a disponibilidade de armazenamento? Quais so os requisitos de distribuio (tais como para replicao e particionamento)? Qual o tempo de carga (incluindo limpeza, formatao, cpia, transmisso, reconstruo de ndice, ...)?
Uma tarefa de projeto muito importante avaliar quais tabelas sumrio devem 31
As funcionalidades pr-programadas que so oferecidas pelos data warehouses so: Roll-up: os dados so sumarizados com crescente generalizao
(por ex., de semanalmente para trimestralmente para anualmente). Drill-down: crescentes nveis de detalhe so revelados (operao
oposta de roll-up).
32
dimenses. Ordenao: os dados so ordenados atravs de um atributo. Seleo: os dados so disponveis por valor ou agrupados em
Data warehouses so diferentes de vises nos seguintes aspectos: Data warehouses existem como armazenamento persistente ao invs de ser materializado sob demanda; Data warehouses no so usualmente relacionais, mas sim
multidimensionais. Vises de um banco de dados relacional so relacionais. Data warehouses podem ser indexados para otimizar performance. Vises no podem ser indexadas independente dos bancos de dados utilizados.
33
34
5. Servidores OLAP
Servidores que utilizam bancos de dados relacionais tradicionais no foram concebidos para propiciar o uso inteligente de ndices e de outros recursos necessrios para suportar vises multidimensionais de dados. Em adio aos servidores relacionais tradicionais, h trs opes principais para a implementao do servidor OLAP: servidores ROLAP (Relational OLAP), que armazenam os dados em tabelas, servidores MOLAP (Multi-dimensional OLAP), que armazenam os dados em arrays, e servidores HOLAP (Hibrid OLAP), que so hbridos dos dois anteriores.
35
Multidimensionais
(MOLAP).
Servidores
MOLAP
implementam
multidimensionais diretamente, armazenando dados em algumas estruturas especiais (por exemplo, arrays esparsos) e executando as operaes OLAP diretamente sobre essas estruturas. O cubo de dados implementado atravs do mapeamento de suas dimenses para os ndices do array, de forma que o contedo do array formado pelos valores contidos em cada clula do cubo. Servidores MOLAP possuem excelentes propriedades de indexao devido ao fato de ser mais simples localizar uma clula num array do que numa tabela. Por outro lado, quando os dados so esparsos, os servidores MOLAP perdem performance, sendo que nesses casos algumas tcnicas de matrizes de compresso devem ser exploradas. Para pequenos e mdios conjuntos de dados, eles so mais eficientes em armazenamento e recuperao dos dados.
36
dados integrados, consistentes e limpos, que exigem um rduo trabalho de limpeza, transformao e integrao dos dados nas fases que precedem a aplicao de DM no processo KDD. Num data warehouse, a maior parte dessa preparao normalmente j foi realizada, servindo esse warehouse para a aplicao tanto de OLAP quanto de DM. DM efetivo necessita de anlises exploratrias de dados. O usurio
frequentemente deseja navegar de forma flexvel ao longo da base de dados, selecionar diferentes partes de dados relevantes e analisar os dados em diferentes granularidades. A integrao de OLAP com mltiplas funes de DM permite ao usurio
37
38
Apndice A
ESTUDO DE CASO 1 Criao de um Data Mart
Este estudo de caso descreve a criao de um data mart realizada em uma empresa que comercializa pedras e concreto, situada no estado de Maryland, EUA [8]. O objetivo foi auxiliar na anlise de vendas e marketing para os seus principais clientes, que so empresas de construo e pavimentao, alm de, eventualmente, avaliar a eficincia da rede de distribuio. Os dados de entrada originam-se de sistemas IBM ES/9000 e AS/400. A ferramenta utilizada para a execuo do projeto foi o Oracle Data Mart Suite para Windows NT. Objetivou-se fornecer aos usurios do sistema acesso ad hoc grfico s informaes gerenciais, sem envolver grande volume de processamento a cada acesso realizado. A principal rea de interesse identificada foi a anlise dos lucros. O primeiro passo foi a identificao acurada de todas as informaes que o usurio realmente necessitava em suas consultas, definindo-se, assim, o grau de detalhamento que o sistema deveria contemplar. O estudo dos relatrios j existentes foi um ponto de partida. O passo seguinte foi a compreenso do mecanismo de clculo dos lucros da empresa, j que o antigo sistema de contas no fornecia explicitamente esses valores, mas sim um grande nmero de campos que poderiam levar a esses valores. O projeto das tabelas foi tal que o lucro pudesse ser pr-calculado e armazenado na tabela fato, evitando, assim, clculos no momento da consulta.
39
Tabela dimenso Fbrica: Tabela esttica com detalhes sobre todas as fbricas da empresa.
FBRICA
Cdigo Descrio Id-linha-produto
DIM-FBRICA
Chave-Fbrica Cod-Fbrica Descr-Fbrica Regio-Fbrica
40
Tabela dimenso Tempo: A tabela Tempo foi necessria, pois os relatrios necessitam avaliar os dados por dia, feriados, perodos fiscais, etc. Se os agrupamentos fossem somente referentes a anos/meses a tabela Tempo poderia ser dispensada.
DIM-TEMPO
Chave-tempo Id-data Dia-do-ms Numero-ms Descr-ms Semana-do-ano Descr-dia Num-ano Dia-do-ano Nmero-trimestre Data-venda
ITEM
Cdigo Tipo Descrio Id-linha-item Classe
DIM-ITEM
Chave-item Tipo-item Cd-linha-item Descr-linha-item Classe-item Sub-classe-item Flag-item Descrio-item
LINHA-ITEM
Cdigo Descrio
41
CLIENTE
Cdigo Nome Endereo1 Endereo 2 Cidade Estado CEP Represent-venda Tipo
DIM-CLIENTE
Chave-cliente Cod-cliente Nome-cliente Cod-Repres-venda Nome-repres-venda Tipo-cliente
REPRES-VENDA
Cdigo Nome
DIM-REPRES-VENDA
Chave-repr-venda Codigo-repr-venda nome-repr-venda
TRANSPORTADORA
Cdigo Nome
DIM-TRANSPORTADORA
Chave-Transportadora Cdigo Nome
42
TICKET-FATURA
Nmero-fatura Nmero-ticket Tipo-ticket Cod-Fbrica Cod-cliente Cdigo Data-envio Cod-produto Qtde-enviada Preo-produto Custo-fixado-produto-por-unidade Custo-variavel-produto-por-unidade Cd-transportadora Custo-transporte-por-unidade Regio-entrega Local-entrega
DIM-REGIO-ENTREGA
Chave-entrega Estado-entrega Pas-entrega Local-entrega Regio-entrega
43
O negcio da empresa era rastrear e avaliar as faturas e tickets para cada carga transportada por seus caminhes. Havia vrios tickets por fatura. Cada ticket tinha medidas e preos tais como datas da transportadora, quantidades de itens, custos totais, etc. Devido ao relacionamento entre tickets e faturas, decidiuse fundir as duas tabelas em uma tabela fato principal. Para cada fatura pode haver vrios tickets. Para a tabela fato, a soluo adotada foi a criao de uma nica tabela contendo as informaes sobre os tickets e os pedidos que os contm.
Tabelas sumrio: A fim de reduzir o tempo de processamento de recuperao de dados que so freqentemente executadas, foram criadas tabelas sumrio para a dimenso tempo, devido sua alta freqncia de consultas. As tabelas criadas produzem freqentemente relatrios por ms, trimestre e ano.
44
Apndice B
ESTUDO DE CASO 2 Cubo Multidimensional e OLAP
Este estudo de caso descreve a implementao do cubo multidimensional para consultas OLAP realizada em uma usina de acar e lcool, situada no estado de So Paulo. O objetivo foi auxiliar nas anlises setoriais, gerar regras de negcio, analisar riscos e produtividade e permitir a comparao e a combinao de informaes. Algumas perguntas das quais desejava-se conhecer as respostas: - com quais clientes praticou-se o melhor preo? - quais clientes geram maior lucratividade? - quais os mercados mais lucrativos? - qual o perfil dos clientes? - em que regies concentram-se as vendas? Inicialmente, foram comparadas as duas alternativas: OLTP e OLAP, a fim de verificar as vantagens da soluo OLAP, justificando, assim a implementao do projeto. Algumas das caractersticas levantadas foram: OLTP
- utilizao da base de dados operacionais; - demora na execuo de consultas e relatrios; - pouca flexibilidade; - muitos relatrios utilizados apenas uma vez; - necessidade de pessoal de informtica para desenvolvimento de templates de relatrios; - grande volume de informaes a serem processadas.
OLAP
- utilizao de data marts - consultas e relatrios obtidos instantaneamente - viso multidimensional das informaes; - transparncia da origem dos dados (Ingres, texto, excel, web); - arquitetura cliente/servidor, permitindo utilizao remota; - gerao de regras de negcio.
Para o desenvolvimento do projeto, foi contratada uma empresa de consultoria com experincia na rea. A ferramenta utilizada para a extrao/visualizao dos dados foi a O3. A criao do cubo foi realizada utilizando-se o aplicativo O3 Designer, seguindo-se os seguintes passos:
45
46
47
48
49
50
51
52
Bibliografia
[1] Inmon, W.H. Building the Data Warehouse. John Wiley, 1992. [2] Chaudhuri, S., Dayal, U. An Overview of Data Warehousing and OLAP Technology, ACM SIGMOD Record, vol.26, 65-74, 1997. [3] Elmasri, R., Navathe, S. Fundamentals of Databases, 3 edio, 2000. [4] Ramakrishnan, R. Database Management Systems. McGraw-Hill, 1998. [5] Felipe, J.C. O Processo de Extrao de Conhecimento de Bases de Dados Aplicado a Bancos de Dados Multimdia Orientados a Objetos. Monografia de Exame de Qualificao de Mestrado. Programa de PsGraduao em Cincia da Computao, Departamento de Computao UFSCar, So Carlos, Fevereiro 1999. [6] Becker, K., Pereira, W. Tutorial de Data Warehouse, XIV Simpsio Brasileiro de Banco de Dados, outubro, 1999, Florianpolis, SC, Brasil. [7] Oracle, Oracle Data Mart Suite. http://www.twinsoft.de/english/produkte/dmsuite_E.htm [8] Oracle, Data Marte Suite Design - A Case Study. http://www.avanco.com/dmdesignstudy.htm. [9] IBM, Data Warehousing Concepts. http://as400.rochester.ibm.com/db2/dataware.htm , 1998. [10] Tam, Y. J., Datacube: Its Implementation and Application in OLAP Mining, Thesis submitted for the degree of Master of Science in the Department of Computer Science of Simon Fraser University, Canada, september 1998. [11] Harinarayan, V., Rajaraman, A., Ullman, J. D., Implementing Data Cubes Efficiently, Proc. ACM SIGMOD Int. Conference on Management of Data, June 1996.
53
54