Escolar Documentos
Profissional Documentos
Cultura Documentos
INSTITUTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM COMPUTAO
AGRADECIMENTOS
SUMRIO
2CONCEITOS BSICOS..............................................................................15
2.1Sistema de apoio deciso.............................................................................................................15
2.2Data Warehouse ............................................................................................................................15
2.2.1Caractersticas bsicas de um Data Warehouse......................................................................16
2.3Processamento OLAP e modelagem de dados.............................................................................18
2.3.1Processamento OLAP...............................................................................................................19
2.3.2Modelagem de dados................................................................................................................19
2.4Data Marts .....................................................................................................................................22
2.5Arquitetura de Dados ...................................................................................................................22
6.3.9Avaliao de produtos..............................................................................................................63
6.3.10Execuo da arquitetura funcional.........................................................................................63
6.3.11Aplicaes finais....................................................................................................................64
6.3.12Auditoria de dados..................................................................................................................64
6.4Etapa de execuo......................................................................................................................64
6.5Consideraes finais.......................................................................................................................64
7CONCLUSO..............................................................................................66
REFERNCIAS.............................................................................................69
SSD
BD
Banco de Dados
DW
Data Warehouse
OLE
SGBDR
SIG
SQL
LISTA DE FIGURAS
LISTA DE TABELAS
RESUMO
ABSTRACT
Although the concept of Data Warehouse (DW), in its various forms, still attracting
interest, many DW projects are not generating the benefits expected and many are
proving to be too expensive to develop and to keep.
This work organizes the concepts of DW through a literature review, discussing its
real benefit and how to realize this benefit at a cost that is acceptable to the company. In
particular methods are discussed to serve as a foundation for proposing a design
methodology for DW, which will be applied to a real case study for the CIA Zaffari,
taking into account criteria that are currently found in developing a data warehouse, a
subset of which will be treated in the dissertation.
13
1 INTRODUO
14
15
2 CONCEITOS BSICOS
16
Para [POE 98], um banco de dados analtico que usado como base
para os sistemas SAD. planejado para armazenar um grande volume de dados
somente de leitura, provendo acesso intuitivo;
data warehouse
comp
ra
ue
aplicaes
fornecedor
estoq
venda
anlise
assuntos
cliente
17
2.2.1.2Organizao em assuntos
De todos os aspectos do DW o mais importante o fato de ser integrado, no qual
ocorre quando os dados passam do ambiente operacional baseado em aplicaes para o
DW. A Figura 2.2 mostra um exemplo desta integrao.
dados
data
Aplicao 1:
m/f
m/f
Aplicao 2:
1/0
converso
Aplicao 3:
x/y
Aplicao 4:
mas/fem
18
No DW o elemento tempo fundamental. Dados existentes no DW no passam de
uma srie sofisticada de instantneos, capturados num determinado momento.
importante salientar que pelo grande volume de dados, a estrutura de chave de um DW
sempre contm algum elemento de tempo.
Quando os dados so considerados antigos, passam do detalhe corrente para o
detalhe mais antigo. medida que os dados so resumidos, passam do detalhe corrente
para os dados levemente resumidos e a seguir, dos dados levemente resumidos para os
dados altamente resumidos.
2.2.1.5 Metadados
Os metadados so os dados que descrevem e caracterizam dados ou conjuntos de
dados. A disponibilizao de metadados permite que usurios, com pouco
conhecimento sobre os dados, possam avaliar a compatibilidade dos dados com suas
aplicaes, sendo fundamental a existncia de metadados adequados tanto para
caracterizao quanto para a descrio e compreenso dos dados.
Provm informaes sobre a estrutura de dados e as relaes entre estas dentro ou
entre bancos de dados. So tambm informaes mantidas a cerca do DW em lugar das
providas pelo warehouse.
2.2.1.6 Granularidade
o nvel de detalhes dentro do banco de dados DW. Quanto mais detalhe, menor o
nvel de granularidade, consequentemente, maior o volume de dados armazenado. Esta
caracterstica uma das mais importantes, pois afeta profundamente o volume dos
dados que residem no DW e, ao mesmo tempo, afeta o tipo de consulta que pode ser
atendida. O volume de dados contidos no DW balanceado de acordo com o nvel de
detalhe de uma consulta. A Figura 2.3 mostra um exemplo de granularidade sobre o
registro de vendas de uma rede de supermercado contendo 24 lojas.
alto nvel de detalhe
19
2.3.1
Processamento OLAP
Modelagem de dados
A modelagem pode ser descrita sobre dois aspectos: (a) a modelagem de dados
tradicional e (b) a modelagem multidimensional. Na modelagem tradicional as
entidades podem ser objetos (clientes, produtos, lojas) ou transaes (vendas, pedidos,
notas fiscais). Seus relacionamentos so explcitos, em outras palavras, as entidades se
relacionam de forma direta atravs dos atributos chave. As operaes esto direcionadas
a dados transacionais, orientada a dados atuais que mudam constantemente.
J na modelagem multidimensional, as entidades so dimenses que representam
resultados para um determinado perodo de tempo. Os relacionamentos so implcitos,
onde as entidades se relacionam indiretamente, atravs de outra entidade. As operaes
so direcionadas a dados analticos, orientada a dados histricos estveis.
20
2.3.2.1 Modelagem Dimensional
A principal caracterstica dos sistemas OLAP permitir a viso conceitual
multidimensional dos dados de uma organizao. A viso multidimensional mais
natural, fcil e intuitiva para o usurio, permitindo a viso dos negcios da empresa em
diferentes perspectivas. Para este tipo de anlise necessria uma modelagem
dimensional, uma alternativa para a modelagem entidade relacionamento e contm as
mesmas informaes [KIM 98a].
A idia da modelagem dimensional representar os tipos de dados de negcio em
uma estrutura do tipo cubo de dados. As clulas deste cubo contm valores medidos,
tais como unidades vendidas, lucro ou venda liquida e os lados do cubo definem
as dimenses dos dados, a exemplo de cliente, produto, fornecedor e tempo.
Um exemplo da representao do negcio em uma estrutura do tipo cubo, seria a
descrio que um executivo faz aos processos de sua empresa, como a venda de
produtos em uma variedade de lojas e verificar a performance ao longo do tempo,
conforme mostra a Figura 2.4. Se pensarmos no negcio em termos de um cubo com
nossas dimenses formando a base do cubo, o ponto de interseo das trs dimenses
dentro do cubo equivale a um ponto de medio para o negcio.
Lojas
Tempo
Produto
Figura 2.4: Exemplo de um cubo.
Nos banco de dados analticos que manipulam multidimenses, existem dois tipos
principais esquemas que so utilizados: (a) o esquema estrela (star scheme) e o (b)
esquema floco de neve (snowflake schema).
O esquema estrela utiliza-se dos mesmos componentes do diagrama entidaderelacionamento, como entidades, atributos, relacionamentos e chaves primrias,
existindo basicamente dois tipos de tabelas (entidades) denominadas de fato e
dimenso [KIM 98a]. Este modelo construdo por uma estrutura formada por uma
nica tabela de fatos (contendo dados numricos) relacionada com uma ou mais tabelas
de dimenso, conforme a Figura 2.5(a).
A tabela fato armazena instncias da realidade, representando as medidas do
negcio, que podem ser mensuradas de forma quantitativa [GRA 98]. Por exemplo, a
Figura 2.5(a) mostra a tabela de fato venda, o qual possui os atributos de valor da
venda, quantidade vendida e o custo de venda de um produto relacionada com as tabelas
de dimenso produto e cliente, permitindo identificar a quantidade vendida de um
produto por um certo cliente. A tabela de fato armazena grande quantidade de dados,
possuindo chave primria composta, formada por chaves estrangeiras, atravs das quais
se ligam as chaves primrias das tabelas dimenso.
21
Dimenso
estado
Dimenso
loja
Fato
venda
Dimenso
cliente
Dimenso
fornecedor
Dimenso
produto
Dimenso
loja
Dimenso
fornecedor
Tabela
Fato
Dimenso
cliente
Dimenso
produto
Dimenso
Preo
Dimenso
Vendedor
Fato
Vendas
CodProd
Descr
Medida
Dimenso
Loja
CodLoja
Nome
CodProd
CodLoja
CodVend
CodDia
QtdVend
VlVend
CodVend
Nome
Dimenso
Tempo
CodDia
CodMes
22
Um exemplo descrito na Figura 2.6 seria com relao medida quantidade
vendida. Existem vrios parmetros ou dimenses que atravs dos quais se pode
analis-la: (a) em que loja a compra foi feita? (b) quando ocorreu a venda? (c) que
produto foi vendido e (d) quem realizou a venda?
Como se pode ver na Figura 2.6, o esquema estrela altamente desnormalizado,
com o intuito bvio de reduzir o nmero de joins envolvidos nas consultas. Na verdade,
o modelo final de um DW composto por vrias tabelas de fato, contendo diferentes
subconjuntos de informaes sobre o negcio com diversas tabelas de dimenso, ligadas
a uma ou mais tabelas de fato.
O esquema floco de neve, representado pela Figura 2.5(b), uma variao do
esquema estrela os quais as tabelas dimenso so normalizadas, permitindo que se
liguem entre si, alm da tabela fato. Possui como vantagem no uso deste esquema a
economia de espao no armazenamento, tabelas dimenso menores, mas possui como a
principal desvantagem a complexidade sobre o numero de tabelas relacionadas,
tornando as consultas complexas.
2.3.2.2 Agregao de Dados
Em aplicaes de anlise de dados, um dos fatores mais crticos o tempo de
resposta ao usurio devido ao grande volume de dados envolvido nas consultas desse
tipo de aplicao. A nica maneira de reduzir o tempo de execuo das consultas de
maneira consistente pr-navegar ou consolidar os dados em totais e subtotais atravs
das dimenses envolvidas no assunto em questo. Mas de que forma se poderia agregar
cada dimenso? Essa uma questo mais simples do que se parece a princpio, j que
inerente ao ser humano agrupar em hierarquias todas as entidades que o cercam.
Agrupamos cidades em estados, regies e pases, produtos em linhas de produtos, meses
em trimestres e anos. Apesar das hierarquias no serem partes necessrias das
dimenses, as aplicaes que refletem negcios do mundo real com um mnimo de
complexidade sempre apresentam algumas hierarquias dimensionais a exemplo das
listadas acima. Sendo assim, a base para a agregao dos dados ser justamente o
conjunto das hierarquias existentes.
23
DW
DM
DW
DM
Topologia Centralizada
DM
Topologia DM
DM independente
Topologia DW e DM
DM dependente
Area externa
Data Warehouse
Fontes externas
Usurio
Staging Area
Extrao
Transformao,
limpeza e
agregao
Ferramentas de acesso
aos dados, aplicao
24
Segundo [PER 2000], ainda se pode descrever como partes desta rea: (a) a carga
dos dados, permitindo o armazenamento dos dados transformados no servidor de
apresentao, (b) controle dos dados organizados, permitindo o monitoramento sobre o
fluxo de dados, atravs dos metadados, (c) gerenciamento dos recursos da rea interna,
possibilitando que o DW volte a trabalhar normalmente aps a ocorrncia do problema.
A segunda parte definida como a rea externa, sendo a interface do usurio com o
sistema. , basicamente, o front-end que visto e no qual se trabalha, principalmente
atravs de consultas. [PER 2000] Fazem parte desta rea: (a) o servidor de apresentao,
onde os dados provenientes da parte interna, ficando a disposio dos usurios finais e
(b) ferramentas de acesso a dados e geradores de relatrios, permitindo aos usurios
finais consultas ad hoc. Tais ferramentas permitem operaes que facilitam o acesso aos
dados, possibilitando aumentar ou diminuir o nvel de detalhes das consultas as tabelas
dimenso e fato atravs dos seguintes recursos:
25
26
3.1.2
Transaction
Database
DTS
SQL Server
Aggs
Details
Analysis DB
OLE DB
MS DSS
Server
MD Cache
OLE DB
For
OLAP
Clients
SQL Server
Origem
Xforms
Destino
DTS Data Pump
IN
OUT
27
28
O banco de dados de Oracle9i introduz uma nova abordagem para entrada de dados
integrando isto no prprio banco de dados. A maioria de produtos de ETL no tem o
paralelismo e extensa otimizao, caractersticas existentes no banco de dados Oracle9i.
Esta verso de banco de dados, permite criar um novo paradigma de ETL,
possibilitando a eliminao de certas etapas e redefinindo (remodelando) outras etapas
para aumentar o fluxo de dados e transformao dos dados, aumentando e escabilidade e
eliminando as interrupes. Possui o conceito de ETL toolkit, um conjunto de
ferramentas que possibilita aumentar a capacidade de ETL no DW, tais como:
29
Criao
Uso
Produto_ext
Id Prod
.
.
Nome Prod
.
.
Preo
.
.
30
Clientes
Arquivo da base de origem
Id Cli
30
Insero
em mltiplas
tabelas
Nome
Telmo
Compra
300,00
Clientes especiais
Id Cli
10
20
Nome
Joo
Jos
Compra
1000,00
5000,00
31
Adaptive
Server
Oracle
Sysbase
Adaptive
Server
Query
Tools
OLAP
Tools
Data
Mining
Tools
Browsers
Others
3.3.1
32
Suporte a uma ampla variedade de plataformas RDMS, tais como IBM DB2,
Microsoft SQL Server, Oracle e Informix.
3.3.2
33
Avaliao da
engenharia da
empresa
Avaliao do
fluxo de valores
Avaliao da
questo comercial
Projeto/ Reviso
da arquitetura
Caso comercial do
DW
Plano de
implementao da
iterao
Projeto detalhado
Implementao
Manuteno
Transio para a
produo
34
Na fase de viso estratgica, tambm chamada por [MAR 99] de plano de
informaes estratgicas (SIP- Strategic Information Plan), um processo contnuo que
alinha as estratgicas comercial e tecnolgica da empresa dentro do mercado. Esse um
pr-requisito para os estgios de engenharia da empresa e re-engenharia do processo
comercial. Algumas empresas possuem um SIP pronto, e ele pode servir como semente
da qual o projeto do data warehouse se desenvolve.
A fase de avaliao da engenharia da empresa (EEA-Enterprise Engineering
Assessment) desenvolve uma viso em nvel de empresa da necessidade de mudana da
organizao e sua prontido em aceit-la. Um data warehouse no uma soluo para
tudo. Se uma organizao no possui fontes e recursos de dados, um warehouse no
poder ser eficiente. Antes de realizar um projeto de data warehouse, a organizao
deve decidir se deseja resolver problemas de dados operacionais por meio da reengenharia comercial, desenvolvimento de sistemas ou planejamento de sistemas de
informao. Essa avaliao normalmente um pr-requisito para a reengenharia do
processo comercial ou para uma avaliao do fluxo de valores.
Pela fase de avaliao do fluxo de valores (VSA- Value Stream Assessment) se
podem solucionar problemas comerciais estudando o(s) fluxo(s) de valores de uma
empresa a partir de um alto nvel por um pequeno perodo (seis a oito semanas),
procurando meios de melhorar os desempenhos gerenciais, operacionais, sociais e
tecnolgicos. O processo identifica o fluxo de valor predatrio a capacidade exclusiva
que lhe permite mover mais rpido e produzir melhor do que seus concorrentes e suas
reas vulnerveis da fatia de mercado. O conhecimento fornecido pela tecnologia de
data warehouse d suporte para a VSA.
Na fase de desenvolvimento do caso comercial se podem identificar as tarefas
necessrias para a criao do caso comercial para data warehouse. Nesse ponto, e
equipe que justificar, projetar e implementar o data warehouse entra no processo.
Eles usam pessoal colateral j desenvolvido pelos consultores ou pessoal interno
(entrevistas, sesses de enfoque, anlises estatsticas) para documentar: (a) uma
estrutura de desmembramento de trabalho de alto nvel para o projeto inteiro, (b) uma
anlise custo/benefcio, incluindo um retorno do investimento, se possvel, (c) os fatores
crticos para o sucesso e (d) os impedimentos tpicos do sucesso.
Para a estrutura de desmembramento de trabalho de alto nvel para o projeto inteiro,
no se precisa incluir as tarefas de baixo nvel que seriam usadas no projeto real, mas
dever conter as tarefas e estgios em nvel de resumo que refletem os principais
esforos.
[MAR 99] ressalta o fato importante de que se ningum na equipe tiver experincia
com projeto de data warehouse, a especificao de tarefas poder ser muito mais difcil,
logo a contratao de um consultor experiente se faz necessrio.
Na anlise do custo e do benefcio, [MAR 99] descreve a importncia em se
trabalhar com os gerentes comerciais e principais usurios comerciais para identificar e
atribuir pesos relativos para os benefcios comerciais de alto nvel da implementao de
um data warehouse, a fim de dar suporte aos fluxos de valores ou iniciativas
estratgicas. A gerncia e os principais usurios comerciais podem fornecer os
objetivos, os fatores crticos do sucesso e os planos de desenvolvimento futuros para a
empresa, junto com uma estratgia para alcan-los. Um data warehouse projetado
efetivamente dever ajudar uma organizao a tomar decises estratgicas que no
podem ser feitas por meio de sistemas de transao em operao.
35
36
A arquitetura de suporte inclui as funes necessrias para gerenciar o investimento
de tecnologia de modo eficaz e os componentes do software de DW, tais como:
ferramentas e estruturas para backup e recuperao, monitorao de desempenho,
gerenciamento de controle/configurao de verso.
[MAR 99] enfatiza que esta fase de reviso e projeto da arquitetura aplica-se
estratgia de longo prazo para o desenvolvimento e refinamento do DW e no
realizada simplesmente numa nica iterao.
A fase de avaliao da questo comercial (BQA business question assessment)
estabelece as reas de assunto do DW, o escopo das iteraes individuais do projeto e a
estratgia de implementao em curto prazo, definindo e priorizando os requisitos
comerciais, conforme estabelecidos no caso comercial, e outras necessidades de
informaes que o DW focalizar. Permite medir a qualidade, a disponibilidade e os
custos relacionados dos dados de origem necessrios em alto nvel.
[MAR 99] sugere uma anlise do fluxo de valores predatrios priorizados ou a
iniciativa estratgica mais importante para decidir quais questes comerciais a
implementao ter de responder. As questes comerciais impem problemas que
determinam a direo estratgica. Por exemplo, uma questo comercial para um
revendedor poderia ser: Quais foram os dez itens mais vendidos em todas as lojas da
regio X no segundo trimestre deste ano fiscal, onde dez mais vendidos so definidos
como os dez itens mais altos em termos de receita total por item?
Se analise cada questo para avaliar sua importncia geral para a organizao, e
depois realize uma anlise de alto nvel dos dados necessrios para fornecer as
respostas. Analise-se a qualidade, a disponibilidade e o custo dos dados (para lev-los
para o data warehouse). Use-se essa informao para re-priorizar as questes comerciais
de acordo com a importncia, o custo e a viabilidade (de adquirir os dados exigidos).
Use-se essa anlise para decidir sobre o escopo das iteraes previsveis do DW, na
forma de projetos de preenchimento de dados. Estima-se, com limites prticos de
aquisio de dados, quantas questes comerciais podero ser respondidas em uma
implementao de trs a seis meses. Uma questo comercial dever ser responsvel pela
anlise objetiva dos dados disponveis. As questes comerciais precisam:
37
38
projeto, (c) rastrear o processo do projeto e (f) revisar o plano do projeto. A etapa de
atribuir tarefas combinar a cada atividade planejada, o recurso mais apropriado para a
sua execuo. Como um projeto de DW contnuo, deve-se trabalhar, na etapa de
motivao, para promover o desenvolvimento individual, criar incentivos para o
trabalho de equipe, reconhecendo as realizaes. A etapa de rastreamento se caracteriza
por um acompanhamento sobre o estado do projeto e apresentar as informaes para os
membros da equipe e responsveis pelo projeto. Para [MAR 99], a etapa de revisar a
mais importante, pois se deve avaliar cuidadosamente as sugestes e os pedidos do
usurio para filtrar os recursos mais interessantes, que podem aumentar o custo final do
projeto.
Para [MAR 99], a rea de encerrar algo mais que o simples trmino do projeto de
DW, o qual afirma que se deve arquivar o material do projeto, gerar relatrio sobre o
andamento do projeto, passar os resultados do projeto para o pessoal de operao e
suporte e liberar os recursos do projeto para uso em outros projetos.
Planejamento
Modelagem
dimensional
Definio de
requisitos do
negcio
Seleo e
instalao de
produtos
Projeto fsico
Projeto e
desenvolvim
ento da
organizao
de dados
Disponibiliz
ao do DW
Manuteno e
crescimento
Especificao de
aplicaes de
usurio final
Gerenciamento do projeto
39
40
novo registro na dimenso ou, por ltimo, criao de um novo campo na dimenso que
armazene somente o campo alterado, de forma que sejam armazenados os campos
novos e antigos.
[KIM 98a] enfatiza nesta fase ainda a realizao do processo de organizao de
dados com as demais dimenses, assim como a tabela fato, o desenvolvimento de
procedimentos que permitam a carga incremental de tabelas fato que sejam muito
grandes, utilizando os recursos baseados em novas transaes, logs de bancos de
dados, replicao, realizao de mltiplos passos de carga e execuo paralela e carga
de tabelas de agregados.
Na fase especificaes de aplicaes de usurio final deve-se procurar identificar as
reas prioritrias e, a partir destas, definir um conjunto padronizado de aplicaes
destinadas aos usurios finais, uma vez que no so todos os usurios que necessitam
Ter acesso ad hoc aos dados do DW.
Na fase desenvolvimento de aplicaes de usurio final so desenvolvidas as
aplicaes necessrias de acordo com levantamentos realizados na fase de
especificaes de aplicaes de usurio final. A seleo do ambiente de
desenvolvimento dos relatrios e o desenvolvimento de procedimentos de manuteno e
atualizao das aplicaes de usurio final, so atividades que compreendem esta fase.
Para [KIM 98a] a fase de disponibilizao do DW composta basicamente pelas
seguintes atividades de montar o plano de verificao da infra-estrutura, estratgia de
treinamento dos usurios finais, estratgia de suporte ao usurio final, plano de
atualizao de verso do DW, um teste completo do sistema e a disponibilizao do DW
propriamente dita aos usurios finais.
Na fase de manuteno e crescimento do DW composta basicamente pelo contnuo
suporte e treinamento dos usurios e manuteno da infra-estrutura tcnica, alm do
monitoramento de consultas realizadas pelos usurios finais, desempenho da
organizao de dados e o contnuo sucesso do DW.
41
42
Na etapa de projeto fsico da base de dados e desenvolvimento so criadas
fisicamente na base de dados, as tabelas de fato e dimenso e seus relacionamentos, a
desnormalizao de dados e as estratgias de criao de ndices, de agregao e
particionamento.
Segundo [POE 98] a fase de determinao, integrao e mapeamento das fontes de
dados so a que consome mais tempo de desenvolvimento, devido necessidade de
localizar os dados adequados dispersos em sistemas OLTP, analisar e entender os tipos
de dados, implementar os processos de transformao necessrios e mapear os campos
das fontes de dados para os objetos da base de dados, o desenvolvimento de programas
que permitam realizar as converses de dados para cada campo e refinar a estratgia de
integrao.
Na fase de populao do DW feito o desenvolvimento de: programas ou utilizao
de ferramentas de converso de dados para integrar os dados, para extrair e mover os
dados, carga de dados dentro do DW, desenvolvimento de estratgias de reconsulta e
atualizao de dados e a execuo de programas e procedimentos de extrao,
transformao e carga de dados.
A fase de automao dos processos de carga de dados caracteriza-se pelo
agendamento dos processos de extrao, converso e carga de dados, construo de
procedimentos de backup e recuperao de dados.
Na fase de criao de conjunto inicial de relatrios so realizadas as construes de
relatrios pr-definidos.
[POE 98] descreve a fase de validao e teste de dados como sendo a validao de
dados utilizando o conjunto inicial de relatrios e a validao dos dados atravs de
processos padronizados.
Na fase de treinamento tem-se a criao de programas de treinamento para atender
especificamente a comunidade de usurios, levando em conta o treinamento nas
ferramentas de acesso aos dados, obtendo as informaes desejadas no DW.
A fase de produo inclui as tarefas necessrias para a disponibilizao do DW e o
correspondente suporte necessrio aos usurios finais, a exemplo de aplicaes de
suporte deciso.
[POE 98] considera que a interao contnua dos usurios com o DW, aps a sua
disponibilizao atravs de ferramentas e aplicaes, possibilita o surgimento de novas
exigncias e consequentemente se fazendo necessrio a execuo, novamente, do ciclo
de desenvolvimento do DW, para que as modificaes sejam feitas.
Para [POE 98] o desenvolvimento de DW exige que a equipe de profissionais
responsvel pela sua construo seja integrada por pessoas experientes no assunto. Mas
mesmo assim existem ainda muitas empresas que, antes de desenvolverem um DW,
constroem inicialmente um Projeto Piloto de modo a evitar um possvel insucesso,
assim como possibilitar ganho de experincia, dentre outros motivos.
[POE 98] aborda a construo do Projeto Piloto de duas formas distintas: via prova
de concepo e via arquitetura e infra-estrutura. A prova de concepo possibilita uma
apresentao prtica ao comit diretor da corporao sobre as possibilidades de um DW.
Neste tipo de Projeto Piloto, os usurios podem interagir com o sistema obtendo
algumas informaes de suporte deciso, possibilitando entender como elas podero
assisti-los na tomada de decises. Normalmente este tipo de Projeto Piloto
43
desenvolvido rapidamente, quando comparado com a segunda forma, uma vez que se
apoia sobre um pequeno conjunto de dados. Adicionalmente, no h necessidade de que
todos os componentes tcnicos e de infra-estrutura estejam disponveis.
J na forma via arquitetura e infra-estrutura, por sua vez, usado para se verificar
como todos os componentes do DW trabalham juntos, bem como para entender e
ganhar experincia em todas fases do ciclo de vida de desenvolvimento. Esse tipo de
Projeto Piloto apoia-se tambm sobre um conjunto restrito de dados, os quais,
entretanto, passam por todas as fases do ciclo de vida de desenvolvimento, incluindo as
arquiteturas do DW correspondentes.
Experimentao
Levantamento
preliminar
Planejamento
preliminar
Levantamento
detalhado
Protti
po
Definio
Execuo
Definies do
projeto e
atualizao do
planejamento
Projeto Piloto do
DW
44
A fase de levantamento preliminar consiste no maior levantamento possvel de
dados a respeito do ambiente organizacional, os usurios finais e o grau de participao
deles no projeto. Nesta fase tambm so realizadas as reunies de requisito para que se
possam levantar os requisitos gerais do negcio da organizao e se procura identificar
as possveis fontes de dados, que serviro para a definio das atividades de extrao,
transformao e carga.
Na fase de planejamento preliminar os dados descritos na fase anterior so
analisados e repassados para um documento chamado por [PER 2000] de Plano de
Projeto, contendo a estrutura do projeto, anlise de sua viabilidade e necessidade, que
norteiam o principal objetivo do projeto de DW. Fazem ainda parte desta fase as
estratgias de: levantamento de requisitos mais detalhados, integrao ou transformao
de dados, segurana e atualizao dos dados. [PER 2000] enfatiza a necessidade de
apresentar o Plano de Projeto aos usurios finais do projeto, para possveis ajustes,
aprovao ou at mesmo reprovao.
A fase de prottipo a mais detalhada por [PER 2000], pois representa uma fase
similar no ciclo de vida de desenvolvimento de DW. Esta fase a principal dentro da
etapa de experimentao, pois sustenta a execuo de um pr-projeto piloto atravs de
um conjunto de dados restritos. [PER 2000] sustenta que este prottipo permite
estabelecer o contato inicial com as diferentes tcnicas de desenvolvimento de DW,
ganhar experincia com novas ferramentas e tecnologias e aprender as diversas tarefas
que compem cada fase do desenvolvimento do DW.
A etapa de definio permite reduzir as incertezas e a transformar as experincias
obtidas nas fases da etapa de experimentao, em definies de projeto que serviro
como base para a construo do projeto piloto de DW.
4.4.2 Fase de prottipo
Esta fase, como j descrita anteriormente, apresenta-se como um projeto piloto,
conforme descrito na etapa de arquitetura e infra-estrutura, proposta por [POE 98],
porm detalhando as etapas do projeto de DW. a fase mais importante da etapa de
experimentao, pois permite uma prvia do projeto, seguindo todas as etapas de
desenvolvimento do projeto de DW. [PER 2000] enfatiza que esta fase o principal
diferencial sobre as outras metodologias propostas, pois sustenta uma de suas primcias
de que um projeto de DW pode ser elaborado por uma equipe sem experincia.
Uma das principais vantagens, sobre este modelo, que se permite que a fase de
prottipo, como um todo, possa ser repetida tantas vezes quantas forem necessrias,
dentro das disponibilidades de tempo, pessoal, ferramentas, etc. [PER 2000] enfatiza
que o prottipo permitir o teste aprofundado e repetitivo de produtos e ferramentas a
partir das diversas configuraes e tecnologias adotadas nos mdulos precedentes.
Para que isto possa ocorrer, [PER 2000] descreve que esta fase se divide nos
seguintes mdulos: (a) planejamento, (b) arquitetura de dados, (c) arquitetura funcional,
(d) infra-estrutura, (e) teste de produtos, (f) modelagem dimensional, (g) projeto do BD,
(h) execuo da arquitetura funcional, (i) aplicaes de usurios finais, (j) auditoria nos
dados, (k) uso, suporte e extenso e (l) gerenciamento do prottipo.
45
[MAR 99]
[KIM 98a]
[POE 98]
[PER 2000]
Completa
Sim
Sim
Sim
Sim
Experincia
Sim
Sim
Sim
No
Detalhamento
Pouco
detalha
Detalha
Detalha
Detalha
Anteprojeto
No possui
Possui
Possui
Possui
Iterao completa
No
No
No
No
Anlise de riscos
No
Sim
Sim
Sim
46
47
48
AnteProjeto
Incepo
Elaborao
Construo
Transio
Levantamento
Planejamento
Planejamento detalhado
Definio
Arquitetura de dados
Arquitetura funcional
Infra-estrutura
Modelagem dimensional
Projeto da Base de Dados
Avaliao de produtos
Execuo da arq.funcional
Aplicaes finais
Auditoria de dados
Uso e gerenciamento
de verses
Execuo
Iterao
Iterao
Iterao
Iterao
1...n
n+1m
n+2 ...m+2
k...k+1
49
Anteprojeto
Levantamento
Definio
Planejamento
Definio do
projeto de DW
Execuo
Uso e
gerenciamento
Gerenciamento de
verses
50
Arquitetura
funcional
Arquitetura
de dados
Planejamento
detalhado
Infra-estrutura
Modelagem dimensional
Avaliao de
produtos
Execuo da
arq.funcional
Projeto do BD
Aplicaes
finais
Auditoria
de dados
51
Para uma melhor definio dos dados, esta fase foi subdividida em mdulos,
provenientes do trabalho de [PER 2000], tais como: (a)atividades preparatrias e (b)
requisitos detalhados. As principais caractersticas destes mdulos so:
52
Devem-se acrescentar os resultados obtidos no Plano de Projeto, para manter um
histrico das execues realizadas [PER 2000].
Na fase de aplicaes finais, relatrios e consultas so criadas para atender ao
pblico de usurios tomadores de deciso e que participaram das especificaes
necessrias ao projeto de DW. Se faz um levantamento do mximo de detalhes
referentes apresentao dos dados aos usurios decisores.
Em linhas gerais, a ltima fase sobre auditoria de dados permite a verificao sobre
a qualidade dos dados armazenados, atravs de atividades de validao dos dados
atravs de consultas, anlise nos processos de ETL, estudo dos arquivos de log, etc.
5.2.3 Execuo
medida que novas iteraes vo surgindo, esta etapa permite realizar a execuo
do Plano de Projeto, incluindo as tarefas necessrias para a disponibilizao do DW.
Esta etapa possibilita uma viso prtica de todas as definies de projeto e experincias
adquiridas nas fases anteriores. Esta etapa, considerando os trabalhos de [POE 98] e
[KIM 98], possui duas fases: (a) uso e gerenciamento e (b) gerenciamento de verses.
A fase de uso e gerenciamento permite, mediante o nvel de iterao, a simples
construo das definies descritas no plano, at a montagem, propriamente dita do
DW. Permite a criao de um plano de disponibilizao (contendo um plano de
verificao da infra-estrutura, estratgia de treinamentos dos usurios finais, de
suporte).
Na fase de gerenciamento de verses, um plano de atualizao de verso do DW
pode ser elaborado, para o monitoramento de consultas realizadas pelos usurios,
desempenho da organizao de dados e o contnuo sucesso do DW.
53
54
6.1.3 Estrutura dos Dados
Cada uma das reas, definidas na Seo anterior, tambm so chamadas de locais e
possuem um servidor prprio. Atualmente a companhia Zaffari possui 30 servidores
HP-UX e 6 servidores NT. Cada local possui um servidor prprio identificado pelo
prprio nome do local (Loja X, Loja Y, Depsito Z). No setor de suporte, localizado na
rea administrativa, ficam alguns desses servidores, conforme mostra a tabela 2:
Tabela 2 Descrio dos Servidores.
Nome
Modelo
Descrio
ZAFFARI
HP K590
ZAFFARI2
HP K420
ZAFNT1
HP NetServer 5/100 LH
ZAFNT2
HP NetServer 5/100 LH
DESENV
HP E55
Para cada servidor existe um Banco de Dados (SyBase) e vrias Base de Dados
(ZafA, ZafB, ZafC e outros.) conforme Figura 6.1. Estas Bases de Dados representam
os dados que podem estar organizados por sistemas e/ou processos.
BD
Out
Servidor
Loja Xros BD
ZafA
BD
ZafC
BD
ZafB
55
6.2.1.1Resultados do Levantamento
Em consequncia dos levantamentos realizados nesta fase, se pode apresentar
diversas particularidades a respeito do ambiente de desenvolvimento do projeto:
56
6.2.2
Planejamento
57
Planejamento detalhado
Quanto ao que se perguntar, foi questionado tudo referente a proposta que foi
modelada, por exemplo, que tipos de informaes so importantes na transao
das vendas de uma loja, etc;
6.3.3
58
representam o mesmo gro que uma UNE individual. Cada variao de embalagem de
um produto possui um a UNE diferente e, portanto, uma EAN diferente.
As 20 mil UNEs restantes provm de setores como aougue, verduras e legumes,
padaria ou flores e no possuem cdigos EAN reconhecidos em mbito nacional.
Entretanto se deve atribuir um nmero UNE a esses produtos e se colocar etiquetas para
a leitura ptica.
Considerando que o processo a ser modelado no movimento das vendas, o banco
de dados permitir ver em detalhes quais produtos esto sendo vendidos em que lojas, a
que preo e em que dias. Usurios do setor comercial, alm da preocupao com a
logstica de organizao e com o abastecimento das gndolas, esto preocupados com a
venda dos produtos, assim como a maximizao do lucro em cada loja.
Ficou definido que a granularidade dentro do banco de dados por venda do cliente
(transao). Uma vez que quanto mais detalhes, menor o nvel de granularidade,
consequentemente, maior o volume de dados armazenado, foi prevista uma grande rea
de armazenamento. O fato de se poderem identificar os clientes, por transao de venda,
possibilita buscar informaes a respeito da logstica de comportamento de compras,
por exemplo, o perfil de clientes numa loja, produtos mais vendidos na regio, produtos
menos vendidos, produtos indispensveis, etc.
O lucro resulta principalmente de cobrar o mximo possvel por um produto, reduzir
os custos de aquisio e custos indiretos do produto e, ao mesmo tempo, de atrair o
maior nmero possvel de clientes por meio de uma poltica de preos altamente
competitiva. As decises administrativas mais significativas que podem ser tomadas em
tempo real relacionando-se com promoes e poltica de preos.
Tanto o setor comercial, como o setor de marketing, gasta muito tempo ajustando
preos e lanando promoes. As promoes em um supermercado incluem redues
temporrias de preos, anncios e encartes em jornais, display nos supermercados. A
maneira mais objetiva e eficaz de criar um aumento no volume (quantidade do produto
vendida) diminuir o preo drasticamente.
Uma reduo de 50 centavos no preo de toalhas de papel, especialmente quando
conjugada a um anuncio e a um display, pode aumentar em 10 vezes o volume de
vendas de toalhas de papel. Infelizmente, uma reduo de preo como esta no
sustentvel porque provavelmente as toalhas estaro sendo vendidas com prejuzo.
Pode-se concluir que a visualizao de todos os tipos de promoo consiste em uma
parte importante da anlise das operaes do setor comercial.
6.3.4 Arquitetura de dados
Dentre as arquiteturas apresentadas no Capitulo 2, se definiu pela utilizao da
arquitetura centralizada, uma vez que os dados propostos na modelagem deste estudo de
caso ficam centralizados no servidor da Administrao e pela facilidade de sua
implementao.
59
BD
BD
DW
SR
rota
B1
BD
DW
Log
SR
BD
rota
A2
SBK
SBK
rota
A1
SR
Log
BD
SBK
60
Outra definio importante, que os dados do BD, a cada transao, so copiados
para o arquivo de Log e limpos de hora em hora, aps serem transferidos para o
Backup.
6.3.5 Arquitetura funcional
Para esta fase foram consideradas as propostas de [KIM 98a] e [PER 2000] para a
definio da arquitetura funcional interna. Esta arquitetura foi adaptada ao projeto
proposta a Cia Zaffari, conforme mostra a Figura 6.4, permitindo identificar os objetos
a serem criados na base de dados, influenciando nas fases de infra-estrutura e projeto de
banco de dados.
Como j apresentada na Seo 2.5 (Figura 2.8), a rea interna pode ser classificada
em: (a) rea de sistemas fontes, (b) rea de organizao dos dados (Staging), onde os
dados de fontes tradicionais (sistemas e outras) so copiados, formatados e armazenados
e (c) a rea do DW (servidor de apresentao), onde os dados tratados so carregados.
6.3.6 Infra-estrutura
Para a execuo do modelo proposto, ser utilizado a arquitetura de servidor HP
K580 e sistema operacional Unix. Ser utilizada para a construo de programas de
transformao e carga, para a arquitetura funcional, a linguagem de programao que
atualmente utilizada para a construo das aplicaes convencionais da prpria Cia
Zaffari.
6.3.7 Modelagem dimensional
Nesta fase foram definidas as tabelas necessrias para atender as definies da
arquitetura funcional, alm de modelar as tabelas de dimenso e fato.
Levando em conta as definies sobre os esquemas multidimensionais apresentadas
na Seo 2.3.2.1 (Figura 2.5), foi definida a utilizao do esquema estrela pelo fato de
ser mais eficiente na recuperao de dados e informaes, alm da facilidade de
compreenso do modelo. O esquema floco-de-neve no foi utilizado pelo fato de no
haver relacionamentos muitos para muitos entre as tabelas dimenso e por apresentar
a desvantagem do aumento da complexidade da arquitetura.
Por definio, a tabela de fatos em uma estrutura dimensional de natureza
altamente normalizada e a maior tabela do banco de dados dimensional. As tabelas
dimensionais, por definio, so quase sempre geometricamente menores que a tabela
de fatos. Qualquer estimativa realista do espao em disco necessrio para o DW pode
efetivamente ignorar as tabelas de dimenso.
Considerando o processo de registro de vendas, cada loja deve gerar um relatrio
completo de todas as vendas de produtos de cada cliente. Levando em conta o grande
volume de vendas dirias, tomou-se como abordagem a transferncia a cada transao
individual de venda para o servidor da administrao e desta forma executar o resumo
dirio. Esta transferncia feita atravs de uma programao nos PVs, para que de
tempos em tempos faam o processo de atualizao e envio.
61
Sistemas Fontes
rea Interna
Tabelas de Descries
p/ as Dimenses
Bases de dados
Nome de atributos.
sobre as vendas
ocorridas nas lojas.
Extrao
(Ferramentas)
Transformao
(Programas)
Extrao
(Ferramentas)
Organizao
(Ferramentas)
Transformao (Programas)
Tabela de Vendas Com Erros
rea de
Carga de dados
Tabela de Vendas
Transformados
Armazena todos os dados
transformados corretamente.
Carga de dados
Transformao (Programas)
(Programas)
Transformao (Programas)
Carga de dados
Tabela de Erros
Carga de dados
Armazena os registros
com problemas.
(Ferramentas)
Tabela de
Auditoria na
Carga de
dados.
Tabelas Dimenso
rea do
DW
62
Dimenso
Produto
Fato
Dimenso
Promoo
Venda
Dimenso
Loja
Dimenso
Dimenso
Tempo
Cliente
63
64
6.3.11 Aplicaes finais
Esta fase representa a construo de relatrios previstos na fase de planejamento
detalhado, levando em conta as ferramentas que devero ser escolhidas para esta
funo.
6.3.12 Auditoria de dados
Esta fase se constitui na utilizao intensiva dos relatrios gerados na fase de
aplicaes finais, pela equipe do projeto com o objetivo de verificar se os resultados
obtidos estaro corretos e consistentes, alm disto, um acompanhamento na fase de
extrao, organizao, transformao e carga se fazem necessria, para se obter uma
melhor performance.
65
por lojas, (d) Qual o perfil dos clientes, por regies e (f) Quais os produtos
indispensveis em uma loja?
Por existir um monte de dados histricos para suporte a deciso que raramente
so usados, a empresa pode reduzir o armazenamento de dados, baseada em
algum critrio, o se justifica o fato de que projetos que comeam como um DW,
algumas vezes evoluem para Data Marts;
66
7 CONCLUSO
Este trabalho foi feito com o objetivo de propor uma metodologia prtica de projeto
de DW, e desta forma desenvolveu-se um trabalho de pesquisa que estabeleceu como
metas principais: (a) estudo das principais metodologias de DW existentes, (b) a
proposta de uma metodologia de desenvolvimento para projeto de DW e (c) a avaliao
da adequao e consistncia da metodologia proposta, atravs de um estudo de caso real
na Cia Zaffari.
A metodologia proposta, depois de aplicada mostrou-se adequada e consistente na
soluo dos problemas com relao completude, detalhamento e iterao, critrios que
motivaram este trabalho e que foram citados no captulo 5.
Levando em conta que estes critrios definidos no foram totalmente satisfeitos por
outras metodologias de projeto de DW apresentadas no captulo 4, a metodologia
proposta sustenta-se sobremaneira sobre o critrio de iterao, baseada no conceito
apresentado pela metodologia RUP. Nele, o projeto de DW elimina as incertezas e
riscos de insucesso, atravs da realizao de uma srie de execues sobre o ciclo de
vida da metodologia proposta, at a obteno de um Plano de Projeto consistente para
ser aprovado e implantado.
A tabela 3 apresenta o resumo das metodologias de projeto de DW estudadas, assim
como as principais caractersticas da metodologia proposta.
Tabela 3 Resumo das metodologias de projeto de DW e proposta.
Caractersticas
[MAR 99]
[KIM 98a]
[POE 98]
[PER 2000]
Proposta
Completa
Sim
Sim
Sim
Sim
Sim
Experincia
Sim
Sim
Sim
No
Sim
Fases da metodologia
- viso estratgica;
- planejamento;
- planejamento;
- levantamento;
- avaliao da
engenharia;
- definio de
requisitos do
negcio;
- levantamento
de requisitos e
modelagem;
levantamento
- projeto de
arquitetura tcnica;
- projeto fsico
da base de
dados;
- avaliao do fluxo
de valores;
- avaliao da
questo comercial;
- projeto/reviso;
- modelagem
dimensional;
- caso comercial do
DW;
especificao de
aplicaes de
usurio final;
- plano de
implementao da
- seleo e
- determinao
e mapeamento
das fontes de
dados;
- populao do
DW;
preliminar;
planejamento
preliminar;
- planejamento;
- planejamento
detalhado;
- arquitetura de
dados;
levantamento
detalhado;
- arquitetura
funcional;
- prottipo;
- infraestrutura;
- definio do
projeto e
- modelagem
dimensional;
67
iterao;
- projeto detalhado
- implementao;
- transio p/
produo;
- manuteno.
instalao de
produtos;
- automao dos
processos;
atualizao do
planejamento;
- projeto de
BD;
- projeto fsico;
- criao do
conjunto inicial
de relatrios;
- projeto
piloto do DW
- avaliao de
produtos;
- projeto e
desenvolvimento da
organizao de
dados;
- disponibilizar do
DW;
- execuo da
arquitetura
funcional;
- validao e
testes de dados;
- treinamento;
- aplicaes
finais.
- produo.
- manuteno e
crescimento.
Detalhamento das
fases
Pouco detalha
Detalha
Detalha
Detalha
Detalha
Arquitetura de dados
No
Acesso a dados
(Rolap e Molap)
Centralizada,
DM
dependentes e
independentes
Centralizada,
DM
dependentes e
independentes
Banco de
dados
integrado a um
DW e
[POE 98]
Arquitetura funcional
No
ra interna,
servidor de
apresentao, rea
externa e
metadados.
Integrao de
dados,
transformao
de dado,
arquitetura de
dados e
metadados
ra interna,
servidor de
apresentao,
rea externa,
servios e
metadados
[KIM 98a]
Anteprojeto
No possui
Possui
Possui
Possui
Possui
Auditoria de dados
No detalha
Detalha
Detalha
Pouco detalha
[KIM 98 a] e
[POE 98]
Iterao completa
No
No
No
No
Sim
A metodologia proposta foi concebida de forma a ser genrica o suficiente para ser
aplicada em vrios ambientes organizacionais e vrios domnios de problema. No
entanto, a validao desta generabilidade no foi realizada pois s foi aplicada em um
nico estudo de caso. Alm disto, no se pode atingir a etapa de execuo na sua
totalidade devido a fatores j citados na seo 6.2.1.1, o que dificultou numa avaliao
dos resultados esperados no estudo de caso.
Ao encerrar a execuo do projeto junto a Cia Zaffari, utilizando a metodologia
proposta neste trabalho, pde-se concluir que os resultados obtidos neste projeto, alm
de atender as necessidades gerenciais, tambm despertou o interesse do pblico
envolvido no projeto sobre a tecnologia de DW.
Como perspectivas de trabalho futuro para a metodologia proposta, sugere-se:
68
69
REFERNCIAS
[DAM 2000]
[DBM 2001]
[DWH 2000]
[DWM 2001]
[DWP 2000]
[EDE 94]
[FAY 96]
FAYYAD,
Usama,
PIATETSKY-SHAPIRO,
Gregory,
PANDHRAIC, Smyth. From data mining to knowledge discovery:
an overview. Advances in knowledge and data mining. Califrnia:
AAAI Press, 1996.
70
[FUR 98]
[GEN 98]
[GRA 98]
[HAR 96]
[INM 97]
[KIM 98]
[KIM 98a]
[MAR 99]
[MIC 2000]
[MOR 97]
[PEK 96]
[PER 2000]
[POE 98]
71
[SYB 2000]
[VAL 96]