Escolar Documentos
Profissional Documentos
Cultura Documentos
ADRIANO DALALBA
CAXIAS DO SUL - RS
Nominata
Reitor:
Prof. Ruy Pauletti
Vice-reitor:
Prof. Luiz Antnio Rizzon
Pr-Reitor de Graduao:
Prof. Luiz Antnio Rizzon
Chefe do Departamento de Informtica:
Profa. MSc. Maria de Ftima Webber do Prado Lima
Sub-chefe do Departamento de Informtica:
Prof. MSc. Heitor Strogulski
Coordenadora do Colegiado do Curso de Bacharelado em Cincias da Computao:
Sumrio
NOMINATA ......................................................................................................................................... 2
SUMRIO ............................................................................................................................................ 3
LISTA DE ABREVIATURAS.............................................................................................................. 5
LISTA DE FIGURAS ........................................................................................................................... 6
LISTA DE TABELAS .......................................................................................................................... 7
RESUMO .............................................................................................................................................. 8
ABSTRACT.......................................................................................................................................... 8
1
INTRODUO ......................................................................................................................... 10
CONCEITOS............................................................................................................................. 12
MODELOS DE DADOS............................................................................................................ 35
5.1
MODELO DE DADOS SEGUNDO R.KIMBALL .............................................................................. 35
5.1.1
Modelo empresarial ....................................................................................................... 35
5.1.2
Modelo dimensional ...................................................................................................... 37
5.1.3
Modelo fsico ................................................................................................................ 43
5.2
MODELO DE DADOS SEGUNDO W.H.INMON ............................................................................. 45
5.2.1
Modelo de dados de alto nvel ........................................................................................ 45
5.2.2
Modelo de dados de nvel intermedirio ......................................................................... 46
5.2.3
Modelo de dados de baixo nvel ..................................................................................... 47
5.3
ESTRATGIA DE CONVERSO DO MODELO E-R PARA O MODELO DE DADOS DO DW ................... 48
5.3.1
Remoo dos dados puramente operacionais .................................................................. 48
5.3.2
Adio de um elemento de tempo na estrutura da chave .................................................. 48
5.3.3
Introduo de dados derivados ....................................................................................... 49
5.3.4
Transformao de Relacionamentos entre dados em artefatos dos dados ......................... 49
5.3.5
Acomodao dos diferentes nveis de granularidade ....................................................... 51
5.3.6
Unio dos dados comuns de diferentes tabelas ................................................................ 52
5.3.7
Criao de arrays de dados ............................................................................................ 52
5.3.8
Separao dos atributos de dados de acordo com sua estabilidade ................................... 54
5.4
MODELO DE ESTRUTURA DOS DADOS ...................................................................................... 55
6
10
VANTAGENS .......................................................................................................................... 90
DESVANTAGENS .................................................................................................................... 91
DIFICULDADES DE DESENVOLVIMENTO ................................................................................... 92
EXEMPLOS ............................................................................................................................. 93
CONCLUSO ........................................................................................................................... 95
BIBLIOGRAFIA ................................................................................................................................ 97
Lista de Abreviaturas
BDM
DSS
DW
E-R
EIS
ERP
HTML
MOLAP
MPP
ODBC
OLAP
OLTP
ROLAP
SAD
SGBD
SMP
Lista de Figuras
Lista de Tabelas
TABELA 2.1 COMPARAO ENTRE BANCO DE DADOS OPERACIONAIS E DATA WAREHOUSE. ................... 13
TABELA 3.1 CONJUNTO DE CARACTERSTICA DA QUALIDADE DE DADOS. .............................................. 19
TABELA 6.1 FUNES EM UM DATA WAREHOUSE [BAR96]. .................................................................. 57
TABELA 7.1 FERRAMENTAS PARA EXTRAO, TRANSFORMAO E MIGRAO DE DADOS [ORL96]. ...... 74
TABELA 8.1 AS DOZES REGRAS PARA OLAP SEGUNDO CODD [COD95]. ............................................... 78
TABELA 8.2 PRODUTOS DA FAMLIA ORACLE EXPRESS PARA DW [ORA98].......................................... 87
Resumo
Abstract
10
1 Introduo
Com a evoluo da tecnologia de informao e o crescimento do uso de
computadores interconectados, praticamente todas as empresas de mdio e grande porte
esto utilizando sistemas informatizados para realizar seus processos mais importantes,
o que com o passar do tempo acaba gerando uma enorme quantidade de dados
relacionados aos negcios, mas no relacionados entre si. Estes dados armazenados em
um ou mais sistemas operacionais1 de uma empresa so um recurso, mas de modo geral,
raramente servem como recurso estratgico no seu estado original. Os sistemas
convencionais de informtica no so projetados para gerar e armazenar as informaes
estratgicas, o que torna os dados vagos e sem valor para o apoio ao processo de
tomada de decises das organizaes. Estas decises normalmente so tomadas com
base na experincia dos administradores, quando poderiam tambm ser baseadas em
fatos histricos que foram armazenados pelos diversos sistemas de informao
utilizados pelas organizaes.
Em termos simples, um Data Warehouse, ou em portugus, Armazm de Dados,
pode ser definido como um banco de dados especializado, o qual integra e gerencia o
fluxo de informaes a partir dos bancos de dados corporativos e fontes de dados
externas2 empresa. Um Data Warehouse construdo para que tais dados possam ser
armazenados e acessados de forma que no sejam limitados por tabelas e linhas
estritamente relacionais. A funo do Data Warehouse (DW) tornar as informaes
corporativas acessveis para o seu entendimento, gerenciamento e uso. Como o DW est
separado dos bancos de dados operacionais, as consultas dos usurios no impactam
nestes sistemas, que ficam resguardados de alteraes indevidas ou perdas de dados. O
DW no como um software, que pode ser comprado e instalado em todos os
computadores da empresa em algumas horas, na realidade sua implantao exige a
integrao de vrios produtos e processos.
Um DW oferece os fundamentos e os recursos necessrios para um Sistema de
Apoio a Deciso (SAD) eficiente, fornecendo dados integrados e histricos que servem
desde a alta direo, que necessita de informaes mais resumidas, at as gerncias de
baixo nvel, onde os dados detalhados ajudam a observar aspectos mais tticos da
empresa. Nele, os executivos podem obter de modo imediato respostas para perguntas
que normalmente no possuem respostas em seus sistemas operacionais e, com isso,
tomar decises com base em fatos, no com intuies ou especulaes.
Com o surgimento do DW so necessrios novos mtodos de estruturao de
dados e novas tecnologias, tanto para armazenamento, como para recuperao de
informaes. A necessidade destes novos mtodos e tecnologias, surgiu da constatao,
primeiro de que existe uma necessidade de informao no atendida pelos aplicativos
comerciais convencionais, que atuam a nvel operacional do negcio, e segundo, pelo
fato de que a tecnologia de armazenamento de dados utilizada nestes aplicativos no
atende s necessidades detectadas. Graas aos avanos nos bancos de dados relacionais,
A expresso sistemas operacionais, neste trabalho, sempre se referir aos sistemas transacionais de
uma empresa, utilizados para controlar suas operaes dirias, como compras, vendas, estoques, etc.
2
A expresso fontes de dados externas, neste trabalho, ser utilizada para definir informaes que no
esto associadas aos sistemas da empresa. Por exemplo: arquivos textos, imagens, sons, planilhas de
clculos, etc.
11
12
2 Conceitos
Na atual bibliografia podem ser encontrados muitos conceitos sobre DW como
os apresentados a seguir:
Segundo Inmon [INM97a], que tido como o pai do conceito, Data
Warehouse uma coleo de dados orientados por assuntos, integrados,
variveis com o tempo e no volteis, para dar suporte ao processo gerencial de
tomada de deciso;
Data Warehouse um processo em andamento que aglutina dados de fontes
heterogneas, incluindo dados histricos e dados externos para atender
necessidade de consultas estruturadas e ad-hoc, relatrios analticos e de suporte
a deciso, conforme Harjinder [HAR96];
Segundo Barquini [BAR96], Data Warehouse uma coleo de tcnicas e
tecnologias que juntas disponibilizam um enfoque pragmtico e sistemtico para
tratar com o problema do usurio final de acessar informaes que esto
distribudas em vrios sistemas da organizao,
Para entender o que um DW, importante fazer uma comparao com o
conceito tradicional de banco de dados. Conforme [BAT86], "Um banco de dados
uma coleo de dados operacionais armazenados e utilizados pelo sistema de aplicaes
de uma empresa especfica". Os dados mantidos por uma empresas so chamados de
"operacionais" ou "primitivos". Batini em [BAT86] refere-se aos dados no banco de
dados como "dados operacionais", distinguindo-se de dados de entrada, dados de sada
e outros tipos de dados.
Levando em considerao esta definio sobre dados operacionais, pode-se dizer
que um DW , na verdade, uma coleo de dados derivados dos dados operacionais para
sistemas de suporte deciso. Estes dados derivados so, muitas vezes, referidos como
dados "gerenciais", "informacionais" ou "analticos" [INM96].
Os bancos de dados operacionais armazenam as informaes necessrias para as
operaes dirias da empresa, so utilizados por todos os funcionrios para registrar e
executar operaes pr-definidas, por isso seus dados podem sofrer constantes
mudanas conforme as necessidades atuais da empresa. Por no ocorrer redundncia nos
dados e as informaes histricas no ficarem armazenadas por muito tempo, este tipo
de BD no exige grande capacidade de armazenamento.
J um DW armazena dados analticos, destinados s necessidades da gerncia
no processo de tomada de decises. Isto pode envolver consultas complexas que
necessitam acessar um grande nmero de registros, por isso importante a existncia de
muitos ndices criados para acessar as informaes da maneira mais rpida possvel. Um
DW armazena informaes histricas de muitos anos e por isso deve ter uma grande
capacidade de processamento e armazenamento dos dados que se encontram de duas
maneiras, detalhados e resumidos.
Na Tabela 2.1 esto relacionadas algumas diferenas entre bancos de dados
operacionais e DW bem como as diferenas dos dados que eles manipulam segundo os
seguinte autores: [INM96] [BAR96] [KIM96] [ONE97].
13
Objetivo
Uso
Tipo de processamento
Unidade de trabalho
Nmero de usurios
Tipo de usurio
Interao do usurio
Bancos de dados
Operacionais
Operaes dirias do negcio
Operacional
OLTP
Incluso, alterao, excluso
Milhares
Operadores
Somente pr-definida
Analisar o negcio
Informativo
OLAP
Carga e consulta
Centenas
Comunidade gerencial
Pr-definida e ad-hoc
Dados operacionais
Megabytes gigabytes
60 a 90 dias
Detalhados
No ocorre
Dados Analticos
Gigabytes terabytes
5 a 10 anos
Detalhados e resumidos
Ocorre
Estrutura
Manuteno desejada
Acesso a registros
Atualizao
Integridade
Nmero de ndices
Inteno dos ndices
Esttica
Mnima
Dezenas
Contnua (tempo real)
Transao
Poucos/simples
Localizar um registro
Varivel
Constante
Milhares
Peridica (em batch)
A cada atualizao
Muitos/complexos
Aperfeioar consultas
Caractersticas
Data Warehouse
14
15
3.2 Integrao
Esta a caracterstica mais importante do DW, pois ela quem ir definir a
representao nica para os dados provenientes dos diversos sistemas que formaro a
base de dados do DW. A maior parte do trabalho na construo de um DW est na
anlise dos sistemas operacionais e dos dados que eles contm. Como no existem
padres de codificao, cada analista pode definir a mesma estrutura de dados de vrias
formas, fazendo com que dados que representam a mesma informao sejam
representados de diversas maneiras dentro dos sistemas utilizados pela empresa ao
longo dos anos.
Um exemplo clssico deste problema a representao do sexo, em um sistema
pode-se definir um campo de uma posio alfanumrica, onde M signifique masculino e
F feminino, em outro a mesma informao pode ser representada por 1 e 2 ou por H
para homem e M para mulher e assim por diante. Com a integrao dos dados este
problema desaparece, conforme ilustra a Figura 3.1, pois deve ser adotada uma nica
representao para esta informao.
Ambiente operacional
Aplicao A M, F
Aplicao B H, M
Aplicao C 0, 1
Data warehouse
M, F
16
17
3.4 No volatilidade
Em um DW no existem alteraes de dados, somente a carga inicial e as
consultas posteriores. Ele definido assim pois as operaes a nvel de registro em
modo on-line como so os sistemas transacionais, exigem um controle e um
processamento muito grande, fugindo do objetivo principal do DW. Segundo
W.H.Inmon[INM97] dizer que existe redundncia de dados entre os sistemas
transacionais e o DW demonstra a falta de conhecimento de como as coisas acontecem
no DW.
Deve-se considerar que os dados passam por filtros antes de entrar no DW, com
isso muitos dados nunca passam do ambiente transacional e outros so resumidos de
certa forma que no so encontrados fora do DW. Em outras palavras, a maior parte
dos dados fsica e radicalmente alterada quando passam a fazer parte do DW. Do
ponto de vista de integrao, no so mais os mesmos dados do ambiente operacional.
luz destes fatores, a redundncia de dados entre os dois ambientes raramente ocorre,
resultando em menos de 1 por cento de duplicaes.[INM97].
3.5 Localizao
Os dados podem estar fisicamente armazenados de trs formas[CAM97]:
Armazenados em um nico local centralizando o banco de dados em um DW
integrado, procurando maximizar o poder de processamento e agilizando a busca
dos dados;
Distribudos por reas de interesse, o que pode ser chamado de arquitetura
federativa, com dados financeiros em um servidor, dados de marketing em outro
e dados de manufatura em um terceiro lugar;
Armazenados por nveis de detalhes em que as unidades de dados so
mantidas no DW. Pode-se armazenar dados altamente resumidos em um
servidor, dados resumidos em um nvel de detalhe intermedirio em um segundo
servidor e os dados mais detalhados (atmicos) em um terceiro servidor. Os
servidores da primeira camada podem ser otimizados para suportar um grande
nmero de acessos e um baixo volume de dados enquanto servidores nas outras
camadas podem ser adequados para processar grandes volumes de dados mas
baixo nmero de acessos.
Um DW pode possuir diferentes nveis de dados, que podem estar agrupados
por idade, sintetizao ou detalhe. A forma geral de localizao dos dados em um DW
mostrada na Figura 3.2. Os componentes da estrutura so divididos em:
Dados detalhados atuais
Dados detalhados antigos
Dados levemente resumidos
Dados altamente resumidos
Metadados
18
Dados altamente
resumidos
M
E
T
A
D
A
D
O
S
Dados levemente
resumidos
Dados detalhados
atuais
Dados detalhados
antigos
19
Caracterstica da qualidade
de dados
Descrio
Exemplo de medida
Preciso
Abrangncia
Consistncia
Coerncia
Tempo de resposta
Singularidade
Percentual de condies
satisfeitas.
20
3.7 Granularidade
Granularidade diz respeito ao nvel de detalhe ou de resumo contido nas
unidades de dados existentes no DW. Quanto maior o nvel de detalhes, menor o nvel
de granularidade. O nvel de granularidade afeta diretamente o volume de dados
armazenado no DW e ao mesmo tempo o tipo de consulta que pode ser respondida.
Quando se tem um nvel de granularidade muito alto o espao em disco e o
nmero de ndices necessrios se tornam bem menores, porm h uma correspondente
diminuio da possibilidade de utilizao dos dados para atender a consultas detalhadas.
A Figura 3.3 exemplifica o conceito acima utilizando os dados histricos das
vendas de um produto, um nvel de granularidade muito baixo pode ser caracterizado
pelo armazenamento de cada uma das vendas ocorridas para este produto e um nvel
muito alto de granularidade seria o armazenamento do somatrios das vendas ocorridas
por ms.
Nveis de Granularidade
Baixa
Produto Data
A1 13/9/98
B1 14/9/98
A1 16/9/98
A1 16/9/98
........
Qtd.
10
15
20
90
Alta
Valor
100,00
150,00
200,00
890,00
Ms/Ano
09/98
09/98
Produto Qtd.
Valor
A1
120 1190,00
B1
15
150,00
21
Dados
Resumidos
Primeira
Camada
Primeira Camada
Dados resumidos por produto
Produto A1 maio/1998
Valor total: R$ 1.270,00
Quantidade total: 254
Valor mdio: R$ 5,00
Segunda
camada
Segunda Camada
Dados detalhados por produto
Produto A1
02/5/1998- Valor R$ 100,00 Quantidade 20
09/5/1998- Valor R$ 50,00 Quantidade 10
12/5/1998- Valor R$ 125,00 Quantidade 25
20/5/1998- Valor R$ 350,00 Quantidade 70
22/5/1998- Valor R$ 110,00 Quantidade 22
29/5/1998- Valor R$ 320,00 Quantidade 64
.........
22
3.8 Os metadados
Metadados so normalmente definidos como dados sobre os dados. Podem ser
definidos tambm como um abstrao dos dados, ou dados de mais alto nvel que
descrevem dados de um nvel inferior. Os metadados tm um papel muito importante na
administrao de dados, mas no DW podem ser considerados de suma importncia pois
a partir deles que as informaes sero processadas, atualizadas e consultadas.
Como os usurios de DW procuram por fatos no usuais e relaes no
conhecidas previamente eles precisam examinar os dados e para isso necessitam
conhecer a estrutura e o significado dos dados do DW, o que no ocorre em um
ambiente operacional onde os usurios trabalham com aplicaes que contm as
definies de dados embutidas e simplesmente interagem com as telas do sistema sem
precisar conhecer como os dados so mantidos pelo banco de dados.
Geralmente os metadados em um DW podem ser apresentados em trs camadas
diferentes:
Metadados operacionais: definem a estrutura dos dados mantidos pelos
bancos operacionais, usados pelas aplicaes de produo da empresa;
Metadados centrais do DW: so orientados por assunto e definem como os
dados transformados devem ser interpretados, incluem definies de agregao e
campos calculados, assim como vises sobre cruzamentos de assuntos;
Metadados do nvel do usurio: organizam os metadados do DW para
conceitos que sejam familiares e adequados aos usurios finais;
Os metadados podem ser classificados conforme a classe de seus componentes:
Mapeamento: descrevem como os dados de sistemas operacionais so
transformados antes de entrarem no DW. Exemplos desta classe de metadados
podem ser os que identificam campos fontes, mapeamentos entre atributos,
converses, codificaes, padres, etc.;
Histrico: com a evoluo dos sistemas operacionais as regras de negcio da
empresa podem mudar, cabe a estes metadados manter o histrico de
mudanas destas regras, pois as regras certas devem ser aplicadas aos dados
certos;
Miscelnea: esta classe define diversos tipos de metadados, informaes da
situao de desenvolvimento de partes do DW, informaes sobre volume dos
dados para estimativas de tempo e recursos, etc.;
Algoritmos de sumarizao: mostram a relao entre os diferentes nveis
de detalhes dos dados, indicando inclusive que nvel de sumarizao mais
adequado para um dado objetivo;
Padres de acesso: mantm informaes sobre freqncia e tipo de acesso
aos dados.
Conforme visto acima os dados sobre desempenho e monitoramento tambm so
qualificados com metadados, eles podem ser criados por processos que monitoram
atividades como extrao, carga e uso dos dados. Dados que identificam questes
23
relativas a qualidade dos dados tambm devem estar disponveis para os usurios, afim
de que estes identifiquem a acuracidade de suas anlises.
Segundo Inmon[INM97] os metadados englobam o DW e mantm informaes
sobre o que est aonde no DW. Tipicamente os aspectos sobre os quais os metadados
mantm informaes so:
A estrutura dos dados segundo a viso do programador;
A estrutura dos dados segundo a viso dos analista de SAD;
A fonte de dados que alimenta o DW;
A transformao sofrida pelos dados no momento de sua migrao para o DW;
O modelo de dados;
O relacionamento entre o modelo de dados e o DW;
O histrico das extraes de dados.
24
25
26
27
Data Warehouse
(SGBD)
Componente
front-end
Componente
back-end
Repositrio de
metadados
Fontes externas
Fontes internas
28
Cinco principais fluxos fazem parte do sistema: fluxo de entrada (inflow), fluxo
de sada (outflow), fluxo de subida (upflow), fluxo de descida (downflow) e o
metafluxo (metaflow). A Figura 4.3 ilustra como estes cinco diferentes fluxos de dados
esto inseridos dentro de sistema:
Outflow
Componente
front-end
Upflow
Metaflow
Data Warehouse
Inflow
Repositrio de
metadados
Downflow
Componente
back-end
Dados antigos
Fontes internas
Fontes externas
29
30
4.3.2 Integrador
O integrador pode ser implementado como um mecanismo de regra base,
recebendo as notificaes dos extratores e integrando-as no DW [VAL96]. Cada regra
responsvel pela manipulao de um determinado tipo de notificao e implementada
como um mtodo em um sistema orientado a objetos. Quando o extrator gera um
determinado tipo de notificao o mtodo correspondente chamado e ento executa os
31
Consultas
Data warehouse
Integrador
Extrator
Extrator
Extrator
Base de
dados
Base de
dados
Base de
dados
32
33
BD
Sistema
Operacional
BD
Sistema
Operacional
BD
Sistema
Operacional
Servidor
Principal
DW
34
BD
BD
Aplicaes
front-end
Sistema
Operacional
Servidor
de aplicaes
BD
Sistema
Operacional
Aplicaes
front-end
Servidor
de BD p/DW
BD
Sistema
Operacional
Aplicaes
front-end
DW
35
5 Modelos de dados
O modelo de dados tem um papel fundamental para o desenvolvimento
interativo do DW. Quando os esforos de desenvolvimentos so baseados em um nico
modelo de dados sempre que for necessrio unir estes esforos os nveis de
sobreposio de trabalho e desenvolvimento desconexo sero muito baixos, pois todos
os componentes do sistema estaro utilizando a mesma estrutura de dados.
Existe um grande nmero de enfoques sobre modelagem de dados j
desenvolvidos por vrios autores, a maioria deles pode ser usada para construir um DW.
Dentre estes modelos dois sero resumidamente apresentados neste trabalho. O primeiro
modelo foi escrito por R.Kimball em [KIM96] e divide a modelagem dos dados em
trs partes: modelo empresarial, modelo dimensional e modelo fsico. O segundo
modelo apresentado foi escrito por W.H.Inmon em [INM93] e tambm divide a
modelagem dos dados em trs partes: a modelagem de alto nvel, a modelagem de nvel
intermedirio e a modelagem de baixo nvel. Na seo final do captulo descrita uma
estrutura de dados que padro em todos os ambientes de DW, os instantneos.
36
37
38
39
modelo Estrela, ilustrado na Figura 5.1, tem a vantagem de ser simples e intuitivo, mas
tambm faz uso de novos enfoques de indexao e unio de tabelas.
A tabela de fatos contm milhares ou milhes de valores e medidas do negcio
da empresa, como transaes de vendas ou compras. Cada uma destas medidas
tomada segundo a interseo de todas as dimenses. Na Figura 5.1, as medidas
numricas so o nmero de reais vendidos e o nmero de unidades vendidas. Os fatos
melhores e mais teis so numricos, continuamente valorados (diferentes a cada
medida) e aditivos, j que estes facilitam a gerao do conjunto de respostas. Uma outra
caracterstica da tabela de fatos a esparsidade, ou seja, se no existe um cruzamento
para alguns valores das dimenses, a tabela de fatos no armazena zeros.
As tabelas de dimenso armazenam as descries textuais das dimenses do
negcio. Cada uma dessas descries textuais ajuda a definir um componente da
respectiva dimenso. Uma das principais funes dos atributos de tabelas de dimenso
servir como fonte para restries em uma consulta ou como cabealhos de linha no
conjunto de resposta do usurio. Tabelas dimenses tendem a utilizar tipos caracteres ao
invs de numricos, de forma que suas linhas so muito mais longas mas em pouca
quantidade ocupando uma pequena percentagem de espao em disco. As tabelas de
fatos podem utilizar at 95% da rea destinada ao DW [BAR96].
Na maioria das vezes as dimenses representam hierarquias, como por exemplo,
um produto, que de uma marca ou categoria, que por sua vez pertence a uma subcategoria, etc. S que, na maioria das vezes, quando esta representada na dimenso,
no temos vrias tabelas normalizadas com ligaes um-para-muitos, e sim uma nica
tabela de dimenso. Isso faz com que a performance das consultas aumente muito, j
que no so necessrios joins para se obter os dados relacionados com algum assunto.
Outro fato importante que como a tabela de fatos na verdade representa os
relacionamentos muitos-para-muitos entre as tabelas de dimenses, esta tem como
chave primria uma chave composta de todas as chaves estrangeiras das tabelas de
dimenso [KIM96].
Para um bom desempenho do modelo Estrela necessrio que os projetistas
saibam antecipar, na modelagem do DW, as consultas mais freqentes a serem
realizadas pelos usurios. Com a redundncia seletiva e relacionamentos prestabelecidos o projetista pode simplificar os dados facilitando seu acesso.
40
41
42
43
Matriz Bidimensional
Marca
X Y Z Total
Marca A 5 8
3 16
Marca B 1 4
2 7
Marca C 0 4
0 4
Total
6 16 5 27
44
45
DESCRICAO_DO_GRUPO
PRODUTOS CLASSE A
PRODUTOS CLASSE B
PRODUTOS CLASSE C
SUBGRUPO_DE_PRODUTOS
VALOR
SUBGRUPO
INDICE
1001
1002
15
1003
87
3001
3002
45
GRUPO
TIPO
DESCRICAO_DO_GRUPO
SUBGRUPO
INDICE
TIPO
PRODUTOS CLASSE A
1001
PRODUTOS CLASSE A
1002
PRODUTOS CLASSE A
1003
PRODUTOS CLASSE C
3001
PRODUTOS CLASSE C
3002
46
Cliente
Pedido
Estoque
Cobrana
Produo
Expedio
47
Agrupamento
primrio de
dados
Agrupamento
secundrio de
dados
Chave
Campo1
Campo2
Campo3
.....
Chave
Campo1
Campo2
Campo3
.....
Chave
Campo1
Campo2
Campo3
.....
Chave
Conector
dados
Chave
Campo1
Campo2
Campo3
.....
Agrupamento
primrio de
dados
Chave
Campo1
Campo2
Campo3
.....
48
Modelo de Dados
Corporativo
Modelo de Dados do
Data Warehouse
49
Modelo de Dados do
Data Warehouse
#ID do Consumidor
Nome
Data de Nascimento
Estado Civil
Limite de Crdito
#ID do Consumidor
#Data do Snapshot
Nome
Idade
Estado Civil
Limite de Crdito
Modelo de Dados
Corporativo
Modelo de Dados do
Data Warehouse
Dados
Derivados
50
armazenar dados histricos, tem muitos valores para um dado relacionamento entre duas
tabelas. Dessa forma a melhor maneira de representar o relacionamento entre duas
tabelas no DW atravs da criao de artefatos.
Um artefato de um relacionamento somente a parte do relacionamento que
bvia e tangvel no momento do instantneo. Em outras palavras, quando o instantneo
feito os dados associados com o relacionamento que so teis e bvios sero
colocados no DW.
O artefato pode incluir chaves estrangeiras e outros dados relevantes, tais como
colunas de tabelas associadas, ou este pode incluir somente os dados relevantes, sem
incluir as chaves estrangeiras.
Como exemplo, consideremos as tabelas e o relacionamento entre estas na
Figura 5.10. Nesta existe um relacionamento entre produto e fornecedor, onde cada
produto tem um fornecedor principal. Se fossemos fazer ento um instantneo deste
relacionamento, teramos que considerar a informao do fornecedor principal que est
relacionado ao produto. Alm disso, outras informaes de artefato relacionadas com o
fornecedor deveriam ento ser capturadas. A tabela de produtos no modelo do DW
ficaria ento como a mostrada na Figura 5.11.
Modelo Corporativo
Produto
#Cdigo do Produto
Descrio
Unidade de Medida
Fornecedor do Produto
#Cdigo do Produto
#Cdigo Cosumidor
Forncedore Preferido
Artefatos
51
Mas o exemplo anterior, tem o problema de ser incompleto. Isto ocorre porque
ele mostra o relacionamento que existe em um instante de tempo especfico, de forma
que eventos podem ocorrer e nunca serem capturados. Por exemplo, se este instantneo
for tirado semanalmente, pode ser que um produto mude trs vezes de fornecedor
durante uma semana, fazendo com que somente o ltimo seja armazenado no DW.
Uma forma de tentar solucionar este problema, seria guardar registros histricos
e no instantneos. Por exemplo, para o produto pode-se armazenar os dados no exato
momento em que este foi recebido, de forma que o fornecedor deste nunca seria
perdido, sendo sempre armazenado no DW. Na Figura 5.12 pode-se ver como seria feito
este registro.
52
Modelo Corporativo
Atividade de Entrega
Data da Entrega
Cdigo da Entrega
Enviado por
Enviado para
Quantidade
Sumarizao por
Produto
Cdigo do Pedido
#Ano/ms
#Enviado por
Nmero de Entregas
Valor da Entrega
Entregas Atrasadas
Entregas na Data
53
#Cdigo da Nota
#Cdigo do Item
Cdigo do Produto
Quantidade
Preo Unitrio
#Cdigo da Nota
#Cdigo do Item
Data de Nota
Cdigo do Consumidor
Cod. Repr. Vendas
Cdigo do Produto
Quantidade
Preo Unitrio
Modelo Corporativo
#Cod Previso Gasto
Gasto Mensal/Anual
Valor do Gasto
54
raramente
alterada
alterada
algumas vezes
alterada
freqentemente
Codigo
Descrio
Principal_substituta
Quantidade_atual
Unidade_compra
Ponto_reposicao
Fornecedor
Prazo_entrega
Taxa_rejeicao
Transportadora
Data_ultima_venda
Quantidade_ultima_venda
Local_ultima_entrega
Manifesto_carga
Quantidade_encomendada
.....
Codigo
Descrio
Unidade_compra
Prazo_entrega
Taxa_rejeicao
Manifesto_carga
.....
Codigo
Principal_substituta
Ponto_reposicao
Fornecedor
Transportadora
.....
Codigo
Quantidade_atual
Data_ultima_venda
Quantidade_ultima_venda
Local_ultima_entrega
Quantidade_encomendada
.....
55
Unidade de
tempo
Dados primrios
Dados Secundrios
Chave
56
Funo
Gerente do DW
Arquiteto de Dados
Responsabilidades
Define as estratgias pertinentes ao DW
Planeja e gerencia o DW
Comunica os objetivos do DW para a
equipe de desenvolvimento
Desenvolve o modelo de dados
Analisa as exigncias de dados
Desenha as estruturas dos dados
Define as vises gerenciais para os
dados
57
Funo
Administrador de Metadados
Administrados do BD
Responsabilidades
Desenvolve os programas
selecionar e carregar os dados
para
Instrutor
58
59
60
61
Vendas
Mesmos dados,
Nomes diferentes.
Compras
Dados diferentes,
Mesmos nomes.
Pedidos
Dados s
encontrados aqui.
Estoque
Chaves diferentes,
mesmos dados
62
Data Warehouse
centmetros
Aplicao D - metros
63
64
Marca de
tempo
Aplicaes
existentes
Arquivo
delta
Aplicaes
existentes
Arquivo de
log
Aplicaes
existentes
Imagem
anterior
Cdigo da
aplicao
Aplicaes
existentes
Imagem
anterior
Alteraes
sobre o BD
desde a
ltima
atualizao
65
estratgia de intercalao de tabelas deve ser defina com base nos tipos de dados e
possveis consultas que podem ser realizadas.
Outra tcnica importante aplicada especialmente no ambiente de DW consiste na
introduo intencional de dados redundantes. A Figura 6.5 mostra um exemplo no
qual a introduo deliberada de dados redundantes proporciona um excelente retorno.
Na parte superior da Figura 6.5 o campo descrio est normalizado e no apresenta
redundncia. Dessa maneira todos os processos que precisam ver a descrio precisam
acessar a tabela bsica. Na parte inferior da Figura 6.5 o campo descrio foi
intencionalmente colocado nas diversas tabelas em que ele precisa ser usado. O
problema da replicao de dados somente o aumento do volume do DW, j que
praticamente no existe a preocupao com atualizaes neste ambiente.
Itens
Cdigo
Descrio
Unidade
Quantidade
.....
atualizao
MRP
Cdigo
.....
acesso
Produo
Cdigo
.....
acesso
Estoque
Cdigo
.....
acesso
Gerncia
Cdigo
.....
acesso
Itens
Cdigo
Descrio
Unidade
Quantidade
.....
MRP
Cdigo
Descrio
.....
Produo
Cdigo
Descrio
.....
Estoque
Cdigo
Descrio
.....
Gerncia
Cdigo
Descrio
.....
atualizao
acesso
acesso
acesso
acesso
A descrio est redundante e deve ser atualizada em vrios locais, mas raramente atualizada.
66
separadas. A Figura 6.6 demonstra a separao de uma tabela de produtos, onde a data
de cadastramento e a descrio so pouco acessados e a quantidade disponvel do
produto freqentemente consultada.
Para a construo de um DW pode ser usado tambm uma tcnica chamada de
ndice criativo. Um ndice criativo gerado quando os dados passam do ambiente
operacional para o ambiente de DW. O ndice criativo gera um perfil de dados de
interesse do usurio final, como informaes sobre os produtos mais vendidos, clientes
inativos e outras informaes que possam antecipar os interesses da gerencia, como esta
antecipao nem sempre possvel necessrio avaliar com cautela sobre quais os
dados em que ser aplicado esta tcnica.
Cdigo
Descrio
Data_incluso
Qtd_atual
...
Cdigo
Descrio
Data_incluso
...
Dados com baixa
probabilidade de
acesso
Tabela original
Cdigo
Qtd_atual
...
67
Data Mart
Data Mart
Compras
Vendas
Data Mart
Estoque
Data Warehouse
68
em vrios locais o que dificulta uma futura integrao de todos os Data Marts em um
nico DW.
69
o servidor do banco de dados do DW seja fornecido por uma empresa idnea e que
garanta futuras expanses.
8) Acreditar que quando o DW estiver rodando seu problemas estaro
terminados: Assim que o DW comear a rodar, os usurios comearo a criar mais
consultas e estas consultas necessitaro de novos dados que resultaro em novas
consultas. Assim, o projeto do DW precisa ser atualizado continuamente, no s com
novos dados mas tambm com novas tecnologias.
70
71
rede e perodos de menor sobrecarga, tanto das origens dos dados quanto do DW, devese considerar que os perodos de sobrecarga podem variar para cada origem de dados.
H vrias opes de extrao dos dados do ambiente operacional para o DW
dependendo das caractersticas de cada origem dos dados [CHA97]:
Origens cooperativas: origens que suportam gatilhos (triggers), fazendo
com que notificaes de mudanas na base de dados possam ser programadas
para ocorrer automaticamente;
Origens com log: origens que mantm um log o qual pode ser consultado,
de forma que mudanas possam ser extradas deste log (ex. Sybase Replication
Server e Oracle Replication Server);
Origens consultveis (time stamps): origens que so modeladas para indicar
dados novos e modificados atravs de time stamps. Desta forma, apuraes
peridicas podem ser realizadas diretamente sobre estas origens a fim de isolar
as alteraes que se tem interesse;
Origens de instantneos (snapshots): origens que no suportam triggers,
logs ou consultas. Neste caso, a soluo realizar peridicos snapshots off-line
onde as mudanas so detectadas comparando os sucessivos snapshots.
72
73
CATEGORIA
Engenharia Reversa de Dados;
baseada em metadados
Extrao/Transporte em batch;
geradores de cdigo para extrao
baseados em parmetros
Extrao/Transporte em
batch;voc escreve o cdigo de
extrao
Replicao
EXEMPLO DE
FERRAMENTA
LogicWorks
ERWIN/ERX
Embarcadero ER/1
Kismet KisMeta
Vality Integrity
QDB Analyze
Data Star
WizRule
Prism Warehouse Director
Carleton Passport
ETI Extract
Prism Warehouse Executive
3GL/4GL
(COBOL et al.)
Platinum InfoRefiner
Platinum InfoPump
Praxis OmniReplicator
IBM DataPropagator
Sybase Replic. Server
CA Enterprise Access
Platinum InfoHub
Praxis Omni Replic.
Sybase Enterp. Connect
IBM DataJoiner
Intersolv Sequelink
Apertus
Trillium
FUNCIONALIDADE
Processa metadados para
documentar sistemas e abstrair
regras de negcio e
relacionamentos
Processa o contedo do dado
junto com o metadado para
abstrair regras do negcio e
relacionamentos,
automaticamente
Extrao controlada de forma
centralizada; programas de
extrao so gerados
automaticamente. Oferecem
converso, alm do transporte.
Oferecem gerenciamento de
replicao
Depsito para o cdigo de
extrao/converso, interfaces
com BDs; modesta funo de
replicao
Especfico para replicao. Pode
incluir funes de extrao/
transporte, embora limitadas
Similar a ferramentas batch
conceitualmente, mas
suportando consultas on-line e
automatizando a interface entre
diversas fontes e as ferramentas
de consulta do usurio
Situadas entre a exportao e
importao de dados, estas
ferramentas suportam filtragem
de dados baseada em
parmetros. So ferramentas
especializadas e mais capazes de
gerenciar relacionamentos e
transformaes do que outras de
uso mais geral. Podem ser
usadas para manter dados com
diferentes chaves em
consonncia, para evitar
problemas de interpretao
durante as consultas.
74
CATEGORIA
EXEMPLO DE
FERRAMENTA
Vality
DB Star
WizRule
IDI
PostalSoft ACE
Group 1 Nadis
SSA
PostalSoft Library
Mailers +4
Traduo de Dados
Data Junction
Cambio
FUNCIONALIDADE
A qualidade dos dados
avaliada baseada no contedo
dos dados. Padres de dados,
regras e relacionamentos
descobertos assistem os analistas
a determinar areas problema em
termos de qualidade.
Qualidade de dados aplicada a
reas especficas, como por
exemplo, correo de
nome/endereo, nomes
farmacuticos, etc.
Edio automtica de endereos
durante a entrada de dados online. As ferramentas so
incorporadas em telas e entrada
de dados como bibliotecas de
classe.
Auxlio a traduo de formatos
de dados (para uso conjunto com
outros processos)
75
Consulta
Aplicao
Operacional
Data
Warehouse
Resultado da consulta
76
Aplicao
Operacional
Arquivo de
Informaes
Data
Warehouse
Programa de
anlise
77
Contm recursos grficos de alta qualidade para que as informaes possam ser
apresentadas graficamente de vrias formas;
So fceis de usar, para que o executivo possa oper-los com muito pouco
treinamento;
78
79
uma rpida, consistente e interativa forma de acesso a uma ampla variedade de possveis
vises". As ferramentas de OLAP permitem que o negcio de uma empresa possa ser
visualizado e manipulado de forma multidimensional, isto , agrupando as informaes
em vrias dimenses como: produtos, fornecedores, departamentos, localizaes,
clientes, recursos, etc.
A criao de tabelas cruzadas, exploso de informaes e a criaes de
dimenses esto entre as funes mais tradicionais das ferramentas OLAP. As
ferramentas OLAP trabalham de modo interativo, permitindo que a partir de uma
resposta o usurio faa outros questionamentos, ou seja, o usurio consegue analisar o
porque dos resultados obtidos. A interao do usurio final com o DW, utilizando as
ferramentas de OLAP, se d atravs de questionamentos, como por exemplo:
1. Qual o total das vendas de casacos de l, nos trimestres do ano de 1997, nas lojas
da regio sul do pas?
2. Qual foi o lucro lquido que os dez maiores clientes no estado do RS geraram
durante o primeiro semestre de 1998?
3. Quais so as dez cidades do Brasil proporcionaram maior lucratividade por
habitante em 1997?
4. Quais so os dez produto que proporcionaram menor lucro durante os meses de
dezembro de 1997, janeiro de 1998 e fevereiro de 1998?
As respostas a estas questes so baseadas em fatos histricos que vo mostrar
uma tendncia de comportamento das variveis selecionadas. A partir destas respostas
possvel formular outras questes at que o nvel de informao desejada seja atendido.
Respondendo rapidamente a estas perguntas que a empresa vai conquistar um
diferencial positivo em relao concorrncia, tendo condies de criar aes rpidas
para sua rea de atuao.
80
81
82
8.6 Fornecedores
medida que o DW se torna parte integrante da computao corporativa, os
fornecedores de
software para gesto empresarial, tambm conhecidos como
Enterprise Resource Planning (ERP) comeam a integrar em seus produtos ferramentas
de anlise e extrao de dados. Grandes empresas como SAP, Oracle e PeopleSoft,
prometem aos usurios verses rpidas, baratas, e relativamente fceis de usar. As
estratgias dos principais fornecedores de sistemas de gesto empresarial a nvel
mundial sobre o DW so[COM97]:
Oracle: No pretende fazer a integrao de seu pacote de aplicativos com o
DW de forma direta. Ao contrrio, disponibiliza uma srie de ferramentas prprias para
fazer a construo do DW corporativo que podem se integrar ao seu sistema ERP.
Mas, de acordo com a empresa, so duas coisas distintas. A unio acontece via o
Express Server um BD multidimensional e os aplicativos Finantial Analyser, Finantial
Controller e o Sales Analyser.
Datasul: Est desenvolvendo ferramentas de extrao de informaes para se
integrar com seus sistemas de EIS para o Magnus e o Datasul EMS. Isso ser a base de
cunho gerencial para abastecer o DW. A ferramenta que deve ser lanada em breve
deve permitir a visualizao dos dados.
PeopleSoft: conta com um conjunto de ferramentas de extrao de dados na
verso atual de seu aplicativo. Uma delas o NVision que extrai informaes
resumidas e gerenciais do seu sistema. Outra a Query, para criao de relatrios online. A prxima verso de seu sistema, ter integrado uma ferramenta OLAP, da
Cognos.
SAP: Est jogando pesado na estratgia de unir seus sistemas e DW.
Recentemente lanou o Business Information Warehouse, um componente do pacote
R/3 que vai ligar as duas tecnologias. A promessa que este mdulo crie uma
independncia entre o sistema relacional e o DW, mas fazendo a consolidao dos
dados de forma ativa. Segundo a empresa, ser um conjunto de ferramentas para
construir, manter e dar funcionalidades ao DW corporativo. Apesar disso, ela j conta
com uma soluo pronta chamada de Open Information Warehouse no produto atual.
83
8.7.1 PowerPlay
Cognos Incorporated uma empresa canadense sediada em Ottawa, Canad.
Atua no mercado de tecnologia em business intelligence ou apoio a deciso, sua
soluo contempla o acesso, formatao e anlise de dados corporativos estratgicos no
modelo para gesto empresarial. Com mais de 600.000 licenas distribudas em
empresas de 58 pases, os seus produtos esto direcionados a atender toda a estrutura
organizacional de uma empresa, desde a extrao dos dados, formatao de relatrios
gerenciais, anlise multidimensional de informaes e simulaes.
84
Especificaes tcnicas:
85
8.7.2 Maestro
A Hyper Consultoria em Informtica uma empresa de software que realiza
projetos e consultoria em sistemas de informao, oferecendo produtos e servios
especializados neste segmento de atuao. Uma importante rea de especializao da
Hyper o desenvolvimento de aplicaes de Apoio Deciso conhecidas como Data
Warehousing, Data Marts, e SIE (Sistema de Informao para Executivos). Alm disso
estabelece parcerias estratgicas com empresas de grande porte, que utilizam o Maestro,
ferramenta para desenvolvimento rpido de EIS e DSS para sistemas de apoio deciso,
que est sendo utilizado por vrias empresas multinacionais no Brasil e no exterior.
O Maestro uma ferramenta para desenvolvimento rpido de aplicaes para
apoio a deciso como programas de front-end de DW e Data Marts em ambiente
Windows e utilizando bases de dados SQL, desde servidores corporativos de centenas
de Gigabytes at notebooks, conforme ilustra a Figura 8.5. O Maestro uma ferramenta
que implementa bases de dados multidimensionais (MOLAP) em bases de dados
relacionais (ROLAP). Administra tanto dados como metadados. Suporta bases de dados
que tm algumas dezenas de milhares de linhas at bases de dados com mais de 200
milhes de linhas, aproximadamente 100Gb, em ambiente cliente/servidor. Por
exemplo: para acessar 200 linhas em um cubo com mais de 250 milhes de linhas levase menos que 5 segundos.
No preciso escrever nenhuma linha de cdigo para construir as aplicaes
front-end. Possui a maioria das funcionalidades das outras ferramentas e alguma
funcionalidades exclusivas como drill down simultneo em todas as dimenses e janelas
multidimensionais sincronizadas (permite a visualizao sincronizada de vrias
informaes da mesma dimenso).
O software Maestro divido em mdulos[HYP98]:
Manuteno de Metadados: para definio dos elementos bsicos dos
modelos, como dimenses, hierarquias, variveis, frmulas, critrios para agregao
dimensional e para comparaes, etc. Existe um dicionrio central onde ficam todas as
regras comuns para todos os Data Marts que compem o DW, e um dicionrio local
para cada Data Mart. A manuteno pode ser feita interativamente ou em arquivos de
lote (batch).
Editor de Menus e Sinalizadores: para definio de telas de navegao
(Menus) compostos de links parametrizveis para outras telas, vises ou outras
aplicaes, e para composio de sinalizadores. Sinalizadores so telas com facilidades
adicionais para mostrar dados e sinalizar comparaes atravs de bandeiras e outros
objetos coloridos, e dotadas de mecanismos para seleo dimensional de dados - combo-
86
boxes e radio-buttons. Estas telas podem usar imagens grficas como mapas, desenho
de produtos e cones.
87
8.7.3 Oracle
Detentora de mais de 50% de todas as instalaes j realizadas de DW, de
acordo com relatrio recente do META Group [ORA98], a Oracle possui uma soluo
para a construo e desenvolvimento de DW. O pacote Oracle, composto pela
ferramenta Oracle Discoverer 3.0 e pela famlia de produtos Oracle Express,
compatvel com Windows NT e Unix e configura uma opo de baixo custo, totalmente
integrada, fcil de usar e instalar. A Tabela 8.2 mostra a lista de produtos
multidimensionais que a Oracle possui. Este conjunto de produtos conhecido pelo
nome de Oracle Express Tools, disponvel para os sistemas operacionais Windows 3.11
e Windows 95.
PRODUTO
Oracle Express Analyzer
Discoverer/2000
Oracle Express Data Dictionary Editor
DESCRIO
Ferramenta de anlise para usurios finais. Permite
anlises OLAP multidimensionais em geral.
Ferramenta de anlise para usurios finais. Permite
anlises em bases de dados relacionais.
Ferramenta de alto nvel para definies de objetos na
bases da dados da famlia Oracle Express.
Ferramenta para desenvolvimento de aplicaes
multidimensionais sob medida. Oracle Express
Objects uma ferramenta orientada a objetos para o
desenvolvimento de aplicaes com o Oracle Express
Server ou o Oracle Personal Express. Sua ferramenta
correspondente para bases de dados relacionais o
Developer/2000.
Ferramenta para usurios finais, especializada em
anlise de vendas. Inclui funes pr-definidas para
anlises de vendas e mercado.
Similar ao Sales Analyzer, o Oracle Financial
Analyzer, um a ferramenta para anlises OLAP
orientada para o setor financeiro.
88
89
Acessa vrios bancos de dados relacionais via Open Data Base Connectivity
(ODBC) ou o prprio Oracle diretamente atravs de SQL Net.
90
9.1
Vantagens
1) Simplicidade: A vantagem mencionada com mais freqncia sobre DW
pode se resumida como simplicidade. O DW facilita a administrao da
empresa por que fornece uma imagem simples da realidade com integrao
de vrios dados de sistemas diferentes. O DW permite que os sistemas
operacionais continuem em uso, transformando os dados inconsistentes dos
sistemas operacionais em um conjunto de dados coerentes que so
informaes vitais para as empresas. As operaes atuais podem ser
monitoradas e comparadas com as operaes passadas, previses de futuras
operaes podem ser feitas racionalmente, novos processos podem ser
inventados, e os sistemas operacionais podem ser alterados para suportar
estes processos. O DW tambm pode armazenar um grande nmero de dados
histricos que auxiliam as empresas na tomada de decises. Oferece o
benefcio de ser nico, com dados centralizados mas mantendo uma estrutura
de cliente/servidor. Alm disso, DW so sistemas para empresas grandes, o
que melhora a distribuio das informaes internamente.
2) Qualidade dos dados: A segunda vantagem mais mencionada foi a melhor
qualidade dos dados. O DW proporciona consultas em dados de maior
qualidade o que traz maior consistncia, acuracidade e documentao, alm
de aumentar a produtividade dos usurios atravs de utilizao de
ferramentas OLAP e de Data Mining.
3) Acesso rpido: O DW permite aos usurios recuperar rapidamente os dados
necessrios para suas consultas, eliminando o trabalho de busca em vrios
sistemas operacionais pois todos os dados esto em um nico local, sendo
assim o tempo de resposta deve ser reduzido.
4) Facilidade de uso: A maioria das ferramentas de consultas facilitam o
acesso aos dados pois trabalham com interfaces grficas e comandos prdefinidos o que torna a anlise das informaes armazenadas no DW uma
tarefa intuitiva para os usurios finais.
5) Separa as operaes de deciso das operaes de produo: Como os
dados do DW ficam separados dos dados dos sistemas operacionais mas so
continuamente atualizados com informaes sobre as operaes realizadas,
91
9.2
Desvantagens
1) Complexidade de desenvolvimento: Uma empresa no pode simplesmente
comprar um DW. necessrio construir um ambiente composto de
hardware e software como banco de dados, ferramentas de extrao de
dados, ferramentas de recuperao dos dados, etc. Um DW deve atender as
necessidades especficas de uma empresa, na construo deste ambiente
especfico necessrio ter muito conhecimento das necessidades prdefinidas para a construo da estrutura, definies e fluxo dos dados, assim
92
93
9.4 Exemplos
Atravs dos novos conceitos da Tecnologia da Informao, o DW comea a
conquistar espao nas grandes empresas nacionais onde est sendo considerado como
uma segunda reengenharia pela qual as companhias devem passar para se tornarem mais
competitivas e globalizadas.
O DW j mostra seus primeiros resultados, mesmo estando em processo de
implementao na maioria das empresas. O primeiro deles a capacidade de oferecer
informaes precisas e atualizadas para diferentes unidades de negcios dentro das
companhias. A contrapartida a essa autonomia tem sido uma independncia maior em
relao rea de informtica, que deixa de se responsabilizar por algumas funes tais
como a implementao de consultas especficas e a emisso de relatrios.
Nos itens abaixo est a descrio sucinta dos projetos de DW desenvolvidos por
algumas empresas nacionais.
Banco Amrica do Sul: Implantou um projeto-piloto que funciona nas reas de
crdito e marketing, cobrindo dados histricos dos ltimos trs anos. O sistema utiliza
banco de dados Informix, roda em equipamento NumaQ da Sequent, para extrair as
informaes usa o software Prism Warehouse Executive e os relatrios gerenciais so
acessados pelo Business Object para manipulao de dados e rene quatro terabytes de
dados. A previso concluir a soluo, envolvendo todo o banco, em 1999, a um custo
de US$ 10,8 milhes [COM97].
Companhia Siderrgica Nacional: Est em fase inicial e se prope a cobrir
produo e a carteira de encomendas, totalizando 30 GB de informaes. Previsto para
comear a funcionar em julho 1998, o sistema ainda est parado por causa de
problemas no tempo de processamento. O projeto, cujo valor no foi divulgado,
emprega banco de dados Oracle 7 e uma mquina HP 460 com 2GB de memria e
100GB de disco. A arquitetura foi planejada em forma de pirmide, com os sistemas
operacionais na base, suportando o DW, o Decision Suport Systems (DSS) e o Executive
InformatonSystem (EIS) na parte superior [COM97].
Latasa: Criou um Data Mart, cujo investimento estimado em US$ 50 mil de
1995 at o incio de 1998, contm 10 variveis sobre os negcios da empresa. Usado
pela rea de marketing, opera numa rede Windows NT com SQL Server, rodando num
servidor Compaq srie 5000, com 256 Mb de memria e 20 GB de disco. A idia levar
a tecnologia para as reas industrial e financeira [COM97].
Lobrs: Desenvolveu um DW basicamente usado pelo departamento comercial.
Envolve dados de maro de 1996 em diante. Conta com 12 GB de informaes, sendo 8
GB das Lojas Brasileiras e 4 GB das lojas Marisa. Trabalha com uma rede Windows NT
94
com SQL Server 6.5. O hardware um servidor IBM com dois processadores Pentium
Pro. O investimento no projeto de US$ 300 mil e est ajudando a empresa a saber
com exatido o movimento das vendas de seus mais de 21.500 produtos [COM97].
Serpro: O DW necessrio para abranger despesas de pessoal, arrecadao,
comrcio exterior e dvida ativa, j consumiu um investimento de US$ 4 milhes e
armazena 105 GB de informaes. O sistema opera com Oracle 7 e tem como hardware
um AlphaServer de 64 bits da Digital com sistema operacional Unix, 2 GB de
memria e 150 GB de disco. Aps concluso do DW considerado estratgico pelo
governo federal, o rgo planeja implantar um sistema de data minig, para auxiliar na
identificao de fraudes [COM97].
Avon: Uma das maiores empresas de cosmticos do mundo, a Avon est em
fase de desenvolvimento de um projeto denominado Global Communications Network
que vai integrar as unidades presentes em 131 pases, com investimentos avaliados em
US$ 25 milhes. Uma das partes deste projeto a criao de um data mart na rea de
Marketing que est sendo desenvolvido no centro de desenvolvimento tecnolgico
localizado na Inglaterra. Baseado no banco de dados Oracle 7 e na ferramenta de data
mining da Cognos, o projeto vai permitir explorar melhor o perfil de consumo dos
clientes. As informaes estaro disponveis para o circuito gerencial, sendo o passo
inicial para a empresa evoluir at um amplo projeto de DW [COM97]
Ita: O banco Ita foi um dos pioneiros no uso de DW no Brasil. Seu objetivo
na poca da implantao do DW era filtrar suas correspondncias que eram enviadas pra
mais de 1 milho de correntistas mas somente 2% se interessavam pelas promoes e
novidades. Com a utilizao do DW o ndice de retorno foi para 30% . Hoje cerca de
1000 pessoas de vrios departamentos utilizam as informaes contidas no DW, que
rene 1 terabyte de dados [INF97].
95
10 Concluso
A tecnologia de DW mostra-se muito interessante para empresas que possuem
grandes volumes de dados gerados e acumulados durante sua existncia e necessitam
recuperar estes dados de uma forma que eles possam auxiliar os administradores destas
empresas a tomarem decises estratgicas rapidamente e com segurana.
Apesar de possuir uma arquitetura relativamente simples, os processos de
extrao, filtragem, carga e recuperao dos dados so bastante complexos, exigindo
que pessoas altamente capacitadas faam parte do projeto para que os objetivos sejam
atingidos no menor espao de tempo possvel e sem o gasto de recursos
desnecessariamente.
Como o DW no um sistema ou programa, mas sim um ambiente que
necessita ser adaptado as necessidades, muitas vezes especficas, das empresas normal
que cada ambiente de DW possua caractersticas prprias, inviabilizando seu uso para
outros objetivos que no os descritos no incio do projeto.
Os custos envolvidos no projeto do DW podem a princpio no serem
justificveis o que pode levar a concluso de que melhor comear o projeto com um
escopo menor, definindo-se Data Marts departamentais e depois integr-los em um
nico DW quando os objetivos iniciais j tiverem sido alcanados.
Para a informtica o ambiente de DW mostrou ser um desafio aos processos que
normalmente so utilizados para desenvolver um software. Um dos desafios conseguir
modelar os dados de maneira que todas as informaes estejam disponveis de forma
clara e rpida para os usurios que a esto requisitando, outro desafio disponibilizar as
informaes sobre os dados (metadados), para que os usurios possam saber quais
informaes esto disponveis, de onde vieram, para onde vo, etc.
Tambm pode ser considerado um desafio aos profissionais de informtica a
definio dos requisitos necessrios para disponibilizar os dados do DW, j que eles so
histricos e crescem indefinidamente consumindo rapidamente a capacidade de
armazenamento e de processamento dos computadores atuais.
Como esta monografia teve o objetivo de fazer um estudo sobre o ambiente de
DW possvel aprofundar muitos tpicos aqui desenvolvidos ou desenvolver assuntos
no abordados neste trabalho. Como sugesto para futuros trabalhos, pode-se citar as
seguintes:
Um estudo mais aprofundado sobre os modelos de dados existentes e a
definio de um modelo timo para a construo do ambiente de DW,
Um estudo completo sobre metadados, sua estrutura, como defini-los, como
apresenta-los de forma amigvel aos usurios para que estes possam utilizlos da melhor forma possvel, etc.;
Um estudo sobre os algoritmos e as ferramentas de extrao, limpeza,
transformao e integrao dos dados operacionais e fontes externas;
A comparao das diversas ferramentas existentes para o acesso aos dados
do DW, comparando suas funcionalidades e necessidades de armazenamento,
alm de diferenciar seus atributos e suas caractersticas.
96
97
Bibliografia
[ADE97]
[BAR96]
[BAT86]
[BAU97]
98
[GEL96]
[IDG98]
[INF97]
[INM93]
[INM96]
INMON, W.H. Building the Data Warehouse, John Wiley & Sons
Inc., New York, 1996.
[INM97]
[KIM96]
[KIM97]
KIMBALL, RALPH
Agosto 1997.
99
[SPR91]
[VAL96]
100