Escolar Documentos
Profissional Documentos
Cultura Documentos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em
Computação
DATA WAREHOUSE
1
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
1. INTRODUÇÃO ........................................................................................................................................... 3
2
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
1. Introdução
Os recursos tecnológicos de hardware e software, oferecidos nos últimos
anos, para o armazenamento, manutenção e compartilhamento de dados têm
permitido aos usuários de banco de dados (empresas, pesquisadores e órgãos
governamentais) manter quantidades de informações cada vez maiores em suas
bases de dados. Esse grande volume de dados excede a capacidade humana de
análise e compreensão, mesmo utilizando métodos como planilhas eletrônicas e
ambientes de consulta ad hoc. Isso motivou o grande investimento em pesquisa,
que vem ocorrendo, relacionada às tecnologias envolvidas em data warehousing.
Data Warehousing e On-Line Analytical Processing (OLAP) surgiram como
elementos essenciais de apoio à decisão, atraindo atenção cada vez maior da
indústria de bancos de dados. Data Warehousing é uma coleção de tecnologias
de apoio à decisão, voltadas a capacitar o usuário a realizar tomadas de decisão
mais rápidas e precisas. O “produto” da aplicação dessas tecnologias é o Data
warehouse, uma base de dados temporais, não voláteis e integrados, tipicamente
mantida separadamente da base de dados operacionais da empresa. Para
facilitar análises e visualizações complexas, os dados em um warehouse são
modelados de forma multi-dimensional, onde cada elemento de importância
relevante corresponde a uma dimensão (por exemplo, produto, tempo e região
num warehouse de vendas). Essas dimensões podem ser organizadas em
hierarquias (por exemplo, produto - tipo - categoria) a fim de permitir diferentes
níveis de agregação durante a análise.
OLAP (on-line analytical processing) é um conjunto de operações que
podem ser executadas sobre o Data Warehouse, a fim de viabilizar a extração
eficaz de informações do mesmo. Os requisitos funcionais e de desempenho
dessas operações são totalmente diferentes do processamento de transações on-
line (OLTP – on-line transaction processing) das aplicações tradicionalmente
suportadas pelas bases de dados operacionais.
3
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Aplicações OLTP tipicamente automatizam tarefas de processamento de
dados tais como transações bancárias e de processamento de pedido que são
operações rotineiras de uma organização. Essas tarefas são estruturadas e
repetitivas e consistem de transações curtas, atômicas e isoladas. As transações
requerem dados detalhados, atualizados e realizam operações de leitura e escrita
envolvendo alguns (poucos) registros tipicamente acessados através de suas
chaves primárias. O tamanho das bases de dados operacionais geralmente varia
de centenas de megabytes a gigabytes. Aspectos críticos a considerar são a
consistência e recuperação da base de dados e a métrica de desempenho chave
é maximizar o throughput das transações. Consequentemente, o banco de dados
é projetado para refletir a semântica operacional de aplicações conhecidas e, em
particular, para minimizar conflitos de concorrência.
Data warehouses, em contraste, são totalmente distintos de bancos de
dados tradicionais em sua estrutura (são estruturados para suporte à decisão),
funcionamento, desempenho e propósito. Dados históricos, sumarizados e
consolidados são mais importantes do que registros individuais detalhados.
Além dos recursos para tomada de decisão oferecidos pela tecnologia
OLAP, existem também técnicas e ferramentas "inteligentes", com o objetivo de
fazer emergir, automaticamente, padrões e regras de relacionamento entre os
dados, na busca do conhecimento intrínseco aos mesmos. Essas técnicas e
ferramentas são objeto de estudo de uma linha de pesquisa que aborda o
chamado processo de extração de conhecimento de Bases de Dados (Knowledge
Discovery in Databases - KDD). Uma etapa desse processo de KDD é a de
aplicação de métodos de Data Mining, que consiste na aplicação de algoritmos
específicos sobre uma base de dados, com o objetivo de produzir uma série
particular de padrões e regras que relacionem os dados da base de dados.
Resumindo, para a obtenção de informações contidas em um warehouse
tem-se um conjunto de ferramentas de análise e exploração dos dados, utilizando
consultas em SQL , consultas OLAP e técnicas de data mining. Consultas SQL
são construídas baseadas na álgebra relacional, com algumas extensões; OLAP
fornece idiomas de consulta de nível mais alto com base no modelo de dados
4
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
multi-dimensional e data mining fornece operações de análise mais abstratas.
Nos próximos capítulos são tratados os principais conceitos, questões e
tecnologia envolvidos com Data Warehouse, procurando focalizar os vários
aspectos envolvidos nessa abordagem.
5
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
2. Conceitos Básicos
6
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
múltiplas plataformas.
Dados não históricos (geralmente não mais que três a seis meses
anteriores).
7
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
sumarizações criteriosas executadas sobre os dados operacionais.
O Data Warehouse é uma base de dados composta por dados informativos.
A criação do Data Warehouse a partir dos sistemas de dados operacionais é a
principal etapa do processo de data warehousing como um todo. A construção da
base de dados informativos é feita utilizando-se ferramentas de transformação e
propagação. Essas ferramentas não apenas movem os dados de múltiplas fontes,
mas freqüentemente manipulam os dados para um formato mais apropriado para
o warehouse. Essas alterações podem ser:
8
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
multiusuário e deve oferecer respostas rápidas a consultas, independentemente
do tamanho ou da complexidade da base de dados. OLAP ajuda o usuário a
sintetizar informações através de visualizações comparativas personalizadas,
assim como através de análises de dados históricos em diferentes modelos de
cenários.
c) ferramentas para análise exploratória de dados ou data mining, em que
o usuário procura por padrões de interesse. Por exemplo, um comerciante de
venda por catálogo pode querer analisar os registros dos clientes para identificar
clientes em potencial para uma nova promoção; essa identificação pode depender
do nível de salário, padrões de compra, áreas de interesse demonstradas, etc.
Em situações como essa, é muito difícil formular uma consulta que captura a
essência de um padrão de interesse e a quantidade de dados é muito grande
para permitir análise manual ou mesmo análise estatística tradicional.
9
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
é, a informação no data warehouse muda muito menos freqüentemente e
pode ser considerado como não sendo de tempo-real com atualização
periódica.
Dimensionalidade genérica;
Arquitetura cliente-servidor;
Suporte a multi-usuário;
10
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
2.5. Arquitetura do Data Warehousing
11
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Monitoramento e Administração
Repositório Servidores
de Metadados OLAP
Análise
Data Warehouse
Fontes externas
Extração Relatórios
Transformação
Carga
Refresh Data Mining
Dados operacionais
Data Marts
Ferramentas
Figura 1. Arquitetura de Data Warehousing
12
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
servir como projeto piloto, atender necessidades imediatas de uma unidade,
atender a restrições de custo, tempo, etc., entre outros.
13
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Local
Tempo
Produto
14
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
LOCAL
Tempo
t4
(codTempo)
t3
t2
t1
Reg1
Reg2
Reg3
P1
...
Local
.
P2 (codLocal)
Produto
(codProd) P3
...
15
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
ferramentas que permitem a visualização dos dados de acordo com a escolha de
dimensões do usuário.
Num ambiente relacional os dados da matriz multi-dimensional podem ser
representados como uma relação, como ilustrado na figura 5. Nessa relação as
tuplas estão agrupadas de acordo com as fatias (slices) verticais, paralelas com
relação ao eixo do tempo. Essa relação que associa as dimensões à medida de
interesse é chamada tabela fato. Note na figura 5 que somente constam da
tabela as composições produto-local-tempo que possuem valor de vendas. Cada
dimensão pode ter um conjunto de atributos associados. Por exemplo, a
dimensão Local é identificada pelo atributo codlocal, que foi usado para identificar
um local na tabela Vendas. A dimensão Local pode ter os atributos adicionais
Cidade, Estado e País. A dimensão Produto pode conter os atributos codProd,
Descrição, Marca, Categoria, Estilo, Preço. A Categoria de um produto indica sua
natureza geral; por exemplo, um produto camisa pode pertencer à categoria
roupa. O Estilo pode ser social, esporte, passeio, etc. A dimensão Tempo pode ter
os atributos Data, Semana, Mês, Trimestre, Ano, além do identificador
codTempo.
16
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
P4 loc2 t2 1550
P4 loc3 t2 950
...
Figura 5. Relação Vendas (tabela fato)
PRODUTO TEMPO
LOCAL
categoria ano
país
estilo
trimestre estado
código
semana mês cidade
produto
data
17
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
operações típicas de OLAP, para viabilizar a extração eficaz de informações do
mesmo.
As operações suportadas pelo modelo multi-dimensional são fortemente
influenciadas por ferramentas existentes para usuário final tal como aquelas que
trabalham com planilhas eletrônicas. A meta é oferecer ao usuários finais, que
não são especialistas em SQL, uma interface intuitiva e poderosa para tarefas
comuns de análise de negócio. Cada operação sobre o conjunto de dados multi-
dimensional retorna ou uma apresentação diferente ou uma sumarização desse
conjunto de dados. O conjunto de dados está sempre disponível para o usuário
manipular, independente do nível de detalhe em que ele está sendo visto.
3.2.1. Agregação
Uma operação muito comum é agregar uma medida sobre uma ou mais
dimensões. Exemplos de consultas típicas são:
Encontrar o total de vendas.
Encontrar o total de vendas para cada cidade.
Encontrar o total de vendas para cada estado.
Encontrar os cinco produtos mais vendidos.
As três primeiras consultas podem ser expressas como consultas SQL sobre
as tabelas fato e dimensão, mas a última consulta não pode ser expressa em
SQL (embora se possa conseguir um resultado satisfatório ordenando o total
de vendas através de ORDER BY).
Um outro uso de agregação é sumarizar em diferentes níveis de hierarquia.
Isso é conseguido através das operações OLAP roll-up e drill-down que
oferecem visualizações hierárquicas dos dados.
18
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
3.2.2. Roll-up
LOCAL
3.2.2. Drill-down
19
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
São Paulo
Rio Grande do Sul
...
S.Carlos Rib.Preto Lins Assis P. Alegre Caxias
Sul
A
Estilos
B
Roupa
C
D
Estilos
A
Calçado
B
D
Estilos
Bijouteria A
B
C
...
3.2.4. Pivot
20
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
A mudança de uma hierarquia dimensional (orientação) para uma outra é
facilmente obtida em um cubo de dados utilizando a técnica chamada pivoting
(ou rotação). A operação pivot realiza uma re-orientação do ângulo de visão dos
dados. Nessa técnica, os eixos podem ser mostrados em orientações diferentes.
Por exemplo, pode-se fazer uma rotação no cubo de dados da figura 4 para
mostrar rendimentos de vendas regionais como linhas, os totais de rendimentos
diários como colunas e os produtos da companhia na terceira dimensão (figura 9).
Isso equivale a ter uma tabela de venda regional para cada produto
separadamente, onde cada tabela mostra, para o produto específico, totais de
vendas para cada local e cada período considerado.
...
Produto P4
P3
P2
P1
t1
t2
t3
Reg1 ...
Tempo
.
Reg2
Local
Reg3
...
Algumas consultas OLAP não podem ser (ou não podem ser facilmente)
expressas em SQL. Por exemplo, das quatro consultas a seguir, as duas
primeiras podem ser expressas como consultas SQL sobre as tabelas fato e
21
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
dimensão. A terceira consulta pode ser expressa também, mas é mais
complicada em SQL. A última consulta não pode ser expressa em SQL, se n é
para ser um parâmetro da consulta. Observe que todas as consultas a seguir
envolvem o tempo. Na verdade a dimensão Tempo é muito importante em OLAP.
Consultas:
Encontre o total de vendas por mês.
Encontre o total de vendas por mês para cada cidade.
Encontre a variação de porcentagem no total de vendas mensalmente para
cada produto.
Encontre a média de movimento de vendas de n dias. (Para cada dia, deve ser
calculada a média de vendas diária sobre os n dias precedentes).
22
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
coleção de comandos GROUP BY, com um comando GROUP BY para cada
subconjunto das k dimensões. Por exemplo, considere a consulta:
CUBE codProd, codLocal, codTempo BY SUM Vendas
Essa consulta fará um roll up sobre a tabela Vendas sobre todos os oito
subconjuntos do conjunto { codProd, codLocal, codTempo}. Ela é equivalente a
oito consultas da forma:
23
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
REGIÃO
CodReg
Cidade
Estado
Figura 10. Esquema estrela do exemplo dado (fig.4) País
24
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
TEMPO
VENDA
PRODUTO
O volume maior dos dados está tipicamente na tabela fato, que não tem
redundância. Usualmente ela está na Forma Normal de Boyce Codd (FNBC).
Para minimizar o tamanho da tabela fato, os identificadores das dimensões (ex.
CodLocal, CodTempo) são gerados pelo sistema.
As tabelas dimensão usualmente são não normalizadas. A razão para isso
é que um banco de dados usado para OLAP é estático; assim, anomalias de
atualização, inserção e eliminação não são importantes. Além disso, o espaço de
armazenamento ganho através da normalização das tabelas dimensão é
desprezível, frente ao tempo de processamento gasto para combinar a tabela fato
com as tabelas dimensão, caso estas fossem quebradas em tabelas menores
normalizadas (que podem conduzir a junções adicionais).
25
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
4.2. Esquema Snowflack
(tabelas dimensão)
VENDA (tabelas dimensão)
PRODUTO (tabela fato)
TEMPO
CodTempo Mês
CATEG-PROD Data Trimestre
Semana
Categoria Mês
DescriçãoCateg Ano
26
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
ESTADO DATA
CIDADE
Estado
ChaveData
País Cidade MÊS Data
Estado
Mês Mês 27
...
Ano ...
Figura 14. Esquema Snowflack
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
4.3. Constelação de Fatos
28
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
A seleção das visões a materializar deve levar em conta a freqüência de
utilização, características de carga de trabalho, custo de atualizações
incrementais e exigências de armazenamento.
Como um exemplo, suponha que num ambiente de vendas, como o do
exemplo aqui considerado, uma grande maioria das consultas é baseada na
performance de vendas no estado de São Paulo, do trimestre mais recente. Ter
uma tabela que contenha dados sumários sobre esses parâmetros pode acelerar
significativamente o processamento das consultas. A figura 16 ilustra esse
exemplo.
Data
Categoria 01/07/99 02/07/99 ... 25/11/99
agregação
Categoria Trimestre 3
Roupa 21200
Calçado 5670
Bijuteria 6980
Figura 16. Agregação
29
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
4.4. Construindo um Data Warehouse
Limpeza dos dados: Os dados devem passar por uma limpeza para
30
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
minimizar erros, preencher informação ausente, quando possível, e deixar os
elementos de dados dentro de formatos e significados padronizados e
consistentes. Limpeza dos dados é um processo complexo que tem sido
identificado como o componente que demanda maior trabalho na construção
do data warehouse. Para dados de entrada, a limpeza deve ocorrer antes que
os dados sejam armazenados no warehouse. A limpeza de dados que requer o
reconhecimento e correção automáticos de dados errôneos e incompletos é
uma tarefa difícil. Alguns aspectos, tais como checagem de domínio, são
facilmente codificados em rotinas de limpeza de dados, mas reconhecimento
automático de alguns problemas de dados pode ser mais desafiador.
Por exemplo, o processo de limpeza pode corrigir CEPs inválidos ou
eliminar registros com prefixos de telefone incorretos.
31
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
XXXX 000000
Figura 17 - Erros durante a fase de limpeza
32
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Qual é o tempo de carga (incluindo limpeza, formatação, cópia,
transmissão, reconstrução de índice, ...)?
Uma tarefa de projeto muito importante é avaliar quais tabelas sumário devem
ser materializadas para alcançar o melhor uso de memória disponível e
responder consultas ad hoc comumente realizadas com tempo de resposta
interativo.
33
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
ex., de semanalmente para trimestralmente para anualmente).
- Drill-down: crescentes níveis de detalhe são revelados (operação
oposta de roll-up).
- Pivot (rotação): é realizada tabulação cruzada.
- Slice and dice: são realizadas operações de projeção sobre as
dimensões.
- Ordenação: os dados são ordenados através de um atributo.
- Seleção: os dados são disponíveis por valor ou agrupados em
categorias de valores.
- atributos derivados (computados): valores derivados através de
operações sobre dados armazenados.
Data warehouses têm sido considerados por algumas pessoas como sendo
uma extensão de funções e visões do banco de dados. Entretanto visões
fornecem somente um subconjunto das capacidades de data warehouses. Visões
e data warehouses são parecidos nos seguintes aspectos:
- ambos têm dados extraídos de bancos de dados;
- são orientados ao assunto .
34
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Visões não podem ser indexadas independente dos bancos de dados
utilizados.
- Data warehouses caracteristicamente fornecem suporte específico de
funcionalidade; visões não podem fornecer.
- Data warehouses fornecem grande quantidade de dados integrados e
freqüentemente temporais, geralmente mais do que está contido em um
banco de dados, enquanto que visões são um extrato de um banco de
dados.
35
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Administração de data warehouse irá requerer habilidades mais amplas do
que são necessárias para administração de banco de dados tradicional.
36
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
5. Servidores OLAP
Servidores que utilizam bancos de dados relacionais tradicionais não foram
concebidos para propiciar o uso inteligente de índices e de outros recursos
necessários para suportar visões multidimensionais de dados. Em adição aos
servidores relacionais tradicionais, há três opções principais para a
implementação do servidor OLAP: servidores ROLAP (Relational OLAP), que
armazenam os dados em tabelas, servidores MOLAP (Multi-dimensional OLAP),
que armazenam os dados em arrays, e servidores HOLAP (Hibrid OLAP), que são
híbridos dos dois anteriores.
37
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
armazenar dados esparsos de forma mais compacta em tabelas do que em
arrays.
38
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
5.4. On-Line Analytical Mining (OLAM)
39
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
40
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Apêndice A
41
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Outra característica a ser definida foi o período de tempo em que o usuário
gostaria de ter suas informações armazenadas, já que a dimensão tempo é
crucial para o esquema estrela.
Iniciou-se, então, o projeto do banco de dados, descrito a seguir.
O esquema estrela é construído objetivando-se simplicidade e velocidade
de recuperação. Cada tabela dimensão possui uma chave primária, usualmente o
ID. A tabela fato contém uma chave composta por todas as chaves das
dimensões.
Ao invés de utilizar diretamente os identificadores das tabelas dimensão,
foram criadas chaves sintéticas tanto para as chaves primárias das tabelas
dimensão, quanto para as chaves estrangeiras da tabela fato. Esse procedimento
torna mais eficientes as consultas, além de manter uma homogeneidade na base
de dados, garantindo também a unicidade dos identificadores e uma maior
facilidade na manutenção do data mart.
A tabela fato da empresa foi construída a partir de tickets e faturas de
produtos (pedras) que foram comprados e transportados para um certo local.
O grau de granularidade (nível de detalhe informacional) que o cliente
deseja obter nos relatórios tem um impacto sobre o projeto da tabela fato.
Importante: obter dos clientes o que eles necessitam ver e não o que eles
querem ver.
As tabelas dimensão criadas são mostradas a seguir.
FÁBRICA DIM-FÁBRICA
Chave-Fábrica
Código
Cod-Fábrica
Descrição
Descr-Fábrica
Id-linha-produto
Região-Fábrica 42
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
DIM-TEMPO
Chave-tempo
Id-data
Dia-do-mês
Numero-mês
Descr-mês
Semana-do-ano
Descr-dia
Num-ano
Dia-do-ano
Número-trimestre
Data-venda
ITEM
DIM-ITEM
Código
Tipo Chave-item
Descrição Tipo-item
Id-linha-item Cód-linha-item
Classe Descr-linha-item
Classe-item
Sub-classe-item
LINHA-ITEM Flag-item
Código Descrição-item
Descrição
43
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
CLIENTE
Código DIM-CLIENTE
Nome
Endereço1 Chave-cliente
Endereço 2 Cod-cliente
Cidade Nome-cliente
Estado Cod-Repres-venda
CEP Nome-repres-venda
Represent-venda Tipo-cliente
Tipo
REPRES-VENDA DIM-REPRES-VENDA
Código Chave-repr-venda
Nome Codigo-repr-venda
nome-repr-venda
TRANSPORTADORA DIM-TRANSPORTADORA
Código Chave-Transportadora
Nome Código
Nome
44
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
TICKET-FATURA
Número-fatura
Número-ticket
Tipo-ticket
Cod-Fábrica
Cod-cliente
Código
Data-envio
Cod-produto
Qtde-enviada
Preço-produto
Custo-fixado-produto-por-unidade
Custo-variavel-produto-por-unidade
Cód-transportadora
Custo-transporte-por-unidade
Região-entrega
Local-entrega
DIM-REGIÃO-ENTREGA
Chave-entrega
Estado-entrega
País-entrega
Local-entrega
Região-entrega
45
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Tabelas sumário:
46
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Apêndice B
OLTP OLAP
- utilização da base de dados operacionais; - utilização de data marts
- demora na execução de consultas e relatórios; - consultas e relatórios obtidos instantaneamente
- pouca flexibilidade; - visão multidimensional das informações;
- muitos relatórios utilizados apenas uma vez; - transparência da origem dos dados (Ingres,
- necessidade de pessoal de informática para texto, excel, web);
desenvolvimento de templates de relatórios; - arquitetura cliente/servidor, permitindo
- grande volume de informações a serem utilização remota;
processadas. - geração de regras de negócio.
47
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
48
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Codificação das queries:
49
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
50
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
A seguir são ilustrados alguns exemplos de consultas com visualização
gráfica.
51
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
52
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
53
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Receita líquida obtida no ano de 98, com o produto açúcar, para o cliente
Vonpar:
54
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
Bibliografia
[1] Inmon, W.H. Building the Data Warehouse. John Wiley, 1992.
[2] Chaudhuri, S., Dayal, U. An Overview of Data Warehousing and OLAP
Technology, ACM SIGMOD Record, vol.26, 65-74, 1997.
[3] Elmasri, R., Navathe, S. Fundamentals of Databases, 3ª edição, 2000.
[4] Ramakrishnan, R. Database Management Systems. McGraw-Hill, 1998.
[5] Felipe, J.C. O Processo de Extração de Conhecimento de Bases de
Dados Aplicado a Bancos de Dados Multimídia Orientados a Objetos.
Monografia de Exame de Qualificação de Mestrado. Programa de Pós-
Graduação em Ciência da Computação, Departamento de Computação -
UFSCar, São Carlos, Fevereiro 1999.
[6] Becker, K., Pereira, W. Tutorial de Data Warehouse, XIV Simpósio
Brasileiro de Banco de Dados, outubro, 1999, Florianópolis, SC, Brasil.
[7] Oracle, Oracle Data Mart Suite.
http://www.twinsoft.de/english/produkte/dmsuite_E.htm
[8] Oracle, Data Marte Suite Design - A Case Study.
http://www.avanco.com/dmdesignstudy.htm.
55
Universidade Federal de São Carlos
Departamento de Computação
Curso de Pós-Graduação “Lato-Sensu” em Computação
[12] Roussopoulos, N., Materialized Views and Data Warehouses, ACM
SIGMOD Record, Vol. 27, No. 1, Março 1998.
56