Você está na página 1de 60

Datawarehouse

e OLAP
Clodis Boscarioli
Introduo
ENTERPRISEWARE: Ferramentas que visam o aumento de
produtividade de Grupos Funcionais dentro de uma empresa.
ENTERPRISEWARE
Sistemas de Apoio a Deciso
(DataWareHouse)
GROUPWARE
(Workflow, Gesto de Documentao Eletrnica, Gesto do
Conhecimento)
INFRAESTRUTURA DE HARDWARE
SISTEMAS OPERACIONAIS DE REDE
Banco de Dados
Cliente-Servidor
WWW
I
n
f
o
b
a
s
e
R
e
p
o
s
i
t

r
i
o

d
e

C
o
n
h
e
c
i
m
e
n
t
o
INFRAESTRUTURA DE REDE
LAN e WAN
PROTOCOLOS DE COMUNICAO
S
i
s
t
e
m
a

d
e
S
e
g
u
r
a
n

a

d
a
s

I
n
f
o
r
m
a

e
s

C
o
r
p
o
r
a
t
i
v
a
s
Protocolo de Troca de
Mensagens
Ambientes analticos
Consultas padro
Multidimensional
Modelagem/
Segmentao
Hipteses seguras
Hipteses moderadas
Nenhuma ou poucas hipteses
Ferramentas
de Consulta
OLAP
Data Mining
Conceitos Principais
Negcios Funcional Objetivo dos dados
Minutos Segundos Tempo de resposta
Analtico Repetitivo Processamento
Peridica Contnua Atualizao
Esttica Dinmica Natureza dos dados
Histrico Corrente Contedo dos Dados
Apoio deciso Transacional Caractersticas
Anlises Idealizadas
Qual o desempenho dos nossos representantes em cada
regio?
Para cada produto, qual o total de vendas no ltimo ano?
Como tem variado o ndice de participao de cada
produto em nossas vendas (Product Share) ao longo dos
trs ltimos anos?
Existe alguma relao entre o desempenho dos
representantes e sua faixa de salrio?
Realidade dos BD Corporativos
Depto 1
BD 1
Depto n
BD n
Um bando de dados
de todos tipos
provenientes de
diversas fontes
arquivados de
diversos modos
oriundos de
diversos meios
Ambiente separado
Disponibilidade
Integrado
Retrato no tempo
Orientado por assunto
Fcil acesso
DATA WAREHOUSE (DW) - Conceito
Armazm de Dados
um amplo e flexvel repositrio de dados, que
aglutina dados de fontes heterogneas, projetado de modo a
suportar o processo de tomada de deciso.
Porque um Data Warehouse?
Integrar dados de mltiplas
fontes
Facilitar o processo de anlise
sem impacto para o ambiente de
dados operacionais
Obter informao de qualidade
Atender diferentes tipos de
usurios finais
Flexibilidade e agilidade para
atender novas anlises
BDs Transacionais
DW
Aplicao
SD
Ferramenta
OLAP
Aplicao
DBMKT
Ferramentas e Tcnicas de BI
E
T
L
OLAP
EXTRAO,
TRANSFORMAO E
CARREGAMENTO
FONTES DE
DADOS
DATA
WAREHOUSE
Data Mart
Aplicativos
Operacionais
Softwares de
Automao de
Escritrios
Dados Externos
Equipamentos
de Automao
Data Mining
EXPLORAO
Elementos de um Data Warehouse
Banco de Dados
Ferramentas para Transformao e
Integrao de Dados
Metadados
Ferramentas de Acesso
Data Marts
Administrao e Gerenciamento do
Sistema de Data Warehouse
Componentes Potenciais de um DW
1. Repositrio de Metadados
2. Ferramentas de Projeto CASE
3. Ferramentas de Extrao, Transformao e Carga (ETL)
4. Ferramentas para Qualidade e Limpeza
5. Ferramentas para Replicao
6. Provedores de Interfaces de BD ODBC/OLE
7. Ferramentas de Gateway para BD Legados
8. Bancos de Dados Relacionais
9. (Bancos de Dados No-Relacionais Legados)
10. Bancos de Dados Multidimensionais
Componentes Potenciais de um DW
11. Ferramentas OLAP
12. Ferramentas de Relatrio e Consulta
13. Ferramentas de Data Mining
14. Cross-Platform Batch Schedulers
15. Ferramentas de Monitoramento e Controle
16. Pacotes de Aplicao para Data Warehouse
Todos estes componentes
manipulam/geram metadados!
Projeto de Sistemas de DW
Princpio:
Os dados que se deseja analisar esto disponveis nos bancos
operacionais da empresa.
Os bancos operacionais no so adequados para efetuar as
operaes analticas.
Estratgia:
Criar um novo sistema de banco de dados para armazenar as
operaes analticas.
O sistema analtico atualizado por rotinas automticas executadas
off-line, a partir de dados extrados dos BDs operacionais.
As rotinas de transporte dos dados operacionais para o banco
analtico realizam todas as consistncias necessrias relativas
eliminao de dados desnecessrios e ajuste da granularidade de
tempo adotada para o banco analtico.
Os usurios podem realizar apenas operaes de leitura sobre o
banco analtico.
Administrao e Gerenciamento do DW
Caractersticas dos Sistemas de DW:
Tendem a ser 4 vezes maiores que os sistemas de banco de
dados operacionais.
No so sincronizados em tempo real com os dados operacionais.
Funes ligadas ao gerenciamento do Sistema:
Gerenciamento de segurana e prioridades
Monitoramento das atualizaes oriundas de fontes mltiplas
Verificao da qualidade dos dados
Gerenciamento e atualizao dos metadados
Auditoria relativa ao uso do sistema de DW
Eliminao de dados obsoletos ou desnecessrios
Replicao e distribuio de dados
Backup e recuperao
1. Os processos e, portanto, a identidade das tabelas de
fatos;
2. A granularidade (nvel de detalhe) de cada tabela de fatos;
3. As dimenses de cada tabela de fatos;
4. Os fatos, incluindo fatos pr-calculados;
5. Os atributos da dimenso com descries completas e
terminologia apropriada;
6. Como rastrear dimenses de modificao lenta;
7. Os agregados, dimenses heterogneas, minidimenses,
modos de consulta e outras decises de armazenamento
fsico;
8. A amplitude de tempo do histrico do banco de dados;
9. Os intervalos em que os dados so extrados e carregos no
DW.
Os 9 Pontos de Deciso (Kimball)
Ambiente de Data Warehouse (Proposta Original)
Query
Tools
Query
Tools
OLAP Tools
OLAP Tools
Data Mining
Data Mining
Bases
Operacionais
Fontes
Externas
Ferramentas
Ferramentas
e / ou
e / ou
Procedimentos
Procedimentos
DW DW
BIS, EIS, DSS
BIS, EIS, DSS
DataMart MD
FLAT FILE
Data Mart
Relacional
Data Mart
Relacional
Ambiente
Transacional
Ambiente
de
Extrao
DW
Corporativo
Ambiente
Usurio
Front-End
Ambiente
dos Data
Marts
Q
Administrao Administrao
Metadados Metadados produzidos produzidos em em todas todas as as etapas etapas
Data Marts
Conjunto de dados no normalizados,
sumarizados, relativos a uma rea especfica
para anlise de negcios.
Podem ser independentes ou derivados de uma
viso nica concebida a partir do sistema de DW.
DW - Organizao
Finanas
Estoque Vendas
Tcnico
DATA MART
Data warehouse
departamental
DATA WAREHOUSE
Corporativo
Infra-estrutura Bsica
Aplicao
Operacional
SISTEMA ANALTICO
DW
BANCO
RELACIONAL
BANCO
RELACIONAL
BANCO
ANALTICO
Aplicao
Operacional
Transformao
e Integrao de
Dados
Ferramenta
de Anlise
SISTEMA OPERACIONAL
Metadados
Metadados so dados sobre os dados e so
classificados em dois tipos:
Metadados Tcnicos (Operational Metadata): Descreve
como os sistemas operacionais so mapeados no sistema de
datawarehouse.
Inclui informaes sobre as fontes de dados, descrio das
transformaes, informaes sobre as tabelas de destino, regras
para extrao dos dados, restries de acesso, etc.
Metadados de Negcio: Descreve como o sistema de DW
mapeado com o modelo de dados de negcio dimensional do
usurio, usado pelo seu sistema de apoio a deciso (DSS -
Decision Support System).
Inclui informaes sobre reas de negcio, tipos de consulta,
relatrios, etc.
Ferramentas para Transformao e
Integrao de Dados
Compe uma parte significativa do esforo (e do custo) na
implantao de um DW.
As principais dificuldades encontradas so:
Heterogeneidade dos bancos operacionais.
Heterogeneidade dos esquemas de dados (nomes e tipos diferentes
para mesmos atributos).
A extrao e adequao dos dados oriundos dos bancos
operacionais pode ser feita de duas formas:
atravs de rotinas escritas pelos programadores da empresa
atravs de ferramentas que automatizam a transferncia dos dados.
As principais funes a serem realizadas so:
Remover os dados indesejveis dos bancos de dados analticos.
Efetuar as converses de nomes e tipos de dados.
Calcular sumrios e dados derivados.
Estabelecer valores default para dados inexistentes.
ETL Extrao
- Extrao Seletiva: os dados so extrados por meio de
programas desenvolvidos especificamente para selecionar os
dados a serem exportados;
- Manuteno por logs ou lotes: os dados so extrados
atravs dos registros automticos (logs) ou de lotes de
dados das transaes efetuadas nos sistemas transacionais;
- Replicao Automtica: os dados so extrados atravs de
um sincronismo automtico entre dois bancos de dados;
ETL Transformao
E
T
L
12 cm
4,5 polegadas
450 mm
2 ps
cm
E
T
L
SQL Server
Oracle
Access
Texto
PostgreSQL
E
T
L
m, f
1, 0
mas, fem
masculino, feminino
m, f
Banco de Dados
As principais opes para o sistema de banco de
dados do sistema de DW so:
RELACIONAL
COM
HARDWARE ESPECIAL
RELACIONAL
COM INDICES ESPECIAIS
MULTIDIMENSIONAL
NDICES NDICES
Projeto de DW em RDB
Os dados de aplicaes de DW so armazenados segundo o modelo
em estrela:
Uma tabela de fatos com as mtricas a serem avaliadas e as
chamadas para as tabelas de dimenses.
Uma tabela para cada dimenso, contendo os nveis associados a
cada dimenso.
Por razes de desempenho, o modelo em estrela pode ser alterado
segundo trs estratgias principais:
Sumarizao: Criao de tabelas de fatos redundantes, com dados
j sumarizados (tambm chamadas de agregaes).
Denormalizao: Substituio dos relacionamentos da tabela de
fatos pelos atributos da tabela de dimenses.
Particionamento: Fragmentao da tabela de fatos em tabelas
menores (por exemplo, tabela de vendas do ano de 1999).
Banco de Dados Multidimensionais
MDD (Banco de Dados Multidimensionais)
Armazenam informaes em arrays de formato proprietrio (os
cubos), que correspondem s dimenses de negcio definidas
pelos usurios.
No so compatveis diretamente com SQL. Eles so acessados
por APIs proprietrias desenvolvidas pelos fabricantes.
As consultas aos cubos so pr-processadas, aumentando muito
o volume dos dados armazenados (em torno de 25 vezes).
No permitem realizar relacionamentos entre os dados (joins).
No suportam update incremental (os cubos precisam ser
reconstrudos).
DADOS
ARMAZENADOS EM
CUBOS
Alternativas para Multidimensionalidade
MOLAP
MD Real
Armazena os dados em
formato multidimensional
No usa SQL como
linguagem de acesso aos
dados
ROLAP
MD Virtual
Armazena os dados
em formato
relacional
Comandos SQL so
gerados para acesso
aos dados
HOLAP
Hbrida
Mais usual
atualmente
Conceitos Principais
Data Warehouse
Banco de dados
Transacional
Incluir
Excluir
Acessar
Alterar
Incluir
Acessar
Diferenas na Modelagem
Modelagem Relacional
Modelagem Dimensional
nome
endereco
telefone
sexo
codigo
aluno
descrica
ogenero
codigo
livro
emprestimo
Aluno (FK)
Livro (FK)
nome
endereco
telefone
sexo
chave_aluno
dimensao_aluno
descricao
genero
chave_livro
dimenso_livro
dia
mes
Ano
bimestre
chave_tempo
dimenso_tempo
chave_aluno (FK)
chave_tempo (FK)
chave_livro (FK)
chave_emprestimo
fato_emprestimo
Uma tabela de fatos cercada de tabelas de dimenses
onde
FATO
quem
o qu
quando
Modelo Dimensional Esquema Estrela
Estratgia Estratgia
Preo Preo
Cliente Cliente
Venda Venda
Produto Produto
Organizao Organizao
Tempo Tempo
Regio Regio
DW - Dimenses
Cliente Tempo
Regio
Fato
Vendas
Produto
Vendedor
Modelo Dimensional Esquema Estrela
Modelo Dimensional Esquema Estrela
O projeto de um banco de dados dimensional do tipo
top-down, isto , ele projetado a partir do tipo de
anlise que se quer efetuar.
Exemplo 2:
Chave_tempo
dia_da_semana
ms
quadrimestre
ano
flag_feriado
Chave_tempo
Chave_produto
Chave_loja
reais_faturados
unidades_vendidas
reais_gastos
Chave_produto
descrio
marca
categoria
Chave_loja
nome_da_loja
endereo
tipo_de_planta_da_loja
DIMENSO TEMPO
ANLISE DE VENDAS
(TABELA DE FATOS)
DIMENSO PRODUTO
DIMENSO LOJA
Modelo Dimensional Esquema Estrela
Exemplo 3:
Juno lgica entre tabelas Fato e Dimenso
Atributos tpicos da Dimenso Tempo
Modelo Dimensional Esquema Snowflake
O esquema Snowflake pode ser considerado um Star
normalizado, pois emprega uma combinao de
normalizao da base de dados, para manter a
integridade e reduzir os dados armazenados de forma
redundante, com uma desnormalizao para obter
melhor desempenho.
Neste esquema as dimenses so normalizadas em
subdimenses, e cada nvel da hierarquia fica em uma
subdimenso. Por esta razo, no h necessidade de
utilizar o indicador de nvel que existe nos esquemas do
tipo Star.
A tabela principal da dimenso tem uma chave para
cada nvel hierrquico representado na subdimenso e
no mais uma nica chave, como no Star.
Modelo Dimensional Esquema Snowflake
Cliente Tempo
Regio
Fato
Vendas
Produto
Vendedor
Ano
Ms
Dia
Tipo
Cor
Marca
Estado
Cidade
Bairro
Renda
Sexo
Profisso
Modelo Dimensional Esquema Snowflake
Um exemplo para a
dimenso Geografia de
um DW.
Conjunto de processos para criao, gerncia e
manipulao de dados multimensionais para anlise e
visualizao, visando maior compreenso dos dados pelos
usurios finais.
usual a expresso ferramenta OLAP, referindo-se
aos sistemas com estas funcionalidades e que so,
juntamente com o SGBD, a base de um DW.
Facilidade para fazer anlises, definir agregaes e
cruzamentos, permitindo visualizar os dados em mltiplos
nveis de hierarquias e diferentes perspectivas.
OLAP (Online Analytical Processing)
Agregaes das Informaes
Apesar dos dados no DW serem armazenados segundo
a granularidade definida, muitas das consultas
realizadas necessitam, alm das informaes
detalhadas, de informaes sumariadas ao longo das
dimenses.
A informao armazenada no nvel de detalhe
importante, porm o acesso informao em nveis
sumariados permite aos analistas de negcio terem uma
viso global do modelo de negcios analisado.
Estas consultas, partindo de uma base onde existem
apenas os dados de nvel bsico, ou seja, do nvel mais
detalhado, se for necessrio sumariar os dados no
momento da execuo, todo o processo de anlise ser
sobrecarregado.
Agregaes das Informaes
Um determinado conjunto de vrios agregados pr-
computados faz-se necessrio para acelerar cada uma
das consultas, sendo que o efeito sobre o desempenho
considervel, obtendo redues drsticas no tempo de
processamento, motivo pelo qual um recurso bastante
eficiente para controlar o desempenho do DW.
Exemplos:
Agregado unidirecional: totais de categoria por loja por dia;
Agregado unidirecional: totais de cidade por item de produto por dia;
Agregado unidirecional: totais mensais por item de produto por loja;
Agregado bidirecional: totais de categoria por totais de cidade por dia;
Agregado bidirecional: totais de categoria por totais mensais por loja;
Agregado bidirecional: totais de cidades por totais mensais por item de
produto;
Agregado tridirecional: totais de categoria por totais de cidade por totais
mensais.
OLTP versus OLAP
Mais frequente
Mais previsvel
Pequena quantidade de
dados por consulta
Consulta a dados
bsicos
Dados correntes
Poucas derivaes
complexas
Menos freqente
Menos previsvel
Grande quantidade de dados
por consulta
Consulta a dados derivados
Dados correntes, passados
e projees
Muitas derivaes
complexas
OLTP
OLAP
Desvantagens do SQL:
Consultas relacionadas a problemas reais relativamente simples
so traduzidas em consultas SQL complexas, envolvendo
diversas varreduras, agregaes, junes e classificaes de
tabelas.
A linguagem SQL relativamente pobre no suporte de funes
matemticas para manipular dados histricos (Por exemplo,
clculo da flutuao da mdia dos ltimos trs meses).
Desvantagens do OLAP:
Quando o nmero de dimenses aumenta, o nmero de clulas
aumenta exponencialmente.
SQL versus OLAP
Hierarquias e Agregados
Geografia
Estado
Tempo Produto
Consultas
Produto
Marca
Categoria
Ms
Trimestre
Ano
Regio
Pas
Vendas por
Marca,
Trimestre
e Regio
Vendas por
Produto,
Ano e
Regio
Operaes OLAP Usuais
Navegao pelas hierarquias e seus elementos:
permite selecionar as perspectivas sob as quais se deseja
visualizar as variveis ou medidas;
Cruzamentos: permitem sumariar fatos por diferentes
combinaes das dimenses;
Drill down: navegao ao longo das dimenses na
direo de maior detalhe;
Roll up (Drill up): navegao ao longo das dimenses na
direo de menor detalhe;
Rotao: capacidade de inverter colunas e linhas;
Navegao ao longo da dimenses na direo de maior
detalhe;
Slice and Dice: Caminha atravs de um dado
especfico. Seleo definindo um subcubo;
(Ex: vendas onde cidade = Porto Alegre e data = 1/15/90)
Clculo e ranking.
(Ex: top 3% das cidades por mdia de rendimentos)
Operaes OLAP Usuais
Exemplos no Cubo de Dados
Dimenso Tempo
D
i
m
e
n
s

o
R
e
g
i

o
D
i
m
e
n
s

o
P
r
o
d
u
t
o
Slice and Dice
Viso Produto
Viso Tempo
Slice and Dice
Viso Regio
Slice and Dice
Viso ad-hoc
Slice and Dice
Drill-Down
Roll-Up
Viso Tempo
1995 1996 1997 1998
Janeiro
Fevereiro
Analisando o Cubo
A
B
1995 1996 1997 1998
Volume de Vendas (Fato)
Tempo
R
e
g
i

o
C
D
Oeste
Norte
Sul
Leste
P
r
o
d
u
t
o
Nmero de vendas
do produto A na
regio Leste
em 1995.
Dimenses vistas em ferramentas OLAP
Dimenso Tempo
Chave_Tempo
Mes
Trimestre
Ano
^
Tempo
Produto

^
^




1996
1997
Trim1/96
Trim2/96
Trim3/96
Trim4/96
Janeiro
Fevereiro
Maro
Ferramentas de OLAP
DynamiCube 3.0
http://www.datadynamics.com
Exemplos no site.
Maestro
http://www.hperinf.com.br
Hyper Consultoria em Informtica LTDA
Ferramenta ROLAP, cujo SQL gerado faz acesso, via ODBC, a
BDs relacionais como Oracle, SyBase, DB2, etc ou at mesmo
para ambientes menores, Access, FoxPro, DBase.
Ferramentas para SAD
Oracle
Oracle Warehouse Builder
Oracle Partitioning
Oracle Data Mining
Oracle OLAP
Microsoft
SQL Server Business Intelligence (BI) Development Studio.
Integration Services (SSIS)
Analysis Services (SSAS)
Reporting Services
Data-mining
DB2 Data Warehouse Edition for Linux,
Unix and Windows
Solution Templates
Design Studio (Eclipse)
Administration Console (Web)
BI Infrastructure (WebShpeere App Server)
DB2
SQL
Warehousing
Tool
Mining OLAP
In Line
Analytics
Ferramentas
Referncias Bibliogrficas
Introduo a Banco de Dados (Apostila, Cap. 10). Prof. Joo Eduardo
Ferreira (IME/USP)
Notas de aula da Prof. Maria Luiza M.Campos (DCC/IM/UFRJ)
Notas de aula do Prof. Edgard Jamhour (PPGIA/PUCPR)
Eric Thomsen. OLAP Construindo Sistemas de Informaes
Mutidimensionais. Editora Campus. Rio de Janeiro, 2002.
Ralph Kimball. Data Warehouse Toolkit. Editora Makron Books. So Paulo,
1998.
Laudon & Laudon. Gerenciamento de Sistemas de Informao. 3 Edio.
Editora LTC. Rio de Janeiro, 2001.
Sistemas de Banco de Dados. (Cap. 28) Ramez Elmarsri e Sham Navathe. 4
Edio. Ed. Pearson, 2005.
Sites oficiais dos fornecedores das tecnologias.

Você também pode gostar