Você está na página 1de 23

Introduo Modelagem Dimensional para Datawarehouses

Fernanda Baio fernanda.baiao@uniriotec.br PPGI UNIRIO


Abril 2007

Tpicos
Inteligncia do Negcio Contexto das Organizaes A tecnologia de Data Warehouse
Motivao e Conceitos Objetivos e Arquitetura Processo de Desenvolvimento do Data Warehouse
Projeto do Warehouse
Modelagem Multidimensional

Ambiente de aplicaes

Adaptado de: Carlos Barbieri BI: Business Intelligence - Modelagem e Tecnologia

Inteligncia do Negcio (BI)


Utilizao de vrias fontes de informao para se definir estratgias de competitividade nos negcios da empresa
Problema da inundao de informaes
Montanhas de dados Busca e recuperao de informao so difceis Apresentao da informao Tomadas de deciso so prejudicadas
4

Inteligncia do Negcio
Desafio:
Definir regras e tcnicas para a apresentao adequada deste volume de dados visando transform-los em depsitos estruturados de informao, independente da sua origem

Contexto das Organizaes


2 mundos de informao diferentes
Operacional (execuo) x Gerencial (Planejamento e Controle) Objetivos distintos Requisitos de ambientes de BD distintos

Informao Informao

Ambientes de BD Operacionais
Do suporte s funes associadas execuo do negcio da empresa:
sistemas administrativos, de controle de estoque, assinaturas de clientes, etc.

Tipo de processamento: OLTP


On-line transactional processing
transaes pontuais (1 registro por vez) velocidade e automao de funes repetitivas atualizaes e consultas em grande nmero trabalha com alto nvel de detalhe situao corrente
7

Ambientes de BD Gerenciais
Do suporte s atividades de tomada de decises gerenciais na organizao
Sistemas de suporte deciso, ferramentas de anlise

Tipo de processamento: OLAP


On-line analytical processing
Pequeno nmero de consultas variveis centenas, milhares, ... de registros por consulta Diversas fontes de dados Diferentes perspectivas Operaes de agregao e cruzamentos Atualizao quase inexistente, apenas novas inseres Dados histricos so relevantes
8

O que um Data Warehouse


Data Warehouse
Uma coleo de dados...
Orientados ao assunto Integrados No volteis Variantes no tempo

... Para fornecer suporte ao processo de tomada de decises na organizao [Inmon, 92]

O que um Data Mart


Data Mart Um subconjunto lgico do Data Warehouse, geralmente visto como um data warehouse setorial. [Kimball]

10

Objetivos de um Data Warehouse


Integrar dados de mltiplas fontes Facilitar o processo de anlise sem impacto para o ambiente de dados operacionais Obter informao de qualidade Atender diferentes tipos de usurios finais Ser flexvel e gil para atender novas anlises
Sistema de Apoio Deciso Fontes de Dados Operacionais DW Ferramenta OLAP Sistema de Minerao de Dados11

Arquitetura de um Ambiente de Data Warehouse


[Han e Kamber, 2001] Componentes
Dados Operacionais 3 camadas
Camada Interna: Servidor DW Camada Intermediria: Servidor OLAP Camada Externa: Ferramentas de acesso aos dados
12

Arquitetura de um Ambiente de Data Warehouse


Relatrios Anlise Ferramentas Minerao de Dados Servidor OLAP

DW Metadados
Extrao Limpeza Transformaes Carga Atualizao

Servidor DW Data Marts Dados

BDs operacionais

Fontes externas

13

Processo de Desenvolvimento de DWs


Etapas:
Planejamento Levantamento de Requisitos e Anlise do Problema Projeto do Data Warehouse Integrao de Dados e Testes Implantao

14

Projeto do Data Warehouse


Requisitos
flexibilidade e agilidade para suportar anlises no previstas Permitir anlise das medidas disponibilizadas sob diferentes perspectivas

Abordagem utilizada:
MODELAGEM DIMENSIONAL

15

Viso multidimensional
Forma pela qual analistas de negcio, gerentes e executivos analisam informaes
Qual o total de vendas do Produto X na Regio Sudeste no ms de janeiro ? Como foi a distribuio das vendas do Produto X em todas as cidades no ano passado?

Em quanto aumentaram as vendas do Produto X durante a promoo em abril de 2003 ?

16

Viso multidimensional
Foco no cruzamento das informaes
Facilita o entendimento e visualizao de problemas tpicos de suporte deciso Mais intuitiva para o processamento analtico Utilizada pelas ferramentas OLAP

Qual a diferena da viso multidimensional para a viso tabular do modelo relacional?


17

Viso Relacional
Volume de vendas para a concessionria XCar
MODEL MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN CITY NEW YORK LOS ANGELES MADISON NEW YORK LOS ANGELES MADISON NEW YORK LOS ANGELES MADISON SALES VOLUME 6 5 4 3 5 5 4 3 2
18

Viso multidimensional
Volume de vendas para a concessionria Xcar
M O D E L
Mini Van

6 3 4
NY

5 5 3
LA

4 5 2
Madison

Coupe Sedan

CITY

Um vetor multidimensional tem um nmero fixo de dimenses e os valores so armazenados nas clulas Cada dimenso consiste de um nmero de elementos

19

Acrescentando mais uma coluna...


MODEL CITY

DEALERSHIP

VOLUME
6 6 2 3 5 5 2 4 3 2 3 2 7 5 2 4 5 1 6 4 2 1 3 4 2 2 3 20

Volume de vendas por fornecedor

MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN

NEW YORK NEW YORK NEW YORK LOS ANGELES LOS ANGELES LOS ANGELES MADISON MADISON MADISON NEW YORK NEW YORK NEW YORK LOS ANGELES LOS ANGELES LOS ANGELES MADISON MADISON MADISON NEW YORK NEW YORK NEW YORK LOS ANGELES LOS ANGELES LOS ANGELES MADISON MADISON MADISON

CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR

10

Viso multidimensional
Volume de vendas para a concessionria Xcar
M O D E L
Mini Van

Coupe Carr Gleason Clyde

Sedan

6
NY

1
LA

2
Madison

DEALERSHIP

CITY

Dados podem ser imaginados como em um cubo


metfora visual representao intuitiva: dimenses coexistem para todo ponto no cubo e so independentes umas das outras 21

Adicionando Dimenses Hipercubos


Volume de vendas para a concessionria Xcar, ao longo do tempo
M O D E L
Mini Van Coupe Sedan Carr Gleason Clyde Mini Van Coupe Sedan Carr Gleason Clyde Mini Van Coupe Sedan Carr Gleason Clyde

6
NY

1
LA

2
Madison

5
NY

10
LA

1
Madison

6
NY

25
LA

0
Madison

DEALERSHIP

CITY

CITY

CITY

JANUARY

FEBRUARY

MARCH

22

11

Modelagem Multidimensional
Utilizao dos conceitos do modelo multidimensional a fim de representar, de forma clara, eficiente e flexvel, a viso multidimensional dos dados Conceitos
Fatos Dimenses
Hierarquias e Agregaes
23

Fatos
Medidas numricas do negcio
Volume de vendas (nmero de itens, total em reais), quantidade de itens em estoque, volume de transaes de carto de crdito

Sales Fact
date_key product_key store_key dollar_sold unit_sold dollar_cost

Representados em uma Tabela de Fatos


Valores das medidas (numricas e aditivas) e Referncias para as dimenses (granularidade) No armazena informao redundante! (textos, valores zerados) Quantidade de registros normalmente muito grande em um DW
25

12

Tabela de Fatos
Em um SGBD relacional
Sales Fact
date_key product_key store_key dollar_sold unit_sold dollar_cost

Relao (Tabela) Chaves estrangeiras para as tabelas de dimenso Chave primria subconjunto das chaves estrangeiras

Em um SGBD multidimensional
Cubo (vetor n-dimensional)

26

Dimenses
Product Dimension product_key description brand category department package type package size fat content diet type weight weight unit of measure storage type ...

Pontos de vista ou perspectivas do negcio sobre os quais uma organizao deseja guardar registros
Loja, Produto, Fornecedor, Tempo

Representadas em Tabelas de Dimenso


Descrio completa da dimenso
Atributos textuais e de domnio discreto preferencialmente

Essenciais para tornar o DW usvel e legvel


Tipo de armazenamento = V ou Tipo de armazenamento = Vcuo ?
27

13

Tabela de Dimenso
Product Dimension product_key description brand category department package type package size fat content diet type weight weight unit of measure storage type ...

Chave simples Fonte principal das clusulas das consultas, agrupamentos e ttulos de relatrios
Volume de vendas por produto

Usualmente no dependente do tempo Desnormalizada Hierarquias implcitas


28

Nveis nas dimenses ou Hierarquias


Hierarquias so a base das agregaes Volume de vendas
Date Dimension date_key date month year ... Ano Ms Dia
rea geogrfica NE PE Tempo: abril 2003 maio 7 14 21 29 15 30
34

Brasil SUL NO

Pas Regio Estado Area Dimension area_key state region country ...
29

SE RS
23 45

SC AC AM
62 56 150

23 13

92 87

73 21

23 234
14

..

14

Hierarquias e Agregados
Produto Marca Categoria Produto Tempo Ano Trimestre Ms Geografia Consultas Pas Regio Estado
30

Vendas por Produto, Ano e Regio

Esquemas para o modelo Multidimensional


Fatos e dimenses podem ser dispostos segundo diferentes configuraes
Esquema Estrela Esquema Flocos de Neve Esquema Constelao de Fatos

31

15

Esquema Estrela
1 tabela de fatos
Sem redundncia

n tabelas de dimenses
1 para cada dimenso O qu onde

quem

quando
32

Esquema Estrela
Time Dimension time_key day month year holiday_flag

Sales Fact
time_key product_key store_key dollar_sold unit_sold dollar_cost

Product Dimension product_key description brand category

Store Dimension store_key store_name address city state

33

16

Modelagem Multidimensional: Esquema Estrela


Dominante no projeto de DW [Kimball e Ross, 2002] Caractersticas:
Distingue bem as dimenses dos fatos medidos Simplifica a visualizao dimensional Simetria Eficiente para a realizao de consultas Acomodam mudanas mais facilmente

Hierarquias so representadas pelos atributos da dimenso


34

Exerccio
Suponha o exemplo da concessionria Xcar j apresentado, onde um gerente geral de marketing deseja analisar o volume de vendas dos modelos de carro de cada fornecedor em cada cidade de cada estado dos EUA, onde a concessionria possua filiais. Especifique um esquema estrela para esta concessionria. D alguns exemplos de consultas e anlises que poderiam ser teis para o gerente.
35

17

Exerccio
Concessionria XCar
M O D E L
Mini Van Mini Van Mini Van

Coupe Carr Gleason Clyde NY LA Madison

Coupe Carr Gleason Clyde NY LA Madison

Coupe Carr Gleason Clyde NY LA Madison

Sedan

Sedan

Sedan

DEALERSHIP

CITY

CITY

CITY

JANUARY

FEBRUARY

MARCH
36

Esquema Floco de Neve


Variante do esquema estrela
1 tabela de fatos
sem redundncia

K tabelas de dimenses
1 dimenso pode ter vrias tabelas

Tabelas de dimenso so normalizadas


Evita redundncia Requer mais junes para as consultas

Hierarquias representadas pelos relacionamentos entre as dimenses


39

18

Esquema Floco de Neve

40

Esquema Floco de Neve


Time Dimension time_key day_of_week month quarter year holiday_flag Product Dimension product_key description category_key Category Dimension category_key description brand_key Brand Dimension brand_key description City Dimension city_key city_name state
41

Sales Fact
time_key product_key store_key dollar_sold unit_sold dollar_cost

Store Dimension store_key store_name address city_key

19

Esquema Constelao de Fatos


Mltiplas tabela de fatos com dimenses compartilhadas
Maior complexidade

42

Esquema Constelao de Fatos


Time Dimension time_key day_of_week month quarter year holiday_flag Product Dimension product_key description brand category Location Dimension loc_key loc_name address city state

Shipping Fact
time_key product_key from_location_key to_location_key shipper_key dollar_cost units_shipped Shipper Dimension shipper_key shipper_name location_key
43

Sales Fact
time_key product_key location_key dollar_sold unit_sold dollar_cost

20

A Modelagem Multidimensional no Projeto de DWs


Etapas:
Escolha do processo de negcio
Departamental ou corporativo Pedidos, seguros, inventrio, vendas, entregas Os de maior impacto para o usurio primeiro

Escolha da granularidade do Processo de Negcio


Nvel mais detalhado das medidas da tabela de fatos Transaes individuais ou posies peridicas Cada item de uma nota fiscal de venda, um carto de embarque em um vo, posio diria de um produto em estoque, posio mensal de uma conta bancria
44

A Modelagem Multidimensional no Projeto de DWs


Etapas:
Escolha das dimenses para cada tabela de fatos
Como descrever os dados do negcio? Data (tempo), produto, cliente, tipo de transao

Escolha das medidas para a tabela de fatos


Que medidas devem ser acompanhadas? Granularidade definida pelas dimenses relacionadas Quantidade solicitada, Custo em reais Percentuais no devem ser armazenados, e sim seus numeradores e denominadores
45

21

Questes crticas para modelagem dimensional


Foco nos requisitos e objetivos do negcio
No na tecnologia e nos dados

Envolvimento do patrocinador e usurios gerenciais essencial para o sucesso Adote uma abordagem incremental e iterativa para o desenvolvimento do DW
No tente fazer tudo de uma vez

Desempenho das consultas do usurio e facilidade de uso so os fatores mais crticos


Otimizao de consultas OLAP

Apresente os dados de forma simples, e com a semntica clara Nvel de detalhe deve chegar at os dados atmicos Esteja preparado para mudanas no negcio e nos dados D especial ateno aceitao dos usurios
46

Concluso
Modelagem dimensional a abordagem utilizada para o projeto de DWs
Viso dimensional dos dados
intuitiva, flexvel e eficiente para consultas Fatos, dimenses e hierarquias

Esquemas
Estrela, flocos de neve e constelao de fatos

Fases do projeto
Escolha do: Processo de negcio, granularidade, dimenses e medidas de fatos (nesta ordem)
47

22

Exemplo de tabela Tempo


date key 1 2 3 4 5 6 7 8 9 full date 1/1/96 1/2/96 1/3/96 1/4/96 1/5/96 1/6/96 1/7/96 1/8/96 1/9/96 day day day abbre day day of num in num v week month overall name 1 1 1 Monday Mon 2 2 2 Tuesday Tue 3 3 3 WednesdaWed 4 4 4 Thursday Thu 5 5 5 Friday Fri 6 6 6 Saturday Sat 7 7 7 Sunday Sun 1 8 8 Monday Mon 2 9 9 Tuesday Tue week week weekday num in num year overall flag y 1 1 y 1 1 y 1 1 y 1 1 y 1 1 n 1 1 n 1 1 y 2 2 y 2 2 week month begin week num month date begin name key month overall date 1/1/96 1 1 1 January 1/1/96 1 1 1 January 1/1/96 1 1 1 January 1/1/96 1 1 1 January 1/1/96 1 1 1 January 1/1/96 1 1 1 January 1/1/96 1 1 1 January 1/8/96 8 1 1 January 1/8/96 8 1 1 January month abbrev Jan Jan Jan Jan Jan Jan Jan Jan Jan

48

Exerccio
Suponha uma Companhia Area GOAL que deseja construir um DW para o seu negcio. Seu objetivo principal aumentar seu lucro atravs do aumento da taxa de ocupao de seus vos, para isso lanando promoes e descontos aos clientes. Tambm desejvel otimizar a escala da tripulao, e o perodo de manuteno das aeronaves. Projete um esquema para o DW da companhia GOAL, descrevendo o resultado de cada uma das etapas da modelagem dimensional apresentadas. 49

23

Você também pode gostar