Você está na página 1de 12

ARMAZENAMENTO DE DADOS

AULA 4:
PENTAHO DATA INTEGRATION - VISÃO GERAL

Elaborado por: Edivaldo Rodrigues João


O Pentaho Data Integration (PDI), tambem conhecido por
Kettle (Kettle Extraction, Transport, Transformation and
Loading Environment), é o conjunto de ferramentas open-
source responsável pelos processos de ETL da Pentaho
Business Intelligence Suite. A sua característica principal é
ser baseado em modelos que representam as
transformações e os fluxos de dados que ocorrem num
determinado processo de ETL. Serve assim de
intermediário entre as diversas fontes de dados que
constituem o conhecimento disperso de uma organização
com o objectivo de conseguir construir data warehouses
consoante determinadas regras de negocio que se quer
impor sobre os dados.

02
Tabela (de) fatos
A tabela de fatos sintetiza o relacionamento existente
entre as diversas dimensões. Isto ocorre porque a chave
da tabela de fatos é a associação das chaves primárias
das tabelas de dimensões. Geralmente este tipo de
tabela possui um ou mais fatos numéricos que ocorrem
na combinação de chaves que define cada registro.

A tabela de fatos regista os fatos que serão analisados.


É composta por uma chave primária (formada por uma
combinação única de valores de
chaves de dimensão) e pelas métricas de interesse para
o negócio.

Metricas: são as informações armazenadas nas tabelas


fato que permitem medir o desempenho dos processos
do negócio. As métricas são geralmente volumétricas,
numéricas, podem ou não ser agregadas e na maioria
das vezes são do tipo aditivas, ou seja, permitem
operações como adição, subtração e médias.
03
Tabela (de) dimensões
A Dimensão possui característica descritiva dentro do DW.
Ela qualifica as informações provenientes da tabela Fato.
Através dela é possível analisar os dados sob múltiplas
perspectivas.

Uma dimensão é uma coleção de atributos textuais que são


altamente correlacionados entre si. Os atributos textuais
que descrevem coisas são organizados dentro das
dimensões. Em uma base de dados de vendas são comuns
dimensões como produto, armazém, cliente, promoção e
tempo.

04
As Dimensões e Fatos são componentes complementares e
dependentes entre si. Em um modelo dimensional é
obrigatório a existência de ambos. Sem um desses
elementos, a compreensão e análise das informações ficam
comprometidas no modelo dimensional, ou até mesmo
inviabilizadas.

Portanto, na estrutura multidimensional é possível cruzar as


informações dos dados centrais (métricas) com os dados
periféricos (descritivos), permitindo assim a análise das
informações nas mais diferentes visões, adequando-se de
acordo com a necessidade do usuário na utilização de um
sistema de BI.

05
Modelos/Esquemas de
implementação
Para a implementação de Data Warehouse,
existem dois tipos de modelos dimensionais:

- Estrela (Star)
- Floco de Neve (Snowflake)

06
Esquema Estrela

O nome “estrela” se dá devido à disposição em


que se encontram as tabelas, sendo a tabela fato
centralizada relacionando-se com diversas outras
tabelas de dimensão.

Nesse modelo os dados são desnormalisados para


evitar joins entre tabelas, diminuindo o tempo de
consultas, no entanto devido a repetição de dados,
utiliza mais espaço em disco. A vantagem desse
modelo é a eficiência na extração de dados, o que
é um grande diferencial em se tratando de um data
warehouse.

07
Esquema Estrela

Dimensão_ Dimensão_
Produto Clientes

Dimensão_ Dimensão_
Fato_Vendas
Marketing Loja

Dimensão_ Dimensão_
Tempo Promoção

08
Esquema floco de neve

O modelo de dados Snow Flake (Floco de Neve),


que consiste em uma extensão do modelo Estrela
onde cada uma das "pontas da estrela" passa a
ser o centro de outras estrelas. Isto porque cada
tabela de dimensão seria normalizada,
"quebrando-se" a tabela original ao longo de
hierarquias existentes em seus atributos.

09
Esquema Floco de Neve
Dimensão_
Categoria
Dimensão_ Dimensão_
Produto Loja

Dimensão_
Marca Dimensão_ Dimensão_
Fato_Vendas
Marketing Loja

Dimensão_ Dimensão_
Tempo Promoção

Dimensão_ Dimensão_ Dimensão_


Ano Mês Dia
10
Considerações finais

O que é recomendado, é utilizar um modelo estrela,


pois fornece um acesso mas rápido aos dados e é
mais fácil de se navegar. Criar tabelas auxiliares
para dimensões, somente para dimensões
especificas quando for estritamente necessário ou
quando demonstrar um beneficio que justifique a
perda de desempenho nas consultas, que pode
não ser tão grande dependendo da forma que
estas tabelas são construídas e a quantidade de
registros que elas contiverem.

11
Obrigado

Email: edivaldo.rodriguesjoao@gmail.com

Você também pode gostar