Você está na página 1de 97

DATA WAREHOUSE

ETL
Kimball University
2008

As Metas

Aprender arquitetura do ETL

Decompor o problema em partes manejveis

Aplicar tcnicas que podem ser usadas novamente

Investigao dos detalhes sem perder perspectiva!

Desenvolver julgamento para evitar retrabalho ou deixar


de fora capacidades importantes

Planejamento

Preparar desenvolvimento ETL:


desenvolvendo as perspectivas essenciais do projeto
Subsistemas 1-3: profiling, change data capture, and extraction
Subsistemas 22-24: agendamento de job, tratamento de exceo,
backup, recovery e restart
Tratando os dados: subsistemas 4-7, 28
Conformidade, resolvendo os desafios da integrao: subsistema
8
Subsistemas 25-27, 29-30 controle de verso, migrao de
sistema e teste
Arquitetura de ETL em tempo real

O que voc deve saber

Tabela fato

Tabela dimenso

De que forma o modelo estrela difere do modelo


normalizado

Surrogate keys chaves artificiais

Natural keys chaves naturais

SCDs (slowly changing dimensions) - Dimenses que


mudam lentamente

Os trs tipos de tabelas fatos

Tabela ponte ou dimenses com multi-valores

Aggregados (ou view)

O desafio do ETL

Custo eficaz

Confivel

Extensvel

Compatvel

Observvel

Seguro

Sistema manejvel para trazer os dados para o data


warehouse e deix-lo pronto para consulta do usurio
final.

Todos entendem E, T, L

E:

T:

Obter os dados da origem para o data warehouse

Transformar e deixar pronto para o data warehouse

L:

Carregar os dados nas tabelas do data warehouse

Como faz para dividir em trs


passos?

Depende da
Origem
Quais ferramentas esto disponveis
As habilidades dos envolvidos no trabalho
A ferramenta de consulta e relatrio

hora de mais disciplina e


estrutura no back room

Familiarizar com os nomes e as tarefas do cliente

Identificar as tarefas que voc no pode deixar


de fora

Agrup-los em quatro categorias (E, T, L e M)


E: Obter os dados para o DW
T: Tratamento e conformidade
L: Preparar para apresentao
M: Gerenciar todos os processos

E: Obter os dados para o DW


First: Get the Data Into the DW

Preparar para iniciar

prepare to start

Comprehensive
Requirements

Logical Data
Map

Conhecer os dados
Data Profiling (1)

Change Data
Capture (2)
Extract (3)

Result:
Extracted Tables
incl Format
Conversions

judge data

Isolar as alteraes

isolate changes
Carregar no DW

get into DW

T: Tratar e conformar
Second : Clean and Conform

Tratamento nos dados

cleaning machinery
Controle de limpeza

Cleansing Sys &


Data Quality
Screens (4)

cleaning control
d

Integrao

integration

d
Error Event Schema (5)
w. Audit Dimension (6)

Deduplicating (7)
and Conforming
System (8)
Result:
Cleaned Tables
and Conformed
Dimensions

L: Preparar para Apresentao


Third: Prepare for Delivery

time
variance

SCD Manager (9)

Variao de tempo

keys
Chaves

hierarchies
Hierarquias

bridges

Tabelas pontes

Fact Table
Types (13):
Late Arriving
Data (16)

Surrogate Key
Generator (10),
Pipeline (14)

Dimension
Manager (17),
Fact Provider
(18)

Hierarchy Table
Manager (11):
Fixed, Variable,
Ragged

Agg Tables (19),


OLAP Cubes (20),
DI Manager (21)

Special
Dimensions (12),
Multi-Valued
Dimensions (15)

Result:
Fact & Dim
Tables Ready for
Delivery

fact types &


late data
Tipos tabelas fato e
dados atrasados

admin

Administrador

aggregates,
cubes, &
data
integration
Agregados, cubo
e integrao dos
dados

M: Controlar todos os processos


Fourth: Manage
Controlar

control

Proteger

protect

Origem

Job Scheduler (22)

Backup (23)

Controlar

Problem Escalation (30)

respond
speed

Version Control (25) &


Migration (26)

Security (32)

guard

Workflow Monitor (27)

Compliance (33)

Guardar

Conformidade

comply

Gerenciar

Velocidade

speed

Responder

Pipeline/Parallelize (31)

Mtrica

measure

source

Velocidade
Recovery/Restart (24)

control

Lineage &
Dependency (29)

Sorting (28)

Metadata Repository (34)

manage

E (talvez)
R: Adaptar para Real Time

Fifth: Adapt to Real Time


streaming
real-time
ETL system

convert existing systems

converter sistemas existentes

Os termos back room e front


room anlogo a um restaurante

Cozinha (back room)


Os ingredientes precisam ser selecionados e
aprovados
Preparar os alimentos
Itens separados so reunidos harmoniosamente
O produto final montado no prato que ser entregue
na sala de jantar
Sala de jantar (front room)
O cliente recebe o prato montado pronto para
consumi-lo utilizando os talheres
O chef de cozinha o responsvel pela qualidade do
que foi entregue

Os termos back room e


front room no DW

Sistema ETL (back room)


Extrao
Limpeza
Conformidade
Entrega (o modelo com os dados)
Ambiente usurios finais (front room)
Apresentar o que importante (do DW)
Investigar as causas (usando o DW)
Testar que se (usando o DW)
Acompanhar as decises tomadas (de volta para o
DW ! )

Necessidades do negcio

Comece identificando os assuntos das reas de


deciso

Conduzir as reunies com usurios

Identificar os indicadores de performance esperado


(KPIs)

Expandir as aplicaes analticas (AAs):

Consultas e relatrios

Isolar e enfatizar a importncia de encontrar as chaves

Identificar as causas e conseqncias

Acompanhar as decises tomadas atualmente

Inferir os dados a partir dos indicadores e aplicaes


analticas

Indicadores de performance

Operao de manufatura

Operaes de venda

Tempo de resoluo das questes vs. treinamento dos


empregados

Web Site

Tempo do ciclo de venda vs. equipe de venda

Call Center

Variao dos custos padres vs. localizao

Quantidade de passos para completar uma compra

Recursos humanos

% de progresso para qualificar para o prximo nvel profissional

Anlise de comportamento

18

Antecipar-se para as necessidades do usurio


Ligar a pesquisa instantnea do cliente com visita,
aspecto demogrfico, histrico de compras. Ex: site da
Amazon.
Acompanhar as promoes personalizadas e as
ligaes de siga-me
Durao das visita e quanto tempo o cliente demorou
para retornar
Sucesso de vendas associadas
Tempo de latncia: quanto tempo demorou para vender
o produto aps a sua primeira exposio
Uso de inventrio online, mostra resposta de produto
esgotado/ fora de estoque
Reao a apresentao da mercadoria

Novas fontes de dados

19

Email/SMS
Call center
Blogs
Redes sociais: Facebook, Twitter
Ofertas na web e no celular
Rastrear os registros RFID
Cestas inteligentes
Ex: Pagamento de pedgio
Integrao rpida de diversas fontes, mudando
constantemente!

Compliance

Identificar normas legais e financeiras especficas e de


cumprimento imediato

Determinar os requisitos especficos para o


cumprimento destas normas

Para ser seguro:


Prove que o resultado final derivado do sistema
origem
Prove que os dados originais no foram modificados
Documentar as transformaes usadas

Uso de Data Profiling

Estratgia: decidir, o mais cedo possvel, se a fonte de


dados suporta a misso bsica
Descobrir mais tarde pode ser fatal para voc e
para o projeto

Ttica: identificar falhas nos dados


Expor para o usurio a expectativa real se os dados
no estiverem perfeitos

Segurana

Dados do perfil de armazenamento de dados por nveis


de sensibilidade

Chegar a um acordo com os usurios finais e


executivos

Incluso de dados sensveis


Uso de perfis para acesso aos dados
Responsabilidade para administrar os perfis e permitir
acesso telas de usurios finais

Configurar redes e comunicaes

Monitorar os usurios internos e as aes do


administrador

Proteger a mdia fsica incluindo backup

Integrao dos dados

Comprometimento seguro para apoiar o processo de


modelagem dimensional para construir dimenses e
fatos conformados.

Preparar as expectativas do usurio final

Latncia dos dados

Como parte do data profiling, descrever a validade dos


dados novos e atualizar os processos que podem
ocorrer

Quantificar, se possvel, o valor de dados acessveis


mais rpido que o ETL atual pode entregar

Identificar a origem e a tela do usurio final que deve


ser baseada no fluxo de dados

Identificar as fontes que do origem aos late arriving


dimensions

Archiving, Lineage, Impact

Estabelecer uma poltica para longo perodo de


armazenamento e recuperao de dados

Interface do usurio final

Conduzir os direitos no perfil do usurio

Determinar as pastas visveis ao usurio conforme a


sua classe ou grupo

Habilidades disponveis de TI
e licenas

Levantamento das competncias da equipe e das


habilidades disponveis no mercado:
Plataforma do sistema operacional
DBMS
Conjunto de ferramentas de ETL
Linguagem de script e utilidades
Experincia com data warehouse, em especial com
modelagem dimensional

Licenas legais que voc precisa conviver:


DBMS, ERP, ETL

Ferramentas de ETL Pros e Contra

Pros
Grficos, parmetros baseados em programao
Transparncia e lgica de alto nvel
Documentao automtica
Suporte extensivo automtico de metadados
Biblioteca de conexes
Balanceamento de carga automtico, paralelizao
Controle automtico da verso e origem
Habilidades do mercado e cursos lecionado pelos
fabricantes.
Contras
Custo elevado
Curva de aprendizado significativa

Transformaes tpicas fornecidas


pelas ferramentas de ETL

Agregados
Expresses gerais
Filtros
Joins
Lookups
Normalizadores
Gerador de seqncia
Stored procedures
Entrada e sada formato XML
Facilidade para escrever a sua prpria transformao

Posio no mercado
Current Marketplace ETL Tool Suite Offerings

Microsoft SQL Server 2005 Integration Services (219,000 hits)


Oracle Warehouse Builder (102,000 hits)
Informatica PowerCenter (93,600 hits)

Cognos DecisionStream (27,200 hits)


SAP BusinessObjects Data Integrator (12,400 hits)
Ab Initio Software (near impossible to evaluate) (9,380 hits)
ETI (Evolutionary Technologies International) (7,810 hits)
Ascential DataStage
(acquired by IBM, now Websphere Information Integration) (7,430
hits)
Data Flow Server (acquired by Group 1, Pitney Bowes Co.) (2,890
hits)
DataMirror Transformation Server (2,460 hits)
Hummingbird ETL (2,130 hits)
IBM DB2 Data Warehouse Manager (1,710 hits)
SAS Enterprise ETL Server (1,110 hits)

Pentaho

Hand Coding Pros e Contras

Vantagens
Rpida implementao por desenvolvedores
experientes
Baixo custo de entrada
Altamente eficiente para aplicaes com destino
especfico

Desvantagens
Os scripts e os programas devem ser
especificamente documentados e mantidos
Todo suporte aos metadatas deve ser concedido pelo
programador
No h suporte automtico para o agendamento,
balanceamento de carga, controle de verso

Ferramentas Data Profiling e


Data Cleansing Vendors

Profiling
Ascential/IBM (ProfileStage)
Evoke Software (acquired by Informatica)
SAS DataFlux
Trillium/Harte Hanks
Pervasive Data Integrator
Cleansing
Ascential/IBM (acquisition of Vality)
First Logic (acquired by SAP Business Objects)
Group 1
SAS DataFlux
Search Software America
Trillium (acquired Harte Hanks)

PARTE I: EXTRACT,
CLEAN, AND
CONFORM

Kimball University
2008

1: Data Profiling

Objetivos
Conhecer a preciso de dados, contedo e relevncia
da fonte
Ateno com os dados que devem ser fixados antes
da extrao
Fornecer uma lista, mais completa possvel, com as
transformaes que devem ocorrer aps a extrao
dos dados
Gerar essas transformaes diretamente das
ferramentas de data profiling
Incorporar essas transformaes no fluxo de ETL

2: Change Data Capture

Isolar os dados alterados para permitir o processamento


seletivo, em vez de atualizao completa

Capturar todas as alteraes feitas nos dados do


sistema origem incluindo as interfaces no
padronizadas

Capturar edies, inseres e delees no sistema


origem

Marcar os dados alterados com cdigo de motivo

Apoiar o acompanhamento de conformidade com


metadata adicionais

Realizar a captura de dados de alterao o mais cedo


possvel

2: Change Data Capture

Inputs
Arquivos de log com as transaes do sistema
Auditoria nas tabelas de origem
Extrato de tempo
Cpia completa da tabela
Database triggers

Outputs
Inserts, updates, deletes
Cdigo do motivo
Conformidade metadata: aplicvel em um intervalo de
tempo, origem

2: Change Data Capture

Arquitetura

Executar CDC no sistema origem ou no sistema de


ETL
Confie em um tipo de entrada mas vincule o total da
origem com as consultas de auditoria
Substituir os campos de data nulos por datas 01-010001
Para comparar uma tabela preciso a foto completa do
perodo anterior

Livro pp. 106-111, 186-187

3: Extract

Objetivos

Copiar os dados da origem para o data warehouse


usando biblioteca de maior rendimento possvel

Puxar, empurrar, ou stream de dados dirigidos pelo


agendamento de job e alertas

Verificar se o formato do campo compatvel com data


warehouse e quando necessrio converter para
formatos suportados pelo data warehouse

Carregar o modelo dimensional, esquemas


normalizados e flat files

Fase de extrao dos dados temporrios

3. UDDI, WSDL, and SOAP


Allow Orgs to Implement SOA
Architecture
acessado usando

capacita

descreve

obriga para

permite
comunicao
entre

SOA Architecture

Promessas tradicionais
Unido fracamente
Padres abertos (UDDI, WSDL, SOAP, XML)

Sobering Lessons
SOA fora a organizao a confrontar

Exige governana sofisticada

40

Integrao e qualidade dos dados


Muda o gerenciamento, medidas de qualidade, conformidade,
segurana, privacidade, auditoria

Building SOA Services for the


EDW

Visualizar a granularidade grosseiramente :


Create customer Criar o cliente
Read customer descriptors Ler a descrio do cliente
Update customer descriptors Atualizar a descrio do
cliente
Delete customer Deletar o cliente
Iniciar modestamente: Implementar os servios em torno
do ETL e subsistemas de BI.
Fracamente acoplados
Estritamente definidos, enfatizando o desempenho e
escalabilidade
Sujeito a governana desde o incio

41

Low Hanging SOA Fruit

42

Candidatos bem definidos subsistemas ETL/BI


Change data capture
Tela data quality com colunas e estruturas
Verifica se o endereo confivel
Gera Surrogate key
Publicao das conformed dimensions
Tratamento para alerta em tempo real
Construo e manuteno das hierarquias da tabela
Drill across aplicao de BI

3: ETL Targets

Flat Files
Formato universal independente do DBMS,
bom para arquivo a longo prazo
Manipulao eficiente diretamente da linha de
comando
Notvel leitura, atualizao e acesso aleatrio no
bom
Agregaes usando quebra de linha bem eficiente

22: Job Scheduler

Objetivos
Agendar e executar jobs de todos os tipos

Agendamento mais vantajoso porque


Controla relacionamentos e dependncias entre os jobs
Mecanismo confivel para gerenciar estratgia de
execuo

Example Modern Job


Schedulers

Microsoft SQL Server Agent (165,000 hits)


IBM Tivoli (144,000 hits)
BMC Control-M (41,100 hits)
Oracle 10g dbms_scheduler (23,700 hits)
Computer Associates Unicenter AutoSys (13,100 hits)
Argent Job Scheduler (13,100 hits)
Cronacle by Redwood (13,000 hits)
Load Sharing Facility - LSF (Platform Computing) (10,700 hits)
UC4 (6,460 hits)
Opalis Integration Server (5,210 hits)
CA/Cybermation ESP Espresso (1,800 hits)
SAS DSx3 (575 hits)
Pervasive Integration Hub (497 hits)

23: Backup

Objetivos

Copiar os dados do data staging e da partio em tempo


real para local mais seguro:
Arquivo histrico,
Restart incremental

Operao automatizada

Minimizar exposio de perda de dados

24: Vulnerabilities of LongRunning ETL processes

Quanto mais tempo um processo de ETL demorar para


executar mais ciente voc deve ficar das
vulnerabilidades ao fracasso
Carregar no sistema origem para re-run
Posio lgica necessria para retornar, ou reiniciar a
partir da posio atual, por exemplo, usar a chave
artificial (SK) da tabela fato

Escolha uma dependncia de jobs horizontal ou vertical


Horizontal executa os processos at o final
independentemente
Vertical significa que os processos aguardam a
concluso das metas comuns, em especial, as

24: Minimizing the Risk of


Load Failures

Modos de falha incluem


Falha na rede
Falha na base de dados
Falha no disco
Sistema origem
Data staging
Data warehouse

Falha de memria
Espao de tempo, espao de dados, espao de
ndice
Falha no data quality
Atualizao do sistema sem aviso prvio

24: Minimizing the Impact of


Failure

Particionar os processos

Utilize pontos de recuperao


Ponto de restart lgico. Ex: data e hora ou SK da
tabela fato

til para restart, backout, updating


Salvar as chaves para serem substitudas no processo de
atualizao

Mantenha os metadados (Ex: os ltimos registros


carregados)

4: Data Cleansing System

Objetivo
Sistema global para gesto de qualidade dos dados
Mensurar a qualidade dos dados: identificar dados
que precisam ser tratados
Tomar as aes corretivas apropriadas

Interfaces para a interveno de dados defeituosos

Montar descrio temporal seriada de dados


deficiente e as medidas tomadas
Unir os dados tratados com os atuais para gerar
relatrios diretos de qualidade

Dimenso de auditoria

4: Data Cleansing System

Entrada
Dados sem tratamento
Dependncia lgica para agendamento de job

Sada
Dados tratados
Aes tomadas
Registro das aes tomadas e todos os eventos de
qualidade de dados

4: Quality Screen Process Flow

4: Oracle Process Flow Tool

4: Informatica PowerCenter
Workflow Manager

Email Task
External Process

PowerCenter
Session

Decision Task

5: Error Event Schema

Objetivo
Estrutura central para capturar e responder eventos
de qualidade de dados
Histrico dos eventos de qualidade de dados
disponveis para anlise
Six Sigma Quality = 3.4 defeitos por milho de
oportunidades
Definir os objetivos do projeto e o que ser
entregue para o cliente
Mensurar o processo para determinar a
performance atual
Analisar e determinar a causa dos defeitos
Melhorar o processo eliminando os defeitos
Controlar performance de futuros processos

5: Error Event Schema

6: Audit Dimension

Objetivos

Capturar os metadatas completos para criao e


contexto de qualidade de cada registro da tabela fato

Anexar esses metadados para cada tabela fato como


uma dimenso

Use contexto de dimenso para os relatrios de


auditoria instrumentado

6: Attaching an Audit Dimension

6: Instrumenting a Report
With an Audit Dimension

28: Sort Data


Immediately After Extract

A maioria dos processos de ETL precisam de dados


classificados

Escolher o tipo de recursos mais eficiente

Combinar extrao, converso de formato e classificao


em um passo.
A sabedoria convencional diz que os pacotes dedicados so
mais rpidos, no entanto, vendedores de ETL e DBMS
afirmam j estarem se recuperando...

7: Deduplicating

Objetivos

Membros dimensionados de-duplicados dentro e


atravs de tabelas de dimenso
Implementar procedimento de sobrevivncia para
integrar os dados de fontes mltiplas

7: Microsoft: Fuzzy Grouping


Module for Deduplicating

7:
Microsoft:
Fuzzy
Grouping
Detailed
Results

7: Oracle Match-Merge Wizard

7. Oracle: Expanded Match-Merge Operator in Map

7: Survivorship Drive Tables

7. Multiple Sources and


Duplicated Customers

Design:

Se a origem possui referncia


duplicada ento se pode
implementar dimenso multivalor
com a tabela ponte

8: Conforming

Objetivos

Habilitar o drill across em ambientes com mais de


uma tabela fato

Aplicar domnios comuns de dados para campos


designados nas tabelas dimenses conformadas

Aplicar as regras de negcio comuns para os campos


designados nas tabelas fatos conformados

Key Concept:
Conformed Dimensions

Uma dimenso que um subconjunto


perfeito de linhas e colunas
considerado conformed dimension

O contedo das colunas comuns devem


ser equivalentes (mesmo domnio)

Drilling Across Means


Combining Row Headers

Abrir uma conexo separada para cada origem

Reunir cada conjunto de resposta

Fazer o merge do conjunto de resposta nos


cabealhos de colunas conformed

Product

Manufacturing
Shipments

Warehouse
Inventory

Retail Sales

Turns

Framis

2940

1887

761

21

Toggle

13338

9376

2448

14

Widget

7566

5748

2559

23

8: Conforming

Questes de arquitetura
preciso definir bem o que ser entregue pelo gerente
da dimenso

Apenas um subconjunto de dimenses ou dimenses completas


Mapeamento das SK nas tabelas de destino
Dimenses snowflake encolhidas para suportar agregados

Precisa de detalhamento lgico para atualizar


dimension version numbers
Precisa de ferramenta instrumentada que realize drill
across para usar dimension version numbers
Os membros duplicados da dimenso precisam de
ponteiros para todas as chaves naturais (NK) dos
registros na origem

Livro pp. 148-159, 447, 449

7, 8: Deliver Cleaned,
Deduplicated,
Conformed, and Survived
Dimensions
d

Extracted
using adapter

Cleaned and
locally
Deduplicated

Cleaned and
locally
Deduplicated

Conformed

Source 1

Extracted
using adapter

Conformed

Merged,
Survived and
Globally
Deduped

Replication
Engine

Source 2
Conformed
Dimension ready
for Delivery

Extracted
using adapter
Source 3

Cleaned and
locally
Deduplicated

Conformed

Special contents:
1) dimension version number
2) back pointers to all source
natural keys

25: Version Control

Objetivos do controle de verso versionamento

Conjunto de fotos armazenadas com o objetivo de


salvar e restaurar o contexto completo do ETL.
Numerar as verses

Alternativas
Microsoft Visual Source Safe

Livro pp. 353-368, 413-416

26: Version Migration

Desenvolvimento Teste Produo


Completar os testes da fase de desenvolvimento
Scripts de testes automticos de regresso para
desenvolvimento e teste
Testes do sistema completos na fase de teste
Simulado com volume de dados reais na fase de
teste
Migrao para prxima fase inclui transferncia
automtica completa do contexto de ETL incluindo
todas as conexes e perfis de usurios
Migrao para fase de produo inclui
Documentao de migrao
Cenrio de rollback: re-extrair os dados

27: Workflow Monitor

Objetivos
Monitorar status do job incluindo aqueles que ainda
esto pendente, executando, completo ou suspenso
nos registros histricos

Mensurar performance da infraestrutura incluindo


CPU, memria, disco, banco de dados e utilizao do
servidor

Livro pp. 332-339

27: Monitor Process Metadata

Notificao de dados atrasados


Linhas carregadas com sucesso
Linhas rejeitadas
Tempo decorrido
Linhas processadas por segundo
Tempo estimado de concluso
Utilizao da memria

Memria compartilhada
Tamanhos do buffer

Processador, banco de dados, memria, disputa do


disco
Rotina de uso de tabelas, ndices, agregados

27: Ascential Example of


ETL Job Monitoring

Higher level run results

Lower level discrete


row counts per partition
(flow always runs in
parallel)

22: Loading the Data

Desligue o log de rollback!


Separe inserts de atualizaes a menos que usando
"Upsert
Carregar em paralelo
Construir os agregados fora da base de dados
Particionar a tabela fato na FK de data que os usurios
mais usam

22: The Order of Things

A carga deve ser feita na seguinte ordem:


Subdimenses
Dimenses
Tabelas ponte (bridge tables)
Tabelas fato
Dimenses agregadas (contradas)

Tabelas fato agregada

29: Lineage and Dependency

Objetivos

Lineage: comeando com um elemento de dados


especficos em uma tabela intermediria ou um
relatrio de um usurio final, identificar a origem dos
dados, as tabelas intermedirias que contm aqueles
dados e a origem deles, e todas as transformaes
que o elemento de dados e a origem foram
submetidas

Dependncia: comeando com um elemento de


dados especficos em uma tabela de origem ou uma
tabela intermediria, identificar todas as tabelas
intermedirias e relatrio de usurio final que contm
esse elemento de dado ou derivado dele e todas as
transformaes aplicadas no elemento de dado e
suas derivaes

29: Informatica Lineage


Analysis

Oracle table

BO table

This is
selected

29: Oracle: Impact Map

29: Oracle Worst Case


Scenario Impact Diagram

30: Problem Escalation

Objetivo
Capturar, priorizar, gerenciar e comunicar todo
desenvolvimento, manuteno e problemas
operacionais
Resposta garantida

Nveis de escalonamento
Help desk
Administrador do sistema ou DBA
Gerente de ETL

Suporte ao desenvolvedor ou fornecedor responsvel

Defining Real-Time ETL

Tudo que muito rpido para o seu ETL atual

Alterar de batch ETL para streaming ETL

Gerao 1 Armazenamento de dados operacionais

Sistemas fisicamente separados entre OLTP e DW

Gerao 2 Partio de tempo real

Extenso fsica separada de tabela fato existente, contendo


apenas as atividades novas desde a ltima carga das tabelas
estticas
Na memria, sem ndices, sem agregaes

Real Time Operational


Architecture

86

Real Time
Data Extract & Transform

Alterar captura de dados (Change data capture)


Notificao do efeito colateral da aplicao
Escutar as transaes de entrada
Pegar frequentemente os campos atualizados na base de dados
Pegar frequentemente os log de transao

Extrao
Microbatch envia e recebe arquivos do staging file

Transformao
Estrutura e transformao limitada pela latncia
Regras de negcio devem ser limitadas ou inviveis
Os dados do real time podem ser substitudos por processos batch
peridicos

Real Time Integration

Gerenciando a dimenso (usando como exemplo o cliente)


Ligar a identificao do cliente em tempo real com lista j existente
Publicar lista temporria de novos clientes para a partio real time
Tipo 1 atualiza a lista temporria mltiplas vezes ao dia
Atualizao permanente da lista esttica de clientes na base batch

Provedor da tabela fato (usando como exemplo o carregamento)


Dividir as linhas de transferncia em tempo real em parties RT
Responder s atualizaes das dimenses intra-day da DM
Atualizar permanentemente a tabela de fatos estticos na base
batch

Real Time Data Presentation

89

Adicionar diariamente, na memria hot partition para


cada tipo de tabela fato. A partio:
contm todas as atividades desde a ltima
atualizao do data warehouse esttico. Tabelas
estticas so atualizadas uma vez a cada 24 horas.
Conectar o mais prximo possvel ao gro da tabela
fato esttica
No indexado, assim dados novos de entrada
podem entrar continuamente
Suporta consultas altamente responsivas
Tem backup no log de arquivo de disco caso tenha
perdido a memria

Transaction Grain Hot Partition

Estrutura dimensional idntica como as tabelas fatos


estticas
Sem ndices (!), sem agregaes, tudo na memria

Exemplo 10 milhes transaes/dia

12 dimenses, 8 fatos = 80B 800 MB/dia

Ferramenta de BI pesquisa periodicamente a base de


dados com consultas idnticas se estiver usando tabelas
estticas e hot tables, juntando-as. No h
necessidade de consulta separada se a hot partition for
uma partio real.

Transaction Grain Dimensions

Registros necessrios de dimenso esttica so


selecionados de entradas conhecidas as chaves naturais
a medida que as transaes chegam, construindo um
subconjunto de dimenso mnima na memria

Entradas vazias de dimenso genrica so criadas para


as transaes com chaves naturais (NK) de entrada
desconhecidas cujo significado est atrasado

As dimenses genricas vazias so parcialmente


preenchidas posteriormente com valores dimensionais
atrasados

Periodic Snapshot Hot Partition

Hot partition o perodo evolutivo atual, atualizados


continuamente at o final do perodo
Fatos so substitudos continuamente

Copiar as fotografias de todas as contas na hot partition


no incio do perodo, mas teremos novas contas
Em um banco com 20 milhes de contas,
com 5 dimenses + 10 fatos:
60 B x 20 milhes
= 1.2 GB na hot partition

Hot Partition = ODS-Like


Source

Batch extract (todas as noites)


Usar a partio quente para atualizar o lote se os
dados no estiverem corrompidos
Acrescentar os registros da fato nas tabelas fatos
estticas
Inserir/Atualizar os registros alterados da dimenso
tabela de dimenso esttica
Zerar a hot partition
Ou, batch extract do sistema origem
Use o arquivo original do sistema fonte se o arquivo
possuir melhores regras de negcio
Neste caso, o ETL convencional carrega a cada 24
horas

Micro Batch ETL

Real Time Data Delivery


Requires Hub-and-Spoke

Implement Real Time DW in


EAI Environment

Zero Latency Enterprise


Information Integration (EII)

Direcionar OLTP para acabar com a planilha do usurio


!
Transformaes e integraes apenas no software
Pros: Por definio zero de latncia/atraso
Contra: sistemas OLTP manipulam toda a carga de
consulta
Considerar necessidade de novos ndices e
agregaes
Considerar as questes de OLTP a medida que afeta
as ferramentas de consultas
Contra: No h dados de teste
Contra: Transformaes limitadas
Contra: O histrico limitado ao que o OLTP fornece