Você está na página 1de 97

DATA WAREHOUSE ETL

Kimball University 2008

As Metas
Aprender arquitetura do ETL Decompor o problema em partes manejveis Aplicar tcnicas que podem ser usadas novamente Investigao dos detalhes sem perder perspectiva! Desenvolver julgamento para evitar retrabalho ou deixar de fora capacidades importantes

Planejamento


 

   

Preparar desenvolvimento ETL: desenvolvendo as perspectivas essenciais do projeto Subsistemas 1-3: profiling, change data capture, and extraction Subsistemas 22-24: agendamento de job, tratamento de exceo, backup, recovery e restart Tratando os dados: subsistemas 4-7, 28 Conformidade, resolvendo os desafios da integrao: subsistema 8 Subsistemas 25-27, 29-30 controle de verso, migrao de sistema e teste Arquitetura de ETL em tempo real

O que voc deve saber


Tabela fato Tabela dimenso De que forma o modelo estrela difere do modelo normalizado Surrogate keys chaves artificiais Natural keys chaves naturais SCDs (slowly changing dimensions) - Dimenses que mudam lentamente Os trs tipos de tabelas fatos Tabela ponte ou dimenses com multi-valores Aggregados (ou view)

O desafio do ETL
Custo eficaz Confivel Extensvel Compatvel Observvel Seguro Sistema manejvel para trazer os dados para o data warehouse e deix-lo pronto para consulta do usurio final.

Todos entendem E, T, L
E:


Obter os dados da origem para o data warehouse

T:


Transformar e deixar pronto para o data warehouse

L:


Carregar os dados nas tabelas do data warehouse

Como faz para dividir em trs passos?


Depende da  Origem  Quais ferramentas esto disponveis  As habilidades dos envolvidos no trabalho  A ferramenta de consulta e relatrio

hora de mais disciplina e estrutura no back room


Familiarizar com os nomes e as tarefas do cliente Identificar as tarefas que voc no pode deixar de fora Agrup-los em quatro categorias (E, T, L e M) E: Obter os dados para o DW T: Tratamento e conformidade L: Preparar para apresentao M: Gerenciar todos os processos

E: Obter os dados para o DW

Preparar para iniciar

prepare to start

Conhecer os dados

judge data
Isolar as alteraes

isolate changes
Carregar no DW

get into DW

T: Tratar e conformar

cleaning machinery

Tratamento nos dados

Controle de limpeza

cleaning control

Integrao

integration

L: Preparar para Apresentao


time variance
Variao de tempo

fact types & late data


Tipos tabelas fato e dados atrasados

keys
Chaves

admin
Administrador

hierarchies
Hierarquias

aggregates, cubes, & data integration


Agregados, cubo e integrao dos dados

bridges
Tabelas pontes

M: Controlar todos os processos


Controlar

control
Proteger

source
Responder

Origem

respond
Velocidade

protect control measure speed


Velocidade Mtrica Controlar

speed guard
Conformidade Guardar

comply
Gerenciar

manage

E (talvez) R: Adaptar para Real Time

convert existing systems converter sistemas existentes

Os termos back room e front room anlogo a um restaurante


Cozinha (back room)  Os ingredientes precisam ser selecionados e aprovados  Preparar os alimentos  Itens separados so reunidos harmoniosamente  O produto final montado no prato que ser entregue na sala de jantar Sala de jantar (front room)  O cliente recebe o prato montado pronto para consumi-lo utilizando os talheres  O chef de cozinha o responsvel pela qualidade do que foi entregue

Os termos back room e front room no DW


Sistema ETL (back room)  Extrao  Limpeza  Conformidade  Entrega (o modelo com os dados) Ambiente usurios finais (front room)  Apresentar o que importante (do DW)  Investigar as causas (usando o DW)  Testar que se (usando o DW)  Acompanhar as decises tomadas (de volta para o DW ! )

Necessidades do negcio
Comece identificando os assuntos das reas de deciso Conduzir as reunies com usurios Identificar os indicadores de performance esperado (KPIs) Expandir as aplicaes analticas (AAs):
   

Consultas e relatrios Isolar e enfatizar a importncia de encontrar as chaves Identificar as causas e conseqncias Acompanhar as decises tomadas atualmente

Inferir os dados a partir dos indicadores e aplicaes analticas

Indicadores de performance
Operao de manufatura


Variao dos custos padres vs. localizao Tempo do ciclo de venda vs. equipe de venda Tempo de resoluo das questes vs. treinamento dos empregados Quantidade de passos para completar uma compra

Operaes de venda


Call Center


Web Site


Recursos humanos


% de progresso para qualificar para o prximo nvel profissional

Anlise de comportamento
Antecipar-se para as necessidades do usurio Ligar a pesquisa instantnea do cliente com visita, aspecto demogrfico, histrico de compras. Ex: site da Amazon. Acompanhar as promoes personalizadas e as ligaes de siga-me Durao das visita e quanto tempo o cliente demorou para retornar Sucesso de vendas associadas Tempo de latncia: quanto tempo demorou para vender o produto aps a sua primeira exposio Uso de inventrio online, mostra resposta de produto esgotado/ fora de estoque Reao a apresentao da mercadoria
18

Novas fontes de dados


Email/SMS Call center Blogs Redes sociais: Facebook, Twitter Ofertas na web e no celular Rastrear os registros RFID Cestas inteligentes  Ex: Pagamento de pedgio Integrao rpida de diversas fontes, mudando constantemente!
19

Compliance
Identificar normas legais e financeiras especficas e de cumprimento imediato Determinar os requisitos especficos para o cumprimento destas normas Para ser seguro:  Prove que o resultado final derivado do sistema origem  Prove que os dados originais no foram modificados  Documentar as transformaes usadas

Uso de Data Profiling


Estratgia: decidir, o mais cedo possvel, se a fonte de dados suporta a misso bsica  Descobrir mais tarde pode ser fatal para voc e para o projeto Ttica: identificar falhas nos dados  Expor para o usurio a expectativa real se os dados no estiverem perfeitos

Segurana
Dados do perfil de armazenamento de dados por nveis de sensibilidade Chegar a um acordo com os usurios finais e executivos
  

Incluso de dados sensveis Uso de perfis para acesso aos dados Responsabilidade para administrar os perfis e permitir acesso telas de usurios finais

Configurar redes e comunicaes Monitorar os usurios internos e as aes do administrador Proteger a mdia fsica incluindo backup

Integrao dos dados


Comprometimento seguro para apoiar o processo de modelagem dimensional para construir dimenses e fatos conformados. Preparar as expectativas do usurio final

Latncia dos dados


Como parte do data profiling, descrever a validade dos dados novos e atualizar os processos que podem ocorrer Quantificar, se possvel, o valor de dados acessveis mais rpido que o ETL atual pode entregar Identificar a origem e a tela do usurio final que deve ser baseada no fluxo de dados Identificar as fontes que do origem aos late arriving dimensions

Archiving, Lineage, Impact

Estabelecer uma poltica para longo perodo de armazenamento e recuperao de dados

Interface do usurio final

Conduzir os direitos no perfil do usurio Determinar as pastas visveis ao usurio conforme a sua classe ou grupo

Habilidades disponveis de TI e licenas


Levantamento das competncias da equipe e das habilidades disponveis no mercado:  Plataforma do sistema operacional  DBMS  Conjunto de ferramentas de ETL  Linguagem de script e utilidades  Experincia com data warehouse, em especial com modelagem dimensional Licenas legais que voc precisa conviver:  DBMS, ERP, ETL

Ferramentas de ETL Pros e Contra


Pros  Grficos, parmetros baseados em programao  Transparncia e lgica de alto nvel  Documentao automtica  Suporte extensivo automtico de metadados  Biblioteca de conexes  Balanceamento de carga automtico, paralelizao  Controle automtico da verso e origem  Habilidades do mercado e cursos lecionado pelos fabricantes. Contras  Custo elevado  Curva de aprendizado significativa

Transformaes tpicas fornecidas pelas ferramentas de ETL


Agregados Expresses gerais Filtros Joins Lookups Normalizadores Gerador de seqncia Stored procedures Entrada e sada formato XML Facilidade para escrever a sua prpria transformao

Posio no mercado
Current Marketplace ETL Tool Suite Offerings

Microsoft SQL Server 2005 Integration Services (219,000 hits) Oracle Warehouse Builder (102,000 hits) Informatica PowerCenter (93,600 hits) Cognos DecisionStream (27,200 hits) SAP BusinessObjects Data Integrator (12,400 hits) Ab Initio Software (near impossible to evaluate) (9,380 hits) ETI (Evolutionary Technologies International) (7,810 hits) Ascential DataStage (acquired by IBM, now Websphere Information Integration) (7,430 hits) Data Flow Server (acquired by Group 1, Pitney Bowes Co.) (2,890 hits) DataMirror Transformation Server (2,460 hits) Hummingbird ETL (2,130 hits) IBM DB2 Data Warehouse Manager (1,710 hits) SAS Enterprise ETL Server (1,110 hits) Pentaho Talend

Hand Coding Pros e Contras


Vantagens  Rpida implementao por desenvolvedores experientes  Baixo custo de entrada  Altamente eficiente para aplicaes com destino especfico Desvantagens  Os scripts e os programas devem ser especificamente documentados e mantidos  Todo suporte aos metadatas deve ser concedido pelo programador  No h suporte automtico para o agendamento, balanceamento de carga, controle de verso  Sem conectores automticos com a origem

Ferramentas Data Profiling e Data Cleansing Vendors


Profiling  Ascential/IBM (ProfileStage)  Evoke Software (acquired by Informatica)  SAS DataFlux  Trillium/Harte Hanks  Pervasive Data Integrator Cleansing  Ascential/IBM (acquisition of Vality)  First Logic (acquired by SAP Business Objects)  Group 1  SAS DataFlux  Search Software America  Trillium (acquired Harte Hanks)

PARTE I: EXTRACT, CLEAN, AND CONFORM

Kimball University 2008

1: Data Profiling
Objetivos  Conhecer a preciso de dados, contedo e relevncia da fonte  Ateno com os dados que devem ser fixados antes da extrao  Fornecer uma lista, mais completa possvel, com as transformaes que devem ocorrer aps a extrao dos dados  Gerar essas transformaes diretamente das ferramentas de data profiling  Incorporar essas transformaes no fluxo de ETL

2: Change Data Capture


Isolar os dados alterados para permitir o processamento seletivo, em vez de atualizao completa Capturar todas as alteraes feitas nos dados do sistema origem incluindo as interfaces no padronizadas Capturar edies, inseres e delees no sistema origem Marcar os dados alterados com cdigo de motivo Apoiar o acompanhamento de conformidade com metadata adicionais Realizar a captura de dados de alterao o mais cedo possvel

2: Change Data Capture


Inputs  Arquivos de log com as transaes do sistema  Auditoria nas tabelas de origem  Extrato de tempo  Cpia completa da tabela  Database triggers Outputs  Inserts, updates, deletes  Cdigo do motivo  Conformidade metadata: aplicvel em um intervalo de tempo, origem

2: Change Data Capture


Arquitetura
   

Executar CDC no sistema origem ou no sistema de ETL Confie em um tipo de entrada mas vincule o total da origem com as consultas de auditoria Substituir os campos de data nulos por datas 01-01-0001 Para comparar uma tabela preciso a foto completa do perodo anterior

Livro pp. 106-111, 186-187

3: Extract
Objetivos


Copiar os dados da origem para o data warehouse usando biblioteca de maior rendimento possvel Puxar, empurrar, ou stream de dados dirigidos pelo agendamento de job e alertas Verificar se o formato do campo compatvel com data warehouse e quando necessrio converter para formatos suportados pelo data warehouse Carregar o modelo dimensional, esquemas normalizados e flat files Fase de extrao dos dados temporrios

3. UDDI, WSDL, and SOAP Allow Orgs to Implement SOA Architecture


acessado usando

capacita

obriga para

descreve

permite comunicao entre

SOA Architecture
Promessas tradicionais  Unido fracamente  Padres abertos (UDDI, WSDL, SOAP, XML) Sobering Lessons  SOA fora a organizao a confrontar


Integrao e qualidade dos dados Muda o gerenciamento, medidas de qualidade, conformidade, segurana, privacidade, auditoria

Exige governana sofisticada




40

Building SOA Services for the EDW


Visualizar a granularidade grosseiramente : Create customer Criar o cliente  Read customer descriptors Ler a descrio do cliente  Update customer descriptors Atualizar a descrio do cliente  Delete customer Deletar o cliente Iniciar modestamente: Implementar os servios em torno do ETL e subsistemas de BI.  Fracamente acoplados  Estritamente definidos, enfatizando o desempenho e escalabilidade  Sujeito a governana desde o incio

41

Low Hanging SOA Fruit


Candidatos bem definidos subsistemas ETL/BI  Change data capture  Tela data quality com colunas e estruturas  Verifica se o endereo confivel  Gera Surrogate key  Publicao das conformed dimensions  Tratamento para alerta em tempo real  Construo e manuteno das hierarquias da tabela  Drill across aplicao de BI

42

3: ETL Targets
Flat Files  Formato universal independente do DBMS, bom para arquivo a longo prazo  Manipulao eficiente diretamente da linha de comando  Notvel leitura, atualizao e acesso aleatrio no bom  Agregaes usando quebra de linha bem eficiente

22: Job Scheduler


Objetivos  Agendar e executar jobs de todos os tipos Agendamento mais vantajoso porque  Controla relacionamentos e dependncias entre os jobs  Mecanismo confivel para gerenciar estratgia de execuo

Example Modern Job Schedulers


Microsoft SQL Server Agent (165,000 hits) IBM Tivoli (144,000 hits) BMC Control-M (41,100 hits) Oracle 10g dbms_scheduler (23,700 hits) Computer Associates Unicenter AutoSys (13,100 hits) Argent Job Scheduler (13,100 hits) Cronacle by Redwood (13,000 hits) Load Sharing Facility - LSF (Platform Computing) (10,700 hits) UC4 (6,460 hits) Opalis Integration Server (5,210 hits) CA/Cybermation ESP Espresso (1,800 hits) SAS DSx3 (575 hits) Pervasive Integration Hub (497 hits)

23: Backup
Objetivos


Copiar os dados do data staging e da partio em tempo real para local mais seguro: Arquivo histrico,  Restart incremental


 

Operao automatizada Minimizar exposio de perda de dados

24: Vulnerabilities of Long-Running ETL processes


Quanto mais tempo um processo de ETL demorar para executar mais ciente voc deve ficar das vulnerabilidades ao fracasso  Carregar no sistema origem para re-run  Posio lgica necessria para retornar, ou reiniciar a partir da posio atual, por exemplo, usar a chave artificial (SK) da tabela fato Escolha uma dependncia de jobs horizontal ou vertical  Horizontal executa os processos at o final independentemente  Vertical significa que os processos aguardam a concluso das metas comuns, em especial, as prontas para carregar.

24: Minimizing the Risk of Load Failures


Modos de falha incluem  Falha na rede  Falha na base de dados  Falha no disco
Sistema origem  Data staging  Data warehouse


   

Falha de memria Espao de tempo, espao de dados, espao de ndice Falha no data quality Atualizao do sistema sem aviso prvio

24: Minimizing the Impact of Failure


Particionar os processos Utilize pontos de recuperao  Ponto de restart lgico. Ex: data e hora ou SK da tabela fato
 

til para restart, backout, updating Salvar as chaves para serem substitudas no processo de atualizao

Mantenha os metadados (Ex: os ltimos registros carregados)

4: Data Cleansing System


Objetivo  Sistema global para gesto de qualidade dos dados  Mensurar a qualidade dos dados: identificar dados que precisam ser tratados  Tomar as aes corretivas apropriadas


Interfaces para a interveno de dados defeituosos

 

Montar descrio temporal seriada de dados deficiente e as medidas tomadas Unir os dados tratados com os atuais para gerar relatrios diretos de qualidade


Dimenso de auditoria

4: Data Cleansing System


Entrada  Dados sem tratamento  Dependncia lgica para agendamento de job Sada  Dados tratados  Aes tomadas  Registro das aes tomadas e todos os eventos de qualidade de dados

4: Quality Screen Process Flow

4: Oracle Process Flow Tool

4: Informatica PowerCenter Workflow Manager

Email Task External Process

PowerCenter Session

Decision Task

5: Error Event Schema


Objetivo  Estrutura central para capturar e responder eventos de qualidade de dados  Histrico dos eventos de qualidade de dados disponveis para anlise  Six Sigma Quality = 3.4 defeitos por milho de oportunidades  Definir os objetivos do projeto e o que ser entregue para o cliente  Mensurar o processo para determinar a performance atual  Analisar e determinar a causa dos defeitos  Melhorar o processo eliminando os defeitos  Controlar performance de futuros processos

5: Error Event Schema

6: Audit Dimension
Objetivos


Capturar os metadatas completos para criao e contexto de qualidade de cada registro da tabela fato Anexar esses metadados para cada tabela fato como uma dimenso Use contexto de dimenso para os relatrios de auditoria instrumentado

6: Attaching an Audit Dimension

6: Instrumenting a Report With an Audit Dimension

28: Sort Data Immediately After Extract


A maioria dos processos de ETL precisam de dados classificados Escolher o tipo de recursos mais eficiente Combinar extrao, converso de formato e classificao em um passo. A sabedoria convencional diz que os pacotes dedicados so mais rpidos, no entanto, vendedores de ETL e DBMS afirmam j estarem se recuperando...

7: Deduplicating
Objetivos


Membros dimensionados de-duplicados dentro e atravs de tabelas de dimenso Implementar procedimento de sobrevivncia para integrar os dados de fontes mltiplas

7: Microsoft: Fuzzy Grouping Module for Deduplicating

7: Microsoft: Fuzzy Grouping Detailed Results

7: Oracle Match-Merge Wizard

7. Oracle: Expanded Match-Merge Operator in Map

7: Survivorship Drive Tables

7. Multiple Sources and Duplicated Customers


Design:

Se a origem possui referncia duplicada ento se pode implementar dimenso multivalor com a tabela ponte

8: Conforming
Objetivos


Habilitar o drill across em ambientes com mais de uma tabela fato Aplicar domnios comuns de dados para campos designados nas tabelas dimenses conformadas Aplicar as regras de negcio comuns para os campos designados nas tabelas fatos conformados

Key Concept: Conformed Dimensions

Uma dimenso que um subconjunto perfeito de linhas e colunas considerado conformed dimension O contedo das colunas comuns devem ser equivalentes (mesmo domnio)

Drilling Across Means Combining Row Headers


Abrir uma conexo separada para cada origem Reunir cada conjunto de resposta Fazer o merge do conjunto de resposta nos cabealhos de colunas conformed
Manufacturing Shipments 2940 13338 7566 Warehouse Inventory 1887 9376 5748

Product Framis Toggle Widget

Retail Sales 761 2448 2559

Turns 21 14 23

8: Conforming
Questes de arquitetura  preciso definir bem o que ser entregue pelo gerente da dimenso
  

Apenas um subconjunto de dimenses ou dimenses completas Mapeamento das SK nas tabelas de destino Dimenses snowflake encolhidas para suportar agregados

  

Precisa de detalhamento lgico para atualizar dimension version numbers Precisa de ferramenta instrumentada que realize drill across para usar dimension version numbers Os membros duplicados da dimenso precisam de ponteiros para todas as chaves naturais (NK) dos registros na origem

Livro pp. 148-159, 447, 449

7, 8: Deliver Cleaned, Deduplicated, Conformed, and Survived Dimensions

25: Version Control


Objetivos do controle de verso versionamento
 

Conjunto de fotos armazenadas com o objetivo de salvar e restaurar o contexto completo do ETL. Numerar as verses

Alternativas  Microsoft Visual Source Safe Livro pp. 353-368, 413-416

26: Version Migration


Desenvolvimento Teste Produo  Completar os testes da fase de desenvolvimento  Scripts de testes automticos de regresso para desenvolvimento e teste  Testes do sistema completos na fase de teste  Simulado com volume de dados reais na fase de teste  Migrao para prxima fase inclui transferncia automtica completa do contexto de ETL incluindo todas as conexes e perfis de usurios  Migrao para fase de produo inclui  Documentao de migrao  Cenrio de rollback: re-extrair os dados

27: Workflow Monitor


Objetivos  Monitorar status do job incluindo aqueles que ainda esto pendente, executando, completo ou suspenso nos registros histricos


Mensurar performance da infraestrutura incluindo CPU, memria, disco, banco de dados e utilizao do servidor

Livro pp. 332-339

27: Monitor Process Metadata


Notificao de dados atrasados Linhas carregadas com sucesso Linhas rejeitadas Tempo decorrido Linhas processadas por segundo Tempo estimado de concluso Utilizao da memria
 

Memria compartilhada Tamanhos do buffer

Processador, banco de dados, memria, disputa do disco Rotina de uso de tabelas, ndices, agregados

27: Ascential Example of ETL Job Monitoring

Higher level run results

Lower level discrete row counts per partition (flow always runs in parallel)

22: Loading the Data


Desligue o log de rollback! Separe inserts de atualizaes a menos que usando "Upsert Carregar em paralelo Construir os agregados fora da base de dados Particionar a tabela fato na FK de data que os usurios mais usam

22: The Order of Things


A carga deve ser feita na seguinte ordem:  Subdimenses  Dimenses  Tabelas ponte (bridge tables)  Tabelas fato  Dimenses agregadas (contradas)


Tabelas fato agregada

29: Lineage and Dependency


Objetivos


Lineage: comeando com um elemento de dados especficos em uma tabela intermediria ou um relatrio de um usurio final, identificar a origem dos dados, as tabelas intermedirias que contm aqueles dados e a origem deles, e todas as transformaes que o elemento de dados e a origem foram submetidas Dependncia: comeando com um elemento de dados especficos em uma tabela de origem ou uma tabela intermediria, identificar todas as tabelas intermedirias e relatrio de usurio final que contm esse elemento de dado ou derivado dele e todas as transformaes aplicadas no elemento de dado e suas derivaes

29: Informatica Lineage Analysis

Oracle table

BO table

This is selected

29: Oracle: Impact Map

29: Oracle Worst Case Scenario Impact Diagram

30: Problem Escalation


Objetivo  Capturar, priorizar, gerenciar e comunicar todo desenvolvimento, manuteno e problemas operacionais  Resposta garantida Nveis de escalonamento  Help desk  Administrador do sistema ou DBA  Gerente de ETL


Suporte ao desenvolvedor ou fornecedor responsvel

Defining Real-Time ETL


Tudo que muito rpido para o seu ETL atual Alterar de batch ETL para streaming ETL Gerao 1 Armazenamento de dados operacionais


Sistemas fisicamente separados entre OLTP e DW

Gerao 2 Partio de tempo real




Extenso fsica separada de tabela fato existente, contendo apenas as atividades novas desde a ltima carga das tabelas estticas Na memria, sem ndices, sem agregaes

Real Time Operational Architecture

86

Real Time Data Extract & Transform


Alterar captura de dados (Change data capture)  Notificao do efeito colateral da aplicao  Escutar as transaes de entrada  Pegar frequentemente os campos atualizados na base de dados  Pegar frequentemente os log de transao Extrao  Microbatch envia e recebe arquivos do staging file Transformao  Estrutura e transformao limitada pela latncia  Regras de negcio devem ser limitadas ou inviveis  Os dados do real time podem ser substitudos por processos batch peridicos

Real Time Integration


Gerenciando a dimenso (usando como exemplo o cliente)  Ligar a identificao do cliente em tempo real com lista j existente  Publicar lista temporria de novos clientes para a partio real time  Tipo 1 atualiza a lista temporria mltiplas vezes ao dia  Atualizao permanente da lista esttica de clientes na base batch Provedor da tabela fato (usando como exemplo o carregamento)  Dividir as linhas de transferncia em tempo real em parties RT  Responder s atualizaes das dimenses intra-day da DM  Atualizar permanentemente a tabela de fatos estticos na base batch

Real Time Data Presentation


Adicionar diariamente, na memria hot partition para cada tipo de tabela fato. A partio:  contm todas as atividades desde a ltima atualizao do data warehouse esttico. Tabelas estticas so atualizadas uma vez a cada 24 horas.  Conectar o mais prximo possvel ao gro da tabela fato esttica  No indexado, assim dados novos de entrada podem entrar continuamente  Suporta consultas altamente responsivas  Tem backup no log de arquivo de disco caso tenha perdido a memria
89

Transaction Grain Hot Partition


Estrutura dimensional idntica como as tabelas fatos estticas Sem ndices (!), sem agregaes, tudo na memria Exemplo 10 milhes transaes/dia


12 dimenses, 8 fatos = 80B

800 MB/dia

Ferramenta de BI pesquisa periodicamente a base de dados com consultas idnticas se estiver usando tabelas estticas e hot tables, juntando-as. No h necessidade de consulta separada se a hot partition for uma partio real.

Transaction Grain Dimensions


Registros necessrios de dimenso esttica so selecionados de entradas conhecidas as chaves naturais a medida que as transaes chegam, construindo um subconjunto de dimenso mnima na memria Entradas vazias de dimenso genrica so criadas para as transaes com chaves naturais (NK) de entrada desconhecidas cujo significado est atrasado As dimenses genricas vazias so parcialmente preenchidas posteriormente com valores dimensionais atrasados

Periodic Snapshot Hot Partition


Hot partition o perodo evolutivo atual, atualizados continuamente at o final do perodo Fatos so substitudos continuamente Copiar as fotografias de todas as contas na hot partition no incio do perodo, mas teremos novas contas Em um banco com 20 milhes de contas, com 5 dimenses + 10 fatos: 60 B x 20 milhes = 1.2 GB na hot partition

Hot Partition = ODS-Like Source


Batch extract (todas as noites)  Usar a partio quente para atualizar o lote se os dados no estiverem corrompidos  Acrescentar os registros da fato nas tabelas fatos estticas  Inserir/Atualizar os registros alterados da dimenso tabela de dimenso esttica  Zerar a hot partition Ou, batch extract do sistema origem  Use o arquivo original do sistema fonte se o arquivo possuir melhores regras de negcio  Neste caso, o ETL convencional carrega a cada 24 horas  Descartar a hot partition

Micro Batch ETL

Real Time Data Delivery Requires Hub-and-Spoke

Implement Real Time DW in EAI Environment

Zero Latency Enterprise Information Integration (EII)


Direcionar OLTP para acabar com a planilha do usurio ! Transformaes e integraes apenas no software Pros: Por definio zero de latncia/atraso Contra: sistemas OLTP manipulam toda a carga de consulta  Considerar necessidade de novos ndices e agregaes  Considerar as questes de OLTP a medida que afeta as ferramentas de consultas Contra: No h dados de teste Contra: Transformaes limitadas Contra: O histrico limitado ao que o OLTP fornece