Você está na página 1de 97

DATA WAREHOUSE ETL

Kimball University 2008

As Metas

Aprender arquitetura do ETL


Decompor o problema em partes manejveis Aplicar tcnicas que podem ser usadas novamente Investigao dos detalhes sem perder perspectiva! Desenvolver julgamento para evitar retrabalho ou deixar de fora capacidades importantes

Planejamento

Preparar desenvolvimento ETL: desenvolvendo as perspectivas essenciais do projeto Subsistemas 1-3: profiling, change data capture, and extraction Subsistemas 22-24: agendamento de job, tratamento de exceo, backup, recovery e restart Tratando os dados: subsistemas 4-7, 28 Conformidade, resolvendo os desafios da integrao: subsistema 8 Subsistemas 25-27, 29-30 controle de verso, migrao de sistema e teste Arquitetura de ETL em tempo real

O que voc deve saber


Tabela fato Tabela dimenso De que forma o modelo estrela difere do modelo normalizado

Surrogate keys chaves artificiais


Natural keys chaves naturais SCDs (slowly changing dimensions) - Dimenses que mudam lentamente Os trs tipos de tabelas fatos Tabela ponte ou dimenses com multi-valores Aggregados (ou view)

O desafio do ETL

Custo eficaz
Confivel Extensvel

Compatvel
Observvel Seguro Sistema manejvel para trazer os dados para o data warehouse e deix-lo pronto para consulta do usurio final.

Todos entendem E, T, L

E:

Obter os dados da origem para o data warehouse

T:

Transformar e deixar pronto para o data warehouse

L:

Carregar os dados nas tabelas do data warehouse

Como faz para dividir em trs passos?

Depende da Origem Quais ferramentas esto disponveis As habilidades dos envolvidos no trabalho A ferramenta de consulta e relatrio

hora de mais disciplina e estrutura no back room

Familiarizar com os nomes e as tarefas do cliente

Identificar as tarefas que voc no pode deixar de fora


Agrup-los em quatro categorias (E, T, L e M) E: Obter os dados para o DW T: Tratamento e conformidade L: Preparar para apresentao M: Gerenciar todos os processos

E: Obter os dados para o DW


First: Get the Data Into the DW

prepare to start

Preparar para iniciar

Comprehensive Requirements

Logical Data Map

Conhecer os dados
Data Profiling (1)

judge data

Change Data Capture (2) Extract (3)

isolate changes get into DW


Carregar no DW

Isolar as alteraes

Result: Extracted Tables incl Format Conversions

T: Tratar e conformar
Second : Clean and Conform

cleaning machinery
Controle de limpeza

Tratamento nos dados

Cleansing Sys & Data Quality Screens (4)

cleaning control
d

d
Error Event Schema (5) w. Audit Dimension (6)

integration

Integrao

Deduplicating (7) and Conforming System (8) Result: Cleaned Tables and Conformed Dimensions

L: Preparar para Apresentao


Third: Prepare for Delivery

Variao de tempo

time variance

SCD Manager (9)

Fact Table Types (13): Late Arriving Data (16) Dimension Manager (17), Fact Provider (18)

fact types & late data


Tipos tabelas fato e dados atrasados

keys
Chaves

Surrogate Key Generator (10), Pipeline (14)

Administrador

admin

hierarchies
Hierarquias

Hierarchy Table Manager (11): Fixed, Variable, Ragged

Agg Tables (19), OLAP Cubes (20), DI Manager (21)

aggregates, cubes, & data integration


Agregados, cubo e integrao dos dados

Tabelas pontes

bridges

Special Dimensions (12), Multi-Valued Dimensions (15)

Result: Fact & Dim Tables Ready for Delivery

M: Controlar todos os processos


Fourth: Manage

control

Controlar
Job Scheduler (22) Lineage & Dependency (29) Problem Escalation (30) Pipeline/Parallelize (31) Security (32) Compliance (33) Metadata Repository (34)

source
respond
Velocidade Responder

Origem

protect

Proteger

Backup (23) Recovery/Restart (24)

speed

control
Mtrica

Controlar

Version Control (25) & Migration (26) Workflow Monitor (27) Sorting (28)

guard

Guardar

Conformidade

measure

comply

speed

Velocidade

manage

Gerenciar

E (talvez) R: Adaptar para Real Time

Fifth: Adapt to Real Time streaming real-time ETL system d

converter sistemas existentes

convert existing systems

Os termos back room e front room anlogo a um restaurante

Cozinha (back room) Os ingredientes precisam ser selecionados e aprovados Preparar os alimentos Itens separados so reunidos harmoniosamente O produto final montado no prato que ser entregue na sala de jantar
Sala de jantar (front room) O cliente recebe o prato montado pronto para consumi-lo utilizando os talheres O chef de cozinha o responsvel pela qualidade do que foi entregue

Os termos back room e front room no DW

Sistema ETL (back room) Extrao Limpeza Conformidade Entrega (o modelo com os dados)
Ambiente usurios finais (front room) Apresentar o que importante (do DW) Investigar as causas (usando o DW) Testar que se (usando o DW) Acompanhar as decises tomadas (de volta para o DW ! )

Necessidades do negcio

Comece identificando os assuntos das reas de deciso


Conduzir as reunies com usurios

Identificar os indicadores de performance esperado (KPIs)


Expandir as aplicaes analticas (AAs):

Consultas e relatrios Isolar e enfatizar a importncia de encontrar as chaves Identificar as causas e conseqncias Acompanhar as decises tomadas atualmente

Inferir os dados a partir dos indicadores e aplicaes analticas

Indicadores de performance

Operao de manufatura

Variao dos custos padres vs. localizao Tempo do ciclo de venda vs. equipe de venda Tempo de resoluo das questes vs. treinamento dos empregados Quantidade de passos para completar uma compra

Operaes de venda

Call Center

Web Site

Recursos humanos

% de progresso para qualificar para o prximo nvel profissional

Anlise de comportamento

18

Antecipar-se para as necessidades do usurio Ligar a pesquisa instantnea do cliente com visita, aspecto demogrfico, histrico de compras. Ex: site da Amazon. Acompanhar as promoes personalizadas e as ligaes de siga-me Durao das visita e quanto tempo o cliente demorou para retornar Sucesso de vendas associadas Tempo de latncia: quanto tempo demorou para vender o produto aps a sua primeira exposio Uso de inventrio online, mostra resposta de produto esgotado/ fora de estoque Reao a apresentao da mercadoria

Novas fontes de dados

Email/SMS Call center Blogs Redes sociais: Facebook, Twitter Ofertas na web e no celular Rastrear os registros RFID Cestas inteligentes Ex: Pagamento de pedgio
Integrao rpida de diversas fontes, mudando constantemente!

19

Compliance

Identificar normas legais e financeiras especficas e de cumprimento imediato


Determinar os requisitos especficos para o cumprimento destas normas Para ser seguro: Prove que o resultado final derivado do sistema origem Prove que os dados originais no foram modificados Documentar as transformaes usadas

Uso de Data Profiling

Estratgia: decidir, o mais cedo possvel, se a fonte de dados suporta a misso bsica Descobrir mais tarde pode ser fatal para voc e para o projeto Ttica: identificar falhas nos dados Expor para o usurio a expectativa real se os dados no estiverem perfeitos

Segurana

Dados do perfil de armazenamento de dados por nveis de sensibilidade


Chegar a um acordo com os usurios finais e executivos

Incluso de dados sensveis Uso de perfis para acesso aos dados Responsabilidade para administrar os perfis e permitir acesso telas de usurios finais

Configurar redes e comunicaes Monitorar os usurios internos e as aes do administrador Proteger a mdia fsica incluindo backup

Integrao dos dados

Comprometimento seguro para apoiar o processo de modelagem dimensional para construir dimenses e fatos conformados. Preparar as expectativas do usurio final

Latncia dos dados

Como parte do data profiling, descrever a validade dos dados novos e atualizar os processos que podem ocorrer Quantificar, se possvel, o valor de dados acessveis mais rpido que o ETL atual pode entregar
Identificar a origem e a tela do usurio final que deve ser baseada no fluxo de dados Identificar as fontes que do origem aos late arriving dimensions

Archiving, Lineage, Impact

Estabelecer uma poltica para longo perodo de armazenamento e recuperao de dados

Interface do usurio final

Conduzir os direitos no perfil do usurio

Determinar as pastas visveis ao usurio conforme a sua classe ou grupo

Habilidades disponveis de TI e licenas

Levantamento das competncias da equipe e das habilidades disponveis no mercado: Plataforma do sistema operacional DBMS Conjunto de ferramentas de ETL Linguagem de script e utilidades Experincia com data warehouse, em especial com modelagem dimensional
Licenas legais que voc precisa conviver: DBMS, ERP, ETL

Ferramentas de ETL Pros e Contra

Pros Grficos, parmetros baseados em programao Transparncia e lgica de alto nvel Documentao automtica Suporte extensivo automtico de metadados Biblioteca de conexes Balanceamento de carga automtico, paralelizao Controle automtico da verso e origem Habilidades do mercado e cursos lecionado pelos fabricantes. Contras Custo elevado Curva de aprendizado significativa

Transformaes tpicas fornecidas pelas ferramentas de ETL


Agregados Expresses gerais Filtros Joins Lookups Normalizadores Gerador de seqncia Stored procedures Entrada e sada formato XML Facilidade para escrever a sua prpria transformao

Posio no mercado
Current Marketplace ETL Tool Suite Offerings

Microsoft SQL Server 2005 Integration Services (219,000 hits) Oracle Warehouse Builder (102,000 hits) Informatica PowerCenter (93,600 hits) Cognos DecisionStream (27,200 hits) SAP BusinessObjects Data Integrator (12,400 hits) Ab Initio Software (near impossible to evaluate) (9,380 hits) ETI (Evolutionary Technologies International) (7,810 hits) Ascential DataStage (acquired by IBM, now Websphere Information Integration) (7,430 hits) Data Flow Server (acquired by Group 1, Pitney Bowes Co.) (2,890 hits) DataMirror Transformation Server (2,460 hits) Hummingbird ETL (2,130 hits) IBM DB2 Data Warehouse Manager (1,710 hits) SAS Enterprise ETL Server (1,110 hits) Pentaho

Hand Coding Pros e Contras

Vantagens Rpida implementao por desenvolvedores experientes Baixo custo de entrada Altamente eficiente para aplicaes com destino especfico Desvantagens Os scripts e os programas devem ser especificamente documentados e mantidos Todo suporte aos metadatas deve ser concedido pelo programador No h suporte automtico para o agendamento, balanceamento de carga, controle de verso

Ferramentas Data Profiling e Data Cleansing Vendors

Profiling Ascential/IBM (ProfileStage) Evoke Software (acquired by Informatica) SAS DataFlux Trillium/Harte Hanks Pervasive Data Integrator Cleansing Ascential/IBM (acquisition of Vality) First Logic (acquired by SAP Business Objects) Group 1 SAS DataFlux Search Software America Trillium (acquired Harte Hanks)

PARTE I: EXTRACT, CLEAN, AND CONFORM

Kimball University 2008

1: Data Profiling

Objetivos Conhecer a preciso de dados, contedo e relevncia da fonte Ateno com os dados que devem ser fixados antes da extrao Fornecer uma lista, mais completa possvel, com as transformaes que devem ocorrer aps a extrao dos dados Gerar essas transformaes diretamente das ferramentas de data profiling Incorporar essas transformaes no fluxo de ETL

2: Change Data Capture

Isolar os dados alterados para permitir o processamento seletivo, em vez de atualizao completa Capturar todas as alteraes feitas nos dados do sistema origem incluindo as interfaces no padronizadas

Capturar edies, inseres e delees no sistema origem


Marcar os dados alterados com cdigo de motivo Apoiar o acompanhamento de conformidade com metadata adicionais Realizar a captura de dados de alterao o mais cedo possvel

2: Change Data Capture

Inputs Arquivos de log com as transaes do sistema Auditoria nas tabelas de origem Extrato de tempo Cpia completa da tabela Database triggers
Outputs Inserts, updates, deletes Cdigo do motivo Conformidade metadata: aplicvel em um intervalo de tempo, origem

2: Change Data Capture

Arquitetura

Executar CDC no sistema origem ou no sistema de ETL Confie em um tipo de entrada mas vincule o total da origem com as consultas de auditoria Substituir os campos de data nulos por datas 01-010001 Para comparar uma tabela preciso a foto completa do perodo anterior

Livro pp. 106-111, 186-187

3: Extract

Objetivos

Copiar os dados da origem para o data warehouse usando biblioteca de maior rendimento possvel

Puxar, empurrar, ou stream de dados dirigidos pelo agendamento de job e alertas


Verificar se o formato do campo compatvel com data warehouse e quando necessrio converter para formatos suportados pelo data warehouse Carregar o modelo dimensional, esquemas normalizados e flat files

Fase de extrao dos dados temporrios

3. UDDI, WSDL, and SOAP Allow Orgs to Implement SOA Architecture


acessado usando capacita obriga para

descreve

permite comunicao entre

SOA Architecture

Promessas tradicionais Unido fracamente Padres abertos (UDDI, WSDL, SOAP, XML) Sobering Lessons SOA fora a organizao a confrontar

Integrao e qualidade dos dados Muda o gerenciamento, medidas de qualidade, conformidade, segurana, privacidade, auditoria

Exige governana sofisticada

40

Building SOA Services for the EDW

Visualizar a granularidade grosseiramente :


Create customer Criar o cliente Read customer descriptors Ler a descrio do cliente Update customer descriptors Atualizar a descrio do cliente Delete customer Deletar o cliente Iniciar modestamente: Implementar os servios em torno do ETL e subsistemas de BI. Fracamente acoplados Estritamente definidos, enfatizando o desempenho e escalabilidade Sujeito a governana desde o incio

41

Low Hanging SOA Fruit

Candidatos bem definidos subsistemas ETL/BI Change data capture Tela data quality com colunas e estruturas Verifica se o endereo confivel Gera Surrogate key Publicao das conformed dimensions Tratamento para alerta em tempo real Construo e manuteno das hierarquias da tabela Drill across aplicao de BI

42

3: ETL Targets

Flat Files Formato universal independente do DBMS, bom para arquivo a longo prazo Manipulao eficiente diretamente da linha de comando Notvel leitura, atualizao e acesso aleatrio no bom Agregaes usando quebra de linha bem eficiente

22: Job Scheduler

Objetivos Agendar e executar jobs de todos os tipos Agendamento mais vantajoso porque Controla relacionamentos e dependncias entre os jobs Mecanismo confivel para gerenciar estratgia de execuo

Example Modern Job Schedulers

Microsoft SQL Server Agent (165,000 hits) IBM Tivoli (144,000 hits) BMC Control-M (41,100 hits) Oracle 10g dbms_scheduler (23,700 hits) Computer Associates Unicenter AutoSys (13,100 hits) Argent Job Scheduler (13,100 hits) Cronacle by Redwood (13,000 hits) Load Sharing Facility - LSF (Platform Computing) (10,700 hits) UC4 (6,460 hits) Opalis Integration Server (5,210 hits) CA/Cybermation ESP Espresso (1,800 hits) SAS DSx3 (575 hits) Pervasive Integration Hub (497 hits)

23: Backup

Objetivos

Copiar os dados do data staging e da partio em tempo real para local mais seguro: Arquivo histrico, Restart incremental

Operao automatizada Minimizar exposio de perda de dados

24: Vulnerabilities of LongRunning ETL processes

Quanto mais tempo um processo de ETL demorar para executar mais ciente voc deve ficar das vulnerabilidades ao fracasso Carregar no sistema origem para re-run Posio lgica necessria para retornar, ou reiniciar a partir da posio atual, por exemplo, usar a chave artificial (SK) da tabela fato Escolha uma dependncia de jobs horizontal ou vertical Horizontal executa os processos at o final independentemente Vertical significa que os processos aguardam a concluso das metas comuns, em especial, as

24: Minimizing the Risk of Load Failures

Modos de falha incluem Falha na rede Falha na base de dados Falha no disco
Sistema origem Data staging Data warehouse

Falha de memria Espao de tempo, espao de dados, espao de ndice Falha no data quality Atualizao do sistema sem aviso prvio

24: Minimizing the Impact of Failure

Particionar os processos
Utilize pontos de recuperao Ponto de restart lgico. Ex: data e hora ou SK da tabela fato

til para restart, backout, updating Salvar as chaves para serem substitudas no processo de atualizao

Mantenha os metadados (Ex: os ltimos registros carregados)

4: Data Cleansing System

Objetivo Sistema global para gesto de qualidade dos dados Mensurar a qualidade dos dados: identificar dados que precisam ser tratados Tomar as aes corretivas apropriadas

Interfaces para a interveno de dados defeituosos

Montar descrio temporal seriada de dados deficiente e as medidas tomadas Unir os dados tratados com os atuais para gerar relatrios diretos de qualidade

Dimenso de auditoria

4: Data Cleansing System

Entrada Dados sem tratamento Dependncia lgica para agendamento de job


Sada Dados tratados Aes tomadas Registro das aes tomadas e todos os eventos de qualidade de dados

4: Quality Screen Process Flow

4: Oracle Process Flow Tool

4: Informatica PowerCenter Workflow Manager

Email Task External Process

PowerCenter Session

Decision Task

5: Error Event Schema

Objetivo Estrutura central para capturar e responder eventos de qualidade de dados Histrico dos eventos de qualidade de dados disponveis para anlise Six Sigma Quality = 3.4 defeitos por milho de oportunidades Definir os objetivos do projeto e o que ser entregue para o cliente Mensurar o processo para determinar a performance atual Analisar e determinar a causa dos defeitos Melhorar o processo eliminando os defeitos Controlar performance de futuros processos

5: Error Event Schema

6: Audit Dimension

Objetivos

Capturar os metadatas completos para criao e contexto de qualidade de cada registro da tabela fato Anexar esses metadados para cada tabela fato como uma dimenso Use contexto de dimenso para os relatrios de auditoria instrumentado

6: Attaching an Audit Dimension

6: Instrumenting a Report With an Audit Dimension

28: Sort Data Immediately After Extract

A maioria dos processos de ETL precisam de dados classificados


Escolher o tipo de recursos mais eficiente Combinar extrao, converso de formato e classificao em um passo. A sabedoria convencional diz que os pacotes dedicados so mais rpidos, no entanto, vendedores de ETL e DBMS afirmam j estarem se recuperando...

7: Deduplicating

Objetivos

Membros dimensionados de-duplicados dentro e atravs de tabelas de dimenso Implementar procedimento de sobrevivncia para integrar os dados de fontes mltiplas

7: Microsoft: Fuzzy Grouping Module for Deduplicating

7: Microsoft: Fuzzy Grouping Detailed Results

7: Oracle Match-Merge Wizard

7. Oracle: Expanded Match-Merge Operator in Map

7: Survivorship Drive Tables

7. Multiple Sources and Duplicated Customers

Design:

Se a origem possui referncia duplicada ento se pode implementar dimenso multivalor com a tabela ponte

8: Conforming

Objetivos

Habilitar o drill across em ambientes com mais de uma tabela fato Aplicar domnios comuns de dados para campos designados nas tabelas dimenses conformadas

Aplicar as regras de negcio comuns para os campos designados nas tabelas fatos conformados

Key Concept: Conformed Dimensions

Uma dimenso que um subconjunto perfeito de linhas e colunas considerado conformed dimension

O contedo das colunas comuns devem ser equivalentes (mesmo domnio)

Drilling Across Means Combining Row Headers

Abrir uma conexo separada para cada origem


Reunir cada conjunto de resposta Fazer o merge do conjunto de resposta nos cabealhos de colunas conformed
Manufacturing Shipments Warehouse Inventory

Product

Retail Sales

Turns

Framis
Toggle Widget

2940
13338 7566

1887
9376 5748

761
2448 2559

21
14 23

8: Conforming

Questes de arquitetura preciso definir bem o que ser entregue pelo gerente da dimenso

Apenas um subconjunto de dimenses ou dimenses completas Mapeamento das SK nas tabelas de destino Dimenses snowflake encolhidas para suportar agregados

Precisa de detalhamento lgico para atualizar dimension version numbers Precisa de ferramenta instrumentada que realize drill across para usar dimension version numbers Os membros duplicados da dimenso precisam de ponteiros para todas as chaves naturais (NK) dos registros na origem

Livro pp. 148-159, 447, 449

7, 8: Deliver Cleaned, Deduplicated, Conformed, and Survived Dimensions


d

f f

Extracted using adapter Source 1

Cleaned and locally Deduplicated

d Conformed

Extracted using adapter Source 2

Cleaned and locally Deduplicated

Conformed

Merged, Survived and Globally Deduped

Replication Engine

Conformed Dimension ready for Delivery

f f

d Extracted using adapter Source 3 Cleaned and locally Deduplicated Conformed

Special contents: 1) dimension version number 2) back pointers to all source natural keys

25: Version Control

Objetivos do controle de verso versionamento


Conjunto de fotos armazenadas com o objetivo de salvar e restaurar o contexto completo do ETL. Numerar as verses

Alternativas Microsoft Visual Source Safe


Livro pp. 353-368, 413-416

26: Version Migration

Desenvolvimento Teste Produo Completar os testes da fase de desenvolvimento Scripts de testes automticos de regresso para desenvolvimento e teste Testes do sistema completos na fase de teste Simulado com volume de dados reais na fase de teste Migrao para prxima fase inclui transferncia automtica completa do contexto de ETL incluindo todas as conexes e perfis de usurios Migrao para fase de produo inclui Documentao de migrao Cenrio de rollback: re-extrair os dados

27: Workflow Monitor

Objetivos Monitorar status do job incluindo aqueles que ainda esto pendente, executando, completo ou suspenso nos registros histricos

Mensurar performance da infraestrutura incluindo CPU, memria, disco, banco de dados e utilizao do servidor

Livro pp. 332-339

27: Monitor Process Metadata

Notificao de dados atrasados Linhas carregadas com sucesso Linhas rejeitadas Tempo decorrido Linhas processadas por segundo Tempo estimado de concluso Utilizao da memria

Memria compartilhada Tamanhos do buffer

Processador, banco de dados, memria, disputa do disco Rotina de uso de tabelas, ndices, agregados

27: Ascential Example of ETL Job Monitoring

Higher level run results

Lower level discrete row counts per partition (flow always runs in parallel)

22: Loading the Data


Desligue o log de rollback! Separe inserts de atualizaes a menos que usando "Upsert Carregar em paralelo Construir os agregados fora da base de dados Particionar a tabela fato na FK de data que os usurios mais usam

22: The Order of Things

A carga deve ser feita na seguinte ordem: Subdimenses Dimenses Tabelas ponte (bridge tables) Tabelas fato Dimenses agregadas (contradas)

Tabelas fato agregada

29: Lineage and Dependency

Objetivos

Lineage: comeando com um elemento de dados especficos em uma tabela intermediria ou um relatrio de um usurio final, identificar a origem dos dados, as tabelas intermedirias que contm aqueles dados e a origem deles, e todas as transformaes que o elemento de dados e a origem foram submetidas

Dependncia: comeando com um elemento de dados especficos em uma tabela de origem ou uma tabela intermediria, identificar todas as tabelas intermedirias e relatrio de usurio final que contm esse elemento de dado ou derivado dele e todas as transformaes aplicadas no elemento de dado e suas derivaes

29: Informatica Lineage Analysis

Oracle table

BO table

This is selected

29: Oracle: Impact Map

29: Oracle Worst Case Scenario Impact Diagram

30: Problem Escalation

Objetivo Capturar, priorizar, gerenciar e comunicar todo desenvolvimento, manuteno e problemas operacionais Resposta garantida
Nveis de escalonamento Help desk Administrador do sistema ou DBA Gerente de ETL

Suporte ao desenvolvedor ou fornecedor responsvel

Defining Real-Time ETL

Tudo que muito rpido para o seu ETL atual


Alterar de batch ETL para streaming ETL

Gerao 1 Armazenamento de dados operacionais

Sistemas fisicamente separados entre OLTP e DW

Gerao 2 Partio de tempo real

Extenso fsica separada de tabela fato existente, contendo apenas as atividades novas desde a ltima carga das tabelas estticas Na memria, sem ndices, sem agregaes

Real Time Operational Architecture

86

Real Time Data Extract & Transform

Alterar captura de dados (Change data capture) Notificao do efeito colateral da aplicao Escutar as transaes de entrada Pegar frequentemente os campos atualizados na base de dados Pegar frequentemente os log de transao

Extrao Microbatch envia e recebe arquivos do staging file


Transformao Estrutura e transformao limitada pela latncia Regras de negcio devem ser limitadas ou inviveis Os dados do real time podem ser substitudos por processos batch peridicos

Real Time Integration

Gerenciando a dimenso (usando como exemplo o cliente) Ligar a identificao do cliente em tempo real com lista j existente Publicar lista temporria de novos clientes para a partio real time Tipo 1 atualiza a lista temporria mltiplas vezes ao dia Atualizao permanente da lista esttica de clientes na base batch Provedor da tabela fato (usando como exemplo o carregamento) Dividir as linhas de transferncia em tempo real em parties RT Responder s atualizaes das dimenses intra-day da DM Atualizar permanentemente a tabela de fatos estticos na base batch

Real Time Data Presentation

Adicionar diariamente, na memria hot partition para cada tipo de tabela fato. A partio: contm todas as atividades desde a ltima atualizao do data warehouse esttico. Tabelas estticas so atualizadas uma vez a cada 24 horas. Conectar o mais prximo possvel ao gro da tabela fato esttica No indexado, assim dados novos de entrada podem entrar continuamente Suporta consultas altamente responsivas Tem backup no log de arquivo de disco caso tenha perdido a memria

89

Transaction Grain Hot Partition

Estrutura dimensional idntica como as tabelas fatos estticas Sem ndices (!), sem agregaes, tudo na memria Exemplo 10 milhes transaes/dia

12 dimenses, 8 fatos = 80B 800 MB/dia

Ferramenta de BI pesquisa periodicamente a base de dados com consultas idnticas se estiver usando tabelas estticas e hot tables, juntando-as. No h necessidade de consulta separada se a hot partition for uma partio real.

Transaction Grain Dimensions

Registros necessrios de dimenso esttica so selecionados de entradas conhecidas as chaves naturais a medida que as transaes chegam, construindo um subconjunto de dimenso mnima na memria
Entradas vazias de dimenso genrica so criadas para as transaes com chaves naturais (NK) de entrada desconhecidas cujo significado est atrasado As dimenses genricas vazias so parcialmente preenchidas posteriormente com valores dimensionais atrasados

Periodic Snapshot Hot Partition

Hot partition o perodo evolutivo atual, atualizados continuamente at o final do perodo


Fatos so substitudos continuamente

Copiar as fotografias de todas as contas na hot partition no incio do perodo, mas teremos novas contas
Em um banco com 20 milhes de contas, com 5 dimenses + 10 fatos: 60 B x 20 milhes = 1.2 GB na hot partition

Hot Partition = ODS-Like Source

Batch extract (todas as noites) Usar a partio quente para atualizar o lote se os dados no estiverem corrompidos Acrescentar os registros da fato nas tabelas fatos estticas Inserir/Atualizar os registros alterados da dimenso tabela de dimenso esttica Zerar a hot partition Ou, batch extract do sistema origem Use o arquivo original do sistema fonte se o arquivo possuir melhores regras de negcio Neste caso, o ETL convencional carrega a cada 24 horas

Micro Batch ETL

Real Time Data Delivery Requires Hub-and-Spoke

Implement Real Time DW in EAI Environment

Zero Latency Enterprise Information Integration (EII)

Direcionar OLTP para acabar com a planilha do usurio ! Transformaes e integraes apenas no software Pros: Por definio zero de latncia/atraso Contra: sistemas OLTP manipulam toda a carga de consulta Considerar necessidade de novos ndices e agregaes Considerar as questes de OLTP a medida que afeta as ferramentas de consultas Contra: No h dados de teste Contra: Transformaes limitadas Contra: O histrico limitado ao que o OLTP fornece

Você também pode gostar