Você está na página 1de 40

ETL – EXTRAÇÃO,

TRANSFORMAÇÃO E CARGA.

78116821504 - RENIVALDO FREITAS DOS SANTOS


MOTIVAÇÃO

• O processo de ETL é o processo mais crítico e


demorado na construção de um DW
– ETL e as ferramentas de limpeza de dados
consomem um terço do orçamento num projeto
de DW
– 80% do tempo de desenvolvimento de um DW
consiste no processo de ETL
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
EXTRAÇÃO, TRANSFORMAÇÃO E CARGA (ETL)

• O sistema Extract-Transform-Load (ETL) é a base para construção de um


data warehouse. Quando projetado adequadamente um sistema ETL
extrai dados dos sistemas de origem, reforça a qualidade dos dados e
padrões de consistência, ajusta dados para que dados advindos de fontes
distintas possam ser usados juntos e finalmente entrega dados em um
formato pronto para apresentação.

O conjunto de processos para trazer dados de


sistemas OLTP para um data warehouse.
Relembrando: OLTP – On-line Transaction Processing – termo associados a sistemas que auxiliam o dia a dia
operacional da empresa. Sistemas baseados no conceito de transações.

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.

Ano: 2016 Órgão: AL-MS Prova: Técnico de Informática


Considere a figura abaixo.
No processo de ETL mostrado na figura, I e II correspondem,
respectivamente, a
a) OLTP e Data Warehouse.
b) OLTP e Staging Area.
c) Data Mart e Staging Area.
d) Staging Area e OLTP.
e) Staging Area e Data Warehouse.

78116821504 - RENIVALDO FREITAS DOS SANTOS


ETL

78116821504 - RENIVALDO FREITAS DOS SANTOS


EXTRAÇÃO, TRANSFORMAÇÃO E CARGA

• Toda a integração de dados, independente de


ser executada
– Em lote (batch) ou em tempo real;
– De forma síncrona ou assíncrona;
– Física ou virtualmente,
• Gira em torno dessas ações básicas.

78116821504 - RENIVALDO FREITAS DOS SANTOS


ETL NO CONTEXTO DE DW

78116821504 - RENIVALDO FREITAS DOS SANTOS


VOLTANDO A COZINHA

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.
• Ano: 2018 Órgão: DPE-AM
• Sobre o processo de ETL, aplicado a data warehouse, é correto afirmar que
• A a fase de extração de dados consiste em obter os dados do servidor do data
warehouse.
• B a fase de transformação consiste em realizar modificações nos dados carregados,
adequando seus valores ao modelo definido para o data warehouse.
• C as fases de extração e carga de dados são realizadas de forma simultânea.
• D a fase de carga de dados visa eliminar valores nulos contidos nos bancos de
dados transacionais da empresa.
• E a fase de carga de dados consiste em inserir os dados transformados nos bancos
de dados transacionais da empresa.

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.

• Ano: 2018 Órgão: CGM de João Pessoa - PB


• Com relação à modelagem dimensional e à otimização de
bases de dados para business intelligence, julgue o item
subsequente.
• Uma ferramenta de ETL deve ser capaz de extrair dados de
fontes heterogêneas, copiá-los para uma área de transição,
onde possam ser convertidos conforme o padrão
estabelecido, e, ainda, realizar limpeza e correção nesses
dados, de acordo com regras preestabelecidas.

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.

• Ano: 2018 Órgão: STM


• A respeito de ETL, julgue os itens a seguir.
O ambiente ETL permite a visualização dos
dados para análise de maneira
multidimensional.

78116821504 - RENIVALDO FREITAS DOS SANTOS


ETL – EXTRAÇÃO,
TRANSFORMAÇÃO E CARGA
REQUISITOS E PROCESSO ETL

78116821504 - RENIVALDO FREITAS DOS SANTOS


Requisitos de ETL (10)
1. Necessidades de negócio
2. Conformidade (Contexto legal)
3. Qualidade dos dados
4. Segurança
5. Integração dos dados (MDM)
6. Latência do dados
7. Arquivamento e Lineage
8. Interfaces de entrega de BI
9. Habilidades disponíveis
10. ETL Legado
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
COMPONENTES DO ETL

• Descrevem as etapas do processo tem quatro


componentes principais:
– Extração
– Limpeza e conformidade
– Entrega
– Gestão

Prof. Thiago Cavalcanti


78116821504 - RENIVALDO FREITAS DOS SANTOS
SUBSISTEMAS DE ETL (34 SUBSISTEMAS)
• Extração
– Coleta de dados brutos a partir dos sistemas de origem e, geralmente, gravação em disco no ambiente de
ETL antes de qualquer reestruturação dos dados. Subsistemas de 1 a 3 devem apoiar o processo de extração
(3)
• Limpeza e conformidade
– O envio de dados de origem através de uma série de etapas de processamento no sistema de ETL para
melhorar a qualidade dos dados recebidos a partir da fonte , e a fusão de dados a partir de duas ou mais
fontes de criar e aplicar dimensões conformes e métricas conformadas . Subsistemas de 4 a 8 descrevem a
arquitetura necessária para suportar os processos de limpeza e conformidade (5)
• Entrega
– A estruturação física e carregamento dos dados em modelos dimensionais de destino no servidor de
apresentação. Subsistemas de 9 a 21, fornecem a capacidade de entrega dos dados (13)
• Gestão
– Gestão dos sistemas e processos relacionados do ambiente de ETL de uma forma coerente. Subsistemas de
22 a 34 descrevem os componentes necessários para apoiar o gerenciamento contínuo do sistema de ETL
(13)

Prof. Thiago Cavalcanti


78116821504 - RENIVALDO FREITAS DOS SANTOS
EXTRAÇÃO: TRAZENDO OS DADOS PARA O DW

1. Data profiling (perfil de dados)


– Técnica de análise dos dados para descrever o seu conteúdo,
consistência e estrutura
– Fornece a equipe de ETL uma orientação de quanto a limpeza de
dados é importante para o projeto
– Toda vez que você executar uma consulta SELECT DISTINCT
investigativo em um campo do banco de dados, você está traçando o
“perfil de dados”

Prof. Thiago Cavalcanti


78116821504 - RENIVALDO FREITAS DOS SANTOS
EXTRAÇÃO: TRAZENDO OS DADOS PARA O DW

2. Sistema de captura das alterações nos dados


– Capacidade de transferir apenas as alterações relevantes
da fonte de dados desde a última atualização
– Isolar os dados de origem mais recente é chamado de
captura de dados de alteração (CDC)
– A ideia por trás do CDC é bastante simples: basta transferir
os dados que foram alterados desde a última carga.

78116821504 - RENIVALDO FREITAS DOS SANTOS


SISTEMA DE CAPTURA DAS ALTERAÇÕES NOS
DADOS
– Existem várias maneiras de capturar as alterações de
dados de origem, cada eficazes na situação adequada,
incluindo:
• Colunas de auditoria (Audit Columns)
• Extração de tempo (Timed Extracts)
• Comparação diferencial total (Full Diff Compare)
• Log do banco de dados (Database Log Scraping)
• Monitorar a fila de mensagens (Message Queue Monitoring)

78116821504 - RENIVALDO FREITAS DOS SANTOS


EXTRAÇÃO: TRAZENDO OS DADOS PARA O DW

3. Sistema de extração
– Obviamente, a extração de dados dos
sistemas de origem é um componente
fundamental da arquitetura de ETL.
– O sistema de ETL deve esperar dados a Dados
partir de uma ampla variedade de
sistemas que envolve deferentes tipos
de dados e outros desafios inerentes.

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.

• Ano: 2018 Órgão: STM Prova: STM - Técnico


Judiciário - Programação de Sistemas
• A respeito de ETL, julgue o item a seguir.
• Em processos ligados a ETL, os dados são
identificados e extraídos de diferentes fontes,
incluindo sistemas de banco de dados e
aplicações.

78116821504 - RENIVALDO FREITAS DOS SANTOS


TRAZENDO OS DADOS PARA O DW

78116821504 - RENIVALDO FREITAS DOS SANTOS


LIMPEZA E CONFORMIDADE DE DADOS

1. Sistema de limpeza de dados


2. Esquema de eventos de erro
3. Dimensão de auditoria
4. Sistema de deduplicação
5. Sistema de conformidade

78116821504 - RENIVALDO FREITAS DOS SANTOS


FLUXO DO PROCESSO DE CONFORMIDADE

78116821504 - RENIVALDO FREITAS DOS SANTOS


LIMPEZA E CONFORMIDADE

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.

Banca: CESPE Órgão: ANATEL Prova: Analista


Administrativo - Desenvolvimento de Sistemas
Acerca dos sistemas de suporte à decisão e inteligência
de negócio, julgue os itens subsequentes.
[1] As ferramentas para extração, transformação e carga
de dados (ETL) copiam todos os dados dos sistemas
operacionais e os transferem para o Data Warehouse de
forma a apoiar a análise corporativa das tendências e a
realização de previsões empresariais.

78116821504 - RENIVALDO FREITAS DOS SANTOS


ENTREGA: PREPARE-SE PARA APRESENTAÇÃO

1. Gestão da alteração lenta da dimensão


2. Gerador de chave substituta
3. Gerencia de hierarquia
4. Gerencia de dimensões especiais
– Date/Time Dimensions, Junk(lixo) Dimensions, Mini-Dimensions,
Shrunken Subset Dimensions, Small Static Dimensions
5. Construtores da tabela fato
6. Pipeline da chave substituta
7. Construção da tabela ponte para dimensão multivaloradas
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
ENTREGA: PREPARE-SE PARA APRESENTAÇÃO

8. Gerenciador de dados atrasados


9. Sistema de gerenciamento das dimensões
10.Sistemas provedor dos fatos
11.Construção dos agregados
12.Construção do cubo OLAP
13.Gerencia da propagação de dados
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
ENTREGA

78116821504 - RENIVALDO FREITAS DOS SANTOS


GERENCIANDO O AMBIENTE DE ETL

• Para atingir este objetivo, o sistema de ETL deve trabalhar


constantemente para cumprir três critérios:
– Confiabilidade - Os processos de ETL deve sempre ser
executado consistentemente. Eles devem fornecer dados em
tempo hábil, confiáveis e em qualquer nível de detalhe
– Disponibilidade - O DW deve cumprir seus acordos de nível de
serviço (SLAs). O armazém deve estar pronto e disponível, como
prometido
– Gerenciamento - Um DW de sucesso nunca está pronto. Ele
cresce constantemente e muda juntamente com o negócio. Os
processos de ETL também precisam evoluir
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
GERENCIANDO O AMBIENTE ETL
1. Agendador de Jobs
– Job definition, Job scheduling, Metadata capture, Logging,
Notification
2. Sistema de backup
3. Sistema de recuperação e restart
4. Sistema de controle de versão
5. Sistema de migração de versão
6. Workflow Monitor

78116821504 - RENIVALDO FREITAS DOS SANTOS


GERENCIANDO O AMBIENTE ETL

7. Sistema de ordenação
8. Analisador de ancestrais e dependência
9. Sistemas para problemas de escala
10. Sistema de paralelismo/pipeline
11. Sistema de segurança
12. Gerenciamento de conformidade
13. Gerenciar repositório de Metadados

Prof. Thiago Cavalcanti


78116821504 - RENIVALDO FREITAS DOS SANTOS
GERENCIANDO

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.

• Órgão: TCU Prova: Auditor Federal de Controle Externo


- Tecnologia da Informação
• Julgue o item subsequente, a respeito de modelagem
dimensional e análise de requisitos para sistemas
analíticos.
• O paralelismo, característica desejável de uma
ferramenta de ETL, oferece suporte às operações de
vários segmentos e a execução de código executável de
forma paralela.

78116821504 - RENIVALDO FREITAS DOS SANTOS


PROCESSO DE ETL

• Desenvolva um plano
1. Desenvolva um plano de alto nível
2. Escolha a ferramenta de ETL
3. Desenvolva um conjunto de estratégias padrão
4. Drill Down by Target Table
• Desenvolver o documento de especificação do
ETL
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
PROCESSO DE ETL

• A primeira carga dos dados


7. Popular as tabelas dimensão com os dados históricos
8. Executar a carga histórica da tabela fato
• O processo incremental do ELT
7. Processamento incremental da tabela dimensão
8. Processamento incremental da tabela fato
9. Carga das tabelas agregadas e dos cubos OLAP
10.Operação e automação do sistema de ETL
Prof. Thiago Cavalcanti
78116821504 - RENIVALDO FREITAS DOS SANTOS
QUESTÃO.
Órgão: ALERJ Prova: Especialista Legislativo - Tecnologia da Informação
Daniel está desenvolvendo um Data Warehouse para analisar os dados do Censo
Escolar. A fonte de dados está em um arquivo CSV e descrita em um documento,
conforme parcialmente ilustrado nas figuras a seguir.
Para carregar esses dados no Data Warehouse com a descrição dos turnos no lugar de
seu código, Daniel deve desenvolver um programa para ler os dados do arquivo,
realizar transformações e carregar o resultado no banco de dados.
A ferramenta a ser utilizada por Daniel é:
a) ETL;
b) OLAP;
c) Data Mining;
d) ODBC;
e) XSLT.

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.
Órgão: JUCESC Prova: Analista de Informática
ETL é o método mais comum para transferir dados de uma fonte de dados OLTP para
um data warehouse. Contudo, pode-se também empregar o processo de extração,
carga e transformação no formato ELT. Para tanto, faz-se necessário o uso de:
a) Staging tables ou tabelas intermediárias no banco de dados de destino (data
warehouse).
b) Tecnologias distintas de banco de dados de origem (OLTP) e de destino (data
warehouse).
c) Metodologia Kimbell e esquemas estrela normalizados para a modelagem do data
warehouse.
d) Extração Full de todos os dados tanto das tabelas de dimensões quanto de fatos.
e) Técnicas de data mining sobre data marts relacionais.

78116821504 - RENIVALDO FREITAS DOS SANTOS


O PROCESSO DE ETL

Source Staging Presentation


Systems Area System

Transform
Extract Load

78116821504 - RENIVALDO FREITAS DOS SANTOS


QUESTÃO.
• Ano: 2017 Órgão: DPE-RS Prova: FCC - 2017 - DPE-RS - Analista -
Banco de Dados
• O processo de ETL é composto por algumas fases, identificadas
como entregar, limpar, extrair e preparar. A ordem correta para a
execução dessas fases é
• A limpar, preparar, extrair e entregar.
• B preparar, limpar, entregar e extrair.
• C entregar, preparar, limpar e extrair.
• D entregar, extrair, limpar e preparar.
• E extrair, limpar, preparar e entregar.

78116821504 - RENIVALDO FREITAS DOS SANTOS


ETL – EXTRAÇÃO,
TRANSFORMAÇÃO E CARGA.

78116821504 - RENIVALDO FREITAS DOS SANTOS

Você também pode gostar