Você está na página 1de 69

INTEGRAÇÃO E

FLUXO DE DADOS
Sheila Dias
A revolução da informação representa uma
nítida transferência de PODER, de quem
detém o capital, para quem detém o
conhecimento.
Peter Drucker
(considerado o pai da Administração Moderna)
Dado, Informação e Conhecimento
▪ Os DADOS são os registros soltos, aleatórios, sem
quaisquer análise (Rezende, 2015).
▪ A INFORMAÇÃO seria qualquer estruturação ou
organização desses dados.
▪ O CONHECIMENTO envolve entendimento, por
alguém, de um padrão a ser seguido baseado em
informação.
Processa
DADOS mento CONHECIMENTO

https://www.shutterstock.com/home
O insumo básico do
conhecimento é o DADO,
que acrescido de contexto
se torna INFORMAÇÃO.
CONHECIMENTO é a
capacidade de agir e
prever o resultado,
baseado em informação e
repertório individual.
O que é ser Inteligente?

www.shutterstock.com
Inteligência é:
É a capacidade de
aprender com a
experiência, resolver
problemas e usar o
conhecimento para se
adaptar a novas
situações.
David Guy Myers Hope College - faculdade
particular de artes liberais, Michigan
O que é Business Intelligence (BI) ?

www.shutterstock.com
Business Intelligence (BI) é um termo abrangente que
inclui aplicativos, infraestrutura, ferramentas e práticas
que permitem:
o acesso e a análise das informações para melhorar e
otimizar decisões e desempenho das CORPORAÇÕES.
https://www.gartner.com/en/information-technology/glossary/business-intelligence-bi
(acessado em 26/07/2020)
Os sistemas de Business Intelligence (BI) podem ser
compreendidos como meios de transformação de dados [....]
Os dados coletados são extraídos, transformados e
carregados em estruturas informacionais, oferecendo assim,
desempenho e facilidade ao manipular os dados.
(Barbieri, 2011).
O que sabemos é uma
gota; o que ignoramos é
um oceano.
Isaac Newton

Fonte: Autor desconhecido está licenciada sob CC BY-SA.


IMPLEMENTAÇÃO

Requirements
&Realities

•Figure 1 The Kimball Lifecycle diagram.

•Kimball Group – http://www.ralphkimball.com/


REQUISITOS
E
REALIDADE
REQUISITOS E REALIDADE
▪ Fase responsável por todas as exigências e
realidades

✓Requisitos do negócio (necessidades da


empresa/departamento).
✓Perfil dos dados - Profiling dos dados.
✓Segurança dos dados.
REQUISITOS E REALIDADE

▪ Requisitos do negócio

✓Envolvem entrevistas e reuniões.


✓Ocorre a identificação das fontes de dados.
✓Acontecem descobertas significativas
que afetarão as necessidades do negócio.
REQUISITOS E REALIDADE

▪ Perfil de Dados

✓Uma análise sistemática da qualidade dos dados


nas fontes (data profile) determina o esforço de
construção de um produto.
✓Uma fonte de dados muito limpa exige o
mínimo de intervenção humana antes de
carregar no seu destino.
REQUISITOS E REALIDADE
▪ Segurança dos dados

✓Deve-se ter acesso a leitura as fontes de origem.

✓A gestão segurança final deverá se tratada na


governança de dados da empresa, envolvendo
profissionais de TI.
Que tal analisar com todo
cuidado o que foi
pedido/requisitado antes
de iniciar qualquer
construção analítica?
Esta Foto de Autor desconhecido está licenciada sob CC BY-SA.
IMPLEMENTAÇÃO

Architecture

•Figure 1 The Kimball Lifecycle diagram.

•Kimball Group – http://www.ralphkimball.com/


ARQUITETURA
▪ A escolha da arquitetura é uma decisão
fundamental.

✓Definição/Compra de uma ferramenta.


✓Definição do local (path) onde estão os dados.
✓Dependência das tarefas.
✓Agendamento das tarefas.
ARQUITETURA

✓Tratamento de exceção (alertas simples? Tabelas


completas de exceção?).
✓Recuperação e reinício.
✓Segurança do ambiente (rotinas de backup).
IMPLEMENTAÇÃO

System
Implementation

•Figure 1 The Kimball Lifecycle diagram.

•Kimball Group – http://www.ralphkimball.com/


IMPLEMENTAÇÃO System
Implementation

E T L

Extract

•Kimball Group – http://www.ralphkimball.com/


PROCESSO ETL

https://www.shutterstock.com
38
“Construir um sistema de ETL é extraordinariamente difícil,
porque está sujeito a realidades inevitáveis”.

Ralph Kimball,2005
Tudo nasce na Extração.....
▪ O primeiro passo para o SUCESSO de um projeto é a
fase de extração

Fonte:(https://pt.slideshare.net/VithordaSilvaeSilva/self-service-bi-com-power-bi/10)
Extração

▪ A primeira parte do processo ETL é coletar os dados


das fontes de origem.
▪ Na grande maioria existem fontes heterogêneas de
dados.
▪ Fontes comuns são bases de dados,
flat-files, planilhas, páginas web, XML etc.
Extração
▪ Uma vez que seu sistema ETL é iniciado logo se
percebe a necessidade de integração de fontes
diferentes é um grande desafio.

https://www.confluent.io/blog/building-real-time-streaming-etl-pipeline-20-minutes/
Acessado 09/08/2020
IMPLEMENTAÇÃO System
Implementation

E T L

Clean Conform

•Kimball Group – http://www.ralphkimball.com/


Transformação - Limpeza
▪ Definindo Dados com Qualidade

✓Correto
✓Sem Ambiguidade
✓Consistente
✓Completo
Transformação - Limpeza

▪ Analisando Dados com Anomalias

✓O que é?
✓Consequências ?
✓Técnicas de Detecção?
Transformação - Limpeza
▪ Dados com Anomalias - O que é?

Um dado anômalo é
aquele que não se
encaixa no domínio do
resto dos dados que
são armazenados.
Transformação - Limpeza
▪ Dados com Anomalias - Consequências?

✓ Retrabalhos são gerados em processos ETL quando


expostos a anomalias não identificadas previamente.

✓ Detecção de dados anômalos consome grande


quantidade de tempo e análise. Ao fazer esta análise
antes, irá economizar tempo e reduzir a frustração.
Transformação - Limpeza
▪ Dados com Anomalias - Técnicas de Detecção?

✓ Para cada uma das fontes de dados a serem carregadas,


deve-se fazer uma verificação do perfil dos dados, por
amostragem, sendo mais comum:

• Histórico de contagens de registros por dia para as tabelas de


origem.
• Histórico dos totais de métricas de negócios por dia.
• Identificar informações necessárias.
Transformação

▪ A fase de transformação consiste em aplicar uma


série de regras ou funções sobre os dados
extraídos.
▪ Essas regras são baseadas nos requisitos de
negócios levantados.
Transformação

▪ Selecionar somente informações necessárias


para serem carregadas;
▪ Desprezar campos nulos;
▪ Traduzir valores codificados
(M para Masculino e F para Feminino);
Transformação

▪ Criar um novo valor calculado (Valor Venda =


quantidade* preço unitário);
▪ Sumarizar múltiplas linhas de dados
▪ Hierarquizar dados;
Transformação
▪ Transformar colunas em linhas.
▪ Unir a mesma informação, mas vinda de fontes
diferentes;
▪ Realizar junções cruzando dados de
múltiplas origens (Integração dos dados);
IMPLEMENTAÇÃO System
Implementation

E T L

Deliver

•Kimball Group – http://www.ralphkimball.com/


Carga
▪ A carga dos dados pode ser quanto a frequência de 2
formas distintas:

✓ Incremental – acontece num tempo programado.

✓ Completa (fria) – acontece somente uma vez.


Carga

▪ A carga dos dados quanto a arquitetura pode ser


feita:
Carga– Visão Data Warehouse
▪ A fase de ETL desde a
extração do dado até
sua carga em um
modelo dimensional
consome, pelo
menos, 70% do tempo,
esforço e despesa da
maioria dos projetos
de Data Warehouse. https://www.shutterstock.com

(Kimball,2005)
Carga– Visão Data Warehouse
▪ Um data warehouse é um
sistema que extrai, limpa,
transforma, e carrega os
dados de fontes
operacionais (ETL) em uma
estrutura de
armazenamento de dados
dimensional e, em seguida,
apoia e implementa
consulta e análise para fins
de tomada de decisão.
(Kimball,2005) https://www.shutterstock.com
ETL – Visão Self Service BI
▪ Os dados podem ser
armazenados nos
repositório interno
das ferramentas
SSBI, que tem por
característica ter
alto poder de Fonte: https://blog.luz.vc/excel/como-habilitar-instalar-power-query-
excel/

compressão, índices
otimizados.
ETL - Visões

Fonte: https://www.timmitchell.net/post/2017/01/06/what-is-etl/

Visão Self Service Visão DW

https://www.shutterstock.com
Fonte: https://blog.luz.vc/excel/como-habilitar-instalar-power-query-excel/
IMPLEMENTAÇÃO

Test & Release

•Figure 1 The Kimball Lifecycle diagram.

•Kimball Group – http://www.ralphkimball.com/


66

Execução dos testes unitários


Teste &
Operação Criação de um ambiente de produção estável.
Trabalho feito junto à equipe de TI.

Programar os schedules de carga incremental.

Monitoramento do ambiente por um tempo


determinado.

Entrega dos documentos de procedimentos de


recuperação de falha.
68

A missão da equipe de
ETL
• A missão da equipe de ETL, no nível mais
alto, é o de construir os bastidores de uma
solução de analytics:

• Fornecer dados de forma mais eficaz


para o negócio.
• Agregar valor aos dados nos passos de
limpeza e transformação.
• Proteger e documentar o fluxo dos
dados.
69

A missão da equipe de ETL

Para que isso ocorra são necessários 4


fases:

1. Extração de dados das fontes originais.


2. Garantir a qualidade e limpeza de
dados.
3. Transformar os dados para atender os
requisitos de negócio, mantendo
coerência com as fontes originais.
4. Carregar os dados no destino,
proporcionando consulta, relatórios, e
painéis.

Esta Foto de Autor Desconhecido está licenciado em CC BY-SA-NC


70

• Definir escopo do processo ETL.


Responsabilidade
• Analisar performance das origens.
da equipe de ETL
• Definir uma estratégia de qualidade dos
dados.

• Documentar as regras de negócio.

• Desenvolver os códigos físicos dos processos


de carga.

• Acompanhar processos quando migrados


para produção/publicados.

• Realizar manutenção dos processos de carga.


ETL

▪ EXTRAÇÃO TRANSFORMAÇÃO E CARGA


74

E – Extração
T – Transformação
L – Carga
• Extração: Mapeamento das
Fontes de Dados, Conectores e
estratégias de Janelas de Carga

• Transformação: Tratamentos
diversos, limpeza de dados,
filtros, regras de cálculo,
unificação de fontes, etc.

• Carga (Load):
Armazenamento de Dados,
persistência das informações
https://www.shutterstock.com coletadas e tratadas.
75

ETL x ELT x ELTL


▪ ELT -> A transformação
▪ ETL-> O dado é
(limpeza, análise,
armazenado após um
tratamentos em geral)
tratamento de REGRA.
vêm depois do dado
armazenado.

PRONTO para uso. Uso APÓS Tratamento.

https://gartner.com.br
Data Lake
• É um termo recente, criado pelo CTO (Chief
Technical Officer) do Pentaho, James Dixon.

• A ideia é ter um único repositório dentro da


empresa, para que todos os dados brutos
estejam disponíveis a qualquer pessoa que
precise fazer análise sobre eles.
https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

76
https://www.shutterstock.com
ETL – Visão Data Lake

Um lago de dados é como


um reservatório.
Primeiro você cria a estrutura
(um cluster) e depois enche
de água (dados). Depois que
o lago estiver pronto, você
começa a usar a água (dados)
para várias finalidades, como
geração de energia e
consumo (análises preditivas,
etc.).
https://www.shutterstock.com
78
ETL x ELT x ELTL

http://www.jamesserra.com

Você também pode gostar