Você está na página 1de 21

WBA0749_v1.

Integração e Fluxo de Dados


(ETL)
Conformação de dados
Bloco 1
Washington H. C. Almeida
Processo de conformação de dados

• Conformação ou integração de dados diz


respeito à criação de dimensões e
instâncias de fatos configuradas,
combinando as melhores informações de
várias fotos de dados.
• Para fazer isso, os dados recebidos
precisam ser estruturalmente idênticos,
filtrados de registros inválidos,
padronizados em termos de conteúdo e
não duplicados.
Problemas
• Identificação de entidades: como garantir que
um atributo presente em duas fontes tenha o
mesmo significado?
• Exemplo: costumer_id.
• Quais valores os campos podem assumir?
• Exemplo: campo “sexo” pode ter valores
“H/M” ou “M/F”.
• Redundância.
• Dados duplicados.
Tipos de transformação de dados

• Suavização: visa eliminar ruídos.


• Agregação: operações de resumo ou agregação
são realizadas.
• Generalização: consiste em substituir dados de
“baixo nível” por dados de “alto nível”.
• Normalização: atributos são escalados para um
novo intervalo mais adequado a ser usado.
• Construção de atributos: novos atributos são
construídos adicionados ao conjunto de dados,
para auxiliar o Data Warehouse.
Estratégias de redução de dados

• A redução de dados é uma técnica que busca obter


uma representação significativamente menor dos
dados (em volume), mas que mantenha a
integridade dos dados originais.
• Estratégias de redução de dados como:
• Seleção de atributos.
• Redução de dimensão.
• Redução de número.
• Discretização de atributos.
Conclusão

• A conformação de dados é a combinação de


dados de diferentes fontes em uma base de
dados única e coerente.

• A transformação de dados consiste em


transformar ou consolidar os dados em
um formato mais adequado para o
Data Warehouse.
Conformação de dados
Bloco 2
Washington H. C. Almeida
Dimensões conformadas

• Dimensões conformadas são extremamente


importantes para o Data Warehouse.
• Sem uma adesão restrita às dimensões
conformadas, o Data Warehouse não pode
funcionar de maneira conforme, as tabelas
de fatos separadas simplesmente não pode
ser usadas juntas.
Subconjunto de tabela de dimensões
Figura 1 – Construindo uma tabela conformada de calendário

Fonte: Kimball e Caserta (2009, p. 151).


ETL e a padronização de dados

• As ferramentas de integração de dados


conseguem lidar com a padronização de dados.
• O software deve comparar o conjunto de registros
no fluxo de dados ao universo de registros de
dimensão conformados e retornar:
• Pontuação numérica que quantifica a
probabilidade de uma correspondência.
• Conjunto de chaves de correspondência que
vinculam os registros de entrada a instâncias
de dimensão conformada.
Survivorship

• A última etapa do processo de conformação de


dados é chamada de survivorship (sobrevivência),
que se refere ao processo de destilação de um
conjunto de registros correspondentes, que não são
duplicados, em uma imagem unificada que
combinar os valores.
• A sobrevivência deve ser capaz de destilar
combinações de colunar juntas em vez de
individualmente.
Requisitos comuns de sobrevivência
Figura 2 – Requisitos mais comuns de
sobrevivência suportados

Fonte: Kimball e Caserta (2009, p. 159).


Conclusão

• As preocupações imediatas da equipe de ETL


estão em capturar todas as entradas
sobrepostas e conflitantes e suportando as
necessidades do gerenciador de dimensão e
do provedor de tabela de fatos.
• Os fatos conformados podem ser comparados
diretamente, e podem participar de
expressões matemáticas, como somas ou
proporções.
Teoria em Prática
Bloco 3
Washington H. C. Almeida
Reflita sobre a seguinte situação
• A conformação de dados é uma etapa importante, pois
os dados devem ser tratados visando ter um
entendimento único. Kimball e Caserta (2009) reforçam
isso, mas, devido às diversas fontes de dados, esse
trabalho não é muito trivial.
• Pense no seguinte cenário: é necessário avaliar os
dados importados de cinco sistemas diferentes cada um
com seu cadastro de usuários para, dessa forma, ter
apenas uma dimensão de usuários conformada.
• Qual seria a principal tarefa envolvida nessa demanda?
Como você resolveria isso?
Norte para a resolução...
• A principal questão para tratar os cinco cadastros de usuários é entender os dados de
cada aplicação e compatibilizar para a carga em uma única dimensão no DW. O problema
a ser enfrentado é que, muitas das vezes, é necessário um usuário expert que conheça
os dados do sistema. Geralmente, os usuário ou gestores de sistemas são as pessoas que
tem maior conhecimento sobre os dados da aplicação que gerenciam.

• Um dos problemas comuns é o próprio pessoal de T.I. tentar


fazer esse trabalho de análise das informações de negócio
sem envolver usuários avançados e, no final, o trabalho é
todo em vão, pois os dados não correspondem as
informações que são carregadas das bases dos sistemas OLTP.

• Então, lembre-se: sempre envolva especialistas no negócios


nesse trabalho que não é trivial.
Dica do(a) Professor(a)
Bloco 4
Washington H. C. Almeida
Ferramenta – Oracle Data Integrator (ODI)
• Oracle Data Integrator é uma ferramenta ETL integral para carregar
em um grande Data Warehouse.
Figura 3 – Tela inicial do ODI

Fonte: captura de tela de Oracle Data Integrator.


Referências

HAN, J.; KAMBER, M. Data Mining: concepts and


techniques. Waltham: Elsevier, 2006.
KIMBALL, R.; CASERTA, J. The Data Warehouse ETL
Toolkit: practical techniques for extracting,
cleaning, conforming, and data delivering data.
Indianopolis: Wiley Publishing, 2009.
Bons estudos!

Você também pode gostar