(ETL) Conformação de dados Bloco 1 Washington H. C. Almeida Processo de conformação de dados
• Conformação ou integração de dados diz
respeito à criação de dimensões e instâncias de fatos configuradas, combinando as melhores informações de várias fotos de dados. • Para fazer isso, os dados recebidos precisam ser estruturalmente idênticos, filtrados de registros inválidos, padronizados em termos de conteúdo e não duplicados. Problemas • Identificação de entidades: como garantir que um atributo presente em duas fontes tenha o mesmo significado? • Exemplo: costumer_id. • Quais valores os campos podem assumir? • Exemplo: campo “sexo” pode ter valores “H/M” ou “M/F”. • Redundância. • Dados duplicados. Tipos de transformação de dados
• Suavização: visa eliminar ruídos.
• Agregação: operações de resumo ou agregação são realizadas. • Generalização: consiste em substituir dados de “baixo nível” por dados de “alto nível”. • Normalização: atributos são escalados para um novo intervalo mais adequado a ser usado. • Construção de atributos: novos atributos são construídos adicionados ao conjunto de dados, para auxiliar o Data Warehouse. Estratégias de redução de dados
• A redução de dados é uma técnica que busca obter
uma representação significativamente menor dos dados (em volume), mas que mantenha a integridade dos dados originais. • Estratégias de redução de dados como: • Seleção de atributos. • Redução de dimensão. • Redução de número. • Discretização de atributos. Conclusão
• A conformação de dados é a combinação de
dados de diferentes fontes em uma base de dados única e coerente.
• A transformação de dados consiste em
transformar ou consolidar os dados em um formato mais adequado para o Data Warehouse. Conformação de dados Bloco 2 Washington H. C. Almeida Dimensões conformadas
• Dimensões conformadas são extremamente
importantes para o Data Warehouse. • Sem uma adesão restrita às dimensões conformadas, o Data Warehouse não pode funcionar de maneira conforme, as tabelas de fatos separadas simplesmente não pode ser usadas juntas. Subconjunto de tabela de dimensões Figura 1 – Construindo uma tabela conformada de calendário
Fonte: Kimball e Caserta (2009, p. 151).
ETL e a padronização de dados
• As ferramentas de integração de dados
conseguem lidar com a padronização de dados. • O software deve comparar o conjunto de registros no fluxo de dados ao universo de registros de dimensão conformados e retornar: • Pontuação numérica que quantifica a probabilidade de uma correspondência. • Conjunto de chaves de correspondência que vinculam os registros de entrada a instâncias de dimensão conformada. Survivorship
• A última etapa do processo de conformação de
dados é chamada de survivorship (sobrevivência), que se refere ao processo de destilação de um conjunto de registros correspondentes, que não são duplicados, em uma imagem unificada que combinar os valores. • A sobrevivência deve ser capaz de destilar combinações de colunar juntas em vez de individualmente. Requisitos comuns de sobrevivência Figura 2 – Requisitos mais comuns de sobrevivência suportados
Fonte: Kimball e Caserta (2009, p. 159).
Conclusão
• As preocupações imediatas da equipe de ETL
estão em capturar todas as entradas sobrepostas e conflitantes e suportando as necessidades do gerenciador de dimensão e do provedor de tabela de fatos. • Os fatos conformados podem ser comparados diretamente, e podem participar de expressões matemáticas, como somas ou proporções. Teoria em Prática Bloco 3 Washington H. C. Almeida Reflita sobre a seguinte situação • A conformação de dados é uma etapa importante, pois os dados devem ser tratados visando ter um entendimento único. Kimball e Caserta (2009) reforçam isso, mas, devido às diversas fontes de dados, esse trabalho não é muito trivial. • Pense no seguinte cenário: é necessário avaliar os dados importados de cinco sistemas diferentes cada um com seu cadastro de usuários para, dessa forma, ter apenas uma dimensão de usuários conformada. • Qual seria a principal tarefa envolvida nessa demanda? Como você resolveria isso? Norte para a resolução... • A principal questão para tratar os cinco cadastros de usuários é entender os dados de cada aplicação e compatibilizar para a carga em uma única dimensão no DW. O problema a ser enfrentado é que, muitas das vezes, é necessário um usuário expert que conheça os dados do sistema. Geralmente, os usuário ou gestores de sistemas são as pessoas que tem maior conhecimento sobre os dados da aplicação que gerenciam.
• Um dos problemas comuns é o próprio pessoal de T.I. tentar
fazer esse trabalho de análise das informações de negócio sem envolver usuários avançados e, no final, o trabalho é todo em vão, pois os dados não correspondem as informações que são carregadas das bases dos sistemas OLTP.
• Então, lembre-se: sempre envolva especialistas no negócios
nesse trabalho que não é trivial. Dica do(a) Professor(a) Bloco 4 Washington H. C. Almeida Ferramenta – Oracle Data Integrator (ODI) • Oracle Data Integrator é uma ferramenta ETL integral para carregar em um grande Data Warehouse. Figura 3 – Tela inicial do ODI
Fonte: captura de tela de Oracle Data Integrator.
Referências
HAN, J.; KAMBER, M. Data Mining: concepts and
techniques. Waltham: Elsevier, 2006. KIMBALL, R.; CASERTA, J. The Data Warehouse ETL Toolkit: practical techniques for extracting, cleaning, conforming, and data delivering data. Indianopolis: Wiley Publishing, 2009. Bons estudos!