Escolar Documentos
Profissional Documentos
Cultura Documentos
DA QUALIDADE
2 Ten Marcello Sandi Pinheiro Analista de BI e Qualidade de Dados
Cap Maral de Lima Hokama Administrador de Banco de Dados
INTRODUO
Durante os ltimos anos ocorreu um crescimento significativo dos Sistemas de Informaes
nas organizaes, fruto de um processo natural de implantao de tecnologias visando a
automatizao das reas e atividades dentro da organizao e, com isso, a dinamizao dos
servios dentro da organizao como um todo. Tecnicamente, tais Sistemas de Informaes
(SI) mantm repositrios com os dados que, na verdade, representam o negcio da
organizao, e so, na realidade, o que h de mais precioso depois dos recursos humano da
organizao.
Alm disso, sabendo que os repositrios podem ser acessados por diversos sistemas e
considerando a suas caractersticas evolutivas, o problema principal est em garantir que a
informao esteja ntegra e saudvel, quer dizer, livre de inconsistncias e redundncias,
tanto as relacionadas padronizao e completude quanto as relacionadas s regras de
negcio.
Nesse sentido, ao se levar em considerao que os dados so usados para diversas finalidades,
inclusive para a tomada de deciso, h uma necessidade intrnseca de qualidade dos dados,
pois h uma razo bem simples para que isso acontea: garantir a confiabilidade da
informao (HUANG et al, 2001).
Em (BATINI, 2003) afirma-se que a importncia da qualidade dos dados nos processos
decisrios e operacionais reconhecido por vrias instituies e organizaes internacionais. O
Data Warehousing Educational & Solution (TDWI, 2010) afirma que a h uma diferena
significativa entre a qualidade dos dados percebida e a real em muitas organizaes. Tais
problemas com qualidade dos dados geram um prejuzo de mais de 600 bilhes de dlares por
ano nas empresas Norte-Americanas.
Tamanho o problema que a m qualidade dos dados pode ocasionar, que algumas
organizaes criaram departamentos especficos para a Gesto da Qualidade dos Dados e da
Informao. Apenas para citar alguns exemplos, no nosso pas a Brasil Telecom (atual Oi
Telecom), a Submarino e o Serasa. No exterior a Fedex, a Cedars-Sinai Medical Center e o
Exrcito Norte-Americano (MIT, 2010; OLSEN, 2003; HUANG et al, 2001).
A qualidade da informao numa organizao propicia a entrega da informao correta, no
tempo adequado, no local indicado e s pessoas certas. No h como o decisor fazer algum
juzo efetivo a partir de dados falhos, incompletos e/ou imprecisos (BATINI, 2003; McGILVRAY,
2008).
Considerando tais aspectos, nesse artigo sero abordados assuntos sobre metodologia de
qualidade de dados, propondo-se uma arquitetura para melhoria da qualidade de dados nos
repositrios utilizados no Data Warehouse (DW) do Sistema Integrado de Gesto (SIG) e o
resultado de uma prova de conceito em uma ferramenta de qualidade de dados.
1. PROPOSTA METODOLGICA EM QUALIDADE DE DADOS
A garantia de qualidade dos dados e da informao exige uma infraestrutura metodolgica
validada e que propicie, dessa forma, garantias de que a implantao desseprocesso na
organizao tenha xito. A metodologia Total Data Quality Managment (TDQM) (MIT, 2010) foi
Verso 8.1.2 foi possvel implementar um teste onde os processos de ETL e qualidados de
dadosforam implementados para simular um carga completa do Data Mart (DM) de Pessoal do
SIG.
Nesse PoC foram implementadas 42 tarefas de criao de arquivos (datasets), 36 tarefas de
carga em tabelas dimensionais, 12 tarefas de ETL para o ciclo completo de carga da tabela fato,
tendo esse ltimo abrangido todas as regras de negcio e, inclusive, utilizando um arquivo em
formato texto com dados de pessoal proveniente do Centro de Pagamento do Exrcito (CPEx).
Nesse processo foram manipulados 218.906.640 de registros. Todo o processo de ETL e
qualidade de dados foram processados em uma mquina virtual VMWare 3.0.0 de 32 Bits e
com 3 GB de memria virtualizada, com sistema operacional Red Hat 5.0 e espao em disco de
160 GB.
O tempo de processamento para a carga de todas as 17 dimenses foi inferior a 5 minutos.
Todo o processo de preparao da carga, com as regras de negcio, foi realizado em 2 horas e
todo o fluxo, inclusive com a carga no DW e reconstruo dos ndices no Oracle 10g Standard
foi feito em quase 4 horas, um contraste significativo em relao ao processo atual que leva
um pouco mais de 24 horas usando Oracle Warehouse Builder (OWB), sem abranger tcnicas
de qualidade de dados. No processo de qualidade de dados, foi realizada uma tarefa de
saneamento de dados atravs de funcionalidades e tcnicas especficas da ferramenta para
investigao, deduplicao e padronizao de dados. Nesse processo, 18,97 % de dados
discrepantes foram detectados e saneados.
CONCLUSO
Ted Friedman, vice-presidente de pesquisa do Gartner Group, afirma que qualidade de dados
no um problema daTecnologia da Informao, e sim, um problema de gesto de negcio e
processos. Quer dizer, a rea de negcio deve assumir as responsabilidades e conduzir os
processos de melhoria continuamente dentro da organizao apoiando-se em uma ferramenta
de qualidade de dados. Como mostrado no PoC, espera-se que os benefcios sejam a curto e
mdio prazo, com a implantao de um Plano de Qualidade suportado por uma ferramenta de
qualidade de dados. Nesse processo de qualidade, a ferramenta da IBM citada disponibiliza
uma camada de servios baseada nos processos batch de qualificao, fazendo com que os
dados sejam qualificados ainda na origem, alm de possuir um recurso que transforma uma
tarefa, seja de ETL ou de qualidade de dados, em um Web Service para ser disponibilizado no
barramento de servios da organizao, ampliando, dessa maneira, as possibilidades de
tratamento dos dados e ratificando a necessidade da aquisio de uma ferramenta desse nvel
para o Exrcito Brasileiro.
REFERNCIAS
BATINI, Carlo, SCANNAPIECA, Monica. Data Quality: Concepts, Methodologies and Techniques.
Springer-Verlag, 2006.
HUANG, K. T., LEE, Y. W., WANG, R. Y. Quality Information and Knowledge. Prentice Hall, 2001.
McGILVRAY, Danette. Executing Data Quality Projects: Ten steps to quality data and trusted
information. Morgan Kaufmann, 2008.
MIT - Massachusetts Institute of Technology - http://web.mit.edu/tdqm/ acessado em
23/06/2010
OLSEN, Jack E. Data Quality: The Accuracy Dimension. Morgan Kaufmann, 2003.
TDWI - Data Warehousing Educational & Solution - http://tdwi.org/ acessado em 05/05/2010.