Você está na página 1de 4

ESTUDO DE CASO: QUALIDADE DOS DADOS NO SISTEMA INTEGRADO DE GESTO SIG PROPOSTA DE UMA ARQUITETURA PARA O PROCESSO DE MELHORIA

DA QUALIDADE
2 Ten Marcello Sandi Pinheiro Analista de BI e Qualidade de Dados
Cap Maral de Lima Hokama Administrador de Banco de Dados
INTRODUO
Durante os ltimos anos ocorreu um crescimento significativo dos Sistemas de Informaes
nas organizaes, fruto de um processo natural de implantao de tecnologias visando a
automatizao das reas e atividades dentro da organizao e, com isso, a dinamizao dos
servios dentro da organizao como um todo. Tecnicamente, tais Sistemas de Informaes
(SI) mantm repositrios com os dados que, na verdade, representam o negcio da
organizao, e so, na realidade, o que h de mais precioso depois dos recursos humano da
organizao.
Alm disso, sabendo que os repositrios podem ser acessados por diversos sistemas e
considerando a suas caractersticas evolutivas, o problema principal est em garantir que a
informao esteja ntegra e saudvel, quer dizer, livre de inconsistncias e redundncias,
tanto as relacionadas padronizao e completude quanto as relacionadas s regras de
negcio.
Nesse sentido, ao se levar em considerao que os dados so usados para diversas finalidades,
inclusive para a tomada de deciso, h uma necessidade intrnseca de qualidade dos dados,
pois h uma razo bem simples para que isso acontea: garantir a confiabilidade da
informao (HUANG et al, 2001).
Em (BATINI, 2003) afirma-se que a importncia da qualidade dos dados nos processos
decisrios e operacionais reconhecido por vrias instituies e organizaes internacionais. O
Data Warehousing Educational & Solution (TDWI, 2010) afirma que a h uma diferena
significativa entre a qualidade dos dados percebida e a real em muitas organizaes. Tais
problemas com qualidade dos dados geram um prejuzo de mais de 600 bilhes de dlares por
ano nas empresas Norte-Americanas.
Tamanho o problema que a m qualidade dos dados pode ocasionar, que algumas
organizaes criaram departamentos especficos para a Gesto da Qualidade dos Dados e da
Informao. Apenas para citar alguns exemplos, no nosso pas a Brasil Telecom (atual Oi
Telecom), a Submarino e o Serasa. No exterior a Fedex, a Cedars-Sinai Medical Center e o
Exrcito Norte-Americano (MIT, 2010; OLSEN, 2003; HUANG et al, 2001).
A qualidade da informao numa organizao propicia a entrega da informao correta, no
tempo adequado, no local indicado e s pessoas certas. No h como o decisor fazer algum
juzo efetivo a partir de dados falhos, incompletos e/ou imprecisos (BATINI, 2003; McGILVRAY,
2008).
Considerando tais aspectos, nesse artigo sero abordados assuntos sobre metodologia de
qualidade de dados, propondo-se uma arquitetura para melhoria da qualidade de dados nos
repositrios utilizados no Data Warehouse (DW) do Sistema Integrado de Gesto (SIG) e o
resultado de uma prova de conceito em uma ferramenta de qualidade de dados.
1. PROPOSTA METODOLGICA EM QUALIDADE DE DADOS
A garantia de qualidade dos dados e da informao exige uma infraestrutura metodolgica
validada e que propicie, dessa forma, garantias de que a implantao desseprocesso na
organizao tenha xito. A metodologia Total Data Quality Managment (TDQM) (MIT, 2010) foi

desenvolvida pelo Massachusetts Institute of Technology (MIT) e adota a perspectiva da


informao como um produto. A TDQM prev mtricas de qualidade da informao, mede a
qualidade ao longo do ciclo de vida da informao, analisa e identifica as causas que geram
problemas de qualidade e define a implementao do processo de melhoria da qualidade dos
dados.
A TDQM um processo iterativo e incremental, onde so definidas etapas e fases bem
especficas. Como resultado da aplicao da TDQM na organizao cria-se o Plano de
Qualidade de Dados. A figura 1 ilustra as quatro etapas dessa metodologia.
|[pic] |

Figura 1: Ciclo da Metodologia TDQM.

2. ARQUITETURA PARA MELHORIA DA QUALIDADE DE DADOS


Trata-se um processo suportado pela TDQM, onde os repositrios operacionais alvo passam
pelo tratamento e melhoria da qualidade dos dados. Comea aps o mapeamento das tabelas
que sero replicadas em uma rea denominada STAGE, com o intuito de, primeiro, manter os
repositrios de origem na produo e, segundo, no onerar os Sistemas de Gerenciamento de
Banco de Dados (SGBD) operativos desses repositrios, conforme ilustrado na figura 2.
[pic]
Figura 2: Arquitetura Proposta para o Projeto de Qualidade de Dados.
As tabelas na STAGE iro passar pelas etapas da TDQM com o intuito de gerar o Plano de
Qualidade de Dados. Dessa forma, os problemasso mapeados e as regras de tratamento e
melhoria de qualidade de dados so definidas e implementadas em uma ferramenta especfica
para qualidade de dados, a qual d suporte a tcnicas de Extrao, Transformao e Carga
(conhecido como ETL) e tambm a recursos especficos para a qualidade de dados utilizando
tcnicas estatsticas, probabilsticas e de inteligncia artificial.
A proposta criar um modelo contnuo de melhoria da qualidade, com processos bem
definidos e com uma equipe especfica responsvel pelo tratamento e melhoria da qualidade
dos dados.
Em um primeiro momento, aps a aplicao de regras de qualidade de dados pela ferramenta,
os dados com qualidade sero armazenados na STAGE com Qualidade (Processo Q1). Os
dados sero replicados sistematicamente aos repositrios de origem e, tambm, serviro de
fonte para a carga do Data Warehouse (DW) do Sistema Integrado de Gesto (SIG) (Processo
Q2).
Dessa forma, esperam-se como benefcios, no somente a melhoria dos dados nos repositrios
de origem, como tambm a criao de relatrios para reportar inconsistncias, relatrios de
acompanhamento da qualidade dos dados, propenso para criar repositrios com dados de
interesse corporativo e unificado, dentre outros, tudo de forma contnua e incremental.
3. PROVA DE CONCEITO EM UMA FERRAMENTA DE QUALIDADE DE DADOS
At o presente momento, foram realizadas duas provas de conceito (PoC) com software de
qualidade de dados. No entanto, somente com o IBM InfoSphere DataStage/QualityStage

Verso 8.1.2 foi possvel implementar um teste onde os processos de ETL e qualidados de
dadosforam implementados para simular um carga completa do Data Mart (DM) de Pessoal do
SIG.
Nesse PoC foram implementadas 42 tarefas de criao de arquivos (datasets), 36 tarefas de
carga em tabelas dimensionais, 12 tarefas de ETL para o ciclo completo de carga da tabela fato,
tendo esse ltimo abrangido todas as regras de negcio e, inclusive, utilizando um arquivo em
formato texto com dados de pessoal proveniente do Centro de Pagamento do Exrcito (CPEx).
Nesse processo foram manipulados 218.906.640 de registros. Todo o processo de ETL e
qualidade de dados foram processados em uma mquina virtual VMWare 3.0.0 de 32 Bits e
com 3 GB de memria virtualizada, com sistema operacional Red Hat 5.0 e espao em disco de
160 GB.
O tempo de processamento para a carga de todas as 17 dimenses foi inferior a 5 minutos.
Todo o processo de preparao da carga, com as regras de negcio, foi realizado em 2 horas e
todo o fluxo, inclusive com a carga no DW e reconstruo dos ndices no Oracle 10g Standard
foi feito em quase 4 horas, um contraste significativo em relao ao processo atual que leva
um pouco mais de 24 horas usando Oracle Warehouse Builder (OWB), sem abranger tcnicas
de qualidade de dados. No processo de qualidade de dados, foi realizada uma tarefa de
saneamento de dados atravs de funcionalidades e tcnicas especficas da ferramenta para
investigao, deduplicao e padronizao de dados. Nesse processo, 18,97 % de dados
discrepantes foram detectados e saneados.
CONCLUSO
Ted Friedman, vice-presidente de pesquisa do Gartner Group, afirma que qualidade de dados
no um problema daTecnologia da Informao, e sim, um problema de gesto de negcio e
processos. Quer dizer, a rea de negcio deve assumir as responsabilidades e conduzir os
processos de melhoria continuamente dentro da organizao apoiando-se em uma ferramenta
de qualidade de dados. Como mostrado no PoC, espera-se que os benefcios sejam a curto e
mdio prazo, com a implantao de um Plano de Qualidade suportado por uma ferramenta de
qualidade de dados. Nesse processo de qualidade, a ferramenta da IBM citada disponibiliza
uma camada de servios baseada nos processos batch de qualificao, fazendo com que os
dados sejam qualificados ainda na origem, alm de possuir um recurso que transforma uma
tarefa, seja de ETL ou de qualidade de dados, em um Web Service para ser disponibilizado no
barramento de servios da organizao, ampliando, dessa maneira, as possibilidades de
tratamento dos dados e ratificando a necessidade da aquisio de uma ferramenta desse nvel
para o Exrcito Brasileiro.
REFERNCIAS
BATINI, Carlo, SCANNAPIECA, Monica. Data Quality: Concepts, Methodologies and Techniques.
Springer-Verlag, 2006.
HUANG, K. T., LEE, Y. W., WANG, R. Y. Quality Information and Knowledge. Prentice Hall, 2001.
McGILVRAY, Danette. Executing Data Quality Projects: Ten steps to quality data and trusted
information. Morgan Kaufmann, 2008.
MIT - Massachusetts Institute of Technology - http://web.mit.edu/tdqm/ acessado em

23/06/2010
OLSEN, Jack E. Data Quality: The Accuracy Dimension. Morgan Kaufmann, 2003.
TDWI - Data Warehousing Educational & Solution - http://tdwi.org/ acessado em 05/05/2010.

Você também pode gostar