DW Etl Datamining

IME
ISSN 1982-9035 Monografias em Sistemas e Computao n 01/2010
Um Estudo Sobre Provenincia e Complementao de Dados no Contexto do Processo de ETL

Lvia de Souza Ribeiro
Seo de Engenharia de Computao
INSTITUTO MILITAR DE ENGENHARIA PRAA GENERAL TIBRCIO 80 CEP 22290-270 RIO DE JANEIRO BRASIL
Monografias em Sistemas e Computao, No. 01/2010 Editor: Prof. Claudia Marcela Justel
ISSN: 1982-9035 Agosto, 2010
Um Estudo sobre Provenincia e Complementao de Dados no Contexto do Processo de ETL

Lvia de Souza Ribeiro
liviaribeiro14@gmail.com
Abstract. Data contained in a typical Data Warehouse (DW) are from different data sources systems. It is necessary the values in the DW have high quality for future analysis are consistently results. However, data from some sources may not be available on certain dates/periods. Thus, it is usual null values in DW fact table. In the process of loading this environment, known as ETL (Extraction, Transformation, and Load), and transformations main objective is to improve the data quality, decreasing the problems at the base. Therefore, this step also deals with missing data in the DW environment. The data imputation is one of the approaches used in solving the problem of null values in the tables. This approach consists in the fulfillment of missing data in a table with new values. Among the imputation techniques, the most used is the observation of table values to generate a new value. This report shows a study on the ETL process, data provenance, and some techniques for data imputation, seeking to make connections between subjects. Keywords: Data Warehouse; Data Imputation; Data Provenance. Resumo. Os dados contidos em um Data Warehouse (DW) tpico so provenientes de diversas fontes. necessrio que os valores contidos no DW apresentem boa qualidade para que em uma futura anlise dos mesmos seja apresentado resultado coerente. Entretanto, dados de algumas fontes podem no estar disponveis em determinadas datas/perodos. Assim, comum ocorrer ausncia de valores na tabela de fatos do DW. No processo de carga deste ambiente, conhecido como ETL (Extration, Tranformation, and Load), a etapa de Transformao tem como objetivo principal melhorar a qualidade dos dados, amenizando os problemas existentes na base. Assim sendo, esta etapa tambm trata dos dados ausentes no ambiente de DW. Uma das abordagens utilizadas na resoluo do problema da ausncia dos valores nas tabelas a tcnica de imputao de dados. Esta tcnica consiste no preenchimento das ausncias em uma tabela com novos valores. Entre as tcnicas de imputao, a mais utilizada a observao dos valores presentes na tabela para a gerao de um novo valor. Este trabalho mostra um estudo feito sobre o processo de ETL, provenincia de dados e algumas tcnicas de imputao de dados, buscando realizar as ligaes entre os assuntos. Palavras-chave: Data Warehouse; Imputao de Dados; Provenincia de Dados.
ii
Responsvel pela publicao: Ricardo Choren IME Seo de Engenharia de Computao Praa General Tibrcio 80, Praia Vermelha 22290-270, Rio de Janeiro/RJ, Brasil Tel. +55 21 2546-7090 E-mail: choren@ime.eb.br
ii
1 Introduo
A necessidade de ferramentas para anlises dos dados de uma organizao e o crescente poder de processamento dos computadores impulsionaram a gerao de sistemas para armazenar dados oriundos de diversas fontes [Inmon, 1997]. Estes sistemas so conhecidos como data warehouses (DW), ou armazns de dados. Segundo [Inmon, 1997], um DW pode ser definido como: um conjunto de banco de dados integrados e baseados em assuntos, onde cada unidade de dados est relacionada a um momento. Pela definio exposta, pode-se perceber que um ambiente de DW no consiste apenas de dados. Ele visa integrao de diversas fontes e possibilita um acesso rpido a um grande volume de dados consolidados com auxlio de um conjunto de ferramentas para consultar, analisar e apresentar as informaes disponveis [Kimball, 1998]. Desta forma, o DW pode ser utilizado na construo de Sistemas de Apoio Deciso (SAD). Em sntese, um data warehouse tem por trs um banco de dados especializado, o qual resulta da integrao e do gerenciamento do fluxo de informaes oriundo dos bancos de dados corporativos e, inclusive, de fontes de dados externas organizao. Por ter como objetivo principal a anlise dos dados, os valores contidos nas bases de um DW tm um foco diferente daqueles inseridos nos bancos de dados orientados por transaes. Estes ltimos so os corporativos e esto focados nas operaes de um negcio, enquanto os primeiros refletem o histrico das operaes e atendem s necessidades dos sistemas de apoio e suporte s decises gerenciais. uma prtica recomendada que a organizao fsica da base de dados em um DW siga o modelo dimensional (ou esquema estrela) [Kimball, 1998]. Este modelo consiste de uma tabela dominante, a qual se encontra no centro do diagrama, chamada de tabela de fatos. Esta conecta as tabelas secundrias, chamadas de dimenses. Em um esquema estrela tpico de DW, a tabela de fatos contm informaes sobre alguma ao que as dimenses realizaram em conjunto [Wu e Barbar, 2002]. Em outras palavras, uma combinao de identificadores de dimenso determina um valor de um fato na tabela de fatos. Esta combinao est atrelada regra de organizao do nvel de informao que um fato deve apresentar. Por exemplo, um fato x deve ser registrado por dia, ou por hora ou qualquer outro parmetro especificado pela regra. Usualmente, os dados corporativos que iro compor as dimenses e a tabela de fatos esto armazenados de forma distribuda, em diversas fontes. Devido a esta distribuio, os dados podem variar, por exemplo, com relao ao formato, unidade de medida, dentre outros. Esta variedade pode gerar incoerncias (no uniformidade) nos valores extrados das fontes, exemplos: erros de digitao, ausncia de dados, incoerncia entre os metadados, entre outros. Uma vez que ocorram incoerncias, para permitir uma anlise consistente a base de um DW, so necessrias transformaes. Estas transformaes so consideradas uma etapa importante no processo de alimentao de um DW, uma vez que uma anlise sobre dados no uniformes pode levar a informaes inconsistentes, as quais no refletem a verdadeira realidade de uma corporao e, consequentemente, podem levar a decises erradas. A figura 1.1 exibe um exemplo de uma modelagem de uma base de dados em um DW que segue o esquema estrela. Este modelo fictcio representa a venda de produtos de uma rede de lojas. O ato da venda representa um fato armazenado na tabela de fatos Venda, enquanto os dados que dizem qual produto foi vendido, quem realizou a compra, quem o fornecedor do produto vendido e o dia da ao podem ser captura-
dos nas dimenses Produto, Cliente, Fornecedor e Tempo, respectivamente. No h dependncia entre dimenses, todas esto ligadas somente tabela de fatos.
Figura 1.1 Exemplo de uma modelagem no esquema estrela
O processo de alimentao de um DW no um processo simples. Alm da etapa de transformao inclui tambm as etapas de extrao e carga, e mais conhecido como processo ETL (Extration, Transformation and Load ETL). Normalmente, o processo de ETL implementado como uma composio de ferramentas de software, a qual tem como funo a extrao dos dados de diversos sistemas, transformao dos dados conforme as regras do negcio (isto , aquelas que definem como um negcio funciona), e de limpeza e uniformizao dos dados, e a carga dos mesmos no banco de dados do ambiente de DW [Kimball e Caserta, 2004]. Na etapa de extrao, os dados so capturados das mltiplas fontes, sendo necessrias diferentes ferramentas adaptadas para cada. Tais ferramentas devem ser periodicamente ativadas para capturar dados ao longo do dia a dia de um sistema fonte. Informaes de origem e do momento em que um dado surge no contexto de um sistema fonte (por exemplo, o total de vendas da loja A na data 26/05/2009 so indicadoras da provenincia daquele dado). A provenincia em base de dados uma abordagem que permite descrever as informaes histricas dos dados, como origem, momento de criao, processos de transformaes, entre outros [Buneman, Khanna e Tan, 2001]. Assim, tipicamente, os fatos em um DW j vm acompanhados de sua provenincia, por conter o contexto dos fatos. J na etapa de transformao do processo ETL, incluem-se transformaes que visam limpar os dados, isto , detectar e corrigir erros contidos neles. A limpeza trata de vrios tipos de erros, como valores ilegais, valores que no obedeam s regras de integridade da base, erros de ortografia, entre outros. H tambm a ausncia de valores na base, tratada nesta etapa do ETL. Este trabalho o resultado de pesquisas realizadas para a dissertao de mestrado intitulada Utilizando Provenincia para Complementao de Dados no Contexto do Processo de ETL. No sentido de embasar os estudos para o desenvolvimento desta dissertao, fez-se um levantamento sobre o ambiente de data warehouse, e em especial sobre o processo de extrao, transformao e carga dos dados. Alm disso, so mostrados o estudo do problema da falta de valores nas bases de dados, algumas abordagens de complementao de dados e conceitos gerais sobre provenincia em base de dados. Esto relatadas tambm diversas abordagens para a complementao dos dados ausentes. H vrias formas de resolver o problema da ausncia, sendo que cada uma delas pode gerar resultados possivelmente diferentes em uma mesma base. O ideal, segundo [Castaneda et al, 2008], o analista poder experimentar diversas abordagens e escolher aquela que produza melhores resultados ao problema especfico, aplicando-a em seu sistema.
O trabalho est organizado da seguinte forma: a seo 2 mostra uma viso geral dos conceitos bsicos sobre o Ambiente de Data Warehouse, processo de ETL e Provenincia. Na seo 3 so apresentados os conceitos sobre Complementao de Dados e as abordagens usualmente aplicadas no problema dos dados ausentes. Nas sees 4 e 5 so relatadas a concluso e referncias bibliogrficas, respectivamente.
2 Extrao de Dados em Ambientes de Data Warehouse

2.1 Ambiente de Data Warehouse
Ambientes de DWs possibilitam a anlise de grandes volumes de dados coletados de diversas fontes. Geralmente a base de dados do DW no armazena informaes sobre os processos de uma nica atividade, mas cruza e consolida vrias informaes de processos distintos. Com a implantao de um armazm de dados, possvel estruturar um repositrio de dados que ser uma fonte de informaes para a tomada de deciso. Segundo [Kimball e Ross, 1998], os componentes que formam um DW completo so: Sistemas de Origem so os sistemas considerados como fontes de dados, de onde estes so extrados para serem integrados no base de dados. Data Staging Area esta uma rea de armazenamento intermedirio. Atua de forma abrangente, do acesso base dos dados nos sistemas de origem at a rea de apresentao. Neste local, os dados so transformados e organizados de acordo com as regras do negcio. rea de Apresentao de Dados ambiente onde os dados so organizados, gravados e disponibilizados aos usurios. Nessa rea, possvel que os usurios realizem consultas, gerem relatrios e outras aplicaes de anlise. Ferramenta de Acesso aos Dados atravs das ferramentas de acesso, os dados consolidados se tornam acessveis e visveis aos usurios.
Em sntese, no DW os dados so capturados dos sistemas aplicativos de origem, so encaminhados para Data Staging Area onde sofrem uma srie de transformaes e so carregados para a rea de apresentao de dados. Aps este processo, as ferramentas de anlise dos dados podero ter acesso base para suas tarefas.
2.2
Processo de ETL
O processo de extrair os dados das fontes, transform-los e envi-los para a rea de apresentao tem grande importncia no sistema de DW. o chamado processo de ETL, um acrnimo de Extract, Transformation, Load (Extrao, Transformao e Carga). O ETL compreende um conjunto de softwares que so normalmente utilizados como instrumento para a construo e integrao de dados do ambiente do armazm de dados. Um sistema de ETL, quando adequado, extrai os valores de distintos sistemas de origem e cumpre as normas de qualidade e consistncia, para que os dados possam ser utilizados em conjunto [Kimball e Caserta, 2004]. possvel assim uma apresentao de dados com qualidade, onde desenvolvedores possam construir aplicativos e usurios finais tomarem decises. Por abrangerem grandes volumes de dados, os ambientes
de DW esto no contexto de projetos de grande porte que requerem, em geral, significativo investimento de tempo e recursos. E este investimento est quase todo direcio nado ao ETL, justamente pela busca dos dados com qualidade. Segundo [Kimball e Caserta, 2004], embora o processo de ETL seja transparente aos usurios finais, ele consome cerca de 70% dos recursos necessrios para a implementao e manuteno de um tpico DW. Com a evoluo dos seus negcios, as empresas adquirem ou herdam vrios sistemas que a auxiliam a gerir seus negcios. Com grande frequncia, esses sistemas so fsica e logicamente incompatveis [Kimball e Caserta, 2004]. O processo de ETL precisa efetivamente integr-los em suas diferenas de: Repositrio de dados, como os sistemas gerenciadores de bancos de dados (SGBD); Sistemas operacionais; Hardware; Protocolo de comunicao.
[Kimball e Caserta, 2004] descrevem quatro passos do processo de ETL, como mostrado na figura 2.1. Em geral, os ambientes de DW esto de acordo com essas quatro etapas. importante salientar que os passos de limpeza e conciliao, mostrados na figura, fazem parte da transformao dos dados, do processo de ETL. As subsees a seguir abordam as quatro etapas.
Figura 2.1 Os quatro passos do processo de ETL no data stagin rea. Fonte: Adaptado de [Kimball e Casserta, 2004]
2.2.1 Extrao de Dados No passo de extrao, os dados brutos provenientes dos sistemas de origem so normalmente escritos diretamente para o disco com pouca reestruturao. As fontes de dados estruturados podem ser capturadas geralmente em formato de arquivos de textos (flats) ou tabelas relacionais. No entanto, a extrao de dados dos ambientes operacionais para o ambiente de DW demanda uma mudana de tecnologia. Os dados normalmente se encontram estruturados de forma a atender sistemas tradicionais, utilizando tecnologias de Banco de Dados convencionais, diferentes da tecnologia recomendada para um ambiente de DW. medida que os dados so transferidos, eles precisam ser adequados de acordo com a tecnologia usada no DW. A seleo dos dados que sero enviados ao armazm de dados tambm uma tarefa complexa. Uma vez que os valores se encontram em diversas bases, inmeras pesquisas devem ser efetuadas, respeitando a lgica de conexo, indexao e assim por diante [Inmon, 1997]. necessrio que neste passo tenha
sido definido um mapa de dados lgico, o qual mostra o relacionamento dos atributos das fontes primrias. Um fator importante no armazenamento dos dados extrados identificar a origem de cada dado. Saber de onde os dados foram capturados e quem os utiliza so informaes imprescindveis a um DW, uma vez que essas informaes tm capacidade de in fluenciar na descoberta de conhecimento [Kimball e Caserta, 2004]. Depois de capturados, os dados podem ser lidos quantas vezes forem necessrias, no apoio s etapas sucessivas. No entanto, h casos em que alguns dados capturados inicialmente so descartados aps a limpeza, etapa descrita na subseo seguinte, uma vez que esses apresentem erros difceis de serem contornados e que no proporcionem vantagens descoberta de conhecimento. 2.2.2 Limpeza de Dados Aps o passo de extrao, os dados so submetidos ao passo de limpeza, isto , as transformaes dos dados sujos para limpos. So chamados de dados sujos aqueles que apresentam erros ortogrficos, redundncia em diferentes representaes ou outros valores invlidos [Rahm e Do, 2005]. Cada fonte carregada no banco de dados do DW pode conter dados sujos. Alm do mais, os dados podem ser representados de forma diferente, ou se sobrepem ou se contradizem entre mltiplas fontes. Isso ocorre porque as fontes so tipicamente desenvolvidas, implantadas e mantidas de forma independente para atender s necessidades especficas de suas aplicaes. Consequentemente, os dados, em geral, apresentam um grande grau de heterogeneidade, isto , vrias maneiras de serem descritos. Este passo da limpeza est diretamente relacionado ao nvel de qualidade dos dados. A limpeza realmente muda os dados conforme sua utilizao e finalidade [Kimball e Caserta, 2004][Inmon, 1997]. Kimball e Caserta [2004] dizem que um dado tem qualidade quando ele : Correto: os valores e as descries dos seus dados associados descrevem objetos com veracidade e confiabilidade. Por exemplo, o setor de trabalho de uma determinada pessoa Recursos Humanos. Ento, os dados precisos sobre o local de trabalho da pessoa devem informar que ela est alocada no setor de Recursos Humanos. No ambguo: os valores e as descries do dado s apresentam um sentido. Seguindo o exemplo acima, a empresa na qual a pessoa trabalha tem vrias filiais. No entanto, o setor de Recursos Humanos que ela est alocada o da filial do Rio de Janeiro. Por isso, necessria a clareza na informao de qual filial o setor est associado, evitando assim ambiguidades. Coerente: os valores e as descries dos dados em uso constante podem apresentar uma conveno para transmitir seu significado. Por exemplo, o setor de Recursos Humanos pode ser representado por RH ou Rec. Humanos. O estado do Rio de Janeiro pode ser representado por RJ. preciso, portanto, que o sistema reconhea ou padronize as descries. Completo: segurana que os valores individuais e as descries dos dados so definidos (no nulos) para cada instncia, por exemplo, assegurar que cada funcionrio esteja lotado em um setor da empresa.
A abordagem de limpeza deve procurar aumentar a qualidade dos dados. Para tanto, so necessrios meios ferramentais automticos para detectar e remover os principais erros e incoerncias dos dados extrados das fontes. Algumas vezes, a limpeza tambm se apia em ferramentas manuais, em casos onde a interveno do analista necessria. Alm disso, a limpeza no deve ser feita de forma isolada, mas em conjunto com o esquema dos dados extrados e transformaes globais baseadas em metadados. Em um ambiente de DW, uma infraestrutura de workflow deve apoiar a execuo de todos os passos para a transformao dos dados de fontes grandes e mltiplas em dados confiveis, de uma forma eficiente [Rahm e Do, 2005].
Tabela 2.1 Exemplos de problemas de dados sujos. Fonte: Adaptado de [Rahm e Do, 2005]
Segundo [Rahm e Do, 2005], os problemas de dados sujos podem ocorrer tanto em nvel de instncia como de esquema. Problemas de nvel de instncias referem-se a erros e incoerncias nos contedos dos dados reais que no so visveis no nvel do esquema, por exemplo, erros ortogrficos ou dados faltantes. Por outro lado, problemas de nvel de esquema so, naturalmente, refletidos nas instncias, pois as instncias podem ser dirigidas no nvel de esquema por um desenho de integrao com outros esquemas. A interferncia do esquema na qualidade do dado est relacionada falta de um modelo especfico adequado ou pela falta de aplicao de restries especficas de integridade. Esses problemas so o principal foco de limpeza de dados. A tabela 2.1 exemplifica alguns deles. Em geral, limpeza de dados envolve mltiplas iteraes de diversas fases [Rahm e Do, 2005]: a anlise dos dados, com intuito de detectar qual tipo de erros e incoerncias necessitam ser solucionados; a definio do fluxo de transformao envolvendo a lim-
peza e o mapeamento de regras; a limpeza das fontes originais que apresentaram dados sujos; a execuo das transformaes propriamente ditas; a anlise e passos de verificaes de erros, uma vez que alguns erros s se tornam visveis depois de aplicar algumas transformaes. Na etapa de transformao do ETL tratado o problema da ausncia de dados nas bases. estudado o problema e suas solues com mais profundidade na seo 3. Naturalmente, os problemas de dados sujos podem ser prevenidos na modelagem do esquema do banco de dados, nas regras de integridade das bases entre sistemas aplicativo dos quais sero extrados os dados e um tratamento mais efetivo dos dados antes da entrada dos mesmos na base do aplicativo. No entanto, nem sempre essas boas prticas so observadas, como tambm no h, muitas vezes, um padro de esquemas entre os sistemas. Por isso, grande importncia tem este passo no processo de ETL para um sistema de DW. Apesar de existirem diversas ferramentas disponveis que apoiam este passo, muitas vezes uma parte significativa dos trabalhos de limpeza e transformao tem sido realizada manualmente ou por programas de baixo nvel, os quais so difceis de escrever e manter [Rahm e Do, 2005]. Programas de baixo nvel so aqueles que foram escritos o mais prximo das linguagens de mquina. 2.2.3 Conciliao de Dados Integrao de dados significa a criao de uma estrutura do esquema da base do DW, que concilie as dimenses e padronize as tabelas de fatos, construdas a partir da combinao das vrias fontes de dados, possibilitando assim uma viso mais coerente das informaes. Para tanto, os dados recebidos base do DW precisam se adequar a uma estrutura lgica da organizao dos dados. A conciliao trata da lgica da base, identificando os metadados de cada base e adequando cada um estrutura proposta no DW. Alm do mais, a conciliao tambm verifica os dados em nvel de instncias, tratando a padro nizao dos termos do contedo da base e da duplicao dos dados. Isto significa que a estrutura lgica dos dados, tanto no nvel de esquema quanto de instncia, em que consistem os dados provenientes das fontes deve ser esclarecida para que estas contribuam com seus valores, segundo o conjunto de condies corretas do projeto [Inmon, 1997]. Assim como na limpeza, este passo tambm faz parte das transformaes dos dados. Para que as dimenses e a tabela de fatos sejam conciliadas, h um subsistema de conciliao dentro do processo de ETL, com o objetivo de referenciar, nas bases fonte, os metadados que sero capturados e os relacionamentos explcitos entre valores vlidos destas bases para valores de atributos consolidados das dimenses e valores conciliados dos fatos [Kimball e Caserta, 2004]. Conciliao dos dados um passo extremamente importante para o DW. Fontes separadas de dados no podem ser consultadas em conjunto sem que os seus atributos no estejam diretamente relacionados por medidas numricas de semelhana. Sem este passo, o DW no pode funcionar todo integrado. A falta de integrao entre as fontes causaria resultados fora da realidade da instituio que utiliza o DW.
2.2.4 Entrega dos Dados O passo de entrega responsvel pela resposta do processo de ETL, onde os dados esto prontos para as consultas. neste passo que os dados so estruturados fisicamente em conjuntos simples, nos esquemas simtricos conhecidos como modelos dimensionais. Esses esquemas reduzem significativamente o tempo das consultas e simplificam o desenvolvimento de aplicativos [Kimball e Caserta, 2004]. Ao passar pelo processo de ETL, os dados esto prontos para serem acessados pela camada de apresentao. Todo o processo de extrao, transformao e limpeza dos dados realizado para que eles sejam organizados e utilizados de forma til ao ambi ente. No regra que o processo de ETL seja sequencial. Suas etapas podem ser executadas em paralelo [Kimball e Caserta, 2004]. Enquanto lotes de dados so buscados das fontes de origem, a limpeza dos lotes j carregados pode ser realizada. Os dados tambm j podem ser organizados no esquema proposto para o ambiente de DW. Sendo assim, combinaes entre as dimenses que devem existir na tabela de fatos j podem ser verificadas. E se houver problema em uma combinao, o tratamento do registro realizado. Como tambm, caso os dados sejam organizados no esquema da base do DW no final do processo, isto , na entrega dos dados, em paralelo pode ocorrer a limpeza da base, principalmente aquelas que dependem da organizao dos dados na estrutura. No contexto que se chama atualmente de DW 2.0 [Inmon, 2006], buscado, em ambientes de armazns de dados, uma integrao maior entre os dados e seus metadados, alm de recuperar e analisar tambm dados no estruturados, como, por exemplo, emails, planilhas eletrnicas, documentos diversos, entre outros. Logo, preciso que o processo de ETL se adapte a esta realidade. Outro fator importante do DW 2.0 o ciclo de vida do dado, o qual informa quando o dado foi capturado at seu abandono com o passar do tempo. [Inmon, 2009] diz que DW so mais efetivos quando separam os dados em diferentes setores de acordo com a idade do dado e sua probabilidade de acesso. O autor divide esses setores de dados em current, near current, olders e archival. Atividade tambm diretamente relacionada ao processo de ETL.
2.3
Provenincia de Dados
Com a crescente quantidade de dados disponveis ao pblico, torna-se cada vez mais difcil saber a veracidade e a qualidade desses dados. Ao usar a Internet, por exemplo, muitos usurios se mostram desconfiados em relao s informaes contidas na rede. Do mesmo modo, no ambiente cientfico necessrio haver segurana nos dados que sero usados em experimentos. Informaes precisas que atestem a data de criao do dado, por quem foi criado, para que e os lugares pelos quais o dado passou at chegar ao usurio e suas provveis mudanas so de grande importncia quando preciso saber um histrico para validlo. Este histrico chamado de provenincia de dados, a qual visa responder "como", "quando", "onde", "porque" os dados foram gerados e "quem" os gerou [Buneman, Khanna e Tan, 2001][Buneman, Khanna e Tan, 2000]. Provenincia de dados, tambm denominada procedncia de dados, a descrio das origens de uma poro de dados e o processo pelo qual ela foi obtida [Buneman, Khanna e Tan, 2001]. As origens podem ser diversas, a entrada de um dado pode ter
sido realizada por um usurio, um aplicativo, resultado de consultas, entre outros. A provenincia tambm conhecida como pedigree ou linhagem dos dados. Ela pode ser representada como metadado, por ser um dado que descreve outro dado [Zhaol et al, 2003]. Com informaes de provenincia, se torna possvel ao usurio rastrear a origem de uma falha sobre as bases de dados ou os programas que causam erros [Woodruff e Stonebraker, 1997]. Isto , caso exista um suporte informao de provenincia dos dados numa aplicao, possvel a investigao da origem dos erros ou os programas que geraram os conjuntos de dados defeituosos. Sem a provenincia, as correes dos problemas apresentariam um alto grau de dificuldade ou at mesmo os erros seriam impossveis de serem encontrados. Alm disso, a provenincia tambm til na proteo dos direitos de propriedade de um conjunto de dados e pode ajudar na recuperao de um dado inicial, isto , a primeira verso que no sofreu nenhuma modificao de outras aplicaes. Para tanto, necessrio definir como a provenincia na base de dados ser realizada. Segundo [Tan, 2004], h duas abordagens para as tcnicas de rastreamento da provenincia: postergada e imediata. A abordagem postergada rastreia a provenincia somente quando for solicitada. Como principal vantagem, o clculo da provenincia s realizado quando h requisio do usurio. O problema da abordagem o tempo de resposta da consulta, que depende do algoritmo utilizado. Esse tempo inversamente proporcional ao nmero de derivaes que um dado sofreu. J na abordagem imediata, o rastreio da provenincia calculado no momento da consulta em uma base de da dos. Para tal, necessrio que haja o armazenamento de provenincia conforme a transformao dos dados. A cada passo de derivao sofrido por um dado da base, metadados ou anotaes so armazenados em uma base de provenincia. Esta abordagem tem como vantagem a viso da provenincia dos dados resultantes juntamente com a consulta. O tempo de processamento necessrio para chegar at a provenincia apenas o tempo de realizar uma consulta na base de dados sobre o ndice na base de provenincia. A desvantagem a necessidade de espao para armazenar a provenincia, que pode ser maior do que a prpria base de dados. Outro prejuzo que cada vez que a base de dados for atualizada, necessariamente implica na atualizao da base de provenincia. Diversas reas podem obter vantagens utilizando o potencial da provenincia de dados [Simmham, Plale, Gannon, 2005][Greenwood et al, 2003]. Os sistemas de informao se beneficiam da provenincia possibilitando um histrico sobre os recursos disponveis, criando, assim, maior confiabilidade e segurana aos dados que so usados. Em um ambiente tpico de DW, algumas dimenses do armazm apresentam atributos que trazem informaes sobre o contexto dos dados, isto , como, quando, onde e por quem o dado foi gerado. Por exemplo, em um DW sobre venda, usualmente encontra-se atributos como o dia da semana, ou a regio de venda de um produto, ou mesmo a categoria dos clientes que efetuaram a compra, entre outros. Os atributos que contm essas informaes tambm poderiam ser considerados como atributos de provenincia e no s aqueles que podem ser interpretados como metadados circunstanciais, dito anteriormente. De maneira geral, os dados de provenincia poderiam ser teis na melhoria da qualidade dos dados durante o processo de limpeza (processo ETL), como por exemplo, para auxiliar no tratamento do problema da ausncia de dados, uma vez que possvel identificar maior similaridade entre as tuplas de uma mesma provenincia.
Alm disso, a provenincia do prprio processo de limpeza dos dados tambm pode ser armazenada, isto , ao identificar que certo dado foi limpo pelo processo, o usurio teria a possibilidade de verificar quais alteraes o dado sofreu, o porqu das alteraes, em quais etapas da limpeza ele passou e quando foram feitas as aes sobre ele, entre outras informaes.
2.4
Ausncia de Dados em Ambientes de Data Warehouse
Qualquer processo de captao de dados est sujeito a erros de vrias origens, tais como: erros em dados capturados automaticamente, ou dados negados de entrevistados em pesquisas, falhas humanas, erros de sistemas, entre outros [Rubin, 1976] [Batista e Monard, 2003b] [Farhangfar et al, 2007]. Valores ausentes na base dificultam a anlise dos dados, pois podem induzir a concluses no coerentes sobre negcio ao qual pertencem. Dados incompletos causam, em geral, ms interpretaes nas anlises. Pode-se considerar, portanto, que a ocorrncia de ausncia de dados em uma base leva reduo da qualidade da informao nela contida. H na literatura muitas definies sobre o que qualidade dos dados. No estudo de [Amaral e Campos, 2004] feito um levantamento sobre o tema e dito, em termos gerais, que o assunto qualidade dos dados uma juno de diferentes critrios para expressar esse conceito, no entanto ainda no h um consenso de qual conjunto de crit rios pode melhor expressar a qualidade. Por ser medida tanto qualitativamente quanto subjetivamente, os critrios vo depender diretamente de um observador, como tambm do contexto no qual os dados fazem parte. Apesar dessa dificuldade, as autoras utilizam uma definio de qualidade, em que um dos critrios, a completeza, aborda o problema da ausncia de dados. A completeza indica o grau no qual os dados esto presentes, isto , o quo completos esto os dados. Em DW podem ser verificados problemas de ausncia de valores tanto nas mtricas da tabela de fatos como nas dimenses [Amaral e Campos, 2004] [Wu e Barbar, 2002b]. Nas dimenses, o padro de ausncia na tabela pode ser tanto geral, sem distino entre dimenses e seus atributos, quanto especfico, que acontece somente em um atributo de determinada dimenso. J nas tabelas de fatos, a ausncia pode estar ligada no captura de um fato. Isto , uma combinao de valores das dimenses, que representa um fato no DW, no se encontra presente. De acordo com [Wu e Barbar, 2002b] h duas causas principais para a ausncia de uma combinao de valores de dimenso: pelo fato de no ter havido ocorrncia daquela combinao, por exemplo, no houve vendas de um dado produto, em dada loja e data; ou por ter ocorrido alguma falha. Assim, no caso de falha, a etapa de limpeza do processo ETL, deveria identificar esses casos e incluir na tabela de fatos as tuplas ausentes, com valores nulos associados aos atributos de mtricas. Este trabalho est focado neste tipo de ausncia da tabela de fatos, e considera que as incluses das combinaes ausentes j teriam sido feitas. Pode-se, portanto, classificar o padro de ausncia na tabela de fatos como especfico do tipo aleatrio, uma vez que erros podem ocorrer por diversos motivos na captura de um fato. Para exemplificar, considere um DW que tenha na sua base de dados uma tabela de fatos de vendas, a qual envolve as dimenses produto, fabricante, tempo. Supe-se que exista uma regra de negcio que informe a necessidade de armazenar, por dia, a venda de todos os produtos, mesmo que nenhum produto tenha sido vendido. Uma tupla na tabela de fatos representa a venda do produto p3, do fabricante f3 realizada em um
10
dia t3, e corresponde a um valor q3 que indica a quantidade vendida. O fato da tupla <p3, f3, t3, q3> no constar na tabela de fatos significa que a venda daquele produto/fabricante naquele dia no foi capturada por alguma falha na comunicao com o sistema fonte. Precisa-se, portanto, diminuir o impacto desse problema, se no houver meios de recuperar os valores reais do fato, incluindo-o na tabela para que seja tratado. importante esclarecer que o valor ausente (ou nulo) diferente do valor 0 (zero). Uma vez que os ambientes de DW so utilizados para a tomada de deciso, importante que sejam tratados os problemas de ausncia de valores tanto na tabela de fa tos, quanto nas dimenses. Segundo [Hong et al, 2008], h duas importantes questes decorrentes da ausncia de dados em bases de dados que so utilizadas para descoberta de conhecimento: o resultado da minerao de dados seria confuso e pouco confivel, e a falta do valor aumenta significativamente a incerteza dos dados na base do DW. O problema de ausncia pode ser tratado no processo de ETL, precisamente na etapa de limpeza dos dados. No tratamento de limpeza pode ser aplicada uma ou vrias das tcnicas existentes para o tratamento do valor ausente. Essas abordagens tm o objetivo de diminuir a influncia que uma tupla com dado ausente pode trazer, com a remoo ou pela imputao de novos valores no lugar das ausncias. Na seo 3 as abordagens so citadas, tanto para problemas em base de dados transacionais quanto quelas contidas em sistemas de DW.
3 Complementao de Dados
Em grandes bancos de dados comum observar a ausncia de valores em diversos atributos, como visto na seo 2. Algumas pesquisas desenvolvidas para o tratamento da ausncia dos dados levam em considerao somente valores ausentes em um nico atributo contido na base, isto , problemas univariados. J outras pesquisas tm sido desenvolvidas para bases que apresentam problemas de ausncia em mais de um atributo [Castaneda et al, 2008]. Esses problemas so conhecidos como ausncia multivariada de dados. Esta seo apresenta as caractersticas do problema da ausncia e as solues existentes, isto , a complementao dos dados. A subseo 3.1 apresenta os padres de ausncia passveis de ocorrncia nas bases de dados. importante identificar o tipo de padro, pois algumas solues podem ser mais eficientes do que outras em um caso especfico. Na subseo 3.2, so comentados os chamados mecanismos geradores de ausncia. Uma taxonomia sobre as tcnicas de complementao apresentada na subseo 3.3. A subseo 3.4 exibe as abordagens existentes que buscam resolver o problema da ausncia e a 3.6 apresenta as abordagens direcionadas ao problema em Data Warehouse e na ltima subseo h as consideraes finais.
3.1
Padres de Ausncias de Dados
Em [Soares, 2007] so citados os dois padres de ausncia de dados encontrados na literatura: os gerais ou aleatrios, e os especficos. Os dados que tm a ausncia seguindo o padro geral ou aleatrio so aqueles onde se pode encontrar ausncia em qualquer lugar da base. J o padro especfico apresenta dois tipos de ausncia: os univariados e os monotnicos. No primeiro tipo, a ausn-
11
cia s se encontra em um atributo. J no monotnico, a partir de um conjunto de atributos verificada a ausncia de dados em mais de um atributo, porm, de forma diferente do padro aleatrio, preserva uma relao entre os pontos em que ocorrem as ausncias. A figura 3.1 apresenta as diferenas entre os padres de ausncia.
Figura 3.1 Padres de ausncias a) Padres univariados b) Padres monotnicos c) Padres arbitrrios. Fonte: [Schafer e Graham, 2002] apud [Soares, 2007]
3.2
Mecanismos Ausncias de Dados
Na maioria dos trabalhos que tratam do problema de dados ausentes vista a preocupao com o mecanismo que gerou ausncia de valores na base, uma vez que, dependendo do tipo de ausncia verificada, mtodos especficos de complementao podem ser utilizados. Nesse contexto, entende-se mecanismo por processo que gerou a ausncia na base, inclusive aquele para o qual no tenha sido possvel estabelecer o motivo da ausncia. Como citado anteriormente, diversos fatores podem gerar dados ausentes numa base. Esses fatores constituem os mecanismos de ausncia. Um leitor de cdigos em barra com defeito, ou uma ferramenta que no recolhe os dados corretamente, ou um erro de lgica de programao so, entre outros, exemplos desses fatores. No entanto, cabe ressaltar que esses mecanismos de ausncia tambm podem ser induzidos de forma proposital, a fim viabilizar bases de testes para avaliao de mtodos de complementao de valores ausentes. Na literatura, so encontradas trs categorias de mecanismos de ausncia de dados: Missing Completely At Random (MCAR completamente aleatrio), o Missing At Random (MAR aleatrio) e Not Missing At Random ou Ignorable Missing (NMAR ou IR no aleatrio) [Magnani, 2004] [Schafer e Graham, 2002] [Rubin, 1976] O mecanismo MCAR considerado quando no possvel indicar um padro de ausncia nos valores. Isto , o valor ausente devido ao acaso, no tendo relao com outros atributos, e se desconhece a causa da ausncia. O MAR apresenta um padro provvel de ausncia em um atributo ao comparar os valores dos dados de um ou mais atributos, isto , h um padro condicional entre os outros atributos observados e o atributo que apresenta dados em falta. Por exemplo, em uma tabela referente venda de livros de uma livraria, no atributo TipoPagamento verifica-se ausncia de dado. Ao analisar os outros atributos, percebe-se que no atributo ValorTotal, quando o valor maior do que R$ 3.000,00, h uma grande incidncia de valores ausentes no atributo TipoPagamento. Mas essa no uma regra geral, podendo outros valores menores do que R$ 3.000,00 em ValorTotal apresentar ausncia no atributo analisado.
12
No NMAR, por sua vez, os valores ausentes em um atributo so totalmente dependentes dos valores do mesmo atributo ou de outros. Utilizando o mesmo exemplo da livraria, supondo que sempre que houvesse ValorTotal maior do que R$ 3.000,00, o valor do campo equivalente em TipoPagamento estivesse ausente. E que, alm disso, para valores menores ou iguais a R$ 3.000,00, o atributo TipoPagamento estivesse sempre preenchido. Nessas circunstncias, estaria caracterizada uma situao de ocorrncia do mecanismo NMAR. Para descobrir a dependncia entre os atributos em situaes associadas ao mecanismo NMAR, preciso executar mtodos de regresso com intuito de obter o padro entre os valores, o que, em geral, demanda um intenso custo computacional [Soares, 2007]. Como mostrado na seo 3.2, os padres de ausncia podem ser aleatrios ou especficos. Pela definio, pode-se dizer que o mecanismo MCAR aleatrio e MAR e NMAR so especficos. [Soares, 2007] relata em seu trabalho que dados gerados pelos mecanismos MAR e NMAR so mais complexos de serem tratados, caso no se saiba as condies em que eles foram formados. O autor conclui, a partir de consideraes de outros autores, que uma boa opo assumir que os dados ausentes foram gerados pelo padro MCAR, para os experimentos realizados naquele trabalho.
3.3
Vrios mtodos que tratam o problema da ausncia dos dados foram desenvolvidos e aplicados em reas onde vista a necessidade de descoberta de conhecimento contido nas bases de dados dos sistemas. Entre as abordagens disponveis como soluo, se encontram a eliminao dos registros ou atributos que apresentem dados ausentes, imputao com valores pr-determinados ou baseada em mtodos estatsticos ou de minerao de dados, ou ainda solues hbridas. No entanto, no h uma tcnica que possa ser considerada a mais eficaz em todas as situaes, visto que os problemas apresentam caractersticas variadas. Deste modo, uma simples eliminao de registros pode ser to eficaz no tratamento das bases com poucos dados ausentes como a aplicao de um mtodo complexo de minerao de dados em outra base, com atributos que conte nham vrios valores ausentes [Hruschka, 2003]. Em [Soares, 2007], essas tcnicas so chamadas de tcnicas de complementao de dados. Complementao todo tipo de abordagem usada para solucionar o problema de dados ausentes. Tanto a remoo dos dados como a imputao de novos valores fazem parte da complementao. O autor exibe uma taxonomia sobre complementao de dados, que pode ser vista na figura 3.2, mostrando as abordagens de complementa o encontradas na literatura. Este trabalho seguir a taxonomia citada, entretanto, outros trabalhos exibem diversas organizaes sobre abordagens de complementao dos dados [Farhangfar et al, 2007][Schafer e Graham, 2002]. Nas subsees seguintes so vistos os termos da taxonomia apresentada na figura 3.2. A abordagem de complementao por Gerenciamento Direto dos Dados no ter uma subseo por no ser parte do escopo deste trabalho, uma vez que nesta abordagem, os mtodos de complementao utilizam a base de dados, mesmo com valores ausentes, sem ignorar ou remover a ausncia. Para maiores detalhes consultar [Soares, 2007], que cita alguns algoritmos de classificao baseados em rvores, os quais aplicam essa forma de complementao.
13
Figura 3.2 Taxonomia sobre Complementao de Dados. Fonte: [Soares, 2007]
3.3.1
Mtodos Convencionais
Os mtodos convencionais so aqueles que trabalham com a remoo de registros ou atributos que apresentam dados ausentes. So os mtodos mais simples de serem implantados. No entanto, eles tornam passvel a perda de muitas informaes relevantes anlise [Farhangfar et al, 2007]. Os mtodos mais conhecidos so: remoo completa, remoo por pares e remoo de colunas com valores ausentes. No caso da remoo completa dos dados, todos os registros que contm um ou vrios valores ausentes so removidos da base [Magnani, 2004]. Quando h poucos valores ausentes em um conjunto de dados, a aplicao desse mtodo se torna adequada. Porm, na presena de grande quantidade de dados sem valores, a remoo dos registros pode distorcer as caractersticas da base. Esse mtodo s pode ser utilizado em bases onde o tipo de ausncia no segue um padro, desconhecido. Na remoo por pares utilizada uma tupla incompleta quando o atributo desejado dessa tupla no tem valor ausente. No h uma remoo da tupla na base, como na remoo completa, e sim ignorada aquela que ausente se estiver em um atributo utili zado por um sistema. Por exemplo, considerar a tabela da figura 3.3, na qual contm trs atributos atr1, atr2 e atr3, sendo que h tuplas com dados ausentes em todas as colunas. id atr1 atr2 atr3 1 2 3 4 23 98 ?? 65 86 ?? 56 ?? ?? 67 34 77
Figura 3.3 Exemplo de tabela com valores ausentes em vrios atributos
H um sistema que utiliza a tabela da figura 3.3. Suponha que o sistema s ir utilizar em suas atividades os valores do atributo atr1. Pelo mtodo remoo por pares, os registros com valor ausente no atributo atr1, no caso da figura exemplo, a tupla com id=3, sero ignorados pelo sistema. As outras tuplas no sero ignoradas, mesmo que haja ausncia nos atributos atr2 e/ou atr3. O mtodo, no entanto, bastante complexo, pois necessrio saber com antecedncia quando usar ou no cada registro [Soares, 2007]. O mtodo de remoo de colunas com valores ausentes executa a retirada de atributos que apresentem valor ausente em qualquer tupla da base de dados. A aplicao
14
desse mtodo causa uma grande perda de dados e pode alterar a relao existente entre os atributos. Ele, portanto, pouco recomendado [Magnani, 2004]. 3.3.2 Imputao
Os mtodos de imputao consistem em oferecer novos valores para todos os valores ausentes de uma base, com intuito de preench-la completamente. Isto significa que para cada dado ausente numa base de dados, um novo valor inserido onde h a ausncia, sendo esse valor consequncia de alguma tcnica usada na imputao. Segundo [Gelman, et al, 2007], a imputao de dados pode no provocar uma queda na qualidade dos dados de uma base. E isso pode ser examinado em um padro de razoabilidade que verifique se os valores observados e imputados so coerentes. A distribuio dos dados completos como um todo pode ser comparada, verificando se a complementao fez sentido no contexto do negcio. Alm do mais, as abordagens de imputaes so tipicamente geradas usando modelos ajustados aos dados observados. Isto , existe um modelo da base que indica as dependncias/regras entre as variveis. O ajuste desses modelos pode ser verificado por analistas. Para [van Buuren et al, 2006], existem duas principais categorias para solues de ausncia em muitos atributos numa base de dados usadas com mtodos de imputao: Joint-Modelling e imputao iterativa. A primeira categoria usa modelos preditivos para estimar todos os valores de uma nica vez. A segunda consiste na diviso de um problema de ausncia em muitos atributos em vrios problemas univariados, onde cada problema resolvido de forma independente. Os autores consideram a imputao iterativa a melhor soluo por apresentar complexidade menor e, por tratar individualmente cada um dos atributos, as caractersticas individuais dos dados so preservadas. Em [Soares, 2007] so divididos, de forma geral, os mtodos de imputao em trs tipos: (i) global baseada somente no atributo com valor ausente, (ii) global baseada nos demais atri-butos e (iii) local. Alm disso, h na literatura abordagens de imputao de dados para cada mtodo descrito. O mtodo de imputao do tipo global baseada no atributo utiliza somente os valores que esto no atributo que necessita ser imputado. Esse tipo de mtodo no faz uso de nenhum dado retirado dos outros atributos de base, utilizando, portanto, somente algoritmos que tratam da ausncia univariada. Um tipo de abordagem de imputao de dados que usa esse mtodo a mdia [Schafer e Graham, 2002], mencionada na seo 3.4.1. O mtodo de imputao do tipo global baseado nos atributos no ausentes gera novo valor pelo tipo de padro que os valores dos outros atributos podem fornecer. Para esse mtodo existem diversos modelos regressivos que podem ser usados. Rough Sets [Nelwamondo e Marwala, 2007] e Redes Neurais [Soares, 2007], mencionadas na seo 3.4.1, so exemplos de abordagens que utilizam a imputao do tipo global baseado nos atributos no ausentes. necessrio, portanto, o conhecimento do problema e das abordagens existentes, pois cada problema tem melhor soluo com a aplicao de uma determinada abordagem. Ou seja, no existe um modelo que possa ser considerado o melhor em todos os problemas [Soares, 2007]. Outra dificuldade encontrada com o uso desse tipo de mtodo que s ocorre a imputao de valores em apenas um atributo. O terceiro e ltimo tipo de mtodo de imputao descrito por [Soares, 2007] o local. Nesse tipo de mtodo so definidos atributos classificadores para que seja feito um agrupamento dos dados. Atributos classificadores so aqueles cujos valores enqua-
15
dram cada caso ou tupla de um conjunto de dados em uma categoria, definindo, portanto, agrupamentos de tuplas. Com esse agrupamento, o registro que apresentar valor ausente ser imputado a partir dos dados que fazem parte do mesmo agrupamento. Esse tipo de mtodo tambm procura reduzir o desvio que porventura algum registro possa apresentar. A maneira como o valor ser imputado no importa para o procedimento, mas necessrio que seja baseado nos registros que apresentam similaridades. No entanto, o agrupamento dos registros uma tarefa onerosa. Assim como o mtodo do tipo global baseado nos demais atributos, no mtodo do tipo local, a incerteza do valor imputado tambm existe, pelo mesmo motivo mostrado acima. Outra forma de classificar os mtodos de imputao mostrada em [Farhangfar et al, 2007]. Nesse artigo dito que os tipos de imputao de dados podem ser divididos em trs categorias: data-driven; baseados em modelos; e baseados em Machine Learning (ML). As abordagens do mtodo do tipo data-driven utilizam somente os atributos com dados completos para imputar valores. J as abordagens do mtodo baseado em modelos utilizam tcnicas de gerao de modelos de uma base de dados para calcular valores imputados, como os modelos gerados pelo classificador Naves Bayesian [Liu e Lei, 2006]. As abordagens do mtodo baseado em ML geram um modelo de dados ligados poro completa do atributo de classe, atributo considerado como a base da classifi cao entre tuplas, que contm os rtulos utiliza-dos s associaes. Essas abordagens verificam a base de dados, procurando obter a funo que mapeie um conjunto de registros a partir do atributo de classe. Com a funo se torna possvel obter o valor de um atributo de uma tupla com ausncia pela semelhana entre as tuplas completas que foram mapeadas. As classificaes de mtodos de imputao mostradas em [Soares, 2007] e [Farhangfar et al, 2007] guardam certa semelhana. O tipo de imputao Local e o tipo ML so anlogos por considerarem o agrupamento das tuplas por suas semelhanas. J o tipo de imputao baseado em modelo e tipo global baseado nos demais atributos tambm so similares, pois imputam os dados a partir de outros dados. Adotamos no restante deste trabalho, a classificao encontrada em [Soares, 2007] por essa se mostrar mais abrangente. Como dito anteriormente, h algumas abordagens de imputao de dados para os mtodos descritos acima. Por exemplo, o mtodo de imputao Local tem algumas abordagens para sua execuo, como hot-deck e k-NN [Soares, 2007]. Essas abordagens sero descritas na subseo 3.4.1. Elas atingem tanto para a ausncia de dados em um s atributo como para casos de muitos atributos em que faltam valores. Algumas abordagens de imputao utilizam algoritmos supervisionados e outras, algoritmos no supervisionados. Os algoritmos no supervisionados se baseiam na regularidade dos dados (redundncia ou similaridade) para construir o modelo de conhecimento. Os supervisionados se caracterizam pela existncia de um professor que compara a sada produzida pelo algoritmo aplicado a uma tupla com a sada esperada, e se calcula o valor de erro entre elas. Esse valor utilizado para ajustar os parmetros do modelo que est sendo construdo [Farhangfar et al, 2007]. Os algoritmos supervisionados so mais utilizados nas abordagens, uma vez que os no supervisionados so mais simples por no considerar a dependncia entre atributos. H uma subdiviso nos supervisionados: os algoritmos que so baseados em ins tncias e outros baseados em modelos preditivos. Os baseados em instncias so aqueles que levam em considerao os registros da base para alcanar seu objetivo. J os modelos preditivos so, em geral, algoritmos oriundos da rea de Minerao de Dados. Os algoritmos preditivos tambm utilizam os outros registros da base. Eles anali-
16
sam a base e estabelecem associaes pela semelhana entre as tuplas. Ao ser encontrada uma tupla com valor ausente, ela ser comparada no modelo e receber um novo valor conforme a sua aproximao com as tuplas [Batista e Monard, 2003b]. Para o mtodo de imputao, importante saber os tipos dos atributos (ou variveis) contidos nas bases, uma vez que nem todas as abordagens apresentam solues para todos os tipos de dados. Os tipos podem ser classificados em: categricos, discretos e contnuos [Goldschmidt e Passos, 2005]. Os categricos nomeiam ou atribuem rtulos a objetos, e nesses rtulos no possvel realizar um ordenamento entre os valo res. O tipo discreto semelhante ao categrico, no entanto os rtulos possuem algum ordenamento. Os contnuos, por sua vez, so variveis quantitativas, onde seus valores possuem uma relao de ordem entre eles. Geralmente, esse ltimo tipo representado por tipo de dado numrico. A utilizao de abordagens de imputao, com o uso de diversos algoritmos, pode ser vista em [Farhangfar et al. 2007] [Soares, 2007] [van Buuren et al, 2006] [Farhangfar et al. 2004] [Rubin, 1976]. No entanto, para utilizar essas e outras abordagens existentes preciso tomar cuidado com possveis distores que as solues podem inserir. Cada caso deve ser estudado para que seja aplicado o mtodo de imputao de dados mais adequado ao problema, seno a anlise da base com os novos valores pode ser prejudicada [Hruschka, 2003] [Batista e Monard, 2003a]. 3.3.3 Modelagem de Dados
As modelagens de dados procuram representar um modelo genrico das caractersticas dos dados, utilizando tcnicas estatsticas e probabilsticas para tal. Em [Soares, 2007] so descritas duas principais tcnicas para a obteno de modelos: os algoritmos de verossimilhana e os mtodos bayesianos. Os algoritmos de verossimilhana pretendem encontrar um modelo que represente o conjunto de dados com os parmetros de uma funo de distribuio estatstica. A partir dessa funo realizada a regresso de um valor ausente da base. O mtodo de verossimilhana mais aplicado para complementar um dado utiliza o algoritmo EM Expectation-Maximization, que estima os parmetros das funes de densidade das probabilidades dos valores em uma amostra com ausncia [Magnani, 2004]. Permite obter estimaes mximas verossmeis dos parmetros quando h dados incompletos com algumas estruturas determinadas. Esse algoritmo utilizado como soluo para muitos problemas de dados ausentes. A desvantagem que possui um custo computacional alto [Hruschka, 2003]. Mtodos bayesianos de complementao de dados so aqueles que se baseiam em uma rede bayesiana. Essa rede um grafo acclico direcionado rvore nos quais os ns (vrtices) representam as variveis do problema e os arcos (arestas) definem a in tensidade de relacionamento entre os ns, que dada por uma tabela de probabilidades condicionais [Pearl, 1988] apud [Hruschka, 2003]. Para imputar valores, as redes bayesianas so usadas para inferir o valor que melhor substitui o dado ausente, isto , uma tarefa de predio. 3.3.4 Mtodos Hbridos
So chamados hbridos os mtodos que utilizam um ou mais mtodos de imputao para a complementao dos dados. [Soares, 2007] descreve em seu trabalho dois tipos:
17
mtodo de imputao mltipla e de imputao composta, sendo o ltimo a proposta do seu trabalho. A imputao mltipla, muito utilizada por pesquisadores, procura reduzir o principal problema visto nos tipos de imputao simples, isto , que geram s um valor: a incerteza implcita que apresenta o valor imputado. Para tal efeito, esse mtodo produz n sugestes de possveis valores os quais poderiam ser imputados no campo de valor ausente, como exemplifica o esquema da figura 3.4. A imputao mltipla combina, ento, esses possveis valores, gerando para, cada tupla, o valor a ser imputado.
Figura 3.4 Esquema de Imputao Mltipla. Fonte: [Schafer e Graham, 2002] apud [Soares, 2007] As vantagens do mtodo de imputao mltipla so: o uso de vrios mtodos de imputao, possibilidade da escolha de um valor que apresente menor incerteza, a manuteno da consistncia da base em diversas anlises, por apresentar os conjuntos de va lores possveis. A principal desvantagem do mtodo a necessidade do mecanismo de ausncia da base seja MAR [Soares, 2007]. No mtodo de imputao composta proposta por [Soares, 2007] realizada primeiro a aplicao de outras tarefas de pr-processamento de dados antes de imputar um novo valor. As tarefas precedentes so, em geral, o agrupamento dos dados e seleo das colunas. Primeiro os dados so agrupados, e, em seguida, h a seleo dos atribu tos que oferecem regras de associaes, isto , atributos antecedentes e consequentes, a partir da regresso. Para cada problema permitida a avaliao de estratgias de como a abordagem de imputao de dados deve acontecer, os chamados planos de execuo. As estratgias para avaliao propostas em [Soares, 2007] so: 1) imputao; 2) seleo e imputao; 3) agrupamento e imputao; 4) seleo, agrupamento e imputao; e 5) agrupamento, seleo e imputao.
3.4
Nesta seo sero apresentadas abordagens de imputao para solucionar os problemas de dados ausentes. No entanto, somente sero mostradas as abordagens para os casos onde no so conhecidas as causas do problema, isto , pelo padro aleatrio de ausncia. Para facilitar a compreenso e seguir a terminologia utilizada em outros trabalhos, a partir deste ponto sero utilizados os termos univariado e multivariado para indicar a configurao das ausncias, isto , se h ausncia em s uma coluna da tabela ou em vrias. Portanto, o termo univariado nesta seo no referncia ao tipo de ausncia que se conhece a causa.
18
H na literatura muitas abordagens que tratam dos problemas univariados. No entanto, com o crescente nmero de dados gerados nos sistemas, abordagens que s considerem e tratem o problema de ausncia em um atributo no so suficientes para atender s grandes bases encontradas atualmente [Farhangfar et al, 2007] [Hruschka, 2003]. Porm, essas abordagens univariadas no foram descartadas, uma vez que elas podem ser usadas iterativamente sobre a base. Em grandes bases no s existem problemas de ausncia univariados. Diversos atributos de uma base de dados podem conter ausncia de valores, isto , o problema multivariado. Para tal, existem as abordagens de imputao multivariada. Dentre essas abordagens, h as que tratam do problema em vrios atributos de uma vez, aumentando de forma significativa a complexidade da imputao. Algumas, por outro lado, tratam o problema de ausncia multi-variada com a aplicao dos mtodos voltados aos problemas univaridos de forma iterativa, isto , analisando cada caso isoladamente, em vrios momentos. Nessa forma iterativa de tratamento das ausncias, diversos tipos de abordagens de imputao podem ser aplicados, preservando as particularidades de cada atributo. A ordem de imputao dos atributos tratados tambm pode influenciar no prprio processo de imputao de dados, quando existem dependncias entre eles. [Castaneda et al, 2008]. 3.4.1 Abordagens para Imputao em Problemas Univariados
Uma abordagem de imputao para problemas univariados comumente mencionada na literatura e que utiliza pouco recurso operacional a imputao pela mdia ou moda. Nessa abordagem realizada uma mdia, nos casos de atributos do tipo numrico, de todos os valores presentes no atributo e o valor resultante includo nos cam pos ausentes [Farhangfar et al. 2007] [Schafer e Graham, 2002]. Nos casos de atributos categricos, o valor mais frequente (moda) usado no lugar da mdia. No entanto, os valores do atributo imputado podem ser dependentes de valores de outros atributos. Como essa abordagem no utiliza esses outros valores para imputar, h maiores chances de ocorrer incoerncias na base. A mdia calculada sobre os valores no ausentes do atributo, , portanto, considerado um mtodo global baseado no atributo e, consequentemente, no supervisionado. H outra abordagem simples e no supervisionado chamada substituio. Essa requer valores pr-definidos por um analista para substituir os ausentes. aplicvel es pecialmente rea de pesquisa de dados [Farhangfar et al, 2007]. O procedimento hot-deck [Farhangfar et al, 2007] [Liu e Lei, 2006] uma abordagem do tipo local. O procedimento utiliza atributos da base, alm do ausente, para o agrupamento dos dados. Com esse agrupamento, o registro que apresentar valor ausente ter seu valor ausente imputado, aplicando alguma forma de clculo para a obteno do novo valor, como a mdia, levando em considerao os demais registros do grupo. Existe na literatura uma variao dessa abordagem, chamado cold-deck. Assim como o hot-deck, no cold-deck tambm h o agrupamento dos dados, e por isso tambm pode ser classificado como um mtodo do tipo local. Porm, a abordagem cold-deck exige base de dados adicionais, alm dos dados do sistema fonte, para realizar a complementao [Liu e Lei, 2006]. Uma abordagem muito presente na literatura sobre imputao de dados o k-NN (k-Nearest Neighbour ou, em portugus, k-Vizinhos mais Prximos). um mtodo de imputao do tipo local, por verificar o problema em cada tupla com ausncia de um atributo e baseado em instncias, uma vez que leva em considerao os registros contidos na base de dados [Goldschmidt e Passos, 2005]. A ideia principal do algoritmo k19
NN encontrar os k vizinhos mais similares e completos, onde a similaridade medi da por uma frmula que calcula a distncia entre os registros. Quanto menor a distncia, mais similares so os registros. similar ao mtodo hot-deck, mas se restringe aos k vizinhos definidos. H diversas formas para se calcular a distncia entre dois registros [Han e Kamber, 2001]. A frmula mais utilizada na literatura para o clculo da distncia entre registros a Euclidiana. Outra maneira de calcular a similaridade utilizando a mtrica Mixed Types Distance, uma medida que considera os vrios tipos de atributos nominal, ordinal, binrio, valores baseados em intervalo e valores de ordem logartmica. A principal vantagem do k-NN a no necessidade de criao de um modelo preditivo para cada atributo, como outros mtodos de Minerao de Dados. Portanto, o algoritmo k-vizinhos mais prximos pode ser adaptado para qualquer atributo, tendo necessidade de somente modificar os atributos que devem ser considerados na mtrica da distncia. A desvantagem da abordagem clssica que ela calcula a semelhana em todo o conjunto de dados. Quando aplicado em bases com grande quantidade de registros, seu desempenho pode ser crtico. Em [Batista e Monard, 2003b] so citadas alternativas para esse problema. Uma delas a abordagem M-Tree [Ciaccia et al, 1997], que se prope a organizar e buscar dados em grandes bases, dispondo-os, pelas distncias das instncias da base, em uma estrutura de rvore. Naves Bayesian Classifier [Liu e Lei, 2006] ou, em portugus, Classificador Bayesiano Ingnuo um mtodo baseado no princpio da probabilidade condicional. A abordagem que o utiliza analisa o relacionamento entre os atributos, dependentes ou independentes, e deriva uma probabilidade condicional para cada relao. Ao analisar um novo exemplo, a predio feita por combinao dos efeitos das variveis independentes nas dependentes, o que permite calcular o resultado mais provvel. A abordagem necessita que ocorra um treinamento programado para gerar um modelo de classificao, que consiste no conjunto de probabilidades condicionais. No entanto, s trabalha com dados discretos como para a associao de tuplas e em bases que apresentem mecanismo de ausncia MAR [Farhangfar et al, 2004]. Uma abordagem oriunda da rea de Minerao de Dados tambm usada para imputao de valores ausentes o Rough Sets [Nelwamondo e Marwala, 2007]. Nessa abordagem so selecionados os atributos da base de dados que so relevantes avaliao dos dados. Ela ento agrupa os valores de cada atributo de acordo com suas carac tersticas, criando subconjuntos de valores contidos nos atributos. Esses atributos so chamados de atributos condicionais. H tambm o atributo de deciso, que informa uma deciso a ser tomada. Os valores contidos nos redutos so indiscernveis entre si, isto , so duas tuplas que apresentam valores iguais a partir de um conjunto de atributos. Por exemplo, no conjunto de atributos <atr1, atr2> as tuplas A e B apresentam os mesmos valores <val1, val2>, logo por esse conjunto no h forma de discernir quem A e quem B. A teoria de Rough Sets verifica os valores das tuplas e ento capaz de administrar as imprecises com as aproximaes inferior e superior entre elas. A aproximao inferior informa a coleo de tuplas as quais contm classes equivalentes e a superior indica as tuplas que so parcialmente equivalentes, sendo elas correspondentes ao atributo de deciso. Por essas aproximaes torna-se possvel identificar os redutos da base. Reduto um conjunto de atributos mnimos necessrios para manter as mesmas propriedades de valores que levam a uma deciso. Com as informaes dos redutos haver a capacidade de identificao de uma deciso quando uma nova tupla inserida numa base. Logo, possvel imputar valores no atributo de deciso com a abordagem Rough
20
Sets. A abordagem classifica os registros completos contidos na base, gera os redutos em relao ao atributo deciso e valores ausentes podem ser imputados. As Redes Neurais so sistemas de informao que reconhecem padres dos dados por terem capacidade de adquirir, armazenar e utilizar esse conhecimento dos padres, de forma anloga s habilidades cerebrais dos humanos [Goldschmidt e Passos, 2005]. Essas redes possuem conjuntos de neurnios artificiais, em geral organizados em mltiplas camadas, sendo uma de entrada, uma camada de sada e uma ou mais camadas intermedirias. Esses neurnios so conectados entre si, possuindo pesos sinpticos associados a cada conexo. Os dados so recebidos pela camada de entrada, processados pelas camadas intermedirias e a sada gerada pelos neurnios da camada de sada. As redes aprendem a partir do ajuste realizado sobre os pesos sinpticos de suas conexes. Em [Soares, 2007] descrita uma abordagem para imputar novos valores nos atributos ausentes utilizando Redes Neurais, com redes de mltiplas cama-das que utilizam o algoritmo de aprendizado supervisionado denominado back propagation. As tuplas sem ausncia so utilizadas para treinar a rede processo de aprendizagem utilizando os atributos sem ausncia como entrada de valores de cada tupla da base na rede e o atributo que apresenta ausncia como o de sada. Aps o treino, o valor ausen te de cada tupla pode ser imputado a partir dos valores dos demais atributos presentes na tupla. A rede pode ser modificada a cada tupla nova adicionada, ela est sempre em processo de aprendizado. As Redes Neurais podem ser utilizadas tanto para imputar valores discretos quanto para contnuos. Nas abordagens baseadas em modelos esto includos os principais modelos de regresso e de probabilidade. No modelo baseado na regresso, os valores em falta em um determinado registro so complementados a partir de uma regresso completa dos valores dos atributos desse registro em outros registros [Wong et al, 2006]. O modelo requer equaes de regresso mltipla, para cada conjunto de atributos completos, resultando em um elevado custo computacional. Alm do mais, diferentes tipos de modelos de regresso devem ser usa-dos em funo dos tipos de dados, isto , modelos linear ou polinomial podem ser utilizados para atributos contnuos, enquanto modelos Log-Linear para valores discretos [van Buuren et al, 2006]. Os mtodos baseados em probabilidade podem ser considerados para complementar somente valor em atributos discretos. Eles supem que os dados so descritos por um modelo paramtrico, onde os parmetros so estimados como verossimilhana mxima ou procedimentos maximum a posteriori (MAP) [Farhangfar et al, 2007]. 3.4.2 Abordagens de Imputao em Problemas Multivariados
Em [Castaneda et al, 2008] encontra-se proposta uma abordagem que torna possvel o desenvolvimento de planos de workflows para o processo de imputao em problemas multivariados em uma base. Na proposta possvel indicar parmetros de configurao, os quais informam a dependncia entre atributos, os algoritmos que sero usados e tambm possibilitam a realimentao dos valores na base cada vez que um atributo com valores ausentes tratado. Uma abordagem encontrada frequentemente na literatura e que trata do problema multivariado de ausncia o MICE (Multivariate Imputation by Chained Equations) [van Buuren e Oudshoom, 2000]. Essa uma abordagem para complementao de dados, desenvolvido no Departamento de Estatstica do TNO Prevention and Health, na Holanda. A abordagem considerada com uma das mais poderosas e flexveis para complementao multivariada de dados [Farhangfar et al. 2007].
21
A ideia geral da complementao multivariada no MICE consiste em trs etapas: complementao, anlise e restaurao. A figura 3.5 ilustra o conceito do processo. Na etapa de complementao so verificados os atributos que apresentam dados ausentes e, em seguida, so completados. Aps, os dados completados so analisados e s depois restaurados na base.
Figura 3.5 Ideia geral da complementao no MICE. Fonte: [Multiple Imputation Online, 2008]
O MICE usa diversas abordagens que resolvem problemas univariados e multivariados, inclusive de imputao mltipla, na sua abordagem para cada tipo de dados numricos, categricos ou binrios - como regresso linear Bayesiana, regresso logstica, entre outros. O usurio pode especificar uma abordagem de complementao elementar para cada atributo que apresente dados ausentes. 3.4.3 Tabela Comparativa
A tabela 3.1 apresenta uma comparao entre as abordagens para imputao de dados, mostradas nesta seo. Nessa comparao so analisadas algumas caractersticas das abordagens. Uma caracterstica importante o tipo de dados com o qual a abordagem trabalha. Podem ser categricos, discretos ou numricos. Em outra coluna informado se o algoritmo super-visionado ou no. Na quarta coluna, dito se o algoritmo necessita ou no de um modelo preditivo. Essa uma informao importante principalmente quando analisada a rapidez da abordagem. O uso de modelos preditivos tende a tornar a abordagem mais lenta do que as que no necessitam. E por fim dada a classificao do algoritmo em relao taxonomia descrita no incio dessa seo. Pode ser observado na tabela que todos os algoritmos que utilizam modelos preditivos imputam valores discretos, sendo que duas abordagens tratam o problema com dados do tipo contnuo e duas no. Todas as abordagens presentes na tabela que no utilizam modelos preditivos tratam de problemas de atributos do tipo discreto e contnuo. Abordagens tidas como simples, Mdia/Moda e Substituio, so as nicas no supervisionadas. Elas so simples por no observarem as similaridades entre os registros, o que os torna muitas vezes tendenciosos com a imputao. J as abordagens supervisionadas mostradas na tabela, com exceo do k-NN, necessitam de modelos preditivos.
22
Tabela 3.1 Tabela comparativa de abordagens de complementao
Pela definio apresentada na taxonomia, os tipos de abordagens globais baseadas em atributos no ausentes, so sempre supervisionados e necessitam de modelos preditivos. Como o caso das abordagens Rough Sets, Regresso linear ou polinomial e Redes Neurais.
3.5
Abordagens de Imputao de Dados em Data Warehouse
H na literatura um nmero razovel de trabalhos que veem a importncia da qualidade dos dados de um ambiente de DW. Existem inmeros trabalhos que falam da limpeza desses dados, considerando vrios processos de transformaes. Um dos temas mais discutidos a remoo de dados duplicados, isto , dois ou mais dados que representam uma mesma entidade. No entanto, no foram encontrados muitos trabalhos sobre complementao de dados em data warehouse. [Rahm e Do, 2005] citam alguns problemas comuns em gran des bases de dados, inclusive as bases dos DW. A ausncia de valor um desses pro blemas. Uma abordagem que trata de limpeza de dados e trata os problemas de ausncia de dados visto em [Hong et al, 2008]. Nesse trabalho relatada a criao de um DW para guardar dados QAR (Quick Access Recorder), o qual possibilita a anlise dos voos das aeronaves de uma companhia area. Foi construdo um framework para a realizao do processo de ETL. O framework primeiro faz a extrao dos dados de diversas fontes, depois verifica a ausncia dos valores nas bases e imputa com novos valores, remove os dados duplicados e, por fim, realiza a consolidao dos dados. Ao extrair os dados das fontes externas, os dados passam pelo processo de complementao. Os dados s so guardados na tabela de fatos QAR Fact aps o processo de complementao das ausncias da base. Para a imputao dos dados, o framework utiliza trs abordagens. A primeira a insero manual de dados, quando esses so valores padro das aeronaves, mas, por algum motivo, no constam na base. A segunda a abordagem com uso de estatstica de regresso linear, que um mtodo supervisionado local onde os dados observveis so separados e obtida uma frmula geral referente aos dados ausentes de um atributo. A terceira abordagem, tambm supervisionada, a de interpolao linear. Essa abordagem calcula a proximidade dos registros referente ao valor ausente no atributo e, com esses registros prximos, utiliza uma equao para induzir o valor que deve ser imputado.
23
O artigo no deixa claro quando o framework utiliza a abordagem de regresso linear ou interpolao linear. Todos os atributos usados para imputar novos valores, mostrados no artigo, continham dados contnuos. A deficincia observada no framework que ele est voltado somente para os problemas do domnio das companhias areas. No entanto, mostra-se flexvel aos diversos problemas encontrados nesse domnio. Segundo o artigo, bons resultados foram obtidos, possibilitando melhores anlises da forma de pilotagem e das condies das aeronaves das companhias areas. Outro trabalho encontrado o artigo dos autores [Wu e Brbara, 2002b] que relata uma abordagem para imputao de dados a partir dos agrupamentos que podem ser resultados de uma sumarizao. Uma informao sumarizada, por exemplo, formada por dados de gro fino que indicam uma lgica de negcio. Por exemplo, uma informao sumarizada refere-se ao conjunto de tuplas que podem responder a seguinte consulta: no dia 05 deste ms, quantos produtos X foram vendidos na loja A, para os clientes C1, C2 e C3. Isto , um conjunto de atributos sumarizado e seus valores fa zem sentido quando retirados das dimenses com a tabela de fatos. Restries so limites propostos para entender a relao entre as dimenses e a tabela de fatos. Os dados so agrupados a partir das caractersticas dadas pela necessidade de sumarizao, para que seja realizado o processo de complementao. Segundo os autores, essa forma de trabalhar com os dados preserva o contexto em que eles foram gerados e reduz a quantidade de dados que sero comparados, o que daria um ambiente melhor para o uso das tcnicas de complementao. Para a complementao, o artigo apresenta duas abordagens de imputao com base nas restries das sumarizaes que so utilizadas para o processo de imputao: Singular Value Decomposition - SDV, a partir da lgebra linear, e entropia. A abordagem SDV aplicvel para reconstruir valores ausentes com equaes de restries lineares. A entropia mxima (maximun entropy) e a entropia cruzada (cross entropy) so utilizadas para imputar os valores das instncias que tm pouca informao nas restries de sumarizao. Para recuperar o conjunto de valores ausentes na base a partir das restries sumarizadas utilizada a programao de restries. Ela realiza consultas na base a partir das restries e envia as instncias para serem imputadas. As abordagens utilizadas no visam alterao dos dados na base, somente para a anlise. Se os dados forem imputados efetivamente, os usurios podem obter resultados que apresentam erros, pois os valores imputados foram calculados com base em uma nica sumarizao, em no sobre o DW completo. A abordagem mostrada nesse trabalho pode impactar de modo significativo no tempo de resposta ao usurio. Por outro lado, neste trabalho propomos a imputao considerando o DW completo e sem impactos para o tempo de resposta da consulta dos usurios.
4 Consideraes Finais
Os dados dos DW vm de diversos tipos de sistemas fontes. Eles apresentam diferenas entre si e podem ter dados que no foram devidamente preenchidos ou at mesmo ausentes, influenciando nos resultados inconsistentes s consultas. Atualmente existem vrias tcnicas que buscam resolver esses tipos de problemas oriundos das diversas fontes. E este trabalho focou principalmente na ausncia dos dados nas fontes que levam a problemas de ausncia de dados nos ambientes de DW.
24
A abordagem chamada imputao de dados tem como objetivo estimar valores em atributos que precisam ser preenchidos, a partir de algoritmos que consideram os valores das tuplas preenchidas para imputar valores nas tuplas ausentes. No entanto, nenhuma dessas abordagens considera a provenincia dos dados. Os SGBDs atuais, como o Oracle [Oracle, 2009], o IBM DB2 [IBM, 2009], oferecem suporte para a criao de ambientes de DW, com ferramentas que permitem configurar e realizar todo o processo de ETL, inclusive a tarefa de limpeza dos dados. O DB2 da IBM possui uma ferramenta de ETL chamada IBM WebSphere QualityStage. Ela fornece meios de limpeza de dados para ajudar a garantir a qualidade e consistncia de padronizao, validao, alinhamento e fuso dos dados do DW. J a Oracle oferece o Oracle Warehouse Builder (OWB) que utiliza diversas abordagens de imputao baseadas em algoritmos de Minerao de Dados e em modelos preditivos, alm de outros tratamentos de limpeza. No entanto, em ambas as ferramentas as implementaes das abordagens de imputao no so muito detalhadas, e ainda, no h suporte explicito a considerar dados de provenincia para prover melhores resultados na imputao de dados. At o momento da finalizao deste trabalho, no foi encontrada nenhuma abordagem para complementar os dados de acordo com a provenincia do dado no contexto do processo de ETL. Agradecimentos: Aos meus professores Maria Claudia Cavalcanti e Ronaldo Goldschmidt que me orientaram no decorrer deste trabalho, a todos os funcionrios do IME pelo apoio dado, aos meus colegas de mestrado e, especialmente, a Deus que sempre esteve comigo.
5 Referncias Bibliogrficas
AMARAL, G.C.M.; CAMPOS, M.L.M. Modelando Metadados de Qualidade no Data Warehouse. IV Simpsio de Desenvolvimento e Manuteno de Software da Marinha, 2004. BUNEMAN, P.; KHANNA, S.; TAN, W. Data Provenance: Some Basic Issues. In: Foundations of Software Technology and Theoretical Computer Science , New Delhi, v. 1974 , p. 87-93, 2000. BUNEMAN, P.; KHANNA, S.; TAN, W. Why and Where: A Characterization of Data Provenance. In: International Conference on Database Theory. London, v. 1973, p. 316330, 2001. BATISTA, G.E.A.P.A.; MONARD, M.C. Um Estudo Sobre a Efetividade do Mtodo de Imputao Baseado no Algoritmo k-Vizinhos mais Prximos. In Proceedings of IV Workshop on Advances & Trends in AI for Problem Solving, Chiln, 2003a. BATISTA, G.E.A.P.A.; MONARD, M.C. An Analysis of Four Missing Data Treatment Methods for Supervised Learning. Applied Artificial Intelligence, v. 17, n. 5-6, p. 519533, 2003b. CASTANEDA, R.; FERLIN, C.; GOLDSCHMIDT, R.; SOARES, J.A.; CARVALHO, L.A.V.; CHOREN, R. Aprimorando Processo de Imputao Multivariada de Dados com Workflows. XXIII Simpsio Brasileiro de Banco de Dados SBBD, Campinas-SP, 2008.
25
CASTANEDA, R. Um Ambiente de Imputao Sequencial para Cenrios Multivariados. 2008. 78 p. Dissertao (Mestrado) - Instituto Militar de Engenharia, Rio de Janeiro 2008. CIACCIA P.; PATELLA M.; ZEZULA P. M-tree: An Efficient Access Method for Similarity Search in Metric Spaces. In VLDB97, pages 426435, 1997. CUI, Y.; WIDOM, J. Lineage Tracing for General Data Warehouse Transformations. In Proceedings of the 27th international Conference on Very Large Data Bases. San Francisco, CA, p. 471-480, 2001. FARHANGFAR, A.; KURGAN, L.; PEDRYCZ, W. A novel framework for imputation of missing values in databases. IEEE Transactions on Systems, Man, and Cybernetics, v. 37(5), p. 692709, 2007. FARHANGFAR, A.; KURGAN, L.; PEDRYCZ, W. Experimental analysis of methods for imputation of missing values in databases. In: Intelligent Computing: Theory and Applications II Conference, in conjunction with the SPIE Defense and Security Symposium (formerly AeroSense), Orlando, p. 172-182, 2004. GELMAN, A.; LEVY, M.; ABAYOMI, K. Diagnostics for multivariate imputations. In: Social Science Research Network - Social Science Electronic Publishing Inc, 2007. GOLDSCHMIDT, R.; PASSOS, E. Data Mining: Um Guia Prtico. Rio de Janeiro: Elsevier, 2005. 261 p. GREENWOOD, M.; GOBLE, C.; STEVENS, R.; ZHAO, J.; ADDIS, M.; MARVIN, D.; MOREAU, L.; OINN, T. Provenance of e-Science Experiments - Experience From Bioinformatics. In: Proceedings of UK e-Science All Hands Meeting 2003, p. 223-226, 2003. HAN, J.Y.; KAMBER, M. Data Mining: Concepts and Techniques. So Francisco CA: Morgan Kaufmann, 2001. 550 p. HONG, W.; XIUXIA, H.; HONGWEI, W. Reserach and Implementation of QAR Data Warehouse. In: Second International Symposium on Intelligent Informations Technology Application, p. 156-162, 2008. HRUSCHKA Jr, E.R. Imputao Bayesiana no Contexto da Minerao de Dados. 2003. 119 f. Tese (Doutorado) Universidade Federal do Rio de Janeiro, Coordenao dos Programas de Ps-Graduao de Engenharia, Rio de Janeiro, 2003. IBM. IBM WebSphere QualityStage Methodologies, Standardization, and Matching. Disponvel em: <http://www.redbooks.ibm.com/abstracts/sg247546.html> Acesso em: Fev/2009. INMON, W. H. Como Construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p. INMON, W. H. DW 2.0 Architecture for the Next Generation of Data Warehousing. Information Management Magazine [online]. Abr, 2006. Disponvel em: http://www.information-management.com/issues/20060401/1051111-1.html. [capturado em 10 fev. 2010]. INMON, W.H. SAP NetWeaver and DW 2.0. White Paper, Inmon Consulting Services, 2009. KIMBALL, R. The Data Warehouse Toolkit. So Paulo: Makron Books, 1998. 387 p.
26
KIMBALL, R.; CASERTA, J. The Data Warehouse ETL Toolkit : Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Indianapolis: Wiley Publishing, 2004. 526 p. KIMBALL, R.; ROSS, M. The Data Warehouse Lifecycle Toolkit: Expert Methods For Designing, Developing and Deploying Data Warehouse. Nova Iorque: 1998. 405 p. LIU, P.; LEI, L. Missing Data Treatment Methods and NBI Model. In: Sixth International Conference on Intelligent Systems Design and Applications (ISDA'06), v. 1, 2006. MAGNANI, M. Techniques for Dealing Discovery Tasks. 2004. Disponvel em: index.html> Acessado em: Abr/2009. MULTIPLE IMPUTATION ONLINE. imputation.com> Acesso em: Nov/2008. with Missing Data in Knowledge <http://magnanim.web.cs.unibo.it/ Disponvel em: <www.multiple-
NELWAMONDO, F.V.; MARWALA, T. Rough Sets Computations to Impute Missing Data. In: ArXiv eprints, 2007. Disponvel em: <http://arxiv.org/ PS_cache/arxiv/pdf/0704/0704.3635v1.pdf> Acessado em: Fev/2009. ORACLE. Using Predictive Analytics within Warehouse Building. Disponvel em: <http://www.oracle.com/technology/products/warehouse/pdf/Using %20Predictive%20Analytics%20within%20Warehouse%20Builder.pdf>. Acessado em: Fev/2009. PEARL, J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers, 1988. 552 p. RAHM, E.; DO, H.H. Data Cleaning: Problems and Current Approaches. In: IEEE Bulletin of the Technical Committee on Data Engineering, v. 23, no. 4, 2000. RUBIN, D.B. Inference and Missing Data. In: Biometrika, v. 63, no. 3, p. 581-592, 1976. SCHOIER, G. On Partial Nonresponse Situations: The Hot Deck Imputation Method. In: Bulletin of the International Statistical Institute. 59 Session. Finlandia, 1999. SCHAFER, J.L.; GRAHAM, J.W. Missing Data: Our View of the State of the Art. In: Psycological Methods, v. 7, no. 2, p. 147-177, 2002. SENTAS, P.; LEFTERIS, A.; STAMELOS, I. Multiple Logistic Regression as Imputation Method Applied on Software Effort Prediction. In: Proc. of the 10th Int. Symp. on Software Metrics, Chicago, 2004. SIMMHAM, Y.L.; PLALE, B.; GANNON, D. A Survey of Data Provenance in eScience. In: ACM SIGMOD Record, v. 34, p. 31-36, 2005. SOARES, J. A. Pr-Processamento em Minerao de Dados: Um Estudo Comparativo em Complementao. 2007. 232 f. Tese (Doutorado) Universidade Federal do Rio de Janeiro, Coordenao dos Programas de Ps-Graduao de Engenharia, Rio de Janeiro, 2007. TAN, W.C. Research Problems in Data Provenance. In: IEEE Data Engineering Bulletin. Chicago, p. 539-550, 2004. VAN BUUREN, S.; BRAND, J.P.L; GROOTHUIS-OUDSHOORN, C.G.M. Fully conditional specification in multivariate imputation. Statistical Computation and Simulation, v. 76, n. 12, p. 10491064, 2006.
27
VAN BUUREN, S.; OUDSHOOM, C.G.M. Multivariate imputation by chained equations MICE V1.0 Users Manual. Disponvel em: <http://web.inter.nl.net/users/S.van.Buuren/mi/docs/Manual.pdf> Acessado em: Nov/2008. WONG, W.E.; ZHAO, J.; CHAN, V.K.Y. Applying Statistical Methodology to Optimize and Simplify Software Metric Models with Missing Data. In: Proceedings of the 2006 ACM Symposium on Applied Computing, p. 1728-1733, 2006. WOODRUFF, A.; STONEBRAKER, M. Supporting Fine-Grained Data Lineage in a Database Visualization. In: International Conference on Data Engineering, Birmingham, UK, p. 91-102, 1997. WU, X.; BARBAR, D. Modeling and Imputation of Large Incomplete Multidimensional Datasets. In: Proceedings of the 4th International Conference on Data Warehousing and Knowledge Discovery, p. 286 295, 2002a. WU, X.; BARBAR, D. Learning Missing Values from Sumary Constraints. In: SIGKDD Exploration, v. 4, 2002b. ZHAO, J.; GOBLE, C.; GREENWOOD, M.; WROE, C.; STEVENS, R. Annotating, linking and browsing provenance logs for e-Science. In: Workshop on Semantic Web Technologies for Searching and Retrieving Scientific Data. Flrida, 2003, p. 92-106.
28

DW Etl Datamining

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

DW Etl Datamining

Enviado por

Direitos autorais:

Formatos disponíveis

IME

ISSN 1982-9035 Monografias em Sistemas e Computao n 01/2010

Um Estudo Sobre Provenincia e Complementao de Dados no Contexto do Processo de ETL

Seo de Engenharia de Computao

ISSN: 1982-9035 Agosto, 2010

Um Estudo sobre Provenincia e Complementao de Dados no Contexto do Processo de ETL

Figura 1.1 Exemplo de uma modelagem no esquema estrela

2 Extrao de Dados em Ambientes de Data Warehouse

Ausncia de Dados em Ambientes de Data Warehouse

Padres de Ausncias de Dados

Mecanismos Ausncias de Dados

Mecanismos Ausncias de Dados

Figura 3.2 Taxonomia sobre Complementao de Dados. Fonte: [Soares, 2007]

Figura 3.3 Exemplo de tabela com valores ausentes em vrios atributos

Mecanismos Ausncias de Dados

Tabela 3.1 Tabela comparativa de abordagens de complementao

Abordagens de Imputao de Dados em Data Warehouse

Você também pode gostar