Você está na página 1de 72

UNIVERSIDADE FEDERAL DO PAR CENTRO DE CINCIAS EXATAS E NATURAIS CURSO DE BACHARELADO EM CINCIA DA COMPUTAO

Bruno da Costa Barroso Pedro Nolasco Ferreira Neto

DESCOBERTA DE CONHECIMENTO NA BASE DE DADOS DE UMA LOCADORA DE FILMES

Belm 2006

UNIVERSIDADE FEDERAL DO PAR CENTRO DE CINCIAS EXATAS E NATURAIS CURSO DE BACHARELADO EM CINCIA DA COMPUTAO

Bruno da Costa Barroso Pedro Nolasco Ferreira Neto

DESCOBERTA DE CONHECIMENTO NA BASE DE DADOS DE UMA LOCADORA DE FILMES

Trabalho de Concluso de Curso apresentado para obteno do grau de Bacharel em Cincia da Computao. Orientadora: Prof. Dra. Carla Alessandra Lima Reis.

Belm 2006

UNIVERSIDADE FEDERAL DO PAR CENTRO DE CINCIAS EXATAS E NATURAIS CURSO DE BACHARELADO EM CINCIA DA COMPUTAO

Bruno da Costa Barroso Pedro Nolasco Ferreira Neto

DESCOBERTA DE CONHECIMENTO NA BASE DE DADOS DE UMA LOCADORA DE FILMES


Monografia apresentada para obteno do grau de Bacharel em Cincia da Computao Data da defesa: 28 de abril de 2006 Conceito: Banca Examinadora Prof. Dra. Carla Alexandra Lima Reis Departamento de Informtica UFPA - Orientador Profo. Dr. Eli Favero Departamento de Informtica UFPA - Membro Profo. Dr. Aldebaro Barreto da Rocha Klautau Jnior Departamento de Engenharia Eltrica UFPA - Membro

Para minha famlia, especialmente meus pais, Roberto e Nazar, que estiveram sempre do meu lado, a quem devo tudo o que sou e tudo o que um dia serei. Espero um dia retribuir uma pequena parte de tudo o que vocs fazem por mim. Para minha namorada Aline, que esteve sempre do meu lado me ajudando e me incentivando nos momentos difceis.

Bruno Barroso
Para meus pais queridos, Pedro Nolasco e Nilza Martins, que me apoiaram e incentivaram neste sonho que est se realizando, dedico todo o mrito dessa vitria a eles. Para minha namorada Waneila Maciel (meu Beb lindo), que me apoiou e me incentivou em todos os momentos, estando sempre ao meu lado e no me deixando desanimar nunca.

Pedro Nolasco

AGRADECIMENTOS
A Deus que nos abenoou com inteligncia e oportunidade para alcanar nossos objetivos. Universidade Federal do Par por nos ter acolhido. nossa Orientadora Carla Alessandra Lima Reis que com sua experincia e compreenso contribuiu para a realizao do trabalho. A professora Miriam Lcia Campos Serra Domingues que desempenhou um papel fundamental em nosso trabalho, estando sempre presente e disposta a ajudar com dedicao e amizade. Ao professor Aldebaro Barreto da Rocha Klautau Jnior pelas dicas dadas para realizao deste trabalho. Vanderlene Covre Rocha pelas dicas acrescidas a este trabalho. A Senhora Rivetla por ter cedido a base de dados de sua vdeo locadora. A todos os nossos amigos que acompanharam de perto nossa vida acadmica e tambm pelos bons momentos de alegria e descontrao. Ao prezado Alfredo Furtado que foi mais que um professor, mostrando que pode existir entre docentes e discentes, no apenas uma relao aluno-professor, mas uma verdadeira amizade, conseguindo com seu bom humor e carisma conciliar o aprendizado em sala de aula com o lazer nos domingos de confraternizao na sede social da Tuna Luso Brasileira.

SUMRIO
LISTA DE FIGURAS ................................................................................................................8 LISTA DE TABELAS ...............................................................................................................9 LISTA DE TABELAS ...............................................................................................................9 RESUMO .................................................................................................................................10 RESUMO .................................................................................................................................10 ABSTRACT .............................................................................................................................11 1 INTRODUO....................................................................................................................12 2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS .................................14 2.1 Descoberta de Conhecimento e Minerao de Dados ...................................................14 2.2 Pr-processamento de Dados........................................................................................16 2.2.1 Definio dos Objetivos ........................................................................................16 2.2.2 Coleta de Dados......................................................................................................17 2.2.3 Limpeza e Pr-processamento dos Dados ..............................................................18 2.2.4 Transformao de Dados .......................................................................................20 2.3 Minerao de Dados .....................................................................................................21 2.3.1 Metas do Data Mining ...........................................................................................22 2.3.2 Principais Tarefas no Data Mining........................................................................22 2.3.2.1 Classificao...................................................................................................22 2.3.2.2 Regresso ou Estimativa.................................................................................23 2.3.2.3 Associao ......................................................................................................23 2.3.2.4 Segmentao (Clustering)...............................................................................23 2.3.3 Tcnicas mais usadas no Data mining...................................................................23 2.3.3.1 rvores de Deciso.........................................................................................24 2.3.3.2 Regras de Associao .....................................................................................24 2.3.3.3 Redes Neurais .................................................................................................25 2.3.3.4 Algoritmos Genticos .....................................................................................25 2.3.4 Ferramentas Usadas no Data Mining ....................................................................25 2.4 Ps-processamento .......................................................................................................27 2.5 reas de Aplicao de KDD ........................................................................................27 3 REGRAS DE ASSOCIAO ............................................................................................29 3.1 Conceitos Bsicos.........................................................................................................30 3.2 Descrio Formal do Problema ....................................................................................30

3.3 Decomposio da Tarefa ..............................................................................................31 3.4 O Algoritmo de Apriori ................................................................................................31 3.4.1. Exemplo da utilizao do Algoritmo Apriori .........................................................35 4 FERRAMENTAS DE MINERAO DE DADOS ...........................................................37 4.1 WEKA (Waikato Environment for Knowledge Analysis) ............................................37 4.2 IBM DB2 Intelligent Miner for Data............................................................................43 5 ESTUDO DE CASO - BASE DE DADOS DE UMA LOCADORA DE FILMES .............47 5.1 Definio dos Objetivos .................................................................................................47 5.2 Seleo do Dados............................................................................................................48 5.3 Limpeza e Pr-processamento do Dados........................................................................50 5.3.1 Tabela Cliente........................................................................................................50 5.3.2 Tabela Gnero .......................................................................................................53 5.3.3 Tabela Filmes ........................................................................................................53 5.3.4 Tabela Locaes ....................................................................................................53 5.4 Transformao dos Dados ............................................................................................54 5.4.1 Tabela Cliente........................................................................................................54 5.4.2 Tabela Gnero .......................................................................................................55 5.4.3 Tabela Filmes ........................................................................................................55 5.4.4 Tabela Locaes ....................................................................................................55 5.5 Criao do Conjunto de Dados Objeto .........................................................................56 5.6 Aplicao das Ferramentas...........................................................................................56 5.6.1 Intelligent Miner for Data......................................................................................56 5.6.2 WEKA ...................................................................................................................60 5.7 Comparao das Ferramentas.......................................................................................63 5.8 Anlise dos Resultados.................................................................................................64 5.8.1 Estudo da Relao Gnero X Gnero....................................................................64 5.8.2 Estudo da Relao Sexo X Gnero........................................................................65 5.8.3 Estudo da Relao Mulheres X Faixa Etria X Gnero ........................................66 5.8.4 Estudo da Relao Homens X Faixa Etria X Gnero ..........................................66 6 CONCLUSES E TRABALHOS FUTUROS .....................................................................69 7 REFERNCIAS BIBLIOGRFICAS ..................................................................................71

LISTA DE FIGURAS
Figura 1 Interligao entre KDD e Data Mining. (CARVALHO, 2002) ..............................14 Figura 2 Minerao de dados como um campo multidisciplinar (CRATOCHVIL, 1999) ...15 Figura 3 Etapas do Processo de KDD. (FAYYAD, 1996) ....................................................16 Figura 4 Algoritmo Apriori (adaptado de ARBEX, 2006)....................................................32 Figura 5 A funo Apriori-gen (adapatado de ARBEX, 2006).............................................33 Figura 6 A funo Subset (adaptado de ARBEX, 2006).......................................................34 Figura 7 Funo ap-genrules (adaptado de ARBEX, 2006)..................................................34 Figura 8 Banco de Dados I (adaptado de DOMINGUES, 2004) ..........................................35 Figura 9 Passos do Algoritmo Apriori (adaptado de DOMINGUES , 2004)........................35 Figura 10 Itemsets freqemtes (adaptado de DOMINGUES , 2004)....................................36 Figura 11 Tela de Inicial do WEKA......................................................................................38 Figura 12 Tela Simple Client ................................................................................................38 Figura 13 Tela Explorer.........................................................................................................39 Figura 14 Tela Experimenter.................................................................................................39 Figura 15 Tela KnowledgeFlow ............................................................................................40 Figura 16 Arquivo ARFF ......................................................................................................42 Figura 17 rea de Trabalho do Intelligent Miner..................................................................43 Figura 18 Estrutura Bsica da Base de Dados.......................................................................48 Figura 19 Tabela Clientes com os dependentes no mesmo registro do Titular.....................51 Figura 20 Tabela Clientes com os dependentes separado do titular......................................51 Figura 21 Tela de Seleo da Tabela ou View do Banco de Dados......................................57 Figura 22 Tela de Escolha dos Tipos de Dados ....................................................................57 Figura 23 Dados no Formato Vertical ...................................................................................58 Figura 24 Tela de Seleo do Objeto de Dados de Entrada ..................................................58 Figura 25 Tela de Seleo dos Campos de Entrada...............................................................59 Figura 26 Tela de Definio dos Parmetros.........................................................................59 Figura 27 Tela de Resultados do IM .....................................................................................60 Figura 28 Dados no Formato Horizontal...............................................................................61 Figura 29 Tela WEKA Explorer com todas as sesses habilitadas.......................................61 Figura 30 Tela de Definio dos Parmetros.........................................................................62 Figura 31 Tela de Resultado do WEKA................................................................................63

LISTA DE TABELAS
Tabela 1. Comparao entre Tcnicas e Tarefas de Data Mining (FAYYAD, 1996)..............22 Tabela 2. Algumas Ferramentas para Data mining (REZENDE, 2003) ..................................26 Tabela 3. Resumo das Caractersticas do WEKA (GOLDSCHMIDT, 2005)..........................43 Tabela 4. Resumos das Caractersticas do Intelligent Miner (GOLDSCHMIDT, 2005).........46 Tabela 5. Estrutura da Tabela Cliente ......................................................................................49 Tabela 6. Estrutura da Tabela Filmes .......................................................................................49 Tabela 7. Estrutura da Tabela Gnero ......................................................................................50 Tabela 8. Estrutura da Tabela Locaes...................................................................................50 Tabela 9. Estrutura da Tabela Clientes aps o processo de limpeza e pr-processamento dos dados.........................................................................................................................................52 Tabela 10. Faixas de transformao do atributo idade .............................................................54 Tabela 11. Estrutura da Tabela Clientes aps o processo de transformao dos dados ...........54 Tabela 12. Estrutura da Tabela Locaes aps o processo de transformao..........................55 Tabela 13. Estrutura da tabela Movimentao .........................................................................56 Tabela 14. Regras Geradas com o Primeiro Objetivo ..............................................................65 Tabela 15. Regras Geradas com o Segundo Objetivo (Sexo Feminino) ..................................65 Tabela 16. Regras Geradas com o Segundo Objetivo (Sexo Masculino).................................66 Tabela 17. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 21 e 30 anos) .........66 Tabela 18. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 31 e 40 anos) .........66 Tabela 19. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 21 e 30 anos)............67 Tabela 20. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 31 e 40 anos)............67 Tabela 21. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 41 e 50 anos)............67

10

RESUMO
Este trabalho tem como objetivo apresentar um estudo sobre a rea de descoberta de conhecimento em banco de dados (KDD), suas tcnicas e ferramentas e a consolidao desse estudo atravs de uma aplicao prtica do processo KDD na base de dados de uma locadora de filmes. Neste trabalho, foi aplicada uma tcnica chamada Regras de Associao, atravs do algoritmo APRIORI, com o objetivo de extrair conhecimento que fosse relevante para o domnio da aplicao. Considerando a existncia de diversas ferramentas de KDD que atendem essa tcnica, foram escolhidas duas das ferramentas existentes para que fosse traado um comparativo. As ferramentas escolhidas para o estudo prtico foram: Intelligent Miner for Data e WEKA (Waikato Environment for Knowledge Analysis). Os resultados obtidos com a aplicao destas ferramentas podero ser usados para traar perfis dos clientes da locadora e analisar os hbitos de locaes dos clientes, a fim de levantar informaes relevantes para tomada de deciso envolvendo marketing e estratgia de venda. Alm disso, o trabalho visa contribuir com o estudo de ferramentas disponveis para descoberta de conhecimento, trazendo um estudo de caso que, por ser de domnio conhecido e de simples entendimento, pode ajudar a disseminar o uso das tcnicas de KDD. PALAVRAS-CHAVE: KDD, Data Mining, Weka, Intelligent Miner for Data, Regras de Associao, algoritmo APRIORI.

11

ABSTRACT
This work aims to study the KDD area and also to apply the studied techniques to a video rental store data base. To achieve this goal, we have applied association rules, through the APRIORI algorithm, in order to get useful knowledge for the application domain. Considering that there are many tools supporting KDD and application rules, we decided to choose two of them and compare the final results and the ease of use. The chosen tools were: Intelligent Miner for Data and WEKA (Waikato Environment for Knowledge Analysis). The results obtained with the employment of those tools can be used to establish profiles of the clients of the video rental store and to analyze the renting habits of its clients in order to collect relevant information. Also, this work aims to contribute as a small survey of existing tools, as it brings an application that is easy to understand, helping the dissemination of KDD techniques.

KEYWORDS: KDD, Data Mining, WEKA, Intelligent Miner for Data, Association Rules, APRIORI algorithm.

12

1 INTRODUO
Uma das primeiras aplicaes dos computadores foi gerenciar dados. Desde ento, as instituies que utilizam computadores tm armazenado dados em grandes volumes, e com uma velocidade de aquisio crescente. Avanos nas tecnologias de armazenamento de dados tais como dispositivos de armazenamento mais rpidos, com maior capacidade de armazenamento e mais baratos, alm de sistemas de gerenciamento de bancos de dados mais eficientes, tecnologias como Data Warehousing (conjunto de banco de dados integrados, utilizado para armazenar grandes volumes de dados de sistema de suporte deciso e aplicaes de KDD) e a prpria World Wide Web tm contribudo para fazer com que existam enormes volumes de dados disponveis a todos. A anlise das informaes contidas nesses volumes de dados realizada por consultas diretas com acesso a dados especficos para obter as informaes necessrias. Porm, com o aumento do volume dos dados, fica mais complexo explorar as informaes e encontrar informao potencialmente til para a tomada de deciso. Surgiu, portanto, a necessidade de uma nova gerao de tcnicas e ferramentas com a habilidade de assistir os analistas humanos de uma forma inteligente e automtica na procura de informaes teis, previamente desconhecidas, nos dados. Tais tcnicas e ferramentas so objetos de estudo de uma rea de pesquisa chamada de Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Databases KDD). Este trabalho tem como objetivo principal a realizao do processo de KDD, usando conceitos de regras de associao para processar e representar as relaes encontradas entre os itens armazenados na base de dados de locadora de filmes. Como objetivo especfico tem-se a utilizao e comparao das ferramentas Intelligent Miner for Data (proprietria) e a ferramenta WEKA (open source), visando obter associaes entre os dados que auxiliem a tomada de deciso e ainda, contribuir com informaes sobre aplicao do processo de KDD no estudo de caso escolhido. Neste captulo foi apresentado o contexto em que o trabalho est inserido, bem como os seus objetivos. O restante do trabalho est organizado conforme os itens a seguir:

13

No captulo 2 ser apresentada a fundamentao terica do estudo, mostrando as diversas etapas e sub-etapas do processo de descoberta, suas aplicaes e algumas ferramentas disponveis. No captulo 3 so apresentadas a tcnica Regras de Associao e o algoritmo de APRIORI utilizados para descobrir conhecimentos na base de dados. No captulo 4 so apresentadas s ferramentas Intelligent Miner for Data e WEKA que foram utilizadas no trabalho. No captulo 5 apresentado um estudo de caso, utilizando a base de dados de uma locadora de filmes, a tcnica e o algoritmo foram apresentados no Captulo 3. No captulo 6 so apresentados a concluso e os trabalhos futuros, com seus resultados e contribuies. E finalmente, no captulo 7 so apresentadas as referencias bibliogrficas utilizadas na elaborao desta monografia.

14

2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS


Descoberta de Conhecimento em Banco de Dados um processo no trivial de identificar padres vlidos, no conhecidos, potencialmente teis e interpretveis (FAYYAD, 1996), consistindo, basicamente, em descobrir a informao til nos dados armazenados, a partir da aplicao de tcnicas de minerao de dados (Data Mining), da avaliao dos padres obtidos e da interpretao dos resultados.

2.1 Descoberta de Conhecimento e Minerao de Dados O inicio do estudo de KDD se deu em 1989, na tentativa de procurar conhecimentos nos dados. Nos anos seguintes, ocorreram workshops sobre o assunto e em 1995 aconteceu a Primeira Conferncia Internacional de Prospeco e Minerao de Dados na cidade de Montreal, Canad (SANCHES, 2003). Segundo Carvalho (CARVALHO, 2002), muitas vezes os termos Minerao de Dados e Descoberta de Conhecimento em Banco de Dados so confundidos como sinnimos. Porm, o termo KDD empregado para descrever todo o processo de extrao de conhecimento de um conjunto de dados, enquanto que o termo MD refere-se a uma das etapas deste processo. A relao existente entre KDD e MD pode ser visualizada graficamente atravs da Figura 1.

Figura 1 Interligao entre KDD e Data Mining. (CARVALHO, 2002)

A natureza do KDD tanto iterativa quanto interativa. A iteratividade tem sua natureza justificada pelo fato de que o conhecimento descoberto apresentado ao usurio pode ser usado da seguinte forma: como base para a medida de avaliao a ser aprimorada; como base para a minerao a ser refinada; novos dados podem ser selecionados ou transformados; ou ainda, novas fontes de dados podem ser integradas para adquirir resultados diferentes e

15

mais apropriados. Portanto, o processo pode ser realizado em etapas seqenciais de maneira que seja possvel sua volta s etapas anteriores, criando laos de ligao entre elas. O usurio tambm o responsvel pela tomada de vrias decises, como na modelagem das informaes, o tipo de algoritmo a ser usado e quais objetivos sero seguidos na busca do conhecimento, garantindo-se assim a sua natureza interativa. O processo de KDD interdisciplinar, pois combina mtodos e ferramentas de diversas reas, como: aprendizagem de mquina, reconhecimento de padres, redes neurais, inteligncia artificial, estatstica, banco de dados, sistemas especialistas e visualizao de dados, conforme Figura 2.

Figura 2 Minerao de dados como um campo multidisciplinar (CRATOCHVIL, 1999)

O processo de KDD dividido em seis etapas, tendo uma especial ateno nas etapas iniciais para evitar que sejam necessrias excessivas iteraes e/ou interaes. O processo de KDD pode ser visto na Figura 3.

16

Figura 3 Etapas do Processo de KDD. (FAYYAD, 1996)

Podem-se distribuir os passos do processo de KDD, vistos na figura 3.1, em trs etapas essenciais: o Pr-processamento, a Minerao de Dados e o Ps-processamento (FELDENS, 1997). A seguir e apresentada a uma descrio de cada uma das etapas (FAYYAD, 1996).

2.2 Pr-processamento de Dados Sua principal caracterstica fazer uma representao mais adequada aos algoritmos de minerao. No pr-processamento so realizados os seguintes passos: definio dos objetivos, coleta de dados, limpeza e pr-processamento dos dados e transformao de dados. 2.2.1 Definio dos Objetivos Um dos passos mais importantes da fase de pr-processamento a definio dos objetivos. nesse estgio que feita a compreenso do domnio de onde o conhecimento ser extrado e so estabelecidos os objetivos que sero alcanados. No existe um padro para delimitar o domnio da aplicao, pois cada aplicao possui caractersticas prprias. No entanto podem ser considerados alguns aspectos: identificar as possveis fontes de dados, saber se existe algum conhecimento prvio da aplicao, como distribuir o conhecimento extrado, estudar a viabilidade e custos da aplicao. Nesta fase, a tcnica a ser empregada definida, com base no problema a ser minerado.

17

2.2.2 Coleta de Dados O prximo passo coletar os atributos que sero utilizados na anlise. Coletar os dados uma tarefa crtica porque as fontes de dados utilizadas no processo de KDD podem ser internas e externas. Um dos principais problemas em coletar dados descobrir onde os dados esto armazenados nos banco de dados, pois muitos sistemas de gerenciamento de dados que esto funcionando hoje foram criados h muitos anos e no possuem documentao satisfatria, o que torna o processo de coleta de dados extremamente difcil. Porm essa tarefa pode ser facilitada quando as empresas utilizam a tecnologia de Data Warehouses, pois esses bancos de dados tentam integrar dados de diversos sistemas transacionais de forma confivel. Independente se a instituio possui ou no um Data Warehouse, a fase de coleta de dados pode ser considerada uma das mais trabalhosas. Alguns desafios que podem ser encontrados nessa fase so (PYLE, 1999): Problemas legais e ticos: podem existir barreiras legais ou ticas que impeam que dados sejam disponibilizados para anlise. Por exemplo, podem existir razes ticas que restrinjam o acesso aos dados que identificam pacientes na rea medica e cliente na rea legal. Motivos estratgicos: pode haver motivos estratgicos que impeam o acesso parte dos dados ou at mesmo a algumas estatsticas sobre os dados. Por exemplo, a proporo de operaes fraudulentas e no fraudulentas uma informao estratgica mantida em absoluto segredo pelas companhias de carto de crdito. Razes polticas: alguns dados podem pertencer a pessoas ou departamentos que pelos mais diversos motivos no apiam a iniciativa de analisar esses dados. Essas pessoas podem impor restries de acesso aos dados, atrasando ou inviabilizando a anlise. Formato dos dados: existem diversos formatos para mdias (disquetes e fitas de diferentes tipos, CD-ROM, entre outros), e para codificao de dados (ASCII, EBCDIC, etc) que podem complicar a coleta de dados de fontes distribudas.

18

Granularidade: nvel de detalhe em que os dados so armazenados. Os sistemas transacionais normalmente armazenam os dados com todo o detalhe possvel, para que possam realizar as suas tarefas. Entretanto, os Data Warehouses dificilmente armazenam os dados de forma detalhada, por motivos de desempenho. Por exemplo, os dados de venda de produtos podem ser totalizados, e somente o total de vendas no dia, de um determinado produto, seja armazenado. Esse fato faz com que os Data Warehouses sejam capazes de armazenar, e serem consultados, sobre dados referentes a vrios anos de movimento. A deciso da granularidade em que os dados so armazenados de extrema importncia, pois dados armazenados de forma sumarizada no podem ser transformados em dados detalhados novamente. Se por um lado as agregaes podem tornar um Data Warehouse mais gil e compacto, por outro lado, certas agregaes podem esconder detalhes dos dados que poderiam ser importante em uma anlise de MD. 2.2.3 Limpeza e Pr-processamento dos Dados Nesta fase busca-se aprimorar a qualidade dos dados coletados, pois os dados apresentam diversos problemas, tais como grande quantidade de valores desconhecidos, rudos (atributos com valores incorretos), grande desproporo entre o nmero de exemplos de cada classe, entre outros. Essa fase freqentemente tida como sendo uma fase que envolve uma grande quantidade de conhecimento de domnio, pois normalmente os dados coletados diretamente de banco de dados so de m qualidade. As principais tarefas da limpeza e pr-processamento de dados so (BATISTA, 2003): Identificao de inconsistncias: ocorre quando dados diferentes so representados pelo mesmo rtulo, ou quando o mesmo dado representado por rtulos diferentes. Um exemplo de inconsistncia ocorre quando um atributo assume diferentes valores, os quais representam, na verdade, uma mesma informao. Por exemplo, um atributo nomefaculdade, que armazena nomes de faculdades, assume os valores UFPA, Ufpa, Universidade Federal do Par, etc, sendo que todos esses valores representam uma mesma informao.

19

Identificao de poluio: existem diversas fontes de poluio de dados. De certa forma, pode-se entender por poluio a presena de dados distorcidos, os quais no representam os valores verdadeiros. Por exemplo, uma empresa de carto de crdito cujo banco de dados possua um campo sexo. Entretanto, alguns registros assumiam o valor E para esse atributo, o qual posteriormente, descobriu-se que correspondia informao Empresa. Originalmente, o sistema tinha sido projetado somente para cadastrar cartes para pessoas fsicas, porm, quando cartes para empresas foram permitidos, no havia um campo especfico para indicar que o cadastrado era uma empresa. Essa informao foi ento armazenada no campo sexo. Verificao de integridade: analisar a integridade dos dados freqentemente envolve uma anlise das relaes permitidas entre os atributos. Por exemplo, uma cliente pode ter varias locaes de vdeo, entretanto, um mesmo cliente no pode ter mais de um CPF em um dado sistema. Identificao de atributos duplicados e redundantes: Ocorre quando uma informao essencialmente idntica armazenada em diversos atributos. Um exemplo possuir atributos em uma mesma tabela como data de nascimento e idade. O maior dano causado pela redundncia para a maioria dos algoritmos utilizados na fase de MD um aumento no tempo de processamento. Entretanto, alguns mtodos so especialmente sensveis ao nmero de atributos, e variveis redundantes podem comprometer seus desempenhos. Tratamento de valores desconhecidos: comum encontrar registros com valores desconhecidos, como cada algoritmo trata os valores desconhecidos de uma forma preciso estabeleces critrios para o tratamento de atributos desconhecidos. Tratamento de conjunto de dados com classes desbalanceadas: conjuntos de dados com classes desbalanceadas so aqueles que possuem uma grande diferena entre o nmero de exemplos pertencentes a cada valor de um atributo classe qualitativo. A maioria dos algoritmos tem dificuldades em criar um modelo que classifique com preciso os exemplos da classe minoritria. Uma forma de solucionar esse problema procurar por uma distribuio da classe que fornea um desempenho aceitvel de classificao para a classe minoritria.

20

Seleo de atributos: consiste em encontrar um subconjunto de atributos no qual o algoritmo utilizado em MD ir se concentrar, pois muitos algoritmos no funcionam bem com uma grande quantidade de atributos, dessa forma a seleo de atributos pode melhorar o desempenho desses algoritmos. Construo de atributos: Se os atributos utilizados para a descrio do conjunto de dados so inadequados, os algoritmos utilizados em MD provavelmente criaro classificadores imprecisos ou excessivamente complexos. Assim, construo de atributos o processo de composio de atributos ditos primitivos, produzindo-se novos atributos possivelmente relevantes para a descrio de um conceito. 2.2.4 Transformao de Dados Aps os dados serem limpos e pr-processados, pode ser necessrio transformar a forma em que os dados esto representados com o objetivo de superar quaisquer limitaes existentes no algoritmo de extrao de padres que ser utilizado. A deciso de quais transformaes ser necessria depende do algoritmo que ser utilizado na fase de MD. Algumas dessas transformaes mais comuns so (BATISTA, 2003): Discretizao de atributos quantitativos: muitos algoritmos possuem a limitao de trabalhar somente com atributos qualitativos. Entretanto, muitos conjuntos de dados possuem atributos quantitativos, e para que esses algoritmos possam ser aplicados necessrio utilizar algum mtodo que transforma um atributo quantitativo em um atributo qualitativo, ou seja, em faixa de valores. Transformao de atributos qualitativos em quantitativos: Alguns algoritmos no so capazes de manipular atributos qualitativos. Dessa forma, necessrio converter os atributos qualitativos em atributos quantitativos. Existem diversas abordagens para realizar essa transformao dependendo das caractersticas e limitaes de cada algoritmo. Por exemplo, atributos qualitativos como pequeno, mdio e grande, podem ser mapeados para valores numricos como, por exemplo, pequeno = 1, mdio = 2 e grande = 3. Atributos de tipos de dados complexos: A maioria dos algoritmos utilizados para extrair padres no consegue trabalhar com tipos de dado mais complexos. Por exemplo, atributos do tipo data e hora no so normalmente analisados pela

21

maioria dos algoritmos utilizados na fase de MD. Dessa forma, necessrio converter esses atributos para algum outro tipo de dado com o qual esses algoritmos possam trabalhar. No caso especfico dos tipos de dado data e hora, a escolha mais simples pela converso para o tipo inteiro. Por exemplo, um atributo data de nascimento pode ser convertido para idade calculando-se a diferena em anos entre os valores do atributo data de nascimento e data atual.

2.3 Minerao de Dados Sua principal caracterstica a aplicao dos algoritmos aos dados pr-processados. Na etapa de Minerao de Dados, tm-se os seguintes passos: 1. Escolha da tarefa de Data Mining: uma combinao de tarefas deve ser escolhida dentre os vrios tipos de tarefas possveis como: classificao, regresso, associao, clustering; 2. Escolha do algoritmo de Data Mining: de acordo com a tarefa selecionada, um determinado algoritmo, tambm denominado de tcnica, ser aplicado nos dados, utilizando-se os modelos e parmetros mais apropriados; 3. Aplicao de Data Mining: busca por padres de interesse particular em uma forma representacional particular ou em um conjunto de aplicaes. A Tabela 1 apresenta um resumo das diversas tcnicas de minerao de dados, relacionando as possveis tarefas e os algoritmos que podem ser utilizados. Tcnica Regras de Associao rvore de Deciso Descrio Tarefas Algoritmo Apriori, AprioriTid, AprioriHybrid, AIS, SETM e DHP. CART, CHAID, C5.0, Quest, ID-3, SLIQ e SPRINT.

Estabelece uma correlao Associao estatstica entre os atributos de dados e conjunto de dados. Hierarquizao dos dados, Classificao baseada em estgios de deciso Regresso (ns) e na separao de classes e subconjuntos.

Algoritmos Genticos

Mtodos gerais de busca e Classificao otimizao, inspirados na Teoria Segmentao da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de ter

Algoritmo Gentico Simples, Genitor, CHC, Algoritmo de Hillis, GANuggets e GA-PVMINER.

22

Redes Neurais Artificiais

descendentes. Modelos inspirados na fisiologia Classificao do crebro, onde o Segmentao conhecimento fruto do mapa Regresso das conexes neuronais e dos pesos dessas conexes.

Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron e Rede BSB.

Tabela 1. Comparao entre Tcnicas e Tarefas de Data Mining (FAYYAD, 1996)

2.3.1 Metas do Data Mining Existem duas metas primarias que podem ser alcanadas atravs da Minerao de Dados (FAYYAD, 1996): Previso: determina as chances de uma ao ocorrer, para se antecipar os valores de variveis desconhecidas ou analisar um possvel valor para uma varivel com o passar do tempo, utilizando algumas variveis, como atributos da base de dados. Descrio: procura por padres que descrevem os dados e que sejam de entendimento dos usurios. 2.3.2 Principais Tarefas no Data Mining Existem diversas tarefas para alcanar as metas de previso e descrio. Alm disso, a tarefa a ser usada precisa ser definida logo no inicio do processo de KDD assim que for definido o domnio da aplicao, pois cada tarefa extrai um tipo de conhecimento. As principais tarefas so: classificao, regresso ou estimativa, associao e segmentao (clustering), as quais sero descritas a seguir segundo Fayyad (FAYYAD, 1996) e Viana (VIANA, 2004). 2.3.2.1 Classificao A classificao utiliza o aprendizado supervisionado de uma funo que classifica, ou seja, atribui uma classe a um item de dado, dentro de vrias classes estabelecidas previamente. Esta tcnica consiste em examinar as caractersticas de um objeto e atribuir (prever) a ele uma classe pr-definida, classificando estes novos objetos. Desta forma, esta tarefa considerada preditiva, pois pode prever automaticamente a classe de um novo dado.

23

No data mining so comuns as tarefas de classificao de clientes em baixo, mdio ou alto risco de emprstimo bancrio; de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil; de transaes financeiras como legais, ilegais ou suspeitas em sistemas de proteo e fiscalizao, entre outras. 2.3.2.2 Regresso ou Estimativa A regresso consiste no aprendizado de uma funo que mapeia um item de dado para uma varivel de valor real, ou seja, define um valor numrico de alguma varivel desconhecida a partir dos valores de outras variveis. similar classificao, exceto pelo valor contnuo do atributo categrico, ao invs de nominal. Os mtodos de regresso permitem a discriminao dos dados atravs da combinao dos atributos de entrada, o que equivale a determinar retas de separao dos dados. 2.3.2.3 Associao A associao um mtodo no supervisionado, considerado descritivo, isto , usado para identificar padres em dados histricos. Este tarefa determina os grupos de itens que tendem a ocorrer ao mesmo tempo, em uma mesma transao, gerando-se uma grande quantidade de regras. Para encontrar exemplos de interesse, algumas mtricas so utilizadas. A regra de associao X => Y, onde X e Y so itens da transao, possuir suporte s se X e Y ocorrerem simultaneamente em s% das transaes. A mesma regra de associao X => Y, ter confiabilidade c se em c% das transaes em que o item X aparece em uma transao, o item Y tambm aparece. Esta a tarefa utilizada na elaborao deste trabalho. 2.3.2.4 Segmentao (Clustering) A clusterizao, agrupamento ou segmentao utiliza o aprendizado no supervisionado para identificar um conjunto finito de categorias ou agrupamentos utilizados para classificar os dados. O objetivo particionar a base de dados em grupos (clusters), sendo que os registros pertencentes a um grupo devem possuir similaridades entre si. Esta tarefa considera descritiva, pois encontra padres na base de dados. 2.3.3 Tcnicas mais usadas no Data mining Harrison (HARRISON, 1998) afirma que no h uma tcnica que resolva todos os problemas de minerao de dados. Diferentes mtodos servem para diferentes propsitos,

24

cada mtodo oferece suas vantagens e suas desvantagens, por isso, muito importante que se conhea bem o ambiente de aplicao e as tcnicas disponveis para que se possa escolher a mais adequada. A seguir so descritas as tcnicas de minerao de dados normalmente usadas. 2.3.3.1 rvores de Deciso Esta tcnica mais propcia para resoluo de problemas que envolvam as tarefas de Classificao e Regresso. Segundo Goebel e Gruenwald (GOEBEL, 1999), uma rvore de deciso uma rvore onde cada n no terminal representa um teste ou deciso sobre o item de dado. Na rvore de deciso os ns representam os atributos, as ligaes entre os ns representam os possveis valores dos atributos e as folhas representam as classes. O objetivo principal de uma rvore de deciso separar as classes; tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das principais vantagens das rvores de deciso o fato de que o modelo bem explicvel, uma vez que tem a forma de regras explcitas (HARRISON, 1998). 2.3.3.2 Regras de Associao Est tcnica mais propicia para resoluo de problemas que envolva a tarefa de associao. Regras de associao estabelecem uma correlao estatstica entre certos itens de dados em um conjunto de dados (GOEBEL, 1999). Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo prtico afirmar que 60% dos registros que contm X tambm contm Y; o percentual 60% chamado de confiana. J o suporte da regra X => Y o numero de ocorrncias deste conjunto de itens na mesma transao.

25

2.3.3.3 Redes Neurais A tcnica de Redes Neurais mais propcia para uso das tarefas de classificao, estimativa e segmentao. Redes Neurais so solues computacionais que envolvem o desenvolvimento de estruturas matemticas com a habilidade de aprendizagem. As redes neurais tm uma notvel habilidade de derivar medidas de dados complicados ou imprecisos e podem ser utilizadas para extrair padres e detectar tendncias que so muito complexas para serem percebidas tanto por seres humanos quando por outras tcnicas computacionais (DWBRASIL, 2005). Uma das principais vantagens das redes neurais sua variedade de aplicao, mas os seus dados de entrada so difceis de serem formados e os modelos produzidos por elas so difceis de entender (HARRISON, 1998). 2.3.3.4 Algoritmos Genticos A tcnica de Algoritmos genticos indicada no uso das tarefas de classificao e segmentao. Os Algoritmos genticos so algoritmos de busca baseado na seleo natural dos seres vivos. Segundo Goldberg (GOLDBERG, 1989), a cada gerao, novos indivduos (strings) so gerados a partir dos indivduos velhos. Cada individuo representa os parmetros pra soluo do problema e possui tambm um valor fitness, o qual indica o quo satisfatrio ele como soluo do problema. Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo, somente as solues com maior poder de previso sobrevivem, at os organismos convergirem em uma soluo ideal (HARRISON, 1998). 2.3.4 Ferramentas Usadas no Data Mining Muitas ferramentas esto disponveis no mercado e realizam diversas tarefas de minerao. De acordo com o problema a ser solucionado, uma delas poder ser escolhida para que se tenha o resultado desejado. Na tabela 2 so descritas algumas caractersticas de ferramentas comerciais e prottipos disponveis no mercado.

26

Nome

Tcnicas Disponveis

Fabricante/Site Megaputer Intelligence www.megaputer.com Rule Quest www.rulequest.com Attar Software Ltd. www.attar.com Dr Philip Vasey atravs do LPA PROLOG Microsoft Corp. www.Microsoft.com Oracle Corp. www.oracle.com Oracle Corp. www.oracle.com Silicon Graphics Inc. www.sgi.com University of Waikato www.waikato.ac.nz IBM Corp. www.ibm.com Silicon Graphics Inc. www.sgi.com/tech/mlc Rule Quest www.rulequest.com Rule Quest www.rulequest.com SPSS Inc. www.spss.com Data-Miner PTY LTD www.data-miner.com

PolyAnalyst classificao, regresso, regras associativas, clustering, sumarizao, e modelagem de Dependncia Magnum regras associativas Opus classificao, regresso, regras XpertRule associativas e clustering Miner regras associativas DataMite Microsoft Data Analyser 2002 Oracle 9i Data Mining Darwin MineSet WEKA Inteligent Miner classificao e clustering

Tipo de Aplicativo pacote

especfico pacote especfico pacote

classificao, regresso, Associativas classificao, regresso e Clustering classificao, regresso, regras associativas e clustering classificao, regresso, regras associativas e clustering regras associativas, padres seqenciais, classificao, clustering, sumarizao e modelagem de dependncia classificao, regresso e Clustering Classificao Regresso

pacote pacote pacote pacote pacote

MLC++ See5 Cubist Clementine

biblioteca especfico especfico pacote especfico

classificao, regras associativas, clustering e padres seqenciais Data-Miner classificao e regresso Software Kit

Tabela 2. Algumas Ferramentas para Data mining (REZENDE, 2003)

A denominao especfico representa uma ferramenta para apoiar uma tarefa especfica, no possuindo a generalidade e a flexibilidade encontradas nos pacotes. Diante desse fato as ferramentas especficas tendem a ser mais simples e fceis de serem compreendidas.

27

As ferramentas WEKA e Intelligent Miner for Data sero apresentadas em maiores detalhes no Capitulo 4, pois foram escolhidas para a experimentao do estudo de caso desse trabalho.

2.4 Ps-processamento Sua principal caracterstica o uso das descobertas teis e suas representaes. Na etapa de ps-processamento, tm-se os seguintes passos: 1. Interpretao dos padres: avaliao e interpretao dos padres encontrados a fim de determinar aqueles que tero alguma utilidade e gerem algum conhecimento. Nesta etapa, pode ocorrer a necessidade de retorno a umas das etapas anteriores; 2. Consolidao do conhecimento: nesta fase efetivado o principal objetivo da minerao onde verificado e utilizado o novo conhecimento sobre os dados atravs das ferramentas de visualizao. Adicionalmente, deve ser feita uma documentao para auxiliar a compreenso do usurio.

2.5 reas de Aplicao de KDD As tcnicas de minerao de dados evoluram muito e podem ser utilizadas em uma grande variedade de reas de aplicao. A seguir, sero relacionadas algumas reas de interesse na utilizao de minerao de dados: Marketing: Tcnicas de minerao de dados so aplicadas para descobrir preferncias do consumidor e padres de compra, com o objetivo de realizar marketing direto de produtos e ofertas promocionais, de acordo com o perfil do consumidor. Deteco de fraudes: Muitas fraudes bvias (tais como, a compensao de cheque por pessoas falecidas) podem ser encontradas sem minerao de dados, mas padres mais sutis de fraude podem ser difceis de serem detectados, por exemplo, o desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que poder se tornar inadimplente em seus pagamentos.

28

Medicina: Caracterizar comportamento de paciente para prever visitas, identificar terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas doenas. Instituies governamentais: descoberta de padres para melhorar as coletas de taxas ou descobrir fraudes. Cincia: tcnicas de minerao de dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padres em estruturas moleculares, dados genticos, mudanas globais de clima, oferecendo concluses valiosas rapidamente. Banco: detectar padres de uso de carto de crdito fraudulento, identificar clientes leais, determinar gastos com carto de crdito por grupos de clientes, encontrar correlaes escondidas entre diferentes indicadores financeiros.

29

3 REGRAS DE ASSOCIAO
Atualmente, a descoberta de regras de associao parece ser uma das tcnicas de minerao de dados mais utilizada. Esta tcnica tem como premissa bsica encontrar elementos que implicam na presena de outros elementos em uma mesma transao, ou seja, encontrar relacionamentos ou padres freqentes entre conjuntos de dados. O termo transao indica quais itens foram consultados em uma determinada operao de consulta. O interesse nessa busca de informao ocorre, sobretudo, em virtude dos progressos feitos na tecnologia de cdigos de barra, que permitiu s organizaes de varejo coletar e armazenar grande quantidade de dados referentes s compras realizadas por seus clientes, conhecidas como dados de cesta. Esse processo analisa os hbitos de consumo dos clientes descobrindo associaes entre diferentes itens que so colocados nas cestas de compra. Por exemplo, a partir de uma base de dados, na qual se registram os itens adquiridos por clientes, uma estratgia de minerao, com uso de regras de associao, poderia gerar a seguinte afirmao: 90% dos clientes que adquirem po e manteiga tambm adquirem leite. Essa regra pode ser representada na forma: {po, manteiga} => {leite}. O exemplo ilustra uma das caractersticas mais atrativas das regras de associao: elas so expressas em uma forma muito fcil de ser compreendida. Organizaes de sucesso vem tais bancos de dados como importantes peas da sua infra-estrutura de marketing, pois atravs do conhecimento desses dados, as organizaes dirigem seus processos de marketing e promovem estratgias de layout e catlogos que possam trazer vantagens a partir dos dados coletados (AGRAWAL, 1996). Alm da anlise do comportamento do consumidor no comrcio varejista, a minerao de regras de associao poderia ser aplicada em outras reas, como nos servios bancrios e de telecomunicao, no histrico de pacientes e na anlise de admisso em cursos universitrios.

30

3.1 Conceitos Bsicos Uma regra de associao um relacionamento na forma A (antecedente) => B (conseqente), onde A e B so conjuntos de itens e A B = . Para cada regra de associao gerada calculado um fator de suporte e um fator de confiana. O suporte de uma regra A B , onde A e B so conjuntos de itens, dado pela seguinte frmula:
Suporte = Freqncia A e B Total de Transaes

Onde o numerador se refere ao nmero de transaes em que A e B ocorrem simultaneamente e o denominador ao total de transaes. A sua confiana dada pela seguinte frmula:

Confiana =

Freqncia de A e B Freqnciade A

Onde o numerador se refere ao nmero de transaes em que A e B ocorrem simultaneamente e o denominador se refere quantidade de transaes em que o item A ocorre. O suporte pode ser descrito como a probabilidade de uma transao qualquer satisfaa tanto A como B, ao passo que a confiana a probabilidade de que uma transao satisfaa B, dado que ela satisfaa A. Assim sendo, a tcnica de descoberta de regras de associao consiste na extrao de todas as regras com suporte e confiana maior ou igual ao suporte mnimo e confiana mnima especificados pelo usurio. 3.2 Descrio Formal do Problema A descrio formal do problema de minerao de regras de associao, conforme Agrawal (AGRAWAL, 1996) a seguinte: Sejam = {i1 , i2 , ... im } um conjunto de m itens
distintos e D uma base de dados formada por um conjunto de transaes, onde cada transao T composta por um conjunto de itens (itemset), tal que T I . Uma regra de associao uma expresso na forma A B , onde A I , B I , A , B , A B . A

31

denominado antecedente e B denominado conseqente da regra. Tanto o antecedente, quanto o conseqente de uma regra de associao podem ser formados por conjuntos contendo um ou mais itens. A quantidade de itens pertencentes a um conjunto de itens chamada de comprimento do conjunto. Um conjunto de itens de comprimento k costuma ser referenciado como um k-itemset. A regra A B vlida no conjunto de transaes D com grau de confiana c, se c% das transaes em D que contm A tambm contm B. A regra A B tm suportes em D, se s% das transaes em D contm A B .

3.3 Decomposio da Tarefa


O problema de se descobrir todas as regras de associao pode ser decomposto em duas etapas Na primeira etapa, um algoritmo determina todos os conjuntos de itens que possuam um suporte de transaes acima de um limite mnimo informado. O suporte para um conjunto de itens o nmero das transaes que contm este conjunto. So chamados de conjuntos de itens freqentes aqueles que tm suporte igual ou superior ao mnimo estabelecido. Na segunda etapa, para cada conjunto de itens freqentes, todas as possveis regras candidatas so geradas e testadas quanto confiana mnima. Uma regra candidata gerada extraindo-se um subconjunto de itens do conjunto de itens freqentes para ser o antecedente da regra e usando-se os itens restantes no conjunto de itens freqentes para ser o conseqente da regra. Somente as regras candidatas com confiana maior ou igual confiana mnima especificada pelo usurio so includas na sada do algoritmo.

3.4 O Algoritmo de Apriori


O algoritmo Apriori considerado um clssico na extrao de Regras de Associao. Ele foi proposto pela equipe de pesquisa QUEST da IBM que deu origem ao Software Intelligent Miner (ARBEX, 2006). Esse algoritmo emprega busca em profundidade e utiliza os conjuntos de itens de tamanho k para gerar os conjuntos de itens de tamanho (k + 1). O primeiro passo do algoritmo encontrar os conjuntos de itens freqentes com 1 item. Este conjunto denominado de L1. O conjunto de L1 usado para gerar L2, que representa os conjuntos de itens freqentes com 2 itens e assim por diante at que nenhum conjunto de itens freqentes possa ser gerado.

32

O algoritmo Apriori usa o principio de que cada subconjunto de um conjunto de itens freqentes tambm deve ser freqente. Esta regra utilizada para reduzir o nmero de candidatos a serem comparados com cada transao no banco de dados. Todos os candidatos gerados que contenham algum subconjunto que no seja freqente so eliminados. Este principio denominado propriedade de antimonotonia da relao (ARBEX, 2006). A Figura 4 apresenta o algoritmo Apriori. 01) L1 = {Conjunto dos Itemsets freqentes de tamanho 1} 02) para ( k = 2; Lk 1 ; k + + ) 03) Ck = apriori-gen(Lk-1) //Gerao de candidatos para todas as transaes t 04) 05) Ct = subset(Ck, t) 06) para todos os candidatos c em Ct fazer c.contagem ++ fim de para todas 07) 08) Lk = {c em Ck | c.contagem minsup} 09) fim de para 10) Resposta = Reunio de todos os Lk
Figura 4 Algoritmo Apriori (adaptado de ARBEX, 2006)

O algoritmo Apriori executado da seguinte forma:

Na primeira passagem, o suporte para cada item individual (conjunto de 1 item)


contado e todos aqueles que satisfazem o suporte mnimo so selecionados. Estes so os conjuntos de itens freqentes com 1 item.

Na segunda iterao, conjuntos de itens freqentes com 2 itens so gerados pela


juno dos conjuntos de itens freqentes com 1 item e seus suportes so determinados pela pesquisa no banco de dados, sendo, assim, encontrados os conjuntos de itens freqentes com 2 itens.

O algoritmo prossegue iterativamente, at que o conjunto de item freqente com


k itens encontrado seja um conjunto vazio. O algoritmo principal (Apriori) faz uso de duas funes:

A funo apriori-gen, chamada na linha 3 do algoritmo mostrado na Figura 4,


gera o conjunto de itens candidatos (conjunto composto pelos valores correspondentes ao suporte de cada item). Neste conjunto so considerados todos os itens, independentes deles atenderem o suporte mnimo e eliminar aqueles que no so freqentes;

33

A funo subset, chamada na linha 5 do algoritmo mostrado na Figura 4, extrai


as regras de associao. De forma geral, a sua meta procurar por relaes entre os dados enquanto eles so separados. Simultaneamente, o algoritmo calcula o valor correspondente confiana e ao suporte. A funo apriori-gen, mostrada na Figura 5, recebe como argumento Lk-1, que possui os conjuntos de itens freqentes de tamanho k-1, e retorna o conjunto de todos os itens freqentes de tamanho k. Essa tarefa dividida em dois passos, Join (juno) e Prune (ajuste). 01) inserir em Ck //Conjunto de Itemsets candidatos de tamanho k 02) seleciona p.item1, p.item2,..., p.itemk-1, q.itemk-1 03) de Lk-1 p, Lk-1 q 04) quando p.item1=q.item1 e p.item2=q.item2,...,e p.itemk-2=q.itemk-2 e p.itemk-1 < q.itemk-1 05) para todos itemsets c em Ck 06) para todos (k-1)-subsets s de c se (s Lk-1) ento 07) 08) deletar c de Ck 09) fim de se 10) fim de para todos 11) fim de para todos
Figura 5 A funo Apriori-gen (adapatado de ARBEX, 2006)

No passo Join, linha de 1 a 4 da funo apriori-gen, ocorre as combinaes dos

itemsets, com a juno de Lk-1 com Lk-1 para gerar os itemsets candidatos. O critrio da linha 2
garante que apenas a primeira coluna das tabelas p e q (criadas a partir de Lk-1) sero selecionadas, isto necessrio, pois estas tabelas so criadas com duas colunas, a primeira contendo os itemsets e a segunda o suporte para cada itemset. O critrio da linha 4 garante que os itemsets candidatos formados estaro ordenados lexicograficamente, eliminando aqueles que possurem itens equivalentes (ARBEX, 2006). No passo Prune, linhas de 5 a 11 da funo Apriori-gen, so removidos todos os itens

c Ck tal que, qualquer sub-item c de tamanho k-1 no esteja em Lk-1, ou seja, os candidatos
com subconjunto no freqentes so eliminados. A funo subset, mostrada na Figura 6, recebe como argumento Ck, que possui os itens candidatos j podados, e as transaes t da base de dados, e retorna Ct que formado por todos os conjuntos candidatos (itemset) de Ck presentes em uma transao t (ARBEX, 2006).

34

01) para todos os conjuntos freqentes Lk, k 2 02) Hm = L k 03) chamar ap-genrules(Lk, Hm) 04) fim de para todos
Figura 6 A funo Subset (adaptado de ARBEX, 2006)

Nota-se que o algoritmo tem, em sua linha 3, uma chamada para a funo ap-genrules, que encarregada de calcular a confiana, bem como, escrever a regra encontrada. A funo mostrada na Figura 7. 01) ap-genrules(Lk, Hm) 02) H = {(m-1)-itens Hm-1 | Hm-1 Hm} //gera o conjunto H contendo os subconjuntos Hm com Hm-1 elementos para todos Hm-1 em A 03) 04) conf = suporte(Lk) / suporte(Hm-1) //calcula a confiana para a regra Hm-1 05) se (conf minconf) ento 06) escreva regra Hm-1 (Lk - Hm-1), com confiana=conf e suporte=suporte(Lk) 07) se (m-1 > 1) ento ap-genrules(Lk, Hm-1) 08) 09) fim de se 10) fim de para todos 11) fim
Figura 7 Funo ap-genrules (adaptado de ARBEX, 2006)

A funo ap-genrules recebe como argumento o conjunto freqente Lk por duas vezes, a primeira como Lk e a segunda como Hm, conjunto freqente com m-itens, onde inicialmente

m = k e Lk = Hm, conforme linha 1 da Figura 7.


Esta funo encontra todos os subconjuntos no nulos de Hm com Hm-1 elementos. Estes subconjuntos so armazenados em um conjunto chamado de H. Para cada subconjunto Hm-1 de Hm pertencente a H, escreve-se a regra na forma Hm-1 => (Lk - Hm-1), se a razo conf = suporte(Lk) / suporte(Hm-1) for maior ou igual a confiana mnima. Consideram-se todos os subconjuntos de Hm para gerar as regras com mltiplos tamanhos. O algoritmo divide o conjunto freqente Hm em vrios subconjuntos de m-1 elementos em busca das regras vlidas. No prximo passo testa se o valor de m-1 maior que 1, e se a condio for verdadeira chama novamente a funo ap-genrules, num processo recursivo, passando o conjunto Lk e o conjunto Hm-1. Novamente, a funo ap-genrules recebe o conjunto Lk e o conjunto Hm-1 como Hm, e repete todo o processo at que o conjunto Hm-1 contenha somente um elemento (ARBEX, 2006). Assim, todas as regras com suporte maior ou igual a minsup (suporte mnimo) e confiana maior ou igual a minconf (confiana mnima) so geradas, consideradas como

35

vlidas e exibidas ao trmino da execuo do algoritmo ao lado de seus valores de suporte e confiana.

3.4.1. Exemplo da utilizao do Algoritmo Apriori

Em um banco de dados I = {A, B, C, D, E} e um conjunto de transaes D = {1,2,3,4,5,6}, conforme mostra a Figura 8, determinar os itemsets com minsup igual a 50%, ou seja, que ocorram em pelo menos trs transaes.

Figura 8 Banco de Dados I (adaptado de DOMINGUES, 2004)

O algoritmo segue seus passos, conforme mostra a Figura 9, gerando os conjuntos candidatos e a partir destes descobrindo os itemsets freqentes, que so apresentados na Figura 10.

Figura 9 Passos do Algoritmo Apriori (adaptado de DOMINGUES , 2004)

36

Figura 10 Itemsets freqemtes (adaptado de DOMINGUES , 2004)

Neste exemplo, nota-se o uso da propriedade da antimonotonia da relao, pois os conjuntos C3 e C4 que deveriam possuir respectivamente 10 e 5 itemsets candidatos, se fossem geradas todas as combinaes dos itens com 3 e 4 elementos, no possuem, pois os

itemsets que no apresentam todos seus subconjuntos tambm freqentes so eliminados sem
a necessidade de calcular seu suporte.

37

4 FERRAMENTAS DE MINERAO DE DADOS


Atualmente, existem diversas ferramentas de minerao de dados disponveis para a extrao de conhecimento a partir de bases de dados. A seguir, sero apresentadas duas dessas ferramentas, bem como suas principais caractersticas.

4.1 WEKA (Waikato Environment for Knowledge Analysis)


O WEKA (Waikato Environment for Knowledge Analysis) um ambiente grfico desenvolvido pelo Departamento de Cincia da Computao da Universidade de Waikato na Nova Zelndia. Compreende um conjunto de algoritmos de pr-processamento de dados e de diversas tcnicas de Minerao de Dados como classificao, clusterizao e associao, alm de uma boa interface grfica com o usurio que permitem a tentativa de descoberta de conhecimentos ocultos em bases de dados com volumes considerveis de informaes. O Ambiente WEKA um software livre distribudo sob a licena GNU (FRANK, 2006). Suas principais caractersticas so herdadas do fato de ser uma ferramenta desenvolvida em Java, uma linguagem multi-plataforma orientada a objetos. A portabilidade da linguagem permite ao WEKA rodar em diversas plataformas diferentes, e sua orientao a objetos produz vantagens como modularidade, polimorfismo, encapsulamento, reutilizao de cdigo entre outras. Com relao sua utilizao, a mesma pode ser executada de diversas maneiras. A ferramenta possui quatro diferentes implementaes de interface, que permitem que todos os seus algoritmos sejam chamados diretamente via cdigo Java. Na Figura 8, se observa a tela inicial do programa que d acesso a essas interfaces. Cada interface possui suas peculiaridades conforme descrito a seguir:

38

Figura 11 Tela de Inicial do WEKA

Simple Client Nessa interface, a interao do usurio com o WEKA ocorre por
meio de linhas de comando. Requerendo um profundo conhecimento do programa. Contudo, extremamente flexvel e gil para usurios avanados. Na Figura 12, exibimos a tela do Simple Client.

Figura 12 Tela Simple Client

Explorer Trata-se da interface de utilizao mais comum, e enquadra


separadamente as etapas de pr-processamento (filtros), minerao de dados (associao, clusterizao e classificao), seleo de atributos e ps-

39

processamento (apresentao de resultados). Na Figura 13, exibimos a tela do Explorer.

Figura 13 Tela Explorer

Experimenter Constitui um ambiente de experimentao, em que testes


estatsticos podem ser conduzidos a fim de avaliar o desempenho de diferentes algoritmos de aprendizado. Na Figura 14 exibimos a tela do Experimenter.

Figura 14 Tela Experimenter

40

KnowledgeFlow uma ferramenta grfica ainda em desenvolvimento que


permite o planejamento de aes, na construo de um fluxo de processos de KDD. Na Figura 15, exibimos a tela do KnowledgeFlow.

Figura 15 Tela KnowledgeFlow

O WEKA possui implementados diversos mtodos de associao, classificao e clusterizao. A incluso ou remoo de novos mtodos pode ser realizada de forma simples e rpida, o que torna a ferramenta customizvel e expansvel. Como exemplos dos mtodos implementados pelo WEKA, pode-se citar:

Mtodos de Classificao:
o rvore de deciso induzida, o Regras de aprendizagem o Naive Bayes o Tabelas de deciso o Regresso local de pesos o Aprendizado baseado em instncia o Regresso lgica o Perceptron

41

o Perceptron multicamada o Comit de perceptrons o SVM (Mquina de Vetores de Suporte)

Mtodos para predio numrica


o Regresso linear o Geradores de rvores modelo o Regresso local de pesos o Aprendizado baseado em instncia o Tabelas de deciso o Perceptron multicamadas o KnowledgeFlow KnowledgeFlow
O WEKA permite a abertura direta de arquivos locais e em URL nos formatos ARFF, CSV e C45, permitindo a manipulao direta dos dados contidos nos mesmos, alm de acessar tabelas de banco de dados via JDBC. Tambm permite visualizao grfica dos dados em forma de histogramas, e a apresentao de resultados em rvores de deciso, diagramas de disperso, alm de prover modelos grficos para montagem de redes neurais. O tipo de arquivo ARFF um formato prprio do WEKA, conforme Figura 16. Neste formato, o nome do conjunto de dados deve ser precedido da tag @relation, os atributos devem ser colocados em linha diferentes, sendo todos precedidos da tag @attribute e sucedidos pelo seu tipo de dados ou pelo seu conjunto de possveis valores entre chaves e separados por vrgula, pois o WEKA no consegue obter automaticamente o tipo do atributo pelo seu valor, e por fim colocar uma linha com a tag @data antes dos dados.

42

Figura 16 Arquivo ARFF

Na Tabela 3 podemos verificar um resumo das caractersticas do WEKA.

Caractersticas Acesso a Fontes de Dados Heterogneas Integrao de Conjuntos de Dados Facilidade para Incluso de Novas Operaes Facilidade para a Incluso de Novos Mtodos Recursos para Incluso de Novos Mtodos Processamento Paralelo/Distribudo Operaes/Mtodos Visualizao de Dados Disponveis Reduo de Dados Limpeza de Dados Codificao de Dados Classificao
Clusterizao Simplificao de

valores Sim No Sim Sim Sim No Distribuio de Freqncias; Medidas de Disperso; Histogramas Amostragem Substituio Discretizao automtica e manual. rvores de Deciso, Bayes, Redes Neurais... Simple-KMenas, Cobweb, FarthesFirst...
N/D

43

Resultados Organizao de Resultados Apresentao de Resultados Estruturas para Armazenamento de Modelos de Conhecimento Estruturas para Acompanhamento de Histricos de Aes

Agrupamentos de Padres; Ordenamento de Padres Conjunto de Regras; rvores de Deciso. Sim Sim

Tabela 3. Resumo das Caractersticas do WEKA (GOLDSCHMIDT, 2005)

4.2 IBM DB2 Intelligent Miner for Data


O IBM DB2 Intelligent Miner For Data um conjunto de funes de pesquisas, estatsticas e de pr-processamento destinadas anlise sofisticada de grandes quantidades de informao empresarial, que se insere num conjunto de ferramentas da IBM que fornecem solues de gesto de informao. Ele tambm oferece ferramentas de visualizao cuja finalidade exibir e interpretar resultados de pesquisas. Na Figura 17 visualizamos a rea de trabalho do Intelligent Miner.

Figura 17 rea de Trabalho do Intelligent Miner

44

Com relao sua estrutura, o Intelligent Miner funciona em uma arquitetura cliente / servidor, onde o servidor pode ser executado em workstations com sistema operacional AIX, Sun Solaris ou Windows 2000/NT/WS2003/XP. O cliente pode ser executado em

workstations com sistema operacional AIX, Windows 2000/NT/WS2003/XP ou OS/2.


O Intelligent Miner faz a comunicao entre as funes de pesquisa e prprocessamento no servidor e tambm entre as ferramentas de visualizao e administrativas no cliente. O componente cliente possui uma interface do usurio a partir da qual possvel chamar as funes em um servidor Intelligent Miner. Os resultados so apresentados ao cliente em um local onde eles podem ser visualizados e analisados. Os componentes do cliente esto disponveis para os sistemas operacionais AIX e Windows. O software do servidor est disponvel para os sistemas AIX, OS/390, iSeries, Solaris Operating Environment e Windows. O software do servidor suporta a pesquisa paralela com vrios processadores. Os componentes cliente e servidor podem ficar na mesma mquina. Podemos agrupar em quatro pontos fundamentais a filosofia do Intelligent Miner:

Um nico framework para Data mining Onde a aposta est em um conjunto


nico e integrado de ferramentas de apoio ao processo iterativo de Data mining, oferecendo ferramentas de processamento de dados, anlise estatstica, e visualizao de resultados, alm das tcnicas de data mining variadas.

Algoritmos acreditados Utilizam algoritmos de extrao comprovados por


comunidades cientificas, individualmente ou em combinao para abordar uma grande variedade de problemas de negcios e fornecer resultados de negcios.

Escalabilidade Como o objetivo o tratamento de grandes quantidades de


informao, a escalabilidade um dos fatores mais importantes. Dessa forma, o Intelligent Miner baseado em tcnicas e algoritmos de processamento em paralelo. Possuindo um conjunto de ferramentas apto a fornecer uma estrutura que suporta o processo iterativo de descoberta de conhecimento.

Customizao Sendo realizado atravs de APIs, de forma a permitir o


desenvolvimento de aplicaes especficas de um dado domnio, pelos clientes ou parceiros.

45

A ferramenta tambm inclui funes que facilitam a anlise e preparao dos dados, sobretudo funes estatsticas, como anlise de fatores, regresso linear, anlise de componentes principais, ajustamento de curvas, regresso logstica, estatsticas univariantes e bivariantes. Alm de todas estas funes disponibilizadas, a ferramenta permite interoperabilidade com outras ferramentas de anlise, aumentando as capacidades de explorao e anlise de dados. Em termos de interface, o Intelligent Miner fornece acesso interativo a tarefas de Data

Mining, incluindo: ajuda on-line, guias de tarefas e representao grfica das bases de dados e
seus objetos. possvel a definio de macros de seqncias, que podem ser gravadas, alteradas, repetidas e transportadas de sistema para sistema. Um conjunto de funes de visualizao de resultados de Data Mining ou das funes estatsticas est presente para permitir melhor compreenso da informao. A ferramenta oferece ainda a Intelligent Miners programable interface que permite a definio de aplicaes personalizadas e especficas da indstria. So ainda oferecidas funes que facilitam a exportao de resultados para diversas ferramentas anlise, como por exemplo, ferramentas OLAP1, por exemplo, permite interoperabilidade com SPSS2 para proporcionar capacidades adicionais de explorao de dados e anlise estatstica. As operaes de Data Mining podem ser executadas diretamente sobre bases de dados DB2 (da IBM), arquivos, fontes de informao acessveis por DataJoiner. Adicionalmente, tambm so disponibilizadas funes de importao de dados de Oracle e Sysbase para DB2. O Intelligent Miner permite ainda tirar partido de processamento em bases de dados DB2 em paralelo Na Tabela 4 podemos verificar um resumo das caractersticas do Intelligent Miner.

Caractersticas Acesso a Fontes de Dados Heterogneas Integrao de Conjuntos de Dados Facilidade para Incluso de Novas Operaes Facilidade para a Incluso de Novos Mtodos Recursos para Incluso de Novos Mtodos Processamento Paralelo/Distribudo Operaes/Mtodos Visualizao de Dados
1

Valores
Sim Sim Sim Sim Sim Sim Histogramas, Grficos (de pizza, de

OLAP (On-Line Analytic Processing), ou seja, processamento analitico em tempo real, para rapidamente dar resposta a consultas complexas base de dados. 2 SPSS (Statistical Package for the Social Sciences), ou seja, pacote estatstico para as cincias sociais. So sistemas desenvolvidos para anlise estatstica e Data mining dos dados.

46

Reduo de Dados Limpeza de Dados Codificao de Dados Classificao Disponveis Normalizao Clusterizao Simplificao de Resultados Organizao de Resultados Apresentao de Resultados Estruturas para Armazenamento de Modelos de Conhecimento Estruturas para Acompanhamento de Histricos de Aes

linha, de barra) Clculo de valores, Seleo, Amostragem, Aplicao de filtros Substituio, Descarte Discretizao, Randomizao e Transformao automtica e manual rvore de Deciso (CART modificado), Mtodos Estatsticos, Redes Neurais No K-Means Informaes no disponvel Agrupamentos de Padres; Ordenamento de padres Grficos (pizza, barras), Tabelas, rvores, Clustes Sim Sim

Tabela 4. Resumos das Caractersticas do Intelligent Miner (GOLDSCHMIDT, 2005)

47

5 ESTUDO DE CASO - BASE DE DADOS DE UMA LOCADORA DE FILMES


As informaes extradas atravs da Descoberta de Conhecimento esto sendo utilizadas em diferentes meios, pois os dados podem ser encontrados facilmente e os resultados obtidos mostram-se promissores para qualquer domnio de aplicao. Dessa forma, as possibilidades de aplicao so inmeras. Em vista da grande aplicabilidade e da grande importncia da utilizao de Data

Mining dentro das empresas no apoio deciso, decidiu-se utilizar uma base de dados
comercial para demonstrar a tcnica escolhida. Nesta rea, as informaes obtidas atravs de

Data Mining podem ser amplamente utilizadas em setores vitais ao progresso e


desenvolvimento da empresa. Para aplicao de Data Mining neste trabalho foi escolhida uma base de dados real de uma locadora de filmes (tambm denominada vdeo locadora no decorrer do trabalho) da regio, por ser um domnio rico em informaes comerciais e transaes diversas e tambm por ser um domnio de fcil entendimento. Como uma base de dados relativamente grande e com muitas movimentaes dirias (com a incluso de 40 registros em mdia por dia), tornase a cada dia, mais difcil o acesso e processamento de suas informaes, justificando a aplicao de Data Mining nas bases de dados deste domnio. A facilidade de acesso a esta base de dados e a possibilidade de uma compreenso das tcnicas utilizadas, sem haver preocupao no entendimento do domnio, foram tambm motivos que levaram a escolha dos dados reais de uma vdeo locadora.

5.1 Definio dos Objetivos


O primeiro passo no processo de descoberta de conhecimento em banco de dados a definio dos objetivos. Pode no existir a definio do problema a ser solucionado, considerando que data mining pode ser aplicada como um processo de descoberta, no qual nem sempre feito algum tipo de suposio antecipada.

48

No caso deste trabalho, o objetivo principal analisar os hbitos de locao dos clientes descobrindo associaes entre os diferentes gneros de filmes que so locados tambm analisar o perfil dos seus clientes.

5.2 Seleo do Dados


Nesta fase selecionou-se os registros referentes a dois anos de locaes da vdeo locadora como o conjunto de dados, sob os quais a Descoberta de Conhecimento seria realizada e sob os quais seria criado um conjunto de dados objetos. A estrutura bsica deste conjunto de dados, referente aos clientes, filmes e s locaes efetuadas, est apresentada na Figura 18.

Figura 18 Estrutura Bsica da Base de Dados

As locaes dirias desta locadora esto armazenadas na tabela Locao, consistindo no cdigo do cliente, cdigo do filme, autorizado do cliente (quem fez a locao, se foi o cliente ou um de seus dependentes), data da locao, hora da locao, data da devoluo, hora da devoluo, operao de locao (documento-locacao), operao de devoluo (documentodevolucao) e valor da locao. Para cada filme de uma mesma operao (locao) criado um novo registro.

49

A tabela Cliente, armazena as informaes referentes aos clientes j cadastrados pela locadora. Cada cliente possui um cdigo interno. O nome do cliente, endereo, bairro, data de nascimento, dependentes desse cliente, entre outras informaes tambm so armazenadas na tabela Cliente. J a tabela Filme, armazena as informaes referentes aos filmes j cadastrados pela locadora. Cada filme possui um cdigo interno, alm do cdigo do gnero (gnero) a que pertence o filme. O titulo do filme, a sua data de aquisio, os autores, o preo, entre outras informaes tambm so armazenadas na tabela Filme. Para cada DVD ou VHS de um filme criado um novo registro. Existe tambm uma tabela auxiliar, chamada Gnero, que possui armazenado a descrio de cada cdigo de gnero (Ao, Aventura, Terror, Infantil, etc). Para criao do conjunto de dados objeto, foi necessria a criao de 4 tabelas: Clientes, Filmes, Gneros e Locaes. Para criao dessas tabelas foi utilizado o banco de dados Access 2000. A estrutura das tabelas Clientes, Filmes, Gneros e Locaes mostrada nas Tabelas 5, 6, 7 e 8, respectivamente.

Campo Cdigo Nome Bairro Dt-Nasc-Titular Profisso Autorizado1 Dt-Nasc-Autoriado1 Autorizado2 Dt-Nasc-Autoriado2 Autorizado3 Dt-Nasc-Autoriado3 Autorizado4 Dt-Nasc-Autoriado4

Tabela Cliente Descrio Cdigo nico do cliente Nome do cliente titular Bairro onde mora o cliente Data de nascimento do titular Profisso do titular Nome do primeiro dependente Data de nascimento do primeiro dependente Nome do segundo dependente Data de nascimento do segundo dependente Nome do terceiro dependente Data de nascimento do terceiro dependente Nome do quarto dependente Data de nascimento do quarto dependente
Tabela 5. Estrutura da Tabela Cliente

Campo Cdigo Titulo-Portugus Gnero

Tabela Filmes Descrio Cdigo nico do filme Titulo do filme em portugus Cdigo do gnero
Tabela 6. Estrutura da Tabela Filmes

Campo Cdigo

Tabela Gnero Descrio Cdigo nico do gnero

50

Gnero

Descrio do gnero
Tabela 7. Estrutura da Tabela Gnero

Campo Operao Cd-Filme Cd-Cliente


Autorizado Data-Locao Hora-Locao

Tabela Locaes Descrio Operao da locao Cdigo do cliente responsvel pela locao Cdigo do filme da locao Identifica o tipo do cliente (Titular, Autorizado1, Autorizado2, Autorizado3 ou Autorizado4) Data da locao do filme Hora da locao do filme
Tabela 8. Estrutura da Tabela Locaes

Para carregar os dados referentes aos clientes, filmes, gneros e locaes foram gerados, a partir do banco de dados da locadora, quatro arquivos do tipo texto. Em seguida, esses arquivos foram importados para as tabelas criadas no banco de dados Access 2000. No total 4.298 registros foram adicionados na tabela Clientes, 5.186 registros na tabela Filmes, 30 registros na tabela Gneros e 27.184 registros na tabela Locaes. Alguns atributos das tabelas Clientes (rg, cpf, telefone, cep, etc), Filmes (diretor, ator1, ator2, durao, etc) e Locaes (data da devoluo, hora da devoluo, etc) foram desconsiderados no momento da importao, por serem irrelevantes para o objetivo desse estudo.

5.3 Limpeza e Pr-processamento do Dados


Nesta fase so eliminadas as inconsistncias, registros redundantes, poluio nos dados, entre outros tipos de erros. Atravs de analise na base de dados, detectou-se vrias inconsistncias nos dados, registros redundantes e muitos erros de digitao. A seguir, sero descritas as principais atividades realizadas em cada uma das tabelas na etapa de limpeza e pr-processamento dos dados:

5.3.1 Tabela Cliente


Na tabela Clientes, o processo de limpeza e pr-processamento se deu da seguinte forma:

51

Conforme pode ser observado na estrutura apresentada anteriormente, a tabela Clientes possua em um nico registro os dados cadastrais dos seus clientes titulares e de seus dependentes, totalizando 4.298 registros (ver Figura 19).

Figura 19 Tabela Clientes com os dependentes no mesmo registro do Titular

Para facilitar o processo de descoberta de conhecimento foi necessrio separar essa informao em registros diferentes. Dessa forma, houve a necessidade de criar o campo ID (T, D1, D2, D3 e D4), para diferenciar os titulares de seus dependentes, conforme pode ser observado na Figura 20. Aps essa modificao, identificou-se a quantidade real de clientes da vdeo locadora totalizando 9.763 clientes (titulares e dependentes).

Figura 20 Tabela Clientes com os dependentes separado do titular

52

Aps a separao dos registros foi retirada a inconsistncia do atributo Bairro o qual continha vrios registros diferentes (escritos de forma errada) representando a mesma informao. Como por exemplo, o bairro Marco aparecia escrito de vrias maneiras diferentes: NARCO, MSRCO, MRCO, MARTCO, MERCO, MARC0 e MAECO. Os bairros cadastrados de forma errada foram corrigidos para a escrita correta. Depois de retirar a inconsistncia no atributo Bairro foi gerada a informao Sexo do cliente a partir de uma avaliao criteriosa e manual sobre o atributo Nome do cliente. Tambm foi gerada a informao rea de Atuao a partir do atributo Profisso, aonde os registros foram agrupados de acordo com a afinidade das funes. Por exemplo, as profisses: mdico, enfermeiro, auxiliar de enfermagem e todas as outras relacionadas sade foram relacionadas rea de Atuao Sade. J as profisses: professor, mestre, diretor de escola e todas relacionadas educao foram agrupados a rea de Atuao Educao. Ao final foram criados 40 reas de atuao (administrao, aposentado, informtica, jurdico, etc). Em seguida, verificou-se erros no cadastro do atributo Data de Nascimento, devido o sistema da vdeo locadora somente aceitar data no formato dd/mm/yy. Com isso todos os clientes cadastrados a partir do ano 2000 tiveram seu registro cadastrado de forma errada. Por exemplo, um cliente que nasceu 07/10/1969, devido ser cadastrado aps o ano 2000, no banco de dados, a data de nascimento se encontrava da seguinte forma 07/10/2069. Para solucionar este problema, foi criada uma funo no Access 2000 que subtraa 100 anos das datas de nascimento a partir de 2000. Ao trmino do processo de limpeza e pr-processamento dos dados, a tabela Clientes ficou com a estrutura mostrada na Tabela 9.

Campo Cdigo ID Nome Sexo Bairro Dt-Nasc AreaAtuacao

Tabela Cliente Descrio Cdigo nico do cliente Identificador do cliente (titular ou dependente) Nome do cliente Sexo do cliente Bairro onde mora o cliente Data de nascimento do cliente rea de atuao do cliente

Tabela 9. Estrutura da Tabela Clientes aps o processo de limpeza e pr-processamento dos dados

53

5.3.2 Tabela Gnero


Na tabela Gneros encontrou-se apenas inconsistncias nos dados, ou seja, o atributo gnero, o qual armazena a sua descrio, assumia diferentes valores, os quais representavam uma mesma informao. A seguir so mostrados alguns exemplos desses erros:

Os gneros Faroeste e Western representam um mesmo tipo de informao,


sendo que Faroeste est escrito em portugus enquanto Western est escrito em ingls. O gnero Faroeste foi removido e os filmes cadastrados com este gnero foram atualizados para o gnero Western;

Os gneros Desenho e Desenho Animado tambm representam uma mesma


informao, sendo cadastrados duas vezes. O Gnero Desenho foi removido e os filmes cadastrados com este gnero foram atualizados para o gnero Desenho Animado;

Os Gneros Fico e Fico tambm representam uma mesma informao, sendo


o Fio escrito de maneira errada. O Gnero Fio foi removido e os filmes cadastrados com este gnero foram atualizados para o Gnero Fico. Ao final da limpeza e pr-processamento na tabela Gneros, restaram 21 gneros cadastrados.

5.3.3 Tabela Filmes


Na tabela Filmes encontrou-se apenas registros redundantes, ou seja, o mesmo filme cadastrado vrias vezes, devido a vdeo locadora no utilizar o campo quantidade disponvel, que informa quantidade de um determinado filme na locadora. Para solucionar esse problema, os registros repetidos foram removidos e as Locaes que possuam registros redundantes foram atualizadas para o cdigo nico do filme.

5.3.4 Tabela Locaes


Na tabela Locaes no foi necessrio realizar o processo de limpeza e prprocessamento dos dados.

54

5.4 Transformao dos Dados


Aps a limpeza e o pr-processamento dos dados, verificou-se a necessidade de transformar a forma em que os dados estavam apresentados com o objetivo de suprir quaisquer limitaes existentes no algoritmo que ser utilizado. A seguir, sero descritas as principais atividades realizadas em cada uma das tabelas na etapa de transformao dos dados.

5.4.1 Tabela Cliente


Na tabela Clientes foram realizadas as seguintes transformaes nos dados:

O atributo Data de Nascimento foi convertido para Idade tomando como base a
data corrente para gerar essa informao.

Aps a gerao do atributo Idade, verificou-se a existncia de uma infinidade de


valores, tornando difcil para o algoritmo de Data Mining encontrar algum padro num intervalo to grande de valores. Por este motivo, foram estipulados intervalos de idade, conforme mostra a Tabela 10.

Intervalo (valor) At 20 Anos Entre 21 e 30 Anos Entre 31 e 40 Anos Entre 41 e 50 Anos Entre 51 e 60 Anos Acima de 60 Anos
Tabela 10. Faixas de transformao do atributo idade

Ao trmino do processo de transformao dos dados, a tabela Clientes ficou com a estrutura mostrada na Tabela 11.

Campo Cdigo ID Nome Sexo Bairro FaixaIdade AreaAtuacao

Tabela Cliente Descrio Cdigo nico do cliente Identificador do cliente (Titular ou dependente) Nome do cliente Sexo do cliente Bairro onde mora o cliente Faixa de idade dos clientes rea de atuao do cliente

Tabela 11. Estrutura da Tabela Clientes aps o processo de transformao dos dados

55

5.4.2 Tabela Gnero


Na tabela Gneros no foi necessrio realizar o processo de transformao dos dados, pois os atributos estavam em um formato apropriado.

5.4.3 Tabela Filmes


Na tabela Filmes tambm no foi necessrio realizar o processo de transformao dos dados, pois os atributos estavam em um formato apropriado.

5.4.4 Tabela Locaes


Na tabela Locaes realizou-se as seguintes transformaes nos dados:

O atributo hora da locao possui uma infinidade de valores, tornando difcil


para o algoritmo de Data Mining encontrar algum padro num intervalo to grande de valores. Por este motivo, dividiu-se esses valores em faixas de perodos, ou seja, um horrio que era 10h, passou a ser o perodo da manh, representado pela faixa M, que vai das 8h at 12h. Os horrios compreendidos entre 12:01 at 18h, passou a ser o perodo da tarde, representado pela faixa T. A partir das 18:01, passou a ser o perodo da noite, representado pela faixa N.

O atributo data da locao foi transformado no dia da semana, utilizando uma


funo do banco de dados Access 2000. Por exemplo, a data 07/10/2005 recebeu como dia da semana a faixa SEX, pois o dia 07/10/2005 foi uma sexta-feira. Ao trmino do processo de transformao dos dados, a tabela Locaes ficou com a estrutura mostrada na Tabela 12.

Campo Operao Cd-Filme Cd-Cliente


Autorizado DiaSemana Perodo

Tabela Locaes Descrio Operao de locao Cdigo do cliente responsvel pela locao Cdigo do filme da locao Identifica o tipo do cliente (Titular, Autorizado1, Autorizado2, Autorizado3 ou Autorizado4) Dia da semana que foi realizada a locao Perodo do dia que a locao foi realizada

Tabela 12. Estrutura da Tabela Locaes aps o processo de transformao

56

5.5 Criao do Conjunto de Dados Objeto


Ao trmino do processo de transformao dos dados foi criada uma tabela no Access 2000, para armazenar o conjunto de dados que as ferramentas de Data Mining iro utilizar para realizar as descobertas de conhecimento. A estrutura dessa tabela mostrada na Tabela 13.

Campo Operao Sexo reaAtuao DiaSemana Perodo Gnero FaixaIdade

Tabela Movimentao Descrio Operao de locao Sexo do cliente responsvel pela locao rea de atuao profissional do cliente Dia da semana que foi realizada a locao Perodo do dia que a locao foi realizada Descrio do gnero do filme locado pelo cliente Faixa Etria do cliente responsvel pela locao
Tabela 13. Estrutura da tabela Movimentao

5.6 Aplicao das Ferramentas 5.6.1 Intelligent Miner for Data


A instalao do Intelligent Miner for Data (IM) ocorreu sem problemas. Para utilizao dos recursos de pr-processamento desta ferramenta, foi necessria tambm a instalao do banco de dados DB2. Foi criada uma tabela no DB2 com a mesma estrutura mostrada na Tabela 16. Em seguida, os dados da tabela Movimentao foram exportados para um arquivo do tipo texto, o qual foi importado para esta nova tabela no DB2. Inicialmente foi criado um objeto de dados para fazer referncia tabela criada no DB2 para poder utilizar as funes de pr-processamento, de pesquisa ou estatstica. Nesta etapa deve-se especificar a tabela que ser referenciada pelo IM, conforme Figura 21, alm dos tipos de dados, conforme Figura 22.

57

Figura 21 Tela de Seleo da Tabela ou View do Banco de Dados

Figura 22 Tela de Escolha dos Tipos de Dados

Criado o objeto de dados, foi necessrio utilizar a funo de pr-processamento chamada Articular Campos em Registro para converter o objeto de dados para o formato vertical, o qual o padro do IM para a tcnica de regra de associao. Segundo Gonalves (GONALVES, 2001), este formato utiliza mltiplas linhas para armazenar uma entidade, usando uma linha para cada atributo, sendo essas linhas ligadas por uma identificao comum.

58

Aps executar a funo de pr-processamento descrita anteriormente, os dados ficaram dispostos conforme mostrada na Figura 23, onde a identificao comum representada pelo campo Operao e os atributos pelo campo Itens.

Figura 23 Dados no Formato Vertical

Para realizar o processo de descobertas de regras de associao necessrio criar uma pesquisa de associao no IM. Para a criao desta pesquisa se deve informar o objeto de dados de entrada, os campos de entrada (campo de transao e campo de itens), alm dos parmetros (suporte mnimo, confiana mnima e comprimento mximo da regra), conforme Figura 24, Figura 25 e Figura 26, respectivamente.

Figura 24 Tela de Seleo do Objeto de Dados de Entrada

59

Figura 25 Tela de Seleo dos Campos de Entrada

Figura 26 Tela de Definio dos Parmetros

Executada a pesquisa de associao, diversas regras foram geradas. Algumas dessas regras so mostradas na Figura 27.

60

Figura 27 Tela de Resultados do IM

5.6.2 WEKA
A instalao do WEKA ocorreu sem problemas. O acesso aos dados se deu a partir de um arquivo do tipo CSV. Para poder gerar os dados de entrada, criou-se uma consulta do tipo referncia cruzada no Access 2000, consulta esta que transforma linhas em colunas, para converter a tabela Movimentao para o formato horizontal de dados, o qual o padro do WEKA para tcnicas de regra de associao. Segundo Gonalves (GONALVES, 2001), este formato utiliza uma linha para cada transao e uma coluna para cada atributo.

61

Aps converter os dados para o formato horizontal, estes ficaram dispostos conforme mostrado na Figura 28, onde a primeira coluna representa o nmero da locao, as demais colunas representam os itens envolvidos na locao (gnero, idade, sexo, etc.). Quando existir o item na locao, o mesmo ser preenchido com um valor qualquer (neste caso utilizou-se o nmero 1) e quando este no existir dever ser preenchido com o smbolo ?, para o WEKA identificar que o item no est presente na locao.

Figura 28 Dados no Formato Horizontal

Os dados foram exportados para um arquivo do tipo CSV e acessado pelo WEKA, conforme Figura 29.

Figura 29 Tela WEKA Explorer com todas as sesses habilitadas

62

Na sesso Preprocess o atributo Operao foi removido, j que para a regra de associao nesta ferramenta fica implcito que cada linha representa uma transao, sendo sua identificao desnecessria. Na sesso Associate o algoritmo de Apriori foi selecionado e foi definido seus parmetros de suporte mnimo, confiana mnima e nmero mximo de regras, conforma mostrado na Figura 30.

Figura 30 Tela de Definio dos Parmetros

Executada a pesquisa de associao, diversas regras foram geradas. Algumas dessas regras so mostradas na Figura 31.

63

Figura 31 Tela de Resultado do WEKA

5.7 Comparao das Ferramentas


Durante o processo de descoberta de conhecimento, verificaram-se trs diferenas significativas entre as ferramentas IM e WEKA quanto representao dos dados de entrada, as funes de pr-processamento e o tempo de processamento.

A representao de dados no formato horizontal (uma coluna para cada


atributo), utilizado pelo WEKA, pode trazer problemas significantes quanto ao nmero de colunas que esse formato pode alcanar. Por exemplo, caso haja 100 tipos de gneros diferentes, sero necessrios 100 colunas para represent-los. Outro problema com esta representao que o esquema dependente dos dados, ou seja, quando um novo gnero adicionado ou caso haja alguma modificao nos tipos de gneros, o esquema ter quer ser modificado para

64

adicionar ou reorganizar as colunas. J a representao de dados no formato vertical (uma linha para cada atributo), utilizado pelo IM, elimina os problemas da representao horizontal, pois funciona muito melhor caso a entidade venha ter uma grande variedade em termos de nmero de atributos.

Ambas as ferramentas disponibilizam timas funes para pr-processamento


dos dados. Contudo, h necessidade da instalao do banco de dados DB2 para poder executar as funes de pr-processamento do IM, j que os dados de entrada para essas funes precisam estar armazenados em tabelas ou views do DB2 e geram como sada uma nova tabela neste banco com os dados prprocessados. J as funes do WEKA no necessitam de nenhum software extra para serem executadas.

Quanto ao tempo de pr-processamento o IM mostrou-se superior ao WEKA no


que diz respeito a descobertas de regras de associao, considerando que a base de dados possua 27.184 registros. Apesar das diferenas existentes entre as duas ferramentas, ambas so eficazes no processo de descoberta de relaes implcitas na base de dados. Eficcia esta, comprovada pela comparao entre os resultados obtidos por ambas.

5.8 Anlise dos Resultados


A analise dos resultados baseou-se na abordagem objetiva, ou seja, procurou-se selecionar as regras de associao de maior interesse conforme os valores de suporte e confiana. De acordo com esses objetivos, tem-se:

5.8.1 Estudo da Relao Gnero X Gnero


A Tabela 14 relaciona as regras geradas para este estudo.

N Regra 1 2 3 4 5 6 7 8

Regra [ROMANCE] ==> [COMEDIA] [SUSPENSE] ==> [COMEDIA] [DESENHO ANIMADO] ==> [COMEDIA] [DRAMA] ==> [COMEDIA] [INFANTIL] ==> [COMEDIA] [FICCAO] ==> [ACAO] [TERROR] ==> [COMEDIA] [DESENHO ANIMADO] ==> [AVENTURA]

Suporte 2% 5% 2% 3% 2% 2% 3% 2%

Confiana 33 % 27 % 27 % 25 % 25 % 24 % 24 % 22 %

65

9 10 11 12 13 14 15 16 17

[SUSPENSE] ==> [ACAO] [DESENHO ANIMADO] ==> [ACAO] [AVENTURA] ==> [COMEDIA] [ACAO] ==> [COMEDIA] [INFANTIL] ==> [AVENTURA] [AVENTURA] ==> [ACAO] [TERROR] ==> [ACAO] [INFANTIL] ==> [ACAO] [ROMANCE] ==> [ACAO]

4% 2% 5% 6% 2% 5% 2% 2% 1%

22 % 22 % 22 % 21 % 21 % 20 % 20 % 20 % 20 %

Tabela 14. Regras Geradas com o Primeiro Objetivo

As regras podem ser interpretadas da seguinte forma:

Regra 1: Com um suporte de 2%, 33% dos clientes que locam filme de
Romance, tambm locam filme de Comdia. Pode-se observar que independente do gnero locado os cliente tendem a locar os filmes do gnero ao, aventura ou comdia. Assim, pode-se sugerir ao administrador locadora que reorganize o layout de seus produtos, deixando os filmes de gnero ao, aventura e comdia distante uns dos outros, para fazer o cliente percorrer toda a locadora caso ele queira locar um desses gneros.

5.8.2 Estudo da Relao Sexo X Gnero


A Tabela 15 e 16 relacionam as regras geradas para este estudo.

N Regra 1 2 3 4 5 6 7 8 9

Regra [F] ==> [ACAO] [F] ==> [AVENTURA] [F] ==> [COMEDIA] [F] ==> [DESENHO ANIMADO] [F] ==> [DRAMA] [F] ==> [INFANTIL] [F] ==> [ROMANCE] [F] ==> [SUSPENSE] [F] ==> [TERROR]

Suporte 7% 8% 14 % 4% 5% 3% 3% 8% 4%

Confiana 21 % 22 % 40 % 13 % 14 % 10 % 8% 22 % 10 %

Tabela 15. Regras Geradas com o Segundo Objetivo (Sexo Feminino)

N Regra 1 2 3 4 5 6 7

Regra [M] ==> [ACAO] [M] ==> [AVENTURA] [M] ==> [COMEDIA] [M] ==> [DESENHO ANIMADO] [M] ==> [DRAMA] [M] ==> [FICCAO] [M] ==> [INFANTIL]

Suporte 20 % 15 % 17 % 5% 8% 5% 4%

Confiana 32 % 23 % 26 % 7% 12 % 8% 7%

66

8 9 10

[M] ==> [PORNO] [M] ==> [SUSPENSE] [M] ==> [TERROR]

4% 12 % 7%

7% 18 % 11 %

Tabela 16. Regras Geradas com o Segundo Objetivo (Sexo Masculino)

Pode-se observar que homens e mulheres praticamente tendem a locar filmes de mesmo gnero, com a diferena que as mulheres tendem a locar mais filmes de comdia (regra 3 da Tabela 15) e os homens filme de ao (regra 1 da Tabela 16), alm disso, os homens tendem a locar filmes porns (regra 8 da Tabela 16) e as mulheres no.

5.8.3 Estudo da Relao Mulheres X Faixa Etria X Gnero


A Tabela 17 e 18 relacionam as regras geradas para este estudo.

N Regra 1 2 3 4 5

Regra [F]+[ENTRE 21 E 30] ==> [ACAO] [F]+[ENTRE 21 E 30] ==> [AVENTURA] [F]+[ENTRE 21 E 30] ==> [COMEDIA] [F]+[ENTRE 21 E 30] ==> [DRAMA] [F]+[ENTRE 21 E 30] ==> [SUSPENSE]

Suporte 2% 2% 3% 1% 2%

Confiana 22 % 23 % 36 % 17 % 25 %

Tabela 17. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 21 e 30 anos)

N Regra 1 2 3 4 5 6 7 8 9

Regra [F]+[ENTRE 31 E 40] ==> [ACAO] [F]+[ENTRE 31 E 40] ==> [AVENTURA] [F]+[ENTRE 31 E 40] ==> [COMEDIA] [F]+[ENTRE 31 E 40] ==> [DESENHO ANIMADO] [F]+[ENTRE 31 E 40] ==> [DRAMA] [F]+[ENTRE 31 E 40] ==> [INFANTIL] [F]+[ENTRE 31 E 40] ==> [ROMANCE] [F]+[ENTRE 31 E 40] ==> [SUSPENSE] [F]+[ENTRE 31 E 40] ==> [TERROR]

Suporte 3% 3% 5% 2% 2% 2% 1% 3% 1%

Confiana 25 % 25 % 37 % 17 % 15 % 12 % 9% 24 % 9%

Tabela 18. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 31 e 40 anos)

Pode-se observar que independente da faixa etria as mulheres tendem a locar filmes de ao, aventura, comdia, drama e suspense, com uma tendncia maior a locar filmes de comdia (regra 2 da Tabela 17 e regra 3 da Tabela 18). Porm mulheres entre 31 e 40 anos, alm dos gneros citados anteriormente tambm tendem a locar filmes infantis e desenho animado (regras 4 e 6 da Tabela 18), pois possivelmente devem ter filhos, alm dos filmes de terror e romance (regras 7 e 9 da Tabela 18).

5.8.4 Estudo da Relao Homens X Faixa Etria X Gnero


As Tabelas 19, 20 e 21 relacionam as regras geradas para este estudo.

67

N Regra 1 2 3 4 5 6 7 8

Regra [M]+[ENTRE 21 E 30] ==> [ACAO] [M]+[ENTRE 21 E 30] ==> [AVENTURA] [M]+[ENTRE 21 E 30] ==> [COMEDIA] [M]+[ENTRE 21 E 30] ==> [DRAMA] [M]+[ENTRE 21 E 30] ==> [FICCAO] [M]+[ENTRE 21 E 30] ==> [PORNO] [M]+[ENTRE 21 E 30] ==> [SUSPENSE] [M]+[ENTRE 21 E 30] ==> [TERROR]

Suporte 6% 4% 5% 3% 2% 1% 4% 2%

Confiana 34 % 22 % 29 % 13 % 8% 7% 20 % 11 %

Tabela 19. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 21 e 30 anos)

N Regra 1 2 3 4 5 6 7 8 9 10

Regra [M]+[ENTRE 31 E 40] ==> [ACAO] [M]+[ENTRE 31 E 40] ==> [AVENTURA] [M]+[ENTRE 31 E 40] ==> [COMEDIA] [M]+[ENTRE 31 E 40] ==> [DESENHO ANIMADO] [M]+[ENTRE 31 E 40] ==> [DRAMA] [M]+[ENTRE 31 E 40] ==> [FICCAO] [M]+[ENTRE 31 E 40] ==> [INFANTIL] [M]+[ENTRE 31 E 40] ==> [PORNO] [M]+[ENTRE 31 E 40] ==> [SUSPENSE] [M]+[ENTRE 31 E 40] ==> [TERROR]

Suporte 7% 6% 6% 3% 4% 2% 3% 3% 5% 3%

Confiana 26 % 23 % 24 % 12 % 13 % 8% 10 % 10 % 19 % 9%

Tabela 20. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 31 e 40 anos)

N Regra 1 2 3 4 5 6 7 8 9

Regra [M]+[ENTRE 41 E 50] ==> [ACAO] [M]+[ENTRE 41 E 50] ==> [AVENTURA] [M]+[ENTRE 41 E 50] ==> [COMEDIA] [M]+[ENTRE 41 E 50] ==> [DESENHO ANIMADO] [M]+[ENTRE 41 E 50] ==> [DRAMA] [M]+[ENTRE 41 E 50] ==> [FICCAO] [M]+[ENTRE 41 E 50] ==> [PORNO] [M]+[ENTRE 41 E 50] ==> [SUSPENSE] [M]+[ENTRE 41 E 50] ==> [TERROR]

Suporte 6% 4% 4% 1% 2% 1% 1% 3% 1%

Confiana 36 % 25 % 24 % 7% 13 % 8% 9% 18 % 9%

Tabela 21. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 41 e 50 anos)

Pode-se observar que independente da faixa etria os homens tendem a locar filmes de ao, aventura, comdia, drama, fico, porn, suspense e terror, com uma tendncia maior a locar filmes de ao (regra 1 das Tabelas 19, 20 e 21). Porm homens entre 31 e 40 anos e 41 e 50 anos, alm dos gneros citados anteriormente, tendem tambm a locar filmes de desenho animado (regra 4 das Tabelas 20 e 21), pois possivelmente devem ter filhos. Observou-se uma diferena dos homens na faixa de 31 a 40 anos, por tenderem a locar filmes infantis (regra 7 da Tabela 20), j que esse gnero somente aparece nesta faixa etria.

68

69

6 CONCLUSES E TRABALHOS FUTUROS


Descoberta de conhecimento em banco de dados um processo muito complexo, mas que ao mesmo tempo uma ferramenta de grande utilidade para as corporaes que desejam explorar melhor as informaes que esto implcitas em suas bases de dados. As tcnicas e as ferramentas de KDD permitem obter uma viso melhor e amplificada do negcio que se trata, simplificando o processo de explorao de dados, auxiliando a tomada de decises e o uso da inteligncia competitiva nas estratgias de negcios. Todas as etapas da descoberta de conhecimento, desde a preparao dos dados at a extrao de conhecimentos, so de extrema importncia e exigem que a mesma ateno seja dispensada para cada uma delas. O sucesso de uma etapa depende exclusivamente do bom desenvolvimento das etapas anteriores. A utilizao das ferramentas Intelligent Miner for Data e WEKA no desenvolvimento deste trabalho foi considerada satisfatria, j que se conseguiu atingir os objetivos propostos no Captulo 1. Porm, observou-se que o formato de arquivos de entradas do WEKA pode trazer problemas significantes quanto ao nmero de colunas que esse formato pode alcanar sendo esta uma desvantagem desta ferramenta. J a desvantagem do IM a necessidade do banco de dados DB2 para poder utilizar as funes de pr-processamento, alm de ser uma ferramenta proprietria3. O estudo de caso apresentado no Captulo 5 mostra os hbitos de locaes dos clientes, onde se pode observar que independente do gnero locado, o cliente tende a locar filmes de ao, aventura ou comdia. Tambm se pode notar que o sexo e a faixa etria so fatores que influenciam na locao de um determinado gnero. Neste processo de descoberta foram encontradas algumas dificuldades com relao ao pr-processamento da base, conforme descritas no Captulo 5. Sendo essas superadas atravs da utilizao das funes de pr-processamento disponibilizadas nas prprias ferramentas, bem como atravs de funes e alguns recursos disponibilizados pelo banco de dados Access 2000, como funes para gerar a informao dia da semana a partir de uma data e a criao de consultas de referncia cruzada, tambm descritas no Captulo 5.

70

Todos os resultados encontrados foram apresentados para a dona do estabelecimento para anlise. Onde esta validou os resultados encontrados, como: a tendncia dos homens de locar filmes de ao e as mulheres de locar filmes de comdia. Sendo os gneros mais locados ao, comdia, aventura e suspense. No entanto, o que chamou mais sua ateno foi descoberta do conhecimento onde a locao de um gnero influencia na locao de outro, fazendo com que a mesma, de acordo com uma anlise mais detalhada dos resultados apresentados, reorganize a distribuio dos gneros disponveis, de modo que o cliente ande por toda a vdeo locadora na escolha do filme a ser locado. Como contribuio, este trabalho apresentou um estudo aprofundado sobre a tcnica de Data Mining Regras de Associao, assim como, a aplicao de um estudo de caso real utilizando esta tcnica e a documentao detalhada de todo este processo, de forma a auxiliar trabalhos futuros nessa rea. Como trabalhos futuros, sugere-se a aplicao de outras tcnicas de minerao de dados sobre os dados da vdeo locadora, como a classificao e/ou clusterizao, visando encontrar novos padres ou confirmar hipteses existentes acerca das informaes contidas na base de dados, como, por exemplo, o perfil especfico do cliente que loca um determinado gnero. Adicionalmente, sugere-se como trabalho futuro o desenvolvimento de uma nova verso do Algoritmo APRIORI para o WEKA, onde esta aceitaria como entrada de dados o formato vertical, evitando dessa forma as dificuldades encontradas no seu pr-processamento e as limitaes geradas pelo mtodo horizontal, j descrita no Captulo 5.

A verso do Intelligent Miner for Data utilizada neste trabalho foi cedida pela IBM para a Universidade Federal do Par UFPA.

71

7 REFERNCIAS BIBLIOGRFICAS
AGRAWAL, Rakesh et al. Fast Algorithms for Mining Association Rules. In: FAYYAD, Usama M. et al. Advances in Knowledge Discovery and Data Mining. Menlo Park: AAAI Press, 1996. 611p. ARBEX, Eduardo Compasso; SABOREDO, Alexandre de Paiva; MIRANDA, Dhalila. Implementao e Estudo de caso do algoritmo Apriori para Minerao de Dados. Curso de Sistemas de Informao, Associao Educacional Dom Bosco. Resende, Rio de Janeiro. Disponvel em: <http://www.aedb.br/seget/artigos04/193_artigo_SEGET.doc>. Acesso em 11 de maro de 2006. BATISTA, Gustavo Enrique de Almeida Prado Alves. Pr-Processamento de Dados em Aprendizado de Mquina Supervisionado. 2003, 232p. Tese de Doutorado. Universidade de So Carlos. CARVALHO, Lus Alfredo Vidal de. Datamining: A minerao de dados no Marketing, Medicina, Economia, Engenharia e Administrao. 2.ed. So Paulo: Editora rica, 2002. 238p. CRATOCHVIL, A. Data mining techniques in supporting decision making. Master thesis, Universiteit Leiden, 1999. DOMINGUES, Miriam Lcia. Minerao de Dados. Curso de Especializao em Sistema de Banco de Dados, Universidade Federal do Par, 2004. DWBRASIL. Disponvel em: <http://www.dwbrasil.com.br/html/dmining.html>. Acesso em 10 de maro de 2006. FAYYAD, U; Piatetsky-Shapiro, G; Smyth, P. Advances in Knowledge Discovery and Data Mining. Califrnia Amrica Association for Artificial Inteligence. 1996. 611p. FELDENS, M. A. Descoberta de conhecimento aplicada deteco de anomalias em base de dados. Porto Alegre: PPGCC da UFRGS, 1996. FRANK, Eibe. Machine Learning with WEKA. Department of Computer Science, University of Waikato, New Zealand. Disponvel em: <http://www.cs.waikato.ac.nz/ml/weka>. Acesso em 10 de maro de 2006.

72

GOEBEL, M.; GRUENWALD L. A survey of data mining and knowledge discovery software tools. 1999. Disponvel em <http://citeseer.ifi.unizh.ch/goebel99survey.html>. Acesso em 13 de Maio de 2005. GOLDBERG, D. E. Genetic algorithms in search, optimization and machine learning. Reading, MA: Addison Wesley, 1989. GOLDSCHMIDT, Ronaldo; PASSO, Emmanuel. Data Mining. Um guia Prtico: Conceitos, Tcnicas, Ferramentas, Orientaes e Aplicaes. So Paulo: Editora Campus, 2005. 261pg. GONALVES, Loren Pinto Ferreira. Avaliao de Ferramentas de Minerao de Dados como Fonte de Dados Relevantes para a Tomada de Deciso: Aplicao na Rede Unido de Supermercados, So Leopoldo-RS. 2001, 103p. Dissertao de Ps-Graduao. Universidade Federal do Rio Grande do Sul. HARRISON, T.H. Intranet data warehouse. Editora Berkeley, 1998. PYLE, Dorian. Data preparation for data mining. San Francisco: Morgan Kaufmann Publishers, 1999. REZENDE, Solange Oliveira. Sistema Inteligentes - Fundamentos e Aplicaes. 1 ed. So Carlos: Manole, 2003. 525p. SANCHES, Andr Rodrigo. Uma Viso Geral sobre Minerao de Dados. 2003, 44p. Monografia de Ps-Graduao. Universidade de So Paulo. VIANA, Reinaldo. Minerao de Dados: introduo e aplicaes. Revista SQL Magazine, n.10, 2004.