Você está na página 1de 50

Universidade Federal de Pernambuco

Graduao em Cincia da Computao Centro de Informtica

2006.2

Conceitos, tcnicas, ferramentas e aplicaes de Minerao de Dados para gerar conhecimento a partir de bases de dados

Aluno: Thiago Amorim (tmas@cin.ufpe.br) Orientador: Fernando da Fonseca de Souza (fdfd@cin.ufpe.br)

A verdadeira perfeio precisa ser imperfeita Noel Gallagher (Oasis)

RESUMO
Este trabalho apresenta a anlise de tcnicas, ferramentas e metodologias para praticar-se uma importante rea da administrao de dados em uma organizao, denominada de Minerao de Dados, visando melhoria da qualidade dos mesmos. As etapas do processo de minerao de dados so detalhadas. Algumas tcnicas utilizadas durante o processo so abordadas. analisada a utilizao da minerao de dados atualmente em diversas reas importantes de nossa sociedade. So tambm analisadas ferramentas que auxiliam este processo.

Palavras-chave: Minerao de dados, Qualidade de dados, Administrao de Dados, Arquitetura de Dados, Modelagem de Dados.

ABSTRACT
This work presents an analysis of techniques, tools and methodologies for the practice of an important area of Data Administration in an organization, known as Data Mining. It is aimed at improving data quality. The stages of the data mining process are detailed too. Some techniques used during the process are focussed. The use of data mining on different important areas of our society is analyzed. Tools that assist this process are also analyzed.

Keywords: Data Mining, Data Quality, Data Administration, Data Architecture, Data Modeling

Dedico este trabalho a minha famlia e amigos

AGRADECIMENTOS
Aos meus pais, por sempre terem colocado a minha educao em primeiro lugar, e por sempre terem se sacrificado para que eu pudesse realizar os meus objetivos. Aos meus irmos e amigos, por serem fonte de minha inspirao, e da minha felicidade. Ao meu orientador, Fernando, pelos ensinamentos, apoio e ajuda no desenvolvimento deste trabalho.

SUMRIO
1 Introduo ................................................................................................................ 10
1.1 1.2
1.2.1 1.2.2

Problemtica............................................................................................................... 10 Objetivos da Monografia........................................................................................... 12


Objetivo Principal................................................................................................................. 12 Objetivos Especficos ........................................................................................................... 12

1.3 1.4 1.5

Relevncia................................................................................................................... 12 Metodologia de Trabalho .......................................................................................... 14 Organizao da Monografia ..................................................................................... 15

Minerao de Dados ................................................................................................ 16


2.1 Fases da Minerao de Dados ................................................................................... 18

2.1.1 Entendimento do Negcio (Business Understanding)................................................................ 19 2.1.2 Seleo dos Dados (Data Understanding).................................................................................. 20 2.1.3 Limpeza dos Dados (Data Preparation) ..................................................................................... 20 2.1.4 Modelagem dos Dados (Modeling)............................................................................................ 21 2.1.5 Avaliao do processo (Evaluation)........................................................................................... 21 2.1.6 Execuo (Deployment)............................................................................................................. 22

2.2

Tcnicas....................................................................................................................... 22

2.2.1 Classificao .............................................................................................................................. 23 2.2.2 Estimativa .................................................................................................................................. 24 2.2.3 Previso...................................................................................................................................... 25 2.2.4 Anlise de Afinidades ................................................................................................................ 25 2.2.5 Anlise de agrupamentos ........................................................................................................... 26

2.3

Tipos de Algoritmos................................................................................................... 27

2.3.1 rvores de Deciso .................................................................................................................... 27 2.3.2 Redes Neurais ............................................................................................................................ 28

Aplicaes Prticas .................................................................................................. 30


3.1 3.2 3.3 Segmentao de Mercados ........................................................................................ 30 Varejo.......................................................................................................................... 33 Mercado Financeiro................................................................................................... 34

Anlise de Ferramentas ........................................................................................... 36


4.1 4.2 4.3 SAS Enterprise Miner ............................................................................................... 36 IBM Intelligent Miner ............................................................................................... 39 Oracle Darwin Data Mining Software ..................................................................... 43

Concluses................................................................................................................ 46
5.1 5.2 Trabalhos Futuros...................................................................................................... 46 Consideraes Finais.................................................................................................. 47

Referncias ............................................................................................................... 48

LISTA DE FIGURAS
Figura 1: Evoluo do valor estratgico de bases de dados (Baseado em [Navega, 2002])........................................................................................................................ 13 Figura 2: Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM Consortium, 2000]) ................................................................................................... 19 Figura 3: Fluxo da minerao de dados em anlise de emprstimo [SAS, 2007]. .......... 37 Figura 4: Anlise de Agrupamentos [SAS, 2007]. .......................................................... 38 Figura 5: Comparao de tcnicas [SAS, 2007].............................................................. 39 Figura 6: Anlise de agrupamentos de clientes bancrios [IBM, 2007].......................... 40 Figura 7: Grfico de setores circulares INT_CREDITCARD [IBM, 2007].................... 41 Figura 8: Tabela de clientes, com os agrupamentos informados [IBM, 2007]. .............. 41 Figura 9: Anlise de afinidades [IBM, 2007].................................................................. 42 Figura 10: Wizards para criao de modelos de minerao de dados [Oracle, 2007]..... 44 Figura 11: Visualizao em forma de rvore para segmentao de clientes [Oracle, 2007]. ........................................................................................................................ 44 Figura 12: Grficos para visualizao de resultados em formato MS Excel [Oracle, 2007]. ........................................................................................................................ 45

1 Introduo
Cada vez mais, imensos volumes de informao tm sido sistematicamente coletados e armazenados por grandes organizaes. A quantidade de informao armazenada ultrapassa a habilidade tcnica e a capacidade humana na sua interpretao. Bancos de dados, por exemplo, so medidos hoje em gigabytes e terabytes.

O custo de uma m qualidade desses dados pode ser decisivo para o sucesso de uma empresa. Com isso, essencial o estudo da Administrao de Dados para garantir a qualidade dos dados que so inseridos e recuperados em uma base de dados. A administrao de dados consiste no desenvolvimento e execuo de estratgias, prticas e procedimentos para o processo de gerncia do ciclo de vida completo dos dados em uma empresa [DAMA International, 2006].

1.1 Problemtica
As organizaes tm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operaes dirias. Porm, a maioria delas ainda no usa adequadamente essa gigantesca massa de dados para transform-la em conhecimentos que possam ser utilizados em suas prprias atividades. Com a gerao de um volume cada vez maior de informao, essencial tentar aproveitar o mximo possvel desse investimento.

Uma excelente prtica de Administrao de Dados o enriquecimento dos dados, gerando ainda mais informao e conhecimento, melhorando assim a sua qualidade. Esta informao preciosa est na verdade implcita escondida sob uma grande massa de dados, e no pode ser descoberta utilizando-se sistemas de gerenciamento

10

de banco de dados convencionais1. A soluo existe, e chama-se Minerao de Dados [Navega, 2002]. Este processo uma etapa de outro conhecido como extrao de conhecimento em bases de dados ou Knowledge-Discovery in Databases (KDD)2 [Fayyad et al., 1996].

Minerao de dados, ou data mining, o processo de anlise de conjuntos de dados que tem por objetivo a descoberta de padres interessantes e que possam representar informaes teis. O processo de minerao de dados permite que se investiguem esses dados procura de padres que tenham valor para a empresa. Este conceito est se tornando cada vez mais popular como uma ferramenta de gerenciamento de informao, que deve revelar estruturas de conhecimento, podendo guiar decises em condies de certeza limitada.

Com a utilizao da minerao de dados, pode-se analisar dados comportamentais, obtendo conhecimento que estava escondido na base de dados, gerando aprendizado e dados complementares que podem influenciar no desenvolvimento de estratgias na organizao. Esta tecnologia est sendo usada para descrever caractersticas do passado, assim como predizer tendncias para o futuro. Sua utilizao permite avanos tecnolgicos e descobertas cientficas, alm de garantir uma vantagem competitiva invejvel [Sferra e Corra, 2003].

De acordo com o Wikipedia, a enciclopdia livre: Um Sistema Gerenciador de Banco de Dados ou

Sistema Gestor de Base de Dados (SGBD) o conjunto de programas de computador (software) responsveis pelo gerenciamento de uma base de dados. O principal objetivo retirar da aplicao cliente a responsabilidade de gerenciar o acesso, manipulao e organizao dos dados. O SGBD disponibiliza uma interface para que os seus clientes possam incluir, alterar ou consultar dados. Em bancos de dados relacionais a interface constituda pelas API ou drivers do SGBD, que executam comandos na linguagem SQL [Wikipedia, 2006].
2

Uma definio importante para KDD foi elaborada por Usama Fayyad (Fayyad et al. 1996): "...o processo

no-trivial de identificar, em dados, padres vlidos, novos, potencialmente teis e ultimamente compreensveis" [Fayyad, 1996].

11

1.2 Objetivos da Monografia


Nesta seo sero apresentados o objetivo principal desse trabalho e o detalhamento dos objetivos especficos.

1.2.1 Objetivo Principal

O objetivo principal desta monografia destacar o tpico da minerao de dados como uma importante rea da Administrao de Dados, sendo um processo para melhorar a qualidade dos dados de uma organizao.

1.2.2 Objetivos Especficos

Ainda sero abordados assuntos especficos, com a finalidade de:

Esclarecer a relevncia do tema como meio de agregar valor a diferentes reas da nossa sociedade; e Analisar a utilizao de ferramentas para auxiliar no processo de minerao de dados.

1.3 Relevncia
Quando aplicada em uma empresa, a minerao de dados melhora a interao entre empresa e cliente, aumenta vendas e dirige as estratgias de marketing. A minerao de dados, porm, pode ser aplicada a qualquer massa de dados, sejam eles oriundos da Medicina, Economia, Astronomia, Geologia, entre outras reas de estudo. A relevncia deste trabalho fundamenta-se na importncia da adoo de tcnicas de minerao de dados para melhorar a qualidade de dados em um SGBD, como parte do trabalho de Administrao de Dados.

12

Figura 1: Evoluo do valor estratgico de bases de dados (Baseado em [Navega, 2002]).

A Figura 1 mostra o posicionamento lgico de diferentes fases da tomada de deciso com seu valor potencial para as dimenses ttica e estratgica de uma organizao. Em geral, o valor da informao para apoiar a tomada de deciso aumenta a partir da base da pirmide. Uma deciso baseada em dados nas camadas mais baixas, onde h tipicamente milhes de registros de dados, no possui muito valor agregado; j aquela apoiada em dados altamente resumidos nas camadas superiores da pirmide tem probabilidade de alto valor estratgico.

Da mesma forma, encontram-se diferentes usurios nas diferentes camadas. Um administrador, por exemplo, no nvel operacional, trabalha primariamente com informaes dirias e operaes de rotina, encontradas em arquivos e bases de dados, na base da pirmide informacional. Esses criam dados. Enquanto analistas de negcios e executivos, responsveis por indicarem direes, formulam estratgias e tticas, supervisionando a sua execuo, e estes necessitam de informaes de maior qualidade. Preocupam-se com tendncias, padres, ameaas, pontos fortes e

13

fracos, oportunidades, informao de mercado, entre outros. Necessitam de informaes internas e externas. So os que demandam dados analisados com alto valor agregado, as do topo da pirmide.

1.4 Metodologia de Trabalho


A metodologia utilizada no desenvolvimento deste trabalho se constitui das seguintes fases:

1. Reviso bibliogrfica dos conceitos e etapas do processo de minerao de dados buscou-se estudar os conceitos da minerao de dados e o aprofundamento em cada fase do processo;

2. Reviso bibliogrfica das tcnicas relacionadas ao processo de minerao de dados esta atividade se constituiu na anlise de diferentes tcnicas da minerao de dados, bem como em um estudo comparativo da relevncia e utilidade de cada tcnica;

3. Estudo da utilidade da minerao de dados em diversas reas de conhecimento da sociedade esta etapa do estudo visou analisar as formas que a minerao de dados vem agregando valor a diferentes reas de nossa sociedade, bem como indicar novas possibilidades de uso da minerao de dados em outras reas; e

4. Estudo das ferramentas que auxiliam na minerao de dados procurou-se pesquisar e estudar ferramentas que auxiliam no processo de minerao de dados como forma de melhorar a qualidade dos dados em um SGBD.

14

1.5 Organizao da Monografia


Alm deste captulo, esta monografia encontra-se organizada em mais 5 (cinco) captulos:

O Captulo 2 ir detalhar todo o processo de minerao de dados, destacando cada fase desse processo, desde a seleo dos dados e sua filtragem, aos algoritmos e tcnicas utilizadas para o reconhecimento de padres.

O captulo 3 mostrar o uso do processo de minerao de dados em diferentes reas de conhecimento, destacando o quanto a prtica da administrao de dados focando na melhoria da qualidade dos mesmos, pode agregar de valor para uma empresa e em particular para a sociedade.

O captulo 4 apresentar um estudo comparativo de ferramentas de minerao de dados disponveis atualmente, mostrando as funcionalidades e caractersticas de cada uma delas, como tambm as tcnicas que elas utilizam.

O Captulo 5 ir apresentar uma concluso para o trabalho, destacando as contribuies providas pelo mesmo, como tambm apresentando sugestes de possveis trabalhos futuros.

Finalmente, sero listadas as referncias bibliogrficas utilizadas neste trabalho.

15

2 Minerao de Dados
A Minerao de Dados pode ser definida como um conjunto de tcnicas automticas de explorao de grandes massas de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertas a olho nu pelo ser humano. De fato, muitas so as tcnicas utilizadas, porm a minerao de dados ainda mais uma arte do que uma cincia. O sentimento do especialista no pode ser dispensado, mesmo que as mais sofisticadas tcnicas sejam utilizadas.

Ainda que as tcnicas da Minerao de Dados sejam antigas, foi apenas nos ltimos anos que passaram a ser usadas como explorao de dados, por vrios motivos [Carvalho, 2005]:

O volume de dados disponvel atualmente enorme Minerao de Dados uma tcnica que s se aplica a grandes massas de dados, pois necessita disto para calibrar seus algoritmos e extrair dos dados concluses confiveis. Empresas de telefonia, cartes de crdito, bancos, televiso por assinatura, comrcio eletrnico, entre outras, vem gerando a cada dia uma grande quantidade de dados sobre seus servios e clientes. Estes dados so passveis de anlise por minerao;

Os dados esto sendo organizados - Com a tecnologia do dataware house3, os dados de vrias fontes esto sendo organizados e padronizados de forma a possibilitar sua organizao dirigida para o auxlio deciso. As tcnicas de

De acordo com o Wikipedia: Data Warehouse uma coleo de dados orientados por assuntos,

integrados, variveis com o tempo e no volteis, para dar suporte ao processo de tomada de deciso; Data Warehousing um processo em andamento que aglutina dados de fontes heterogneas, incluindo dados histricos e dados externos para atender necessidade de consultas estruturadas e ad-hoc, relatrios analticos e de suporte a deciso [Wikipedia, 2006].

16

minerao de dados necessitam de bancos de dados limpos, padronizados e organizados;

Os recursos computacionais esto cada vez mais potentes - A minerao de dados necessita de muitos recursos computacionais para operar seus algoritmos sobre grandes quantidades de dados. O aumento da potncia computacional, devido ao avano tecnolgico e queda dos preos dos computadores, facilita o uso da minerao de dados atualmente. O avano da rea de banco de dados, construindo bancos de dados distribudos, tambm auxiliou em muito minerao de dados;

A competio empresarial exige tcnicas mais modernas de deciso - As empresas da rea de finanas, telecomunicaes e seguro experimentam a cada dia mais competio. Como estas empresas sempre detiveram em seus bancos de dados uma enorme quantidade de informao, natural que a minerao de dados tenha se iniciado dentro de seus limites. Atualmente, outras empresas buscam adquirir dados para analisar melhor seus caminhos futuros atravs dos sistemas de apoio deciso. Para empresas de servios, a aquisio de dados importante, pois precisam saber que servio oferecer a quem. Para outras empresas, at a venda das informaes pode ser um produto; e

Programas comerciais de minerao de dados j podem ser adquiridos - As tcnicas de minerao de dados so antigas conhecidas da Inteligncia Artificial, porm somente recentemente saram dos laboratrios para as empresas. Alguns pacotes j podem ser encontrados no comrcio, contendo algumas destas tcnicas. As tcnicas mais recentes, no entanto, ainda se encontram no campo acadmico, sendo necessrio que a empresa se dirija a uma universidade que realize pesquisa para obter ajuda.

17

2.1 Fases da Minerao de Dados

Em 1996, um conjunto de trs empresas especializadas no ento jovem e imaturo mercado de data mining, desenvolveram um modelo de processos genricos, com o intuito de padronizar as etapas do processo de minerao de dados, dando incio ao denominado projeto CRISP-DM (CRoss Industry Standard Process for Data Mining) [The CRISP-DM Consortium, 2000].

Este projeto desenvolveu um modelo de processo de minerao de dados industrial e livre de ferramenta. Comeando pelos embrionrios processos de descoberta de conhecimento usados nos primeiros projetos de minerao de dados e respondendo diretamente aos requerimentos do usurio, esse projeto definiu e validou um processo de minerao de dados que aplicvel em diversos setores da indstria. Essa metodologia torna projetos de minerao de dados de larga escala mais rpidos, mais baratos, mais confiveis e mais gerenciveis. At mesmo projetos de minerao de dados de pequena escala se beneficiam com o uso do CRISP-DM. O modelo CRISP, atualmente, uma referncia para que seja desenvolvido um plano de integrao para a descoberta de conhecimento.

O atual processo para minerao de dados prope uma viso geral do ciclo de vida de um projeto de minerao de dados. Ele contm as fases correspondentes de um projeto, suas respectivas tarefas e relacionamentos entre essas tarefas.

Na Figura 2 mostrado o ciclo de vida de um projeto de minerao de dados, que consiste de 6 (seis) fases. A seqncia de fases no obrigatria, ocorrendo a transio para diferentes fases, dependendo do resultado de cada fase, e que etapa particular de cada fase precisa ser executada em seguida. As setas indicam as mais importantes e mais freqentes dependncias entre as fases.

O ciclo externo na figura simboliza o ciclo natural da minerao de dados. Um processo de minerao de dados continua aps a soluo ter sido desenvolvida. As 18

lies aprendidas durante o processo podem provocar perguntas novas, freqentemente mais pertinentes ao negcio. Processos subseqentes se beneficiaro das experincias de processos anteriores.

Figura 2: Fases do CRISP-DM Process Model (Baseado em [The CRISP-DM Consortium, 2000])

Segue abaixo uma sntese das etapas pertencentes ao modelo CRISP [The CRISPDM Consortium, 2000]:

2.1.1 Entendimento do Negcio (Business Understanding)

Essa fase inicial tem o foco no entendimento do negcio que visa obter conhecimento sobre os objetivos do negcio e seus requisitos, e ento converter esse conhecimento em uma definio de um problema de minerao de dados, e um plano preliminar designado para alcanar esses objetivos.

19

2.1.2 Seleo dos Dados (Data Understanding)

Consiste no entendimento dos dados, que visa familiarizao com o banco de dados pelo grupo de projeto, utilizando-se de conjuntos de dados "modelo". Uma vez definido o domnio sobre o qual se pretende executar o processo de descoberta, o prximo passo selecionar e coletar o conjunto de dados ou variveis necessrias.

Essa fase se inicia com uma coleta inicial de dados, e com procedimentos e atividades visando a familiarizao com os dados, para identificar possveis problemas de qualidade, ou detectar subconjuntos interessantes para formar hipteses.

2.1.3 Limpeza dos Dados (Data Preparation)

A fase de preparao de dados consiste na preparao dos dados que visa a limpeza, transformao, integrao e formatao dos dados da etapa anterior. a atividade pela qual os rudos, dados estranhos ou inconsistentes so tratados. Esta fase abrange todas as atividades para construir o conjunto de dados final (dados que sero alimentados nas ferramentas de minerao), a partir do conjunto de dados inicial.

A utilizao de Data Warehouses facilita em muito esta etapa do processo de minerao de dados, que costuma ser a fase que exige mais esforo, correspondendo geralmente a mais de 50% do trabalho. Por isso, muito importante para uma organizao, que ela possua em seus processos habituais boas prticas da administrao de dados, como o Data Cleansing, que uma parte fundamental da cadeia da administrao da informao, responsvel pelas etapas de deteco, validao e correo de erros em bases de dados [Chapman, 2005].

20

2.1.4 Modelagem dos Dados (Modeling)

Fase que consiste na modelagem dos dados, a qual visa a aplicao de tcnicas de modelagem sobre o conjunto de dados preparado na etapa anterior.

Nessa fase, vrias tcnicas de modelagem so selecionadas e aplicadas, e seus parmetros so calibrados para se obter valores otimizados. Geralmente, existem vrias tcnicas para o mesmo tipo de problema de minerao. Algumas tcnicas possuem requerimentos especficos na forma dos dados. Conseqentemente, voltar para a etapa de preparao de dados freqentemente necessrio.

A maioria das tcnicas de minerao de dados so baseadas em conceitos de aprendizagem de mquina, reconhecimento de padres, estatstica, classificao e clusterizao.

2.1.5 Avaliao do processo (Evaluation)

A avaliao do processo visa garantir que o modelo gerado atenda s expectativas da organizao. Os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas. Porm, estas formas devem possibilitar uma anlise criteriosa para identificar a necessidade de retornar a qualquer um dos estgios anteriores do processo de minerao.

Nesta etapa se construiu um modelo que parece de alta qualidade, de uma perspectiva da anlise de dados. Antes de prosseguir, importante avaliar mais detalhadamente o modelo, e rever as etapas executadas para construir o modelo, para se certificar de que ele conseguir alcanar os objetivos de negcio.

21

Deve se determinar se houve algum importante objetivo do negcio que no foi suficientemente alcanado. No fim desta fase, uma deciso sobre o uso dos resultados da minerao deve ser tomada.

2.1.6 Execuo (Deployment)

Esta fase consiste na definio das fases de implantao do projeto de Minerao de Dados.

A criao do modelo no o fim do projeto. Mesmo se a finalidade do modelo for apenas aumentar o conhecimento dos dados, o conhecimento ganho necessitar ser organizado e apresentado em uma maneira que o cliente possa usar. Dependendo das exigncias, a fase de execuo pode ser to simples quanto a gerao de um relatrio, ou to complexo quanto executar processos de minerao de dados repetidamente.

Em muitos casos ser o cliente, no o analista dos dados, que realizar as etapas da execuo. Entretanto, mesmo se o analista no se encarregar da execuo importante que ele faa o cliente compreender que medidas devero ser tomadas a fim de empregar efetivamente os modelos criados.

2.2 Tcnicas
Existem 5 (cinco) tcnicas gerais de minerao de dados que englobam todas as outras formas de apresentao e permitem uma viso mais global e apropriada ao assunto. So elas a classificao, a estimativa, a previso, a anlise de afinidades e a anlise de agrupamentos [Carvalho, 2005].

22

2.2.1 Classificao

A classificao uma das mais utilizadas tcnicas de minerao de dados, simplesmente porque uma das mais realizadas tarefas humana no auxlio compreenso do ambiente em que se vive. O ser humano est sempre classificando o que percebe a sua volta, criando classes de relaes humanas diferentes (colegas de trabalho, amigos, familiares, por exemplo...) e dando a cada classe uma forma diferente de tratamento.

A classificao pode ser sintetizada por um processo de discriminao de unidades em classes ou categorias. Assim, classificam-se sabores, amigos, clientes, eventos, entre outros, em categorias, tais como doce / salgado / neutro, bom / mau e legal / ilegal.

Em um processo de minerao de dados, a classificao est especificamente voltada atribuio de uma das classes pr-definidas pelo analista a novos fatos ou objetos submetidos classificao. Essa tcnica pode ser utilizada tanto para entender dados existentes quanto para prever como novos dados iro se comportar [Euriditionhome, 2004].

Como no mundo fsico nada exatamente igual, por mais semelhante que parea, para se criar classes preciso permitir que detalhes sejam desprezados e somente as caractersticas principais sejam observadas. A tarefa de classificar geralmente exige a comparao de um objeto ou dado com outros dados ou objetos que supostamente pertenam a classes anteriormente definidas. Para comparar dados ou objetos utiliza-se uma mtrica ou forma de medida de diferenas entre eles.

Na minerao de dados so comuns as tarefas de classificao de clientes em baixo, mdio ou alto risco de emprstimo bancrio; de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil; de transaes financeiras como legais, ilegais ou suspeitas em sistemas de fiscalizao do 23

mercado financeiro; de aes da bolsa de valores com lucros potenciais baixos, mdios e altos, entre outras.

Os algoritmos mais utilizados para este fim so os de rvores de deciso [Pelegrin et al., 2005], regresso [Han et al., 2001] e redes neurais [Sousa, 1998].

2.2.2 Estimativa

A estimativa, ao contrrio da classificao, est associada a respostas contnuas.

Estimar algum ndice determinar seu valor mais provvel diante de dados do passado ou de dados de outros ndices semelhantes sobre os quais se tem conhecimento.

Suponha que se deseja determinar o gasto de famlias cariocas com lazer e que para isto se possua ndices de gastos de famlias paulistanas com lazer, em funo da faixa etria e padro scio-cultural. No se sabe exatamente quanto as famlias cariocas gastam com lazer mas se pode estimar baseando-se nos dados das famlias paulistanas. Certamente que esta estimativa pode levar a grandes erros, uma vez que Rio de Janeiro e So Paulo so cidades com geografias diferentes e que oferecem diferentes opes de lazer a seus habitantes.

A arte de estimar exatamente esta: determinar da melhor forma possvel um valor, baseando-se em outros valores de situaes semelhantes.

Os algoritmos de regresso e as redes neurais so bastante utilizados nestes casos.

24

2.2.3 Previso

A previso, como tarefa tpica de DM, est associada avaliao de um valor futuro de uma varivel a partir dos dados histricos do seu comportamento passado. Assim, pode-se prever, por exemplo, se o ndice bovespa subir ou descer no dia seguinte; qual ser o valor de determinada ao daqui a um determinado perodo de tempo; o nmero de clientes que sero perdidos por uma empresa, em um dado horizonte futuro de tempo; qual ser a populao de uma certa cidade daqui a dez anos; entre outras coisas.

A nica maneira de avaliar se a previso foi bem feita aguardar o acontecimento e verificar o quanto foi acertada ou no a previso realizada. Sem dvida, a previso uma das tarefas mais difceis no somente na minerao de dados, mas tambm no cotidiano das pessoas.

Os algoritmos que podem ser utilizados aqui so, dentre outros, as redes neurais, a regresso, e as rvores de deciso.

2.2.4 Anlise de Afinidades

A anlise de afinidades preocupa-se em reconhecer padres de ocorrncia simultnea de determinados eventos nos dados em anlise. Determinar que fatos ocorrem simultaneamente com probabilidade razovel (co-ocorrncia) ou que itens de uma massa de dados esto presentes juntos com uma certa chance (correlao).

O exemplo mais clssico de anlise de afinidades o do carrinho de supermercado, do qual deseja-se conhecer quais os produtos que so comumente comprados em conjunto pelos consumidores. Isto possibilita a otimizao do layout interno dos supermercados e a realizao de vendas dirigidas nas quais os itens so oferecidos j em conjuntos com preos menores.

25

Em termos de algoritmos, a utilizao das regras de associao constitui-se no procedimento mais utilizado nestes casos [Pelegrin et al., 2005].

2.2.5 Anlise de agrupamentos

A anlise de agrupamentos visa formar grupos de objetos ou elementos mais homogneos entre si. Pode ser estabelecido previamente um nmero de grupos a ser formado, ou ento se pode admitir ao algoritmo de agrupamento uma livre associao de unidades, de forma que a quantidade de grupos resultante seja conhecida somente ao final do processo.

Uma clara diferena entre agrupamento e classificao que na classificao as classes so pr-definidas pelo pesquisador, enquanto que aqui no existe tal requisito. Isto torna esta tcnica muito mais complexa do que a classificao. Por exemplo, dadas as classes animal, vegetal e mineral, relativamente simples classificar a qual dessas classes um certo objeto pertence, porm de posse de uma massa de dados sobre o consumo no Brasil, determinar quantas classes ou padres de comportamento consumista existem algo bem diferente. A dificuldade reside no fato de que podem no haver tais classes, ou seja, os dados se distribuem igualmente por todo o espao possvel no determinando nenhuma categoria.

Na anlise de agrupamentos, os grupos ou classes so construdos com base na semelhana entre os elementos, cabendo ao analisador das classes resultantes avaliar se estas significam algo til. Por exemplo, agrupar sintomas pode gerar classes que no representem nenhuma doena explicitamente, uma vez que doenas diferentes podem possuir os mesmos sintomas.

26

A anlise de agrupamentos normalmente uma tcnica preliminar, utilizada quando nada ou pouco se sabe sobre os dados. Segmentar um mercado uma tpica anlise de agrupamentos onde consumidores so reunidos em classes representantes dos segmentos deste mercado.

Em geral, a tcnica de agrupamento executada por algoritmos estatsticos especficos para esse fim, porm as redes neurais e os algoritmos genticos [Han et al., 2001] so tambm utilizados neste sentido.

2.3 Tipos de Algoritmos


Diversos tipos de algoritmos so utilizados nas diferentes tcnicas da minerao de dados. Por serem os mais amplamente utilizados, dois (2) dos principais tipos de algoritmos so brevemente descritos a seguir.

2.3.1 rvores de Deciso

O mtodo de rvores de deciso representa um tipo de algoritmo de aprendizado de mquina que utiliza uma abordagem dividir-para-conquistar. Consiste em meios de representar resultados de minerao de dados na forma de rvore. Neste mtodo, permite-se ao usurio definir o objeto de sada. Com isto, a partir de um grupo de dados possvel identificar o fator mais importante correlacionado a este objeto. Dado um grupo de dados com numerosas colunas e linhas, uma ferramenta de rvore de deciso pede ao usurio para escolher uma das colunas como objeto de sada, e mostra o nico e mais importante fator correlacionado com aquele objeto de sada como o primeiro ramo (n) da rvore de deciso [Gimenes, 2000].

O conhecimento representado nas rvores de deciso pode ser extrado e representado na forma de regras de classificao do tipo SE-ENTO. Sendo assim,

27

cada n filho da rvore representa uma condio (antecedente) envolvendo um atributo e um conjunto de valores. Enquanto os ns folhas, correspondem s concluses (conseqente), que indicam a atribuio de um valor ou conjunto de valores a um atributo do problema [Pelegrin et al., 2005].

O principal problema relativo a essas rvores que elas precisam de uma quantidade de dados considervel para desvendar estruturas complexas. Por outro lado, elas podem ser construdas de forma consideravelmente mais rpida do que alguns mtodos alternativos de classificao, produzindo resultados com preciso similar [Sousa, 1998].

2.3.2 Redes Neurais


As redes neurais so sistemas paralelos distribudos, que tentam construir representaes de modelos ou padres achados nos dados. Estruturalmente, uma rede neural consiste em um nmero de unidades de processamento simples interconectadas (chamadas neurnios), que tm o objetivo de calcular determinadas funes matemticas (funes de ativao). Os neurnios so dispostos em uma ou mais camadas e interligados por um grande nmero de conexes. Essas conexes esto associadas a pesos que armazenam o conhecimento representado no modelo e ponderam as entradas recebidas por cada neurnio da rede [Sousa, 1998].

A aquisio de conhecimento a partir do ambiente feita atravs de um processo de aprendizagem (treinamento). Na fase de treinamento, os pesos das conexes da rede vo sendo ajustados de forma que o conhecimento extrado dos dados possa ser representado internamente, atravs de interaes repetidas, cada hora ajustando os parmetros que definem a superfcie. Depois de muitas repeties, uma superfcie que se aproxima muito dos pontos dentro do grupo de dados pode ser internamente definida [Gimenes, 2000].

28

Dentre as vantagens dos algoritmos baseados em redes neurais, est a sua robustez ao lidar com erros no conjunto de treinamento, possibilitando uma alta tolerncia a dados com rudos. Tambm possui boa escalabilidade e como diversos algoritmos tm sido desenvolvidos para extrao de regras de classificao de redes neurais, a sua interpretabilidade tem melhorado [Gouva, 2005; Sousa, 1998].

O seu ponto fraco est na necessidade de definio de muitos parmetros como a sua estrutura e valores iniciais dos pesos, alm de longos tempos de treinamento. Algoritmos de redes neurais tipicamente necessitam de maior fora computacional que, por exemplo, algoritmos de rvores de deciso. Redes neurais aprendidas no so facilmente compreensveis para pessoas, o que no ocorre com regras, as quais so facilmente interpretadas [Gouva, 2005; Sousa, 1998].

29

3 Aplicaes Prticas
Segundo estimativas do The Data Warehousing Institute [TDWI, 2006], a m qualidade sobre os dados dos clientes, custa, s nos Estados Unidos, 611 bilhes de dlares por ano. A realidade que dados mal-administrados causam mais prejuzos ainda que isso. Dado a importncia de negcio atrelada administrao de dados, focando na qualidade dos mesmos, impressionante a forma causal com a qual muitas empresas encaram e administram este recurso.

Neste captulo sero mostrados alguns exemplos de empresas de diferentes reas da sociedade que investiram na administrao de dados, focando na melhoria de sua qualidade e gerao de conhecimento a partir dos mesmos, e obtiveram retorno empresarial.

3.1 Segmentao de Mercados

Um dos grandes objetivos de uma organizao conhecer seus clientes. Este conhecimento precisa ocorrer em vrios nveis, desde o tipo de produto desejado at que tipo de ofertas esto dispostos a aceitar mesmo que os produtos no sejam essenciais no momento. Tambm interessante saber o perfil mdio do consumidor, sua renda, sexo, idade, tamanho da famlia, entre outros aspectos. Com estas informaes, a empresa poder ter em estoque o que o cliente mdio mais provavelmente precise e fazer ofertas com certo grau de certeza do seu sucesso a clientes especficos. Esta forma de mercado dirigido pode atingir o extremo de uma relao individual com cada cliente medida que a empresa deseje investir em segmentaes (classificaes) sucessivas de sua clientela.

Esta tpica tarefa de minerao de dados usada por grandes lojas de departamentos e administradoras de carto de crdito e se utiliza dos dados das compras dos clientes no passado recente para traar perfis de consumo. Informaes como idade, 30

sexo, estado civil, salrio, moradia prpria ou alugada, bairro e cidade tambm so informaes importantes pois permitem a setorizao ainda mais fina dos clientes. Se os produtos comprados so avaliados de alguma forma quanto satisfao do cliente atravs de pesquisas por telefone ou Internet por exemplo, um quadro ainda maior pode ser traado.

Em uma determinada rede de lojas, escolheu-se apenas 5 (cinco) categorias de produtos para minerar e melhorar as vendas: vesturio esportivo, aparelhos de ginstica, decorao, moblia e CD. A idia da empresa era fazer um maior direcionamento clientela quando fosse enviar catlogos e ofertas.

A rede de lojas possui 3 (trs) bases de dados, contendo uma delas os dados dos clientes para fins de credirio e verificao de residncia, cheques, entre outros; outra base contendo os dados sobre produtos em estoque, seus preos e descries; e a terceira base contendo os dados sobre as compras executadas. Uma empresa de data warehouse foi contratada para unificar estes 3 (trs) bancos de dados e permitir anlises globais dos seus negcios. Aps a construo do data warehouse, foi fcil agregar dados sobre os clientes que realizam compras de produtos das 5 (cinco) categorias.

A empresa decidiu pela utilizao de redes neurais para a anlise de agrupamentos e no fundo a segmentao de mercados nada mais que uma anlise de agrupamentos. Uma mdia dos dados de todos os clientes foi realizada para efeitos de comparao com o perfil mdio dos clientes de cada agrupamento. Em mdia, os consumidores das 5 (cinco) categorias de produtos escolhidos pela rede de lojas para anlise tm 42 anos, ganham US$ 35.000,00 por ano, so em maioria (58%) do sexo feminino e 50% casados contra 35% solteiros, possuindo 40% deles casa prpria. Estes clientes gastaram em mdia no ltimo ano US$ 500,00 em vesturio esportivo, US$ 1.000,00 em equipamentos de ginstica, US$ 1.250,00 em decorao, US$ 780,00 em CD e US$ 1.100,00 em moblia.

31

A rede neural criou um grupo de clientes contendo 48% do total com um perfil bastante semelhante ao perfil mdio descrito acima, com exceo de gastarem o dobro em decorao. O segundo maior grupo possui 29% dos clientes e tem 52 anos em mdia, gastando a metade que a mdia total em esportes e aproximadamente US$ 500,00 a mais da mdia em moblia. O terceiro grupo possui 20% dos clientes e consome aproximadamente o mesmo que a mdia geral com a diferena de gastar apenas um quarto da mdia em decorao. O ltimo grupo tem apenas 26 anos de idade em mdia e representa 11% do total gastando o dobro da mdia em esportes.

Com base nesses resultados a empresa decidiu dividir sua mala-direta em grupos com diferentes ofertas: Em artigos de decorao para o primeiro grupo, em moblia para o segundo segmento de clientes, e em material esportivo para o quarto perfil de clientela. Certamente que os analistas de minerao de dados poderiam ter caminhado um pouco alm e procurado dividir os clientes em mais subgrupos de forma a permitir uma viso mais especfica. Porm, os quatro grupos descritos foram suficientes para as necessidades da empresa naquele momento [Carvalho, 2005].

O processo de anlise de agrupamentos pode ser facilmente estendido para dividir as, aproximadamente, mil filiais da rede de lojas em todo os EUA em categorias e facilitar a distribuio de produtos, assim como a realizao de compras nos fornecedores e indstrias. Assim, ao invs de analisar o que cada uma das mil filiais est necessitando para seus estoques e montar uma estrutura logstica enorme, podese agrupar lojas componentes de cada um dos grupos. O gerenciamento da rede de lojas fica, ento, bastante facilitado.

32

3.2 Varejo

Vrios fatores podem contribuir para a necessidade de previso de vendas tais como a manuteno do cliente que no se frustra ao encontrar na loja o que deseja, o menor custo com estoques pela manuteno de estoques mais ajustados s vendas futuras, a melhor alocao de vendedores em funo da previso das vendas para o futuro perodo, entre outros.

Os parmetros importantes a serem considerados quando se analisa a disponibilidade de produtos em uma loja so a capacidade de produo e distribuio da indstria produtora do item, a existncia ou no de propaganda realizada pelo produtor do item e o perodo do ano ou ms dependendo do produto tratado.

Uma grande revendedora de automveis de vrios fabricantes nos seus diversos modelos observando sua perda de venda e de clientes a cada vez que no possua o desejado carro em seus estoques e, contrapondo este fato com o alto custo de manuteno de grandes estoques deste produto durvel e caro, resolveu desenvolver um sistema de previso de vendas. A empresa possua um banco de dados de vendas de carros nos ltimos 5 (cinco) anos e desejava um sistema de previso capaz de avaliar as vendas 15 dias a frente pois este era o tempo necessrio para encomenda e transporte de novos itens [Carvalho, 2005].

Alm da informao contida no banco de dados, necessrio contextualizar cada dado de venda com outras informaes como a existncia de propaganda realizada pelo fabricante, se a venda foi realizada em certos perodos do ano mais propcios compra de automveis e tambm ao fim de cada ms quando h um natural

33

aquecimento das vendas. Como prever o futuro no nada fcil, a maior quantidade de informao pertinente possvel deve ser considerada em qualquer metodologia.

Foi escolhido pelo uso de uma rede neural. O treinamento da rede neural foi feito com dados de quatro anos e meio deixando os ltimos seis meses do perodo de 5 (cinco) anos de vendas para a testagem da capacidade de previso do sistema. O aprendizado mostrou-se eficiente tendo um erro mximo de previso em algumas semanas de 20%, porm o erro mdio se manteve dentro dos desejados 10%.

Desta forma, o sistema passou a prever as vendas dos prximos 15 dias fornecendo mais tempo para a encomenda e transporte do produto. A cada quatro semanas, a rede neural era ensinada de novo, incluindo-se os dados de mais 4 (quatro) semanas ocorridas seis meses antes e testando-se o erro de previso utilizando-se sempre os ltimos 6 (seis) meses de vendas, agora incluindo as ltimas quatro semanas recentemente terminadas.

3.3 Mercado Financeiro

A empresa norte-americana LBS j h algum tempo (desde 1986) investe em tecnologia por achar que os enfoques tradicionais no gerenciamento de investimentos no fornecem resultados que superem expressivamente o lucro mdio de mercado. A empresa acredita que novas tcnicas podem capturar relaes de causa e efeito no lineares comuns no funcionamento do mercado financeiro.

Com a utilizao de sistemas de previso a LBS esperava aumentar o retorno e minimizar os riscos de perda. Seu desejo era poder, baseado em sinais de hoje, prever as tendncias do mercado aps um determinado tempo, comprando e vendendo os papis corretos, nos tempos mais apropriados. A empresa tenta extrair dos dados passados e presentes alguma viso das variaes futuras.

34

Prever o mercado financeiro no tarefa fcil, pois se no curto prazo os boatos e as guerras psicolgicas alteram preos muito rapidamente, no longo prazo ocorrem mudanas polticas nacionais e internacionais assim como catstrofes e outros fatos que alteram completamente as tendncias. As relaes micro e macro-econmicas no so bem entendidas, sendo muito comum diferentes explicaes para eventos j ocorridos. A massa de dados a ser analisada muito grande e a evoluo das relaes com o tempo pode ser muito rpida, requerendo sistemas de anlise adaptativos.

A LBS concluiu que a melhor soluo seria o uso de redes neurais. Decidiu construir uma rede neural para cada papel ao invs de uma nica rede neural para os milhares de papis existentes. Cada uma delas foi treinada com dados dos ltimos 3 (trs) meses e a cada nova semana era re-treinada. As redes neurais se mostraram muito adaptveis s flutuaes do mercado financeiro. Vrios experimentos se fizeram necessrios para a determinao das variveis importantes para a previso das tendncias de cada papel especfico.

De fato, a LBS foi uma das mais importantes empresas do mercado financeiro nos EUA durante 7 (sete) anos consecutivos. Sua carteira cresceu durante este perodo de 25% a 100% ao ano e nunca houve uma perda maior que 7% durante este tempo. Se a minerao dos dados foi a responsvel por este sucesso no se pode afirmar, mas certamente alguma importncia tiveram, pois recursos considerveis foram destinados a este projeto [Carvalho, 2005].

35

4 Anlise de Ferramentas
Este captulo tem como objetivo analisar 3 (trs) ferramentas disponveis no mercado que auxiliam no processo de minerao de dados, descrevendo uma viso geral das mesmas e detalhando suas principais funcionalidades. Tambm sero apresentadas algumas telas capturadas das ferramentas para melhor ilustrar a demonstrao da mesma.

4.1 SAS Enterprise Miner

Presente em 110 pases, com mais de 40 mil instalaes, a SAS no Brasil o parceiro de negcios lder de mercado na oferta de solues para a gesto corporativa baseada em inteligncia. Fornece propostas de valor que englobam solues e servios de consultoria para o gerenciamento e a previsibilidade dos negcios. O SAS mapeia, identifica e formula processos que oferecem solues especficas para as corporaes, tornando-as mais eficientes e competitivas [SAS, 2007].

Entre outros sistemas corporativos, a SAS possui uma ferramenta de minerao de dados chamada Enterprise Miner, cujo site da ferramenta [SAS, 2007] afirma ser um software de minerao de dados avanado, combinando um extenso pacote de ferramentas integradas de minerao de dados com uma facilidade de utilizao nunca vista, capacitando os usurios a tirarem proveito de dados corporativos para obter vantagem estratgica, tudo em um nico ambiente.

O site da ferramenta sugere que o Enterprise Miner se destina, dentre outros, a mineradores de dados, analistas de mercados, analistas de risco, investigadores de fraudes, engenheiros e cientistas que desempenham papis importantes na resoluo de problemas de negcio crticos ou pesquisas cientficas. 36

O software integra diferentes tcnicas da minerao de dados, sendo uma avanada ferramenta para predio e descrio de dados, utilizando diversos algoritmos incluindo algoritmos de rvores de deciso, algoritmos de redes neurais, entre outros.

Entre outras funcionalidades, o sistema tambm disponibiliza uma tela que demonstra graficamente todas as fases do processo de minerao de dados, desde o acesso aos dados, at a anlise dos resultados, dando todo suporte necessrio a cada etapa em uma nica soluo integrada. Na Figura 3 mostrado o fluxo entre as etapas da minerao de dados utilizadas para a anlise de um emprstimo.

Figura 3: Fluxo da minerao de dados em anlise de emprstimo [SAS, 2007].

37

O Enterprise Miner tambm possui funcionalidades ligadas ao pr-processamento dos dados. Relatrios com resumos dos resultados so gerados e a interface grfica Java possui grficos estatsticos flexveis. Na Figura 4 mostrada uma tela de relatrio gerada a partir de uma anlise de agrupamentos. O sistema prov visualizaes para ajudar a determinar quais variveis so mais importantes para distinguir os agrupamentos.

Figura 4: Anlise de Agrupamentos [SAS, 2007].

Oferecendo um modelo de comparao integrada, utilizado para comparar os resultados de tcnicas diferentes em vises de negcio como tambm em termos estatsticos, o software fornece a habilidade original de poder comparar a eficcia de cada tcnica em relao ao total do conhecimento gerado, permitindo que estatsticos e analistas do negcio discutam facilmente os resultados, para analisar as tcnicas mais eficazes, como mostrado na Figura 5.

38

Figura 5: Comparao de tcnicas [SAS, 2007].

4.2 IBM Intelligent Miner


O DB2 Data Warehouse Edition (DWE), da IBM, uma sute de produtos que combinam a administrao de dados, com uma poderosa infra-estrutura de inteligncia corporativa. O DWE pode ser usado para construir uma completa soluo de data warehousing e gerenci-la com uma soluo nica que integra componentes ncleos com funcionalidades distintas.

Entre os componentes que compem o DWE est o Intelligent Miner, cujo site da ferramenta [IBM, 2007] o classifica com uma poderosa ferramenta para anlise de dados integrada. As tradicionais tcnicas de minerao de dados (anlise de

39

agrupamentos, anlise de afinidades, classificao, estimativa e previso) so suportadas. Adicionalmente, ricos componentes de apresentao esto disponveis para possibilitar uma anlise visual dos resultados.

Na Figura 6, pode-se ver uma representao visual do resultado de uma anlise de agrupamentos entre clientes, feita atravs da minerao da base de dados de um banco. A figura mostra que existem 4 (quatro) agrupamentos, o maior contendo 33,71% do total de clientes, e o menor contendo 13,56% do total.

Figura 6: Anlise de agrupamentos de clientes bancrios [IBM, 2007].

Os grficos de setores circulares e os grficos de barras mostram a distribuio dos valores das colunas nos agrupamentos comparados com o total de clientes. Nos grficos de setores circulares, o crculo interno representa a populao de um agrupamento. O crculo externo representa a populao total. Por exemplo, o grfico de setores circulares INT_CREDITCARD na Figura 7 mostra que apenas

40

alguns clientes no agrupamento 1 possuem um carto de crdito internacional comparados quantidade total de clientes.

Figura 7: Grfico de setores circulares INT_CREDITCARD [IBM, 2007].

Figura 8: Tabela de clientes, com os agrupamentos informados [IBM, 2007].

41

A Figura 8 mostra a tabela de clientes, exibindo em uma coluna a qual agrupamento gerado, cada cliente pertence.

Na Figura 9 mostrado o exemplo de uma anlise de afinidades, utilizada para resolver o tradicional problema do carrinho de compras de supermercado. Nela, mostrada a co-ocorrncia de alguns itens em uma mesma compra, e um percentual de probabilidade de os conjuntos de itens serem comprados simultaneamente.

Figura 9: Anlise de afinidades [IBM, 2007].

42

4.3 Oracle Darwin Data Mining Software

O Darwin Data Mining Software da Oracle, descrito em seu site oficial [Oracle, 2007] como uma poderosa ferramenta de minerao de dados que ajuda a transformar gigantes massas de dados em inteligncia corporativa. Darwin ajuda a encontrar padres significativos e correlaes em dados corporativos. Padres que permitem um melhor entendimento e previso do comportamento de clientes.

Tambm segundo o site, utilizando o Darwin pode-se traar estratgias para vendas conjuntas para clientes existentes, pode-se obter novos clientes, detectar fraudes, identificar clientes mais lucrativos e traar perfis de clientes com maior eficcia.

O software baseado em algoritmos de aprendizagem, com a implementao de algoritmos de rvores de deciso, redes neurais, entre outros. Alm disso, possui tambm algoritmos para otimizao, avaliao e comparao de modelos. Oferece funes bsicas de estatstica necessrias para obter alguma compreenso dos dados iniciais e para avaliar as predies feitas pelos modelos obtidos.

Um dos pontos fortes da ferramenta sem dvida a facilidade de utilizao do sistema atravs de um conjunto de wizards, que ajudam e guiam o usurio na criao de modelos automaticamente e na seleo dos melhores e mais apropriados, como pode ser visto em alguns exemplos na Figura 10.

Na Figura 11 mostrado o resultado de uma segmentao de clientes, atravs de uma visualizao interativa em forma de rvore.

43

Figura 10: Wizards para criao de modelos de minerao de dados [Oracle, 2007].

Figura 11: Visualizao em forma de rvore para segmentao de clientes [Oracle, 2007].

44

O Darwin tambm possui relatrios que so integrados com o Microsoft Excel, como pode ser visto na Figura 12.

Figura 12: Grficos para visualizao de resultados em formato MS Excel [Oracle, 2007].

45

5 Concluses
Neste trabalho foi abordado o tema da minerao de dados (data mining), como importante rea da administrao de dados que visa melhoraria da qualidade dos mesmos e gerao de conhecimentos novos a partir deles.

Inicialmente, foram abordados os principais conceitos e caractersticas da minerao de dados. Uma viso geral das etapas do ciclo de vida de um projeto de minerao de dados foi mostrada. Observou-se a existncia de diversas tcnicas para se obter tipos diferentes de relaes e conhecimento para propsitos diferentes, sendo detalhadas as 5 (cinco) principais delas. Tambm foram abordados alguns conceitos relacionados a 2 (dois) dos principais tipos de algoritmos utilizados para a aplicao dessas tcnicas.

Ao longo do trabalho foi enaltecida a importncia da minerao de dados em diversas reas de conhecimento da nossa sociedade. Foram detalhados 3 (trs) exemplos prticos de aplicaes reais da minerao de dados em empresas, e foram analisados os resultados obtidos a partir da utilizao das prticas da minerao de dados por estas empresas.

Finalmente, algumas ferramentas que auxiliam no desenvolvimento e aplicao do processo de minerao de dados em uma organizao foram brevemente descritas.

5.1 Trabalhos Futuros

Com a concluso deste trabalho, pode-se identificar alguns estudos futuros que podem ser feitos a partir do tema. Mais especificamente, pode-se realizar um estudo de caso da aplicao de um processo de minerao de dados em uma empresa, desde o entendimento do negcio, at avaliao do processo. 46

Tambm pode ser feita uma anlise de retorno de investimento de empresas reais que investiram na minerao de dados com o objetivo de aumentar os seus lucros.

5.2 Consideraes Finais


Este trabalho teve como um de seus objetivos, estimular as empresas para que elas dem cada vez maior importncia a seus dados, obtidos em suas operaes dirias. Mostrou-se o quanto uma empresa pode agregar de valor para seus negcios, a partir de conhecimentos escondidos em seus dados. Com a concorrncia cada vez mais forte, empresas que no adotarem estratgias no s para manter a qualidade dos dados, como tambm para a gerao de conhecimento a partir deles, estaro reduzindo cada vez mais suas chances no mercado em que atuam.

47

6 Referncias

[Carvalho, 2005] Lus Alfredo Vidal de Carvalho. Data Mining A Minerao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. 2005 [Chapman, 2005] Chapman, A. D. 2005. Principles and Methods of Data Cleaning Primary Species and Species- Occurrence Data, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen. [DAMA International, 2006] The Data Management Association. Disponvel em: http://www.dama.org/public/pages/index.cfm?pageid=1. Acessado em Janeiro de 2007. [Euriditionhome, 2004] Data Mining Tutorials, Resources. Disponvel em: http://datamining.eruditionhome.com. Acessado em Janeiro de 2007. [Fayyad et al., 1996] Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic; Uthurusamy, Ramasamy. Advances In Knowledge Discovery And Data Mining. Novembro de 1996. [Gimenes, 2000] Eduardo Gimenes, A Importncia da Minerao de dados em tomadas de decises. Disponvel em: Acessado em http://geocities.yahoo.com.br/dugimenes/arquivos/data_mining.zip. Fevereiro de 2007. [Gouva, 2005] Custdio Gouva, Introduo a Tcnicas de Data Mining DM. Disponvel em: http://arquivosevt.lncc.br/pdfs/Introducao%20Data%20Mining%203.pdf. Acessado em Fevereiro de 2007. [Han et al., 2001] Han, Jiawei; Kamber, Micheline. Data Mining Concepts and Techniques. 2001 [IBM, 2007] IBM DB2 Data Warehouse Edition. Disponvel em: http://www306.ibm.com/software/data/db2/dwe/. Acessado em Maro de 2007. [Navega, 2002] Sergio Navega, Princpios Essenciais do Data Mining. Disponvel em: http://www.intelliwise.com/reports/i2002.htm. Acessado em Dezembro de 2006. [Oracle, 2007] Oracle Darwin Data Mining Software. Disponvel em: http://www.oracle.com/technology/documentation/darwin.html. Acessado em Maro de 2007.

48

[Pelegrin et al., 2005] Diana Colombo Pelegrin, Diego Paz Casagrande, Merisandra Crtes de Mattos, Priscyla Waleska Targino de Azevedo Simes, Rafael Charnovscki, Jane Bettiol. As Tarefas de Associao e de Classificao na Shell de Data Mining Orion. Disponvel em: http://www.dcc.unesc.net/sulcomp/artigos/sessaoOral/22103.pdf. Acessado em Fevereiro de 2007. [SAS, 2007] SAS Entreprise Miner. Disponvel em: http://www.sas.com/technologies/analytics/datamining/miner/. Acessado em Maro de 2007. [Sferra e Corra, 2003] Heloisa Helena Sferra, ngela M. C. Jorge Corra. Conceitos e Aplicaes de Data Mining. Disponvel em: http://www.unimep.br/phpg/editora/revistaspdf/rct22art02.pdf. Acessado em Janeiro de 2007 [Sousa, 1998] Mauro Srgio Ribeiro de Sousa, 1998. Minerao de Dados: Uma implementao fortemente acoplada a um sistema gerenciador de banco de dados paralelo. Disponvel em: http://www.cos.ufrj.br/~marta/papers/TeseMauroS.pdf. Acessado em Janeiro de 2007. [TDWI, 2006] The data warehousing institute. Disponvel em: http://www.tdwi.org/. Acessado em Maro de 2007. [The CRISP-DM Consortium, 2000] CRoss Industry Standard Process for Data Mining. Disponvel em: http://www.crisp-dm.org. Acessado em Janeiro de 2007. [Wikipedia, 2006] Sistema de Gerenciamento de Banco de Dados. Disponvel em: http://pt.wikipedia.org/wiki/SGBD. Acessado em Dezembro de 2006. [Witten, 2000] Witten, Ian H.; Frank, Eibe. Data Mining Practical machine learning tools and techniques with java implementations. 2000 [Goldschmidt e Passos, 2005] Ronaldo Goldschmidt, Emmanuel Passos. Data Mining: um Guia Prtico. 2005

49

Assinaturas

Recife, 29 de maro de 2007

___________________________________________________ Fernando da Fonseca de Souza (orientador)

___________________________________________________ Thiago Miranda Amorim Silva (aluno)

50

Você também pode gostar