Você está na página 1de 6

DATA MINING OVERVIEW Introduo As duas ltimas dcadas acompanharam um aumento dramtico na quantidade de informaes ou dados que so armazenadas

em formato eletrnico. Esta acumulao de dados aconteceu a uma taxa explosiva. Foi calculado que a quantidade de informao no mundo dobra a cada 20 meses e o tamanho e nmero de bancos de dados esto aumentando ainda mais rapidamente. O valor destes dados armazenados est tipicamente ligado capacidade de extrair informaes de mais alto nvel que se encontra subjacente a estes dados, ou seja, informao til que sirva para dar suporte a decises, e para explorao e melhor entendimento do fenmeno gerador dos dados. Podem existir padres ou tendncias teis interessantes que, se descobertos, podem ser utilizados, por exemplo, para otimizar um processo de negcio em uma empresa, ajudar no entendimento dos resultados de um experimento cientfico, ajudarem mdicos a entender efeitos de um tratamento entre outros. Dentro deste contexto, data mining (minerao dos dados - extrao de informaes implcitas, padres ocultos em bases de dados) tem ganhado muita ateno de diversas reas de interesse. Elas o consideram como um campo crtico para seus negcios. O uso de informaes valiosas obtidas por minerao dos dados necessrio para manter a competitividade no ambiente comercial atual. Com o advento do "data warehousing" que faz a armazenagem de grandes quantidades de dados em um local comum e do contnuo avano no aumento do poder de processamento dos computadores, os empresrios procuram por tecnologias e ferramentas para extrair informaes teis dos dados. O que Data Mining? o processo de descobrir informaes relevantes, como padres, associaes, mudanas, anomalias e estruturas, em grandes quantidades de dados armazenados em banco de dados, depsitos de dados ou outros repositrios de informao. Devido a disponibilidade de enormes quantidades de dados em formas eletrnicas, e necessidade iminente de extrair delas informaes e conhecimentos teis a diversas aplicaes, por exemplo na anlise de mercado, administrao empresarial, apoio deciso, etc, data mining foi popularmente tratado como sinnimo de descoberta de conhecimento em bases de dados, apesar de, na viso de alguns pesquisadores, data mining ser considerado como um passo essencial da descoberta de conhecimento. Em geral, um processo de descoberta de conhecimento consiste em uma iterao das seguintes etapas: Preparao: o passo onde os dados so preparados para serem apresentados s tcnicas de data mining. Os dados so selecionados (quais os dados que so importantes), purificados (retirar inconsistncias e incompletude dos dados) e pr-processados (reapresent-los de uma maneira adequada para o data mining). Este passo realizado sob a superviso e conhecimento de um especialista, pois o mesmo capaz de definir quais dados so importantes, assim como o que fazer com os dados antes de utiliz-los no data mining. Data Mining: onde os dados preparados so processados, ou seja, onde se faz a minerao dos dados propriamente dita. O principal objetivo desse passo transformar os dados de uma maneira que permita a identificao mais fcil de informaes importantes. Anlise de Dados: o resultado do data mining avaliado, visando determinar se algum conhecimento adicional foi descoberto, assim como definir a importncia dos fatos gerados. Para esse passo, vrias maneiras de anlise podem ser utilizadas, por exemplo: o resultado do data mining pode ser expresso em um grfico, em que anlise dos dados passa a ser uma anlise do comportamento do grfico. Data mining uma das ferramentas mais utilizadas para extrao de conhecimento atravs de bancos de dados (Knowledge Discovery in Databases - KDD), tanto no meio comercial quanto no meio cientfico.

Curso de Inteligncia Tecnolgica IME / 2005

Extrao de Conhecimento em Base de Dados A extrao de conhecimento em bases de dados consiste na seleo e processamento de dados com a finalidade de identificar novos padres, dar maior preciso em padres conhecidos e modelar o mundo real. Data mining, em portugus, minerao de dados se refere ao exame de grandes quantidades de dados, procurando encontrar relaes entre dados no explcitas que possam ser usadas em modelos do mundo com capacidade preditiva e explanatria. Espera-se que o conhecimento extrado seja utilizado. Neste caso, seu uso dar frutos que podero ou no interferir com novos dados a serem obtidos. O objetivo deste captulo apresentar alguns conceitos e definies do contexto de data mining e principalmente dar uma introduo ao processo completo de descoberta do conhecimento incluindo esquemas grficos e a descrio de algumas de suas tarefas bsicas. No final do captulo ser apresentada a descrio de algumas aplicaes de sucesso que mostram como as tcnicas de data mining atingem todas as reas do conhecimento. O ponto de partida do ciclo consiste em tomar todos os dados que seja possvel obter referentes a um assunto (dados brutos). O passo seguinte consolidar estes dados procurando dar uma estrutura conveniente para serem explorados e armazenados. Esta fase, de grande importncia conhecida por data warehouse, ou armazm de dados. Neste momento conveniente que se tenha alguma hiptese sobre o possvel modelo que se vai obter, para que um prprocessamento coloque os dados de modo conveniente obteno deste modelo (data minig), que deve ser interpretado para extrair o conhecimento desejado. Definies do Termo Descobrir padres teis em dados conhecido em diversas comunidades por nomes diferentes como: extrao de conhecimento, descoberta de informao, colheita de informao, arqueologia de dados e processamento de padro de dados inclusive data mining. O termo data mining muito usado por estatsticos, pesquisadores de banco de dados e comunidades de negcio. O termo KDD (Knowledge Discovery in Databases) refere-se ao processo global de descobrimento de conhecimento til em bases de dados. Data mining um passo particular neste processo-aplicao de algoritmos especficos para extrair padres (modelos) de dados. Os passos adicionais no processo KDD, como preparao de dados, seleo de dados, limpeza de dados, incorporao de conhecimento anterior apropriado e interpretao formal dos resultados de minerao assegura aquele conhecimento til que derivado dos dados. A aplicao cega de mtodos de data mining pode ser uma atividade perigosa que conduz a descoberta de padres sem sentido. O KDD evoluiu e continua evoluindo da interseo de pesquisas em campos como bancos de dados, aprendizado de mquinas, reconhecimento de padres, estatsticas, inteligncia artificial, aquisio de conhecimento para sistemas especialistas, visualizao de dados, descoberta cientfica, recuperao de informao e computao de altodesempenho. Sistemas de software KDD incorporam teorias, algoritmos e mtodos de todos estes campos. Data Warehouse um armazm centralizado de dados. Data Warehousing referese organizao dos dados para os tornar disponveis para anlise on une. Uma das ferramentas que vem apresentando vantagens em relao SQL (uma linguagem de definio e manipulao de dados) a OLAP (On line Analytical Processing). Existem similaridades e diferenas entre OLAP e data mining. O termo data mning teve conotaes negativas em estatsticas desde a dcada de 1960, quando o computador baseado em tcnicas de anlise de dados foi introduzido primeiro. A preocupao surgiu em cima do fato de que pesquisas minuciosas em qualquer conjunto de dados, podem identificar padres que parecem ser estatisticamente significantes mas de fato no o so. Data mining produz resultados eficazes desde que usado corretamente.

Curso de Inteligncia Tecnolgica IME / 2005

Data mining e Reconhecimento de Padres: Alguns textos da rea, utilizam os termos "data mining" e "pattern recognition" com o mesmo significado, pois ambos se concentram na extrao de informaes ou relacionamentos dos dados. O termo "data mining" originrio principalmente das aplicaes em bases de dados comerciais, enquanto "pattern recognition" foi derivado dos campos de engenharia tais como controle de processos e inspeo de qualidade. Os dois termos tratam essencialmente das mesmas idias, mas representam a nomenclatura desenvolvida em diferentes. Principais Tarefas Em geral, as tarefas do data mining podem ser classificadas em duas categorias: descriptive data mining e predictive data mining. O primeiro descreve o conjunto de dados de uma maneira concisa e resumida e apresenta propriedades gerais interessantes dos dados; o segundo constri um ou um conjunto de modelos, realiza inferncias sobre o conjunto de dados disponveis e tenta predizer o comportamento de novos conjuntos de dados. Um sistema de data mining pode realizar pelo menos uma das seguintes tarefas: 1. Descrio de classes - prov um resumo conciso e sucinto de uma coleo de dados e a distingue de outras. O resumo de uma coleo de dados chamado de caracterizao de classe; enquanto a comparao entre duas ou mais colees de dados chamada comparao ou discriminao de classe. A descrio de classe no s deveria cobrir suas propriedades de resumo tal como a contagem, somas, e clculos de mdias, mas tambm suas propriedades sobre a disperso dos dados, tais como a varincia, desvio padro, quartis, etc. Por exemplo, a descrio de classe pode ser usada para comparar as vendas europias e asiticas de uma companhia, identificar os fatores importantes que discriminam as duas classes e apresentar um resumo conciso. 2. Associao - a descoberta de relaes de associao ou correlaes entre um conjunto de itens. Eles so expressados frequentemente na forma de regras que mostram as condies atributo-valor que acontecem frequentemente juntas em um determinado conjunto de dados. Uma regra de associao da forma X + Y interpretada como "tuplas (conjunto de valores de atributos) de base de dados que satisfazem X so provveis que satisfaam Y". Anlise de associao extensamente usada em "transaction data analysis for directed marketing", design de catlogo e outros processos de decises comerciais. Significativo esforo de pesquisa foi desenvolvido em anlise de associaes com a proposico de algoritmos eficientes, incluindo level-wise", minerao em mltiplos nveis, associaes multidimensionais, minerao de associaes numricas, categricas e de intervalos de dados, minerao baseada em restries alm de minerao de correlaes como Elmasri & Navathe. 3. Classificao - analisa um conjunto de dados de treinamento (i.e., um conjunto de objetos cuja classificao j conhecida) e constri um modelo para cada classe baseado nas caractersticas dos dados. Uma rvore de deciso ou um conjunto de regras de classificao gerado por tal processo de classificao, que pode ser usado para entender melhor cada classe no banco de dados e para classificao de futuros dados. Por exemplo, algum pode classificar doenas e ajudar a prever tipos de doenas baseados nos sintomas dos pacientes. Houveram muitos mtodos de classificao desenvolvidos nos campos de aprendizagem de mquina, estatstica, banco de dados, redes neurais, conjuntos rough sets", e outros. A classificao foi usada em segmentao de clientes, modelagem de negcios e anlise de crdito.

Curso de Inteligncia Tecnolgica IME / 2005

4. Previso - esta funo de minerao prediz os possveis valores de alguns dados perdidos ou a distribuio de valores de certos atributos em um conjunto de objetos. Ela envolve a descoberta de um conjunto de atributos relevantes para o atributo de interesse (e.g., por algumas anlise estatstica) e prediz a distribuio do valor baseada no valor do conjunto de dados semelhantes ao(s) objeto(s) selecionado(s). Por exemplo, o salrio potencial de um empregado pode ser predito baseado na distribuio do salrio de empregados semelhantes na companhia. Usualmente, anlise de regresso, modelo linear generalizado, anlise de correlao e rvores de deciso so ferramentas teis em predio de qualidade. Tambm so usados algoritmos genticos e redes neurais com bastante sucesso. 5. Agrupamento - anlise de "clusters" ou de agrupamento consiste em identificar possveis agrupamentos nos dados, onde um agrupamento uma coleo de objetos que so "semelhantes" um ao outro. Diferentes medidas de similaridade, baseadas em funes de distncia podem ser especificadas para diferentes contextos de aplicao. Um bom mtodo de "cluster" assegura que a similaridade inter-cluster baixa e a similaridade intra-cluster alta. Por exemplo, pode-se agrupar as casas de uma rea de acordo com sua categoria, rea construda e localizao geogrfica. Data mining tm enfocado suas pesquisas em mtodos de "clustering" de alta qualidade para grandes bases de dados e armazm de dados (data warehouse). 6. Anlise de srie temporal - analisa um grande conjunto de dados de sries temporais para encontrar certas regularidades e caractersticas interessantes, incluindo a pesquisa de sequncias ou subsequncias semelhantes e descobrindo assim padres sequenciais, periodicidades, tendncias e divergncias. Por exemplo , pode-se predizer a tendncia dos valores acionrios para uma companhia baseando-se em sua histria acionria, situao empresarial, desempenho dos competidores e mercado atual. H outras tarefas do data mining, como anlise de "outlier". A Identificao de novas tarefas para fazer melhor uso melhor uso dos dados coletados um tpico de pesquisa interessante. Principais Tecnologias usadas em KDD Organizao de dados (data warehousing). Banco de dados distribudos so teis pois frequentemente v-se obrigado a trabalhar com grandes volumes de dados que se encontram distribudos em diferentes plataformas. IA e sistemas especialistas. Redes neurais e seus paradigmas de aprendizado supervisionado e no supervisionado. Principalmente neste segundo caso estas redes se mostram teis por suas caractersticas de identificao de agrupamentos de dados semelhantes, fato dificilmente detectvel sem seu auxlio. Interfaces amigveis incluindo realidade virtual. Sistemas de Informao e KDD A habilidade peculiar do ser humano de juntar e armazenar mais dados do que pode analisar e entender demanda o uso de tcnicas de aquisio, organizao, armazenagem e recuperao de informaes. Figurando como uma destas tcnicas est a utilizao de Sistemas de Informaes (SI). SIs so constitudos de um conjunto de dados com atributos relevantes e disponveis. Os dados de um SI so provindos de uma fonte de dados e armazenados em uma memria no voltil (permanente). Utilizam regras para combinar estes dados em informaes sumarizadas e vises sobre os dados manipulados.

Curso de Inteligncia Tecnolgica IME / 2005

A extrao de conhecimentos em bases de dados (KDD) consiste na seleo e processamento de dados com a finalidade de identificar novos padres, dar maior preciso em padres conhecidos e modelar fenmenos do mundo real, utilizando-se de, entre outras tcnicas, minerao de dados (data mining). SIs e KDD so tpicos intimamente ligados, visto que sistemas de informao permitem o armazenamento, recuperao e organizao de grandes volumes de dados e as tcnicas de extrao de conhecimento em bases de dados obtm melhores resultados quando aplicados a massivos repositrios de dados. Exemplos Aplicao Nesta seo sero mencionados alguns exemplos de sucesso onde foram aplicadas tcnicas de data mining. Wal- Mart Embora recente, a histria do data mining j tem casos bem conhecidos. O mais divulgado o da cadeia americana Wal-Mart, que identificou um hbito curioso dos consumidores. H cinco anos, ao procurar eventuais relaes entre o volume de vendas e os dias da semana, o software de data mining apontou que, s Sextas-feiras, as vendas de cervejas cresciam na mesma proporo que as de fraldas. Crianas bebendo cerveja? No, uma investigao mais detalhada revelou que, ao comprar fraldas para seus bebs, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana. Bank of America H quem consiga detectar fraudes, cortar gastos ou aumentar a receita da empresa. O Bank of America usou essas tcnicas para selecionar entre seus 36 milhes de clientes aqueles com menor risco de dar calote num emprstimo. A partir desses relatrios, enviou cartas oferecendo linhas de crdito para os correntistas cujos filhos tivessem entre 18 e 21 anos e, portanto, precisassem de dinheiro para ajudar os filhos a comprar o prprio carro, uma casa ou arcar com os gastos da faculdade. Resultado : em trs anos, o banco lucrou 30 milhes de dlares. Telecomunicaes Atualmente, em telecomunicaes, existe uma exploso nos crimes contra a telefonia celular, dentre os quais, a clonagem. Tcnicas de data mining podem ser utilizadas para detectar hbitos dos usurios de celulares. Quando um telefonema for feito e considerado pelo sistema como uma excesso, o programa faz uma chamada para confirmar se foi ou no uma tentativa de fraude. Administrao em Alto Nvel Depois do final da segunda guerra mundial a Pesquisa Operacional (P0) apareceu como ferramenta fundamental para a vitria das tropas contra as potncias do eixo. Com a pesquisa operacional foi possvel resolver matematicamente o problema de alocao tima de recursos e isto vem sendo utilizado com grande sucesso em altos nveis de deciso at o presente momento. Cerca de cinquenta anos depois, apareceu o data mining. Suas potencialidades esto longe de serem imaginadas e no seria ousado esperar que no mundo globalizado possa vir a dar seus frutos como a PO deu no passado. Medicina Atualmente as tcnicas de data mining so pouco usadas em medicina. No momento, o ponto que est emperrando o uso de data mining o fato de que data mining sendo uma nova concepo dirigida para pesquisa ainda quase completamente desconhecida da comunidade mdica. Ora, se existem dados clnicos abundantes, estes dados so frequentemente adequados a um estudo de data mining por no conterem dados que aparentemente so inteis mas que so exatamente os que o pesquisador de data mining procura.

Curso de Inteligncia Tecnolgica IME / 2005

Vestibular PUC-RJ Utilizando as tcnicas de data mining, um programa de obteno de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato do sexo feminino, trabalha e teve aprovao com boas notas, ento no efetiva matrcula. Estranho, ningum havia pensado nisso... mas uma reflexo justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha porque precisa, e neste caso deve ter feito inscrio para ingressar na universidade pblica gratuita. Se teve boas notas provavelmente foi aprovada na universidade pblica onde efetivar matrcula. Claro que h excees: pessoas que moram em frente PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razes que ter uma profisso, etc. Mas a grande maioria obedece regra anunciada!

Curso de Inteligncia Tecnolgica IME / 2005