Você está na página 1de 16

FACULDADES NDA FACNET BACHARELADO EM SISTEMA DE INFORMAO SISTEMAS DISTRIUDOS PROFESSOR: GUSTAVO TURMA: E6

Lorena Mendona Tavares Vernica Pereira da Silva Vincius Magno Muniz Luiz Carlos Santana Paulo Tadeu Peres

DATA MINING

Braslia 2005

APRESENTAO

Atualmente, as organizaes tm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operaes dirias ou pesquisas cientficas, porm, ainda no usam adequadamente essa gigantesca montanha de dados para transform-la em conhecimentos que possam ser utilizados em suas prprias atividades, sejam elas comerciais ou cientficas. A rpida taxa de inovao nas tecnologias de informtica est exigindo que, cada vez mais, os profissionais estejam preparados e atualizados para conhecer e enfrentar os desafios da Tecnologia da Informao. O conceito de Data Mining est se tornando cada vez mais popular como uma ferramenta de gerenciamento de informao, que deve revelar estruturas de conhecimento, que possam guiar decises em condies de certeza limitada. Recentemente, tem havido um interesse crescente em desenvolver novas tcnicas analticas, especialmente projetadas para tratar questes relativas a Data Mining. No entanto, Data Mining ainda est baseado em princpios conceituais de Anlise de Dados Exploratrios e de modelagem.

OBJETIVO

Apresentar o conceito, as principais funcionalidades, tcnicas e ferramentas utilizados em Data Mining. Mostrar como essa tecnologia pode ajudar a extrair informaes valiosas de grandes bases de dados e auxiliar no processo de tomada de deciso. Demonstrar exemplos prticos que usando o processo de minerao de dados (Data Mining) de grandes bases foi capaz de levantar informaes relevantes ao nvel gerencial e a partir desta adiquirir a sabedoria/intelignica.

NDICE

INTRODUO 1 Conceito de Data Mining 2 Os Passos do Data Mining 3 Nveis de Abstrao 4 Localizando Padres 5 Exemplo Prtico 5.1 Induo Orientada a Atributos 6 Outras Tcnicas 6.1 Regras Caracterizadoras 6.2 Regras Discriminantes 6.3 Regras Associativas 6.4 Regras de Evoluo Temporal 7 Algumas Aplicaes 7.1 Wal-Mart 7.2 Bank of America 7.3 Telecomunicaes 7.4 Administrao em Alto Nvel 7.5 Medicina 7.6 Vestibular PUC-RJ 7.7 Governo 7.8 Comrcio CONCLUSO BIBLIOGRAFIA ANEXO I

6 7 7 8 9 10 11 11 12 12 12 13 13 13 13 13 14 14 14 14 14 16 17 18

INTRODUO

Data Mining ou Minerao de Dados consiste em um processo analtico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negcios, mercado ou pesquisas cientficas), na busca de padres consistentes e/ou relacionamentos sistemticos entre variveis e, ento, valid-los aplicando os padres detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: explorao, construo de modelo ou definio do padro e validao/verificao. Data Mining parte de um processo maior de conhecimento denominado Knowledge Discovery in Database KDD (Descoberta de Conhecimento em Bases de Dados). Ele consiste, fundamentalmente, na estruturao do banco de dados; na seleo, preparao e pr-processamento dos dados; na transformao, adequao e reduo da dimensionalidade dos dados; no processo de Data Mining; e nas anlises, assimilaes, interpretaes e uso do conhecimento extrado do banco de dados, atravs do processo de Data Mining. Talvez a definio mais importante de Data Mining tenha sido elaborada por Usama Fayyad: "...o processo no-trivial de identificar, em dados, padres vlidos, novos, potencialmente teis e ultimamente compreensveis" (Fayyad et al. 1996)

1 Conceito de Data Mining

O grande volume de dados disponveis cresce a cada dia e desafia a nossa capacidade de armazenamento, seleo e uso. Esta tecnologia com suas ferramentas permitem a "minerao" destes dados a fim de gerar um real valor do dado transformando-o em informao e conhecimento. Esta tecnologia formada por um conjunto de ferramentas que atravs do uso de algoritmos de aprendizado ou baseados em redes neurais e estatstica, so capazes de explorar um grande conjunto de dados, extraindo destes conhecimento na forma de hipteses e de regras. Diariamente as empresas acumulam diversos dados em seus bancos de dados, tornando-os verdadeiros tesouros de informao sobre os vrios processos e procedimentos das funes da empresa, inclusive com dados e hbitos de seus clientes, suas histrias de sucesso e fracassos. Todos estes dados podem contribuir com a empresa, sugerindo tendncias e particularidades pertinentes a ela e seu meio ambiente interno e externo, visando uma rpida ao de seus gestores. Com a gerao de informaes e conhecimentos teis para as empresas, os seus negcios podem dar mais lucratividade para as mesmas. Os recursos da Tecnologia da Informao, mais precisamente a capacidade do hardware e software disponveis podem efetuar atividades em horas, o que tradicionalmente as pessoas levariam meses. Efetivamente o DM cumpre o papel de descoberta de conhecimentos. Os sistemas tradicionais de processamento de transaes on-line (OLTP) das empresas so ferramentas capazes de manipular dados de forma rpida, segura e efetiva em bancos de dados, mas que apresentam restries para gerar informaes com anlises significativas. Estas restries so melhores trabalhadas quando as empresas se utilizam da tecnologia de DM aliada outras tecnologias, tais como, Knowledge Discovery in Databases (KDD), Database Marketing e Inteligncia de Negcios (business intelligence). A tecnologia Data Mining e seus recursos pode ser aplicada no funcionamento dos modelos de Sistemas de Informao Executivos, principalmente nos Sistemas de Informao Gerencial (SIG) e Estratgicos (SIE).

2 Os Passos do Data Mining Os passos fundamentais de uma minerao bem sucedida a partir de fontes de dados (bancos de dados, relatrios, logs de acesso, transaes, etc) efetua-se uma limpeza (consistncia, preenchimento de informaes, remoo de rudo e redundncias, etc). Disto nascem os repositrios organizados (Data Marts e Data Warehouses), que j so teis de diversas maneiras. Veja na figura 01 o processo de descoberta do conhecimento a partir de uma aplicao de Data Mining.

FIGURA 01: Processo de Descoberta do Conhecimento em Base de Dados

Origem da figura: Site http://www.intelliwise.com/reports/i2002.htm

Mas a partir deles que se pode selecionar algumas colunas para atravessarem o processo de minerao. Tipicamente, este processo no o final da histria: de forma interativa e frequentemente usando visualizao grfica, um analista refina e conduz o processo at que valiosos padres apaream. Observe que todo esse processo parece indicar uma hierarquia, algo que comea em instncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso. Este um conceito importante. Encontrar padres requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que especfico e privilegiar aquilo que genrico. Faz-se isso porque no parece haver muito conhecimento a extrair de eventos isolados. Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma nica data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento. Mas isso provavelmente no indica nenhuma tendncia de mercado. Em outras palavras, no h como explorar essa informao em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genrico que isto pode ser obtido. Por essa razo devemos, em Data Mining, controlar nossa vontade de "no perder dados". Para que o processo d certo, necessrio sim desprezar os eventos particulares para s manter aquilo que genrico.

3 Nveis de Abstrao Assim como um organismo vivo, as empresas recebem informao do meio ambiente e tambm atuam sobre ele. Durante essas atividades, necessrio distinguir vrios nveis de informao. A figura 02 apresenta a tradicional pirmide da informao, 9

onde se pode notar o natural aumento de abstrao conforme subimos de nvel.

FIGURA 02: Pirmide da Informao

Origem da figura: Site http://www.intelliwise.com/reports/i2002.htm

Traduzido para uma empresa atual, esse a pirmide da informao pode ser apresentada como na figura 03 abaixo. O fundamental a se perceber neste diagrama a sensvel reduo de volume que ocorre cada vez que subimos de nvel. Essa reduo de volume uma natural conseqncia do processo de abstrao.

FIGURA 03: Refinamento dos dados na tomada de deciso

Origem da figura: Site http://www.intelliwise.com/reports/i2002.htm

10

Abstrair, no sentido que usamos aqui, representar uma informao atravs de correspondentes simblicos e genricos. Este ponto importante: como acabamos de ver, para ser genrico, necessrio "perder" um pouco dos dados, para s conservar a essncia da informao. O processo de Data Mining localiza padres atravs da judiciosa aplicao de processos de generalizao, algo que conhecido como induo.

4 Localizando Padres Padres so unidades de informao que se repetem, ou ento so seqncias de informaes que dispe de uma estrutura que se repete. A tarefa de localizar padres no privilgio do Data Mining. Nosso crebro utiliza-se de processos similares, pois muito do conhecimento que temos em nossa mente , de certa forma, um processo que depende da localizao de padres. Por essa razo, muito do que se estuda sobre o crebro humano tambm pode nos auxiliar a entender o que deve ser feito para localizar padres. Mas o que mesmo localizar padres? O que induo? Para exemplificar esses conceitos, proponho um breve exerccio de uma induo de regras abstratas. Nosso objetivo tentar obter alguma expresso genrica para a seguinte seqncia: Seqncia original: ABCXYABCZKABDKCABCTUABEWLABCWO Observe atentamente essa seqncia de letras e tente encontrar alguma coisa relevante. Veja algumas possibilidades: Passo 1: A primeira etapa perceber que existe uma seqncia de letras que se repete bastante. Encontramos as seqncias "AB" e "ABC" e observamos que elas ocorrem com freqncia superior das outras seqncias. Passo 2: Aps determinarmos as seqncias "ABC" e "AB", verificamos que elas segmentam o padro original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Passo 3: Fazem-se agora indues, que geram algumas representaes genricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???", onde '?' representa qualquer letra No final desse processo, toda a seqncia original foi substituda por regras genricas indutivas que simplificou (reduziu) a informao original a algumas expresses simples. Esta explicao um dos pontos essenciais do Data Mining, como se pode fazer para extrair certos padres de dados brutos. Contudo, mais importante do que simplesmente obter essa reduo (compresso) de informao, esse processo nos permite gerar formas de predizer futuras ocorrncias de padres. Este exatamente o ponto onde este processo comea a mostrar o seu valor. 11

5 Exemplo Prtico Existem muitas tcnicas utilizadas pelo Data Mining, muitas delas desenvolvidas na disciplina Aprendizado de Mquina (Machine Learning, veja, por exemplo, Mitchell 1997). Vamos observar aqui apenas um pequeno exemplo prtico do que podemos utilizar com as expresses abstratas genricas que obtivemos. Uma dessas expresses nos diz que toda vez que encontramos a seqncia "AB", podemos inferir que iremos encontrar mais trs caracteres e isto completaria um "padro". Nesta forma abstrata ainda pode ficar difcil de perceber a relevncia deste resultado. Por isso vamos usar uma representao mais prxima da realidade. Imagine que a letra 'A' esteja representando um item qualquer de um registro comercial. Por exemplo, a letra 'A' poderia significar "aquisio de po" em uma transao de supermercado. A letra 'B' poderia, por exemplo, significar "aquisio de leite". A letra 'C' um indicador de que o leite que foi adquirido do tipo desnatado. interessante notar que a obteno de uma regra com as letras "AB" quer dizer, na prtica, que toda vez que algum comprou po, tambm comprou leite. Esses dois atributos esto associados e isto foi revelado pelo processo de descoberta de padres. Esta associao j nos far pensar em colocar "leite" e "po" mais prximos um do outro no supermercado, pois assim estaramos facilitando a aquisio conjunta desses dois produtos. Mas a coisa pode ir alm disso, bastando continuar nossa explorao da induo.

5.1 Induo Orientada a Atributos Suponha que a letra X queira dizer "manteiga sem sal", e a letra 'Z' signifique "manteiga com sal". A letra 'T' poderia significar "margarina". Parece que poderamos tentar unificar todas essas letras atravs de um nico conceito, uma idia que resuma uma caracterstica essencial de todos esses itens. Introduzimos a letra 'V', que significaria "manteiga/margarina", ou "coisas que passamos no po". Fizemos uma induo orientada a atributos, substitumos uma srie de valores distintos (mas similares) por um nome s. Ao fazer isso estamos perdendo um pouco das caractersticas dos dados originais. Aps essa transformao, j no sabemos mais o que manteiga e o que margarina. Essa perda de informao fundamental na induo e um dos fatores que permite o aparecimento de padres mais gerais. Qual a vantagem de assim proceder? Basta codificar a seqncia original substituindo a letra V em todos os lugares devidos. Assim fica essa seqncia transformada: ABCVYABCVKABDKCABCVUABEWLABCVO Daqui, o sistema de Data Mining ir extrair, entre outras coisas, a expresso "ABCV", que ir revelar algo muito interessante: A maioria dos usurios que adquiriram po e leite desnatado tambm adquiriram 12

manteiga ou margarina. De posse desta regra, fica fcil imaginar uma disposio nas prateleiras do supermercado para incentivar ainda mais este hbito. Em linguagem mais lgica, pode-se dizer que po e leite esto associados (implicam) na aquisio de manteiga: Po, Leite Manteiga O lado da esquerda desta expresso (Po, Leite) chamado de Antecedente, e o lado da direita de Conseqente.

6 Outras Tcnicas Introduzimos os exemplos anteriores apenas para dar uma idia do tipo de pensamento que est por trs da minerao de dados. Faz-se certas indues e descobre-se alguns padres. Vamos agora ver algumas outras tcnicas que se utilizam de princpios similares.

6.1 Regras Caracterizadoras Obtm-se regras que caracterizam um conceito satisfeito por todos (ou pela maioria) dos exemplos disponveis. Assim, possvel descobrir formas de sumarizar certas caractersticas que podem revelar padres nos dados. Exemplos: a. Sintomas de uma doena especfica podem ser sumarizados por uma regra caracterizadora b. Gerao de regras que caracterizem quais os estudantes de graduao que se decidiram por prosseguir com uma carreira acadmica (MBA, doutorado).

6.2 Regras Discriminantes Neste caso, o que se almeja obter regras que discriminem (separem) um conceito alvo em relao a outros conceitos (classes contrastantes). Exemplo: a. Para distinguir uma doena, procura-se por regras que sumarizem as caractersticas que separam esta doena das outras. b. Tenta-se achar as regras que discriminem uma loja bem sucedida de vrias outras no to bem sucedidas.

6.3 Regras Associativas Nesta procura-se estabelecer regras que interliguem um conceito a outro. A utilidade deste procedimento muito grande, conforme pode ser visto nos exemplos abaixo: 13

a. Achar todas as regras que tenham "coca-cola diettica" como conseqentes. Isto ir auxiliar no planejamento de lojas para vender melhor este produto (privilegiamse os antecedentes dessas regras). b. Achar todas as regras que tenham "iogurte" no antecedente. Isto ir auxiliar na determinao do impacto nas receitas, caso este produto seja retirado das prateleiras. c. Achar todas as regras com "salsicha" no antecedente e "mostarda" no conseqente. Isto ir auxiliar na obteno de melhores regras para determinar quais os itens que devem ser vendidos em conjunto com salsichas para aumentar as vendas de mostarda.

6.4 Regras de Evoluo Temporal Aqui a preocupao detectar associaes entre itens ao longo do tempo. Descobre-se padres de compras aps um evento inicial de aquisio. Exemplos: a. Consumidor comprou um PC hoje, ir comprar um DVD-ROM em 6 meses. Isto permite que se faa uma oferta desse produto a todos os que esto nesta situao. b. Um consumidor adquiriu um videocassete, em 4 meses ter muita probabilidade de comprar uma camcorder. Faz-se uma promoo especial para estes clientes.

7 Algumas Aplicaes

7.1 Wal-Mart Embora recente, a histria do data mining j tem casos bem conhecidos. O mais divulgado o da cadeia americana Wal-Mart, que identificou um hbito curioso dos consumidores. H cinco anos, ao procurar eventuais relaes entre o volume de vendas e os dias da semana, o software de data mining apontou que, s Sextas-feiras, as vendas de cervejas cresciam na mesma proporo que as de fraldas. Crianas bebendo cerveja? No, uma investigao mais detalhada revelou que, ao comprar fraldas para seus bebs, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana.

7.2 Bank of America H quem consiga detectar fraudes, cortar gastos ou aumentar a receita da empresa. O Bank of America usou essas tcnicas para selecionar entre seus 36 milhes de clientes aqueles com menor risco de dar calote num emprstimo. A partir desses relatrios, enviou cartas oferecendo linhas de crdito para os correntistas cujos filhos tivessem entre 18 e 21 anos e, portanto, precisassem de dinheiro para ajudar os filhos a comprar o prprio carro, uma casa ou arcar com os gastos da faculdade. Resultado: em trs anos, o banco lucrou 30 milhes de dlares. 14

7.3 Telecomunicaes Atualmente, em telecomunicaes, existe uma exploso nos crimes contra a telefonia celular, dentre os quais, a clonagem. Tcnicas de data mining podem ser utilizadas para detectar hbitos dos usurios de celulares. Quando um telefonema for feito e considerado pelo sistema como uma excesso, o programa faz uma chamada para confirmar se foi ou no uma tentativa de fraude.

7.4 Administrao em Alto Nvel Depois do final da segunda guerra mundial a Pesquisa Operacional (P0) apareceu como ferramenta fundamental para a vitria das tropas contra as potncias do eixo. Com a pesquisa operacional foi possvel resolver matematicamente o problema de alocao tima de recursos e isto vem sendo utilizado com grande sucesso em altos nveis de deciso at o presente momento. Cerca de cinqenta anos depois, apareceu o data mining. Suas potencialidades esto longe de serem imaginadas e no seria ousado esperar que no mundo globalizado possa vir a dar seus frutos como a PO deu no passado.

7.5 Medicina Atualmente as tcnicas de data mining so pouco usadas em medicina. No momento, o ponto que est emperrando o uso de data mining o fato de que data mining, sendo uma nova concepo dirigida para pesquisa ainda quase completamente desconhecida da comunidade mdica. Ora, se existem dados clnicos abundantes, estes dados so frequentemente adequados a um estudo de data mining por no conterem dados que aparentemente so inteis mas que so exatamente os que o pesquisador de data mining procura.

7.6 Vestibular PUC-RJ Utilizando as tcnicas de data mining, um programa de obteno de conhecimento depois de examinar milhares de alunos forneceu a seguinte regra: se o candidato do sexo feminino, trabalha e teve aprovao com boas notas, ento no efetiva matrcula. Estranho, ningum havia pensado nisso... mas uma reflexo justifica a regra oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma mulher em idade de vestibular, se trabalha porque precisa, e neste caso deve ter feito inscrio para ingressar na universidade pblica gratuita. Se teve boas notas provavelmente foi aprovada na universidade pblica onde efetivar matrcula. Claro que h excees: pessoas que moram em frente PUC, pessoas mais velhas, de alto poder aquisitivo e que voltaram a estudar por outras razes que ter uma profisso, etc. Mas a grande maioria obedece regra anunciada!

15

7.7 Governo O governo dos EUA se utiliza do data mining j h bastante tempo para identificar padres de transferncias de fundos internacionais que se parecem com lavagem de dinheiro do narcotrfico. Data mining usado para identificar fraudes.

7.8 Comrcio Supermercados apresentam ofertas aos clientes que se cadastram, fornecendo informaes importantes sobre suas vidas financeiras e preferncias. A partir de ento, esses dados so cruzados com suas compras ms a ms e as informaes sobre compras casadas e nvel de consumo so utilizadas para organizar as prateleiras de melhor forma a propiciar compras casadas, alm de oferecer brindes e descontos personalizados. Esses supermercados vendem suas informaes para que outras empresas faam propaganda e ofertas apropriadas paras os clientes cujos dados foram minerados. Com dados de clientes, possvel definir hbitos de consumo e prever necessidades de outras classes sociais em outras cidades (community knowledge). Por exemplo, podemos realizar uma pesquisa como perguntar ao cliente que tipo de filmes e msicas ele gosta e, baseado nesses dados, extrapolar e classific-lo em certa categoria de consumo e preferncia. A partir da, ofertas podem ser dirigidas a ele, pois seu perfil est enquadrado pelo data mining. Vendas cruzadas podem ser realizadas com facilidade se um banco de dados com informaes sobre o passado do cliente existir. Sabendo das necessidades e gostos do cliente, novos produtos podem ser oferecidos pela empresa, mantendo a fidelidade do cliente que no precisa ir buscar o produto em outro local. Devido a competio empresarial, clientes mudam de empresa com facilidade. O data mining pode ser usado para verificar por que os clientes trocam um empresa por outra e oferecer servios, vantagens e ofertas que evitam essa fuga de clientes. Com o data mining, pode-se localizar que oferta fazer a que cliente para mant-lo na empresa, ou mesmo localizar os clientes que podem sair da empresa sem representar prejuzo.

16

CONCLUSO

O principal objetivo desse trabalho foi expor o conceito de Data Mining e o que ele pode oferecer as empresas na tomada de deciso. importante notar que em praticamente todos esses casos o que se deseja descobrir padres em volumes de dados e ressaltar que o Data Mining no o final da atividade de descoberta de conhecimentos, mas to somente o incio. imprescindvel dispor de analistas capacitados que saibam interagir com os sistemas de forma a conduzi-los para uma extrao de padres teis e relevantes.

17

BIBLIOGRAFIA

Fayyad, U.M.,G.Piatetsky-Shapiro,P.Smyth.Knowledge Discovery and Data Mining: Towards a Unifying Framework. Proceeding of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), Portland, Oregon, august, 1996. Mitchell, Tom (1997) Machine Learning. New York: McGraw-Hill. Series in Computer Science, 1997. 414p. Machado, Srgio Jurandyr. Data Mining e os Limites da Contabilidade Pblica Gerencial. Braslia: ESAF, 2002. 42 p. Monografia no premiada, apresentada no VII Prmio Tesouro Nacional - 2002, Tributao, Oramentos e Sistemas de Informao sobre a Administrao Financeira Pblica. Disponvel em: <http://www.stn.fazenda.gov.br/Premio_TN/VIIPremio/catalogo.htm#sergio_machado>. Acessado em 11/11/2005. Data Mining, Inteligncia Artificial e Data Mining. Disponvel <http://www.utp.br/informacao/si/si_intelig%C3%AAncia%20artificial%20e%20data %20mining.htm>. Acessado em 11/11/2005. em:

Navega, Srgio - Princpios Essenciais do Data Mining, Publicado nos Anais do Infoimagem 2002, Cenadem Novembro 2002. Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acessado em 11/11/2005. Souza, Michel - Colunista semanal. Artigo: Data Mining de, quinta-feira, 30 de outubro de 2003. Disponvel em: <http://www.imasters.com.br/artigo.php?cn=1482&cc=59>. Acessado em 11/11/2005. Entrevista exclusiva com Alessandro Zanasi. Disponvel <http://www.planeta.coppe.ufrj.br/artigo.php?artigo=363>. Acessado em 11/11/2005. em:

OLIVEIRA, Aracele Garcia de e GARCIA, Denise Ferreira - Minerao da Base de Dados de um Processo Seletivo Universitrio, UNIFOR/MG Centro Universitrio de Formiga, ICSAE - Instituto de Cincias Sociais Aplicadas e Exatas, Formiga MG 6p. Disponvel em: <www.dcc.ufla.br/infocomp/artigos/v3.2/art07.pdf>. Acessado em: 11/11/2005. CARVALHO, Lus Alfredo Vidal de Data Mining Ed. Cincia Moderna RJ 2005 GOLDSCHIMIDT, Ronaldo Data Mining: Um Guia Prtico Ed. Campus

18

Você também pode gostar