Você está na página 1de 42

DATA MINING

Disciplina Banco de Dados 1998 Alunos Fernando Silvera Goulart Jnior - fsgj@di.ufpe.br Robson do Nascimento Fidalgo - rdnf@di.ufpe.br Orientadores Ana Carolina Salgado - acs@di.ufpe.br Fernando Fonseca - fdfd@di.ufpe.br

Tpicos da Apresentao
Introduo Background Funes Processo Uma arquitetura Tcnicas Exemplos Referncias
2

Introduo
Motivaes
Grande disponibilidade de dados armazenados eletronicamente Existem informaes teis, invisveis, nesses grandes volumes de dados Aproveitar para prever um conhecimento futuro (ir alm do armazenamento explcito de dados).
[01] Queens University - Belfast

Introduo
O que Data mining:
Data mining (minerao de dados), o processo de extrao de conhecimento de grandes bases de dados, convencionais ou no. Utiliza tcnicas de inteligncia artificial que procuram relaes de similaridade ou discordncia entre dados. Seu objetivo encontrar, automaticamente, padres, anomalias e regras com o propsito de transformar dados, aparentemente ocultos, em informaes teis para a tomada de deciso e/ou avaliao de resultados.
Fernando S. Goulart Jnior & Robson do Nascimento Fidalgo (1998)

Introduo
Exemplo:
Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Mdio Johnson CA Los Angeles Vermelho Mdio

Concluses: Produtos azuis so de alto lucro ou Arizona um lucro baixo

Introduo
Uma empresa utilizando mining capaz de:
comportamento do consumidor; Identificar afinidades entre as escolhas de produtos e servios; Prever hbitos de compras; Analisar comportamentos habituais para detectar fraudes.

data

Criar parmetros para entender o

[09] - Dissertao - UERJ (1997)


6

Introduo
Data mining X Data warehouse: Data mining extrao inteligente de dados; Data warehouse repositrio centralizado de dados; Data mining no uma evoluo do Data warehouse; Data mining no depende do Data warehouse, mas obtm-se melhores resultados quando aplicados em conjunto; Cada empresa deve saber escolher qual das tcnicas importante para o seu negcio. (Uma, outra ou as duas); Data Warehouse aliado a ferramentas estatsticas desempenham papel semelhante ao data mining, mas no descobrem novos padres de comportamento. (a no ser empiricamente).
7

Introduo
Evoluo at o data mining
Evoluo Coleo de dados 1960 Acessos aos dados 1980 Data warehousing & suporte a deciso 1990 Data Mining Atualmente Perguntas Qual foi meu rendimento total nos ltimos cinco anos ? Qual foi meu rendimento no Brasil no ltimo janeiro ? Qual foi meu rendimento no Brasil no ltimo janeiro? Do sul at o nordeste Porque alguns produtos so mais vendidos na regio sul ? Tecnologia disponvel Computadores, Fitas, discos RDBMS, SQL, ODBC Processamento analtico on-line, banco de dados multidimencionais, data warehousing Algoritmos avanados, computadores multiprocessados, B.D. grandes e poderosos Caractersticas Retrospectiva, Dados estticos como resposta Restropectiva, dados dinmicos a nvel de registos como resposta Retrospectiva, dados dinmicos em mltiplos nveis como resposta Prospectivo, Informaes (perspectivas) como resposta.
8

O Background para data mining


Como fazer Data Mining ? Aprendizagem computacional (Machine-learning)
Automao do processo de aprendizagem, atravs da construo de regras baseadas em observaes dos estados e transaes do ambiente. Examina os exemplos e seus resultados e aprende como reproduzi-los e como fazer generalizaes sobre novos casos

O Background para data mining


Aprendizagem indutiva:
Faz anlise nos dados para encontrar padres Agrupa objetos similares em classes Formula regras Aprendizagem supervisionada (A.S.)
Aprende baseando-se em exemplos (professor ajuda a construir um modelo def. classes e fornecendo exemplos de cada classe formular a descrio e a forma da classe) Ex. Classificao de madeiras

Aprendizagem no supervisionada (A..S.)


Aprende baseando-se em observaes e descobertas (no se def. classes, deve-se observar os exemplos e reconhecer os padres por si s uma descrio de classes para cada ambiente). Ex. Classificao de madeiras 10

O Background para data mining


Modelo de verificao (Aprendizagem supervisionada)
Aprende baseando-se em exemplos pr-classificados (+/-) Objetivo: formular descries consistentes e gerais de classes em funo de seus atributos.
Ex.: Cartes de credito

OK +

Inadimplente -

HIPOTESES

11

O Background para data mining


Modelo de descoberta (Aprendizagem supervisionada)
Aprende baseando-se em observaes e descobertas; Descoberta automtica de informaes ocultas; Procura ocorrncias de padres, tendncias e generalizaes sobre os dados sem a interveno do usurio; Agrupar elementos similares, Como agrupar os alunos da disciplina ?

12

Funes do data mining


Modelo de classificao :
Atributos + significativos def. um classe O usurio define as atributos para cada classe (A.S.) Aplica regras para criar modelos de aes futuras
Ex: Clientes com bom crdito podem dever mais 10%

Associao:
Procura registos que tenham similaridades associativas Podem ser expressados por regras
Ex: 62% dos compradores de guaran compram pipoca 62% fator de confiana 62% L R LHS (left hand side) H H RHS (right hand side)

... ...

S G+P Guaran

S Pipoca

13

Funes do data mining


Padres temporais/seqenciais :
Analisa registros num perodo de tempo, procurando encontrar padres (eventos/compras) de comportamento. Identificar o perfil do cliente Identificar padres que precedem outros padres
Ex: Mala direta personalizada, Campanhas promocionais ..

Segmentao/agrupamento:
Segmenta a base de dados em grupos por suas similaridade e diferenas O sistema tem que descobrir por si prprio as similaridade e diferenas ( A..S.)
Ex: Clientes de bom crdito e clientes de mau crdito

14

O Processo Data Mining


Fases / Etapas.
Seleo. Pr-processamento. Transformao. Data mining. Interpretao e Avaliao.

15

O Processo Data Mining


Seleo
Selecionar ou segmentar dados de acordo com critrios definidos:
Ex.: Todas as pessoas que so proprietrias de carros um subconjunto de dados determinado.

Pr-processamento
Estgio de limpeza dos dados, onde informaes julgadas desnecessrias so removidas.
Ex. :O sexo de um paciente gestante

Reconfigurao dos dados para assegurar formatos consistentes (identificao)


Ex. : sexo = F ou M sexo = M ou H
16

O Processo Data Mining


Transformao Transforma-se os dados em formatos utilizveis. Esta
depende da tcnica data mining usada.

Ex: rede neural converter valor literal em valor numrico Disponibilizar os dados de maneira usvel e navegvel. Data mining

a verdadeira extrao dos padres de comportamento


dos dados Utilizando a definio de fatos, medidas de padres, estados e o relacionamento entre eles.

17

O Processo Data Mining


Interpretao e Avaliao
Identificado os padres pelo sistema, estes so
interpretados em conhecimentos, os quais daro suporte a tomada de decises humanas
Ex.: Tarefas de previses e classificaes
Interpretao e avaliao Data mining

Graficamente temos:
Transformao
Pr-processamento

Seleo Conhecimento Padres Dados transformados


18

Dados

1os. dados

Dados pr-processados

Uma arquitetura data mining


1 Data warehouse com dados pertinentes ao negcio; 2 Servidor OLAP permitindo ao usurio analisar os dados do D.W. de forma mais produtiva ; 3 Integrar o D.W. e o OLAP com o D.M. (permitir decises oper.) 4 Modelos de metadados definidos pelo data mining 3o. passo 4o. passo Resultados

1o. passo

2o. passo
19

Tpicos da Apresentao
Introduo Background Tarefas Processo Uma arquitetura Tcnicas Exemplos Referncias
20

Tcnicas
Reviso geral de Aprendizagem:
Aprendizagem

Simblica

No Simblica

Estatstica

Indutiva

CBR

Alg.Genticos

Rede Neural

Lgica

ID3

21

Tcnicas
Induo
Regras indutivas (rule induction)
Regra indutiva o processo de olhar uma srie de dados e, a partir dela, gerar padres. Pode-se trabalhar com dados numricos ou no Pelo fato de explorar uma srie de dados, o sistema indutivo cria hipteses que conduzem a padres Ex.: Analisada as idades de profissionais foi gerada a seguinte regra: Se profisso = atleta ENTO idade < 30

Regras cobertas comportamentos estveis Regras inexatas margem de preciso fixada (%)
22

Tcnicas
Induo:
Regras indutivas (graficamente temos)

23

Tcnicas
rvores de deciso: (ID3) - 1o Exemplo
Representaes simples do conhecimento Utilizao de regras condicionais A partir de um conjunto de valores decide SIM ou NO Mais rpida e mais compreensvel que redes neurais Exemplo: Sair ou no de acordo com o tempo

Tempo
Nublado Umidade Alta Normal Ensolarado

Predicado objetivo: Sair ou No Sair Chuvoso Muito vento Sim No

Sair

Sair

Sair

Sair

Sair

24

Tcnicas
rvores de deciso: (ID3) - 2o Exemplo

Classificao de um indivduo com risco de ter ou no crdito Renda > R$ 4.000,00


SIM NO

Predicado objetivo: Crdito ou No

Dvida < 10% da renda ?


SIM NO NO

Dvida = 0%
SIM

Risco de ter crdito Risco de no ter crdito Risco de ter crdito

Nesta rvore de decises, regras so induzidas nos padres dos dados e cria-se uma hierarquia de indicaes se-ento.
25

Tcnicas
Redes Neurais:
uma abordagem computacional que envolve desenvolvimento de estruturas matemticas com a habilidade de aprender. (modelo do sistema nervoso para aprender) Estruturalmente, uma rede neural consiste em um nmero de elementos interconectados (chamados neurnios/ns), que possuem entrada, sada e processamento. So organizados em camadas que aprendem pela modificao da conexo. Arquitetura:

26

Tcnicas
Redes Neurais:
Para construir um modelo neural, ns primeiramente "adestramos" a rede em um dataset de treinamento e ento usamos a rede j treinada para fazer predies. Problemas:
No retorna informao a priori No pode ser treinada em uma grande base de dados Entrada no pode ser dados alfa-numricos (mapear para numrico) Nenhuma explanao dos dados fornecida (caixa preta)

27

Tcnicas
Redes Neurais:
Exemplo prtico: risco de cncer

Data mining - Clementine User Guide

28

Tcnicas
Redes Neurais: - 2o Exemplo
RENDA DBITO IDADE REG. DE PAGAMENTO

Nvel de entrada

Nvel oculto Risco de ter crdito Risco de no ter crdito

Nvel de sada

As redes neurais usam seus dados de entrada. Atribui pesos nas coneces entre os atributos (neurnios). E obtm um resultado (risco de ter ou no crdito) no nvel de sada.

29

Exemplos
reas de aplicaes potenciais:
Vendas e Marketing
Identificar padres de comportamento de consumidores Associar comportamentos caractersticas demogrficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores leais

30

Exemplos
reas de aplicaes potenciais:

Bancos
Identificar padres de fraudes (cartes de crdito) Identificar caractersticas de correntistas Mercado Financeiro ($$$)

31

Exemplos
reas de aplicaes potenciais (continuao):
Mdica
Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de sades Comportamento de usurios de planos de sade

32

Introduo
Exemplo (1) - Fraldas e cervejas
O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas s sextas-feiras tarde no caminho do trabalho para casa; Wal-Mart otimizou s gndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% .

33

Exemplos
Exemplo (2) - Lojas Brasileiras (Info 03/98)
Aplicou 1 milho de dlares em tcnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente 220v

34

Exemplos
Exemplo (3) - Bank of America (Info 03/98)
Selecionou entre seus 36 milhes de clientes
Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em trs anos o banco lucrou 30 milhes de dlares com a carteira de emprstimos.

35

Exemplos
Empresas de software para Data mining:
SAS Information Havesting Red Brick Oracle Sybase Informix IBM http://www.sas.com http://www.convex.com http://www.redbrick.com http://www.oracle.com http://www.sybase.com http://www.informix.com http://www.ibm.com

36

Concluses
Data mininig um processo que compreender o comportamento dos dados Data mining X Data warehouse Tem um suporte muito forte em I. A. Pode ser bem aplicado em diversas negcios reas de permite

S ser eficiente se o valor das informaes extradas exceder o custo do processamento dos dados brutos. Ainda no h um consenso entre os autores.
37

Concluses

Perguntas ?

38

Concluses
Muita informao = Nenhuma informao ?

Muita Informao
39

Referncias

Livros:

40

Referncias
Artigos e endereos na Internet:
[01] http://www-pcc.qub.ac.uk/tec/courses/datamining [02] http://www.rio.com.br/~extended [03] http://www.datamining.com [04] http://www.santafe.edu/~kurt [05] http://www.datamation.com [06] http://www-dse.doc.ic.ac.uk/~kd [07] http://www.cs.bham.ac.uk/~anp [08] http://www.dbms.com/ (Vrios artigos) [09] http://www.infolink.com.br/~mpolito/mining/mining.html [10] http://www.lci.ufrj.br/~labbd/semins/grupo1

41

42