Você está na página 1de 71

Minerao de Dados

Prof. Ronaldo C. Prati ronaldo.prati@ufabc.edu.br

Curso em 1 slide

Introduo
n

Avanos recentes nas tecnologias de aquisio, transmisso e armazenamento de dados

Bases de

dados cada vez

maiores

Introduo
n

Estima-se que a quantidade de dados em Bases de Dados mundiais dobra a cada 20 anos Crescimento tem ocorrido em vrias reas
q q q q q q q

Transaes bancrias Utilizao de cartes de crdito Dados governamentais Medies ambientais Dados clnicos Projetos genoma Informaes disponveis na web

Introduo
Nmero de pginas na web

Introduo
Fonte: Genbank Seqncias (milhes) Pares de bases de DNA (bilhes)

Crescimento do GenBank 1982-2005

Pares de bases seqncias

1982 1986 1990 1994 1998 2002

Introduo
Incidentes de segurana na Internet brasileira

Introduo
Incidentes de segurana na Internet brasileira

Introduo
n

Alguns nmeros:
q

Transaes eletrnicas
n

BD Wal-Mart: 20 milhes transaes / dia BD NASA: recebe de satlites 50 GB / hora Mobil Data Warehouse: 100 TB de dados armazenados

Controle e monitoramento
n

Dispositivos de armazenamento massivo


n

Pesquisas KDnuggets
n

Maiores bancos de dados minerados


q

Fonte:
n

n n

http://www.kdnuggets.com/polls/2006/ largest_database_mined.htm Data: junho de 2006 181 votantes

Pesquisas KDnuggets
n

Maiores bancos de dados minerados

Introduo
n

Bases de Dados muito grandes podem conter (esconder) dados e informaes preciosos Existe um interesse crescente em explorar esses dados armazenados
q q

Descobrir conhecimento novo e til Ferramenta de suporte a deciso

Poder dos dados

Poder dos dados

Poder dos dodos

Introduo
n

Tcnicas tradicionais de anlise de dados permitem apenas consultas simples


q

Quantos itens de um produto em particular foram vendidos em um dado dia? No conseguem responder consultas do tipo: n Quais so os clientes que podem cometer fraudes? n Que clientes gostariam de comprar um novo produto P? Tcnicas mais sofisticadas, capazes de extrair conhecimento de grandes BD, so necessrias

Minerao de Dados
n

MD
q q

Data Mining Analogia com a minerao


n

Grandes volumes de dados so peneirados na tentativa de se encontrar alguma coisa de valor

Ferramentas utilizadas para extrair padres de dados

Minerao de Dados
n

Outros termos utilizados para MD


q q q q

Extrao de conhecimento Descoberta de informao Extrao de padres Anlise exploratria de dados

Minerao de Dados
Bases de Dados Aprendizado de Mquina Estatstica Biologia

Minerao De Dados

Visualizao

Reconhecimento de Padres Algoritmos

Processamento Paralelo

MD x SBBD
n

Exemplo de um relatrio de um SGBD


Vendas dos ltimos meses para cada tipo de servio q Vendas por servio agrupadas por sexo do cliente q Lista dos clientes que tiveram suas aplices canceladas
q

Perguntas respondidas usando MD


Que caractersticas tm os clientes que tiveram suas aplices canceladas e como elas diferem daquelas dos clientes que as renovaram? q Quais clientes que possuem seguros de carro que seriam potenciais clientes para seguros de casa?
q

Objetivos da Minerao de Dados


n

Atividades Preditivas:
q

Classificao e Regresso
n Sistemas

de MD aprendem a partir de exemplos como particionar ou classificar os dados n Exemplo - base de dados de clientes de um banco
q Pergunta:

Um novo cliente solicitando um emprstimo um bom ou mau investimento? q Regra tpica formulada: Se STATUS = casado e RENDA > 2000 e PROPRIETARIO-IMVEL = sim ento TIPO-DE-INVESTIMENTO = bom

Objetivos da Minerao de Dados


n

Atividades Descritivas:
q

Associao, Clustering, Sumarizao


n Regras

de Associao q Regras que associam um atributo de uma relao a outro q Exemplo - base de dados de um supermercado

72% de todos os registros que contm itens A e B tambm contm item C

CRISP-DM
n

Projeto CRISP-DM
q

CRoss-Industry Standard Process for Data Mining Concebido em 1996 por:


n

Daimer-Chrysler
q

Aplicava MD em suas operaes de negcios Prestava servio de MD desde 1990 Primeira ferramenta comercial de MD (Clementine) Propsito de adicionar valor a sua enorme BD

SPSS
q q

NDR
q

Pesquisas Kdnuggets
n

Pesquisa realizada em 2004

CRISP-DM
n

Projeto CRISP-DM
q

Desenvolveu um novo fluxo de processo para descoberta de conhecimento


n

A partir do processo anterior


q

Fayyad, Piatesky-Shapiro and Smyth

n n

Em resposta a requisitos de usurios Definiu e validou processo de MD utilizado em vrios setores industriais

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

CRISP-DM
n

Nova metodologia torna os projetos:


q q q q

Mais rpidos Mais baratos Mais confiveis Mais facilmente gerenciveis

Pode ser aplicada a pequenos projetos uma metodologia padro da indstria

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

Entendimento do Negcio
n

Entender os objetivos do projeto


q q

Requisitos do negcio (problema) Definir critrio para medir sucesso

Converter o conhecimento em definio de um problema de MD Traar um planejamento preliminar para atingir objetivos

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

Entendimento dos Dados


n n

Tem incio com uma coleta dos dados Segue com atividades para:
q

Familiarizar-se com os dados


n

Calcular estatsticas bsicas Investigar interao de atributos Identificar problemas de qualidade nos dados

Explorar os dados
n n

q q

Realizar descobertas iniciais sobre os dados Detectar subconjuntos interessantes

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

Preparao dos Dados


n

Cobre todas as atividades necessrias para construir o conjunto de dados final


q

Provavelmente executadas vrias vezes


n

Sem uma ordem pr-definida Seleo de tabelas, instncias e atributos Limpeza de dados Transformao de dados

Inclui:
n n n

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

Modelagem
n

Seleo e Aplicao de vrias tcnicas


q

Ajuste de seus parmetros para valores timos

Existem vrias tcnicas para o mesmo tipo de problema de MD


q

Algumas tm necessidades especficas para o formato dos dados


n

Freqentemente necessrio voltar fase de preparao de dados

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

Avaliao
n

Modelo estar construdo Antes do seu desenvolvimento final


q

Importante avali-lo e revisar os passos executados para sua construo


n

Para ter certeza de que ele atende adequadamente aos objetivos do problema Verificar se algum aspecto importante no foi suficientemente considerado

Decide se os resultados da MD sero utilizados

Entendimento do negcio

Entendimento Dos dados

Preparao de dados Desenvolvimento Modelagem

Dados

Avaliao

Verso 1.0

Desenvolvimento
n

Criao do modelo geralmente no o final do projeto Mesmo se seu propsito for aumentar conhecimento sobre os dados
q

Conhecimento precisa ser organizado e apresentado em uma forma que o usurio possa utiliz-lo

Pode ir:
q q

Da simples gerao de um relatrio At a implementao de um processo de MD que possa ser repetido

CRISP-DM
n

Verso 2.0 em elaborao


q q

Special Interest Group est sendo consultado Possveis mudanas


n n n

Diviso da fase de preparao de dados Mtodos de avaliao dentro da fase de modelagem Fase de avaliao ser associada avaliao na empresa Incluso de fase de monitoramento

Resumo dos estgios de MD


1.

Identificao do Problema
q q q

Quais so as principais metas do processo? Quais critrios de desempenho so importantes? O conhecimento extrado deve ser compreensvel a seres humanos ou um modelo tipo caixa-preta apropriado? Qual a deve ser a relao entre simplicidade e preciso do conhecimento extrado?

Resumo dos estgios de MD


2.

Pr-processamento
q q q q

Seleo e Reduo Extrao e Integrao Limpeza Transformao

Vrias dessas etapas podem utilizar modelos de MD

Resumo dos estgios de MD


3.

Criao de um modelo - Aprendizado de Mquina q Escolha da tarefa


n

classificao, regresso, associao, clustering?

q q

Escolha do(s) algoritmo(s) Aplicao do(s) algoritmo(s)

4.

Teste do modelo Interpretao e avaliao

5.

MD e AM
n

A maioria dos mtodos de MD so baseados em tcnicas de Aprendizado de Mquina


Redes Neurais Artificiais q Mquinas de Vetores de Suporte q rvores de Deciso q Raciocnio Baseado em Casos q k-Mdias q Computao Evolutiva q Sistemas Inteligentes Hbridos q Etc.
q

AM
n

Investiga tcnicas computacionais capazes de adquirir automaticamente


q q q

Novas habilidades Novo conhecimento Novas formas de organizar o conhecimento existente

Definio
q

Tcnicas de AM podem melhorar seu desempenho em uma dada tarefa utilizando experincias prvias (Mitchell, 1997)

Aplicaes
n

Nmero crescente de aplicaes


q q q

q q q

Finanas: anlise de risco, deteco de fraudes, gerenciamento de carteiras Internet: algoritmos de busca, marketing na web Cincia e Medicina: descoberta de padres, diagnstico de pacientes, anlise de dados do genoma Indstrias: previso de falhas, diagnstico de produtos Marketing: segmentao de mercado Telecomunicaes: processamento de alarmes

Aplicaes
n

Cadeias de PUB britnicas utilizam MD para definir mudanas dirias nos preos de algumas bebidas
q

Acessa impacto das ofertas de happy hour nas vendas


Se desconto para uma dada bebida aumenta as vendas em um dia, manter o desconto no dia seguinte, seno tentar outra promoo

Aplicaes
n

Fast Search & Transfer ASA


q

Software de MD que pode fazer 200 consultas por segundo Utilizado pela Reuters para procurar violaes de propriedade intelectual na Web
n

Busca por textos semelhantes aos publicados pela Reuters Envia a advogados textos suspeitos

Aplicaes
n

Seimans Medical q Ferramenta de MD para o tratamento de ataques cardacos


q

Combina informaes mdicas de diversas fontes


n

Inclusive texto

Busca automtica em registros combinados de 6 milhes de pacientes

Aplicaes
n

Seimans Medical
q

Descobriu centenas de casos onde os melhores procedimentos mdicos no haviam sido seguidos
n

Mas ainda havia tempo para intervir

Identificou pacientes elegveis para estudos mdicos Ganhou o 2005 ICDM Data Mining Practice Prize

Aplicaes
n

The Mitre Coorporation


Ferramenta de MD para deteco de fraudes no imposto de renda q Sistema de MD usa Aprendizado de Mquina e Anlise Estatstica para descobrir sonegaes
q

Aplicaes
n

The Mitre Coorporation


q

Anlise baseada em formas conhecidas de burlar a receita Regras de associao


n

Procura por grupos de contribuintes que podem estar participando de um esquema de sonegao
q

Promovido por um mesmo consultor ou analista financeiro

Aplicaes
n

The Mitre Coorporation


q

Modelo trabalha com estimativa de risco, combinando:


n n

Probabilidade de abusos Potencial de perdas de receita Reduz tempo de anlise


q

Resultados
n

2 semanas para poucas horas (dados de 2001)

Encontrou casos no descobertos por auditores

Segundo lugar no 2005 ICDM Data Mining Practice Prize

ALVINN

ALVINN
n

Sistema automtico de navegao para automveis


q q

Baseado em uma cmera montada no veculo Dirigiu a 70 M/h (110 Km/h) em uma rodovia pblica americana Dirigiu de costa a costa em 1989 por 2850 milhas (com exceo de 50 milhas)

ALVINN
n

Utiliza uma Rede Neural


q

960 entradas
n

Matriz 30x32 derivada dos pixels de uma imagem

q q

4 unidades intermedirias 30 unidades de sada


n

Cada uma representando um comando para a direo

Nariz Artificial

Sensores

Pr-processamento

Reconhecimento de Padres (Rede Neural)

S1

S2

...

S6

Substncia

Problema Abordado
q

Base de Dados:
n n

Classificao entre odores de duas safras de vinho (A e B) Para cada safra, as resistncias dos sensores foram registradas a cada 0.5s. Cada conjunto de seis valores registrados no mesmo instante de tempo um dado (total de 200 dados, sendo 100 da safra A e 100 da safra B). 50% dos dados de cada safra escolhidos aleatoriamente para treinamento, 25% para validao, e 25% para teste.

Diviso do Conjunto de Dados (Proben1):


n

n n

Pesquisas KDnuggets
n n

Aplicaes de MD Em que indstrias / reas voc est atualmente aplicando MD?


q

Fonte:
n

n n

http://www.kdnuggets.com/polls/2006/ data_mining_applications_industries.htm Data: junho de 2006 278 votos de 111 votantes

Pesquisas KDnuggets

Pesquisas KDnuggets
n n

Aplicaes de MD Em que indstrias / reas voc est atualmente aplicando MD?


q

Fonte:
n

n n

http://www.kdnuggets.com/polls/2007/ data_mining_applications.htm Data: junho de 2007 138 votantes

Pesquisas KDnuggets

Pesquisas KDnuggets
n

2006 x 2007

Investimentos em MD preditivo
n n n n n

15% - coleta de dados 60% - limpeza de dados 15% - construo e anlise de modelos 5% - aplicao 5% - melhorias contnuas

Produtos de MD

P redictive D ynamix

Model 1

Mais produtos

PRW

Mitos
n

Anlise de dados pode ser completamente automatizada


q q

Julgamento humano crtico na maioria das aplicaes De qualquer modo, semi-automao muito til Regras de associao so essencialmente listas de correlaes

Regras de associao so sempre teis


q

Com uma quantidade massiva de dados, no necessrio estatstica


q

Massividade leva a heterogeneidade


n

Precisa ainda mais de estatstica

Consideraes Finais
n

Fenmeno sogra
q

At sua sogra ouviu falar de MD

Cuidado com o baque


q

Sistemas Especialistas e Redes Neurais Artificiais


n

Idias que faziam sentido mas tiveram propaganda exagerada

So ferramentas, use com cuidado...


n

http://www.youtube.com/watch?v=pmIYR9yJwE

Agradecimentos
n

Alguns slides dessa apresentao foram cedidos pela prof. Ana Lorena (UFABC), Andr Carvalho (USP/So Carlos), Marcilio Souto (Empirial College ?)