Você está na página 1de 58

Minerao de Dados

Contexto e motivao
David Correa Martins Jr
david.martins@ufabc.edu.br
(baseado em material cedido pelos profs. Ronaldo Prati e Carlos Santos)

Prlogo: Caso Snowden/PRISM

Prlogo: Caso Snowden/PRISM

Prlogo: Caso Snowden/PRISM

Minerao de Dados


Extrao de padres a partir de colees de


dados para efeito de predio ou descoberta de
estrutura


Quantidades gigantescas de dados so coletados e


armazenados em empresas, corporaes, etc

Exemplos do ponto de vista comercial:









Dados de comrcio eletrnico


Dados de navegao na Internet
Bancos: transaes bancrias, anlise de crdito,
deteco de fraudes, avaliao de bens
Sistemas de recomendao (Amazon, Netflix)
Negociao de aes

Minerao de Dados


Exemplos do ponto de vista cientifico




Dados coletados e armazenados a velocidades


enormes (GB/hora)


Sensores remotos em satlites

Telescpios

Microarrays gerando dados de expresses de genes

Simulaes cientficas gerando terabytes de dados.

Tcnicas tradicionais no apropriadas para analisar


tais dados:


rudos e grande dimensionalidade

Leis, Gigantes e Monstros




Lei de Moore: Capacidade de processamento


dobra a cada 18 meses (CPU, memria, cache)
Capacidade de armazenamento dobra a cada
10 meses
O que estas duas leis combinadas produzem?


Computadores cada vez mais baratos e mais


potentes
Um gap crescente entre nossa habilidade de gerar
dados e nossa habilidade de fazer uso deles para
gerar informao e conhecimento

Leis, Gigantes e Monstros




Biblioteca do Congresso (EUA)





~10 Terabytes de texto


~3 Petabytes, incluindo vdeo, udio, etc

Etimologia




Gigabyte (109) termo do Latim Gigas para Gigante


Terabyte (1012) termo do GregoTeras para Monstro
Prximos prefixos: Peta (1015), Exa (1018) e ento






Zeta (1021): ltima (letra)


Yota (1024): aps...

Em 2000, 11% de todos os dados foram


gerados pela humanidade apenas em 1999
A maior parte dos dados jamais foram vistos por
um ser humano

Minerao de Dados Por qu?




Frequentemente existe informao escondida


nos dados que no evidente de ser
encontrada utilizando linguagens de consulta
tradicionais.
Analistas humanos podem levar semanas para
correlacionar e descobrir alguma informao til
dentro de uma grande massa de dados.
Boa parte dos dados nunca analisado:
cemitrio de dados.

Minerao de Dados Por qu?




Nmero de fontes de dados tem aumentado


de modo exponencial
Os dados tm a tendncia de crescer de
modo a preencher todo o espao disponvel




Alta dimenso (muitos campos)


Muitos registros
Novas fontes

Usurio final normalmente no um


estatstico

Por qu Minerao de Dados?


Baixo
Volume

Decises

Alto
Valor

Conhecimento
Informao
Dados
Interessantes

Alto
Volume

Dados Brutos

Baixo
Valor

Curso em 1 slide
Dados

Informao

Apresentao

Conhecimento

Precursores


Manuteno de registros: formulrios,


exames, agendas, especificaes, etc
Tecnologias mecnicas de registro: Hollerith
(~1890).

Precursores


Antes do advento do computador, coletar e


analisar dados era muito custoso:





coleta manual lenta, propensa a erros


requer muitas pessoas (caro)
necessidade de treinamento
precisa ser feita explicitamente

Por que agora?




Computador j coleta/armazena dados


automaticamente.


Baixo custo de anlise.

Minerao de dados requer busca


automtica de padres.



Quais padres so interessantes?


Verificar se o padro no apenas acidente.

Crescimento das bases de dados




Avanos recentes nas tecnologias de


aquisio, transmisso e armazenamento de
dados

Bases de

dados cada vez

maiores

Crescimento das bases de dados




Crescimento tem ocorrido em vrias reas










Transaes bancrias
Utilizao de cartes de crdito
Dados governamentais
Medies ambientais
Dados clnicos
Projetos genoma
Informaes disponveis na web

Crescimento das bases de dados


Nmero de pginas na web

Crescimento do GenBank
1982-2005
Seqncias (milhes)

Fonte: Genbank

Pares de bases
seqncias

1982 1986 1990 1994 1998 2002

Pares de bases de DNA (bilhes)

Crescimento das bases de dados

Crescimento das bases de dados




Alguns nmeros:


Transaes eletrnicas


Controle e monitoramento


BD Wal-Mart: 20 milhes transaes / dia


BD NASA: recebe de satlites 50 GB / hora

Dispositivos de armazenamento massivo




Mobil Data Warehouse: 100 TB de dados armazenados

Introduo


Bases de Dados muito grandes podem


conter (esconder) dados e informaes
preciosos
Existe um interesse crescente em explorar
esses dados armazenados



Descobrir conhecimento novo e til


Ferramenta de suporte a deciso

Introduo


Tcnicas tradicionais de anlise de dados


permitem apenas consultas simples


Quantos itens de um produto em particular foram


vendidos em um dado dia?
No conseguem responder consultas do tipo:
 Quais so os clientes que podem cometer fraudes?
 Que clientes gostariam de comprar um novo produto P?
Tcnicas mais sofisticadas, capazes de extrair
conhecimento de grandes bancos de dados, so
necessrias

Minerao de Dados: O que ?


l No
1. Fazer uma consulta
no Google sobre
Data Mining
2. Procurar um nome
numa lista
telefnica
3. Fazer uma consulta
SQL a um banco de
dados.

Sim
1. Agrupar documentos
similares retornados pelo
Google de acordo com seu
contexto.
2. Descobrir se certos nomes
aparecem com mais
frequncia em
determinadas regies da
cidade (periferia, centro,
bairros abastados,)

Minerao de dados - Exemplos








Qual o perfil do cliente que consome mais?


Que produtos so comprados conjuntamente? E em
sequncia?
Meu site web tem uma boa estrutura?
Como as chuvas, variao de temperatura e
aplicao de pesticidas afetam as colheitas?
Existe uma relao entre o aquecimento global e a
frequncia e intensidade das perturbaes no
ecossistema tais como secas, furaces, enchentes?

Minerao de dados - Propsito




Encontrar estruturas interessantes nos


dados


O que estrutura? Padres interessantes,


modelos preditivos, relacionamentos ocultos

Exemplos de tarefas abordadas em


Minerao de Dados




Modelagem Preditiva (classificao, regresso)


Agrupamento (Clustering)
Afinidade (Sumrio/Resumo dos Dados)


Relaes entre campos, associaes, visualizao

Tarefas de minerao
Tarefa







ato de descobrir um certo tipo de


padro

Regras de Associao
Anlise de Sequncias
Classificao
Agrupamento
Anomalias (Outliers)

Minerao de Dados outros termos




Outros termos utilizados para MD







Descoberta de informao
Extrao (ou reconhecimento) de padres
Extrao de conhecimento
Descoberta de conhecimento em bancos de
dados (Knowledge Discovery Databases KDD)

Recursos de minerao










Visualizao
Estatstica descritiva
Anlise exploratria de dados
Estatstica Inferencial (modelos no
paramtricos)
Sistemas dinmicos
Aprendizado de mquina
Otimizao
Bancos de dados

Minerao de Dados
Bases de Dados

Aprendizado
de Mquina

Estatstica
Biologia

Minerao
De Dados

Reconhecimento
de Padres
Algoritmos

Visualizao

Processamento
Paralelo

MD x SGBD


Exemplo de um relatrio de um SGBD






Vendas dos ltimos meses para cada tipo de servio


Vendas por servio agrupadas por sexo do cliente
Lista dos clientes que tiveram suas aplices
canceladas

Perguntas respondidas usando MD




Que caractersticas tm os clientes que tiveram suas


aplices canceladas e como elas diferem daquelas
dos clientes que as renovaram?
Quais clientes que possuem seguros de carro que
seriam potenciais clientes para seguros de casa?

Objetivos da Minerao de Dados




Atividades Descritivas:


Associao, Agrupamento, Sumarizao




Regras de Associao
 Regras que associam um atributo de uma relao
a outro
 Exemplo - base de dados de um supermercado


72% de todos os registros que contm itens A e B


tambm contm item C

Agrupamento
Dado um conjunto de objetos, colocar os objetos em grupos
baseados na similaridade entre eles
 Utilizado para encontrar padres inesperados nos dados


Similaridade difcil de medir

Objetivos da Minerao de Dados




Atividades Preditivas:


Classificao e Regresso
Sistemas de MD aprendem a partir de exemplos
como particionar ou classificar os dados
 Exemplo - base de dados de clientes de um banco


 Pergunta:

Um novo cliente solicitando um emprstimo


um bom ou mau investimento?
 Regra tpica formulada:
 Se STATUS = casado e RENDA > 2000 e
PROPRIETARIO-IMVEL = sim
ento TIPO-DE-INVESTIMENTO = bom

Como separar os robs?


Robs
amigos
Robs
inimigos

Como separar os robs?


Robs
amigos
Robs
inimigos
Robs que esto sorrindo so amigos
Robs que no esto sorrindo so inimigos

Mas eu quero prever o


comportamento de novos robs...
Robs
amigos

Robs
inimigos

Generalizao pode ser perigosa...


Robs
amigos

Robs
inimigos

Robs que esto sorrindo e no esto segurando uma


espada so amigos

Existe uma outra regra para


separar os robs inimigos?
Robs que esto sorrindo so amigos
Robs que no esto sorrindo so inimigos

Robs
amigos
Robs
inimigos

Existe uma outra regra para


separar os robs inimigos?
Robs
amigos
Robs
inimigos
Robs que tem o colete azul so inimigos
No inclui nenhum rob amigo (
consistente) mas deixa dois robs
inimigos de fora ( incompleta)

Generalizar pode ser difcil...

Robs
amigos
Robs
inimigos

Generalizar pode ser difcil...

Robs
amigos
Robs
inimigos
Robs que tem a antena azul so amigos

Temas recorrentes em MD







Escolha de representao/abstrao
Interdependncia entre
representao/mtodos
Escolhas devem ser orientadas a objetivos
No se deixar enganar por suas hipteses
Algoritmos iterativos/aproximaes
sucessivas

Resumo dos estgios de MD


1.

Identificao do Problema




Quais so as principais metas do processo?


Quais critrios de desempenho so importantes?
O conhecimento extrado deve ser compreensvel a
seres humanos ou um modelo tipo caixa-preta
apropriado?
Qual deve ser a relao entre simplicidade e
preciso do conhecimento extrado?

Resumo dos estgios de MD


2.

Pr-processamento





Seleo e Reduo
Extrao e Integrao
Limpeza
Transformao

Resumo dos estgios de MD


3.

Criao de um modelo - Aprendizado de Mquina


 Escolha da tarefa





classificao, regresso, associao, clustering?

Escolha do(s) algoritmo(s)


Aplicao do(s) algoritmo(s)

4.

Teste do modelo

5.

Interpretao e avaliao

MD e AM


A maioria dos mtodos de MD so baseados


em tcnicas de Aprendizado de Mquina









Redes Neurais Artificiais


Mquinas de Vetores de Suporte
rvores de Deciso
Raciocnio Baseado em Casos
k-Mdias
Computao Evolutiva
Sistemas Inteligentes Hbridos
Etc.

AM


Investiga tcnicas computacionais capazes de


adquirir automaticamente




Novas habilidades
Novo conhecimento
Novas formas de organizar o conhecimento existente

Definio


Tcnicas de AM podem melhorar seu desempenho em


uma dada tarefa utilizando experincias prvias
(Mitchell, 1997)

Aplicaes


Cadeias de PUB britnicas utilizam MD para


definir mudanas dirias nos preos de
algumas bebidas


Acessa impacto das ofertas de happy hour nas


vendas
Se desconto para uma dada bebida aumenta
as vendas em um dia, manter o desconto no
dia seguinte, seno tentar outra promoo

Aplicaes


Fast Search & Transfer ASA




Software de MD que pode fazer 200 consultas


por segundo
Utilizado pela Reuters para procurar violaes
de propriedade intelectual na Web


Busca por textos semelhantes aos publicados pela


Reuters
Envia a advogados textos suspeitos

Aplicaes


Seimans Medical
 Ferramenta de MD para o tratamento de
ataques cardacos


Combina informaes mdicas de diversas


fontes


Inclusive texto

Busca automtica em registros combinados de


6 milhes de pacientes

Aplicaes


Seimans Medical


Descobriu centenas de casos onde os melhores


procedimentos mdicos no haviam sido
seguidos


Mas ainda havia tempo para intervir

Identificou pacientes elegveis para estudos


mdicos
Ganhou o 2005 ICDM Data Mining Practice
Prize

Aplicaes


The Mitre Coorporation




Ferramenta de MD para deteco de fraudes


no imposto de renda
Sistema de MD usa Aprendizado de Mquina
e Anlise Estatstica para descobrir
sonegaes

Aplicaes


The Mitre Coorporation




Anlise baseada em formas conhecidas de burlar


a receita
Regras de associao


Procura por grupos de contribuintes que podem estar


participando de um esquema de sonegao

Aplicaes


The Mitre Coorporation




Modelo trabalha com estimativa de risco, combinando:





Probabilidade de abusos
Potencial de perdas de receita

Resultados


Reduz tempo de anlise







2 semanas para poucas horas (dados de 2001)

Encontrou casos no descobertos por auditores

Segundo lugar no 2005 ICDM Data Mining Practice Prize

Produtos de MD

Model 1

Mais produtos

PRW

Mitos


Anlise de dados pode ser completamente


automatizada



Regras de associao so sempre teis




Julgamento humano crtico na maioria das aplicaes


De qualquer modo, semi-automao muito til
Regras de associao so essencialmente listas de
correlaes

Com uma quantidade massiva de dados, no


necessrio estatstica


Massividade leva a heterogeneidade




Precisa ainda mais de estatstica

Agradecimentos


Alguns slides dessa apresentao foram


cedidos pelos professores Ana Lorena,
Andr Carvalho, Carlos Santos, Marcilio
Souto e Ronaldo Prati.

Você também pode gostar