Você está na página 1de 38

Minerao de Dados Aula 02 Introduo

Alexandre Plastino - plastino@ic.uff.br

22/03/2014

Minerao de Dados - Aula II

Aplicaes de Minerao de Dados

- Deteco de SPAM
22/03/2014 Minerao de Dados - Aula II 2

Aplicaes de Minerao de Dados


- Deteco de Fraudes

22/03/2014

Minerao de Dados - Aula II

Aplicaes de Minerao de Dados


- Market Basket Analysis (minerao de regras de associao)

Fralda Cerveja

22/03/2014

Minerao de Dados - Aula II

Aplicaes de Minerao de Dados

- Deteco de patologias por anlise de imagens

22/03/2014

Minerao de Dados - Aula II

Aplicaes de Minerao de Dados

- Minerao de opinies e sentimentos

22/03/2014

Minerao de Dados - Aula II

Aplicaes de Minerao de Dados

- Previso/Estimativa da permeabilidade de rochas a partir de dados de ressonncia magntica


22/03/2014 Minerao de Dados - Aula II 7

Introduo Minerao de Dados


Minerao de Dados (Data Mining): - Processo de descoberta de novas informaes e conhecimento, no formato de regras e padres, a partir de bases de dados.
Esse processo executado sobre dados, armazenados em bancos de dados tradicionais, em data warehouses ou em outra forma de repositrio.

22/03/2014

Minerao de Dados - Aula II

Introduo Minerao de Dados


Minerao Preditiva: - Deseja-se prever o valor desconhecido de um determinado atributo, a partir da anlise histrica dos dados armazenados na base (base de treinamento).

Minerao Descritiva:
- Procura-se extrair padres e regras que descrevam caractersticas importantes dos dados do domnio de aplicao.

22/03/2014

Minerao de Dados - Aula II

Minerao de Dados: etapa principal do processo de


KDD (Knowledge Discovery in Databases), na qual realizada a busca por novas informaes e conhecimento.

O processo de KDD composto por seis fases (Navathe):


- Seleo dos dados, - Limpeza dos dados, - Enriquecimento dos dados, - Transformao dos dados, - Minerao dos dados, - Apresentao e anlise dos resultados.

22/03/2014

Minerao de Dados - Aula II

10

KDD (Knowledge Discovery in Databases)


1 - SELEO

2 - PR-PROCESSAMENTO (Limpeza + Enriquecimento)


3 - TRANSFORMAO 4 - MINERAO 5 - INTERPRETAO e AVALIAO

5 4 3 2
Regras e Padres Dados Dados Transformados Pr-processados

Conhecimento

1
Dados Selecionados

Dados

From data mining to knowledge discovery: An overview, U.M.Fayyad et. al., 1996. 22/03/2014 Minerao de Dados - Aula II 11

Figura retirada de R.Ramakrishnam, Database Management Systems.

Fontes Externas de Dados

Catlogo
SELEO PR-PROCESSAMNETO TRANSFORMAO CARGA ATUALIZAO

Visualizao

SUPORTA

OLAP

DATA WAREHOUSE

Bancos de Dados Operacionais

MINERAO DE DADOS

22/03/2014

Minerao de Dados - Aula II

12

Tarefas em Minerao de Dados


Regras de Associao Padres de Seqncias Classificao Clusterizao

22/03/2014

Minerao de Dados - Aula II

13

Regras de Associao
(market basket analysis)
Uma regra de associao representa um padro de relacionamento entre itens de dados do domnio da aplicao que ocorre com uma determinada freqncia na base.

parte significativa das compras de homens, s sextas-feiras


noite, que inclui fraldas, inclui tambm cerveja. {fralda} {cerveja}

o cliente que compra po e manteiga,


80% das vezes compra leite. {po, manteiga} {leite}

muitos pacientes aidtico que contraem a doena


candidase tambm tm pneumonia. {candidase} {pneumonia}
22/03/2014 Minerao de Dados - Aula II 14

Regras de Associao
(market basket analysis)
Regras de associao so extradas a partir de bases de dados que contm transaes - formadas por conjuntos de itens do domnio da aplicao.
Id-Transao (TID) 1 2 3 4 5 {fralda} {cerveja} {fralda} {leite} {leite} {fralda} {carne} {cerveja} Itens Comprados leite, po, refrigerante cerveja, carne cerveja, fralda, leite, refrigerante cerveja, fralda, leite, po fralda, leite, refrigerante confiana de 66% confiana de 100% confiana de 75% confiana de 100% (suporte mdio) (suporte alto) (suporte alto) (suporte baixo)

22/03/2014

Minerao de Dados - Aula II

15

Minerao de Regras/Excees
Fonte:
Ministrio da Sade Casos de AIDS diagnosticados no Brasil entre 1980 e 2001. 172.563 tuplas e 10 atributos

Entrada:
R: (Transmisso Sexual = No) (Drogas = Sim) Sup = 13,05%, Conf = 88,09% A = {Sexo, Idade, Regio}

Sada:
41 excees negativas e 5 excees positivas
22/03/2014 Minerao de Dados - Aula II 16

Exceo Negativa:
(Transmisso Sexual = No) (Drogas = Sim) [ (Sexo = F), (Regio = Norte) ]

22/03/2014

Minerao de Dados - Aula II

17

Minerao de Excees
Fonte:
UCI Repository of Machine Learning Databases Censo da cidade de Washington, ano de 1990 48.842 tuplas e 14 atributos

Entrada:
R: (IncomeClass = >50K) Sup = 24,08%

A = {Education, Gender, HoursPerWeek, Age}

Sada:
20 excees positivas

22/03/2014

Minerao de Dados - Aula II

18

Excees Positivas:
(IncomeClass = >50K) [(Education = Doctorate)] MF+ = 0,6702 (IncomeClass = >50K) [(Education = Masters)] MF+ = 0,5682 (IncomeClass = >50K) [(HoursPerWeek = 56-60)] MF+ = 0,4474 (IncomeClass = >50K) [(HoursPerWeek = 51-55)] MF+ = 0,4428 (IncomeClass = >50K) [(Age = 46-50)] MF+ = 0,3961 (IncomeClass = >50K) [(Age = 51-55)] MF+ = 0,3934

22/03/2014

Minerao de Dados - Aula II

19

Padres de Seqncias
Padres de seqncias representam seqncias de conjuntos de itens que ocorrem nas transaes de diferentes consumidores, com determinada freqncia (na ordem especificada).

Consumidor
Joo Joo Joo Marcos Marcos

Data/Hora
01.08.2001/17:01 03.08.2001/14:25 10.08.2001/21:15 05.08.2001/10:16 08.08.2001/18:30

Produtos
leite, po carne, cerveja queijo, manteiga, sal leite, ovos queijo, manteiga

Padro de seqncia: {(leite) (queijo, manteiga)}


Cada transao deve ser definida por um consumidor, pelo instante (tempo) em que ocorreu e por um conjunto de itens.
22/03/2014 Minerao de Dados - Aula II 20

Classificao
Um classificador estima/prev, entre um conjunto pr-definido de classes, aquela qual pertence um elemento, a partir de seus atributos.

Implementar/minerar um classificador significa gerar/descobrir a


funo que realiza tal mapeamento. O processo de classificao necessita de uma base de treinamento.
ID 1 2 3 4 5 6 7 8 9
22/03/2014

Salrio 3.000 4.000 7.000 6.000 7.000 6.000 6.000 7.000 4.000

Idade 30 35 50 45 30 35 35 30 45

Tipo Emprego Autnomo Indstria Pesquisa Autnomo Pesquisa Indstria Autnomo Autnomo Indstria

Classe B B A A B B A A B
21

Minerao de Dados - Aula II

Classificao
ID 1 2 3 4 5 6 7 8 9 Salrio 3.000 4.000 7.000 6.000 7.000 6.000 6.000 7.000 4.000 Idade Tipo Emprego 30 Autnomo 35 Indstria 50 Pesquisa 45 Autnomo 30 Pesquisa 35 Indstria 35 Autnomo 30 Autnomo 45 Indstria Classe B B A A B B A A B

elemento E

Salrio 5.000 5.000 Idade 40 T.Empr. Ind.,Pesq. Autnomo 40

classe qual E pertence


22/03/2014 Minerao de Dados - Aula II 22

Agrupamento (Clustering)
Agrupar (clusterizar) significa identificar um conjunto finito de categorias (ou grupos - clusters) que contm objetos similares. grupos/categorias/classes no so previamente definidos.
Exemplo: Deseja-se separar os clientes em grupos de forma que aqueles que apresentam o mesmo comportamento de consumo fiquem no mesmo grupo.
Consumidor 1 2 3 4 5 6 7 8 9 Qtd.Md.Tot.Prods. Pre.Md.Prods. 2 1.700 10 1.800 2 100 3 2.000 12 2.100 3 200 4 2.300 11 2.040 3 150

Cada tupla deste exemplo indica a quantidade total de produtos consumidos e o preo mdio destes produtos relativos a cada consumidor.

22/03/2014

Minerao de Dados - Aula II

23

Agrupamento (Clustering)
Consumidor Qtd.Md. Pre.Md. 1 2 1.700 2 10 1.800 3 2 100 4 3 2.000 5 12 2.100 6 3 200 7 4 2.300 8 11 2.040 9 3 150

Grupo
1

Consumidor Qtd.Md. Pre.Md. 1 2 1.700 4 3 2.000 7 4 2.300 2 10 1.800 5 12 2.100 8 11 2.040 3 2 100 6 3 200 9 3 150

Cada grupo identificado caracterizado por consumidores semelhantes em relao quantidade mdia total e ao preo mdio dos produtos consumidos.

22/03/2014

Minerao de Dados - Aula II

24

Tcnicas de Minerao de Dados


Tcnicas so utilizadas para realizar a tarefa de minerao de dados. Tarefa
Classificao

Tcnicas
rvores de Deciso Algoritmo K-NN Classificador Bayesiano Algoritmos de Extrao de Regras de Associao/Padres

Associao/Padres

Clusterizao

Algoritmos de Particionamento Algoritmos Hierrquicos


Minerao de Dados - Aula II 25

22/03/2014

Tcnica Supervisionada X No Supervisionada


Classificao dito um processo de minerao supervisionado, pois os elementos que fazem parte da base de treinamento j tm seu atributo classe informado. Clusterizao dito um processo de minerao no supervisionado, pois os elementos que fazem parte da base de entrada no tm o seu grupo definido. Normalmente, nem mesmo o nmero de grupos previamente definido/conhecido.

22/03/2014

Minerao de Dados - Aula II

26

Modelo de Minerao de Dados


Um modelo de minerao de dados gerado ou definido utilizando-se alguma tcnica de minerao de dados com o objetivo de realizar alguma tarefa. Em geral, modelos possuem graus de confiana. Exemplos: modelo de classificao aceita um registro de entrada e o classifica, com um certo grau de confiana.
entrada resultado

Modelo

grau de confiana

22/03/2014

Minerao de Dados - Aula II

27

Minerao de Dados Direta


Entrada

Minerao do Modelo Modelo Dados

Informao
22/03/2014 Minerao de Dados - Aula II 28

Minerao de Dados Direta


Registro R

Minerao do Modelo de Classificao


Dados

Modelo

Classe de R
22/03/2014 Minerao de Dados - Aula II 29

Minerao de Dados Direta


Atravs de uma tcnica de minerao, extrai-se ou treina-se um modelo que ser posteriormente utilizado. Tarefas Preditivas: classificao, regresso. Minerao caracterizada pela existncias de um campo especfico cujo valor deve ser estimado a partir dos valores dos demais atributos.

22/03/2014

Minerao de Dados - Aula II

30

Minerao de Dados Indireta


Minerao da Informao Dados Informao

Conhecimento

Interpretao
22/03/2014 Minerao de Dados - Aula II 31

Minerao de Dados Indireta


Minerao de Regras de Associao Dados Regras

Regras teis Interpretao


22/03/2014 Minerao de Dados - Aula II 32

Minerao de Dados Indireta


Atravs de uma tcnica de minerao, extraem-se padres significativos que sero posteriormente avaliados. Tarefas Descritivas: anlise de associaes, clusters. O resultado da minerao complementa o conhecimento do especialista e dever ser examinado e avaliado por este.

22/03/2014

Minerao de Dados - Aula II

33

reas de Aplicao das Tcnicas de MD


The latest KDnuggets Poll asked: Industries / Fields where you applied Analytics / Data Mining in 2011? (www.kdnuggets.com)
The top 10 industries were:

22/03/2014

Consumer analytics, 25.0% Banking, 18.9% Health Care, 16.7% Education, 16.2% Fraud Detection, 14.0% Science, 13.6% Social Networks, 13.2% Credit Scoring, 12.7% Insurance, 12.3% Direct Marketing,12.3%
Minerao de Dados - Aula II 34

Ferramenta Weka
(Waikato Environment for Knowledge Analysis) http://www.cs.waikato.ac.nz/ml/weka/

22/03/2014

Minerao de Dados - Aula II

35

Principais Conferncias da rea


KDD - ACM Knowledge Discovery and Data Mining (A1)

ICDM - IEEE International Conference on Data Mining (A1)


SDM - SIAM International Conference on Data Mining (A2) PKDD - Principles of Data Mining and Knowledge Discovery (A2) ICDE - IEEE International Conference on Data Engineering (A1) CIKM - ACM International Conference on Information and Knowledge Management (A1) KDMiLe - Symposium on Knowledge Discovery, Mining and Learning (Novo - Nacional)
22/03/2014 Minerao de Dados - Aula II 36

Alguns Peridicos da rea


(Busca no site da CAPES com a expresso "Data Mining".)
Data Mining and Knowledge Discovery (A2) International Journal of Data Mining and Bioinformatics (B2) International Journal of Business Intelligence and Data Mining (B3)

International Journal of Data Warehousing and Mining (B3)


Statistical Analysis and Data Mining (B4) International Journal of Knowledge Engineering and Data Mining (B5)

22/03/2014

Minerao de Dados - Aula II

37

Livros de Minerao de Dados

22/03/2014

Minerao de Dados - Aula II

38

Você também pode gostar