Escolar Documentos
Profissional Documentos
Cultura Documentos
Weka
Eduardo Corra Gonalves
Escola Nacional de Cincias Estatsticas (IBGE/ENCE)
Rua Andr Cavalcanti, 106, Centro 20.231-050 Rio de Janeiro RJ
eduardo.correa@ibge.gov.br
Tpicos da Apresentao
PARTE 1: Introduo Minerao de Dados
Data Mining, Fraldas e Cervejas
Tarefas e Tcnicas de Minerao de Dados
Contexto atual da Minerao de Dados
Validade
Inesperabilidade
Interpretabilidade
Novidade
Utilidade
Estas propriedades sero explicadas no exemplo a seguir.
A regra interpretvel.
Pde ser entendida e explicada pelos analistas. Sugere que nas noites
de quinta-feira, os casais jovens se preparam para o fim-de-semana
estocando fraldas para os bebs e cerveja para o papai.
De maneira estereotipada, podemos at imaginar o jovem papai norteamericano como algum que no pode mais ir ao bar e nem aos jogos
de baseball ou futebol americano. Ento ele fica em casa, assistindo aos
jogos pela TV enquanto bebe as suas latinhas de cerveja!
E, mais importante do que tudo, a regra descoberta era til.
Os gerentes da loja de departamentos puderam tomar aes capazes de
aumentar as vendas de cerveja. Ex: os produtos foram colocados em
prateleiras prximas.
10
11
12
13
14
Outras aplicaes
para as Regras de
Associao
Sistemas de
Recomendao: so
sistemas que, de
maneira autnoma,
sugerem itens que
considera
interessantes para
um usurio (livros,
notcias, msicas,
vdeos, etc).
16
17
Tarefa 3: CLASSIFICAO
18
Exemplo retirado do tutorial "A Gentle Introduction to Machine Learning and Data Mining for the Database
Community" apresentado por Eamonn Keogh no 18o Simpsio Brasileiro de Bancos de Dados SBBD 2003
1
20
21
Tcnicas
Apriori, FP-Growth, DCI, ECLAT, Closet.
Padres Sequenciais
Classificao
23
24
25
26
O que Weka?
um pssaro tpico da Nova Zelndia! Mas no somente...
Weka um Software livre do tipo open source para minerao
de dados, desenvolvido em Java, dentro das especificaes da GPL
(General Public License).
O sistema foi desenvolvido por um
grupo de pesquisadores da
Universidade de Waikato, Nova
Zelndia.
Ao longo dos anos se consolidou
como a ferramenta de data mining
mais utilizada em ambiente
acadmico.
Seu ponto forte a tarefa de classificao, mas tambm capaz de
minerar regras de associao e clusters de dados.
Pode ser utilizada no modo console ou atravs da interface grfica
Weka Explorer.
27
O Livro da Weka
As caractersticas da Weka e as tcnicas
nela implementadas so apresentadas no
livro Data Mining: Practical Machine
Learning Tools and Techniques [WFH11]
Os autores do livro so os idealizadores
da ferramenta.
28
Interface Grfica: o
ambiente Weka
Explorer permite a
execuo dos
algoritmos de data
mining da Weka de
forma interativa.
Veremos um
exemplo nessa
apresentao!
29
30
31
32
33
34
35
36
Exemplo - BD de uma
locadora de veculos
* Base de dados exemplo retirada de : DataMining - Lus Alfredo Vidal de Carvalho, Ed. Cincia Moderna, 2001
37
38
Weka em Ao (1/18)
PASSO 1: antes de comear o processo, precisamos gerar uma verso
ARFF da base que iremos minerar.
39
Weka em Ao (2/18)
PASSO 2: abrir a Weka Explorer (GUI para minerao de dados)
40
Weka em Ao (3/18)
PASSO 3: abrir a base de dados
41
Weka em Ao (4/18)
PASSO 3: abrir a base de dados
42
Weka em Ao (5/18)
43
Weka em Ao (6/18)
Podemos explorar a base de dados antes de miner-la.
44
Weka em Ao (7/18)
45
Weka em Ao (8/18)
Grfico de barras: frequncia do atributo classe.
46
Weka em Ao (9/18)
Grfico: cruzamento do atributo classe com cada atributo preditivo.
47
Weka em Ao (10/18)
PASSO 4: Seleo da aba Classify para a minerao do classificador.
48
Weka em Ao (11/18)
PASSO 5: Escolha do algoritmo de classificao
Dentre as tcnicas que podem ser utilizadas, encontram-se:
Nave Bayes
rvores de Deciso (nossa escolha nessa apresentao!)
Redes Neurais
k-Nearest Neighbor
Support Vector Machines.
49
Weka em Ao (12/18)
PASSO 5: Escolha do algoritmo de classificao
50
Weka em Ao (13/18)
PASSO 5: Escolha do algoritmo de classificao.
Optamos pelo algoritmo J48 para minerao de rvores de deciso
51
Weka em Ao (14/18)
PASSO 6: Configurar parmetros e disparar o algoritmo!
52
Weka em Ao (15/18)
Aps alguns segundos, a rvore minerada na janela Output.
53
Weka em Ao (16/18)
54
Weka em Ao (17/18)
PASSO 7: A qualidade da rvore pode ser avaliada atravs do uso de
diferentes mtricas.
Confusion Matrix (matriz de confuso): simplesmente uma matriz
quadrada que indica as classificaes corretas e errada.
A classe que est sendo analisada aparece na linha. As classificaes
encontradas aparecem nas colunas.
A diagonal da matriz corresponde s classificaes corretas.
55
Weka em Ao (18/18)
Tambm possvel visualizar a rvore de deciso em um formato grfico.
56
57
58
59
Referncias
[Bak09]
[BL97]
M. J. A. Berry e G. Linoff. Data Mining Techniques for Marketing, Sales and Customer
Support. Wiley Computer Publishing, 1997.
[FPS96]
[HK06]
J. Han e M. Kamber. Data Mining: Concepts and Techniques. 2a Edio, Morgan Kaufmann,
2006.
[San05]
R. Santos. Weka na Munheca: um Guia para Uso do Weka em Scripts e Integrao com
Aplicaes Java. Instituto Nacional de Pesquisas Espaciais (INPE), 2005.
[San10]
[TSK06]
[WFH11]
I. H. Witten, E. Frank, M. A. Hall. Data Mining: Practical Machine Learning Tools and
Techniques. 3rd Edition, Morgan Kaufmann, 2011.
60