Você está na página 1de 33

6/25/2013

UTILIZANDO O
SOFTWARE WEKA

O que
2

Weka: software livre para minerao de dados


Desenvolvido

por um grupo de pesquisadores

Universidade

de Waikato, Nova Zelndia


Tambm um pssaro tpico da Nova Zelndia
Pontos

fortes

Classificao
regras

de associao
clusters de dados

6/25/2013

Weka Explorer
3

Interface grfica que permite a execuo dos


algoritmos de data mining da Weka de forma
interativa

Weka Explorer
4

Opes disponveis
Preprocess: escolhe e modifica os dados utilizados
Classify: treina e testa sistemas de aprendizagem
que classificam ou realizar regresso
Cluster: anlise de clusters
Associate: permite aprender regras de associao
para os dados
Select attributes: seleciona os atributos mais
relevantes nos dados
Visualize: grfico 2D interativo dos dados

6/25/2013

Weka Explorer
5

Open File...
Abre

uma caixa de dilogo que permite que voc


navegue para os dados arquivo no sistema de
arquivos local
Opo padro: arquivos no formato ARFF
ARFF: Attribute-Relation

File Format

Arquivo ARFF
6

O que ?
O

formato ARFF
utilizado como padro
para estruturar as
bases de dados
manipuladas pela
Weka
um arquivo de texto
ASCII que descreve
uma lista de instncias
que compartilham um
conjunto de atributos

cabealho

dados

6/25/2013

Weka Explorer - Preprocess

Weka Explorer: Preprocess


8

Mdulo que permite escolher os dados a


serem utilizados. Permite tambm que se
modifique esses dados por meio da aplicao
de filtros
Nele podemos
Selecionar

conjuntos de dados em diversos

formatos
Excluir atributos
Acessar estatsticas bsicas
Aplicar um filtro aos dados
Ex.:

zscore

6/25/2013

Weka Explorer: Preprocess


9

Viso geral

Filtros

Estatsticas
do atributo
selecionado

Atributos
existentes

Weka Explorer: Preprocess


10

Filtros
Permitem

transformar os dados
de vrias maneiras
Ex:

Adicionar rudo

Clicando

no nome do filtro,
podemos configur-lo

6/25/2013

Weka Explorer: Preprocess


11

zscore
normaliza

os dados

Selecione
weka.filters.unsupervised.attribute.

Standardize

Clicando

no nome do filtro, podemos configurlo de modo a no normalizar a classe dos


dados

12

Weka Explorer - Classify

6/25/2013

Weka Explorer: Classify


13

Mdulo que permite treinar e testar sistemas


de aprendizagem que classificam ou realizar
uma regresso dos dados selecionados em
Preprocess
Nele podemos
Selecionar

e configurar diversos classificadores


Escolher a metodologia de teste
Fornecer

arquivo de teste
Realizar cross-validation
Etc.

Weka Explorer: Classify


14

Viso Geral
Classificadores

Metodologia
de teste

Resultados do
classificador
ltimos
testes

6/25/2013

Weka Explorer: Classify


15

Metodologia de teste
Use

training set

Usa

os casos de treino como de teste

Supplied
Permite

test set
selecionar um arquivo com os casos de teste

Cross-validation
Usa

validao cruzada do tipo k-fold

Percentage
Usa

split

uma certa porcentagem dos dados para teste

rvores de Deciso
16

Selecione

weka.classifiers.trees

Algumas rvores disponveis

J48

NBTree (Naive Bayes tree)

rvore de deciso com classificador naive Bayes nas


folhas

Id3

rvore de deciso C4.5 (com ou sem poda)

rvore de deciso Id3

LMT

rvore de deciso com modelo logistico

6/25/2013

rvores de Deciso
17

Configurando o
classificador
Clicando

no nome
dele, podemos
configur-lo
Ex.: rvore J48

rvores de Deciso
18

Clicando em Start o classificador


executado. Sada:

6/25/2013

rvores de Deciso
19

Na lista de resultados, podemos visualizar a


rvore gerada

Lazy learning - aprendizado


preguioso
20

Selecione
weka.classifiers.lazy

Alguns mtodos disponveis


IBk
K-NN

IBk
K-NN

usando K = 1

KStar
K-NN

com distncia com entropia

10

6/25/2013

Lazy learning - aprendizado


preguioso
21

Configurando o
classificador
Clicando

no nome
dele, podemos
configur-lo
Ex.: IBk (K-NN)

Bayeslearning - aprendizado
preguioso
22

Clicando em Start o classificador


executado. Sada:

11

6/25/2013

Classificadores Bayesianos
23

Selecione
weka.classifiers.bayes

Alguns mtodos disponveis


BayesNet
Classificao

usando Redes Bayesianas

ComplementNaiveBayes
Classificao

com naive Bayes com complemento de

classe
NaiveBayes
Classificao

com naive Bayes com estimadores de

classes

Classificadores Bayesianos
24

Alguns mtodos disponveis


NaiveBayesSimple
Classificao

com naive Bayes. Atributos numricos


so modelados por uma distribuio normal

NaiveBayesUpdateable
Classificao

com naive Bayes com estimadores de


classes (verso atualizvel)

12

6/25/2013

Classificadores Bayesianos
25

Configurando o
classificador
Clicando

no nome
dele, podemos
configur-lo
Ex.: BayesNet

Classificadores Bayesianos
26

Clicando em Start o classificador


executado. Sada (NaiveBayesSimple)
Estatsticas

por classe

13

6/25/2013

Classificadores Bayesianos
27

Clicando em Start o classificador


executado. Sada (NaiveBayesSimple)
Resultado

da classificao

Regresso
28

Selecione
weka.classifiers.functions

Mtodos de regresso disponveis


SimpleLinearRegression
Modelo

de regresso linear simples


Escolhe o atributo que resulta no menor erro
quadrado
Os valores em falta no so permitidos
Trabalha apenas com atributos numricos

14

6/25/2013

Regresso
29

Mtodos de regresso disponveis


LinearRegression
Funciona

como o SimpleLinearRegression
Usa o critrio de Akaike (medida da qualidade
relativa) para seleo do modelo de regresso (linear
ou mltipla)
capaz de lidar com casos ponderados

Regresso
30

Configurando o classificador
Clicando

no nome dele, podemos configur-lo


Ex.: LinearRegression

15

6/25/2013

Regresso
31

Devemos usar sempre Use


training set em Test
options
A

regresso ser calculada


em cima dos dados de
treinamento

Definir varivel dependente


Aquela

que os dados iro


predizer
Ex:

sellingPrice

Regresso
32

Clicando em Start o classificador


LinearRegression
executado.

SimpleLinearRegressio
n

16

6/25/2013

Redes Neurais
33

Selecione

O nico mtodo disponvel ser

weka.classifiers.functions
MultiLayerPreceptron

Apesar de possuir apenas essa rede, possvel


encontrar pacotes com outras redes
implementadas na internet
Self-Organizing Maps
Learning Vector Quantizer
Elman Recurrent Network
etc

Redes Neurais
34

Configurando o
classificador
training
Nro

time

de iteraes

learning

rate

Incremento

do ajuste de
pesos no back propogation

momentum
Controla

as mudanas nas
variaes dos incrementos

17

6/25/2013

Redes Neurais
35

Configurando o classificador
hiddenLayers
Nro

de camadas ocultas. O valor 0


indica que no possui camadas
ocultas
Existem tambm alguns curingas
que definem automaticamente o
nro de camadas

'a' = (nmero de atributos + nmero


de classes) / 2
'i' = nmero de atributos
'o' = nmero de classes
't' = nmero de atributos + nmero
de classes.

Redes Neurais
36

Configurando o classificador
GUI:

Exibe a rede gerada

18

6/25/2013

Redes Neurais
37

Clicando em Start o classificador


executado.

SVM
38

Selecione
weka.classifiers.functions

Mtodo disponveis
SMO
Implementa

o algoritmo de otimizao mnima


sequencial de John Platt para treinar uma SVM

LibSVM
Pacote

com implementaes mais robustas e


eficientes de diferentes SVM

19

6/25/2013

SVM
39

Configurando SMO
filterType
Determina

como/se
os dados sero
transformados

Kernel
Define

o kernel a ser

usado

SVM
40

Configurando SMO
numFolds
Nmero

de folds da
validao cruzada
-1 significa que os
dados de treinamento
sero usados
No

modificar

toleranceParameter
epsilon
checksTurnedOff

20

6/25/2013

SVM
41

LibSVM
Caractersticas
Diferentes

formulaes SVM
Classificao multi-classes mais eficiente
Validao cruzada para seleo de modelos
Estimativas de probabilidade
Vrios kernels (incluindo matriz de kernel precalculado)
SVM ponderada para dados desbalanceados

SVM
42

Configurando o
libSVM
svm_type
Seleciona

o tipo de

SVM
kernel_type
Seleciona

a funo

kernel
Demais

parmetros

Funcionamento

semelhante ao do
SMO
ou sua configurao
depende do tipo de
SVM usada

21

6/25/2013

SVM
43

Clicando em Start o classificador


executado

SVM
44

Clicando em Start o classificador


executado

22

6/25/2013

45

Weka Explorer - Cluster

Weka Explorer: Cluster


46

Mdulo que permite analisar os clusters ou


agrupamentos dos dados selecionados em
Preprocess
Nele podemos
Selecionar

e configurar diversos mtodos de


agrupamentos
Escolher a metodologia de avaliao do
agrupamento
Os

prprios dados
Fornecer arquivo de teste
Etc.

23

6/25/2013

Weka Explorer: Cluster


47

Viso Geral
Tipos de
Agrupamentos

Metodologia
de avaliao

Resultados do
agrupamento
ltimos
testes

Weka Explorer: Cluster


48

Metodologia de avaliao
Use

training set

Classifica

os dados de treinamento nos clusters e


calcula a percentagem de casos em cada cluster

Supplied

test set

Permite

selecionar um arquivo com os casos de teste


para avaliar o agrupamento, se este for probabilstico

Percentage

split

Usa

uma certa porcentagem dos dados para avaliar o


agrupamento, se este for probabilstico

24

6/25/2013

Weka Explorer: Cluster


49

Metodologia de avaliao
Classes

to clusters evaluation

Ignora

a classe e calcula o agrupamento.


Atribui classes aos clusters, de acordo com a as
amostras dentro do cluster: classe mais frequente
Em seguida, calcula o erro de classificao e mostra a
matriz de confuso correspondente.

Anlise de Clusters
50

Selecione
weka.clusterers

Mtodo disponveis
SimpleKMeans
K-means

EM
Expectation

maximization ou maximizao de

expectativa
Gera descries probabilsticas dos clusters em
termos de mdia e desvio padro para os atributos
numricos

25

6/25/2013

Anlise de Clusters
51

Mtodo disponveis
Cobweb
Gera

agrupamento hierrquico, onde os grupos so


descritos probabilisticamente

HierarchicalClusterer
Implementa

uma srie de mtodos clssicos


hierrquicos e tipos de linkage (Single, Complete,
Average, Mean, Centroid, Ward,...)

Anlise de Clusters
52

Configurando o
mtodo (Ex.:
SimpleKMeans)
distanceFunction
Funo

de distncia

maxIterations
Nro

de iteraes
mximas

numClusters
Nro

de clusters

Seed
Nro

de sementes
iniciais

26

6/25/2013

Anlise de Clusters
53

Clicando em Start o mtodo executado

Anlise de Clusters
54

Podemos ainda visualizar os clusters


formados

27

6/25/2013

55

56

Weka Explorer Select


Attributes

Weka Explorer: Select


Attributes

Mdulo que permite investigar quais atributos


so mais preditivos
Seleo

em 2 etapas:

Um

mtodo de busca:
Um mtodo de avaliao
Flexibilidade:

(quase) qualquer combinao de


busca/avaliao

28

6/25/2013

57

Weka Explorer: Select


Attributes

Viso Geral

Metodologia
de busca

Mtodologia de
avaliao

Modo de
seleo dos
atributos

Resultados da
seleo
ltimos
testes

58

29

6/25/2013

59

Weka Explorer: Select


Attributes

Metodologia de busca
Use

training set

Classifica

os dados de treinamento nos clusters e


calcula a percentagem de casos em cada cluster

Supplied

test set

Permite

selecionar um arquivo com os casos de teste


para avaliar o agrupamento, se este for probabilstico

Percentage

split

Usa

uma certa porcentagem dos dados para avaliar o


agrupamento, se este for probabilstico

60

Weka Explorer: Select


Attributes

Metodologia de avaliao
Classes

to clusters evaluation

Ignora

a classe e calcula o agrupamento.


Atribui classes aos clusters, de acordo com a as
amostras dentro do cluster: classe mais frequente
Em seguida, calcula o erro de classificao e mostra a
matriz de confuso correspondente.

30

6/25/2013

Anlise de Clusters
61

Selecione
weka.clusterers

Mtodo disponveis
SimpleKMeans
K-means

EM
Expectation

maximization ou maximizao de
expectativa
Gera descries probabilsticas dos clusters em
termos de mdia e desvio padro para os atributos
numricos

Seleo de atributos
62

Mtodo disponveis
Cobweb
Gera

agrupamento hierrquico, onde os grupos so


descritos probabilisticamente

HierarchicalClusterer
Implementa

uma srie de mtodos clssicos


hierrquicos e tipos de linkage (Single, Complete,
Average, Mean, Centroid, Ward,...)

31

6/25/2013

Seleo de atributos
63

Configurando o
mtodo (Ex.:
SimpleKMeans)
distanceFunction
Funo

de distncia

maxIterations
Nro

de iteraes
mximas

numClusters
Nro

de clusters

Seed
Nro

de sementes
iniciais

Seleo de atributos
64

Clicando em Start o mtodo executado

32

6/25/2013

Seleo de atributos
65

Podemos ainda visualizar os clusters


formados

33

Você também pode gostar