Você está na página 1de 33

6/25/2013

1
UTILIZANDO O
SOFTWARE WEKA
O que
2
Weka: software livre para minerao de dados
Desenvolvido por um grupo de pesquisadores
Universidade de Waikato, Nova Zelndia
Tambm um pssaro tpico da Nova Zelndia
Pontos fortes
Classificao
regras de associao
clusters de dados
6/25/2013
2
Weka Explorer
3
Interface grfica que permite a execuo dos
algoritmos de data mining da Weka de forma
interativa
Weka Explorer
4
Opes disponveis
Preprocess: escolhe e modifica os dados utilizados
Classify: treina e testa sistemas de aprendizagem
que classificam ou realizar regresso
Cluster: anlise de clusters
Associate: permite aprender regras de associao
para os dados
Select attributes: seleciona os atributos mais
relevantes nos dados
Visualize: grfico 2D interativo dos dados
6/25/2013
3
Weka Explorer
5
Open File...
Abre uma caixa de dilogo que permite que voc
navegue para os dados arquivo no sistema de
arquivos local
Opo padro: arquivos no formato ARFF
ARFF: Attribute-Relation File Format
Arquivo ARFF
6
O que ?
O formato ARFF
utilizado como padro
para estruturar as
bases de dados
manipuladas pela
Weka
um arquivo de texto
ASCII que descreve
uma lista de instncias
que compartilham um
conjunto de atributos
cabealho
dados
6/25/2013
4
Weka Explorer - Preprocess
7
Weka Explorer: Preprocess
8
Mdulo que permite escolher os dados a
serem utilizados. Permite tambm que se
modifique esses dados por meio da aplicao
de filtros
Nele podemos
Selecionar conjuntos de dados em diversos
formatos
Excluir atributos
Acessar estatsticas bsicas
Aplicar um filtro aos dados
Ex.: zscore
6/25/2013
5
Weka Explorer: Preprocess
9
Viso geral
Filtros
Estatsticas
do atributo
selecionado
Atributos
existentes
Weka Explorer: Preprocess
10
Filtros
Permitem transformar os dados
de vrias maneiras
Ex: Adicionar rudo
Clicando no nome do filtro,
podemos configur-lo
6/25/2013
6
Weka Explorer: Preprocess
11
zscore
normaliza os dados
Selecione
weka.filters.unsupervised.attribute. Standardize
Clicando no nome do filtro, podemos configur-
lo de modo a no normalizar a classe dos
dados
Weka Explorer - Classify
12
6/25/2013
7
Weka Explorer: Classify
13
Mdulo que permite treinar e testar sistemas
de aprendizagem que classificam ou realizar
uma regresso dos dados selecionados em
Preprocess
Nele podemos
Selecionar e configurar diversos classificadores
Escolher a metodologia de teste
Fornecer arquivo de teste
Realizar cross-validation
Etc.
Weka Explorer: Classify
14
Viso Geral
Classificadores
Resultados do
classificador
Metodologia
de teste
ltimos
testes
6/25/2013
8
Weka Explorer: Classify
15
Metodologia de teste
Use training set
Usa os casos de treino como de teste
Supplied test set
Permite selecionar um arquivo com os casos de teste
Cross-validation
Usa validao cruzada do tipo k-fold
Percentage split
Usa uma certa porcentagem dos dados para teste
rvores de Deciso
16
Selecione
weka.classifiers.trees
Algumas rvores disponveis
J48
rvore de deciso C4.5 (com ou sem poda)
NBTree (Naive Bayes tree)
rvore de deciso com classificador naive Bayes nas
folhas
Id3
rvore de deciso Id3
LMT
rvore de deciso com modelo logistico
6/25/2013
9
rvores de Deciso
17
Configurando o
classificador
Clicando no nome
dele, podemos
configur-lo
Ex.: rvore J48


rvores de Deciso
18
Clicando em Start o classificador
executado. Sada:
6/25/2013
10
rvores de Deciso
19
Na lista de resultados, podemos visualizar a
rvore gerada
Lazy learning - aprendizado
preguioso
20
Selecione
weka.classifiers.lazy
Alguns mtodos disponveis
IBk
K-NN
IBk
K-NN usando K = 1
KStar
K-NN com distncia com entropia
6/25/2013
11
Lazy learning - aprendizado
preguioso
21
Configurando o
classificador
Clicando no nome
dele, podemos
configur-lo
Ex.: IBk (K-NN)


Bayeslearning - aprendizado
preguioso
22
Clicando em Start o classificador
executado. Sada:
6/25/2013
12
Classificadores Bayesianos
23
Selecione
weka.classifiers.bayes
Alguns mtodos disponveis
BayesNet
Classificao usando Redes Bayesianas
ComplementNaiveBayes
Classificao com naive Bayes com complemento de
classe
NaiveBayes
Classificao com naive Bayes com estimadores de
classes
Classificadores Bayesianos
24
Alguns mtodos disponveis
NaiveBayesSimple
Classificao com naive Bayes. Atributos numricos
so modelados por uma distribuio normal

NaiveBayesUpdateable
Classificao com naive Bayes com estimadores de
classes (verso atualizvel)
6/25/2013
13
Classificadores Bayesianos
25
Configurando o
classificador
Clicando no nome
dele, podemos
configur-lo
Ex.: BayesNet

Classificadores Bayesianos
26
Clicando em Start o classificador
executado. Sada (NaiveBayesSimple)
Estatsticas por classe
6/25/2013
14
Classificadores Bayesianos
27
Clicando em Start o classificador
executado. Sada (NaiveBayesSimple)
Resultado da classificao
Regresso
28
Selecione
weka.classifiers.functions
Mtodos de regresso disponveis
SimpleLinearRegression
Modelo de regresso linear simples
Escolhe o atributo que resulta no menor erro
quadrado
Os valores em falta no so permitidos
Trabalha apenas com atributos numricos
6/25/2013
15
Regresso
29
Mtodos de regresso disponveis
LinearRegression
Funciona como o SimpleLinearRegression
Usa o critrio de Akaike (medida da qualidade
relativa) para seleo do modelo de regresso (linear
ou mltipla)
capaz de lidar com casos ponderados
Regresso
30
Configurando o classificador
Clicando no nome dele, podemos configur-lo
Ex.: LinearRegression

6/25/2013
16
Regresso
31
Devemos usar sempre Use
training set em Test
options
A regresso ser calculada
em cima dos dados de
treinamento

Definir varivel dependente
Aquela que os dados iro
predizer
Ex: sellingPrice

Regresso
32
Clicando em Start o classificador
executado.

LinearRegression
SimpleLinearRegressio
n
6/25/2013
17
Redes Neurais
33
Selecione
weka.classifiers.functions
O nico mtodo disponvel ser
MultiLayerPreceptron
Apesar de possuir apenas essa rede, possvel
encontrar pacotes com outras redes
implementadas na internet
Self-Organizing Maps
Learning Vector Quantizer
Elman Recurrent Network
etc
Redes Neurais
34
Configurando o
classificador
training time
Nro de iteraes
learning rate
Incremento do ajuste de
pesos no back propogation
momentum
Controla as mudanas nas
variaes dos incrementos



6/25/2013
18
Redes Neurais
35
Configurando o classificador
hiddenLayers
Nro de camadas ocultas. O valor 0
indica que no possui camadas
ocultas
Existem tambm alguns curingas
que definem automaticamente o
nro de camadas
'a' = (nmero de atributos + nmero
de classes) / 2
'i' = nmero de atributos
'o' = nmero de classes
't' = nmero de atributos + nmero
de classes.
Redes Neurais
36
Configurando o classificador
GUI: Exibe a rede gerada

6/25/2013
19
Redes Neurais
37
Clicando em Start o classificador
executado.

SVM
38
Selecione
weka.classifiers.functions
Mtodo disponveis
SMO
Implementa o algoritmo de otimizao mnima
sequencial de John Platt para treinar uma SVM
LibSVM
Pacote com implementaes mais robustas e
eficientes de diferentes SVM
6/25/2013
20
SVM
39
Configurando SMO
filterType
Determina como/se
os dados sero
transformados
Kernel
Define o kernel a ser
usado



SVM
40
Configurando SMO
numFolds
Nmero de folds da
validao cruzada
-1 significa que os
dados de treinamento
sero usados
No modificar
toleranceParameter
epsilon
checksTurnedOff



6/25/2013
21
SVM
41
LibSVM
Caractersticas
Diferentes formulaes SVM
Classificao multi-classes mais eficiente
Validao cruzada para seleo de modelos
Estimativas de probabilidade
Vrios kernels (incluindo matriz de kernel pre-
calculado)
SVM ponderada para dados desbalanceados
SVM
42
Configurando o
libSVM
svm_type
Seleciona o tipo de
SVM
kernel_type
Seleciona a funo
kernel
Demais parmetros
Funcionamento
semelhante ao do
SMO
ou sua configurao
depende do tipo de
SVM usada



6/25/2013
22
SVM
43
Clicando em Start o classificador
executado

SVM
44
Clicando em Start o classificador
executado

6/25/2013
23
Weka Explorer - Cluster
45
Weka Explorer: Cluster
46
Mdulo que permite analisar os clusters ou
agrupamentos dos dados selecionados em
Preprocess
Nele podemos
Selecionar e configurar diversos mtodos de
agrupamentos
Escolher a metodologia de avaliao do
agrupamento
Os prprios dados
Fornecer arquivo de teste
Etc.
6/25/2013
24
Weka Explorer: Cluster
47
Viso Geral
Tipos de
Agrupamentos
Resultados do
agrupamento
Metodologia
de avaliao
ltimos
testes
Weka Explorer: Cluster
48
Metodologia de avaliao
Use training set
Classifica os dados de treinamento nos clusters e
calcula a percentagem de casos em cada cluster
Supplied test set
Permite selecionar um arquivo com os casos de teste
para avaliar o agrupamento, se este for probabilstico
Percentage split
Usa uma certa porcentagem dos dados para avaliar o
agrupamento, se este for probabilstico
6/25/2013
25
Weka Explorer: Cluster
49
Metodologia de avaliao
Classes to clusters evaluation
Ignora a classe e calcula o agrupamento.
Atribui classes aos clusters, de acordo com a as
amostras dentro do cluster: classe mais frequente
Em seguida, calcula o erro de classificao e mostra a
matriz de confuso correspondente.
Anlise de Clusters
50
Selecione
weka.clusterers
Mtodo disponveis
SimpleKMeans
K-means
EM
Expectation maximization ou maximizao de
expectativa
Gera descries probabilsticas dos clusters em
termos de mdia e desvio padro para os atributos
numricos
6/25/2013
26
Anlise de Clusters
51
Mtodo disponveis
Cobweb
Gera agrupamento hierrquico, onde os grupos so
descritos probabilisticamente
HierarchicalClusterer
Implementa uma srie de mtodos clssicos
hierrquicos e tipos de linkage (Single, Complete,
Average, Mean, Centroid, Ward,...)
Anlise de Clusters
52
Configurando o
mtodo (Ex.:
SimpleKMeans)
distanceFunction
Funo de distncia
maxIterations
Nro de iteraes
mximas
numClusters
Nro de clusters
Seed
Nro de sementes
iniciais

6/25/2013
27
Anlise de Clusters
53
Clicando em Start o mtodo executado
Anlise de Clusters
54
Podemos ainda visualizar os clusters
formados
6/25/2013
28
Weka Explorer Select
Attributes
55
Weka Explorer: Select
Attributes
56
Mdulo que permite investigar quais atributos
so mais preditivos
Seleo em 2 etapas:
Um mtodo de busca:
Um mtodo de avaliao
Flexibilidade: (quase) qualquer combinao de
busca/avaliao
6/25/2013
29
Weka Explorer: Select
Attributes
57
Viso Geral
Mtodologia de
avaliao
Resultados da
seleo
Metodologia
de busca
ltimos
testes
Modo de
seleo dos
atributos
58

6/25/2013
30
Weka Explorer: Select
Attributes
59
Metodologia de busca
Use training set
Classifica os dados de treinamento nos clusters e
calcula a percentagem de casos em cada cluster
Supplied test set
Permite selecionar um arquivo com os casos de teste
para avaliar o agrupamento, se este for probabilstico
Percentage split
Usa uma certa porcentagem dos dados para avaliar o
agrupamento, se este for probabilstico
Weka Explorer: Select
Attributes
60
Metodologia de avaliao
Classes to clusters evaluation
Ignora a classe e calcula o agrupamento.
Atribui classes aos clusters, de acordo com a as
amostras dentro do cluster: classe mais frequente
Em seguida, calcula o erro de classificao e mostra a
matriz de confuso correspondente.
6/25/2013
31
Anlise de Clusters
61
Selecione
weka.clusterers
Mtodo disponveis
SimpleKMeans
K-means
EM
Expectation maximization ou maximizao de
expectativa
Gera descries probabilsticas dos clusters em
termos de mdia e desvio padro para os atributos
numricos
Seleo de atributos
62
Mtodo disponveis
Cobweb
Gera agrupamento hierrquico, onde os grupos so
descritos probabilisticamente
HierarchicalClusterer
Implementa uma srie de mtodos clssicos
hierrquicos e tipos de linkage (Single, Complete,
Average, Mean, Centroid, Ward,...)
6/25/2013
32
Seleo de atributos
63
Configurando o
mtodo (Ex.:
SimpleKMeans)
distanceFunction
Funo de distncia
maxIterations
Nro de iteraes
mximas
numClusters
Nro de clusters
Seed
Nro de sementes
iniciais

Seleo de atributos
64
Clicando em Start o mtodo executado
6/25/2013
33
Seleo de atributos
65
Podemos ainda visualizar os clusters
formados

Você também pode gostar