Escolar Documentos
Profissional Documentos
Cultura Documentos
O que
2
fortes
Classificao
6/25/2013
Weka Explorer
3
Interface grfica que permite a execuo dos algoritmos de data mining da Weka de forma interativa
Weka Explorer
4
Opes disponveis
Preprocess: escolhe e modifica os dados utilizados Classify: treina e testa sistemas de aprendizagem que classificam ou realizar regresso Cluster: anlise de clusters Associate: permite aprender regras de associao para os dados Select attributes: seleciona os atributos mais relevantes nos dados Visualize: grfico 2D interativo dos dados
6/25/2013
Weka Explorer
5
Open File...
Abre
uma caixa de dilogo que permite que voc navegue para os dados arquivo no sistema de arquivos local Opo padro: arquivos no formato ARFF
ARFF: Attribute-Relation
File Format
Arquivo ARFF
6
O que ?
O
formato ARFF utilizado como padro para estruturar as bases de dados manipuladas pela Weka um arquivo de texto ASCII que descreve uma lista de instncias que compartilham um conjunto de atributos
cabealho
dados
6/25/2013
Mdulo que permite escolher os dados a serem utilizados. Permite tambm que se modifique esses dados por meio da aplicao de filtros Nele podemos
Selecionar
formatos Excluir atributos Acessar estatsticas bsicas Aplicar um filtro aos dados
Ex.:
zscore
6/25/2013
Viso geral
Filtros
Atributos existentes
Filtros
Permitem
Ex:
Clicando
6/25/2013
zscore
normaliza Selecione
weka.filters.unsupervised.attribute.
os dados
Standardize
Clicando
12
6/25/2013
Mdulo que permite treinar e testar sistemas de aprendizagem que classificam ou realizar uma regresso dos dados selecionados em Preprocess Nele podemos
Selecionar
Viso Geral
Classificadores
Metodologia de teste
6/25/2013
Metodologia de teste
Use
training set
os casos de treino como de teste
Usa
Supplied
Permite
test set
selecionar um arquivo com os casos de teste
Cross-validation
Usa
Percentage
Usa
split
rvores de Deciso
16
Selecione
weka.classifiers.trees J48
Id3
LMT
6/25/2013
rvores de Deciso
17
Configurando o classificador
Clicando
rvores de Deciso
18
6/25/2013
rvores de Deciso
19
Selecione
weka.classifiers.lazy
IBk
K-NN
KStar
K-NN
10
6/25/2013
Configurando o classificador
Clicando
11
6/25/2013
Classificadores Bayesianos
23
Selecione
weka.classifiers.bayes
ComplementNaiveBayes
Classificao
classe
NaiveBayes
Classificao
classes
Classificadores Bayesianos
24
com naive Bayes. Atributos numricos so modelados por uma distribuio normal
NaiveBayesUpdateable
Classificao
12
6/25/2013
Classificadores Bayesianos
25
Configurando o classificador
Clicando
Classificadores Bayesianos
26
por classe
13
6/25/2013
Classificadores Bayesianos
27
da classificao
Regresso
28
Selecione
weka.classifiers.functions
de regresso linear simples Escolhe o atributo que resulta no menor erro quadrado Os valores em falta no so permitidos Trabalha apenas com atributos numricos
14
6/25/2013
Regresso
29
como o SimpleLinearRegression Usa o critrio de Akaike (medida da qualidade relativa) para seleo do modelo de regresso (linear ou mltipla) capaz de lidar com casos ponderados
Regresso
30
Configurando o classificador
Clicando
15
6/25/2013
Regresso
31
Regresso
32
SimpleLinearRegressio n
16
6/25/2013
Redes Neurais
33
Selecione
weka.classifiers.functions MultiLayerPreceptron
Apesar de possuir apenas essa rede, possvel encontrar pacotes com outras redes implementadas na internet
Self-Organizing Maps Learning Vector Quantizer Elman Recurrent Network etc
Redes Neurais
34
Configurando o classificador
training
Nro
time
de iteraes
learning
rate
Incremento
momentum
Controla
17
6/25/2013
Redes Neurais
35
Configurando o classificador
hiddenLayers
Nro
de camadas ocultas. O valor 0 indica que no possui camadas ocultas Existem tambm alguns curingas que definem automaticamente o nro de camadas
'a' = (nmero de atributos + nmero de classes) / 2 'i' = nmero de atributos 'o' = nmero de classes 't' = nmero de atributos + nmero de classes.
Redes Neurais
36
Configurando o classificador
GUI:
18
6/25/2013
Redes Neurais
37
SVM
38
Selecione
weka.classifiers.functions
Mtodo disponveis
SMO
Implementa
o algoritmo de otimizao mnima sequencial de John Platt para treinar uma SVM com implementaes mais robustas e eficientes de diferentes SVM
LibSVM
Pacote
19
6/25/2013
SVM
39
Configurando SMO
filterType
Determina
Kernel
Define
usado
SVM
40
Configurando SMO
numFolds
Nmero
modificar
20
6/25/2013
SVM
41
LibSVM
Caractersticas
Diferentes
formulaes SVM Classificao multi-classes mais eficiente Validao cruzada para seleo de modelos Estimativas de probabilidade Vrios kernels (incluindo matriz de kernel precalculado) SVM ponderada para dados desbalanceados
SVM
42
Configurando o libSVM
svm_type
Seleciona
o tipo de
SVM
kernel_type
Seleciona
a funo
kernel
Demais
parmetros
Funcionamento
21
6/25/2013
SVM
43
SVM
44
22
6/25/2013
45
Mdulo que permite analisar os clusters ou agrupamentos dos dados selecionados em Preprocess Nele podemos
Selecionar
23
6/25/2013
Viso Geral
Tipos de Agrupamentos
Metodologia de avaliao
Resultados do agrupamento
ltimos testes
Metodologia de avaliao
Use
training set
Classifica
Supplied
Permite
test set
selecionar um arquivo com os casos de teste para avaliar o agrupamento, se este for probabilstico
Percentage
Usa
split
uma certa porcentagem dos dados para avaliar o agrupamento, se este for probabilstico
24
6/25/2013
Metodologia de avaliao
Classes
Ignora
to clusters evaluation
a classe e calcula o agrupamento. Atribui classes aos clusters, de acordo com a as amostras dentro do cluster: classe mais frequente Em seguida, calcula o erro de classificao e mostra a matriz de confuso correspondente.
Anlise de Clusters
50
Selecione
weka.clusterers
Mtodo disponveis
SimpleKMeans
K-means
EM
Expectation
maximization ou maximizao de
expectativa Gera descries probabilsticas dos clusters em termos de mdia e desvio padro para os atributos numricos
25
6/25/2013
Anlise de Clusters
51
Mtodo disponveis
Cobweb
Gera
HierarchicalClusterer
Implementa
uma srie de mtodos clssicos hierrquicos e tipos de linkage (Single, Complete, Average, Mean, Centroid, Ward,...)
Anlise de Clusters
52
de distncia
maxIterations
numClusters
Nro
Seed
Nro
de sementes iniciais
26
6/25/2013
Anlise de Clusters
53
Anlise de Clusters
54
27
6/25/2013
55
56
em 2 etapas:
28
6/25/2013
57
Viso Geral
Mtodologia de avaliao
Resultados da seleo
ltimos testes
58
29
6/25/2013
59
Metodologia de busca
Use
training set
Classifica
Supplied
Permite
test set
selecionar um arquivo com os casos de teste para avaliar o agrupamento, se este for probabilstico
Percentage
Usa
split
uma certa porcentagem dos dados para avaliar o agrupamento, se este for probabilstico
60
Metodologia de avaliao
Classes
Ignora
to clusters evaluation
a classe e calcula o agrupamento. Atribui classes aos clusters, de acordo com a as amostras dentro do cluster: classe mais frequente Em seguida, calcula o erro de classificao e mostra a matriz de confuso correspondente.
30
6/25/2013
Anlise de Clusters
61
Selecione
weka.clusterers
Mtodo disponveis
SimpleKMeans
K-means
EM
Expectation
maximization ou maximizao de expectativa Gera descries probabilsticas dos clusters em termos de mdia e desvio padro para os atributos numricos
Seleo de atributos
62
Mtodo disponveis
Cobweb
Gera
agrupamento hierrquico, onde os grupos so descritos probabilisticamente uma srie de mtodos clssicos hierrquicos e tipos de linkage (Single, Complete, Average, Mean, Centroid, Ward,...)
HierarchicalClusterer
Implementa
31
6/25/2013
Seleo de atributos
63
de distncia
maxIterations
numClusters
Nro
Seed
Nro
de sementes iniciais
Seleo de atributos
64
32
6/25/2013
Seleo de atributos
65
33