Você está na página 1de 33

6/25/2013

UTILIZANDO O SOFTWARE WEKA

O que
2

Weka: software livre para minerao de dados


Desenvolvido
Universidade

por um grupo de pesquisadores

de Waikato, Nova Zelndia Tambm um pssaro tpico da Nova Zelndia


Pontos
regras

fortes

Classificao

de associao clusters de dados

6/25/2013

Weka Explorer
3

Interface grfica que permite a execuo dos algoritmos de data mining da Weka de forma interativa

Weka Explorer
4

Opes disponveis
Preprocess: escolhe e modifica os dados utilizados Classify: treina e testa sistemas de aprendizagem que classificam ou realizar regresso Cluster: anlise de clusters Associate: permite aprender regras de associao para os dados Select attributes: seleciona os atributos mais relevantes nos dados Visualize: grfico 2D interativo dos dados

6/25/2013

Weka Explorer
5

Open File...
Abre

uma caixa de dilogo que permite que voc navegue para os dados arquivo no sistema de arquivos local Opo padro: arquivos no formato ARFF
ARFF: Attribute-Relation

File Format

Arquivo ARFF
6

O que ?
O

formato ARFF utilizado como padro para estruturar as bases de dados manipuladas pela Weka um arquivo de texto ASCII que descreve uma lista de instncias que compartilham um conjunto de atributos

cabealho

dados

6/25/2013

Weka Explorer - Preprocess

Weka Explorer: Preprocess


8

Mdulo que permite escolher os dados a serem utilizados. Permite tambm que se modifique esses dados por meio da aplicao de filtros Nele podemos
Selecionar

conjuntos de dados em diversos

formatos Excluir atributos Acessar estatsticas bsicas Aplicar um filtro aos dados
Ex.:

zscore

6/25/2013

Weka Explorer: Preprocess


9

Viso geral

Filtros

Atributos existentes

Estatsticas do atributo selecionado

Weka Explorer: Preprocess


10

Filtros
Permitem
Ex:

transformar os dados de vrias maneiras


Adicionar rudo

Clicando

no nome do filtro, podemos configur-lo

6/25/2013

Weka Explorer: Preprocess


11

zscore
normaliza Selecione
weka.filters.unsupervised.attribute.

os dados
Standardize

Clicando

no nome do filtro, podemos configurlo de modo a no normalizar a classe dos dados

12

Weka Explorer - Classify

6/25/2013

Weka Explorer: Classify


13

Mdulo que permite treinar e testar sistemas de aprendizagem que classificam ou realizar uma regresso dos dados selecionados em Preprocess Nele podemos
Selecionar

e configurar diversos classificadores Escolher a metodologia de teste


Fornecer

arquivo de teste Realizar cross-validation Etc.

Weka Explorer: Classify


14

Viso Geral
Classificadores

Metodologia de teste

Resultados do classificador ltimos testes

6/25/2013

Weka Explorer: Classify


15

Metodologia de teste
Use

training set
os casos de treino como de teste

Usa

Supplied
Permite

test set
selecionar um arquivo com os casos de teste

Cross-validation
Usa

validao cruzada do tipo k-fold

Percentage
Usa

split

uma certa porcentagem dos dados para teste

rvores de Deciso
16

Selecione

weka.classifiers.trees J48

Algumas rvores disponveis

rvore de deciso C4.5 (com ou sem poda)


rvore de deciso com classificador naive Bayes nas folhas rvore de deciso Id3 rvore de deciso com modelo logistico

NBTree (Naive Bayes tree)

Id3

LMT

6/25/2013

rvores de Deciso
17

Configurando o classificador
Clicando

no nome dele, podemos configur-lo Ex.: rvore J48

rvores de Deciso
18

Clicando em Start o classificador executado. Sada:

6/25/2013

rvores de Deciso
19

Na lista de resultados, podemos visualizar a rvore gerada

Lazy learning - aprendizado preguioso


20

Selecione
weka.classifiers.lazy

Alguns mtodos disponveis


IBk
K-NN

IBk
K-NN

usando K = 1 com distncia com entropia

KStar
K-NN

10

6/25/2013

Lazy learning - aprendizado preguioso


21

Configurando o classificador
Clicando

no nome dele, podemos configur-lo Ex.: IBk (K-NN)

Bayeslearning - aprendizado preguioso


22

Clicando em Start o classificador executado. Sada:

11

6/25/2013

Classificadores Bayesianos
23

Selecione
weka.classifiers.bayes

Alguns mtodos disponveis


BayesNet
Classificao

usando Redes Bayesianas com naive Bayes com complemento de

ComplementNaiveBayes
Classificao

classe
NaiveBayes
Classificao

com naive Bayes com estimadores de

classes

Classificadores Bayesianos
24

Alguns mtodos disponveis


NaiveBayesSimple
Classificao

com naive Bayes. Atributos numricos so modelados por uma distribuio normal

NaiveBayesUpdateable
Classificao

com naive Bayes com estimadores de classes (verso atualizvel)

12

6/25/2013

Classificadores Bayesianos
25

Configurando o classificador
Clicando

no nome dele, podemos configur-lo Ex.: BayesNet

Classificadores Bayesianos
26

Clicando em Start o classificador executado. Sada (NaiveBayesSimple)


Estatsticas

por classe

13

6/25/2013

Classificadores Bayesianos
27

Clicando em Start o classificador executado. Sada (NaiveBayesSimple)


Resultado

da classificao

Regresso
28

Selecione
weka.classifiers.functions

Mtodos de regresso disponveis


SimpleLinearRegression
Modelo

de regresso linear simples Escolhe o atributo que resulta no menor erro quadrado Os valores em falta no so permitidos Trabalha apenas com atributos numricos

14

6/25/2013

Regresso
29

Mtodos de regresso disponveis


LinearRegression
Funciona

como o SimpleLinearRegression Usa o critrio de Akaike (medida da qualidade relativa) para seleo do modelo de regresso (linear ou mltipla) capaz de lidar com casos ponderados

Regresso
30

Configurando o classificador
Clicando

no nome dele, podemos configur-lo Ex.: LinearRegression

15

6/25/2013

Regresso
31

Devemos usar sempre Use training set em Test options


A

regresso ser calculada em cima dos dados de treinamento

Definir varivel dependente


Aquela
Ex:

que os dados iro predizer


sellingPrice

Regresso
32

Clicando em Start o classificador LinearRegression executado.

SimpleLinearRegressio n

16

6/25/2013

Redes Neurais
33

Selecione

weka.classifiers.functions MultiLayerPreceptron

O nico mtodo disponvel ser

Apesar de possuir apenas essa rede, possvel encontrar pacotes com outras redes implementadas na internet
Self-Organizing Maps Learning Vector Quantizer Elman Recurrent Network etc

Redes Neurais
34

Configurando o classificador
training
Nro

time

de iteraes

learning

rate

Incremento

do ajuste de pesos no back propogation as mudanas nas variaes dos incrementos

momentum
Controla

17

6/25/2013

Redes Neurais
35

Configurando o classificador
hiddenLayers
Nro

de camadas ocultas. O valor 0 indica que no possui camadas ocultas Existem tambm alguns curingas que definem automaticamente o nro de camadas

'a' = (nmero de atributos + nmero de classes) / 2 'i' = nmero de atributos 'o' = nmero de classes 't' = nmero de atributos + nmero de classes.

Redes Neurais
36

Configurando o classificador
GUI:

Exibe a rede gerada

18

6/25/2013

Redes Neurais
37

Clicando em Start o classificador executado.

SVM
38

Selecione
weka.classifiers.functions

Mtodo disponveis
SMO
Implementa

o algoritmo de otimizao mnima sequencial de John Platt para treinar uma SVM com implementaes mais robustas e eficientes de diferentes SVM

LibSVM
Pacote

19

6/25/2013

SVM
39

Configurando SMO
filterType
Determina

como/se os dados sero transformados o kernel a ser

Kernel
Define

usado

SVM
40

Configurando SMO
numFolds
Nmero

de folds da validao cruzada -1 significa que os dados de treinamento sero usados


No

modificar

toleranceParameter epsilon checksTurnedOff

20

6/25/2013

SVM
41

LibSVM
Caractersticas
Diferentes

formulaes SVM Classificao multi-classes mais eficiente Validao cruzada para seleo de modelos Estimativas de probabilidade Vrios kernels (incluindo matriz de kernel precalculado) SVM ponderada para dados desbalanceados

SVM
42

Configurando o libSVM
svm_type
Seleciona

o tipo de

SVM
kernel_type
Seleciona

a funo

kernel
Demais

parmetros

Funcionamento

semelhante ao do SMO ou sua configurao depende do tipo de SVM usada

21

6/25/2013

SVM
43

Clicando em Start o classificador executado

SVM
44

Clicando em Start o classificador executado

22

6/25/2013

45

Weka Explorer - Cluster

Weka Explorer: Cluster


46

Mdulo que permite analisar os clusters ou agrupamentos dos dados selecionados em Preprocess Nele podemos
Selecionar

e configurar diversos mtodos de agrupamentos Escolher a metodologia de avaliao do agrupamento


Os

prprios dados Fornecer arquivo de teste Etc.

23

6/25/2013

Weka Explorer: Cluster


47

Viso Geral
Tipos de Agrupamentos

Metodologia de avaliao

Resultados do agrupamento
ltimos testes

Weka Explorer: Cluster


48

Metodologia de avaliao
Use

training set

Classifica

os dados de treinamento nos clusters e calcula a percentagem de casos em cada cluster

Supplied
Permite

test set

selecionar um arquivo com os casos de teste para avaliar o agrupamento, se este for probabilstico

Percentage
Usa

split

uma certa porcentagem dos dados para avaliar o agrupamento, se este for probabilstico

24

6/25/2013

Weka Explorer: Cluster


49

Metodologia de avaliao
Classes
Ignora

to clusters evaluation

a classe e calcula o agrupamento. Atribui classes aos clusters, de acordo com a as amostras dentro do cluster: classe mais frequente Em seguida, calcula o erro de classificao e mostra a matriz de confuso correspondente.

Anlise de Clusters
50

Selecione
weka.clusterers

Mtodo disponveis
SimpleKMeans
K-means

EM
Expectation

maximization ou maximizao de

expectativa Gera descries probabilsticas dos clusters em termos de mdia e desvio padro para os atributos numricos

25

6/25/2013

Anlise de Clusters
51

Mtodo disponveis
Cobweb
Gera

agrupamento hierrquico, onde os grupos so descritos probabilisticamente

HierarchicalClusterer
Implementa

uma srie de mtodos clssicos hierrquicos e tipos de linkage (Single, Complete, Average, Mean, Centroid, Ward,...)

Anlise de Clusters
52

Configurando o mtodo (Ex.: SimpleKMeans)


distanceFunction
Funo
Nro

de distncia

maxIterations

de iteraes mximas de clusters

numClusters
Nro

Seed
Nro

de sementes iniciais

26

6/25/2013

Anlise de Clusters
53

Clicando em Start o mtodo executado

Anlise de Clusters
54

Podemos ainda visualizar os clusters formados

27

6/25/2013

55

Weka Explorer Select Attributes

56

Weka Explorer: Select Attributes

Mdulo que permite investigar quais atributos so mais preditivos


Seleo
Um

em 2 etapas:

mtodo de busca: Um mtodo de avaliao


Flexibilidade:

(quase) qualquer combinao de busca/avaliao

28

6/25/2013

57

Weka Explorer: Select Attributes

Viso Geral
Mtodologia de avaliao

Metodologia de busca Modo de seleo dos atributos

Resultados da seleo
ltimos testes

58

29

6/25/2013

59

Weka Explorer: Select Attributes

Metodologia de busca
Use

training set

Classifica

os dados de treinamento nos clusters e calcula a percentagem de casos em cada cluster

Supplied
Permite

test set

selecionar um arquivo com os casos de teste para avaliar o agrupamento, se este for probabilstico

Percentage
Usa

split

uma certa porcentagem dos dados para avaliar o agrupamento, se este for probabilstico

60

Weka Explorer: Select Attributes

Metodologia de avaliao
Classes
Ignora

to clusters evaluation

a classe e calcula o agrupamento. Atribui classes aos clusters, de acordo com a as amostras dentro do cluster: classe mais frequente Em seguida, calcula o erro de classificao e mostra a matriz de confuso correspondente.

30

6/25/2013

Anlise de Clusters
61

Selecione
weka.clusterers

Mtodo disponveis
SimpleKMeans
K-means

EM
Expectation

maximization ou maximizao de expectativa Gera descries probabilsticas dos clusters em termos de mdia e desvio padro para os atributos numricos

Seleo de atributos
62

Mtodo disponveis
Cobweb
Gera

agrupamento hierrquico, onde os grupos so descritos probabilisticamente uma srie de mtodos clssicos hierrquicos e tipos de linkage (Single, Complete, Average, Mean, Centroid, Ward,...)

HierarchicalClusterer
Implementa

31

6/25/2013

Seleo de atributos
63

Configurando o mtodo (Ex.: SimpleKMeans)


distanceFunction
Funo Nro

de distncia

maxIterations

de iteraes mximas de clusters

numClusters
Nro

Seed
Nro

de sementes iniciais

Seleo de atributos
64

Clicando em Start o mtodo executado

32

6/25/2013

Seleo de atributos
65

Podemos ainda visualizar os clusters formados

33

Você também pode gostar