Você está na página 1de 17

Software Weka

Waikato 2004, Witten & Frank 2000

Ferramenta
algoritmos de
preparao de dados aprendizagem de mquina (minerao) validao de resultados

/public/soft/linux/weka-3-4/
Java jar weka.jar Selecione Explorer copie os arquivos no dir /public/soft/linux/weka-3-4/data$ para sua area

Interface e Funcionalidades

(A) Open File, Open URL, Open DB (B) No boto filter possvel efetuar sucessivas filtragens de atributos e instncias na base de dados previamente carregada
Seleo Discretizao Normalizao Amostragem

Formato arff (header)


% 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

Laboratrio 1
Abra o arquivo weather.nominal.arff

Perguntas
Nmeros de instancias, exemplos, registros?? Atributos ??? Quais os valores que o atributo temperatura pode ter ?? Repita o processo para outra base.

Editando bases
Abra a base weather.nominal.arff Clique em Editar Responda
Qual o valor da classe para a instncia 8? Algum atributo possui valor no ?

Abra a base iris e responda


Quantos atributos nominais e numericos a base possui ??

Aplicar filtros
Weka possui vrios filtros Remover atributos Escolha Choose... Remove ... Save..Name Abra o arquivo weather.nominal.arff Remova todos as instncias com valor de atributo humidity high Volte aos dados originais

Painel de Visualizao
Abra a base iris.arff (medidas de flores) Utilize o menu Visualize para selecionar algumas instncias e remover outras.

Classificao
Observe a saida dos diferentes tipos de classificadores. === Classifier model (full training set) === J48 pruned tree -----------------outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves

Responda
Utilizando a base weather Como seria classificada a seguinte instncia ??? outlook = sunny, temperature = cool, humidity = high, windy = TRUE

Modo de Testar
Use training set: Usa toda a base para teste Cross-validation: Divide a base em folds (disjuntos) Percentage split: Divide a base uma percentagem para treinamento e outra para teste.

Criando bases de teste


Escreva uma base de teste e teste com ela

Como so classificadas as instncias ?? Como fica a matriz de confuso ??

Visualize as instncias
Visualize cada instncias e responda quais foram classificadas erroneamente ???

Você também pode gostar