Você está na página 1de 9

UNIVERSIDADE FEDERAL DE SÃO PAULO

Giovanna Bonafé Maurício – 134585

Henrique Vieira Dantas - 134591

PREPROCESSAMENTO E ANÁLISE NO WEKA

UC: MINERAÇÃO DE DADOS

SANTOS

2021
Buscando colocar em prática o conhecimento a respeito de
preprocessamento e análise de bases de dados no Weka, realizamos uma
atividade prática com dados fornecidos por um repositório online.

(Nesta atividade, buscamos seguir os seguintes passos, elecandos de 1-6.)

1. Acesse o site UCI Machine Learning Repository e escolha uma base


de dados para o problema de Classificação que contenha tanto
atributos nominais como numéricos.

Para esta etapa, utilizamos a base de dados “Adult”, disponível no


link: < https://archive.ics.uci.edu/ml/datasets/Adult>. Esta base de dados
diz respeito a uma predição que determina se um grupo de
estadunidenses possuíra receita que ultrapasse $50 mil/ano. O conjunto
de dados utilizado é denominado “Renda-Censo (1996)”, e avalia o perfil
de cerca de 32.561 pessoas (instâncias), considerando 15 atributos. Os
dados utilizados possuem tanto caráter nominal, quanto numérico.
2. Verifique se nos atributos existem valores ausentes e no caso
afirmativo, utilize os filtros do Weka para completar os valores
ausentes.

Foram identificados 1836 atributos ausentes em nossa base de


dados, cerca de 6% do total, como demonstrado na figura abaixo:
Para solucionar o problema, utilizamos o filtro “Replace Missing
Values”, que através da média e da moda dos dados, substituiu os valores
faltantes.

O resultado da substituição pode ser encontrado abaixo:

3. Aplique o filtro para transformar atributos nominais para atributos


numéricos.
Nesta etapa da prática, utilizamos da filtro “Nominal To Binary” para
transformar nossos valores, a mesma substitui atributos numéricos por
atributos nominais que variavam entre 0 e 1.
O resultado abaixo foi encontrado após a binarização:

4. Nos atributos numéricos, aplique o filtro para normalizar os valores


entre o intervalo [0,1]
Aqui, para normalizar os dados, utilizamos do filtro “Normalize”:
5. A seguir, execute o algoritmo dos vizinhos mais próximos variando
o valor de k entre: 1,3,5,7
Com intuito de analisar os dados por meio do algoritmo KNN
(vizinhos mais próximos), classificamos os mesmos por meio da função
“IBk”, utilizando 1,3,5 e 7 como valores para k.
k=1

k=3
k=5

k=7

6. Execute também o algoritmo naive bayes para a mesma base de


dados
Para executar o algoritmo “Naive Bayes” para a mesma base de dados,
utilizamos da aba “Classify” e selecionamos a função “Naive Bayes”:

Resultados e Conclusão

Com essas análises, percebemos que ambos os algoritmos de


classificação de dados podem ser aplicados à base de dados como a que foi
utilizada. Em especial, podemos destacar que para este conjunto, o algoritmo k-
NN obteve maior acurácia, especificamente k=7, como é demonstrado na tabela:

Instâncias Instâncias
Algoritmo Classificadas Classificadas
Corretamente Incorretamente
k-NN (k=1) 79,2605% 20,7395%
k-NN (k=3) 81,8525% 18,1475%
k-NN (k=5) 82,5712% 17,4288%
k-NN (k=7) 83,0411% 16,9559%
Naive-Bayes 82,6817% 17,3183%

É interessante comentar que devido ao seu tamanho, um período de


tempo considerável para o projeto foi demandado para a análise no software
Weka.

Você também pode gostar