Escolar Documentos
Profissional Documentos
Cultura Documentos
5 de julho de 2021
1 Objetivos
• Aplicar o algoritmo de classificação K-Nearest Keighbours (KNN) em conjunto de dados gerado a partir
de distribuição gaussianas variando o parâmetro K para poder entender melhor seu funcionamento e como
aplicar-lo
2 Metodologia
Para realizar a classificação desse conjunto de dados foram executados os seguintes passos:
6. Variar o parâmetro K (numero de vizinhos considerados) com os seguintes valores: 2,4,8 e realizar novas
classificações e avaliar os resultados
7. Gerar novos conjunto de dados com diversos valores para o desvio padrão (0.3, 0.5, 0.7) e realizar novas
classificações e avaliar os resultados
U NIVERSIDADE F EDERAL DE M INAS G ERAIS - UFMG - 5 DE JULHO DE 2021
3 Resultados
Figura 1: Imagem
Figura 2: Imagem
2
U NIVERSIDADE F EDERAL DE M INAS G ERAIS - UFMG - 5 DE JULHO DE 2021
Figura 3: Imagem
Figura 4: Imagem
Ao interpretar os gráficos acima, é possível visualizar que dependendo do valor escolhido para K temos diferentes
resultados, como por exemplo em valores pequenos é visível a ocorrência de overfitting dado que alguns pontos foram
classificados como azul mesmo com vários pontos amarelos ao redor, isto ocorreu pois temos alguns outliers azuis
próximos ao amarelo. Entretanto, com um maior valor de K podemos visualizar que a fronteira de classificação ficou
mais definida.
3
U NIVERSIDADE F EDERAL DE M INAS G ERAIS - UFMG - 5 DE JULHO DE 2021
Figura 5: Imagem
Figura 6: Imagem
4
U NIVERSIDADE F EDERAL DE M INAS G ERAIS - UFMG - 5 DE JULHO DE 2021
Figura 7: Imagem
Ao aumentar o desvio padrão utilizado na distribuição gaussiana que gera o conjunto de dados, temos pontos cada vez
mais espaçados o que pode confundir o algoritmo e produzir classificações incorretas. Deste modo também é possível
visualizar a sensibilidade do algoritmo quanto ao conjunto de dados.
Portanto, ao analisar os resultados acima, podemos verificar que o algoritmo KNN é uma boa ferramenta para classificar
dados, mas é interessante ressaltar que se trata de um algoritmo que é muito sensível ao parâmetro K e ao conjunto de
dados que será classificado.