K-Nearest Neighbors

I NTRODUÇÃO A R ECONHECIMENTO DE PADRÕES - UFMG
K-N EAREST N EIGHBOURS (KNN)
Lucas Silva Chaves

Engenharia de Sistemas
lucasxp205@gmail.com
2017001737
5 de julho de 2021
1 Objetivos
• Aplicar o algoritmo de classificação K-Nearest Keighbours (KNN) em conjunto de dados gerado a partir
de distribuição gaussianas variando o parâmetro K para poder entender melhor seu funcionamento e como
aplicar-lo
2 Metodologia
Para realizar a classificação desse conjunto de dados foram executados os seguintes passos:
1. Criação de quatro conjuntos de dados feitos a partir de distribuições gaussianos
2. Juntar as quatro distribuições de modo a formar os quatro quadrantes do eixo X-Y
3. Gerar amostras a serem classificadas
4. Utilizar o algoritmo KNN para classificar as amostras
5. Plotar o resultado da classificação
6. Variar o parâmetro K (numero de vizinhos considerados) com os seguintes valores: 2,4,8 e realizar novas
classificações e avaliar os resultados
7. Gerar novos conjunto de dados com diversos valores para o desvio padrão (0.3, 0.5, 0.7) e realizar novas
classificações e avaliar os resultados
U NIVERSIDADE F EDERAL DE M INAS G ERAIS - UFMG - 5 DE JULHO DE 2021
3 Resultados
3.1 Primeiro conjunto de dados classificado com k=5
Figura 1: Imagem
3.2 Classificação com k=2
Figura 2: Imagem
2
Figura 3: Imagem
Figura 4: Imagem
3.5 Interpretação dos Resultados variando o parâmetro K
Ao interpretar os gráficos acima, é possível visualizar que dependendo do valor escolhido para K temos diferentes
resultados, como por exemplo em valores pequenos é visível a ocorrência de overfitting dado que alguns pontos foram
classificados como azul mesmo com vários pontos amarelos ao redor, isto ocorreu pois temos alguns outliers azuis
próximos ao amarelo. Entretanto, com um maior valor de K podemos visualizar que a fronteira de classificação ficou
mais definida.
3
3.6 Gaussianas com desvio padrão de sigma=0.3 e k=5
Figura 5: Imagem
Figura 6: Imagem
4
Figura 7: Imagem
3.9 Interpretação dos Resultados variando os conjuntos de dados
Ao aumentar o desvio padrão utilizado na distribuição gaussiana que gera o conjunto de dados, temos pontos cada vez
mais espaçados o que pode confundir o algoritmo e produzir classificações incorretas. Deste modo também é possível
visualizar a sensibilidade do algoritmo quanto ao conjunto de dados.
Portanto, ao analisar os resultados acima, podemos verificar que o algoritmo KNN é uma boa ferramenta para classificar
dados, mas é interessante ressaltar que se trata de um algoritmo que é muito sensível ao parâmetro K e ao conjunto de
dados que será classificado.

K-Nearest Neighbors

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

K-Nearest Neighbors

Enviado por

Direitos autorais:

Formatos disponíveis

I NTRODUÇÃO A R ECONHECIMENTO DE PADRÕES - UFMG

K-N EAREST N EIGHBOURS (KNN)

Lucas Silva Chaves

1. Criação de quatro conjuntos de dados feitos a partir de distribuições gaussianos

2. Juntar as quatro distribuições de modo a formar os quatro quadrantes do eixo X-Y

3. Gerar amostras a serem classificadas

4. Utilizar o algoritmo KNN para classificar as amostras

5. Plotar o resultado da classificação

3.1 Primeiro conjunto de dados classificado com k=5

3.2 Classificação com k=2

3.3 Classificação com k=4

3.4 Classificação com k=8

3.5 Interpretação dos Resultados variando o parâmetro K

3.6 Gaussianas com desvio padrão de sigma=0.3 e k=5

3.7 Gaussianas com desvio padrão de sigma=0.5 e k=5

3.8 Gaussianas com desvio padrão de sigma=0.7 e k=5

3.9 Interpretação dos Resultados variando os conjuntos de dados

Você também pode gostar