Você está na página 1de 10

Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

1 Resumo
Esse relatório tem o objetivo de mostrar os resultados obtidos na classificação utilizando a
base de dados Iris e da Coluna 2C e 3C com KNN e DMC. Os códigos foram desenvolvidos no
Matlab utilizando as práticas sugeridas em sala de aula e pesquisas na internet.

2 Base de Dados
2.1 Base de dados da flor de íris
Foi utilizada uma base de dados disponibilizada próprio Matlab, que fornece os dados de
entrada e saída para cada uma das 3 classes da (Iris Setosa, Iris Versicolour, Iris Virginica).
Cada uma possui 4 parâmetros, sendo eles o comprimento e largura da sépala e pétala. No
total são 150 amostras de Iris, sendo 50 para cada classe.

A base de dados (dataset) foi dividida usando o modelo holdout, que consiste em dividir o
conjunto total de dados em dois subconjuntos mutuamente exclusivos, que serão utilizados
para treinamento e teste.

2.2 Base de Dados da Coluna Vertebral


A base contém parâmetros biomecânicos e foi utilizada a que está no Site UCI Machine
Learning (http://archive.ics.uci.edu/ml/datasets/Vertebral+Column).

Assim como a Iris, a base de dados (dataset) foi dividida usando o modelo holdout, para
treinamento e teste.

3 KNN
3.1 Resultados obtidos
3.1.1 Variação do valor de K
Foram feitos uma série de teste variando o valor de K de 1 até 105. O valor 105 se dá devido
ao holdout utilizado, para 70% de treinamento e 30% de testes.
Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

Figura 1- Testes com a Iris: Média das acurácias 30 repetições, com o K progredindo de 1 a 105. Com K a partir
de aproximadamente 70, a média começa a cair bruscamente

A figura 1 mostra o percentual de acertos com 30 repetições em cada K. Nota-se que a partir
de K=20, começa uma queda na média dos acertos, continuando assim até que em
aproximadamente K=70 há uma queda brusca na qualidade da classificação. Tendo
novamente em K=100 uma queda, levando a baixos níveis de classificação.

No gráfico, a melhor classificação foi obtida em K=8, com uma média de 96,93%. Isso não
quer dizer que esse sempre o melhor resultado, mas de 10 execuções, todos tiveram o
melhor resultado com K até o valor de 15.

Já nas figuras 2 e 3 temos uma amostra com 217 repetições, onde casa é feita 20 vezes para
a coluna 2C e 3c. Nota-se que para 2C a partir de K=140que se mantém até o final, sem
desvios. Em 3C, a partir de K=182 há a mesma queda também se mantendo sem desvios.
Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

Figura 2 - 2C: MAX em k = 22, com 75% de acertos

Figura 3- 3C: MAX em k = 16, com 84,7% de acertos

3.1.2 Classes
Particularmente, não consegui no Matlab realizar uma programação para desenhar as áreas
das classes, então deixei as classes separadas por acertos, levando em consideração todos os
testes realizados nas repetições, conforme as figuras 4 e 5.
Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

Figura 4 - Classes divididas por cor em Coluna 2C

Figura 5 - Classes divididas por cor em Coluna 3C


Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

3.1.3 Matrix Confusão Iris

Figura 6 - Matriz Confusão: Obtida para K igual a 15. Dentre os testes individuais, esse valor mostra a melhor
acurácia.
Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

4 DMC
4.1 Resultados obtidos
4.1.1 Variação do Holdout
Para a Iris, os testes foram executados efetuando uma variação no Holdout entre 30% a 95%,
e em cada percentual foram realizadas 30 execuções gerando médias que variaram entre
90% e 94% (Figura 8). A organização randômica da base de dados faz com que a posição do
centroide varie durante a execução, assim os resultados obtidos geram diferentes gráficos,
conforme mostrado na figura 7.

Figura 7 - Variação dos Testes. Cada "bola" é um holdout diferente, que mostra diferentes picos de boa
classificação
Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

Figura 8 - Nesse caso, o melhor resultado foi um holdout 50/50, com 92,36% de acerto.

Para a Coluna, os testes foram executados efetuando uma variação no Holdout entre 50% a
95%. A mudança se deu, pois, testes com percentuais menores que 50% não estavam
mostrando tantas variações no resultado. Em cada percentual foram realizadas 30 execuções
gerando médias que variaram entre 76% e 78,1% para a Coluna 2C (Figura 9) e entre 72% e
74,8% para a coluna 3C (Figura 10).

Figura 9 - 2C: MAX de 78,1% e média de 76,9%


Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

Figura 10 - 3C: MAX de 74,8% e média de 74,52%

4.1.2 Classes

Figura 11 - Divisão de Classes da Coluna 2C


Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

Figura 12 - Divisão de Classes da Coluna 3C

4.1.3 Matriz confusão Iris

Figura 13 - Matriz confusão da Iris com Holdout de 80% para treinamento


Classificadores KNN e DMC utilizando o MATLAB

Gerson Vieira Albuquerque Neto

Prof. Ajalmar - Aprendizado de Máquina - Mestrado em Ciências da Computação – IFCE –


2017.1

5 Considerações finais
Foram apresentados os resultados de classificação utilizando KNN e DMC. O DMC além de
não apresentar resultados tão satisfatórios como do KNN, também apresenta muita
instabilidade à medida que se executam mais testes, isso devido a maneira como os dados
são classificados, se utilizando apenas de uma comparação com a centróide daquela
execução. No KNN percebe-se uma maior regularidade entre testes, visto que em todas as
execuções é possível compara-lo com vizinhos à medida que o K cresce, o que traz em média
resultados parecidos. O DMC apesar dos resultados menos satisfatórios, possui um
desempenho bem mais alto e deve ser levado em consideração dependendo do grau de
necessidade de confiabilidade no que venha a ser classificado.