Você está na página 1de 4

Universidade Federal do Par - UFPA Faculdade de Engenharia da Computao e Telecomunicaes Redes Neurais

Algoritmo de agrupamento K-Means


Anselmo Leonardo, Igor Alexei Euripedes Santos

Resumo - Este trabalho apresenta os resultados do algoritmo de agrupamento kmeans para o modo off-line e online (adaptativo) utilizando o ndice de DaviesBouldin como mtrica de avaliao. Ser usado para analise do algoritmo um conjunto de dados chamado Flea(Pulga) que contm 3 espcies de pulga. Palavras chave: k-means. agrupamento. adaptativo. 1. Introduo O objetivo deste documento esclarecer a ideia do algoritmo K-Means (tambm chamado de K-Mdias) fornecer uma classificao de informaes de acordo com os prprios dados. Esta classificao baseada em anlise e comparaes entre os valores numricos dos dados. Desta maneira, o algoritmo automaticamente vai fornecer uma classificao automtica sem a necessidade de nenhuma superviso humana, ou seja, sem nenhuma pr-classificao existente. Por causa desta caracterstica, o K-Means considerado como um algoritmo de minerao de dados no supervisionado. Na seo 2, 3 e 4 sero apresentados os resultados do k-means offline,online e a comparao dos ndice de Davies-Bouldin respectivamente. 2. K-means off-line O K-means off-line foi setado para criar 3 agrupamentos como mostrado na Figura1.

Figura 1. Resultado da execuo k-means off-line.

Universidade Federal do Par - UFPA Faculdade de Engenharia da Computao e Telecomunicaes Redes Neurais

Em 90% dos resultados o ndice de Davies-Bouldin manteve-se em 0.6179 considerado bom em relao amostra que saiu do padro, com ndice de 1.1630 como e mostrado na Figura 2.

Figura 2. Resultado fora do padro.

Podemos notar que com 3 agrupamentos o ndice convergiu para o mesmo valor, ou seja, de acordo com o ndice o agrupamento com 3 centroides uma boa escolha para se fornecer uma classificao de informaes para esses dados, veremos melhor na seo 4 a influencia do ndice na escolha do numero de centroides.
3. K-means Online

Os resultados dos testes do k-means online foram bem diversificados tendo altos e baixos valores do ndice. A Figura 3 mostra o melhor agrupamento de acordo com o valor do ndice que foi de 0.7222.

Figura 3. Melhor resultado k-means online com ndice de 0.7222.

Universidade Federal do Par - UFPA Faculdade de Engenharia da Computao e Telecomunicaes Redes Neurais

O pior resultado para o k-means online e mostrado na Figura 4.

Figura 4. Pior resultado no agrupamento.

Notamos que o k-means online teve resultados piores que o off-line, mas precisamos levar em considerao que a constante eta do online se manteve no valor padro para todos os testes, a variao dessa constante poderia levar o algoritmo a resultados melhores com ndices mais baixos.
4. Analise do ndice de Davies-Bouldin. Para a analise do ndice utilizamos a funo Boxplot do matlab, para visualizarmos os valores de acordo com o numero de agrupamentos setados, foram feitos testes com 2,3 e 4 agrupamentos com o k-means off-line e o online. Os valores dos ndices so mostrados na Figura 5 para o algoritmo off-line.

Universidade Federal do Par - UFPA Faculdade de Engenharia da Computao e Telecomunicaes Redes Neurais
Figura 5. BoxPlot dos ndices para agrupamentos com 2, 3 e 4 off-line.

Percebe-se que com 3 agrupamentos os valores do ndice se concentram em 0.6179 mostrando um bom resultado, o que torna para esses dados um melhor agrupamento com 3 centroides. Nos outros agrupamentos temos muita variao com valores mnimos, mximos e a mediana que indica quais valores apareceram mais, e temos tambm as fugas que so marcadas com o sinal de + vermelho. Na figura 6 so mostrados os resultados dos ndices para o k-means online.

Figura 6. BoxPlot dos ndices para agrupamentos com 2,3 e 4 online.

Os ndices alcanados no k-means online para os 3 tipos de agrupamento tiveram grande variao mesmo para 3 centroides.
5. Concluso Neste trabalho apresentamos o algoritmo de agrupamento K-means com ndice de Davies-Bouldin mostrando alguns de seus resultados e analises que nos permitem inferir sobre os conceitos apresentados acerca do assunto. Referncias Santos, Euripedes. Redes Neurais: Notas de aula. UFPA, Belm, 2012. Pichiliani,Mauro.Data Mining na Prtica: Algoritmo K-Means. Disponivel em < http://imasters.com.br/artigo/4709/sql-server/data-mining-na-pratica-algoritmok-means>. Acesso em 16/11/2012.

Você também pode gostar