Você está na página 1de 9

Método k-means

O método k-means é um método não hierárquico de agrupamento que tem como objectivo
minimizar os erros quadráticos da distância entre uma observação e o centróide do grupo. Este
método obriga à especificação prévia do número de grupos a formar e pode ser utilizado como
uma refinação do método hierárquico utilizado, especificando previamente os centróides em
vez de usar uma solução inicial aleatória.

Desenvolve-se em 4 etapas:
1. Escolhe k valores iniciais para os centróides dos grupos ou são fornecidos pelo
utilizador;
2. Afecta cada objecto ao grupo identificado pelo centróide do qual está mais próximo;
3. Actualiza os centróides dos grupos;
4. Repete 2 e 3 até que não se verifiquem alterações na constituição dos grupos (ou o
número máximo de iterações seja atingido).

Veja-se um exemplo no SPSS:


Em Analyze -> Classify -> K-means Cluster Analysis, escolher as variáveis de agrupamento que
no exemplo são as componentes principais.

Repare-se que nesta janela há possibilidade de leitura dos centros iniciais dos clusters, mas
não é obrigatório. Se se pretender refinar uma solução obtida hierarquicamente, escolhe-se
um ficheiro previamente gravado numa estrutura especifica. Ver explicação mais à frente
neste documento.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 1
Em Options:

Em Save:

OUTPUTS DA ANÁLISE

A análise apresenta os centróides da solução inicial, um historial de todo o processo e


finalmente os centróides da solução final.

Initial Cluster Centers


Cluster

1 2 3 4
Características físicas -2,89476 2,16242 -2,76712 ,77737
dos jornais
Qualidade de ,66605 -,91800 ,35901 -1,33742
Informação
Leitura fácil e agradável 1,50360 1,74278 -3,05642 -,02900
Layout dos jornais -1,08115 -3,52705 ,85262 1,09253

Catarina Marques
Técnicas Quantitativas de Análise de Dados 2
Iteration Historya
Change in Cluster Centers

Iteration 1 2 3 4
1 2,051 2,114 1,062 1,562
2 ,270 ,487 ,000 ,125
3 ,129 ,194 ,000 ,051
4 ,107 ,197 ,000 ,049
5 ,125 ,347 ,000 ,044
6 ,000 ,274 ,000 ,062
7 ,000 ,123 ,000 ,032
8 ,000 ,000 ,000 ,000
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center is
,000. The current iteration is 8. The minimum
distance between initial centers is 4,957.

O nº máximo de iterações por defeito é 10. Pode alterar-se este valor bem como o critério de
convergência. Pode ser interessante alterar este nº máximo de iterações quando não são
dados os centros iniciais, que é o caso do exemplo. A alteração faz-se na janela Iterate.

Convém estar atento à nota de rodapé do quadro Iteration History. Tal indicará se o nº máximo
de iterações tem mesmo que ser alterado, por a convergência não ter sido atingida.

Final Cluster Centers


Cluster

1 2 3 4
Características físicas -1,04237 ,61208 -2,66852 ,41154
dos jornais
Qualidade de ,31927 -,51343 ,34635 -,03113
Informação
Leitura fácil e agradável ,40524 ,49508 -2,00582 -,23199
Layout dos jornais -,28535 -1,46103 ,73178 ,45535

Com esta informação pode realizar-se um gráfico para ajudar a interpretar:

Catarina Marques
Técnicas Quantitativas de Análise de Dados 3
Através do gráfico poderá dizer-se que:
• Os leitores do grupo 1 valorizam mais a qualidade da informação e os aspectos
relacionados com a leitura fácil e agradável;
• Os leitores do grupo 2 valorizam as características físicas dos jornais e os aspectos
relacionados com a leitura fácil e agradável e são os que menos importância dão ao
layout;
• Os indivíduos que constituem o grupo 3 são os que menos valorizam as características
físicas e os aspectos de leitura fácil e agradável, mas estão entre os que apreciam a
qualidade de informação e o layout dos jornais;
• Por fim, os do grupo 4 apreciam as características físicas e os aspectos relacionados
com a leitura fácil e agradável;
Será que conseguimos “baptizar” estes grupos?

ANOVA
Cluster Error

Mean Square df Mean Square Df F Sig.


Características físicas 19,187 3 ,432 96 44,449 ,000
dos jornais
Qualidade de 2,212 3 ,962 96 2,299 ,082
Informação
Leitura fácil e agradável 6,290 3 ,835 96 7,535 ,000
Layout dos jornais 15,033 3 ,561 96 26,774 ,000

The F tests should be used only for descriptive purposes because the clusters have been chosen
to maximize the differences among cases in different clusters. The observed significance levels are
not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster
means are equal.

As variáveis Características físicas e layout dos jornais são as que mais permitem a
diferenciação (discriminação) dos grupos.

Catarina Marques
Técnicas Quantitativas de Análise de Dados 4
Number of Cases in each
Cluster
Cluster 1 26,000
2 14,000
3 2,000
4 58,000
Valid 100,000
Missing ,000

Esta não parece ser uma boa solução! Veja-se que o grupo 3 apenas tem 2 casos.

Replique esta análise para obter uma solução de 3 clusters pelo método k-means, usando uma
solução inicial aleatória.

A seguir irá apresentar-se uma análise de clusters pelo método k-means, usando como solução
inicial uma solução ward de 3 clusters.

Catarina Marques
Técnicas Quantitativas de Análise de Dados 5
Método K-means com uma solução inicial de um método hierárquico

Como vimos o método k-means pode ser utilizado como uma refinação do método hierárquico
utilizado, especificando previamente os centróides em vez de usar uma solução inicial
aleatória.

Teremos que criar um ficheiro constituído pelos centróides dos grupos da solução inicial.
Peguemos na solução ward de 3 clusters das folhas de SPSS de Análise de Clusters, cujos
centros (médias que serão usadas como os centros iniciais dos grupos) são os seguintes:

Mean

Ward Características Qualidade de Leitura fácil e


Method físicas dos jornais Informação agradável Layout dos jornais
1 -,5961497 -,3492981 ,2696156 ,3087923
2 ,5526302 ,6546183 -,1308873 ,2705833
3 ,4779027 -,4205440 -,4682348 -1,4267197

Certifiquemo-nos que o ficheiro que iremos construir com esta informação tem exactamente o
mesmo nome das variáveis que estão no ficheiro “jornais.sav”.

Num ficheiro novo deveremos então criar a seguinte folha de variáveis

Note-se que os nomes da variáveis são exactamente os mesmos da base de dados.

Catarina Marques
Técnicas Quantitativas de Análise de Dados 6
E na folha de dados devem constar os centroides:

Gravar os ficheiro com o nome “ficheiro de centriodes_kmeans_ward3.sav”.

Agora vamos realizar uma análise de clusters pelo método k-means, considerando como
solução inicial a que é constituída por este conjunto de centroides.

Em Analyze -> Classify -> K-means Cluster Analysis, escolher as variáveis de agrupamento que
no exemplo são as componentes principais.

Repare-se que nesta janela indica ao SPSS para ir ler o ficheiro que tem a solução inicial.
Proceda como anteriormente e obtém-se os resultados seguintes.

Catarina Marques
Técnicas Quantitativas de Análise de Dados 7
Outra hipótese é criar um ficheiro de syntax “ficheiro de médias ward3.sps”com a seguinte
informação:

Depois do ficheiro constituído com o valor das médias, correr o ficheiro pela selecção de todas
as linhas e carregar em

OUTPUTS DA ANÁLISE

Esta é a solução k-means.

Initial Cluster Centers


Cluster

1 2 3
Características físicas -.5961497 .5526302 .4779027
dos jornais
Qualidade de -.3492981 .6546183 -.4205440
Informação
Leitura fácil e agradável .2696156 -.1308873 -.4682348
Layout dos jornais .3087923 .2705833 -1.4267197
Input from INITIAL Subcommand

Iteration Historya
Change in Cluster Centers

Iteration 1 2 3
1 ,251 ,132 ,152
2 ,026 ,079 ,145
3 ,060 ,124 ,164
4 ,094 ,113 ,070
5 ,123 ,063 ,160
6 ,049 ,041 ,000
7 ,029 ,023 ,000
8 ,000 ,000 ,000

Catarina Marques
Técnicas Quantitativas de Análise de Dados 8
Iteration Historya
Change in Cluster Centers

Iteration 1 2 3
1 ,251 ,132 ,152
2 ,026 ,079 ,145
3 ,060 ,124 ,164
4 ,094 ,113 ,070
5 ,123 ,063 ,160
6 ,049 ,041 ,000
7 ,029 ,023 ,000
8 ,000 ,000 ,000
a. Convergence achieved due to no or
small change in cluster centers. The
maximum absolute coordinate change
for any center is ,000. The current
iteration is 8. The minimum distance
between initial centers is 1,578.

Final Cluster Centers


Cluster

1 2 3
Características físicas -,79639 ,40874 ,54087
dos jornais
Qualidade de -,69715 ,62652 -,16294
Informação
Leitura fácil e agradável ,02827 ,26042 -,67036
Layout dos jornais ,08058 ,48153 -1,29315

ANOVA
Cluster Error

Mean Square df Mean Square df F Sig.


Características físicas 17,955 2 ,650 97 27,604 ,000
dos jornais
Qualidade de 17,832 2 ,653 97 27,311 ,000
Informação
Leitura fácil e agradável 5,809 2 ,901 97 6,449 ,002
Layout dos jornais 21,220 2 ,583 97 36,392 ,000
The F tests should be used only for descriptive purposes because the clusters have been chosen
to maximize the differences among cases in different clusters. The observed significance levels are
not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster
means are equal.

Number of Cases in each


Cluster
Cluster 1 36,000
2 45,000
3 19,000
Valid 100,000
Missing ,000

Verifique o quão diferente é esta solução da obtida pelo método k-means com uma solução
aleatória. Outra análise interessante é averiguar a diferença entre esta solução e a solução
ward, a solução inicial.

Catarina Marques
Técnicas Quantitativas de Análise de Dados 9

Você também pode gostar