TQAD - AClusters em SPSS - Método K-Means

Método k-means
O método k-means é um método não hierárquico de agrupamento que tem como objectivo
minimizar os erros quadráticos da distância entre uma observação e o centróide do grupo. Este
método obriga à especificação prévia do número de grupos a formar e pode ser utilizado como
uma refinação do método hierárquico utilizado, especificando previamente os centróides em
vez de usar uma solução inicial aleatória.
Desenvolve-se em 4 etapas:
1. Escolhe k valores iniciais para os centróides dos grupos ou são fornecidos pelo
utilizador;
2. Afecta cada objecto ao grupo identificado pelo centróide do qual está mais próximo;
3. Actualiza os centróides dos grupos;
4. Repete 2 e 3 até que não se verifiquem alterações na constituição dos grupos (ou o
número máximo de iterações seja atingido).
Veja-se um exemplo no SPSS:

Em Analyze -> Classify -> K-means Cluster Analysis, escolher as variáveis de agrupamento que
no exemplo são as componentes principais.
Repare-se que nesta janela há possibilidade de leitura dos centros iniciais dos clusters, mas
não é obrigatório. Se se pretender refinar uma solução obtida hierarquicamente, escolhe-se
um ficheiro previamente gravado numa estrutura especifica. Ver explicação mais à frente
neste documento.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 1
Em Options:
Em Save:
OUTPUTS DA ANÁLISE
A análise apresenta os centróides da solução inicial, um historial de todo o processo e

finalmente os centróides da solução final.
Initial Cluster Centers

Cluster
1 2 3 4
Características físicas -2,89476 2,16242 -2,76712 ,77737
dos jornais
Qualidade de ,66605 -,91800 ,35901 -1,33742
Informação
Leitura fácil e agradável 1,50360 1,74278 -3,05642 -,02900
Layout dos jornais -1,08115 -3,52705 ,85262 1,09253
Catarina Marques
Iteration Historya
Change in Cluster Centers
Iteration 1 2 3 4
1 2,051 2,114 1,062 1,562
2 ,270 ,487 ,000 ,125
3 ,129 ,194 ,000 ,051
4 ,107 ,197 ,000 ,049
5 ,125 ,347 ,000 ,044
6 ,000 ,274 ,000 ,062
7 ,000 ,123 ,000 ,032
8 ,000 ,000 ,000 ,000
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center is
,000. The current iteration is 8. The minimum
distance between initial centers is 4,957.
O nº máximo de iterações por defeito é 10. Pode alterar-se este valor bem como o critério de
convergência. Pode ser interessante alterar este nº máximo de iterações quando não são
dados os centros iniciais, que é o caso do exemplo. A alteração faz-se na janela Iterate.
Convém estar atento à nota de rodapé do quadro Iteration History. Tal indicará se o nº máximo
de iterações tem mesmo que ser alterado, por a convergência não ter sido atingida.
Final Cluster Centers

Cluster
1 2 3 4
Características físicas -1,04237 ,61208 -2,66852 ,41154
dos jornais
Qualidade de ,31927 -,51343 ,34635 -,03113
Informação
Leitura fácil e agradável ,40524 ,49508 -2,00582 -,23199
Layout dos jornais -,28535 -1,46103 ,73178 ,45535
Com esta informação pode realizar-se um gráfico para ajudar a interpretar:
Catarina Marques
Através do gráfico poderá dizer-se que:
• Os leitores do grupo 1 valorizam mais a qualidade da informação e os aspectos
relacionados com a leitura fácil e agradável;
• Os leitores do grupo 2 valorizam as características físicas dos jornais e os aspectos
relacionados com a leitura fácil e agradável e são os que menos importância dão ao
layout;
• Os indivíduos que constituem o grupo 3 são os que menos valorizam as características
físicas e os aspectos de leitura fácil e agradável, mas estão entre os que apreciam a
qualidade de informação e o layout dos jornais;
• Por fim, os do grupo 4 apreciam as características físicas e os aspectos relacionados
com a leitura fácil e agradável;
Será que conseguimos “baptizar” estes grupos?
ANOVA
Cluster Error
Mean Square df Mean Square Df F Sig.

Características físicas 19,187 3 ,432 96 44,449 ,000
dos jornais
Qualidade de 2,212 3 ,962 96 2,299 ,082
Informação
Leitura fácil e agradável 6,290 3 ,835 96 7,535 ,000
Layout dos jornais 15,033 3 ,561 96 26,774 ,000
The F tests should be used only for descriptive purposes because the clusters have been chosen
to maximize the differences among cases in different clusters. The observed significance levels are
not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster
means are equal.
As variáveis Características físicas e layout dos jornais são as que mais permitem a
diferenciação (discriminação) dos grupos.
Catarina Marques
Number of Cases in each
Cluster
Cluster 1 26,000
2 14,000
3 2,000
4 58,000
Valid 100,000
Missing ,000
Esta não parece ser uma boa solução! Veja-se que o grupo 3 apenas tem 2 casos.
Replique esta análise para obter uma solução de 3 clusters pelo método k-means, usando uma
solução inicial aleatória.
A seguir irá apresentar-se uma análise de clusters pelo método k-means, usando como solução
inicial uma solução ward de 3 clusters.
Catarina Marques
Método K-means com uma solução inicial de um método hierárquico
Como vimos o método k-means pode ser utilizado como uma refinação do método hierárquico
utilizado, especificando previamente os centróides em vez de usar uma solução inicial
aleatória.
Teremos que criar um ficheiro constituído pelos centróides dos grupos da solução inicial.
Peguemos na solução ward de 3 clusters das folhas de SPSS de Análise de Clusters, cujos
centros (médias que serão usadas como os centros iniciais dos grupos) são os seguintes:
Mean
Ward Características Qualidade de Leitura fácil e

Method físicas dos jornais Informação agradável Layout dos jornais
1 -,5961497 -,3492981 ,2696156 ,3087923
2 ,5526302 ,6546183 -,1308873 ,2705833
3 ,4779027 -,4205440 -,4682348 -1,4267197
Certifiquemo-nos que o ficheiro que iremos construir com esta informação tem exactamente o
mesmo nome das variáveis que estão no ficheiro “jornais.sav”.
Num ficheiro novo deveremos então criar a seguinte folha de variáveis
Note-se que os nomes da variáveis são exactamente os mesmos da base de dados.
Catarina Marques
E na folha de dados devem constar os centroides:
Gravar os ficheiro com o nome “ficheiro de centriodes_kmeans_ward3.sav”.
Agora vamos realizar uma análise de clusters pelo método k-means, considerando como
solução inicial a que é constituída por este conjunto de centroides.
Em Analyze -> Classify -> K-means Cluster Analysis, escolher as variáveis de agrupamento que
no exemplo são as componentes principais.
Repare-se que nesta janela indica ao SPSS para ir ler o ficheiro que tem a solução inicial.
Proceda como anteriormente e obtém-se os resultados seguintes.
Catarina Marques
Outra hipótese é criar um ficheiro de syntax “ficheiro de médias ward3.sps”com a seguinte
informação:
Depois do ficheiro constituído com o valor das médias, correr o ficheiro pela selecção de todas
as linhas e carregar em
OUTPUTS DA ANÁLISE
Esta é a solução k-means.
Initial Cluster Centers

Cluster
1 2 3
Características físicas -.5961497 .5526302 .4779027
dos jornais
Qualidade de -.3492981 .6546183 -.4205440
Informação
Leitura fácil e agradável .2696156 -.1308873 -.4682348
Layout dos jornais .3087923 .2705833 -1.4267197
Input from INITIAL Subcommand
Iteration Historya
Iteration 1 2 3
1 ,251 ,132 ,152
2 ,026 ,079 ,145
3 ,060 ,124 ,164
4 ,094 ,113 ,070
5 ,123 ,063 ,160
6 ,049 ,041 ,000
7 ,029 ,023 ,000
8 ,000 ,000 ,000
Catarina Marques
Iteration Historya
Iteration 1 2 3
1 ,251 ,132 ,152
2 ,026 ,079 ,145
3 ,060 ,124 ,164
4 ,094 ,113 ,070
5 ,123 ,063 ,160
6 ,049 ,041 ,000
7 ,029 ,023 ,000
8 ,000 ,000 ,000
a. Convergence achieved due to no or
small change in cluster centers. The
maximum absolute coordinate change
for any center is ,000. The current
iteration is 8. The minimum distance
between initial centers is 1,578.
Final Cluster Centers

Cluster
1 2 3
Características físicas -,79639 ,40874 ,54087
dos jornais
Qualidade de -,69715 ,62652 -,16294
Informação
Leitura fácil e agradável ,02827 ,26042 -,67036
Layout dos jornais ,08058 ,48153 -1,29315
ANOVA
Cluster Error
Mean Square df Mean Square df F Sig.

Características físicas 17,955 2 ,650 97 27,604 ,000
dos jornais
Qualidade de 17,832 2 ,653 97 27,311 ,000
Informação
Leitura fácil e agradável 5,809 2 ,901 97 6,449 ,002
Layout dos jornais 21,220 2 ,583 97 36,392 ,000
The F tests should be used only for descriptive purposes because the clusters have been chosen
to maximize the differences among cases in different clusters. The observed significance levels are
not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster
means are equal.
Number of Cases in each

Cluster
Cluster 1 36,000
2 45,000
3 19,000
Valid 100,000
Missing ,000
Verifique o quão diferente é esta solução da obtida pelo método k-means com uma solução
aleatória. Outra análise interessante é averiguar a diferença entre esta solução e a solução
ward, a solução inicial.
Catarina Marques

TQAD - AClusters em SPSS - Método K-Means

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TQAD - AClusters em SPSS - Método K-Means

Enviado por

Direitos autorais:

Formatos disponíveis

Método k-means

Veja-se um exemplo no SPSS:

A análise apresenta os centróides da solução inicial, um historial de todo o processo e

Initial Cluster Centers

Final Cluster Centers

Com esta informação pode realizar-se um gráfico para ajudar a interpretar:

Mean Square df Mean Square Df F Sig.

Ward Características Qualidade de Leitura fácil e

Num ficheiro novo deveremos então criar a seguinte folha de variáveis

Note-se que os nomes da variáveis são exactamente os mesmos da base de dados.

Gravar os ficheiro com o nome “ficheiro de centriodes_kmeans_ward3.sav”.

Esta é a solução k-means.

Initial Cluster Centers

Final Cluster Centers

Mean Square df Mean Square df F Sig.

Number of Cases in each

Você também pode gostar