Escolar Documentos
Profissional Documentos
Cultura Documentos
O método k-means é um método não hierárquico de agrupamento que tem como objectivo
minimizar os erros quadráticos da distância entre uma observação e o centróide do grupo. Este
método obriga à especificação prévia do número de grupos a formar e pode ser utilizado como
uma refinação do método hierárquico utilizado, especificando previamente os centróides em
vez de usar uma solução inicial aleatória.
Desenvolve-se em 4 etapas:
1. Escolhe k valores iniciais para os centróides dos grupos ou são fornecidos pelo
utilizador;
2. Afecta cada objecto ao grupo identificado pelo centróide do qual está mais próximo;
3. Actualiza os centróides dos grupos;
4. Repete 2 e 3 até que não se verifiquem alterações na constituição dos grupos (ou o
número máximo de iterações seja atingido).
Repare-se que nesta janela há possibilidade de leitura dos centros iniciais dos clusters, mas
não é obrigatório. Se se pretender refinar uma solução obtida hierarquicamente, escolhe-se
um ficheiro previamente gravado numa estrutura especifica. Ver explicação mais à frente
neste documento.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 1
Em Options:
Em Save:
OUTPUTS DA ANÁLISE
1 2 3 4
Características físicas -2,89476 2,16242 -2,76712 ,77737
dos jornais
Qualidade de ,66605 -,91800 ,35901 -1,33742
Informação
Leitura fácil e agradável 1,50360 1,74278 -3,05642 -,02900
Layout dos jornais -1,08115 -3,52705 ,85262 1,09253
Catarina Marques
Técnicas Quantitativas de Análise de Dados 2
Iteration Historya
Change in Cluster Centers
Iteration 1 2 3 4
1 2,051 2,114 1,062 1,562
2 ,270 ,487 ,000 ,125
3 ,129 ,194 ,000 ,051
4 ,107 ,197 ,000 ,049
5 ,125 ,347 ,000 ,044
6 ,000 ,274 ,000 ,062
7 ,000 ,123 ,000 ,032
8 ,000 ,000 ,000 ,000
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center is
,000. The current iteration is 8. The minimum
distance between initial centers is 4,957.
O nº máximo de iterações por defeito é 10. Pode alterar-se este valor bem como o critério de
convergência. Pode ser interessante alterar este nº máximo de iterações quando não são
dados os centros iniciais, que é o caso do exemplo. A alteração faz-se na janela Iterate.
Convém estar atento à nota de rodapé do quadro Iteration History. Tal indicará se o nº máximo
de iterações tem mesmo que ser alterado, por a convergência não ter sido atingida.
1 2 3 4
Características físicas -1,04237 ,61208 -2,66852 ,41154
dos jornais
Qualidade de ,31927 -,51343 ,34635 -,03113
Informação
Leitura fácil e agradável ,40524 ,49508 -2,00582 -,23199
Layout dos jornais -,28535 -1,46103 ,73178 ,45535
Catarina Marques
Técnicas Quantitativas de Análise de Dados 3
Através do gráfico poderá dizer-se que:
• Os leitores do grupo 1 valorizam mais a qualidade da informação e os aspectos
relacionados com a leitura fácil e agradável;
• Os leitores do grupo 2 valorizam as características físicas dos jornais e os aspectos
relacionados com a leitura fácil e agradável e são os que menos importância dão ao
layout;
• Os indivíduos que constituem o grupo 3 são os que menos valorizam as características
físicas e os aspectos de leitura fácil e agradável, mas estão entre os que apreciam a
qualidade de informação e o layout dos jornais;
• Por fim, os do grupo 4 apreciam as características físicas e os aspectos relacionados
com a leitura fácil e agradável;
Será que conseguimos “baptizar” estes grupos?
ANOVA
Cluster Error
The F tests should be used only for descriptive purposes because the clusters have been chosen
to maximize the differences among cases in different clusters. The observed significance levels are
not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster
means are equal.
As variáveis Características físicas e layout dos jornais são as que mais permitem a
diferenciação (discriminação) dos grupos.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 4
Number of Cases in each
Cluster
Cluster 1 26,000
2 14,000
3 2,000
4 58,000
Valid 100,000
Missing ,000
Esta não parece ser uma boa solução! Veja-se que o grupo 3 apenas tem 2 casos.
Replique esta análise para obter uma solução de 3 clusters pelo método k-means, usando uma
solução inicial aleatória.
A seguir irá apresentar-se uma análise de clusters pelo método k-means, usando como solução
inicial uma solução ward de 3 clusters.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 5
Método K-means com uma solução inicial de um método hierárquico
Como vimos o método k-means pode ser utilizado como uma refinação do método hierárquico
utilizado, especificando previamente os centróides em vez de usar uma solução inicial
aleatória.
Teremos que criar um ficheiro constituído pelos centróides dos grupos da solução inicial.
Peguemos na solução ward de 3 clusters das folhas de SPSS de Análise de Clusters, cujos
centros (médias que serão usadas como os centros iniciais dos grupos) são os seguintes:
Mean
Certifiquemo-nos que o ficheiro que iremos construir com esta informação tem exactamente o
mesmo nome das variáveis que estão no ficheiro “jornais.sav”.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 6
E na folha de dados devem constar os centroides:
Agora vamos realizar uma análise de clusters pelo método k-means, considerando como
solução inicial a que é constituída por este conjunto de centroides.
Em Analyze -> Classify -> K-means Cluster Analysis, escolher as variáveis de agrupamento que
no exemplo são as componentes principais.
Repare-se que nesta janela indica ao SPSS para ir ler o ficheiro que tem a solução inicial.
Proceda como anteriormente e obtém-se os resultados seguintes.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 7
Outra hipótese é criar um ficheiro de syntax “ficheiro de médias ward3.sps”com a seguinte
informação:
Depois do ficheiro constituído com o valor das médias, correr o ficheiro pela selecção de todas
as linhas e carregar em
OUTPUTS DA ANÁLISE
1 2 3
Características físicas -.5961497 .5526302 .4779027
dos jornais
Qualidade de -.3492981 .6546183 -.4205440
Informação
Leitura fácil e agradável .2696156 -.1308873 -.4682348
Layout dos jornais .3087923 .2705833 -1.4267197
Input from INITIAL Subcommand
Iteration Historya
Change in Cluster Centers
Iteration 1 2 3
1 ,251 ,132 ,152
2 ,026 ,079 ,145
3 ,060 ,124 ,164
4 ,094 ,113 ,070
5 ,123 ,063 ,160
6 ,049 ,041 ,000
7 ,029 ,023 ,000
8 ,000 ,000 ,000
Catarina Marques
Técnicas Quantitativas de Análise de Dados 8
Iteration Historya
Change in Cluster Centers
Iteration 1 2 3
1 ,251 ,132 ,152
2 ,026 ,079 ,145
3 ,060 ,124 ,164
4 ,094 ,113 ,070
5 ,123 ,063 ,160
6 ,049 ,041 ,000
7 ,029 ,023 ,000
8 ,000 ,000 ,000
a. Convergence achieved due to no or
small change in cluster centers. The
maximum absolute coordinate change
for any center is ,000. The current
iteration is 8. The minimum distance
between initial centers is 1,578.
1 2 3
Características físicas -,79639 ,40874 ,54087
dos jornais
Qualidade de -,69715 ,62652 -,16294
Informação
Leitura fácil e agradável ,02827 ,26042 -,67036
Layout dos jornais ,08058 ,48153 -1,29315
ANOVA
Cluster Error
Verifique o quão diferente é esta solução da obtida pelo método k-means com uma solução
aleatória. Outra análise interessante é averiguar a diferença entre esta solução e a solução
ward, a solução inicial.
Catarina Marques
Técnicas Quantitativas de Análise de Dados 9