Clusters

ANÁLISE DE DADOS MULTIVARIADA:
ANÁLISE DE CLUSTERS
Instituto Universitário de Lisboa

Graça Trindade
Análise de Clusters
ÍNDICE
1. Objectivo de uma análise de Clusters 1
2. Medidas de semelhança e dissemelhança 2
3. Métodos de análise de clusters 3
3.1 Método hierárquico aglomerativo 4
3.1.1 Exemplos de aplicação de métodos de agregação 6
3.1.2 Comparação de dendrogramas para diferentes métodos hierárquicos 12
3.2 Método de otimização k-means 13

3.2.1 Exemplo do método K-Means com recurso ao SPSS Statistics 14
4. Número de clusters a formar 17

4.1. Com recurso a uma análise conjunta 17
5. Contributo desta análise multivariada 19
5.1 Relação entre os atributos dos semanários e os grupos 19
5.2 Relação entre as caraterísticas demográficas dos leitores e os grupos 22
6. Two-Step Clustering 23
6.1 Etapas do Two-Step Cluster Analysis 23
6.2 Exemplo com recurso ao SPSS Statistics 24
ÍNDICE DE FIGURAS
Figura 1 – Exemplos de clusters ..................................................................................................... 1
Figura 2: Dendrograma obtido do critério do vizinho mais próximo ............................................. 9
Figura 3: Representação gráfica dos coeficientes de fusão ........................................................... 11
Figura 4: Dendrograma segundo o método de Ward .................................................................... 12
Figura 5: Dendrograma segundo o método do vizinho mais afastado .......................................... 13
Figura 6: Dendrograma segundo o método do vizinho mais próximo .......................................... 13
Figura 7: Representação gráfica da solução 4 clusters de acordo com os métodos de Ward e do K-
Means ............................................................................................................................................ 18
Figura 8: Média de concordância dos leitores relativamente aos atributos dos semanários com base
nos métodos de Ward e do K-Means ............................................................................................ 21
1. Objectivo de uma análise de Clusters
O objectivo de uma análise de clusters é segmentar/agrupar sujeitos (ou variáveis) em grupos

homogéneos relativamente a uma ou mais características comuns. A pertença de indivíduos a um
grupo, significa que eles sejam mais semelhantes aos elementos do mesmo grupo do que aos
elementos dos outros grupos. Espera-se assim que exista semelhança nos indivíduos intra-clusters
e dissemelhanças inter-clusters.
A análise de clusters é assim uma técnica exploratória de análise multivariada que permite
classificar entidades (sujeitos ou variáveis) em função de certos atributos. A aplicação da análise
de clusters na categorização de objetos que são reconhecidos, diferenciados e classificados em
conjuntos daqueles que são semelhantes e separando os que são diferentes tem tido uma grande
aplicação nas mais variadas áreas do conhecimento. Por exemplo:
 Nas Ciências Sociais pode ser usada para definir áreas culturais homogéneas
 Na Fiscalidade, permite identificar grupos de contribuintes com declarações fiscais anómalas
 No Marketing, contribui para definir segmentos de consumidores a partir, por exemplo, dos
comportamentos passados
 Em Recursos Humanos permite identificar conjuntos de colaboradores com expectativas de

carreira semelhantes
A Figura 1 ilustra exemplos onde se identificam clusters no espaço (multivariado) de dados.

Existem diversos métodos para identificar clusters (grupos homogéneos) destacando-se os
métodos hierárquicos e os métodos de otimização.
Figura 1 – Exemplos de clusters
Cada método de agrupamento tem as suas etapas, algoritmos, sendo comum a definição da medida
de semelhança ou de dissemelhança para avaliar a proximidade ou a distância entre sujeitos, após
a seleção dos indivíduos a agrupar e das variáveis que servem de base ao agrupamento.
©ISCTE-Instituto Universitário de Lisboa 1

2. Medidas de semelhança e dissemelhança
Os sujeitos são agrupados com base numa medida de distância métrica. As mais frequentes são:
Distância euclidiana
Mede o comprimento do segmento de recta que une duas observações num determinado espaço.
Para k-variáveis, a distância Euclidiana é
𝐷 = 𝑥 −𝑥
onde xik é o valor da variável k para o sujeito i; xjk é o valor da variável k para o sujeito j.
Exemplo 1:
Considerem-se os consumidores 1, 2, e 3 que, de acordo com o seu grau de satisfação ao

consumo de bebidas não alcoólicas mostram ter as preferências de 1 a 10 (em que 1 =
extremamente insatisfeito a 10 = extremamente satisfeito) descritas na Tabela 1.
Consumidores Águas Sumos Chás

1 6 10 4
2 10 5 8
3 2 6 7
A que distância estão estes consumidores de acordo com este critério?
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 10) + (10 − 5) + (4 − 8) = √16 + 25 + 16 = √57 ≈ 7,55

𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 2) + (10 − 6) + (4 − 7) = √16 + 16 + 9 = √41 ≈ 6,40
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (10 − 2) + (5 − 6) + (8 − 7) = √64 + 1 + 1 = √66 ≈ 8,12
Os consumidores 1 e 3 estão mais próximos, em termos de distância, do que os consumidores 1 e

2 (a uma distância de 7,55) ou 2 e 3 (a distância de 8,12). Quanto menor a distância Euclidiana,
menor a dissemelhança e maior a semelhança ou a proximidade entre os objectos.
Distância Euclidiana ao quadrado
𝐷 = 𝑥 −𝑥
Distância de Mahalanobis
Mede a distância estatística entre dois objectos.
𝐷 = 𝑥 − 𝑥 ′𝑆 𝑥 − 𝑥

onde S é a estimativa amostral para a matriz das variâncias-covariâncias () dentro dos grupos. É
uma medida que atende à correlação entre as variáveis. Se a matriz  = I, obtém-se a distância
Euclidiana.
Medidas de semelhança do coseno
Esta medida de semelhança1 mede a proximidade entre dois objetos para k variáveis pelo menos
intervalares.
∑ 𝑥 𝑥
𝐶𝑜𝑠𝑖𝑛(𝑖, 𝑗) =
∑ 𝑥 ∑ 𝑥
3. Métodos de análise de clusters
Os dois métodos apresentados neste documento (hierárquico aglomerativo e otimização pelo k-

means) têm algumas semelhanças, mas também algumas diferenças, que devem ser tidas em
consideração no momento de escolher a técnica de agrupamento:
 O agrupamento hierárquico permite agrupar sujeitos ou variáveis, enquanto o de otimização
apenas permite agrupar sujeitos;
 O agrupamento hierárquico permite agrupar os indivíduos tendo por base variáveis quantitativas
ou qualitativas (não podem ser em simultâneo das duas naturezas), enquanto o método de
otimização apenas permite variáveis quantitativas;
 Em ambos os métodos um sujeito apenas pode pertencer a um grupo (os grupos constituídos são
mutuamente exclusivos2), sendo que ao longo do processo de agrupamento um indivíduo, uma
vez agrupado, não muda de grupo no método hierárquico, mas pode mudar no método de
otimização;
 A probabilidade de agrupar corretamente um indivíduo é maior no método de otimização, ao

permitir que um indivíduo mude de grupo ao longo do processo de agrupamento, do que no
método hierárquico;
 O método hierárquico permite identificar qual o número de grupos mais adequado ao espaço
multivariado de dados, enquanto o método de otimização, tem a desvantagem, de obrigar à
definição à priori do número de grupos a constituir;
 O método hierárquico ao requerer, em cada etapa, o cálculo da matriz de distâncias entre

indivíduos e/ou grupos não é adequado para grandes amostras (big data), enquanto o método de
otimização ao contemplar poucos cálculos em cada etapa adequa-se a todo o tipo de amostras,
1
Proposta por Anderberg (1973).
2
Contrariamente os métodos de agrupamento fuzzy ou difusos que permitem a pertença de um sujeito em mais de um
cluster.
tal como o Two-Step Clustering.
Atendendo às características dos dois métodos, sempre que possível, é usual que se realize um
método hierárquico apenas para definir o número de alternativas admissíveis de constituição de
agrupamentos, e, de seguida, através de uma análise comparativa, tomar-se a decisão sobre o
número de grupos a serem criados através do método de otimização.
3.1 Método hierárquico aglomerativo
O método hierárquico de agrupamento aglomerativo refere-se a um processo pelo qual os

agrupamentos emergem e terminam quando um único agrupamento contém todos os sujeitos3.
Neste método, inicialmente cada sujeito constitui um grupo e o processo inicia-se pela fusão de
dois primeiros sujeitos, aqueles que se encontram a um menor distância, identificada após o cálculo
da matriz de distâncias com n linhas e n colunas (representando o n o número de sujeitos a agrupar);
depois, calculam-se e comparam-se as novas distâncias entre os sujeitos ainda não agrupados e
entre esses e o grupo recém-formado, agrupando-se as entidades mais próximas (podem ser dois
sujeitos que se juntam ou pode ser um terceiro sujeito que se vai juntar ao grupo já constituído
com dois sujeitos); o processo de cálculo e comparação de distâncias e de agregação continua até
que todos os sujeitos formem um único grupo.
Deste modo, o método contempla os seguintes passos:
PASSO 0: Definição do objetivo, dos sujeitos a agrupar e das variáveis quantitativas a partir dos
quais serão agrupados os indivíduos
PASSO 1: Definir uma medida de distância (usualmente a distância Euclidiana ou a Euclidiana ao
quadrado)
PASSO 2: Selecionar um método (critério) de agregação (método de Ward é um dos mais usados)
PASSO 3: Agrupar em n-1 etapas os sujeitos
PASSO 4: Determinar o número de grupos a reter (através, essencialmente, da leitura do
dendrograma)
PASSO 5: Validar os grupos, reportar e interpretar os resultados
Conforme referido no passo 2 é necessário definir o método de agregação, sendo os mais usuais:
Método do vizinho mais próximo (Single linkage ou Nearest neighbor)
𝑑[( , ); ] = 𝑚𝑖𝑛 𝑑 , ; 𝑑 ,
A distância entre dois clusters corresponde à distância entre os dois sujeitos mais próximos.
3
Por oposição ao método divisivo em que se parte de um grupo com n indivíduos e se termina quando se obtêm n
grupos de um simples indivíduo.
Método do vizinho mais afastado (Complete linkage ou Furthest neighbor)
𝑑[( , ); ] = 𝑚𝑎𝑥 𝑑 , ; 𝑑 ,
A distância entre dois clusters corresponde à distância entre os dois sujeitos mais afastados.
Método do centróide
Cada cluster é representado por um ponto (centróide) cujas coordenadas são as médias das
variáveis caracterizadores dos indivíduos que fazem parte do cluster. A distância entre dois
clusters corresponde à distância entre os dois centróides.
Método de Ward
Pretende minimizar a soma dos quadrados dos erros dentro de cada cluster, i. e.,
𝑆𝑆𝐸 = ∑ ∑ 𝑋 −𝑋 .

3.1.1Exemplos de aplicação de métodos de agregação
A aplicação de um dos métodos de agregação vai atender ao método do vizinho mais próximo.
1. Método do Vizinho Mais Próximo (Single Linkage ou Nearest Neighbor)

Este método considera a menor distância entre dois indivíduos de clusters diferentes.
Exemplo 2:
Agrupe os consumidores 1, 2, 3, 4, e 5 de acordo com o seu perfil de satisfação relativamente ao

consumo de bebidas não alcoólicas, medido numa escala de satisfação de 1 a 10 (em que 0 =
extremamente insatisfeito a 10 = extremamente satisfeito). De outra forma, pretende-se identificar
grupos homogéneos de consumidores neste mercado quanto à satisfação com o consumo destas
bebidas.
As respostas dos 5 sujeitos quanto à satisfação com três bebidas são:
Consumidores Águas Sumos Chás

1 6 10 4
2 10 5 8
3 2 6 7
4 4 6 5
5 3 4 6
PASSO 1: CÁLCULO DA MATRIZ DE PROXIMIDADES OU MATRIZ DE DISSEMELHANÇA

(DISTÂNCIA EUCLIDEANA AO QUADRADO)
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 10) + (10 − 5) + (4 − 8) = 16 + 25 + 16 = 57

𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 2) + (10 − 6) + (4 − 7) = 16 + 16 + 9 = 41
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 4) + (10 − 6) + (4 − 5) = 4 + 16 + 1 = 21
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 3) + (10 − 4) + (4 − 6) = 9 + 36 + 4 = 49
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (10 − 2) + (5 − 6) + (8 − 7) = 64 + 1 + 1 = 66
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (10 − 4) + (5 − 6) + (8 − 5) = 36 + 1 + 9 = 46
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (10 − 3) + (5 − 4) + (8 − 6) = 49 + 1 + 4 = 54
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (2 − 4) + (6 − 6) + (7 − 5) = 4 + 0 + 4 = 8
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (2 − 3) + (6 − 4) + (7 − 6) = 1 + 4 + 1 = 6
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (4 − 3) + (6 − 4) + (5 − 6) = 1 + 4 + 1 = 6
Tabela 1: Matriz de proximidades

Distância Euclidiana ao quadrado
1 2 3 4 5
1 0 57 41 21 49
2 57 0 66 46 59
3 41 66 0 8 6
4 21 46 8 0 6
5 49 59 6 6 0
PASSO 2: PRIMEIRA FUSÃO (OU ETAPA)

Procurar na matriz de proximidades os sujeitos mais semelhantes. Os consumidores (3; 5) e (4; 5)
são os mais semelhantes (ou mais próximos); e, os consumidores (2; 3) são os mais diferentes (ou

mais distantes). Assim, a primeira fusão ou etapa é agrupar os sujeitos (3; 5) ou (4; 5). Perante
uma situação de empate entre duas possíveis fusões, é indiferente escolher-se o par (3; 5) ou o (4;
5). Escolha-se o par (4; 5) para a primeira fusão a uma distância de 6.
1ª fusão: (4; 5) a uma distância de 6.
PASSO 3: ATUALIZAR A MATRIZ DE PROXIMIDADE
NOVOS (1; 4) = 21
1 2 3 [4; 5] 21
PARES (1; 5) = 49
1  57 41 21
2 57  66 46 (2; 4) = 46
46
3 41 66  6 (2; 5) = 59
[4; 5] 21 46 6 
(3; 4) = 8
6
(3; 5) = 6
Os consumidores (1; 4) estão a uma distância de 21; mas, como os consumidores (1; 5) estão a
uma distância maior (distância de 49), a nova distância entre a fusão do consumidor 1 com o cluster
anterior (4; 5) vai ser de 21 por o critério de fusão ser agrupar sujeitos que se encontram a uma
menor distância. Da mesma forma, os consumidores (2; 4) estão a uma distância de 46 e os
consumidores (2; 5) estão a uma distância de 59  logo, a distância entre os consumidores [1;(4;
5)] vai ser de 46. Finalmente, os consumidores (3; 4) estão a uma distância de 8 enquanto que os
consumidores (3; 5) estão a uma distância de 6  logo, a distância entre os consumidores [3;(4;
5)] vai ser de 6.
PASSO 4: SEGUNDA FUSÃO
Com base na matriz atualizada, procuram-se os consumidores mais próximos e que são, tal como
se descreve no passo anterior, o 3 que se vai juntar aos consumidores 4 e 5.
2ª fusão: (3[4; 5]) a uma distância de 6.
PASSO 5: ATUALIZAR A MATRIZ DE PROXIMIDADE
NOVOS
1 2 3[4; 5] (1; 3) = 41
PARES 21
(1; [4; 5]) = 21
1  57 21
2 57  46 (2; 3) = 66
46
3 [4; 5] 21 46  (2; [4; 5]) = 46
PASSO 6: TERCEIRA FUSÃO
Seguindo-se um procedimento idêntico no passo 3, dá-se a fusão do consumidor 1 ao cluster

anteriormente obtido.
3ª fusão: [1; (3 [4; 5])] a uma distância de 21.

PASSO 7: NOVA ATUALIZAÇÃO DA MATRIZ DE PROXIMIDADE
NOVOS
[1; (3 [4; 5])] 2 (1; 2) = 57
PARES 46
[1; (3 [4; 5])]  46 (2; 3[4; 5]) = 46
(2; 3[4; 5]) = 46
2 46 
Quarta e última fusão: {2; [1; (3 [4; 5])]} a uma distância de 46. Neste último passo, todos os
consumidores foram agrupados num mesmo cluster. O processo aglomerativo desenvolveu-se ao
longo de 4 etapas (4 = 𝑛 − 1), em que na última etapa existe somente 1 cluster. O processo de
agrupamento chegou ao fim.
Tabela 2: Resumo do processo aglomerativo com base no critério do vizinho mais próximo
Combinação Clusters Coeficientes Próxima
Fase Cluster 1 Cluster 2 de fusão Fase
1 4 5 6,000 2
2 3 4 6,000 3
3 1 3 21,000 4
4 1 2 46,000 0
A Tabela 2 mostra como é que o processo aglomerativo se processou. Os primeiros sujeitos a

serem agrupados são os que apresentam a menor distância e que como já se viu são os
consumidores (3; 5) e (4; 5) a uma distância Euclidiana ao quadrado de 6 (coeficiente de fusão).
O SPSS Statistics escolhe sempre os maiores índices e que são neste caso os sujeitos (4; 5). A este
grupo vai-se juntar um outro consumidor no passo 2. No passo 2 verifica-se que é o consumidor 3
que vai ser agrupado ao cluster inicial também a uma distância de 6 e assim sucessivamente.
Os coeficientes de fusão assumem no início valores baixos (que correspondem a fortes

semelhanças entre os primeiros elementos que se juntam) e vão sendo gradualmente mais altos,
atingindo o seu valor máximo na última etapa. O dendrograma permite a visualização destas fusões
e a identificação do número de clusters a serem formados e a que distâncias os diferentes clusters
são formados até que todos os consumidores sejam agrupados num só grupo a distâncias
normalizadas (rescaled distance).
Contudo, o dendrograma não identifica um número de clusters ótimo. Assim, devem-se ensaiar
diferentes alternativas que devem depois ser validadas estatisticamente. No dendrograma (rodado),
os casos são identificados ao longo do eixo YY’. O eixo horizontal mostra a distância entre os
clusters quando estes são agrupados.

  2 clusters
   3 clusters
Figura 2: Dendrograma obtido do critério do vizinho mais próximo
Solução: podem ser extraídos 2 ou 3 clusters. As linhas traçadas na horizontal (a azul) cortam o
dendrograma em 2 ou 3 pontos o que significa que podem ser formados 2 ou 3 grupos.
Importa realçar que cortar a distâncias muito pequenas pode significar que se estão a
separar sujeitos que não são muito diferentes; e cortar a distâncias muito grandes pode
significar que se estão a juntar sujeitos que são muito diferentes. Desta forma, é usual
considerar-se que distâncias reescalonadas entre 5 e 15 conduzem a um adequado número
de clusters (clusters que devem ser, posteriormente, validados).
2. Método de Ward com recurso ao SPSS Statistics

Considere-se o seguinte exemplo.
Exemplo 3:
Agrupe os 100 leitores dos jornais de acordo com a sua concordância, numa escala de 1 (discordo
totalmente) a 5 (concordo totalmente), com quatro características (positivas) de que o seu semanário
preferido possui (características físicas, qualidade da informação, leitura aprazível e grafismo).
Utilizando os comandos do SPSS Statistics
Analyze, Classify, Hierarchical Cluster

A Tabela 3 mostra parte da matriz de proximidade entre os leitores dos jornais, calculada a partir
das distâncias Euclidianas ao quadrado.
Tabela 3: Parte da matriz de proximidade

Squared Euclidean Distance
Case 1 2 3 4 5 6 7 8 9 10 11 12
1 ,000 21,000 24,000 16,000 17,000 14,000 45,000 17,000 19,000 14,000 33,000 5,000
2 21,000 ,000 7,000 27,000 6,000 13,000 18,000 8,000 4,000 7,000 48,000 14,000
3 24,000 7,000 ,000 28,000 9,000 22,000 17,000 7,000 9,000 18,000 39,000 15,000
4 16,000 27,000 28,000 ,000 37,000 32,000 49,000 29,000 33,000 26,000 29,000 7,000
5 17,000 6,000 9,000 37,000 ,000 13,000 26,000 6,000 4,000 9,000 56,000 16,000
6 14,000 13,000 22,000 32,000 13,000 ,000 33,000 13,000 9,000 16,000 43,000 19,000
7 45,000 18,000 17,000 49,000 26,000 33,000 ,000 32,000 20,000 27,000 40,000 38,000
8 17,000 8,000 7,000 29,000 6,000 13,000 32,000 ,000 8,000 15,000 48,000 12,000
9 19,000 4,000 9,000 33,000 4,000 9,000 20,000 8,000 ,000 7,000 42,000 16,000
10 14,000 7,000 18,000 26,000 9,000 16,000 27,000 15,000 7,000 ,000 41,000 11,000
11 33,000 48,000 39,000 29,000 56,000 43,000 40,000 48,000 42,000 41,000 ,000 30,000
12 5,000 14,000 15,000 7,000 16,000 19,000 38,000 12,000 16,000 11,000 30,000 ,000
13 23,000 6,000 13,000 41,000 4,000 13,000 20,000 8,000 4,000 7,000 52,000 20,000
14 11,000 6,000 15,000 17,000 10,000 15,000 32,000 10,000 8,000 3,000 40,000 6,000
15 26,000 3,000 8,000 22,000 13,000 18,000 21,000 11,000 11,000 14,000 49,000 15,000
16 26,000 5,000 12,000 36,000 9,000 18,000 15,000 15,000 11,000 12,000 57,000 21,000
17 19,000 10,000 15,000 39,000 12,000 13,000 14,000 18,000 12,000 15,000 44,000 22,000
18 27,000 6,000 13,000 41,000 10,000 21,000 16,000 18,000 10,000 11,000 56,000 22,000
19 29,000 6,000 13,000 37,000 8,000 19,000 22,000 12,000 8,000 11,000 60,000 20,000
20 30,000 13,000 10,000 34,000 19,000 30,000 7,000 25,000 17,000 18,000 33,000 23,000
This is a dissimilarity matrix
Parte do processo aglomerativo consta da Tabela 4.

Tabela 4: Parte do processo aglomerativo obtido pelo método de Ward

Fase em que o Cluster
Formação de Clusters Coeficientes de aparece primeiro
Fases Cluster 1 Cluster 2 fusão Cluster 1 Cluster 2 Próxima fase
1 63 96 ,000 0 0 25
2 65 82 ,000 0 0 25
3 45 59 ,000 0 0 33
4 35 48 ,000 0 0 55
5 21 31 ,000 0 0 34
... ... ... ... ... ... ...
24 47 67 1,463 0 0 47
25 63 65 1,574 1 2 85
26 12 62 1,685 0 0 41
... ... ... ... ... ... ...
84 4 60 40,071 81 46 90
85 28 63 42,542 66 25 87
86 3 41 45,302 64 80 89
87 28 57 48,774 85 70 95
... ... ... ... ... ... ...
95 2 28 102,298 88 87 99
96 3 7 117,691 92 94 98
97 1 4 140,078 91 90 98
98 1 3 171,462 97 96 99
99 1 2 230,687 98 95 0
A partir da Tabela 4, pode-se observar que:
 Passo 1 - forma-se o 1º grupo com os indivíduos 63 e 96 à distância de 0,000. A este grupo

juntar-se-á um novo indivíduo ou grupo na etapa 25;
 Passo 25 - forma-se o 2º grupo com os indivíduos anteriores (63 e 96) e o indivíduo 65 à distância
reescalonada de 1,574. A este grupo juntar-se-á a um outro indivíduo ou grupo na etapa 85;
 Passo 85 - ao grupo anterior, formado com os sujeitos [(63; 96); 65], junta-se o sujeito 28 a uma
distância de 42,542. A este grupo, já com 4 sujeitos, vai-se juntar um outro sujeito na etapa 87;
 (...)
Deste processo aglomerativo surge a figura seguinte que identifica as fases e os respetivos
coeficientes de fusão.
240
210
180
150
120
90
60
30
0
0 10 20 30 40 50 60 70 80 90 100 110
Figura 3: Representação gráfica dos coeficientes de fusão

A pertença dos leitores aos clusters formados para diferentes soluções, desde 2 a 6 clusters é visível
na Tabela 5.
Tabela 5: Pertença dos sujeitos aos Clusters
Casos 6 Clusters 5 Clusters 4 Clusters 3 Clusters 2 Clusters

1 1 1 1 1 1
2 2 2 2 2 2
3 3 3 3 3 1
4 4 4 4 1 1
5 2 2 2 2 2
6 1 1 1 1 1
7 5 5 3 3 1
8 3 3 3 3 1
9 2 2 2 2 2
10 2 2 2 2 2
11 4 4 4 1 1
... ... ... ... ... ...
100 3 3 3 3 1
Desta tabela pode-se dizer que, por exemplo, para o sujeito 7 e caso se opte por uma solução de 6
ou 5 clusters, este indivíduo pertencerá sempre ao cluster 5; caso se opte por uma solução de 4 ou
3 clusters, este indivíduo pertencerá ao cluster 3; e, caso se opte por uma solução de dois clusters,
este indivíduo pertencerá ao cluster 1.
3.1.2Comparação de dendrogramas para diferentes métodos hierárquicos
Comparando-se os dendrogramas de diferentes métodos de agrupamento obtêm-se as seguintes

figuras.
3
4
5
Figura 4: Dendrograma segundo o método de Ward
O método de Ward sugere a formação de 4 clusters a uma distância reescalonada próxima de 10

(mas ligeiramente inferior); a uma distância de 10, o dendrograma sugere a formação de 3 clusters
em que os dois últimos grupos se fundem; e, a partir de uma distância próxima de 15, o
dendrograma aponta para a constituição de 2 clusters.

Figura 5: Dendrograma segundo o método do vizinho mais afastado
O método do vizinho mais afastado a uma distância reescalonada ligeiramente acima de 10 sugere
a formação de 6 clusters; a uma distância reescalonada de 15 formam-se 4 clusters; a uma distância
de 14, este método sugere a constituição de 3 clusters; e, a uma distância superior a 15, sugere a
formação de 2 clusters.
Figura 6: Dendrograma segundo o método do vizinho mais próximo
3.2 Método de otimização k-means
Este método faz a partição dos sujeitos em k grupos, sendo k um valor pré-determinado, e
contempla as seguintes etapas:
PASSO 0: Definição do objetivo, dos sujeitos a agrupar, das variáveis quantitativas e do número de
grupos a constituir (k)
PASSO 1: Definição (aleatória) dos centroides (centros) dos k clusters
PASSO 2: Cálculo das distâncias (distância euclidiana) de cada sujeito a cada um dos k centróides.
PASSO 3: Agrupamento de cada sujeito no cluster ao qual a distância ao centróide é menor
PASSO 4: Calcular os novos centróides (média de todos os sujeitos em cada uma das variáveis) dos
k clusters
PASSO 5: Voltar ao passo 2 até que não se verifique nenhuma variação substancial na distância
mínima de cada sujeito a cada um dos centróides ou até que se verifique determinado
critério de convergência
PASSO 6: Validar os grupos, reportar e interpretar os resultados

3.2.1Exemplo do método K-Means com recurso ao SPSS Statistics
A exemplificação do método K-Means vai atender os índices previamente construídos a partir da

ACP.
Exemplo 4:
Agrupe os 100 leitores dos jornais de acordo com a sua concordância, numa escala de 1 (discordo
totalmente) a 5 (concordo totalmente), com quatro características (positivas) de que o seu semanário
preferido possui (características físicas, qualidade da informação, leitura aprazível e grafismo).
Os comandos do SPSS Statistics são para 𝑘 = 3:

Analyze, Classify, K-Means Cluster
Outputs:___________________________________________________________________________
SOLUÇÃO DE 3 CLUSTERS:
Final Cluster Centers

Cluster
1 2 3 Mostra as características de cada
Caraterísticas_Físicas 4,55 4,63 3,56 cluster, isto é, o centro de cada
Qualidade_Informação 4,53 4,36 3,65 grupo (médias das variáveis de
Leitura_Aprazível 3,03 4,47 3,27 classificação em cada grupo).
Grafismo 4,39 4,48 3,66

 O cluster 2 é o que apresenta melhores níveis médios de concordância relativamente a todas as

variáveis de classificação e que são superiores a 4,30 em que o ponto médio da escala é o 3. O
atributo Qualidade de informação reúne um nível médio de concordância mais baixo (4,36) mas,
mesmo assim, tendendo a concordar. Todos os outros atributos apresentam médias de
concordância superiores a 4,5 e, portanto, tendendo a concordar totalmente;
 O cluster 3 é o que apresenta piores níveis médios de concordância relativamente a estes

atributos, mas, mesmo assim, os atributos Caraterísticas físicas, Qualidade de informação, e
Grafismo apresentam níveis médios de concordância superiores a 3,5 e, portanto, tendendo a
concordar; já o atributo Leitura aprazível é o que recebe um nível médio de concordância mais
baixo, mas ainda assim tendente a alguma concordância (3,27);
 O cluster 1 apresenta características intermédias em relação aos outros dois clusters. Os leitores
pertencentes ao cluster 3 apresentam um nível médio de concordância bastante elevado face às
Caraterísticas físicas e Qualidade de informação (médias superiores a 4,5); mas o atributo Leitura
aprazível só consegue um nível médio de concordância de 3,03; relativamente ao atributo
Grafismo, estes leitores apresentam nível médio de concordância relativamente elevado (4,39).
Concluindo, o atributo que precisa de ser melhorado é a Leitura Aprazível que foi classificado com
valores médios mais baixos nos clusters 1 e 3 (3,03 e 3,27, respetivamente).
ANOVA Identifica a variável ou variáveis
Cluster Error que melhor diferencia(m) os
Mean Mean grupos, ou seja, a que melhor
Square df Square df F Sig. representada está nesta solução
Caraterísticas_Físicas 12,781 2 ,248 97 51,521 ,000 de 3 clusters. Essas variáveis são
Qualidade_Informação 7,817 2 ,403 97 19,417 ,000 as Características Físicas e a
Leitura_Aprazível 17,991 2 ,462 97 38,905 ,000 Leitura Aprazível. A que menos
Grafismo 7,190 2 ,321 97 22,389 ,000 diferencia é a Qualidade de
The F tests should be used only for descriptive purposes because the clusters have been Informação.
chosen to maximize the differences among cases in different clusters. The observed
significance levels are not corrected for this and thus cannot be interpreted as tests of the
hypothesis that the cluster means are equal.
A variável “Caraterísticas físicas” é a que mais diferencia esta solução (𝐹 = 51,521) e as que se
lhe seguem são a “Leitura aprazível” (𝐹 = 38,905 ) e o “Grafismo” (𝐹 = 22,389); a “Leitura
Aprazível” (𝐹 = 22,389) é a que menos permite diferenciar os três grupos. Assim, a variabilidade
do atributo Caraterísticas físicas entre os grupos é a maior.
Number of Cases in each Distances between Final Cluster

Cluster Centers
Cluster 1 32,000 Cluster 1 2 3
2 29,000 1 1,450 1,535
3 39,000 2 1,450 1,942
Valid 100,000
3 1,535 1,942
Missing ,000
Os grupos 1 e 3 são os de maior dimensão, sendo constituídos por 32 e 39 leitores, respetivamente;

o grupo 2 é formado por 29 leitores, leitores estes que se encontram mais próximos dos leitores do

cluster 1 do que do cluster 3 (distâncias entre os centros de 1,450 vs. 1,942); os grupos 2 e 3 são
os mais afastados, encontrando-se os seus centros a uma distância de 1,942.
SOLUÇÃO DE 4 CLUSTERS:
Os outputs relevantes constam das tabelas seguintes.
Tabela 6: Centróides obtidos para uma solução de 4 clusters, usando-se o método K-Means
Cluster
1 2 3 4
Caraterísticas_Fisicas 4,56 4,59 3,98 3,06
Qualidade_Informacao 4,59 4,66 3,55 3,82
Leitura_Aprazivel 2,35 4,09 3,74 2,36
Grafismo 4,28 3,61 3,82 3,36
Tabela 7: Variações dentro de cada cluster e entre clusters

ANOVA
Cluster Error
Média Média
Quadrática gl Quadrática gl F Sig.
Carateristicas_Fisicas 7,832 3 ,272 96 28,775 ,000
Qualidade_Informacao 9,023 3 ,288 96 31,365 ,000
Leitura_Aprazivel 15,602 3 ,355 96 44,009 ,000
Grafismo 6,472 3 ,272 96 23,790 ,000
Tabela 8: Dimensões de Tabela 9: Distâncias finais entre os

cada cluster centróides de cada cluster
Cluster Cluster 1 2 3 4
1 13 1 1,779 1,888 1,923
2 38
2 1,779 1,533 2,722
3 38
4 11 3 1,888 1,533 1,735
Total 100 4 1,923 2,722 1,735
Das tabelas anteriores retiram-se várias conclusões:
1. Os 38 leitores do grupo 2 e os 38 do grupo 3 são os mais satisfeitos com estes atributos já que
atribuem concordâncias médias superiores a 3,5 nos quatro atributos dos semanários.
2. Os 11 leitores do cluster 4 são os mais insatisfeitos relativamente a estes atributos,
especialmente quanto à Leitura aprazível (média=2,36), mas também se mostrando indiferentes
quanto às Caraterísticas físicas; relativamente aos restantes dois atributos concordam
moderadamente com eles, apresentando médias de 3,36 no Grafismo e de 3,82 na Qualidade
de informação.
3. Os 13 sujeitos do cluster 1 são muito homogéneos quanto aos seus níveis médios de
concordância superiores a 4 (tendendo a concordar totalmente) quanto aos atributos
Caraterísticas Físicas, Qualidade de informação e Grafismo (4,56, 4,59 e 4,28, respetivamente);
mas, mostram-se insatisfeitos com a Leitura aprazível já que tendem a discordar (média de
2,35).

Em suma, o cluster 2 é o que reúne os leitores mais satisfeitos com estes atributos e a Leitura
aprazível é a característica do semanário que recebe um nível médio de concordância mais baixo,
sendo nos grupos 1 e 4 de apenas 2,35 e 2,36, respetivamente). Da Tabela 2, verifica-se que o
atributo Leitura aprazível é o que mais diferencia estes quatro grupos (𝐹 = 44,009) e o Grafismo
o que menos diferencia os grupos (𝐹 = 23,790). Finalmente, da Tabela 4, fica-se a saber que os
clusters 2 e 3 são os que mais próximos (1,533) se encontram face a estes atributos e os clusters 2
e 4 são os que se encontram mais afastados (2,722).
4. Número de clusters a formar
Sendo a análise de clusters uma técnica de análise multivariada exploratória, é difícil dizer à
partida qual o número de grupos a formar. Assim, existem alguns critérios que ajudam a decidir
quanto ao número de clusters a formar.
Recurso a uma análise conjunta
No critério da análise conjunta utiliza-se o cruzamento entre dois métodos de agrupamento. Por
exemplo, o cruzamento do método Ward com o método do vizinho do K-Means, para as
alternativas de se constituírem 3, 4, ou ainda 5 clusters.
1. Solução para 3 clusters
Com base na tabela seguinte, pode concluir-se que este cruzamento identifica somente 63% dos
leitores nos mesmos clusters.
Tabela 13: Cruzamento do registo dos

sujeitos
Ward Method * Single Linkage
Crosstabulation
Count
A percentagem de indivíduos que estão
Single Linkage
igualmente distribuídos nos mesmos clusters é
1 2 3 Total igual a
Ward 1 8 0 7 15
Method 2 17 23 0 40 8 + 23 + 32
3 7 6 32 45 × 100 = 63%
100
Total 32 29 39 100
As variáveis estão medianamente relacionadas na amostra (𝐶𝑟𝑎𝑚𝑒𝑟’𝑠 𝑉 = 0,522).
2. Solução para 4 clusters:
Esta solução é melhor do que a anterior uma vez que 88% dos sujeitos estão classificados nos
mesmos clusters.

Tabela 10: Cruzamento do registo dos

sujeitos
Ward Method * Single Linkage
Crosstabulation
Count
Single Linkage
A percentagem de indivíduos que estão
1 2 3 4 Total
igualmente distribuídos nos mesmos clusters é
Ward 1 8 0 0 1 9
Method
igual a
2 2 37 1 0 40
3 3 1 37 4 45 8 + 37 + 37 + 6
4 0 0 0 6 7 × 100 = 88%
100
Total 96 1 1 1 99
As variáveis estão fortemente associadas na amostra (𝐶𝑟𝑎𝑚𝑒𝑟’𝑠 𝑉 = 0,787).
3. Solução para 5 clusters:
A solução para 5 clusters piorou face à de 4 clusters.

Ward Method * Cluster Number of Case
Crosstabulation
Count
Cluster Number of Case
1 2 3 4 5 Total A percentagem de indivíduos que estão
Ward 1 0 1 0 8 0 9 igualmente distribuídos nos mesmos clusters é
Method 2 0 0 0 17 23 40 igual a
3 15 8 0 3 0 26
8 + 23 + 15 + 4 + 16
4 4 0 2 0 0 6 × 100 = 66%
5 0 16 0 3 0 19 100
Total 19 25 2 31 23 100
A associação entre as variáveis é agora de 0,639.
Assim, a decisão de se constituirem 4 clusters parece ser a melhor!
Figura 7: Representação gráfica da solução 4 clusters de acordo com os métodos de Ward e

do K-Means

De acordo com o critério conjunto do método do K-Means e do Ward, identifica-se uma solução
que aponta para a formação de 4 clusters.
5. Contributo desta análise multivariada
Se as análises descritivas univariada e bivariada permitem fazer uma caraterização geral dos
inquiridos (enquanto pertencentes a um só grupo e, por isso mesmo, homogéneo mesmo que não
o seja), a análise de clusters permite fazer uma análise descritiva de sujeitos que pertencem a
segmentos diferentes de acordo com determinadas variáveis que estão na génese da sua
classificação.
A validação dos grupos constituídos deve basear-se, essencialmente, na sua utilidade para tomada
de decisão. Esta utilidade é, muitas vezes, percecionada através da análise da dimensão dos grupos
criados e da identificação de diferenças entre os grupos no que respeita às variáveis que lhes deram
origem. Adicionalmente, é importante conhecer o perfil sociodemográfico de cada um dos grupos
constituídos, pois só assim é possível, por exemplo, elaborar campanhas de comunicação
adequadas a cada grupo.
5.1 Relação entre os atributos dos semanários e os grupos
Pela Figura 9 pode ver-se que não se regista uma grande diferença nas médias de concordância
com os atributos estudados entre os quatro grupos homogéneos, quer obtidos pelo método de Ward
quer pelo método K-Means. Recorrendo aos grupos obtidos com o método de Ward, verifica-se
que os clusters 1 e 4 são constituídos por leitores insatisfeitos no que diz respeito ao atributo
Leitura Aprazível uma vez que atribuem, em média, uma concordância abaixo do ponto central da
escala. Os leitores mais satisfeitos com estes atributos estão agrupados no cluster 2, com médias
de concordância superiores a 4,5 para os atributos Caraterísticas Físicas, Qualidade de Informação
e Grafismo e próximo de 4 na Leitura Aprazível.
Os comandos do IBM SPSS Statistics para a construção do seguinte gráfico são:
Graphs, Chart Builder, Line

Multiple lines

Gráfico inicial:
Gráfico final:
Os sujeitos que pertencem aos clusters 1 e 4 penalizam, em média, a leitura aprazível (1,89 e
2,25, respetivamente).

Figura 8: Média de concordância dos leitores relativamente aos atributos dos semanários com
base nos métodos de Ward e do K-Means
A F9gura 8 mostra que a média de concordância dos leitores aos atributos dos semanários por estes
dois métodos de clustering é bastante idêntico.
A figura seguinte mostra os centróides entre os índices para a solução de 4 clusters4.

Chart Editor, Marker, Spike: Centroid
Figura 9: Representação dos centróides de cada combinação das variáveis de classificação
4
Contributo de Nuno Santos.
5.2 Relação entre as caraterísticas demográficas dos leitores e os grupos
Na caraterização dos clusters, obtidos pelo método de Ward, relativamente a algumas das variáveis
demográficas dos leitores inquiridos, elaborou-se a Tabela 13.
Tabela 11: Especificidades dos 4 clusters relativamente a algumas variáveis de caraterização

Sexo Habilitações literárias
até ensino ensino médio
F M Total secundário e superior Total
Método 1 14 10 24 10 14 24
Ward 2 12 28 40 16 23 39
3 7 22 29 15 13 28
4 1 6 7 7 0 7
Total 34 66 100 48 5o 98
Notas: 𝑉 − 𝐶𝑟𝑎𝑚𝑒𝑟 = 0,301; 𝑉 − 𝐶𝑟𝑎𝑚𝑒𝑟 çõ = 0,304
 Quanto ao sexo, o cluster 2 é o que tem mais leitores, i. e., 40 leitores, dos quais a maioria (28 
70%) são do sexo masculino; também no cluster 3 predominam os leitores do sexo masculino
(58,3%); contrariamente, no cluster 1 há mais leitoras que leitores (58,3%). O cluster 4 é o que
tem um menor número de leitores (7) dos quais a grande maioria é do sexo masculino (85,7%).
Assim, o Grupo e o Sexo encontram-se fracamente relacionadas (𝑉 − 𝐶𝑟𝑎𝑚𝑒𝑟 = 0,301), já
que, com exceção do grupo 1, os outros três grupos apresentam uma percentagem de leitores do
sexo masculino relativamente próxima, isto é, entre 58,3% e 85,7%.
 Quanto às habilitações, os clusters 1 e 2 são constituídos por leitores com maior habilitação
académica (58,3% e 59%, respetivamente); já nos clusters 3 e 4, regista-se uma maioria ou total
dominância de leitores com menor grau académico (53% e 100%, respetivamente). As variáveis
encontram-se fracamente associadas na amostra (𝑉 − 𝐶𝑟𝑎𝑚𝑒𝑟 = 0,302).
Pode ainda acrescentar-se que os métodos hierárquicos se adequam a bases de dados de dimensão
moderada e que o método do K-Means se adequa a bases de dados de grande dimensão ou de
dimensão moderada, enquanto que o método Two-Step cluster Analysis5 se adequa a bases de
dados de muito grande dimensão.
5
Para a base de dados que se está a estudar, o método Two-Step cluster Analysis não é adequado dada a sua dimensão
amostral (𝑛 = 100).
6. Two-Step Clustering
Two-Step Clustering adequa-se à segmentação para grandes amostras e à segmentação em que as

variáveis de classificação podem ser quantitativas e/ou qualitativas.
Os Métodos mistos em duas etapas (TwoStep clustering) são adequados a bases de dados de
grande dimensão ou quando se pretenda a utilização de variáveis de classificação formadas a partir
de uma combinação de variáveis de diferentes tipos em que o número de clusters é determinado
automaticamente ou definido pelo investigador.
Permite usar variáveis em várias unidades de medida como variáveis de segmentação:
• Variáveis categóricas a serem tratadas como qualitativas (nominais ou ordinais) que se

assume seguirem distribuição multinomial
• Variáveis quantitativas e assume-se seguirem distribuição normal
Assume-se ainda que as variáveis de segmentação são independentes e, portanto, ir-se-á usar as
componentes principais extraídas de uma base de dados com maior dimensão amostral que a
anterior.
Como se pode usar uma combinação de variáveis qualitativas e quantitativas ou não, as medidas
de distância podem ser:
• Para modelos mistos (variáveis de ambos os tipos) ou modelos só com variáveis categóricas,
apenas se pode usar a distância log da função de verosimilhança (ln-Likelihood).
• Para modelos só com variáveis quantitativas, pode-se usar ambas as distâncias: o ln-
Likelihood ou a distância Euclidiana.
Contudo, os resultados podem ser diferentes e, por isso, deve experimentar-se ambas as distâncias
e estudar-se as partições obtidas.
6.1 Etapas do Two-Step Cluster Analysis
ETAPA 1: Na etapa 1 pretende-se a formação de pequenos grupos (preclusters) cujo objetivo é a

redução da dimensão da matriz das distâncias:
• Constituição de preclusters – que são pequenos grupos de objetos com características mais
ou menos idênticas e que serão tratados como um objeto na segunda fase do algoritmo;
• A dimensão da matriz das distâncias é função do número de preclusters.
Não é produzido qualquer output visível ao investigador embora se possa controlar alguns
parâmetros para a formação dos preclusters.
 Preclustering: construção da estrutura em árvore em que os casos são ‘arrumados’ de acordo
com a sua semelhança nas folhas da árvore;
• Informação contida em cada folha: número de casos, soma dos valores e soma de quadrados
para as variáveis quantitativas e frequência de cada categoria para variáveis categóricas.

ETAPA 2: procede-se ao agrupamento hierárquico dos preclusters
Determinação do número de clusters a formar:

Automática:
• Define-se apenas o maior número possível de grupos
• Escolhe-se o critério a usar: Schwarz’s Bayesian Criterion (BIC) ou Akaike’s Information
Criterion (AIC).
Quer o AIC quer o BIC são medidas de qualidade do ajustamento que comparam soluções com
números diferentes de grupos. Valores mais baixos para estas medidas correspondem a melhores
ajustamentos. Enquanto o AIC dá uma estimativa por excesso do número de grupos a formar, o
BIC subestima esse número.
• Desvantagem: a escolha automática pode não funcionar eficazmente em casos de mistura de
diferentes tipos de variáveis.
Manual: tem de se especificar o número de clusters a formar
6.2 Exemplo com recurso ao SPSS Statistics
Ficheiro: restaurantes.sav
Clustering em: CP1, CP2, CP3, CP4 e CP5
Medida de distância: Log-likelihood
Critério de clustering: Schwarz’s Bayesian Criterion (BIC)
Outputs: _____________________________________________________________________________

Figura 10: Identificação do número óptimo a fomar bem com a qualidade desta segmentação
Silhouette measure of cohesion and separation (Medida de coesão e separação) é uma medida de
qualidade desta segmentação (0,2) que é apenas ‘fair’. Deve-se incluir mais variáveis de
classificação para além dos índices.
Clicando em View, Clusters obtém-se:
Figura 11: Identificação da dimensão de cada cluster
Identificam-se 6 clusters (tantos quanto os que foram na análise prévia6) a partir de cinco variáveis
de classificação em que o cluster de menor dimensão tem 58 clientes (10%) e o de maior dimensão
tem 141 clientes (24,4%).
Clicando em Display, Evaluation Fields
Obtém-se:
6
Mas podia não ser igual.
Figura 12: Contributo de cada variável de classificação para esta segmentação
Figura 13: Importância de cada variável de input e da variável idade para esta segmentação
Como já se sabia, a idade não diferencia estes clusters uma vez que a etiqueta 2 que corresponde
ao escalão etário dos que pertencem ao intervalo de 25 anos e 44 anos é sempre o que ocupa maior
destaque em todos os clusters.
Selecionando-se todas as colunas, obtém-se a comparação de clusters para 5 dos 6 clusters.

Figura 14: Comparação entre os diferentes clusters
A partir da figura input (predictor) importance, deve construir-se uma tabela com as características
mais importantes de cada um destes clusters. Contudo, só temos a representação gráfica de 5 dos
6 clusters extraídos, o que é uma limitação para o nosso caso de aplicação.
Tabela 12: Características dos clusters relativamente ás médias de cada uma das variáveis de
classificação
Satisfação com a Satisfação com Satisfação com o
Satisfação com Satisfação com o
Dimensão lista dos pratos e a qualidade do profissionalismo
a decoração meio envolvente
dos vinhos serviço dos empregados
Cluster 19,2%
𝑀é𝑑𝑖𝑎 = 0,72 𝑀é𝑑𝑖𝑎 = 0,24 𝑀é𝑑𝑖𝑎 = 0,60 𝑀é𝑑𝑖𝑎 = 0,78 𝑀é𝑑𝑖𝑎 = −0,01
1 (111)
Cluster 12,5% 𝑀é𝑑𝑖𝑎 =
𝑀é𝑑𝑖𝑎 = 0,39 𝑀é𝑑𝑖𝑎 = 0,20 𝑀é𝑑𝑖𝑎 = −0,77 𝑀é𝑑𝑖𝑎 = 0,29
2 (72) −1,47
Cluster 15,9% 𝑀é𝑑𝑖𝑎 =
𝑀é𝑑𝑖𝑎 = −1,24 𝑀é𝑑𝑖𝑎 = 0,08 𝑀é𝑑𝑖𝑎 = −0,28 𝑀é𝑑𝑖𝑎 = −1,04
3 (92) −0,28
Cluster 24,4%
𝑀é𝑑𝑖𝑎 = −0,52 𝑀é𝑑𝑖𝑎 = 0,24 𝑀é𝑑𝑖𝑎 = 0,05 𝑀é𝑑𝑖𝑎 = 0,46 𝑀é𝑑𝑖𝑎 = 0,58
4 (141)
Cluster 18,0%
𝑀é𝑑𝑖𝑎 = 0,57 𝑀é𝑑𝑖𝑎 = 0,77 𝑀é𝑑𝑖𝑎 = 0,05 𝑀é𝑑𝑖𝑎 = −0,81 𝑀é𝑑𝑖𝑎 = 0,01
6 (104)
• Cluster 1: é o 2º maior grupo constituído por 111 clientes e que têm uma maior satisfação
média7 com o profissionalismo dos empregados (0,78) seguida da satisfação média com a
lista de pratos e vinhos (0,72) e têm uma menor satisfação média (mas próxima de zero)
com o meio envolvente (−0,01);
• Cluster 2: é o grupo com menor número de clientes (72) mais descontentes, em média, com
a qualidade do serviço (−1,47) e com o profissionalismo dos empregados (−0,77); mas
7
Média estandardizada.
atribuem uma maior satisfação média à lista de pratos e de vinhos (0,39) e do meio
envolvente (0,29);
• Cluster 3: é constituído por 92 clientes que só atribuem uma satisfação média positiva e
próxima de zero com a decoração; estes clientes são os mais descontentes em média com
estas variáveis de classificação;
• Cluster 4: é o maior grupo constituído por 141 clientes e que têm uma maior satisfação média
com a decoração (0,58), ao profissionalismo dos empregados (0,46), e com a qualidade do
serviço (0,24); contudo, estão, em média, descontentes com a lista de pratos e vinhos (0,78)
seguida da satisfação média com a lista de pratos e vinhos (−0,52) e são indiferentes quanto
à decoração (0,05);
• Cluster 6: é constituído por 104 clientes que apenas penalizam, em média, o profissionalismo
dos empregados (−0,81) e são indiferentes relativamente à decoração (0,05). Estes clientes
são os mais satisfeitos, em média, com a qualidade do serviço (0,77) e com a lista de pratos
e vinhos (0,57).

Clusters

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Clusters

Enviado por

Direitos autorais:

Formatos disponíveis

ANÁLISE DE DADOS MULTIVARIADA:

Instituto Universitário de Lisboa

3.1.2 Comparação de dendrogramas para diferentes métodos hierárquicos 12

3.2 Método de otimização k-means 13

4. Número de clusters a formar 17

O objectivo de uma análise de clusters é segmentar/agrupar sujeitos (ou variáveis) em grupos

 Na Fiscalidade, permite identificar grupos de contribuintes com declarações fiscais anómalas

 Em Recursos Humanos permite identificar conjuntos de colaboradores com expectativas de

A Figura 1 ilustra exemplos onde se identificam clusters no espaço (multivariado) de dados.

Figura 1 – Exemplos de clusters

©ISCTE-Instituto Universitário de Lisboa 1

2. Medidas de semelhança e dissemelhança

Considerem-se os consumidores 1, 2, e 3 que, de acordo com o seu grau de satisfação ao

Consumidores Águas Sumos Chás

A que distância estão estes consumidores de acordo com este critério?

𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 10) + (10 − 5) + (4 − 8) = √16 + 25 + 16 = √57 ≈ 7,55

Os consumidores 1 e 3 estão mais próximos, em termos de distância, do que os consumidores 1 e

Distância Euclidiana ao quadrado

Mede a distância estatística entre dois objectos.

©ISCTE-Instituto Universitário de Lisboa 2

Medidas de semelhança do coseno

3. Métodos de análise de clusters

Os dois métodos apresentados neste documento (hierárquico aglomerativo e otimização pelo k-

 A probabilidade de agrupar corretamente um indivíduo é maior no método de otimização, ao

 O método hierárquico ao requerer, em cada etapa, o cálculo da matriz de distâncias entre

tal como o Two-Step Clustering.

3.1 Método hierárquico aglomerativo

O método hierárquico de agrupamento aglomerativo refere-se a um processo pelo qual os

Deste modo, o método contempla os seguintes passos:

Método do vizinho mais próximo (Single linkage ou Nearest neighbor)

Método do vizinho mais afastado (Complete linkage ou Furthest neighbor)

©ISCTE-Instituto Universitário de Lisboa 5

3.1.1Exemplos de aplicação de métodos de agregação

1. Método do Vizinho Mais Próximo (Single Linkage ou Nearest Neighbor)

Agrupe os consumidores 1, 2, 3, 4, e 5 de acordo com o seu perfil de satisfação relativamente ao

As respostas dos 5 sujeitos quanto à satisfação com três bebidas são:

Consumidores Águas Sumos Chás

PASSO 1: CÁLCULO DA MATRIZ DE PROXIMIDADES OU MATRIZ DE DISSEMELHANÇA

𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎( ; ) = (6 − 10) + (10 − 5) + (4 − 8) = 16 + 25 + 16 = 57

Tabela 1: Matriz de proximidades

PASSO 2: PRIMEIRA FUSÃO (OU ETAPA)

©ISCTE-Instituto Universitário de Lisboa 6

1ª fusão: (4; 5) a uma distância de 6.

PASSO 3: ATUALIZAR A MATRIZ DE PROXIMIDADE

PASSO 4: SEGUNDA FUSÃO

2ª fusão: (3[4; 5]) a uma distância de 6.

PASSO 5: ATUALIZAR A MATRIZ DE PROXIMIDADE

PASSO 6: TERCEIRA FUSÃO

Seguindo-se um procedimento idêntico no passo 3, dá-se a fusão do consumidor 1 ao cluster

3ª fusão: [1; (3 [4; 5])] a uma distância de 21.

©ISCTE-Instituto Universitário de Lisboa 7

PASSO 7: NOVA ATUALIZAÇÃO DA MATRIZ DE PROXIMIDADE

A Tabela 2 mostra como é que o processo aglomerativo se processou. Os primeiros sujeitos a

Os coeficientes de fusão assumem no início valores baixos (que correspondem a fortes

©ISCTE-Instituto Universitário de Lisboa 8

Figura 2: Dendrograma obtido do critério do vizinho mais próximo

2. Método de Ward com recurso ao SPSS Statistics

Utilizando os comandos do SPSS Statistics

Analyze, Classify, Hierarchical Cluster

©ISCTE-Instituto Universitário de Lisboa 9

Tabela 3: Parte da matriz de proximidade

Parte do processo aglomerativo consta da Tabela 4.

©ISCTE-Instituto Universitário de Lisboa 10