Escolar Documentos
Profissional Documentos
Cultura Documentos
ANÁLISE DE CLUSTERS
ÍNDICE
1. Objectivo de uma análise de Clusters 1
2. Medidas de semelhança e dissemelhança 2
3. Métodos de análise de clusters 3
3.1 Método hierárquico aglomerativo 4
3.1.1 Exemplos de aplicação de métodos de agregação 6
ÍNDICE DE FIGURAS
Figura 1 – Exemplos de clusters ..................................................................................................... 1
Figura 2: Dendrograma obtido do critério do vizinho mais próximo ............................................. 9
Figura 3: Representação gráfica dos coeficientes de fusão ........................................................... 11
Figura 4: Dendrograma segundo o método de Ward .................................................................... 12
Figura 5: Dendrograma segundo o método do vizinho mais afastado .......................................... 13
Figura 6: Dendrograma segundo o método do vizinho mais próximo .......................................... 13
Figura 7: Representação gráfica da solução 4 clusters de acordo com os métodos de Ward e do K-
Means ............................................................................................................................................ 18
Figura 8: Média de concordância dos leitores relativamente aos atributos dos semanários com base
nos métodos de Ward e do K-Means ............................................................................................ 21
1. Objectivo de uma análise de Clusters
A análise de clusters é assim uma técnica exploratória de análise multivariada que permite
classificar entidades (sujeitos ou variáveis) em função de certos atributos. A aplicação da análise
de clusters na categorização de objetos que são reconhecidos, diferenciados e classificados em
conjuntos daqueles que são semelhantes e separando os que são diferentes tem tido uma grande
aplicação nas mais variadas áreas do conhecimento. Por exemplo:
Nas Ciências Sociais pode ser usada para definir áreas culturais homogéneas
No Marketing, contribui para definir segmentos de consumidores a partir, por exemplo, dos
comportamentos passados
Cada método de agrupamento tem as suas etapas, algoritmos, sendo comum a definição da medida
de semelhança ou de dissemelhança para avaliar a proximidade ou a distância entre sujeitos, após
a seleção dos indivíduos a agrupar e das variáveis que servem de base ao agrupamento.
Os sujeitos são agrupados com base numa medida de distância métrica. As mais frequentes são:
Distância euclidiana
Mede o comprimento do segmento de recta que une duas observações num determinado espaço.
Para k-variáveis, a distância Euclidiana é
𝐷 = 𝑥 −𝑥
onde xik é o valor da variável k para o sujeito i; xjk é o valor da variável k para o sujeito j.
Exemplo 1:
𝐷 = 𝑥 −𝑥
Distância de Mahalanobis
𝐷 = 𝑥 − 𝑥 ′𝑆 𝑥 − 𝑥
onde S é a estimativa amostral para a matriz das variâncias-covariâncias () dentro dos grupos. É
uma medida que atende à correlação entre as variáveis. Se a matriz = I, obtém-se a distância
Euclidiana.
Esta medida de semelhança1 mede a proximidade entre dois objetos para k variáveis pelo menos
intervalares.
∑ 𝑥 𝑥
𝐶𝑜𝑠𝑖𝑛(𝑖, 𝑗) =
∑ 𝑥 ∑ 𝑥
O agrupamento hierárquico permite agrupar os indivíduos tendo por base variáveis quantitativas
ou qualitativas (não podem ser em simultâneo das duas naturezas), enquanto o método de
otimização apenas permite variáveis quantitativas;
Em ambos os métodos um sujeito apenas pode pertencer a um grupo (os grupos constituídos são
mutuamente exclusivos2), sendo que ao longo do processo de agrupamento um indivíduo, uma
vez agrupado, não muda de grupo no método hierárquico, mas pode mudar no método de
otimização;
O método hierárquico permite identificar qual o número de grupos mais adequado ao espaço
multivariado de dados, enquanto o método de otimização, tem a desvantagem, de obrigar à
definição à priori do número de grupos a constituir;
1
Proposta por Anderberg (1973).
2
Contrariamente os métodos de agrupamento fuzzy ou difusos que permitem a pertença de um sujeito em mais de um
cluster.
©ISCTE-Instituto Universitário de Lisboa 3
Análise de Clusters
Atendendo às características dos dois métodos, sempre que possível, é usual que se realize um
método hierárquico apenas para definir o número de alternativas admissíveis de constituição de
agrupamentos, e, de seguida, através de uma análise comparativa, tomar-se a decisão sobre o
número de grupos a serem criados através do método de otimização.
PASSO 0: Definição do objetivo, dos sujeitos a agrupar e das variáveis quantitativas a partir dos
quais serão agrupados os indivíduos
PASSO 1: Definir uma medida de distância (usualmente a distância Euclidiana ou a Euclidiana ao
quadrado)
PASSO 2: Selecionar um método (critério) de agregação (método de Ward é um dos mais usados)
PASSO 3: Agrupar em n-1 etapas os sujeitos
PASSO 4: Determinar o número de grupos a reter (através, essencialmente, da leitura do
dendrograma)
PASSO 5: Validar os grupos, reportar e interpretar os resultados
Conforme referido no passo 2 é necessário definir o método de agregação, sendo os mais usuais:
𝑑[( , ); ] = 𝑚𝑖𝑛 𝑑 , ; 𝑑 ,
A distância entre dois clusters corresponde à distância entre os dois sujeitos mais próximos.
3
Por oposição ao método divisivo em que se parte de um grupo com n indivíduos e se termina quando se obtêm n
grupos de um simples indivíduo.
©ISCTE-Instituto Universitário de Lisboa 4
Análise de Clusters
𝑑[( , ); ] = 𝑚𝑎𝑥 𝑑 , ; 𝑑 ,
A distância entre dois clusters corresponde à distância entre os dois sujeitos mais afastados.
Método do centróide
Cada cluster é representado por um ponto (centróide) cujas coordenadas são as médias das
variáveis caracterizadores dos indivíduos que fazem parte do cluster. A distância entre dois
clusters corresponde à distância entre os dois centróides.
Método de Ward
Pretende minimizar a soma dos quadrados dos erros dentro de cada cluster, i. e.,
𝑆𝑆𝐸 = ∑ ∑ 𝑋 −𝑋 .
A aplicação de um dos métodos de agregação vai atender ao método do vizinho mais próximo.
Exemplo 2:
mais distantes). Assim, a primeira fusão ou etapa é agrupar os sujeitos (3; 5) ou (4; 5). Perante
uma situação de empate entre duas possíveis fusões, é indiferente escolher-se o par (3; 5) ou o (4;
5). Escolha-se o par (4; 5) para a primeira fusão a uma distância de 6.
NOVOS (1; 4) = 21
1 2 3 [4; 5] 21
PARES (1; 5) = 49
1 57 41 21
2 57 66 46 (2; 4) = 46
46
3 41 66 6 (2; 5) = 59
[4; 5] 21 46 6
(3; 4) = 8
6
(3; 5) = 6
Os consumidores (1; 4) estão a uma distância de 21; mas, como os consumidores (1; 5) estão a
uma distância maior (distância de 49), a nova distância entre a fusão do consumidor 1 com o cluster
anterior (4; 5) vai ser de 21 por o critério de fusão ser agrupar sujeitos que se encontram a uma
menor distância. Da mesma forma, os consumidores (2; 4) estão a uma distância de 46 e os
consumidores (2; 5) estão a uma distância de 59 logo, a distância entre os consumidores [1;(4;
5)] vai ser de 46. Finalmente, os consumidores (3; 4) estão a uma distância de 8 enquanto que os
consumidores (3; 5) estão a uma distância de 6 logo, a distância entre os consumidores [3;(4;
5)] vai ser de 6.
Com base na matriz atualizada, procuram-se os consumidores mais próximos e que são, tal como
se descreve no passo anterior, o 3 que se vai juntar aos consumidores 4 e 5.
NOVOS
1 2 3[4; 5] (1; 3) = 41
PARES 21
(1; [4; 5]) = 21
1 57 21
2 57 46 (2; 3) = 66
46
3 [4; 5] 21 46 (2; [4; 5]) = 46
NOVOS
[1; (3 [4; 5])] 2 (1; 2) = 57
PARES 46
[1; (3 [4; 5])] 46 (2; 3[4; 5]) = 46
(2; 3[4; 5]) = 46
2 46
Quarta e última fusão: {2; [1; (3 [4; 5])]} a uma distância de 46. Neste último passo, todos os
consumidores foram agrupados num mesmo cluster. O processo aglomerativo desenvolveu-se ao
longo de 4 etapas (4 = 𝑛 − 1), em que na última etapa existe somente 1 cluster. O processo de
agrupamento chegou ao fim.
Tabela 2: Resumo do processo aglomerativo com base no critério do vizinho mais próximo
Combinação Clusters Coeficientes Próxima
Fase Cluster 1 Cluster 2 de fusão Fase
1 4 5 6,000 2
2 3 4 6,000 3
3 1 3 21,000 4
4 1 2 46,000 0
Contudo, o dendrograma não identifica um número de clusters ótimo. Assim, devem-se ensaiar
diferentes alternativas que devem depois ser validadas estatisticamente. No dendrograma (rodado),
os casos são identificados ao longo do eixo YY’. O eixo horizontal mostra a distância entre os
clusters quando estes são agrupados.
2 clusters
3 clusters
Solução: podem ser extraídos 2 ou 3 clusters. As linhas traçadas na horizontal (a azul) cortam o
dendrograma em 2 ou 3 pontos o que significa que podem ser formados 2 ou 3 grupos.
Importa realçar que cortar a distâncias muito pequenas pode significar que se estão a
separar sujeitos que não são muito diferentes; e cortar a distâncias muito grandes pode
significar que se estão a juntar sujeitos que são muito diferentes. Desta forma, é usual
considerar-se que distâncias reescalonadas entre 5 e 15 conduzem a um adequado número
de clusters (clusters que devem ser, posteriormente, validados).
Exemplo 3:
Agrupe os 100 leitores dos jornais de acordo com a sua concordância, numa escala de 1 (discordo
totalmente) a 5 (concordo totalmente), com quatro características (positivas) de que o seu semanário
preferido possui (características físicas, qualidade da informação, leitura aprazível e grafismo).
A Tabela 3 mostra parte da matriz de proximidade entre os leitores dos jornais, calculada a partir
das distâncias Euclidianas ao quadrado.
Passo 25 - forma-se o 2º grupo com os indivíduos anteriores (63 e 96) e o indivíduo 65 à distância
reescalonada de 1,574. A este grupo juntar-se-á a um outro indivíduo ou grupo na etapa 85;
Passo 85 - ao grupo anterior, formado com os sujeitos [(63; 96); 65], junta-se o sujeito 28 a uma
distância de 42,542. A este grupo, já com 4 sujeitos, vai-se juntar um outro sujeito na etapa 87;
(...)
Deste processo aglomerativo surge a figura seguinte que identifica as fases e os respetivos
coeficientes de fusão.
240
210
180
150
120
90
60
30
0
0 10 20 30 40 50 60 70 80 90 100 110
A pertença dos leitores aos clusters formados para diferentes soluções, desde 2 a 6 clusters é visível
na Tabela 5.
Desta tabela pode-se dizer que, por exemplo, para o sujeito 7 e caso se opte por uma solução de 6
ou 5 clusters, este indivíduo pertencerá sempre ao cluster 5; caso se opte por uma solução de 4 ou
3 clusters, este indivíduo pertencerá ao cluster 3; e, caso se opte por uma solução de dois clusters,
este indivíduo pertencerá ao cluster 1.
3
4
5
O método do vizinho mais afastado a uma distância reescalonada ligeiramente acima de 10 sugere
a formação de 6 clusters; a uma distância reescalonada de 15 formam-se 4 clusters; a uma distância
de 14, este método sugere a constituição de 3 clusters; e, a uma distância superior a 15, sugere a
formação de 2 clusters.
Este método faz a partição dos sujeitos em k grupos, sendo k um valor pré-determinado, e
contempla as seguintes etapas:
PASSO 0: Definição do objetivo, dos sujeitos a agrupar, das variáveis quantitativas e do número de
grupos a constituir (k)
PASSO 1: Definição (aleatória) dos centroides (centros) dos k clusters
PASSO 2: Cálculo das distâncias (distância euclidiana) de cada sujeito a cada um dos k centróides.
PASSO 3: Agrupamento de cada sujeito no cluster ao qual a distância ao centróide é menor
PASSO 4: Calcular os novos centróides (média de todos os sujeitos em cada uma das variáveis) dos
k clusters
PASSO 5: Voltar ao passo 2 até que não se verifique nenhuma variação substancial na distância
mínima de cada sujeito a cada um dos centróides ou até que se verifique determinado
critério de convergência
Exemplo 4:
Agrupe os 100 leitores dos jornais de acordo com a sua concordância, numa escala de 1 (discordo
totalmente) a 5 (concordo totalmente), com quatro características (positivas) de que o seu semanário
preferido possui (características físicas, qualidade da informação, leitura aprazível e grafismo).
Outputs:___________________________________________________________________________
SOLUÇÃO DE 3 CLUSTERS:
O cluster 1 apresenta características intermédias em relação aos outros dois clusters. Os leitores
pertencentes ao cluster 3 apresentam um nível médio de concordância bastante elevado face às
Caraterísticas físicas e Qualidade de informação (médias superiores a 4,5); mas o atributo Leitura
aprazível só consegue um nível médio de concordância de 3,03; relativamente ao atributo
Grafismo, estes leitores apresentam nível médio de concordância relativamente elevado (4,39).
Concluindo, o atributo que precisa de ser melhorado é a Leitura Aprazível que foi classificado com
valores médios mais baixos nos clusters 1 e 3 (3,03 e 3,27, respetivamente).
ANOVA Identifica a variável ou variáveis
Cluster Error que melhor diferencia(m) os
Mean Mean grupos, ou seja, a que melhor
Square df Square df F Sig. representada está nesta solução
Caraterísticas_Físicas 12,781 2 ,248 97 51,521 ,000 de 3 clusters. Essas variáveis são
Qualidade_Informação 7,817 2 ,403 97 19,417 ,000 as Características Físicas e a
Leitura_Aprazível 17,991 2 ,462 97 38,905 ,000 Leitura Aprazível. A que menos
Grafismo 7,190 2 ,321 97 22,389 ,000 diferencia é a Qualidade de
The F tests should be used only for descriptive purposes because the clusters have been Informação.
chosen to maximize the differences among cases in different clusters. The observed
significance levels are not corrected for this and thus cannot be interpreted as tests of the
hypothesis that the cluster means are equal.
A variável “Caraterísticas físicas” é a que mais diferencia esta solução (𝐹 = 51,521) e as que se
lhe seguem são a “Leitura aprazível” (𝐹 = 38,905 ) e o “Grafismo” (𝐹 = 22,389); a “Leitura
Aprazível” (𝐹 = 22,389) é a que menos permite diferenciar os três grupos. Assim, a variabilidade
do atributo Caraterísticas físicas entre os grupos é a maior.
cluster 1 do que do cluster 3 (distâncias entre os centros de 1,450 vs. 1,942); os grupos 2 e 3 são
os mais afastados, encontrando-se os seus centros a uma distância de 1,942.
SOLUÇÃO DE 4 CLUSTERS:
Tabela 6: Centróides obtidos para uma solução de 4 clusters, usando-se o método K-Means
Cluster
1 2 3 4
Caraterísticas_Fisicas 4,56 4,59 3,98 3,06
Qualidade_Informacao 4,59 4,66 3,55 3,82
Leitura_Aprazivel 2,35 4,09 3,74 2,36
Grafismo 4,28 3,61 3,82 3,36
1. Os 38 leitores do grupo 2 e os 38 do grupo 3 são os mais satisfeitos com estes atributos já que
atribuem concordâncias médias superiores a 3,5 nos quatro atributos dos semanários.
2. Os 11 leitores do cluster 4 são os mais insatisfeitos relativamente a estes atributos,
especialmente quanto à Leitura aprazível (média=2,36), mas também se mostrando indiferentes
quanto às Caraterísticas físicas; relativamente aos restantes dois atributos concordam
moderadamente com eles, apresentando médias de 3,36 no Grafismo e de 3,82 na Qualidade
de informação.
3. Os 13 sujeitos do cluster 1 são muito homogéneos quanto aos seus níveis médios de
concordância superiores a 4 (tendendo a concordar totalmente) quanto aos atributos
Caraterísticas Físicas, Qualidade de informação e Grafismo (4,56, 4,59 e 4,28, respetivamente);
mas, mostram-se insatisfeitos com a Leitura aprazível já que tendem a discordar (média de
2,35).
Em suma, o cluster 2 é o que reúne os leitores mais satisfeitos com estes atributos e a Leitura
aprazível é a característica do semanário que recebe um nível médio de concordância mais baixo,
sendo nos grupos 1 e 4 de apenas 2,35 e 2,36, respetivamente). Da Tabela 2, verifica-se que o
atributo Leitura aprazível é o que mais diferencia estes quatro grupos (𝐹 = 44,009) e o Grafismo
o que menos diferencia os grupos (𝐹 = 23,790). Finalmente, da Tabela 4, fica-se a saber que os
clusters 2 e 3 são os que mais próximos (1,533) se encontram face a estes atributos e os clusters 2
e 4 são os que se encontram mais afastados (2,722).
Sendo a análise de clusters uma técnica de análise multivariada exploratória, é difícil dizer à
partida qual o número de grupos a formar. Assim, existem alguns critérios que ajudam a decidir
quanto ao número de clusters a formar.
No critério da análise conjunta utiliza-se o cruzamento entre dois métodos de agrupamento. Por
exemplo, o cruzamento do método Ward com o método do vizinho do K-Means, para as
alternativas de se constituírem 3, 4, ou ainda 5 clusters.
Com base na tabela seguinte, pode concluir-se que este cruzamento identifica somente 63% dos
leitores nos mesmos clusters.
Esta solução é melhor do que a anterior uma vez que 88% dos sujeitos estão classificados nos
mesmos clusters.
De acordo com o critério conjunto do método do K-Means e do Ward, identifica-se uma solução
que aponta para a formação de 4 clusters.
Se as análises descritivas univariada e bivariada permitem fazer uma caraterização geral dos
inquiridos (enquanto pertencentes a um só grupo e, por isso mesmo, homogéneo mesmo que não
o seja), a análise de clusters permite fazer uma análise descritiva de sujeitos que pertencem a
segmentos diferentes de acordo com determinadas variáveis que estão na génese da sua
classificação.
A validação dos grupos constituídos deve basear-se, essencialmente, na sua utilidade para tomada
de decisão. Esta utilidade é, muitas vezes, percecionada através da análise da dimensão dos grupos
criados e da identificação de diferenças entre os grupos no que respeita às variáveis que lhes deram
origem. Adicionalmente, é importante conhecer o perfil sociodemográfico de cada um dos grupos
constituídos, pois só assim é possível, por exemplo, elaborar campanhas de comunicação
adequadas a cada grupo.
Pela Figura 9 pode ver-se que não se regista uma grande diferença nas médias de concordância
com os atributos estudados entre os quatro grupos homogéneos, quer obtidos pelo método de Ward
quer pelo método K-Means. Recorrendo aos grupos obtidos com o método de Ward, verifica-se
que os clusters 1 e 4 são constituídos por leitores insatisfeitos no que diz respeito ao atributo
Leitura Aprazível uma vez que atribuem, em média, uma concordância abaixo do ponto central da
escala. Os leitores mais satisfeitos com estes atributos estão agrupados no cluster 2, com médias
de concordância superiores a 4,5 para os atributos Caraterísticas Físicas, Qualidade de Informação
e Grafismo e próximo de 4 na Leitura Aprazível.
Gráfico inicial:
Gráfico final:
Os sujeitos que pertencem aos clusters 1 e 4 penalizam, em média, a leitura aprazível (1,89 e
2,25, respetivamente).
Figura 8: Média de concordância dos leitores relativamente aos atributos dos semanários com
base nos métodos de Ward e do K-Means
A F9gura 8 mostra que a média de concordância dos leitores aos atributos dos semanários por estes
dois métodos de clustering é bastante idêntico.
4
Contributo de Nuno Santos.
©ISCTE-Instituto Universitário de Lisboa 21
Análise de Clusters
Na caraterização dos clusters, obtidos pelo método de Ward, relativamente a algumas das variáveis
demográficas dos leitores inquiridos, elaborou-se a Tabela 13.
Quanto ao sexo, o cluster 2 é o que tem mais leitores, i. e., 40 leitores, dos quais a maioria (28
70%) são do sexo masculino; também no cluster 3 predominam os leitores do sexo masculino
(58,3%); contrariamente, no cluster 1 há mais leitoras que leitores (58,3%). O cluster 4 é o que
tem um menor número de leitores (7) dos quais a grande maioria é do sexo masculino (85,7%).
Assim, o Grupo e o Sexo encontram-se fracamente relacionadas (𝑉 − 𝐶𝑟𝑎𝑚𝑒𝑟 = 0,301), já
que, com exceção do grupo 1, os outros três grupos apresentam uma percentagem de leitores do
sexo masculino relativamente próxima, isto é, entre 58,3% e 85,7%.
Quanto às habilitações, os clusters 1 e 2 são constituídos por leitores com maior habilitação
académica (58,3% e 59%, respetivamente); já nos clusters 3 e 4, regista-se uma maioria ou total
dominância de leitores com menor grau académico (53% e 100%, respetivamente). As variáveis
encontram-se fracamente associadas na amostra (𝑉 − 𝐶𝑟𝑎𝑚𝑒𝑟 = 0,302).
Pode ainda acrescentar-se que os métodos hierárquicos se adequam a bases de dados de dimensão
moderada e que o método do K-Means se adequa a bases de dados de grande dimensão ou de
dimensão moderada, enquanto que o método Two-Step cluster Analysis5 se adequa a bases de
dados de muito grande dimensão.
5
Para a base de dados que se está a estudar, o método Two-Step cluster Analysis não é adequado dada a sua dimensão
amostral (𝑛 = 100).
©ISCTE-Instituto Universitário de Lisboa 22
Análise de Clusters
6. Two-Step Clustering
Os Métodos mistos em duas etapas (TwoStep clustering) são adequados a bases de dados de
grande dimensão ou quando se pretenda a utilização de variáveis de classificação formadas a partir
de uma combinação de variáveis de diferentes tipos em que o número de clusters é determinado
automaticamente ou definido pelo investigador.
Assume-se ainda que as variáveis de segmentação são independentes e, portanto, ir-se-á usar as
componentes principais extraídas de uma base de dados com maior dimensão amostral que a
anterior.
Como se pode usar uma combinação de variáveis qualitativas e quantitativas ou não, as medidas
de distância podem ser:
• Para modelos mistos (variáveis de ambos os tipos) ou modelos só com variáveis categóricas,
apenas se pode usar a distância log da função de verosimilhança (ln-Likelihood).
• Para modelos só com variáveis quantitativas, pode-se usar ambas as distâncias: o ln-
Likelihood ou a distância Euclidiana.
Contudo, os resultados podem ser diferentes e, por isso, deve experimentar-se ambas as distâncias
e estudar-se as partições obtidas.
Não é produzido qualquer output visível ao investigador embora se possa controlar alguns
parâmetros para a formação dos preclusters.
Preclustering: construção da estrutura em árvore em que os casos são ‘arrumados’ de acordo
com a sua semelhança nas folhas da árvore;
• Informação contida em cada folha: número de casos, soma dos valores e soma de quadrados
para as variáveis quantitativas e frequência de cada categoria para variáveis categóricas.
Ficheiro: restaurantes.sav
Clustering em: CP1, CP2, CP3, CP4 e CP5
Medida de distância: Log-likelihood
Critério de clustering: Schwarz’s Bayesian Criterion (BIC)
Outputs: _____________________________________________________________________________
Figura 10: Identificação do número óptimo a fomar bem com a qualidade desta segmentação
Silhouette measure of cohesion and separation (Medida de coesão e separação) é uma medida de
qualidade desta segmentação (0,2) que é apenas ‘fair’. Deve-se incluir mais variáveis de
classificação para além dos índices.
Identificam-se 6 clusters (tantos quanto os que foram na análise prévia6) a partir de cinco variáveis
de classificação em que o cluster de menor dimensão tem 58 clientes (10%) e o de maior dimensão
tem 141 clientes (24,4%).
Obtém-se:
6
Mas podia não ser igual.
©ISCTE-Instituto Universitário de Lisboa 25
Análise de Clusters
Figura 13: Importância de cada variável de input e da variável idade para esta segmentação
Como já se sabia, a idade não diferencia estes clusters uma vez que a etiqueta 2 que corresponde
ao escalão etário dos que pertencem ao intervalo de 25 anos e 44 anos é sempre o que ocupa maior
destaque em todos os clusters.
Selecionando-se todas as colunas, obtém-se a comparação de clusters para 5 dos 6 clusters.
A partir da figura input (predictor) importance, deve construir-se uma tabela com as características
mais importantes de cada um destes clusters. Contudo, só temos a representação gráfica de 5 dos
6 clusters extraídos, o que é uma limitação para o nosso caso de aplicação.
Tabela 12: Características dos clusters relativamente ás médias de cada uma das variáveis de
classificação
Satisfação com a Satisfação com Satisfação com o
Satisfação com Satisfação com o
Dimensão lista dos pratos e a qualidade do profissionalismo
a decoração meio envolvente
dos vinhos serviço dos empregados
Cluster 19,2%
𝑀é𝑑𝑖𝑎 = 0,72 𝑀é𝑑𝑖𝑎 = 0,24 𝑀é𝑑𝑖𝑎 = 0,60 𝑀é𝑑𝑖𝑎 = 0,78 𝑀é𝑑𝑖𝑎 = −0,01
1 (111)
Cluster 12,5% 𝑀é𝑑𝑖𝑎 =
𝑀é𝑑𝑖𝑎 = 0,39 𝑀é𝑑𝑖𝑎 = 0,20 𝑀é𝑑𝑖𝑎 = −0,77 𝑀é𝑑𝑖𝑎 = 0,29
2 (72) −1,47
Cluster 15,9% 𝑀é𝑑𝑖𝑎 =
𝑀é𝑑𝑖𝑎 = −1,24 𝑀é𝑑𝑖𝑎 = 0,08 𝑀é𝑑𝑖𝑎 = −0,28 𝑀é𝑑𝑖𝑎 = −1,04
3 (92) −0,28
Cluster 24,4%
𝑀é𝑑𝑖𝑎 = −0,52 𝑀é𝑑𝑖𝑎 = 0,24 𝑀é𝑑𝑖𝑎 = 0,05 𝑀é𝑑𝑖𝑎 = 0,46 𝑀é𝑑𝑖𝑎 = 0,58
4 (141)
Cluster 18,0%
𝑀é𝑑𝑖𝑎 = 0,57 𝑀é𝑑𝑖𝑎 = 0,77 𝑀é𝑑𝑖𝑎 = 0,05 𝑀é𝑑𝑖𝑎 = −0,81 𝑀é𝑑𝑖𝑎 = 0,01
6 (104)
• Cluster 1: é o 2º maior grupo constituído por 111 clientes e que têm uma maior satisfação
média7 com o profissionalismo dos empregados (0,78) seguida da satisfação média com a
lista de pratos e vinhos (0,72) e têm uma menor satisfação média (mas próxima de zero)
com o meio envolvente (−0,01);
• Cluster 2: é o grupo com menor número de clientes (72) mais descontentes, em média, com
a qualidade do serviço (−1,47) e com o profissionalismo dos empregados (−0,77); mas
7
Média estandardizada.
©ISCTE-Instituto Universitário de Lisboa 27
Análise de Clusters
atribuem uma maior satisfação média à lista de pratos e de vinhos (0,39) e do meio
envolvente (0,29);
• Cluster 3: é constituído por 92 clientes que só atribuem uma satisfação média positiva e
próxima de zero com a decoração; estes clientes são os mais descontentes em média com
estas variáveis de classificação;
• Cluster 4: é o maior grupo constituído por 141 clientes e que têm uma maior satisfação média
com a decoração (0,58), ao profissionalismo dos empregados (0,46), e com a qualidade do
serviço (0,24); contudo, estão, em média, descontentes com a lista de pratos e vinhos (0,78)
seguida da satisfação média com a lista de pratos e vinhos (−0,52) e são indiferentes quanto
à decoração (0,05);
• Cluster 6: é constituído por 104 clientes que apenas penalizam, em média, o profissionalismo
dos empregados (−0,81) e são indiferentes relativamente à decoração (0,05). Estes clientes
são os mais satisfeitos, em média, com a qualidade do serviço (0,77) e com a lista de pratos
e vinhos (0,57).