Você está na página 1de 23

Análise de Clusters

Mestrado em Gestão
Análise de Dados para Negócios I

2009/2010
Andreia Dionísio
Cesaltina Pires

Sumário
1. Estatística Multivariada 7. Selecção do algoritmo
2. Análise de Clusters – 1. Métodos hierárquicos
definição e aplicações 2. Métodos não hierárquicos
3. Análise de clusters – ideias 3. Combinação dos 2
básicas métodos
4. Etapas na análise de clusters 8. Escolha do número de
5. Selecção das variáveis clusters
6. Selecção das medidas de 9. Interpretação e
semelhança/distância caracterização dos clusters
1. Medidas de correlação 10. Validação dos resultados
2. Medidas de distância 11. Análise de clusters no SPSS
3. Medidas de Associação – exemplo

1
1. Estatística Multivariada

A Estatística Multivariada incluí todas as técnicas estatísticas que


analisam simultaneamente duas ou mais variáveis para os indivíduos
ou objectos em análise.
• Análise factorial
• Análise de clusters
• Análise de variância multivariada
• Análise de correspondências
• Análise de regressão
• Análise discriminante
• Modelos de equações estruturais

Análise factorial
O objectivo da análise factorial é identificar a estrutura subjacente a
um conjunto de variáveis em análise. A ideia é representar ou
descrever as variá
variáveis iniciais a partir de um nú
número menor de
variá
variáveis hipoté
hipotéticas (os
( factores)) com a menor perda de informaç
informação
possí
possível.
– Pode ser vista como uma técnica exploratória para reduzir a
dimensão dos dados.
– Mas também pode ser usada como técnica confirmatória. Se a
teoria sugerir um certo número de factores subjacentes, podemos
usar a análise factorial para testar essa teoria.
– Em muitos campos da gestão há conceitos que são difíceis de
medir. Suponhamos que arranjamos várias formas de medir esse
conceito. Podemos testar se essas medidas definem 1 único factor
(consistência interna).

2
Análise factorial
Inquérito à satisfação dos trabalhadores com 30 perguntas acerca da satisfação em
relação a vários aspectos. Será que é possível identificar factores subjacentes à
satisfação dos trabalhadores?
Satisfação com as características do trabalho
Satisfação com o ambiente de trabalho
Satisfação com as recompensas
Um estudo para identificar grupos estratégicos continha 16 variáveis relacionadas
com as opções estratégicas das empresas e com os seus recursos. Obtiveram-se os
seguintes factores:
Tamanho e diversificação geográfica
Diferenciação em qualidade
Idade e experiência da empresa
Integração vertical

Muitas vezes os factores têm significado e podem corresponder a conceitos que não
podem ser medidos por uma única variável.

Análise discriminante
O objectivo da análise discriminante é descobrir as características que
distinguem dois ou mais grupos de indivíduos, de forma a que,
conhecidas as características de um novo indivíduo se possa prever a
que grupo pertence.

Depois de seleccionar as variáveis que se julga serem importantes


para discriminar os grupos identificam-se as funções discriminantes.
Estas funções são depois usadas para prever a que grupo é que
pertence um novo indivíduo.

Exemplo: um banco está interessado em identificar o que distingue o


grupo de clientes de risco elevado em termos de crédito do grupo com
risco de crédito baixo. Se conhecermos as características de um novo
cliente do banco é possível prever a que grupo é que ele pertence.

3
Análise discriminante
Rendimento Agregado Possui
da família familiar frigorífico
2500 1 Não
O Rendimento por si só não permite
3000 2 Não
distinguir o grupo das famílias que possui
4000 2 Sim
frigorífico das que não possui. O
4500 5 Sim
tamanho do agregado familiar também é
5000 4 Não variável discriminante.
5500 2 Sim
6000 4 Sim
7000 4 Sim Função discriminante
8500 2 Sim
10000 4 Sim
12000

10000

8000
Rendimento

6000

4000

2000

0
0 1 2 3 4 5 6
Agregado familiar

Análise de regressão
A teoria económica indica que muitos fenómenos podem ser
influenciados por diversos factores, daí a necessidade que o
modelo integre mais variáveis explicativas.

Yi = β 0 + β1 X 1i + β 2 X 2 i + β 3 X 3i + ... + β k X ki + ε i

A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de


regressão simples, ou seja :

-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas (ainda que nem
sempre faça sentido que certas variáveis tomem o valor zero);
-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma
unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados
de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis
explicativas, assumindo que todas as outras se mantêm constantes.

4
Análise de regressão
A teoria económica indica que muitos fenómenos podem ser
influenciados por diversos factores, daí a necessidade que o
modelo integre mais variáveis explicativas.

Yi = β 0 + β1 X 1i + β 2 X 2 i + β 3 X 3i + ... + β k X ki + ε i

A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de


regressão simples, ou seja :

-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas (ainda que nem
sempre faça sentido que certas variáveis tomem o valor zero);
-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma
unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados
de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis
explicativas, assumindo que todas as outras se mantêm constantes.

Aná
Análise de Clusters
- Originalmente usada na Biologia – classificação de organismos

Em que consiste?
Organizaç
Organização de um conjunto de indiví
indivíduos, para os quais é
conhecida informaç
informação detalhada, em grupos relativamente
homogé
homogéneos. Podem agrupar-
agrupar-se casos ou variá
variáveis.

Aplicaç
Aplicações
•Segmentação de mercados a partir de características
geográficas, demográficas e psicográficas dos consumidores;
•Identificação de mercados potenciais para determinados
produtos;
•Determinação de mercados idênticos em diferentes países;
•Encontrar grupos de consumidores que possam servir de
referência na previsão de vendas…

5
Aná
Análise de Clusters
Dado um conjunto de n indiví
indivíduos, para os quais existe
informaç
informação sob a forma de p variá
variáveis a aná
análise de clusters
procede ao agrupamento dos indiví
indivíduos em funç
função da
informaç
informação existente, de tal modo que os indiví indivíduos
pertencentes a um mesmo grupo são tão semelhantes
quanto possí
possível e mais semelhantes entre si do que face a
elementos de outros grupos.

Quais os objectos de aná


análise:
1. Casos – semelhanças e utilização conjunta com análise
discriminante
2. Variáveis – semelhanças com análise factorial

Aná
Análise de Clusters
Etapas

1. Selecção dos indivíduos ou amostra a serem agrupados –


Formulação do problema a estudar;
2. Definição das variáveis (informação para classificar e
agrupar os indivíduos);
3. Selecção das medidas de semelhança ou distância entre
cada 2 indivíduos;
4. Selecção do algoritmo de partição/classificação a usar;
5. Interpretação dos resultados;
6. Validação dos resultados obtidos.

6
1 - Definiç
Definição das variá
variáveis
Colocam-se
-se 22problemas:
Colocam-
Colocam problemas:
problemas

a)a) Qual
Qualooobjecto
objectodedeestudo?
estudo?HáHáque
queescolher
escolheras
asvariáveis
variáveismais
maissignificativas
significativas
para dar resposta ao problema colocado
para dar resposta ao problema colocado
b) Tipo
b) Tipode
devariáveis
variáveisaausar?
usar?Estão
Estãodefinidas
definidasem
emque
queescala?
escala?

AAescala
escaladiferente
diferentedas
dasvariáveis
variáveispode
podeoriginar
originarproblemas.
problemas.

x−µ
Possível Solução: Standartização Z= ≈ N ( 0,1)
σ

Podeser
Pode serproblemática
problemáticapois
poisreduz
reduzas
asdiferenças
diferençasentre
entreos
osindivíduos,
indivíduos,anulando
anulando
agrupamentos naturais que possam existir
agrupamentos naturais que possam existir

2 - Selecç
Selecção das medidas de semelhanç
semelhança ou distância

Os índices de semelhança/distância devem respeitar as propriedades das


medidas métricas:
1. Simetria
2. Desigualdade triangular
3. Diferenciabilidade de não idênticas
4. Indiferenciabilidade

As categorias:
Coeficiente de correlação
Medidas de distância Mais usadas na análise de clusters
Coeficiente de associação
Medidas de semelhança probabilística

7
2 - Selecç
Selecção das medidas de semelhanç
semelhança ou distância

Coeficiente de correlaç
correlação de Pearson

∑(x )( x )
p

iv − xi jv − xj
Rij = v =1

∑( )( )
p 2 2 Puramente linear
xiv − xi x jv − x j Não é métrica.
v =1

p n.º de variáveis
xiv variável v para o indivíduo i

2 - Selecç
Selecção das medidas de semelhanç
semelhança ou distância
Medidas de Distância

∑(x − x jv )
p
2
Distância Euclidiana dij = iv
v =1

dij 2 = ∑ ( xiv − x jv )
p
2
Distância Euclidiana ao Quadrado
v =1

p
Distância Absoluta ou City-Block Metric dij = ∑ xiv − x jv
v =1
1/ r
 p r

Distância de Minkowski dij =  ∑ xiv − x jv 
 v =1 
 

Distância de Chebischev dij = max xiv − x jv


v

8
2 - Selecç
Selecção das medidas de semelhanç
semelhança ou distância

Medidas de Associaç
Associação
Usadas para definir semelhança entre indivíduos caracterizados por variáveis
qualitativas do tipo boleano (binárias).
Indivíduo i
Indivíduo j 1 0 Totais

1 a b a+b
0 c d c+d
Totais a+c b+d p = a+b+c+d
“a” número de características que assumem valor 1 em ambos os indivíduos

Coeficientes de emparelhamento simples:


a+d b+c
sij = dij =
a+b+c+d a+b+c+d

3 - Selecç
Selecção do algoritmo
Processo de cluster

Não Hierárquico
Hierárquico
(K-Means)

Aglomerativo Divisivo Entrada sequencial Entrada paralela Optimização

Método do Centróide

Método da variância

Método de Ward’s

Mét . ligação em
cadeia (linkage)

Single Linkage

Complete Linkage

Average Linkage

9
3 - Selecç
Selecção do algoritmo

Método hierá
hierárquico – envolve a construç
construção de uma hierarquia em
árvore e pode ser usado em casos ou em variá
variáveis

Método aglomerativo – o processo de clusters inicia-se com n grupos de


apenas 1 indivíduo que vão sendo agrupados até se encontrar um grupo que
inclui a totalidade dos indivíduos.

Método divisivo - o processo de clusters inicia-se com 1 grupo de n indivíduos


que vão sendo desagrupados até se encontrarem n grupos com 1 indivíduo.

3 - Selecç
Selecção do algoritmo
No método aglomerativo, podemos optar por diversas abordagens:

Métodos de ligação em Cadeia (linkage)

Método do vizinho mais próximo ou single linkage ou nearest neighbor – dois grupos
são reagrupados num só de acordo com a distância mínima entre eles.

Método do vizinho mais afastado ou complete linkage ou furthest neighbor– inverso


ao anterior, em que é considerada a distância entre os elementos mais afastados.

10
3 - Selecç
Selecção do algoritmo
No método aglomerativo, podemos optar por diversas abordagens:

Métodos de ligação em Cadeia (linkage)

Método da média de grupo ou average linkage between groups – o critério de


formação de grupo é a medida das distâncias entre todos os pares de indivíduos
constituídos por elementos dos 2 grupos.

3 - Selecç
Selecção do algoritmo
No método aglomerativo, podemos optar por diversas abordagens:

Método do centróide – a distância entre dois grupos é determinada entre os seus


centróides. O centróide de um novo grupo é a combinação ponderada dos centróides dos
2 grupos separados. As ponderações são proporcionais às dimensões dos grupos.
O centróide é o valor médio da variável/caso num dado cluster.

Método da variância – trabalha com o critério de Ward. Neste calculam-se inicialmente


as médias das variáveis de cada grupo, em seguida calcula-se a distância euclidiana ao
quadrado. Seguidamente calculam-se as distâncias para todos os indivíduos e optimiza-se
a variância mínima dentro dos grupos.

11
3 - Selecç
Selecção do algoritmo
Método não hierárquico (K-Means)– exige que antecipadamente se defina o
número de clusters que conterão todos os casos. Só pode ser usado para casos e
apresenta melhor robustez quando se têm grandes amostras (n>200).

A maior desvantagem consiste no facto de a selecção dos centros ser arbitrária.


Entrada sequencial – inicia-se seleccionando um centro de cluster que inclui todos os
indivíduos que estão à sua volta, depois selecciona-se outro centro de cluster… e assim
sucessivamente.
Um centro de cluster é um ponto inicial de partida do processo de formação de clusters
não hierárquico.

Entrada paralela – os centros dos clusters são determinados em simultâneo.

Optimização – Permite novas reafectações dos indivíduos aos clusters.

4 – Validaç
Validação dos resultados

Método hierárquico - deve utilizar-se o dendograma para determinar o número


adequado de clusters

Método não hierárquico (K-Means)– exige que antecipadamente se defina o


número de clusters que conterão todos os casos, o que é muito subjectivo. Um
método alternativo será a comparação gráfica do número de clusters com o
coeficiente de fusão (valor numérico de semelhança ou distância para o qual
vários casos se unem para formar um grupo) – cria-se o gráfico do cotovelo.

O problema do gráfico do cotovelo surge quando a representação gráfica mostra


apenas pequenos saltos e não existe maneira de avaliar graficamente o número
óptimo de clusters.

12
4 – Validaç
Validação dos resultados

Outras formas de validação:


•Repartir a amostra em 2 e comparar resultados
•Efectuar a análise de clusters com os mesmos dados e medir distâncias
diferentes na formação do cluster
•Usar métodos diferentes
•Apagar algumas variáveis aleatoriamente e efectuar a análise
•No método não hierárquico, o cluster pode depender da ordem dos dados. Pode
alterar-se a ordem das observações e verificar se há mudanças significativas nos
resultados.

As variáveis que contribuem significativamente para as diferenças entre os


clusters podem ser identificadas via análise discriminante.

Aná
Análise de Clusters no SPSS
Caso: Compras
Suponha-se que se pretende fazer análise de cluster e começar pelo
método hierárquico. Há que seleccionar “Hierarchical Cluster”

13
Aná
Análise de Clusters no SPSS
Clica-se em “Plots” e selecciona-se a opção Dendogram e Icicle, para
podermos ter acesso ao Dendograma e ao Icicle.

Aná
Análise de Clusters no SPSS
Entretanto, há que seleccionar a medida de distância ou semelhança a ter em conta.
O mais usual é escolher a medida Squared Euclidean Distance e o método da
média de grupo ou average linkage between groups.

Se houver
necessidade de
estandardizar
variáveis

14
Aná
Análise de Clusters no SPSS
O calendário de agregação fornece a informação sobre os objectos ou casos que
são combinados em cada estágio (etapa) do processo hierárquico de agregação.
Na primeira linha podemos ver que os casos 14 e 16 são combinados neste estágio.
A distância euclidiana ao quadrado entre eles é indicada na coluna Coefficients.

Agglomeration Schedule

Stage Cluster First


A coluna Stage Cluster
Cluster Combined Appears First Appears indica o
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 14 16 2,000 0 0 3 estágio em que um cluster
2 6 7 2,000 0 0 7
3 10 14 3,000 0 1 8
é formado pela primeira
4 2 13 3,000 0 0 14 vez. A coluna Nest Stage
5 5 11 3,000 0 0 9
6 3 8 3,000 0 0 15
indica o próximo estágio
7 6 12 4,000 2 0 10 em que o cluster actual é
8 4 10 4,333 0 3 11
9 5 9 4,500 5 0 12
combinado com outro.
10 1 6 5,000 0 7 13
11 4 19 7,250 8 0 17
12 5 20 7,333 9 0 14
13 1 17 8,250 10 0 15
14 2 5 10,750 4 12 18
15 1 3 11,300 13 6 16
16 1 15 14,000 15 0 19
17 4 18 20,200 11 0 18
18 2 4 38,611 14 17 19
19 1 2 48,292 16 18 0

Aná
Análise de Clusters no SPSS
Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

14 
16 
10    3 clusters
4   
19   
18  
2   
13     4 clusters
5    
11     
9    
20  
3  
8   
6    
7    
12    
1    
17  
15 

15
Aná
Análise de Clusters no SPSS
Depois podemos usar o coeficiente de determinação, através das tabelas ANOVA
para cada número de clusters.
5 clusters
ANOVA

Sum of
Squares df Mean Square F Sig.
C. é engraçado Between Groups 58,588 4 14,647 22,055 ,000

R52clusters = 0, 831
Within Groups 9,962 15 ,664
Total 68,550 19
C. é mau Between Groups 30,886 4 7,721 16,751 ,000
Within Groups 6,914 15 ,461

R 42clusters = 0, 804
Total 37,800 19
Comprar e comer Between Groups 69,488 4 17,372 34,921 ,000
Within Groups 7,462 15 ,497
Total 76,950 19

R32clusters = 0, 758
Comprar bem Between Groups 32,871 4 8,218 11,279 ,000
Within Groups 10,929 15 ,729
Total 43,800 19
Não me importo Between Groups 46,250 4 11,563 13,656 ,000
Within Groups
Total
12,700
58,950
15
19
,847
R 22clusters = 0, 475
Poupar comparando Between Groups 35,160 4 8,790 17,840 ,000
preços Within Groups 7,390 15 ,493
Total 42,550 19

Variação explicada Soma dos quadrados entre os grupos


R2 = =
Variação total Soma dos quadrados total

Aná
Análise de Clusters no SPSS

Para analisar os cluster, podemos utilizar uma tabela com esses dados.

16
Aná
Análise de Clusters no SPSS
Cluster Membership

Case 5 Clusters 4 Clusters 3 Clusters 2 Clusters


1 1 1 1 1 Obtém-se uma tabela que se
2 2 2 2 2 denomina “Cluster
3 1 1 1 1 Membership”.
4 3 3 3 2
5
Esta tabela indica o cluster a
2 2 2 2
6 1 1 1 1 que cada caso pertence.
7 1 1 1 1
8 1 1 1 1
9 2 2 2 2
10 3 3 3 2
11 2 2 2 2
12 1 1 1 1
13 2 2 2 2
14 3 3 3 2
15 4 1 1 1
16 3 3 3 2
17 1 1 1 1
18 5 4 3 2
19 3 3 3 2
20 2 2 2 2

Aná
Análise de Clusters no SPSS
Podemos usar o “gráfico do cotovelo”
N.º Coef
Clus Aglomer
ters ação 60,000
1 48,292
2 38,611 50,000
Coef aglomeração

3 20,200
4 14,000 40,000

5 11,300
6 10,750
30,000

7 8,250
20,000
8 7,333
9 7,250
10,000
10 5,000
11 4,500
0,000
12 4,333
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
13 4,000
N.º Clusters
14 3,000
15 3,000
16 3,000
17 3,000
18 2,000
19 2,000
3 ou 4 clusters

17
Aná
Análise de Clusters no SPSS
Método não hierárquico

Há que seleccionar a
técnica K-Means Cluster

Aná
Análise de Clusters no SPSS
Método não hierárquico Introduzir as variáveis

Seleccionar o
número de clusters

Definir o número de iterações, caso se tenha escolhido o Método


“Iterate and Classify”

18
Aná
Análise de Clusters no SPSS
Método não hierárquico
Cluster Membership
Esta tabela mostra o cluster a que pertence
Case Number Cluster Distance
1 3 1,414 cada caso e a distância a que cada caso está
2 2 1,323 do centro do cluster.
3 3 2,550
4 1 1,404
5
O caso 18 é o mais afastado do centro do
2 1,848
6 3 1,225 cluster 1, sendo a distância de 3,455.
7 3 1,500
8 3 2,121
9 2 1,756
10 1 1,143
11 2 1,041
O caso 13 é o mais afastado do centro do
12 3 1,581 cluster 2, sendo a distância de 2,598.
13 2 2,598
14 1 1,404
15 3 2,828
16 1 1,624 O caso 15 é o mais afastado do centro do
17 3 2,598 cluster 3, sendo a distância de 2,828.
18 1 3,555
19 1 2,154
20 2 2,102

Aná
Análise de Clusters no SPSS
Método não hierárquico

Final Cluster Centers

Cluster
1 2 3
C. é engraçado 4 2 6
C. é mau 6 3 4
Esta tabela fornece as médias
Comprar e comer 3 2 6 estandardizadas das variáveis para
Comprar bem 6 4 3 cada cluster. As médias de cada
Não me importo 4 6 2 cluster definem o centro do cluster.
Poupar comparando
6 3 4
preços

Distances between Final Cluster Centers

Cluster 1 2 3 Fornece as distâncias entre clusters.


1 5,568 5,698 Os clusters mais afastados entre si
2 5,568 6,928
3 5,698 6,928
são C2 e C3. os mais próximos são
C1 e C2.

19
Aná
Análise de Clusters no SPSS
Método não hierárquico

Between Cluster Within Cluster

ANOVA

Cluster Error
Mean Square df Mean Square df F Sig.
C. é engraçado 29,108 2 ,608 17 47,888 ,000
C. é mau 13,546 2 ,630 17 21,505 ,000
Comprar e comer 31,392 2 ,833 17 37,670 ,000
Comprar bem 15,713 2 ,728 17 21,585 ,000
Não me importo 22,538 2 ,816 17 27,614 ,000
Poupar comparando
12,171 2 1,071 17 11,363 ,001
preços
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

A média da Variável 1 é a que mais se afasta ao longo dos 3 clusters, tendo o


maior valor da estatística F.

Aná
Análise de Clusters no SPSS
Método não hierárquico

Esta tabela mostra o número de casos (indivíduos) existente em cada cluster

Number of Cases in each Cluster


Cluster 1 6,000
2 6,000
3 8,000
Valid 20,000
Missing ,000

20
Aná
Análise de Clusters no SPSS
Interpretação dos resultados
Pode usar-se a análise estatística em “Cross Tabs” onde em linha se têm as
variáveis e em coluna Cluster Membership.

Aná
Análise de Clusters no SPSS
Interpretação dos resultados

Case Processing Summary

Cases
Valid Missing Total
N Percent N Percent N Percent
C. é engraçado * Cluster
20 100,0% 0 ,0% 20 100,0%
Number of Case
C. é mau * Cluster
20 100,0% 0 ,0% 20 100,0%
Number of Case
Comprar e comer *
20 100,0% 0 ,0% 20 100,0%
Cluster Number of Case
Comprar bem * Cluster
20 100,0% 0 ,0% 20 100,0%
Number of Case
Não me importo *
20 100,0% 0 ,0% 20 100,0%
Cluster Number of Case
Poupar comparando
preços * Cluster Number 20 100,0% 0 ,0% 20 100,0%
of Case

21
Aná
Análise de Clusters no SPSS
Interpretação dos resultados
C. é engraçado * Cluster Number of Case Crosstabulation

Cluster Number of Case


1 2 3 Total
C. é 1 Count 0 2 0 2
engraçado % within C. é engraçado ,0% 100,0% ,0% 100,0%
2 Count 0 4 0 4
% within C. é engraçado ,0% 100,0% ,0% 100,0%
3 Count 3 0 0 3
% within C. é engraçado 100,0% ,0% ,0% 100,0%
4 Count 3 0 1 4
% within C. é engraçado 75,0% ,0% 25,0% 100,0%
4
5 Count 0 0 2 2 respondentes
% within C. é engraçado ,0% ,0% 100,0% 100,0%
atribuíram a
6 Count 0 0 3 3
% within C. é engraçado ,0% ,0% 100,0% 100,0% classificação
7 Count 0 0 2 2 4 a esta
% within C. é engraçado ,0% ,0% 100,0% 100,0%
Total Count 6 6 8 20
variável
% within C. é engraçado 30,0% 30,0% 40,0% 100,0%

6 respondentes pertencem ao Cluster 1.

Aná
Análise de Clusters no SPSS
Interpretação dos resultados

Quem atribuiu a classificação 1


e 2 ficou no cluster 2. os
respondentes que atribuíram a
classificação 3 e 4 ficaram no
cluster 1 e os restantes ficaram
no cluster 3.

22
Aná
Análise de Clusters no SPSS
Interpretação dos resultados
Distance of Case from its Classification Cluster Center
Caso compras Este caso apresenta-se
muito afastado do

respectivo cluster e tudo


indica tratar-se do caso 18.

3,00000

2,00000

1,00000

1 2 3

Cluster Number of Case

Aná
Análise de Clusters no SPSS
C1 C2 C3
Comprar é engraçado X
Comprar é mau X
Comprar e comer X
Comprar bem X
Compras não têm X
importância
Poupar comparando X
preços
O Cluster 1 caracteriza-se por consumidores que consideram que fazer
compras é algo de mau para o orçamento, tentam fazer bem as suas
compras, comparando preços pois pretendem poupar.
O Cluster 2 caracteriza-se essencialmente por ter indivíduos que não dão
qualquer importância às compras

O Cluster 3 caracteriza-se por ter indivíduos para os quais as compras


são algo de engraçado e que procuram associar as compras com a acção
de comer.

23