Você está na página 1de 10

ANÁLISE DE CLUSTERS – Métodos Hierárquicos em SPSS

No sentido de criar grupos homogéneos de leitores de jornais semanários, com base nas
principais características que estes leitores mais valorizam no seu jornal preferido, pretende-
se realizar uma Análise de Clusters Hierárquica usando as componentes principais obtidas
previamente. Recorra ao SPSS para realizar a análise tendo por base o ficheiro “jornais.sav”.

No SPSS, a Análise de Clusters Hierárquica encontra-se no menu


Analyze- > Classify -> Hierarchical Cluster
Em Variables seleccionar, entre o total de variáveis, as CP obtidas na ACP: Fac1_1 Fac2_1
Fac3_1 Fac4_1
Em Cluster escolher cases
Em Display escolher Statistics, Plots

No janela Statistics, escolher Agglomeration schedule; - permitirá imprimir todo o processo


de clustering
E em Cluster membership: indicar Minimum number of clusters: 2
e Maximum number of clusters: 6
A indicação de número máximo e minimo de clusters permitirá imprimir soluções de 2, 3, 4,
5 e 6 clusters.

Catarina Marques
Análise de Dados para Business Intelligence
Em Plots escolher apenas Dendrogram (em Icicle escolher None)

Em Method escolher
Em cluster method: furthest neighbor

É aqui que se indica qual o critério de agregação de casos que se pretente. Experimente
várias soluções mediante diferentes métodos de agregação e analise os resultados.

Em Measure: interval - squared euclidean distance

Critério do Complete Linkage ou do


vizinho mais afastado: a distância
entre dois grupos é definida pela
maior das distâncias entre os
elementos dos dois grupos

Na janela Save, indique qual o número mininmo e máximo de clusters que pretende. De
acordo com o que já definimos em Statistics, grave a pertença a grupos para soluções de 2, 3,
4, 5 e 6 clusters.

A indicação de número máximo e minimo de clusters permitirá guardar soluções de 2,


3, 4, 5 e 6 clusters para futura análise e decisão de qual a melhor solução. As novas
variáveis serão CLU2_1, CLU3_1, CLU4_1, CLU5_1, CLUS6_1, respectivamente.

Catarina Marques 2
Técnicas Quantitativas de Análise de Dados
OUTPUTS DO SPSS

Case Processing Summarya,b

Cases
Valid Missing Total
N Percent N Percent N Percent
100 100,0 0 ,0 100 100,0
a. Squared Euclidean Distance used
b. Complete Linkage

Esta tabela dá-nos um resumo do processo. Foram agregados em clusters 100 casos, o que
corresponde a 100% dos casos (não há missing values). Foi usada a Distância Euclideana ao
Quadrado e o método de agregação Complete Linkage ou do vizinho mais afastado.
Agglomeration Schedule

Stage Cluster First


Cluster Combined Appears
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 63 96 ,000 0 0 22
2 65 82 ,000 0 0 22
3 35 48 ,016 0 0 31
4 49 78 ,040 0 0 41
5 9 42 ,059 0 0 30
6 2 52 ,070 0 0 16
7 21 31 ,070 0 0 45
8 38 50 ,106 0 0 31
9 84 85 ,133 0 0 27
10 28 59 ,167 0 0 20
11 15 95 ,200 0 0 54
12 5 51 ,207 0 0 29
13 6 66 ,251 0 0 45
14 22 27 ,267 0 0 62
15 56 77 ,280 0 0 44
16 2 53 ,297 6 0 38
17 13 33 ,356 0 0 66
18 18 39 ,370 0 0 50
19 3 46 ,386 0 0 26
... ...

Esta tabela denomina-se de Tabela dos Coeficientes de Agrupamento/Fusão e tem como


objectivo mostrar o processo de agrupamento. Permite visualizar a que distância os casos se
juntam ao longo das diferentes etapas.
Os coeficientes de fusão começam por ser muito baixos (próximo de 0), o que traduz a forte
semelhança entre os primeiros elementos que se juntam, e vai progressivamente
aumentando, sendo o seu valor mais elevado atingido na última etapa, quando todos os
elementos ficam reunidos num único grupo.

Catarina Marques 3
Técnicas Quantitativas de Análise de Dados
Na tabela, podemos, por exemplo, analisar que:
Na etapa 1, os casos 63 e 96 formam o primeiro cluster à distância de 0,000 e na etapa 22
outro caso se irá juntar a este grupo;
Na etapa 2, um segundo cluster se formou com os casos 65 e 82 e na etapa 22 outro caso se
vai juntar a este grupo. Como é na mesma etapa que o grupo que se formou na etapa 1, serão
estes dois grupos que se juntarão para formar um cluster de 4 elementos
Já na etapa 16, é criado um novo cluster com os casos 2 e 53 à distância 0,297. Contudo,
repare-se que o caso 2 já tinha sido agrupado ao 52 na etapa 6. Este grupo, {2, 52, 53}, irá
juntar-se a outro caso/grupo na etapa 38.

Cluster Membership

Case 6 Clusters 5 Clusters 4 Clusters 3 Clusters 2 Clusters


1 1 1 1 1 1
2 2 2 1 1 1
3 2 2 1 1 1
4 3 3 2 2 1
5 2 2 1 1 1
6 1 1 1 1 1
7 2 2 1 1 1
8 2 2 1 1 1
9 2 2 1 1 1
10 2 2 1 1 1
11 3 3 2 2 1
12 1 1 1 1 1
13 2 2 1 1 1
14 2 2 1 1 1
15 2 2 1 1 1
16 1 1 1 1 1
17 1 1 1 1 1
18 1 1 1 1 1
19 2 2 1 1 1
... ...

Esta tabela dá-nos a informação de qual o cluster a que cada caso pretence nas soluções de
6, 5, 4, 3 e 2 clusters. Recorde-se que pedimos esta informação na janela Statistics.
Por exemplo, o caso 4:
- na solução de 6 clusters, está incluído no cluster 3;
- na solução de 5 clusters, está incluído no cluster 3;
- na solução de 4 clusters, está incluído no cluster 2;
- na solução de 3 clusters, está incluído no cluster 2;
- na solução de 2 clusters, está incluído no cluster 1.

A seguir apresentam-se os dendrogramas obtidos por três métodos de agregação diferentes:


Complete Linkage, Single Linkage e método Ward.

Catarina Marques 4
Técnicas Quantitativas de Análise de Dados
Dendrogram using Complete Linkage
CASE 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------
Case 71 71
Case 93 93
Case 75 75
Case 81 81
Case 69 69
Case 91 91
Case 5 5
Case 98 98
Case 14 14
Case 97 97
Case 18 18
Case 8 8
Case 51 51
Case 31 31
Case 24 24
Case 26 26
Case 7 7
Case 17 17
Case 59 59
Case 66 66
Case 30 30
Case 57 57
Case 29 29
Case 23 23
Case 25 25
Case 34 34
Case 40 40
Case 9 9
Case 33 33
Case 11 11
Case 54 54
Case 55 55
Case 6 6
Case 84 84
Case 85 85
Case 62 62
Case 27 27
Case 78 78
Case 28 28
Case 45 45
Case 13 13
Case 46 46
Case 100 100
Case 20 20
Case 99 99
Case 58 58
Case 64 64
Case 52 52
Case 86 86
Case 70 70
Case 82 82
Case 41 41
Case 50 50
Case 73 73
Case 96 96
Case 39 39
Case 42 42
Case 12 12
Case 47 47
Case 32 32
Case 49 49
Case 35 35
Case 38 38
Case 43 43
Case 22 22
Case 36 36
Case 3 3
Case 21 21
Case 61 61
Case 65 65
Case 16 16
Case 44 44
Case 10 10
Case 63 63
Case 15 15
Case 19 19
Case 4 4
Case 68 68
Case 88 88
Case 72 72
Case 83 83
Case 53 53
Case 79 79
Case 76 76
Case 2 2
Case 77 77
Case 37 37
Case 56 56
Case 1 1
Case 60 60
Case 67 67
Case 80 80
Case 89 89
Case 74 74
Case 90 90
Case 92 92
Case 87 87
Case 95 95
Case 48 48
Case 94 94
+

Catarina Marques 5
Técnicas Quantitativas de Análise de Dados
Dendrogram using Single Linkage
Critério do Single Linkage ou do
C A S E 0 5 10 15 vizinho mais próximo: a distância
20 25
Label Num +---------+---------+---------+---------+---------+
entre dois grupos é definida pela
Case 71 71
Case 93 93 menor das distâncias entre os
Case 75 75
Case 81 81 elementos dos dois grupos
Case 20 20
Case 99 99
Case 52 52
Case 72 72
Case 83 83
Case 84 84
Case 85 85
Case 62 62
Case 8 8
Case 51 51
Case 24 24
Case 31 31
Case 26 26
Case 27 27
Case 78 78
Case 13 13
Case 46 46
Case 7 7
Case 17 17
Case 6 6
Case 11 11
Case 54 54
Case 55 55
Case 100 100
Case 58 58
Case 23 23
Case 25 25
Case 34 34
Case 40 40
Case 30 30
Case 57 57
Case 29 29
Case 9 9
Case 33 33
Case 59 59
Case 66 66
Case 69 69
Case 91 91
Case 5 5
Case 98 98
Case 14 14
Case 97 97
Case 45 45
Case 64 64
Case 65 65
Case 21 21
Case 28 28
Case 53 53
Case 86 86
Case 41 41
Case 50 50
Case 3 3
Case 16 16
Case 44 44
Case 10 10
Case 63 63
Case 32 32
Case 49 49
Case 35 35
Case 38 38
Case 43 43
Case 48 48
Case 18 18
Case 12 12
Case 39 39
Case 42 42
Case 74 74
Case 90 90
Case 92 92
Case 73 73
Case 87 87
Case 95 95
Case 82 82
Case 70 70
Case 79 79
Case 47 47
Case 96 96
Case 56 56
Case 61 61
Case 68 68
Case 88 88
Case 15 15
Case 19 19
Case 4 4
Case 22 22
Case 2 2
Case 77 77
Case 37 37
Case 80 80
Case 89 89
Case 60 60
Case 67 67
Case 36 36
Case 1 1
Case 76 76
Case 94 94

Catarina Marques 6
Técnicas Quantitativas de Análise de Dados
Dendrogram using Ward’s method Critério de Ward: baseia-se na
perda de informação resultante do
agrupamento dos indivíduos e é
medida através da soma dos
quadrados dos desvios das
observações individuais
relativamente às médias dos
grupos em que são classificadas.

Se agregarmos em 4 clusters, um
deles será muito pequeno.
Fará sentido esse grupo? Há
O Dendrograma aponta para uma solução de 2 ou 3 clusters. conhecimento de haver grupos
pequenos no conjunto de leitores?
Se sim, o investigador deve
ponderar essa partição.

Catarina Marques 7
Técnicas Quantitativas de Análise de Dados
COMO PROCEDER À ESCOLHA DA MELHOR SOLUÇÃO?

1º Identificação da dimensão dos clusters em cada solução (de 2 e 3 clusters)


CLU3_2 Ward Method

Valid Cumulative
Frequency Percent Percent Percent
Valid 1 47 47,0 47,0 47,0
2 36 36,0 36,0 83,0
3 17 17,0 17,0 100,0
Total 100 100,0 100,0

CLU2_2 Ward Method

Valid Cumulative
Frequency Percent Percent Percent
Valid 1 47 47,0 47,0 47,0
2 53 53,0 53,0 100,0
Total 100 100,0 100,0

2º Caracterização dos Grupos em cada solução

A caracterização dos grupos poderá ajudar-nos a escolher a melhor solução. Utilizaremos para
efeitos de caracterização dos grupos as variáveis de agrupamento e outras características dos
respondentes consideradas relevantes.

a) Cruzamento com outras variáveis:


Por exemplo, na solução de 3 clusters tem-se:
Ward Method * Sex Crosstabulation

Sex

Female Male Total


Ward Method 1 Count 15 32 47
% within Ward Method 31,9% 68,1% 100,0%
2 Count 14 22 36
% within Ward Method 38,9% 61,1% 100,0%
3 Count 5 12 17
% within Ward Method 29,4% 70,6% 100,0%
Total Count 34 66 100
% within Ward Method 34,0% 66,0% 100,0%

Symmetric Measures

Value Approx. Sig.


Nominal by Nominal Phi ,080 ,728
Cramer's V ,080 ,728
N of Valid Cases 100

Catarina Marques 8
Técnicas Quantitativas de Análise de Dados
Outras variáveis interessantes para caracterização: habilitações literárias dos leitores,
horas dedicadas à leitura dos jornais, etc.

b) Análises descritivas de cada grupo em função das variáveis de base de segmentação


Esta análise permitirá atribuir nomes aos clusters.

Por exemplo, na solução com 3 clusters:

Report
Physical Information Quality of
Ward Method characteristics quality reading Layout
1 Mean -.60 -.35 .27 .31
N 47 47 47 47
Std. Deviation .97 1.03 .94 .75
2 Mean .55 .65 -.13 .27
N 36 36 36 36
Std. Deviation .56 .48 .76 .62
3 Mean .48 -.42 -.47 -1.43
N 17 17 17 17
Std. Deviation .92 1.06 1.38 1.05
Total Mean .00 .00 .00 .00
N 100 100 100 100
Std. Deviation 1.00 1.00 1.00 1.00

Catarina Marques 9
Técnicas Quantitativas de Análise de Dados
Ou gráfico de perfil de médias:

3º) Atribuição de nomes aos clusters


Que nomes é que atribuiria a estes três grupos?

Faça a caracterização da solução de dois clusters e escolha por uma destas duas soluções.

Catarina Marques 10
Técnicas Quantitativas de Análise de Dados

Você também pode gostar