Escolar Documentos
Profissional Documentos
Cultura Documentos
No sentido de criar grupos homogéneos de leitores de jornais semanários, com base nas
principais características que estes leitores mais valorizam no seu jornal preferido, pretende-
se realizar uma Análise de Clusters Hierárquica usando as componentes principais obtidas
previamente. Recorra ao SPSS para realizar a análise tendo por base o ficheiro “jornais.sav”.
Catarina Marques
Análise de Dados para Business Intelligence
Em Plots escolher apenas Dendrogram (em Icicle escolher None)
Em Method escolher
Em cluster method: furthest neighbor
É aqui que se indica qual o critério de agregação de casos que se pretente. Experimente
várias soluções mediante diferentes métodos de agregação e analise os resultados.
Na janela Save, indique qual o número mininmo e máximo de clusters que pretende. De
acordo com o que já definimos em Statistics, grave a pertença a grupos para soluções de 2, 3,
4, 5 e 6 clusters.
Catarina Marques 2
Técnicas Quantitativas de Análise de Dados
OUTPUTS DO SPSS
Cases
Valid Missing Total
N Percent N Percent N Percent
100 100,0 0 ,0 100 100,0
a. Squared Euclidean Distance used
b. Complete Linkage
Esta tabela dá-nos um resumo do processo. Foram agregados em clusters 100 casos, o que
corresponde a 100% dos casos (não há missing values). Foi usada a Distância Euclideana ao
Quadrado e o método de agregação Complete Linkage ou do vizinho mais afastado.
Agglomeration Schedule
Catarina Marques 3
Técnicas Quantitativas de Análise de Dados
Na tabela, podemos, por exemplo, analisar que:
Na etapa 1, os casos 63 e 96 formam o primeiro cluster à distância de 0,000 e na etapa 22
outro caso se irá juntar a este grupo;
Na etapa 2, um segundo cluster se formou com os casos 65 e 82 e na etapa 22 outro caso se
vai juntar a este grupo. Como é na mesma etapa que o grupo que se formou na etapa 1, serão
estes dois grupos que se juntarão para formar um cluster de 4 elementos
Já na etapa 16, é criado um novo cluster com os casos 2 e 53 à distância 0,297. Contudo,
repare-se que o caso 2 já tinha sido agrupado ao 52 na etapa 6. Este grupo, {2, 52, 53}, irá
juntar-se a outro caso/grupo na etapa 38.
Cluster Membership
Esta tabela dá-nos a informação de qual o cluster a que cada caso pretence nas soluções de
6, 5, 4, 3 e 2 clusters. Recorde-se que pedimos esta informação na janela Statistics.
Por exemplo, o caso 4:
- na solução de 6 clusters, está incluído no cluster 3;
- na solução de 5 clusters, está incluído no cluster 3;
- na solução de 4 clusters, está incluído no cluster 2;
- na solução de 3 clusters, está incluído no cluster 2;
- na solução de 2 clusters, está incluído no cluster 1.
Catarina Marques 4
Técnicas Quantitativas de Análise de Dados
Dendrogram using Complete Linkage
CASE 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------
Case 71 71
Case 93 93
Case 75 75
Case 81 81
Case 69 69
Case 91 91
Case 5 5
Case 98 98
Case 14 14
Case 97 97
Case 18 18
Case 8 8
Case 51 51
Case 31 31
Case 24 24
Case 26 26
Case 7 7
Case 17 17
Case 59 59
Case 66 66
Case 30 30
Case 57 57
Case 29 29
Case 23 23
Case 25 25
Case 34 34
Case 40 40
Case 9 9
Case 33 33
Case 11 11
Case 54 54
Case 55 55
Case 6 6
Case 84 84
Case 85 85
Case 62 62
Case 27 27
Case 78 78
Case 28 28
Case 45 45
Case 13 13
Case 46 46
Case 100 100
Case 20 20
Case 99 99
Case 58 58
Case 64 64
Case 52 52
Case 86 86
Case 70 70
Case 82 82
Case 41 41
Case 50 50
Case 73 73
Case 96 96
Case 39 39
Case 42 42
Case 12 12
Case 47 47
Case 32 32
Case 49 49
Case 35 35
Case 38 38
Case 43 43
Case 22 22
Case 36 36
Case 3 3
Case 21 21
Case 61 61
Case 65 65
Case 16 16
Case 44 44
Case 10 10
Case 63 63
Case 15 15
Case 19 19
Case 4 4
Case 68 68
Case 88 88
Case 72 72
Case 83 83
Case 53 53
Case 79 79
Case 76 76
Case 2 2
Case 77 77
Case 37 37
Case 56 56
Case 1 1
Case 60 60
Case 67 67
Case 80 80
Case 89 89
Case 74 74
Case 90 90
Case 92 92
Case 87 87
Case 95 95
Case 48 48
Case 94 94
+
Catarina Marques 5
Técnicas Quantitativas de Análise de Dados
Dendrogram using Single Linkage
Critério do Single Linkage ou do
C A S E 0 5 10 15 vizinho mais próximo: a distância
20 25
Label Num +---------+---------+---------+---------+---------+
entre dois grupos é definida pela
Case 71 71
Case 93 93 menor das distâncias entre os
Case 75 75
Case 81 81 elementos dos dois grupos
Case 20 20
Case 99 99
Case 52 52
Case 72 72
Case 83 83
Case 84 84
Case 85 85
Case 62 62
Case 8 8
Case 51 51
Case 24 24
Case 31 31
Case 26 26
Case 27 27
Case 78 78
Case 13 13
Case 46 46
Case 7 7
Case 17 17
Case 6 6
Case 11 11
Case 54 54
Case 55 55
Case 100 100
Case 58 58
Case 23 23
Case 25 25
Case 34 34
Case 40 40
Case 30 30
Case 57 57
Case 29 29
Case 9 9
Case 33 33
Case 59 59
Case 66 66
Case 69 69
Case 91 91
Case 5 5
Case 98 98
Case 14 14
Case 97 97
Case 45 45
Case 64 64
Case 65 65
Case 21 21
Case 28 28
Case 53 53
Case 86 86
Case 41 41
Case 50 50
Case 3 3
Case 16 16
Case 44 44
Case 10 10
Case 63 63
Case 32 32
Case 49 49
Case 35 35
Case 38 38
Case 43 43
Case 48 48
Case 18 18
Case 12 12
Case 39 39
Case 42 42
Case 74 74
Case 90 90
Case 92 92
Case 73 73
Case 87 87
Case 95 95
Case 82 82
Case 70 70
Case 79 79
Case 47 47
Case 96 96
Case 56 56
Case 61 61
Case 68 68
Case 88 88
Case 15 15
Case 19 19
Case 4 4
Case 22 22
Case 2 2
Case 77 77
Case 37 37
Case 80 80
Case 89 89
Case 60 60
Case 67 67
Case 36 36
Case 1 1
Case 76 76
Case 94 94
Catarina Marques 6
Técnicas Quantitativas de Análise de Dados
Dendrogram using Ward’s method Critério de Ward: baseia-se na
perda de informação resultante do
agrupamento dos indivíduos e é
medida através da soma dos
quadrados dos desvios das
observações individuais
relativamente às médias dos
grupos em que são classificadas.
Se agregarmos em 4 clusters, um
deles será muito pequeno.
Fará sentido esse grupo? Há
O Dendrograma aponta para uma solução de 2 ou 3 clusters. conhecimento de haver grupos
pequenos no conjunto de leitores?
Se sim, o investigador deve
ponderar essa partição.
Catarina Marques 7
Técnicas Quantitativas de Análise de Dados
COMO PROCEDER À ESCOLHA DA MELHOR SOLUÇÃO?
Valid Cumulative
Frequency Percent Percent Percent
Valid 1 47 47,0 47,0 47,0
2 36 36,0 36,0 83,0
3 17 17,0 17,0 100,0
Total 100 100,0 100,0
Valid Cumulative
Frequency Percent Percent Percent
Valid 1 47 47,0 47,0 47,0
2 53 53,0 53,0 100,0
Total 100 100,0 100,0
A caracterização dos grupos poderá ajudar-nos a escolher a melhor solução. Utilizaremos para
efeitos de caracterização dos grupos as variáveis de agrupamento e outras características dos
respondentes consideradas relevantes.
Sex
Symmetric Measures
Catarina Marques 8
Técnicas Quantitativas de Análise de Dados
Outras variáveis interessantes para caracterização: habilitações literárias dos leitores,
horas dedicadas à leitura dos jornais, etc.
Report
Physical Information Quality of
Ward Method characteristics quality reading Layout
1 Mean -.60 -.35 .27 .31
N 47 47 47 47
Std. Deviation .97 1.03 .94 .75
2 Mean .55 .65 -.13 .27
N 36 36 36 36
Std. Deviation .56 .48 .76 .62
3 Mean .48 -.42 -.47 -1.43
N 17 17 17 17
Std. Deviation .92 1.06 1.38 1.05
Total Mean .00 .00 .00 .00
N 100 100 100 100
Std. Deviation 1.00 1.00 1.00 1.00
Catarina Marques 9
Técnicas Quantitativas de Análise de Dados
Ou gráfico de perfil de médias:
Faça a caracterização da solução de dois clusters e escolha por uma destas duas soluções.
Catarina Marques 10
Técnicas Quantitativas de Análise de Dados