Você está na página 1de 69

/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Análise Social e Económica

Curso de Administração Pública

Análise de Clusters

João Lourenço Marques


José Manuel Martins

1
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Até aqui…

Análise de Componentes Principais

Agrega variáveis em que a semelhança é medida pelas


correlações

Agora…

Análise de Clusters

Agrega casos (unidades de análise) em que a semelhança é


medida por distâncias
2
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Noção de distância com 1 variável e 4 regiões

Região PIBpc
A 80
B 150
C 125
D 70

Matriz de distâncias económicas


A B C D
A 0
B 70 0
C 45 25 0
D 10 50 55 0

3
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Noção de distância com 2 variáveis e 2 regiões …


Y
Região X=PIBpc Y=TX DES
A 80 18
B 150 9

dist AB  ( X 2  X 1 ) 2  (Y2  Y1 ) 2  20 ,15


Y2=18
B

Y1=9 A
…mas há mais formas
de medir distâncias!

X1=80 X2=150 X
4
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Um dos problemas das distâncias euclidianas é que são fortemente


influenciadas por valores altos das variáveis:

0,8 unidades

600 unidades

0 1000

A distância euclidiana é: 6002 + 0,82 = 360000 + 0,64

= 600,0007

Quando as variáveis se encontram definidas em diferentes escalas de medida é


necessário fazer uma padronização prévia, senão qualquer medida de distância vai
reflectir o peso das variáveis que apresentam maiores valores e maior dispersão 5
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Antes do cálculo de distâncias socio-económicas é conveniente:

1) Reduzir o número de variáveis


torná-las independentes e menos redundantes;

2) Eliminar o efeito dimensão da unidade de análise (região)


usar variáveis relativizadas, ex.: percentagem, em valores per
capita etc.

3) Atribuir a mesma unidade de medida às variáveis


Fazer variar no mesmo intervalo de variação ex.: normalização das
variáveis ou valores z
6
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Noção de distância com 2 variáveis e 3 regiões …

Região PIBpc TX DES


A 80 18
B 150 9
C 100 4

Não atribuir a mesma unidade de medida às variáveis dá que …

a variável PIBpc é a dimensão relevante na agregação das unidades de análise


para a definição da matriz de distâncias:

A B C
A 0
B 70,58 0
C 24,41 50,25 0

COMO RESOLVER? 7
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Valores z
1. Calcular a média e desvio-padrão
2. Aplicar a seguinte fórmula - subtrair a cada valor a sua média e dividir
pelo desvio-padrão:

Região PIBpc TX DES A B C


A 80 18 A 0
B B 70,58 0
150 9
C 24,41 50,25 0
C 100 4

MÉDIA 110,0 10,3

DESV P 36,1 7,1


A B C
Região PIB TX DES A 0
A -0,83 1,08 B 2,32 0
B 1,11 -0,19 C 2,05 1,56 0
8
C -0,28 -0,89
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Calculada a matriz distância

…como definir grupos homogéneos?

Análise de Clusters…

9
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Aspectos básicos

Procedimento multivariado para agrupamento ou classificação de


unidades de análise ou de variáveis.

Tenta identificar grupos homogéneos nos dados

(agrupamento de observações de indivíduos baseada na similaridade das suas características)

Semelhante à análise factorial


(identifica grupos de variáveis relacionadas entre si)
10
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Reconhecimento de Padrões

Grandes semelhanças intra-grupos

Grandes diferenças inter-grupos

Os grupos obtidos são os mais homogéneos e mais separados possíveis.

De maneira a que indivíduos semelhantes pertençam ao mesmo agrupamento

11
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

2 clusters 4 clusters 6 clusters


10 10
10

9 9
9

8 8
8

7 7
7

6 6
6

5 5
5

4 4
4

3 3
3

2 2
2

1 1
1

0 0
0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10

12
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Principais etapas da formação de agrupamentos

Tabela de Dados 0. Análise Prévia dos Dados

1. Metodologia de Agrupamento

2. Medidas de Distância

3 . Critérios de Agrupamento

4. Interpretação e Validação
13
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

0. Análise Prévia dos Dados

 Análise descritiva

 Correlação entre variáveis

 Padronização de variáveis

 Aberrantes ou outliers

14
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

 Se forem consideradas variáveis que estejam correlacionadas entre si,


pode estar-se a sobrevalorizar uma ou outra característica, isto é, a
dar maior importância relativa a essa característica…
 … multicolineariedade pode ser um problema para a análise de clusters!
 … a análise factorial pode resolver este problema desde que seja capaz
de descrever adequadamente a estrutura de informação original!

 Se forem consideradas variáveis com diferentes escalas de medida ou


diferente dispersão, pode estar-se a sobrevalorizar uma ou outra
variável…
 … a análise factorial (feita previamente) também resolve este problema!

 A presença de outliers tem também o potencial para adulterar os resultados


da análise de clusters…
 … a decisão de manter ou retirar os outliers depende de estes serem ou
não representativos de grupos pequenos mas significativos da população.
15
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

1. Escolha da metodologia de agrupamento

Análise de clusters hierárquica

- aplica-se tanto a casos como a variáveis

Análise K-Means

- aplica-se só casos

16
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Análise de clusters hierárquica

Formam-se com base nos pares mais próximos de acordo com


a medida de distância escolhida

Passo-a-passo – junta pares de objectos até formar um só cluster.

Hierárquico - uma vez que estando dois casos juntos, permanecem assim até
ao final das etapas, i.e., os clusters que se vão formando incluem os clusters
já formados

17
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

As classificações hierárquicas formam uma sequência de agrupamentos


que pode ser visualizada num gráfico esquemático

dendrograma

Mostram com alguma facilidade, o modo


como se efectuam as fusões entre os
grupos, e a que nível de proximidade ou
semelhança elas se efectuam

18
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Diagrama de Venn Dendrograma

100
90
K=6 (X1, X2, X3) K=7 (X4, X5, X6, X7,X8) 80
X6
70
X3 X4 2
X2 60
X7 K=5 (X4, X5, X6, X7)
3
4 K=2 (X6, X7) 50
K=4 (X4, X5)
X5 K=3 (X2, X3) 40
X1 5 30
6 X8
7
20
10
K=8 0

A proximidade é dada pela distância vertical entre a base do gráfico, onde estão os nomes, letras
ou números que identificam as unidades de análise, e a barra horizontal da união dos grupos

19
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Análise de clusters K-Means

Se o agrupamento é não hierárquico estamos perante uma


partição. Minimiza as variâncias intra-grupos e maximiza as
variâncias inter-grupos

É necessário especificar a priori o valor de k, i.e., o


número de grupos

Não será objecto de grande aprofundamento

20
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

2. Medida de distância ou de proximidade a usar


é a distância a usar na passagem da matriz de atributos para a
matriz de distância, ou de proximidade

As distâncias são normalmente usadas como medida de semelhança entre


objectos,

uma pequena distância é equivalente a uma grande semelhança


Existem vários métodos para medir distâncias

Distâncias Euclidianas – mensuráveis com uma régua

Distâncias Não-Euclidianas – baseadas em semelhanças

Exemplo: Lisboa – Porto – Espinho ...


21
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Distância Euclidiana
É a medida de distância que se utiliza quando se refere a
“distância” na linguagem corrente.

d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1 j1 i2 j2 ip jp

Propriedades:
d(i,j) >= 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) <= d(i,k) + d(k,j)

22
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Distância de Minkowski
(deriva da Euclidiana)

d (i, j)  q (| x  x |q  | x  x |q ... | x  x | q )
i1 j1 i2 j2 ip jp

Se q = 2, d é a distância Euclidiana
Se q = 1, d é a distância de Manhattan

23
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Distância de Manhattan
(também conhecida por distância dos quarteirões ou distância city-block)

Se q = 1

Em muitos casos a distância não pode ser medida directamente


entre dois pontos.
B

Exemplo: ?

A
d(i, j) | x  x | | x  x | ...| x  x |
i1 j1 i2 j2 ip jp
24
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

O modelo hierárquico no SPSS fornece


35 medidas de semelhança e de proximidade/ distância

Os índices de semelhança mais usados para além das


Medidas de distância

(quadrado da distância Euclidiana; distância de Minkowski; distância de Mahalanobis)

são:
Coeficiente de correlação de Pearson

Coeficientes de associação para dados binários

(ex: Jaccard)

25
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

A representação dos Dados

Matriz de Dados Matriz de distâncias

 x 11 ... x 1f ... x 1p 
 0 
 
 ... ... ... ... ...   d(2,1) 0 
x  
... x if ... x ip   d(3,1 ) 
 i1  d ( 3,2 ) 0
 ... ... ... ... ...   
x  : : : 
... x nf ... x np   d ( n ,1)
 n1  d ( n ,2 ) ... ... 0 

As funções de proximidade dependem da escala das variáveis:


proporcional, intervalar, ordinal, nominal, binária, mista etc.
26
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

3. Critério de agrupamento mais adequada


consiste em definir como se mede a distância
• entre um elemento isolado e um grupo
• entre dois grupos

É possível a aplicação de vários critérios de agregação

1. nearest neighbor
2. furthest neighbor
3. between groups
4. within groups
5. wards
6. centroid groups

27
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

1. nearest neighbor
Também designado por vizinho mais próximo, ligação simples,
método mínimo

A distância entre duas classes m e n é o valor mínimo de todas as distâncias entre todos
os elementos de m e todos os elementos de n - distância entre os seus elementos mais
próximos

B=4 C=1

A=2

28
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

2. furthest neighbor
Também designado por vizinho mais distante, ligação completa,
método máximo

A distância entre duas classes m e n é o valor máximo de todas as distâncias entre todos os
elementos de m e todos os elementos de n - distância entre os seus elementos mais
afastados

B=4 C=1

A=2
29
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

3. between groups
Também designado por método da média de grupos, UPGMA
(unweighted pair group method with average)

A distância entre duas classes m e n é o valor médio de todas as distâncias entre todos os
elementos de m e todos os elementos de n

B=4 C=1

A=2
Menos sujeito a outliers; produz clusters com pouca dispersão interna e dispersão
comparável entre clusters;
30
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

4. within groups
Também designado por método das distâncias internas

Faz grupos de tal modo que, para cada nível de agregação, o total das distâncias internas
(entre todos os elementos de cada grupo) seja mínima

5. wards
Também designado por método da mínima variância

Faz grupos de tal modo que, as classes devem ter a máxima homogeneidade interna
possível - minimiza a soma dos quadrados das distâncias

O método de Ward é muito sensível a outliers e produz clusters de dimensão semelhante; não
é indicado quando se espera que existam grupos de dimensão muito diferente;
31
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

6. centroid groups
Também designado por método do centróide, UPGC
(unweighted pair group centroid)

A distância entre duas classes m e n é a distância entre os centróides – Os centróides são o


centro de gravidade das classes, determinadas pelas médias em cada variável. A localização do
centróide da nova classe resulta da média dos dois centróides, ponderada pelo número de
unidades de análise existentes em cada classe

B=4 C=1

A=2

32
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

7. median clustering
Também designado por método da mediana, WPGC
(weighted pair group centroid)

A distância entre duas classes m e n é a distância entre os centróides m e n, - mas ao


contrário do anterior, no cálculo do centróide do novo grupo, não se toma em
consideração o número de elementos que existe em cada um – sendo as suas coordenadas
a média simples das coordenadas dos centros dos dois grupos que se uniram

B=4 C=1

A=2
33
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Devem tentar-se vários métodos de ligação entre os clusters.

Se os resultados da agregação diferirem muito de método para método,

É pouco provável que os dados tenham clusters distintos

34
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

4. Interpretação e Validação

 Escolha do número de clusters

Análise do Dendrograma e
Coeficiente de Aglomeração -SPSS

 Medidas descritivas (Centróides)

 Classificação e validação dos clusters

35
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Como medir heterogeneidade e detectar a presença


de “saltos” (de distância/ heterogeneidade)?

– Não existe uma “regra de paragem” fixa;

– Regra geral, procuramos um valor demasiado ou alto ou um “salto”


significativo nas medidas de heterogeneidade no processo de
agregar grupos; quando este salto acontece evitamos dar esse passo!

– É comum identificar várias soluções;

36
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Um exemplo… quantos clusters?

37
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Ordem de
formação dos
clusters:


o dendrograma
em números!

38
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Um exemplo de 4
clusters com clara
distinção territorial…

39
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Uma boa solução de


clusters?

E que nomes atribuíam


aos clusters?

40
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Em resumo …
• Que variáveis escolher?
– Tenho variáveis não padronizadas (valores-z)? Quero misturar variáveis dependentes e
independentes? Depende da minha narrativa (argumentação)!

• Que medidas de distância e critérios de agrupamento utilizar?


– Testar vários, perceber as implicações!

• Como escolho o número final de clusters?


– Dendrograma; Matriz de Aglomeração; Cálculo de Medidas Descritivas (centróides);
várias soluções!
– Que nome atribuo aos clusters? Têm validade teórica?

• Como apresentar os padrões territoriais …um mapa dos


clusters?
– No SPSS e no ArcGis!

41
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Exemplo 1

Distância Euclidiana

d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1 j1 i2 j2 ip jp

casos v1 v2
1 1 1
2 2 1
3 4 5
4 5 7
5 7 7

Estes dados são usados para calcular uma matriz de distâncias de euclidianas.
42
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Distância de dij =dji


A

1 2 3 4 5
1 0,0
2 1,0 0,0
3 5,0 4,5 0,0
4 7,2 6,7 2,2 0,0
5 8,5 7,8 3,6 2,0 0,0

A distância menor nesta matriz está entre os casos 1 & 2 (distância = 1,0).

43
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Estes dois casos são fundidos para formar o primeiro


A agrupamento - A
3. between groups

Devem ser agora calculadas distâncias entre o agrupamento A e os outros 3 casos

A coordenada do ponto A será o valor médio dos pontos v1 e v2, i.e: v1 = 1,5; v2 = 1,0

A 3 4 5
A 0,0
3 4,7 0,0
4 8,1 3,6 0,0
5 6,9 2,2 2,0 0,0

A distância menor nesta matriz está entre os casos 4 & 5 (distância = 2.0)

44
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

B
Os casos 4 e 5 são fundidos para formar o agrupamento - B
A

Devem ser agora calculadas distâncias entre o agrupamento B e os outros 2 casos


(entre B e 3 e entre B e A)

Estes serão fundidos para formar o agrupamento B (meios: v1 = 6, v2 = 7).

A B 3
A 0,0
B 7,5 0.0
3 4,7 2,8 0,0

A distância menor nesta matriz está entre os casos B & 3 (distância = 2,8)

45
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

A coordenada do ponto C será o valor médio dos pontos:


v1 = (4+5+7)/3 = 5,3
v2 = (5+7+7)/3 = 6,3

Restam só 2 agrupamentos. São os próximos a serem fundidos


distância = 6.4
B
A C
C
A 0.0 A
C 6,4 0,0

O processo dos agrupamento é resumido no


seguinte dendrograma
C

46
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Exemplo 2
População de 5 indivíduos (regiões) caracterizado por 3 variáveis (X1, X2 e X3)

Regiões X1 X2 X3
1 1 7 3
2 2 5 9
3 4 6 7
4 3 2 5
5 1 8 4

47
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Regiões X1 X2 X3
1 1 7 3
1. Construção da matriz distância 2 2 5 9
3 4 6 7
4 3 2 5
5 1 8 4

Regiões 1 2 3 4 5
1 0

2 6,4 0

3 5,1 3 0

4 5,7 5,1 4,6 0

5 1,4 5,9 4,7 6,4 0

3 2
Distância euclidiana d ij   (x ik  x jk )
k 3
48
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

2. Escolha do menor elemento da matriz


Regiões 1 2 3 4 5
1 0

1. nearest neighbor 2 6,4 0


3 5,1 3 0
4 5,7 5,1 4,6 0
5 1,4 5,9 4,7 6,4 0

min dij = d1,5 = 1,4 regiões 1 e 5

Passamos a ter 4 clusters : { (1, 5) ; 2; 3; 4}

49
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

3. Cálculo da nova matriz distâncias

Regiões (1; 5) 2 3 4
(1; 5) 0

2 5,9 0

3 4,7 3 0

4 5,7 5,1 4,6 0

d(1; 5);2 = [d1;2 = 6,4] ou [d5;2 = 5,9] d (1;5),2 min (d1,2 ; d5,2) = d5;2 = 5,9

50
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

4. Escolha do mínimo valor da distância

Regiões (1; 5) 2 3 4
(1; 5) 0

2 5,9 0

3 4,7 3 0

4 5,7 5,1 4,6 0

min dij = d2,3 = 3 forma-se um novo cluster constituído pelas regiões 2 e 3

Passamos a ter 3 clusters : { (1, 5) ; (2, 3) ; 4}

51
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

5. Cálculo da nova matriz distâncias

Regiões (1; 5) (2; 3) 4


(1; 5) 0

(2; 3) 4,7 0

4 5,7 4,6 0

D (1; 5);(2; 3) = [d(1;5); 2 = 5,9] ou [d(1; 5); 3 = 4,7]

Logo d(1;5),(2;3) min (d(1;5),2 ; d (1;5);3) = d(1;5);3 = 4,7


52
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

6. Escolha do mínimo valor da distância

Regiões (1; 5) (2; 3) 4


(1; 5) 0

(2; 3) 4,7 0

4 5,7 4,6 0

min dij = d(2;3);4 = 4,6 forma-se cluster {(2, 3) ; 4}

53
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

7. Cálculo da nova matriz distâncias

Regiões (1; 5) (2; 3)


(1; 5) 0

(2; 3); 4 4,7 0

A distância mínima resulta na formação de um único cluster, formado por (1; 2; 3; 4 e 5)

Qual a árvore de ligação (dendrograma)?


54
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Exemplo 3
Considere-se como exemplo a matriz de dados seguinte:

NUTS II V1 V2 V3 V4 V5 V6
Norte 165.38 .45 12.09 8.52 48.23 45.17
Centro 72.41 -.01 9.97 11.39 50.15 46.36
L.V.Tejo 277.33 .30 10.45 10.00 48.62 45.53
Alentejo 19.63 -.80 8.28 13.51 43.94 42.36
Algarve 69.13 .28 10.57 12.71 44.40 41.41
Açores 103.26 .59 15.19 10.95 39.24 33.90
Madeira 329.40 .50 13.00 9.66 42.63 45.61

V1 - densidade de população
V2 - variação de população entre 93 e 95
V3 -a taxa de natalidade,
V4 – taxa de mortalidade
V5 – taxa de actividade
V7 - % da participação feminina nos activos.
55
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

As distâncias entre as sete NUT’s II (os sete casos Ci,)

Calculadas pela distância euclidiana, após prévia ponderação dos valores, por variável (por
coluna), como forma de dar a cada uma o mesmo peso na análise, independentemente das
escalas e unidades em que foram medidas

C1 C2 C3 C4 C5 C6 C7
Norte C1 2,3348 1,5167 4,5929 2,9564 4,0289 2,1710
Centro C2 2,3348 2,0988 2,9065 2,1162 4,8054 3,5546
L.V.Tejo C3 1,5167 2,0988 4,1479 2,7769 4,5021 2,0213
Alentejo C4 4,5929 2,9065 4,1479 2,5701 5,0729 4,9480
Algarve C5 2,9564 2,1162 2,7769 2,5701 3,2302 3,2573
Açores C6 4,0289 4,8054 4,5021 5,0729 3,2302 3,6433
Madeira C7 2,1710 3,5546 2,0213 4,9480 3,2573 3,6433

56
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

O valor mais baixo da matriz inicial de distâncias é o de 1,5167, entre as unidades


de análise 1 e 3

2. furthest neighbor

C1.3 C2 C4 C5 C6 C7
C1.3 2,3348 4,5929 2,9564 4,5021 2,1710
C2 2,3348 2,9065 2,1162 4,8054 3,5546
C4 4,5929 2,9065 2,5701 5,0729 4,9480
C5 2,9546 2,1162 2,5701 3,2302 3,2573
C6 4,5021 4,8054 5,0729 3,2302 3,6433
C7 2,1710 3,5546 4,9480 3,2573 3,6433

57
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

A união seguinte é a C5 com C2 (à distância de 2,1162). E, repetindo o


processo, obtêm-se as seguintes junções:

Novo grupo Grupo anterior 1 Grupo anterior 2 Distância


8 1 3 1,5166
9 2 5 2,1162
10 8 7 2,1710
11 9 4 2,9065
12 10 6 4,5021
13 12 11 5,0729

58
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

e correspondente árvore de ligação (dendrograma):

Dendrogram using Complete Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

Norte Case 1 1
L.V.Tejo Case 3 3
Madeira Case 7 7
Açores Case 6 6
Centro Case 2 2
Algarve Case 5 5
Alentejo Case 4 4

59
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

Exemplo 4
Considere-se os seguintes dados meteorológicos:
Ano Temp. Temp. Max Temp. Min Temp. Solo Chuva Mês Max Dias Dias c/
Méd (@10cm) (mm) a Chuver Nevoeiro
1982 4.2 13.3 -5.3 4.0 23 6 0

1983 1.0 7.8 -5.3 3.0 34 11 8

1984 2.9 11.4 -5.1 3.2 65 17 0

1985 1.6 10.2 -6.0 2.9 7 2 5

1986 -1.1 2.7 -9.0 1.5 22 5 24

1987 3.3 13.4 -7.3 2.7 46 15 2

1988 4.5 13.0 -2.9 3.7 89 22 4

1989 5.7 13.5 -2.7 5.2 92 16 0

1990 6.6 14.9 -0.6 5.5 131 29 0

1991 1.5 13.8 -7.2 2.6 80 18 14

1992 5.5 12.1 -3.6 4.5 46 9 2

1993 4.7 12.0 -3.0 5.1 14 6 0 60


/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

e correspondentes árvores de ligação (dendrogramas):

nearest neighbor furthest neighbor

Qual a melhor opção?


61
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

62
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

No SPSS executam-se os seguintes procedimentos


1- Abertura do ficheiro com as variáveis originais:
FILE ...
OPEN...
DATA...

2- Selecção do Procedimento análise clusters


STATISTICS ...
CLASSIFY...
HIERARCHICAL CLUSTER.....

3- Selecção das variáveis a submeter à análise de clusters

63
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

4- Selecção das seguintes opções na janela Statistics:


AGGLOMERATION SCHEDULE
DISTANCE MATRIX

5- Selecção das seguintes opções na janela Plots:


DENDROGRAM

6- Selecção das seguintes opções na janela Method:


Cluster Method: BETWEEN-GROUPS LINKAGE
Measure: INTERVAL;
EUCLIDEAN DISTANCE;

64
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

65
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

66
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

67
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

68
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território

69

Você também pode gostar