Escolar Documentos
Profissional Documentos
Cultura Documentos
ASE 4 - Análise de Clusters
ASE 4 - Análise de Clusters
Análise de Clusters
1
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Até aqui…
Agora…
Análise de Clusters
Região PIBpc
A 80
B 150
C 125
D 70
3
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Y1=9 A
…mas há mais formas
de medir distâncias!
X1=80 X2=150 X
4
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
0,8 unidades
600 unidades
0 1000
= 600,0007
A B C
A 0
B 70,58 0
C 24,41 50,25 0
COMO RESOLVER? 7
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Valores z
1. Calcular a média e desvio-padrão
2. Aplicar a seguinte fórmula - subtrair a cada valor a sua média e dividir
pelo desvio-padrão:
Análise de Clusters…
9
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Aspectos básicos
Reconhecimento de Padrões
11
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
9 9
9
8 8
8
7 7
7
6 6
6
5 5
5
4 4
4
3 3
3
2 2
2
1 1
1
0 0
0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
12
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
1. Metodologia de Agrupamento
2. Medidas de Distância
3 . Critérios de Agrupamento
4. Interpretação e Validação
13
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Análise descritiva
Padronização de variáveis
Aberrantes ou outliers
14
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Análise K-Means
- aplica-se só casos
16
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Hierárquico - uma vez que estando dois casos juntos, permanecem assim até
ao final das etapas, i.e., os clusters que se vão formando incluem os clusters
já formados
17
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
dendrograma
18
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
100
90
K=6 (X1, X2, X3) K=7 (X4, X5, X6, X7,X8) 80
X6
70
X3 X4 2
X2 60
X7 K=5 (X4, X5, X6, X7)
3
4 K=2 (X6, X7) 50
K=4 (X4, X5)
X5 K=3 (X2, X3) 40
X1 5 30
6 X8
7
20
10
K=8 0
A proximidade é dada pela distância vertical entre a base do gráfico, onde estão os nomes, letras
ou números que identificam as unidades de análise, e a barra horizontal da união dos grupos
19
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
20
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Distância Euclidiana
É a medida de distância que se utiliza quando se refere a
“distância” na linguagem corrente.
d (i, j) (| x x |2 | x x |2 ... | x x |2 )
i1 j1 i2 j2 ip jp
Propriedades:
d(i,j) >= 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) <= d(i,k) + d(k,j)
22
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Distância de Minkowski
(deriva da Euclidiana)
d (i, j) q (| x x |q | x x |q ... | x x | q )
i1 j1 i2 j2 ip jp
Se q = 2, d é a distância Euclidiana
Se q = 1, d é a distância de Manhattan
23
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Distância de Manhattan
(também conhecida por distância dos quarteirões ou distância city-block)
Se q = 1
Exemplo: ?
A
d(i, j) | x x | | x x | ...| x x |
i1 j1 i2 j2 ip jp
24
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
são:
Coeficiente de correlação de Pearson
(ex: Jaccard)
25
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
x 11 ... x 1f ... x 1p
0
... ... ... ... ... d(2,1) 0
x
... x if ... x ip d(3,1 )
i1 d ( 3,2 ) 0
... ... ... ... ...
x : : :
... x nf ... x np d ( n ,1)
n1 d ( n ,2 ) ... ... 0
1. nearest neighbor
2. furthest neighbor
3. between groups
4. within groups
5. wards
6. centroid groups
27
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
1. nearest neighbor
Também designado por vizinho mais próximo, ligação simples,
método mínimo
A distância entre duas classes m e n é o valor mínimo de todas as distâncias entre todos
os elementos de m e todos os elementos de n - distância entre os seus elementos mais
próximos
B=4 C=1
A=2
28
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
2. furthest neighbor
Também designado por vizinho mais distante, ligação completa,
método máximo
A distância entre duas classes m e n é o valor máximo de todas as distâncias entre todos os
elementos de m e todos os elementos de n - distância entre os seus elementos mais
afastados
B=4 C=1
A=2
29
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
3. between groups
Também designado por método da média de grupos, UPGMA
(unweighted pair group method with average)
A distância entre duas classes m e n é o valor médio de todas as distâncias entre todos os
elementos de m e todos os elementos de n
B=4 C=1
A=2
Menos sujeito a outliers; produz clusters com pouca dispersão interna e dispersão
comparável entre clusters;
30
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
4. within groups
Também designado por método das distâncias internas
Faz grupos de tal modo que, para cada nível de agregação, o total das distâncias internas
(entre todos os elementos de cada grupo) seja mínima
5. wards
Também designado por método da mínima variância
Faz grupos de tal modo que, as classes devem ter a máxima homogeneidade interna
possível - minimiza a soma dos quadrados das distâncias
O método de Ward é muito sensível a outliers e produz clusters de dimensão semelhante; não
é indicado quando se espera que existam grupos de dimensão muito diferente;
31
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
6. centroid groups
Também designado por método do centróide, UPGC
(unweighted pair group centroid)
B=4 C=1
A=2
32
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
7. median clustering
Também designado por método da mediana, WPGC
(weighted pair group centroid)
B=4 C=1
A=2
33
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
34
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
4. Interpretação e Validação
Análise do Dendrograma e
Coeficiente de Aglomeração -SPSS
35
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
36
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
37
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Ordem de
formação dos
clusters:
…
o dendrograma
em números!
38
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Um exemplo de 4
clusters com clara
distinção territorial…
39
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
40
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Em resumo …
• Que variáveis escolher?
– Tenho variáveis não padronizadas (valores-z)? Quero misturar variáveis dependentes e
independentes? Depende da minha narrativa (argumentação)!
41
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Exemplo 1
Distância Euclidiana
d (i, j) (| x x |2 | x x |2 ... | x x |2 )
i1 j1 i2 j2 ip jp
casos v1 v2
1 1 1
2 2 1
3 4 5
4 5 7
5 7 7
Estes dados são usados para calcular uma matriz de distâncias de euclidianas.
42
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
1 2 3 4 5
1 0,0
2 1,0 0,0
3 5,0 4,5 0,0
4 7,2 6,7 2,2 0,0
5 8,5 7,8 3,6 2,0 0,0
A distância menor nesta matriz está entre os casos 1 & 2 (distância = 1,0).
43
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
A coordenada do ponto A será o valor médio dos pontos v1 e v2, i.e: v1 = 1,5; v2 = 1,0
A 3 4 5
A 0,0
3 4,7 0,0
4 8,1 3,6 0,0
5 6,9 2,2 2,0 0,0
A distância menor nesta matriz está entre os casos 4 & 5 (distância = 2.0)
44
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
B
Os casos 4 e 5 são fundidos para formar o agrupamento - B
A
A B 3
A 0,0
B 7,5 0.0
3 4,7 2,8 0,0
A distância menor nesta matriz está entre os casos B & 3 (distância = 2,8)
45
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
46
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Exemplo 2
População de 5 indivíduos (regiões) caracterizado por 3 variáveis (X1, X2 e X3)
Regiões X1 X2 X3
1 1 7 3
2 2 5 9
3 4 6 7
4 3 2 5
5 1 8 4
47
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Regiões X1 X2 X3
1 1 7 3
1. Construção da matriz distância 2 2 5 9
3 4 6 7
4 3 2 5
5 1 8 4
Regiões 1 2 3 4 5
1 0
2 6,4 0
3 5,1 3 0
3 2
Distância euclidiana d ij (x ik x jk )
k 3
48
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
49
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Regiões (1; 5) 2 3 4
(1; 5) 0
2 5,9 0
3 4,7 3 0
d(1; 5);2 = [d1;2 = 6,4] ou [d5;2 = 5,9] d (1;5),2 min (d1,2 ; d5,2) = d5;2 = 5,9
50
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Regiões (1; 5) 2 3 4
(1; 5) 0
2 5,9 0
3 4,7 3 0
51
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
(2; 3) 4,7 0
4 5,7 4,6 0
(2; 3) 4,7 0
4 5,7 4,6 0
53
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Exemplo 3
Considere-se como exemplo a matriz de dados seguinte:
NUTS II V1 V2 V3 V4 V5 V6
Norte 165.38 .45 12.09 8.52 48.23 45.17
Centro 72.41 -.01 9.97 11.39 50.15 46.36
L.V.Tejo 277.33 .30 10.45 10.00 48.62 45.53
Alentejo 19.63 -.80 8.28 13.51 43.94 42.36
Algarve 69.13 .28 10.57 12.71 44.40 41.41
Açores 103.26 .59 15.19 10.95 39.24 33.90
Madeira 329.40 .50 13.00 9.66 42.63 45.61
V1 - densidade de população
V2 - variação de população entre 93 e 95
V3 -a taxa de natalidade,
V4 – taxa de mortalidade
V5 – taxa de actividade
V7 - % da participação feminina nos activos.
55
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Calculadas pela distância euclidiana, após prévia ponderação dos valores, por variável (por
coluna), como forma de dar a cada uma o mesmo peso na análise, independentemente das
escalas e unidades em que foram medidas
C1 C2 C3 C4 C5 C6 C7
Norte C1 2,3348 1,5167 4,5929 2,9564 4,0289 2,1710
Centro C2 2,3348 2,0988 2,9065 2,1162 4,8054 3,5546
L.V.Tejo C3 1,5167 2,0988 4,1479 2,7769 4,5021 2,0213
Alentejo C4 4,5929 2,9065 4,1479 2,5701 5,0729 4,9480
Algarve C5 2,9564 2,1162 2,7769 2,5701 3,2302 3,2573
Açores C6 4,0289 4,8054 4,5021 5,0729 3,2302 3,6433
Madeira C7 2,1710 3,5546 2,0213 4,9480 3,2573 3,6433
56
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
2. furthest neighbor
C1.3 C2 C4 C5 C6 C7
C1.3 2,3348 4,5929 2,9564 4,5021 2,1710
C2 2,3348 2,9065 2,1162 4,8054 3,5546
C4 4,5929 2,9065 2,5701 5,0729 4,9480
C5 2,9546 2,1162 2,5701 3,2302 3,2573
C6 4,5021 4,8054 5,0729 3,2302 3,6433
C7 2,1710 3,5546 4,9480 3,2573 3,6433
57
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
58
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Norte Case 1 1
L.V.Tejo Case 3 3
Madeira Case 7 7
Açores Case 6 6
Centro Case 2 2
Algarve Case 5 5
Alentejo Case 4 4
59
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
Exemplo 4
Considere-se os seguintes dados meteorológicos:
Ano Temp. Temp. Max Temp. Min Temp. Solo Chuva Mês Max Dias Dias c/
Méd (@10cm) (mm) a Chuver Nevoeiro
1982 4.2 13.3 -5.3 4.0 23 6 0
62
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
63
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
64
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
65
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
66
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
67
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
68
/ DCSPT – Departamento de Ciências Sociais, Políticas e do Território
69