Análise de Cluster

Tópico 5: Análise de Cluster
Conteúdo da aula 10:

• Introdução à Análise de Cluster:
• Método de aglomeração ou Hierárquico
• Método da repartição – K-means
Análise de Cluster
• Esta técnica é útil em vários tipos de análise, por exemplo:
• na segmentação de mercado,
• agrupamento de fornecedores por habilidades e competências,
• Agrupamento de técnica estatísticas segundo o tipo de aplicação, uso e
complexidade,
• Classificação de produtos para formar células de manufatura;
• Agrupamento de problemas por similaridades de causas.
• Na redução de variáveis.
Medida de distância
Distância Euclidiana
Onde:
• Informação de peso e altura de cinco pessoas. Objetivo é identificar as
pessoas mais parecidas e o par de pessoas menos parecidas.
Pessoa Altura (pulg.) Peso (lbs)

1 68 140
2 73 185
3 67 165
4 64 120
5 76 210
Normalização dos dados.

• Informação de peso e altura de cinco pessoas. Objetivo é identificar as
pessoas mais parecidas e o par de pessoas menos parecidas.
Pessoa Altura (pulg.) Peso (lbs)
1 -0,37 -0,75
2 0,78 0,66
Maior similaridade: 3/1
3 -0,60 0,03
4 -1,30 -1,38
Menor similaridade: 5/4
5 1,48 1,44
1 2 3 4 5
1 0
2 1,63 0
3 0,73 1,36 0
4 1,00 2,60 1,40 0
5 2,57 0,93 2,25 3,54 0
Outras Medidas de Distância
• Distância entre populações e amostras
Penrose (1953)
Mede a distância entre a população i e a população j.

P: quantidade de variáveis que caracterização as populações.
Vk: é a variância da variável k.
Há outras medidas que levam a correlação entre as variáveis, que é a distância de

Mahalanobis (1948).
• Distância baseadas em proporções.

Método de Agrupamento Hierárquico
• Há diferentes algoritmos que fazem os agrupamentos dos objetos e
variáveis
• O método agrupamento hierárquicos, que formam os dendogramas.
• Usa-se as medidas de distância entre os objetos. Há duas estratégias:
• Aglomeração,
• divisão.
Método de Agrupamento Hierárquico
• Métodos hierárquicos de aglomeração, todos os objetos são grupos
individuais. Grupos que estão próximos se unem (vizinhos mais
próximos)
• Método hierárquicos divisional trabalha o inverso. Supõem de início
que exista somente um grupo, e com base nas diferenças os grupos
vão se dividindo.
• Tanto como uma técnica como outra os dados são apresentados em
dendogramas
Método de Agrupamento Hierárquico por
Aglomeração
• Há várias formas ou critérios para medir o grau de semelhança entre objetos.
• Ligação simples
• Ao fundir-se dois elementos, prevalece aquele que tem menor distância em relação ao próximo a ser
feita a fusão.
• Ligação completo
• Quando dois elementos se unem, o grau de parecido desse grupo a um terceiro elemento se dá pela
máxima distância ou menos similaridade.
• Ligação médio
• Pega-se a característica média dos dois objeto agrupados em relação a um terceiro.
• Método Centroide:
• Usa a média de cada grupo
• Método de Ward:
• Funde o grupo com menor soma de quadrados. Em geral forma grupos mais homogêneos, com mesma
quantidade de indivíduos.
Método de Agrupamento Não Hierárquico
• Este método não requer uma matriz de distância ou de similaridade.
• A técnica que pertence ao grupo não hierárquico se chama K-means.
• O K-means requer a especificação do número de grupos.
• Os grupos são formados aleatoriamente, a partir de um procedimento
cada elemento dentro de um grupo é comparado em relação a outro
grupo. Assim, o objeto pode ficar no grupo ou sair do grupo, indo
para outro.
Pesquisa de Melhoria Contínua
Validação: Alpha de Cronbach
• Alpha de Cronbach = 0,94.
• Para as 67 questões, o Alpha de Cronbach = 0,97
• Isso indica que o questionário capta relações entre as variáveis.
• Portanto é adequado a aplicação de análises multivariada.
• Lembrando que a escala é qualitativa ordinal.
Dendograma
Tree Diagram for 10 Variables
Single Linkage
Euclidean distances
8,8
8,6
8,4
8,2
Linkage Distance
8,0
7,8
7,6
7,4
7,2
7,0
q_4 q_3 q_9 q_10 q_2 q_8 q_7 q_5 q_6 q_1
Dendograma
Processo de aglomeração
Obj. Obj. No. Obj. No. Obj. No. Obj. No. Obj. No. Obj. No. Obj. No. Obj. No. Obj. No.
No.
7,211102 q_2 q_10
7,280110 q_2 q_10 q_9
7,810250 q_7 q_8
8,246211 q_1 q_6
8,306623 q_2 q_10 q_9 q_3
8,366600 q_1 q_6 q_5
8,426149 q_2 q_10 q_9 q_3 q_4
8,544003 q_1 q_6 q_5 q_7 q_8
8,717798 q_1 q_6 q_5 q_7 q_8 q_2 q_10 q_9 q_3 q_4
Distâncias Euclidiana
q_1 q_2 q_3 q_4 q_5 q_6 q_7 q_8 q_9 q_10
q_1 0,0 9,3 9,5 11,0 8,4 8,2 9,2 8,8 10,4 8,72
q_2 9,3 0,0 8,3 8,4 10,3 9,8 9,7 9,7 9,6 7,21
q_3 9,5 8,3 0,0 9,4 9,6 9,2 8,7 9,5 10,3 8,66
q_4 11,0 8,4 9,4 0,0 10,3 10,9 11,2 9,8 10,9 9,00
q_5 8,4 10,3 9,6 10,3 0,0 8,5 9,1 9,2 9,3 9,06
q_6 8,2 9,8 9,2 10,9 8,5 0,0 8,5 9,2 9,4 8,83
q_7 9,2 9,7 8,7 11,2 9,1 8,5 0,0 7,8 9,8 9,85
q_8 8,8 9,7 9,5 9,8 9,2 9,2 7,8 0,0 10,0 9,27
q_9 10,4 9,6 10,3 10,9 9,3 9,4 9,8 10,0 0,0 7,28
q_10 8,7 7,2 8,7 9,0 9,1 8,8 9,8 9,3 7,3 0,00
Comparação entre Estratégias

Complete Linkage Tree Diagram for 10 Variables
Euclidean distances Single Linkage
11,5
Euclidean distances
8,8
11,0
10,5 8,6
10,0 8,4
9,5 8,2
Linkage Distance
Linkage Distance
9,0
8,0
8,5
7,8
8,0
7,6
7,5
7,0 7,4
6,5 7,2
q_4 q_3 q_10 q_2 q_9 q_8 q_7 q_5 q_6 q_1
7,0
q_4 q_3 q_9 q_10 q_2 q_8 q_7 q_5 q_6 q_1
Comparação entre Estratégias
Single Linkage Tree Diagram for 10 Variables
City-block (Manhattan) distances Complete Linkage
54 Euclidean distances
11,5
52 11,0
10,5
50
10,0
48
9,5
Linkage Distance
Linkage Distance
46 9,0
8,5
44
8,0
42
7,5
40 7,0
6,5
38 q_4 q_3 q_10 q_2 q_9 q_8 q_7 q_5 q_6 q_1
q_6 q_4 q_8 q_7 q_3 q_10 q_9 q_2 q_5 q_1
Análise K-means
K-means
Plot of Means for Each Cluster
5,5
5,0
4,5 Há dois grupos de empresa:

Cluster 1: mais evoluídas em MC.
4,0
Cluster 2: menos evoluídas.
3,5
3,0
2,5
2,0
1,5
q_1 q_2 q_3 q_4 q_5 q_6 q_7 q_8 q_9 q_10
Cluster 1
Variables Cluster 2
Análise K-means
Between df Within df F signif.

q_1 51,47783 1 59,81106 88 75,7393 0,000000
q_2 74,94933 1 58,20622 88 113,3133 0,000000
q_3 79,12350 1 59,77650 88 116,4817 0,000000
q_4 54,12483 1 68,86406 88 69,1650 0,000000
q_5 62,70417 1 58,85138 88 93,7611 0,000000
q_6 64,15486 1 55,80069 88 101,1749 0,000000
q_7 78,13643 1 60,31913 88 113,9938 0,000000
q_8 54,34841 1 57,60714 88 83,0220 0,000000
q_9 48,19212 1 65,59677 88 64,6512 0,000000
q_10 39,68318 1 42,31682 88 82,5232 0,000000
Teste de Significância
Média Atual Média Três t-value df p
anos
q_1 4,422222 3,400000 4,854960 88 0,000005
q_2 4,244444 3,400000 3,472199 88 0,000803
q_3 4,422222 3,511111 3,697529 88 0,000378
q_4 4,377778 3,644444 3,098775 88 0,002609
q_5 4,355556 3,200000 5,375100 88 0,000001
q_6 4,111111 3,044444 4,886271 88 0,000005
q_7 4,600000 3,244444 6,120902 88 0,000000
q_8 4,488889 3,466667 4,836627 88 0,000006
q_9 4,088889 3,088889 4,657187 88 0,000011
q_10 4,022222 3,311111 3,765298 88 0,000300
T-tests Hotelling T²=47,9475 F(10,79)=4,3044 p<,00008
Há diferença nas práticas de melhoria contínua em relação há três anos atrás.

Agrupamento
• A análise de Cluster é útil para agrupar coisa com similaridades.
• Há 49 pardais, é possível formar grupos (cluster) de pardais com base
nas cinco (5) variáveis.
Análise de Cluster (Agrupamento)
Cluster 2: 25 pardais Cluster 1: 24 pardais
Média Desvio Variância Média Desvio Variância
padrão padrão Cluster 1 Cluster 2
CompTotal 155,1600 2,034699 4,14000 160,9167 2,430185 5,905797 C_1 C_2
EXT_ALAR 237,3600 3,186953 10,15667 245,4583 2,843439 8,085145 C_6 C_3
CompBico 31,0320 0,587878 0,34560 31,9042 0,743364 0,552591
C_9 C_4
C_12 C_5
CompUmero 18,1440 0,444485 0,19757 18,8083 0,472658 0,223406
C_13 C_7
CompExterno 20,3760 0,800146 0,64023 21,2958 0,965707 0,932591
C_14 C_8
C_17 C_10
Plot of Means for Each Cluster
350 C_20 C_11
C_24 C_15
300
C_26 C_16
250 C_28 C_18
200 C_29 C_19
C_31 C_21
150
C_32 C_22
100 C_33 C_23
50
C_34 C_25
C_36 C_27
0
C_38 C_30
-50 C_40 C_35
-100
C_41 C_37
CompTotal CompBico CompExterno C_44 C_39
EXT_ALAR CompUmero
Variables
Cluster 1
Cluster 2
C_46 C_42
C_48 C_43
C_49 C_45
C_47

Análise de Cluster

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Cluster

Enviado por

Direitos autorais:

Formatos disponíveis

Tópico 5: Análise de Cluster

Conteúdo da aula 10:

Pessoa Altura (pulg.) Peso (lbs)

Normalização dos dados.

Mede a distância entre a população i e a população j.

Há outras medidas que levam a correlação entre as variáveis, que é a distância de

• Distância baseadas em proporções.

7,211102 q_2 q_10

7,280110 q_2 q_10 q_9

7,810250 q_7 q_8

8,246211 q_1 q_6

8,306623 q_2 q_10 q_9 q_3

8,366600 q_1 q_6 q_5

8,426149 q_2 q_10 q_9 q_3 q_4

8,544003 q_1 q_6 q_5 q_7 q_8

Tree Diagram for 10 Variables

4,5 Há dois grupos de empresa:

T-tests Hotelling T²=47,9475 F(10,79)=4,3044 p<,00008

Há diferença nas práticas de melhoria contínua em relação há três anos atrás.

Você também pode gostar