Escolar Documentos
Profissional Documentos
Cultura Documentos
(Clusters)
Marcelo Lauretto
Introdução
• Análise de Agrupamentos (Cluster Analysis) é um conjunto de
técnicas com o objetivo principal de identificar
objetos/entidades com características similares.
X
Algumas áreas de aplicação
• Psicologia:
• Classificação de pessoas de acordo com seus perfis de
personalidade
• Biologia:
• Classificação de espécies
• Medicina:
• Classificação de sub-tipos de doenças (diabetes, câncer,
etc)
• Administração/Marketing
• Segmentação de clientes de acordo com perfis de
consumo
Métodos clássicos para agrupamentos
• Algoritmos de Agrupamento
[ x1 x2 ]' [ x1 x2 ]
p
d ( x1 , x2 ) 2 1/ 2
( x
j 1 1, j
x 2, j )
p
d ( x1 , x2 ) j 1
| x1, j x2, j |
– Essas medidas são sensíveis à diferença de escalas entre variáveis
distintas:
• Ex: IDH (0 a 100) e PIB (R$ bilhões)
• Distância de Mahalanobis:
1
d ( x1 , x2 ) [ x1 x2 ]' S [ x1 x2 ] 1/ 2
(x2,1, x2,2)
x2,2 - x1,2
(x1,1, x1,2)
x2,1 - x1,1
• Coeficiente de correlação linear:
1 p 1 p
xi j 1
xi , j , s i ( x
j 1 i , j
xi ) 2
p p
p
1 j 1
( x1, j x1 )( x 2 , j x 2 )
( x1 , x2 )
n s1 s2
Algoritmos de agrupamento
• Princípio: Formação de clusters buscando-se:
• maximizar diferenças entre clusters
• minimizar variações intra-clusters
• Não-hierárquicos
̶ K-medias (K-means)
média das
distâncias centróide
5. Método de Ward (Ward’s method):
– Também denominado método da mínima variância.
– Medida de distância entre dois clusters é a soma das distâncias
ao quadrado entre os dois clusters:
SSl ,i xl ,k , j x j x ,
nl p ni p
i ,k , j x j
2 2
SSTl,i: soma total dos erros
quadrados (agrupando os k 1 j 1 k 1 j 1
clusters l e i 1 nl ni
xj xl ,k , j xi ,k , j
nl ni k 1 k 1
d (Cl , Ci ) SSl ,i ( SSl SSi )
x xi ,, j
p
nn
l i
2
l ,, j
nl ni j 1
Método de Ward
SS1
SS1,2
SS2
1 cluster 2 clusters