05 Clustering

Anlise Multivariada
Luprcio Frana Bessegato

Dep. Estatstica/UFJF
Roteiro
1. 2. 3. 4. 5. 6. 7.
Introduo Vetores Aleatrios Normal Multivariada Componentes Principais Anlise Fatorial Anlise de Agrupamentos Referncias
Anlise de Agrupamentos
Anlise de Agrupamentos
Procurar por uma estrutura de grupos naturais dos dados

uma importante tcnica exploratria
Objetivo bsico:
Descobrir agrupamentos naturais dos itens (ou variveis)
Mesmo sem noo precisa de um agrupamento natural, em geral, somos capazes de agrupar visualmente objetos em grficos
So necessrios:
Medidas de similaridade (ou distncia) Desenvolvimento de escala quantitativa para medir associao (similaridade) entre os dados Algoritmos para ordenar objetos em grupos
Medidas de Similaridade H muita subjetividade na escolha de uma medida de similaridade Consideraes importantes:
Natureza das variveis
(discreta, contnua, binria) (nominal, ordinal, intervalar, razo)
Escala das medidas
Agrupamentos de itens (unidades ou casos)

Proximidade usualmente indicada por algum tipo de distncia
Agrupamento de variveis:
Usualmente so agrupadas com base em coeficientes de correlao ou medidas de associao
Distncias para Pares de Itens

Sejam as observaes:
x = [x1, x2, ..., xp] e y = [y1, y2, ..., yp]
Distncia Euclidiana:
Distncia generalizada ou ponderada:
A matriz de ponderao positiva definida A = S1 (distncia de Mahalanobis)
No podem ser calculadas sem conhecimento prvio dos grupos
Se A = I (distncia Euclidiana) Se A = diagonal(1/p) (distncia Euclidiana mdia)
Mtrica de Minkowski:
wi: peso de ponderao para as variveis m = 1, d(x, y) mede distncia city block ou Manhatan m = 2, d(x, y) a distncia Euclidiana variar m muda a ponderao dada a diferenas maiores ou menores A mtrica de Minkowski menos afetada pela presena de valores discrepantes na amostra do que a distncia Euclidiana.
Mtricas para Variveis No-Negativas
Mtrica de Camberra:
Mtrica de Czekanowski:
Distncia
Qualquer medida de distncia d(P, Q) entre dois pontos P e Q vlida, desde que satisfaa as seguintes propriedades. R um ponto intermedirio:
d(P, Q) = d(Q, P) d(P, Q) > 0 se P Q d(P, Q) = 0 se P = Q d(P, Q) d(P, R) + d(R, Q) desigualdade triangular
Itens representados por medidas qualitativas

os pares de itens so frequentemente comparados com base na presena ou ausncia de certas caractersticas Itens similares tm mais caractersticas comuns que os itens dissimilares Presena ou ausncia de caracterstica descrita por varivel indicadora (binria):
X1 Item i Item j 1 1 X2 0 1 X3 0 0 X4 1 1 X5 1 0
Para j = 1, 2, ..., p, sejam:

xij: escore da j-sima varivel do i-simo item xkj: escore da j-sima varivel do k-simo item
A distncia Euclidiana a contagem das discordncias Grandes distncias correspondem a muitas discordncias Essa medida de similaridade pondera igualmente concordncias e discordncias
No exemplo:
X1 Item i Item j 1 1 X2 0 1 X3 0 0 X4 1 1 X5 1 0
Muitas vezes uma concordncia 11 uma indicao mais forte de similaridade que uma concordncia 00
Coeficientes de Similaridade H vrios esquemas para definir coeficientes de similaridade: Seja a tabela de contingncia abaixo:
Item k 1 Item i 1 0 Total a c a+c 0 b d b+d Total a+b c+d p=a+b+c+d
Exemplo 12.2
O significado das palavras muda ao longo da histria

O significado dos nmeros constitui uma exceo
Uma primeira comparao de lnguas poderia ser baseada nos numerais
Numerais em 11 lnguas
Dutch (Du)
een twee drie vier vijf zes zeven acht negen tien
English Norwegian Danish (E) (N) (D)

one two three four five six seven eight nine tem en to tre fire fem seks sju atte ni ti en to tre fire fem seks syv otte ni ti
German (G)
eins zwei drei vier funf sechs sieben acht neun zehn
French (F)
un deux trois quatre cinq six sept huit neuf dix
Spanish (S)
uno dos tres cuatro cinco seis siete ocho nueve diez
Italian (I)
uno due tre quattro cinque sei sette otto nove dieci
Polish (P)
jeden dwa trzy cztery piec szesc siedem osiem dziewiec dziesiec
Hungarian (H)
egy ketto harom negy ot hat het nyolc kilenc tiz
Finnish (F)
yksi kaksi kolme neua viisi kuusi seitseman kahdeksan yhdeksan kymmenen
Comparao das lnguas pela 1. letra dos nmeros

Nmeros concordantes: tem a mesma 1. letra Nmeros discordantes: caso contrrio
E N D Du G F S I P H F
E 10 8 8 3 4 4 4 4 3 1 1
N 10 9 5 6 4 4 4 3 2 1
Du
10 4 5 4 5 5 4 2 1
10 5 1 1 1 0 2 1
10 3 3 3 2 1 1
10 8 9 5 0 1
10 9 7 0 1
10 6 0 1
10 0 1
10 2
10
Ingls e Noruegus 1.s letras: 8 em 10 Ingls, noruegus, dinamarqus, holands e alemo
aparentam formar um grupo podem ser agrupados
Francs, espanhol, italiano e polons
Hngaro e filands parecem estar sozinhos
Mtodos de Agrupamentos Hierrquicos
Raramente podemos examinar possibilidades de agrupamentos
todas
as
H algoritmos de agrupamento que no tm de verificar todas as configuraes
Tcnicas de Agrupamento Hierrquicas

Procedimentos que realizam uma srie de sucessivas fuses (ou uma srie de sucessivas divises)
Tcnicas Hierrquicas:
Aglomerativas Divisivas
Em geral, so usadas em anlises exploratrias dos dados com o objetivo de:

identificar possveis agrupamentos estimar o valor provvel do nmero de grupos g
Tcnicas No-Hierrquicas:
necessrio que o valor do nmero de grupos j esteja pr-especificado pelo pesquisador
Mtodos Hierrquicos Aglomerativos

1. 2.
Cada elemento constitui um cluster de tamanho 1

H n clusters
Em cada estgio do algoritmo os pares de conglomerados mais similares so combinados (novo conglomerado)
Em cada estgio do processo, o nmero de conglomerados vai sendo diminudo
3.
Propriedade de Hierarquia:
Em cada estgio do algoritmo, cada novo conglomerado formado um agrupamento de conglomerados formados nos estgios anteriores
Se 2 elementos aparecem juntos em algum estgio do processo, eles aparecero juntos em todos os estgios subsequentes
Uma vez unidos, estes elementos no podero ser separados
4.
Dendograma (ou Dendrograma):
Representa a rvore (ou histria) do agrupamento

Escala Vertical: nvel de similaridade (ou dissimilaridade) Eixo Horizontal: elementos amostrais na ordem relacionada histria do agrupamento
Mtodos de Agrupamentos
Medida de similaridade (ou distncia) entre 2 conglomerados
Mtodo de Ligao Simples (Single Linkage):

Similaridade entre dois conglomerados definida pelos dois elementos mais parecidos entre si
distncia mnima ou vizinho mais prximo
C1 = {X1, X2} e C2 = {X3, X4, X5}
Em cada estgio do processo de agrupamento os dois conglomerados que so mais similares (mais prximos) so combinados em um nico cluster.
Exemplo 12.4 1 Matriz de Distncias (D): 1 0

min{dik} = d(5,3) = 2 cluster (35)
2 3 4 5 9 3 6 11
2 0 7 5 10
0 9 2
0 8
d(35, 1) = min{d(3, 1), d(5, 1)} = min{3, 11} =3 d(35, 2) = min{d(3, 2), d(5, 2)} = min{7, 10} =7 d(35, 4) = min{d(3, 4), d(5, 4)} = min{9, 8} =8
cluster (135)
d(135, 2) = min{d(35, 2), d(1, 2)} = min{7, 9} = 7 d(135, 4) = min{d(35, 4), d(1, 4)} = min{8, 6} = 6
cluster (1354)
d(1354,2) = d(135, 2) = 7
Dendograma:
Os resultados intermedirios so o principal interesse
Exemplo 12.5
E N D Du G F S I P H F
Numerais em 11 lnguas (continuao 12.2)

E 0 2 2 7 6 6 6 6 7 9 9 N 0 1 5 4 6 6 6 7 8 9 D Du G F S I P H F 0 6 5 6 5 5 6 8 9
0 5 9 9 9 10 8 9
0 7 7 7 8 9 9
0 2 1 5 10 9
0 1 3 10 9
0 4 10 9
0 10 9
0 8
Menores distncias entre pares de lnguas:

d(D,N)=1; d(I,F) = 1; d(I,S)=1 Como d(F,S) = 2, podemos fundir apenas IF ou IS
10
Anlise de Aglomerado Ligao Simples
Cluster Analysis of Observations: M1

Single Linkage Amalgamation Steps Number of obs. in new cluster 2 3 2 3 4 4 8 9 2 11
Step 1 2 3 4 5 6 7 8 9 10
Number of clusters 10 9 8 7 6 5 4 3 2 1
Similarity level 90 90 90 80 70 60 50 50 20 20
Distance level 1 1 1 2 3 4 5 5 8 8
Clusters joined 7 8 6 7 2 3 1 2 6 9 1 5 1 6 1 4 10 11 1 10
New cluster 7 6 2 1 6 1 1 1 10 1
Noruegus(2) + dinamarqus (3); francs(6) + espanhol(7) + Italiano(8) aglomeram-se na mnima distncia No prximo passo o ingls (1) adicionado ao grupo ND Hngaro (10) e finlands (11) so mais similares um com o outro que com outros clusters
Mtodo de Ligao Completa (Complete Linkage):

Similaridade entre dois conglomerados definida pelos dois elementos menos parecidos entre si
distncia mxima ou vizinho mais distante
C1 = {X1, X2} e C2 = {X3, X4, X5}
Em cada estgio, a distncia (similaridade) entre os clusters determinada pela distncia (similaridade) entre os dois elementos, em cada cluster, que so mais distantes.
11
Garante que todos os itens em cada cluster esto com a mxima distncia (mnima similaridade) entre eles.
Mtodo da Mdia das Distncias (AverageLinkage):

Similaridade entre dois conglomerados definida pela distncia mdia de todos os pares de itens
cada membro do par pertence a grupos diferentes
C1 = {X1, X2} e C2 = {X3, X4, X5}
n1: quantidade de elementos do cluster 1 n2: quantidade de elementos do cluster 2.
Podem ser usadas distncias ou similaridades Pode ser usado para agrupar variveis e itens Mudanas na atribuio de distncias (similaridade) podem afetar o arranjo da configurao final de clusters, mesmo que as alteraes preservem as ordenaes relativas.

12
Mtodo do Centride:
Distncia entre dois grupos definida como sendo a distncia entre os vetores de mdias (centrides)
cada membro do par pertence a grupos diferentes
C1 = {X1, X2} e C2 = {X3, X4, X5}

Distncia Euclidiana entre os dois grupos
mtodo direto e simples, mas em cada passo necessrio retornar aos dados originais para o clculo da matriz de distncias
exige mais tempo computacional
No pode ser usado em situaes em que se dispes apenas da matriz de distncias entre os n elementos amostrais
Ao contrrio dos mtodos simple, complete e average linkage
Quanto maior a quantidade de elementos amostrais (n) e de variveis (p), menor a chance de empates entre valores da matriz de distncias
Exemplo
Dados 6 indivduos de uma comunidade:

Renda (em salrios mnimos) Idade Dados: (Fonte: Mingoti, 2005)
Indivduo A B C D E F Renda 9,60 8,40 2,40 18,20 3,90 6,40 Idade 28 31 42 38 25 41
Agrupamento pelo mtodo do centride
13
Matriz de distncias Euclidianas:

Matrix M3 0,0000 3,2311 15,7429 13,1894 6,4413 13,3881 3,2311 0,0000 12,5300 12,0433 7,5000 10,1980 15,7429 12,5300 0,0000 16,2985 17,0660 4,1231 13,1894 12,0433 16,2985 0,0000 19,3259 12,1754 6,4413 7,5000 17,0660 19,3259 0,0000 16,1941 13,3881 10,1980 4,1231 12,1754 16,1941 0,0000
Histrico do agrupamento:
Passo 1 2 3 4 5 g 5 4 3 2 1 Fuso {A} e {B} {C} e {F} {A,B} e {E} {A,B,E} e {C,F} {A,B,E,C,F} e {D} Distncia (nvel) 3,23 4,12 6,80 13,81 12,91
o nvel de fuso do passo 5 foi menor que do passo 4 Isso poder ocorrer no mtodo do centride quando, em algum passo do algoritmo, houver empates entre valores da matriz de distncias D Quanto maior for o tamanho amostral e de variveis, menor ser a chance de ocorrncia desta situao
Mtodo de Ward

Objetivo do procedimento:
Minimizar a perda de informao ao juntar 2 grupos
Partio desejada:
A que produz os grupos mais heterogneos entre si, com elementos homogneos dentro de cada grupo
Fundamento do mtodo:
Em cada passo do agrupamento h mudana de variao entre os grupos e dentro dos grupos Procedimento tambm denominado de mnima varincia
14
Mtodos anteriores:
quando se passa de (n k) para (n k 1) grupos o nvel de fuso aumenta (nvel de similaridade decresce) e a qualidade da partio decresce. Variao entre grupos diminui e a variao dentro dos grupos a
Procedimento
1.
Cada elemento considerado um nico cluster; 2. Em cada passo calcula-se a soma da distncia Euclidiana dentro dos grupos:
SSR: soma dos quadrados total (dentro) dos grupos gk: nmero de grupos no passo k SSi: soma dos quadrados do cluster i
SSi: soma dos quadrados do cluster i ni: quantidade de elementos do cluster Ci (passo k) Xij: vetor de observaes do j-simo elemento amostral que pertence ao i-simo conglomerado Xi: centride do cluster i
15
3.
Em cada passo do algoritmo, combinam-se os dois conglomerados que minimizam a distncia entre os conglomerados Ci e Cj, definida como:
d(Ci, Cj) a soma de quadrados entre os clusters Ci e Cj
Comentrios:
Em cada passo, o mtodo combina os dois conglomerados que resultam no menor valor de SSR Prova-se que d(Ci, Cj) a diferena entre o valor de SSR depois e antes de se combinar os clusters Ci e Cj. Os mtodos de Ward e do centride usam o vetor de mdias amostrais como representantes da informao global dos conglomerados em cada passo do processo de agrupamento A distncia considera a diferena dos tamanhos dos conglomerados na comparao
ni nj/(ni + nj) penalizam as comparaes (maiores grupos maiores distncias
O mtodo do centride no tem qualquer ponderao em relao ao tamanho dos clusters Para usar o mtodo de Ward basta que as variveis sejam quantitativas
Para o clculo do vetor de mdias No depende de se conhecer a distribuio da populaco
Sob certas condies, h uma relao entre o mtodo de Ward e o mtodo de mxima verossimilhana
Se a distribuio das variveis for normal p-variada
16
O mtodo de Ward baseia-se na noo de que espera-se que os clusters de observaes multivariadas tenham forma aproximadamente elptica um precursor de mtodos de aglomerao nohierrquicos
Otimizam algum critrio para dividir os dados em um nmero determinado de grupos elpticos
Exemplo
Dados 6 indivduos de uma comunidade:

Renda (em salrios mnimos) Idade Dados: (Fonte: Mingoti, 2005)
Indivduo A B C D E F Renda 9,60 8,40 2,40 18,20 3,90 6,40 Idade 28 31 42 38 25 41
Agrupamento pelo mtodo de Ward
Matriz de distncias Euclidianas:

Matrix M3 0,0000 3,2311 15,7429 13,1894 6,4413 13,3881 3,2311 0,0000 12,5300 12,0433 7,5000 10,1980 15,7429 12,5300 0,0000 16,2985 17,0660 4,1231 13,1894 12,0433 16,2985 0,0000 19,3259 12,1754 6,4413 7,5000 17,0660 19,3259 0,0000 16,1941 13,3881 10,1980 4,1231 12,1754 16,1941 0,0000
Histrico do agrupamento:
Passo 1 2 3 4 5 g 5 4 3 2 1 Fuso {A} e {B} {C} e {F} {A,B} e {E} {C,F} e {D} {A,B,E} e {C,F,D} Distncia (nvel) 3,23 4,12 8,21 17,61 26,64
17
Os grupos finais foram os mesmos obtidos com o mtodo do centride No houve inverso
Exemplo 12.11 Pure Malt
Agrupamento de 109 marcas de scotch de diferentes destilarias 68 variveis binrias para medir as caractersticas do whiskey
relacionadas com: cor, corpo,aroma, etc.
Objetivos:
Determinar os principais tipos de whiskies Determinas suas principais caractersticas Saber se os grupos correspondem a diferentes regies
so afetados por solo, temperatura, condies da gua
Variveis binrias so escaladas
Identificados 12 grupos de scotchs (A a L) Os grupos tm uma importante componente geogrfica
Apia a hiptese de que os whiskies so afetados por fatores geogrficos (gua, solo, microclima, temperatura, etc)no apenas pela extertise das destilarias.
18
Mtodos Hierrquicos Comentrios Finais Fontes de erros e de variao no so formalmente considerados nos procedimentos hierrquicos
Significa que esses mtodos so sensveis a outliers ou pontos de perturbao
Deve-se sempre verificar a sensibilidade da configurao dos grupos

Os mtodos no permitem a realocao de objetos que possam ter sido agrupados incorretamente nos estgios iniciais
recomendado tentar vrios mtodos de agrupamento e de atribuio de distncias (similaridades) Empates na matriz de distncias podem produzir mltiplas solues ao problema de agrupamento hierrquico A maioria dos mtodos produz clusters esfricos ou elpticos
O mtodo de ligao simples um dos poucos mtodos que pode delinear cluster no-elpticos
Tem a capacidade de gerar estruturas geomtricas diferentes Tem a tendncia de formar strings longas (chaining) Entretanto, ele incapaz de perceber grupos pouco separados
19
Os clusters formados pelo mtodo de ligao simples no sero modificados por qualquer atribuio de distncia (similaridade) que d as mesmas ordenaes relativas
Em particular, qualquer um dos coeficientes de similaridade monotnicos (Tabela 12.2)
O mtodo de ligao completa tende a produzir conglomerados de aproximadamente mesmo dimetro

Tem a tendncia de isolar os valores discrepantes nos estgios iniciais do agrupamento
O mtodo da mdia das distncias tende a produzir conglomerados de aproximadamente mesma varincia interna
Em geral, produz melhores parties que os mtodos de ligao simples e completa
Os mtodos de ligao simples, completa e da mdia podem ser utilizados tanto para variveis quantitativas quanto para variveis qualitativas Os mtodos do centride e de Ward so apropriados apenas para variveis quantitativas
O mtodo de Ward tende a produzir grupos com aproximadamente o mesmo nmero de elementos e tem como base principal os princpios de anlise de varincia Com um nmero maior de dados amostrais (n) ou de variveis (p), necessariamento no ir ocorrer a igualdade das solues apresentadas pelos vrios mtodos
Espera-se sempre que haja uma certa consistncia entre as solues obtidas por mtodos diferentes
20
Mtodos para Encontrar o Nmero g de Clusters da Partio Final
Problema de agrupamento:
Como escolher o nmero final (g) de grupos que define a partio do conjunto de dados? Qual o passo k em que o algoritmo de agrupamento deve ser interrompido?
Critrio 1 Anlise do comportamento do nvel de fuso (distncia)

medida que o algoritmo avana, a similaridade dos grupos diminui (distncia aumenta) Grfico do passo (ou nmero de grupos) vs. nvel de distncia (nvel de fuso)
Verifica-se a existncia de saltos relativamente grandes

Pontos indicadores do momento ideal de parada (nmero final de conglomerados) Se observados vrios pontos de saltos pode-se delimitar uma regio de provveis valores do nmero de grupos g (deve ser investigado por outro procedimento)
Pode-se usar o dendograma quando n no for muito grande
Critrio 2 Anlise do comportamento do nvel de similaridade

Similar ao critrio 1
Observa-se o nvel de similaridade (ao invs da distncia)
Nvel de similaridade:
max(drs): maior distncia entre os n elementos amostrais na matriz de distncias Dnxn do incio do processamento
21
Procura-se detectar pontos em que haja um decrescimento acentuado na similaridade dos conglomerados unidos

indicam a interrupo do algoritmo de agrupamento nmero final de clusters (g) est relacionado com o estgio em que o algoritmo foi interrompido
Em geral, a escolha de valores de similaridade acima de 90% leva a um nmero de grupos muito elevado
Critrio 3 Anlise da soma dos quadrados entre grupos: R2

possvel calcular a soma de quadrados entre clusters e dentro dos grupos, em cada passo do procedimento Em partio com g* grupos, sejam:

Xij = (Xi1,j, Xi2,j, ..., Xip,j) vetor de medidas observadas para o j-simo elemento amostral do i-simo grupo Xi. = (Xi1., Xi2., ..., Xip.) vetor de mdias do i-simo grupo (sem considerar partio) X = (X.1, X.2, ..., X.p)
Soma dos quadrados total corrigida para a mdia global em cada varivel
Soma dos quadrados total dentro dos grupos da partio
Soma dos quadrados total entre os g* grupos
22
Coeficiente R2 da partio: Quanto maior o valor de R2, maior ser a soma de quadrados entre grupos e menor ser a soma de quadrados residual SSR Procedimento para escolha de g

Grfico do passo do agrupamento vs. R2 Procurar identificar algum ponto de salto relativamente grande em relao aos demais
indica momento ideal da parada
Grfico sempre decrescente maior valor de g*, menor a variabilidade interna dos grupos e maior ser o valor de R2
mximo R2 = 1 (para g* = n)
Estratgia:
Definir uma regio de valores plausveis para o nmero de grupos g Utilizar o critrio 3 dentro da regio estabelecida
Critrio 4 Estatstica Pseudo F

(Calniski e Harabasz, 1974) Clcular estatstica F em cada passo do agrupamento
g*: nmero de grupos da partio em anlise
Idia do teste:
Em cada passo do agrupamento estaria sendo feito um teste F de anlise de varincia Na prtica, no ocorre alocao aleatria A maioria dos mtodos usa mtodos de agrupamento com critrios determinsticos para partio dos dados
Importante:

23
Se os elementos amostrais so provenientes de uma distribuio normal p-variada e quando os elementos so alocados aleatoriamente nos grupos F ~ Fp(g* 1) , p(n g*) Se F monotonicamente crescente com g*, os dados sugerem que no h qualquer estrutura natural de partio dos dados Se F apresentar um valor mximo, o nmero de conglomerados corresponder partio ideal
Busca-se o maior valor de F

Busca-se partio com maior heterogeneidade dos grupos valor relacionado com a menor probabilidade de significncia do teste Estaria rejeitando a igualdade de vetores de mdias populacionais com maior significncia
Critrio 5 Correlao Semiparcial (Mtodo de Ward)

Em determinado passo, Ck = Ci Cj
Coeficiente de correlao parcial da partio Distncia entre grupos Mtodo de Ward
1. 2. 3. 4.
Calcula-se SPR2 em cada passo Grfico passo vs. SPR2 Busca-se no grfico salto consideravelmente maior que os restantes Ponto indica partio ideal (parada do algoritmo de agrupamento)
24
A funo SPR2 no decrescente Se o agrupamento dos dados foi feito pelo mtodo de Ward, o critrio do coeficiente de correlao semiparcial equivaler aplicao do critrio 1.
Critrio 6 Estatstica Pseudo T2

Em determinado passo, Ck = Ci Cj
Sob as suposies de normalidade p-variada e alocao aleatria dos grupos

T2 ~Fp, (ni+nj2)
Na prtica, no se tem alocao aleatria dos grupos Ideia do teste:
Teste de comparao de mdia de dois grupos, unidos para formar novo grupo
Grfico passo vs. valor da Pseudo T2
Busca-se no grfico o valor mximo
O valor de g correspondente ao mximo (ou aquele imediatamente anterior) escolhido como o nmero provvel de grupos da partio final Busca-se o maior valor de T2
aquele relacionado com a menor probabilidade de significncia (Rejeita a igualdade dos vetores de mdia com maior significncia) Se a igualdade entre os vetores de mdias rejeitada, os dois clusters deveriam ser unidos para formar um nico agrupamento
25
Critrio 6 Estatstica CCC (Cubic Clustering Criterium)

Sarle (1983) Obtida comparando-se o valor esperado do coeficiente R2 com a aproximao do valor esperado de r2 sob a suposio de que os grupos so gerados de acordo com uma uniforme p-dimensional CCC indicaria a presena de estrutura de agrupamento diferente da partio uniforme A quantidade de grupos da partio final estaria relacionada com valores de CCC > 3 Est implementada no software estatstico SAS
Exemplo 6.8 Mingoti, 2005 Dados relativos a 21 pases (ONU, 2002) Variveis:
Expectativa de vida Educao Renda (PIB) Estabilidade poltica e de sergurana
Mtodo de agrupamento: Ward Conjunto de dados: BD_multivariada.xls/paises
Minitab
Cluster Analysis of Observations: ndice de Ex; ndice de Ed; ndice PIB; ...
Squared Euclidean Distance, Ward Linkage Amalgamation Steps Number of obs. in new cluster 2 2 2 4 2 3 2 3 5 2 2 8 2 5 3 3 5 8 16 21
Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Number of clusters 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Similarity level 99,995 99,966 99,934 99,923 99,821 99,613 99,510 99,462 99,377 98,999 98,963 98,622 97,997 97,535 94,602 92,489 88,114 71,202 1,220 -159,594
Distance level 0,0006 0,0042 0,0081 0,0095 0,0219 0,0473 0,0598 0,0657 0,0761 0,1221 0,1266 0,1681 0,2445 0,3008 0,6587 0,9166 1,4505 3,5145 12,0549 31,6803
Clusters joined 2 3 1 6 4 5 2 4 12 21 1 9 16 19 8 12 2 7 10 14 15 17 1 2 11 13 8 10 15 18 16 20 11 15 8 16 1 8 1 11
New cluster 2 1 4 2 12 1 16 8 2 10 15 1 11 8 15 16 11 8 1 1
Final Partition Number of clusters: 1 Average distance from centroid 0,987565 Maximum distance from centroid 2,2069
Cluster1
Number of observations 21
Within cluster sum of squares 25,7654
26
Visualmente, razovel definir 4 grupos de pases

Analisar queda de similaridade entre os passos 16 e 18
Resultados da anlise de agrupamento:

Passo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 g* 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Similaridade 99,99 99,97 99,93 99,92 99,82 99,61 99,51 99,46 99,38 99,00 98,96 98,62 98,00 97,54 94,60 92,49 88,11 71,20 1,22 -159,59 Distncia 0,001 0,004 0,008 0,009 0,022 0,047 0,060 0,066 0,760 0,122 0,127 0,168 0,245 0,301 0,659 0,917 1,450 3,514 12,055 31,680 R 1,000 1,000 1,000 1,000 0,999 0,998 0,997 0,996 0,994 0,992 0,989 0,986 0,981 0,976 0,963 0,945 0,917 0,849 0,615 0,000
2
Pseudo F 4520,0 1193,0 705,0 576,0 388,0 241,0 183,0 158,0 143,0 123,0 115,0 107,0 98,4 93,5 77,8 68,8 62,5 50,5 30,3
SP R 0,0000 0,0001 0,0002 0,0002 0,0004 0,0009 0,0012 0,0013 0,0015 0,0024 0,0025 0,0033 0,0047 0,0058 0,0128 0,0178 0,0281 0,0682 0,2339 0,6148
Pseudo T
CCC
2,2 11,3 3,0 12,6
6,9 4,3 5,2 15,3 4,2 14,2 31,8 30,3
-0,12 -0,65 -1,80
Do passo 17 para 18:

Perda mais acentuada de similaridade O valor de R2 passa de 0,917 para 0,849 Valores da Pseudo F e do CCC decrescem substancialmente Pseudo T2 e SPR2 crescem acentuadamente

Medidas descritivas dos grupos formados:

Grupos (SQ) 1 (0,157) n1 = 8 2 (0,255) n2 = 5 3 (1,240) n3 = 5 4 (0,488) n4 = 3 Global n = 21 Pases Austrlia, Canad, Cingapura, Estados Unidos, Frana, Japo Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito Angola, Colmbia, Nigria, Paraguai, Serra Leoa Mdia Expectativa Educao PIB de vida 0,8838 0,9538 0,9075 Estabilidade poltica 1,1850
0,7660
0,8140
0,6740
0,3380
0,5060
0,5900
0,4940
-1,3660
Etipia, Mocambique, Senegal
0,3400
0,3633
0,3767
-0,3433
Todos
0,6881
0,7495
0,6776
0,1580
Grupo 1 Primeiro Mundo
pases com maiores ndice de desenvolvimento menores ndices em todas as variveis
Grupo 4 alguns pases africanos
27
Varivel estabilidade poltica e segurana:

Grande diferena de comportamento dos grupos 1 e 2 em relao aos grupos 3 e 4 Grupo 1 o de maior estabilidade e o grupo 3 de menor
Disperso interna menor no grupo 1 e maior no grupo 3
Tcnicas Hierrquica e Seleo de Variveis Os mtodos hierrquicos podem ser teis na seleo das variveis mais importantes na caracterizao de determinada situao Mtodos de ligao simples, completa e da mdia
necessria apenas matriz inicial que represente proximidade (ou similaridade) entre os elementos amostrais necessrio escolher uma matriz inicial que represente o relacionamento dessas variveis
Interesse: agrupar as variveis mais similares entre si (separar aquelas com informaes diferenciadas)
Variveis quantitativas: Pode-se usar coeficiente de correlao de Pearson

Expressa similaridade com relao associao linear Quanto maior seu valor absoluto, maior a aproximao entre as variveis
Matriz de correlao amostral no uma matriz de distncias (ou proximidades)

Transformao mais simples Dpxp = 1 Abs(Rpxp)
Podem ser usados coeficientes de correlao no paramtricos

Spearman, Kendall, etc.
28
Exemplo
Matriz de correlao amostral (R):

X1 X1 X2 X3 X4 X5 X6 1 0,57 0,51 0,39 0,46 0,35 1 0,60 0,38 0,32 0,72 1 0,43 0,40 0,45 1 0,50 0,58 1 0,30 1 X2 X3 X4 X5 X6
X2 e X6 so mais similares (r26 = 0,72) X X X D6x6 = 1 Abs(R6x6)

1 2 3
X4
X5
X6
X1
X2 X3 X4 X5 X6
0,43 0,49 0,61 0,54 0,65
0 0,40 0,62 0,68 0,28 0 0,57 0,60 0,55 0 0,50 0,42 0 0,70 0
X1 X1 X2 X3 X4 X5 X6 0 0,43 0,49 0,61 0,54 0,65
X2 0 0,40 0,62 0,68 0,28
X3
X4
X5
X6
0 0,57 0,60 0,55 0 0,50 0,42 0 0,70 0
Mtodo de Ligao Simples

Passo 1 2 3 4 5 g 5 X2 e X6 4 X2, X6 e X3 3 X2, X6, X3 e X4 2 X2, X6, X3, X4 e X1 1 X2, X6, X3, X4, X1 e X5 Fuso Nvel Fuso 0,28 0,40 0,42 0,43 0,50
No passo 3
C1 = {X2, X6, X3, X4} C2 = {X1} C3 = {X5}
Suponha escolher 3 dentre as 6 variveis: X1 X5 Uma das variveis de C1
Medidas de categricas:
similaridade
para
variveis
Coeficiente qui-quadrado Coeficiente de contingncia de Pearson Coeficiente de concordncia de Kappa
Outros Coeficientes:
Podem-se desenvolver medidas de associao (similaridade) anlogos aos coeficientes estabelecidos anteriormente (Tabela 12.2) Troca-se p por n.
29
Variveis Binrias:
Os dados podem ser agrupados na forma de tabela de contingncia Para cada par de variveis, h n itens categorizados na tabela
Varivel k 1 Varivel i 1 0 Total a c a+c 0 b d b+d Total a+b c+d n=a+b+c+d
Correlao Momento-Produto
Pode ser tomado como medida de similaridade entre as duas variveis r est relacionado com a estatstica 2 para teste de independncia entre duas variveis categricas
Para n fixo, uma correlao (similaridade) grande consistente com a ausncia de independncia
Comentrios
H vrias maneiras de medir similaridade entre pares de objetos:

distncias (12-1 a 12-5) Coeficientes (Tabela 12-2) para agrupar itens Correlaes para agrupar variveis
Podem ser usadas frequncias
30
Exemplo 12.8 Agrupamento de variveis (Ligao Completa)

Dados de 22 concessionrias pblicas (USA) Variveis:

X1: renda/dvidas X2: taxa de retorno de capitais X3: custo por capacidade instalada (kW) X4: fator de carga anual X5: pico de demanda (crescimento ltimo ano) X6: Vendas (kWh por ano) X7: participao nucleares (%) X8: custo total de combustvel ($ por kWh)
Dados: BD_multivariada.xls/public_utilities
Coeficiente de correlao para medir similaridade

variveis com grandes correlaes negativas so consideradas muito dissimilares variveis com grandes correlaes positivas so consideradas muito similares distncia entre clusters medida como menor similaridade entre grupos
Matriz de correlaes:
Correlations: X1; X2; X3; X4; X5; X6; X7; X8
X2 X3 X4 X5 X6 X7 X8 X1 0,643 -0,103 -0,082 -0,259 -0,152 0,045 -0,013 X2 -0,348 -0,086 -0,260 -0,010 0,211 -0,328 X3 0,100 0,435 0,028 0,115 0,005 X4 X5 X6 X7
0,033 -0,288 -0,164 0,486
0,176 -0,019 -0,007
-0,374 -0,561
-0,185
Minitab
Stat > Multivariate > Cluster Variables
Matriz de distncias: D8x8 = 1 R8x8

Data Display
Matriz de Distncias 0,00000 0,35726 1,10279 1,08203 1,25911 1,15167 0,95520 1,01337 0,35726 0,00000 1,34755 1,08634 1,26011 1,00962 0,78856 1,32766 1,10279 1,34755 0,00000 0,89969 0,56463 0,97201 0,88534 0,99478 1,08203 1,08634 0,89969 0,00000 0,96652 1,28794 1,16416 0,51450 1,25911 1,26011 0,56463 0,96652 0,00000 0,82358 1,01913 1,00713 1,15167 1,00962 0,97201 1,28794 0,82358 0,00000 1,37369 1,56053 0,95520 0,78856 0,88534 1,16416 1,01913 1,37369 0,00000 1,18509 1,01337 1,32766 0,99478 0,51450 1,00713 1,56053 1,18509 0,00000
31
Variveis: (1,2), (4,8), (3,5) aglomeram-se a um nvel intermedirio Variveis 7 e 6 permanecem isoladas at os estgios finais Agrupamento final:
(12478) e (356)
Tcnicas de Agrupamento No Hierrquicas
Objetivo:
Encontrar diretamente uma partio de n elementos em k grupos Requisitos:

coeso interna (semelhana interna) isolamento (separao) dos clusters formados
Busca da melhor partio de ordem k

Satisfaz algum critrio de qualidade Procedimentos computacionais para parties quase tima (invivel a busca exaustiva) investigar
Mtodos No Hierrquicos vs. Hierrquicos :

Especificao prvia do nmero de cluster (ao contrrio das tcnicas aglomerativas) Novos grupos podem ser formados pela diviso (ou juno) de grupos j combinados:
Se em um passo do algoritmo, dois elementos tiverem sido colocados em um mesmo grupo, no significa que estaro juntos na partio final No mais possvel a construo de dendogramas
Em geral, so do tipo iterativo
32
Tem maior capacidade de analisar grande nmero de dados A matriz de distncia no tem de ser calculada e os dados bsicos no precisam ser armazenados durante a execuo do procedimento Mtodos hierrquicos so mais adequados para agrupar itens que variveis
Mtodos No Hierrquicos Estrutura
Iniciam-se:
1. partio inicial de itens em grupos 2. conjunto inicial de sementes que formaro o ncleo dos clusters
Escolha das configuraes iniciais pode afetar partio final

Vis na escolha das sementes iniciais Alternativas:

Seleo aleatria de sementes Partio aleatria de itens em grupos iniciais
Mtodos No Hierrquicos Procedimentos Alguns procedimentos: Mtodo das k-Mdias (k-Means)

mais conhecido e popular
Mtodo Fuzzy c-Mdias Redes Neurais Artificais
33
Mtodo das k-Mdias Provavelmente, um dos mais conhecidos e mais utilizados Idia Bsica:
Cada elemento amostral alocado quele cluster cujo centride o mais prximo do elemento
Passos do Procedimento
1.
Escolhem-se k centrides para inicializar o processo de partio

Sementes ou prottipos
2.
Cada elemento do conjunto de dados comparado com cada centride inicial

Alocao ao centride menos distante Em geral, utiliza-se distncia Euclidiana Aplicao a todos os n elementos amostrais
3.
Clculo dos novos centrides para cada grupo formado no passo (2)
Repetio do passo (2), considerando os novos valores dos centrides
4.
Os passos (2) e (3) so repetidos at que todos os elementos amostrais estejam bem alocados em seus grupos
Bem alocados = no necessria realocao de elementos
34
Exemplo 12.12
Agrupamento pelo Mtodo das k-Mdias:

Medidas das variveis X1 e X2:
Item A B C D Observaes x1 x2 5 3 -1 1 1 -2 -3 -2
Dividir em k = 2 grupos de maneira que os itens de um cluster sejam os mais prximos um dos outros e que estejam distantes em clusters diferentes
Implementao:
Partio arbitrria em 2 clusters: (AB) e (CD) _ _ Clculo das coordenadas (x1, x2) dos centrides:
Cluster AB CD
x1
2 1
x2
2 2
Distncia euclidiana de cada item

AB A B C D d(A,AB) = (5-2) + (3-2) = 10 d(B,AB) = (-1-2) + (1-2) = 10 d(C,AB) = (1-2) + (-2-2) = 17
2 2 2 2 2 2 2 2
CD d(A,CD) = (5+1) + (3+2) = 61 d(B,CD) = (-1+1) + (1+2) = 9 d(C,CD) = (1+1) + (-2+2) = 4

2 2 2 2 2 2 2 2
B agrupado ao cluster (CD)
d(D,AB) = (-3-2) + (-2-2) = d(D,CD) = (-3+1) + (-2+2) = 41 4
_ _ Clculo das coordenadas (x1, x2) dos centrides: Cluster x1 x2

A BCD 5 1 3 1
Distncia euclidiana de cada item

A A B C D d(A,A) = (5-5) + (3-3) = 0 d(B,A) = (-1-5) + (1-3) = 40 d(C,A) = (1-5) + (-2-3) = 41 d(D,A) = (-3-5) + (-2-3) = 89
2 2 2 2 2 2 2 2
BCD d(A,BCD) = (5+1) + (3+1) = 52 d(B,BCD) = (-1+1) + (1+1) = 4 d(C,BCD) = (1+1) + (-2+1) = 5 d(D,BCD) = (-3+1) + (-2+1) = 5
2 2 2 2 2 2 2 2
O agrupamento se mantm e o processo pra
35
Agrupamento Final (k = 2)
A e (BCD)
Comentrios:
Para verificar a estabilidade da soluo recomendvel reiniciar o algoritmo com uma nova partio inicial Uma tabela de centrides e das varincias dentro dos grupos auxilia a delinear as diferenas entre os grupos
Sugestes para Escolha Cuidadosa das Sementes
Sugesto 1: Uso de tcnicas hierrquicas aglomerativas:

Utiliza-se algum mtodo de agrupamento hierrquico para se obter os k grupos iniciais Calcula-se o vetor de mdias de cada grupo Esses vetores so usados como sementes iniciais
Sugesto 2: Escolha aleatria:

As k sementes iniciais so escolhidas aleatoriamente dentro do conjunto de dados Sugesto amostragem aleatria simples sem reposio
(estratgica simples, mas sem eficincia)
Melhoria de eficincia na escolha:

Selecionar m amostras aleatrias, constitudas de k sementes Clculo do vetor de mdias das k sementes selecionadas para cada grupo Esses vetores constituem os centrides de inicializao do processo de agrupamento das k-mdias
36
Sugesto 3: Escolha por meio de uma varivel aleatria:

Escolhe-se uma varivel aleatria dentre as p componentes em considerao
a varivel por si s j induz uma certa partio natural dos dados
Divide-se o domnio da varivel em k intervalos A semente inicial ser o centride de cada intervalo
Sugesto 4: Observao dos discrepantes do conjunto de dados
valores
Anlise estatstica para buscar k elementos discrepantes no conjunto de dados
Discrepncia em relao s p variveis observadas
Cada um desses elementos ser a semente
Sugesto 5: Escolha prefixada

Mtodo no muito recomendvel, pois, tem um alto grau de subjetividade Sementes escolhidas arbitrariamente Pode ser usadas em casos em h grande conhecimento do problema
buca-se validar soluo j existente
37
Sugesto 6: Os k primeiros valores do banco de dados

Usado como default pela maioria dos softwares Pode trazer bons resultados quando os k primeiros elementos amostrais so discrepantes entre si
(No recomendvel quando so semelhantes)
Exemplo 7.1 Mingoti, 2005 Continuao Ex. 6.8 Dados relativos a 21 pases (ONU, 2002) Variveis:
Expectativa de vida Educao Renda (PIB) Estabilidade poltica e de sergurana
Mtodo de agrupamento: k-Mdias Conjunto de dados: BD_multivariada.xls/paises
Utiliza-se da Anlise pelo Mtodo de Ward:

k = g = 4 grupos para partio dos pases Sementes iniciais = centrides clusters finais
Partio final:
a mesma obtida anteriormente
Grupos (SQ) 1 (0,157) n1 = 8 2 (0,255) n2 = 5 3 (1,240) n3 = 5 4 (0,488) n4 = 3 Global n = 21 Pases Austrlia, Canad, Cingapura, Estados Unidos, Frana, Japo Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito Angola, Colmbia, Nigria, Paraguai, Serra Leoa Mdia Expectativa Educao PIB de vida 0,8838 0,9538 0,9075 Estabilidade poltica 1,1850
0,7660
0,8140
0,6740
0,3380
0,5060
0,5900
0,4940
-1,3660
Etipia, Mocambique, Senegal
0,3400
0,3633
0,3767
-0,3433
Todos
0,6881
0,7495
0,6776
0,1580
38
Sementes iniciais: Reino Unido, Brasil, Serra Leoa e Moambique

Obtm-se mesma partio final
Sementes iniciais: 4 primeiros pases do banco

Grupos (SQ) 1 (0,091) n1 = 7 2 (0,748) n2 = 6 3 (2,188) n3 = 7 4 (0,488) n4 = 1 Global n = 21 Pases Austrlia, Canad, Estados Unidos, Frana, Japo, Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito, Moambique Angola, Colmbia, Nigria, Paraguai, Serra Leoa,Etipia, Senegal Cingapura Mdia Expectativa Educao PIB de vida 0,8843 0,9657 0,9071 Estabilidade poltica 1,1529
0,6783
0,7400
0,6271
0,3150
0,4729
0,5243
0,4626
-1,1514
0,8800
0,8700
0,9100
1,4100
Todos
0,6881
0,7495
0,6776
0,1580
Cingapura foi separada do cluster 1 Moambique deslocado para grupo do Brasil Grupo da Colmbia acrescido de Etipia e Senegal
Soma de quadrados dentro dos grupos:
Nova soluo aumentou variabilidade dentro dos grupos 2 e 3
39
K-means Cluster Analysis: ndice de Ex; ndice de Ed; ndice PIB; Estabilidade
Minitab:
Final Partition Number of clusters: 4 Within cluster sum of squares 2,188 0,000 0,091 0,748 Average distance from centroid 0,528 0,000 0,105 0,308 Maximum distance from centroid 0,856 0,000 0,204 0,641
Cluster1 Cluster2 Cluster3 Cluster4
Number of observations 7 1 7 6
Cluster Centroids Variable ndice de Expectativa de vida ndice de Educao ndice PIB Estabilidade_poltica_violncia Variable ndice de Expectativa de vida ndice de Educao ndice PIB Estabilidade_poltica_violncia Cluster1 0,4729 0,5243 0,4629 -1,1514 Grand centroid 0,6881 0,7495 0,6776 0,1576 Cluster2 0,8800 0,8700 0,9100 1,4100 Cluster3 0,8843 0,9657 0,9071 1,1529 Cluster4 0,6783 0,7400 0,6217 0,3150
Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster1 0,0000 2,6545 2,4231 1,5048 Cluster2 2,6545 0,0000 0,2744 1,1575 Cluster3 2,4231 0,2744 0,0000 0,9364 Cluster4 1,5048 1,1575 0,9364 0,0000
Soma dos Quadrados:

ANOVA para cada uma das p variveis
One-way ANOVA: ndice de Expectativa de vida versus C35
Source C35 Error Total DF 3 17 20 SS 0,6311 0,5234 1,1545 MS 0,2104 0,0308 F 6,83 P 0,003
One-way ANOVA: ndice de Educao versus C35
Soma Quadrados Total Corrigida

SSTc = 25,7654
Source C35 Error Total
DF 3 17 20
SS 0,6974 0,5475 1,2449
MS 0,2325 0,0322
F 7,22
P 0,002
One-way ANOVA: ndice PIB versus C35

Soma dos Quadrados Total dentro dos grupos

SSR = 3,0267
One-way ANOVA: Estabilidade_poltica_violncia versus C35

Clculo R2:
Comparao da qualidade das parties

Variao Residual Soma Quadrados Partio Residual Mdia k-Mdias (Ward) 2,1406 0,5351 k-Mdias (*) 3,0267 0,7557 (*) Os 4 primeiros elementos do banco de dados R
2
0,917 0,883
A soluo do mtodo das k-Mdias, utilizando como

sementes iniciais as sementes de Ward, melhor do que a soluo encontrado quando os 4 primeiros elementos do banco de dados so usados como semente
40
Visualizao espacial dos grupos:

2 primeiras componentes principais com base na matriz de covarincias amostral
possvel visualizar claramente os 4 grupos
k-mdias com sementes de Ward
Comentrios Finais
A escolha das sementes iniciais de agrupamento podem influenciar o agrupamento final

Se duas ou mais sementes situarem-se em um nico cluster, os grupos resultantes sero pouco diferenciados A existncia de outlier pode produzir pelo menos um grupo com muitos itens dispersos
H fortes argumentos para no se fixar o nmero de clusters k

Mesmo sabendo-se que a populao consiste de k grupos, dependendo do mtodo de amostragem, pode no aparecer na amostra os dados provenientes de um grupo mais raro
Forar k grupos levaria a clusters sem sentido
Em casos em que o algoritmo requer o uso de um valor especificado de k, sempre uma boa idia executar novamente o algoritmo para diversas escolhas de k
41
Referncias
Bibliografia Recomendada
JOHNSON, R. A.; WINCHERN, D. W. Applied Multivariate Statistical Analysis. Prentice Hall, 1998 MINGOTI, D.C. Anlise de Dados atravs de Mtodos de Estatstica Multivariada. Ed. UFMG, 2005. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Anlise de Dados Multivariados. Cengage, 2011.
42

05 Clustering

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

05 Clustering

Enviado por

Direitos autorais:

Formatos disponíveis

Anlise Multivariada

Luprcio Frana Bessegato

Procurar por uma estrutura de grupos naturais dos dados

Natureza das variveis

(discreta, contnua, binria) (nominal, ordinal, intervalar, razo)

Escala das medidas

Agrupamentos de itens (unidades ou casos)

Distncias para Pares de Itens

Distncia generalizada ou ponderada:

A matriz de ponderao positiva definida A = S1 (distncia de Mahalanobis)

No podem ser calculadas sem conhecimento prvio dos grupos

Se A = I (distncia Euclidiana) Se A = diagonal(1/p) (distncia Euclidiana mdia)

Mtricas para Variveis No-Negativas

Itens representados por medidas qualitativas

Para j = 1, 2, ..., p, sejam:

Item k 1 Item i 1 0 Total a c a+c 0 b d b+d Total a+b c+d p=a+b+c+d

O significado das palavras muda ao longo da histria

Uma primeira comparao de lnguas poderia ser baseada nos numerais

English Norwegian Danish (E) (N) (D)

Comparao das lnguas pela 1. letra dos nmeros

Nmeros concordantes: tem a mesma 1. letra Nmeros discordantes: caso contrrio

Ingls e Noruegus 1.s letras: 8 em 10 Ingls, noruegus, dinamarqus, holands e alemo

aparentam formar um grupo podem ser agrupados

Francs, espanhol, italiano e polons

Hngaro e filands parecem estar sozinhos

Mtodos de Agrupamentos Hierrquicos

Raramente podemos examinar possibilidades de agrupamentos

H algoritmos de agrupamento que no tm de verificar todas as configuraes

Tcnicas de Agrupamento Hierrquicas

Em geral, so usadas em anlises exploratrias dos dados com o objetivo de:

identificar possveis agrupamentos estimar o valor provvel do nmero de grupos g

Mtodos Hierrquicos Aglomerativos

Cada elemento constitui um cluster de tamanho 1

Uma vez unidos, estes elementos no podero ser separados

Dendograma (ou Dendrograma):

Representa a rvore (ou histria) do agrupamento

Medida de similaridade (ou distncia) entre 2 conglomerados

Mtodo de Ligao Simples (Single Linkage):

distncia mnima ou vizinho mais prximo

C1 = {X1, X2} e C2 = {X3, X4, X5}

Exemplo 12.4 1 Matriz de Distncias (D): 1 0

Os resultados intermedirios so o principal interesse

Numerais em 11 lnguas (continuao 12.2)

Menores distncias entre pares de lnguas:

d(D,N)=1; d(I,F) = 1; d(I,S)=1 Como d(F,S) = 2, podemos fundir apenas IF ou IS

Anlise de Aglomerado Ligao Simples

Cluster Analysis of Observations: M1

Mtodo de Ligao Completa (Complete Linkage):

distncia mxima ou vizinho mais distante

C1 = {X1, X2} e C2 = {X3, X4, X5}

Mtodo da Mdia das Distncias (AverageLinkage):

cada membro do par pertence a grupos diferentes

C1 = {X1, X2} e C2 = {X3, X4, X5}

n1: quantidade de elementos do cluster 1 n2: quantidade de elementos do cluster 2.

cada membro do par pertence a grupos diferentes

C1 = {X1, X2} e C2 = {X3, X4, X5}

Dados 6 indivduos de uma comunidade:

Agrupamento pelo mtodo do centride

Matriz de distncias Euclidianas:

d(Ci, Cj) a soma de quadrados entre os clusters Ci e Cj

ni nj/(ni + nj) penalizam as comparaes (maiores grupos maiores distncias

Para o clculo do vetor de mdias No depende de se conhecer a distribuio da populaco

Dados 6 indivduos de uma comunidade:

Agrupamento pelo mtodo de Ward