Escolar Documentos
Profissional Documentos
Cultura Documentos
Roteiro
1. 2. 3. 4. 5. 6. 7.
Introduo Vetores Aleatrios Normal Multivariada Componentes Principais Anlise Fatorial Anlise de Agrupamentos Referncias
Anlise de Agrupamentos
Anlise de Agrupamentos
Objetivo bsico:
Descobrir agrupamentos naturais dos itens (ou variveis)
Mesmo sem noo precisa de um agrupamento natural, em geral, somos capazes de agrupar visualmente objetos em grficos
So necessrios:
Medidas de similaridade (ou distncia) Desenvolvimento de escala quantitativa para medir associao (similaridade) entre os dados Algoritmos para ordenar objetos em grupos
Medidas de Similaridade H muita subjetividade na escolha de uma medida de similaridade Consideraes importantes:
Agrupamento de variveis:
Usualmente so agrupadas com base em coeficientes de correlao ou medidas de associao
Sejam as observaes:
x = [x1, x2, ..., xp] e y = [y1, y2, ..., yp]
Distncia Euclidiana:
Mtrica de Minkowski:
wi: peso de ponderao para as variveis m = 1, d(x, y) mede distncia city block ou Manhatan m = 2, d(x, y) a distncia Euclidiana variar m muda a ponderao dada a diferenas maiores ou menores A mtrica de Minkowski menos afetada pela presena de valores discrepantes na amostra do que a distncia Euclidiana.
Mtrica de Camberra:
Mtrica de Czekanowski:
Distncia
Qualquer medida de distncia d(P, Q) entre dois pontos P e Q vlida, desde que satisfaa as seguintes propriedades. R um ponto intermedirio:
d(P, Q) = d(Q, P) d(P, Q) > 0 se P Q d(P, Q) = 0 se P = Q d(P, Q) d(P, R) + d(R, Q) desigualdade triangular
A distncia Euclidiana a contagem das discordncias Grandes distncias correspondem a muitas discordncias Essa medida de similaridade pondera igualmente concordncias e discordncias
No exemplo:
X1 Item i Item j 1 1 X2 0 1 X3 0 0 X4 1 1 X5 1 0
Muitas vezes uma concordncia 11 uma indicao mais forte de similaridade que uma concordncia 00
Coeficientes de Similaridade H vrios esquemas para definir coeficientes de similaridade: Seja a tabela de contingncia abaixo:
Exemplo 12.2
Numerais em 11 lnguas
Dutch (Du)
een twee drie vier vijf zes zeven acht negen tien
German (G)
eins zwei drei vier funf sechs sieben acht neun zehn
French (F)
un deux trois quatre cinq six sept huit neuf dix
Spanish (S)
uno dos tres cuatro cinco seis siete ocho nueve diez
Italian (I)
uno due tre quattro cinque sei sette otto nove dieci
Polish (P)
jeden dwa trzy cztery piec szesc siedem osiem dziewiec dziesiec
Hungarian (H)
egy ketto harom negy ot hat het nyolc kilenc tiz
Finnish (F)
yksi kaksi kolme neua viisi kuusi seitseman kahdeksan yhdeksan kymmenen
E N D Du G F S I P H F
E 10 8 8 3 4 4 4 4 3 1 1
N 10 9 5 6 4 4 4 3 2 1
Du
10 4 5 4 5 5 4 2 1
10 5 1 1 1 0 2 1
10 3 3 3 2 1 1
10 8 9 5 0 1
10 9 7 0 1
10 6 0 1
10 0 1
10 2
10
todas
as
Tcnicas Hierrquicas:
Aglomerativas Divisivas
Tcnicas No-Hierrquicas:
necessrio que o valor do nmero de grupos j esteja pr-especificado pelo pesquisador
Em cada estgio do algoritmo os pares de conglomerados mais similares so combinados (novo conglomerado)
Em cada estgio do processo, o nmero de conglomerados vai sendo diminudo
3.
Propriedade de Hierarquia:
Em cada estgio do algoritmo, cada novo conglomerado formado um agrupamento de conglomerados formados nos estgios anteriores
Se 2 elementos aparecem juntos em algum estgio do processo, eles aparecero juntos em todos os estgios subsequentes
4.
Escala Vertical: nvel de similaridade (ou dissimilaridade) Eixo Horizontal: elementos amostrais na ordem relacionada histria do agrupamento
Mtodos de Agrupamentos
Em cada estgio do processo de agrupamento os dois conglomerados que so mais similares (mais prximos) so combinados em um nico cluster.
2 0 7 5 10
0 9 2
0 8
d(35, 1) = min{d(3, 1), d(5, 1)} = min{3, 11} =3 d(35, 2) = min{d(3, 2), d(5, 2)} = min{7, 10} =7 d(35, 4) = min{d(3, 4), d(5, 4)} = min{9, 8} =8
cluster (135)
d(135, 2) = min{d(35, 2), d(1, 2)} = min{7, 9} = 7 d(135, 4) = min{d(35, 4), d(1, 4)} = min{8, 6} = 6
cluster (1354)
d(1354,2) = d(135, 2) = 7
Dendograma:
Exemplo 12.5
E N D Du G F S I P H F
0 5 9 9 9 10 8 9
0 7 7 7 8 9 9
0 2 1 5 10 9
0 1 3 10 9
0 4 10 9
0 10 9
0 8
10
Step 1 2 3 4 5 6 7 8 9 10
Number of clusters 10 9 8 7 6 5 4 3 2 1
Similarity level 90 90 90 80 70 60 50 50 20 20
Distance level 1 1 1 2 3 4 5 5 8 8
Clusters joined 7 8 6 7 2 3 1 2 6 9 1 5 1 6 1 4 10 11 1 10
New cluster 7 6 2 1 6 1 1 1 10 1
Noruegus(2) + dinamarqus (3); francs(6) + espanhol(7) + Italiano(8) aglomeram-se na mnima distncia No prximo passo o ingls (1) adicionado ao grupo ND Hngaro (10) e finlands (11) so mais similares um com o outro que com outros clusters
Em cada estgio, a distncia (similaridade) entre os clusters determinada pela distncia (similaridade) entre os dois elementos, em cada cluster, que so mais distantes.
11
Garante que todos os itens em cada cluster esto com a mxima distncia (mnima similaridade) entre eles.
Podem ser usadas distncias ou similaridades Pode ser usado para agrupar variveis e itens Mudanas na atribuio de distncias (similaridade) podem afetar o arranjo da configurao final de clusters, mesmo que as alteraes preservem as ordenaes relativas.
12
Mtodo do Centride:
Distncia entre dois grupos definida como sendo a distncia entre os vetores de mdias (centrides)
mtodo direto e simples, mas em cada passo necessrio retornar aos dados originais para o clculo da matriz de distncias
exige mais tempo computacional
No pode ser usado em situaes em que se dispes apenas da matriz de distncias entre os n elementos amostrais
Ao contrrio dos mtodos simple, complete e average linkage
Quanto maior a quantidade de elementos amostrais (n) e de variveis (p), menor a chance de empates entre valores da matriz de distncias
Exemplo
13
Histrico do agrupamento:
Passo 1 2 3 4 5 g 5 4 3 2 1 Fuso {A} e {B} {C} e {F} {A,B} e {E} {A,B,E} e {C,F} {A,B,E,C,F} e {D} Distncia (nvel) 3,23 4,12 6,80 13,81 12,91
o nvel de fuso do passo 5 foi menor que do passo 4 Isso poder ocorrer no mtodo do centride quando, em algum passo do algoritmo, houver empates entre valores da matriz de distncias D Quanto maior for o tamanho amostral e de variveis, menor ser a chance de ocorrncia desta situao
Mtodo de Ward
Objetivo do procedimento:
Minimizar a perda de informao ao juntar 2 grupos
Partio desejada:
A que produz os grupos mais heterogneos entre si, com elementos homogneos dentro de cada grupo
Fundamento do mtodo:
Em cada passo do agrupamento h mudana de variao entre os grupos e dentro dos grupos Procedimento tambm denominado de mnima varincia
14
Mtodos anteriores:
quando se passa de (n k) para (n k 1) grupos o nvel de fuso aumenta (nvel de similaridade decresce) e a qualidade da partio decresce. Variao entre grupos diminui e a variao dentro dos grupos a
Procedimento
1.
Cada elemento considerado um nico cluster; 2. Em cada passo calcula-se a soma da distncia Euclidiana dentro dos grupos:
SSR: soma dos quadrados total (dentro) dos grupos gk: nmero de grupos no passo k SSi: soma dos quadrados do cluster i
SSi: soma dos quadrados do cluster i ni: quantidade de elementos do cluster Ci (passo k) Xij: vetor de observaes do j-simo elemento amostral que pertence ao i-simo conglomerado Xi: centride do cluster i
15
3.
Em cada passo do algoritmo, combinam-se os dois conglomerados que minimizam a distncia entre os conglomerados Ci e Cj, definida como:
Comentrios:
Em cada passo, o mtodo combina os dois conglomerados que resultam no menor valor de SSR Prova-se que d(Ci, Cj) a diferena entre o valor de SSR depois e antes de se combinar os clusters Ci e Cj. Os mtodos de Ward e do centride usam o vetor de mdias amostrais como representantes da informao global dos conglomerados em cada passo do processo de agrupamento A distncia considera a diferena dos tamanhos dos conglomerados na comparao
O mtodo do centride no tem qualquer ponderao em relao ao tamanho dos clusters Para usar o mtodo de Ward basta que as variveis sejam quantitativas
Sob certas condies, h uma relao entre o mtodo de Ward e o mtodo de mxima verossimilhana
Se a distribuio das variveis for normal p-variada
16
O mtodo de Ward baseia-se na noo de que espera-se que os clusters de observaes multivariadas tenham forma aproximadamente elptica um precursor de mtodos de aglomerao nohierrquicos
Otimizam algum critrio para dividir os dados em um nmero determinado de grupos elpticos
Exemplo
Histrico do agrupamento:
Passo 1 2 3 4 5 g 5 4 3 2 1 Fuso {A} e {B} {C} e {F} {A,B} e {E} {C,F} e {D} {A,B,E} e {C,F,D} Distncia (nvel) 3,23 4,12 8,21 17,61 26,64
17
Os grupos finais foram os mesmos obtidos com o mtodo do centride No houve inverso
Agrupamento de 109 marcas de scotch de diferentes destilarias 68 variveis binrias para medir as caractersticas do whiskey
relacionadas com: cor, corpo,aroma, etc.
Objetivos:
Determinar os principais tipos de whiskies Determinas suas principais caractersticas Saber se os grupos correspondem a diferentes regies
Apia a hiptese de que os whiskies so afetados por fatores geogrficos (gua, solo, microclima, temperatura, etc)no apenas pela extertise das destilarias.
18
Mtodos Hierrquicos Comentrios Finais Fontes de erros e de variao no so formalmente considerados nos procedimentos hierrquicos
Significa que esses mtodos so sensveis a outliers ou pontos de perturbao
recomendado tentar vrios mtodos de agrupamento e de atribuio de distncias (similaridades) Empates na matriz de distncias podem produzir mltiplas solues ao problema de agrupamento hierrquico A maioria dos mtodos produz clusters esfricos ou elpticos
O mtodo de ligao simples um dos poucos mtodos que pode delinear cluster no-elpticos
Tem a capacidade de gerar estruturas geomtricas diferentes Tem a tendncia de formar strings longas (chaining) Entretanto, ele incapaz de perceber grupos pouco separados
19
Os clusters formados pelo mtodo de ligao simples no sero modificados por qualquer atribuio de distncia (similaridade) que d as mesmas ordenaes relativas
Em particular, qualquer um dos coeficientes de similaridade monotnicos (Tabela 12.2)
O mtodo da mdia das distncias tende a produzir conglomerados de aproximadamente mesma varincia interna
Em geral, produz melhores parties que os mtodos de ligao simples e completa
Os mtodos de ligao simples, completa e da mdia podem ser utilizados tanto para variveis quantitativas quanto para variveis qualitativas Os mtodos do centride e de Ward so apropriados apenas para variveis quantitativas
O mtodo de Ward tende a produzir grupos com aproximadamente o mesmo nmero de elementos e tem como base principal os princpios de anlise de varincia Com um nmero maior de dados amostrais (n) ou de variveis (p), necessariamento no ir ocorrer a igualdade das solues apresentadas pelos vrios mtodos
Espera-se sempre que haja uma certa consistncia entre as solues obtidas por mtodos diferentes
20
Problema de agrupamento:
Como escolher o nmero final (g) de grupos que define a partio do conjunto de dados? Qual o passo k em que o algoritmo de agrupamento deve ser interrompido?
Nvel de similaridade:
max(drs): maior distncia entre os n elementos amostrais na matriz de distncias Dnxn do incio do processamento
21
Procura-se detectar pontos em que haja um decrescimento acentuado na similaridade dos conglomerados unidos
indicam a interrupo do algoritmo de agrupamento nmero final de clusters (g) est relacionado com o estgio em que o algoritmo foi interrompido
Em geral, a escolha de valores de similaridade acima de 90% leva a um nmero de grupos muito elevado
Xij = (Xi1,j, Xi2,j, ..., Xip,j) vetor de medidas observadas para o j-simo elemento amostral do i-simo grupo Xi. = (Xi1., Xi2., ..., Xip.) vetor de mdias do i-simo grupo (sem considerar partio) X = (X.1, X.2, ..., X.p)
Soma dos quadrados total corrigida para a mdia global em cada varivel
22
Coeficiente R2 da partio: Quanto maior o valor de R2, maior ser a soma de quadrados entre grupos e menor ser a soma de quadrados residual SSR Procedimento para escolha de g
Grfico do passo do agrupamento vs. R2 Procurar identificar algum ponto de salto relativamente grande em relao aos demais
indica momento ideal da parada
Grfico sempre decrescente maior valor de g*, menor a variabilidade interna dos grupos e maior ser o valor de R2
mximo R2 = 1 (para g* = n)
Estratgia:
Definir uma regio de valores plausveis para o nmero de grupos g Utilizar o critrio 3 dentro da regio estabelecida
Idia do teste:
Em cada passo do agrupamento estaria sendo feito um teste F de anlise de varincia Na prtica, no ocorre alocao aleatria A maioria dos mtodos usa mtodos de agrupamento com critrios determinsticos para partio dos dados
Importante:
23
Se os elementos amostrais so provenientes de uma distribuio normal p-variada e quando os elementos so alocados aleatoriamente nos grupos F ~ Fp(g* 1) , p(n g*) Se F monotonicamente crescente com g*, os dados sugerem que no h qualquer estrutura natural de partio dos dados Se F apresentar um valor mximo, o nmero de conglomerados corresponder partio ideal
Busca-se partio com maior heterogeneidade dos grupos valor relacionado com a menor probabilidade de significncia do teste Estaria rejeitando a igualdade de vetores de mdias populacionais com maior significncia
Calcula-se SPR2 em cada passo Grfico passo vs. SPR2 Busca-se no grfico salto consideravelmente maior que os restantes Ponto indica partio ideal (parada do algoritmo de agrupamento)
24
A funo SPR2 no decrescente Se o agrupamento dos dados foi feito pelo mtodo de Ward, o critrio do coeficiente de correlao semiparcial equivaler aplicao do critrio 1.
Teste de comparao de mdia de dois grupos, unidos para formar novo grupo
O valor de g correspondente ao mximo (ou aquele imediatamente anterior) escolhido como o nmero provvel de grupos da partio final Busca-se o maior valor de T2
aquele relacionado com a menor probabilidade de significncia (Rejeita a igualdade dos vetores de mdia com maior significncia) Se a igualdade entre os vetores de mdias rejeitada, os dois clusters deveriam ser unidos para formar um nico agrupamento
25
Exemplo 6.8 Mingoti, 2005 Dados relativos a 21 pases (ONU, 2002) Variveis:
Expectativa de vida Educao Renda (PIB) Estabilidade poltica e de sergurana
Minitab
Cluster Analysis of Observations: ndice de Ex; ndice de Ed; ndice PIB; ...
Squared Euclidean Distance, Ward Linkage Amalgamation Steps Number of obs. in new cluster 2 2 2 4 2 3 2 3 5 2 2 8 2 5 3 3 5 8 16 21
Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Number of clusters 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Similarity level 99,995 99,966 99,934 99,923 99,821 99,613 99,510 99,462 99,377 98,999 98,963 98,622 97,997 97,535 94,602 92,489 88,114 71,202 1,220 -159,594
Distance level 0,0006 0,0042 0,0081 0,0095 0,0219 0,0473 0,0598 0,0657 0,0761 0,1221 0,1266 0,1681 0,2445 0,3008 0,6587 0,9166 1,4505 3,5145 12,0549 31,6803
Clusters joined 2 3 1 6 4 5 2 4 12 21 1 9 16 19 8 12 2 7 10 14 15 17 1 2 11 13 8 10 15 18 16 20 11 15 8 16 1 8 1 11
New cluster 2 1 4 2 12 1 16 8 2 10 15 1 11 8 15 16 11 8 1 1
Final Partition Number of clusters: 1 Average distance from centroid 0,987565 Maximum distance from centroid 2,2069
Cluster1
Number of observations 21
26
Pseudo F 4520,0 1193,0 705,0 576,0 388,0 241,0 183,0 158,0 143,0 123,0 115,0 107,0 98,4 93,5 77,8 68,8 62,5 50,5 30,3
SP R 0,0000 0,0001 0,0002 0,0002 0,0004 0,0009 0,0012 0,0013 0,0015 0,0024 0,0025 0,0033 0,0047 0,0058 0,0128 0,0178 0,0281 0,0682 0,2339 0,6148
Pseudo T
CCC
0,7660
0,8140
0,6740
0,3380
0,5060
0,5900
0,4940
-1,3660
0,3400
0,3633
0,3767
-0,3433
Todos
0,6881
0,7495
0,6776
0,1580
27
Grande diferena de comportamento dos grupos 1 e 2 em relao aos grupos 3 e 4 Grupo 1 o de maior estabilidade e o grupo 3 de menor
Tcnicas Hierrquica e Seleo de Variveis Os mtodos hierrquicos podem ser teis na seleo das variveis mais importantes na caracterizao de determinada situao Mtodos de ligao simples, completa e da mdia
necessria apenas matriz inicial que represente proximidade (ou similaridade) entre os elementos amostrais necessrio escolher uma matriz inicial que represente o relacionamento dessas variveis
Interesse: agrupar as variveis mais similares entre si (separar aquelas com informaes diferenciadas)
28
Exemplo
X4
X5
X6
X1
X2 X3 X4 X5 X6
0 0,40 0,62 0,68 0,28 0 0,57 0,60 0,55 0 0,50 0,42 0 0,70 0
X3
X4
X5
X6
No passo 3
C1 = {X2, X6, X3, X4} C2 = {X1} C3 = {X5}
Suponha escolher 3 dentre as 6 variveis: X1 X5 Uma das variveis de C1
Medidas de categricas:
similaridade
para
variveis
Outros Coeficientes:
Podem-se desenvolver medidas de associao (similaridade) anlogos aos coeficientes estabelecidos anteriormente (Tabela 12.2) Troca-se p por n.
29
Variveis Binrias:
Os dados podem ser agrupados na forma de tabela de contingncia Para cada par de variveis, h n itens categorizados na tabela
Varivel k 1 Varivel i 1 0 Total a c a+c 0 b d b+d Total a+b c+d n=a+b+c+d
Correlao Momento-Produto
Pode ser tomado como medida de similaridade entre as duas variveis r est relacionado com a estatstica 2 para teste de independncia entre duas variveis categricas
Para n fixo, uma correlao (similaridade) grande consistente com a ausncia de independncia
Comentrios
30
X1: renda/dvidas X2: taxa de retorno de capitais X3: custo por capacidade instalada (kW) X4: fator de carga anual X5: pico de demanda (crescimento ltimo ano) X6: Vendas (kWh por ano) X7: participao nucleares (%) X8: custo total de combustvel ($ por kWh)
Dados: BD_multivariada.xls/public_utilities
Matriz de correlaes:
Correlations: X1; X2; X3; X4; X5; X6; X7; X8
X2 X3 X4 X5 X6 X7 X8 X1 0,643 -0,103 -0,082 -0,259 -0,152 0,045 -0,013 X2 -0,348 -0,086 -0,260 -0,010 0,211 -0,328 X3 0,100 0,435 0,028 0,115 0,005 X4 X5 X6 X7
-0,374 -0,561
-0,185
Minitab
31
Variveis: (1,2), (4,8), (3,5) aglomeram-se a um nvel intermedirio Variveis 7 e 6 permanecem isoladas at os estgios finais Agrupamento final:
(12478) e (356)
Objetivo:
Encontrar diretamente uma partio de n elementos em k grupos Requisitos:
Se em um passo do algoritmo, dois elementos tiverem sido colocados em um mesmo grupo, no significa que estaro juntos na partio final No mais possvel a construo de dendogramas
32
Tem maior capacidade de analisar grande nmero de dados A matriz de distncia no tem de ser calculada e os dados bsicos no precisam ser armazenados durante a execuo do procedimento Mtodos hierrquicos so mais adequados para agrupar itens que variveis
Iniciam-se:
1. partio inicial de itens em grupos 2. conjunto inicial de sementes que formaro o ncleo dos clusters
33
Mtodo das k-Mdias Provavelmente, um dos mais conhecidos e mais utilizados Idia Bsica:
Cada elemento amostral alocado quele cluster cujo centride o mais prximo do elemento
Passos do Procedimento
1.
2.
3.
Clculo dos novos centrides para cada grupo formado no passo (2)
Repetio do passo (2), considerando os novos valores dos centrides
4.
Os passos (2) e (3) so repetidos at que todos os elementos amostrais estejam bem alocados em seus grupos
Bem alocados = no necessria realocao de elementos
34
Exemplo 12.12
Dividir em k = 2 grupos de maneira que os itens de um cluster sejam os mais prximos um dos outros e que estejam distantes em clusters diferentes
Implementao:
Partio arbitrria em 2 clusters: (AB) e (CD) _ _ Clculo das coordenadas (x1, x2) dos centrides:
Cluster AB CD
x1
2 1
x2
2 2
BCD d(A,BCD) = (5+1) + (3+1) = 52 d(B,BCD) = (-1+1) + (1+1) = 4 d(C,BCD) = (1+1) + (-2+1) = 5 d(D,BCD) = (-3+1) + (-2+1) = 5
2 2 2 2 2 2 2 2
35
Agrupamento Final (k = 2)
A e (BCD)
Comentrios:
Para verificar a estabilidade da soluo recomendvel reiniciar o algoritmo com uma nova partio inicial Uma tabela de centrides e das varincias dentro dos grupos auxilia a delinear as diferenas entre os grupos
Selecionar m amostras aleatrias, constitudas de k sementes Clculo do vetor de mdias das k sementes selecionadas para cada grupo Esses vetores constituem os centrides de inicializao do processo de agrupamento das k-mdias
36
Divide-se o domnio da varivel em k intervalos A semente inicial ser o centride de cada intervalo
valores
37
Exemplo 7.1 Mingoti, 2005 Continuao Ex. 6.8 Dados relativos a 21 pases (ONU, 2002) Variveis:
Expectativa de vida Educao Renda (PIB) Estabilidade poltica e de sergurana
Partio final:
a mesma obtida anteriormente
Grupos (SQ) 1 (0,157) n1 = 8 2 (0,255) n2 = 5 3 (1,240) n3 = 5 4 (0,488) n4 = 3 Global n = 21 Pases Austrlia, Canad, Cingapura, Estados Unidos, Frana, Japo Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito Angola, Colmbia, Nigria, Paraguai, Serra Leoa Mdia Expectativa Educao PIB de vida 0,8838 0,9538 0,9075 Estabilidade poltica 1,1850
0,7660
0,8140
0,6740
0,3380
0,5060
0,5900
0,4940
-1,3660
0,3400
0,3633
0,3767
-0,3433
Todos
0,6881
0,7495
0,6776
0,1580
38
0,6783
0,7400
0,6271
0,3150
0,4729
0,5243
0,4626
-1,1514
0,8800
0,8700
0,9100
1,4100
Todos
0,6881
0,7495
0,6776
0,1580
Cingapura foi separada do cluster 1 Moambique deslocado para grupo do Brasil Grupo da Colmbia acrescido de Etipia e Senegal
39
K-means Cluster Analysis: ndice de Ex; ndice de Ed; ndice PIB; Estabilidade
Minitab:
Final Partition Number of clusters: 4 Within cluster sum of squares 2,188 0,000 0,091 0,748 Average distance from centroid 0,528 0,000 0,105 0,308 Maximum distance from centroid 0,856 0,000 0,204 0,641
Number of observations 7 1 7 6
Cluster Centroids Variable ndice de Expectativa de vida ndice de Educao ndice PIB Estabilidade_poltica_violncia Variable ndice de Expectativa de vida ndice de Educao ndice PIB Estabilidade_poltica_violncia Cluster1 0,4729 0,5243 0,4629 -1,1514 Grand centroid 0,6881 0,7495 0,6776 0,1576 Cluster2 0,8800 0,8700 0,9100 1,4100 Cluster3 0,8843 0,9657 0,9071 1,1529 Cluster4 0,6783 0,7400 0,6217 0,3150
Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster1 0,0000 2,6545 2,4231 1,5048 Cluster2 2,6545 0,0000 0,2744 1,1575 Cluster3 2,4231 0,2744 0,0000 0,9364 Cluster4 1,5048 1,1575 0,9364 0,0000
DF 3 17 20
MS 0,2325 0,0322
F 7,22
P 0,002
Clculo R2:
0,917 0,883
40
Comentrios Finais
Em casos em que o algoritmo requer o uso de um valor especificado de k, sempre uma boa idia executar novamente o algoritmo para diversas escolhas de k
41
Referncias
Bibliografia Recomendada
JOHNSON, R. A.; WINCHERN, D. W. Applied Multivariate Statistical Analysis. Prentice Hall, 1998 MINGOTI, D.C. Anlise de Dados atravs de Mtodos de Estatstica Multivariada. Ed. UFMG, 2005. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Anlise de Dados Multivariados. Cengage, 2011.
42