Você está na página 1de 42

Anlise Multivariada

Luprcio Frana Bessegato


Dep. Estatstica/UFJF

Roteiro
1. 2. 3. 4. 5. 6. 7.

Introduo Vetores Aleatrios Normal Multivariada Componentes Principais Anlise Fatorial Anlise de Agrupamentos Referncias

Anlise de Agrupamentos

Anlise de Agrupamentos

Procurar por uma estrutura de grupos naturais dos dados


uma importante tcnica exploratria

Objetivo bsico:
Descobrir agrupamentos naturais dos itens (ou variveis)

Mesmo sem noo precisa de um agrupamento natural, em geral, somos capazes de agrupar visualmente objetos em grficos

So necessrios:
Medidas de similaridade (ou distncia) Desenvolvimento de escala quantitativa para medir associao (similaridade) entre os dados Algoritmos para ordenar objetos em grupos

Medidas de Similaridade H muita subjetividade na escolha de uma medida de similaridade Consideraes importantes:

Natureza das variveis

(discreta, contnua, binria) (nominal, ordinal, intervalar, razo)

Escala das medidas

Agrupamentos de itens (unidades ou casos)


Proximidade usualmente indicada por algum tipo de distncia

Agrupamento de variveis:
Usualmente so agrupadas com base em coeficientes de correlao ou medidas de associao

Distncias para Pares de Itens


Sejam as observaes:
x = [x1, x2, ..., xp] e y = [y1, y2, ..., yp]

Distncia Euclidiana:

Distncia generalizada ou ponderada:

A matriz de ponderao positiva definida A = S1 (distncia de Mahalanobis)

No podem ser calculadas sem conhecimento prvio dos grupos

Se A = I (distncia Euclidiana) Se A = diagonal(1/p) (distncia Euclidiana mdia)

Mtrica de Minkowski:

wi: peso de ponderao para as variveis m = 1, d(x, y) mede distncia city block ou Manhatan m = 2, d(x, y) a distncia Euclidiana variar m muda a ponderao dada a diferenas maiores ou menores A mtrica de Minkowski menos afetada pela presena de valores discrepantes na amostra do que a distncia Euclidiana.

Mtricas para Variveis No-Negativas

Mtrica de Camberra:

Mtrica de Czekanowski:

Distncia

Qualquer medida de distncia d(P, Q) entre dois pontos P e Q vlida, desde que satisfaa as seguintes propriedades. R um ponto intermedirio:
d(P, Q) = d(Q, P) d(P, Q) > 0 se P Q d(P, Q) = 0 se P = Q d(P, Q) d(P, R) + d(R, Q) desigualdade triangular

Itens representados por medidas qualitativas


os pares de itens so frequentemente comparados com base na presena ou ausncia de certas caractersticas Itens similares tm mais caractersticas comuns que os itens dissimilares Presena ou ausncia de caracterstica descrita por varivel indicadora (binria):
X1 Item i Item j 1 1 X2 0 1 X3 0 0 X4 1 1 X5 1 0

Para j = 1, 2, ..., p, sejam:


xij: escore da j-sima varivel do i-simo item xkj: escore da j-sima varivel do k-simo item

A distncia Euclidiana a contagem das discordncias Grandes distncias correspondem a muitas discordncias Essa medida de similaridade pondera igualmente concordncias e discordncias

No exemplo:
X1 Item i Item j 1 1 X2 0 1 X3 0 0 X4 1 1 X5 1 0

Muitas vezes uma concordncia 11 uma indicao mais forte de similaridade que uma concordncia 00

Coeficientes de Similaridade H vrios esquemas para definir coeficientes de similaridade: Seja a tabela de contingncia abaixo:

Item k 1 Item i 1 0 Total a c a+c 0 b d b+d Total a+b c+d p=a+b+c+d

Exemplo 12.2

O significado das palavras muda ao longo da histria


O significado dos nmeros constitui uma exceo

Uma primeira comparao de lnguas poderia ser baseada nos numerais

Numerais em 11 lnguas
Dutch (Du)
een twee drie vier vijf zes zeven acht negen tien

English Norwegian Danish (E) (N) (D)


one two three four five six seven eight nine tem en to tre fire fem seks sju atte ni ti en to tre fire fem seks syv otte ni ti

German (G)
eins zwei drei vier funf sechs sieben acht neun zehn

French (F)
un deux trois quatre cinq six sept huit neuf dix

Spanish (S)
uno dos tres cuatro cinco seis siete ocho nueve diez

Italian (I)
uno due tre quattro cinque sei sette otto nove dieci

Polish (P)
jeden dwa trzy cztery piec szesc siedem osiem dziewiec dziesiec

Hungarian (H)
egy ketto harom negy ot hat het nyolc kilenc tiz

Finnish (F)
yksi kaksi kolme neua viisi kuusi seitseman kahdeksan yhdeksan kymmenen

Comparao das lnguas pela 1. letra dos nmeros


Nmeros concordantes: tem a mesma 1. letra Nmeros discordantes: caso contrrio

E N D Du G F S I P H F

E 10 8 8 3 4 4 4 4 3 1 1

N 10 9 5 6 4 4 4 3 2 1

Du

10 4 5 4 5 5 4 2 1

10 5 1 1 1 0 2 1

10 3 3 3 2 1 1

10 8 9 5 0 1

10 9 7 0 1

10 6 0 1

10 0 1

10 2

10

Ingls e Noruegus 1.s letras: 8 em 10 Ingls, noruegus, dinamarqus, holands e alemo

aparentam formar um grupo podem ser agrupados

Francs, espanhol, italiano e polons

Hngaro e filands parecem estar sozinhos

Mtodos de Agrupamentos Hierrquicos

Raramente podemos examinar possibilidades de agrupamentos

todas

as

H algoritmos de agrupamento que no tm de verificar todas as configuraes

Tcnicas de Agrupamento Hierrquicas


Procedimentos que realizam uma srie de sucessivas fuses (ou uma srie de sucessivas divises)

Tcnicas Hierrquicas:
Aglomerativas Divisivas

Em geral, so usadas em anlises exploratrias dos dados com o objetivo de:


identificar possveis agrupamentos estimar o valor provvel do nmero de grupos g

Tcnicas No-Hierrquicas:
necessrio que o valor do nmero de grupos j esteja pr-especificado pelo pesquisador

Mtodos Hierrquicos Aglomerativos


1. 2.

Cada elemento constitui um cluster de tamanho 1


H n clusters

Em cada estgio do algoritmo os pares de conglomerados mais similares so combinados (novo conglomerado)
Em cada estgio do processo, o nmero de conglomerados vai sendo diminudo

3.

Propriedade de Hierarquia:
Em cada estgio do algoritmo, cada novo conglomerado formado um agrupamento de conglomerados formados nos estgios anteriores

Se 2 elementos aparecem juntos em algum estgio do processo, eles aparecero juntos em todos os estgios subsequentes

Uma vez unidos, estes elementos no podero ser separados

4.

Dendograma (ou Dendrograma):

Representa a rvore (ou histria) do agrupamento


Escala Vertical: nvel de similaridade (ou dissimilaridade) Eixo Horizontal: elementos amostrais na ordem relacionada histria do agrupamento

Mtodos de Agrupamentos

Medida de similaridade (ou distncia) entre 2 conglomerados

Mtodo de Ligao Simples (Single Linkage):


Similaridade entre dois conglomerados definida pelos dois elementos mais parecidos entre si

distncia mnima ou vizinho mais prximo

C1 = {X1, X2} e C2 = {X3, X4, X5}

Em cada estgio do processo de agrupamento os dois conglomerados que so mais similares (mais prximos) so combinados em um nico cluster.

Exemplo 12.4 1 Matriz de Distncias (D): 1 0


min{dik} = d(5,3) = 2 cluster (35)
2 3 4 5 9 3 6 11

2 0 7 5 10

0 9 2

0 8

d(35, 1) = min{d(3, 1), d(5, 1)} = min{3, 11} =3 d(35, 2) = min{d(3, 2), d(5, 2)} = min{7, 10} =7 d(35, 4) = min{d(3, 4), d(5, 4)} = min{9, 8} =8

cluster (135)
d(135, 2) = min{d(35, 2), d(1, 2)} = min{7, 9} = 7 d(135, 4) = min{d(35, 4), d(1, 4)} = min{8, 6} = 6

cluster (1354)
d(1354,2) = d(135, 2) = 7

Dendograma:

Os resultados intermedirios so o principal interesse

Exemplo 12.5

E N D Du G F S I P H F

Numerais em 11 lnguas (continuao 12.2)


E 0 2 2 7 6 6 6 6 7 9 9 N 0 1 5 4 6 6 6 7 8 9 D Du G F S I P H F 0 6 5 6 5 5 6 8 9

0 5 9 9 9 10 8 9

0 7 7 7 8 9 9

0 2 1 5 10 9

0 1 3 10 9

0 4 10 9

0 10 9

0 8

Menores distncias entre pares de lnguas:


d(D,N)=1; d(I,F) = 1; d(I,S)=1 Como d(F,S) = 2, podemos fundir apenas IF ou IS

10

Anlise de Aglomerado Ligao Simples

Cluster Analysis of Observations: M1


Single Linkage Amalgamation Steps Number of obs. in new cluster 2 3 2 3 4 4 8 9 2 11

Step 1 2 3 4 5 6 7 8 9 10

Number of clusters 10 9 8 7 6 5 4 3 2 1

Similarity level 90 90 90 80 70 60 50 50 20 20

Distance level 1 1 1 2 3 4 5 5 8 8

Clusters joined 7 8 6 7 2 3 1 2 6 9 1 5 1 6 1 4 10 11 1 10

New cluster 7 6 2 1 6 1 1 1 10 1

Noruegus(2) + dinamarqus (3); francs(6) + espanhol(7) + Italiano(8) aglomeram-se na mnima distncia No prximo passo o ingls (1) adicionado ao grupo ND Hngaro (10) e finlands (11) so mais similares um com o outro que com outros clusters

Mtodo de Ligao Completa (Complete Linkage):


Similaridade entre dois conglomerados definida pelos dois elementos menos parecidos entre si

distncia mxima ou vizinho mais distante

C1 = {X1, X2} e C2 = {X3, X4, X5}

Em cada estgio, a distncia (similaridade) entre os clusters determinada pela distncia (similaridade) entre os dois elementos, em cada cluster, que so mais distantes.

11

Garante que todos os itens em cada cluster esto com a mxima distncia (mnima similaridade) entre eles.

Mtodo da Mdia das Distncias (AverageLinkage):


Similaridade entre dois conglomerados definida pela distncia mdia de todos os pares de itens

cada membro do par pertence a grupos diferentes

C1 = {X1, X2} e C2 = {X3, X4, X5}

n1: quantidade de elementos do cluster 1 n2: quantidade de elementos do cluster 2.

Podem ser usadas distncias ou similaridades Pode ser usado para agrupar variveis e itens Mudanas na atribuio de distncias (similaridade) podem afetar o arranjo da configurao final de clusters, mesmo que as alteraes preservem as ordenaes relativas.

12

Mtodo do Centride:
Distncia entre dois grupos definida como sendo a distncia entre os vetores de mdias (centrides)

cada membro do par pertence a grupos diferentes

C1 = {X1, X2} e C2 = {X3, X4, X5}


Distncia Euclidiana entre os dois grupos

mtodo direto e simples, mas em cada passo necessrio retornar aos dados originais para o clculo da matriz de distncias
exige mais tempo computacional

No pode ser usado em situaes em que se dispes apenas da matriz de distncias entre os n elementos amostrais
Ao contrrio dos mtodos simple, complete e average linkage

Quanto maior a quantidade de elementos amostrais (n) e de variveis (p), menor a chance de empates entre valores da matriz de distncias

Exemplo

Dados 6 indivduos de uma comunidade:


Renda (em salrios mnimos) Idade Dados: (Fonte: Mingoti, 2005)
Indivduo A B C D E F Renda 9,60 8,40 2,40 18,20 3,90 6,40 Idade 28 31 42 38 25 41

Agrupamento pelo mtodo do centride

13

Matriz de distncias Euclidianas:


Matrix M3 0,0000 3,2311 15,7429 13,1894 6,4413 13,3881 3,2311 0,0000 12,5300 12,0433 7,5000 10,1980 15,7429 12,5300 0,0000 16,2985 17,0660 4,1231 13,1894 12,0433 16,2985 0,0000 19,3259 12,1754 6,4413 7,5000 17,0660 19,3259 0,0000 16,1941 13,3881 10,1980 4,1231 12,1754 16,1941 0,0000

Histrico do agrupamento:
Passo 1 2 3 4 5 g 5 4 3 2 1 Fuso {A} e {B} {C} e {F} {A,B} e {E} {A,B,E} e {C,F} {A,B,E,C,F} e {D} Distncia (nvel) 3,23 4,12 6,80 13,81 12,91

o nvel de fuso do passo 5 foi menor que do passo 4 Isso poder ocorrer no mtodo do centride quando, em algum passo do algoritmo, houver empates entre valores da matriz de distncias D Quanto maior for o tamanho amostral e de variveis, menor ser a chance de ocorrncia desta situao

Mtodo de Ward

Objetivo do procedimento:
Minimizar a perda de informao ao juntar 2 grupos

Partio desejada:
A que produz os grupos mais heterogneos entre si, com elementos homogneos dentro de cada grupo

Fundamento do mtodo:
Em cada passo do agrupamento h mudana de variao entre os grupos e dentro dos grupos Procedimento tambm denominado de mnima varincia

14

Mtodos anteriores:
quando se passa de (n k) para (n k 1) grupos o nvel de fuso aumenta (nvel de similaridade decresce) e a qualidade da partio decresce. Variao entre grupos diminui e a variao dentro dos grupos a

Procedimento
1.

Cada elemento considerado um nico cluster; 2. Em cada passo calcula-se a soma da distncia Euclidiana dentro dos grupos:

SSR: soma dos quadrados total (dentro) dos grupos gk: nmero de grupos no passo k SSi: soma dos quadrados do cluster i

SSi: soma dos quadrados do cluster i ni: quantidade de elementos do cluster Ci (passo k) Xij: vetor de observaes do j-simo elemento amostral que pertence ao i-simo conglomerado Xi: centride do cluster i

15

3.

Em cada passo do algoritmo, combinam-se os dois conglomerados que minimizam a distncia entre os conglomerados Ci e Cj, definida como:

d(Ci, Cj) a soma de quadrados entre os clusters Ci e Cj

Comentrios:
Em cada passo, o mtodo combina os dois conglomerados que resultam no menor valor de SSR Prova-se que d(Ci, Cj) a diferena entre o valor de SSR depois e antes de se combinar os clusters Ci e Cj. Os mtodos de Ward e do centride usam o vetor de mdias amostrais como representantes da informao global dos conglomerados em cada passo do processo de agrupamento A distncia considera a diferena dos tamanhos dos conglomerados na comparao

ni nj/(ni + nj) penalizam as comparaes (maiores grupos maiores distncias

O mtodo do centride no tem qualquer ponderao em relao ao tamanho dos clusters Para usar o mtodo de Ward basta que as variveis sejam quantitativas

Para o clculo do vetor de mdias No depende de se conhecer a distribuio da populaco

Sob certas condies, h uma relao entre o mtodo de Ward e o mtodo de mxima verossimilhana
Se a distribuio das variveis for normal p-variada

16

O mtodo de Ward baseia-se na noo de que espera-se que os clusters de observaes multivariadas tenham forma aproximadamente elptica um precursor de mtodos de aglomerao nohierrquicos

Otimizam algum critrio para dividir os dados em um nmero determinado de grupos elpticos

Exemplo

Dados 6 indivduos de uma comunidade:


Renda (em salrios mnimos) Idade Dados: (Fonte: Mingoti, 2005)
Indivduo A B C D E F Renda 9,60 8,40 2,40 18,20 3,90 6,40 Idade 28 31 42 38 25 41

Agrupamento pelo mtodo de Ward

Matriz de distncias Euclidianas:


Matrix M3 0,0000 3,2311 15,7429 13,1894 6,4413 13,3881 3,2311 0,0000 12,5300 12,0433 7,5000 10,1980 15,7429 12,5300 0,0000 16,2985 17,0660 4,1231 13,1894 12,0433 16,2985 0,0000 19,3259 12,1754 6,4413 7,5000 17,0660 19,3259 0,0000 16,1941 13,3881 10,1980 4,1231 12,1754 16,1941 0,0000

Histrico do agrupamento:
Passo 1 2 3 4 5 g 5 4 3 2 1 Fuso {A} e {B} {C} e {F} {A,B} e {E} {C,F} e {D} {A,B,E} e {C,F,D} Distncia (nvel) 3,23 4,12 8,21 17,61 26,64

17

Os grupos finais foram os mesmos obtidos com o mtodo do centride No houve inverso

Exemplo 12.11 Pure Malt

Agrupamento de 109 marcas de scotch de diferentes destilarias 68 variveis binrias para medir as caractersticas do whiskey
relacionadas com: cor, corpo,aroma, etc.

Objetivos:
Determinar os principais tipos de whiskies Determinas suas principais caractersticas Saber se os grupos correspondem a diferentes regies

so afetados por solo, temperatura, condies da gua

Variveis binrias so escaladas

Identificados 12 grupos de scotchs (A a L) Os grupos tm uma importante componente geogrfica

Apia a hiptese de que os whiskies so afetados por fatores geogrficos (gua, solo, microclima, temperatura, etc)no apenas pela extertise das destilarias.

18

Mtodos Hierrquicos Comentrios Finais Fontes de erros e de variao no so formalmente considerados nos procedimentos hierrquicos
Significa que esses mtodos so sensveis a outliers ou pontos de perturbao

Deve-se sempre verificar a sensibilidade da configurao dos grupos


Os mtodos no permitem a realocao de objetos que possam ter sido agrupados incorretamente nos estgios iniciais

recomendado tentar vrios mtodos de agrupamento e de atribuio de distncias (similaridades) Empates na matriz de distncias podem produzir mltiplas solues ao problema de agrupamento hierrquico A maioria dos mtodos produz clusters esfricos ou elpticos

O mtodo de ligao simples um dos poucos mtodos que pode delinear cluster no-elpticos
Tem a capacidade de gerar estruturas geomtricas diferentes Tem a tendncia de formar strings longas (chaining) Entretanto, ele incapaz de perceber grupos pouco separados

19

Os clusters formados pelo mtodo de ligao simples no sero modificados por qualquer atribuio de distncia (similaridade) que d as mesmas ordenaes relativas
Em particular, qualquer um dos coeficientes de similaridade monotnicos (Tabela 12.2)

O mtodo de ligao completa tende a produzir conglomerados de aproximadamente mesmo dimetro


Tem a tendncia de isolar os valores discrepantes nos estgios iniciais do agrupamento

O mtodo da mdia das distncias tende a produzir conglomerados de aproximadamente mesma varincia interna
Em geral, produz melhores parties que os mtodos de ligao simples e completa

Os mtodos de ligao simples, completa e da mdia podem ser utilizados tanto para variveis quantitativas quanto para variveis qualitativas Os mtodos do centride e de Ward so apropriados apenas para variveis quantitativas

O mtodo de Ward tende a produzir grupos com aproximadamente o mesmo nmero de elementos e tem como base principal os princpios de anlise de varincia Com um nmero maior de dados amostrais (n) ou de variveis (p), necessariamento no ir ocorrer a igualdade das solues apresentadas pelos vrios mtodos

Espera-se sempre que haja uma certa consistncia entre as solues obtidas por mtodos diferentes

20

Mtodos para Encontrar o Nmero g de Clusters da Partio Final

Problema de agrupamento:
Como escolher o nmero final (g) de grupos que define a partio do conjunto de dados? Qual o passo k em que o algoritmo de agrupamento deve ser interrompido?

Critrio 1 Anlise do comportamento do nvel de fuso (distncia)


medida que o algoritmo avana, a similaridade dos grupos diminui (distncia aumenta) Grfico do passo (ou nmero de grupos) vs. nvel de distncia (nvel de fuso)

Verifica-se a existncia de saltos relativamente grandes


Pontos indicadores do momento ideal de parada (nmero final de conglomerados) Se observados vrios pontos de saltos pode-se delimitar uma regio de provveis valores do nmero de grupos g (deve ser investigado por outro procedimento)

Pode-se usar o dendograma quando n no for muito grande

Critrio 2 Anlise do comportamento do nvel de similaridade


Similar ao critrio 1

Observa-se o nvel de similaridade (ao invs da distncia)

Nvel de similaridade:

max(drs): maior distncia entre os n elementos amostrais na matriz de distncias Dnxn do incio do processamento

21

Procura-se detectar pontos em que haja um decrescimento acentuado na similaridade dos conglomerados unidos

indicam a interrupo do algoritmo de agrupamento nmero final de clusters (g) est relacionado com o estgio em que o algoritmo foi interrompido

Em geral, a escolha de valores de similaridade acima de 90% leva a um nmero de grupos muito elevado

Critrio 3 Anlise da soma dos quadrados entre grupos: R2


possvel calcular a soma de quadrados entre clusters e dentro dos grupos, em cada passo do procedimento Em partio com g* grupos, sejam:

Xij = (Xi1,j, Xi2,j, ..., Xip,j) vetor de medidas observadas para o j-simo elemento amostral do i-simo grupo Xi. = (Xi1., Xi2., ..., Xip.) vetor de mdias do i-simo grupo (sem considerar partio) X = (X.1, X.2, ..., X.p)

Soma dos quadrados total corrigida para a mdia global em cada varivel

Soma dos quadrados total dentro dos grupos da partio

Soma dos quadrados total entre os g* grupos

22

Coeficiente R2 da partio: Quanto maior o valor de R2, maior ser a soma de quadrados entre grupos e menor ser a soma de quadrados residual SSR Procedimento para escolha de g

Grfico do passo do agrupamento vs. R2 Procurar identificar algum ponto de salto relativamente grande em relao aos demais
indica momento ideal da parada

Grfico sempre decrescente maior valor de g*, menor a variabilidade interna dos grupos e maior ser o valor de R2
mximo R2 = 1 (para g* = n)

Estratgia:
Definir uma regio de valores plausveis para o nmero de grupos g Utilizar o critrio 3 dentro da regio estabelecida

Critrio 4 Estatstica Pseudo F


(Calniski e Harabasz, 1974) Clcular estatstica F em cada passo do agrupamento

g*: nmero de grupos da partio em anlise

Idia do teste:

Em cada passo do agrupamento estaria sendo feito um teste F de anlise de varincia Na prtica, no ocorre alocao aleatria A maioria dos mtodos usa mtodos de agrupamento com critrios determinsticos para partio dos dados

Importante:

23

Se os elementos amostrais so provenientes de uma distribuio normal p-variada e quando os elementos so alocados aleatoriamente nos grupos F ~ Fp(g* 1) , p(n g*) Se F monotonicamente crescente com g*, os dados sugerem que no h qualquer estrutura natural de partio dos dados Se F apresentar um valor mximo, o nmero de conglomerados corresponder partio ideal

Busca-se o maior valor de F


Busca-se partio com maior heterogeneidade dos grupos valor relacionado com a menor probabilidade de significncia do teste Estaria rejeitando a igualdade de vetores de mdias populacionais com maior significncia

Critrio 5 Correlao Semiparcial (Mtodo de Ward)


Em determinado passo, Ck = Ci Cj
Coeficiente de correlao parcial da partio Distncia entre grupos Mtodo de Ward
1. 2. 3. 4.

Calcula-se SPR2 em cada passo Grfico passo vs. SPR2 Busca-se no grfico salto consideravelmente maior que os restantes Ponto indica partio ideal (parada do algoritmo de agrupamento)

24

A funo SPR2 no decrescente Se o agrupamento dos dados foi feito pelo mtodo de Ward, o critrio do coeficiente de correlao semiparcial equivaler aplicao do critrio 1.

Critrio 6 Estatstica Pseudo T2


Em determinado passo, Ck = Ci Cj

Sob as suposies de normalidade p-variada e alocao aleatria dos grupos


T2 ~Fp, (ni+nj2)

Na prtica, no se tem alocao aleatria dos grupos Ideia do teste:

Teste de comparao de mdia de dois grupos, unidos para formar novo grupo

Grfico passo vs. valor da Pseudo T2

Busca-se no grfico o valor mximo

O valor de g correspondente ao mximo (ou aquele imediatamente anterior) escolhido como o nmero provvel de grupos da partio final Busca-se o maior valor de T2

aquele relacionado com a menor probabilidade de significncia (Rejeita a igualdade dos vetores de mdia com maior significncia) Se a igualdade entre os vetores de mdias rejeitada, os dois clusters deveriam ser unidos para formar um nico agrupamento

25

Critrio 6 Estatstica CCC (Cubic Clustering Criterium)


Sarle (1983) Obtida comparando-se o valor esperado do coeficiente R2 com a aproximao do valor esperado de r2 sob a suposio de que os grupos so gerados de acordo com uma uniforme p-dimensional CCC indicaria a presena de estrutura de agrupamento diferente da partio uniforme A quantidade de grupos da partio final estaria relacionada com valores de CCC > 3 Est implementada no software estatstico SAS

Exemplo 6.8 Mingoti, 2005 Dados relativos a 21 pases (ONU, 2002) Variveis:
Expectativa de vida Educao Renda (PIB) Estabilidade poltica e de sergurana

Mtodo de agrupamento: Ward Conjunto de dados: BD_multivariada.xls/paises

Minitab

Cluster Analysis of Observations: ndice de Ex; ndice de Ed; ndice PIB; ...
Squared Euclidean Distance, Ward Linkage Amalgamation Steps Number of obs. in new cluster 2 2 2 4 2 3 2 3 5 2 2 8 2 5 3 3 5 8 16 21

Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Number of clusters 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

Similarity level 99,995 99,966 99,934 99,923 99,821 99,613 99,510 99,462 99,377 98,999 98,963 98,622 97,997 97,535 94,602 92,489 88,114 71,202 1,220 -159,594

Distance level 0,0006 0,0042 0,0081 0,0095 0,0219 0,0473 0,0598 0,0657 0,0761 0,1221 0,1266 0,1681 0,2445 0,3008 0,6587 0,9166 1,4505 3,5145 12,0549 31,6803

Clusters joined 2 3 1 6 4 5 2 4 12 21 1 9 16 19 8 12 2 7 10 14 15 17 1 2 11 13 8 10 15 18 16 20 11 15 8 16 1 8 1 11

New cluster 2 1 4 2 12 1 16 8 2 10 15 1 11 8 15 16 11 8 1 1

Final Partition Number of clusters: 1 Average distance from centroid 0,987565 Maximum distance from centroid 2,2069

Cluster1

Number of observations 21

Within cluster sum of squares 25,7654

26

Visualmente, razovel definir 4 grupos de pases


Analisar queda de similaridade entre os passos 16 e 18

Resultados da anlise de agrupamento:


Passo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 g* 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Similaridade 99,99 99,97 99,93 99,92 99,82 99,61 99,51 99,46 99,38 99,00 98,96 98,62 98,00 97,54 94,60 92,49 88,11 71,20 1,22 -159,59 Distncia 0,001 0,004 0,008 0,009 0,022 0,047 0,060 0,066 0,760 0,122 0,127 0,168 0,245 0,301 0,659 0,917 1,450 3,514 12,055 31,680 R 1,000 1,000 1,000 1,000 0,999 0,998 0,997 0,996 0,994 0,992 0,989 0,986 0,981 0,976 0,963 0,945 0,917 0,849 0,615 0,000
2

Pseudo F 4520,0 1193,0 705,0 576,0 388,0 241,0 183,0 158,0 143,0 123,0 115,0 107,0 98,4 93,5 77,8 68,8 62,5 50,5 30,3

SP R 0,0000 0,0001 0,0002 0,0002 0,0004 0,0009 0,0012 0,0013 0,0015 0,0024 0,0025 0,0033 0,0047 0,0058 0,0128 0,0178 0,0281 0,0682 0,2339 0,6148

Pseudo T

CCC

2,2 11,3 3,0 12,6

6,9 4,3 5,2 15,3 4,2 14,2 31,8 30,3

-0,12 -0,65 -1,80

Do passo 17 para 18:


Perda mais acentuada de similaridade O valor de R2 passa de 0,917 para 0,849 Valores da Pseudo F e do CCC decrescem substancialmente Pseudo T2 e SPR2 crescem acentuadamente

Medidas descritivas dos grupos formados:


Grupos (SQ) 1 (0,157) n1 = 8 2 (0,255) n2 = 5 3 (1,240) n3 = 5 4 (0,488) n4 = 3 Global n = 21 Pases Austrlia, Canad, Cingapura, Estados Unidos, Frana, Japo Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito Angola, Colmbia, Nigria, Paraguai, Serra Leoa Mdia Expectativa Educao PIB de vida 0,8838 0,9538 0,9075 Estabilidade poltica 1,1850

0,7660

0,8140

0,6740

0,3380

0,5060

0,5900

0,4940

-1,3660

Etipia, Mocambique, Senegal

0,3400

0,3633

0,3767

-0,3433

Todos

0,6881

0,7495

0,6776

0,1580

Grupo 1 Primeiro Mundo

pases com maiores ndice de desenvolvimento menores ndices em todas as variveis

Grupo 4 alguns pases africanos

27

Varivel estabilidade poltica e segurana:


Grande diferena de comportamento dos grupos 1 e 2 em relao aos grupos 3 e 4 Grupo 1 o de maior estabilidade e o grupo 3 de menor

Disperso interna menor no grupo 1 e maior no grupo 3

Tcnicas Hierrquica e Seleo de Variveis Os mtodos hierrquicos podem ser teis na seleo das variveis mais importantes na caracterizao de determinada situao Mtodos de ligao simples, completa e da mdia

necessria apenas matriz inicial que represente proximidade (ou similaridade) entre os elementos amostrais necessrio escolher uma matriz inicial que represente o relacionamento dessas variveis

Interesse: agrupar as variveis mais similares entre si (separar aquelas com informaes diferenciadas)

Variveis quantitativas: Pode-se usar coeficiente de correlao de Pearson


Expressa similaridade com relao associao linear Quanto maior seu valor absoluto, maior a aproximao entre as variveis

Matriz de correlao amostral no uma matriz de distncias (ou proximidades)


Transformao mais simples Dpxp = 1 Abs(Rpxp)

Podem ser usados coeficientes de correlao no paramtricos


Spearman, Kendall, etc.

28

Exemplo

Matriz de correlao amostral (R):


X1 X1 X2 X3 X4 X5 X6 1 0,57 0,51 0,39 0,46 0,35 1 0,60 0,38 0,32 0,72 1 0,43 0,40 0,45 1 0,50 0,58 1 0,30 1 X2 X3 X4 X5 X6

X2 e X6 so mais similares (r26 = 0,72) X X X D6x6 = 1 Abs(R6x6)


1 2 3

X4

X5

X6

X1

X2 X3 X4 X5 X6

0,43 0,49 0,61 0,54 0,65

0 0,40 0,62 0,68 0,28 0 0,57 0,60 0,55 0 0,50 0,42 0 0,70 0

X1 X1 X2 X3 X4 X5 X6 0 0,43 0,49 0,61 0,54 0,65

X2 0 0,40 0,62 0,68 0,28

X3

X4

X5

X6

0 0,57 0,60 0,55 0 0,50 0,42 0 0,70 0

Mtodo de Ligao Simples


Passo 1 2 3 4 5 g 5 X2 e X6 4 X2, X6 e X3 3 X2, X6, X3 e X4 2 X2, X6, X3, X4 e X1 1 X2, X6, X3, X4, X1 e X5 Fuso Nvel Fuso 0,28 0,40 0,42 0,43 0,50

No passo 3
C1 = {X2, X6, X3, X4} C2 = {X1} C3 = {X5}
Suponha escolher 3 dentre as 6 variveis: X1 X5 Uma das variveis de C1

Medidas de categricas:

similaridade

para

variveis

Coeficiente qui-quadrado Coeficiente de contingncia de Pearson Coeficiente de concordncia de Kappa

Outros Coeficientes:
Podem-se desenvolver medidas de associao (similaridade) anlogos aos coeficientes estabelecidos anteriormente (Tabela 12.2) Troca-se p por n.

29

Variveis Binrias:
Os dados podem ser agrupados na forma de tabela de contingncia Para cada par de variveis, h n itens categorizados na tabela
Varivel k 1 Varivel i 1 0 Total a c a+c 0 b d b+d Total a+b c+d n=a+b+c+d

Correlao Momento-Produto

Pode ser tomado como medida de similaridade entre as duas variveis r est relacionado com a estatstica 2 para teste de independncia entre duas variveis categricas

Para n fixo, uma correlao (similaridade) grande consistente com a ausncia de independncia

Comentrios

H vrias maneiras de medir similaridade entre pares de objetos:


distncias (12-1 a 12-5) Coeficientes (Tabela 12-2) para agrupar itens Correlaes para agrupar variveis

Podem ser usadas frequncias

30

Exemplo 12.8 Agrupamento de variveis (Ligao Completa)


Dados de 22 concessionrias pblicas (USA) Variveis:

X1: renda/dvidas X2: taxa de retorno de capitais X3: custo por capacidade instalada (kW) X4: fator de carga anual X5: pico de demanda (crescimento ltimo ano) X6: Vendas (kWh por ano) X7: participao nucleares (%) X8: custo total de combustvel ($ por kWh)

Dados: BD_multivariada.xls/public_utilities

Coeficiente de correlao para medir similaridade


variveis com grandes correlaes negativas so consideradas muito dissimilares variveis com grandes correlaes positivas so consideradas muito similares distncia entre clusters medida como menor similaridade entre grupos

Matriz de correlaes:
Correlations: X1; X2; X3; X4; X5; X6; X7; X8
X2 X3 X4 X5 X6 X7 X8 X1 0,643 -0,103 -0,082 -0,259 -0,152 0,045 -0,013 X2 -0,348 -0,086 -0,260 -0,010 0,211 -0,328 X3 0,100 0,435 0,028 0,115 0,005 X4 X5 X6 X7

0,033 -0,288 -0,164 0,486

0,176 -0,019 -0,007

-0,374 -0,561

-0,185

Minitab

Stat > Multivariate > Cluster Variables

Matriz de distncias: D8x8 = 1 R8x8


Data Display
Matriz de Distncias 0,00000 0,35726 1,10279 1,08203 1,25911 1,15167 0,95520 1,01337 0,35726 0,00000 1,34755 1,08634 1,26011 1,00962 0,78856 1,32766 1,10279 1,34755 0,00000 0,89969 0,56463 0,97201 0,88534 0,99478 1,08203 1,08634 0,89969 0,00000 0,96652 1,28794 1,16416 0,51450 1,25911 1,26011 0,56463 0,96652 0,00000 0,82358 1,01913 1,00713 1,15167 1,00962 0,97201 1,28794 0,82358 0,00000 1,37369 1,56053 0,95520 0,78856 0,88534 1,16416 1,01913 1,37369 0,00000 1,18509 1,01337 1,32766 0,99478 0,51450 1,00713 1,56053 1,18509 0,00000

31

Variveis: (1,2), (4,8), (3,5) aglomeram-se a um nvel intermedirio Variveis 7 e 6 permanecem isoladas at os estgios finais Agrupamento final:
(12478) e (356)

Tcnicas de Agrupamento No Hierrquicas

Objetivo:
Encontrar diretamente uma partio de n elementos em k grupos Requisitos:

coeso interna (semelhana interna) isolamento (separao) dos clusters formados

Busca da melhor partio de ordem k


Satisfaz algum critrio de qualidade Procedimentos computacionais para parties quase tima (invivel a busca exaustiva) investigar

Mtodos No Hierrquicos vs. Hierrquicos :


Especificao prvia do nmero de cluster (ao contrrio das tcnicas aglomerativas) Novos grupos podem ser formados pela diviso (ou juno) de grupos j combinados:

Se em um passo do algoritmo, dois elementos tiverem sido colocados em um mesmo grupo, no significa que estaro juntos na partio final No mais possvel a construo de dendogramas

Em geral, so do tipo iterativo

32

Tem maior capacidade de analisar grande nmero de dados A matriz de distncia no tem de ser calculada e os dados bsicos no precisam ser armazenados durante a execuo do procedimento Mtodos hierrquicos so mais adequados para agrupar itens que variveis

Mtodos No Hierrquicos Estrutura

Iniciam-se:
1. partio inicial de itens em grupos 2. conjunto inicial de sementes que formaro o ncleo dos clusters

Escolha das configuraes iniciais pode afetar partio final


Vis na escolha das sementes iniciais Alternativas:

Seleo aleatria de sementes Partio aleatria de itens em grupos iniciais

Mtodos No Hierrquicos Procedimentos Alguns procedimentos: Mtodo das k-Mdias (k-Means)


mais conhecido e popular

Mtodo Fuzzy c-Mdias Redes Neurais Artificais

33

Mtodo das k-Mdias Provavelmente, um dos mais conhecidos e mais utilizados Idia Bsica:

Cada elemento amostral alocado quele cluster cujo centride o mais prximo do elemento

Passos do Procedimento
1.

Escolhem-se k centrides para inicializar o processo de partio


Sementes ou prottipos

2.

Cada elemento do conjunto de dados comparado com cada centride inicial


Alocao ao centride menos distante Em geral, utiliza-se distncia Euclidiana Aplicao a todos os n elementos amostrais

3.

Clculo dos novos centrides para cada grupo formado no passo (2)
Repetio do passo (2), considerando os novos valores dos centrides

4.

Os passos (2) e (3) so repetidos at que todos os elementos amostrais estejam bem alocados em seus grupos
Bem alocados = no necessria realocao de elementos

34

Exemplo 12.12

Agrupamento pelo Mtodo das k-Mdias:


Medidas das variveis X1 e X2:
Item A B C D Observaes x1 x2 5 3 -1 1 1 -2 -3 -2

Dividir em k = 2 grupos de maneira que os itens de um cluster sejam os mais prximos um dos outros e que estejam distantes em clusters diferentes

Implementao:
Partio arbitrria em 2 clusters: (AB) e (CD) _ _ Clculo das coordenadas (x1, x2) dos centrides:
Cluster AB CD

x1
2 1

x2
2 2

Distncia euclidiana de cada item


AB A B C D d(A,AB) = (5-2) + (3-2) = 10 d(B,AB) = (-1-2) + (1-2) = 10 d(C,AB) = (1-2) + (-2-2) = 17
2 2 2 2 2 2 2 2

CD d(A,CD) = (5+1) + (3+2) = 61 d(B,CD) = (-1+1) + (1+2) = 9 d(C,CD) = (1+1) + (-2+2) = 4


2 2 2 2 2 2 2 2

B agrupado ao cluster (CD)

d(D,AB) = (-3-2) + (-2-2) = d(D,CD) = (-3+1) + (-2+2) = 41 4

_ _ Clculo das coordenadas (x1, x2) dos centrides: Cluster x1 x2


A BCD 5 1 3 1

Distncia euclidiana de cada item


A A B C D d(A,A) = (5-5) + (3-3) = 0 d(B,A) = (-1-5) + (1-3) = 40 d(C,A) = (1-5) + (-2-3) = 41 d(D,A) = (-3-5) + (-2-3) = 89
2 2 2 2 2 2 2 2

BCD d(A,BCD) = (5+1) + (3+1) = 52 d(B,BCD) = (-1+1) + (1+1) = 4 d(C,BCD) = (1+1) + (-2+1) = 5 d(D,BCD) = (-3+1) + (-2+1) = 5
2 2 2 2 2 2 2 2

O agrupamento se mantm e o processo pra

35

Agrupamento Final (k = 2)
A e (BCD)

Comentrios:
Para verificar a estabilidade da soluo recomendvel reiniciar o algoritmo com uma nova partio inicial Uma tabela de centrides e das varincias dentro dos grupos auxilia a delinear as diferenas entre os grupos

Sugestes para Escolha Cuidadosa das Sementes

Sugesto 1: Uso de tcnicas hierrquicas aglomerativas:


Utiliza-se algum mtodo de agrupamento hierrquico para se obter os k grupos iniciais Calcula-se o vetor de mdias de cada grupo Esses vetores so usados como sementes iniciais

Sugesto 2: Escolha aleatria:


As k sementes iniciais so escolhidas aleatoriamente dentro do conjunto de dados Sugesto amostragem aleatria simples sem reposio
(estratgica simples, mas sem eficincia)

Melhoria de eficincia na escolha:


Selecionar m amostras aleatrias, constitudas de k sementes Clculo do vetor de mdias das k sementes selecionadas para cada grupo Esses vetores constituem os centrides de inicializao do processo de agrupamento das k-mdias

36

Sugesto 3: Escolha por meio de uma varivel aleatria:


Escolhe-se uma varivel aleatria dentre as p componentes em considerao

a varivel por si s j induz uma certa partio natural dos dados

Divide-se o domnio da varivel em k intervalos A semente inicial ser o centride de cada intervalo

Sugesto 4: Observao dos discrepantes do conjunto de dados

valores

Anlise estatstica para buscar k elementos discrepantes no conjunto de dados

Discrepncia em relao s p variveis observadas

Cada um desses elementos ser a semente

Sugesto 5: Escolha prefixada


Mtodo no muito recomendvel, pois, tem um alto grau de subjetividade Sementes escolhidas arbitrariamente Pode ser usadas em casos em h grande conhecimento do problema

buca-se validar soluo j existente

37

Sugesto 6: Os k primeiros valores do banco de dados


Usado como default pela maioria dos softwares Pode trazer bons resultados quando os k primeiros elementos amostrais so discrepantes entre si
(No recomendvel quando so semelhantes)

Exemplo 7.1 Mingoti, 2005 Continuao Ex. 6.8 Dados relativos a 21 pases (ONU, 2002) Variveis:
Expectativa de vida Educao Renda (PIB) Estabilidade poltica e de sergurana

Mtodo de agrupamento: k-Mdias Conjunto de dados: BD_multivariada.xls/paises

Utiliza-se da Anlise pelo Mtodo de Ward:


k = g = 4 grupos para partio dos pases Sementes iniciais = centrides clusters finais

Partio final:
a mesma obtida anteriormente
Grupos (SQ) 1 (0,157) n1 = 8 2 (0,255) n2 = 5 3 (1,240) n3 = 5 4 (0,488) n4 = 3 Global n = 21 Pases Austrlia, Canad, Cingapura, Estados Unidos, Frana, Japo Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito Angola, Colmbia, Nigria, Paraguai, Serra Leoa Mdia Expectativa Educao PIB de vida 0,8838 0,9538 0,9075 Estabilidade poltica 1,1850

0,7660

0,8140

0,6740

0,3380

0,5060

0,5900

0,4940

-1,3660

Etipia, Mocambique, Senegal

0,3400

0,3633

0,3767

-0,3433

Todos

0,6881

0,7495

0,6776

0,1580

38

Sementes iniciais: Reino Unido, Brasil, Serra Leoa e Moambique


Obtm-se mesma partio final

Sementes iniciais: 4 primeiros pases do banco


Grupos (SQ) 1 (0,091) n1 = 7 2 (0,748) n2 = 6 3 (2,188) n3 = 7 4 (0,488) n4 = 1 Global n = 21 Pases Austrlia, Canad, Estados Unidos, Frana, Japo, Reino Unido, Uruguai Argentina, Brasil, China, Cuba, Egito, Moambique Angola, Colmbia, Nigria, Paraguai, Serra Leoa,Etipia, Senegal Cingapura Mdia Expectativa Educao PIB de vida 0,8843 0,9657 0,9071 Estabilidade poltica 1,1529

0,6783

0,7400

0,6271

0,3150

0,4729

0,5243

0,4626

-1,1514

0,8800

0,8700

0,9100

1,4100

Todos

0,6881

0,7495

0,6776

0,1580

Cingapura foi separada do cluster 1 Moambique deslocado para grupo do Brasil Grupo da Colmbia acrescido de Etipia e Senegal

Soma de quadrados dentro dos grupos:

Nova soluo aumentou variabilidade dentro dos grupos 2 e 3

39

K-means Cluster Analysis: ndice de Ex; ndice de Ed; ndice PIB; Estabilidade

Minitab:

Final Partition Number of clusters: 4 Within cluster sum of squares 2,188 0,000 0,091 0,748 Average distance from centroid 0,528 0,000 0,105 0,308 Maximum distance from centroid 0,856 0,000 0,204 0,641

Cluster1 Cluster2 Cluster3 Cluster4

Number of observations 7 1 7 6

Cluster Centroids Variable ndice de Expectativa de vida ndice de Educao ndice PIB Estabilidade_poltica_violncia Variable ndice de Expectativa de vida ndice de Educao ndice PIB Estabilidade_poltica_violncia Cluster1 0,4729 0,5243 0,4629 -1,1514 Grand centroid 0,6881 0,7495 0,6776 0,1576 Cluster2 0,8800 0,8700 0,9100 1,4100 Cluster3 0,8843 0,9657 0,9071 1,1529 Cluster4 0,6783 0,7400 0,6217 0,3150

Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster1 0,0000 2,6545 2,4231 1,5048 Cluster2 2,6545 0,0000 0,2744 1,1575 Cluster3 2,4231 0,2744 0,0000 0,9364 Cluster4 1,5048 1,1575 0,9364 0,0000

Soma dos Quadrados:


ANOVA para cada uma das p variveis
One-way ANOVA: ndice de Expectativa de vida versus C35
Source C35 Error Total DF 3 17 20 SS 0,6311 0,5234 1,1545 MS 0,2104 0,0308 F 6,83 P 0,003

One-way ANOVA: ndice de Educao versus C35

Soma Quadrados Total Corrigida


SSTc = 25,7654

Source C35 Error Total

DF 3 17 20

SS 0,6974 0,5475 1,2449

MS 0,2325 0,0322

F 7,22

P 0,002

One-way ANOVA: ndice PIB versus C35


Source C35 Error Total DF 3 17 20 SS 0,7644 0,2900 1,0544 MS 0,2548 0,0171 F 14,94 P 0,000

Soma dos Quadrados Total dentro dos grupos


SSR = 3,0267

One-way ANOVA: Estabilidade_poltica_violncia versus C35


Source C35 Error Total DF 3 17 20 SS 20,6458 1,6658 22,3116 MS 6,8819 0,0980 F 70,23 P 0,000

Clculo R2:

Comparao da qualidade das parties


Variao Residual Soma Quadrados Partio Residual Mdia k-Mdias (Ward) 2,1406 0,5351 k-Mdias (*) 3,0267 0,7557 (*) Os 4 primeiros elementos do banco de dados R
2

0,917 0,883

A soluo do mtodo das k-Mdias, utilizando como


sementes iniciais as sementes de Ward, melhor do que a soluo encontrado quando os 4 primeiros elementos do banco de dados so usados como semente

40

Visualizao espacial dos grupos:


2 primeiras componentes principais com base na matriz de covarincias amostral

possvel visualizar claramente os 4 grupos

k-mdias com sementes de Ward

Comentrios Finais

A escolha das sementes iniciais de agrupamento podem influenciar o agrupamento final


Se duas ou mais sementes situarem-se em um nico cluster, os grupos resultantes sero pouco diferenciados A existncia de outlier pode produzir pelo menos um grupo com muitos itens dispersos

H fortes argumentos para no se fixar o nmero de clusters k


Mesmo sabendo-se que a populao consiste de k grupos, dependendo do mtodo de amostragem, pode no aparecer na amostra os dados provenientes de um grupo mais raro

Forar k grupos levaria a clusters sem sentido

Em casos em que o algoritmo requer o uso de um valor especificado de k, sempre uma boa idia executar novamente o algoritmo para diversas escolhas de k

41

Referncias

Bibliografia Recomendada
JOHNSON, R. A.; WINCHERN, D. W. Applied Multivariate Statistical Analysis. Prentice Hall, 1998 MINGOTI, D.C. Anlise de Dados atravs de Mtodos de Estatstica Multivariada. Ed. UFMG, 2005. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Anlise de Dados Multivariados. Cengage, 2011.

42

Você também pode gostar