Você está na página 1de 146

An alise Multivariada

Uma abordagem aplicada utilizando o software R

Tiago Martins Pereira Departamento de Estat stica Universidade Federal de Ouro Preto

Ouro Preto - MG Julho de 2013

Sum ario
1 An alise de Componentes Principais 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Introdu ca o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Constru c ao das componentes principais . . . . . . . . . . . . . . . . . Decomposi c ao da vari ancia total . . . . . . . . . . . . . . . . . . . . . Estima c ao das componentes principais via matriz de covari ancias . . . 4 4 5 7 9

Estima c ao das componentes principais via matriz de correla c oes . . . 13 Quantas componentes devem ser retidas? . . . . . . . . . . . . . . . . 14 Solu c ao utilizando o software R . . . . . . . . . . . . . . . . . . . . . 18 Exerc cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 29

2 An alise Fatorial 2.1 2.2

Introdu ca o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 O Modelo Fatorial Ortogonal . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 2.2.2 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Padroniza c ao das vari aveis . . . . . . . . . . . . . . . . . . . . 35 . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3 2.4

Estima c ao do valor de m

M etodos de obten ca o dos fatores . . . . . . . . . . . . . . . . . . . . . 36 2.4.1 2.4.2 2.4.3 M etodos dos Componentes Principais . . . . . . . . . . . . . . 36 M etodo dos Fatores Principais . . . . . . . . . . . . . . . . . . 41 M etodo da M axima Verossimilhan ca . . . . . . . . . . . . . . 42

2.5

Rota c ao dos fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.5.1 Crit erio Varimax . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.6

Escores fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.6.1 M etodo dos M nimos Quadrados Ponderados . . . . . . . . . . 45

2.6.2 2.7 2.8

M etodo da Regress ao . . . . . . . . . . . . . . . . . . . . . . . 46

Solu c ao utilizando o software R . . . . . . . . . . . . . . . . . . . . . 46 Exerc cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 74

3 An alise Discriminante 3.1 3.2

Introdu ca o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Discrimina c ao e classica ca o em 2 popula co es . . . . . . . . . . . . . 75 3.2.1 3.2.2 3.2.3 Fun ca o discriminante linear . . . . . . . . . . . . . . . . . . . 77 Regra da m axima verossimilhan ca . . . . . . . . . . . . . . . . 79 Classica c ao em popula co es normais . . . . . . . . . . . . . . 79 3.2.3.1 3.2.4 3.2.5 Fun ca o discriminante linear . . . . . . . . . . . . . . 79

Estima ca o das fun c oes discriminantes . . . . . . . . . . . . . . 80 Estima ca o das probabilidades de classica c ao incorreta . . . . 81

3.3

Discrimina c ao e classica ca o em g popula co es . . . . . . . . . . . . . 86 3.3.1 3.3.2 Fun co es discriminantes de Anderson . . . . . . . . . . . . . . 87

Fun co es discriminantes can onicas de Fisher . . . . . . . . . . . 94

3.4 3.5

Solu c ao utilizando o software R . . . . . . . . . . . . . . . . . . . . . 98 Exerc cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 105

4 An alise de Agrupamentos 4.1 4.2 4.3

Introdu ca o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 M etodos de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . 106 Medidas de (Dis)similaridades entre dois indiv duos . . . . . . . . . . 109 4.3.1 Vari aveis quantitativas . . . . . . . . . . . . . . . . . . . . . . 110 4.3.1.1 4.3.1.2 4.3.1.3 4.3.2 Dist ancia Euclidiana . . . . . . . . . . . . . . . . . . 110 Dist ancia Euclidiana Generalizada . . . . . . . . . . 111 Dist ancia de Minkowski . . . . . . . . . . . . . . . . 111

Vari aveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . 112 4.3.2.1 4.3.2.2 4.3.2.3 4.3.2.4 Coeciente de Concord ancia Simples . . . . . . . . . 114 Coeciente de Concord ancia Positiva . . . . . . . . . 114 Coeciente de Concord ancia de Jaccard . . . . . . . 115 Coeciente de Concord ancia de Gower e Legendre . . 115

4.3.3 4.4

Vari aveis Quantitativas e Qualitativas

. . . . . . . . . . . . . 117

M etodos de Agrupamento Hier arquicos . . . . . . . . . . . . . . . . . 118 4.4.1 Crit erios para denir dist ancias entre grupos . . . . . . . . . . 118 4.4.1.1 4.4.1.2 4.4.1.3 4.4.1.4 4.4.1.5 4.4.2 M etodo do vizinho mais pr oximo . . . . . . . . . . . 118 M etodo do vizinho mais distante . . . . . . . . . . . 119 M etodo da dist ancia m edia . . . . . . . . . . . . . . 119 M etodo do centr oide . . . . . . . . . . . . . . . . . . 119 M etodo de Ward . . . . . . . . . . . . . . . . . . . . 119

Determina ca o do n umero de grupos . . . . . . . . . . . . . . . 126

4.5

M etodos N ao-Hier arquicos . . . . . . . . . . . . . . . . . . . . . . . . 128 4.5.1 M etodo k -m edias (k-means) . . . . . . . . . . . . . . . . . . . 129

4.6 4.7

Solu c ao utilizando o software R . . . . . . . . . . . . . . . . . . . . . 131 Exerc cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 140 143

A Alguns resultados importantes Refer encias Bibliogr acas

Cap tulo 1 An alise de Componentes Principais


1.1 Introdu c ao

A An alise de Componentes Principais - ACP ou PCA, (do ingl es Principal Component Analysis) e um m etodo estat stico multivariado que tem por nalidade b asica transformar um conjunto de vari aveis iniciais correlacionadas entre si, em outro conjunto de vari aveis n ao correlacionadas (ortogonais), as chamadas componentes principais, que resultam de combina c oes lineares das vari aveis originais. As componentes principais s ao calculadas por ordem decrescente de import ancia, isto e, a primeira explica o m aximo poss vel da vari ancia dos dados originais, a segunda o m aximo poss vel da vari ancia ainda n ao explicada, e assim por diante. A u ltima componente principal ser a a de menor contribui ca o para a explica ca o da vari ancia total dos dados originais. Os principais objetivos desta t ecnica multivariada s ao a redu c ao da dimensionalidade dos dados e a obten ca o de combina co es interpret aveis das vari aveis originais. A an alise de componentes principais depende unicamente da matriz de covari ancias ou da matriz de correla co es P das vari aveis originais X1 , , Xp . N ao e necess aria a suposi ca o de normalidade dos dados para a aplica c ao da t ecnica.

1.2

Constru c ao das componentes principais

Seja X = [X1 X2 Xp ]t um vetor aleat orio p-variado com vetor de m edias e matriz de vari ancias e covari ancias (ou simplesmente matriz de covari ancias) , positiva denida (todos os seus autovalores s ao positivos), sendo

E (X) = = [1 2 p ]
t

Cov(X) = =

11 12 1p 21 22 2p . . . ... . . . . . . p1 p2 pp

Sejam tamb em, 1 2 p > 0 os autovalores e e1 , e2 , , ep os respectivos autovetores normalizados da matriz . A ideia e encontrar um novo conjunto de vari aveis Y1 , Y2 , , Yp , n ao correlacionadas entre si cujas vari ancias decres cam da primeira para a u ltima, isto e:

Var[Y1 ]

Var[Y2 ]

Var[Yp ]

Cada nova vari avel Yi , i = 1, , p, pode ser ent ao, tomada como uma combina ca o linear das vari aveis originais X:

Yi = ai1 X1 + ai2 X2 + + aip Xp = at iX sendo ai = [ai1 ai2 aip ]t e um vetor de constantes tais que
p

at i ai

=
j =1

a2 ij = 1

at i ak = 0

para i = k , i, k = 1, , p. Encontra-se a primeira componente principal Y1 , escolhendo o vetor de constantes a1 de modo que Y1 tenha a m axima vari ancia poss vel. Em outras palavras, escolhe-se a1 de modo a maximizar a vari ancia de Y1 = a1 X de tal forma que t at 1 a1 = 1 e a1 ak = 0, para k = 2, 3, , p. A segunda componente e derivada de modo id entico: escolhendo a2 tal que Y2 tenha vari ancia m axima e seja ortogonal a ` primeira componente Y1 . Seguindo o 5

mesmo processo, encontramos Y3 , Y4 , , Yp , todas n ao correlacionadas entre si e com vari ancia decrescente. Uma escolha interessante para o vetor de constantes ai , i = 1, , p s ao os autovetores normalizados ei da matriz . Dessa forma, podemos denir a i- esima componente principal da matriz , i = 1, , p como sendo

Yi = e t i X = ei1 X1 + ei2 X2 + + eip Xp A esperan ca e a vari ancia da componente Yi s ao respectivamente dadas por:

E [Yi ] = E [ei1 X1 + ei2 X2 + + eip Xp ] = ei1 E [X1 ] + ei2 E [X2 ] + + eip E [Xp ] = ei1 1 + ei2 2 + + eip p = et i

t t t t Var[Yi ] = Var[et i X] = ei Var[X]ei = ei ei = ei i ei = ei ei i = i

uma vez que ei = i ei . Logo, o pr oprio autovalor i representa a vari ancia de uma componente principal Yi . Como os autovalores est ao ordenados em ordem crescente, a primeira componente e a de maior variabilidade e a p- esima e a de menor. A covari ancia entre as componentes Yi e Yk , i = k , e dada por:

t t t t Cov(Yi , Yk ) = Cov(et i X, ek X) = E[ei (X )(X ) ek ] = ei ek

Novamente aqui utilizamos o fato de ek = k ek . Assim,


t t et i ek = ei k ek = ei ek k = 0

uma vez que et i ek = 0. Logo, Cov(Yi , Yk ) = 0.

1.3

Decomposi c ao da vari ancia total

Sejam O a matriz dos autovetores normalizados da matriz , isto e, O= e11 e21 ep1 e12 e22 ep2 . . . .. . . . . . . . e1p e2p epp = [e1 e2 ep ]

e Y o vetor das componentes principais. Ent ao, Y = Ot X e a matriz de covari ancias de Y ser a:

Var[Y] = Var[Ot X] = Ot Var[X]O = Ot O = sendo = 1 0 0 0 2 0 . . . .. . . . . . . . 0 0 p

ou ainda, = OO =
i=1

i ei et e uma matriz ortogonal tal que i , uma vez que O

OOt = Ot O = I. Estes resultados s ao conhecidos como Teorema da Decomposi ca o Espectral. Vimos anteriormente que os autovalores representam as vari ancias das respectivas componentes principais. A soma destas vari ancias e dada por
p p

Var[Yi ] =
i=1 i=1

i = tr()

mas
p

tr() = tr(O O) = tr(O O) = tr() =


i=1

Var[Xi ]

isto e, a soma das vari ancias das vari aveis originais Xi e igual a ` soma das vari ancias 7

das componentes Yi . Pode-se ent ao concluir que a j - esima componente explica Var[Yj ] j = = Vari ancia Total de X tr() j
p

i
i=1

da varia c ao total original, e ainda, que as k primeiras componentes explicam


k k k

Var[Yj ]
j =1

j =
j =1

j =
j =1 p

Vari ancia Total de X

tr()

i
i=1

da varia ca o total. Al em disso, a correla c ao entre a j- esima componente principal e a vari avel aleat oria Xi , i = 1, , p, e dada por: eji j Yj ,Xi = ii onde ii e a vari ancia da vari avel aleat oria Xi . Se as k primeiras componentes principais explicam uma grande parte da varia c ao total do vetor X, pode-se restringir o foco de aten ca o apenas ao vetor aleat orio [Y1 , Y2 , , Yk ]t . Dessa forma, um conjunto k -dimensional de vari aveis aleat orias poder a ser examinado, ao inv es de um conjunto p-dimensional, sem que com isto se perca muita informa ca o sobre a estrutura de vari ancias e covari ancias original do vetor X. Pelo teorema da decomposi ca o espectral, ao restringir-se o foco de aten ca o somente para as k -primeiras componentes principais, a matriz de covari ancias estar a sendo aproximada por
k

i=1

i ei et i

1.4

Estima c ao das componentes principais via matriz de covari ancias

Na pr atica, a matriz e desconhecida e precisa ser estimada atrav es dos dados amostrais coletados. A matriz e estimada pela matriz de covari ancias amostral S, denida como: S= s11 s12 s1p s21 s22 s2p . . . .. . . . . . . . sp1 sp2 spp

sendo

i )2 (Xil X sii =
l=1

i )(Xjl X j ) (Xil X e sij =


l=1

n1

n1

com i = j e n o tamanho da amostra. Sejam 1 2 p os autovalores da matriz S e e1 , e2 , , ep , os respectivos autovetores normalizados. Assim, podemos estimar a i- esima componente principal como:

Yi = e t i X = ei1 X1 + ei2 X2 + + eip Xp com i = 1, , p. As quantidades calculadas at e aqui, podem ser estimadas de forma an aloga.

Exemplo: (Mingoti, 2007) A Tabela 1.1 apresenta dados relativos a 12 empresas, no que se refere a 3 vari aveis (medidas em unidades monet arias): ganho bruto (X1 ), ganho l quido (X2 ) e patrim onio acumulado (X3 ), num determinado per odo. A Tabela 1.2 mostra algumas estat sticas descritivas destes dados. A matriz de covari ancias amostral S dessas vari aveis e dada por:

Tabela 1.1: Dados relativos a `s empresas Empresa Ganho bruto (X1 ) Ganho l quido (X2 ) Patrim onio (X3 ) E1 9893 564 17689 E2 8776 389 17359 E3 13572 1103 18597 E4 6455 743 8745 E5 5129 203 14397 E6 5432 215 3467 E7 3807 385 4679 E8 3423 187 6754 E9 3708 127 2275 E10 3294 297 6754 E11 5433 432 5589 E12 6287 451 8972 Tabela 1.2: Estat sticas descritivas M edia Mediana Desvio Padr ao M nimo M aximo 6267,4 5433 3090,42 3294 13572 424,7 387 276,17 127 1103 9606,4 7750 5865,84 2275 18597

Vari avel n Ganho bruto 12 Ganho l quido 12 Patrim onio 12

9550609 706121 14978233 S = 706121 76270 933915 14978233 933915 34408113 Os autovalores da matriz S s ao: 1 = 41474391; 2 = 2539507 e 3 = 21094. A vari ancia total e igual a 1 + 2 + 3 = 44034992 e os correspondentes autovetores normalizados s ao:

0, 4251 e1 = 0, 0277 0, 9047

0, 8997 e2 = 0, 0965 0, 4257

0, 0991 e3 = 0, 9949 0, 0161

Portanto, as tr es componentes principais para este problema s ao:

10

Y1 = 0, 4251X1 + 0, 0277X2 + 0, 9047X3 Y2 = 0, 8997X1 0, 0965X2 + 0, 4257X3 Y3 = 0, 0991X1 0, 9949X2 0, 0161X3 A porcentagem da varia ca o total explicada por cada componente e dada por: 1a Componente: 1
3

100 =

41474391 100 = 94, 18% 44034992

j
j =1

2a Componente: 2
3

100 =

2539507 100 = 5, 77% 44034992

j
j =1

3a Componente: 3
3

100 =

21094 100 = 0, 05% 44034992

j
j =1

A correla c ao estimada das tr es componentes com as respectivas vari aveis s ao dadas na Tabela 1.3. Por exemplo, para encontrarmos Y1 ,X3 = rY1 ,X3 , e13 1 0, 9047 41474391 = 0, 993 = = s33 34408113

rY1 ,X3

Tabela 1.3: Correla c oes entre Vari avel / Componente Ganho bruto Ganho l quido Patrim onio

componentes e vari aveis originais a a 1 2 3a 0,8860 -0,4640 0,0050 0,6450 -0,5570 -0,5230 0,9930 0,1160 -0,0004

11

Note que, juntas, as componentes Y1 e Y2 representam aproximadamente 100% da varia ca o total do sistema. Portanto, as informa co es mais relevantes dos dados amostrais originais est ao contidas nessas duas componentes principais, uma vez que a terceira componente contribui muito pouco para a vari ancia total original. A interpreta c ao das componentes principais, de modo geral, se d a da seguinte maneira: 1a componente: e basicamente um ndice de desempenho global da empresa. O coeciente de maior grandeza num erica desta componente e relativo a patrim onio, vari avel de maior vari ancia amostral, conforme Tabela 1.2, e o de menor grandeza e relativo a ganho l quido. Quanto maior os valores de ganhos brutos e l quido e patrim onio da empresa, maior ser a o valor num erico da componente. 2a componente: e uma compara ca o entre as vari aveis ganho bruto e patrim onio, sendo dominada pela vari avel ganho bruto, que tem o maior coeciente num erico, em valor absoluto, e que e a vari avel com a segunda maior vari ancia amostral. Valores pr oximos de zero dessa componente indicam empresas com um certo equil brio entre ganho brutoe patrim onio acumulado no per odo. 3a componente: representa a vari avel ganho l quido, que e a de menor vari ancia amostral, sendo, portanto, uma componente de pouca import ancia pr atica, uma vez que a an alise de ganho l quido pode ser feita diretamente com os valores amostrais originais observados desta vari avel. Na Tabela 1.4, apresentam-se os valores num ericos (escores) das empresas na primeira componente principal. Pelos valores calculados, pode-se perceber que as 3 empresas com melhores desempenhos globais foram E3, E1 e E2, enquanto que a empresa de pior desempenho foi a E9. Para obter os escores, basta aplicar os valores amostrais dados pela Tabela 1.1 nas componentes principais estimadas. Por exemplo, para encontrar o escore da empresa E1 na 1a componente, fazemos

Y1 = 0, 4251 9893 + 0, 0277 564 + 0, 9047 17689 20224, 8

12

Tabela 1.4: Escores da 1a componente Empresa Escores 1a componente E1 20224,8 E2 19446,5 E3 22625,1 E4 10676,4 E5 15211,3 E6 5451,8 E7 5862,2 E8 7570,8 E9 3638,0 E10 7519,0 E11 7378,0 E12 10802,3

1.5

Estima c ao das componentes principais via matriz de correla co es

Um aspecto importante a ser considerado e que as componentes principais n ao s ao as mesmas quando se alteram as escalas de medida das vari aveis originais, o que constitui uma desvantagem s eria a este tipo de an alise. Por exemplo, se tivermos tr es vari aveis peso em quilos, altura em metros e idade em anos e pretendermos que a componente principal venha expressa em gramas, cent metros e d ecadas, existem duas alternativas poss veis: a) multiplicar as vari aveis, respectivamente, por 1000, 100 e as componentes principais, ou
1 10

e depois estimar

b) aplicar a an alise de componentes principais e, em seguida, multiplicar os seus 1 . elementos por 1000, 100 e 10 Infelizmente, os dois m etodos alternativos resultam, em geral, em diferentes componentes principais e em diferentes propor co es da vari ancia total explicada por cada uma delas. A tentativa de resolu ca o deste problema a inconst ancia das componentes principais perante altera c oes das escalas de medida das vari aveis pode ser feita de duas formas:
tentar que todas as vari aveis estejam denidas na mesma unidade de medida,

o que nem sempre e poss vel; 13

padronizar todas as vari aveis para que tenham vari ancia unit aria e encontrar

as componentes principais a partir da matriz de correla co es. A segunda op c ao e a alternativa mais utilizada em situa co es em que as vari aveis s ao muito discrepantes umas em rela ca o ` as outras. Estimar as componentes principais a partir de vari aveis padronizadas corresponde exatamente a aplicar a an alise de componentes principais a ` matriz de correla co es amostral R. O procedimento matem atico e exatamente o mesmo e as componentes principais passam a ser os autovetores normalizados associados aos autovalores de R. A soma dos autovalores passa a ser p, o n umero de vari aveis e a vari ancia total das vari aveis padronizadas. A propor ca o da varia c ao explicada pela i- esima componente Yi passa ent ao a ser i e a correla c ao entre a componente Yj e a vari avel padronizada Zi passa a ser p Yj ,Zi = Yj ,Xi = eji j .

1.6

Quantas componentes devem ser retidas?

Uma pergunta que surge naturalmente e: quantas componentes devem ser retidas? Na pr atica, o pesquisador que utiliza a t ecnica de componentes principais em seus dados est a interessado na possibilidade de interpreta ca o e na signic ancia das solu c oes das componentes encontradas. Se o n umero de componentes retidas for muito pequeno, pode haver uma redu c ao exagerada da dimensionalidade dos dados, provocando uma demasiada perda de informa ca o. Se o n umero e grande, pode-se n ao atender aos objetivos de redu ca o. Dessa forma, alguns crit erios s ao utilizados para auxiliar na decis ao de quantas componentes reter:
Crit erio de Kaiser (1958): Este crit erio sugere manter na an alise as compo-

nentes principais correspondentes aos autovalores maiores do que a m edia dos autovalores, se a an alise for baseada na matriz de covari ancias, ou as componentes correspondentes aos autovalores maiores que 1, se a matriz de correla co es e usada. Seguindo este crit erio, pode-se descartar componentes principais com contribui c oes importantes;
Reter o n umero de componentes principais que acumulem pelo menos certa

porcentagem da variabilidade total dos dados, digamos 70%.


Uma ferramenta que pode auxiliar na escolha de quantos componentes reter e

o gr aco dos autovalores, conhecido como scree-plot. Comumente, a diferen ca 14

entre os primeiros autovalores e grande e diminui para os u ltimos. A sugest ao e fazer o corte quando a varia ca o passa a ser pequena. A Figura 1.1 mostra um exemplo do gr aco scree-plot.

Figura 1.1: Exemplo de um gr aco scree-plot Exemplo: Suponha que as vari aveis X1 , X2 , X3 , X4 e X5 representem as observa c oes semanais das taxas de retorno das a co es de cinco empresas (Allied Chemical, DuPont, Union Carbide, Exxon e Texaco). Ap os 100 semanas, obteve-se: = [0, 0054 0, 0048 0, 0057 0, 0063 0, 0037]t X e,

15

R=

1, 000 0, 577 0, 509 0, 387 0, 462

0, 577 1, 000 0, 599 0, 389 0, 322

0, 509 0, 599 1, 000 0, 436 0, 426

0, 387 0, 389 0, 436 1, 000 0, 523

0, 462 0, 322 0, 426 0, 523 1, 000

Os autovalores e os respectivos autovetores normalizados da matriz R s ao dados por:

1 = 2, 857

2 = 0, 809

3 = 0, 540

4 = 0, 452

5 = 0, 343

e1 =

0, 464 0, 457 0, 470 0, 421 0, 421

e2 =

0, 240 0, 509 0, 260 0, 526 0, 582

e3 =

0, 612 0, 178 0, 335 0, 541 0, 435

e4 =

0, 387 0, 206 0, 662 0, 472 0, 382

e5 =

0, 451 0, 676 0, 400 0, 176 0, 385

Usando as vari aveis padronizadas, encontramos as componentes principais:

Y1 = 0, 464Z1 + 0, 457Z2 + 0, 470Z3 + 0.421Z4 + 0.421Z5 Y2 = 0, 240Z1 + 0, 509Z2 + 0, 260Z3 0, 526Z4 0, 582Z5 Y3 = 0, 612Z1 + 0, 178Z2 + 0, 335Z3 + 0, 541Z4 0, 435Z5 Y4 = 0, 387Z1 + 0, 206Z2 0, 662Z3 + 0, 472Z4 0, 382Z5 Y5 = 0, 451Z1 + 0, 676Z2 0, 400Z3 0, 176Z4 + 0, 385Z5 em que ( Xi i ) i

Zi =

sendo i o desvio-padr ao da vari avel Xi . A porcentagem da varia ca o total explicada por cada componente e dada por: 16

1a Componente: 1
5

100 =

2, 857 100 = 57, 14% 5

j
j =1

2a Componente: 2
5

100 =

0, 809 100 = 16, 18% 5

j
j =1

3a Componente: 3
5

100 =

0, 540 100 = 10, 80% 5

j
j =1

4a Componente: 4
5

100 =

0, 452 100 = 9, 04% 5

j
j =1

5a Componente: 5
5

100 =

0, 343 100 = 6, 86% 5

j
j =1

Nesse caso, se aplicarmos os Crit erio de Kaiser, reter amos apenas uma componente principal (apenas um autovalor maior que um) e perder amos muita informa ca o, pois a primeira componente principal explica apenas 57,14% da varia ca o total do sistema. Estar amos ent ao, descartando componentes com contribui co es importantes. Uma solu c ao e utilizar o crit erio de reter o n umero de componentes principais que acumulem pelo menos certa porcentagem da variabilidade total dos dados. Se retermos as duas primeiras componentes principais, teremos uma explica ca o de

17

1 + 2 2, 857 + 0, 809 100 = 100 = 73, 32% p 5 e obteremos uma solu ca o com uma interpreta ca o interessante. A primeira componente consiste em um ndice das cinco a co es e pode ser chamada de componente de mercado. A segunda componente representa um contraste entre as a co es das empresas qu micas (Allied Chemical, DuPont e Union Carbide) e as a co es das empresas petrol feras (Exxon e Texaco), podendo ser denominado de componente industrial. As demais componentes restantes, de dif cil interpreta ca o, representam no seu conjunto a varia ca o provavelmente espec ca de cada a ca o.

1.7

Solu c ao utilizando o software R

Existem v arias maneiras de se realizar uma an alise de componentes principais no R: as mais utilizadas s ao as fun c oes princomp() e prcomp() do pacote stats. Essencialmente, essas fun c oes calculam os mesmos valores (tecnicamente a fun ca o princomp() (menos est avel) estima as componentes usando autovalores e autovetores da matriz de covari ancias ou matriz de correla c oes, enquanto que a fun c ao prcomp() (mais est avel) estima as componentes usando uma decomposi ca o de valor singular da matriz de dados, m etodo este preferido para exatid ao num erica e computacional. Como exemplo de utiliza ca o dessas fun co es no R, considere o seguinte banco de dados: USArrests. Este conjunto de dados cont em informa c oes sobre as pris oes ocorridas nos EUA em 1973 para cada 100.000 habitantes. A propor ca o da popula ca o, quantidade de assaltos, assassinatos e estupros em cada um dos 50 estados dos EUA s ao registrados. > ## Habilita o banco de dados USArrests > data(USArrests)

> ## Lista as vari aveis presentes no banco > names(USArrests) [1] "Murder" "Assault" "UrbanPop" "Rape"

18

Nesse caso, temos quatro vari aveis: Murder, Assault, UrbanPope Rape. A an alise de componentes principais pode ser utilizada para reduzir esse conjunto de dados para uma dimens ao menor ou igual a quantidade de vari aveis dispon veis. Antes de tudo, vamos dar uma olhada no help() das fun co es. Veja que e poss vel especicar o primeiro argumento em forma de f ormula, mas o mais comum e usar o segundo exemplo, onde o primeiro argumento e x. Esse x pode ser uma matriz ou um data-frame que cont em os dados que ser a usados na an alise. No nosso exemplo, x ser a a matriz de dados USArrests. > help(prcomp) > help(princomp) Primeiro, vamos fazer uma PCA utilizando a matriz de correla co es atrav es da fun c ao princomp(): > ## Estimar as componentes principais > pca1 <- princomp(USArrests, cor=TRUE)

> ## Mostra a porcentagem de vari^ ancia explicada por cada CP > summary(pca1) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.5748783 0.9948694 0.5971291 0.41644938 Proportion of Variance 0.6200604 0.2474413 0.0891408 0.04335752 Cumulative Proportion 0.6200604 0.8675017 0.9566425 1.00000000

> ## Mostra as cargas das componentes principais > loadings(pca1) Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder -0.536 0.418 -0.341 0.649 Assault -0.583 0.188 -0.268 -0.743 UrbanPop -0.278 -0.873 -0.378 0.134 Rape -0.543 -0.167 0.818 19

Comp.1 Comp.2 Comp.3 Comp.4 SS loadings 1.00 1.00 1.00 1.00 Proportion Var 0.25 0.25 0.25 0.25 Cumulative Var 0.25 0.50 0.75 1.00 Observa c ao: Aqui, coecientes com valores menores que 0, 1 s ao omitidos. > ## Gr afico biplot > biplot(pca1)

5 Mississippi North Carolina South Carolina

0.2

0.3

West Virginia Vermont Georgia Alabama Arkansas Alaska Kentucky Murder Louisiana Tennessee South Dakota Montana North Dakota Assault Maryland Maine Wyoming Virginia Idaho New Mexico Florida New Hampshire Michigan Indiana Nebraska Iowa Missouri Kansas Oklahoma Rape Texas Delaware Oregon Pennsylvania Wisconsin Minnesota Illinois Ohio Arizona Nevada New York Colorado Washington Connecticut New Jersey Utah Island Massachusetts Rhode California Hawaii UrbanPop 0.2 0.1 0.0 Comp.1 0.1 0.2 0.3

Comp.2

0.0

0.1

0.2

0.1

Este comando gera o diagrama de dispers ao das duas primeiras componentes principais, sendo plotados todas as observa co es e as dire co es de m axima correla ca o das vari aveis em estudo. Neste gr aco, pode-se notar que as vari aveis Murder, Assault e Rape s ao altamente correlacionadas (em valor absoluto) com a primeira componente, enquanto que a vari avel UrbanPop e fortemente correlacionada com a segunda componente. Isso pode ser observado devido ao fato das setas associadas a `s respectivas vari aveis serem quase paralelas aos respectivos eixos. Oberva-se tamb em, 20

que as cidades que est ao mais ` a esquerda do gr aco s ao aquelas com maiores ndices de criminalidade. Da mesma forma, cidades que se encontram mais acima no gr aco s ao aquelas que possuem a menor propor ca o da popula ca o detida. Pode-se notar que o diagrama de dispes ao ca bastante polu do, sobretudo se o n umero de observa c oes for bastante grande. Al em disso, pode ser de interesse do pesquisador plotar apenas as vari aveis, omitindo as observa co es. Nesse caso faz-se o seguinte: > > > > plot(pca1$loadings, asp = 1, pch = 20) abline(v = 0, h = 0) arrows(0, 0, pca1$loadings[, 1], pca1$loadings[, 2]) text(pca1$loadings, rownames(pca1$loadings), pos = 2)

0.4

Murder

0.2

Assault

Comp.2

0.0

0.2

Rape

0.8

0.6

0.4

UrbanPop 1.0 0.5 Comp.1

0.0

21

> ## Mostra os escores das componentes principais > pca1$scores[1:6,] Comp.1 Comp.2 Comp.3 Comp.4 Alabama -0.9855659 1.1333924 -0.44426879 0.156267145 Alaska -1.9501378 1.0732133 2.04000333 -0.438583440 Arizona -1.7631635 -0.7459568 0.05478082 -0.834652924 Arkansas 0.1414203 1.1197968 0.11457369 -0.182810896 California -2.5239801 -1.5429340 0.59855680 -0.341996478 Colorado -1.5145629 -0.9875551 1.09500699 0.001464887 (mostrados aqui apenas os escores dos 6 primeiros indiv duos. Para mostrar todos: pca1$scores). > screeplot(pca1, npcs=4, type="lines") ## Mostra o gr afico scree-plot

pca1
2.5 Variances 1.0 1.5 2.0
q

0.5

q q

Comp.1

Comp.2

Comp.3

Comp.4

22

Observa c ao: Para realizar a an alise de componentes principais usando a matriz de covari ancias, basta usar o seguinte comando: > pca2 <- princomp(USArrests)

Usando a fun c ao prcomp() e a matriz de correla co es: > ## Estimar as componentes principais usando a matriz de correla c~ oes > pca3 <- prcomp(USArrests, scale = TRUE) Observa c ao: pca3 <- prcomp(USArrests) ## usando a matriz de covari ancias > pca3 Standard deviations: [1] 1.5748783 0.9948694 0.5971291 0.4164494 Rotation: PC1 PC2 PC3 PC4 Murder 0.5358995 -0.4181809 0.3412327 0.64922780 Assault 0.5831836 -0.1879856 0.2681484 -0.74340748 UrbanPop 0.2781909 0.8728062 0.3780158 0.13387773 Rape 0.5434321 0.1673186 -0.8177779 0.08902432

23

> plot(pca3, type="lines") ## Scree plot

pca3
2.5 Variances 1.0 1.5 2.0
q

0.5

q q

> summary(pca3) Importance of components: PC1 PC2 PC3 PC4 Standard deviation 1.57 0.995 0.5971 0.4164 Proportion of Variance 0.62 0.247 0.0891 0.0434 Cumulative Proportion 0.62 0.868 0.9566 1.0000

> ## Para encontrar os escores > pca3$x[1:6,] PC1 PC2 PC3 PC4 0.9756604 -1.1220012 0.43980366 0.154696581 1.9305379 -1.0624269 -2.01950027 -0.434175454 1.7454429 0.7384595 -0.05423025 -0.826264240 -0.1399989 -1.1085423 -0.11342217 -0.180973554 24

Alabama Alaska Arizona Arkansas

California Colorado

2.4986128 1.4993407

1.5274267 -0.59254100 -0.338559240 0.9776297 -1.08400162 0.001450164

(mostrados aqui apenas os escores dos 6 primeiros indiv duos. Para mostrar todos: pca3$x). > biplot(pca3)

0.2

UrbanPop Hawaii California Rhode Island Massachusetts Utah New Jersey Connecticut Washington Colorado New York Nevada Arizona Ohio Illinois Minnesota Wisconsin Pennsylvania Oregon Texas Rape Delaware Oklahoma Kansas Missouri Michigan Nebraska Indiana Iowa New Hampshire Florida New Mexico Virginia Idaho Wyoming Maine Maryland Assault North Dakota Montana South Dakota Louisiana Murder Kentucky Tennessee Arkansas AlabamaAlaska Georgia Vermont West Virginia South Carolina North Carolina Mississippi 0.3 0.2 0.1 0.0 PC1 0.1 0.2

0.0

0.1

PC2

0.2

0.1

Observe que os resultados encontrados utilizando a fun ca o prcomp() s ao an alogos aos encontrados utilizando a fun c ao princomp(), a menos de sinal, o que pode ser observado no gr aco biplot.

1.8

1. O arquivo prod.dat re une um conjunto de informa c oes sobre a produtividade de 9 tipos de cereais em 20 microregi oes do Estado de Minas Gerais. Utilize o software R para resposta ` as quest oes propostas. 25

0.3

Exerc cios

a) Diga, justicando sua resposta, se uma An alise de Componentes Principais sobre a matriz de covari ancias dos dados permite reduzir a dimensionalidade dos dados sem grande perda de informa ca o. b) Construa o diagrama de dispers ao com os escores das 20 microregi oes obtidos pelas duas primeiras componentes principais. Analise este gr aco, identicando as microregi oes mais isoladas. c) Calcule os coecientes de correla ca o entre a primeira componente principal e as vari aveis batata, milhoe feij ao. Repita para a segunda componente principal. d) Interprete as componentes encontradas. Fa ca um gr aco biplot e interprete. e) Efetue agora uma An alise de Componentes Principais dos dados, mas agora baseada na matriz de correla co es. Compare os resultados das duas ACPs. Comente.

2. O arquivo setores.dat apresenta as porcentagens de pessoas empregadas em 9 setores distintos para 26 pa ses europeos. As vari aveis estudadas foram: AGR: Agricultura MIN: Minera ca o CON: Constru ca o Civil SER: Industria de Servi cos ENER: Energia SSP: Servi cos Sociais e Pessoais MAN: Manufaturas FIN: Finan cas TC: Transportes e Comunica c oes Neste caso, a An alise de Componentes Principais pode ser u til para compreender as rela co es entre os pa ses e as vari aveis. Realize uma ACP utilizando a matriz de covari ancias e utilizando a matriz de correla co es. Discuta os resultados, informando quantas componentes devem ser retidas. Compare os resultados obtidos. 3. Um pesquisador coletou informa c oes sobre 100 respondentes acerca das seis vari aveis de opini ao p ublica apresentadas a seguir:
X1 X2 X3 X4 X5 X6 O O O O O O governo governo governo governo governo governo deveria deveria deveria deveria deveria deveria investir mais dinheiro em escolas investir mais dinheiro para reduzir o desemprego controlar os grandes neg ocios acelerar o m da discrimina c ao racial atrav es de transporte escolar zelar para que as minorias obtenham suas respectivas quotas de emprego expandir o programa Bolsa Fam lia

26

As correla c oes amostrais entre as vari aveis s ao dadas na tabela abaixo: X1 1,0000 0,6008 0,4984 0,1920 0,1959 0,3466 X2 1,0000 0,4749 0,2196 0,1912 0,2979 X3 X4 X5 X6

X1 X2 X3 X4 X5 X6

1,0000 0,2079 0,2010 0,2445

1,0000 0,4334 0,3197

1,0000 0,4207

1,0000

a) Analise esses dados usando a an alise de componentes principais. b) Quanta varia ca o e explicada pelas duas primeiras componentes principais? c) Como voc e interpretaria as duas primeiras componentes? 4. Os dados abaixo referem-se ` as notas obtidas por 11 estudantes do Ensino M edio em 5 disciplinas oferecidas no primeiro semestre de 2011:

X1 X2 X3 X4 X5

Matem atica Portugu es Hist oria Geograa Biologia

Aluno X1 1 2 3 4 5 6 7 8 9 10 11 51 27 37 42 27 43 41 38 36 26 29

X2 36 20 22 36 18 32 22 21 23 31 20

X3 50 26 41 32 33 43 36 31 27 31 25

X4 35 17 37 34 14 35 25 20 25 32 26

X5 42 27 30 27 29 40 38 16 28 36 25

27

a) Utilize as matrizes S e R para estimar as componentes principais. Neste caso, qual voc e acha ser a an alise mais apropriada? b) Encontre a propor ca o da varia ca o total explicada por cada componente em cada caso. c) Baseado no gr aco Screeplot ou em algum outro crit erio, decida quantas componentes principais dever ao ser retidas em cada caso. d) Interprete as componentes principais encontradas em ambos os casos.

28

Cap tulo 2 An alise Fatorial


2.1 Introdu c ao

O objetivo essencial da an alise fatorial e descrever, se poss vel, as rela c oes de covari ancia entre as v arias vari aveis em termos de um n umero reduzido de quantidades aleat orias subjacentes, mas n ao observ aveis, chamadas fatores. Por exemplo, suponhamos que medimos vinte caracter sticas f sicas do corpo de uma pessoa: al tura, comprimento do tronco e das extremidades, largura dos ombros, peso, etc. E intuitivo que todas estas medidas n ao s ao independentes entre si e conhecendo algumas delas, podemos facilmente estimar o valor das demais. Uma explica c ao para este fato e que as dimens oes do corpo humano dependem de certos fatores e, se estes forem conhecidos, poder amos facilmente estimar, com pequeno erro, o valor dessas vari aveis observadas. Como segundo exemplo, considere que desejamos estudar o desenvolvimento humano em diversos pa ses e que dispomos de v arias vari aveis econ omicas, sociais e demogr acas, geralmente dependentes entre si, relacionadas ao processo de desenvolvimento. Podemos questionar se o desenvolvimento de um pa s pode ser explicado por um pequeno n umero de fatores, tais que, conhecidos seus valores, poder amos estimar os valores das vari aveis de cada pa s. Quando desenvolvemos uma pesquisa cient ca, devemos primeiramente denir as vari aveis de interesse. A deni ca o sobre o que medir e como medir s ao fundamentais na constru ca o dos objetivos da pesquisa. Quando estamos interessados em medir as caracter sticas f sicas do corpo de uma pessoa, basta utilizarmos instrumentos de medidas tradicionais, como uma ta m etrica, balan ca, etc. No entanto, quando se est a lidando com atitudes, cren cas, percep co es e outras no c oes psicol ogicas, nossos instrumentos de medidas ao, na melhor das hip oteses, imperfeitos. 29

Para exemplicar, considere que o interesse de uma empresa e mensurar o n vel de satisfa c ao do clienteem rela c ao aos seus produtos, a m de entend e-lo melhor e denir como ele e inuenciado pelas a c oes da empresa. A pergunta que surge naturalmente e como obter essa medida de interesse, j a que uma precisamos mensurar um conceito abstrato, geralmente denominados de constructos. Muitas vezes, um constructo n ao pode ser medido atrav es da observa ca o de uma u nica vari avel. No caso da pesquisa de satisfa ca o do cliente, pode ser muito dif cil projetar uma u nica pergunta que capte exatamente este constructo. Neste caso, a empresa pode elaborar um question ario com v arias quest oes, cada uma insuciente, mas projetadas de forma a captar alguma fra c ao da satisfa ca o do consumidor. Neste contexto, a an alise fatorial busca identicar a vari ancia comum subjacente a essas quest oes que reetem a satisfa ca o do cliente, e separar os erros n ao sistem aticos na medida. Em outras palavras, a an alise fatorial busca identicar os constructos existentes em um conjunto de dados, al em de nos fornecer meios para med -los.

2.2

O Modelo Fatorial Ortogonal

Suponha um vetor aleat orio X = [X1 , X2 , , Xp ]t . Sejam E (X) = = [1 , 2 , , p ]t , o vetor de m edias e pp , a matriz de covari ancias do vetor X. O modelo de an alise fatorial ortogonal estabelece as seguintes rela co es:

X1 1 = l11 F1 + l12 F2 + + l1m Fm + X2 2 = l21 F1 + l22 F2 + + l2m Fm + . . . Xp p = lp1 F1 + lp2 F2 + + lpm Fm +

1 2

no qual F1 , F2 , , Fm s ao os fatores comuns n ao observ aveis, ou (latentes), 1 , 2 , , s ao os fatores espec cos associados a cada vari avel e os coecientes lij , i = 1, 2, , p, j = 1, 2, , m s ao chamados de cargas fatoriais, ou (loadings). O modelo fatorial pode ser representado gracamente pela Figura 2.1. As setas no diagrama que apontam para cada vari avel observada, representada nas caixas, indicam uma fonte de varia c ao que contribui para a medida dessas vari aveis.

30

Figura 2.1: Diagrama de caminhos de um modelo fatorial ortogonal Neste caso, cada medida Xi , i = 1, , p possui m + p fontes que contribuem para a varia ca o (ambas n ao observ aveis): m fatores comuns F e p fatores espec cos . Em nota c ao matricial, temos: = LF + X com F = [F1 , F2 , , Fm ]t , = [ 1 , 2 , , p ]t , e, L= l11 l12 l1m l21 l22 l2m . . . ... . . . . . . lp1 lp2 lpm

Para constru ca o do modelo fatorial ortogonal, algumas suposi c oes se fazem necess arias: a) E (F) = 0 e Cov(F) = I, ou seja, os fatores t em m edia igual a zero, vari ancias iguais a 1 e n ao s ao correlacionados. b) E ( ) = 0 e Cov( ) = = diag(1 , 1 , , p ) ou seja, os erros t em m edia zero, s ao n ao correlacionados e n ao necessariamente tem a mesma vari ancia. c) F e s ao independentes, ou seja, Cov(F, ) = 0: fontes de varia ca o distintas.

A partir dessas suposi c oes, podemos analisar o modelo proposto e interpretar suas componentes.

31

2.2.1

Propriedades

P1 ) A matriz cargas fatoriais L cont em as covari ancias entre os fatores comuns e as vari aveis observadas. De fato, observe que: (X )Ft = (LF + )Ft = LFFt + Ft Assim,

Cov(X, F) = E [(X )Ft ] = E [LFFt + Ft ] = E (LFFt ) + E ( Ft ) = LE (FFt ) + E ( Ft ) = LI+0 = L Esta equa ca o indica que os termos lij da matriz de cargas L representam a covari ancia entre a vari avel Xi e o fator Fj . No caso particular em que as vari aveis X est ao padronizadas, os termos lij indicam as correla c oes entre as vari aveis e os fatores. Quando as vari aveis n ao est ao padronizadas, uma forma de facilitar a interpreta ca o, e medir a correla c ao entre o fator e cada vari avel observada da seguinte forma: cor(Xi , Fj ) = P2 ) Observe que: Cov(Xi , Fj ) lij = i VarXi VarFj

(X )(X )t = (LF + )(LF + )t = (LF + )(Ft Lt + = (LF + )(Ft Lt + = LFFt Lt + LF De modo que: 32
t t

) )
t

+ Ft Lt +

= E (X )(X )t = E [LFFt Lt + LF
t

+ Ft L t +

]
t t

= E (LFFt Lt ) + E (LF t ) + E ( Ft Lt ) + E ( = LE (FFt )Lt + LE (F t ) + E ( Ft )Lt + E ( = LILt + L 0 + 0 Lt + = LLt +

) )

Essa rela ca o estabelece que a matriz de covari ancias admite uma decomposi c ao como uma soma de duas matrizes: a) A primeira, LLt , e uma matriz sim etrica de posto m < p. Esta matriz cont em a parte comum ao conjunto de vari aveis e depende das covari ancias entre as vari aveis e os fatores. b) A segunda, , e uma matriz diagonal e cont em a parte espec ca de cada vari avel ou especicidade. Esta decomposi c ao implica que as vari ancias das vari aveis observadas podem ser escritas como:
m

ii =

2 li 1

2 li 2

+ +

2 lim

+ i =
j =1

2 lij + i ,

i = 1, , p

onde o primeiro termo indica a soma dos efeitos dos fatores comuns e o segundo, o efeito da perturba c ao. Chamando
m

h2 i

=
j =1

2 lij

a soma dos efeitos dos fatores comuns que denotaremos por comunalidade, temos ii = h2 i + i , i = 1, , p

Podemos ent ao, interpretar essa igualdade como a decomposi c ao da vari ancia em:

33

vari ancia observada = vari ancia comum (comunalidade) + vari ancia espec ca (especicidade) Al em disso, as covari ancias entre as vari aveis Xi e Xj s ao dadas por: ij = li1 lj 1 + li2 lj 2 + + lim ljm , i, j = 1, , p, i = j

P3 ) Se uma matriz L satisfaz a rela ca o = LLt + , ent ao existem innitas matrizes L que tamb em satisfazem essa rela c ao. De fato, considere uma t t matriz ortogonal T, isto e, TT = T T = I, qualquer. Seja L = LT, ent ao,

L Lt + = (LT)(LT)t + = LTTt Lt + = LILt + = LLt + = A escolha de uma boa solu ca o ser a discutida posteriormente. Exemplo: Suponha que temos tr es vari aveis que podem ser explicadas por dois fatores. A matriz de covari ancias, ent ao, deve vericar a seguinte igualdade:

11 12 13 l11 l12 21 22 23 = l21 l22 31 32 33 l31 l32

l11 l21 l31 l12 l22 l32

1 0 0 + 0 2 0 0 0 3

Esta igualdade produz 6 equa co es distintas (lembrando que a matriz e sim etrica). Por exemplo, a primeira ser a dada por:

2 2 11 = l11 + l12 + 1 2 2 2 Chamando h2 1 = l11 + l12 , temos que 11 = h1 + 1 .

As seis equa c oes distintas s ao dadas por:

ii = h2 i + i ,

i = 1, 2, 3 i, j = 1, 2, 3, i = j

ij = li1 lj 1 + li2 lj 2 ,

34

Observa c ao: Para facilitar a interpreta ca o das comunalidades, utilizamos a medida


2 2 = hi h i ii

A vantagem de tal medida e que ela assume valores entre [0, 1], podendo ser interpretada como a propor ca o da variabilidade de Xi que e explicada pelos fatores comuns. Quanto mais pr oximo de 1 (100 %), melhor o ajuste do modelo.

2.2.2

Padroniza c ao das vari aveis

Um incoveniente ao se realizar uma an alise fatorial utilizando a matriz de covari ancias ocorre quando as vari aveis possuem vari ancias de magnitudes diferentes. Alguns m etodos de estima c ao dos modelos fatoriais s ao muito sens veis ` a diferen cas entre as vari ancias, conforme veremos adiante. Nestes casos, faz-se necess aria a padroniza ca o das vari aveis e ent ao a an alise fatorial. Assim, as covari ancias correspondem a `s correla co es entre as vari aveis e a decomposi c ao dada pela rela ca o = LLt + deve ser feita sobre a matriz de correla c oes dos dados originais P, isto e,

P = LLt + Ao realizarmos a an alise sobre a matriz de correla co es, temos as seguintes adapta c oes dos resultados anteriores: a) As cargas fatorias s ao as correla co es entre as vari aveis originais e os fatores comuns: Cor(Xi , Fj ) = lij b) Ao analisar a matriz de correla c oes, trabalhamos com as vari aveis padronizadas e,
m

ii = 1 =

2 li 1

2 li 2

+ +

2 lim

+ i =
j =1

2 + i , lij

i = 1, , p

isso faz com que as comunalidades possam ser interpretadas como a propor ca o da variabilidade explicada pelos fatores.

35

2.3

Estima c ao do valor de m

A escolha do n umero de fatores e uma das tarefas mais importantes da an alise fatorial. Como regra geral, essa escolha deve basear-se no compromisso entre o n umero de fatores, que a princ pio deve ser o menor poss vel, e a capacidade de interpret a-los. Alguns crit erios, j a vistos no cap tulo anterior, auxiliam na decis ao de quantos fatores reter. Estaremos sempre nos referindo a `s matrizes de covari ancias ou correla c oes populacionais, uma vez que a extens ao para as matrizes amostrais e direta. 1. An alise da propor ca o da varia ca o total relacionada com cada autovalor i dada por i i = 1, , p 11 + + pp para an alise fatorial baseada na matriz de covari ancias ou, i p para an alise fatorial baseada em na matriz de correla co es P. Permanecem aqueles autovalores que representarem as maiores propor co es da varia ca o total, o e portanto o valor de m ser a igual ao n de autovalores retidos. 2. O valor de m ser a igual ao no de autovalores i de P maiores que 1 ou igual ao no de autovalores maiores que a m edia dos autovalores de . 3. Gr aco Screeplot.

2.4

M etodos de obten c ao dos fatores

Escolhido o valor de m, e poss vel estimar as matrizes L e . Obtidas as cargas fatoriais e as vari ancias espec cas os fatores comuns s ao identicados e s ao estimados os valores para os fatores, chamados escores fatoriais.

2.4.1

M etodos dos Componentes Principais

Seja a matriz de covari ancias com pares de autovalor e autovetor (i , ei ), o i = 1, , m, sendo m o n de autovalores retidos, conforme visto acima e 1 2 m (m < p). Ent ao pela decomposi ca o espectral da matriz , temos: 36

t t 1 e1 et 1 + 2 e2 e2 + + m em em

1 e 1 2 e 2

m e m

1 e1 2 e2 . . . m e m

=L L t

Incluindo os fatores espec cos no modelo, suas vari ancias podem ser tomadas t t L , onde L L foi denido como acima. Assim, como elementos da diagonal de L

L t + L

1 e1

2 e2

m em

1 e 1 2 e 2 . . . m em

1 0 0 0 2 0 . . ... . . . . . . . 0 0 p

onde i = ii
j =1

2 lij para i = 1, , p.

= Assim, L

1 e 1

2 e 2

m e m

= diag( L L t ). e

t Note que, uma vez que os autovetores s ao ortonormais, isto e, et i ei = 1 e ei ej = 0, p 2 se i = j , temos que lij = ( ei )t ( j ei ) = j , ou seja, os autovalores expressam i=1

a parcela da variabilidade total explicada pelo fator j .

Exemplo: As disciplinas cl assicas de um curso secund ario se dividem, em linhas gerais, em disciplinas de Ci encias e Letras, as primeiras com conte udo mais emp rico e racional e as segundas com conte udo mais human stico e art stico. Consideremos as disciplinas Ci encias Naturais (CNa), Matem atica (Mat), Portugu es (Por), Latin (Lat) e Literatura (Lit). As notas obtidas de n = 20 alunos nas cinco disciplinas s ao dadas pela Tabela 2.1.

37

Tabela 2.1: Notas de 20 alunos em 5 disciplinas cl assicas de um curso secund ario Disciplinas Aluno CNa Mat Por Lat Lit 1 7 7 5 5 6 5 5 6 6 5 2 3 5 6 5 7 5 6 8 5 6 6 4 5 7 6 6 7 6 6 4 4 6 7 6 7 5 5 5 5 6 5 6 5 5 5 8 6 5 7 6 6 9 10 6 5 6 6 6 6 7 5 6 5 11 12 5 5 4 5 4 6 6 6 6 5 13 14 8 7 8 8 8 15 6 7 5 6 6 4 3 4 4 4 16 17 6 4 7 8 7 6 6 7 7 7 18 19 6 5 4 4 4 7 7 6 7 6 20 Temos que a matriz de correla co es amostral R e dada por: R= 1, 000 0, 656 0, 497 0, 420 0, 584 0, 656 1, 000 0, 099 0, 230 0, 317 0, 497 0, 099 1, 000 0, 813 0, 841 0, 420 0, 230 0, 813 1, 000 0, 766 0, 584 0, 317 0, 841 0, 766 1, 000

L t + , onde Temos que, pelo m etodo dos componentes principais, R = L = = diag(R L L t ). 1e me L 1 m e Vamos ent ao, calcular os autovalores e autovetores normalizados da matriz R: 1 = 3, 167 2 = 1, 196 3 = 0.338 4 = 0, 194 5 = det(R I ) = 0 = 0, 103 Os autovetores normalizados s ao dados por:

38

t e 1 = t e 2 = t e 3 = t e 4 = t e 5 =

0, 429 0, 279 0, 491 0, 480 0, 519 0, 454 0, 741 0, 365 0, 293 0, 158 0, 628 0, 491 0, 210 0, 563 0, 066 0, 386 0, 172 0, 046 0, 511 0, 747 0, 255 0, 322 0, 761 0, 326 0, 382

Tomando m = 2 (no de autovalores maiores que 1), temos:

= L 1e 1 2e 2

= 3 , 167

0, 429 0, 279 0, 491 0, 480 0, 519

1 , 196

0, 454 0, 741 0, 365 0, 293 0, 158

0, 763 0, 497 0, 497 0, 809 0, 876 0, 398 0, 852 0, 323 0, 920 0, 171

Podemos observar que as vari aveis P or, Lat e Lit est ao altamente correlacionadas com o fator F1 , que representa as disciplinas de Letras. As outras vari aveis, CN a e M at, est ao relacionadas com o fator F2 , que representa as disciplinas de Ci encias. Note que, baseado nessa primeira an alise, ca dif cil decidir sobre a rela ca o entre as vari aveis CN a e M at e o fator F2 . Isso pode ser resolvido com o conceito de rota ca o dos fatores, que discutiremos posteriormente. Vamos estimar agora a matriz . Temos que:

39

L t L = =

0, 763 0, 497 0, 497 0, 809 0, 876 0, 398 0, 852 0, 323 0, 920 0, 171 0, 829 0, 781 0, 471 0, 489 0, 617 0, 781 0, 901 0, 114 0, 162 0, 319

0, 763 0, 497 0, 876 0, 852 0, 920 0, 497 0, 809 0, 398 0, 323 0, 171

0, 471 0, 114 0, 926 0, 875 0, 874

0, 489 0, 162 0, 875 0, 830 0, 839

0, 617 0, 319 0, 874 0, 893 0, 876

L t) diag(R L 1, 000 0, 656 0, 497 0, 420 0, 584 0, 656 1, 000 0, 099 0, 230 0, 317 = diag 0, 497 0, 099 1, 000 0, 813 0, 841 0, 420 0, 230 0, 813 1, 000 0, 766 0, 584 0, 317 0, 841 0, 766 1, 000 0, 171 0, 125 0, 026 0, 069 0, 125 0, 099 0, 014 0, 067 0, 026 0, 014 = diag 0 , 074 0 , 062 0, 067 0, 062 0, 170 0, 069 0, 033 0, 002 0, 033 0, 072 0, 171 0 0 0 0 0 0, 099 0 0 0 = 0 0 0, 074 0 0 0 0 0 0, 170 0 0 0 0 0 0, 124 =

0, 829 0, 781 0, 471 0, 489 0, 617 0, 033 0, 002 0, 033 0, 072 0, 124

0, 781 0, 901 0, 114 0, 162 0, 319

0, 471 0, 114 0, 926 0, 875 0, 874

0, 489 0, 162 0, 875 0, 830 0, 839

0, 617 0, 319 0, 874 0, 893 0, 876

As comunalidades s ao dadas na Tabela 2.2: Tabela 2.2: Comunalidades e especicidades: m etodo dos componentes principais Vari avel Fator Letras Fator Ci encia Comunalidade Especicidade CNa 0,763 0,497 0,829 0,171 Mat 0,497 0,809 0,901 0,099 Por 0,876 -0,398 0,926 0,074 Lat 0,852 -0,323 0,830 0,170 Lit 0,920 -0,171 0,876 0,124

40

2.4.2

M etodo dos Fatores Principais

Uma vez escolhido o valor de m, a ideia b asica desse m etodo e renar os estimadores de L e geradas pelo m etodo dos componentes principais. Considere o . modelo P = LLt + , onde P e a matriz de correla ca o te orica do vetor aleat orio X Tem-se ent ao: LL = P =
t

h2 12 1p 1 2p 21 h2 2 . . . .. . . . . . . . p1 p2 h2 p

em que h2 ao as comunalidades. i = 1 i , i = 1, , p, s Suponha que se estime a matriz LLt por R dada por:

R =

h2 r1p 1 r12 r21 h2 r2p 2 . . . . . . .. . . . . rp1 rp2 h2 p

L L t (2.1)

2 2 2 2 onde h2 ao estimativas iniciais das comunalidades h2 1 , h2 , , hp s 1 , h2 , , hp .

Usando-se o m etodo dos componentes principais, tem-se: = L

1 e 1

2 e 2

m e m

1 2 m p s 1 , e 2 , , e m , , e p , onde ao os autovalores e e os respectivos autovetores normalizados da matriz R . , tem-se portanto novas estimativas das comunalidades que A partir da matriz L s ao ent ao colocadas na diagonal principal da matriz em (2.1) e o procedimento de estima ca o da matriz L pelo m etodo de componentes principais e repetido. Faz-se isso at e que as diferen cas entre as comunalidades de duas itera co es sucessivas sejam insignicantes. A solu ca o pelo m etodo de fatores principais requer que as comunalidades sejam espec cadas antes do primeiro fator extra do. Existem m etodos para estimar as

41

comunalidades. Os mais comuns s ao: 2 = 1 , j = 1, , p , ou seja, tomar cada comunalidade igual a 1. Dessa a) h j forma, R = R e a solu ca o pelo m etodo dos fatores principais e id entica ` a solu ca o pelo m etodo dos componentes principais. 2 b) h ca o da regress ao linear, j e escolhido como sendo o coeciente de determina na qual a vari avel Zj e a vari avel resposta e as outras p 1 vari aveis s ao as explicativas. 2 c) h axima correla ca o, em valor absoluto, em cada j e escolhido como sendo a m coluna da matriz R, excluindo-se os elementos da diagonal principal. Exemplo: Voltando ao exemplo das disciplinas, a solu ca o encontrada pelo m etodo dos fatores principais e dada pela Tabela 2.3: Tabela 2.3: Comunalidades e especicidades: m etodo dos fatores principais Vari avel Fator Letras Fator Ci encia Comunalidade Especicidade CNa 0,692 0,362 0,610 0,390 0,504 0,846 0,968 0,032 Mat 0,892 -0,400 0,956 0,044 Por Lat 0,798 -0,235 0,693 0,307 0,898 -0,147 0,828 0,172 Lit

2.4.3

M etodo da M axima Verossimilhan ca

Np (, ). Neste caso, o vetor alet Suponha que o vetor aleat orio X orio Np (0, P), onde P padronizado Z e a matriz de correla ca o das vari aveis originais. = LF + , temos que os fatores Considerando o modelo fatorial ortogonal X F1 , F2 , , Fn t em distribui c ao normal multivariada com vetor de m edias igual a zero e matriz de covi ancias Imm e os erros 1 , 2 , , p tem distribui c ao normal p-variada com vetor de m edias zero e covari ancia pp . Temos, pelo modelo fatorial, que = LLt + , e, assim, a fun c ao de verossimilhan ca considerando uma amostra alet oria de tamanho n observada no vetor aleat orio X e dada por:

(, ) =
i=1

fi (xi ) =

1 (2 )
np 2

1 n exp 2 || 2
n

(xj j )t 1 (xj j )
j =1

(2.2)

1 1 = np n exp 2 (2 ) 2 |LLt + | 2 42

(xj j )t (LLt + )1 (xj j )


j =1

A fun ca o de verossimilhan ca (2.2) depende dos par ametros L e , atrav es da matriz de covari ancias . Os estimadores de m axima verossimilhan ca de L e s ao e que maximizam a fun as matrizes L ca o de verossimilhan ca (, ). Exemplo: No exemplo das disciplinas, a solu ca o encontrada pelo m etodo da m axima verossimilhan ca e dada pela Tabela 2.4: Tabela 2.4: Comunalidades e especicidades: m etodo da m axima verossimilhan ca Vari avel Fator Letras Fator Ci encia Comunalidade Especicidade CNa 0,415 0,670 0,622 0,378 < 0,100 0,997 0,995 0,005 Mat Por 0,971 0,128 0,960 0,040 Lat 0,803 0,254 0,709 0,291 0,823 0,816 0,795 0,205 Lit

2.5

Rota c ao dos fatores

Conforme vimos na propriedade P3 ) do modelo fatorial ortogonal, se a matriz de cargas fatorias L satisfaz a rela ca o = LLt + , ent ao existem innitas matrizes L que tamb em satisfazem essa rela c ao, atrav es de uma multiplica ca o por uma matriz ortogonal, o que e equivalente a realizar rota co es. Algebricamente, a an alise fatorial est a denida no espa co das colunas de uma matriz de cargas fatoriais, de forma que qualquer base desse espa co vetorial poder a ser uma solu ca o. Neste contexto, procura-se solu co es baseando-se na interpretabilidade dos fatores. Intuitivamente, ser a mais f acil interpretar um fator quando este se associa fortemente a um bloco de vari aveis observadas. Isto ocorrer a se as colunas da matriz de cargas fatoriais, que representam o efeito de cada fator sobre as vari aveis observadas, contiver valores altos para certas vari aveis e pequenos para outras. Essa ideia pode surgir de diferentes formas, dando origem a diversos crit erios de rota ca o. Os coecientes da matriz ortogonal que dene a rota ca o s ao obtidos minimizando uma fun c ao objetivo que expressa a simplicidade desejada na representa ca o conseguida ao rotacionar os fatores. Neste material, abordaremos somente as rota co es ortogonais, ou seja, os fatores rotacionados continuar ao a ser n ao correlacionados. Nessas rota co es, as comunalidades e especicidades das vari aveis permanecem inalteradas. O crit erio mais utilizado e o Varimax, como veremos a seguir:

43

2.5.1

Crit erio Varimax

Busca a melhor rota ca o dos eixo, de modo que a nova matriz de cargas L = LT tenha o maior n umero de coecientes nulos. A simplicidade de um fator j e denida como a vari ancia de suas cargas fatoriais ao quadrado, isto e,
p p 2

1 Vj = p onde lij =

1 ( lij )4 2 p i=1

( lij )2
i=1

lij , o coeciente da i- esima vari avel no j- esimo para j = 1, , m e lij hi fator ap os a rota c ao.

Quando a vari ancia atinge um valor m aximo, o fator tem a maior interpretabilidade ou simplicidade, no sentido de que as cargas desse fator tamb em tendem a ` unidade ou a ` zero. O crit erio seleciona os coecientes lij que maximizam a soma dessas simplicidades, ou seja,
m

V =

1 p

j =1

1 ( lij )4 p i=1

( lij )2
i=1

= LT s = lij hi , i = Os coecientes nais da matriz transformada L ao lij 1, , p.

Exemplo: No exemplo das disciplinas, a solu ca o encontrada pelo m etodo da m axima verossimilhan ca e aplicada a rota ca o Varimax e dada pela Tabela 2.5: Tabela 2.5: Comunalidades e especicidades: m etodo da m axima verossimilhan ca e rota ca o Varimax Vari avel Fator L Fator C Fator L Rot Fator C Rot h2 i i CNa 0,415 0,670 0,463 0,638 0,622 0,378 Mat < 0,100 0,997 < 0,100 0,997 0,995 0,005 Por 0,971 0,128 0,978 < 0,100 0,960 0,040 Lat 0,803 0,254 0,819 0,194 0,709 0,291 Lit 0,823 0,816 0,846 0,282 0,795 0,205

44

2.6

Escores fatoriais

Embora o interesse principal da an alise fatorial seja, usualmente, estimar os par ametros do modelo, os valores estimados dos fatores comuns, chamados escores fatoriais tamb em podem ser requisitados. Essas quantidades, que correspondem aos valores de cada fator para cada indiv duos, s ao muitas vezes usadas na constru ca o de ndices, para fazer diagn osticos ou como entrada em an alises subseq uentes. Os escores fatoriais n ao s ao par ametros do modelo, s ao valores atribu dos ` as vari aveis hipot eticas e por isso n ao podem ser estimados no sentido estat stico usual. Na an alise de componentes principais, os componentes eram denidos como fun c oes lineares das vari aveis observadas e ent ao os valores de cada componente para cada indiv duo (escores) podiam ser facilmente encontrados. Na an alise fatorial, os fatores n ao s ao combina c oes lineares das vari aveis observadas e os escores n ao podem ser encontrados da mesma maneira. Apresentamos agora, dois m etodos de previs ao dos escores fatoriais: o m etodo dos m nimos quadrados ponderados e o m etodo da regress ao.

2.6.1

M etodo dos M nimos Quadrados Ponderados

= Vamos supor que s ao conhecidos todos os par ametros do modelo fatorial X LF + . Uma vez que Var( i ) = i , i = 1, , p, temos que, a soma dos quadrados dos erros, ponderados pelo rec proco de suas vari ancias e igual a:

2 i

i=1

1 = (x Lf )t 1 (x Lf )

(2.3)

O estimador f de f que minimiza a equa c ao 2.3 e dado por: f = (Lt 1 L)1 Lt 1 (X ) , e Tomando os estimadores de L , temos que os escores fatoriais para o j- esimo fator s ao dados por: ) t 1 L )1 L t 1 (Xj X fj = (L

45

2.6.2

M etodo da Regress ao

, F e tenham A partir do modelo fatorial original, suponha que os vetores X = LF + distribui ca o normal multivariada. Temos que a combina ca o linear X ) e F tem distribui ca o normal Np (0, LLt + ) e a distribui ca o conjunta de (X e normal (p + m)-variada com vetor de m edias 0(m+p)1 e matriz de covari ancias dada por: LLt + Lt L Im

A distribui ca o condicional de F|x e normal multivariada com m edia:

) = Lt (LLt + )1 (X ) E (F|x ) = Lt 1 (X Cov(F|x ) = I Lt 1 L = I Lt (LLt + )1 L , e, tomando as estimativas das Deste modo, dados n valores amostrais do vetor X matrizes L e pelo m etodo da m axima verossimilhan ca como os valores verdadeiros, o j- esimo vetor de escores fatoriais ser a estimado por: 1 (Xj X ) = L L t + )1 (Xj X ) t t (L fj = L

2.7

Solu c ao utilizando o software R

Consideremos o banco de dados livros.dat dispon vel em anexo. Este banco cont em as notas, variando de 0 a 100, de 88 estudantes em cinco disciplinas, a saber: MEC VET ALG ANA EST = = = = = Mec anica Vetores Algebra An alise Estat stica

Al em disso, sabe-se que as notas das duas primeiras disciplinas, Mec anica e Vetores, foram obtidas sem consulta a livros e as restantes, com consulta aos livros. 46

Vamos ent ao, carregar o banco de dados: > notas = read.table("livros.dat", header = T) Uma breve descri ca o dos dados pode ser vista com a fun ca o summary(): > summary(notas) MEC Min. : 0.00 1st Qu.:30.00 Median :41.50 Mean :38.95 3rd Qu.:49.25 Max. :77.00 EST Min. : 9.00 1st Qu.:31.00 Median :40.00 Mean :42.31 3rd Qu.:51.50 Max. :81.00 VET Min. : 9.00 1st Qu.:42.00 Median :51.00 Mean :50.59 3rd Qu.:60.00 Max. :82.00 ALG Min. :15.00 1st Qu.:45.00 Median :50.00 Mean :50.60 3rd Qu.:57.25 Max. :80.00 ANA Min. : 9.00 1st Qu.:35.75 Median :49.00 Mean :46.68 3rd Qu.:57.00 Max. :70.00

Vamos analisar o diagrama de dispers ao das vari aveis tomadas duas a duas a m de visualizar a rela ca o e associa ca o entre elas:

47

> plot(notas, main = "notas")


notas
20 40 60 80
q q q q qq q qq q qq q q qq qq q q q qq q q q qq q q q q q q q q q q qq q qq q q q q q q q q qq q qq qq q q q q q q q q q q qq q q q q q qq q qq q q q qq q q q q q qq q q q q q q q q q q q q q q q qq qq q q q qqq q q q qq q q q q q q q q q q q qq q q q q qq q q q q qq q q q q qq qq q q q q q qq q q q q q qq q qq q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq qq q q q q q qq q q qq q q q q q q qq q q q q q q q qq q q q q qq q q q q q qq q q q qq q qq q q q q q q q q q q qq q q q q q q q qq q qqq q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q qqq q q q qq qq q q q q q q qq q qq q q q qq q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q qq q q q q q q q q q q qq q qq q q q q q qq qq q q qq q q q q q q q q q qq q q q q qq q q q q q q q q q qq q q q q qq q qq q qq q q q q q qq q q q q q q q q q q qq q q q q q q q qq q q q q q q q q q qqq q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q q q q q q qq q q q qq q q q q q q q q q qqq q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq qq q q qq q q qq q q q qq q q q q q q q q q q q q qq q qq qq q q q qq q q q q q q q q q q q q q q qq q qq q qq q q q q q q q q q q q q q q q q q qq qqq qq q q q q q q qq q q q q q q q q

10

30

50

70
q q q q qq q q q qq q q q q q q q q q qq q q qq q q q q q q q q q qq q q qq q q q q q q qqq q q q qq qqq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q qqq q q q qq q q q q q qq q q qq q q qq q q q q q q q q q qq q q qq q q q q q q qq q q q q q q q q q q q qq q qq q q q q q q q q qq qq q q q q q q q q q q q q q q q q qq q q qqq q q q q q q q q q q q q qq q q q q q q q q q q qq qq qq q q q q qq q q q qq q q q q qq q qq q qq q q q qq qq q q qq q q q q q qq q q q qq q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q

q q q q q q q q qq qq q q q q q qq qq q q q q q q q q q q q q q q q q q q qq q q qq q q q qq q q q q q q q q q q q qq q q qq q qq q q q q qq q q q qq qq q q q

VET

20

q q qq q q q q q q q q q q qq q q qq q q q q q q q q q q q qq q q q q q qq qq q q q q q q qq qq q q q qqq q q q qq qqq qq qq q q q q q q q q q q q q q q

60

ALG
q

q qq q qq q q qq q qq q qq qq qq q q q q qq q q q q q q qq q q q qq q q qq q q q q q q q q q q q q qq q q qq qq q qq q q q q q q

70

10

q q q q q q q q qqq q qq q q q q q qq q q q qq qq q qqq qq qq qq q q q qq q q qq qq q q q q q q q q q q qq q qq q q qq q qq q q q q q q q q q q q q q q q

50

30

ANA

20

60

20

40

60

80

10 30 50 70

Figura 2.2: Diagrama de dispers ao das cinco vari aveis do banco livros.dat tomadas duas a duas A matriz de correla co es dos dados e dada por: > R = cor(notas) > R MEC 1.0000000 0.5534052 0.5467511 0.4093920 0.3890993 VET 0.5534052 1.0000000 0.6096447 0.4850813 0.4364487 ALG 0.5467511 0.6096447 1.0000000 0.7108059 0.6647357 ANA 0.4093920 0.4850813 0.7108059 1.0000000 0.6071743 EST 0.3890993 0.4364487 0.6647357 0.6071743 1.0000000

MEC VET ALG ANA EST

Gr aco box-plot:

48

10

q q q qq q q q q q q q q q qq q qq q q q q q q q qqq qq q q qq q q q qq q q q q q q q q q q q q q q q q qq q q qq q q q q q qq q q q qq q q q q

qq q q q qq q qq q q q q q q qq q q qq qq qq q q q q q q q q q q qq q q q q q q q q q qq q q q q q qq qq q q q qqq qq qqq q q q q q

EST

40

70

20 40 60 80

0 20

MEC

q q q qq q q q q q q q q qq q q q q q q q qq qq q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq qq q qq qq q q q q q q q q q q q q q qq q q q

60

> boxplot(notas, main = "box-plot notas")

boxplot notas
80

40

60

20

q q q

MEC

VET

ALG

ANA

EST

Figura 2.3: Gr aco box-plot das cinco vari aveis do banco livros.dat A an alise fatorial pode ser utilizada para reduzir esse conjunto de dados para uma dimens ao menor ou igual a quantidade de vari aveis dispon veis. O primeiro passo e determinar quantos fatores devem ser utilizados. Uma abordagem bastante pr atica e a an alise do gr aco screeplot. Nessa abordagem a escolha do n umero de fatores se d a no cotovelodo gr aco. Essa e uma metodologia de natureza subjetiva (ou seja, n ao h a uma deni ca o clara do objetivo que constitui uma queda substancial, nesse caso, descrita pelo cotovelodo screeplot). Uma alternativa e utilizar a metodologia da An alise Paralela de Horn(1965). > library(nFactors)

> ## Obt^ em os autovalores observados da matriz de correla c~ oes amostrais. > autovalores <- eigen(R)$values > autovalores 49

[1] 3.1809801 0.7395718 0.4449651 0.3878924 0.2465905 Note que temos apenas um autovalor maior que 1, indicando que podemos estimar apenas um fator, isto e, m = 1. > ## Obt^ em o n umero de observa c~ oes da base de dados. > nobservacoes <- nrow(notas)

> ## Computa o n umero de vari aveis. > variaveis <- length(autovalores)

> ## Define o n umero de repeti c~ oes para a estima c~ ao do n umero > ## de fatores por meio da an alise paralela Horn (1965). > rep <- 1000

> ## Valor do centil para a an alise fatorial. > cent <- 0.95 A deni c ao dos m etodos para estimar o n umero de fatores e dado por: > help(parallel)

> ## An alise paralela de Horn (1965) para determina c~ ao do n umero de fatores. > ap <- parallel(subject=nobservacoes,var=variaveis,rep=rep,cent=cent)

> ## N umero de fatores segundo diferentes regras > apAutovet <- ap$eigen Os resultados s ao gerados e armazendados no objeto results: > ## Guarda os resultados > results <- nScree(eig = autovalores,aparallel=apAutovet$qevpea) > results 50

> ## Imprime os resultados > plotnScree(results)

Non Graphical Solutions to Scree Test


q(OC) q

Eigenvalues (>mean = 1 ) Parallel Analysis (n = 1 ) Optimal Coordinates (n = 1 ) Acceleration Factor (n = 1 )

Eigenvalues

1.0

1.5

2.0

2.5

3.0

q(AF)

0.5

q q

3 Components

noc naf nparallel nkaiser 1 1 1 1 1 O m etodo de an alise gr aca do screeplot indica a presen ca de um fator. Para proceder com a an alise, utilizamos a fun ca o factanal(). Como a estima c ao dos fatores pela fun ca o factanal() do R e realizada por meio de m axima verossimilhan ca, o pressuposto de normalidade multivariada e exigido. Apesar dos m etodos indicarem a presen ca de um fator, estimaremos dois fatores para apresentar como a an alise gr aca pode ser utilizada nesses casos. > ## Realiza a an alise fatorial para dois fatores. > af_1 = factanal(notas, 2, rotation = "none") > af_1 Call: factanal(x = notas, factors = 2, rotation = "none") 51

Uniquenesses: MEC VET ALG ANA EST 0.466 0.419 0.189 0.352 0.431 Loadings: Factor1 Factor2 MEC 0.628 0.373 VET 0.695 0.312 ALG 0.899 ANA 0.780 -0.201 EST 0.727 -0.200 Factor1 Factor2 SS loadings 2.824 0.319 Proportion Var 0.565 0.064 Cumulative Var 0.565 0.629 Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 0.07 on 1 degree of freedom. The p-value is 0.785 A sa da da fun c ao factanal() compreende basicamente duas informa co es importantes: uma primeira diz respeito ` as vari ancias espec cas ou especicidade das vari aveis, representadas em Uniquenesses (estimativas da diagonal da matriz ), a `s cargas fatoriais, representadas em Loadings (estimativa da matriz L) e a tabela de vari ancia explicada, onde se tem a vari ancia de cada fator (SS loadings), a propor c ao da varia c ao total explicada por cada fator (Proportion Var) e a propor c ao da varia ca o total explicada pelos m primeiros fatores (Cumulative Var). Uma segunda informa ca o que a fun ca o retorna e um teste de hip oteses sobre a bondade do ajuste do modelo, que neste caso, aceitou a hip otese nula de que dois fatores s ao sucientes para explicar a varia ca o do conjunto de dados original (p-valor = 0,785). Note que, apesar de termos suposto a exist encia de dois fatores, n ao conhecemos o seu signicado. Somente sabemos que s ao duas vari aveis aleat orias normais padronizadas. Neste contexto, tamb em se necessita de uma interpreta c ao dos fatores dada atrav es da matriz de cargas fatoriais L, que neste caso tamb em representa a 52

matriz das correla c oes entre as vari aveis X e os fatores F. > ## Mostra a matriz de cargas fatoriais > unclass(af_1$loadings) Factor1 Factor2 0.6283935 0.3731279 0.6953763 0.3120836 0.8994080 -0.0499577 0.7796021 -0.2010654 0.7273443 -0.1998705 Representa ca o gr aca: > plot(rbind(unclass(af_1$loadings), c(0, 0)), type = "n") > arrows(0, 0, af_1$loadings[, 1], af_1$loadings[, 2], col = "red") > text(unclass(af_1$loadings), names(notas), col = "blue")

MEC VET ALG ANA EST

MEC 0.3 VET

Factor2

0.0

0.1

0.2

ALG 0.1 0.2

EST ANA 0.0 0.2 0.4 Factor1 0.6 0.8

53

Analisando o gr aco acima, podemos observar que o primeiro fator pode ser associado a ser bom alunoem todas as disciplinas e o segundo fator enfatiza na distin ca o entre aqueles que s ao bons em disciplinas sem consulta a livros e os que s ao bons naquelas que s ao permitidas consultas a livros na realiza ca o da avalia c ao. Para vericar o ajuste do modelo, e desej avel obter uma estimativa da matriz de correla c ao com base nos fatores e os correspondentes res duos: > estR <- af_1$loadings %*% t(af_1$loadings) + diag(af_1$uniquenesses) > Res = R - estR > Res MEC VET ALG ANA EST 2.671292e-07 -1.192266e-05 2.095624e-04 -5.481777e-03 6.618074e-03 -1.192266e-05 2.637076e-07 -1.914151e-04 5.713624e-03 -6.953058e-03 2.095624e-04 -1.914151e-04 2.065223e-08 -4.192968e-04 5.713067e-04 -5.481777e-03 5.713624e-03 -4.192968e-04 4.011667e-08 -5.191412e-05 6.618074e-03 -6.953058e-03 5.713067e-04 -5.191412e-05 9.569022e-07

MEC VET ALG ANA EST

Analisando a matriz residual, podemos observar que, salvo alguns casos, as correla co es entre as vari aveis est ao bem representadas. Para utilizarmos o m etodo dos componentes principais para estima c ao das matrizes L e , utilizamos a fun c ao pcFactanal() dada abaixo: > pcFactanal <- function(x, factors, scores = "none") { + mc <- match.call() + R <- cor(x) + Rsvd <- svd(R) + loa <- Rsvd$u %*% diag(Rsvd$d^0.5) + loa <- loa[, 1:factors] + colnames(loa) <- paste("Factor", 1:factors, sep = "") + uni <- diag(R - loa %*% t(loa)) + if (scores == "none") + sco <- NA + else sco <- scale(x) %*% solve(R) %*% loa + rownames(loa) <- colnames(x) + colnames(loa) <- paste("Factor", 1:factors, sep = "") + class(loa) <- "loadings" 54

+ + + + + + }

res <- list(loadings = loa, uniquenesses = uni, correlation = R, factors = factors, method = "PC(svd)", call = mc, scores = sco, dof = 100, STATISTIC = NA, PVAL = NA) class(res) <- "factanal" return(res)

Dessa forma, > af_2 <- pcFactanal(notas, 2) > af_2 Call: pcFactanal(x = notas, factors = 2) Uniquenesses: MEC VET ALG ANA EST 0.184 0.264 0.182 0.224 0.225 Loadings: Factor1 MEC -0.713 VET -0.769 ALG -0.898 ANA -0.815 EST -0.782

Factor2 0.555 0.380 -0.111 -0.334 -0.405

Factor1 Factor2 SS loadings 3.181 0.740 Proportion Var 0.636 0.148 Cumulative Var 0.636 0.784 Test of the hypothesis that 2 factors are sufficient. The chi square statistic is NA on 100 degrees of freedom. The p-value is NA Note que neste caso, o teste de hip oteses sobre a bondade do ajuste do modelo n ao est a dispon vel (o resultado e NA, n ao dispon vel em R). 55

A interpreta c ao dos fatores se d a da mesma forma que no m etodo anterior, atrav es da matriz de cargas fatoriais L, que neste caso representa tamb em as correla co es entre as vari aveis originais e os fatores. > unclass(af_2$loadings) Factor1 Factor2 -0.7127067 0.5550836 -0.7694490 0.3796873 -0.8976179 -0.1109959 -0.8150623 -0.3335926 -0.7816221 -0.4045832

MEC VET ALG ANA EST

> plot(rbind(unclass(af_2$loadings), c(0, 0)), type = "n") > arrows(0, 0, af_2$loadings[, 1], af_2$loadings[, 2], col = "red") > text(unclass(af_2$loadings), names(notas), col = "blue")

MEC 0.4

VET

Factor2

0.0 ALG 0.2

0.2

ANA 0.4 EST 0.8 0.6 0.4 Factor1 0.2 0.0

56

Como se pode observar, a interpreta c ao e similar ao caso anterior, salvo o sentido dos vetores. Para comprovar o ajuste do modelo obtemos a estima ca o da matriz de correla c oes baseada nos fatores e os respectivos res duos: > estRcp <- af_2$loadings %*% t(af_2$loadings) + diag(af_2$uniquenesses) > ResCP = R - estRcp > ResCP MEC 0.00000000 -0.20574447 -0.03137518 0.01366338 0.05660943 VET -0.20574447 0.00000000 -0.03888276 -0.01540672 -0.01135454 ALG ANA EST -0.03137518 0.01366338 0.05660943 -0.03888276 -0.01540672 -0.01135454 0.00000000 -0.05783606 -0.08176935 -0.05783606 0.00000000 -0.16486231 -0.08176935 -0.16486231 0.00000000

MEC VET ALG ANA EST

Estimando as matrizes F e pelo m etodo dos fatores principais, utilizando a fun c ao pfFactanal() dada por: > pfFactanal <- function(x, factors, numIt, scores = "none") { + mc <- match.call() + R <- cor(x) + diag.1 <- diag(rep(1, ncol(R))) + cor.min <- R - diag.1 + h2 <- apply(abs(cor.min), 2, max) + cor.reduced <- cor.min + diag(h2) + eig <- eigen(cor.reduced) + pf.1 <- eig$vectors[, 1:factors] %*% diag(eig$values[1:factors]^{ + 1/2 + }) + apply(pf.1^2, 1, sum) + for (i in 1:numIt) { + h2 <- apply(pf.1^2, 1, sum) + cor.reduced <- cor.min + diag(h2) + eig <- eigen(cor.reduced) + pf.1 <- eig$vectors[, 1:2] %*% diag(eig$values[1:2]^{ + 1/2 + }) + } 57

+ + + + + + + + + + + + + + }

colnames(pf.1) <- paste("Factor", 1:factors, sep = "") uni <- diag(R - pf.1 %*% t(pf.1)) if (scores == "none") sco <- NA else sco <- scale(x) %*% solve(R) %*% pf.1 rownames(pf.1) <- colnames(x) colnames(pf.1) <- paste("Factor", 1:factors, sep = "") class(pf.1) <- "loadings" res <- list(loadings = pf.1, uniquenesses = uni, correlation = R, factors = factors, method = "PC(svd)", call = mc, scores = sco, dof = 100, STATISTIC = NA, PVAL = NA) class(res) <- "factanal" return(res)

Dessa forma, > af_3 <- pfFactanal(notas, 2, 100) > af_3 Call: pfFactanal(x = notas, factors = 2, numIt = 100) Uniquenesses: MEC VET ALG ANA EST 0.470 0.416 0.188 0.350 0.432 Loadings: Factor1 Factor2 MEC -0.643 0.342 VET -0.708 0.287 ALG -0.897 ANA -0.771 -0.235 EST -0.718 -0.228 Factor1 Factor2 SS loadings 2.829 0.314 Proportion Var 0.566 0.063 58

Cumulative Var

0.566

0.629

Test of the hypothesis that 2 factors are sufficient. The chi square statistic is NA on 100 degrees of freedom. The p-value is NA Da mesma maneira que nos m etodos anteriores, > unclass(af_3$loadings) Factor1 Factor2 -0.6427483 0.34238878 -0.7081925 0.28687387 -0.8966056 -0.08718706 -0.7710248 -0.23504626 -0.7179803 -0.22818566

MEC VET ALG ANA EST

> plot(rbind(unclass(af_3$loadings), c(0, 0)), type = "n") > arrows(0, 0, af_3$loadings[, 1], af_3$loadings[, 2], col = "red") > text(unclass(af_3$loadings), names(notas), col = "blue")

59

MEC 0.3 VET

Factor2

0.1 0.2

0.0 ALG

0.1

0.2

EST ANA 0.8 0.6 0.4 Factor1 0.2 0.0

E a matriz residual e dada por: > estRfp <- af_3$loadings %*% t(af_3$loadings) + diag(af_3$uniquenesses) > ResFP = R - estRfp > ResFP MEC VET ALG ANA EST 0.000000e+00 -6.730573e-06 0.0003112745 -5.705669e-03 5.746881e-03 -6.730573e-06 0.000000e+00 -0.0003129921 6.475908e-03 -6.559071e-03 3.112745e-04 -3.129921e-04 0.0000000000 -9.922978e-04 1.095714e-03 -5.705669e-03 6.475908e-03 -0.0009922978 0.000000e+00 -4.052745e-05 5.746881e-03 -6.559071e-03 0.0010957138 -4.052745e-05 0.000000e+00

MEC VET ALG ANA EST

Ao analisarmos a matriz de cargas fatoriais estimadas L, vericamos que para algumas vari aveis, as correla co es com o segundo fator s ao similares em valor absoluto, por em com sinais distintos (conhecidos como fatores bipolares). Isto signica uma maior diculdade deste fator no ponto de vista da interpreta ca o. No entanto, este fator foi interpretado como o que permite distinguir os estudantes que s ao 60

bons nas disciplinas que n ao permitem consulta a livros, daqueles que s ao bons em disciplinas que permitem consulta a livros na realiza ca o de avalia co es. Por em, esta interpreta c ao n ao e uma boa explica ca o para um fator, isto e, n ao tem sentido como vari avel aleat oria. Admitimos que permite distinguir, mas n ao e atribu do nenhum signicado preciso, como no caso do primeiro fator. Como j a foi visto, o resultado de uma an alise fatorial n ao eu nico, pois os fatores podem se rotacionar, gerando novos fatores que podem permitir uma interpretabilidade mais simples. No R, est ao dispon veis a rota c ao ortogonal Varimax e a rota c ao obl qua promax, ambas no pacote base. Outras rota c oes podem ser encontradas importante destacar que devido ` no pacote GPArotation. E a rota ca o, aparecem novos valores na matriz de cargas fatoriais L e a porcentagem de explica c ao de cada fator e atualizada. Por em, algumas medidas permanecem inalteradas, como as comunalidades, as especicidades e a porcentagem da varia ca o total explicada. Vamos exemplicar o uso da rota c ao Varimax, utilizando o m etodo da m axima verossimilhan ca: > af_4 <- factanal(notas, 2, rotation = "varimax") > af_4 Call: factanal(x = notas, factors = 2, rotation = "varimax") Uniquenesses: MEC VET ALG ANA EST 0.466 0.419 0.189 0.352 0.431 Loadings: Factor1 MEC 0.265 VET 0.356 ALG 0.740 ANA 0.738 EST 0.696

Factor2 0.681 0.674 0.514 0.322 0.290

Factor1 Factor2 SS loadings 1.774 1.370 Proportion Var 0.355 0.274 61

Cumulative Var

0.355

0.629

Test of the hypothesis that 2 factors are sufficient. The chi square statistic is 0.07 on 1 degree of freedom. The p-value is 0.785 Outra forma de se obter o mesmo resultado e utilizando a fun c ao varimax() nos resultados ($loadings) gerados pela fun ca o que estima o modelo fatorial: > varimax(af_1$loadings) $loadings Loadings: Factor1 MEC 0.265 VET 0.356 ALG 0.740 ANA 0.738 EST 0.696

Factor2 0.681 0.674 0.514 0.322 0.290

Factor1 Factor2 SS loadings 1.774 1.370 Proportion Var 0.355 0.274 Cumulative Var 0.355 0.629 $rotmat [,1] [,2] [1,] 0.7880178 0.6156524 [2,] -0.6156524 0.7880178 Aqui podemos ver tamb em, qual a matriz utilizada para a realiza c ao da rota c ao. > plot(rbind(unclass(af_4$loadings), c(0, 0)), type = "n") > arrows(0, 0, af_4$loadings[, 1], af_4$loadings[, 2], col = "red") > text(unclass(af_4$loadings), names(notas), col = "blue")

62

0.7

MEC

VET

0.6

Factor2

0.4

0.5

ALG

ANA EST

0.0 0.0

0.1

0.2

0.3

0.2

0.4 Factor1

0.6

Notemos que agora, todas as cargas s ao positivas, enquanto que a propor ca o da varia ca o explicada por cada fator se altera, permanecendo inalterada a propor ca o da varia c ao total explicada pelos dois fatores. Deste ponto de vista, a interpreta c ao dos fatores se torna muito mais simples, tornando a explica ca o de cada um dos efeitos muito mais clara. Como se v e, todas as cargas (correla co es entre as vari aveis originais e os fatores) s ao grandese positivas, deixando claro que o primeiro fator est a relacionado com a habilidade do aluno realizar os exames com consulta a livros, enquanto que o segundo fator est a relacionado com a habilidade do aluno realizar os exames sem consulta. No caso da estima ca o pelos m etodos dos componentes principais e fatores principais, a interpreta ca o e an aloga, como se segue: > ## M etodo dos componentes principais > vcp = varimax(af_2$loadings) > vcp $loadings

63

Loadings: Factor1 Factor2 MEC -0.191 0.883 VET -0.347 0.785 ALG -0.760 0.490 ANA -0.839 0.267 EST -0.859 0.191 Factor1 Factor2 SS loadings 2.177 1.743 Proportion Var 0.435 0.349 Cumulative Var 0.435 0.784 $rotmat [,1] [,2] [1,] 0.7674058 -0.6411617 [2,] 0.6411617 0.7674058 Gracamente > plot(rbind(unclass(vcp$loadings), c(0, 0)), type = "n") > arrows(0, 0, vcp$loadings[, 1], vcp$loadings[, 2], col = "red") > text(unclass(vcp$loadings), names(notas), col = "blue")

64

MEC 0.8 VET

Factor2

0.6

ALG 0.4 ANA 0.2 0.0 EST

0.8

0.6

0.4 Factor1

0.2

0.0

> ## M etodo dos fatores principais > vfp = varimax(af_3$loadings) > vfp $loadings Loadings: Factor1 Factor2 MEC -0.267 0.677 VET -0.353 0.678 ALG -0.739 0.515 ANA -0.739 0.321 EST -0.695 0.292 Factor1 Factor2 SS loadings 1.771 1.372 Proportion Var 0.354 0.274 Cumulative Var 0.354 0.629 65

$rotmat [,1] [,2] [1,] 0.7612121 -0.6485030 [2,] 0.6485030 0.7612121 Gracamente: > plot(rbind(unclass(vfp$loadings), c(0, 0)), type = "n") > arrows(0, 0, vfp$loadings[, 1], vfp$loadings[, 2], col = "red") > text(unclass(vfp$loadings), names(notas), col = "blue")

0.7

VET MEC

0.6 Factor2 0.4 ANA EST 0.0 0.1 0.2 0.3 0.5 ALG

0.6

0.4 Factor1

0.2

0.0

Finalmente, vamos estimar os escores da an alise fatorial, que podem ser utilizados, por exemplo, em outras an alises multivariadas: Estima ca o do modelo pelo m etodo da m axima verossimilhan ca e dos escores pelo m etodo da regress ao:

66

> ac_1 <- factanal(notas, 2, rotation = "none", scores = "regression") > ## 6 primeiros escores fatoriais > ac_1$scores[1:6,] Factor1 Factor2 2.057047 0.736712901 2.515649 -0.009514187 2.091806 0.358499558 1.512631 0.028705102 1.501893 -0.004922811 1.716691 -0.452148275 Utilizando o m etodo de estima ca o dos escores dos m nimos quadrados: > ac_5 <- factanal(notas, 2, rotation = "none", scores = "Bartlett") > ## 6 primeiros escores fatoriais > ac_5$scores[1:6,] Factor1 Factor2 2.279518 1.71627318 2.787718 -0.02216460 2.318036 0.83517361 1.676223 0.06687245 1.664323 -0.01146836 1.902352 -1.05334107

1 2 3 4 5 6

1 2 3 4 5 6

Estima ca o do modelo pelo m etodo dos componentes principais e dos escores pelo m etodo da regress ao: > ac_2 <- pcFactanal(notas, 2, scores = "regression") > ## 6 primeiros escores fatoriais > ac_2$scores[1:6,] Factor1 -2.402561 -2.546628 -2.300320 -1.697110 -1.615942 -1.675764 Factor2 0.78385475 -0.24804166 0.32044250 -0.17344757 -0.05125695 -0.79218015 67

1 2 3 4 5 6

Estima ca o do modelo pelo m etodo dos fatores principais e dos escores pelo m etodo da regress ao: > ac_3 <- pfFactanal(notas, 2,100, scores = "regression") > ## 6 primeiros escores fatoriais > ac_3$scores[1:6,] Factor1 -2.084821 -2.512944 -2.103189 -1.513224 -1.500132 -1.695658 Factor2 0.65606740 -0.10478004 0.27167121 -0.02882918 -0.07398667 -0.52106028

1 2 3 4 5 6

Observa c ao: Outra maneira de visualizar gracamente a an alise fatorial e por meio do pacote FactoMineR: > ## Mapa fatorial > library(FactoMineR)

> ## Gera os gr aficos automaticamente > resultado <- PCA(notas)

Individuals factor map (PCA)

66 76 2
q q

61
q

54
q

88 Dim 2 (14.79%)
q

87
q

14 10 16 q 50 45 q q qq 4340 q 12 39 q37 55 67 68 q qq 47 44 46 q q q 6260 q 26 1718 q 49 42 q 82 19 q 36 q 29 59 58 q q q q q 25 83q q q 3127 11 q q 21 q 84q 32 qq 56 51 35 q 24 q 9 63 q q 79 7475 q qq q q q 69 q q q q 65 38 80 q q q q q 64 13 86 48 q q q 70 22 q 41 78 q q 57 q 85 q 52 72 q q 77 q q q 30 34 q 2015 q q q 33 73 71 q


q q q

53

1
q

8
q

3
q

5
q

4
q

7
q

2
q

6
q

23
q

28
q

81
q

0 Dim 1 (63.62%)

Figura 2.4: Mapa de fatores para as observa c oes 68

Variables factor map (PCA)


1.0

0.5

MEC VET

Dim 2 (14.79%)

0.0

ALG ANA EST

1.0

0.5

1.0

0.5

0.0 Dim 1 (63.62%)

0.5

1.0

Figura 2.5: Mapa de fatores para as vari aveis A fun ca o PCA do pacote FactoMineR forenece os gr acos para o mapa de fatores para as vari aveis e para as observa co es. Observando os mapas acima, podemos perceber, de forma an aloga a `s anteriores, a rela c ao entre as vari aveis e os fatores. Pode-se notar que, na Figura 2.4, indiv duos que est ao mais a ` direita do gr aco s ao aqueles que possuem maior desempenho nas disciplinas, enquanto que os que est ao mais acima s ao aqueles que tiveram melhor desempenho nas disciplinas sem consulta. O pacote FactoMineR oferece um grande n umero de fun co es adicionais para a an alise fatorial explorat oria. Isto inclui a utiliza ca o de vari aveis quantitativas e qualitativas, bem como a inclus ao de vari aveis suplementares e observa c oes. Al em da an alise fatorial explorat oria (apresentada aqui) ainda existe a possibilidade da an alise fatorial conrmat oria cujo principal objetivo e testar se as medidas dos fatores s ao consistentes com a compreens ao do investigador sobre a natureza do fator. A an alise fatorial conrmat oria e ent ao utilizada para testar se os dados se encaixam no modelo de mensura ca o denido.

69

2.8

Exerc cios

1. Em um estudo desenvolvido em 1939, Holzinger e Swineford coletaram dados de 145 crian cas da 7a e 8a s eries em um total de 26 diferentes testes psicol ogicos. Um conjunto de nove testes e apresentado a seguir: X1 X2 X3 X4 X5 X6 X7 X8 X9 Percep ca o visual Cubos Losangos Compreens ao de par agrafos Complementa ca o de senten cas Signicado de palavras Adi ca o Contagem de pontos Letras mai usculas, retas e curvas

As correla co es amostrais s ao apresentadas a seguir. Analise esses dados utilizando a an alise fatorial. Quantos fatores h a? Como voc e os interpretaria? X1 X2 1.000 0.318 1.000 0.436 0.419 0.335 0.234 0.304 0.157 0.326 0.195 0.116 0.057 0.314 0.145 0.489 0.239 X3 X4 X5 X6 X7 X8 X9

X1 X2 X3 X4 X5 X6 X7 X8 X9

1.000 0.323 0.283 0.350 0.056 0.229 0.361

1.000 0.722 0.714 0.203 0.095 0.309

1.000 0.685 0.246 0.181 0.345

1.000 0.170 1.000 0.113 0.585 1.000 0.280 0.408 0.512

1.000

2. Imagine que voc e foi contratado como assistente de pesquisa por um professor universit ario que est a fazendo uma an alise emp rica. Esse professor possui um conjunto de dados com seis vari aveis correlacionadas (n = 100) e ele solicitou a voc e que conduzisse uma an alise fatorial desses dados. Voc e recebeu as seguintes informa c oes:
As vari aveis s ao simplesmente denominadas X1 a X6 . O professor quer

que voc e seja informado somente pelos padr oes de associa ca o que observa nos dados (e n ao pelos nomes das vari aveis).

70

De acordo com o professor, a maioria das pesquisas emp ricas publicadas

em sua a rea e baseada no modelo de fator comum.


O professor pretende usar os dados em uma an alise subsequente. Por-

tanto, e importante que ele possa interpretar facilmente os resultados que voc e apresentar a ele.
As correla c oes amostrais s ao dadas abaixo:

X1 X2 X3 X4 X5 X6

X1 X2 1.000 0.849 1.000 0.462 0.442 0.416 0.439 0.409 0.360 0.455 0.334

X3

X4

X5

X6

1.000 0.909 0.499 0.478

1.000 0.501 1.000 0.459 0.862

1.000

a) Quantos fatores voc e extrairia dessas seis vari aveis? Explique claramente as raz oes por tr as de sua decis ao. b) Quanta informa ca o do conjunto original das seis vari aveis e explicada por esses fatores? c) Explique claramente (mas de modo sucinto) a rela ca o entre os fatores escolhidos e as vari aveis originais. 3. Em janeiro de 1998, 303 estudantes de MBA foram entrevistados a respeito de suas avalia co es e prefer encias sobre 10 diferentes autom oveis. Os autom oveis, listados em ordem de apresenta ca o na pesquisa, foram BMW 328i, Ford Explorer, Inniti J30, Jeep Grand Cherokee, Lexus ES300, Chrysler Town & Country, Mercedes C280, Saab 9000, Porsche Boxter, Volvo V90. Cada estudante classicou todos os 10 carros, mas um carro foi selecionado aleatoriamente por cada um dos estudantes, resultando em um banco de dados com 303 avalia c oes (Lattin et al., 2011). Os estudantes classicaram cada carro em rela c ao a 16 atributos. As primeiras oito quest oes pediam que os estudantes avaliassem o grau em cada uma das seguintes palavras descrevia um determinado carro (em que 5 = Extremamente descritivae 1 = N ao descreve de maneira alguma: excitante, con avel, luxuoso, pr oprio para o ar livre, poderoso, estiloso, confort avel e vigoroso. As oito quest oes seguintes solicitavam que os estudantes classicassem seu n vel de 71

concord ancia com cada uma das seguintes arma co es sobre um determinado carro (em que 5 = Concordo totalmentee 1 = Discordo totalmente): Este Este Este Este Este Este Este Este carro e gostoso de dirigir carro e seguro carro tem um grande desempenho carro e para a fam lia carro e vers atil carro e esportivo carro e um carro de alto padr ao carro e pr atico

Os dados brutos est ao dispon veis no arquivo MBA_CAR_ATTRIB.txt. a) Realize uma an alise fatorial do conjunto de dados considerando os m etodos de componentes principais, fatores principais e de m axima verossimilhan ca. Compare os resultados. b) Construa um gr aco com os escores fatoriais para cada um dos 10 carros avaliados pelos estudantes. O que o gr aco diz sobre as semelhan cas e as diferen cas entre os modelos? 4. O invent ario de depress ao de Beck (BDI) (Beck. A,T, et al., 1961, An inventory for measuring depression. Archives of General Psychiatry 4, 561-571) consiste de 21 itens destinados a medir supostas manifesta c oes de depress ao Cada item admite valores de 0 a 4; quanto mais alto, mais forte o sentimento. Somando-se as respostas aos 21 itens obt em-se o escore geral de depress ao do respondente. Segue abaixo uma breve descri ca o dos componentes do invent ario. BDI1. Tristeza BDI2. Pessimismo BDI3. Senso de fracasso BDI4. Insatisfa ca o BDI5. Sentimento de culpa BDI6. Expectativa de puni c ao BDI7. Desgosto de si mesmo BDI8. Auto-acusa c ao BDI9. Vontade de se suicidar BDI10. Crises de choro BDI11. BDI12. BDI13. BDI14. BDI15. BDI16. BDI17. BDI18. BDI19. BDI20. BDI21. Irritabilidade Reclus ao social Indecis ao Mudan cas no corpo Lentid ao Ins onia Facilidade em cansar Perda de apetite Perda de peso Preocupa ca o Pouca energia

72

O arquivo BDI.txt cont em resultados de uma amostra de 389 respondentes (249 homens e 140 mulheres). A 22a vari avel no arquivo (GENDER) e o sexo do respondente. Apresente uma an alise desses dados utilizando a t ecnica de an alise fatorial. Para ns de exerc cio, pode ser aplicado o m etodo de m axima verossimilhan ca.

73

Cap tulo 3 An alise Discriminante


3.1 Introdu c ao

A an alise discriminante surgiu com o desejo de se distinguir estatisticamente entre dois ou mais grupos de indiv duos, previamente denidos a partir de caracter sticas conhecidas para todos os membros do grupo. Como exemplos de grupos de indiv duos podemos citar:
os eleitores que votaram no partido maiorit ario nas u ltimas elei co es contra

aqueles que votaram nos outros partidos;


quatro grupos de cidades cuja inclus ao em cada grupo e denido atrav es de

sua densidade populacional;


um grupo de animais usados em experi encias laboratoriais a quem foi dada a

droga A, outro grupo a quem foi dada uma droga B e um terceiro grupo a quem n ao foi ministrada nenhuma droga;
um grupo de clientes banc arios de risco elevado em termos de cr edito, contra

um outro grupo considerado como sendo de risco reduzido;


grupos de consumidores de marcas diferentes de um mesmo produto.

Para distinguir os v arios grupos entre si, o pesquisador seleciona um conjunto de caracter sticas para as quais espera que os grupos apresentem diferen cas signicativas. Por exemplo, no caso dos eleitores que votaram nos diferentes partidos, poderia ser perguntado quais as opini oes pol ticas, os n veis salarial e de instru c ao 74

ou outro tipo de informa c ao, que se pensasse ser relevante para caracterizar e diferenciar os diferentes grupos. Em outras palavras, pretende-se discriminar grupos de indiv duos denidos a priori com base em um crit erio pr e-denido, a partir da informa c ao recolhida sobre os indiv duos desses grupos. Neste contexto, a an alise discriminante surge como uma t ecnica estat stica multivariada que auxilia a identicar quais vari aveis que diferenciam os grupos e quantas dessas vari aveis s ao necess arias para obter a melhor classica ca o dos indiv duos de uma determinada popula ca o. Sua caracter stica b asica e a utiliza ca o de um conjunto de informa c oes obtidas acerca de vari aveis consideradas independentes para conseguir um valor de uma vari avel dependente que possibilite a classica ca o desejada. Na an alise discriminante, a vari avel dependente e de natureza qualitativa (n aom etrica), ou seja, categ orica ou discreta, j a que seu valor representa uma classica c ao estabelecida (bom ou mau, alto ou baixo risco, solvente ou insolvente, aprovado ou reprovado, partido A, B ou C). Como pode ser observado, ela funciona mais como um r otulo do que um valor em si. Com rela c ao ` as vari aveis independentes, estas geralmente s ao m etricas com valores cont nuos, mas tamb em podem assumir valores que representem categorias. Neste material, consideramos que as p vari aveis observadas s ao quantitativas. Para atingir os objetivos da an alise discriminante com vari aveis mistas, e mais comum utilizar regress ao log stica, as arvores de classica c ao e as redes neurais articiais. Os pressupostos da an alise discriminante s ao:
independ encia entre as observa co es; as observa co es s ao membros u nicos de algum grupo; distribui ca o normal multivariada das vari aveis (pode ser relaxada!); as matrizes de covari ancias das vari aveis independentes s ao iguais para as

popula c oes consideradas (hip otese de homocedasticidade);


aus encia de multicolinearidade entre as vari aveis independentes.

3.2

Discrimina c ao e classica c ao em 2 popula co es

Sejam 1 e 2 duas popula c oes, X1 , X2 , , Xp vari aveis observ aveis (indepent dentes) e x = [x1 , x2 , , xp ] as observa c oes das vari aveis sobre um indiv duo w, 75

isto e, w = x. O problema e alocar o indiv duo w em uma das duas popula co es 1 ou 2 . Uma regra discriminante e um crit erio que permite alocar w em uma das duas popula c oes, e que e muitas vezes, e representada atrav es de uma fun ca o discriminante D(w). Podemos pensar em uma regra de classica ca o da seguinte forma:

Se D(w)

0, classicamos w em 1

caso contr ario, classicamos w em 2 Na verdade, esta regra de classica c ao divide o R p em duas regi oes:

R1 = {x|D(x) > 0}

R2 = {x|D(x) < 0}

Figura 3.1: Regi oes de aloca ca o para o caso de duas popula c oes Regi oes de aloca c ao s ao conjunto de valores separados por uma fronteira denida por uma regra discriminante qualquer. Dessa forma, uma observa c ao w pode ser alocada como sendo da popula ca o 1 e ou da popula ca o 2 . A Figura 3.1 ilustra regi oes de aloca c ao para o caso de duas popula c oes. Uma observa ca o importante que se faz necess aria e que na maioria das vezes, a fronteira entre regi oes n ao est a exatamente denida e sempre haver a superposi ca o, isto e, erro de classica ca o. Os gr acos da Figura 3.2 representam o comportamento de duas popula co es em duas situa co es hipot eticas. As areas comuns indicam regi oes em que e dif cil diferenciar as duas popula co es. Ao tormarmos uma decis ao em problemas de classica c ao, podemos alocar um indiv duo em uma popula ca o diferente daquela em que ele realmente pertence. Posteriormente, voltaremos a esse assunto com mais detalhes. 76

Figura 3.2: Area comum para o caso de duas popula co es

3.2.1

Fun c ao discriminante linear

Sejam 1 e 2 os vetores de m edias das vari aveis em 1 e 2 , respectivamente, e suponhamos que a matriz de covari ancias seja comum. A dist ancia quadr atica t de Mahalanobis entre as observa co es x = [x1 , x2 , , xp ] do indiv duo w para a popula c ao e dada por: d2 (x, i ) = (x i )t 1 (x i ), i = 1, 2 Um primeiro crit erio de classica ca o consite em alocar w na popula ca o mais pr oxima:

Se d2 (w, 1 ) < d2 (w, 2 ), classicamos w em 1 caso contr ario, classicamos w em 2 Expressando essa regra como uma fun c ao discriminante, temos:

d2 (x, 2 ) d2 (x, 1 ) = (x 2 )t 1 (x 2 ) (x 1 )t 1 (x 1 ) = xt 1 x + 2 1 2 2xt 1 2 xt 1 x 1 1 1 + 2xt 1 1 = (2 1 )t 1 (2 + 1 ) + 2xt 1 (1 2 ) 77

A express ao acima pode ser reescrita como: 1 L(x) = x (1 + 2 ) 1 (1 2 ) 2 ou ainda,


t

1 L(x) = (1 2 )t 1 x (1 )t 1 (1 + 2 ) 2

(3.1)

Tomando D(x) = (1 2 )t 1 x, temos a chamada fun c ao discriminante linear de Fisher. Note que,

m =

1 ( 2 )t 1 (1 + 2 ) 2 1 1 = (1 2 )t 1 1 + (1 2 )t 1 2 2 1 = [D(1 ) + D(2 )] 2

representa o ponto m edio dos escores das fun c ao discriminante aplicada nas m edias populacionais. A regra de classica c ao ca

Se D(w) > m, classicamos w em 1 caso contr ario, classicamos w em 2 interessante observar que (1 2 )t 1 x = bt x, onde bt = (1 2 )t 1 E e um vetor de dimens ao 1 p. Desse modo, a fun ca o discriminante de Fisher tem a forma: (1 2 )t 1 x = bt x = b1 X1 + b2 X2 + + bp Xp que e uma combina ca o linear das vari aveis originais. Dependendo do valor num erico dessa combina ca o linear, o elemento amostral e classicado em uma ou outra popula c ao. Por sua vez, a constante que delimita a regi ao de classica ca o e uma combina c ao linear dos vetores de m edias das duas popula c oes, isto e: 78

( + 2 ) 1 (1 2 )t 1 (1 + 2 ) = bt 1 2 2

3.2.2

Regra da m axima verossimilhan ca

Suponhamos que f1 (x) e f2 (x) s ao as densidades de x nas popula c oes 1 e 2 , respectivamente. Uma regra de classica ca o consiste em alocar o indiv duo w naquela popula c ao cuja verossimilhan ca das observa c oes x e maior, isto e:

Se f1 (w) > f2 (w), classicamos w em 1 caso contr ario, classicamos w em 2 Podemos denir ent ao, a regra discriminante como:

V (x) = log(f1 (x)) log(f2 (x))

3.2.3

Classica c ao em popula co es normais

Suponhamos agora que a distribui ca o das vari aveis X1 , X2 , , Xp na popula ca o 1 seja Np (1 , 1 ) e na popula ca o 2 seja Np (2 , 2 ). Temos ent ao que,
p 1 1 fi (x) = (2 ) 2 |i | 2 exp{ (x i )t 1 (x i )}, i = 1, 2 2

3.2.3.1

Fun c ao discriminante linear

Se supormos que 1 = 2 e 1 = 2 = , ent ao,

79

V (x) = log(f1 (x)) log(f2 (x)) p 1 1 = log((2 ) 2 || 2 exp{ (x 1 )t 1 (x 1 )}) 2 1 1 p log((2 ) 2 || 2 exp{ (x 2 )t 1 (x 2 )}) 2 p 1 1 = log(2 ) + log(||) (x 1 )t 1 (x 1 ) 2 2 2 p 1 1 + log(2 ) log(||) + (x 2 )t 1 (x 2 ) 2 2 2 1 1 t 1 = (x 1 ) (x 1 ) + (x 2 )t 1 (x 2 ) 2 2 = L(x) que e uma express ao an aloga a ` equa ca o (1) e, portanto, a regra da m axima verossimilhan ca e a fun c ao discriminante linear de Fisher s ao coincidentes. Dessa forma, podemos relaxara pressuposi c ao de normalidade dos dados para a aplica ca o da t ecnica de an alise discriminante. A pressuposi ca o de homocedasticidade (vari ancia comum), se relaxada, transforma a fun c ao discriminante em n ao linear. A fun ca o discriminante passa a ser chamada de fun ca o discriminante quadr atica.

3.2.4

Estima c ao das fun c oes discriminantes

Na pr atica, 1 , 2 , 1 e 2 s ao desconhecidos e devem ser estimados a partir de amostras de tamanho n1 e n2 das popula c oes substituindo 1 e 2 pelos vetores de m edias amostrais X1 e X2 , e as matrizes 1 e 2 pelas matrizes de covari ancias amostrais S1 e S2 . Estimaremos a matriz de covari ancias comum pela matriz amostral Sc dada por: (n1 1)S1 + (n2 1)S2 (n1 + n2 ) 2

Sc =

Assim, a fun c ao discriminante de Fisher e estimada por: 1 X 2 )t S1 X D(X) = (X c al em disso,

80

m=

1 1 ) + D (X 2) D(X 2

3.2.5

Estima c ao das probabilidades de classica c ao incorreta

Quando trabalhamos com classica ca o em duas popula co es, dois tipos de erro devem ser avaliados: a) Erro 1: o elemento amostral pertence, com probabilidade 1, ` a popula c ao 1 , mas e erroneamente classicado na popula c ao 2 . Denotaremos esse erro como P(Erro 1) = p(2|1). b) Erro 2: o elemento amostral pertence, com probabilidade 1, ` a popula c ao 2 , mas e erroneamente classicado na popula c ao 1 . Denotaremos esse erro como P(Erro 2) = p(1|2). Quanto menor forem essas probabilidades, melhor ser a a fun ca o discriminante. Existem diversas maneiras de se estimar essas probabilidades de classica co es incorretas, todas gerando frequ encias de classica co es corretas e incorretas, como sumarizadas pela Tabela 3.1. Tabela 3.1: Frequ encias dos erros de classica c ao Popula c ao classicada pela regra 1 2 Total Popula c ao de origem 1 n11 n12 n1 2 n21 n22 n2 sendo nij , o n umero de elementos pertencentes a ` popula c ao de origem i e que s ao classicados pela fun ca o discriminante como pertencentes a ` popula ca o j , i, j = 1, 2. Quando i = j , tem-se o n umero de classica c oes corretas e quando i = j , tem-se o n umero de classica c oes incorretas. Com base nessas quantidades, podemos estimar as probabilidades de ocorr encia dos erros 1 e 2 por: n12 n1 n21 n2

p(2|1) =

p(1|2) =

sendo n12 o n umero de elementos da popula c ao 1 classicados incorretamente na popula c ao 2 e n21 o n umero de elementos da popula ca o 2 classicados incorre81

tamente na popula c ao 1 . Al em disso, podemos estimar a probabilidade global de acerto da fun ca o discriminante por: n11 + n22 n1 + n2

p(acerto) =

Podemos tamb em, estimar a taxa de erro aparente (TEA): n12 + n21 n1 + n2

T EA =

Exemplo: Mytilicola intestinalis e um parasita cop epode de mexilh oes, que em estado larval, apresenta v arios est agios de crescimento. O primeiro est agio (Nauplius) e o segundo est agio (Metanauplius) s ao dif ceis de distinguir. Sobre uma amostra de n1 = 76 e n2 = 91 cop epodes dos quais se puderam identicar ao microsc opio como sendo do primeiro e do segundo est agios, respectivamente, foram medidas as seguintes caracter sticas: c = comprimento e l = largura e obtidas as seguintes m edias e matrizes de covari ancias: X1 = [219, 5 138, 1]t X2 = [241, 6 147, 8]t

S1 =

409, 9 1, 316 1, 316 306, 2

S2 =

210, 9 57, 97 57, 97 152, 8

A estima ca o da matriz de covari ancias comum e dada por:

Sc =

(n1 1)S1 + (n2 1)S2 (n1 + n2 ) 2 (76 1) 409, 9 1, 316 1, 316 306, 2 + (91 1) 210, 9 57, 97 57, 97 152, 8

= =

(76 + 91) 2 301, 4 31, 02 31, 02 222, 6

Tomando X = [c l]t , a fun ca o discriminante linear de Fisher e ent ao estimada por:

82

1 X 2 ]t S1 D(c, l) = [X c = 219, 5 138, 1 22, 1 9, 7


t

c l 241, 6 147, 8
t

301, 4 31, 02 31, 02 222, 6 c l c l

c l

= = =

0, 0034 0, 0005 0, 0005 0, 0046

22, 1 9, 7 0, 070 0, 034

0, 0034 0, 0005 0, 0005 0, 0046 c l

= 0, 070c 0, 034l Logo, D(c, l) = 0, 070c 0, 034l. Temos ainda que,

1 ) = 0, 070 219, 5 0, 034 138, 1 = 20, 06 D(X 2 ) = 0, 070 241, 6 0, 034 147, 8 = 21, 94 D(X de modo que 1 1 ) + D (X 2 ) = 1 [(20, 06) + (21, 94)] = 21, 5 D(X 2 2

m=

Dessa forma a regra de classica c ao e dada por:

Se D(w) > 21, 5, classicamos w no Est agio 1 caso contr ario, classicamos w no Est agio 2 A tabela de classica ca o estimada e dada por: Dessa forma, podemos estimar as probabilidades de classica co es incorretas, 15 = 0, 1974 76 21 = 0, 2308 91

p(2|1) =

p(1|2) =

83

Tabela 3.2: Frequ encias dos erros de classica c ao Popula c ao classicada pela regra Est agio 1 Est agio 2 Total Popula c ao de origem Est agio 1 61 15 76 Est agio 2 21 70 91 a probabilidade global de acerto e a taxa de erro aparente: 61 + 70 = 0, 7844 76 + 91 15 + 21 = 0, 2156 76 + 91

p(acerto) =

T EA =

Note que T EA = 1 p(acerto).

Exemplo: Os dados abaixo referem-se ` as medidas das vari aveis: n umero m edio de cerdas primordiais (X1 ) e n umero m edio de cerdas distais (X2 ) em duas ra cas de insetos. Obter a fun c ao discriminante linear amostral baseada nesses dados. Ra ca A X1 X2 6,36 5,24 5,92 5,12 5,92 5,36 6,44 5,64 6,40 5,16 6,56 5,56 6,64 5,36 6,68 4,96 6,72 5,48 6,76 5,60 6,72 5,08 Ra ca B X1 X2 6,00 4,88 5,60 4,64 5,64 4,96 5,76 4,80 5,96 5,08 5,72 5,04 5,64 4,96 5,44 4,88 5,04 4,44 4,56 4,04 5,48 4,20 5,76 4,80

Vamos estimar, com base nos dados amostrais, o vetor de m edias e a matriz de covari ancias amostrais, com nA = 11 e nB = 12: Ra ca A: XA = 6, 46 5, 32 0, 09 0, 01 0, 01 0, 05

SA =

84

Ra ca B: XB = 5, 55 4, 73 0, 16 0, 11 0, 11 0, 11

SB =

Assumindo-se que A = B = , a matriz de covari ancias amostral comum Sc e dada por:

Sc =

(nA 1)SA + (nB 1)SB (nA + nB ) 2 10 0, 09 0, 01 0, 01 0, 05 + 11 0, 16 0, 11 0, 11 0, 11

= =

(11 + 12) 2 0, 13 0, 06 0, 06 0, 08

e, 11, 76 8, 82 8, 82 19, 12

1 S c =

Assim, podemos estimar a fun ca o discriminante de Fisher:

A X B ]t S1 D(X1 , X2 ) = [X c = 6, 46 5, 32 0, 91 0, 59
t

X1 X2 5, 55 4, 73
t

0, 13 0, 06 0, 06 0, 08 X1 X2 X1 X2

X1 X2

= = =

11, 76 8, 82 8, 82 19, 12

0, 91 0, 59 5, 50 3, 25

11, 76 8, 82 8, 82 19, 12 X1 X2

= 5, 50X1 + 3, 25X2

85

Logo, D(X1 , X2 ) = 5, 50X1 + 3, 25X2 . Vamos construir a regra de aloca ca o de novos indiv duos:

A ) = 5, 50 6, 46 + 3, 25 5, 32 = 52, 82 D (X B ) = 5, 50 5, 55 + 3, 25 4, 73 = 45, 90 D(X de modo que 1 A ) + D(X B ) = 1 [(52, 82) + (45, 90)] = 49, 36 D (X 2 2

m=

Dessa forma a regra de classica c ao e dada por:

Se D(w) > 49, 36, classicamos w na Ra ca A caso contr ario, classicamos w na Ra ca B Suponha ent ao um novo indiv duo w cujas medidas das vari aveis X1 e X2 foram, respectivamente, 6, 21 e 5, 31. Onde devemos alocar este indiv duo? Para responder essa pergunta, basta calcular o escore da fun ca o discriminante aplicada nesse indiv duo:

D(w) = 5, 50 6, 46 + 3, 25 5, 31 = 51, 41 Como D(w) = 51, 41 > 49, 36, classicamos o indiv duo desconhecido w como pertencente a ` ra ca A.

3.3

Discrimina c ao e classica c ao em g popula co es

Nesta se ca o, consideramos o problema mais geral de classica c ao e discrimina ca o quando o n umero de popula c oes envolvidas e maior que dois. O processo envolve a obten ca o de mais fun co es discriminantes para ns de classica ca o.

86

3.3.1

Fun c oes discriminantes de Anderson

Sejam 1 , 2 , , g um grupo de g > 2 popula c oes. O objetivo agora e encontrar uma regra que permita classicar um indiv duo desconhecido w em uma das g popula c oes baseada nas informa co es das p vari aveis. Considere ent ao, os vetores de m edias das g popula c oes denotados por 1 , 2 , , g e as matrizes de covari ancias por 1 , 2 , , g . Sejam tamb em fi (X) a fun ca o densidade da popula ca o i , i = 1, , g . A ideia e calcular o valor de fi (X), para cada popula ca o i , sendo X um vetor de observa co es. O elemento amostral e classicado na popula ca o que tiver o maior valor de fi (X), ou seja, classica-se o elemento amostral naquela popula ca o j tal que

fj (X) = max(f1 (X), f2 (X), , fg (X)) No caso particular em que o vetor aleat orio X em cada popula ca o tem distribui ca o normal p-variada, esta regra e equivalente a classicar o elemento com vetor de observa c oes x naquela popula c ao j , tal que
Q Q Q Q Dj (x) = max(D1 (x), D2 (x), , Dg (x))

sendo 1 1 Q 1 Di (X) = ln(|i |) (X i )t i (X i ) 2 2 Se for poss vel assumir que as g matrizes de covari ancias te oricas s ao iguais,ou seja, quando 1 = 2 = = g = , podemos simplicar as regras discriminantes dadas acima: 1 1 Q Di (X) = ln(||) (X i )t 1 (X i ) 2 2 Expandindo os termos da express ao acima, obtemos: 1 1 1 t 1 Q 1 Di (X) = ln(||) Xt 1 X + t i X i i 2 2 2 1 1 Se ignorarmos os termos ln(||) e Xt 1 X por serem constantes em 2 2 todas as g popula c oes, obtemos a fun ca o discriminante linear de Anderson, Di (X), 87

como uma combina c ao linear de X, dada por 1 t 1 1 Di (X) = t i X i i 2 ou, de forma equivalente 1 X i 2
t

Di (X) =

1 i

e a regra de classica ca o ca: classicar o elemento com vetor de observa co es x naquela popula c ao j , tal que

Dj (x) = max(D1 (x), D2 (x), , Dg (x)) Na pr atica, esta fun c ao discriminante e estimada por: 1 Di (X) = X X i 2
t 1 S c Xi

i representa o vetor de m onde X edias amostral e Sc a matriz comum de covari ancias amostral dada por (n1 1)S1 + (n2 1)S2 + + (ng 1)Sg (n1 + n2 + + ng ) g

Sc =

Os erros de classica ca o s ao denidos como:


Erro(i,j): o elemento amostral pertence a ` popula c ao j mas a regra de clas-

sica ca o o aloca na popula ca o i , i, j = 1, , g , i = j . e as probabilidades de ocorr encia destes erros s ao estimadas por: nji nj

p(i|j ) =

onde nji e o n umero de elementos da popula ca o j classicados incorretamente pela regra na popula ca o i , i, j = 1, , g , i = j . Os procedimentos de estima ca o descritos na se ca o anterior podem ser utilizados para se obter as estimativas dessas probabilidades de erros. 88

Exemplo: A divis ao de recursos humanos (DRH) de certa empresa possui informa co es sobre 22 pessoas que foram contratadas no passado para o cargo de vendedor. As informa c oes encontram-se na Tabela 3.3. As vari aveis consideradas s ao: X1 X2 X3 Y = = = = anos de exper encia anterior no mesmo tipo de fun c ao; m edia global obtida no curso de gradua c ao; nota obtida no teste de sele c ao ` a vaga; desempenho prossional observado no exerc cio da pross ao.

Tabela 3.3: Informa c oes da DRH para desempenho Caso X1 X2 X3 Y Caso X1 X2 X3 Y 1 4 7,2 8,5 Regular 12 3 9,0 5,0 Regular 2 2 7,6 5,5 Baixo 13 6 7,0 9,5 Bom 14 9 5,5 7,5 Bom 3 5 7,3 6,5 Regular 4 8 6,3 8,5 Bom 15 5 8,3 10,0 Regular 16 0 6,9 7,0 Baixo 5 4 8,1 5,5 Regular 6 1 7,5 7,5 Baixo 17 7 7,4 7,0 Bom 7 4 6,5 9,0 Regular 18 2 7,5 6,0 Baixo 19 5 8,5 7,0 Regular 8 2 6,0 6,5 Baixo 9 7 8,2 9,0 Bom 20 5 7,9 8,5 Regular 21 6 8,0 7,5 Bom 10 5 6,8 6,5 Regular 22 3 7,0 6,0 Baixo 11 6 7,7 4,5 Regular Os vetores de m edias e as matrizes de covari ancias amostrais de cada grupo s ao dados por: Grupo Baixo: (nBa = 6) 1, 67 = 7, 08 6, 42 1, 06 0, 03 0, 53 = 0, 03 0, 37 0, 07 0, 53 0, 07 0, 54

XBa

SBa

Grupo Regular: (nRe = 10) 4, 60 = 7, 73 7, 10 0, 71 0, 13 0, 01 = 0, 13 0, 62 0, 40 0, 01 0, 40 3, 38

XRe

SRe

Grupo Bom: (nBo = 6)

89

XBo

7, 17 = 7, 07 8, 17

SBo

1, 37 0, 95 0, 33 = 0, 95 1, 06 0, 12 0, 33 0, 12 0, 97

Estimaremos agora, a matriz comum de covari ancias amostral:

Sc =

(nBa 1)SBa + (nRe 1)SRe + (nBo 1)SBo (nBa + nRe + nBo ) 3 0, 98 0, 32 0, 23 = 0, 32 0, 67 0, 18 0, 23 0, 18 1, 99

e, 1, 29 0, 68 0, 21 = 0, 68 1, 89 0, 25 0, 21 0, 25 0, 55

1 S c

As fun c oes discriminantes lineares estimadas s ao ent ao, dadas por:

t X1 1 1 DBa (X) = X2 X Ba Sc XBa 2 X3 t 1, 67 1, 29 0, 68 X1 1 = X2 7, 08 0, 68 1, 89 2 6, 42 0, 21 0, 25 X3 t X1 0, 84 1, 29 0, 68 0, 21 = X2 3, 54 0, 68 1, 89 0, 25 X3 3, 21 0, 21 0, 25 0, 55 = X1 0, 84 X2 3, 54 X3 3, 21

0, 21 1, 67 0, 25 7, 08 0, 55 6, 42 1, 67 7, 08 6, 42 1, 29 0, 68 0, 21 1, 67 0, 68 1, 89 0, 25 7, 08 0, 21 0, 25 0, 55 6, 42

= 8, 32X1 + 16, 12X2 + 5, 65X3 82, 78

90

t X1 1 1 DRe (X) = X2 X Re Sc XRe 2 X3 t 4, 60 X1 1, 29 0, 68 1 = X2 7, 73 0, 68 1, 89 2 7, 10 X3 0, 21 0, 25 t X1 2, 30 1, 29 0, 68 0, 21 = X2 3, 87 0, 68 1, 89 0, 25 X3 2, 37 0, 21 0, 25 0, 55

0, 21 4, 60 0, 25 7, 73 0, 55 7, 10 4, 60 7, 73 7, 10 1, 29 0, 68 0, 21 4, 60 = X1 2, 30 X2 3, 87 X3 2, 37 0, 68 1, 89 0, 25 7, 73 0, 21 0, 25 0, 55 7, 10 = 12, 68X1 + 19, 51X2 + 6, 80X3 125, 93

t X1 1 1 DRo (X) = X2 X Ro Sc XRo 2 X3 t X1 7, 17 1, 29 0, 68 1 = X2 7, 07 0, 68 1, 89 2 0, 21 0, 25 X3 8, 17 t X1 3, 59 1, 29 0, 68 0, 21 = X2 3, 54 0, 68 1, 89 0, 25 0, 21 0, 25 0, 55 X3 4, 09

0, 21 7, 17 0, 25 7, 07 0, 55 8, 17 4, 60 7, 73 7, 10 1, 29 0, 68 0, 21 7, 17 = X1 3, 59 X2 3, 54 X3 4, 09 0, 68 1, 89 0, 25 7, 07 0, 21 0, 25 0, 55 8, 17 = 15, 77X1 + 20, 28X2 + 7, 77X3 160, 18

Assim, as fun c oes discriminantes estimadas s ao dadas por:

91

DBa (X) = 8, 32X1 + 16, 12X2 + 5, 65X3 82, 78 DRe (X) = 12, 68X1 + 19, 51X2 + 6, 80X3 125, 93 DBo (X) = 15, 77X1 + 20, 28X2 + 7, 77X3 160, 18 Os escores das fun co es discriminantes s ao dados na Tabela 3.4. Para encontr alos, basta substituir as observa co es de cada indiv duo nas respectivas fun c oes discriminantes. Por exemplo, para encontrar a primeira linha da Tabela:

DBa (x1 ) = 8, 32 4 + 16, 12 7, 2 + 5, 65 8, 5 82, 78 = 116, 03 DRe (x1 ) = 12, 68 4 + 19, 51 7, 2 + 6, 80 8, 5 125, 93 = 123, 06 DBo (x1 ) = 15, 77 4 + 20, 28 7, 2 + 7, 77 8, 5 160, 18 = 114, 96 De acordo com a regra de decis ao, o indiv duo x1 ser a classicado como Regular, pois,

DRe (x1 ) = max(DBa (x1 ), DRe (x1 ), DRo (x1 )) Observa c ao: Na coluna Classicado emda Tabela 3.4, as entradas em negrito s ao os erros de classica ca o. A matriz de frequ encias dos erros de classica c ao estimada e mostrada na Tabela 3.5. Podemos ent ao, estimar as probabilidades de erro de classica c ao:

p(Ba|Re) =

0 nRe,Ba = = 0, 0000 nRe 10

p(Re|Ba) =

nBa,Re 1 = = 0, 1667 nBa 6

p(Ba|Bo) =

nBo,Ba 0 = = 0, 0000 nBo 6

p(Bo|Ba) =

nBa,Bo 0 = = 0, 0000 nBa 6

p(Bo|Re) =

nRe,Bo 0 = = 0, 0000 nRe 10 92

p(Re|Bo) =

nBo,Re 3 = = 0, 5000 nBo 6

Tabela 3.4: Escores das fun c oes discriminantes Caso DBa DRe DBo Y Classicado em 1 116,03 123,06 114,96 Regular Regular 2 87,45 85,11 68,22 Baixo Baixo 3 113,22 124,09 117,22 Regular Regular 4 133,36 156,22 159,79 Bom Bom 5 112,15 120,22 109,90 Regular Regular 6 88,82 84,08 65,97 Baixo Baixo 7 106,13 112,81 104,65 Regular Regular 8 67,31 60,69 43,55 Baixo Baixo 9 158,49 184,01 186,44 Bom Bom 10 105,16 114,34 107,08 Regular Regular 11 116,69 130,98 125,56 Regular Regular 12 115,51 121,70 108,50 Regular Regular 13 133,66 151,32 150,22 Bom Regular 14 123,14 146,50 151,57 Bom Bom 15 149,12 167,40 164,70 Regular Regular 16 68,00 56,29 34,14 Baixo Baixo 17 134,30 154,80 154,67 Bom Regular 18 88,66 86,56 70,08 Baixo Baixo 19 135,39 150,91 145,44 Regular Regular 20 134,19 149,40 144,93 Regular Regular 21 138,48 157,23 154,96 Bom Regular 22 88,92 89,48 75,71 Baixo Regular Tabela 3.5: Frequ encias dos erros de classica c ao Popula c ao classicada pela regra Baixo Regular Popula c ao de origem Baixo 5 1 Regular 0 10 Bom 0 3

Bom Total 0 6 0 10 3 6

A probabilidade global de acerto e a taxa de erro aparente podem ser estimadas: nBa,Ba + nRe,Re + nBo,Bo 5 + 10 + 3 = = 0, 8181 nBa + nRe + nBo 6 + 10 + 6

p(acerto) =

T EA =

nBa,Re + nBa,Bo + nRe,Ba + nRe,Bo + nBo,Ba + nBo,Re nBa + nRe + nBo 1+0+0+0+0+3 = = 0, 1819 = 1 p(acerto) 6 + 10 + 6

93

Suponha agora que um novo indiv duo w tenha obtido as seguintes notas, quando avaliado para ser contratado pela empresa: X1 = 12, X2 = 5, 1 e X3 = 7, 9. Qual seria o desempenho prossional esperado para esse novo vendedor? Para responder a essa pergunta, basta classicar o indiv duo em uma das popula co es, utilizando as regras discriminantes estimadas:

DBa (w) = 8, 32 12 + 16, 12 5, 1 + 5, 65 7, 9 82, 78 = 143, 91 DRe (w) = 12, 68 12 + 19, 51 5, 1 + 6, 80 7, 9 125, 93 = 179, 45 DBo (w) = 15, 77 12 + 20, 28 5, 1 + 7, 77 7, 9 160, 18 = 193, 87 De acordo com a regra de decis ao, a empresa espera que esse novo vendedor tenha um desempenho prossional bom, pois:

DBo (w) = max(DBa (w), DRe (w), DBo (w))

3.3.2

Fun c oes discriminantes can onicas de Fisher

Sejam Xj , j = 1, , p, vari aveis aleat orias e i , i = 1, , g popula c oes normais p-variadas. Suponha que as matrizes de covari ancias populacionais j sejam todas iguais, isto e, j = , j . Nesse caso, e poss vel construir s combina c oes lineares, s min(g 1, p), chamadas de fun c oes discriminantes can onicas, e que s ao dadas por:

Yk = e t k X,

k = 1, , s

em que ek e o k- esimo autovetor corresponde ao k- esimo maior autovalor da matriz W1 B e tal que et k Wek = 1, sendo as matrizes Wpp e Bpp , denidas respectivamente, por:
g ni

Wpp =
i=1 b=1 g

i )(Xib X i )t (Xib X

Bpp =
i=1

i X )(X i X )t ni (X

94

sendo Xib o vetor de observa c oes do elemento amostral b que pertence ` a popula ca o i , Xi o vetor de m edias amostral da popula c ao i , X o vetor geral de m edias amostral, considerando-se todas as n observa c oes conjuntamente e ni o n umero de elementos
g

pertencentes ` a amostra da popula c ao i , com


i=1

ni = n.

As matrizes W e B s ao chamadas de matrizes de soma de quadrados e produtos cruzados dentro dos grupos e entre os grupos. Assim como na an alise componentes principais, h a uma ordena ca o em termos de import ancia das combina co es lineares constru das. A primeira fun ca o discriminante 1 can onica e a relacionada com o maior autovalor da matriz W B e tem o maior poder de discrimina ca o. A segunda fun ca o discriminante e relacionada com o segundo 1 maior autovalor de W B e tem um poder de discrimina ca o menor do que a primeira e maior que a terceira, e assim sucessivamente. Ap os a constru ca o das fun c oes discriminantes can onicas de Fisher, para cada elemento amostral com vetor de observa co es xk teremos um vetor com os seus escores nestas fun c oes, denotado por Yk . Teremos tamb em, os escores das fun c oes discriminantes aplicadas aos vetores de m edias amostrais observados para cada popula c ao, i . Calcula-se ent i, denotado por Y ao a dist ancia Euclidiana entre os vetores Yk e Y para todo i = 1, , g , sendo o corresponde elemento amostral k classicado na popula c ao cuja dist ancia e a menor. Diferentemente das componentes principais, as fun c oes discriminantes can onicas s ao correlacionadas.

Exemplo: (Mingoti, 2007) Para exemplicar a estima c ao das fun co es discriminantes can onicas de Fisher, suponha que os seguintes vetores amostrais sejam provenientes de g = 3 popula co es, sendo o n umero de vari aveis p igual a 2.

Amostra da popula ca o 1 : X11 =

4 10

X12 =

0 6

X13 =

2 2

Amostra da popula ca o 2 : X21 =

0 12

X22 =

4 8

X23 =

2 4

95

Amostra da popula ca o 3 : X31 =

2 4

X32 =

0 0

X33 =

2 8

Os vetores de m edias amostrais de cada popula c ao e o vetor geral de m edias amostral s ao dados respectivamente por: 2 6 2 8 0 4 0
10 3

1 = X

2 = X

3 = X

= X

As matrizes W e B s ao dadas, respectivamente, por:

W =
i=1 b=1

i )(Xib X i )t (Xib X

1 )(X11 X 1 )t + (X12 X 1 )(X12 X 1 )t + + (X33 X 3 )(X33 X 3 )t = (X11 X = 4 10 + + + = = 2 8 2 4 24 8 8 96 0 4 2 4 + 2 8 2 0 0 4 2 0


t

2 6 2 6

4 10 0 6

2 6 2 6
t

0 6

+ +

2 4

2 4

96

B =
i=1

i X )(X i X )t 3(X

1 X )(X 1 X )t + 3 (X 2 X )(X 2 X )t + 3 (X 3 X )(X 3 X )t = 3 (X = 3 2 6 2 8 0 4 2


8 3

0
10 3

2 6 2 8 0 0 4
8 3

0
10 3 t

+3

0
10 3

0
10 3

+3 = 3 =

10 3

2
14 3

0
10 3

14 3

0
22 3

22 3

24 12 12 248

Podemos ent ao, encontrar a matriz W1 B: 24 8 8 96


1

W B=

24 12 12 248

1, 071 1, 400 0, 214 2, 700

cujos autovalores s ao 1 = 2, 867 e 2 = 0, 904. Os correspondentes autovetores j a reescalonados s ao: 0, 386 0, 495 0, 938 0, 112

e1 =

e2 =

Desse modo, as fun co es discriminantes can onicas de Fisher s ao dadas por:

Y1 = 0, 386X1 + 0, 495X2

Y2 = 0, 938X1 0, 112X2 Para se proceder ` a classica c ao de elementos amostrais, e necess ario calcular os valores das fun co es discriminantes em cada vetor de m edias amostral de cada 97

popula c ao. Por exemplo, para a popula ca o 1 , ter amos:

Y11 = 0, 386 (2) + 0, 495 6 = 2, 20

Y21 = 0, 938 (2) 0, 112 6 = 2, 54 De forma an aloga, temos: Y12 = 4, 74, Y22 = 0, 98, Y13 = 1, 98 e Y23 = 0, 44. Suponha que se deseje classicar um elemento que tem os valores x = [4 6]t . Primeiro, e necess ario calcular o valor das fun c oes discriminantes para x:

Y1 = 0, 386 4 + 0, 495 6 = 4, 514

Y2 = 0, 938 4 0, 112 6 = 3, 080 e, ent ao, calcular a respectiva dist ancia Euclidiana ao quadrado do vetor de escores de x aos vetores [Y11 Y21 ]t , [Y12 Y22 ]t , e [Y13 Y23 ]t . Por exemplo, a dist ancia em rela ca o t a [Y11 Y21 ] e igual a: d1 = (4, 514 2, 20)2 + (3, 08 + 2, 54)2 = 36, 94 De forma an aloga, encontramos as dist ancias em rela ca o aos vetores [Y12 Y22 ]t , e [Y13 Y23 ]t , resultando em d2 = 4, 46 e d2 = 49, 14. Assim, o elemento x seria classicado na popula c ao 2 .

3.4

Solu c ao utilizando o software R

Consideremos o conjunto de dados relativos ` as medi co es de p = 4 vari aveis sobre n = 150 l rios, sendo as vari aveis o comprimento e largura das s epalas e das p etalas das ores. Esses dados est ao dispon veis nas distribui c oes padr ao do R, em uma data frame de nome iris. O objeto iris e uma data frame com 150 linhas e cinco colunas, sendo a quinta eu ltima coluna uma vari avel qualitativa (factor) indicando a esp ecie de l rio de cada or individual. Foram consideradas 50 ores de cada uma de tr es esp ecies: setosa, versicolor e virginica. 98

> plot(iris[, -5], col = as.numeric(iris[, 5]), pch = 16)

2.0

3.0

4.0
q q q q q q q q q q q q q q q qq q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qqq q q q q q q q q qq qq q q q q q q q q q q q qq q q q

0.5

1.5

2.5 7.5 1 2 3 4 5 6 7 4.5 5.5 6.5

Sepal.Length

q q q q qq q q q q qq q q q q q q qq qq q qq qq q qq qqq q q q q q q q qqq qq qq q q q q q qqq q qq q q q qqqq qq q qqqq q qq q q q q q qq qq q qqqq q q qqq q q q q q qq q qq q q qq q q q qq q q

qq q q q q q q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q qq q q q q q qq q q q q q q q q q qq q q q q q q q q q q q

qqq q q q qq q qq qqq qq qqq q q q qq q q qq q q q q q qqq q q qq qq q qqq q q q qq qqq q

q qqqq q q q q q q q qq q q q q qq qq q q qqq qq q q qq q qq qqqq qqqq q q q q q q q q q qqqq qq q qq q q qqq qq q q q q q qqqq q q q q q q

2.0

q q q q q q qq qq q q q q q q q q q qqq q qq qq q q q q q qq q q q q q q q qq qq q q qq qq q q q q q qq qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq qq q q qq q q q qq q q q q q q q q q q q qq q q q q q q q q q q q qq q qq q q q qq q q q q q qq q q qq q q q q q q q q qq q q q q q q qq q qq q q q q q q q q qq q q q q q q q qq q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

4.0

3.0

Sepal.Width

qq q q q q q qq q q qq qq q q qq q qq q q q q q q q q q q q qqq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q q q q qq q q qq q q qq q q q q

q q q q qq q q q qq q q q qq q q qq qqqqqqq qqqq qqq q qqqq qqqqq q q qqq q qq q q q q q q q qqqq qq q q q q q q qqq q q q q qq q q q q qq qq qqq q q q q q q q q q q q qq q qqqq q qq q qqq q qqq qq q q q qqqq q q qq q qq q q q qqq qq qq qq q q q q

q q q q q q q q qq q q q q q qqq q qqqq q q qqq q q q q q q q q qq q qq q q q qq qq q qq qq qq q qqq q qqq q qq q q qq qq q qqq q q q q q q q qq q q q qq q qq qq qqqq q qqqq qq q qq q q qqqq q qq q q q

Petal.Length
q q qqq qq q qq q qq qq q q q qqq qq q qq q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q qq q q qq q q q qq q qq q q q q q q q q q q q qq q q q q q q q q q qq q q q q q qq q q q q q q q q q qq q q q q q q q q q q qq q

2.5

q q q q q q qq q q q q q q q q q q qq q q q q qq q q q q q q q q q q qq q q q q q q q qq q qq q q qqq q q qq q q q q q q q q qq qq q q q q q q q qq qq q q q q q q q qqq q q qq q qq q q q q q q q q q q q q q

q q q q q q qqq q q q q q qq q q q q q q q qq q qqqqqq q q q q qq q q qqqqq qqqqqqq q q qqqq qqq q qq q qqq qq q q q qqq q q qq q qqqq qqqqqqqq q q qq q q

1.5

Petal.Width

0.5

4.5

5.5

6.5

7.5

Figura 3.3: Quatro vari aveis morfom etricas observadas em 50 l rios de cada uma de tr es esp ecies Uma primeira visualiza ca o, que e u til para conjuntos de dados multivariados (desde que o n umero de vari aveis observadas n ao seja excessivo), e dada pela matriz de gr acos de pontos para cada par de vari aveis. Para data frames, e poss vel obt e-la atrav es de um u nico comando, o comando plot. Podemos observar na Figura 3.3 uma estrutura de subgrupos impl cita nos dados. Para realizarmos a an alise discriminante no software R, usaremos a fun ca o lda() que se encontra no pacote MASS. Mais detalhes dessa fun ca o podem ser encontrados na sua respectiva documenta c ao, que pode ser acessada digitando o seguinte comando no R, depois de carregar o pacote MASS. > library(MASS)

99

> help(lda) O comando lda necessita de duas informa c oes b asicas: os dados dos indiv duos e os grupos as quais eles pertencem (argumento grouping): > lda(iris[, -5], grouping = iris[, 5]) Call: lda(iris[, -5], grouping = iris[, 5]) Prior probabilities of groups: setosa versicolor virginica 0.3333333 0.3333333 0.3333333 Group means: Sepal.Length Sepal.Width Petal.Length Petal.Width setosa 5.006 3.428 1.462 0.246 versicolor 5.936 2.770 4.260 1.326 virginica 6.588 2.974 5.552 2.026 Coefficients of linear discriminants: LD1 LD2 Sepal.Length 0.8293776 -0.02410215 Sepal.Width 1.5344731 -2.16452123 Petal.Length -2.2012117 0.93192121 Petal.Width -2.8104603 -2.83918785 Proportion of trace: LD1 LD2 0.9912 0.0088 A informa c ao mais importante nesses resultados e dada por Coefficients of linear discriminants: cada coluna indica os coecientes das vari aveis observadas que denem cada fun ca o discriminante. Dessa forma, as fun c oes discriminantes s ao dadas por:

100

D1 (x) = 0, 8294 S.L + 1, 5345 S.W 2, 2012 P.L 2, 8105 P.W D2 (x) = 0, 0241 S.L 2, 1645 S.W + 0, 9319 P.L 2, 8392 P.W

em que

S.L = Sepal.Length S.W = Sepal.W idth P.L = P etal.Length P.W = P etal.W idth Havendo g = 3 popula co es de l rios, podem-se estimar s = min(2, 4) = 2 fun co es discriminantes, como apresentado nos resultados. Neste exemplo, e evidente que a segunda fun ca o discriminante n ao acrescenta quase nada a ` discrimina ca o que e poss vel utilizando a primeira fun ca o. A Figura 3.4 ilustra essa situa c ao, tendo sido obtida utilizando a fun ca o plot(): Essa gura e poss vel porque o pacote MASS possui um m etodo para a fun c ao plot() lidar com objetos do tipo lda, que consiste em representar gracamente os indiv duos nos eixos discriminantes. Com este m etodo, cada ponto no gr aco representa os escores de cada indiv duo em cada fun ca o discriminante e e representado por uma legenda que indica a qual grupo ele pertence. O argumento abbrev, quando tomado com o valor l ogico TRUE abrevia o nome dos grupos, de forma a n ao sobrecarregar o aspecto visual do gr aco. Suponhamos agora que temos o interesse em classicar um novo l rio cujas medidas das quatro caracter sticas foram Sepal.Length = 5, Sepal.W idth = 3, P etal.Length = 1, 5 e P etal.W idth = 0, 15, em uma das tr es esp ecies dispon veis. > iris.lda <- lda(iris[, -5], grouping = iris[, 5])

> iris.pred <- predict(iris.lda, new = data.frame(Sepal.Length = 5, + Sepal.Width = 3, Petal.Length = 1.5, Petal.Width = 0.15))

101

> plot(lda(iris[, -5], iris[, 5]), abbrev = TRUE, col = as.numeric(iris[, + 5]))

LD2

vrg

vrs vrs vrs vrs vrs vrs vrs vrs vrs vrs vrs vrg vrs vrs vrs vrs vrs vrg vrg vrs vrs vrs vrg vrs vrg vrs vrs vrg vrs vrs vrs vrg vrs vrs vrs vrs vrs vrg vrg vrs vrs vrg vrg vrs vrg vrs vrg vrs vrs vrg vrg vrg vrs vrs vrs vrs vrs vrs vrg vrg vrs vrg vrs vrg vrg vrgvrg vrs vrg vrg vrg vrg vrs vrg vrg vrg vrg vrs vrs vrg vrg vrg vrg vrg vrg vrg vrg vrg vrg vrg vrgvrg vrg vrg vrg

s ss ss s s s s s s s ss s s ss s s s ss ss s s s ss ss ss s ss s s s s s s s s s s s s

0 LD1

10

Figura 3.4: Representa ca o dos n = 150 l rios nos dois eixos discriminantes > iris.pred $class [1] setosa Levels: setosa versicolor virginica $posterior setosa versicolor virginica [1,] 1 8.710725e-18 4.498939e-37 $x LD1 LD2 [1,] 7.132027 1.019402

102

Podemos observar que esse novo l rio ser a classicado como sendo da esp ecie setosa com probabilidade 1. E poss vel colocar o ponto correspondente a esta nova observa c ao em cima do gr aco, selecionando a componente $x do objeto de sa da do comando anterior e utilizando a fun c ao points() para desenhar um ponto nas coordenadas correspondentes. > plot(lda(iris[, -5], iris[, 5]), abbrev = TRUE, col = as.numeric(iris[, + 5])) > points(iris.pred$x, pch = 16, col = "blue")

LD2

vrg

vrs vrs vrs vrs vrs vrs vrs vrs vrs vrs vrs vrg vrs vrs vrs vrs vrs vrg vrg vrs vrs vrs vrg vrs vrg vrs vrs vrg vrs vrs vrs vrg vrs vrs vrs vrs vrs vrg vrg vrs vrs vrg vrg vrs vrg vrs vrg vrs vrs vrg vrg vrg vrs vrs vrs vrs vrs vrs vrg vrgvrs vrg vrs vrg vrg vrgvrg vrs vrg vrg vrg vrg vrs vrg vrg vrg vrg vrs vrs vrg vrg vrg vrg vrg vrg vrg vrg vrg vrg vrg vrgvrg vrg vrg vrg

s s ss q sss s s s s s ss s s s ss s ss s ss s s s ss ss ss s ss s s s s s s s s s s s s

0 LD1

10

103

3.5

Exerc cios

1. Considere o arquivo caninos.dat referente ` a nove medidas de mand bula em amostras de cinco diferentes grupos de caninos. As vari aveis (todas em mm) presentes no banco de dados s ao: X1 = comprimento da mand bula X2 = largura da mand bula abaixo do primeiro molar X3 = largura do c ondilo articular X4 = altura da mand bula abaixo do primeiro molar X5 = comprimento do primeiro molar X6 = largura do primeiro molar X7 = comprimento do primeiro ao terceiro molar, inclusive (primeiro ao segundo para cuon) X8 = comprimento do primeiro ao quarto premolar, inclusive X9 = largura do canino inferior Sexo = 1 para macho, 2 para f emea, 0 para desconhecido Grupo = 1 para C aes modernos da Tail andia, 2 para Chacais dourados, 3 para Cuons, 4 para Lobos indianos, 5 para C aes pr e-hist oricos tailandeses

a) Estime as fun co es discriminantes can onicas de Fisher utilizando a fun ca o lda() do R para ver o qu ao bem e poss vel separar os grupos. (Desconsidere a vari avel sexo nesta an alise). b) Estime as taxas de erros de classica ca o. c) Estime agora as fun co es discriminantes considerando a vari avel classicat oria sexo. (Desconsidere a vari avel grupos nesta an alise). d) Estime as taxas de erros de classica ca o. e) Estime agora as fun co es discriminantes considerando a vari avel classicat oria sexo dentro de cada grupo (se poss vel). (Desconsidere a vari avel grupos nesta an alise). Estime as taxas de erros de classica c ao. 2. Dez animais da ra ca zebu e dez animais da ra ca charol es foram observadas em tr es vari aveis (v1 , v2 e v3 ). Os valores obtidos est ao no arquivo zebus.dat. a) Efetue uma an alise discriminante dos dados. Calcule as taxas de erro aparente e a taxa global de acerto. b) Considere agora que temos o registro das vari aveis de um novo animal, a saber: v1 = 403, v2 = 231 e v3 = 33, 1. Calcule o escore da fun c ao discriminante para esse novo animal. De que tipo de animal se trata?

104

Cap tulo 4 An alise de Agrupamentos


4.1 Introdu c ao

A classica c ao e uma atividade conceitual b asica dos seres humanos. Desde cedo aprendemos a classicar os objetos pertencentes ao seu ambiente envolvente baseados em caracter sticas comuns aos objetos. A an alise de agrupamentos, tamb em conhecida como an alise de clusters designa uma s erie de procedimentos estat sticos sosticados que podem ser usados para classicar indiv duos sem nenhum tipo de preconceito, isto e, observando apenas as similaridades e dissimilaridades entre eles, sem denir previamente crit erios de inclus ao em qualquer agrupamento. Mais concretamente, os m etodos de an alise de clusters s ao procedimentos da Estat stica Multivariada que tentam organizar um conjunto de indiv duos, para os quais e conhecida informa ca o detalhada, em grupos relativamente homog eneos. Vale salientar que, diferentemente da an alise discriminante, os grupos aqui n ao s ao conhecidos a priori. Em m etodos de an alise discriminante, parte-se do pressuposto que uma subdivis ao e conhecida dentro do conjunto de dados que est a dispon vel, e o objetivo e o de procurar dire co es no espa co que evidenciem a separa ca o desses subgrupos e determinar uma regra para futuras classica co es. Frequentemente n ao existe uma classica ca o desse tipo dispon vel, e o problema consiste em identicar quais (e quantas) s ao as diferentes classes de indiv duos existentes nos dados dispon veis. No contexto da an alise de clusters, dois extremos de poss veis classica co es s ao abordados: a classica c ao de todos os indiv duos em uma u nica classe, e a classica ca o de cada indiv duo como uma classe separada. Existem dois grandes grupos de m etodos de clusteriza c ao:

105

M etodos Hier arquicos: O agrupamento em classes procede por etapas, em

geral determinando-se a partir de n subgrupos (de um u nico indiv duo cada) sucessivas fus oes de subgrupos considerados mais semelhantes. Cada fus ao reduz, em uma unidade, o n umero de subgrupos.
M etodos N ao-Hier arquicos: Inicialmente xa-se o n umero k de classes

que se pretende constituir e (regra geral) faz-se uma classica c ao inicial dos n indiv duos em k classes, ou determinam-se k sementesem torno das quais construir as classes. Atrav es de transfer encias de indiv duos de uma classe para outra, ou de associa co es dos indiv duos a `s sementes das classes, procurase determinar uma boaclassica c ao, no sentido de tornar as classes mais internamente homog eneas e externamente heterog eneas.

4.2

M etodos de Agrupamento

As t ecnicas de agrupamento frequentemente se classicam em dois tipos: m etodos hier arquicos aglomerativos e m etodos divisivos ou de parti c ao. Nos m etodos aglomerativos, consideramos cada indiv duo como sendo um grupo individual e a partir da , atrav es de fus oes de indiv duos semelhantes, v ao se construindo novos grupos at e a forma ca o de um u nico grupo. Por exemplo, se n = 5, uma classica ca o aglomerativa seria dada por:

{1}{2}{3}{4}{5} {1, 2}{3}{4}{5} {1, 2}{3}{4, 5} {1, 2, 3}{4, 5} {1, 2, 3, 4, 5}

J a nos m etodos divisivos acontece ao contr ario: no in cio do processo, considerase um u nico grupo formado por todos os elementos e os menos similares s ao desagrupados. Este procedimento se repete at e que se tenha todos os grupos contendo somente um indiv duo. Por exemplo, se n = 5, uma classica c ao divisiva seria dada por:

106

{1}{2}{3}{4}{5} {1, 2}{3}{4}{5} {1, 2}{3}{4, 5} {1, 2, 3}{4, 5} {1, 2, 3, 4, 5}

Dado um conjunto de n indiv duos, o ponto de partida para os m etodos de agrupamento hier arquicos ser a, em geral, uma matriz Dnn cujo elemento gen erico dij e uma medida de similaridade, isto e, quanto maior o valor, maior a semelhan ca (ou dissimilaridade, isto e, quanto maior o valor, maior a diferen ca) entre o indiv duo i e o indiv duo j . Os crit erios de similaridade (ou dissimilaridade) utilizados podem ser diversos, havendo alguns crit erios espec cos para dados de diversos tipos, como veremos adiante. Com frequ encia, existe (como em m etodos anteriores) uma matriz Xnp de observa c oes multivariadas associadas aos indiv duos e que geram a referida matriz de similaridades/dissimilaridades. No entanto, essa matriz pode n ao ser conhecida, sendo apenas necess ario conhecer a matriz Dnn de similaridades/dissimilaridades para que seja poss vel proceder a uma an alise de agrupamento hier arquica. Seja uma matriz Dnn de similaridades ou dissimilaridades entre os n indiv duos. Consideremos inicialmente os n indiv duos constituindo n grupos diferentes. A ideia e juntar pares de indiv duos (ou grupos de indiv duos) mais semelhantes em cada etapa do algoritmo. Este processo e repetido at e a fus ao de todos os indiv duos em um u nico grupo. Depois de todo o processo de agrupamento, a forma usual de representar as sucessivas fus oes de subgrupos em um m etodo de agrupamento hier arquico e atrav es de um dendrograma, que representa uma s ntese gr aca do trabalho desenvolvido. Esse gr aco e de grande utilidade para a classica c ao, compara c ao e discuss ao de agrupamentos. H a duas formas de se representar um dendrograma: horizontal e verticalmente. No dendrograma horizontal, as linhas verticais, ou o eixo y , representam os grupos unidos por ordem decrescente de similaridade, e a posi ca o da reta, na escala ou o eixo x, indica as dist ancias entre os grupos que foram formados. O dendrograma e lido de cima para baixo, quando for feito na forma horizontal.

107

Figura 4.1: Dendrograma horizontal Um exemplo de dendrograma horizontal e mostrado pela Figura 4.1. Vericase que as vari aveis V ar1 e V ar5 s ao as que possuem a maior similaridade, por possu rem a menor dist ancia euclidiana, sendo essas a formarem o primeiro grupo. Logo, em seguida, v em as vari aveis V ar2, V ar3, V ar8, e, assim, sucessivamente, as vari aveis ser ao agrupadas, por ordem decrescente de similaridade, ou seja, a V ar9 formou o u ltimo grupo do dendrograma, o qual manteve-se distinto dos demais grupos formados, pelo fato de essa vari avel possuir pouca similaridade em rela ca o a `s outras. No dendrograma vertical, a leitura e feita da direita para esquerda, no qual as linhas verticais, ou o eixo y, indicam as dist ancias entre os grupos foram formados, e a posi ca o da reta na escala, ou o eixo x, representa os grupos unidos por ordem decrescente de similaridade, conforme Figura 4.2. A interpreta ca o deste tipo de dedrograma e an aloga ` a sua forma horizontal, apenas muda no eixo em que as vari aveis est ao representadas. Um corte no dendrograma a qualquer n vel de aglomera c ao produz uma classica ca o em k subgrupos (1 k n). Note que um par de indiv duos que seja inclu do em um mesmo grupo em qualquer etapa do processo n ao poder a mais ser separado em etapas posteriores, uma vez que estas consistem em fus oes de grupos j a existentes. O procedimento geral que acaba de ser descrito pode dar origem a diferentes modos de agrupamento, de acordo com duas quest oes:

108

Figura 4.2: Dendrograma vertical 1. o conceito de similaridade/dissimilaridade entre 2 indiv duos; 2. o conceito de similaridade/dissimilaridade entre 2 subgrupos, tamb em designado por m etodo de agrupamento. Para ilustrar a natureza da diculdade na deni ca o de grupos naturais, vamos considerar a ordena ca o de 16 cartas guradas de um baralho convencional em grupos ou objetos similares. Alguns agrupamentos s ao realizados na Figura 4.3. Fica bastante claro que parti co es signicativas dependem da deni ca o das medidas de similaridade.

4.3

Medidas de (Dis)similaridades entre dois indiv duos

Vamos admitir que o ponto de partida dos m etodos de agrupamento e uma matriz de dissimilaridades entre os n indiv duos. No caso de se tratar de uma matriz de similaridades, alguns ajustes precisam ser realizados, conforme veremos mais adiante. A natureza da medida de dissimilaridade ir a condicionar o agrupamento que se seguir ae e, portanto, crucial que reita a natureza do problema sob estudo.

109

Figura 4.3: Diversas formas de agrupamento de um baralho Seja xi = [xi1 , , xip ]t , i = 1, , n, o vetor de observa c oes do indiv duo i, no qual xij representa o valor da vari avel j no indiv duo i. Vejamos ent ao, as principais medidas de dissimilaridade para os diversos tipos de vari aveis:

4.3.1

Vari aveis quantitativas

As dist ancias s ao as medidas de dissimilaridade mais utilizadas quando tratamos de vari aveis quantitativas. Uma medida dij representa uma medida de dist ancia entre os indiv duos i e j se, e somente se, a) dij 0 para todo i e j ;

b) dij = 0 se, e somente se, i = j ; c) dij = dji d) dij dik + dkj para qualquer indiv duo k .

A desigualdade mostrada no item d) e chamada de desigualdade triangular. As principais medidas de dist ancia s ao dadas a seguir:

4.3.1.1

Dist ancia Euclidiana

A dist ancia euclidiana entre os indiv duos i e j e dada por: 110

dij =

(xi xj )t (xi xj ) =
k=1

(xik xjk )2

Observamos aqui que a dist ancia euclidiana trata-se da dist ancia geom etrica entre dois pontos no plano.

4.3.1.2

Dist ancia Euclidiana Generalizada

A dist ancia euclidiana generalizada entre os indiv duos i e j e dada por:

dij =

(xi xj )t W(xi xj )

onde W e uma matriz positiva denida (todos autovalores positivos). Casos especiais importantes:
Se W = V2 , onde V2 e a matriz diagonal dos rec procos das vari ancias das

vari aveis, temos a chamada dist ancia euclidiana ponderada, que corresponde ` a dist ancia euclidiana entre os dados normalizados.
Se W = diag

1 , temos a dist ancia euclidiana m edia. p

Se W = 1 , tem-se a dist ancia de Mahalanobis, que e invariante a ` mu-

dan cas de escala. importante mencionar que a dist E ancia euclidiana ponderada leva em considera c ao apenas a diferen ca de variabilidade que pode haver entre as vari aveis. J aa dist ancia de Mahalanobis leva em considera c ao na pondera ca o as poss veis diferen cas de vari ancias e as rela c oes entre as vari aveis, medidas em termos das covari ancias.

4.3.1.3

Dist ancia de Minkowski

A dist ancia de Minkowski entre os indiv duos i e j e dada por:


P
1

dij =
k=1

|xik xjk |

Considera co es: 111

tamb Se = 1, temos a chamada m etrica de Manhattan. E em conhecida como city block.


Se = 2, temos a dist ancia euclidiana.

A dist ancia de Minkowski e menos afetada pela presen ca de valores discrepantes na amostra do que a dist ancia euclidiana. A escolha de qual o crit erio de dist ancia entre indiv duos utilizar n ao tem de se limitar a `s op c oes acima indicadas. Algumas destas op c oes s ao desaconselhadas para certos tipos de dados (por exemplo, as m etricas de Minkowski podem n ao ser aconselh aveis para o caso de as p vari aveis terem diferentes unidades de medida). Para certos tipos especiais de dados, existem outras medidas espec cas de similaridade/dissimilaridade. importante destacar que qualquer medida de dist E ancia pode ser transformada em medida de similaridade. Suponha que existam os indiv duos i e j sendo comparados e que a dist ancia entre eles seja dada por dij . Ent ao, o coeciente de similaridade entre os indiv duos i e j ser a denido por:

sij = 1 d0 ij em que dij min(D) max(D) min(D)

d0 ij =

sendo min(D) e max(D) o menor e o maior valor de dist ancia observados na matriz de dist ancias Dnn , sem levar em considera c ao os elementos da diagonal principal dessa matriz.

4.3.2

Vari aveis qualitativas

A similaridade entre indiv duos denidos por vari aveis qualitativas podem ser constru das individualmente ou em grupos. Consideramos que a similaridade entre dois indiv duos ser a um, se ambos possuem uma determinada caracter stica de interesse e zero, caso contr ario. Alternativamente, podemos agrupar as vari aveis bin arias em grupos homog eneos, trabalhando conjuntamente. Se supormos que todos os atributos possuem o mesmo peso, podemos construir uma medida de similaridade 112

entre os indiv duos i e j , com respeito a todos esses atributos, contando o n umero de atributos que est ao presentes:
em ambos, representado por a; em i, mas n ao em j , representado por b; em j , mas n ao em i, representado por c; em nenhum dos dois indiv duos, representado por d.

Estas quatro medidas formam uma tabela de associa c ao entre os indiv duos, assim como a Tabela 4.1, e servir ao para a constru c ao dos ndices de similaridade entre os indiv duos comparados. Nesta tabela, verica-se que p = a + b + c + d, onde p e o n umero de vari aveis ou atributos. Tabela 4.1: Tabela de associa c oes entre os indiv duos i e j Indiv duo j Indiv duo i 1 0 Total 1 a b a+b c d c+d 0 Total a+c b+d p=a+b+c+d Por exemplo, a Tabela 4.2 apresenta uma poss vel matriz de dados com sete atributos bin arios e a Tabela 4.3 representa a tabela de associa co es entre os indiv duos A e B. Tabela 4.2: Matriz de dados quando as vari aveis s ao bin arias Vari aveis (atributos) Indiv duos x1 x2 x3 x4 x5 x6 x7 A 0 1 1 0 0 0 1 B 1 0 1 1 0 1 0 C 1 0 0 1 1 1 1 . . . . . . . . . . . . . . . . . . . . . . . .

Tabela 4.3: Tabela de associa c oes entre os indiv duos A e B Indiv duo B Indiv duo A 1 0 Total 1 1 2 3 0 3 1 4 Total 4 3 7

113

O indiv duo A t em 3 valores 1 no conjunto de vari aveis bin arias e destes tr es, em uma ocasi ao tamb em o indiv duo B possui o valor 1 e nas outras t em o valor 0. O indiv duo A possui 4 valores 0, um coincidindo com os valores de B . Em suma, os totais de linhas e colunas sempre devem ser iguais ao n umero de vari aveis consideradas. Para calcular um coeciente de similaridade entre os indiv duos atrav es da tabela de associa co es, utilizamos os seguintes crit erios:

4.3.2.1

Coeciente de Concord ancia Simples

Este coeciente representa a propor ca o de vari aveis em que h a concord ancia nos valores dos indiv duos i e j . E dado por: a+d a+b+c+d

sij = em que 0 sij

1. No exemplo, temos 1+1 2 = = 0, 2857 1+2+3+1 7

sij =

4.3.2.2

Coeciente de Concord ancia Positiva

Os pares do tipo (0, 0) nem sempre representam concord ancia em rela ca o a um atributo. Por exemplo, se a cor dos olhos de uma pessoa for classicada como 1, caso sejam verdes e 0, caso contr ario, podemos ter duas pessoas classicadas como 0 com a cor dos olhos diferentes. Nesse caso, podemos utilizar um coeciente de concord ancia que leve em considera c ao somente os pares do tipo (1, 1), chamado de coeciente de concord ancia positiva, dado por: a a+b+c+d

sij = em que 0 sij

1. No exemplo, temos 1 1 = = 0, 1428 1+2+3+1 7

sij =

114

4.3.2.3

Coeciente de Concord ancia de Jaccard

Este coeciente representa o n umero de vari aveis em que ambos os indiv duos t em valor 1, dividido pelo n umero de vari aveis em que pelo menos um dos indiv duos tem valor 1. Muito utilizado em ecologia, tendo o mesmo objetivo do coeciente de dado por: concord ancia positiva. E a a+b+c

sij = em que 0 sij 1. No exemplo, temos

sij =

1 1 = = 0, 1667 1+2+3 6

4.3.2.4

Coeciente de Concord ancia de Gower e Legendre

Este coeciente toma a diferen ca entre concord ancias e discord ancias, relativamente ao n umero total de vari aveis observadas. Ao contr ario dos coecientes anteriores, pode tomar valores negativos, situa ca o que ocorre caso haja mais discor d ancias do que concord ancias nos valores das vari aveis para os indiv duos i e j . E dado por: (a + d) (b + c) a+b+c+d

sij = em que 1 sij

1. No exemplo, temos (1 + 1) (2 + 3) 3 = = 0, 4286 1+2+3+1 7

sij =

Observa c ao: Em todos os coecientes de concord ancia vistos, quanto maior o valor de sij , maior e a similaridade entre os indiv duos que est ao sendo comparados. Uma vez calculados os coecientes de similaridade, podemos transforma-los em coecientes de dist ancias. O modo mais simples de se realizar essa transforma ca o e denir a dist ancia mediante dij = 1 sij , por em esta rela c ao pode n ao vericar a propriedade da desigualdade triangular. Pode ser demonstrado que, tomando d 2(1 sij ) essa propriedade e satisfeita. ij = Observa c ao: Quando a vari avel qualitativa possui mais de dois n veis, o artif cio

115

usual e a transforma c ao em vari aveis bin aria atrav es da cria ca o de vari aveis ct cias (dummies), resolvendo a quest ao pelo emprego dos coecientes denidos acima. Suponha o vetor de crit erios qualitativos:

yt = (y1 , y2 , , yl ) onde a i- esima componente assume li n veis, codicados de modo que yi = j , com j = 1, 2, , li . A ideia e transformar o vetor y de dimens ao l em um vetor x de dimens ao p, formado por componentes bin arias. Por exemplo, suponha que deseja-se medir a semelhan ca entre dois objetos, segundo 4 vari aveis nominais, com 3, 4, 5 e 6 n veis cada uma. As caracter sticas de dois objetos i e j s ao respectivamente:

yt (i) = (2, 1, 3, 5)

yt (j ) = (3, 3, 3, 3)

A transforma ca o em vari aveis ct cias leva aos vetores:

xt (i) = (0, 1, 0; 1, 0, 0, 0; 0, 0, 1, 0, 0; 0, 0, 0, 0, 1, 0)

xt (j ) = (0, 0, 1; 0, 0, 1, 0; 0, 0, 1, 0, 0; 0, 0, 1, 0, 0, 0) Condensando em uma tabela de associa c oes tem-se: Indiv duo j Indiv duo i 1 0 1 1 3 3 11 0 Total 4 14 Usando o coeciente de Jaccard tem-se: 1 1 = = 0, 1428 1+3+3 7

Total 4 14 18

sij = ou o de concord ancia simples:

sij =

1 + 11 12 = = 0, 6667 1 + 3 + 3 + 11 18

Observando este u ltimo exemplo nota-se claramente a import ancia da escolha 116

do particular coeciente de similaridade. No exemplo, a coincid encia de zeros e um valor previs vel a priori, o que deve orientar a escolha de uma particular fam lia de coecientes de similaridade.

4.3.3

Vari aveis Quantitativas e Qualitativas

Suponhamos que sejam observadas p vari aveis quantitativas e q vari aveis qualitativas nos mesmos elementos amostrais. Para encontrarmos uma medida de dissimilaridade entre esses indiv duos, podemos construir uma combina c ao linear das medidas de dissimilaridade para vari aveis quantitativas e qualitativas, isto e, se temos dois indiv duos i e j , a medida de dist ancia entre i e j ser a denida como: ij = wp dij + wq d ij em que wp e um peso atribu do a `s vari aveis quantitativas e wq e um peso atribu do a `s qualitativas. A diculdade que se tem no c alculo desse coeciente combinado e a determina c ao dos pesos wp e wq . Uma sugest ao e considerar os pesos como uma fun c ao do n umero de vari aveis quantitativas e qualitativas, por exemplo: p p+q q p+q

wp =

wq =

Algumas considera c oes sobre o c alculo da medida ij :


Os coecientes de parecen cadas vari aveis quantitativas e qualitativas devem

seguir a mesma dire ca o, isto e, n ao podemos combinar medidas de dissimilaridade com medidas de similaridade.
Os coecientes de parecen cadas vari aveis devem estar no mesmo intervalo

de varia ca o. A dist ancia d aveis qualitativas, est a restrita ij , baseadas em vari ao intervalo [0, 1] e n ao e compar avel com as medidas de dist ancia dij , baseadas em vari aveis quantitativas. Dessa forma, deve-se padronizar as vari aveis quantitativas atrav es da f ormula X min(X) max(X) min(X)

Z=

e, ent ao, calcular as medidas de dist ancia sob as vari aveis Z. Observe que 0 Z 1. 117

4.4

M etodos de Agrupamento Hier arquicos

Os m etodos de agrupamento aglomerativos t em sempre a mesma estrutura e se diferenciam somente na forma de se calcular a dist ancia entre grupos. Sua estrutura b asica e: a) Considerar inicialmente n grupos, sendo n o n umero de indiv duos. A matriz de dist ancias Dnn e a matriz de dist ancias entre os elementos originais; b) Selecionar os dois indiv duos mais pr oximos na matriz Dnn e formar com eles um grupo; c) Substituir os indiv duos utilizados no passo b) para denir o grupo por um novo elemento que represente o grupo constru do. A dist ancia entre esse novo elemento e os indiv duos restantes s ao calculadas utilizando um dos crit erios que ser ao denidos a seguir; d) Voltar ao passo b) e repetir os passos b) e c) at e que tenhamos todos os elementos agrupados em um u nico grupo.

4.4.1

Crit erios para denir dist ancias entre grupos

Suponha que temos um grupo K com nk indiv duos e um grupo L com nl indiv duos. A dist ancia entre os grupos K e L pode ser calculada com base em um dos cinco m etodos seguintes:

4.4.1.1

M etodo do vizinho mais pr oximo

Consiste em considerar que a dist ancia entre os dois grupos e a menor dist ancia entre as poss veis combina co es de indiv duos tomados dos dois grupos considerados, isto e,

d(K,L) = min(dij )
iK,j L

118

4.4.1.2

M etodo do vizinho mais distante

Consiste em considerar que a dist ancia entre os dois grupos e a maior dist ancia entre as poss veis combina co es de indiv duos tomados dos dois grupos considerados, isto e,

d(K,L) = max(dij )
iK,j L

4.4.1.3

M etodo da dist ancia m edia

Consiste em considerar que a dist ancia entre os dois grupos e a m edia aritm etica das dist ancias entre as poss veis combina co es de indiv duos tomados dos dois grupos considerados, isto e,

d(K,L) =
iK

dij nk nl j L

4.4.1.4

M etodo do centr oide

Consiste em considerar que a dist ancia entre os dois grupos e a dist ancia euclidiana ao quadrado entre os centr oides dos dois grupos. O centr oide de um grupo e o ponto m edio dos objetos contidos no grupo, isto e, L )t (K L ) d(K,L) = (K sendo i = K
i K

j e = L
j L

nk

nl

4.4.1.5

M etodo de Ward

Tamb em conhecido como m etodo da in ercia m nima. A diferen ca deste m etodo em rela c ao aos anteriores e que neste, usamos os pr oprios indiv duos ao inv es da 119

matriz de dist ancias para construir uma medida global de heterogeneidade de agrupamento. Esta medida, representada por W , e a soma das dist ancias euclidianas ao quadrado entre cada indiv duo i e a m edia de seu grupo: g )t (Xig X g) (Xig X
g i g

W =

g , a m sendo X edia do grupo g . O crit erio come ca supondo que cada indiv duo forma um grupo, isto e, g = n. A ideia por traz do m etodo de Ward e produzir grupos de tal forma que a uni ao dos indiv duos produza o menor incremento poss vel no valor de W . Pode ser demonstrado que, em cada etapa, os grupos que devem se unir am de minimizar o incremento de W s ao aqueles tais que na nb a X b) b )t (X ( Xa X na + nb

min

Algumas observa c oes sobre as caracter sticas dos v arios m etodos de agrupamento:
O m etodo do vizinho mais pr oximo tende a produzir grupos mais alongados,

com indiv duos que podem estar muito distantes entre si, mas pertencendo a um mesmo grupo. Tal fato, conhecido pelo nome de encadeamento (chaining), resulta da ideia de que basta que haja um elemento de um grupo pr oximoa um u nico elemento de outro grupo para que estes sejam atra dos, independentemente de haver outros indiv duos dos grupos que estejam muito distantes entre si. Do ponto de vista do dendrograma, o encadeamento tende a reetir-se em uma arvore com grupos mal denidos, onde as fus oes se sucedem rapidamente.
Os m etodos do vizinho mais pr oximo e do vizinho mais distante s ao os u nicos

que s ao invariantes ` a transforma co es mon otonas do conceito de dissimilaridade (isto e, produzem a mesma classica c ao antes e ap os uma transforma ca o crescente ou decrescente das dissimilaridades).
Os m etodos do vizinho mais distante, da dist ancia m edia e dos centr oides t em

tend encia a produzir grupos esf ericos,isto e, grupos onde n ao h a grandes diferen cas nas dist ancias entre os pares de elementos mais distantes, ao longo de v arias dire co es.
O m etodo da in ercia m nima (Ward) tem tend encia a produzir grupos com um

n umero aproximadamente igual de indiv duos, al em de alta homogeneidade 120

interna.
O m etodo do vizinho mais pr oximo e o m etodo mais econ omicodo ponto de

vista computacional.
O m etodo dos centr oides pode produzir as chamadas invers oes no dendro-

grama, uma vez que n ao garante a monotonia nas dist ancias produzidas por sucessivas fus oes. Exemplo: A m de exemplicar a aplica c ao dos m etodos de agrupamento, considere os dados da Tabela 4.4. Os sete casos s ao considerados as observa c oes de cada indiv duo para as vari aveis X1 e X2 . Tabela 4.4: Casos para agrupamento Caso X1 X2 1 1 1 2 1 2 3 3 2 4 2 4,5 5 1 5 6 3 7 6 5 7 A medida de dist ancia a ser utilizada ser a a dist ancia euclidiana e o m etodo de agrupamento empregado e o do vizinho mais pr oximo. A Figura 4.4 mostra os indiv duos a serem agrupados no plano cartesiano. Vamos construir a matriz de dist ancias D77 , baseada na dist ancia euclidiana entre cada par de indiv duos, dada por:
p

dij =

(xi xj

)t (x

xj ) =
k=1

(xik xjk )2

Por exemplo, a dist ancia euclidiana entre os indiv duos 1 e 2 e dada por:

d12 = = =

(x1 x2

)t (x

x2 ) =
k=1

(x1k x2k )2 (1 1)2 + (2 1)2

(x11 x21 )2 + (x12 x22 )2 = 1=1 121

Figura 4.4: Representa ca o no plano cartesiano dos indiv duos a serem agrupados Calculando as dist ancias entre os demais indiv duos de forma an aloga, temos a matriz de dist ancias D77 , denotada por D0 : 1 2 3 4 1 0, 000 1, 000 2, 236 3, 640 2 0, 000 1, 414 3, 500 3 0, 000 2, 693 D0 = 4 0, 000 5 6 7 5 4, 000 4, 123 3, 606 1, 118 0, 000 6 6, 325 6, 083 5, 000 2, 693 2, 828 0, 000 7 6, 403 5, 657 4, 243 4, 031 5, 000 3, 606 0, 000

A menor dist ancia encontrada na matriz de dist ancias D0 e igual a 1, 000 entre os indiv duos 1 e 2, logo o grupo (1, 2) ser a formado nesta etapa. Calculando as dist ancias entre o novo grupo (1, 2) e os demais indiv duos, utilizando o m etodo do vizinho mais pr oximo, encontramos uma nova matriz de dist ancias, denotada por D1 :

122

(1, 2) 3 4 5 (1, 2) 0, 000 1, 414 3, 500 4, 000 3 0, 000 2, 693 3, 606 D1 = 4 0, 000 1, 118 5 0, 000 6 7

6 6, 083 5, 000 2, 693 2, 828 0, 000

7 5, 657 4, 243 4, 031 5, 000 3, 606 0, 000

Nesta matriz, as dist ancias entre o novo grupo (1, 2) e os demais indiv duos, de acordo com o m etodo do vizinho mais pr oximo, s ao dadas por:

d((1,2)3) = min(d13 ; d23 ) = min(2, 236; 1, 414) = 1, 414 d((1,2)4) = min(d14 ; d24 ) = min(3, 640; 3, 500) = 3, 500 d((1,2)5) = min(d15 ; d25 ) = min(4, 000; 4, 123) = 4, 000 d((1,2)6) = min(d16 ; d26 ) = min(6, 325; 6, 083) = 6, 083 d((1,2)7) = min(d17 ; d27 ) = min(6, 403; 5, 657) = 5, 657 A menor dist ancia encontrada na matriz D1 foi igual a 1, 118, entre os indiv duos 4 e 5, logo o grupo (4, 5) ser a criado. As dist ancias entre o novo grupo (4, 5) e os demais indiv duos, de acordo com o m etodo do vizinho mais pr oximo, s ao dadas por:

d((4,5)(1,2)) = min(d14 ; d24 ; d15 ; d25 ) = min(3, 640; 3, 500; 4, 000; 4, 123) = 3, 500 = min(d(1,2)4 ; d(1,2)5 ) = min(3, 500; 4, 000) d((4,5)3) = min(d34 ; d35 ) = min(2, 693; 3, 606) = 2, 693 d((4,5)6) = min(d46 ; d56 ) = min(2, 693; 2, 828) = 2, 693 d((4,5)7) = min(d47 ; d57 ) = min(4, 031; 5, 000) = 4, 031 e a nova matriz de dist ancias, denotada por D2 ser a dada por:

123

(1, 2) 3 (1, 2) 0, 000 1, 414 3 0, 000 D2 = (4, 5) 6 7

(4, 5) 6 3, 500 6, 083 2, 693 5, 000 0, 000 2, 693 0, 000

7 5, 657 4, 243 4, 031 3, 606 0, 000

Nesta nova matriz, a menor dist ancia encontrada e 1, 414 entre o grupo (1, 2) e o indiv duo 3. Logo o grupo (1, 2, 3) ser a criado. Calculando as novas dist ancias entre o novo grupo (1, 2, 3) e os demais indiv duos, encontramos a nova matriz D3 :

d(((1,2,3)(4,5)) = min(d14 ; d24 ; d34 ; d15 ; d25 ; d35 ) = min(3, 640; 3, 500; 2, 693; 4, 000; 4, 123; 3, 606) = 2, 693 = min(d(1,2)(4,5) ; d(4,5)3 ) = min(3, 500; 2, 693) d((1,2,3)6) = min(d16 ; d26 ; d36 ) = min(6, 325; 6, 083; 5, 000) = 5, 000 = min(d((1,2)6) ; d36 ) = min(6, 083; 5, 000) d((1,2,3)7) = min(d17 ; d27 ; d37 ) = min(6, 403; 5, 657; 4, 243) = 4, 243 = min(d((1,2)7) ; d37 ) = min(5, 657; 4, 243)

e portanto, (1, 2, 3) (4, 5) 6 7 (1, 2, 3) 0, 000 2, 693 5, 000 4, 243 D3 = (4 , 5) 0 , 000 2 , 693 4 , 031 0, 000 3, 606 6 7 0, 000 Note que nesta matriz D3 , temos duas possibilidades de agrupamento: podemos agrupar nesta etapa os grupos (1, 2, 3) e (4, 5) ou o grupo (4, 5) com o indiv duo 6. Escolhemos arbitrariamente (sem perda de generalidade) uma das op co es, por exemplo, o grupo (4, 5) com o indiv duo 6, formaremos o grupo (4, 5, 6). As novas dist ancias s ao dadas ent ao por:

124

d(((4,5,6)(1,2,3)) = min(d14 ; d24 ; d34 ; d15 ; d25 ; d35 ; d16 ; d26 ; d36 ) = min(3, 640; 3, 500; 2, 693; 4, 000; 4, 123; 3, 606; 6, 325; 6, 083; 5, 000) = 2, 693 = min(d(1,2,3)(4,5) ; d(1,2,3)6 ) = min(2, 693; 5, 000) d((4,5,6)7) = min(d47 ; d57 ; d67 ) = min(4, 031; 5, 000; 3, 606) = 3, 606 = min(d((4,5)7) ; d67 ) = min(4, 031; 3, 606)

e portanto, a matriz de dist ancias D4 ser a dada por, (1, 2, 3) (4, 5, 6) 7 (1, 2, 3) 0, 000 2, 693 4, 243 D4 = (4, 5, 6) 0, 000 3, 606 7 0, 000 Temos ent ao, que a menor dist ancia e 2, 693 e os grupos (1, 2, 3) e (4, 5, 6) ser ao unidos, formando o grupo (1, 2, 3, 4, 5, 6). A dist ancia entre este novo grupo e o indiv duo 7 e:

d((1,2,3,4,5,6)7) = min(d17 ; d27 ; d37 ; d47 ; d57 ; d67 = min(6, 403; 5, 657; 4, 243; 4, 031; 5, 000; 3, 606) = 3, 606 = min(d(1,2,3)7 ; d(4,5,6)7 ) = min(4, 243; 3, 606)

e nalmente, a matriz de dist ancias D5 ser a dada por, (1, 2, 3, 4, 5, 6) 7 D5 = (1, 2, 3, 4, 5, 6) 0, 000 3, 606 7 0, 000 A Tabela 4.5 resume toda a aplica ca o do algoritmo de agrupamento e auxilia na constru ca o do dendrograma:

125

Tabela 4.5: Resumo do algoritmo de agrupamento Passo N o . de grupos Grupos Dist ancia 1 7 1,2,3,7,5,6,7 0,000 2 6 (1, 2),3,4,5,6,7 1,000 5 (1, 2),3,(4, 5),6,7 1,118 3 4 4 (1, 2, 3),(4, 5),6,7 1,414 3 (1, 2, 3),(4, 5, 6),7 2,693 5 6 2 (1, 2, 3, 4, 5, 6),7 2,693 7 1 (1, 2, 3, 4, 5, 6, 7) 3,606 A Figura 4.5 mostra o dendrograma resultante da aplica ca o do m etodo de agrupamento:

Figura 4.5: Dendrograma resultante da aplica ca o do m etodo de agrupamento

4.4.2

Determina c ao do n umero de grupos

Ap os aplica c ao de um m etodo de agrupamento, uma d uvida surge naturalmente: onde cortaro dendrograma a m de denir o n umero g de grupos da parti ca o nal. Existem alguns crit erios que auxiliam a tomar essa decis ao:

126

1. An alise do comportamento das dist ancias entre grupos: Pode-se construir um gr aco do n umero de grupos versus o n vel de dist ancia do agrupamento de cada est agio do processo. Quando a divis ao de um novo grupo n ao introduz altera co es signicativas no n vel de dist ancia, podemos considerar essa parti ca o como sendo otima. A Figura 4.6, referente ao exemplo anterior, sugere que a partir de 4 grupos, n ao existem diferen cas signicativas nos n veis de dist ancia, indicando a forma c ao de 4 grupos, a saber: g1 = (1, 2, 3), g2 = (4, 5), g3 = 6 e g4 = 7.

Figura 4.6: Coecientes de fus ao 2. An alise do comportamento do n vel de similaridade: Similar ao crit erio 1, por em analisando o n vel de similaridade em cada est agio do agrupamento. Se gi e gj s ao os grupos unidos em um determinado est agio, o n vel de similaridade entre eles e dado por: Sij = 1 dij max(dkl ) 100

em que k, l = 1, , n e max(dkl ) e a maior dist ancia entre os n elementos amostrais na matriz de dist ancias Dnn do primeiro est agio de agrupamento. Procuramos detectar pontos nos quais h a um decrescimento acentuado na similaridade, nos quais o algoritmo dever a ser interrompido e o n umero g de grupos determinado. Em geral, escolhemos os valores de similaridade acima de 75%. No exemplo acima, temos: S12 = 1 d12 max(D0 ) 100 = 127 1 1, 000 6, 403 100 = 84, 38

S45 =

d45 max(D0 ) d(1,2)3 max(D0 ) d(4,5),6 max(D0 )

100 =

1, 118 6, 403 1, 414 6, 403 2, 693 6, 403

100 = 82, 54

S(1,2)3 =

100 =

100 = 77, 92

S(4,5)6 =

100 =

100 = 57, 94

Observe que houve um decrescimo acentuado na similaridade quando inclu mos o indiv duo 6 no grupo (4, 5), indicando que o algoritmo dever a ser interrompido neste ponto. Logo, deveremos ter 4 grupos formados. A Figura 4.7 mostra os agrupamentos gerados atrav es dos dados do exemplo.

Figura 4.7: Representa ca o no plano cartesiano dos grupos de indiv duos formados

4.5

M etodos N ao-Hier arquicos

Nos m etodos n ao-hier arquicos, tamb em conhecidos como m etodos de parti ca o, denimos a ` priori o n umero k de grupos que se pretende criar. O objetivo ser a 128

determinar a classica ca o dos n indiv duos em k grupos que otimize algum crit erio de homogeneidade interna e heterogeneidade externa. Determinar a solu c ao deste problema, para um dado crit erio de agrupamento, exigiria uma pesquisa completa da solu c ao encontrada pelo crit erio para todos os poss veis agrupamentos de n indiv duos em k grupos, o que tornaria-se invi avel ` a medida que o n umero de indiv duos aumenta. Por exemplo, para resolver um problema pequeno com 16 objetos e 3 grupos, seria necess ario investigar cerca de 14 milh oes de parti co es. Portanto os m etodos de parti c ao tendem a investigar algumas parti co es, procurando encontrar a parti ca o o tima, ou uma alternativa que seja quase o tima.

4.5.1

M etodo k -m edias (k-means)

Suponha uma amostra de n indiv duos mensurados em p vari aveis. O objetivo e dividir essa amostra em k grupos pr exados. O m etodo k -m edias, tamb em conhecido como m etodo das m edias m oveis (ou centr oides m oveis), requer as seguintes etapas: a) Selecionar aleatoriamente k indiv duos como centr oides iniciais (ou escolha os centr oides iniciais de alguma forma); b) Calcular as dist ancias entre cada indiv duo e o centro de cada um dos k grupos e classicar o indiv duo no grupo mais pr oximo. c) Calcule o centr oide de cada grupo; d) Repita os passos b) e c) at e que os centr oides n ao apresentem mais mudan cas. Exemplo: A m de ilustrar a aplica ca o do m etodo k -m edias, consideremos os dados da Tabela 4.4. Suponha que deseja-se construir k = 2 grupos e que a escolha inicial recaiu nos casos 1 e 3, cujas coordenadas s ao os centr oides c 1 e c 2 iniciais. Temos que:

d2 c1 = = =

(x2 c 1 )t (x2 c 1 ) =
k=1

(x2k c 1k )2 (2 1)2 + (1 1)2

1=1

(x21 c 11 )2 + (x22 c 12 )2 =

129

De forma an aloga, s ao calculadas as demais dist ancias entre os indiv duos e os centr oides iniciais, c 1 e c 2 , mostradas na Tabela 4.6. Tabela 4.6: Desenvolvimento do algoritmo k -m edias: 1a itera c ao Itera ca o 1 Casos c 1 = (1; 1) c 2 = (3; 2) grupo i xi d x i ,c d xi , c classicado 1 2 1 (1; 1) 0,000 2,236 1 2 (2; 1) 1,000 1,414 1 2,236 0,000 2 3 (3, 2) 4 (2; 4, 5) 3,640 2,693 2 4,000 3,606 2 5 (1; 5) 6 (3; 7) 6,325 5,000 2 7 (6; 5) 6,403 4,243 2 Recalculando as m edias dos grupos: 1+2 = 1, 5 2 1+1 =1 2

c 11 =

c 12 =

c 21 =

3+2+1+3+6 =3 5

c 22 =

2 + 4, 5 + 5 + 7 + 5 = 4, 7 5

Logo, os novos centr oides dos grupos s ao c 1 = (1, 5; 1) e c 2 = (3; 4, 7). A Tabela 4.7 mostra a 2a itera c ao do algoritmo: Tabela 4.7: Desenvolvimento do algoritmo k -m edias: 2a itera c ao Itera ca o 2 Casos c 1 = (1, 5; 1) c 2 = (3; 4, 7) grupo i xi d xi , c d classicado 1 x i ,c 2 1 (1; 1) 0,500 4,206 1 2 (2; 1) 0,500 3,833 1 3 (3, 2) 1,803 2,700 1 4 (2; 4, 5) 3,536 1,020 2 5 (1; 5) 4,031 2,022 2 6 (3; 7) 6,185 2,300 2 7 (6; 5) 6,021 3,015 2 Recalculando as m edias dos grupos: 1+2+3 =2 3 1+1+2 = 1, 33 3

c 11 =

c 12 =

130

c 21 =

2+1+3+6 =3 4

c 22 =

4, 5 + 5 + 7 + 5 = 5, 37 4

Logo, os novos centr oides dos grupos s ao c 1 = (2; 1, 33) e c 2 = (3; 5, 37). A Tabela 4.8 mostra a 3a itera c ao do algoritmo: Tabela 4.8: Desenvolvimento do algoritmo k -m edias: 3a itera c ao Itera ca o 3 Casos c 1 = (2; 1, 33) c 2 = (3; 5, 37) grupo i xi d xi , c d classicado 1 xi ,c 2 1 (1; 1) 1,053 4,806 1 2 (2; 1) 0,330 4,483 1 3 (3, 2) 1,204 3,370 1 4 (2; 4, 5) 3,170 1,325 2 3,804 2,034 2 5 (1; 5) 6 (3; 7) 5,757 1,630 2 7 (6; 5) 5,428 3,023 2 Note que a partir dessa itera ca o n ao h a mais altera c oes na forma ca o dos grupos. Assim, pelo m etodo k -m edias, os grupos formados foram c1 = (1, 2, 3) e c2 = (4, 5, 6, 7). O m etodo k -m edias come ca com k grupos aleat orios e ent ao, no proceso iterativo, mover a os indiv duos entre os grupos de forma a encontrar uma forma ca o que minimize a vari ancia dentro dos grupos e maximize a vari ancia entre os grupos. Os crit erios de qualidade procuram avaliar essa propriedade.

4.6

Solu c ao utilizando o software R

Os principais comandos do programa R, no contexto da an alise de agrupamento hier arquica, s ao: dist() e as.dist() (para criar matrizes de dist ancias entre indiv duos a partir de matrizes de dados); mahalanobis()(para calcular a dist ancia de Mahalanobis entre dois indiv duos); hclust() (para efectuar a classica ca o); plot() ou plclust() (para representar gracamente a classica c ao); cutree() (para cortar o dendrograma e produzir uma listagem dos indiv duos pertencentes a cada grupo); identify() e rect.hclust() para separar gracamente as classes em um dendrograma produzido pelo comando plclust() ou pelo comando plot(). Para os m etodos de agrupamento n ao-hier arquicos, o software R tem uma fun ca o que efetua uma variante do m etodo das k -m edias, designado por k -m edias de 131

Hartigan, em que o crit erio de atribui ca o dos indiv duos a `s classes (geradas por uma sementede k centros iniciais) e o de minimizar a soma das in ercias das k classes, em rela ca o aos seus centros. A fun c ao relevante do R e a fun ca o kmeans(). Consideremos, mais uma vez, o conjunto de dados iris, integrado no software R, e procuremos classicar os n = 150 l rios, ngindodesconhecer os tr es grupos a que, na realidade, os l rios pertencem. Vejamos se, com base nas quatro vari aveis morfom etricas observadas, uma an alise de agrupamento e capaz de reproduzir a exist encia de tr es diferentes grupos, associados ` as variedades de l rios. Como foi visto nas se co es anteriores, existem v arias decis oes a tomar a m de efetuar uma an alise de agrupamento, sendo a primeira de todas o crit erio de dissimilaridade que dever a ser associado a cada par de indiv duos. Por default, a fun c ao dist() recebe a matriz de dados e retorna a matriz de dist ancias euclidianas usuais entre cada par de indiv duos (linhas da matriz/data frame original). Atrav es da op ca o methods da fun c ao dist(), podemos calcular as outras op co es de dist ancia. Atualmente, est ao dispon veis no R as dist ancias de Minkowski, a m etrica do m aximo, dist ancia de Canberra, e ainda, para dados bin arios e com a designa ca o de binary, a dist ancia associada a ` medida de semelhan ca Coeciente de Jaccard convertida em dist ancia atrav es da rela c ao dij = 1 sij . A fun c ao dist() produz um objeto da classe dist, ou seja, um objeto do tipo vetor, contendo os elementos do tri angulo inferior da matriz Dnn de dist ancias (aproveitando o fato das matrizes de dist ancias serem sim etricas e terem diagonais nulas para poupar na quantidade de informa c ao a ser armazenada). Caso exista uma matriz de dist ancias completa Dnn , criada por outra via, esta pode ser transformada em uma estrutura da classe dist atrav es da fun c ao as.dist(). O resultado poder a ent ao ser passado para a fun c ao hclust(), que efetua a classica ca o. Por default, a fun ca o utiliza o m etodo do vizinho mais distante para realizar os agrupamentos. Para utilizarmos os outros m etodos, invocamos a op ca o method. Os m etodos de agrupamento dispon veis no R incluem, al em do m etodo do vizinho mais distante (default ou method = "complete"), tamb em o m etodo do vizinho mais pr oximo (method = "single"), da dist ancia m edia (method = "average"), do centr oides (method = "average") e o m etodo de Ward (method = "ward"). Os resultados da fun ca o hclust() s ao de dif cil leitura (constituem um objeto da classe hclust). Ser ao de maior utilidade quando transformados em um dendrograma, o que pode ser feito atrav es da fun ca o plclust(), ou mais simplesmente 132

solicitando um plot() do resultado da fun ca o hclust(). Observa c ao: Para encontramos a matriz de dist ancias de Mahalanobis: > library("ecodist") ## carregar o pacote ecodist

> dist2 = distance(iris[,-5],method = "mahalanobis") Vamos agora, realizar uma an alise de agrupamento nos dados referentes aos l rios. Tomando, por exemplo, a dist ancia euclidiana e o m etodo do vizinho mais pr oximo, temos: > ## C alculo das matrizes de dist^ ancias > dist1 = dist(iris[,-5],method = "euclidean") ## Dist^ ancia Euclidiana

> hc = hclust(dist1,method="single") ## M etodo do vizinho mais pr oximo Na Figura 4.8 apresenta-se o dendrograma resultante de uma an alise de agrupamento hier arquico atrav es do m etodo do vizinho mais pr oximo, sobre a matriz de dist ancias euclidianas entre as n = 150 linhas dos dados iris. Como acontece sempre que o n umero de indiv duos e grande, a leitura das folhasdo dendrograma n ao e f acil, sendo no entanto evidente a exist encia de dois grandes grupos. Para compreender quais os indiv duos que integram cada um desses grupos, pode utilizar-se a fun c ao cutree(), com o resultado indicado a seguir. Utilizando a fun ca o rect.hclust(), podemos visualizar gracamente os grupos no dendrograma. > cutree(hc, k = 2) [1] [38] [75] [112] [149] 1 1 2 2 2 1 1 2 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2 1 2 2 2

133

> plot(hc, hang = -1, main = "dendrograma") > rect.hclust(hc, k = 2)

dendrograma

Height 0.0 42 23 15 16 45 34 33 17 21 32 37 25 14 47 20 22 7 12 3 4 48 26 30 31 13 46 2 10 35 43 9 39 11 49 36 50 8 40 41 1 18 5 38 28 29 44 24 27 6 19 118 132 107 99 61 58 94 110 109 135 136 119 106 123 69 88 63 115 108 131 120 101 65 60 86 80 74 79 64 92 62 70 81 82 54 90 91 89 95 100 96 97 68 83 93 56 67 85 72 77 78 87 51 53 75 98 55 59 66 76 52 57 150 71 128 139 147 124 127 122 114 102 143 73 84 134 116 137 149 113 140 125 121 144 141 145 142 146 104 117 138 105 129 133 112 111 148 103 126 130 dist1 hclust (*, "single")

Figura 4.8: Dendrograma resultante do m etodo do vizinho mais pr oximo na matriz de dist ancias euclidianas Repare-se como a fun c ao cutree() exige a indica ca o (atrav es do par ametro k ) do n umero de grupos em que se deseja particionar os indiv duos. A composi c ao dos grupos e o resultado de cortar o dendrograma a uma altura na qual resultem dois grupos separados de folhas. Da listagem produzida (e recordando que a data frame iris continha os l rios setosa nas 50 primeiras linhas) pode vericar-se que a separa c ao deixa a totalidade dos l rios dessa variedade em um grupo, juntando os 100 l rios das outras duas variedades no segundo grupo. Esta separa ca o est a de acordo com a vis ao dos dados quando projetados os escores de uma an alise de componentes principais, conforme pode ser visto na Figura 4.9. A leitura do dendrograma n ao justica uma separa c ao em mais de 2 grupos, e a imposi ca o de um terceiro grupo (que e sempre poss vel, bastando cortar o dendrograma em uma altura adequada) n ao produz a desejada classica c ao em separado 134

0.5

1.0

1.5

2 > plot(prcomp(iris[, -5])$x[, 1:2], cex = 0.8, col = as.numeric(iris[, + 5]), pch = 16)

q q

1.0

q q q q q q q q q q q q q q qq q qq qq q q q q q qq q q q q q

q q q q q q q q q q q q q q q qq q q q qq q q q q

0.5

q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q qq q q q q q q q q q q

PC2

0.0

0.5

q q

1.0

q q q q q

0 PC1

Figura 4.9: Escores de uma an alise de componentes principais dos n = 150 l rios das variedades versicolor e virginica. Para as vari aveis observadas, crit erio de dist ancia entre indiv duos e entre classes utilizadas, a separa ca o dessas duas variedades n ao e poss vel. Estes resultados podem ser diferentes caso se modique alguma das op c oes acima. Por exemplo, uma classica ca o em tr es grupos, baseada ainda na matriz das dist ancias euclidianas, mas utilizando o m etodo de Ward para denir as semelhan cas entre classes, produz uma classica ca o em tr es grupos muito pr oxima da classica ca o dos l rios pelas suas variedades. > hc2 = hclust(dist1,method="ward") ## M etodo de Ward

> cutree(hc2, k = 3) 135

> plot(hc2, hang = -1, main = "dendrograma") > rect.hclust(hc2, k = 3)

dendrograma
200 Height 0 30 31 13 2 46 26 10 35 42 14 43 9 39 23 7 3 4 48 36 5 38 50 8 40 28 29 41 1 18 44 24 27 12 25 17 33 34 15 16 45 47 20 22 6 19 21 32 37 11 49 108 131 103 126 130 119 106 123 118 132 110 136 109 135 105 129 133 112 104 117 138 111 148 113 140 142 146 141 145 125 121 144 101 116 137 149 61 99 58 94 63 68 83 93 65 80 70 81 82 60 54 90 107 95 100 89 96 97 67 85 56 91 150 71 128 139 115 102 143 114 122 69 88 147 124 127 120 73 84 134 78 87 51 53 66 76 77 55 59 86 52 57 74 79 64 92 75 98 62 72 dist1 hclust (*, "ward")

Figura 4.10: Dendrograma resultante do m etodo de Ward na matriz de dist ancias euclidianas [1] [38] [75] [112] [149] 1 1 2 3 3 1 1 2 3 2 1 1 2 2 1 1 2 2 1 1 2 3 1 1 2 3 1 1 2 3 1 1 2 3 1 1 2 2 1 1 2 3 1 1 2 2 1 1 2 3 1 1 2 2 1 2 2 3 1 2 2 3 1 2 2 2 1 2 2 2 1 2 2 3 1 2 2 3 1 2 2 3 1 2 2 3 1 2 2 3 1 2 2 2 1 2 2 3 1 2 2 3 1 2 2 3 1 2 3 3 1 2 2 2 1 2 3 3 1 2 3 3 1 2 3 3 1 2 3 2 1 2 2 3 1 2 3 3 1 2 3 3 1 2 3 2 1 2 3 3

As primeiras 100 observa co es (todas as setosa e versicolor) foram corretamente classicadas. J a os 50 l rios virginica foram globalmente classicados em um terceiro grupo, mas em 14 casos foram incorretamente associadas ao grupo das versicolor. No entanto, olhando o dendrograma correspondente ` a classica ca o baseada neste m etodo (Figura 4.10) revela que a exist encia de dois diferentes grupos e clara, mas j a a subdivis ao em tr es grupos e menos o bvia (embora seja claramente mais plaus vel que no caso anterior). 136

50

100

150

Considera co es an alogas emergem da utiliza c ao do m etodo de agrupamento n aohier arquico k -m edias. A exig encia de k = 2 grupos nais com esse m etodo produz os seguintes resultados: > kmeans(iris[, -5], 2) K-means clustering with 2 clusters of sizes 53, 97 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.005660 3.369811 1.560377 0.2905660 2 6.301031 2.886598 4.958763 1.6958763 Clustering vector: [1] 1 1 1 1 1 1 1 [38] 1 1 1 1 1 1 1 [75] 2 2 2 2 2 2 2 [112] 2 2 2 2 2 2 2 [149] 2 2

1 1 2 2

1 1 2 2

1 1 2 2

1 1 2 2

1 1 2 2

1 1 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 1 2

1 1 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 1 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

1 2 2 2

Within cluster sum of squares by cluster: [1] 28.55208 123.79588 Available components: [1] "cluster" "centers"

"withinss" "size"

Al em da classica ca o de cada indiv duo ($cluster), o comando devolve os centros de gravidade dos pontos em cada grupo ($centers), o tamanho de cada grupo ($size) e uma medida do grau de homogeneidade de cada classe ($withinss), dada pela in ercia de cada classe (o crit erio de classica c ao visando minimizar a soma dessas in ercias). No caso em quest ao e poss vel vericar que a classe 2 (que inclui as primeiras 50 observa co es) e mais homog enea que a segunda classe, mesmo levando em considera ca o que tem cerca de metade das observa c oes, o que conrma a informa c ao j a obtida pelas an alises anteriores. Para k = 3, temos: > kmeans(iris[, -5], 3) 137

K-means clustering with 3 clusters of sizes 50, 38, 62 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 2 6.850000 3.073684 5.742105 2.071053 3 5.901613 2.748387 4.393548 1.433871 Clustering vector: [1] 1 1 1 1 1 1 1 [38] 1 1 1 1 1 1 1 [75] 3 3 3 2 3 3 3 [112] 2 2 3 3 2 2 2 [149] 2 3

1 1 3 2

1 1 3 3

1 1 3 2

1 1 3 3

1 1 3 2

1 1 3 3

1 3 3 2

1 3 3 2

1 2 3 3

1 3 3 3

1 3 3 2

1 3 3 2

1 3 3 2

1 3 3 2

1 3 3 2

1 3 3 3

1 3 3 2

1 3 3 2

1 3 3 2

1 3 2 2

1 3 3 3

1 3 2 2

1 3 2 2

1 3 2 2

1 3 2 3

1 3 3 2

1 3 2 2

1 3 2 2

1 3 2 3

1 3 2 2

Within cluster sum of squares by cluster: [1] 15.15100 23.87947 39.82097 Available components: [1] "cluster" "centers"

"withinss" "size"

4.7

Exerc cios

1. Efetue uma an alise de agrupamento utilizando os dados dispon veis no arquivo terra.dat, a m de averiguar a eventual exist encia de diferentes grupos de solos entre as observa co es. Utilize as seguintes medidas de dissimilaridade:
Dist ancia Euclidiana Dist ancia de Mahalanobis

Fa ca a an alise utilizando os seguintes m etodos de agrupamento:


M etodo do vizinho mais pr oximo M etodo do vizinho mais distante M etodo de Ward

a) Fa ca uma an alise comparativa dos dendrogramas resultantes e comente. 138

b) Utilize as fun co es rect.hclust() e cutree() do R para criar, em cada caso, k = 3 casos. c) Efetue uma an alise de agrupamento utilizando o m etodo de agrupamento n ao-hier arquico k-means, atrav es da fun ca o kmeans() do R. Dena k = 3 grupos. d) Especique as amostras n umero 1, 10 e 20 como sendo as sementes dos 3 grupos. (Veja a ajuda da fun ca o kmeans() do R e, em particular, o par ametro centers). 2. Considere os dados relativos a medi co es de comprimentos e larguras de s epalas e p etalas de 150 l rios dispon veis no j a estudado banco de dados iris, dispon vel na base de dados do R. a) Realize uma an alise de agrupamento hier arquica dos 150 l rios observados, com base na matriz de dist ancias de mahalanobis e utilizando o m etodo de agrupamento de Ward. b) Repita a quest ao a), por em utilizando o m etodo de agrupamento do vizinho mais pr oximo. Compare os resultados. c) Realize uma an alise de agrupamento hier arquica dos 150 l rios utilizando a matriz de dist ancias de Mahalanobis e os m etodos de agrupamento do vizinho mais distante, do centr oide e da dist ancia m edia. Compare os resultados. d) Repita a quest ao c), por em utilizando a matriz de dist ancias de Manhattan.

139

Ap endice A Alguns resultados importantes


Neste ap endice ser ao apresentados uma s erie de resultados importantes sobre a distribui ca o de vetores aleat orios e sobre a lgebra de matrizes utilizados no decorrer do texto. Deni c ao 1: Seja X = [ X1 Xp ]t um vetor aleat orio com E (Xi ) = i , Var(Xi ) = i2 = ii , Cov(Xi , Xj ) = ij e Cor(Xi , Xj ) = ij . Denimos a) Vetor de m edias de X 1 . . = . p

b) Matriz de covari ancias de X = 11 12 1p 21 22 2p . . . .. . . . . . . . p1 p2 pp

c) Matriz de correla co es de X

140

P =

1 12 1p 21 1 2p . . ... . . . . . . . p1 p2 1

Resultado 1: Sejam X e Y vetores aleat orios de dimens ao p com vetores de m edias X e Y , respectivamente e com Cov(X) = X e Cov(Y) = Y . Sejam a e b vetores de constantes de dimens ao p e A uma matriz de constantes de dimens ao m p. Ent ao a) E(at X + bt Y) = at E(X) + bt E(Y) = at X + bt Y b) Cov(AX) = ACov(X)At = AX At

Deni c ao 2: Diremos que um vetor aleat orio p-dimensional X segue uma distribui ca o normal multivariada com vetor de m edias e matriz de covari ancias , positiva denida, se sua fun c ao densidade de probabilidade for dada por 1 (2 ) Denota-se X Np (, ) Resultado 2: Seja X Np (, ), a um vetor p-dimensional de constantes e A uma matriz m p de constantes, ent ao a) at X Np (at , at a) b) X + a Np ( + a, ) c) At X Nm (At , At A)
p 2

f X; , =

1 2

1 exp (X )t 1 (X ) 2

Resultado 3: Seja X =

t Xt 1 , X2

com X1 , X2 de dimens ao m 1 e q 1,

respectivamente e p = m + q . Assuma que X Np (, ), com 141

1 2

11 12 21 22

sendo que 1 , 2 , 11 , 22 e 12 = t ao, respectivamente, de dimens ao m 1, 21 s p 1, m m, q q e m p, ent ao a) X1 Nm (1 , 11 ) e X2 Nm (2 , 22 ) b) X1 e X2 s ao independentes se e somente se 12 = 0 c) A distribui c ao condicional de X1 dado X2 = a e normal m-variada com

1 E (X1 |X2 = a) = 1 + 12 22 (a 2 ) 1 Cov(X1 |X2 = a) = 11 12 22 21

Resultado 4: Se X Np (, ), com || > 0, ent ao (X )t 1 (X ) 2 p

Resultado 5: Seja A uma matriz quadrada qualquer de dimens ao p p. Os autovalores de A, denotados por 1 , , p , s ao as ra zes da equa ca o |A I| = 0. Para cada i = 1, , p, existe um vetor n ao nulo ai que satisfaz Aai = i ai . O vetor ai e chamado autovetor de A associado ao autovalor i . Resultado 6: Decomposi c ao Espectral. Seja A uma matriz sim etrica de dimens ao p p. A matriz A pode ser reescrita como

A = OOt onde e a matriz diagonal dos autovalores de A e O e a matriz cujas colunas s ao os autovetores ortogonais padronizados de A.

142

Refer encias Bibliogr acas


ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed. New York, John Wiley, 1984, 675p. ANDERSON, T.W. The asymptotic theory for principal components analysis, Annals of Mathematical Statistics, v.34, p.122-148, 1963. BARTLETT, M.S. A note on multiplying factors for various Chi-Square approximations. Journal of the royal Statistical Society Series B. v.16, p.296-298, 1954. BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw Hill, 1975. BUSSAB, W.O., MIAZAKI, E.S., ANDRADE, D.F., Introdu c ao ` a An alise de Agrupamentos. S ao Paulo:ABE,1990. CARROLL, J.B. An analytical solution for approximating simple structure in factor analysis. Psychometrika. v.18, pp.23-28, 1953. CLEVELAND, W.S.; RELLES, D.A. Clustering by identication with special application to two way tables of counts. Journal of American Statistical Association. v.70, n.351, 1975. 626-630p. FERREIRA, Daniel Furtado (2008). Estat stica multivariada. 1. ed. Lavras : Editora UFLA. HORN, J.L., A rationale and test for the number of factors in factor analysis. Psychometrika, 30, 179-185. 1965. HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321377, 1936. JOBSON, J. D. Applied multivariate data analysis. vols I. e II, New York: Springer Verlag, 1992. 143

JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th edition. Prentice Hall, New Jersey, 1998. 816p. KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of Educational and Psychological Measurement. v.19, pp.413-420, 1959. KAISER, H.F. The varimax criterion for analytic rotation in factor analysis. Psychometrika. v.23, pp.187-200, 1958. KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972. LATTIN, J., CARROL, J. D., GREEN, P. E.,An alise de dados multivariados. Cengage Learning. 2011. LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal Society of Edinburgh, Series A. v.61, pp.176-185, 1942. LAWLEY, D.N. The application of the maximum likelihood method to factor analysis. British Journal of Psychology. v.33, pp.172-175, 1943. MARDIA, K., KENT, J., and BIBBY, J., Multivariate Analysis. Academic Press. 1979. MINGOTI, S. A.,. An alise de dados atrav es de m etodos de estat stica multivariada: uma abordagem aplicada. 1. ed. Belo Horizonte: Editora UFMG. 2005. MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d ed., 1976. 307p. RENCHER, A., Methods of Multivariate Analysis. Wiley. 1995. SHARMA, Subhash, Applied Multivariate Techniques. New York: John Wiley & Sons. 1996.

144