Escolar Documentos
Profissional Documentos
Cultura Documentos
Analise Multivariada
Analise Multivariada
ANLISE MULTIVARIADA
LAVRAS, MG 1996
ii
SUMRIO 1. Aspectos da anlise multivariada 1.1. Introduo 1.2. Aplicao das tcnicas multivariadas 1.3. Organizao de dados 1.4. Distncias 1.5. Exerccios
Pg. 1 1 3 5 15 24
2. lgebra vetorial e matricial 2.1. Introduo 2.2. Elementos de lgebra vetorial 2.3. Elementos de lgebra matricial 2.4. Exerccios
25 25 26 34 82
3. Amostragem multivariada 3.1. Introduo 3.2. Geometria amostral 3.3. Amostras aleatrias e esperanas do vetor de mdia e da matriz de covarincia amostral. 3.4. Varincia generalizada 3.5. Varincia generalizada de variveis generalizadas 3.6. Outra generalizao da varincia 3.7. Exerccios
iii
4. Distribuio normal multivariada 4.1. Introduo 4.2. Pressuposies das anlises multivariadas 4.3. Densidade normal multivariada e suas propriedades 4.4. Distribuio normal bivariada 4.5. Distribuio amostral de X e S 4.6. Distribuies amostral derivada da distribuio normal multivariada 4.7. Verificando a normalidade 4.8. Exerccios
5. Inferncias sobre o vetor mdia 5.1. Introduo 5.2. Inferncias sobre mdia de uma populao normal 5.3. Regio de confiana e comparaes simultneas de componentes de mdia 5.4. Inferncias sobre propores de grandes amostras 5.5. Comparaes pareadas 5.6. Comparaes de vetores de mdias de duas populaes 5.7. Exerccios
iv
230 232
7. Componentes principais 7.1. Introduo 7.2. Componentes principais populacionais 7.3. Componentes principais amostrais 7.4. Grficos dos componentes principais 7.5. Inferncias para grandes amostras 7.6. Exerccios
8. Anlise de agrupamento 8.1. Introduo 8.2. Medidas de parecena (similaridades e dissimilaridades) 8.3. Agrupamentos 8.4. Exerccios
9. Anlise de fatores 9.1. Introduo 9.2. Modelo de fatores ortogonais 9.3. Estimao de cargas fatoriais 9.4. Rotao fatorial 9.5. Teste da falta de ajuste do modelo fatorial
349 354
10. Anlise de correlao cannica 10.1. Introduo 10.2. Variveis cannicas e correlao cannica populacionais 10.3. Variveis e correlaes cannicas amostrais 10.4. Inferncias para grandes amostras 10.5. Exerccios 11. Referencias bibliogrficas Apndices ndice remissivo
||[
1.1. Introduo
]||
Nos trabalhos cientficos, o problema de se inferir, a partir de dados mensurados pelo pesquisador, sobre os processos ou fenmenos fsicos, biolgicos ou sociais, que no se pode diretamente observar, uma realidade constante. A pesquisa cientfica se constitui num processo interativo de aprendizado. Para explicao de um fenmeno, o pesquisador em geral coleta e analisa dados de acordo com uma hiptese. Por outro lado, a anlise destes mesmos dados coletados de amostragem ou experimentao geralmente sugere modificaes da explicao do fenmeno, alm disso, devido complexidade destes fenmenos, o pesquisador deve coletar observaes de diferentes variveis. Neste contexto, a inferncia estatstica realizada de acordo com o paradigma hipottico-dedutivo (Bock, 1975). Devido aos fenmenos serem estudados a partir de dados coletados ou mensurados em muitas variveis, os mtodos estatsticos delineados para obter informaes a partir destes conjuntos de informaes, so denominados de mtodos de anlises multivariados. A necessidade de compreenso das relaes
entre as diversas variveis faz com que as anlises multivariadas sejam complexas ou at mesmo difceis. O objetivo do presente material apresentar a utilidade das tcnicas multivariada de uma forma clara, usando exemplos ilustrativos e evitando o mximo de possvel de clculo. Sendo assim, os objetivos gerais, para os quais a anlise multivariada conduz so: a. reduo de dados ou simplificao estrutural: o fenmeno sob estudo representado da maneira mais simples possvel, sem sacrificar informaes valiosas e tornando as interpretaes mais simples;
b. ordenao e agrupamento: agrupamento de objetos (tratamentos) ou variveis similares, baseados em dados amostrais ou experimentais;
c. investigao da dependncia entre variveis: estudos das relaes estruturais entre variveis muitas vezes de interesse do pesquisador;
d. predio: relaes entre variveis devem ser determinadas para o propsito de predio de uma ou mais varivel com base na observao de outras variveis;
Os modelos multivariados possuem em geral, um propsito atravs do qual o pesquisador pode testar ou inferir a respeito de uma hiptese sobre um
determinado fenmeno. No entanto a sua utilizao adequada depende do bom conhecimento das tcnicas e das suas limitaes. A frase utilizada por Marriott (1974) descreve bem este fato: No h mgica com os mtodos numricos, e que apesar de serem uma importante ferramenta para anlise e interpretao de dados, no devem ser utilizados como mquinas automticas de encher lingia, transformando massas numricas em pacotes de fatos cientficos.
As tcnicas estatsticas constituem se uma parte integral da pesquisa cientfica e em particular as tcnicas multivariadas tem sido regularmente aplicada em vrias investigaes cientficas nas reas de biologia, fsica, sociologia e cincias mdicas. Parece, neste instante, ser apropriado descrever as situaes em que as tcnicas multivariadas tm um grande valor.
Medicina
Nos estudos onde as reaes de pacientes a um determinado tratamento so mensuradas em algumas variveis e possuem difcil diagnstico, as tcnicas multivariadas podem ser usadas para construir uma medida de resposta simples ao tratamento, na qual preservada a maior parte da informao da amostra e das mltiplas variveis respostas. Em outras situaes as tcnicas
multivariadas podem ser usadas tambm quando a classificao de um paciente, baseada nos sintomas medidos em algumas variveis, difcil de ser realizada. Neste caso, uma tcnica multivariada de classificao, em que se cria uma funo que pode ser usada para separar as pessoas doentes das no doentes, pode ser implementada.
Sociologia
Em alguns estudos o inter-relacionamento e o agrupamento de indivduos, cidades ou estados em grupos homogneos em relao mobilidade, nmero de estrangeiros nascidos e de segunda gerao em determinado pas necessria em alguns estudos sociolgicos. As tcnicas de anlise multivariada, conhecidas como anlise de agrupamento (Cluster analysis), pode ser empregada com esta finalidade.
Biologia
No melhoramento de plantas necessrio, aps o final de uma gerao, selecionar aquelas plantas que sero os genitores da prxima gerao. a seleo deve ser realizada de maneira que a prxima gerao seja melhorada em relao resposta mdia de uma srie de caractersticas da gerao anterior. O objetivo do melhorista consiste em maximizar o ganho gentico em um espao
mnimo de tempo. As anlises multivariadas podem ser usadas para converter uma srie de caractersticas para um ndice, na qual a seleo e escolha dos pais possam ser feitas. Em algumas situaes se deseja a separao de algumas espcies, e as tcnicas multivariadas tm sido utilizadas com esta finalidade. Uma funo construda e os seus valores so usados para esta separao.
Atravs deste material pretende-se tratar das anlises realizadas em muitas caractersticas ou variveis. Essas medidas, muitas vezes chamadas de dados, devem ser organizadas e apresentadas em vrias formas. Por exemplo, a utilizao de grficos e arranjos tabulares so importantes auxiliares nas anlises de dados. Por outro lado, nmeros que resumem, ou seja, que descrevem quantitativamente certas caractersticas, so essenciais para a interpretao de os dados amostrais ou experimentais.
Arranjos
Os dados multivariados so provenientes de uma pesquisa em determinada rea em que so selecionadas p 1 variveis ou caractersticas para
serem mensuradas. As medidas so tomadas em cada unidade da amostra ou do experimento. A representao destes dados feita com a notao xjk para indicar um valor particular da j-sima unidade amostral ou experimental e da k-sima varivel mensurada. Conseqente, estas medidas de p variveis em n unidades amostrais ou experimentais, podem ser representadas conforme o arranjo apresentado na Tabela 1.1.
Tabela 1.1. Representao de dados atravs da notao xjk para indicar um valor particular da k-sima varivel mensurada na j-sima unidade amostral ou experimental. Variveis
Unidades amostrais ou experimentais
1 2 . . . j . . . n
Estes
valores,
apresentados
na
Tabela
1.1,
podem
ser
x11 x 21 X = x j1 xn1
x12 x22 x j2 xn 2
x1k x2 k x jk xnk
x1 p x2 p x jp xnp
Exemplo 1.1 Uma seleo de 4 firmas de rao de Minas Gerais foi obtida para avaliar a venda de raes. Cada observao bivariada forneceu a quantidade de sacos de rao vendidos e a quantidade de reais de cada venda. Os dados obtidos na forma tabular so: Varivel 1 (Reais/venda) Varivel 2 (nmero de sacos de rao vendidos) 80 10 120 12 90 6 110 8
X11=80
X21=120
X31=90
X41=110
X12=10
X22=12
X32=6
X42=8
80 10 120 12 X = 90 6 110 8
A organizao dos dados em arranjos facilita a exposio e permite que os clculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos na eficincia so: (1) descrio dos clculos como operaes com matrizes e vetores; e (2) sua fcil implementao em computadores.
ESTATSTICAS DESCRITIVAS
Grandes conjuntos de dados possuem um srio obstculo para qualquer tentativa de extrao de informaes visuais pertinentes aos mesmos. muitas das informaes contidas nos dados podem ser obtidas por clculo de certos nmeros, conhecidos como estatsticas descritivas. Por exemplo, a mdia aritmtica ou mdia amostral, uma estatstica descritiva que fornece informao de posio, isto , representa um valor central para o conjunto de dados. Como um outro exemplo, a mdia das distncias ao quadrado de cada dado em relao mdia, fornece uma medida de disperso, ou variabilidade. s estatsticas descritivas que mensuram posio, variao e associao linear so enfatizadas. As descries formais destas medidas esto apresentadas a seguir. A mdia amostral, simbolizada por X , dada por:
Xk =
1 n X jk n j =1
k=1, 2, ..., p
(1.1)
Uma medida de variao fornecida pela varincia amostral, definida para as n observaes de i-sima varivel por:
Sk2 = Skk =
2 1 n ( X jk X k ) n 1 j =1
k = 1, 2, ..., p
(1.2)
S kk , conhecida como
desvio padro amostral. Esta medida de variao est na mesma unidade de medida das observaes. Uma medida de associao entre as observaes de duas variveis, variveis k e k, dada pela covarincia amostral:
S kk ' =
1 n ( X jk X k )( X jk ' X k ' ) n 1 j =1
k, k=1,2, ..., p
(1.3)
Se grandes valores de uma varivel so observados em conjunto com grandes valores da outra varivel, e os pequenos valores tambm ocorrem juntos, Skk ser positiva. Se grandes valores de uma varivel ocorrem com pequenos valores da outra, Skk ser negativa. Se no h associao entre os
10
valores das duas variveis, Skk ser aproximadamente zero. Quando k=k, a covarincia reduz-se a varincia amostral. Alm disso, Skk= Skk, para todo k e k. A ltima estatstica descritiva a ser considerada aqui o coeficiente de correlao amostral. Esta medida de associao linear entre duas variveis no depende da unidade de mensurao. O coeficiente de correlao amostral para k-sima e k-sima varivel, definido por:
rkk ' =
( X jk X k )( X jk ' X k ' )
n
(1.4)
Verifica-se que rkk=rkk para todo k e k. O coeficiente de correlao amostral a verso estandardizada da covarincia amostral, onde o produto das razes das varincias das amostras fornece a estandardizao. O coeficiente de correlao amostral pode ser considerado como uma covarincia amostral. Suponha que os valores Xjk e Xjk sejam substitudos pelos valores padronizados,
( X jk X k ) S kk
so expressos sem escalas de medidas (adimensionais), pois so centrados em zero e expressos em unidades de desvio padro. O coeficiente de correlao amostral justamente a covarincia amostral das observaes estandardizadas. A propriedades: correlao amostral (r), em resumo, tem as seguintes
11
2. Se r = 0, implica em inexistncia de associao linear entre as variveis. Por outro lado, o sinal de r, indica a direo da associao: se r < 0 h uma tendncia de um dos valores do par ser maior que sua mdia, quando o outro for menor do que a sua mdia, e r > 0 indica que quando um valor do par for grande o outro tambm o ser, alm de ambos valores tender a serem pequenos juntos;
As estatsticas Skk e rkk, em geral, no necessariamente refletem todo o conhecimento de associao entre duas variveis. Associaes no lineares existem, as quais, no podem ser reveladas por estas estatsticas descritivas. Por outro lado, estas estatsticas so muito sensveis a observaes discrepantes (outliers). Alm destas, outras estatsticas como a soma de quadrados de desvios em relao mdia (Wkk) e a soma de produtos de desvios (Wkk), so muitas vezes de interesse. Essas esto apresentadas a seguir:
12
n
W kk = ( X jk X k ) j =1
As estatsticas descritivas multivariadas calculadas de n observaes em p variveis podem ser organizadas em arranjos.
Mdias da amostra
X1 X2 X = X p
S11 S 21 S = S p1
S12 S22 Sp 2
S1p S2 p S pp
13
1 r21 R = r p1
r12 1 rp 2
r1p r2 p 1
Exemplo 1.2 Considerando os dados introduzidos no exemplo 1.1, encontrar as o vetor de mdias X e as matrizes S e R. Neste exemplo, cada firma de rao, representa uma das observaes multivariadas, com p = 2 variveis (valor da venda em reais e nmero de sacos de raes vendidas). As mdias amostral so:
X1 =
X2 =
1 4 1 X j2 = 4 (10 + 12 + 6 + 8) = 9 4 j=1
X 100 X = 1 = X2 9
14
S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333
S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667
S21=S12=20,000, e
333,333 S= 20,000
20,000 6,667
A correlao amostral :
r12 =
20 33,333 6,667
= 0,424 3
r21=r12=0,4243
Portanto,
15
1.4. Distncias
A maioria das tcnicas multivariadas baseada no simples conceito de distncia, por mais formidvel que isso possa parecer. O conceito de distncia euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um ponto P=(x1, x2) no plano cartesiano, a distncia deste ponto P da origem O=(0, 0), definida por d(O,P), dada pelo teorema de Pitgoras por:
d (O, P ) =
2 x1 + x2 2
(1.5)
Esta situao ilustrada na Figura 1.1. Em geral, se o ponto P tem p coordenadas, de tal forma que P=(x1, x2, ... xp), a distncia de P da origem O=(0, 0, ..., 0), pode ser generalizada por:
d (O, P ) =
2 x 1 + x 2 +...+ x 2 p 2
(1.6)
16
d(O, P)
X2
X1
Figura 1.1. Distncia entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo teorema de Pitgoras.
Todos os pontos (x1, x2, .., xp) que contm uma distncia ao quadrado, denominada c2, da origem, satisfaz a equao:
2 d (O, P ) = x 1 + x 2 +...+ x 2 = c p 2
(1.7)
A expresso em (1.7) representa a equao de uma hiperesfera (um crculo se p = 2), e os pontos eqidistantes da origem por uma distncia d(O, P) pertencem a essa hiperesfera. A distncia de um ponto P a um ponto arbitrrio Q, com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) dada por:
d ( P ,Q ) =
( x 1 y 1) 2 + ( x 2 y 2 ) 2 +...+( x p y p )
(1.8)
17
A distncia euclidiana insatisfatria para muitas situaes estatsticas. Isso ocorre devido contribuio de cada coordenada ter o mesmo peso para o clculo da distncia. Quando estas coordenadas representam medidas so provenientes de um processo que sofre flutuaes aleatrias de diferentes magnitudes muitas vezes desejvel ponderar as coordenadas com grande variabilidade por menores pesos em relao quelas com baixa variabilidade. Isto sugere o uso de uma nova medida de distncia. Ser apresentada a seguir uma distncia que considera as diferenas de variao e a presena de correlao. Devido a escolha de a distncia depender das varincias e das covarincias amostrais, a partir deste instante, ser utilizado o termo distncia estatstica para distinguir de distncia euclidiana. A princpio, ser considerada a construo de uma distncia entre um ponto P, com p coordenadas, da origem. O argumento que pode ser usado refere-se ao fato de que as coordenadas de P podem variar no espao produzindo diferentes posies para os pontos. Para ilustrar, suponha que se tenha n pares de medidas em duas variveis (x1 e x2) e que as medidas de x1 variam independentemente das mensuraes em x2. O significado de independente neste ponto pode ser dado pelo fato de que os valores de x1 no podem ser preditos com nenhuma acurcia a partir dos valores de x2 e vice-versa. Em adio, assumido que as observaes de x1 possuem maior variabilidade que as de x2. Uma ilustrao desta situao est apresentada na Figura 1.2.
18
6 5 4 3 2 1 0 -1 -2 -3 -4 -5 -6 0 2 4 6 X2 -6 -4 -2
Figura 1.2. Diagrama de disperso, mostrando a maior variabilidade na direo de x1 do que na direo de x2.
Observando a Figura 1.2, verifica-se que no surpreendente encontrar desvios na direo de x1 que se afastem da origem consideravelmente, o que no ocorre na direo de x2. Parece ser razovel, ento, ponderar x2 com mais peso do que x1 para um mesmo valor, quando as distncias da origem forem calculadas.
19
s11
x * = x2 2
s 22
d (O, P ) = ( x 1 ) + ( x 2 ) =
* 2
* 2
2 x1
S 11
x2 2 S 22
(1.9)
Usando a equao (1.9) todos os pontos tendo como coordenadas (x1, x2) e com distncia quadrada (c2) da origem devem satisfazer:
2 x1
S 11
x2 2 S 22
=c
(1.10)
A expresso (1.10) a equao de uma elipse, cujos maiores e menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o caso geral para p = 2 coordenadas.
20
X2
cS 22
0.5
-cS 11
0.5
O
0.5 -cS 22
cS 11
0.5
X1
2 x1
S 11
x2 2 S 22
=c
Exemplo 1.3 Um conjunto de pares (x1, x2) de duas variveis forneceu X1 = X 2 = 1 , S11=9 e S22=1. Supe-se que as observaes de x1 so independentes de x2. A distncia quadrtica de um ponto arbitrrio (P) da origem, uma vez que as varincias da amostra no so iguais, dada por:
d (O, P ) =
x1 9
x2 1
21
Todos os pontos (x1, x2) que possuem distncias quadrada da origem igual a 1, satisfazem a equao:
x1 9
x2 1
=1
(1.11)
As coordenadas de alguns pontos com distncia quadrtica unitria da origem foram apresentadas na Tabela 1.2.
Tabela 1.2. Coordenadas de alguns pontos com distncia quadrtica unitria da origem. Coordenadas (x1, x2) ( 0, 1) ( 0,-1) ( 3, 0) (-3, 0) Distncia ao quadrado
0 9
2
+ 11 = 1
( 1) 1
2
0 9
+
2
=1
3 9
+
2
0 1
=1
2
( 3 ) 9
0 1
=1
O grfico da equao (1.11) uma elipse centrada na origem (0,0), cujo maior eixo o da direo de x1 e o menor da direo de x2. A metade do maior eixo (semi-eixo maior) c S11 = 3 e do menor c S 22 = 1 . A elipse de distncia quadrtica unitria foi plotada na Figura 1.4.
22
5 4 3 2 1 0 -5 -4 -3 -2 -1 -1 -2 -3 -4 -5 0
x2
x1 5
Figura 1.4. Elipse de distncia unitria quadrtica da origem obtida a partir da equao 1.11.
A expresso (1.9) pode ser generalizada para o clculo da distncia entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente uma da outra. O caso mais geral, em que a hiptese de independncia no satisfeita, ser abordado futuramente.
d (P ,Q ) =
(x 2 y 2 ) S 22
+ +
(x p y p ) S pp
(1.12)
23
Todos os pontos (P) situados a uma distncia quadrtica constante de Q, pertencem a uma hiperelipside centrada em Q, cujos maiores e menores eixos so paralelos aos eixos das coordenadas. O programa SAS, apresentado a seguir, contm os cdigos necessrios para a obteno das principais estatsticas descritivas multivariadas apresentadas nesse captulo. O programa contm cdigos matriciais e ser abordado com mais detalhe nos prximos captulos. Os dados do exemplo 1.1 so utilizados para a ilustrao.
Proc IML; X={ 80 10, 120 12, 90 6, 110 8}; Print X; n=nrow(X);p=ncol(X); Xbar=x`*j(n,1,1)/n; Print Xbar; q=i(n)-(1/n)*j(n,n,1); print q; S=(1/(n-1))*X`*q*X; W=(n-1)*S; print S W; V=diag(S); Vroot=half(V); IVroot=inv(Vroot); R=Ivroot*S*Ivroot; Print V Vroot IVroot; Print R; Quit;
Foi motivado nesse captulo o estudo das anlises multivariadas e tentou-se fornecer alguns rudimentares, mas importantes, mtodos de organizar e resumir os dados. Em adio, o conceito geral de distncia foi apresentado, e ser abordado e generalizado nos prximos captulos.
24
1.5. Exerccios
a) Construa o grfico de disperso dos pontos das variveis x1 e x2, x1 e x3, x2 e x3. Comente sobre sua aparncia.
c) Calcule
distncia
euclidiana
dada
em
(1.8)
de
um
ponto
||[
2.1. Introduo
]||
desejvel que as p respostas multivariadas sejam representadas por uma notao concisa. Os dados multivariados podem ser dispostos convenientemente como um arranjo de nmeros, como foi apresentado no captulo 1. Em geral, um arranjo retangular destes nmeros, com n linhas e p colunas, por exemplo, chamada de matriz de dimenses n x p. Se por outro lado, o arranjo consiste em n mensuraes em apenas 1 varivel, ou ainda, de uma observao multivariada em p variveis, esses arranjos so denominados de vetores. Com esse arranjo bidimensional, no s, a notao fica mais concisa, mas os muitos resultados matemticos de lgebra vetorial e matricial facilitam a derivao e exposio dos mtodos estatsticos multivariados. Neste material, os elementos de lgebra vetorial e matricial, sero considerados como conhecidos. Nesse captulo, no entanto, para os estudantes no familiarizados com o assunto, ser apresentada uma breve reviso.
26
De um ponto de vista geomtrico, as observaes multivariadas, podem ser consideradas como pontos no espao p-dimensional, cujas coordenadas so dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal segmento de reta denominado de vetor de posio e pode ser denotado simplesmente por X . O vetor de posies apenas um exemplo de vetor, para os quais pode ser elaborada a lgebra, baseada nos seguintes postulados.
POSTULADOS
1. Para qualquer vetor X dado um nmero escalar c, a multiplicao do escalar pelo vetor, resulta em outro vetor Y , definido por:
Y = cX
Ferreira, D.F.
Estatstica multivariada
27
Z = X + Y
3. A adio de vetores :
Comutativa: X + Y = Y + X
Associativa: X + ( Y + Z ) = ( X + Y ) + Z
X + 0 = X 0 .X = 0
COMPRIMENTO, NGULO E DISTNCIA Inicialmente, definido produto interno entre dois vetores, que representa a soma de produtos de pares de coordenadas correspondentes. Para dois vetores (n x 1) de posio X e Y , o produto interno ser o escalar, dado por:
X.Y = x i yi = x1 y1 + x 2 y 2 +
i =1
+ x n yn
28
fcil verificar que X.Y = Y.X . Por meio, do produto interno possvel generalizar o teorema de Pitgoras para o espao euclidiano n-dimensional:
2 X = X.X = x i2 = x1 + x 2 + 2 2 i =1
+ x 2 = d 2 (P, O) n
(2.1)
expresso entre mdulo | X | indica a norma de X . Dessa forma o comprimento do vetor definido por:
X = X.X
(2.2)
O ngulo entre dois vetores ( X e Y ) pode ser expresso em funo do produto interno e do comprimento dos vetores, obtido atravs da lei dos cosenos, por:
Cos ( ) =
(2.3)
As distncias apresentadas no captulo 1, entre os pontos coordenados dos vetores X e Y , podem ser expressos agora como o
Ferreira, D.F.
Estatstica multivariada
29
d(X, Y) = X Y = (X Y).(X Y)
(2.4)
Alm de ser no negativa, essa distncia entre os dois vetores independente da direo das medidas e satisfaz a desigualdade triangular:
d( X , Y ) d( X , Z ) + d( Y , Z )
(2.5)
a.b a . b
(2.6)
O que implica, no fato, que o valor do co-seno do ngulo entre a e b no pode exceder a unidade.
ORTOGONALIDADE
Dois vetores no nulos so denominados ortogonais, se o co-seno do ngulo entre eles for zero. Isto indica que:
30
X.Y = 0
(2.7)
Muitas vezes desejvel (em sistemas de equaes lineares) construir uma base ortonormal de vetores, isto , cada vetor da base possui comprimento unitrio
( Xi .Xi = 1)
( X .X
i
construo de Gram-Schimidt. O algoritmo est apresentado a seguir, considerando o conjunto X1 , X 2 , ..., X n de vetores:
Passo 1: normalize X1 :
X1 =
X1 X1.X1
X1 .X1 0
Ortogonalizando X1 e X 2 :
* * X = X 2 ( X 2 .X1 ) X1 2
Ento, normalizando-se X : 2
Ferreira, D.F.
Estatstica multivariada
31
X* = 2
1 X .X
2 2
X 2 ; X .X 0 2 2
* * X 3 = X 3 ( X 3 .X1 ) X1 ( X 3 .X* ) X* 2 2
Ento, normalizando-se X 3 :
X* = 3
1 X .X
3 3
X 3 ; X 3 .X 3 0
E assim por diante, at o n-simo estgio, quando todos os vetores entrarem na construo. Se o i-simo vetor for linearmente dependente dos vetores anteriores, ento X i ser igual ao vetor nulo, X i = 0 , devendo ser eliminado do conjunto e o processo deve continuar com o vetor X i +1 . O nmero de vetores no nulos remanescentes no conjunto, constituem a dimenso do espao vetorial original.
32
Exemplo 2.1
Dado o conjunto de vetores, a seguir, utilizar como ilustrao a construo de Gram-Schimidt.
1 1 X= 1 1
1 1 0 0
0 0 1 1
X = [ X1 X 2 X 3 ]
Passo 1. Normalize X1 :
1 1 1 * X1 = 2 1 1
Passo 2: Ortonormalize X 2 :
* Produto interno: X 2 . X1 = 1
Ferreira, D.F.
Estatstica multivariada
33
1 1 1 1 1 1. 1 = 1 1 ortogonalizao: X 2 = 0 2 1 2 1 0 1 1
1 1 1 1 1 1 1 Normalizao: X* = . = 2 1 2 1 2 1 1 1
Passo 3: Ortonormalizao de X 3
0 1 1 0 1 + 1 0 2 2 0 1 1 0 1 + 1 0 1 1 2 ortogonalizao: X 3 = 1. (1). = 1 12 = 1 2 1 2 1 1 2 2 0 1 1 1 1 1 1 2 2 0
Verifica-se neste passo que X 3 linearmente dependente dos vetores X1 e X 2 , e deve ser eliminado da base vetorial. fcil verificar que
X 3 = X1 X 2 . Agrupando os vetores linearmente independentes ortonormalizados
34
1 2 1 2 X2 = 1 2 1 2
1 2 1 2
1 2 1 2
Pode ser observar facilmente que o produto interno dos vetores em X2, igual a zero. Um importante tipo de matriz inversa, denominado de inversa de MoorePenrose, obtido de uma base ortonormal das colunas de uma matriz para a qual se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de dimenso qualquer nxp e seja U a base ortonormal de vetores obtida da ortonormalizao das colunas de A, ento, defini-se T por:
T=UA
A+ = T(TT)-1U.
Na lgebra matricial as relaes e operaes so definidas atravs de operaes em arranjos retangulares dos elementos, denominados de matrizes. Um exemplo de matriz :
Ferreira, D.F.
Estatstica multivariada
35
a 11 a 21 Ap= n x a n1
a a a
12 22
a a
n2
2p a np
1p
O nmero de linhas de uma matriz denominado de ordem de linha e o nmero de colunas, ordem de colunas. Se o nmero de linhas n e o nmero de colunas p, diz-se que a matriz possui ordem nxp. Pode-se representar a matriz por:
A=[aij]
i=1, 2,..., n
j=1, 2, ..., p
(2.8)
Nas anlises multivariadas, muitas vezes, ser feito referncias a matriz de dados, a qual consiste de p respostas de n observaes ou unidades experimentais, e ter ordem nxp.
POSTULADOS
1. Igualdade: Duas matrizes necessariamente com o mesmo nmero de linhas e colunas so iguais, se e somente se os elementos correspondentes, forem iguais:
A=B
aij=bij
36
2. Adio: A soma de duas matrizes de mesma ordem obtida pela soma dos elementos correspondentes:
nAp + n0p
= nAp
3. Multiplicao por escalar: o produto de um escalar e uma matriz obtido pela multiplicao de cada elemento da matriz pelo nmero escalar:
cA = c[ aij] = [ caij]
4. Multiplicao de matriz: a multiplicao de matrizes definida para aquelas em que a ordem coluna do fator que pr multiplica igual a ordem linha do fator que ps multiplica. Tais matrizes so denominadas conformveis para multiplicao. O elemento (i, k) da matriz resultante do produto a soma dos produtos dos elementos correspondentes, da i-sima linha do fator que pr multiplica com os da k-sima coluna do fator que ps multiplica.
Ferreira, D.F.
Estatstica multivariada
37
Em geral AB BA.
A matriz quadrada com unidades na diagonal e zero nas demais partes denominada de matriz unitria ou identidade:
1 0 0 1 = 0 0
0 0 1
Verifica-se que:
nAp pp
= nAp
nn nAp
= nAp
A matriz quadrada cujos elementos fora da diagonal principal so iguais a zero denominada matriz diagonal:
0 0 dn
38
A pr-multiplicao por uma matriz diagonal, simplesmente re-escala as linhas do fator que ps multiplica, e a ps-multiplicao re-escala as colunas do pr-fator.
5. Inverso de matriz: a inversa de uma matriz quadrada A, nxn, chamada de A-1 e definida de tal forma que A A-1 = A-1 A = .
A inversa de um produto de matrizes o produto do inverso dos fatores em ordem inversa a ordem de multiplicao original:
(AB)-1 = B-1A-1
6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de uma matriz especfica denominada de matriz transposta. denotada por A.
nAP
(A + B) = A + B
(AB) = BA
Ferreira, D.F.
Estatstica multivariada
39
(A-1) = (A)-1
7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada das restantes s=m-r linhas, e as p colunas particionadas das remanescentes q = n - p colunas. Ento, A pode ser representada por submatrizes, como a seguir:
A12 r A A = 11 A 21 A 22 s p q
Seja B uma matriz particionada de forma similar e sejam A e B tais que suas parties sejam conformveis para adio, logo,
A + B11 A + B = 11 A 21 + B21 p
Suponha agora que B seja particionada em p e q linhas e em t e u colunas. Ento, possvel verificar que:
40
r A AB = 11 s A 21 p
1 1 p A B p A 1 + A 1B ( D CA 1B ) CA 1 = 1 q C D q ( D CA 1B ) CA 1 p q p
1 A 1B ( D CA 1B ) ( D CA 1B )1 q
As rotinas para computadores usualmente fazem uso da verso compacta do mtodo de Gauss, denominado de mtodo de Gauss-Jordan (Householder, 1953, 1964). Os clculos do mtodo de Gauss-Jordan so recursivos, sendo que os elementos da matriz no estgio i+1 so trocados pelos resultados da chamada operao pivotante dos elementos do estgio i, por:
( i +1) k
=a
(i) k
i a (kj) a (ji )
a (jji )
ke
Ferreira, D.F.
Estatstica multivariada
41
( i +1) j
a (ji ) a (jji )
( i +1) kj
i a (kj)
a (jji )
kj
a (jji +1) =
1 a (jji )
O elemento a (jji ) chamado de piv, e sua linha e coluna so chamados de linha e coluna pivotais. Aps n operaes pivotantes, a matriz original substituda pela sua inversa, garantindo-se que cada linha e coluna seja pivotada somente uma vez.
Exemplo 2.2
Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:
4 2 A(0) = 2 2
Passo 1. Um bom compromisso com a preciso pivotar a linha e coluna cujo elemento da diagonal seja o maior de todos os no pivotados. Assim o
42
elemento escolhido para piv o elemento a11=4. A matriz aps a primeira ao pivotante :
1 A (1) = 4 2 4
2 1 1 4 = 4 2 2 2 21 1 2 4
Passo 2. Neste passo, a nica coluna ou linha no pivotada a 2. Portanto o piv a22=1, e a matriz resultante da operao pivotante :
( 2)
2 2 1 1 ( 1 ) 4 1 = 1 2 1
1 2 1 1 1
1 = 21 2
1 1 1 1 2 = 1 2 1 2
Matrizes ortogonais
Classes especiais de matrizes, que sero utilizadas rotineiramente nas tcnicas multivariadas, so denominadas de matrizes ortogonais, sendo simbolizadas em geral por Q e caracterizada por:
Ferreira, D.F.
Estatstica multivariada
43
O nome deriva da propriedade de que se Q tem i-sima linha q it , ento, se QQt = implica que q it q i = 1 e q it q j = 0 para ij, sendo que as linhas possuem tamanho unitrio e so mutuamente ortogonais (perpendiculares). De acordo com a condio de que QtQ = , as colunas tm a mesma propriedade.
Exemplo 2.3
Dado a matriz Q, a seguir, verifique sua ortogonalidade:
12 Q= 1 2
1 2
1 2
Q =
t
1 2 1 2
1 2 1 2
ento,
12 QQ = 1 2
t
1 2
1 2
1 2 1 2
1 2 1 2
1 2 0 1 0 = = 2 0 2 0 1
44
e,
QQ=
t 1 2 1 2
1 2 1 2
12 1 2
1 2 0 1 0 = = 1 2 0 2 0 1 2
1 2
Determinantes
Uma funo escalar importante de uma matriz A quadrada nxn, o determinante da mesma. O determinante da matriz A simbolizado por |A| e definido por:
A = a11 A = a ij A ij ( 1)
j=1 n i+ j
se n = 1 se n > 1
(2.9)
em que Aij a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-sima linha e a j-sima coluna de A, para qualquer escolha arbitrria de i=1, 2, ..., n.
Exemplo 2.4
Para ilustrar a definio (2.9), sero consideradas as seguintes matrizes:
Ferreira, D.F.
Estatstica multivariada
45
A = [4]
4 1 B= 1 2
4 2 2 C = 2 2 0 2 0 2
A = 4;
B = 4 2 (1) 2 + 1 1 (1)3 = 4.2.1 1 1 1 = 7 ;
C = 4
2 0 0 2
(1) 2 + 2
2 0 2 2
(1)3 + 2
2 2 2 0
(1) 4
1. A t = A ;
2. Se uma linha ou coluna de A for multiplicada por uma constante k, o determinante ficar multiplicado pela constante;
3. Se A multiplicada por uma constante k, o determinante resultante ficar multiplicado por kn;
46
kA = k n A
4. Se duas linhas ou duas colunas so trocadas de posio, ento o determinante muda de sinal;
5. Se duas linhas ou duas colunas so proporcionais, ento o determinante de A ser igual a zero;
6. O determinante obtido deletando a i-sima linha e j-sima coluna de A denominado menor de A, e denotado por |Aij|. A relao entre |A| e |Aij| foi apresentada na definio de determinante (2.9);
7. A 1 =
1 1 =A ; A
8. |AB| = |A||B|.
Se |A|0, ento, A denominada de posto completo, ou como mais comum dizer, A no-singular e A-1 existe. Uma condio necessria e suficiente para a existncia da inversa de A que |A|0.
Ferreira, D.F.
Estatstica multivariada
47
Teorema da multiplicao
B C n A= D E n n n
Supe-se que o determinante de A no nulo, e se necessrio for, linhas e colunas correspondentes de A devem ser trocadas para assegurar que B seja no-singular. Como o nmero de trocas de linhas e colunas necessariamente par, o valor de |A| no se altera. Considere matrizes elementares, com determinante 1, dadas por:
0 B1C DB1 e 0
48
DB1
0 B C B1C D E 0
C 0 B B1C B = = 1 1 0 E DB C 0 DB C + E 0
Ento, A foi reduzida para sua forma quase-diagonal ou bloco diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:
V V= 1 0 n
0 n V2 n n
V = V1 V2
Aplicando essa regra a A transformada pela pr e ps-multiplicao por matrizes elementares, cujo determinante igual a 1, o que no altera o valor de |A|, tem-se:
A =
B 0
0 E DB C
1
= B E DB1C
Observe que se A for quasi-triangular, ou seja, triangular por blocos, o determinante o produto dos determinantes de suas sub-matrizes principais:
Ferreira, D.F.
Estatstica multivariada
49
B C 0 E
=B E
Agora possvel apresentar e provar o teorema da multiplicao. Se A e B so matrizes quadradas n x n, ento, |AB|=|A|.|B|. Considere para isso a identidade:
I A A 0 0 AB 0 I I B = I B
O produto do lado esquerdo da igualdade envolve operaes elementares que no afeta o determinante. Assim, o determinante de ambos os lados igualado e o resultado obtido :
I B
0 I
AB B
Colocando o lado direito na forma quasi-triangular por meio de trocas nas ltimas n colunas o resultado obtido dado por:
I B
= ( 1)n
AB B
0 I
50
n A B = ( 1) AB I n n A B = ( 1) ( 1) AB 2n A B = ( 1) AB
AB = A B
Infelizmente, no h teorema simples para a soma de matrizes. Decorre desse teorema que:
A 1A = I A 1 A = 1 1 = A 1 A 1 = A
As derivadas de funes envolvendo vetores e matrizes so necessrias em inmeras aplicaes na multivariada e em outras reas. Apesar de ser possvel escrever essas mesmas funes em uma forma expandida e tomar as derivadas elemento a elemento pelas regras de diferenciao escalar, vantajoso definir regras que retenham vetores e matrizes na notao (Bock, 1975).
Ferreira, D.F.
Estatstica multivariada
51
a11 x A = x a m1 x
a1n x a mn x
(2.10)
Seja A uma matriz m x n de funes diferenciveis em x e B outra matriz p x q cujos elementos, tambm, so diferenciveis em x. Para cada caso abaixo, so adotadas dimenses tais que as operaes matriciais sejam conformveis.
( A + B ) A B = + ; x x x
m = p, n = q
(2.11)
( AB ) B A =A + B; x x x
n=p
(2.12)
52
( A 1 ) A 1 A ; = A 1 x x
m = n, A 0
(2.13)
Seja X uma matriz m x n com o elemento xij na i-sima linha e j-sima coluna, ento,
X = 1ij x ij
(2.14)
em que 1ij uma matriz m x n com 1 na i-sima linha e j-sima coluna e 0 nas demais posies. Se X for uma matriz diagonal n x n, logo,
X = 1ii x ii
(2.15)
Ferreira, D.F.
Estatstica multivariada
53
g g x x1n 11 g = X g g x x mn m1
(2.16)
a) o trao
O trao de uma matriz n x n uma funo que aparece com muita freqncia na estatstica multivariada, o qual a soma dos elementos da diagonal principal dessa matriz:
tr ( A ) = a ii
i =1
(2.17)
tr ( A + B ) = tr ( A ) + tr ( B ) ,
m=n=p=q
(2.18)
tr ( A ) = tr ( A ) ,
m=n
(2.19)
tr ( A t ) = tr ( A ) ,
m=n
(2.20)
tr ( AB ) = tr ( BA ) ,
m = q, n = p
(2.21)
54
m = s, n = p, q = r
(2.22)
Seja C uma matriz r x s de constantes e X uma matriz u x v de variveis. As seguintes diretivas de derivao do trao de funes de C e X com relao aos elementos de X, resultam em matrizes de dimenso u x v:
tr ( C ) = 0, X
r=s
(2.23)
tr ( X ) = I, X
r =s
(2.24)
tr ( XC ) = Ct , X
r = v, s = u
(2.25)
tr ( X t CX ) = ( C + C t ) X, X
r=v=s=u
(2.26)
Essas diretivas de derivao so invariantes as permutaes cclicas sofridas por transposio ou permutao dos fatores de multiplicao de matrizes. no entanto, as derivadas com relao a transposta de X resultam em transpostas das matrizes anteriores de ordem v x u. Em particular:
Ferreira, D.F.
Estatstica multivariada
55
tr ( XC ) = Ct , X t
r = v, s = u
(2.27)
tr ( X t CX ) = X t ( Ct + C ) , t X
r=v=s=u
(2.28)
Para obter derivadas de funes elementares das matrizes algumas diretivas tambm so definidas. Sejam os elementos de A e B funes de X, e seja C uma matriz de constantes. Ento,
tr ( A + B ) tr ( A ) tr ( B ) = + , m=n=p=q X X X
(2.29)
tr ( AB ) tr ( AB ) tr ( AB ) = + , m = q, n = p X X X
(2.30)
tr ( A 1 ) tr ( A 2 A ) , m = n, A 0 = X X
(2.31)
tr ( A 1C ) tr ( A 1CA 1A ) = , m = n = r = s, A 0 X X
(2.32)
A barra acima das matrizes anteriores em (2.29) a (2.32) indica que essas so consideradas constantes para fins de diferenciao.
56
b) determinante
X t = adj ( X t ) = X ( X 1 ) , X
u = v, X 0
(2.33)
ln X adj ( X t ) t = = ( X 1 ) , X X
u = v, X 0
(2.34)
xij = xji
i<j
(2.35)
Uma abordagem apropriada para o problema impor restries por meio de multiplicadores de Lagrange. Para aplicar esse mtodo, deve-se diferenciar com relao a x no restrita a expresso da forma:
1 g + tr [ U ( X X t )] 2
Ferreira, D.F.
Estatstica multivariada
57
em que g uma funo escalar de X, U a n x n matriz de multiplicadores de Lagrange. Logo, X deve satisfazer:
g 1 + ( U Ut ) = 0 X 2
(2.36)
Como tambm
t g 1 t g 1 t + (U U) = (U U) = 0 X 2 X 2
(2.37)
g g + =0 X X
(2.38)
Outro caso importante de matriz X restrita : se X uma matriz diagonal n x n e Y uma matriz funo de X, ento,
tr(Y) x 22
tr(Y) x nn
(2.39)
E se X = x , ento,
58
tr(Y) tr(Y) = X x
(2.40)
g g A t = tr x A x
(2.41)
g ln A ln A A t = = tr x x A x
A t = tr ( A 1 ) t x
(2.42)
Ferreira, D.F.
Estatstica multivariada
59
z z i = 1, 2, ..., m = x t x j ij j = 1, 2, ..., n
(2.43)
t x t Ax tr ( x Ax ) = = 2Ax x x
(2.44)
t x t Ax ( x Ax x ) 2Ax = = = 2A x t x x t x t
(2.45)
Formas quadrticas
x t = [X1
X2
X n ] a expresso:
Q = x t A x = a ii X i2 + 2
i =1 i =1
n 1
j= i +1
a XX
ij i
60
( x i2 )
e de produtos
( xix j ) .
Exemplo 2.5
Obtenha a expanso da forma quadrtica, dado o vetor x e a matriz A, a seguir:
x = [ x1
x2 ]
4 1 A= 1 2
Q = [ x1
4 1 x1 x2 ] = [ 4x1 + x 2 1 2 x 2
x x1 + 2x 2 ] 1 x2
2 Q = 4x1 + 2x1 x 2 + 2x 2 2
Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um vetor x so realizaes de p variveis aleatrias X1, X2, ..., Xp pode-se consider-los como coordenadas de um ponto no espao p-dimensional. A distncia desse ponto [x1
x2
interpretada em termos de unidades de desvio padro. Desse modo, pode-se considerar a incerteza inerente (variabilidade) s observaes. Pontos com a mesma incerteza associada so considerados de mesma distncia da origem. Introduzindo agora uma frmula geral de distncia mais apropriada tm-se:
Ferreira, D.F.
Estatstica multivariada
61
d ( 0,P ) = a ii x + 2 a ijx i x j
2 i =1 2 i i =1 j=i +1
n 1
(2.46)
e garantindo que d2 > 0 para todo ponto P0, e fazendo aij=aji, tm-se:
0 < d 2 = x t Ax = x 1
a 11 a 21 x p a p1
a a a
12 22
a a
p2
2p a pp
1p
x 1 x p
(2.47)
Verifica-se que (2.47) uma forma quadrtica, o que permite que a interprete como uma distncia. A determinao, dos coeficientes da matriz A de (2.47) ser apresentada oportunamente.
As formas quadrticas podem ser classificadas, quanto aos resultados que produzem. Nesta seo, o interesse residir nas formas quadrticas no negativas e nas matrizes associadas (denominadas positivas definidas). Uma condio necessria e suficiente para que A seja positiva definida (pd) que esta possa ser fatorada por:
62
e que o posto de S seja n, em que S uma matriz triangular, denominada fator de Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky, ela positiva definida.
+ Z2 n
Se por outro lado, o posto de S for rn, ento o posto de A ser r, e a forma quadrtica Q = x ' Ax 0, denominada positiva semidefinida (psd). Isso se deve ao fato de que para algum vetor x 0, a igualdade Q = 0, acontece. O algoritmo para obteno do fator de Cholesky de uma matriz pd, est apresentado a seguir.
Ferreira, D.F.
Estatstica multivariada
63
2. Obteno da transposta do fator de Cholesky St, dada pelo algoritmo abaixo, sendo que os elementos desta matriz no contemplados pelo mtodo devem ser considerados iguais a zero:
1a linha:
S11 = a11
S1j =
a1j S11
j >1
i-sima linha:
i 1 2 Sii = a ii Sri r =1
Sij =
i 1 1 a ij SriSrj Sii r =1
i2
j>i
Sii =
1 Sii
Sij =
1 Sii
S S
r =1 ri
i 1
rj
i> j
para i < j
Sij = 0
4. A obteno da A-1, inversa de A, com elementos aij, em que aij=aji, dada por:
64
a ii = ( Sri )
r =i
a ij = SriSrj
r =i
i> j
Exemplo 2.6
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir da matriz A, apresentada a seguir:
4 2 0 A = 2 2 1 0 1 2
Obteno de St:
Primeira linha:
S11 = 4 = 2; S12 =
2 0 = 1; S13 = = 0 2 2
Segunda linha:
S22 = 2 12 = 1
2
S23 =
1 [1 1 0] = 1 1
Terceira linha:
Ferreira, D.F.
Estatstica multivariada
65
S33 = 2 ( 02 + 12 ) = 1
1 2
Logo,
2 1 0 S = 0 1 1 0 0 1
t
2 0 0 S = 1 1 0 0 1 1
Linha 1:
1 S11 = ; 2
Linha 2:
1 S22 = = 1; 1
1 1 S21 = 1 1 = ; 2 2
linha 3:
1 S33 = = 1; 1
1 1 1 S31 = 1 0 + 1 = 2 2 2
S32 = 1 (1 1) = 1
66
logo,
1 0 0 2 1 S1 = 1 0 2 1 1 1 2
Diagonal principal:
3 1 1 1 a = + + = 4 2 2 2
11
a 22 = 12 + ( 1) = 2
2
a 33 = 12 = 1
Demais elementos:
Ferreira, D.F.
Estatstica multivariada
67
Logo,
3 1 1 4 2 1 2 1 1 A = 1 1 1 2
1. SSt = A
2. S-1S = St(S-1) t =
3. S-1A = S t
4. A(S-1) t = S
5. (S-1)A(S-1) t =
68
Na estatstica multivariada e em outras reas aplicadas, muitas vezes necessria a maximizao de uma forma quadrtica. Devido forma quadrtica Q = x t Ax poder ser feita arbitrariamente grande tomando-se os valores dos elementos de x grandes, necessrio maximizar Q condicionada a alguma restrio no comprimento de x . Uma conveniente alternativa tomar uma soluo normalizada de x , ou seja, uma soluo tal que x tenha comprimento unitrio. Ento a maximizao da forma quadrtica Q pode ser transformada na maximizao da razo:
x t Ax xtx
para toda matriz A simtrica real. Para a maximizao deve-se tomar a derivada em relao a x e igualar a zero, resolvendo o sistema obtido, como demonstrado a seguir.
Q x t Ax = = 2Ax x x
x t x = 2x x
Ferreira, D.F.
Estatstica multivariada
69
igualando a zero essa derivada e dividindo-a por 2 ( x t x ) , obtido o sistema homogneo de equaes:
x t Ax A t x = 0 xx
Desde que
( A i ) x i = 0
(2.48)
Para que o sistema de equaes em (2.48) no possua apenas a soluo trivial, A-i no pode ter posto completo. Isto significa que seu determinante deve ser zero:
|A-i| = 0
(2.49)
A equao polinomial em , resultado da expanso dos termos a esquerda na equao (2.49) atravs do uso da definio (2.9), chamada de equao caracterstica de A. A i-sima raiz da equao (i) denominada de valor
70
caracterstico de A; x i denominado vetor caracterstico de A associado a i. Outras terminologias podem ser empregadas, tais como, autovalores e autovetores, ou, valores e vetores prprios, ou ainda, raiz e vetor latente.
de fundamental importncia na anlise multivariada o problema de maximizar razo entre duas formas quadrticas:
x t Ax x t Bx
B 0
em que B uma matriz pd. O mximo dado da mesma forma que apresentado anteriormente, a partir da derivada em relao a x , igualando-a a zero, como apresentado a seguir:
x t Ax x t Bx Bx = (A B)x = 0 = Ax t 2 x Bx x
(2.50)
A B = 0
(2.51)
Ferreira, D.F.
Estatstica multivariada
71
Os autovalores () de A em relao a B so denominados de valores prprios, razes caractersticas, e os autovetores de vetores caractersticos ou prprios. Desde que B seja pd, possvel fator-la atravs do fator de Cholesky, por:
t B = SBSB
Cholesky tem-se que x = ( SB1 ) z . Agora, se (2.50) for pr multiplicada por SB1 e
t
S1A S1B ( S1 ) z = 0 B B B
t
(2.52)
S1A ( S B
1 t B
z = 0
recuperado, uma vez que Z obtido. Os autovalores, no entanto, so invariantes transformao no-singular realizada.
72
Ser apresentado aqui o mtodo denominado Power method derivado por Hotelling (1936). Esse mtodo apropriado para problemas em que somente r autovalores de maior magnitude e os seus respectivos autovetores so necessrios (rn). O mtodo iterativo, dado um vetor inicial arbitrrio v (0) . O vetor do estgio i ser representado por v (i) e o da prxima iterao ser obtido por:
v (i +1) = Av (i)
Usualmente um vetor de elementos iguais a 1 usado como vetor inicial. Os vetores caractersticos devem ser normalizados em cada estgio, para que o critrio de convergncia seja verificado. Quando uma aproximao desejada para 1 e x1 sejam alcanados, o segundo autovalor e autovetor devem ser encontrados na matriz A2, definida por:
t A 2 = A 1 x1 x1
(2.53)
E assim o processo repetido at que um nmero rn de pares de autovalores e autovetores sejam obtidos.
Ferreira, D.F.
Estatstica multivariada
73
Exemplo 2.7
aplicar o power method e determinar os autovalores e autovetores da matriz apresentada a seguir:
4 2 A= 2 1
1. Determinao de 1 e x1
Na avaliao da convergncia, o autovetor em cada estgio ser padronizado atravs da diviso pelo elemento de maior valor do mesmo.
(i)
(1)
= Av
(0)
4 2 1 6 = = 2 1 1 3
Normalizando v (1) :
(1)
6 1 = 6 = 1 3 6 2
74
Para avaliar a convergncia, os vetores v (0) e v (1) devem ser comparados. Ser considerado, convergente se todos os elementos de v (1) forem semelhantes aos elementos correspondentes de v (0) , para uma preciso pr estipulada, ou seja, de 1x10-8. Neste caso, os vetores diferem consideravelmente.
(ii)
Comparando-se v (2) com v (1) , padronizados, verifica-se que so idnticos, indicando que o critrio de convergncia foi alcanado. O autovetor x1 obtido pela normalizao de
t autovalor 1, por 1 = x1 A x1 .
v (2) e o primeiro
0,8944 = 0, 4472
2. determinao de 2 e x 2
Ferreira, D.F.
Estatstica multivariada
75
Os autovalores da matriz da forma quadrtica podem servir para classificao das mesmas. Demonstra-se que se todos os autovalores da matriz A, dado Q = x t Ax , forem positivos e maiores que zero a matriz A positiva definida e a forma quadrtica positiva. Se A possui autovalores positivos e nulos a matriz ser psd, e a forma quadrtica poder ser nula para um vetor x 0 . Os resultados apresentados at agora, a respeito de formas quadrticas, so conseqncias da expanso de matrizes simtricas em um processo denominado de decomposio espectral. A decomposio espectral de uma matriz A (nxn), simtrica, dada por:
t t A = 1e1e1 + 2 e 2 e 2 +
t + n en en
(2.54)
Exemplo 2.8
Considere a matriz simtrica:
4 2 A= 2 2
76
A expresso da distncia como raiz quadrada de uma forma quadrtica positiva definida permite que se obtenha a interpretao geomtrica baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e suponha que p=2, os pontos x t =[x1, x2] de distncia constante satisfazem a: c da origem
2 2 x t Ax = a11X1 + a 22 X 2 + 2a12 X1 X 2 = c 2
Ferreira, D.F.
Estatstica multivariada
t t A = 1e1e1 + 2 e 2 e 2
77
x t Ax = 1 ( X t e1 ) + 2 ( X t e 2 )
2
= c2 e x = c 2 e 2 fornece a 2
1
pertencem a uma elipse cujos eixos so dados pelos autovetores de A com tamanhos proporcionais ao recproco da raiz quadrada dos autovalores. A constante de proporcionalidade c. A situao ilustrada na Figura 2.1. Se p>2 os pontos pertencem a uma hiperelipside de distncia c constante da origem, cujos eixos so dados pelos autovetores de A. O semi eixo na direo i tem comprimento de
i
c
e 2 c 1 c
-0,5 -0,5
e 1
78
A partir da decomposio espectral, possvel definir uma categoria de matriz, em funo dos autovalores e autovetores, denominada de matriz raiz quadrada. Sendo A (nxn), uma matriz com decomposio espectral dada por
A = P P t
n 1 A 1 = P 1P t = ei eit i =1 i
(2.55)
i como elemento
da i-sima diagonal, ento, a matriz a seguir definida como matriz raiz quadrada de A e simbolizada por A1/2.
A = i ei eit = P 2 P t
1 2 1
(2.56)
i =1
Ferreira, D.F.
Estatstica multivariada
79
1. (A1/2)t= A1/2
(A1/2 simtrica)
2. A1/2A1/2=A
3. A
( )
1 2
=
i =1
1 i
ei eit = P 2 P t
1
4. A1/2A-1/2=A-1/2A1/2=
A-1/2A-1/2=A-1
Exemplo 2.9
Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8), usando as equaes (2.55) e (2.56):
4 2 A= 2 2
80
0 5, 2361 = 0, 7639 0
A 2 = P 2 P t =
1 1
A seguir, um programa SAS apresentado contendo os principais comandos para a realizao das vrias operaes matriciais e vetoriais descritas nesse captulo.
Ferreira, D.F.
Estatstica multivariada
81
/* Capitulo 2 de multivariada - principais operaes matriciais descritas */ /* por meio do proc iml. Rotinas de inverso, multiplicao, transposio */ options nodate nonumber ps=1000 ls=76; proc iml; /* elementos de algebra vetorial*/ x1={1,1,1,1}; x2={1,1,0,0}; x3={0,0,1,1}; print x1 x2 x3; y=4*x1; z=x1+x2; print y z; yz=y` * z; yy=y`*y; /*distancia quadratica*/ dy=sqrt(yy); /* distancia da origem*/ zz=z`*z; dz=sqrt(zz); costeta=yz/(dy*dz); print yz yy zz dy dz costeta; /* elementos de algebra matricial*/ x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/ xpx=x`*x; xx=xpx#xpx; /* produto de xpx elemento a elemento por xpx*/ print x xpx xx; /*calculo da base ortonormal de Gramshimidt - a matriz p contm as colunas ortonormalizadas de X*/ Call Gsorth(p, t, lindep, X); print lindep p t; /* calculo de autovalores e autovetores */ pu=eigvec(xpx); /* pu matriz de autovetores */ au=eigval(xpx); /* au vetor de autovalores */ print pu; print au; a={4 2,2 2}; /* matriz A*/ ainv=inv(a); /* inversa de A*/ deta=det(a); /* determinante de A*/ print a ainv deta; c={4 2 2,2 2 0, 2 0 2}; detc=det(c); print c detc; /* fator de Cholesky A=S`S em que S e uma matriz triangular superior */ /* S e a transposta do fator de Cholesky */ Sc=root(c); /* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */ /* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/ Sa=root(a); b={4 2 0,2 2 1,0 1 2}; print b; sb=root(b); print Sc Sa sb; /*maximizao de pares de formas quadrticas */ /* resolver (D - lG)e=0 */ D={4 2,2 2}; G={7 1,1 4}; print D G; Sg=root(G); /* transposta do fator de Cholesky de G */ Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */
2. lgebra vetorial e matricial print Sg Sginv; II=Sginv`*G*Sginv; /* mostrar que igual a identidade */ print ii; H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */ print H; /* D transformada */ zh=eigvec(H); /* zh matriz de autovetores */ auh=eigval(H); /* auh vetor de autovalores */ xh=Sginv*zh; /* matriz de autovetores recuperados */ teste=xh`*g*xh; print teste;/*mostrar que resulta na identidade*/ print xh; print auh; /* obtencao de matriz raiz quadrada - exemplificar com a matriz D */ aud=eigval(D); /* autovalores de D*/ lamb=diag(aud); /* diagonalizando aud e resultado em lamb */ print lamb; lambS=root(lamb); /* achando a raiz quadrada de lamb */ avd=eigvec(D); /* autovetores de D em avd */ Droot=avd*lambS*avd`; /* usando a definio para encontrar a matriz raiz quadrada de D */ print Droot; DD=avd*lamb*avd`; /* checando propriedades */ print DD; /* deve ser igual a D */ quit;
82
2.4. Exerccios
(b) encontre (i) o comprimento de x , (ii) o ngulo entre x e y , e (iii) a distncia entre x e y .
Ferreira, D.F.
Estatstica multivariada
83
84
2.5. Seja
8 1 A= 1 2
(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?
Ferreira, D.F.
Estatstica multivariada
85
(g) Encontre os autovalores e autovetores de A-1. Verifique que relao tem como os valores encontrados em (d).
As matrizes so idnticas, exceto por pequenas diferenas no elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas mudanas, talvez devido a arredondamentos, podem causar substanciais diferenas na inversa).
2 Q = 2x1 2x1 x 2 + 4x 2 2
positiva definida.
86
4 1 A= 1 2
2 1 B= 1 1
x t Ax = t x Bx
B 0
A B = 0 .
25 S= 2
2 4
Ferreira, D.F.
Estatstica multivariada
87
S11 0 1 D 2 = 0
0 S22 0
0 0 Spp
Sendo R = D
( ) S (D )
1 2
S= D
( ) R (D )
1 2 1 2
88
||[
Amostragem multivariada
]||
3.1. Introduo
Com os conceitos de lgebra vetorial introduzidos no captulo 2, pode-se aprofundar na interpretao geomtrica das estatsticas descritivas X , S e R. A maioria das explicaes usam a representao das colunas de X, como p pontos no espao n dimensional. Ser introduzida neste instante a pressuposio de que as observaes constituem uma amostra aleatria. De uma forma simplificada, amostra aleatria significa (i) que as medidas tomadas em diferentes itens (unidades amostrais ou experimentais) so no relacionadas uma com as outras, e (ii) que a distribuio conjunta das p variveis permanece a mesma para todos os itens. Essa estrutura de amostra aleatria que justifica uma escolha particular de distncia e dita a geometria para a representao n dimensional dos dados. Finalmente, quando os dados podem ser tratados como uma amostra aleatria inferncia estatstica ter por base um slido fundamento.
3. Amostragem multivariada
90
Uma observao multivariada uma coleo de medidas em p variveis tomadas na mesma unidade amostral ou experimental. No captulo 1, item 1.3, as n observaes obtidas foram dispostas em um arranjo (Matriz) X por,
x11 x 21 X = x j1 xn1
x12 x22 x j2 xn 2
x1k x2 k x jk xnk
x1 p x2 p x jp xnp
em que cada linha de X representa uma observao multivariada. Desde que o conjunto todo de mensuraes muitas vezes uma particular realizao de variveis aleatrias, diz-se que os dados representam uma amostra de tamanho n de uma populao p variada. Os dados podem ser plotados por um grfico com p coordenadas. As colunas de X representam n pontos no espao p dimensional. Esse tipo de grfico fornece informaes de locao dos pontos e de variabilidade. Se os pontos pertencem a uma esfera, o vetor de mdias amostrais, X , o centro de balano ou de massa. Se a variabilidade ocorre em mais de uma direo, pode-se detectar pela matriz de covarincia, S. Uma medida numrica nica de variabilidade fornecida pelo determinante da matriz de covarincia.
Ferreira, D.F.
Estatstica multivariada
91
Exemplo 3.1
Calcule o vetor mdia X para a matriz X apresentada a seguir. Plote os n = 3 pontos no espao p=2 (bidimensional) e localize X no diagrama resultante.
2 1 X = 3 0 2 2
2 + ( 3 ) + ( 2 ) X = (1 + 0 + 2 )
3 1 = 3 1
t t O primeiro ponto dado por X1 = [ 2 1] , o segundo por X 2 = [ 3 0] , e t o terceiro por X 3 = [ 2 2] . A Figura 3.1 mostra os pontos juntamente com X ,
3. Amostragem multivariada
92
3 x3 _ x 1 x2 -4 -3 -2 -1 -1
2 x1
0 0 1 2 3 4
-2
-3
Figura 3.1. Diagrama com n=3 pontos no espao bidimensional (p=2) mostrando o centro de massa, X .
Uma representao alternativa obtida atravs da considerao de p pontos no espao n dimensional. Os elementos das linhas de X so utilizados como coordenadas.
Ferreira, D.F.
Estatstica multivariada
93
x11 x 21 X = x j1 xn1 = y1
x12 x22 x j2 xn 2 y2
x1k x2 k x jk xnk yk
x1 p x2 p x jp xnp yp
t y k = [ x1k
x 2k
x nk ]
Exemplo 3.2
Plote os dados da matriz X, com p=2 vetores no espao tridimensional (n=3)
2 1 X = 3 0 3 2
t t y1 = [ 2 3 2] e y 2 = [1 0 2]
3. Amostragem multivariada
3
94
Y2
Y1
2 1
Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espao tridimensional.
Muita das expresses algbricas que sero encontradas na anlise multivariada, podem ser relacionadas s noes geomtricas de ngulos, comprimento (norma) e volumes. Isto importante, pois representaes geomtricas facilitam a compreenso e conduz a novas vises. Infelizmente, o ser humano est limitado a visualizar objetos no espao tridimensional, e as representaes da matriz X no sero teis se n>3. No entanto, os relacionamentos geomtricos e os conceitos estatsticos associados, descritos para o espao tridimensional ou bidimensional, permanecem vlidos para dimenses maiores.
Ferreira, D.F.
Estatstica multivariada
95
possvel, em funo do exposto, prover uma interpretao geomtrica ao processo de encontrar a mdia amostral. O vetor 1 (nx1) ser definido por 1t =[1 1 1]. O vetor 1 forma um ngulo igual com cada um dos eixos coordenados, de tal forma que
(1 n )1
projeo em 1
n 1 :
1 1 y 1 1= n n
t k
X
j=1
jk
1=
1 t yk 1 1 = X k 1 n
( )
Proj ( X em Y ) =
Xt Y Y Y
Dessa forma X k =
( )
3. Amostragem multivariada
96
= y
em que, y k X k 1 perpendicular a X k 1 . Observe, tambm, que e k = y k X k 1 definido como desvio da k-sima varivel em relao a sua mdia amostral, e consiste nos elementos apresentados a seguir:
x1k X k x 2k X k ek = yk X k 1 = x nk X k
A decomposio de yi , nos vetores mdia e desvio da mdia est apresentada esquematicamente na Figura 3.3 para p=2 e n=3.
Ferreira, D.F.
Estatstica multivariada
97
x3
1 _ x 21 e2 Y2 x2 _ x 11 e1 Y1
x1
Exemplo 3.3
Faa a decomposio de y k em componentes de mdia X k 1 e componentes de desvio e k = y k X k 1 , k=1, 2, para os dados do exemplo 3.2.
3. Amostragem multivariada
98
2 1 X = 3 0 3 2
t y1 = [ 2 3 2]
t y 2 = [1 0 2]
X1 =
2 + (3) + (2) = 1 3
X2 =
1+ 0 + 2 =1 3
1 1 X11 = 1 1 = 1 1 1
1 1 X 2 1 = 1 1 = 1 1 1
2 1 3 e1 = y1 X11 = 3 1 = 2 2 1 1
1 1 0 e 2 = y 2 X 2 1 = 0 1 = 1 1 1 1
( X 1) (
t 1
3 y1 X11 = [ 1 1 1] 2 = 3 + 2 + 1 = 0 1
A decomposio :
Ferreira, D.F.
Estatstica multivariada
99
2 1 3 y1 = 3 = 1 + 2 ; e 2 1 1
1 1 0 y 2 = 0 = 1 + 1 . 2 1 1
Os vetores de resduos podem ser plotados a partir da origem, como apresentado na Figura 3.4, para os resduos do exemplo 3.3.
X3
e2 e1
X2
X1
| e k |2= e k . e k = ( x jk X k ) 2
j =1
(3.1)
Observa-se por (3.1) que o comprimento ao quadrado dos vetores de desvios proporcional varincia da i-sima varivel. Equivalentemente, o
3. Amostragem multivariada
100
comprimento proporcional ao desvio padro. Vetores longos representam maiores variabilidades que os vetores mais curtos. Para dois vetores desvios e k e e :
t ek e = ( x jk X k )( x j X j =1
(3.2)
Cos ( k ) =
t ek e t ek ek e t e
(3.3)
rk = Cos ( k ) =
Sk Skk S
(3.4)
O coseno do ngulo formado entre dois vetores desvios igual ao coeficiente de correlao amostral. Portanto, se os dois vetores de desvios possuem a mesma orientao, o coeficiente de correlao ser prximo de 1. Se os dois vetores esto prximos de serem perpendiculares, a correlao amostral ser prxima de zero. Se os dois vetores forem orientados em direes opostas, o coeficiente de correlao amostral ser prximo de -1. Os conceitos de
Ferreira, D.F.
Estatstica multivariada
101
comprimento e ngulos permitem que se faam interpretaes das estatsticas amostrais geometricamente, e auxiliam na compreenso dos seus significados.
x11 x 21 X = x j1 xn1
x1k x2 k x jk xnk
x1 p X 1t t x2 p X 2 = x jp X tj t xnp X n
(3.5)
3. Amostragem multivariada
102
conjunta com densidade f( x )=f(x1, x2, ..., xp), ento X1 , X 2 , ..., X n uma amostra aleatria. Se a funo conjunta de densidade igual ao produto das marginais f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), ento, X1 , X 2 , ..., X n uma amostra aleatria. Algumas concluses podem ser obtidas da distribuio de X e S sem pressuposies sobre a forma da distribuio conjunta das variveis. Dessa forma, considere X1 , X 2 , ..., X n como sendo uma amostra aleatria de uma distribuio conjunta com vetor mdia e matriz de covarincia . Ento, X um estimador no viciado de e sua matriz de covarincia
1 n
. Isto ,
E( X ) =
Cov( X ) =
PROVA:
X =( X 1+ X 2+...+ X n)/n
Ferreira, D.F.
Estatstica multivariada
1 + n Xn )
103
1 1 E(X) = E ( n X1 + n X 2 +
1 1 = E ( n X1 ) + E ( n X 2 ) +
1 + E ( n Xn )
1 1 nE ( X j ) = n n n
E(X) =
1 n ( X - ) ( X - ) = Xj n j=1
t
1 n 1 X = 2 n n =1
( X
n n j=1
=1
)(
Ento,
Cov ( X ) = E X X =
t
)(
1 n2
E ( X
n n j=1
=1
)(
Sendo j
e considerando que E X j X
)(
igual a zero,
Cov ( X ) =
1 n2
E (X
n j=1
Xj
)(
3. Amostragem multivariada
104
)(
Cov ( X ) =
1 n2
E (X
n j=1
Xj =
)(
1 ( + + n2
+ ) =
1 1 (n) = 2 n n
Com uma nica varivel, a varincia da amostra usada para descrever a variao nas mensuraes desta varivel. Quando p variveis so observadas em cada unidade da amostra ou do experimento, a variao descrita pela matriz de varincia e covarincia amostral.
S 11 S 21 S= S p1
S 12 S 22 Sp2
S 1p S 2p S pp
A matriz de covarincia amostral contm p varincias e p(p-1) covarincias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se expressar a variao por um nico valor numrico. Uma escolha deste valor o determinante de S, o qual reduz varincia amostral usual para o caso de uma
Ferreira, D.F.
Estatstica multivariada
105
(3.6)
Exemplo 3.4
O peso de espiga PE (X1), e o nmero de espigas NE (X2), foi avaliado em 28 variedades de milho em Sete Lagoas, MG. A matriz de covarincia amostral S, obtida dos dados :
A varincia amostral generalizada se constitui numa forma de escrever toda a informao de todas as varincias e covarincias como um nico valor numrico. Obviamente, quando p>1 possvel que algumas informaes amostrais sejam perdidas no processo. A interpretao geomtrica, no entanto, poder mostrar a fora e as fraquezas desta estatstica descritiva.
3. Amostragem multivariada
106
Considerando-se o volume (rea) gerado no plano definido por dois vetores de desvios e1 = Y1 X11 e e 2 = Y2 X 2 1 . Seja Le1 e Le2 os comprimentos dos vetores e1 e e 2 , respectivamente. Da geometria tm-se:
e1 h= Le1Sen() Le2
e2
Mas, L e1 =
(X
j=1
j1
X1 ) 2 = (n 1)S11
L e2 =
(X
j=1
j2
X 2 ) 2 = (n 1)S22
Cos()=r12
Portanto,
Ferreira, D.F.
Estatstica multivariada
107
(3.7)
S=
|S|=(rea)2/(n-1)2
Esta expresso pode ser generalizada para p vetores desvios por induo:
(3.9)
A equao (3.9) mostra que a varincia amostral proporcional ao quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b) mostra-se regies trapezoidais geradas com p=3 vetores resduos
3. Amostragem multivariada
108
(a)
(b)
e3 e2 e1
e2 e3 e1
Figura 3.5. (a) grande varincia amostral generalizada, e (b) pequena varincia amostral generalizada, para p=3.
Para um tamanho amostral fixo, bvio que |S| cresce com o aumento do comprimento dos vetores de desvios ei (ou
( n 1)Sii ). Em adio, o
volume aumentar para um comprimento fixado, se os vetores residuais forem movidos at possurem ngulos retos. Por outro lado se um ou mais dos vetores residuais aproximar do hiperplano formado por outros vetores residuais, o volume diminuir tendendo a zero. Apesar de a varincia amostral generalizada possuir algumas interpretaes geomtricas formidveis como as ilustradas na Figura 3.5, ela sofre
Ferreira, D.F.
Estatstica multivariada
109
alguns problemas como estatstica amostral capaz de sumariar a informao contida na matriz S. Para ilustrar estas deficincias, considere as matrizes de covarincias e os coeficientes de correlaes apresentados a seguir.
10 8 S= 8 10 r12 = 8 = 0,8 10 10
10 8 S= 8 10 r12 = 8 = 0,8 10 10
6 0 S= 0 6 r12 = | S |= 36 0 = 0, 0 6 6
| S |= 36
| S |= 36
Apesar das trs matrizes possurem a mesma varincia amostral generalizada (|S|=36), elas possuem estruturas de correlaes distintas. Portanto, diferentes estruturas de correlaes no so detectadas pela varincia amostral generalizada. As situaes em que p>2 podem ser ainda mais obscuras. Muitas vezes desejvel mais informaes do que um simples valor como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser expresso como produto dos autovalores de S (|S|=1.2....p). A elipside centrada na mdia baseada em S-1, possui eixos de comprimento proporcionais a raiz quadrada de is de S, que reflete a variabilidade no sentido do i-simo autovalor. Esta elipside apresentada a seguir.
( X X ) 'S ( X X ) = c
1
(3.10)
3. Amostragem multivariada
110
Demonstra-se que o volume desta hiperelipside proporcional raiz quadrada de |S|. Desta forma, os autovalores, fornecem informaes da variabilidade em todas as direes da representao no espao p-dimensional dos dados. Portanto, mais til apresentar seus valores individuais do que seu produto. Este tpico ser abordado com mais detalhe quando se discutir sobre os componentes principais. A varincia amostral generalizada ser zero se um ou mais vetores residuais pertencerem a um (hiper) plano formado por uma combinao linear dos outros, ou seja, quando as linhas da matriz de desvios, forem linearmente dependentes.
Exemplo 3.5
Mostre que |S|=0 para
3 3 6 X = 1 3 4 2 0 2
O vetor mdia :
X t = [ 2 2 4]
Ferreira, D.F.
Estatstica multivariada
111
X 1 X t = [ e1 e2
1 1 2 e3 ] = 1 1 0 0 2 2
Isto significa que um dos vetores resduos, pertence ao plano gerado pelos outros dois. Desta forma o volume tridimensional zero (degenerescncia). Este caso ilustrado na Figura 3.6 e demonstrado numericamente atravs da obteno de |S|.
1 0 1 S = 0 3 3 1 3 4
| S| = 1
3 3 3 4
( 1) 2 + 0
0 1 3 4
( 1) 3 + 1
0 1 3 3
( 1) 4 =
3. Amostragem multivariada
3
112
e1
e3
e2
Em qualquer anlise estatstica o resultado |S|=0 indica que existem variveis redundantes, ou seja, que possuem a mesma informao, e que estas podem ser removidas do estudo. A matriz de covarincia reduzida, ser de posto completo e a varincia generalizada diferente de zero. A questo de quais variveis devem ser removidas no caso de degenerescncia no fcil de responder e ser abordado nos estudos de componentes principais. No entanto, quando h possibilidade de escolha, o pesquisador deve reter as medidas de uma varivel (presumidamente) causal ao invs de uma caracterstica secundria.
Ferreira, D.F.
Estatstica multivariada
113
(x
jk
xk )
S kk . A matriz de
covarincia amostral das variveis padronizadas ser ento igual a R, ou seja, igual a matriz de correlao das variveis originais. Dessa forma pode-se definir:
(3.11)
n 1. A varincia
generalizada amostral das variveis padronizadas ser grande se estes vetores forem perpendiculares e ser pequena se dois ou mais deles tiverem prximas da mesma direo. Em (3.4) foi visto que o co-seno do ngulo ik entre os vetores residuais ei e e k , com ik, igual ao coeficiente de correlao amostral rik. Dessa
3. Amostragem multivariada
114
forma, o |R| ser grande quando todos os rik forem prximos de zero e ser pequeno quando um ou mais dos rik for prximo de -1 ou de +1. Utilizando os mesmos argumentos que conduziram a (3.9) pode-se verificar que:
|R|=(n-1)-p(volume)2
(3.12)
volume
gerado
pelos
vetores
desvios
de
p=3
variveis
padronizadas est ilustrado na Figura 3.7. Estes vetores desvios padronizados so correspondentes aos vetores desvios da Figura 3.5, cuja comparao revela que a influncia do vetor e 2 (com grande variabilidade na direo de x2) no volume quadrado de |S| maior do que sua influncia no volume quadrado de |R|.
(a)
(b)
e3 e2 e1 e2 e3 e1
Figura 3.7. Volume gerado por trs variveis padronizadas: (a) grande varincia e (b) pequena varincia generalizada.
Ferreira, D.F.
Estatstica multivariada
115
(3.13)
Exemplo 3.6
ilustrada atravs deste exemplo a relao (3.13) entre |S| e |R| para p=3 caracteres de milho (x1: dimetro do colmo; x2: nmero de folhas; e x3: comprimento de folhas). A matriz R e S obtidas so:
100 0,30 0,31 4,935 0,552 2,921 , , , S = 0,552 0,686 1932 e R = 0,30 100 0,55 0,31 0,55 100 , , 2,921 1932 17,993
|S|=37,3878
|R|=0,6137
3. Amostragem multivariada
116
37,387837,3828
(verificado,
apesar
da
pequena
diferena
devido
Uma outra medida capaz de sintetizar a informao contida na matriz de covarincia que utilizada em componentes principais definida pela soma dos elementos da diagonal da matriz de covarincia S e denominada de varincia amostral total. Portanto,
(3.14)
Exemplo 3.7
Calcular a varincia amostral total da matriz S do exemplo (3.6)
Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614
Geometricamente a varincia amostral total representa a soma dos comprimentos ao quadrado dos vetores residuais ei (i=1, 2, ...,p) dividido por n-1. Ela no considera as orientaes dos vetores residuais, sendo portanto limitada
Ferreira, D.F.
Estatstica multivariada
117
para ser utilizada com variveis padronizadas, pois seu valor ser sempre o mesmo para distintos conjuntos de dados desde que o nmero de variveis destes seja igual.
3.7. Exerccios
1 1 1 1 X = 1 1 1 1
3.7.2. Encontre o ngulo entre os vetores y1 e y 2 do exemplo 3.1. Calcule o co-seno do mesmo e discuta sobre o significado deste resultado.
3.7.3. Obtenha a decomposio dos vetores y1 e y 2 do exemplo 3.1 em componente de mdia e componente de desvio. Comprove a
3. Amostragem multivariada
118
3.7.4. Calcule usando (3.3) o coseno do ngulo entre os vetores residuais e1 e e 2 obtidos em 3.3. Calcule o coeficiente de correlao usando (1.4) entre as variveis 1 e 2, e compare os resultados obtidos.
3.7.5. Obtenha as matrizes de covarincia amostral para o conjunto de dados do exerccio 3.7.1, e calcule as varincias amostrais generalizadas das variveis originais e padronizadas. Calcule tambm a varincia amostral total.
3.7.6. Qual a rea do trapezide gerado pelos p=2 vetores desvios, do exerccio 3.7.1.
A generalizao da densidade normal univariada para duas ou mais dimenses desempenha um papel fundamental na anlise multivariada. De fato, a maioria das tcnicas multivariadas parte do pressuposto de que os dados foram gerados de uma distribuio normal multivariada. Apesar dos dados originais no serem quase nunca exatamente normal multivariados, a densidade normal se constitui muitas vezes numa aproximao adequada e til da verdadeira distribuio populacional. A distribuio normal, alm da sua atratividade pela sua facilidade de tratamento matemtico, possui duas razes prticas que justificam a sua utilidade. A primeira, diz que a distribuio normal a mais adequada para modelos populacionais em vrias situaes; e a segunda refere-se ao fato da distribuio amostral de muitas estatsticas multivariadas ser aproximadamente normal, independentemente da forma da distribuio da populao original, devido ao efeito do limite central.
120
importante compreender que as anlises estatsticas de modelos com erros aditivos baseiam-se na pressuposio de normalidade. A distribuio normal requerida refere-se, no a variao dos dados, mas a variao residual, dos erros existentes entre as observaes e o modelo ajustado. A variao sistemtica dos dados deve-se presumidamente aos efeitos fixos dos modelos e o restante da variao aleatria devida a pequenas influncias independentes, as quais produzem resduos com distribuio normal (Bock, 1975). Um segundo ponto, muitas vezes negligenciado nas discusses das pressuposies sobre a distribuio, refere-se ao fato de que as afirmaes probabilsticas dos testes de significncia e dos intervalos de confiana, dizem respeito a estatsticas tais como mdias amostrais ou diferenas entre mdias, e no a distribuio das observaes individuais. conhecido que a distribuio destas estatsticas torna-se tipicamente normal quando a amostra aumenta de tamanho. Este resultado se deve ao teorema do limite central. Do ponto de vista prtico existem considerveis vantagens de se trabalhar com grandes amostras. Nestes casos, a violao da pressuposio de que a populao seja normal menos crtica para os testes estatsticos e intervalos de confiana e a preciso da estimao de parmetros desconhecidos melhor.
Ferreira, D.F.
Estatstica multivariada
121
multivariada
suas
A densidade normal multivariada uma generalizao da densidade normal univariada. Para a distribuio normal univariada com mdia e varincia
f (x) =
1 22
1 ( x ) 2 2
x ]; + [
(4.1)
O grfico da funo (4.1) tem forma de sino e est apresentado na Figura 4.1. As probabilidades so reas sob a curva entre dois valores da varivel X, limitada pela abscissa. bem conhecido o fato de que as reas entre 1 desvio padro da mdia e 2 desvios padres da mdia so respectivamente 68,3% e 95,4%, como ilustrado na Figura 4.1.
122
0,683 2 0,954 + +2
Figura 4.1. Densidade normal univariada com mdia destacando-se as reas entre e 2 .
e varincia
2 ,
(x )
= ( x ) ( 2 )
( x )
(4.2)
mede a distncia quadrada de x em relao em unidade de desvio padro. Esta distncia pode ser generalizada para o caso multivariado, com um vetor X de observaes (p x 1), dada por,
Ferreira, D.F.
t
Estatstica multivariada
123
(X ) () (X )
1
(4.3)
Nesta expresso (4.3) o vetor (px1) representa o valor esperado do vetor X e a matriz (pxp) representa a sua covarincia. Ento, (4.3) representa a distncia generalizada de X para . Substituindo a expresso (4.3) na funo de densidade (4.1), a constante univariada de normalizao
22 deve ser trocada de modo a fazer
com que o volume sob a superfcie da funo de densidade multivariada obtida, seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que esta constante ( 2 )
p2
12
f (X) =
( 2 )
p 2
t 1 exp X 1 X 1 2 2
(4.4)
1. Combinaes lineares dos componentes de X sero normalmente distribudos: seja a combinao linear distribuio N( a t , a t a );
a t X =a1X1+a2X2+...+ apXp, ento, at X
ter
124
2. Todos os subconjuntos de X tem distribuio normal (multivariada). Pelos resultados da propriedade 1, fazendo alguns ais iguais a zero, isto se torna evidente;
X1 X 2 0] = X1 a propriedade 2 se torna evidente. Assim, Xp
i) Fazendo a t X = [1 0
X1 N( a t = 1 , a t a = 11 ). De uma forma mais geral pode-se afirmar que todo componente Xi tem distribuio N( i , ii ).
a11 X1 + q A p p X1 = a q1 X1 +
iii) Todos os subconjuntos de X tem distribuio normal (multivariada) Tomando-se uma partio:
q X1 X1 X1 = = e suas correspondentes p (p q) X1 X 2
q 11q q 1 1 1 = = e = p ( pq ) 21q (p q) 1 2
12( pq ) 22( pq ) ( p q )
q
Ferreira, D.F.
Estatstica multivariada
125
Logo,
X1 ~ N q 1 ; 11
3. Se os componentes de covarincia forem zero entre dois subconjuntos de X , implica em dizer que eles so independentemente distribudos. Esta propriedade s valida se X tiver distribuio normal multivariada; e
Dada a partio
c = 1 + 12 1 x 2 2 e c = 11 12 1 21 22 22
126
= 11 21
12 22
Cuja inversa ,
1 =
22 11 22 21 1
2 12
12 11
Fazendo
12 = 12 11 22 ,
obtm-se
1 22 [X1 1 X2 2] 2 11 22 (1 12 ) 12 11 22
12 11 22 X1 1 = X2 2 11
(4.5)
1 = 2 1 12
2 2 X1 1 X 2 2 2 X1 1 + X 2 212 11 22 11 22
substitudos -1 e || em (4.4) para se ter a expresso da densidade normal bivariada, apresentada a seguir.
Ferreira, D.F.
Estatstica multivariada
127
f(x1 ,x2 ) =
1
2 2 1122 (1 12 )
(4.6)
2 1 X1 1 exp 2 2(1 12 ) 11 2 X2 2 X1 1 X2 2 + 212 22 11 22
Se X1 e X2 no so correlacionadas, 12 =0, a densidade conjunta pode ser escrita como produto das densidades normais univariadas, ambas com a forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), alm do que X1 e X2 so ditas independentes, como comentado na propriedade nmero 3 da seo 4.3. Duas distribuies normais bivariadas com varincias iguais so mostradas nas Figuras 4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 so independentes ( 12 =0) e a Figura 4.3 o caso de 12 =0.8. Observa-se que a presena de correlao faz com que as probabilidades se concentrem ao longo de uma linha.
128
Ferreira, D.F.
Estatstica multivariada
129
Da anlise da expresso (4.4), relativa a densidade de p-variveis normais, fica claro que alguns valores padres de X fornecem alturas constantes para as densidades elipsides. Isto significa que a densidade normal constante em superfcies cujas distncias quadrticas X
) () (X )
t
so constantes.
) ( ) ( X ) =c
t 1
(4.7)
A expresso (4.7) uma superfcie de uma elipside centrada em , cujos eixos possuem direo dos autovetores de -1 e seus comprimentos so proporcionais ao recproco da raiz quadrada dos seus autovalores. Demonstra-se que se i e ei so os autovalores e autovetores, respectivamente, de , ento a elipside
c
( X ) ( ) ( X ) =c
t 1
11 i 12 2 2 = ( 11 i ) 12 = 0 12 11 i
= ( i 11 12 )( i 11 + 12 ) = 0
130
1 = 11 + 12 e 2 = 11 12
e i = i e i
11 12 e1 e = (11 + 12 ) 12 11 2
e1 e 2
ou,
11 e1 + 12 e2 = (11 + 12 ) e1 12 e1 + 11 e2 = (11 + 12 ) e2
Essas equaes levam ao resultado de que e1=e2, e aps normalizao, o primeiro autovetor :
e1 = 1 2 1 2
Ferreira, D.F.
Estatstica multivariada
131
e1 =
1 2 1 2
Se a covarincia positiva, 1 = 11 + 12 o maior autovalor e seu autovetor associado se posiciona ao longo de uma linha de 450 atravs do ponto
c c
v
11
11
12 12
Figura 4.4. Curva de nvel de densidade constante para a distribuio normal bivariada com 11 = 22 e 12 > 0 .
2 Anderson (1984) demonstra que a escolha de c2= p (), em que 2 p () o percentil (100) superior da distribuio de qui-quadrado com p graus de
132
liberdade, leva aos contornos que contm (1-)x100% de probabilidade. Para a distribuio normal multivariada (p variada), a elipside dos valores de X satisfazendo,
(X ) () (X )
t
1
2 p
()
(4.8)
tem probabilidade 1-. Os contornos contendo 95% e 99% de probabilidade sob a densidade normal bivariada das Figuras 4.2 e 4.3, esto representados nas Figuras 4.5 e 4.6.
X2
99% 2 95%
0 0
X1
Figura 4.5. Curvas de nveis de 95% e 99% de probabilidade para a distribuio normal bivariada apresentada na Figura 4.2, 11 = 22 e 12 =0.
Ferreira, D.F.
Estatstica multivariada
133
95% 99%
Figura 4.6. Curvas de nveis de 95% e 99% de probabilidade para a distribuio normal bivariada apresentada na Figura 4.3, 11 = 22 e 12 =0,8.
A densidade (4.4) possui mximo quando X = . Portanto, o ponto de mxima densidade ou moda, bem como o valor esperado de X , ou mdia.
134
x 11 x = 21 p x n1
x x x
12 22
x x
n2
2p x np
1p
se constituem numa amostra aleatria de uma populao normal com mdia e covarincia for verdadeira, ento este fato suficiente para completamente definir a distribuio amostral de X e de S. So apresentadas a seguir estas distribuies amostrais, fazendo-se um paralelo com a distribuio amostral univariada que j familiar e bem conhecida. No caso univariado (p = 1), sabe-se que X possui distribuio normal com mdia (mdia populacional) e varincia
2 n
O resultado para o caso multivariado (p2) similar a este, no sentido que X possui distribuio normal com mdia e matriz de covarincia (1/n). Para a varincia amostral, caso univariado, sabe-se que a distribuio de (n 1)S2 2 possui distribuio de qui-quadrado com n - 1 graus de liberdade. Para o caso multivariado, a distribuio da matriz de covarincia
Ferreira, D.F.
Estatstica multivariada
135
chamada de distribuio de Wishart, aps sua descoberta, com (n 1) graus de liberdade. Os resultados a seguir resumem detalhes destas distribuies:
Sendo X1 , X 2 , ..., X n uma amostra aleatria de tamanho n de uma populao normal p-variada com mdia e matriz de covarincia . Ento, 1. X possui distribuio normal com mdia e matriz de covarincia (1/n). 2. (n-1)S possui distribuio de uma matriz aleatria de Wishart com n-1 gl. 3. X e S so independentes.
Devido a no ser conhecida, a distribuio de X no pode ser usada diretamente para se fazer inferncia sobre . Felizmente, S fornece informao independente sobre e a distribuio de S no depende de . Isto permite que se construam estatsticas para fazer inferncia sobre , como ser abordado no captulo 5.
Seja S uma matriz positiva definida, com n>p, ento se pode definir,
wn1(S/ ) =
S 2
p(n1)/2 p(p1)/4
(n1)/2
[
i=1
1 2
(n i)]
(4.9)
136
em que, (.) representa a funo gama. Retornando ao caso da distribuio das mdias amostrais, o resultado 4.1, sintetiza um importante teorema em estatstica.
Como j foi comentado quando n grande, S converge em probabilidade para , consequentemente, a substituio de por S causa efeitos apenas negligveis nos clculos de probabilidades. Desta forma, utilizando a expresso (4.8), pode-se obter o importante resultado, apresentado a seguir.
e
2 n X 1 X se distribui aproximadamente como p para n - p grande.
Ferreira, D.F.
Estatstica multivariada
137
Para a distribuio normal univariada, se e so conhecidos, as probabilidades sob a curva para a distribuio de X , podem ser obtidos das tabelas da distribuio normal, ou da integral da funo apresentada em (4.1) nos intervalos apropriados, com =0 e =1, sendo
z=
X n
(4.10)
Alternativamente, pode-se obter a aproximao de Hasting (1955) citado por Bock (1975), com erro mximo de 10-6, dada por
G se z 0 ( z ) 1 G se z > 0
(4.11)
em que,
G = ( a1 + a2 2 + a3 3 + a4 4 + a5 5 ) ( z );
138
1 ; 1 + 0,2316418| z|
(z) = (2 ) 2 e
1
z2
a1=0,319381530
a2=-0,356563782
a3=1,781477937
a4=-1,821255978
a5=1,330274429
derivada
da
distribuio
Teoria da Distribuio das grandes amostras e distribuio exata Na anlise dos dados freqentemente so utilizadas funes das observaes chamadas estatsticas, as quais servem como estimadores dos parmetros ou como critrio para os testes de hipteses. A importncia de tais
Ferreira, D.F.
Estatstica multivariada
139
estatsticas muitas vezes depende do conhecimento da (1) distribuio assumida para as observaes, (2) do mtodo de amostragem, e (3) da natureza da funo das observaes. H dois tipos de teoria amostral avaliada para derivar a distribuio amostral. A teoria das grandes amostras, a qual fornece a distribuio aproximada medida que o tamanho amostral cresce indefinidamente, e a teoria das pequenas amostras ou teoria exata, a qual vlida para qualquer tamanho amostral. As distribuies derivadas assumindo o tamanho amostral
indefinidamente grande so chamadas de distribuies assintticas ou limitante. A teoria assinttica especialmente simples, como conseqncia do teorema do limite central que demonstra que muitas estatsticas tm distribuio normal como limite. Para tais estatsticas necessrio somente obter a mdia e a varincia para ter a distribuio assinttica. A distribuio amostral sem considerar os argumentos da teoria assinttica, geralmente depende do tamanho da amostra e pode ser no-normal para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso, algum indicativo de qual tamanho amostral necessrio para uma dada acurcia na teoria assinttica extremamente til para trabalhos prticos. Como exemplo, pode citar que a distribuio de F, de razes de varincias, com 1 graus de liberdade do numerador e 2 do denominador, se aproxima de qui-quadrado dividido por 1 quando o valor de 2 cresce sem limite.
lim F(1 , 2 ) =
(21) 1
140
Comparando as tabelas de F e qui-quadrado dividido por 1, pode-se concluir que ao nvel de 0,05, com erro de duas unidades na segunda casa decimal, quando 2 for maior que 40, haver boa concordncia. Semelhantemente, considerando o valor nominal de significncia de 0,01, verifica-se que a concordncia com a mesma preciso se d quando o valor de 2 excede 100.
Distribuio da soma de quadrados de n desvios normais aleatrios Seja Z um vetor x 1 de observaes normais N(0,1) padronizadas. A estatstica
(4.12)
distribuda como uma varivel qui-quadrado com graus de liberdade. Foi obtida em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A funo de distribuio de qui-quadrado pode ser expressa pela funo gama incompleta.
P(2 / ) =
1
2
2 ( 2) 0
t ( 2 )1e 2 dt
t
(4.13)
Ferreira, D.F.
Estatstica multivariada
141
A funo de distribuio (4.13) pode ser aproximada para aplicaes em computadores pela srie convergente apresentada a seguir.
P( / ) =
2
e n n=0 ( + n +1)
(4.14)
quando
2 1 (1)(2) P( / ) 1e 1+ + +... 2
(4.15)
(4.16)
A forma recursiva ( a +1) =a ( a ) e ( 2) = (1) pode ser usada quando a for pequeno. Sabe-se que a mdia da distribuio de qui-quadrado, E( 2 ), e que sua varincia 2. Para >30, as probabilidades podem ser obtidas usando a aproximao normal assinttica usando unitrio.
142
respectivamente. Ento,
2 1 1 F= 2 2 2
possui distribuio de uma varivel F com 1 e 2 graus de liberdade. A distribuio de F foi derivada por R. A. Fisher (1924). A funo de distribuio de F pode ser aproximada pela srie convergente da funo beta incompleta:
Ix (a, b) =
(4.17)
em que, B( a, b ) =
( a )( b ) ( a + b )
Ento,
P( F, 1 , 2 ) = 1 I x (
2 1 , ) 2 2
em que, x =
2 2 + 1 F
Ferreira, D.F.
Estatstica multivariada
143
A pressuposio de que cada vetor de observao X j veio de uma distribuio normal multivariada ser requerida nas tcnicas estatsticas que sero abordadas nos captulos subsequentes. Por outro lado, nas situaes em que a amostra grande e as tcnicas dependem apenas do comportamento de X , ou distncias envolvendo X da forma n X S1 X , a pressuposio de normalidade das observaes individuais X j menos crucial. Isto devido aproximao da distribuio normal assinttica das principais estatsticas. No entanto, melhor ser a qualidade da inferncia quanto mais prxima populao parental se assemelhar da forma da distribuio normal multivariada. imperativo que existam procedimentos para detectar os casos em que os dados exibam desvios de moderados a extremos em relao ao esperado sob normalidade multivariada. Baseado na distribuio normal sabe-se que todas as combinaes lineares de variveis normais so normais e que contornos da densidade normal so elipsides. Devido s dificuldades de avaliao de um teste conjunto em todas as dimenses, os testes para checar a normalidade sero concentrados em uma ou duas dimenses. Obviamente se paga um preo por estas simplificaes, como no revelar algumas caractersticas que s podem ser observadas em dimenses maiores. possvel, por exemplo, construir uma distribuio no normal bivariada
144
com marginais normais. No entanto, muitos tipos de no normalidade so revelados em geral nas distribuies marginais, e para aplicaes prticas ser suficiente checar a normalidade em uma ou duas dimenses.
Verificando a validade da normalidade por meio da distribuio marginal Textos elementares muitas vezes recomendam que a normalidade univariada seja investigada, examinando o histograma de freqncia amostral para avaliar discrepncias entre as freqncias observadas e esperadas pelo ajuste da distribuio normal. Usualmente, sugere-se tambm que as discrepncias sejam submetidas ao teste de aderncia de qui-quadrado. Um 2 significativo (P<0,05) tido como evidncia contra a normalidade da populao. Apesar de este mtodo ter a virtude da simplicidade de computao e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose, assimetria, etc.), tem a desvantagem, quando aplicados a dados contnuos, de depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados. Essa escolha determina a resoluo do histograma e o nmero de termos a ser somado para obter a estatstica de 2 . Uma escolha errada pode conduzir a resultados no consistentes. Se a escolha de a amplitude dos intervalos for muito estreita, o histograma pode ser irregular e a acurcia do 2 pode ser grandemente afetada devido aos pequenos valores esperados. Se os intervalos so largos, desvios de normalidade podem ser obscurecidos tanto no histograma quanto no teste de 2 .
Ferreira, D.F.
Estatstica multivariada
145
Uma melhor aproximao, evitando todas essas dificuldades, conseguida fazendo uso de mtodos que no requerem agrupamento de escores. Felizmente, excelentes procedimentos grficos e computacionais existem para este propsito.
a) Distribuio de propores
ii ; i + ii
[X
s ii ; X i + s ii
que a proporo Pi2 de observaes em X i 2 s ii ; X i + 2 s ii seja de cerca de 0,954. Usando a aproximao normal da distribuio de Pi , ento se
| Pi 2 0,954 | > 3
146
devem indicar desvios da distribuio normal para i-sima caracterstica (Johnson & Wichern, 1988).
b) Processos grficos Os grficos so em geral teis para avaliar desvios da normalidade. Dois processos grficos sero considerados neste captulo.
i) Q-Q plot
Esses grficos so obtidos da distribuio marginal das observaes de cada varivel. Consiste em plotar em um plano cartesiano os percentis amostrais versus os percentis esperados pelo ajuste de uma distribuio normal. Se os pontos pertencem a uma linha reta a pressuposio de normalidade deve ser aceita. Sejam x1, x2, ..., xn as n observaes de uma varivel X. Sejam x(1), x(2), ..., x(n) essas observaes ordenadas crescentemente, ou seja, x(1) a menor observao e x(n) a maior. Quando os x(j) so distintos, exatamente j observaes so menores ou iguais a x(j) (isto teoricamente verdadeiro quando as observaes so do tipo contnuo, o que em geral ser assumido). A proporo amostral j/n aproximada por (j-)/n, onde usado para correo de descontinuidade. Os percentis esperados sob normalidade so dados por (q(j)):
Ferreira, D.F.
q( j )
Estatstica multivariada
147
j 12 = n
1 2
e z
/2
dz
(4.18)
Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela inverso da funo de distribuio de probabilidade da normal, em rotinas apropriadas em computadores ou atravs de tabelas da distribuio normal. (Tabela A.1). Os percentis q(j) e x(j) so plotados em um sistema cartesiano com q(j) na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados pela inspeo deste tipo de grfico, cujos pontos, quando da normalidade devem pertencer a uma linha reta de mnimos quadrados. No exemplo 4.1 ilustram-se os clculos necessrios para obteno dos Q-Q plots.
Exemplo 4.1
Seja uma amostra (n=10) obtida de uma populao normal N(3; 4) apresentada a seguir. Neste caso, a observao 4 constitui-se um outlier, propositadamente gerado.
{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}
148
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de probabilidade acumulada (j-)/n. j 1 2 3 4 5 6 7 8 9 10* x(j) 0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65 (j-)/n 0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95 q(j) -1,645 -1,036 -0,675 -0,385 -0,126 0,126 0,385 0,675 1,036 1,645
j 12 1 12 = = 0, 05 = n 10
q(1)
1 2
e z
/2
dz
3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados
Ferreira, D.F.
Estatstica multivariada
149
10
Q-Q Plot
Outlier
6 X(j) 4 2 0 -2 -1 0 Q(j) 1 2
Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presena de um outlier.
Observa-se que os pontos amostrais se situam praticamente em uma linha reta de mnimos quadrados, com exceo da presena de um outlier, destacado na Figura 4.6. O procedimento adequado seria de eliminar esta
150
observao e refazer a anlise para os dados amostrais remanescentes, o que deixado a cargo do leitor. Este processo grfico, embora bastante poderoso para se verificar desvios da normalidade no constitui num teste formal deste propsito. Para contornar esta limitao, Johnson & Wichern (1988) apresentam um teste complementar a este processo grfico, o qual mede o ajuste dos pontos do Q-Q Plot a linha reta de mnimos quadrados por meio de uma medida de um coeficiente de correlao apresentada a seguir.
rQ =
(x
n j=1
( j)
x
2
) (q
n j=1
( j)
) )
2
(x
n j=1
( j)
) (q
(4.19)
( j)
Um poderoso teste de normalidade pode ser construdo tomando-se por base este coeficiente de correlao (4.19). Formalmente rejeita-se a hiptese de normalidade se o valor calculado for menor que os valores crticos para um determinado nvel de significncia (Tabela 4.1).
Ferreira, D.F.
Estatstica multivariada
151
Tabela 4.1. Valores crticos para o teste para normalidade baseado no coeficiente de correlao Q-Q plot. Tamanho amostral n 0,01 Nvel de significncia () 0,05 0,8788 0,9198 0,9389 0,9508 0,9591 0,9652 0,9726 0,9768 0,9801 0,9838 0,9873 0,9913 0,9931 0,9953 0,10 0,9032 0,9351 0,9503 0,9604 0,9665 0,9715 0,9771 0,9809 0,9836 0,9866 0,9895 0,9928 0,9942 0,9960
5 0,8299 10 0,8801 15 0,9126 20 0,9269 25 0,9410 30 0,9479 40 0,9599 50 0,9671 60 0,9720 75 0,9771 100 0,9822 150 0,9879 200 0,9905 300 0,9935 Fonte: Johnson & Wichern (1998)
rQ =
= 0,9523
Como, o valor tabelado ao nvel de 5% de probabilidade (0,918) inferior ao valor calculado (0,9523), ento, no existe razo para duvidar da hiptese de normalidade.
152
Um segundo processo grfico, bastante utilizado, refere-se aos grficos em que so plotados as probabilidades amostrais acumuladas versus probabilidades acumuladas da distribuio normal (Bock, 1975). O algoritmo :
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de probabilidade acumulada pj = (j-)/n, amostrais.
Sn =
(4.20)
3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da distribuio normal, atravs de:
Zj =
Xj X Sn
Pj=(Zj)
Ferreira, D.F.
Estatstica multivariada
153
Exemplo 4.2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado, resultando nos seguintes valores: j 1 2 3 4 5 6 7 8 9 10* ordenada). x(j) pj = (j-)/n Pj
0,066 0,05 0,46 0,189 0,15 1,79 0,227 0,25 2,06 0,367 0,35 2,91 0,436 0,45 3,30 0,520 0,55 3,74 0,575 0,65 4,02 0,677 0,75 4,59 0,709 0,85 4,79 0,992 0,95 8,65 Na Figura 4.8 esto plotados os pontos Pj (abcissa) contra pj (na
1.0
0.8
0.6
pj
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
Pj
154
Se a populao for normal, os pontos tendem a cair em uma linha definida pela reta Pj=pj. Uma vez que o grfico apresenta efeitos cumulativos, os pontos no so independentes e ainda pode-se afirmar que sucessivos pontos no tendero a se situar aleatoriamente em ambos os lados da linha. Em outras palavras, um grupo de pontos sucessivos poder estar de um lado da reta ou de outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com este tipo de grfico indicar a forma da distribuio e os desvios da normalidade que possam ocorrer. De maneira geral, as situaes mais comuns devem se enquadrar nos seguintes tipos de grficos. Distribuies assimtricas esquerda tendero a ter seus pontos de extremos no lado superior da reta, e os pontos intermedirios no lado inferior da mesma. Para distribuies assimtricas direita, o oposto deve ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermedirios no lado superior. Os achatamentos da distribuio, conhecidos por curtose, tambm podem ser detectados. Nas distribuies leptocrticas, os pontos de menor densidade acumulada se concentram no lado inferior da reta, vindo a cruz-la no centro. Os pontos de maior densidade se concentram no lado superior da reta, a partir do centro. Nas distribuies platicrticas, o oposto se d, ou seja, pontos de menor densidade acumulada se concentram no lado superior, e os pontos de maior densidade no lado inferior da reta, vindo a cruz-la no centro. Distribuies bimodais possuem grficos que representam os casos extremos da distribuio platicrtica.
Ferreira, D.F.
Estatstica multivariada
155
Os momentos no centrados para a mdia, podem ser calculados a partir dos dados amostrais, fazendo 1/n como densidade para cada ponto amostral. Desta forma, pode-se definir, o r-simo momento amostral no centrado para mdia por:
1 n ~ m r = x rj n j=1
(4.21)
Pode-se ento, definir a mdia amostral, e o segundo, terceiro e quarto momentos centrados na mdia, em funo dos momentos no centrados por:
Mdia:
1 = 0
(4.22)
Varincia:
~ = m m2 2 ~ 2 ~ 1
(4.23)
Assimetria
~ = m 3m m + 2m 3 ~ ~ ~ 3 ~ 3 1 2 1
(4.24)
Curtose
2 4 4 = m4 4 m1 m3 + 6m1 m2 3m1
(4.25)
156
b1 =
~ 3 ~ ~ 2 2
(4.26)
~ b2 = ~ 4 2 2
(4.27)
direita. Distribuies com 2<3 so platicrticas (menos pontudas com caudas mais baixas do que a normal), e aquelas com 2>3 so leptocrticas (mais pontudas e com caudas mais altas do que a normal).
Exemplo 4.3
Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de assimetria e curtose amostrais.
Ferreira, D.F.
Estatstica multivariada
157
x 0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65 36,31 Tm-se:
~ m 1=36,31/10=3,631
x2 0,2116 3,2041 4,2436 8,4681 10,8900 13,9876 16,1604 21,0681 22,9441 74,8225 176,0001
x3 0,0973 5,7353 8,7418 24,6422 35,9370 52,3136 64,9648 96,7026 109,9022 647,2146 1046,2520
x4 0,0448 10,2663 18,0081 71,7087 118,5921 195,6530 261,1585 443,8648 526,4317 5598,4070 7244,1350
~ m 2=176,0001/10=17,6000
~ m 3=1046,2520/10=104,6252
~ m 4=7244,135/10=724,4135
~ 1 = 3,631
158
b2 = 75,6182/(4,4158)2 = 3,8780
Para se avaliar o grau de assimetria da distribuio, um teste baseado no coeficiente de assimetria (4.26), pode ser realizado. Nveis crticos para a estatstica
b 1 , podem ser encontrados em Pearson e Hartley (1966) para
n>24, e em DAgostino e Tietjen (1973) para n variando de 5 a 35. A assimetria ser esquerda se
b1
b1
for positivo,
b 1 podem ser
obtidos com boa aproximao usando como desvio da normal padro a estatstica:
Z1 = b1
(n + 1)(n + 3) 6(n 2)
(4.28)
Valores crticos para o coeficiente de curtose (4.27), podem ser encontrados em Pearson e Hartley (1966) para n>49 e DAgostino e Tietjen (1971)
Ferreira, D.F.
Estatstica multivariada
159
para n variando de 7 a 50. Em grandes amostras, os valores crticos para o teste de achatamento da curva, podem ser aproximados usando como desvio normal a seguinte estatstica:
(4.29)
Valores de b2 maiores que 3 indicam que a distribuio mais pontuda com caldas mais altas do que a normal; valores menores que 3 indicam uma distribuio achatada no centro e com caudas mais baixas do que a distribuio normal.
Desta forma, ao nvel de 5% de probabilidade se aceita a hiptese de simetria e de no achatamento da curva, demonstrando no se ter desvio da normalidade.
160
( x ) ( x ) (1)
t 1 2 p
Atravs deste resultado, pode-se ento, generalizar o processo grfico conhecido como Q-Q plot. Dada uma amostra bivariada com n observaes, o algoritmo seguinte pode ser usado para generalizar o processo grfico mencionado. importante salientar que este processo no limitado apenas ao espao bidimensional. O algoritmo ser apresentado, utilizando os dados do exemplo 1.1, com X1 representando a quantidade de reais pela venda de rao, e X2 sendo o nmero de sacos de raes vendidos, por n = 4 firmas de Minas Gerais.
Ferreira, D.F.
Estatstica multivariada
161
Exemplo 4.4
1) Calcular a distncia quadrada generalizada amostral d(j) de cada observao em relao mdia amostral, dada por:
Os valores da mdia e da matriz de covarincia amostrais foram apresentados no exemplo 1.2, e so:
A matriz inversa de S :
162
3) Obter os valores correspondentes, percentis, de probabilidade acumulada q(j)= 2 ((j-)/n), da distribuio de qui-quadrado. Estes percentis dependem da p inversa da funo de distribuio de qui-quadrado, e podem ser obtidos em vrios softwares estatsticos.
J 1 2 3 4
d (2j)
Ferreira, D.F.
Estatstica multivariada
163
q(j)
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
d(j)
Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de utilizao deste processo para os casos de dimenses superiores ou iguais a 2.
Pela Figura 4.9, verifica-se que no existem razes para duvidar de que a distribuio do nmero de sacos de raes vendidos e o montante de dinheiro arrecadado pelas firmas de raes em Minas Gerais, no seja normal bivariada, apesar do pequeno tamanho de amostras.
164
1,p = E X 1 Y
{(
)}
(4.30)
em que a varivel X independente de Y , mas tem a mesma distribuio com mdia e covarincia ; e
2,p = E X 1 X
{(
)}
(4.31)
1 1,p = 2 n
g
i =1 j=1
3 ij
1 n 1 n 2,p = g i2i = d i4 n i =1 n i =1
em que,
g i j = ( X i X ) S1 n
t
(X
X) e
di = gi i
Ferreira, D.F.
Estatstica multivariada
165
Os estimadores 1,p (quadrado do coeficiente de assimetria quando p=1) e 2,p (igual ao coeficiente de curtose univariado quando p=1) so no negativos. Sob distribuio normal multivariada espera-se que a E( E 1,p ) seja zero. O estimador 2,p muitas vezes usado para avaliar observaes que esto a
( )
grandes distncias da mdia amostral. Mardia (1970) mostra que para grandes amostras,
k1 =
n1,p 6
k2 =
p(p + 2)
1/ 2
8p(p + 2) n
segue a distribuio normal padro. Para pequenos valores de n, as tabelas de valores crticos para testar a hiptese multivariada de normalidade so fornecidas por Mardia (1974).
Exemplo 4.5
Usando o exemplo das raes testar a normalidade multivariada pelo teste dos desvios de assimetria e curtose. Os valores amostrais so:
166
Obs 1 2 3 4
Vendas 10 12 6 8
t t 1. 1 = [ 20 1] 2. 2 = [ 20 3]
t 3. 3 = [ 10 3]
t 4. 4 = [10 1]
i) Teste baseado no coeficiente de assimetria necessrio calcular os valores de gij para todos os pares de i e j, obtidos da seguinte forma:
Ferreira, D.F.
Estatstica multivariada
167
Para as demais combinaes, tm-se: g1 3=-0,4878, g1 4=-1,6585, g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.
Logo,
1,2 =
( 2, 7805
+ 2(0, 6341)3 + 16
+ 1, 02443 )
=1,2766
ento,
k1 =
n1, 2 6
4 1,2766 = 0,8511 6
168
k2 =
4, 4378 2(2 + 2) 8 2 4 4
1 2
3,5621 = 0,8905 4
No existem razes para duvidar de que a distribuio multivariada tenha algum desvio de curtose, uma vez que k 2 < z 0, 025 = 1,96 .
A seguir so apresentados um programa SAS usando o Proc Calis para o teste da curtose e um programa em IML, para ambos parmetros. O programa fornece as estatsticas amostrais e os valores das significncias observadas.
Data FR; Input Reais Vendas; cards; 80 10 120 12 90 6 110 8 ; Proc Calis data=FR Kurtosis; Title1 j=1 "Uso do Calis para testar a normalidade"; Title2 "pela Curtose de Mardia"; Lineqs Reais=e1, vendas=e2; std e1=eps1, e2=eps2; Cov e1=eps1, e2=eps2; Run; Proc IML; use FR; read next 4 into X; /* lendo n observacoes dentro de X */ n=nrow(X);p=ncol(X); dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p */ q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar */ S=(1/n)*x`*q*x; /* matriz de covariancias viesada */ S_inv=inv(S); /* inversa de S */ print s s_inv; g=q*x*s_inv*x`*q; /* matriz com gij */ print g; beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */ beta2=trace(g#g)/n; /* idem com tomada do traco/n */ print beta1 beta2; k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */ k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n); pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos */ pvalkurt=2*(1-probnorm(abs(k2))); print k1 pvalskew; print k2 pvalkurt; Quit; /* abandonando IML */
Ferreira, D.F.
Estatstica multivariada
169
Finalmente apresentado a seguir um programa SAS para orientar os leitores na simulao de dados com distribuio normal multivariada com mdia e covarincia especificada. O exemplo apresentado gera uma distribuio normal trivariada.
Proc IML; n=100;p=3; SIG={8 4 1, 4 10 3, 1 3 18}; st=Root(sig); mu={1, 10, 8}; x=j(n,p,0); zi=j(p,1,0); do i=1 to n; do ii=1 to p; zi[ii]=rannor(0); end; xi=st`*zi+mu; do ii=1 to p; x[I,ii]=xi[ii]; end; end; print x; create dtnorm from x; append from x; quit; proc print data=dtnorm; run;quit;
170
4.8. Exerccios
4.8.1. Com os dados do exemplo 4.4, tendo como hiptese que os mesmos seguem a distribuio normal bivariada, utilize o resultado 4.2, ao nvel de 50%, de que as distncias generalizadas seguem a distribuio qui-quadrado. Utilizando ento a distribuio de propores, item (a), verifique a normalidade bivariada dos dados, contando a proporo observada ( Pi ) de distncias que pertencem a elipse, e comparando com a estatstica abaixo.
| Pi 0,5 | > 3
4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados, propostos, neste captulo, para ambas variveis.
4.8.3. Utilizando os dados climticos, obtidos por Diniz (1996), na fazenda Cooparaso-EPAMIG, Jacu, MG, de agosto de 1994 a janeiro de 1995, teste a pressuposio de normalidade tridimensional dos mesmos. Utilize para isso, o processo grfico apresentado, e o teste do exerccio nmero 4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.
Ferreira, D.F.
Estatstica multivariada
171
Temperatura 22,7 23,7 24,3 24,4 24,5 25,2 25,5 24,7 24,3 24,7 24,9
Umidade Relativa (%) 64,1 56,1 54,9 58,2 62,8 70,3 75,2 81,4 79,3 74,6 78,0
Precipitao (mm) 7,9 1,5 0,0 0,0 8,7 22,5 57,0 75,7 123,2 124,4 148,0
||[
]||
5.1. Introduo
Este captulo o primeiro deste material a apresentar inferncias, utilizando as tcnicas, os conceitos e os resultados apresentados nos captulos prvios. Este captulo, por estar intimamente relacionado inferncia estatstica, ou seja, voltado para obteno de concluses vlidas para a populao com base nas informaes amostrais. As inferncias realizadas neste captulo so relativas a vetor populacional de mdias e nos seus componentes. Umas das mensagens centrais da anlise multivariada, que dever ser abordada neste e nos prximos captulos, que p variveis correlacionadas devem ser analisadas simultaneamente.
172
Inicialmente ser abordado o problema de verificar se um determinado valor 0 um possvel valor (plausvel) para a verdadeira mdia populacional desconhecida. Do ponto de vista dos testes de hipteses este problema pode ser abordado atravs do teste:
H0 : = 0
vs
H1 : 0
aqui, H0 a hiptese nula e H1 a hiptese (bilateral) alternativa. Considerando o caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatria extrada de uma populao normal, o teste estatstico apropriado para esta hiptese, quando p igual a 1, :
t=
( X ) , em que, X = 1 X
0
S n
n j=1
e S2 =
O teste em questo segue a distribuio de t-student com n-1 graus de liberdade. A hiptese H0 ser rejeitada se o valor observado de |t| exceder um valor crtico especificado da distribuio de t-student com n-1 graus de liberdade (GL). Analogamente, considerando agora a distncia quadrada da mdia amostral X para o valor a ser testado, pode-se rejeitar H0 a um nvel de significncia , se
Ferreira, D.F.
Estatstica multivariada
173
(5.1)
de t-student com n-1 GL. Se H0 no rejeitada, ento se conclui que 0 um valor plausvel para representar a mdia populacional normal. No entanto, uma pergunta natural pode surgir: existem outros valores de que so consistentes com os dados? A resposta sim. De fato, existe um conjunto de valores plausveis que serviriam como mdia para a populao normal estudada. Da bem conhecida
correspondncia entre a regio de aceitao dos testes de hipteses e o intervalo de confiana para tem-se:
X t n 1 ( / 2 )
S S 0 X + t n 1 ( / 2 ) n n
(5.2)
Antes de a amostra ser retirada, o intervalo de confiana de 100(1-)% de (5.2) um intervalo aleatrio, pois seus limites dependem das variveis aleatrias X e S. A probabilidade do intervalo conter 100(1-)% e
174
entre um grande nmero independentes de tais intervalos, 100(1-)% deles contero . considerada agora a generalizao do caso univariado para o multivariado. O problema de determinar se um dado vetor 0 (p x 1) um valor plausvel da mdia de uma distribuio normal multivariada. Uma generalizao da distncia quadrada apresentada em (5.1) :
T 2 = n X 0 S1 X 0
(5.3)
em que,
X=
t 1 n 1 n Xj , S = ( X j X )( X j X ) n j=1 n 1 j=1
01 02 e 0 = 0p
A estatstica T2 chamada de chamada de T2 de Hotelling, em honra a Harold Hotelling (Bock, 1975), um pioneiro da estatstica multivariada, que pela primeira vez obteve a sua distribuio. Felizmente, tabelas especiais dos pontos percentuais para a distribuio T2 no so necessrias na realizao dos testes de hipteses, devido estatstica:
(n 1)p Fp,n p np
(5.4)
Ferreira, D.F.
Estatstica multivariada
175
em que, Fp,n-p representa uma varivel com distribuio F com p e n-p GL. De uma forma geral a distribuio de T2 considerando graus de liberdade e dimenso p dada por:
T 2 = Fp,+1 p
p +1 p
(5.5)
Desta forma para se testar a hiptese H 0 : = 0 versus H1 : 0 , no valor nominal de significncia, deve-se rejeitar H0 em favor de H1 se
T 2 = n X 0 S1 X 0 >
(n 1)p Fp,n p () np
(5.6)
Infelizmente, raro, nas situaes multivariadas, o pesquisador se satisfazer com o teste da hiptese H 0 : = 0 , em que todos os componentes do vetor mdia so especificados sob a hiptese de nulidade. Em geral prefervel encontrar regies de valores de que so plausveis para serem o vetor de mdia populacional na luz dos dados observados.
Exemplo 5.1 A matriz X, apresentada a seguir, representa uma amostra de n=3 observaes retiradas de uma distribuio normal bivariada.
176
11 2 X = 10 4 9 3
t Teste a hiptese de que 0 =[9 2] seja um valor plausvel para representar a mdia
Ento,
S1 =
1 4 2 3 2 4
T 2 = 3 [10 9 3 2]
1 4 2 10 9 = 12 3 2 4 3 2
O valor de F2,1 ao nvel de 5% 199,5, ento, H0 ser rejeitada se o valor observado de T2 superar
Ferreira, D.F.
Estatstica multivariada
177
Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor crtico (798,0), ento, H0 no deve ser rejeitada. importante salientar neste ponto, que a hiptese H0 ser rejeitada se um ou mais dos componentes do vetor mdia amostral, ou alguma combinao de mdias, diferir muito do valor hipottico
t 0 = [9 2]. Neste estgio, no se tem idia de quais os valores hipotticos no so
(5.7)
em que , representa um vetor de parmetros desconhecidos (Krzanowski, 1993). No caso, a regio de confiana para de uma distribuio normal p variada, ser todos os valores de tais que:
178
t (n 1)p P n X S1 X Fp,n p () np
(5.8)
Para determinar se um dado valor 0 um valor plausvel de , basta calcular a distncia quadrada generalizada n(X ) t S1 (X ) e comparar com
(n 1)pFp,n p () /(n p) .
Se
distncia
quadrada
for
maior
que
n X S1 X c2 =
) (
t
p(n 1) Fp,np () n p
so determinados por
Ferreira, D.F.
Estatstica multivariada
179
i c n
Exemplo 5.2 A partir dos dados do exemplo 5.1, obter a regio de confiana de 95%, e verificar
t se o ponto 0 =(13, 4) pertence a mesma.
1 = 1,5
t e1 = [ 0, 707107 0, 707107 ]
2 = 0,5
t e 2 = [ 0, 707107
0, 707107 ]
180
A elipse de confiana 95% para consiste de todos os valores (1, 2) que satisfazem:
o que permite que se conclua que o ponto testado est na regio de confiana. O grfico da elipse obtida pode ser visualizado na Figura 5.1. com a anlise grfica, pode-se confirmar que o ponto em questo pertence regio de confiana.
Ferreira, D.F.
Estatstica multivariada
181
x2
x1
Figura 5.1. Elipse de 95% de confiana para o vetor populacional de mdias, obtido a partir dos dados do exemplo 5.1.
Exemplo 5.3 Para exemplificar a regio tridimensional para a mdia populacional, os dados de produo comercial (t/ha), produo de tubrculos grados (t/ha) e peso mdio de tubrculos grados (g) de 15 clones de batata selecionados em Maria da F e Lavras (Moment, 1994), foram utilizados e encontram-se no quadro a seguir. Obter a regio de 95% de confiana para o vetor mdia populacional.
t Verificar se o ponto 0 = (16,89 8, 76 109, 23) pertence a regio de confiana (ponto
182
Produo comercial 1 47,82 2 42,40 3 41,82 4 40,77 5 40,27 6 39,84 7 38,36 8 38,15 9 37,55 10 36,19 11 36,15 12 35,17 13 34,90 14 34,57 15 34,15 Fonte: Moment, 1994
Clones
Produo de tubrculos grados 40,40 26,96 27,33 21,81 33,06 22,31 32,81 26,02 21,69 25,65 23,46 25,29 22,92 16,25 21,75
Peso mdio de tubrculos grados 146,30 94,58 143,66 127,29 115,17 99,32 150,13 131,17 152,04 154,83 95,43 105,97 113,59 86,39 119,50
1 = 549, 208
2 = 34, 460
3 = 5,185
Ferreira, D.F.
Estatstica multivariada
183
n(X ) t S1 (X ) c 2 =
p(n 1) Fp,n p () np
15 [38,541 1
25,854 2
3 14 3, 49 = 12, 215 12
= 2, 27(38,541 1 ) 2 2,14(38,541 1 )(25,854 2 ) + 0,04(38,541 1 )(122,358 3 ) + +1,05(25,854 2 ) 2 0,15(25,854 2 )(122,358 3 ) + 0,04(122,358 3 ) 2 12, 215
de confiana, basta substituir os valores de 1 por 16,89, de 2 por 8,76 e o de 3 por 109,23. O valor encontrado de 563,4964 superior a 12,215, o que indica que a mdia da Cultivar Achat, no pertence regio de 95% de confiana para mdia das 15 famlias clonais estudadas. Utilizando o programa Maple, atravs da seguinte macro, foi traado o grfico, elipside de confiana (Figura 5.2), da regio de 95% de confiana para
184
x3
x2
x1
Figura 5.2. Elipside de 95% de confiana para o vetor de mdias populacional, obtida a partir dos dados do exemplo 5.3.
Enquanto a regio de confiana fornece corretamente o conjunto de valores plausveis para a mdia de uma populao normal, qualquer resumo de concluses, em geral, inclui intervalos de confiana sobre mdias individuais. Assim, adota-se que todos os intervalos de confiana sejam verdadeiros simultaneamente com uma alta probabilidade especfica. Isto garante com alta
Ferreira, D.F.
Estatstica multivariada
185
probabilidade que qualquer afirmao no seja incorreta, o que conduz ao termo intervalo de confiana simultneo (Johnson e Wichern, 1998). Considerando uma combinao linear das mdias amostrais,
X=
X1 +
X2 +
Xp
S n
Dessa forma poderia se pensar em se obter intervalos de confiana de 95% baseados na distribuio de t-student,
t t
X t n 1 ( / 2)
(5.9)
O intervalo da expresso (5.9) pode ser interpretado como intervalos sobre componentes do vetor de mdia, assim, por exemplo, fazendo-se
t
populao normal univariada. Neste caso tem-se uma srie de inferncias sobre os componentes de , cada um associado com o coeficiente de confiana de 1-, atravs de diferentes escolhas de . No entanto o coeficiente de confiana para
186
todos os intervalos tomados simultaneamente no 1-. Para corrigir esta imperfeio demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para garantir o coeficiente nominal de confiana simultneo de 1- para a cobertura de os valores paramtricos necessrio recorrer distribuio de T2. Este resultado est apresentado a seguir:
(5.10)
Muitas vezes um pequeno nmero de intervalos de confiana requerido. Nestas situaes pode-se ter uma melhor opo do que as comparaes simultneas, proposta em (5.10), obtendo intervalos de confiana mais curtos (mais precisos) do que o intervalo simultneo de T2. Esta alternativa de intervalo conhecida por mtodo de Bonferroni. A seguir ser apresentado o mtodo para obtenes de intervalo de confiana para os componentes de mdia. Se as m=p mdias forem consideradas, ento, o mtodo de Bonferroni :
Xi tn1(2m)
Sii n
i =1,2,...,p = m
(5.11)
Ferreira, D.F.
Estatstica multivariada
187
Exemplo 5.4
Utilizando os dados do exemplo 5.2, obter os intervalos clssicos de t-student, T2 e Bonferroni, para os componentes individuais do vetor de mdia, e compar-los entre si, quanto ao comprimento. O vetor de mdias e a matriz de covarincia amostral so:
1. Intervalo T2
IC1 (0,95) = X1
p(n 1) S Fp,n p () 11 np n
IC1 (0,95) = 10
2(3 1) 1 199,5 32 3
IC2 (0,95) = 3
2(3 1) 1 199,5 3 2 3
188
Observa-se que os limites dos intervalos de confiana mltiplos representam os limites da elipse de confiana de 95% (Figura 5.1), projetados nos respectivos eixos.
2. Intervalo de Bonferroni
Neste caso, m=p=2, portanto /2m=0,0125. O valor de t-student correspondente, com n-1=2 GL 6,21. Ento,
IC1 (0,95) = 10 6, 21
1 3
IC2 (0,95) = 3 6, 21
1 3
Observa-se nesta situao que os intervalos so bem mais estreitos que o seu correspondente em 1.
Ferreira, D.F.
Estatstica multivariada
189
3. Intervalo t de Student
1 3
1 3
Apesar de estes ltimos intervalos individualmente garantir com 95% de probabilidade que as mdias populacionais esto contidas nos mesmos, no h garantia de que simultaneamente eles contenham as mdias populacionais no mesmo valor nominal do coeficiente de confiana, diga-se 95%. Na melhor das hipteses, variveis no correlacionadas, o valor real do coeficiente de confiana
(1-)p=0,952=0,9025.
190
sobre
propores
de
grandes
Freqentemente, algumas caractersticas de interesse na populao esto na forma de atributos. Cada indivduo nesta populao pode ser descrito em termos dos atributos que possui, os quais so codificados, pela sua presena e ausncia. Na populao, com q caracterstica, a proporo de elementos que possui os atributos 1, 2, ..., q p1, p2, ..., pq. Considerando q atributos mutuamente exclusivos e caractersticas exaustivas, ento, pq=1-(p1+p2+...+pq-1). Numa grande amostra de tamanho n, pelo teorema do limite central,
p possui distribuio aproximadamente normal, com
p1 p = 2 E(p) pq
p1 p 2 p1 (1 p1 ) p p p 2 (1 p 2 ) 1 2 1 e Cov(p) = n pq p 2 p q p1
p1 p q p 2 pq 1 = . n p q (1 p q )
()
posto de igual a q-1, portanto sua inversa no existe. Apesar disso, pode-se
desenvolver intervalos de confiana simultneos aproximados de 100(1-)%, para qualquer combinao
t
p.
Ferreira, D.F.
Estatstica multivariada
191
Para uma amostra de tamanho n, considerando q categorias da distribuio multinomial, o intervalo aproximado de confiana simultneo de 100(1-)%, para qualquer combinao
t
p = 1p1 +
p 2 + ... +
p q , dado por:
2 p q 1 ()
(5.12)
garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor
grande de n-q-1, significa que npk deve estar em torno de 20 para cada categoria
k=1, 2, ..., q.
Exemplo 5.5
Numa amostra de n=35 cochonilhas, obtida na regio de Jacu, MG, em fevereiro de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes resultados: Fmeas adultas 5 Ninfa mvel 11 Ninfa fmea 15 Ninfa macho 4 Total 35
Obter os intervalos de confiana simultneos de 95% usando a aproximao de grandes amostras para propores de insetos em cada categoria. O vetor de propores e a matriz de covarincia amostral so:
192
Sim. 0,1429 0,1225 0,0449 0, 2155 0,3143 e = p= 0,0612 0,1347 0, 2449 0, 4286 0,0163 0,0359 0,0489 0,1012 0,1142
p1 : 0,1429 7,815
p 2 : 0,3143 7,815
p3 : 0, 4286 7,815
p 4 : 0,1142 7,815
Em muitas situaes experimentais deseja-se testar o efeito ou eficcia de um tratamento. Para isso, medidas so tomadas nas unidades experimentais antes e aps a aplicao do tratamento. Uma outra situao em que esta comparao pode ser de interesse quando na mesma unidade
Ferreira, D.F.
Estatstica multivariada
193
amostral ou experimental dois tratamentos so aplicados. Estas respostas so denominadas medidas pareadas, e podem ser analisadas calculando-se suas diferenas, eliminando a influncia da variao entre as unidades experimentais ou amostrais. Ser, inicialmente, abordado o caso univariado e, em seguida, a sua respectiva generalizao para o caso multivariado. Denotando X1j a resposta do tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2 (ou resposta aps o tratamento) para a j-sima unidade amostral ou experimental, em que (X1j, X2j) so medidas tomadas na mesma unidade amostral ou experimental, ento as n diferenas:
(5.13)
devem refletir somente o efeito diferencial entre os tratamentos. Assumindo que as diferenas Dj so observaes independentes de uma distribuio normal N(, 2 ), a varivel D
t=
D SD n
(5.14)
194
D=
1 n Dj e n j=1
SD =
1 n Dj D n 1 j=1
1 = n 1
(5.15)
H0 : = 0 (efeito nulo de tratamento) H1 : 0 pode ser realizado comparando-se | t | com tn-1(/2), o quantil 100(/2) superior da distribuio de t-student com n-1 graus de liberdade. O intervalo de confiana de 100(1-)% para o efeito do tratamento (ou diferena de efeitos dos tratamentos) dado pela maneira usual e apresentado a seguir.
D t n 1 ( / 2)
SD n
(5.16)
Para extenso multivariada dos procedimentos adotados no caso univariado, a seguinte notao utilizada, pois existe a necessidade de distinguir entre os ndices para os dois tratamentos (1o ndice), a resposta da j-sima unidade experimental ou amostral (2o ndice) e as p variveis (3o ndice). Neste caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o
Ferreira, D.F.
Estatstica multivariada
195
tratamento) na k-sima varivel tomada na j-sima unidade e, X2jk representa a resposta do tratamento 2 (ou medida aps se aplicar o tratamento) na k-sima varivel tomada na j-sima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p. As diferenas tm a mesma notao com exceo do primeiro ndice, do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as diferenas refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a diferena entre os tratamentos na j-sima unidade amostral ou experimental obtida na k-sima varivel. Fazendo D tj = D j1
D j2
D jp e assumindo que
distribudo normal e independentemente, Np( , D ), a estatstica T2 se aplica para se realizar inferncias sobre o vetor mdia das diferenas. Os seguintes resultados podem ser obtidos, a partir das pressuposies assumidas. Dadas as diferenas observadas
D tj = D j1
D j2
D jp ,
T 2 = n ( D 0 ) Sd 1 ( D 0 ) > t
p(n 1) Fp,n p () (n p)
(5.17)
em que,
D=
1 n Dj n j=1
e SD =
t 1 n ( D j D )( D j D ) n 1 j=1
196
T 2 = n(D ) t S1 (D ) D
p(n 1) Fp,n p ( ) (n p)
(5.18)
Os intervalos de confiana simultneos 100(1-)% para as diferenas de mdias individuais i so dados por:
ICi (1 ) : Di
(5.19)
precisa ser assumida. O intervalo simultneo de Bonferroni 100(1-)% para as mdias individuais das diferenas i :
SD(ii) ICi (1 ) : Di t n 1 n 2p
(5.20)
Ferreira, D.F.
Estatstica multivariada
197
Exemplo 5.6
Em uma amostra de n=4 fazendas em Marechal Cndido Rondon foram mensuradas a produo leiteira diria mdia por animal (X1) e a renda total diria da produtividade de leite (X2) antes da aplicao do plano governamental panela cheia e aps a aplicao. Testar a hiptese de que o plano foi ineficiente em aumentar a mdia dos dois ndices zootcnicos. Os dados da amostra so:
Antes
X1j1 X1j2 X2j2
Aps
X2j2
10 11 9 8
13 15 16 19
90 92 88 90
0 H0 : = 0 = 0
10 12 28 30
198
O valor crtico :
Como T2=14,6515<57, ento, H0 no pode ser falseada para o valor nominal de 5% de significncia. Os intervalos de confiana simultneos so:
IC1 (0,95) : D1
IC2 (0,95) : D 2
Ferreira, D.F.
Estatstica multivariada
199
de
vetores
mdias
de
duas
O teste T2 para testar a igualdade de vetores mdia de duas populaes pode ser desenvolvido por analogia ao procedimento univariado. Este teste T2 apropriado para comparar a resposta mdia de um grupo experimental (populao 1) com a resposta mdia independente de outro grupo experimental (populao 2). Se possvel, as unidades experimentais devem ser sorteadas para cada conjunto de observaes de ambas as populaes, o que abrandar o efeito da variabilidade entre unidades na comparao entre tratamentos. Apesar disto, este tipo de comparao, em geral, menos preciso do que o caso de comparaes pareadas. Considerando uma amostra aleatria de tamanho n1 da populao 1 e uma amostra n2 da populao 2. As observaes das p variveis podem ser organizadas como:
S2 =
t 1 n2 ( X 2 j X 2 )( X 2 j X 2 ) n 2 1 j=1
200
Deseja-se realizar inferncia a respeito da diferena de mdias populacionais ( 1 2 ), para verificar se esta diferena nula, o que equivale a afirmar que no existe efeito dos tratamentos. De forma equivalente, pode-se fazer tal inferncia, testando a hiptese de igualdade dos vetores mdias populacionais ( H 0 : 1 = 2 ). Algumas pressuposies devem ser obedecidas para a validade dos testes e da inferncia realizada. Entre as pressuposies destaca-se a necessidade de que sejam realizadas amostras aleatrias, de tamanho n1 e n2, de ambas as populaes (populao 1 com mdia 1 e covarincia 1 , e populao 2 com mdia 2 e covarincia 2 ); alm disso, supe-se que as observaes da amostra 1 so independentemente obtidas em relao aquelas da amostra 2. Ainda necessrio assumir que ambas as populaes sejam normais que a matriz de covarincia amostral seja a mesma ( 1 = 2 = ). As matrizes de covarincia S1 e S2 so estimadores de 1 e de 2 , respectivamente. Conseqentemente, pode-se combinar as informaes de ambas as amostras para estimar a varincia comum da seguinte forma:
Sp =
(5.21)
Ferreira, D.F.
Estatstica multivariada
201
E X1 X 2 = 1 2
(5.22)
1 1 Cov X1 X 2 = + n1 n 2
(5.23)
1 1 + Sp n1 n2
H 0 : 1 2 = 0
202
Exemplo 5.7
Os dados a seguir referem-se produtividade e altura de plantas de duas variedades de milho (A e B). Determinar a regio de 95% de confiana para diferena 1 2 .
Ferreira, D.F.
Estatstica multivariada
203
1 = 1, 4975
t e1 = [ 0,9995 0, 0300]
2 = 0, 0035
t e 2 = [ 0, 0300
0,9995]
21 em que, 0 = 1 = 11 2 12 22
[1,01 1
0,17 2 ]
Esta equao foi implementada no programa Maple, para se obter a elipse de 95% de confiana, apresentada na Figura 5, cujos comandos esto apresentados a seguir:
204
12 22
11 21
Figura 5.3. Elipse de 95% de confiana para diferena do vetor mdia de ambas as variedades de milho.
Verifica-se pela Figura 5.3 que a origem 0 t =[0, 0], no pertence a regio de confiana, indicando que as duas variedades diferem quanto ao vetor mdia.
Ferreira, D.F.
Estatstica multivariada
205
Para desenvolver intervalos de confiana simultneos para um componente de 1 2 , adota-se o vetor tal que a combinao , por
t
( 1 2 ), ser
(X
X2 )
(5.24)
O intervalo de confiana simultneo de 100(1-)% de Bonferroni para as p diferenas entre duas mdias populacionais dado por:
1 1 1i 2i : (X1i X 2i ) t n1 + n 2 2 + Sii 2p n1 n 2
(5.25)
Quando 1 2 , a distribuio das estatsticas dependem de uma medida de distncia que no so independentes das covarincias populacionais desconhecidas. Por serem desconhecidas as covarincias populacionais, o teste
206
de Bartlett pode ser usado para testar H0: 1 2 . No entanto, este teste fortemente afetado se a pressuposio de normalidade for violada. O teste em questo no pode diferenciar entre a ausncia de normalidade e a
heterogeneidade das covarincias. Quando ambos n1-p e n2-p so grandes, pode-se evitar as complicaes da desigualdade de varincias, utilizando a elipside de 100(1-)% de confiana aproximada, dada por (5.26). O problema de covarincias heterogneas, quando as amostras so provenientes de populaes normais conhecido como problema de Behrens-Fisher multivariado.
1 1 2 [X1 X 2 0 ] S1 + S2 [X1 X 2 0 ] p () n2 n1
t
(5.26)
(X
2 X 2 ) p ( )
1 1 S1 + S2 n2 n1
(5.27)
Sete solues para o problema multivariado de Behrens-Fisher foram estudadas por Christensen e Rencher (1997) por meio de simulao Monte Carlo, comparando as taxas de erro tipo I e o poder destas solues. Algumas dessas solues estudadas por estes autores so apresentadas a seguir.
Ferreira, D.F.
Estatstica multivariada
207
a) Aproximao de Bennett
A primeira dessas alternativas quela estudada por Bennett (1951), a qual assume que n2n1, o que no limitante. Para contornar o problema, caso essa condio no seja atendida, basta trocar os nomes das amostras, isto , a amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente necessrio calcular os vetores Z j , j = 1, 2,
, n1 da seguinte forma.
n 1 Z j = X1j 1 X 2 j + n2 n 1n 2
1 X2 j n j=1 2
n1
X
k =1
n2
2k
(5.28)
Em seguida calcula-se a mdia ( Z ) e a covarincia (SZ) a partir das n1 observaes amostrais p-variadas obtidas na expresso (5.28). A estatstica
T 2 = n1Zt S1Z Z
(5.29)
possui distribuio T2 de Hotelling com dimenso p e =n1-1 graus de liberdade, que pode ser dada pela expresso geral (5.5).
b) Aproximao de James
A aproximao de James (1954) envolve uma correo do valor de 2 quando se utiliza a estatstica T*2, definida por:
208
1 1 2 T = [X1 X 2 ] S1 + S2 [X1 X 2 ] ~ p n1 n2
2 t
(5.30)
James (1954) prope valores crticos ajustados ao invs de utilizar a distribuio aproximada de qui-quadrado diretamente. Os valores crticos propostos por James (1954) so dados em (5.31).
2 ( ) ( A + B 2 ( ) ) p p
(5.31)
1 2 1 1 Si A = 1+ tr Se 2p i =1 n i 1 ni
(5.32)
2 2 2 1 1 1 Si 1 Si B= n 1 tr 2 Se n + tr Se n 2p(p + 2) i =1 i i i
(5.33)
em que:
Se =
S1 S2 + n1 n 2
(5.34)
Ferreira, D.F.
Estatstica multivariada
209
c) Aproximao de Yao
A aproximao de Yao (1965) uma extenso da aproximao de Welch para os graus de liberdade. A estatstica (T*2) apresentada em (5.30) aproximada por uma T2 de Hotelling com dimenso p e graus de liberdade dados por (5.35).
1 1 = ( T 2 ) 2
2 1 t 1 S 1 i n 1 ( X1 X 2 ) Se n Se ( X1 X 2 ) i =1 i i 2
(5.35)
d) Aproximao de Johansen
A aproximao de Johansen (1980) usa a estatstica T*2 de (5.30) dividida por uma constante C para que a estatstica resultante tenha distribuio aproximada pela distribuio F com 1=p e 2= graus de liberdade. Assim, os valores necessrios para calcular a estatstica Fc de Johansen (1980) so:
Fc =
T 2 C
(5.36)
C = p
2D + 6D p(p 1) + 2
(5.37)
210
D=
i =1
1 tr ( I V 1V )2 + tr ( I V 1V ) 2 i i 2(n i 1)
(5.38)
p(p + 2) 3D
(5.39)
A aproximao de Nel e Van der Merwe (1986) usa a estatstica T*2 de (5.30), a qual aproximada pela T2 de Hotelling com dimenso p e graus de liberdade , em que:
tr ( Se ) + tr ( Se ) = 2 2 2 2 1 S1 S1 1 S2 S2 tr + tr + tr + tr n1 1 n1 n 1 n 2 1 n 2 n 2
2 2
(5.40)
conveniente chamar a ateno para o fato de que nas expresses anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa que necessrio calcular tr(A*A). Em outras ocasies os termos eram [tr(A)]2, o que significa que o trao da matriz A deve ser calculado e o seu quadrado a resposta almejada.
Ferreira, D.F.
Estatstica multivariada
211
f) Aproximao de Kim
A aproximao de Kim (1992) a mais elaborada de todas e tambm se refere a uma extenso da aproximao dos graus de liberdade de Welch, como acontece com o procedimento de Yao (1965). O procedimento de Kim requer a maximizao de um par de formas quadrticas dado por:
S1 q n1 d= S qt 2 q n2 qt
A maximizao desse par de formas quadrticas resulta na soluo do sistema de equaes homogneas dado por (5.41).
S1 S2 dk qk = 0 n2 n1
(5.41)
A soluo desse sistema pode ser obtida conforme descrito no captulo 2. O autovalores dk e os autovetores q k (k=1, 2, ..., p) so utilizados para definir a matriz D=diag(d1, d2, ..., dp) e Q = q1 q 2 matrizes definem-se as seguintes quantidades:
q p . A partir dessas
w = Q t ( X1 X 2 )
(5.42)
212
p 2p r = dk k =1
(5.43)
(
p
dk + 1 dk + r
(5.44)
c=
k =1 k =1 p
2 k
(5.45)
k
p k =1 f = p
k
2 k
k =1
(5.46)
O prximo passo calcular a estatstica do teste que tem uma aproximao F dada na expresso (5.48) com 1=f e 2=-p+1 graus de liberdade. O valor definido em (5.49).
G = w t ( D1/ 2 + rI )
(D
1/ 2
+ rI ) w
1
(5.47)
Fc =
( p + 1)G cf
(5.48)
Ferreira, D.F.
Estatstica multivariada
213
1 1 w t D(D + I) 2 w 1 w t (D + I) 2 w = + n1 1 w t (D + I) 1 w n 2 1 w t (D + I) 1 w
(5.49)
O teste da razo de verossimilhana para igualdade de matrizes de covarincias de populaes Wishart foi apresentado por Bartlett (1947). Este autor demonstrou que sob a hiptese
H o : 1 = 2 =
= k =
(5.50)
k ( n j 1) ln S j (n k) ln Sp j=1
214
em que: Sj o estimador no viesado da covarincia da sub-populao j, baseado em nj observaes multivariadas de dimenso p; n = n j ; j=1, 2, ..., k, e
j=1 k
Sp =
(n
j=1
1) S j
nk
0,51964 0, 44700 0,85143 0, 73786 S1 = com n1=11 e S2 = 0, 73786 1,54828 com n2=15 0, 44700 0, 47600
H o : 1 = 2 =
Os demais valores necessrios para a realizao do teste de hiptese so:
Ferreira, D.F.
Estatstica multivariada
215
Logo,
1 1 1 2 22 + 3 2 1 2 c = 1 + 6 3 1 10 14 24
= 11, 43
Como o valor calculado (11,43) superior aos valores crticos, rejeita-se H0 com P<0,01. Portanto, existem evidncias de que as covarincias das duas populaes no sejam iguais.
5.7. Exerccio
5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4 observaes retiradas de uma distribuio normal bivariada.
216
11 10 X = 9 10
2 4 3 6
a) Teste a hiptese de que 0 = [9 2] seja um valor plausvel para representar a mdia populacional.
b) Obtenha a regio de 95% de confiana e esboce graficamente a mesma, destacando o valor hipottico nessa regio.
5.7.2. Com os dados do exerccio 5.7.1, determine os intervalos de confiana simultneo para os componentes de mdia individual por:
a) T2 de Hotelling
b) Procedimento de Bonferroni
5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variveis, teste a pressuposio de normalidade univariada (marginal) e bivariada, utilizando os procedimentos apresentados no captulo 4.
Ferreira, D.F.
Estatstica multivariada
217
5.7.4. Utilizando os dados do exemplo 5.5, faa o IC simultneo para propores de 90% de confiana.
5.7.5. Os dados abaixo se referem ao peso e ao teor de protena, medidos em 6 animais antes e aps um perodo de dieta balanceada. Teste a hiptese de que no houve efeito da dieta. Determinar a regio de confiana e o esboo da regio de confiana, o intervalo de confiana simultneo e de Bonferroni, no nvel de 5% de probabilidade.
Antes
Peso Teor de protena (%) Peso
Aps
Teor de protena (%)
10 12 13 15 9 11
12 16 13 18 15 12
218
5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos de confiana de 95% simultneos e de Bonferroni, para as diferenas de mdias marginais. Compare os resultados com a Figura 5.3, e obtenha concluses de interesse.
A Produtividade 5,7 8,9 6,2 5,8 6,8 6,2 Altura da planta 2,10 1,90 1,98 1,92 2,00 2,01 Produtividade 4,4 7,5 5,4 4,6 5,9
||[
(Student, 1908). As
]||
6.1. Introduo
Com o desenvolvimento da estatstica no sculo XX a possibilidade de conduo e anlise de experimentos propiciou grande sucesso s pesquisas, principalmente pela habilidade de lidar com variaes no controlveis. O primeiro a representar os resultados experimentais por um modelo foi W. S. Gosset
terminologias
dos
delineamentos
experimentais,
independentemente da rea de aplicao, se tornaram iguais aos dos experimentos em agricultura. Portanto, unidades experimentais so denominadas de parcelas e o valor da varivel aleatria como resposta. Experimentos com apenas uma classificao dos tratamentos so denominados de delineamentos inteiramente casualizados ou de classificao simples. Experimentos em que vrios tipos de tratamentos so aplicados ao material experimental
simultaneamente so denominados de fatoriais. Outra classe de experimentos gerada pelos arranjos hierarquizados dos materiais.
220
O presente captulo tem por objetivo apresentar a extenso multivariada dos mtodos univariados de anlise de varincia. As idias bsicas desse captulo podem ser estendidas a todos os tipos de delineamentos e arranjos das estruturas de tratamentos, embora sejam apresentas na situao mais simples, a do delineamento de classificao simples.
O caso mais simples dos delineamentos experimentais o de classificao simples ou delineamento inteiramente casualizado. O arranjo experimental consiste em g tratamentos, possivelmente incluindo a(s)
testemunha(s), para os quais as unidades experimentais so aleatorizadas. As amostras aleatrias de cada tratamento so representadas por:
Tratamento 2: X 21 , X 22 , ..., X 2n 2
Tratamento g: X g1 , X g 2 , ..., X gn g
Ferreira, D.F.
Estatstica multivariada
221
A anlise de varincia multivariada (MANAVA) usada para investigar se os vetores de mdias de tratamento so os mesmos, e se no, qual componente de mdia difere significativamente. Algumas pressuposies da estrutura dos dados devem ser obedecidas para validade da inferncia estatstica: (a) X i1 , X i2 ,
com mdia i , i=1, 2, ..., g. As amostras dos tratamentos devem ser independentes; (b) todos os tratamentos possuem covarincia comum ; e (c) cada tratamento tem distribuio normal multivariada. O modelo de anlise de varincia multivariada est apresentado a seguir. Neste modelo cada componente um vetor de p componentes.
Xi j = + i + ei j
i = 1, 2,
, g e j = 1, 2,
, ni
(6.1)
em que, ei j independentemente e identicamente distribudo e Np(0, ) para todo i e j; o vetor mdia geral e i representa o vetor de efeitos do i-simo tratamento. Pode-se adotar a restrio paramtrica
n
i =1
i i
=0.
Os erros do vetor X i j so correlacionados, no entanto a matriz de covarincia a mesma para todos os tratamentos. O vetor de observaes pode ser decomposto em:
222
Xi j Observao
X..
(X i. X.. )
(X i j X i. ) resduo (6.2)
Analogamente, demonstra-se que a soma de quadrados e produtos totais possui a seguinte decomposio:
= SQP tratamentos
SQP resduo
( X
i =1 j=1 g
ni
ij
X.. X i j X..
)(
(6.3)
= n i ( X i. X.. )( X i. X.. ) + X i j X i.
t i =1 i =1 j=1 g ni
)( X
ij
X i.
E = X i j X i. X i j X i.
i =1 j=1
ni
)(
(6.4)
em que Si a matriz de covarincia amostral do i-simo tratamento. O teste da hiptese de inexistncia de efeitos de tratamentos,
H 0 : 1 = 2 =
= g = 0
(6.5)
Ferreira, D.F.
Estatstica multivariada
223
realizado considerando as magnitudes das somas de quadrados e produtos de tratamento e resduo pela varincia generalizada. O esquema de anlise de varincia multivariada (MANAVA) est apresentado na Tabela 6.1. A fonte de variao total particionada em causas de variao devido a tratamento e ao erro experimental ou resduo.
Tabela 6.1. Tabela de MANAVA para testar a hiptese de igualdade do vetor de efeito dos tratamentos em um delineamento de classificao simples. FV Tratamento GL g-1 Matriz de SQP
B = n i X i. X.. X i. X..
i =1 g ni
)(
Resduo
= ni g
i =1
E = X i j X i. X i j X i.
i =1 j=1
)(
Total corrigido
n
i =1
B + E = X i j X.. X i j X..
i =1 j=1
ni
)(
Os critrios para o teste da hiptese apresentada em (6.5), envolvem varincias generalizadas e autovalores e autovetores da maximizao de duas formas quadrticas dadas em (2.15 e 2.16). De maneira geral, supondo que H seja a matriz de SQP relativa aos efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B, ento a soluo da equao determinantal dada por:
224
( H k E ) ek = 0
fornece as estimativas dos autovalores e autovetores, necessrios aos testes de hiptese (6.5), os quais esto apresentados na Tabela 6.2. Quatro critrios existem para o teste desta hiptese. Muitos autores recomendam utilizar o critrio de Wilks como referncia, por se tratar de um teste baseado na razo de verossimilhana. Outros recomendam que a hiptese nula deva ser rejeitada se pelo menos trs dos quatro critrios forem significativos em um nvel nominal de significncia previamente adotado. Esses critrios podem ser aproximados pela distribuio F. Essas aproximaes, tambm, se encontram apresentadas na Tabela 6.2.
Ferreira, D.F.
Estatstica multivariada
225
Tabela 6.2. Estatsticas multivariadas e suas equivalncia aproximada com a distribuio F. Critrio
Wilks
Estatstica
Aproximao F
1 1 rt 2f t F = 1 t pq
Trao de Pillai
V 2n + s + 1 F= s V 2m + s + 1
U = tr(HE1) = k
F=
= 1
F=
( d + q) d
p: nmero de variveis = posto(H+E); q: GL de tratamento (ou do contraste); : GL do erro; S=min(p,q); r=- (p-q+1)/2; f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(-p-1)/2; e
p2q 2 4 t = p2 + q 2 5 1 Se p 2 + q 2 5 > 0 cc
226
Exemplo 6.1 Num experimento envolvendo 4 variedades de feijo, avaliou-se na seca, a produtividade (P) em kg/ha e nmero de gro por vagem (NGV), utilizando 5 repeties. Os resultados obtidos foram:
Cultivar A P 1082 1070 1180 1050 1080 5462 NGV 4,66 4,50 4,30 4,70 4,60 22,76 P 1163 1100 1200 1190 1170 5823 B NGV 5,52 5,30 5,42 5,62 5,70 27,56 P 1544 1500 1550 1600 1540 7734 C NGV 5,18 5,10 5,20 5,30 5,12 25,90 P 1644 1600 1680 1700 1704 8328 D NGV 5,45 5,18 5,18 5,40 5,50 26,71
1092, 400 1164, 600 1546,800 1665, 600 X1. = X 4. = 5,342 X 2. = 5,512 X 3. = 5,180 4,552
E a mdia geral:
Ferreira, D.F.
Estatstica multivariada
227
1092, 400 1367,3500 [1092, 400 4,552] [1367,3500 5,1465] + + B = 5 5,512 4,552 1665,600 1367,3500 [1665, 600 5,512] [1367,3500 5,1465] + 5 5,512 5,342
Obviamente, quando os clculos no so realizados no computador, mais fcil de se obter as matrizes de somas de quadrados e produtos, pelas expresses apresentadas a seguir. Para isso, considere que Xi j k representa o valor observado do i-simo tratamento, na j-sima unidade experimental e na k-sima varivel. Ento,
SQBkk =
i =1
2 X i.k X2 g ..k ni ni i =1
(6.6)
SPBk =
i =1
(6.7)
, com
228
SQTkk = X ijk
2 i =1 j=1
ni
X n
g i =1
..k i
(6.8)
SPTk = X ijk X ij
i =1 j=1
ni
X X n
..k g i =1 i
..
(6.9)
E=T-B
(6.10)
Ferreira, D.F.
Estatstica multivariada
229
FV Tratamento
GL 3
SQ&P
1189302,1500 768, 3605 B= 768, 3605 2, 6318 29058, 4000 E= 9, 9040 9, 9040 0, 3199
Erro
16
Total Corrigido
19
( B k E ) ek = 0
Algum desavisado poderia pensar que o valor do segundo elemento do segundo autovetor (1,7667) fosse algum tipo de erro de digitao, por se tratar de um valor superior a 1. No entanto, isto perfeitamente possvel, pois os
230
facilmente verificado. Todos os critrios utilizados rejeitaram a hiptese de igualdade dos vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.
Critrio Wilks Trao de Pillai Trao de Hotelling Lawley Raz Roy mxima
Estatstica
=0,0030756 85,16
p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2
intervalos so mais curtos que os obtidos para todos os contrastes, e requerem apenas valores crticos da estatstica univariada t.
Ferreira, D.F.
Estatstica multivariada
231
ik = X i.k X..k
(6.11)
Devido a (6.11) corresponder a diferena entre duas mdias amostrais independentes, o teste de t de duas amostras vlido, modificando-se adequadamente o nvel de significncia. A estimativa da varincia do contraste entre duas mdias de tratamentos dada por,
(6.12)
A diviso de Ekk pelos seus respectivos graus de liberdade (), devido ao fato de que, o elemento em questo (Ekk) refere-se a uma soma de quadrados. Desta forma, desde que p variveis so consideradas e g(g-1)/2 comparaes duas a duas sero realizadas, ento o intervalo de confiana protegido por Bonferroni para diferena de efeitos de tratamento dado por:
(6.13)
232
6.4. Exerccio
6.7.1. Repetir a anlise de varincia do exemplo 6.1 utilizando o proc GLM do SAS e solicitar a realizao dos seguintes contrastes: i) A e B vs C e D; ii) A vs B e iii) C vs D.
||[
Componentes principais
]||
7.1. Introduo
A anlise de componentes principais est relacionada com a explicao da estrutura de covarincia por meio de poucas combinaes lineares das variveis originais em estudo. Os objetivos dessa anlise so: i) reduo da dimenso original; e ii) facilitao da interpretao das anlises realizadas. Em geral, a explicao de toda a variabilidade do sistema determinado por p variveis s pode ser efetuada por p componentes principais. No entanto, uma grande parte dessa variabilidade pode ser explicada por um nmero r menor de componentes, rp. Os componentes principais so uma tcnica de anlise intermediria e, portanto no se constituem em um mtodo final e conclusivo. Esse tipo de anlise se presta fundamentalmente como um passo intermedirio em grandes investigaes cientficas. Essa tcnica pode ser aplicada, ainda, na anlise de regresso mltipla, principalmente, nos casos de colinearidade ou de multicolinearidade; aplica-se tambm anlise de agrupamento e como estimadores de fatores nas tcnicas multivariadas denominadas de anlises fatoriais. Muitas outras aplicaes
7. Componentes principais
234
de componentes principais so encontradas nas literaturas aplicadas. A tcnica AMMI (additive multiplicative interaction model) considera modelos lineares com interao entre dois fatores e aplica como base para seus procedimentos a anlise de componentes principais.
combinaes lineares de p variveis aleatrias X1, X2, , Xp. Geometricamente, essas combinaes lineares representam a seleo de novos eixos coordenados, os quais so obtidos por rotaes do sistema de eixos original, representados por X1, X2, , Xp. Os novos eixos representam as direes de mxima variabilidade. Como pode ser demonstrado, os componentes principais dependem somente da matriz de covarincia (ou da matriz de correlao ) e de X1, X2, , Xp. Seu desenvolvimento no requer pressuposies de normalidade multivariada, mas possuem interpretaes teis em termos da constante elipside de densidade, se a normalidade existir. A princpio, sero definidos os conceitos de componentes principais populacionais. Posteriormente, naturalmente esses conceitos sero estendidos para a situao amostral. Seja o vetor aleatrio X t = X1 X 2
Xp
amostrado de uma
Ferreira, D.F.
Estatstica multivariada
235
(7.1)
t Yp = e p X = e p1X1 + e p2 X 2 + ... + e pp X p
(7.2)
(7.3)
Dessa forma, pode-se definir o i-simo componente principal (Yi) por (7.4), assumindo que o vetor X possui covarincia , com pares de autovalores e autovetores ( i ,ei ) , i = 1, 2, ..., p , em que 12p0.
i = 1, 2,..., p
(7.4)
No captulo 2, verificou-se que a maximizao de uma forma quadrtica resultava na soluo dada pelo conjunto de todos os pares de autovalores e autovetores da matriz ncleo. Os autovetores da soluo eram
7. Componentes principais
236
restritos ao comprimento unitrio. Seja a forma quadrtica dada por = o seu mximo obtido pela resoluo da equao (7.5).
e t e , ento et e
( i I ) ei = 0
(7.5)
fcil perceber que dessa equao surge a seguinte e bvia relao, obtida no ponto mximo, dada por: ei = i ei . Portanto, a varincia e a covarincia de Yi, especificadas em (7.2) e em (7.3) so dadas por:
(7.6)
ik
(7.7)
Var(Xi ) = Var(Yi )
i =1 i =1
11 + 22 + ... + pp = 1 + 2 + ... + p
A variao total existente nas variveis Xi, i=1, 2,...,p igual variao existente nos p componentes principais. Para demonstrar isso, seja a
Ferreira, D.F.
Estatstica multivariada
237
matriz de covarincia
tr() = tr ( PP t )
Uma propriedade do trao de uma matriz : tr(AB)=tr(BA). Fazendo A=P e B=Pt, ento,
tr() = ii = tr ( PP t ) = tr ( P t P ) = tr ( ) = i
i =1 i =1
E, portanto, a porcentagem da variao total explicada pelo k-simo componente principal dada por (7.8).
%VarExp(Yk ) =
i
i =1
100
(7.8)
Em muitas situaes em que se aplicam os componentes principais se uma porcentagem de 70% ou mais for atribuda aos primeiros r componentes principais, ento, esses podem substituir as p variveis originais sem perda de
7. Componentes principais
238
uma quantidade demasiada de informaes. A determinao dessa porcentagem da variao explicada pelos primeiros r componentes deve ser feita pelo pesquisador interessado e que possui maior conhecimento da rea estudada. A determinao do nmero r de componentes para que uma determinada porcentagem fixada da informao seja contemplada por eles um dos problemas que dificulta o emprego dessa metodologia. Os componentes do autovetor eit = ei1 ei2
eip podem informar
sobre a importncia das variveis para o i-simo componente principal, por meio de suas magnitudes. No entanto, esses componentes so influenciados pela escala das variveis. Para contornar tal problema, os pesquisadores podem utilizar uma importante medida de associao, a qual no depende da magnitude das mensuraes (escala) das variveis originais, que o coeficiente de correlao entre Yi e Xk. Esse coeficiente de correlao est apresentado em (7.9) .
Yi ,Xk =
eik i kk
, i, k = 1, 2,..., p
(7.9)
Demonstrao: Para demonstrar (7.9), primeiro apresentada a definio do coeficiente de correlao. Posteriormente, foi avaliado cada termo dessa expresso individualmente.
Yi ,Xk =
Ferreira, D.F.
Estatstica multivariada
239
Mas,
Cov ( Yi , X k ) = Cov ( eit X, X k ) = Cov ( eit X, t X )
com,
Logo,
Como ei = i ei , ento,
Cov ( Yi , X k ) = t ei = t i ei = i t ei = i eik
e,
Var(X k ) = kk
7. Componentes principais
240
Yi ,Xk =
i eik i kk
i eik kk
Exemplo 7.1 Sejam as variveis aleatrias X1, X2 e X3 com covarincia dada por:
4 1 0 = 1 4 0 0 0 2
Obter os componentes principais, a correlao das variveis originais com os componentes e verificar a veracidade da afirmativa a seguir de forma numrica:
Var(Xi ) = Var(Yi )
i =1 i =1
11 + 22 + ... + pp = 1 + 2 + ... + p
Ferreira, D.F.
Estatstica multivariada
241
t Y1 = e1 X = 0,7071X1 + 0,7071X 2
t Y2 = e 2 X = 0,7071X1 0,7071X 2
t Y3 = e3 X = X 3
A varivel X3 individualmente um de os componentes principais por no ser correlacionada com nenhuma das outras duas variveis. As varincias de os componentes principais so:
11 + 22 + 33 = 1 + 2 + 3
7. Componentes principais
242
Componente Y1 Y2 Y3
Var(Yi)=i 5 3 2
% da variao explicada 50 30 20
Os coeficientes de correlao entre os componentes e as variveis originais so: Componente Y1 Y2 Y3 X1 0,7906 0,6124 0,0000 X2 0,7906 -0,6124 0,0000 X3 0,0000 0,0000 1,0000
Para ilustrar um dos clculos usando a expresso (7.9), apresenta-se a seguir a correlao entre Y1 e X1.
Y1 ,X1 =
e11 1 11
2 5 = 2 = 0,7906 . 4
Para o componente principal mais importante (Y1), concluiu-se que X1 e X2 so igualmente importantes. Os componentes principais podem ser obtidos pela padronizao das variveis originais por:
Ferreira, D.F.
Estatstica multivariada
243
Zi =
X i i ii
(7.10)
Z = V 1/ 2 X
(7.11)
em V-1/2 uma matriz diagonal com os elementos da diagonal dados 1 fcil verificar que:
ii .
E ( Z ) = 0 e Cov ( Z ) = V 1/ 2 V 1/ 2 =
Ento, os componentes principais de Z so dados pelos autovalores e autovetores de , matriz de correlao de X . Os autovalores e autovetores de so, em geral, diferentes daqueles derivados de . Sejam as variveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z com Cov ( Z ) = , ento, os componentes principais so dados por:
Yi = eit Z = eit V 1/ 2 X ,
i=1, 2, ..., p
(7.12)
7. Componentes principais
244
p p
Var(Yi ) = Var(Zi ) = p
i =1 p i =1
(7.13)
i = p
i =1
Yi ,Zk = eik i
(7.14)
Sendo que em todos esses casos (i, ei ) so os autovalores e autovetores de , com 12...p. As demonstraes de (7.12), (7.13) e (7.14) podem ser realizadas da mesma forma que as demonstraes anteriores, substituindo por . Para algumas matrizes de covarincia, com estruturas especiais, existem simples formas de se expressar os componentes principais. Sero tratados alguns desses casos, conforme apresentado em Johnson e Wichern, (1998) e em Morrison (1976). Para uma matriz diagonal,
11 0 0 22 = 0 0
0 0 pp
(7.15)
Ferreira, D.F.
Estatstica multivariada
245
i=ii e eit = [ 0
0 1 0
A demonstrao disso pode ser facilmente realizada, uma vez que das equaes de maximizao de formas quadrticas verifica-se que : ei = i ei . Assumindo-se as definies anteriores para os autovalores e autovetores verificase que:
e i = i e i = ei = ii ei 11 0 0 22 = 0 0 0 0 0 0 0 0 1 = 1 ii 0 0 pp 0 0
Dessa forma, pode-se concluir que (ii, ei ), com ei definido anteriormente, so os pares de autovalores e autovetores de . Desde que os componentes principais so dados pelas combinaes lineares eit X =Xi, ento, os componentes principais so as prprias variveis originais no correlacionadas, cujos autovalores so as prprias varincias originais das respectivas variveis aleatrias. Do ponto de vista de extrao de componentes principais nada pode ser ganho, uma vez que os eixos originais j esto no sentido de maior variabilidade. Dessa forma no h necessidade para fazer rotao dos eixos
7. Componentes principais
246
originais. A estandardizao no altera a situao, uma vez que =I, e o par autovalor e componente principal dado por (1, Zi), em que Zi a i-sima varivel padronizada. Outro tipo de matriz de covarincia com determinado padro apresentado a seguir, o qual descreve muitas vezes o comportamento de entidades biolgicas, desempenha um papel importante na teoria dos
componentes principais.
2 2 = 2
2 2 2
2 2 2
(7.16)
1 1 =
(7.17)
que implica em uma estrutura de igualdade de correlao entre as p variveis estudadas. Morrison (1976) demonstra que os componentes principais de (7.16) so dados por dois grupos. O primeiro grupo com o primeiro componente e o segundo com os demais componentes principais. O primeiro componente principal de (7.16) definido pelo par autovalor e autovetor apresentado a seguir.
Ferreira, D.F.
Estatstica multivariada
247
1 = 2 [1 + (p 1)]
(7.18)
1 1 1 t e1 = , ,..., p p p
(7.19)
Para a matriz de correlao definida em (7.17), pode-se demonstrar que 7.18 e 7.19 permanecem vlidos, sendo necessrio apenas fazer 2=1. A proporo da explicao do primeiro componente principal dada por
100 [1 + (p 1)] / p (%) do total do conjunto de variveis. Se prximo a 1 o
primeiro componente principal ter uma elevada explicao da variao total. Os demais (p-1) componentes principais possuem valores
i = 2 (1 ) ;
i = 2, 3,
,p
(7.20)
7. Componentes principais
248
t e 2 = t e 3 = eit = e t = p
(7.21)
Finalmente tratada a situao em que o vetor X uma varivel aleatria da distribuio normal multivariada, ou seja, X N p , . Nesse caso os componentes principais tm uma atrativa interpretao. Foi demonstrado no captulo 4 que a densidade de X constante na elipside centrada em ,
(X ) (X ) = c
t 1
2 = p ( )
cujos eixos so dados por 2 ( ) i ei , i = 1, 2, ..., p , em que (i, ei ) so os pares p de autovalor-autovetor de . possvel verificar, fazendo = 0 por convenincia de algumas demonstraes que se seguem, que:
2 ( ) = X t 1X = p
Ferreira, D.F.
Estatstica multivariada
249
2 ( ) = X t 1X = p
1 2 1 2 1 Y1 + Y2 + ... + Yp2 1 2 p
Essa ltima equao define uma elipside com os eixos coordenados Y1, Y2, ..., Yp dispostos nas direes de e1 , e 2 , ..., e p , respectivamente. Como 1 o maior autovalor, o maior eixo tem a direo definida por e1 , os eixos remanescentes tm a direo definida por e 2 , ..., e p . Foi assumido que = 0 . No entanto, pouco provvel que isso acontea em uma situao real. Todavia, as interpretaes definidas
anteriormente so vlidas da mesma forma, apenas sendo necessrio definir o i-simo componente principal centrado na mdia, por:
Yi = eit X , i = 1, 2, ..., p
(7.22)
o qual tem mdia zero e direo definida por ei . Na Figura 7.1 ilustram-se os componentes principais bivariados com densidade fixa de 95%. A rotao dos eixos X1 e X2 nos novos eixos Y1 e Y2 so a essncia dos componentes principais.
7. Componentes principais
250
Y1
Y2
Figura 7.1. A elipse de 95% de densidade constante e os componentes principais Y1 e Y2 para a distribuio normal bivariada com mdia = 0 .
objetivo dessa seo apresentar os conceitos de componentes principais para a estrutura de covarincia amostral. As combinaes lineares das variveis mensuradas que maximizam a variao total da amostra e que so mutuamente ortogonais so chamadas de componentes principais amostrais. Seja a forma quadrtica
Ferreira, D.F.
Estatstica multivariada
251
Q = Var(Y) = Var(e t X) = e t Se
e tSe et e
O mximo obtido tomando-se a derivada em relao a e e igualando-se a derivada a zero. O sistema obtido resolvido em relao a e e as solues obtidas referem-se ao mximo.
(S ) e = 0
(7.23)
7. Componentes principais
252
( ; e )
i i
definem os componentes principais amostrais, para i=1, 2, ..., p. Portanto, o i-simo componente principal amostral :
(7.24)
Var Yk = k ,
( )
k = 1, 2,..., p
(7.25)
Cov Yi , Yk = 0, i k = 1, 2,..., p
(7.26)
Pela mesma razo apresentada para os componentes principais populacionais, verifica-se que a variao total explicada pelos componentes principais amostrais igual a
Ferreira, D.F.
Estatstica multivariada
p
253
tr(S) = Sii = tr PP t = tr P t P = tr = i
i =1 i =1
( )
Dessa forma, a explicao do k-simo componente principal amostral da variao total do sistema :
%VarExp(Yk ) = p k 100 i
i =1
(7.27)
rY ,X =
i k
eik i Skk
, i, k = 1, 2,..., p
(7.28)
Os componentes principais podem ser definidos por componentes principais amostrais centrados na mdia amostral X , da seguinte forma:
Se o vetor X for substitudo em (7.29) por X j (vetor de observaes amostrais), pode-se obter os escores dos componentes principais. Esses escores so plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a representao para uma ou duas dimenses, entre outras aplicaes.
7. Componentes principais
254
Os componentes principais, em geral, no so invariantes com relao a transformaes nas escalas. A mudana de escala mais usual aquela que transforma as escalas das variveis para uma outra escala sem dimenso, cuja mdia igual a zero e a varincia igual a 1. A padronizao obtida por:
Z j = D 1/ 2 ( X j X ) ,
j = 1, 2,..., n
(7.30)
em que D-1/2= Diag 1/ S11 ,1/ S22 ,...,1/ Spp . O estimador de a covarincia de Z dado por:
(7.31)
i = 1, 2, ..., p
(7.32)
%VarExp(Yk ) = k 100 p
(7.33)
Ferreira, D.F.
Estatstica multivariada
255
rY ,Z = eik i ,
i k
i, k = 1, 2,..., p
(7.34)
Pequenos valores para os ltimos autovalores, tanto de S como de R, indicam, em geral, a presena de dependncia linear no conjunto de dados. Neste contexto pelo menos uma varivel redundante e pode ser eliminada do conjunto de variveis originais. Existe sempre a questo importante de o nmero de componentes a ser retido. No existe uma resposta definitiva para essa questo. Os aspectos que devem ser considerados incluem a quantidade da variao amostral explicada, o tamanho relativo dos autovalores e a interpretao subjetiva dos componentes. Uma ferramenta visual importante para auxiliar a determinao de o nmero suficiente de componentes a ser retido o scree plot. O termo scree refere-se ao acumulo de rochas nas bases de um penhasco, portanto os scree plots sero considerados grficos de cotovelos. Na Figura 7.2 observa-se que um cotovelo formado aproximadamente na posio i=4. Isso significa que os componentes
acima de 3 possuem aproximadamente a mesma magnitude e so relativamente
pequenos. Isso indica que os trs primeiros, talvez os quatros primeiros componentes so suficientes para resumir a variao amostral total.
7. Componentes principais
256
^ 10
0 1 2 3 4 5 6
componente principal
Figura 7.2. Scree plot de um exemplo com p=6 componentes principais para ilustrar o processo de determinao de o nmero apropriado de componentes a ser retido.
Ferreira, D.F.
Estatstica multivariada
257
permitir uma avaliao da suposio de normalidade. Por se tratarem de combinaes lineares de p variveis, supostamente normais, possvel assumir a normalidade para os componentes principais. O teste de normalidade pode ser feito em apenas alguns poucos componentes, o que pode simplificar a complexidades das anlises necessrias e reduzir o nmero de testes a ser realizado. Os valores amostrais dos componentes principais obtidos a partir de os dados amostrais originais so chamados de escores. A equao (7.35) refere-se a definio do escore do k-simo componente principal, para a j-sima observao amostral.
(7.35)
representados pelo vetor Yjt = Yj1 Yj2 ... Yjp para a j-sima observao amostral
t e1 t e t Yj = P X j = 2 X j t ep
(7.36)
7. Componentes principais
258
Para o agrupamento de objetos e tambm para avaliar desvios de normalidade obtm-se grficos dos primeiros componentes retidos em um diagrama contendo pares de componentes. Tambm, possvel obter os Q-Q plots para cada componente, conforme descrio realizada no captulo 4. Desvios de normalidade podem ser verificados e o teste da correlao Q-Q plot pode ser realizado. Para a verificao de observaes suspeitas os grficos dos ltimos componentes principais tomados dois a dois so utilizados. Esse tipo de grfico pode ajudar a identificar observaes suspeitas. Tambm, com esse intuito os QQ plots desses componentes, de menor importncia para a variao total, so utilizados.
( )
e p Yj
(7.37)
+ Yjp e p
Essa uma importante equao que mostra que a observao amostral multivariada X j pode ser recuperada dos escores dos componentes principais correspondentes. Constitui-se, portanto, em uma proeminente forma de identificar com elevada preciso as observaes suspeitas. Para isso um nmero q de componentes principais qp retido para ajustar as n observaes amostrais
Ferreira, D.F.
Estatstica multivariada
259
+ Yjq eq difere de X j , tendo como desvio o valor + Yjp e p . Essa medida feita tomando-se o
( ; e ) ,
i i
estimados na amostra. Esses autovalores e autovetores so diferentes dos respectivos valores populacionais devido s variaes amostrais. Derivaes
7. Componentes principais
260
(1963). Os resultados relativos aos resultados de grandes amostras so apresentados a seguir, de uma forma resumida. Suponha que X1 , X 2 ,
uma populao p-variada qualquer com mdia e covarincia . O vetor de mdias amostrais X , a matriz de covarincia amostral S e a matriz de correlao amostral R. Suponha que possui autovalores (desconhecidos) distintos e positivos, quais sejam, 1 > 2 > autovetores (desconhecidos) e1 , e 2 ,
, ep .
Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que os resultados doravante apresentados se verificam para grandes amostras. Dessa forma, os resultados proporcionados referem-se a teoria de distribuies de
p e para os autovetores
e1 , e 2 ,
, p de
, ento,
1.
2. Seja
p k Ei = i e et 2 k k k =1 ( ) k i k i
(7.38)
ento,
n ( ei ei ) N p 1 ( 0, E i ) .
Ferreira, D.F.
Estatstica multivariada
261
Cov ( eir , e js ) =
n ( i j )
i jeis e jr
(i j)
(7.39)
Os resultados 1 a 4 so referentes s propriedades distribucionais de grandes amostras e vlidas para o caso de p distintas razes caractersticas. Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que i seja distinto dos demais p-1 valores caractersticos, os quais podem ter qualquer multiplicidade. Esses resultados podem ser utilizados para construir testes de hipteses e intervalos de confiana para os autovalores e autovetores populacionais.
7. Componentes principais
262
i i Z ( / 2 ) = 1 P 2 i n
(7.40)
i i ICi (1 ) : ; 2 2 1 + Z ( / 2 ) n 1 Z ( / 2 ) n
(7.41)
Obviamente os valores de e de n devem ser apropriados para que o limite superior de (7.41) seja vlido. Caso o limite superior no seja vlido e n for suficientemente grande, possvel obter o intervalo alternativo substituindo a
varincia paramtrica de i pelo seu estimador. Assim,
2 ; + Z ( / 2) 2 ICi (1 ) : i Z ( / 2 ) i i i n n
(7.42)
Testes de hipteses de o tipo H o : i = 0 podem ser realizados calculando-se o escore normal padro:
Zc =
i 0 2 0 n
(7.43)
Ferreira, D.F.
Estatstica multivariada
263
Uma inferncia importante e mais geral sobre a estrutura de dependncia apresentada por Anderson (1963). O teste de hiptese de que os r autovalores intermedirios de sejam iguais apresentado. A hiptese de interesse :
H 0 : q +1 = q + 2 =
= q+r
(7.44)
Aos q maiores e aos (p-q-r) menores autovalores no so impostas restries quanto aos seus valores ou multiplicidades. A hiptese alternativa especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos demais intermedirios. O teste de razo de verossimilhana conduz a estatstica
( )
(7.45)
que tem distribuio aproximadamente de qui-quadrado sob H0 com =r(r+1)/2 - 1 graus de liberdade para grandes amostras. Um caso especial importante deste teste de hiptese ocorre quando q+r=p ou quando a variao das ltimas r dimenses esfrica. Outro importante teste refere-se aos autovetores. A hiptese de que o i-simo autovetor populacional de igual a um vetor de constantes com norma 1 apresentada a seguir.
7. Componentes principais
264
H 0 : ei = e0
(7.46)
O teste da hiptese nula (7.46) realizado com base no resultado 2 dessa seo e na matriz de covarincia Ei definida em (7.38) devidamente
t 1 t t 2 c = n i e0S1e0 + e0Se0 2 = n ( ei e0 ) E ig ( ei e0 ) i
(7.47)
Ferreira, D.F.
Estatstica multivariada
265
1 2 ( 1 i ) 0 i = 0
0 2
( 2 i )
0
0 p 2 ( p i ) 0
Pi = e1 e 2
px(p-1).
p j E i = i Pi i Pit = i e je tj 2 j=1 ( ) i j j i
1 1 E = Pi i1Pit = i i
g i
( )2 j t i e je j j=1 j j i
p
No captulo 4 foi visto que sob normalidade ou para grandes amostras a forma quadrtica
n ( ei e0 ) E ig n ( ei e0 ) 2 1 p
t
7. Componentes principais
266
Os graus de liberdade so iguais a (p-1) e no a p devido a Ei ter posto incompleto (p-1). Devido aos autovetores de E ig e o autovetor ei serem ortogonais, a forma quadrtica anterior pode ser simplificada por:
n ( ei e 0 )
2 n t p ( i j ) g t g t E i ( ei e0 ) = ne0 E i e0 = e0 e je j e 0 = i j=1 j j i
Como
je jetj = ,
j=1 p
termo da expresso
je je tj , tem-se que:
j=1 j i
subtraindo ao termo
Ferreira, D.F.
Estatstica multivariada
p
267
Finalmente, o termo
e je tj
j=1 j i
lembrando que os autovetores tm norma 1 e so ortogonais e ainda aplicando-se o mesmo tipo de artifcio:
e je tj = I ei eit
j=1 j i
e t e et e et e e t Ie et e et e e t 1e0 et e et e i2 0 i i 0 = = n 0 0 0 i i 0 i 0 0 2 i + 2 i 0 i i 0 + i2 0 i i i i i i i
e t e t t t t t = n 0 0 e0 ei eit e0 2e0 e0 + 2e0 ei eit e0 + i e0 1e0 e0 ei eit e0 = i e t e t = n 0 0 + i e0 1e0 2 i
7. Componentes principais
268
Substituindo nessa ltima expresso pelo estimador S, a distribuio ainda continua aproximadamente de qui-quadrado para grandes amostras. Dessa forma, a prova fica completa. Um outro importante teste de interesse o da hiptese de mesma estrutura de correlao, ou seja, Cov(X i , X k )= ii kk ou Corr(X i , X k )= , para todo ik. Nesse caso, os autovalores de no so todos distintos e os resultados anteriores no se aplicam. Embora as distribuies amostrais dos componentes principais obtidos da matriz R sejam difceis de derivar, esse caso especial conduz a resultados tratveis (Morrison, 1976). Lawley (1963) props um teste para essa hiptese que alternativo e equivalente quele baseado na razo de verossimilhana, para a estrutura de eqicorrelao da matriz de correlao populacional (pxp). Para isso basta aplicar o teste da hiptese de igualdade de todas as p(p-1)/2 correlaes (ij). A hiptese de interesse dada por:
1 1 H 0 : = 0 =
vs H : 0 0 1
(7.48)
Essa hiptese pode ser escrita na forma equivalente H 0 : ij = para todos os subscritos ij. O procedimento de Lawley (1963) requer as seguintes quantidades:
Ferreira, D.F.
Estatstica multivariada
269
rk =
1 p rik ; k = 1, 2, ..., p p 1 i =1
ik
(7.49)
r=
2 p 1 p rik p(p 1) i =1 k =i +1
(7.50)
(p 1) 2 1 (1 r ) 2 p (p 2)(1 r ) 2
(7.51)
Verifica-se facilmente que rk de (7.49) a mdia dos elementos fora da diagonal para as k colunas de R e r de (7.50) a mdia de todos os elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n tende para infinito o teste estatstico:
2 c =
p 2 n 1 p 1 p 2 ( rik r ) ( rk r ) 2 (1 r ) i =1 k =i +1 k =1
(7.52)
tem distribuio de qui-quadrado com =(p+1)(p-2)/2 graus de liberdade. Finalmente, o teste, denominado de teste de esfericidade, apresentado. A hiptese de interesse dada por:
H0 : = 0 = 2 I
(7.53)
7. Componentes principais
270
Para o teste dessa hiptese, suponha uma amostra aleatria da distribuio normal p-variada com mdia
X1 , X 2 ,
H 0 : = dada por:
n 1 n t L ( , X ) = f ( X j ) = ( 2 ) np / 2 n / 2 exp ( X j ) 1 ( X j ) j =1 2 j =1
A funo suporte determinada pelo logaritmo natural (neperiano) da funo de verossimilhana. O mximo de L deve ser obtido, no entanto, o mximo da funo suporte com relao a e coincidem. A funo suporte dada por:
t n np n 1 n , X ) = ln f ( X j ) = S( ln ( 2 ) ln ( X j ) 1 ( X j ) 2 2 2 j =1 j =1
Para obter o mximo dessa funo, necessrio derivar em relao aos parmetros e . Igualar as derivadas a zero e achar a soluo do sistema de equaes formado. Esses resultados esto apresentados na seqncia.
a) Derivada de S ( , X ) em relao a
Ferreira, D.F.
Estatstica multivariada
271
S ( , X )
= 1 ( X j )
j =1
(X
j =1
) = 0 n = X j
j =1 n n
j =1
Xj n =X
b) Derivada de S ( , X ) em relao a
S ( , X )
n 1 t = ( 1 ) + n 1S n 1 2 2
Igualando a zero e resolvendo a equao para , substituindo-se o valor de encontrado em (a), tem-se as seguintes passagens.
7. Componentes principais
272
S ( , X )
=0
n 1 t 1 1 1 ( ) + n Sn = 0 2 2
1 1 1 n 1 n S n = ( ) 2 2
1 S n 1 = 1
1S n 1 = 1 1 n 1 n = S n = ( X j X )( X j X )t = W j n j =1 n j =1
L , = ( 2 ) np / 2 S n = ( 2 ) np / 2 S n = ( 2 ) np / 2 S n
n / 2
1 n t exp ( X j X j ) S n 1 ( X j X j ) 2 j =1
n / 2
t 1 n 1 exp tr S n ( X j X j )( X j X j ) 2 j =1 t 1 1 n exp tr S n ( X j X j )( X j X j ) j =1 2
n / 2
Ferreira, D.F.
Estatstica multivariada
273
= ( 2 ) np / 2 Sn
n / 2
1 exp tr Sn 1nSn 2
n exp tr [ ] 2
= ( 2 ) np / 2 S n
n / 2
= ( 2 ) np / 2 Sn
n / 2
np exp 2
L ( , 0 X ) = ( 2 ) np / 2 0 = ( 2 ) np / 2 ( 2 )
n / 2
1 n t exp ( X j ) 0 1 ( X j ) 2 j =1 1 n t exp 2 ( X j ) ( X j ) 2 j =1
np / 2
S , 2 X =
t np np 1 n ln ( 2 ) ln ( 2 ) 2 ( X j ) ( X j ) 2 2 2 j =1
Para obter o mximo dessa funo, necessrio derivar em relao aos parmetros e 2 . Em seguida deve se igualar s derivadas a zero e achar a soluo do sistema de equaes formado.
7. Componentes principais
274
c) Derivada de S , 2 X em relao a
S , 2 X
)=
1 n ( X j ) 22 j =1
(X
j =1
) = 0 n = X j
j =1 n n
j =1
Xj n =X
d) Derivada de S , 2 X em relao a 0
S , 2 X
2
) = np
2
1 2( )
2 2
(X
j =1
)t ( X j )
Igualando a zero e resolvendo a equao para 2 , substituindo-se o valor de encontrado em (a), tem-se os seguintes resultados.
Ferreira, D.F.
Estatstica multivariada
275
S , 2 X
2
) =0
n np 1 + ( X X )t ( X j X ) = 0 2 2 ( 2 )2 j =1 j 2
1 2( ) 1
2 2
tr ( X
j =1
X )t ( X j X ) =
np 2 2
n np tr ( X j X )( X j X )t = 2 2 ( 2 ) j =1
( )
2 2
tr ( nS n ) =
np 2 2
np p 1 = = 2 n tr ( S n ) tr ( S n ) 2 = tr ( S n ) p
7. Componentes principais
276
np / 2
tr ( S n ) L , 0 = ( 2 ) np / 2 p
n t p exp ( X j X j ) ( X j X j ) 2tr ( S n ) j =1
= ( 2 ) = ( 2 )
np / 2
tr ( S n ) p tr ( S n ) p
np / 2
np / 2
np / 2
Para testar a hiptese H 0 : = 0 = 2 I obtm-se a razo do mximo de as duas funes de verossimilhana. Ento, baseando-se no resultado de que o logaritmo natural multiplicado por -2 tem distribuio aproximada de qui-quadrado, pode-se efetuar um teste para essa hiptese. Assim, seja:
1 =
L , 0
( )= L ( , )
( 2 )
np / 2
tr ( S n ) p
( 2 ) np / 2
np / 2
1 =
n/2 np / 2
[ tr(S) / p]
np / 2 p p p i p i i =1 = = p i =1 np / 2 p i / p i / p i =1 i =1
np / 2
(7.54)
Ferreira, D.F.
Estatstica multivariada
277
(7.55)
A distribuio aproximada de qui-quadrado possui graus de liberdade, que referem-se a diferena entre o nmero de parmetros do modelo completo e o nmero de parmetros do modelo sob a hiptese nula. Como so estimadas p mdias, p varincias e p(p-1)/2 covarincias no modelo completo e p mdias e 2 no modelo sob a hiptese nula, os graus de liberdade so dados por:
= p+
p ( p + 1) p ( p + 1) 2 ( p + 2)( p 1) p 1 = = 2 2 2
Bartlett (1954) sugere uma correo no teste anterior para uma melhor performance, sendo que para grandes amostras a estatstica dada por:
(2p 2 + p + 2) 2 c = 2 1 ln ( 1 ) 6pn
(7.56)
tem distribuio aproximadamente de qui-quadrado com =(p+2)(p-1)/2 graus de liberdade sob H0 dada em (7.53).
7. Componentes principais
278
O teste (7.56) da hiptese nula (7.53) denominado de teste de esfericidade, porque os contornos da densidade so esferas quando = 2 I . Um teste mais geral do que o teste (7.56) para a hiptese de que todas as variveis sejam independentes dado pelo teste de razo de verossimilhana. Seja a hiptese
11 0 0 22 H0 : = 0 0
0 0 ; ii > 0 pp
(7.57)
2 =
n/2 n/2
p Sii i =1
= R
n/2
(7.58)
(2p + 11) 2 c = 2 1 ln ( 2 ) 6n
(7.59)
tem distribuio aproximadamente de qui-quadrado com =p(p-1)/2 graus de liberdade sob H0 dada em (7.57). Essa aproximao devida a Bartlett (1954) em
Ferreira, D.F.
Estatstica multivariada
279
substituio a aproximao usual -2ln(2). O resultado (7.59) melhora a aproximao qui-quadrado usual. Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:
(7.60)
Essa expresso representa uma melhor aproximao de (7.59) para pequenas correlaes e para grandes amostras pouco provvel que conduza a diferentes resultados dos obtidos pela frmula determinantal exata (7.59), Morrison (1976). apresentado a seguir um programa SAS no procedimento de matrizes IML para a realizao de todas as inferncias propostas nessa seo. Um exemplo apresentado, com comentrios, para que o usurio possa reproduzir os testes e os procedimentos de estimao propostos.
options ps=5000 ls=75 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; print 'Valor de p tamanho da amostra e alpha'; print p n alpha; print 'Matriz de covariancias amostral: S'; print S; Ls=diag(eigval(s)); Ps=eigvec(S); print 'Matriz de autovalores de S'; print Ls; print 'Matriz de autovetores de S'; print Ps; D=diag(S); D_12=inv(root(D)); *print D_12;
7. Componentes principais
280
Rs=D_12*S*D_12; print 'Matriz de correlacoes amostrais R'; print Rs; Lr=diag(eigval(Rs)); print 'Matriz de autovalores de R'; print Lr; Pr=eigvec(Rs); print 'Matriz de autovetores de R'; print Pr; /*intervalo de confianca para autovalores de S - equacao 7.41*/ za2=probit(1-alpha/2); print 'Intervalos de confianca para os autovalores de S, sendo 1alpha=' alpha; print 'Autovalor Li Ls'; do i=1 to p; lin=ls[i,i]/(1+za2*(2/n)**0.5); lsu=ls[i,i]/(1-za2*(2/n)**0.5); print i lin lsu; end; /*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 equacao 7.42 */ /* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com sig2=4.2 e rho=0.97 */ l0=12.35; Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5; przc=2*(1-probnorm(abs(zc))); print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas um exemplo'; print 'Valor de Zc valor de prob>|zc|'; print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada'; print Zc przc; /* teste 7.43 igualdade de r autovalores intermediarios*/ /* neste exemplo sera testado Ho: l2 = l3 */ /*q=1, r=2, p=3 -teste 7.44 */ aux1=0;aux2=0;q=1;r=2; do i=q+1 to q+r; aux1=aux1+log(ls[i,i]); aux2=aux2+ls[i,i]/r; end; qui2c=-(n-1)*aux1+(n-1)*r*log(aux2); print 'Valores dos somatorios auxiliares para teste H0: l2 = l3'; print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios'; print aux1 aux2; v=r*(r+1)/2-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotese de que Ho: l2 = l3 '; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2c; /* teste para a hipotese de igualdade de um autovetor a um vetor de constantes*/ /* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou seja, igual*/ /* estrutura de correlacao da matriz Sigma que originou a S */ e0=j(p,1,1/3**0.5); E1=j(p,p,0); do i=1 to p; ek=Ps[,i]; if i^=1 then do; E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);
Ferreira, D.F.
Estatstica multivariada
281
end; end; E1=ls[1,1]*E1; Le=eigval(e1); *print E1 le; ei1=Ps[,1]; print e0 ei1; qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2); qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0); v=p-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])'; print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr'; print qui2c qui2c2 v prqui2c; /*teste da H0:phoij=pho - igual estrutura de correlacao */ rbar=(sum(Rs)-trace(Rs))/(p*(p-1)); rk=j(p,1,0); do i=1 to p; rk[i]=(sum(Rs[,i])-1)/(p-1); end; gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2); aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar)); aux2=(sum(aux1)-trace(aux1))/2; aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar)); aux4=sum(aux3); qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4); v=(p+1)*(p-2)/2; if qui2c<=0 then qui2c=1e-14; prqui2=1-probchi(qui2c,v); print 'Teste da hipotes phij=pho: igual estrutura de correlacao'; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2; print 'Valores utilizados no teste-para simples conferencia'; print 'media geral dos rij, vetor de medias de cada coluna de R e gama chapeu'; print rbar rk gama; /*teste de esfericidade-H0: Sigma=Sig^2*I*/ Lamb1=((det(S)**(1/p))/(trace(S)/p)); qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n)); v=(p+2)*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de esfericidade - H0: Sigma=Sig^2*I'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))'; print qui2c v prqui2 lamb1; /*teste de independencia de variaveis mais geral - H0: Sigma = Diag(sig11 sig22 ... sigpp)*/ Lamb2=det(Rs); qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n)); v=p*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n'; print qui2c v prqui2 lamb2; /*teste de independencia de variaveis - uso da aproximacao de Lawleypior*/ aux1=Rs#Rs; aux2=(sum(aux1)-trace(aux1))/2; qui2c=aux2*(n-(2*p+11)/6); v=p*(p-1)/2;
7. Componentes principais prqui2=1-probchi(qui2c,v); print 'Teste de independencia aproximado de Lawley (1940)'; print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2'; print 'Obs. para grandes valores de rij essa eh uma pessima aproximacao'; print qui2c v prqui2 aux2; quit;
282
7.6. Exerccios
7.6.1. Extrair os componentes principais da matriz S obtida das mensuraes de trs variveis em carapaas de tartarugas. As variveis X1, X2, e X3 so referentes ao comprimento, largura e altura transformadas por logaritmo natural, respectivamente. Uma amostra de 24 fmeas foi realizada. A matriz S apresentada a seguir, juntamente com o vetor de mdias das variveis transformadas. Obter os componentes principais de S e interpret-los, quando for possvel. Obter a matriz R e os respectivos componentes principais. Obter em ambos os casos: a) a porcentagem de informao explicada por cada componente; b) a correlao entre as variveis originais transformadas e os componentes principais. Observando o primeiro componente principal de R com mais profundidade, o que pode ser afirmado sobre a matriz R (sem a realizao de teste).
Ferreira, D.F.
Estatstica multivariada
283
7.6.2. Com os dados do exerccio 7.6.1, determine os intervalos de 95% de confiana assinttico para os 3 autovalores de (3x3). 7.6.3. Com os dados do exerccio 7.6.1 teste a hiptese de que o primeiro
t autovetor de seja igual a e1 = 1
com relao deciso tomada? 7.6.4. Com os dados do exerccio 7.6.1 reproduza a matriz S a partir do primeiro componente principal e a matriz de resduos. 7.6.5. Teste a hiptese de que os r=2 ltimos valores caractersticos de , sejam iguais, utilizando os dados do exemplo 7.6.1. 7.6.6. Teste a hiptese de independncia geral entre 3 variveis, para as quais uma amostra de n=50 observaes apresentou a seguinte matriz de covarincia.
7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma populao normal trivariada. Obtenha os componentes principais e verifique a normalidade por meio dos dois primeiros componentes. Faa os Q-Q plots e os grficos de disperso dos escores do componente 1 vs 2. Utilize o ltimo componente para verificar a possibilidade de observaes suspeitas. Caso alguma observao suspeita seja observada, elimine-a da amostra e refaa o exerccio.
7. Componentes principais
U.A. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 X1 12,80 14,12 19,09 15,98 16,00 16,51 14,05 14,34 16,87 21,93 15,21 15,54 17,71 14,42 13,38 13,91 15,53 16,40 18,35 13,59 19,08 13,95 16,11 17,10 18,81 15,27 14,80 17,39 18,02 9,52 X2 29,56 26,54 33,26 31,00 28,94 31,67 30,11 26,47 29,00 38,00 30,68 27,37 30,20 29,99 31,61 29,59 29,30 28,96 30,15 27,70 31,26 29,94 34,52 29,39 31,48 29,54 31,88 28,88 34,02 25,23 X3 45,19 49,29 49,79 51,73 50,30 48,06 55,15 46,84 52,16 39,24 54,02 51,52 51,66 52,50 52,33 44,19 53,71 46,56 52,18 52,33 48,59 54,73 52,69 52,03 49,79 43,11 48,08 50,69 49,58 45,89
284
||[
Anlise de agrupamento
]||
8.1. Introduo
As anlises rudimentares e exploratrias de dados como os procedimentos grficos auxiliam, em geral, o entendimento da complexa natureza da anlise multivariada. No presente captulo so discutidas algumas tcnicas grficas adicionais para agrupar objetos (itens ou variveis) e tambm apresentar os algoritmos que devem ser usados para efetivamente realiz-los. Encontrar nos dados uma estrutura natural de agrupamento uma importante tcnica exploratria. A anlise de agrupamento deve ser distinguida da anlise discriminante, pelo fato desta ltima ser aplicada a um nmero de grupos j conhecidos, tendo por objetivo a discriminao de um novo indivduo a um destes grupos. A anlise de agrupamento por sua vez no considera o nmero de grupos e realizada com base na similaridade ou dissimilaridade (distncias). Objetivo dessa anlise agrupar objetos semelhantes segundo suas caractersticas (variveis). Todavia, no existem impedimentos para realizar o agrupamento de variveis semelhantes segundo as realizaes obtidas pelos objetos amostrados. Um outro problema para o qual uma resposta necessria
8. Anlise de agrupamento
286
consiste em verificar se um indivduo A mais parecido com B do que com C. Quando o nmero de variveis envolvidas pequeno, a inspeo visual poder responder. Assim, por exemplo, na Figura 8.1 observa-se uma situao em que A mais parecido com C do que com B. Intuitivamente para fazer tal inferncia usou-se o conceito de distncia euclidiana, o qual definiu a idia de parecena.
20
18
Varivel 2
16
14
Varivel 1
Figura 8.1. Disperso entre trs indivduos mensurados com relao a duas variveis quantitativas contnuas.
parecena
(similaridade
Como foi visto no exemplo da Figura 8.1, necessrio especificar um coeficiente de parecena que indique a proximidade entre os indivduos. importante considerar, em todos os casos semelhantes a este, a natureza da
Ferreira, D.F.
Estatstica multivariada
287
varivel (discreta, contnua, binria) e a escala de medida (nominal, ordinal, real ou razo). No captulo 1 foi discutida a noo de distncia e apresentada a distncia euclidiana entre dois objetos no espao p-dimensional. Sejam
t X1 = X11 X12
X1p
t e X 2 = X 21 X 22
X 2p
d ( X1 , X 2 ) =
( X11 X 21 )
Uma importante distncia estatstica entre estes dois objetos conhecida como distncia de Mahalanobis, dada por:
d ( X1 , X 2 ) = (X1 X 2 ) t S1 (X1 X 2 )
(8.2)
em que, S-1 a inversa da matriz de varincia e covarincia amostral. Outra medida de distncia a mtrica de Minkowski, a qual depende de funes modulares.
p m d ( X1 , X 2 ) = X1i X i2i i =1
1m
(8.3)
8. Anlise de agrupamento
288
Para m=1 a equao (8.3) conhecida por mtrica do quarteiro (mtrica city-block) e para m = 2 representa a distncia euclidiana e, em geral, variaes de m causam trocas nos pesos dados a pequenas e a grandes diferenas. Sempre que possvel conveniente usar distncias verdadeiras, ou seja, aquelas que obedecem desigualdade triangular para o agrupamento de objetos, embora alguns algoritmos de agrupamento no exigem o atendimento dessa pressuposio. De uma maneira geral, sejam Xhj as observaes do h-simo objeto na j-sima varivel e Xij as observaes do i-simo objeto na j-sima varivel, e sejam Zhj e Zij estes valores padronizados, ento, podem ser definidas as
distncias apresentadas a seguir. Sendo que h, i = 1, 2, ..., n e j = 1, 2, ..., p. Distncia euclidiana mdia,
d h,i =
( X
j =1
hj
X ij )
(8.4)
d h,i
X hj X ij = = S jj j =1
p
( X h Xi )
D 1 ( X h X i )
(8.5)
Ferreira, D.F.
Estatstica multivariada
289
em que, D uma matriz diagonal tendo o j-simo componente igual a varincia Sjj, ou seja,
0 S11 0 S 22 D= 0 0
0 0 Spp
d h,i
X hj X ij S j =1 jj = = p
p
( X h Xi )
D 1 ( X h X i ) p
(8.6)
Outros tipos de definies de distncias podem ser encontrados na literatura (Bussab, Miazaki e Andrade, 1990). Um exemplo o coeficiente de Gower, o qual baseado na proporo da variao em relao a maior discrepncia possvel.
d h,i
1 p X hj X ij = log10 1 p j =1 X ( n ) j X (1) j
(8.7)
8. Anlise de agrupamento
290
em que X ( n ) j e X (1) j so os valores mximos e mnimos, respectivamente, em uma amostra de n objetos para a j-sima varivel. Muitas vezes os objetos no podem ser mensurados em variveis quantitativas. Essas variveis podem ser transformadas em dicotmicas (binrias), determinado um ponto de corte de interesse prtico. Assim, por exemplo, se a altura (Y) de n indivduos mensurada e o interesse determinar queles com altura superiores a 1,80m, ento, defini-se a varivel binria (X) da seguinte forma: se Yi > 1,80m ento Xi = 1 caso contrrio, se Yi 1,80m, ento Xi = 0. Da mesma forma, variveis qualitativas podem ser transformadas em variveis binrias tomando-se como valor 1 a presena de uma determinada realizao e o valor 0 para as demais. Assim, por exemplo, se na amostra ocorresse um indivduo com cor de olhos pretos determinaria o valor 1 e a ocorrncia de outro com outra cor de olhos determinaria o valor 0. De uma maneira geral, a presena e ausncia de uma caracterstica devem ser representadas por uma varivel binria, a qual assume valor 1 se a caracterstica estiver presente e o valor zero se estiver ausente. A ocorrncia de dados binrios bastante comum em gentica molecular. Nesse caso, os indivduos so genotipados para a presena ou ausncia de um determinado marcador molecular, marcador de DNA. Como exemplos consideram-se duas linhagens de milho as quais foram estereotipadas atravs de marcadores moleculares denominados RAPD. O melhorista nesse caso estava interessado na similaridade gentica dessas linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados
Ferreira, D.F.
Estatstica multivariada
291
para presena e para a ausncia dessas bandas foram obtidos e esto apresentados a seguir.
Linhagens A B
1 1 1
2 0 1
Bandas 3 0 0
4 1 1
5 1 0
Existem, neste exemplo, duas concordncias, uma com 1-1 e outra com 2-2 e duas discordncias, quais sejam, 0-1 e 1-0. Representando o escore (1 ou 0) da j-sima varivel binria no h-simo objeto por Xhj e da mesma forma Xij representa o escore do i-simo objeto na j-sima varivel, j=1, 2, ..., p. Conseqentemente, a diferena ao quadrado entre os dois indivduos ou objetos para uma determinada varivel resultar apenas no valor 0 ou no valor 1. Isso pode ser observado facilmente pelos seguintes argumentos.
(X
hj
X ij )
0 se X hj = X ij = 1 ou se X hj = X ij = 0 = 1 se X X hj ij
(8.8)
Dessa forma, a distncia euclidiana quadrtica representa a contagem do nmero de pares no coincidentes. Grandes distncias
correspondem a muitos pares no coincidentes e, portanto, a objetos dissimilares. Para o exemplo em questo, tem-se:
2 d A, B = 2
8. Anlise de agrupamento
292
A equao (8.4) pode ser usada muitas vezes como base para distncia, no entanto, algumas vezes possui algumas limitaes por considerar que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas situaes reais (1-1) representa uma forte evidncia de similaridade, mas o (0-0) no. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este problema. Cabe ao leitor decidir em qual situao o seu problema se enquadra e escolher a medida de parecena mais apropriada. Para introduzir estas medidas de parecena so apresentados os resultados de coincidncias e divergncias dos objetos h e i em uma tabela de contingncia.
Nesta Tabela pode-se observar que a representa a freqncia de coincidncias (1-1), b a freqncia de (1-0), e assim sucessivamente. No exemplo tratado a = 2, b = c = d = 1. Na Tabela 8.1 apresentam-se alguns dos coeficientes de
semelhana (similaridade) em termos das freqncias descritas anteriormente, considerando variveis binrias. Os valores para o exemplo, a variao de cada
Ferreira, D.F.
Estatstica multivariada
293
uma, o nome comum na literatura e explicao racional para as mesmas foram apresentados. Na Tabela 8.1, esto apresentados os coeficientes de similaridades, no entanto, deve ser ressaltado que a nica exceo a distncia binria de Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em medidas de similaridade pela relao apresentada em Johnson e Wichern (1988).
Sh,i =
1 1 + d h ,i
(8.9)
Outra forma de se obter coeficientes de similaridades a partir da distncia euclidiana, calculada com variveis padronizadas, pode ser obtida pelo coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).
Sh,i
2 2 2 p d h,i 3 = 2 2 p + d h2,i 3
(8.10)
Uma outra expresso apresentada atribuda a Cattel e Coulter (Bussab, Miazaki, Andrade, 1990), tambm derivada considerando distncias euclidianas padronizadas dada por:
Sh,i =
2 p d h2, i 2 p + d h2, i
(8.11)
8. Anlise de agrupamento
294
No entanto, nem sempre possvel construir distncias a partir de similaridades. Isso s pode ser feito se a matriz de similaridades for no negativa definida. Com a condio de que Si,i = 1, mximo das similaridades, e que a matriz de similaridades seja no negativa definida, ento a expresso (8.12) tem as propriedades de distncia.
d h , i = 2 (1 S h ,i )
(8.12)
Ferreira, D.F.
Estatstica multivariada
295
a+d p
2 (a + d ) 2 (a + d ) + b + c a+d a + 2( b + c) + d
a p
0-1
0,75
para
pares
no
0-1
0,43
Nenhum 0-0 no numerador As coincidncias 0-0 so tratadas como irrelevantes 0-0 irrelevante e duplo peso para 1-1. 0-0 irrelevante e duplo peso para no coincidncia. Razo entre coincidncias e no coincidncias - Exceto 0-0 nica medida de dissimilaridade.
0-1 0-1
0,40 0,50
Sorenson
a a+b+c 2a 2a + b + c a a + 2( b + c)
a b+c
b+c p
0-1
0,66
0-1
0,33
0-(p-1) 0-1
1,00 0,63
a ( a + b )( a + c)
a + ad a + b + c + ad
Concordncias positivas sobre adaptao da mdia geomtrica de discordncias Concordncias positivas e a mdia geom. de concordncia positivas e negativas Proporo de coincidncias menos a proporo de discordncias Proporo de ad menos a de bc
0-1
0,67
Baroni-UrbaniBuser Haman
0-1
0,63
(a + d) (b + c ) p
-1 - +1
0,20
Yule
ad bc ad + bc
ad bc (a + b)(a + c)( b + d )(c + d )
-1 - +1
0,33
Produto de momento de correlao aplicado a variveis binrias Proporo de coincidncias em relao mdia geom. total modificada
-1 - +1
0,17
Ochiai II
ad
(a + b)(a + c)(b + d )(c + d )
0 -1
0,33
8. Anlise de agrupamento
296
Em algumas aplicaes necessrio agrupar variveis ao invs de objetos. As medidas de similaridades para agrupar variveis usadas na prtica so baseadas nos coeficientes de correlao amostral. Em algumas aplicaes de agrupamento, as correlaes negativas so trocadas pelos seus valores absolutos. Quando, as variveis so binrias esta correlao est apresentada na Tabela 8.1 (). Este coeficiente de correlao est associado estatstica de quiquadrado, para testar a independncia de duas variveis categricas por ( 2 = 2 n , n = a + b + c + d, 2 com 1 grau de liberdade). Para n fixo, uma grande similaridade (ou correlao) consistente com a falta de independncia entre as variveis. Uma outra importante observao que pode ser feita que para agrupamento de variveis os coeficientes de similaridade e de distncias podem ser usadas, apenas tomando-se o cuidado de substituir p (nmero de variveis) por n (nmero de objetos).
8.3. Agrupamentos
Muitos algoritmos existem para formar os agrupamentos, devido a existncia de vrios critrios existentes para conceituar os grupos que nem sempre so aceitos universalmente. Uma outra razo para isso, que raramente pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais rpidos e possantes computadores.
Ferreira, D.F.
Estatstica multivariada
297
So apresentadas neste material algumas das tcnicas de agrupamentos denominadas hierrquicas e outra do grupo das no hierrquicas.
Os agrupamentos hierrquicos so realizados por sucessivas fuses ou por sucessivas divises. Os mtodos hierrquicos aglomerativos iniciam com tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento. Inicialmente, os objetos mais similares so agrupados e fundidos formando um nico grupo. Eventualmente o processo repetido, e com o decrscimo da similaridade, todos os subgrupos so fundidos, formando um nico grupo com todos os objetos. Os mtodos hierrquicos divisivos trabalham na direo oposta. Um nico subgrupo inicial existe com todos os objetos e estes so subdivididos em dois subgrupos de tal forma que exista o mximo de semelhana entre os objetos dos mesmos subgrupos e a mxima dissimilaridade entre elementos de subgrupos distintos. Estes subgrupos so posteriormente subdivididos em outros subgrupos dissimilares. O processo repetido at que haja tantos subgrupos quantos objetos. Os resultados finais destes agrupamentos podem ser apresentados por grficos denominados dendrogramas. Os dendrogramas apresentam os
8. Anlise de agrupamento
298
elementos e os respectivos pontos de fuso ou diviso dos grupos formados em cada estgio. Os esforos deste captulo sero concentrados nos mtodos hierrquicos aglomerativos (Linkage Methods). Sero discutidos os mtodos de ligao simples (mnima distncia ou vizinho mais prximo), ligao completa (mxima distncia ou vizinho mais distante) e ligao mdia (distncia mdia). As idias para estes trs processos esto, esquematicamente, apresentados na Figura 8.2.
.2 .1
d24
.4
(a)
.3 .
5
.2 .
1
d15 (b)
.4
.3 .5
.2 .1
.4
.3 .5
(c) (d13+d14+d15+d23+d24+d25)/6
Figura 8.2. Distncias entre os grupos para os mtodos da (a) ligao simples, (b) ligao completa e (c) ligao mdia.
Ferreira, D.F.
Estatstica multivariada
299
A seguir est apresentado um algoritmo geral para os agrupamentos hierrquicos aglomerativos com n objetos (itens ou variveis).
1. Iniciar com n grupos, cada um com um nico elemento e com uma matriz simtrica n x n de dissimilaridades (distncias) D={dhi}. 2. Buscar na matriz D o par de grupos mais similar (menor distncia) e fazer a distncia entre os grupos mais similares U e V igual a duv. 3. Fundir os grupos U e V e nome-lo por (UV). Recalcular e rearranjar as distncias na matriz D (a) eliminando as linhas e colunas correspondentes a U e V e (b) acrescentando uma linha e coluna com as distncias entre o grupo (UV) e os demais grupos. 4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estaro em nico grupo). Anotar a identidade dos grupos que vo sendo fundidos e os respectivos nveis (distncias) nas quais isto ocorre.
(a) Ligao simples (vizinho mais prximo) Para exemplificar considerado um exemplo, no qual destacam-se 4 objetos (A, B, C, D), e para o qual a matriz de distncias entre os objetos apresentada a seguir. A B C D A 0 3 0 B D= C 7 9 0 D 8 6 5 0
8. Anlise de agrupamento
300
Para ilustrar o mtodo da ligao simples, os objetos menos distantes devem, inicialmente, ser fundidos. Ento, min ( d h , i ) = d A, B = 3 . O prximo passo fundir A com B formando o grupo (AB) e em seguida calcular as distncias deste grupo e os objetos remanescentes. As distncias dos vizinhos mais prximos so,
Ferreira, D.F.
Estatstica multivariada
301
Conseqentemente o grupo DC fundido com AB na distncia 6. Na Figura 8.3, foi apresentado o dendrograma, com os resultados alcanados.
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
Distncia de ligao
Figura 8.3. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo mtodo da ligao simples (vizinho mais prximo).
O mtodo da ligao completa realizado da mesma forma que o do vizinho mais prximo, com exceo de que a distncia entre grupos tomada como a mxima distncia entre dois elementos de cada grupo. Para ilustrar, ser usado o mesmo exemplo. Assim, considerando a mesma matriz de dissimilaridade D do exemplo anterior. Inicialmente so fundidos os dois objetos menos distantes. Ento, como min ( d h , i ) = d A , B = 3 , os objetos A e B devem ser fundidos formando o grupo (AB) e em seguida deve-se calcular as distncias deste grupo e os objetos remanescentes. As distncias entre os grupos so consideradas com sendo a distncia entre os vizinhos mais distantes, dadas por:
8. Anlise de agrupamento
302
Conseqentemente, o grupo DC fundido com AB na distncia 9. Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcanados.
Ferreira, D.F.
Estatstica multivariada
303
10
Distncia de ligao
Figura 8.4. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo mtodo da ligao completa (vizinho mais distante).
Comparando-se os resultados alcanados e apresentados nas Figuras 8.3 e 8.4, pode-se notar que os dendrogramas para o mtodo do vizinho mais prximo e do vizinho mais distante no diferem na alocao dos objetos e sim na magnitude da fuso dos grupos CD com AB, para esse exemplo em particular.
O mtodo da ligao mdia realizado da mesma forma que o do vizinho mais prximo e mais distante, com exceo de que a distncia entre grupos tomada como a mdia da distncia entre dois elementos de cada grupo. Para ilustrar, usado o mesmo exemplo. Da mesma forma, so fundidos os
8. Anlise de agrupamento
304
objetos menos distantes. Ento, como min ( d h , i ) = d A , B = 3 , os objetos A e B devem ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distncias deste grupo e os objetos remanescentes. As distncias entre grupos so baseadas na mdia das distncias entre todos os elementos de um grupo com relao aos elementos de outro grupo.
d( AB ), C = (dAC + dBC ) / 2 = (7 + 9) / 2 = 8
d ( AB ),D = (d AD + dBD ) / 2 = (8 + 6) / 2 = 7
A nova matriz D para o prximo passo : AB C D AB 0 8 0 D = C D 7 5 0 A menor distncia entre D e C, com dDC=5, os quais foram fundidos formando o subgrupo DC, no nvel 5. Recalculando as distncias tm-se,
DC AB D= DC 0 7,5 0 AB
Ferreira, D.F.
Estatstica multivariada
305
Conseqentemente o grupo DC fundido com AB na distncia 7,5. Na Figura 8.5, foi apresentado o dendrograma, com os resultados alcanados.
5 Distncia de ligao
Figura 8.5. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo mtodo da ligao mdia (centride).
Os agrupamentos no hierrquicos procuram a partio de n objetos em k grupos. Os mtodos exigem a pr-fixao de critrios que produzam medidas sobre a qualidade da partio produzida. Um dos mais populares mtodos o das k-mdias.
8. Anlise de agrupamento
306
O algoritmo das k-mdias, de uma forma bastante simplificada, dividido em trs passos: 1. Particionar os itens em k grupos iniciais arbitrariamente; 2. Percorrer a lista de itens e calcular as distncias de cada um deles para o centride (mdias) dos grupos. Fazer a realocao do item para o grupo em que ele apresentar mnima distncia, obviamente se no for o grupo ao qual este pertena. Recalcular os centrides dos grupos que ganharam e perderam o item. 3. Repetir o passo 2 at que nenhuma alterao seja feita.
Exemplo 8.1
Utilizando 4 itens (A, B, C e D) e 2 variveis (X1 e X2) dividir em k=2 grupos, pelo mtodo das k-mdias.
Observao Objeto A B C D x1 2 5 1 8 x2 0 2 4 4
i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC. Calcular a mdia de cada grupo.
Centride Objeto AD BC
X1 (2+8)/2=5 (1+5)/2=3
X2 (0+4)/2=2 (2+4)/2=3
Ferreira, D.F.
Estatstica multivariada
307
ii) Neste passo a distncia de cada item ser computada em relao ao centride de cada grupo e se necessrio, os objetos sero realocados para o grupo mais prximo.
d d
2
A ( AD )
= (2 5) 2 + (0 2) 2 = 13 = (2 3) 2 + (0 3) 2 = 10
2
A (BC )
Neste caso h necessidade de realocao de A para o grupo BC, sendo que os centrides dos grupos devem ser recalculados.
8 2,667
4 2
Recalculando as distncias dos objetos para o centride dos grupos e checando a possibilidade de realocao, tem-se:
d d
2
A ,D
= 52 = 4, 44
2
A ,( ABC )
d d
2 2
B ,D
= 13 = 5, 44
B ,( ABC )
d d
2 2
C ,D
= 49 = 6,77
C ,( ABC )
Grupo D ABC
Item (distncia quadrtica p/ centride) A B C D 52,0 13,0 49,0 0,0 4,4 5,4 6,8 32,4
8. Anlise de agrupamento
308
Nenhuma realocao deve ser realizada, pois os objetos tm menor distncia para os respectivos grupos aos quais eles pertencem. Para realizar uma checagem da estabilidade de a partio alcanada recomendvel executar novamente o algoritmo com uma nova partio inicial.
8.4. Exerccios
Agrupar os 4 objetos cuja matriz de dissimilaridades est apresentada a seguir, utilizando todos os mtodos apresentados nesse material.
A B C D A 0 9 B 0 D= C 25 36 0 D 49 100 16 0
||[
9.1. Introduo
A tcnica
Anlise de fatores
]||
consiste em uma
dos
componentes
principais
transformao ortogonal dos eixos coordenados do sistema multivariado buscando as orientaes de maior variabilidade. Para o estudo de dependncias estruturais multinormais, as tcnicas de explicao das covarincias das respostas so preferidas. Apesar de as tcnicas dos componentes principais poder ser usada para essa finalidade, esta no deve ser preferida por ser apenas uma transformao e no um resultado de um modelo fundamental da estrutura de covarincia. Esse mtodo possui alguns inconvenientes, tais como no ser invariante quanto s mudanas de escalas e no possuir um critrio adequado para determinar quando uma proporo suficiente da variao total foi explicada pelos componentes retidos. Nesse captulo apresenta-se a tcnica de anlise de fatores com o propsito essencial de descrever, se possvel, as relaes de covarincia entre diversas variveis em funo de poucas, no observveis, quantidades aleatrias denominadas de fatores. Sob o modelo de fatores cada varivel resposta
9. Anlise de fatores
310
representada por uma funo linear de uma pequena quantidade de fatores comuns, no observveis, e de uma simples varivel latente especfica. Os fatores comuns geram as covarincias entre as variveis observadas e os termos especficos contribuem somente para as varincias de suas respostas relacionadas. Os coeficientes dos fatores comuns no so restritos a condio de ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos dados e a determinao, a priori, do nmero de fatores. Nesse captulo so apresentados o modelo de fatores ortogonais, os mtodos de estimao dos parmetros desse modelo e brevemente o problema de rotao dos fatores. considerado um mtodo de estimao que no exige normalidade. Mtodos de estimao de os escores dos fatores so, tambm, abordados, o que ao contrrio dos componentes principais no uma tarefa simples.
Ferreira, D.F.
Estatstica multivariada
311
fontes de variaes adicionais 1, 2, ..., p chamadas de erro ou de fatores especficos. O modelo de fatores pode ser especificado por:
X1 1 = X 2 2 = X p p =
11 1
F+ F+ F+
12 2
1m m
F + 1 F + 2 F + p
21 1
22 2
2m m
(9.1)
p1 1
p2 2
pm m
X = L F
(p1) (p m) (m1)
+
(p1)
(9.2)
em que
ij
a matriz L chamada matriz de cargas fatoriais. O i-esimo fator especfico i associado somente com a i-sima varivel resposta Xi. Os p desvios X1-1, X2-2, ..., Xp-p so representados por p + m variveis aleatrias F1, F2, ..., Fm, 1, 2, ...,
p, as quais so no observveis. Esse fato distingue o modelo de fatores do
modelo de regresso multivariada, pois este ltimo possui variveis independentes (ocupadas em (9.2) por F) que so observveis. Devido ao grande nmero de quantidades no observveis e tambm com a finalidade de tornar til o modelo de fatores, algumas pressuposies sobre os vetores F e so impostas. Assim assumido que F tem distribuio com mdia 0 e que os elementos de F so independentemente
9. Anlise de fatores
312
distribudos, ou seja, F possui covarincia . Da mesma forma assumido que possui mdia zero e os seus elementos so independentemente distribudos, ou seja, Cov( )= diagonal (p x p). Sendo assim, definem-se:
E(F) = 0
(9.3)
Cov(F) = E(FFt ) =
(9.4)
E() = 0
(9.5)
1 0 0 2 t Cov() = E( ) = = 0 0
0 0 p
(9.6)
Cov(, F) = E ( Ft ) = 0
(p m)
(9.7)
O modelo (9.2) e essas pressuposies definem o modelo de fatores ortogonal. Dessa forma a estrutura de covarincia de X pode ser dada por:
Ferreira, D.F.
Estatstica multivariada
313
( X )( X )
= ( LF + )( LF + ) = ( LF + ) ( LF ) + t =
t t
= LF ( LF ) + ( LF ) + LF t + t
t t
Ento,
Cov(X) = = E(X )(X ) t = = E LF ( LF ) + ( LF ) + LF t + t
t t
= LE(FFt )Lt + E ( Ft ) Lt + L E ( F t ) + E ( t )
Cov(X) = = LLt +
(9.8)
Tambm podem ser obtidas as covarincias entre os componentes de X e F a partir das suposies assumidas e apresentadas anteriormente. Assim,
9. Anlise de fatores
314
Logo,
Cov ( X, F ) = L
ou
Cov ( X i , Fj ) =
ij
(9.9)
Var(X i ) = ii =
j=1
2 ij
+ i =
2 i1
2 i2
+ ... +
2 im
+ i
(9.10)
Cov(X i , X k ) = ik =
j=1 m ij kj
i1 k1
i2 k 2
+ ... +
im km
A poro da i-sima varivel explicada por m fatores comuns chamada de comunalidade e a poro de ii devida aos fatores especficos denominada de varincia especfica. Denotando a i-sima comunalidade por h i2 fcil observar de (9.10) que:
h i2 =
2 i1
2 i2
+ ... +
2 im
(9.11)
Assim,
ii = h i2 + i
i = 1, 2, ..., p
(9.12)
Ferreira, D.F.
Estatstica multivariada
315
Quando m = p a matriz pode ser reproduzida exatamente por LLt , de tal forma que =0. A utilidade da anlise de fatores, no entanto, ocorre quando m bem menor do que p. Dessa forma, o nmero de parmetros na anlise de fatores, p(m+1), bem menor do que aqueles p(p+1)/2 parmetros de . Por exemplo, para p=20 existem 2021/2=210 parmetros em . Se m=2 fatores so utilizados, ento, o modelo de fatores possui p(m+1)=20(2+1)=60 parmetros (
ij
e i ).
O grande problema da anlise de fatores a dificuldade ou a
impossibilidade de fatorar a matriz em LL t +, quando m bem menor do que p. Algumas vezes, quando so obtidas solues, estas so, em geral, inconsistentes com as interpretaes estatsticas. A anlise de fatores tem como propsito a determinao dos elementos da matriz de cargas fatoriais L e dos elementos de
, obedecendo a restrio (9.12).
Quando m > 1, vrias solues existem para o modelo de fatores, todas consistentes com as interpretaes estatsticas. Essa ambigidade a base para uma importante caracterstica da anlise de fatores que a rotao fatorial. Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja, TT t =T t T=I. A expresso (9.2) pode ser reescrita por:
X = LF + = LTT t F + = L*F* +
(9.13)
em que: L* = LT e F* = T t F .
9. Anlise de fatores
316
Como E(F* ) = T t E(F) = T t 0 = 0 e Cov(F* ) = T 'Cov(F)T = T t T = T t T = , ento, impossvel distinguir as cargas de L das de L*, ou seja, os fatores
F e F* = T t F possuem as mesmas propriedades, uma vez que geram a mesma
matriz de covarincia , mesmo que as cargas fatoriais de L e de L* sejam, em geral, diferentes. Assim,
(9.14)
A escolha da matriz T direcionada por um critrio de facilitao da interpretao dos fatores gerados, uma vez que as propriedades estatsticas no so alteradas.
Nas situaes reais, os parmetros do modelo de fatores so desconhecidos e devem ser estimados das observaes amostrais. A anlise de fatores justificvel quando difere de uma matriz diagonal, ou quando matriz de correlaes difere da identidade. Para uma amostra X1 , X 2 , ..., X n de tamanho n em p variveis correlacionadas a matriz S um estimador de , bem como R de
. Com base em uma estimativa de possvel realizar o teste de hiptese de
Ferreira, D.F.
Estatstica multivariada
317
Se a hiptese no for rejeitada, os fatores especficos possuem papel dominante, sendo que a anlise de fatores determinar alguns poucos fatores comuns. Nesse caso, a anlise de fatores no ter grande utilidade. Se a hiptese de a estrutura de ser igual a uma matriz diagonal for rejeitada, ento, o modelo de fatores ser til e o problema inicial ser o de estimar as cargas fatoriais
ij
considerados dois mtodos de estimao para os parmetros do modelo de fatores: o mtodo dos componentes principais e o mtodo da mxima verossimilhana apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja o mtodo aplicado, as solues podem sofrer rotaes com a finalidade de simplificar as interpretaes dos fatores. prudente, tambm, tentar mais de uma soluo.
A decomposio espectral vista nos captulos 2 e 7, representa um importante mtodo de fatorao de . Sejam as matrizes P = e1 e 2 ... ep e
1 2 ... p , ento:
= PP t = P1/ 2 1/ 2 P t = LLt
(9.15)
9. Anlise de fatores
318
em que, L = P1/ 2 uma matriz p x p de cargas fatoriais. A equao (9.15) reflete um ajuste da estrutura de covarincia por um modelo de fatores tendo tantos fatores quanto variveis (m = p) e varincias especficas i nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do jsimo fator representam os coeficientes do j-simo componente principal (autovetor) multiplicado pelo fator de escala
exata, esta no til por utilizar tantos fatores quanto variveis e por no deixar variao alguma para os fatores especficos. Uma soluo para o problema considerar um nmero m, de fatores comuns, menor do que o de variveis p. Com esse critrio p-m autovalores e os respectivos autovetores so desconsiderados. Esses autovalores so queles (pt t t m) menores. Dessa forma a contribuio de m +1e m +1e m +1 + m + 2 e m + 2 e m + 2 + ... + p e p e p
para negligenciada. Desprezando essa contribuio, a seguinte aproximao de pode ser obtida:
1 e1
2 e 2 ...
1 e1 2 e2 t m em = LL e m m
(9.16)
em que L uma matriz p x m. A representao (9.16), no entanto, no considera a contribuio dos fatores especficos. A contribuio desses fatores pode ser estimada tomando-se a diagonal de - LLt , sendo LLt definida em (9.16).
Ferreira, D.F.
Estatstica multivariada
319
LLt +
(9.17)
= Diag( LLt ) ou i = ii
j =1
2 ij
comum trabalhar com a representao das variveis em uma escala padronizada. Nessa situao a varivel Zi possui mdia 0 e varincia 1. A padronizao pode ser realizada por:
X1 1 Z1 11 Z 2 Z = = V 1/ 2 X = X p p Zp pp
(9.18)
em que:
1/ 2
1 11 0
0 1 22 0
0 0 1 pp
9. Anlise de fatores
320
A matriz de covarincia de Z dada por . O processo de obteno dos parmetros do modelo de fatores o mesmo descrito nas equaes de (9.17), considerando = e L = P1/ 2 , sendo P a matriz p x m com as colunas compostas pelos m primeiros autovetores de e 1/2 uma matriz m x m com diagonal igual a
i . Como ii = 1 , fcil perceber que i = 1
j=1 m 2 ij
uma varivel com elevada variao influencie indevidamente a determinao das cargas fatoriais. A representao apresentada em (9.17), quando ou so substitudos pelos seus estimadores S ou R, conhecida como soluo dos componentes principais para a anlise de fatores. O nome se origina do fato de os fatores serem derivados dos primeiros componentes principais amostrais. O resumo dos principais resultados desse mtodo de estimao doravante apresentado. A anlise de fatores por componentes principais obtidos da covarincia amostral S especificada em funo dos pares de autovalores e
autovetores i , ei , i = 1, 2, ..., p, em que 1 2 ... p . Seja m < p, o nmero
( )
L = 1 e1
2 e 2 ...
m e m = P11/ 2 1
(9.19)
Ferreira, D.F.
Estatstica multivariada
321
1 0 0 2 = 0 0
0 0 = Diag S LLt p
(9.20)
i = Sii
j=1
2 ij
= Sii h i2
(9.21)
h i2 =
2 i1
2 i2
+ ... +
2 im
(9.22)
A anlise de fatores por componentes principais da matriz R, por sua vez, obtida substituindo S por R nas equaes de (9.19) a (9.22). Na soluo dos componentes principais as estimativas das cargas fatoriais no se alteram com o aumento do nmero m de fatores.
9. Anlise de fatores
322
fcil perceber por meio das definies apresentadas que a matriz S no fielmente reproduzida pela soluo de componentes principais. A diagonal de S exatamente reproduzida pelo modelo de fatores, mas os elementos fora da diagonal principal no so. Assim,
S LLt +
(9.23)
Se o nmero de fatores no especificado por consideraes a priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a escolha de m para uma decomposio de maior acurcia de S pode ser baseada nos autovalores estimados, da mesma forma que o nmero de componentes principais a serem retidos determinado. Analiticamente, Johnson e Wichern (1998) demonstram que a soma de quadrados dos elementos da matriz de resduos S LLt menor ou igual a
i = m +1
2 i
de quadrados dos ltimos (p-m) autovalores negligenciados implica em uma pequena soma de quadrados do erro da aproximao realizada por m componentes. O ideal obter uma elevada contribuio dos primeiros fatores para a variao total amostral. Assim, verifica-se que:
i =1
2 ij
2 1j
2 2j
+ ... +
2 pj
= j e j j e tj = j
(9.24)
Ferreira, D.F.
Estatstica multivariada
323
(9.25)
O critrio (9.25) usado como um artifcio heurstico para determinar o valor apropriado de m. O nmero de fatores comuns retidos deve aumentar at que uma frao adequada da variao amostral tenha sido contemplada.
Exemplo 9.1. Em 24 tartarugas fmeas foram mensuradas p = 3 variveis X1, X2 e X3, quais sejam, comprimento, largura e altura de carapaas transformadas por logaritmo. A matriz de covarincias amostrais apresentada a seguir. Obter a anlise de fatores com m = 1 e m = 2 usando o mtodo dos componentes principais.
9. Anlise de fatores
324
11 0 0 22 H0 : = 0 0
0 0 ; ii > 0 pp
de liberdade. Como Pr ( 2 > 127,9805 ) = 0,00000054 rejeita-se H0 de independncia entre todas as variveis. Portanto, a anlise de fatores deve ser eficiente. A soluo para m = 1 apresentada a seguir. A soluo de 1 fator explica 98,2% da variao total e pode ser julgada satisfatria. A soma de
2 quadrados dos dois ltimos autovalores, dada por 2 + 3 = 0, 0291 , foi considerada 2
muito pequena e indica que a soma de quadrados dos elementos da matriz de resduos no deve ultrapassar esse valor. Os resultados obtidos so:
Variveis X1 X2 X3 % explicao
Comunalidades
2 i
Varincias especficas
i
0,0681 0,0831 0,0870
Ferreira, D.F.
Estatstica multivariada
325
S LLt = 4,9810 3,8063 4, 7740 = 3,8063 3, 0680 3, 7183 4, 7740 3, 7183 4,8264 0 0 2, 2165 0, 0681 1, 7277 [ 2, 2165 1, 7277 2,1770] 0 0, 0831 0 2,1770 0 0 0, 0870 0, 0228 0, 0515 0 0, 0228 = 0 0, 0429 0, 0515 0, 0429 0
A soma de quadrados dos elementos dessa matriz de resduos de apenas 0,01003, que menor do que 0,0291 conforme j era esperado. Para m = 2 a soluo dada por:
Cargas fatoriais Variveis X1 X2 X3 % explicao acumulada F1 2,2165 1,7277 2,1770 98,15 F2 0,1630 0,1608 -0,2935 99,23 Comunalidades
2 i
Varincias especficas
i
0,0418 0,0575 0,0003
A soma de quadrados de resduos para esse caso (m = 2) igual a 0,0049, a qual limitada por 0,0099. Uma vez que os ganhos foram muito pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser interpretado como um fator de volume.
9. Anlise de fatores
326
Uma
aproximao
modificada
do
mtodo
dos
componentes
principais denominada soluo fatorial principal. O procedimento vlido tanto para R quanto para S. A descrio que realizada a seguir utiliza a matriz R. No modelo de fatores = LLt + perfeitamente especificado: os m fatores comuns reconstituiro perfeitamente os elementos fora da diagonal principal de , bem como os elementos da diagonal com a participao da varincia especfica:
1 = h i2 + i .
Supondo que a contribuio dos fatores especficos seja removida da reconstituio de , ento, a matriz resultante - = LLt . Suponha, tambm, que estimativas iniciais * tenham sido obtidas por um meio qualquer, ento, i possvel definir a matriz de correlao amostral reduzida (Rr) eliminando o efeito dos fatores especficos por R r = R * . Esse processo equivalente a substituir a diagonal de R por h *2 = 1 * . A matriz Rr definida por: i i
*2 h1 r * R r = R = 21 rp1
r12 h *2 2 rp2
r1p r2p h *2 p
(9.26)
Teoricamente, desconsiderando a variao amostral, possvel estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa forma, Rr fatorada em:
Ferreira, D.F.
Estatstica multivariada
327
R r L*r L*t r
em que L*r a matriz dos estimadores das cargas fatoriais
* ij
(9.27) .
* * * * e* L r = 1 e1 2 2 m * = 1 *2 i ij j=1
* e* m m
(9.28)
em que
( ; e ) ,
* i *
h *2 = i
j=1
*2 ij
(9.29)
O mtodo, ento, aplicado iterativamente, considerando as comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os autovalores e autovetores dessa nova matriz Rr so obtidos e as estimativas das cargas fatoriais e varincias especficas utilizando (9.28) so novamente obtidas. Novas comunalidades, tambm, so obtidas utilizando (9.29) e o processo repetido em novos estgios sucessivos, at que no haja alteraes nas
9. Anlise de fatores
328
estimativas das cargas fatoriais e das varincias especficas para uma dada preciso. Um problema que pode surgir nesse procedimento o aparecimento de autovalores de Rr negativos. Recomenda-se utilizar o nmero de fatores comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores negativos devida aos valores iniciais das varincias especficas utilizadas. Algumas alternativas existem para a escolha desses valores iniciais. A mais popular utilizar * = 1 r ii , em que rii o elemento da i-sima diagonal da matriz i R-1. As comunalidades iniciais so, ento, dadas por:
h *2 = 1 * = 1 i i
1 r ii
(9.30)
que igual ao coeficiente de determinao parcial mltiplo entre a i-sima varivel (Xi) e as (p-1) demais variveis. Essa relao til, pois permite que h *2 seja i obtida pelo coeficiente de determinao mltiplo, mesmo quando R no tiver posto completo. Usando S, a varincia especfica inicial funo de Sii, o elemento da isima posio da diagonal de S-1, da seguinte forma:
m h *2 = Sii 1 Sii i 2p
(9.31)
Ferreira, D.F.
Estatstica multivariada
329
Se os fatores comuns F e os fatores especficos possuem distribuio normal, estimativas de mxima verossimilhana podem ser obtidas. Do modelo de fatores e da considerao de que as variveis F e possuem distribuio normal pode concluir que X j = LFj + j tambm normalmente distribudo e portanto a funo de verossimilhana :
L(, ) = (2) np / 2
n / 2
1 n t t exp tr 1 ( X j X )( X j X ) + n X X = 2 j=1
)(
= (2)
(n 1)p / 2
(n 1) / 2
1 exp tr 1Sn 2
(9.32)
(2) p / 2
1/ 2
t n exp tr X 1 X 2
)
para L dadas por
(9.33)
9. Anlise de fatores
330
1/ 2
Sn 1/ 2 1/ 2 L = 1/ 2 L +
)(
(9.34)
= Lt 1L
(9.35)
Assim, a equao (9.34) pode ser rescrita de outra forma, procedendo as seguintes operaes:
( (
1/ 2
Sn 1/ 2 1/ 2 L = 1/ 2 L + Lt 1L
) )
1/ 2
Sn 1/ 2 1/ 2 L 1/ 2 L = 1/ 2 LLt 1L
1/ 2
Sn 1/ 2 1/ 2 L = 1/ 2 LLt 1L
Logo,
1/ 2 Sn 1/ 2 1/ 2 L = 1/ 2 LLt 1L
(9.36)
Ferreira, D.F.
Estatstica multivariada
331
(S
1 , e portanto
1/ 2 Sn 1/ 2 ,
quais devem ser obtidos da relao = Diag(S LLt ) . Sendo assim, o processo de
estimao deve ser executado iterativamente estimando-se os vetores
correspondentes aos m maiores autovalores de Sn podem ser utilizados como valores iniciais do processo iterativo. Os elementos desses vetores devem ser reescalonados para que as somas de seus quadrados sejam iguais aos respectivos autovalores. O processo iterativo descrito a seguir:
10
, 20 ,..., m0
de Sn e os vetores
9. Anlise de fatores
332
a i0 , na matriz P0 apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz Q 0 (p x m) definida por Q 0 = [ e10 e 20 ... e m0 ] , sem re-escalonar. Dessa forma, possvel definir as matrizes 0 (m x m) e P0 (p x m) por:
10 0 0 = 0
0 0
20
0 0 m0
e
P0 = Q 0 1/ 2 0
0 = Diag Sn P0 P0t
(9.37)
3. Obter a matriz
0 1/ 2 Sn 0 0 1/ 2
(9.38)
, 21 ,..., m1
Ferreira, D.F.
Estatstica multivariada
333
11 0 0 21 1 = 0 0
0 0 m1
P1 = Q11/ 2 1
( )
L1 = 1/ 2 P1 0
(9.39)
4. Calcular
1 = Diag Sn L1Lt1
(9.40)
9. Anlise de fatores
334
( )
L Z = D 1/ 2 L
(9.41)
Z = D 1/ 2 D 1/ 2
(9.42)
(9.43)
Ferreira, D.F.
Estatstica multivariada
335
options ps=5000 ls=80 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; L0=Diag(eigval(S));P0=eigvec(S); numfac=1;numIt=100; L0=L0[1:numfac,1:numfac]; P0=P0[1:p,1:numfac];P0=P0*root(L0); print L0 P0; Psi0=diag(S-P0*P0`); print psi0; psii=psi0; do i=1 to numIt; Print '_______________________________________________________________'; print 'iteracao ' i; Print'________________________________________________________________'; Delta=inv(root(psii))*(S-psii)*inv(root(psii)); *print delta; Li=Diag(eigval(delta));Pi=eigvec(delta); Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac]; Pi=root(psii)*Pi*root(Li); *print Li Pi; Psii=diag(S-Pi*Pi`); /*soma de quadrados dos residuos do modelo*/ resi=S-pi*pi`-psii; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; *print psii; Print'________________________________________________________________'; end; Print 'Solucao final do modelo de fatores'; Print 'Cargas fatoriais'; print Pi; print 'Variancias especificas'; print psii; resi=S-pi*pi`-psii; print 'matriz de residuos'; print resi; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; print 'Cargas fatoriais de Z-variaveis padronizadas'; D=root(inv(diag(S))); PiZ=D*Pi; print PiZ; print 'Variancias especificas fatoriais de Z-variaveis padronizadas'; PsiZ=D*psii*D; print PsiZ; Li=Diag(eigval(delta)); print Li; quit;
9. Anlise de fatores
336
(9.44)
O processo descrito anteriormente para a obteno das solues de mxima verossimilhana possui convergncia lenta. Aitken (1937) props uma tcnica conhecida por processo 2 de acelerao dos esquemas iterativos de convergncia. Seja
jt
sima coluna da matriz de cargas fatoriais Lt do estgio t. O processo de Aitken (1937) prev para 3 consecutivos valores de
jt
ij(t 1) 2 i jt
=
ij(t +1)
ijt
2
jt
(9.45)
ij(t 1)
em que valor de
ijt
2 i jt
.
2 jt
convergem mais
Ferreira, D.F.
Estatstica multivariada
337
Exemplo 9.2. Utilizando a matriz de covarincias amostral das 24 tartarugas fmeas que foram mensuradas em p = 3 variveis X1, X2 e X3, as quais so: comprimento, largura e altura de carapaas transformadas por logaritmo, determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de estimativas de mximas verossimilhanas.
4,9810 3,8063 4, 7740 S = 3,8063 3, 0680 3, 7183 4, 7740 3, 7183 4,8264
i)
ii)
t 0 0
iii)
Foi obtida a seguinte matriz e desta extrados os autovalores e autovetores. O m = 1 primeiro autovalor e autovetor correspondente
9. Anlise de fatores
338
0 1/ 2 Sn 0 0 1/ 2
iv)
Ferreira, D.F.
Estatstica multivariada
339
41 = Diag Sn L L
t 41 41
SQResduos= 1,453E-14
1 4,9810 L Z = D 1/ 2 L = 0 0
0 1 3, 0680 0
9. Anlise de fatores
340
Z = D 1/ 2 D 1/ 2
Exemplo 9.3. A matriz de correlao entre 10 escores das respectivas 10 provas do declato, medidas em n = 160 atletas, est apresentada a seguir. Obter os m = 4 fatores pelo mtodo da mxima verossimilhana. As dez variveis mensuradas so: i) corrida de 100 m rasos; ii) salto em distncia; iii) lanamento de peso; iv) salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A matriz de correlao dos escores dos 160 competies.
1, 00 0,59 0,35 1, 00 0, 42 1, 00 R=
0,34 0, 63 0, 40 0, 28 0, 20 0,51 0, 49 0,52 1, 00 0,31 0,36 0,38 0,19 0,36 0, 73 0, 24 0, 29 0, 46 0, 27 0,39 1, 00 0,34 0,17 1, 00 1, 00 0, 23 0, 24 1, 00 0,32 0,33
A soluo de m = 4 fatores, dada por Johnson e Wichern (1998), foi obtida pelo algoritmo apresentado nesse material por meio das estimativas de mxima verossimilhana. Aps 100 mil iteraes o algoritmo convergiu.
Ferreira, D.F.
Estatstica multivariada
341
Estimativas de mxima verossimilhana Cargas fatoriais estimadas Variveis Corrida 100m Salto em distncia Lanamento de peso Salto em altura corrida 400m 110m com barreira Arremesso de disco Salto com vara Arremesso de dardos 1500m rasos Proporo cumulativa da varincia explicada F1 -0,0869 0,0688 -0,1294 0,1603 0,3787 -0,0178 -0,0563 0,1573 -0,0218 0,9986 0,12 F2 0,3449 0,4352 0,9911 0,4059 0,2437 0,3629 0,7294 0,2640 0,4411 0,0496 0,37 F3 0,8290 0,5931 -0,0038 0,3343 0,6702 0,4234 0,0268 0,2275 -0,0115 -0,0004 0,55 F4 -0,1685 0,2746 -0,0007 0,4451 -0,1372 0,3878 0,0182 0,3937 0,0971 -0,0001 0,61 Varincias especficas
i = 1 h i2
0,157935 0,378693 0,001053 0,499688 0,329262 0,538310 0,463815 0,698795 0,795340 0,000408
9. Anlise de fatores
342
A fatorao de em LLt + no nica, conforme discusso realizada na seo 9.2. A ps-multiplicao da matriz de cargas fatoriais L por qualquer matriz ortogonal conformvel (T) conduz a uma fatorao igualmente vlida. A soluo numrica de Rao-Maxwell para as equaes de verossimilhana
remove essa indeterminao por adotar a restrio de que Lt 1L seja uma matriz
diagonal. No obstante, aps a obteno da soluo de mxima verossimilhana, qualquer transformao ortogonal pode ser realizada. A idia aplicar tal transformao rgida dos eixos coordenados, a qual conduz a um padro que tornam as cargas fatoriais mais facilmente interpretveis. Essa rotao rgida dos eixos coordenados das m-dimenses fatoriais chamada de rotao das cargas fatoriais. Citado por Morrison (1974) Thurstone sugere um critrio de resposta de simples estrutura para a realizao da rotao fatorial. Estruturas como a sugerida raramente existe em dados reais e no ser descrito o procedimento de Thurstone. Outra tcnica de uso limitado a obteno de rotao graficamente dos fatores plotados dois a dois. A rotao analtica o procedimento mais comumente empregado. Na rotao ortogonal rgida as propriedades estatsticas dos fatores ficam inalteradas, embora a matriz de cargas fatoriais no seja a mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma rotao rgida pela matriz ortogonal T (m x m) por meio da seguinte operao:
Ferreira, D.F.
Estatstica multivariada
343
j=1
*2 ij
=
j=1
2 ij
h *2 = h i2 i
m i =1 j=1
p
2 ij
p m = i =1 j=1
4 ij
+ 2
p m 1
i =1 j=1 k = j+1
2 2 ij ik
(9.46)
tambm invariante. Com esse resultado em evidncia possvel especificar critrios de simplicidade ou parcimnia propostos pelos analistas de fatores (Morrison, 1976). Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como uma medida de parcimnia, por meio de uma escolha adequada de T. Esse resultado foi determinado quase que ao mesmo tempo e independentemente por Carroll (1953). Neuhaus e Wrigley (1954) propuseram a maximizao da varincia do quadrado das pm cargas fatoriais para definir T. A varincia do quadrado das cargas fatoriais :
V =
i =1 j=1
4 ij
1 p m pm i =1 j=1
2 ij
(9.47)
Como o termo de correo meramente soma das comunalidades tomada ao quadrado, ento, a maximizao de V equivalente a maximizar a
9. Anlise de fatores
344
soma da quarta potncia das cargas fatoriais, ou equivalentemente, minimizar a medida de parcimnia de Fergusson (1954) e Carroll (1953). Por argumentos diferentes Sanders (1960) obteve o mesmo critrio de Neuhaus e Wrigley (1954). Esse critrio determina o mtodo denominado de quartimax por maximizar a soma da quarta potencia das cargas fatoriais. Kaiser (1958, 1959) props uma medida de estrutura simples relacionada a soma das varincias das cargas fatoriais quadrticas dentro de cada coluna da matriz L de fatores. O critrio de varimax de linha de Kaiser :
1 v = 2 p
*
p p j=1 i =1
m
4 ij
p i =1
2 ij
(9.48)
Esse critrio d pesos iguais s respostas com grandes e com pequenas comunalidades e Kaiser sugere a melhora desse critrio pelo uso do critrio alternativo:
1 v= 2 p
p 4 p 2 2 p x ij x ij j=1 i =1 i =1
m
(9.49)
em que:
x ij =
ij
j=1
(9.50)
2 ij
Ferreira, D.F.
Estatstica multivariada
345
j-sima carga fatorial do i-sima varivel resposta dividida pela raiz quadrada de sua comunalidade. Na seqncia da rotao os valores de xij devem ser multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a dimenso original. Esse critrio foi nomeado por Kaiser de varimax. O processo computacional para a rotao varimax descrito a seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A rotao desses fatores envolve o simples ngulo , e diferenciando (9.49) com relao a Kaiser mostrou que o ngulo deve satisfazer a relao:
p p p 2 2 2 2 2 2p ( x ir x is ) x ir x is ( x ir x is ) 2 x ir x is i =1 i =1 i =1 tg() = 2 2 p p p 2 2 2 2 2 p ( x ir x is ) ( 2x ir x is ) ( x ir x is ) 2 x ir x is i =1 i =1 i =1
(9.51)
Para que a segunda derivada seja negativa necessrio que 4 seja colocado no quadrante correto. A escolha designada pelos sinais do numerador e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4 em funo destes sinais. A soluo iterativa para a rotao realizada de acordo com os seguintes procedimentos: a rotao do primeiro e segundo fator realizada como ngulo determinado conforme descrio anterior; o novo primeiro fator rotado
9. Anlise de fatores
346
com o terceiro fator original, e assim por diante, at que m(m-1)/2 pares de rotaes tenham sido executadas. Essa seqncia de rotaes repetida at que todos os ngulos sejam menores que um critrio de convergncia especificado , dentro de um ciclo.
Tabela 9.1. Quadrante do ngulo 4 em funo dos sinais do numerador e denominador da equao (9.51). Sinal do denominador + (positivo) - (negativo) Sinal do numerador + (positivo) - (negativo)
: 004<900 : 9004<1800 V: -9004<00 : -18004<-900
Exemplo 9.4. Efetuar a rotao varimax dos m = 3 fatores obtidos por Morrison (1974) apresentados a seguir. (incompleto)
A natureza das estimativas de mxima verossimilhana das cargas fatoriais conduz a um teste formal para o m-simo modelo fatorial. A hiptese nula :
Ferreira, D.F.
Estatstica multivariada
347
(9.52)
Usando a distribuio de Wishart, Morrison (1976) mostra que a razo de verossimilhana fornece o seguinte teste, com a correo de Bartlett (1954):
t (2p + 4m + 5) LL + = n 1 ln S 6 n
2 c
(9.53)
=
graus de liberdade.
1 (p m) 2 p m 2
(9.54)
Pela propriedade da invarincia das cargas e das varincias especficas estimadas segue-se que o valor do teste seria o mesmo da soluo de fatores da matriz de correlao R. Para a aplicao do teste da falta de ajuste necessrio que os graus de liberdade sejam positivos. Isso significa que o nmero de fatores comuns m no pode exceder o maior inteiro que satisfaz a equao:
m<
1 2p + 1 8p + 1 2
(9.55)
9. Anlise de fatores
348
rejeitada, conduzindo a um modelo com um maior nmero de fatores comuns. Por outro lado, quando m for grande em relao a p, a hiptese tende a ser no rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato
LLt + Sn
D 1/ 2 LLt + D 1/ 2 D 1/ 2 Sn D 1/ 2
uma vez que a multiplicao do numerador e denominador no altera o resultado final. Pela propriedade do determinante |AB|=|A||B|, verifica-se que:
Ferreira, D.F.
Estatstica multivariada
349
LLt + Sn
D 1/ 2 LLt D 1/ 2 + D 1/ 2 D 1/ 2 D 1/ 2Sn D 1/ 2
L Z LtZ + z R
Dessa forma o teste de qui-quadrado exatamente o mesmo, quando for aplicado a partir da matriz Sn ou da matriz R, com os dados padronizados.
Os fatores so variveis no observveis, muito embora seus valores possam ser estimados. Os valores estimados dos fatores so denominados de escores. Dois mtodos de estimao so propostos. Ambos tratam as cargas fatoriais e as varincias especficas estimadas como se fossem os verdadeiros valores desconhecidos. Se ocorrer rotao, os escores so obtidos a partir das cargas fatoriais que sofreram rotao e no a partir das originais. No obstante, as frmulas no distinguiro entre as situaes em que ocorreu rotao daquelas em no ocorreu, uma vez que estas frmulas no so alteradas pelas rotaes.
9. Anlise de fatores
350
Suponha que , L e sejam considerados inicialmente como conhecidos para o modelo fatorial:
X = LF +
Como Var(i)=i, no necessariamente igual para todo i, Bartlett (1937) sugeriu o uso dos quadrados mnimos ponderados, usando como peso o recproco das varincias especficas. A soma de quadrados de resduos do modelo fatorial ponderada dada por:
i =1
i2
i
= t 1 = X LF 1 X LF
(9.56)
1 F = ( Lt 1L ) Lt 1 X
(9.57)
Como, de fato, L, e so desconhecidos, os respectivos estimadores devem ser utilizados para a obteno dos escores fatoriais:
Ferreira, D.F.
Estatstica multivariada
351
Fj = Lt 1L
Lt 1 ( X j X ) j = 1, 2, ..., n
(9.58)
Fj = LtZ 1L Z Z
LtZ 1Z j j = 1, 2, ..., n Z
(9.59)
Fj* = T ' Fj
(9.60)
X = LF +
Considerando que L e so conhecidas, e que F e possuem distribuio normal multivariada com mdia e varincias dadas pelas equaes de
9. Anlise de fatores
352
(9.3) a (9.6), a combinao linear X = LF + tem distribuio N p ( 0, LLt + ) . A distribuio conjunta de X e F , tambm, N m + p ( 0, * ) ; em que:
LLt + = t L
*
(9.61)
A mdia 0 um vetor [(m+p)1] de zeros. A distribuio condicional de F / x normal com mdia e varincia dados por:
E ( F / x ) = Lt 1 x = Lt ( LLt + )
e
(x )
1
(9.62)
C ov ( F / x ) = Lt 1L = Lt ( LLt + ) L
(9.63)
Os coeficientes Lt ( LLt + )
multivariada dos fatores com as variveis originais. As estimativas desses coeficientes produzem os escores fatoriais. Dados as observaes X j e tomando-
Fj = Lt LLt +
) (X X)
1 j
j = 1, 2, ..., n
(9.64)
Ferreira, D.F.
Estatstica multivariada
353
Lt LLt +
) = ( + L L)
1 t 1
Lt 1
(9.65)
pode simplificar o clculo dos escores dos fatores, os quais so dados por:
Fj = + Lt 1L
Lt 1 ( X j X ) j = 1, 2, ..., n
(9.66)
A comparao dos escores fatoriais obtidos por regresso (LS) e por mnimos quadrados ponderados (WLS) pode ser realizada subtraindo os estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regresso por
FjLS e o de mnimos quadrados ponderados por FjWLS e usando a identidade de
Lt LLt + 1
) = ( + L L)
1 t 1
Lt 1
Tem-se:
FjWLS = Lt 1L
) ( + L L) F
1 t 1
LS j
= Lt 1L
LS + Fj
9. Anlise de fatores
354
estimadores anteriores sero aproximadamente os mesmo, ou seja, os estimadores anteriores fornecero aproximadamente os mesmos escores.
9.7. Exerccios
9.7.1. Teste a hiptese de que o modelo com m = 1 fator, apresentado no exemplo 9.1, adequado utilizando o teste de qui-quadrado para falta de ajuste do modelo.
9.7.3. Obter estimativas de mxima verossimilhana para m = 1 e m = 2 dos dados apresentados no exemplo 7.6.7 e calcular os escores pelos dois mtodos apresentados. Para o caso de m = 2 fatores plotar os escores dos dois fatores obtidos.
||[
10
]||
10.1. Introduo
A anlise de correlao cannica centrada na identificao e quantificao da associao entre dois grupos de variveis. O foco da correlao cannica direcionado para a correlao entre uma combinao linear das variveis em um dos grupos com uma outra combinao linear das variveis do outro grupo de variveis. A idia fundamental , a princpio, determinar as combinaes lineares dos dois grupos que possuem a maior correlao. No prximo estgio, determinado o par de maior correlao que seja, ainda, no correlacionado com o par selecionado inicialmente. O processo continua at se esgotar as dimenses de ambos os grupos ou do menor grupo. Os pares de combinaes lineares so denominados de variveis cannicas e suas correlaes so chamadas de correlaes cannicas. A tcnica de encontrar essas combinaes lineares e suas respectivas correlaes devida a Hotelling (1935 e 1936).
356
A idia fundamental encontrar relaes entre dois conjuntos de variveis, em alta dimenso, em poucos pares de variveis cannicas. Vrias aplicaes nas cincias humanas, na gentica entre outras reas so encontradas na literatura.
correlao
cannica
Seja X um vetor de dimenso (p+q x 1), o qual possui matriz de covarincia e mdia . Sejam os vetores X (1) (p x 1) e X (2) (q x 1) definidos como sendo originados de uma partio do vetor original X , representando um grupo com p variveis e outro com q, respectivamente. Sem perda de generalidade assumido que pq. Pressupe-se, tambm, que possui elementos finitos e positiva definida. Para o vetor aleatrio X , os seguintes resultados so apresentados.
(10.1)
Ferreira, D.F.
Estatstica multivariada
357
Cuja mdia :
(10.2)
t 12 p = E X X = 11 q 21 22
)(
(10.3)
E ( X (1) ) = (1) Cov ( X (1) ) = 11 (2) (2) Cov ( X (2) ) = 22 E ( X ) = Cov X (1) , X (2) = = t ( ) 12 21
(10.4)
As covarincias entre pares de variveis pertencentes aos dois grupos, uma de X (1) e outra de X (2) , esto contidas em 12. Dessa forma, os pq elementos de 12 medem a associao entre os dois grupos. Se ambos os valores de p e q so grandes, a interpretao simultnea desse conjunto de covarincias uma tarefa difcil e na maioria das vezes infrutfera. Como a finalidade, em geral,
358
de realizar predio ou realizar comparao, o interesse pode ser focado em combinaes lineares das variveis originais. A idia , portanto, concentrar a ateno em algumas poucas combinaes lineares de variveis pertencentes a
X (1) e a X (2) , ao invs de utilizar todas as pq covarincias contidas em 12.
Seguindo
notao
normalmente
utilizada
na
literatura
U = a t X (1) V = b t X (2)
(10.5)
Var(U) = Cov ( a t X (1) ) = a t 11a t (2) t Var(V) = Cov ( b X ) = b 22 b t (1) (2) t Cov(U, V) = a C ov ( X , X ) b = a 12 b
(10.6)
Corr(U, V) = U, V =
a t 12 b a t 11a b t 22 b
(10.7)
Ferreira, D.F.
Estatstica multivariada
359
Hotelling (1935 e 1936) props estabelecer os pares (Ui, Vi), i=1, 2, ..., p, determinando os vetores ai e bi que maximizam (10.7). As variveis Ui e Vi so denominadas de variveis cannicas e a correlao entre elas de
correlao cannica. Na seqncia so apresentados os resultados necessrios para a maximizao de (10.7) e, portanto, para a obteno das variveis cannicas e de suas correlaes. Para determinar o mximo de U,V, inicialmente so impostas as restries:
a t 11a = b t 22 b = 1
(10.8)
A mudana de escala imposta pelas restries (10.8) no afeta a correlao (10.7). Para obter o mximo de U,V preciso derivar a equao (10.7) com relao aos vetores a e b e igualar as derivadas parciais a zero. As equaes obtidas so:
(10.9)
Igualando as derivadas parciais de (10.9) a zero e impondo as restries (10.8), rearranjando alguns termos, obtm-se:
360
( a t 12 b ) 11a + 12 b = 0 t t 12a ( a 12 b ) 22 b = 0
(10.10)
fcil observar que (10.7) sujeita as restries (10.8) se torna igual a U, V = a t 12 b , que o valor mximo, ento:
U, V 11a + 12 b = 0 t 12a U, V 22 b = 0
(10.11)
Assim, para soluo de (10.11) necessrio que o determinante dos coeficientes do sistema de equaes homogneas seja nulo. Logo,
U, V 11 12 =0 t 12 U, V 22
(10.12)
Uma importante propriedade dos determinantes reproduzida a seguir. Seja uma matriz A com as seguintes parties:
A A = 11 A 21
A12 A 22
(10.13)
Ferreira, D.F.
Estatstica multivariada
361
(10.14)
Utilizando o resultado (10.14) no determinante (10.12), obtm-se os seguintes resultados para a primeira equao:
U, V 11 U, V 22 +
1 U, V
t 1211112 = 0
Como U, V 11 diferente de zero, pois 11 positiva definida, ento, o determinante anterior s ser zero se:
U, V 22 +
1 U, V
t 1211112 = 0
Como o resultado dessa equao zero, no h alterao se ambos os termos da equao esquerda da desigualdade for multiplicado por ( U, V ) . Se procede da mesma forma para a segunda equao do determinante de (10.14). O resultado final dessa derivao :
362
(10.15)
Fazendo = 2 , verifica-se que as equaes determinantais de U,V (10.15) podem ser vistas como maximizao de pares de formas quadrticas (captulo 2) do tipo:
=
restrito a e t Be =1.
e t Ae e t Be
(10.16)
A resoluo do sistema de equaes pode ser feita aplicando uma transformao linear no singular. Isso ilustrado doravante com a equao (a) de (10.16). Seja 1/ 2 a matriz raiz quadrada de 11 e considere a transformao 11
1/ linear c = 1/ 2 a , ento, a = 11 2 c . Se a equao (a) for pr-multiplicada por 111/ 2 e 11
Ferreira, D.F.
Estatstica multivariada
363
1/ 2 11
Ento a soluo de (a) dada pela soluo do seguinte sistema de equaes homogneas:
1/ 2 11
t 1/ 12 112 11 2 i ) ci = 0 22
(10.17)
os mesmos do sistema no transformados por serem invariantes com relao a transformaes no singulares, no entanto, os autovetores so afetados pela transformao. Dessa forma, os autovetores devem ser recuperados pela transformao linear inversa a efetuada. Assim,
a i = 111/ 2 ci
(10.18)
Tratamento igual dado para a equao (b) de (10.16), agora efetuando a transformao linear d = 1/ 2 b . Ento, 22
364
1/ 2 22
t 1211112 1/ 2 i ) d i = 0 22
(10.19)
bi = 1/ 2 d i 22
(10.20)
= a t 12 b Max ( U, V ) = t t a 11a b 22 b a, b
a t 12 b
Max ( U, V ) = i a, b
(10.21)
Ferreira, D.F.
Estatstica multivariada
365
Var ( U i ) = Var ( Vi ) = 1
(10.22)
A Cov ( U k , U
Cov ( U k , U
1/ t 1/ t t = c k 11 21111 2 c = c k c = c k c = 0 (k )
Logo,
(10.23)
dada por:
(k )
Logo,
366
Cov ( U k , V ) = Corr ( U k , V ) = 0
(k )
(10.24)
Para
(1) Z(2)t = Z1 Z(2) 2
variveis
padronizadas
Z(1) p
(10.25)
respectivamente.
Os
autovetores
originais
devem
ser
recuperados por:
a k = 111/ 2 c k b = 1/ 2 d 22 k k
(10.26)
q
(10.27)
12 p = E ( ZZt ) = 11 q 21 22
Ferreira, D.F.
Estatstica multivariada
367
de forma que:
(10.28)
Corr(U k , Vk ) =
t a k 12 b k t t a k 11a k b k 22 b k
= k
(10.29)
Por se tratarem de variveis artificiais, as variveis cannicas no possuem significado fsico. Se X (1) (p x 1) e X (2) (q x 1) so utilizados, os coeficientes de a e b tm as unidades dos correspondentes coeficientes de X (1) e de X (2) . Se as variveis padronizadas forem utilizadas, ento, os coeficientes cannicos no possuem unidades de mensurao e no dependem da escala das variveis. Em geral, dada uma interpretao subjetiva para as variveis cannicas de acordo com a magnitude das correlaes das variveis originais com
368
as variveis cannicas em foco. Muitos pesquisadores preferem fazer tal relacionamento utilizando os coeficientes cannicos estandardizados. Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores cannicos:
t t a1 b1 t t a 2 e B = b 2 A= t t ap bq
(10.30)
U1 V1 U 2 = AX(1) e V = V2 = BX(2) U= Up Vq
(10.31)
Logo,
(10.32)
A matriz de correlao entre as p variveis originais de X (1) e as p variveis cannicas de U dada pela covarincia entre as p variveis cannicas,
Ferreira, D.F.
Estatstica multivariada
369
1/ 2 11
(1)
1
(1) 11
0 1 (1) 22 0
(10.33)
Assim,
(10.34)
(10.35)
em que V221/ 2 uma matriz diagonal (q x q) com o i-simo elemento dado por
(2) 1/ ii .
370
Para as variveis cannicas calculadas de matrizes de correlao , a interpretao pode ser realizada alternativamente pelas correlaes entre as variveis cannicas e as variveis padronizadas. Sejam AZ (p x p) e BZ (q x q) matrizes compostas dos coeficientes cannicos de Z (1) e Z (2) , respectivamente. As correlaes entre as variveis cannicas e as variveis padronizadas so dadas por:
V , Z( 2) = BZ22
(10.36)
V ,Z(1) = B
t Z 12
As matrizes de correlao (10.34), (10.35) com (10.36), apresentam, no entanto, os mesmos valores numricos, como por exemplo U, Z(1) = U, X(1) , e assim por diante. Verifica-se facilmente isso por:
Ferreira, D.F.
Estatstica multivariada
371
(10.37)
Em que:
X(1) =
1 n (1) Xj n j=1
X(2) =
1 n (2) Xj n j=1
(10.38)
q
(10.39)
S12 p S S = 11 q S21 S 22
372
em que Sk =
1 n X(j k ) X(k ) n 1 j =1
)( X
( ) j
X(
, k, = 1, 2 .
U k = a k X (1) t t (2) Vk = b k X
(10.40)
rU
k , Vk
(10.41)
O processo de maximizao de (10.41) segue estritamente os mesmos passos da maximizao de (10.7), substituindo apenas 11, 22 e 12 por S11, S22 e S12, respectivamente. As equaes homogneas correspondentes ao mximo so dadas por:
(10.42)
Ferreira, D.F.
Estatstica multivariada
373
Em que o mximo de ru
bk obtidos por:
k , Vk
dado por
k , para os autovetores ak e
(10.43)
t sendo que c k k-simo autovetor de S111/ 2S12S1S12S111/ 2 e d k o k-simo autovetor de 22 1/ t S22 2S12S111S12S1/ 2 ; k o k-simo autovalor de ambas as matrizes, por serem 22
idnticos; k=1, 2, ..., pq. As variveis cannicas amostrais tm as seguintes propriedades: 1. Varincias amostrais unitrias
Var U k = Var Vk = 1
( )
( )
(10.44)
2. Correlaes amostrais:
rU
k;U
= rV ; V = rU
k
k;V
= 0 (k )
(10.45)
rU
k ; Vk
= k
(10.46)
374
t b1 t a1 t t a 2 e B = b 2 A= t b t ap q
(10.47)
U1 V1 U2 (1) V U = = AX e V = 2 = BX(2) U V p q
(10.48)
As correlaes entre as variveis cannicas amostrais e as variveis originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as
(1) (2) matrizes diagonais D111/ 2 = Diag 1/ Sii , (pxp) e D 1/ 2 = Diag 1/ Sii , (qxq). 22
R U, X(1) = AS11D111/ 2
(10.49)
Ferreira, D.F.
Estatstica multivariada
375
1/ R U, X( 2) = AS12 D 22 2
(10.50)
(10.51)
R V, X( 2 ) = BS22 D 1/ 2 22
(10.52)
variveis
padronizadas,
as
variveis
cannicas
U1 V1 U V U = 2 = A Z Z (1) e V = 2 = BZ Z (2) U V p q
(10.53)
em que:
A Z = AD1/ 2 e 11
B Z = BD1/ 2 22
(10.54)
376
mesma forma que os respectivos vetores para variveis no padronizadas, substituindo-se nas expresses correspondentes S11, S22 e S12 por R11, R22 e R12, respectivamente. A relao (10.54) se verifica para o caso de variveis cannicas, mas no se pode estabelecer a mesma relao para os componentes principais de matriz de covarincia e matriz de correlao, como apontado por Johnson e Wichern (1998). As matrizes de correlaes entre as variveis de cada grupo padronizadas e as respectivas variveis cannicas so dadas por:
t R V,Z(1) = BZ R 12
(10.55)
R V,Z( 2) = BZ R 22 = B1 Z
Da mesma forma, fcil verificar que as correlaes no so afetadas pela padronizao, ou seja, as correlaes obtidas em (10.49) a (10.52) so as mesmas as correspondentes em (10.55). Uma importante avaliao da qualidade do potencial das variveis cannicas medir o poder de resumo da variabilidade contida respectivo conjunto. Duas formas bsicas so descritas: na primeira apresenta-se uma matriz de erro da aproximao e na segunda calcula-se a proporo da varincia explicada pelas variveis cannicas para cada grupo de variveis.
Ferreira, D.F.
Estatstica multivariada
377
X(1) = A 1U
X(2) = B1V
(10.56)
A = P (1)tS111/ 2
(10.57)
Ento:
A 1 = S1/ 2 P (1) 11
B1 = S1/ 2 P (2) 22
(10.58)
devido a P (1) e P (2) serem matrizes ortogonais de autovetores, fcil perceber que
(P )
(1)t
1
= P (1) e P (2)t
= P (2) .
Das definies de U e V sabe-se que a covarincia entre eles uma matriz diagonal (pxq) com
k na k-sima diagonal para k=1, 2,...p, e
378
( U, V ) = AS
12
( U ) = AS A
11
(10.59)
( V ) = BS
22
Bt =
Assim,
( )
S11 = A 1 A 1
( )
S22 = B1 B1
( )
A idia reter um nmero r menor ou igual a p de variveis cannicas em cada grupo. O nmero r escolhido de determinada forma que a covarincia amostral dentro de grupo seja reproduzida de uma forma satisfatria. Da mesma forma desejvel uma boa aproximao das covarincias entre grupos S12. Sejam, ento, as matrizes compostas das r (rp) primeiros autovalores e
t t autovetores de S111/ 2S12S1S12S111/ 2 e de S1/ 2S12S111S12S1/ 2 definidas por: 22 22 22
Ferreira, D.F.
Estatstica multivariada
379
A r = Pr(1)t S111/ 2
t c1 t c = 2 S111/ 2 t cr
(10.60)
Br = Pr(2)t S1/ 2 22
t d1 t d = 2 S1/ 2 22 dt r
(10.61)
1 0 r = 0
0 2 0
0 0 r
(10.62)
(10.63)
Considerando as matrizes de resduos E11, E22 e E12 das reprodues de S11, S22 e S12, respectivamente, tm-se:
380
( A )( A )
1 r 1 r
(a)
( B )( B )
1 r 1 r 1 r
(b)
t
(10.64)
(A ) (B )
r 1 r
(c)
A segunda alternativa relacionada a essa que apresenta em simples nmero a explicao do respectivo conjunto, em substituio aos p(p-1)/2, q(q-1)/2
t ou pq valores de E11, E22 e E12. Como tr ( S11 ) = tr A 1 A 1 + tr ( E11 ) , e assim r r
( )( )
por diante para as demais matrizes, a explicao das r variveis cannicas para o seu respectivo conjunto dada por:
tr ( E11 ) (1) %Exp U1 , U 2 , , U r de X = 100 1 tr ( S ) (a) 11 %Exp V , V , , V de X (2) = 100 1 tr ( E 22 ) (b) 1 2 r tr ( S22 )
( (
(10.65)
U = a t X (1)
V = b t X (2)
Ferreira, D.F.
Estatstica multivariada
381
no existem vantagens em realizar uma anlise de correlao cannica. Ento, evidente que um teste de hiptese de que (12) seja igual a uma matriz nula primordial para a validao da anlise de correlao cannica. A seguir apresentado o teste para a hiptese:
H 0 : 12 = 0 (p q) vs H1 : 12 0
(10.66)
Seja o vetor aleatrio normal de dimenso (p + q x 1) com mdia e covarincia , dado por:
X (1) j X j = (2) X j
cuja covarincia pode ser particionada em:
12 p = 11 q 21 22
Sob H0 o mximo da funo de verossimilhana dado por L0 e sob H1 por L1, quais sejam:
n / 2
exp ( n(p + q) / 2 )
(10.67)
382
em que n o tamanho da amostra, S11 e S22 so os estimadores das covarincias amostrais do grupo 1 e do grupo 2 de variveis, p e q representam o nmero total de variveis no grupo 1 e 2, respectivamente. Sob H1, modelo irrestrito tem-se:
L1 ( X, S ) = (2) np / 2 S n / 2 exp ( np / 2 )
(10.68)
L 0 ( X, S11 , S22 ) L1 ( X, S )
S11 S22 = S
n / 2
(10.69)
p = n ln 1 i i =1
(10.70)
tem distribuio qui-quadrado com =pq graus de liberdade. Em que a razo de verossimilhana do teste da hiptese (10.66). O teste de razo de verossimilhana compara a varincia amostral generalizada sob H0:
Ferreira, D.F.
Estatstica multivariada
383
S11 0
0 S22
= S11 S22
com
varincia
generalizada
irrestrita,
|S|.
primeiro
caso
com
p(p + 1)/2 + q(q + 1)/2 parmetros e o segundo com (p + q)(p + q + 1)/2. A diferena igual a = pq parmetros, que igual aos graus de liberdade do teste em questo. Bartlett (1939) sugere uma correo para uma melhor aproximao de qui-quadrado, substituindo n em (10.70) por n 1 - (p + q + 1)/2. O teste com a correo de Bartlett (1939) dado por:
1 S11 S22 2 c = n 1 ( p + q + 1) ln 2 S
p 1 = n 1 ( p + q + 1) ln 1 i 2 i =1
(10.71)
= p = 0 ) for rejeitada,
r que diferem
cannicas
significativamente de zero. Em que k a notao abreviada de Uk ;Vk . Bartlett (1938) sugere um teste seqencial baseado na razo de verossimilhana. A princpio, testar a hiptese de que a primeira correlao cannica no nula e as demais (p-1) so nulas; em seguida, testar que as duas primeiras so no nulas e as demais (p-2) so nulas; e assim por diante. Para o k-simo passo desse processo testar a hiptese H (k ) dada por: 0
384
H (k ) : 1 0, 2 0, , k 0, k +1 = k + 2 = 0 H (k ) : 0 para algum i k + 1 i 1
= p = 0
(10.72)
O teste dessa hiptese incorporando a correo de Bartlett (1939) pode ser realizado por:
p 1 2 c = n 1 ( p + q + 1) ln 1 i 2 i = k +1
(10.73)
o qual possui distribuio de qui-quadrado com =(p-k)(q-k) graus de liberdade. O teste realizado para k=1, 2, ..., (p-1). Cada hiptese da seqncia H 0 , H (1) , H (2) , etc. testada uma de 0 0 cada vez at que H (k ) no seja rejeitada para algum k. O valor nominal da 0 significncia no , e possui difcil determinao. O teste especialmente til para os dados normais e deve ser interpretado com cautela, e possivelmente deva melhor ser usado como um guia no muito refinado de seleo do nmero r de variveis cannicas a ser retido. As distribuies amostrais das variveis cannicas possuem um estudo mais detalhado em Kshirsagar (1972). Uma outra opo para esse teste apresentada por Morrisson (1976) que afirma que a distribuio do maior autovalor segue a distribuio da maior raiz caracterstica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2. O teste anterior foi generalizado por Wilks (1935) para avaliar a independncia entre k grupos de variveis. O teste de razo de verossimilhana
Ferreira, D.F.
Estatstica multivariada
385
para a hiptese de independncia entre k-grupos da distribuio normal multivariada apresentado doravante. Seja , matriz de covarincia para todas as variveis, particionada em k grupos, cada um com pi variveis; a sub-matriz ij de dimenso pixpj (ij=1, 2, ...,k) uma partio de que contem as correspondentes covarincias entre as pi variveis do i-simo grupo com as pj variveis do j-simo grupo. A hiptese de interesse :
(10.74)
Vc =
(10.75)
cuja distribuio muito complicada. Mas Box (1949) obteve boa aproximao de qui-quadrado com graus de liberdade. O teste proposto :
2 c =
n 1 ln ( Vc ) C
(10.76)
em que:
386
1 1 C = 1 12 (n 1) ( 23 + 3 2 ) 1 = 2 2
e
(10.77)
k k S = p i pS ; i i =1 i =1
S = 2, 3
(10.78)
Se k = 2 com p1 = p e p2 = q, o teste (10.76) exatamente o mesmo de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste se especifica no teste apresentado no captulo 7, para a independncia de variveis, ou seja, H0: =diag(ii). Ento, esse teste uma generalizao dos demais supra citados. conveniente que se saliente que se os testes forem aplicados sobre a matriz de correlao, os resultados so equivalentes aos obtidos para a matriz de covarincias, substituindo-se S por R nas expresses anteriores.
10.5. Exerccios
10.5.1. Verifique que a derivao do mximo de (10.7) pode ser obtida a partir de (10.16) utilizando o fator de Cholesky F, na transformao linear de
a = ( F111 ) c e de b = ( F221 ) d no lugar de a = 111/ 2 c e de b = 1/ 2 d , 22
Ferreira, D.F.
Estatstica multivariada
387
(1) 10.5.2. Dois testes ( X1 e X (1) ) de leitura foram aplicados em n=140 crianas 2 (2) juntamente com dois testes de aritmtica ( X1 e X (2) ). A matriz de 2
1, 0000 0, 6328 1, 0000 0, 4248 0, 2412 0, 0586 R 11 = ; R 22 = 0, 4248 1, 0000 ; e R 12 = 0, 0553 0, 0655 0, 6328 1, 0000
H 0 : 12 = 12 = 0 (p q) vs H1 : 12 = 12 0
H 0 : 1 0; 2 = 0 Vs H 0 : 2 0
388
c) estime as matrizes E11, E22 e E12 para o primeiro par de variveis cannicas (r=1).
d) Determine a proporo da variao explicada pelo primeiro par de variveis cannicas nos dois grupos.
||[
Referncias bibliogrficas
11
]||
ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed. New York, John Wiley, 1984, 675p. ANDERSON, T.W. The asymptotic theory for principal components analysis, Annals of Mathematical Statistics, v.34, p.122-148, 1963.
BARTLETT, M.S. A note on multiplying factors for various Chi-Square approximations. Journal of the royal Statistical Society Series B. v.16, p.296-298, 1954.
BARTLETT, M.S. A note on tests of significance in multivariate analysis. Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.
BARTLETT, M.S. Further aspects of the theory of multiple regression. Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.
BARTLETT, M.S. The statistical conception of mental factors. British Journal of Psychology. v.28, p.97-104, 1937.
390
BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem, Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.
BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw Hill, 1975.
BOX, G.E.P. A general distribution theory for a class of likelihood criteria, Biometrika. v.36, p.317346, 1949.
CARROLL, J.B. An analytical solution for approximating simple structure in factor analysis. Psychometrika. v.18, pp.23-28, 1953.
CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power levels for seven solutions to the multivariate Behrens-Fisher problem.
CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special application to two way tables of counts. Journal of American Statistical Association. v.70, n.351, 1975. 626-630p.
DAGOSTINO, R.B.;TITJEN, G.L. Approaches to the null distribution of Biometrika, v.60, p.169-173, 1973.
b1 ,
DAGOSTINO, R.B.;TITJEN, G.L. Simulation probability points of b2 in small samples, Biometrika, v.58, p.669-672, 1971.
391
DINIZ, L de C. Dinmica populacional do piolho de so Jos Quadraspidiotus perniciosus (Comostock, 1881) (Homptera: Dispididae) em pessegueiro, no municpio de Jacu - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertao de mestrado).
FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika. v.19, pp.281-290, 1954.
GIRSHICK, M.A. On the sampling theory of roots of determinantal equations. Annals of Mathematical Statistics. v.10, p.203-224, 1939.
HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321377, 1936.
HOTELLING, H. The most predictable criterion. Journal of Educational Psychology. v.26, p.139-142, 1935.
HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york, 1953. HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell, Waltham, Mass., 1964. JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis when the ratios of the population variances are unknown, Biometrika, v.41, p.19-43, 1954.
392
JOHANSEN, S. The Welch-James approximation to the distribution of the residual sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92, 1980.
JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th edition. Prentice Hall, New Jersey, 1998. 816p.
KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of Educational and Psychological Measurement. v.19, pp.413-420, 1959.
KAISER, H.F. The varimax criterion for analytic rotation in factor analysis. Psychometrika. v.23, pp.187-200, 1958.
KIM, S. A practical solution to the multivariate Behrens-Fisher problem, Biometrika, v.79, n.1, p.171-176, 1992.
KRZANOWSKI, W.J. Principles of multivariate analysis. A users perspective. Oxford, 3rd edition, 1993. 563p.
LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal Society of Edinburgh, Series A. v.61, pp.176-185, 1942.
LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of Mathematical Statistics, v.34, p.149-151, 1963.
393
LAWLEY, D.N. Tests of significance for the latent roots of covariance and correlation matrices. Biometrika, v.43, p.128-136, 1956.
LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46, p.59-66, 1959.
LAWLEY, D.N. The application of the maximum likelihood method to factor analysis. British Journal of Psychology. v.33, pp.172-175, 1943.
LAWLEY, D.N. The estimation of factor loadings by the method of the maximum likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40 (checar), pp.64-82, 1940.
MARDIA, K.V. Applications of some measures of multivariate skewness and kurtosis for testing normality and robustness studies. Sanky. A36, p.115-128, 1974. MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications. Biometrika, p.519-530, 1970. MARRIOTT, F.H.C. The interpretation of multiple observations. London, Academic Press, 1974.
MOMENT, V.G. Comparaes entre diferentes tipos de famlias clonais para o melhoramento gentico da batata (Solanum tuberosum L.). ESAL, Lavras, MG, 1994. 83p. (dissertao de mestrado).
394
MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d ed., 1976. 307p.
NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.
NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher problem. Communications in Statistics: Theory and Methods, v.15, p.37193735, 1986.
PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed. Cambridge University Press, New York, 1966. SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York, 1966. WIKS, S.S. On the independence of k sets of normally distributed statistical variables. Econometrica. v.3, p.309-326, 1935.
YAO, Y. An approximate degrees of freedom solution to the multivariate Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.