Escolar Documentos
Profissional Documentos
Cultura Documentos
Est. Multivariada PDF
Est. Multivariada PDF
ANLISE MULTIVARIADA
LAVRAS, MG
1996
ii
SUMRIO
1. Aspectos da anlise multivariada
Pg.
1
1.1. Introduo
1.4. Distncias
15
1.5. Exerccios
24
25
2.1. Introduo
25
26
34
2.4. Exerccios
82
3. Amostragem multivariada
89
3.1. Introduo
89
90
101
104
113
116
3.7. Exerccios
117
iii
119
4.1. Introduo
119
120
121
125
133
138
143
4.8. Exerccios
169
171
5.1. Introduo
171
171
177
190
192
199
5.7. Exerccios
215
219
6.1. Introduo
219
220
iv
230
6.4. Exerccios
232
7. Componentes principais
233
7.1. Introduo
233
234
250
256
259
7.6. Exerccios
282
8. Anlise de agrupamento
285
8.1. Introduo
285
286
8.3. Agrupamentos
296
8.4. Exerccios
308
9. Anlise de fatores
309
9.1. Introduo
309
310
316
342
346
349
9.7. Exerccios
354
355
10.1. Introduo
355
356
371
380
10.5. Exerccios
386
389
Apndices
395
ndice remissivo
397
||[
Aspectos da
anlise multivariada
]||
1.1. Introduo
Medicina
Sociologia
Biologia
Arranjos
Tabela 1.1. Representao de dados atravs da notao xjk para indicar um valor
particular da k-sima varivel mensurada na j-sima unidade amostral
ou experimental.
Variveis
Unidades amostrais
ou experimentais
2 ...
k ...
X11
X12...
X1k...
X1p
X21
X22...
X2k...
X2p
.
.
.
j
.
.
.
Xj1
.
.
.
Xj2...
.
.
.
.
.
.
Xjp
.
.
.
n
.
.
.
Xn1
.
.
.
Xn2...
Xjk...
.
.
.
Xnk...
.
.
.
Xnp
Estes
valores,
apresentados
na
Tabela
1.1,
podem
ser
x11
x
21
#
X =
x j1
#
xn1
x j 2 " x jk " x jp
#
#
# % #
Exemplo 1.1
Uma seleo de 4 firmas de rao de Minas Gerais foi obtida para
avaliar a venda de raes. Cada observao bivariada forneceu a quantidade de
sacos de rao vendidos e a quantidade de reais de cada venda. Os dados
obtidos na forma tabular so:
Varivel 1 (Reais/venda)
80
120
90
110
Varivel 2 (nmero de
sacos de rao vendidos)
10
12
X11=80
X21=120
X31=90
X41=110
X12=10
X22=12
X32=6
X42=8
80 10
120 12
X =
90 6
110 8
ESTATSTICAS DESCRITIVAS
Xk =
1 n
X jk
n j =1
k=1, 2, ..., p
(1.1)
Sk2 = Skk =
2
1 n
X jk X k )
(
n 1 j =1
k = 1, 2, ..., p
(1.2)
S kk , conhecida como
S kk ' =
1 n
( X jk X k )( X jk ' X k ' )
n 1 j =1
k, k=1,2, ..., p
(1.3)
10
valores das duas variveis, Skk ser aproximadamente zero. Quando k=k, a
covarincia reduz-se a varincia amostral. Alm disso, Skk= Skk, para todo k e k.
A ltima estatstica descritiva a ser considerada aqui o coeficiente
de correlao amostral. Esta medida de associao linear entre duas variveis
no depende da unidade de mensurao. O coeficiente de correlao amostral
para k-sima e k-sima varivel, definido por:
( X jk X k )( X jk ' X k ' )
n
rkk ' =
S kk '
= n j =1
n
2
2
S kk S k ' k '
( X jk X k ) ( X jk ' X k ' )
j =1
(1.4)
j =1
( X jk X k )
S kk
( X jk ' X k ' )
Sk ' k '
correlao
amostral
(r),
em
resumo,
tem
as
seguintes
11
12
n
( X jk X k )
W kk =
j =1
Mdias da amostra
X1
X2
X =
#
X p
S11
S 21
S =
#
S
p1
S12
"
S22
"
Sp 2
"
S1p
S2 p
#
S pp
13
r21
R =
#
r
p1
r12
"
"
rp 2
"
r1p
r2 p
#
1
Exemplo 1.2
Considerando os dados introduzidos no exemplo 1.1, encontrar as o
vetor de mdias X e as matrizes S e R. Neste exemplo, cada firma de rao,
representa uma das observaes multivariadas, com p = 2 variveis (valor da
venda em reais e nmero de sacos de raes vendidas).
As mdias amostral so:
X1 =
1 4
1
X j1 = (80 + 120 + 90 + 110) = 100
4 j=1
4
X2 =
1 4
1
X j2 = (10 + 12 + 6 + 8) = 9
4 j=1
4
X 100
X = 1 =
X2 9
14
S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333
S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667
S21=S12=20,000, e
333,333
S=
20,000
20,000
6,667
A correlao amostral :
r12 =
20
33,333 6,667
= 0,424 3
r21=r12=0,4243
Portanto,
1, 0000 0, 4243
R=
0, 4243 1, 0000
15
1.4. Distncias
d (O, P ) =
x 12 + x 22
(1.5)
d (O, P ) =
x 12 + x 22 +...+ x 2p
(1.6)
16
X2
d(O, P)
X1
Figura 1.1. Distncia entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo
teorema de Pitgoras.
Todos os pontos (x1, x2, .., xp) que contm uma distncia ao
quadrado, denominada c2, da origem, satisfaz a equao:
d (O, P ) = x 12 + x 22 +...+ x 2p = c
(1.7)
d ( P ,Q ) =
( x 1 y 1) 2 + ( x 2 y 2 ) 2 +...+( x p y p )
(1.8)
17
18
6
5
4
3
2
X2
-6
-4
-2
0
-1
-2
-3
-4
-5
-6
19
s 22
s11
* 2
* 2
d (O, P ) = ( x 1 ) + ( x 2 ) =
x 12
S 11
x 22
S 22
(1.9)
x 12
S 11
x 22
S 22
=c
(1.10)
20
X2
0.5
cS 22
0.5
-cS 11
0.5
cS 11
X1
0.5
-cS 22
x 12
S 11
x 22
S 22
=c
Exemplo 1.3
Um conjunto de pares (x1, x2) de duas variveis forneceu X1 = X 2 = 1 ,
S11=9 e S22=1. Supe-se que as observaes de x1 so independentes de x2. A
distncia quadrtica de um ponto arbitrrio (P) da origem, uma vez que as
varincias da amostra no so iguais, dada por:
d (O, P ) =
x1
9
x2
1
21
Todos os pontos (x1, x2) que possuem distncias quadrada da origem igual a 1,
satisfazem a equao:
x1
9
x2
1
(1.11)
=1
Distncia ao quadrado
2
0
9
0
9
+ 11 = 1
+
2
( 3, 0)
3
9
(-3, 0)
( 3 )
9
( 1)
1
+
2
0
1
=1
=1
2
0
1
=1
22
x2
4
3
2
1
0
-5
-4
-3
-2
-1
0
-1
x1 5
-2
-3
-4
-5
d (P ,Q ) =
(x1 y1)
S11
(x 2 y 2 )
S 22
+"+
(x p y p )
S pp
(1.12)
23
Proc IML;
X={ 80 10,
120 12,
90
6,
110 8};
Print X;
n=nrow(X);p=ncol(X);
Xbar=x`*j(n,1,1)/n;
Print Xbar;
q=i(n)-(1/n)*j(n,n,1);
print q;
S=(1/(n-1))*X`*q*X;
W=(n-1)*S;
print S W;
V=diag(S);
Vroot=half(V);
IVroot=inv(Vroot);
R=Ivroot*S*Ivroot;
Print V Vroot IVroot;
Print R;
Quit;
24
1.5. Exerccios
x2
11
11
15
16
10
12
x3
14
13
a) Construa o grfico de disperso dos pontos das variveis x1 e x2, x1 e x3, x2 e x3.
Comente sobre sua aparncia.
c) Calcule
distncia
euclidiana
dada
em
(1.8)
de
um
ponto
||[
]||
2.1. Introduo
26
POSTULADOS
Y = cX
Ferreira, D.F.
Estatstica multivariada
27
Z = X + Y
3. A adio de vetores :
Comutativa: X + Y = Y + X
Associativa: X + ( Y + Z ) = ( X + Y ) + Z
X + 0 = X
0 .X = 0
X.Y = x i yi = x1 y1 + x 2 y 2 +
i =1
+ x n yn
28
X = X.X = x i2 = x12 + x 22 +
2
i =1
+ x 2n = d 2 (P, O)
(2.1)
X = X.X
(2.2)
Cos ( ) =
X.Y
X.X Y.Y
(2.3)
Ferreira, D.F.
Estatstica multivariada
29
d(X, Y) = X Y = (X Y).(X Y)
(2.4)
d( X , Y ) d( X , Z ) + d( Y , Z )
(2.5)
a.b a . b
(2.6)
ORTOGONALIDADE
30
X.Y = 0
(2.7)
( X .X
i
( Xi .Xi = 1)
Passo 1: normalize X1 :
X1 =
X1
X1.X1
X1 .X1 0
Ortogonalizando X1 e X 2 :
X 2 = X 2 ( X 2 .X1* ) X1*
Ento, normalizando-se X 2 :
Ferreira, D.F.
Estatstica multivariada
X*2 =
31
X .X
X 2 ; X 2 .X 2 0
Ento, normalizando-se X 3 :
X*3 =
X .X
X 3 ; X 3 .X 3 0
32
Exemplo 2.1
Dado o conjunto de vetores, a seguir, utilizar como ilustrao a construo de
Gram-Schimidt.
1
1
X=
1
1
1
0
0
0
0
1
X = [ X1 X 2 X 3 ]
Passo 1. Normalize X1 :
1 1
X1* =
2 1
Passo 2: Ortonormalize X 2 :
Ferreira, D.F.
Estatstica multivariada
33
1
1
1
1
1
1 1 1
ortogonalizao: X 2 =
1.
=
0
2 1 2 1
0
1
1
1
1
1
1 1
1 1
Normalizao: X*2 = . =
1 2 1 2 1
1
1
Passo 3: Ortonormalizao de X 3
0
1
1 0 12 + 12 0
0
1 1
1 1 0 12 + 12 0
1.
(1).
=
=
ortogonalizao: X 3 =
1
2 1
2 1 1 12 12 0
1 1
1
1
1 1 2 2 0
34
12
1
X 2 = 12
2
1
2
12
12
1
2
1
2
T=UA
A+ = T(TT)-1U.
Ferreira, D.F.
Estatstica multivariada
35
a 11
a
= 21
A
n x p
a n1
a
a
a
12
22
n2
a
a
2p
a np
1p
A=[aij]
i=1, 2,..., n
j=1, 2, ..., p
(2.8)
POSTULADOS
A=B
aij=bij
36
2. Adio: A soma de duas matrizes de mesma ordem obtida pela soma dos
elementos correspondentes:
nAp + n0p
= nAp
cA = c[ aij] = [ caij]
A
B
=
AB
=
n q q p
a ij b jk = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C
j=1
Ferreira, D.F.
Estatstica multivariada
37
Em geral AB BA.
1 0
0 1
=
0 0
0
0
Verifica-se que:
nAp pp
= nAp
nn nAp
= nAp
d1 0
0 d
2
D = diag[d1, d2, ..., dn] =
0 0
0
0
d n
38
(AB)-1 = B-1A-1
6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de
uma matriz especfica denominada de matriz transposta. denotada por A.
nAP
(A + B) = A + B
(AB) = BA
Ferreira, D.F.
Estatstica multivariada
39
(A-1) = (A)-1
A12 r
A
A = 11
A 21 A 22 s
p
q
A + B11
A + B = 11
A 21 + B21
p
A12 + B12 r
A 22 + B22 s
q
40
r A
AB = 11
s A 21
p
A12 B11
A 22 B21
q
t
A B + A12 B21
= 11 11
A 21B11 + A 22 B21
t
B12 p
B22 q
u
A11B12 + A12 B22 r
A 21B12 + A 22 B22 s
u
1
1
p A B
p A 1 + A 1B ( D CA 1B ) CA 1
=
1
q C D
q
( D CA 1B ) CA 1
p q
p
1
A 1B ( D CA 1B )
( D CA 1B )1
q
( i +1)
k
(i)
k
=a
a (kji ) a (ji )
a (jji )
ke
Ferreira, D.F.
( i +1)
j
( i +1)
kj
a (ji )
41
a (jji )
a (jji +1) =
Estatstica multivariada
a (kji )
a (jji )
kj
1
a (jji )
Exemplo 2.2
Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:
4 2
A(0) =
2 2
42
A (1) = 4
2
4
2
1
1
4 = 4 2
2 2 21 1
2
4
( 2)
1 12 ( 12 )
= 4 1 1
2
1
12
1
1
1
1
= 21
2
12 1 1 1
=
1 2 1 2
Matrizes ortogonais
Ferreira, D.F.
Estatstica multivariada
43
Exemplo 2.3
Dado a matriz Q, a seguir, verifique sua ortogonalidade:
12
Q= 1
2
2
1
2
Q =
1
2
1
2
1
2
1
2
ento,
12
QQ = 1
2
t
1
2
1
2
1
2
1
2
1
2
1
2
1 2 0 1 0
=
=
2 0 2 0 1
44
e,
QQ=
1
2
1
2
1
2
1
2
12
1
2
1 2 0 1 0
=
= 0 1
1
0
2
2
2
1
2
Determinantes
A = a11
n
A = a ij A ij ( 1)
se n = 1
i+ j
se n > 1
(2.9)
j=1
Exemplo 2.4
Para ilustrar a definio (2.9), sero consideradas as seguintes matrizes:
Ferreira, D.F.
Estatstica multivariada
A = [4]
45
4 2 2
C = 2 2 0
2 0 2
4 1
B=
1 2
A = 4;
B = 4 2 (1) 2 + 1 1 (1)3 = 4.2.1 1 1 1 = 7 ;
C = 4
2 0
0 2
(1) 2 + 2
2 0
2 2
(1)3 + 2
2 2
2 0
(1) 4
1. A t = A ;
46
kA = k n A
7. A 1 =
1
1
=A ;
A
8. |AB| = |A||B|.
Ferreira, D.F.
Estatstica multivariada
47
Teorema da multiplicao
B C n
A=
D E n
n n
0 B1C
DB1 e
48
DB1
0 B C B1C
D E 0
C
0
B
B1C B
1
1
0 E DB C
0 DB C + E 0
V
V= 1
0
n
0 n
V2 n
n
V = V1 V2
A =
B
0
0
1
E DB C
= B E DB1C
Ferreira, D.F.
Estatstica multivariada
49
B C
0
=B E
I A A 0 0 AB
0 I I B = I B
I B
AB
I B
= ( 1)n
AB
50
n
A B = ( 1) AB I
n
n
A B = ( 1) ( 1) AB
2n
A B = ( 1) AB
AB = A B
A 1A = I
A 1 A = 1
1
= A 1
A 1 =
A
Ferreira, D.F.
Estatstica multivariada
51
a11
x
A
=
x
a
m1
x
a1n
x
a mn
(2.10)
( A + B ) A B
=
+
;
x
x x
( AB )
B A
=A
+
B;
x
x x
m = p, n = q
(2.11)
n=p
(2.12)
( A 1 )
A 1
A ;
= A 1
x
x
52
m = n, A 0
(2.13)
X
= 1ij
x ij
(2.14)
em que 1ij uma matriz m x n com 1 na i-sima linha e j-sima coluna e 0 nas
demais posies. Se X for uma matriz diagonal n x n, logo,
X
= 1ii
x ii
(2.15)
Ferreira, D.F.
Estatstica multivariada
g
g
x
x1n
11
g
=
X
g
g
x
x mn
m1
53
(2.16)
a) o trao
tr ( A ) = a ii
(2.17)
i =1
tr ( A + B ) = tr ( A ) + tr ( B ) ,
tr ( A ) = tr ( A ) ,
tr ( A t ) = tr ( A ) ,
tr ( AB ) = tr ( BA ) ,
m=n=p=q
m=n
m=n
m = q, n = p
(2.18)
(2.19)
(2.20)
(2.21)
54
m = s, n = p, q = r
(2.22)
tr ( C )
= 0,
X
r=s
(2.23)
tr ( X )
= I,
X
r =s
(2.24)
tr ( XC )
= Ct ,
X
r = v, s = u
tr ( X t CX )
= ( C + C t ) X,
X
r=v=s=u
(2.25)
(2.26)
Ferreira, D.F.
Estatstica multivariada
tr ( XC )
= Ct ,
X t
r = v, s = u
tr ( X t CX )
= X t ( Ct + C ) ,
t
X
r=v=s=u
55
(2.27)
(2.28)
tr ( A + B ) tr ( A ) tr ( B )
=
+
, m=n=p=q
X
X
X
(2.29)
tr ( AB ) tr ( AB ) tr ( AB )
=
+
, m = q, n = p
X
X
X
(2.30)
tr ( A 1 )
tr ( A 2 A )
, m = n, A 0
=
X
X
(2.31)
tr ( A 1C )
tr ( A 1CA 1A )
=
, m = n = r = s, A 0
X
X
(2.32)
56
b) determinante
X
t
= adj ( X t ) = X ( X 1 ) ,
X
u = v, X 0
(2.33)
ln X adj ( X t )
t
=
= ( X 1 ) ,
X
X
u = v, X 0
(2.34)
xij = xji
i<j
(2.35)
1
g + tr [ U ( X X t )]
2
Ferreira, D.F.
Estatstica multivariada
57
g 1
+ ( U Ut ) = 0
X 2
(2.36)
Como tambm
t
g 1 t
g 1 t
+ (U U) =
(U U) = 0
X 2
X 2
(2.37)
g g
+
=0
X X
(2.38)
tr(Y)
tr(Y)
= Diag
X
x11
tr(Y)
x 22
E se X = x , ento,
tr(Y)
x nn
(2.39)
58
tr(Y) tr(Y)
=
X
x
(2.40)
g
g A t
= tr
x
A x
(2.41)
g ln A
ln A A t
=
= tr
x
x
A x
1 t A t
tr
=
( A ) x
(2.42)
x2
x n ] . A derivada de Z em relao a x t
Ferreira, D.F.
Estatstica multivariada
59
z z i = 1, 2, ..., m
=
x t x j ij j = 1, 2, ..., n
(2.43)
t
x t Ax tr ( x Ax )
=
= 2Ax
x
x
(2.44)
t
x t Ax ( x Ax x ) 2Ax
=
=
= 2A
x t x
x t
x t
(2.45)
Formas quadrticas
x t = [X1
X2
X n ] a expresso:
n 1
i =1
i =1
Q = x t A x = a ii X i2 + 2
a XX
j= i +1
ij
60
( x i2 )
e de produtos
( xix j ) .
Exemplo 2.5
Obtenha a expanso da forma quadrtica, dado o vetor x e a matriz A, a seguir:
x = [ x1
Q = [ x1
x2 ]
4 1
A=
1 2
4 1 x1
x2 ]
= [ 4x1 + x 2
1 2 x 2
x
x1 + 2x 2 ] 1
x2
Q = 4x12 + 2x1 x 2 + 2x 22
x2
Ferreira, D.F.
Estatstica multivariada
n 1
61
d ( 0,P ) = a ii x + 2 a ijx i x j
2
i =1
2
i
(2.46)
i =1 j=i +1
e garantindo que d2 > 0 para todo ponto P0, e fazendo aij=aji, tm-se:
0 < d 2 = x t Ax = x 1
a 11
a 21
x p
a p1
a
a
a
12
22
p2
a
a
2p
a pp
1p
x
1
x p
(2.47)
62
A n = n Sn n Snt
+ Z2n
Se por outro lado, o posto de S for rn, ento o posto de A ser r, e a forma
quadrtica Q = x ' Ax 0, denominada positiva semidefinida (psd). Isso se deve
ao fato de que para algum vetor x 0, a igualdade Q = 0, acontece. O algoritmo
para obteno do fator de Cholesky de uma matriz pd, est apresentado a seguir.
Ferreira, D.F.
Estatstica multivariada
63
1a linha:
S11 = a11
S1j =
a1j
j >1
S11
i-sima linha:
i 1
2
Sii = a ii Sri
r =1
Sij =
i 1
1
ij
S
riSrj
Sii
r =1
i2
j>i
Sii =
1
Sii
para i < j
Sij =
1
Sii
i 1
S S
r =1
ri
rj
i> j
Sij = 0
4. A obteno da A-1, inversa de A, com elementos aij, em que aij=aji, dada por:
64
n
a ii = ( Sri )
a ij = SriSrj
r =i
i> j
r =i
Exemplo 2.6
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir
da matriz A, apresentada a seguir:
4 2 0
A = 2 2 1
0 1 2
Obteno de St:
Primeira linha:
S11 = 4 = 2; S12 =
2
0
= 1; S13 = = 0
2
2
Segunda linha:
S22 = 2 12 = 1
2
Terceira linha:
S23 =
1
[1 1 0] = 1
1
Ferreira, D.F.
Estatstica multivariada
65
S33 = 2 ( 02 + 12 ) = 1
1
Logo,
2 1 0
S = 0 1 1
0 0 1
t
2 0 0
S = 1 1 0
0 1 1
Linha 1:
1
S11 = ;
2
Linha 2:
1
S22 = = 1;
1
1
1
S21 = 1 1 = ;
2
2
linha 3:
1
S33 = = 1;
1
1
1 1
S31 = 1 0 + 1 =
2 2
2
S32 = 1 (1 1) = 1
66
logo,
0 0
2
1
S1 =
1 0
2
1 1
Diagonal principal:
3
1 1 1
a = + + =
4
2 2 2
11
a 22 = 12 + ( 1) = 2
2
a 33 = 12 = 1
Demais elementos:
1
1
a 21 = 1 + (1) = 1;
2
2
1 1
a 31 = 1 = ; a 32 = 1 (1) = 1;
2 2
1
a12 = a 21 = 1; a13 = a 31 = ; a 23 = a 32 = 1
2
Ferreira, D.F.
Estatstica multivariada
67
Logo,
34 1 12
A 1 = 1 2 1
12 1 1
1. SSt = A
2. S-1S = St(S-1) t =
3. S-1A = S t
4. A(S-1) t = S
5. (S-1)A(S-1) t =
68
x t Ax
xtx
para toda matriz A simtrica real. Para a maximizao deve-se tomar a derivada
em relao a x e igualar a zero, resolvendo o sistema obtido, como demonstrado
a seguir.
Q x t Ax
=
= 2Ax
x
x
x t x
= 2x
x
Ferreira, D.F.
Estatstica multivariada
69
2
x t Ax
2Ax(x t x) 2(x t Ax)x
=
= t A t x
(x t x) 2
x x
xx
x
x t Ax
x = 0
A
xtx
Desde que
x t Ax
= , ento para um ponto estacionrio qualquer i,
xtx
( A i ) x i = 0
(2.48)
|A-i| = 0
(2.49)
70
x t Ax
x t Bx
B 0
em que B uma matriz pd. O mximo dado da mesma forma que apresentado
anteriormente, a partir da derivada em relao a x , igualando-a a zero, como
apresentado a seguir:
x t Ax
x t Bx
Bx = (A B)x = 0
= Ax t
2
x Bx
x
(2.50)
A B = 0
(2.51)
Ferreira, D.F.
Estatstica multivariada
71
B = SBSBt
(2.52)
S1A ( S
B
1 t
B
z = 0
72
v (i +1) = Av (i)
A 2 = A 1 x1 x1t
(2.53)
Ferreira, D.F.
Estatstica multivariada
73
Exemplo 2.7
aplicar o power method e determinar os autovalores e autovetores da matriz
apresentada a seguir:
4 2
A=
2 1
1. Determinao de 1 e x1
1
O vetor v (0) ser considerado como: v (0) =
1
(i)
(1)
= Av
(0)
4 2 1 6
=
=
2 1 1 3
Normalizando v (1) :
(1)
66 1
= 3 = 1
6 2
74
Para avaliar a convergncia, os vetores v (0) e v (1) devem ser comparados. Ser
considerado, convergente se todos os elementos de v (1) forem semelhantes aos
elementos correspondentes de v (0) , para uma preciso pr estipulada, ou seja, de
1x10-8. Neste caso, os vetores diferem consideravelmente.
(ii)
4 2 1 5
v (2) = Av (1) =
1 = , normalizando
2 1 2 2.5
1
v (2) = 1
2
v (2) e o primeiro
V (2)
V (2)t V (2)
0,8944
=
0, 4472
0,8944
1 = x1t A x1 = [ 4, 4721 2, 2361]
=5
0, 4472
2. determinao de 2 e x 2
4 2
0,8944
0 0
5
[ 0,8944 0, 4472] =
A 2 = A 1x1 x1t =
2 1
0, 4472
0 0
Ferreira, D.F.
Estatstica multivariada
75
A = 1e1e1t + 2 e 2 e 2t +
+ n e n ent
(2.54)
Exemplo 2.8
Considere a matriz simtrica:
4 2
A=
2 2
76
0,8507
1 = 5, 2361 e1 =
0,5257
0,5257
2 = 0, 7639 e 2 =
0,8507
3, 7893 2,3417
1e1e1t =
2,3417 1, 4471
0, 2111 0,3416
2 e 2 e 2t =
0,3416 0,5528
x t Ax = a11X12 + a 22 X 22 + 2a12 X1 X 2 = c 2
da origem
Ferreira, D.F.
Estatstica multivariada
77
A = 1e1e1t + 2 e 2 e 2t
x t Ax = 1 ( X t e1 ) + 2 ( X t e 2 )
2
= c2 e x = c 2 2 e 2 fornece a
1
e
2
-0,5
e
1
c
1
-0,5
78
A = P P t
n
1
A 1 = P 1P t = ei eit
i =1 i
(2.55)
i como elemento
da i-sima diagonal, ento, a matriz a seguir definida como matriz raiz quadrada
de A e simbolizada por A1/2.
A = i ei eit = P 2 P t
1
2
i =1
(2.56)
Ferreira, D.F.
Estatstica multivariada
79
1. (A1/2)t= A1/2
(A1/2 simtrica)
2. A1/2A1/2=A
( )
3. A
=
i =1
1
i
ei eit = P 2 P t
4. A1/2A-1/2=A-1/2A1/2=
A-1/2A-1/2=A-1
Exemplo 2.9
Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),
usando as equaes (2.55) e (2.56):
4 2
A=
2 2
80
0,5257
2 = 0, 7639 e 2 =
0,8507
0,8507
1 = 5, 2361 e1 =
0,5257
0,8507 0,5257
P=
0,5257 0,8507
0
5, 2361
=
0, 7639
0
0,5257 0,8507 0
0 0,8507 0,5257 1 2 1 2
=
1
0,8507 1 2 1
0,7639 0,5257
A 2 = P 2 P t =
1
0
0,5257 0,8507
Ferreira, D.F.
Estatstica multivariada
81
82
print Sg Sginv;
II=Sginv`*G*Sginv; /* mostrar que igual a identidade */
print ii;
H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */
print H; /* D transformada */
zh=eigvec(H); /* zh matriz de autovetores */
auh=eigval(H); /* auh vetor de autovalores */
xh=Sginv*zh; /* matriz de autovetores recuperados */
teste=xh`*g*xh;
print teste;/*mostrar que resulta na identidade*/
print xh;
print auh;
/* obtencao de matriz raiz quadrada - exemplificar com a matriz D */
aud=eigval(D); /* autovalores de D*/
lamb=diag(aud); /* diagonalizando aud e resultado em lamb
*/
print lamb;
lambS=root(lamb); /* achando a raiz quadrada de lamb
*/
avd=eigvec(D); /* autovetores de D em avd
*/
Droot=avd*lambS*avd`;
/* usando a definio para encontrar a matriz raiz quadrada de D */
print Droot;
DD=avd*lamb*avd`; /* checando propriedades */
print DD;
/* deve ser igual a D */
quit;
2.4. Exerccios
Ferreira, D.F.
Estatstica multivariada
83
X = 1
1
1
1 0 0
1 0 0
0 1 0
0 1 0
0 0 1
6 4 2
B = 4 4 0
2 0 6
84
0,8507 0,5257
P=
0,5257 0,8507
2.5. Seja
8 1
A=
1 2
(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?
Ferreira, D.F.
Estatstica multivariada
85
(g) Encontre os autovalores e autovetores de A-1. Verifique que relao tem como
os valores encontrados em (d).
4, 001
4
A=
4, 001 4, 002
4, 001
4
B=
4, 001 4, 002001
Q = 2x12 2x1 x 2 + 4x 22
positiva definida.
86
4 1
A=
1 2
2 1
B=
1 1
x t Ax
= t
x Bx
B 0
A B = 0 .
25
S=
2
2
4
Ferreira, D.F.
Estatstica multivariada
87
S11
0
1
D 2 =
( ) S (D )
Sendo R = D
Spp
0
S22
0
( ) R (D )
S= D
88
||[
Amostragem multivariada
]||
3.1. Introduo
3. Amostragem multivariada
90
x11
x
21
#
X =
x j1
#
xn1
x j 2 " x jk " x jp
#
#
# % #
Ferreira, D.F.
Estatstica multivariada
91
Exemplo 3.1
Calcule o vetor mdia X para a matriz X apresentada a seguir. Plote os n = 3
pontos no espao p=2 (bidimensional) e localize X no diagrama resultante.
2 1
X = 3 0
2 2
2 + ( 3) + ( 2 )
X =
(1 + 0 + 2 )
3 1
=
3 1
3. Amostragem multivariada
92
3
x3
2
_
x
x1
1
x2
-4
-3
0
-2
-1
1
0
-1
-2
-3
Figura 3.1. Diagrama com n=3 pontos no espao bidimensional (p=2) mostrando o
centro de massa, X .
Ferreira, D.F.
Estatstica multivariada
x11
x
21
#
X =
x j1
#
xn1
= y1
93
x j 2 " x jk " x jp
#
#
# % #
" yk
" y p
y kt = [ x1k
x 2k " x nk ]
Exemplo 3.2
Plote os dados da matriz X, com p=2 vetores no espao tridimensional (n=3)
2 1
X = 3 0
3 2
y1t = [ 2 3 2] e y 2t = [1 0 2]
3. Amostragem multivariada
94
3
Y2
Y1
2
1
Ferreira, D.F.
Estatstica multivariada
95
(1 n )1
projeo em 1
x 2k " x nk ] , cuja
n 1 :
1 1
y
1
1=
n n
t
k
X
j=1
jk
( )
1
1 = y kt 1 1 = X k 1
n
Xt Y
Proj ( X em Y ) = Y
Y
Dessa forma X k =
( )
1 t
y k 1 corresponde a um mltiplo de 1, obtido a
n
3. Amostragem multivariada
y
96
e
1
= y
1
1
x1k X k
x 2k X k
ek = yk X k 1 =
#
x nk X k
Ferreira, D.F.
Estatstica multivariada
97
x3
1
_
x 11
_
x 21
e1
e2
x1
Y1
Y2
x2
Exemplo 3.3
Faa a decomposio de y k em componentes de mdia X k 1 e componentes de
desvio e k = y k X k 1 , k=1, 2, para os dados do exemplo 3.2.
3. Amostragem multivariada
98
2 1
X = 3 0
3 2
X1 =
2 + (3) + (2)
= 1
3
X2 =
y1t = [ 2 3 2]
y 2t = [1 0 2]
1+ 0 + 2
=1
3
1 1
X11 = 1 1 = 1
1 1
1 1
X 2 1 = 1 1 = 1
1 1
2 1 3
e1 = y1 X11 = 3 1 = 2
2 1 1
1 1 0
e 2 = y 2 X 2 1 = 0 1 = 1
1 1 1
( X 1 ) (
t
3
y1 X11 = [ 1 1 1] 2 = 3 + 2 + 1 = 0
1
A decomposio :
Ferreira, D.F.
Estatstica multivariada
2 1 3
y1 = 3 = 1 + 2 ; e
2 1 1
99
1 1 0
y 2 = 0 = 1 + 1 .
2 1 1
X3
e2
e1
X2
X1
| e k |2= e k . e k = ( x jk X k ) 2
j =1
(3.1)
3. Amostragem multivariada
100
ekt eA = ( x jk X k )( x jA X A )
j =1
(3.2)
Cos ( kA ) =
e kt eA
e kt e k eAt eA
(3.3)
rkA = Cos ( kA ) =
SkA
Skk SAA
(3.4)
Ferreira, D.F.
Estatstica multivariada
101
x11
x
21
#
X =
x j1
#
xn1
x12
" x1k
x22 " x2 k
#
x j 2 " x jk
#
xn 2 " xnk
" x1 p X 1t
" x2 p X 2t
#
# #
=
" x jp X tj
% # #
" xnp X nt
(3.5)
3. Amostragem multivariada
102
conjunta com densidade f( x )=f(x1, x2, ..., xp), ento X1 , X 2 , ..., X n uma amostra
aleatria. Se a funo conjunta de densidade igual ao produto das marginais
f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), ento, X1 , X 2 , ..., X n uma
amostra aleatria.
Algumas concluses podem ser obtidas da distribuio de X e S
sem pressuposies sobre a forma da distribuio conjunta das variveis. Dessa
forma, considere X1 , X 2 , ..., X n como sendo uma amostra aleatria de uma
distribuio conjunta com vetor mdia e matriz de covarincia . Ento, X um
estimador no viciado de e sua matriz de covarincia
E( X ) =
. Isto ,
Cov( X ) =
PROVA:
X =( X 1+ X 2+...+ X n)/n
Ferreira, D.F.
Estatstica multivariada
103
E(X) = E ( n1 X1 + n1 X 2 + " + n1 X n )
= E ( n1 X1 ) + E ( n1 X 2 ) + " + E ( n1 X n )
=
1
1
nE ( X j ) = n
n
n
E(X) =
1 n
( X - ) ( X - ) = Xj
n j=1
t
1 n
1
XA = 2
n
n A =1
( X
E ( X
j=1 A =1
)(
XA
Ento,
)(
t
1
Cov ( X ) = E X X = 2
n
j=1 A =1
)(
XA
)(
igual a zero,
1
Cov ( X ) = 2
n
E ( X
n
j=1
)(
Xj
3. Amostragem multivariada
104
)(
Desde que = E X j X j
1
Cov ( X ) = 2
n
=
E ( X
n
j=1
)(
t
1
X j = 2 ( + + " + ) =
n
1
1
(n) =
2
n
n
S 11
S
21
S=
#
S
p1
S 12
S 22
#
Sp2
" S 1p
" S 2p
% #
" S pp
Ferreira, D.F.
Estatstica multivariada
105
(3.6)
Exemplo 3.4
O peso de espiga PE (X1), e o nmero de espigas NE (X2), foi avaliado em 28
variedades de milho em Sete Lagoas, MG. A matriz de covarincia amostral S,
obtida dos dados :
2,905 9,096
S=
9,096 90,817
3. Amostragem multivariada
106
e1
h= Le1Sen()
Le2
e2
Mas,
L e1 =
L e2 =
(X
j=1
X1 ) 2 = (n 1)S11
j1
(X
j=1
j2
X 2 ) 2 = (n 1)S22
Cos()=r12
Portanto,
Ferreira, D.F.
Estatstica multivariada
107
(3.7)
S=
S11 S21
S11
=
S12 S22
S11 S22 r12
2
2
)
= S11 S22 S11 S22 r12
= S11 S22 (1 r12
|S|=(rea)2/(n-1)2
(3.9)
regies
trapezoidais
geradas
com
p=3
vetores
resduos
3. Amostragem multivariada
108
(a)
e3
e2
(b)
e2
e1
e3
e1
Figura 3.5. (a) grande varincia amostral generalizada, e (b) pequena varincia
amostral generalizada, para p=3.
( n 1)Sii ). Em adio, o
Ferreira, D.F.
Estatstica multivariada
109
10 8
S=
8 10
10 8
S=
8 10
r12 =
8
= 0,8
10 10
| S |= 36
r12 =
8
= 0,8
10 10
| S |= 36
6 0
S=
0 6
r12 =
0
= 0, 0
6 6
| S |= 36
( X X ) 'S ( X X ) = c
1
(3.10)
3. Amostragem multivariada
110
Exemplo 3.5
Mostre que |S|=0 para
3 3 6
X = 1 3 4
2 0 2
O vetor mdia :
X t = [ 2 2 4]
Ferreira, D.F.
Estatstica multivariada
111
X 1 X t = [ e1 e2
1 1 2
e3 ] = 1 1 0
0 2 2
1 0 1
S = 0 3 3
1 3 4
| S| = 1
3 3
3 4
( 1) 2 + 0
0 1
3 4
= 131
. . + 0 + 1.( 3).1 = 3 3 = 0
( 1) 3 + 1
0 1
3 3
( 1) 4 =
3. Amostragem multivariada
112
3
e1
e3
e2
Ferreira, D.F.
Estatstica multivariada
113
(x
jk
xk )
S kk . A matriz de
(3.11)
n 1. A varincia
3. Amostragem multivariada
114
forma, o |R| ser grande quando todos os rik forem prximos de zero e ser
pequeno quando um ou mais dos rik for prximo de -1 ou de +1.
Utilizando os mesmos argumentos que conduziram a (3.9) pode-se
verificar que:
|R|=(n-1)-p(volume)2
(3.12)
volume
gerado
pelos
vetores
desvios
de
p=3
variveis
(a)
(b)
e3
e2
e1
e2
e3
e1
Figura 3.7. Volume gerado por trs variveis padronizadas: (a) grande varincia e
(b) pequena varincia generalizada.
Ferreira, D.F.
Estatstica multivariada
115
(3.13)
Exemplo 3.6
ilustrada atravs deste exemplo a relao (3.13) entre |S| e |R| para p=3
caracteres de milho (x1: dimetro do colmo; x2: nmero de folhas; e x3:
comprimento de folhas). A matriz R e S obtidas so:
100
4,935 0,552 2,921
,
0,30 0,31
,
,
0,55
S = 0,552 0,686 1932
e R = 0,30 100
0,31 0,55 100
2,921 1932
,
17,993
,
|S|=37,3878
|R|=0,6137
3. Amostragem multivariada
37,387837,3828
(verificado,
116
apesar
da
pequena
diferena
devido
(3.14)
Exemplo 3.7
Calcular a varincia amostral total da matriz S do exemplo (3.6)
Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614
Ferreira, D.F.
Estatstica multivariada
117
para ser utilizada com variveis padronizadas, pois seu valor ser sempre o
mesmo para distintos conjuntos de dados desde que o nmero de variveis destes
seja igual.
3.7. Exerccios
1 1
1 1
X =
1 1
1 1
de
mdia
componente
de
desvio.
Comprove
3. Amostragem multivariada
118
3.7.6. Qual a rea do trapezide gerado pelos p=2 vetores desvios, do exerccio
3.7.1.
120
Ferreira, D.F.
Estatstica multivariada
4.3. Densidade
normal
propriedades
121
multivariada
suas
f (x) =
1
22
1 ( x )
2 2
x ]; + [
(4.1)
122
0,683
2
0,954
+ +2
2 ,
e varincia
(x )
= ( x ) ( 2 )
( x )
(4.2)
Ferreira, D.F.
Estatstica multivariada
123
( X ) ( ) ( X )
t
(4.3)
f (X) =
( 2 )
p
2
p2
12
t
1
1 X
exp
X
1
2
2
(4.4)
at X
ter
124
#
X p
#
%
# ~ N q ( A; AA ')
q A p p X1 =
a q1 X1 + ... a qp X p
q X1 X1
X
=
= e suas correspondentes
p 1
X2
1
(p q) X
q 11q
q 1 1
e
=
=
p 1
(p q) 1 2
( pq ) 21q
12( pq )
22
( p q )
( p q )
Ferreira, D.F.
Estatstica multivariada
125
Logo,
X1 ~ N q 1 ; 11
Dada a partio
q X1 X1
X1 =
= , logo a distribuio condicional de
(p q) X1 X 2
c = 1 + 12 221 x 2 2 e c = 11 12 221 21
12
11 22
126
= 11
21
12
22
Cuja inversa ,
1 =
Fazendo
22
11 22 21
1
2
12
12
11
12 = 12 11 22 ,
obtm-se
1
22
[X1 1 X2 2]
2
11 22 (1 12 )
12 11 22
12 11 22 X1 1
=
X 2 2
11
(4.5)
1
=
2
1 12
2 2
X1 1 X 2 2
2
X1 1 + X 2
212
11 22
11
22
Ferreira, D.F.
f(x1 ,x2 ) =
Estatstica multivariada
127
1
2 1122 (1 122 )
(4.6)
2
1 X1 1
exp
2(1 12 ) 11
2
X2 2
X1 1 X2 2
+
212
22
11
22
128
Ferreira, D.F.
Estatstica multivariada
129
) ( ) ( X )
t
so constantes.
) ( ) ( X ) =c
t
(4.7)
( X ) ( ) ( X ) =c
t
11 i
12
2
= ( 11 i ) 122 = 0
12 11 i
= ( i 11 12 )( i 11 + 12 ) = 0
130
1 = 11 + 12 e 2 = 11 12
e i = i e i
11 12 e1
e = (11 + 12 )
12 11 2
e1
e
2
ou,
11 e1 + 12 e2 = (11 + 12 ) e1
12 e1 + 11 e2 = (11 + 12 ) e2
e1 =
1
2
1
2
Ferreira, D.F.
Estatstica multivariada
131
e1 =
1
2
1
2
11
11
12
12
132
( X ) ( ) ( X )
t
2
p
()
(4.8)
X2
99%
95%
0
0
X1
Ferreira, D.F.
Estatstica multivariada
133
95%
99%
134
x 11
x
= 21
p
#
x n1
x
x
12
22
n2
x
x
"
2p
% #
" x np
"
1p
2
n
Ferreira, D.F.
Estatstica multivariada
135
Seja S uma matriz positiva definida, com n>p, ento se pode definir,
wn1(S/ ) =
p(n1)/2 p(p1)/4
(n1)/2
[
i=1
1
2
(n i)]
(4.9)
136
Ferreira, D.F.
Estatstica multivariada
137
z=
(4.10)
G se z 0
( z )
1 G se z > 0
(4.11)
em que,
G = ( a1 + a2 2 + a3 3 + a4 4 + a5 5 ) ( z );
138
1
;
1 + 0,2316418| z|
(z) = (2 ) 2 e
1
z2
a1=0,319381530
a2=-0,356563782
a3=1,781477937
a4=-1,821255978
a5=1,330274429
derivada
da
distribuio
Ferreira, D.F.
Estatstica multivariada
139
distribuies
derivadas
assumindo
tamanho
amostral
lim F(1 , 2 ) =
(21)
1
140
(4.12)
distribuda como uma varivel qui-quadrado com graus de liberdade. Foi obtida
em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A funo
de distribuio de qui-quadrado pode ser expressa pela funo gama incompleta.
P(2 / ) =
t ( 2 )1e 2 dt
2 ( 2) 0
(4.13)
Ferreira, D.F.
Estatstica multivariada
141
P( / ) =
2
quando
e
n
n=0 ( + n +1)
(4.14)
1
1
< max( ,13) , e caso contrrio pela expanso assinttica:
2
2
2
1 (1)(2)
P( / ) 1e 1+ +
+...
2
(4.15)
1
139
571
1
(a) =(a1)!eaaa1/2(2)1/2 1+ + 2
3
4
12a 288a 51840a 2488320a
(4.16)
142
12 1
F= 2
2 2
Ix (a, b) =
em que, B( a, b ) =
( a )( b )
( a + b )
Ento,
P( F, 1 , 2 ) = 1 I x (
em que, x =
2 1
, )
2 2
2
2 + 1 F
(4.17)
Ferreira, D.F.
Estatstica multivariada
143
144
Ferreira, D.F.
Estatstica multivariada
145
a) Distribuio de propores
ii ; i + ii
[X
s ii ; X i + s ii
| P i1 0,683 | > 3
| P i 2 0,954 | > 3
146
b) Processos grficos
Os grficos so em geral teis para avaliar desvios da normalidade.
Dois processos grficos sero considerados neste captulo.
i) Q-Q plot
Ferreira, D.F.
j 12
=
n
Estatstica multivariada
q( j )
1
2
e z
/2
dz
147
(4.18)
Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela
inverso da funo de distribuio de probabilidade da normal, em rotinas
apropriadas em computadores ou atravs de tabelas da distribuio normal.
(Tabela A.1).
Os percentis q(j) e x(j) so plotados em um sistema cartesiano com q(j)
na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados
pela inspeo deste tipo de grfico, cujos pontos, quando da normalidade devem
pertencer a uma linha reta de mnimos quadrados. No exemplo 4.1 ilustram-se os
clculos necessrios para obteno dos Q-Q plots.
Exemplo 4.1
Seja uma amostra (n=10) obtida de uma populao normal N(3; 4) apresentada a
seguir. Neste caso, a observao 4 constitui-se um outlier, propositadamente
gerado.
{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}
148
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada (j-)/n.
j
x(j)
(j-)/n
q(j)
1
2
3
4
5
6
7
8
9
10*
0,46
1,79
2,06
2,91
3,30
3,74
4,02
4,59
4,79
8,65
0,05
0,15
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95
-1,645
-1,036
-0,675
-0,385
-0,126
0,126
0,385
0,675
1,036
1,645
j 12 1 12
=
= 0, 05 =
n
10
q(1)
1
2
e z
/2
dz
3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados
Ferreira, D.F.
Estatstica multivariada
10
149
Q-Q Plot
Outlier
X(j)
0
-2
-1
Q(j)
Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presena de um
outlier.
150
(x
n
rQ =
j=1
(x
x
2
j=1
( j)
( j)
) (q
( j)
) (q
n
j=1
( j)
(4.19)
Ferreira, D.F.
Estatstica multivariada
151
Tabela 4.1. Valores crticos para o teste para normalidade baseado no coeficiente
de correlao Q-Q plot.
Tamanho amostral
Nvel de significncia ()
0,01
5
0,8299
10
0,8801
15
0,9126
20
0,9269
25
0,9410
30
0,9479
40
0,9599
50
0,9671
60
0,9720
75
0,9771
100
0,9822
150
0,9879
200
0,9905
300
0,9935
Fonte: Johnson & Wichern (1998)
0,05
0,10
0,8788
0,9198
0,9389
0,9508
0,9591
0,9652
0,9726
0,9768
0,9801
0,9838
0,9873
0,9913
0,9931
0,9953
0,9032
0,9351
0,9503
0,9604
0,9665
0,9715
0,9771
0,9809
0,9836
0,9866
0,9895
0,9928
0,9942
0,9960
rQ =
18, 77109
44,15849 8, 798094
= 0,9523
152
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada pj = (j-)/n, amostrais.
Sn =
Xj
n
j=1
X2j
n
j=1
n
(4.20)
Zj =
Xj X
Sn
Pj=(Zj)
Ferreira, D.F.
Estatstica multivariada
153
Exemplo 4.2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,
resultando nos seguintes valores:
j
1
2
3
4
5
6
7
8
9
10*
x(j)
pj = (j-)/n
Pj
0,066
0,05
0,46
0,189
0,15
1,79
0,227
0,25
2,06
0,367
0,35
2,91
0,436
0,45
3,30
0,520
0,55
3,74
0,575
0,65
4,02
0,677
0,75
4,59
0,709
0,85
4,79
0,992
0,95
8,65
Na Figura 4.8 esto plotados os pontos Pj (abcissa) contra pj (na
ordenada).
1.0
0.8
0.6
pj
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Pj
154
Ferreira, D.F.
Estatstica multivariada
155
n
~ =1
m
x rj
r
n j=1
(4.21)
Mdia:
1 = 0
(4.22)
Varincia:
~
~ m
~2
2 = m
2
1
(4.23)
Assimetria
~
~ 3m
~ m
~ + 2m
~3
3 = m
3
1
2
1
(4.24)
Curtose
4 4 m
1 m
3 + 6m
12 m
2 3m
14
4 = m
(4.25)
156
b1 =
3
~
~
2
2
(4.26)
b 2 = ~ 42
2
(4.27)
Exemplo 4.3
Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de
assimetria e curtose amostrais.
Ferreira, D.F.
Estatstica multivariada
157
x2
x3
x4
0,46
1,79
2,06
2,91
3,30
3,74
4,02
4,59
4,79
8,65
36,31
0,2116
3,2041
4,2436
8,4681
10,8900
13,9876
16,1604
21,0681
22,9441
74,8225
176,0001
0,0973
5,7353
8,7418
24,6422
35,9370
52,3136
64,9648
96,7026
109,9022
647,2146
1046,2520
0,0448
10,2663
18,0081
71,7087
118,5921
195,6530
261,1585
443,8648
526,4317
5598,4070
7244,1350
Tm-se:
~ =36,31/10=3,631
m
1
~ =176,0001/10=17,6000
m
2
~ =1046,2520/10=104,6252
m
3
~ =7244,135/10=724,4135
m
4
~ = 3,631
158
b2 = 75,6182/(4,4158)2 = 3,8780
b1
b1
for positivo,
b 1 podem ser
obtidos com boa aproximao usando como desvio da normal padro a estatstica:
Z1 = b1
(n + 1)(n + 3)
6(n 2)
(4.28)
Ferreira, D.F.
Estatstica multivariada
159
Z2 = b2 3 +
n +1 24n(n 2) (n 3)
(4.29)
160
tem-se que,
( x ) ( x ) (1)
t
2
p
Ferreira, D.F.
Estatstica multivariada
161
Exemplo 4.4
1) Calcular a distncia quadrada generalizada amostral d(j) de cada observao
em relao mdia amostral, dada por:
333,333 20,000
100
X= e S=
9
20,000 6,667
A matriz inversa de S :
0,0037 0,0110
S 1 =
0,1829
0,0110
162
d (2j)
(j-)/n
q(j)
1
2
3
4
0,7683
1,3536
1,7926
2,0853
0,125
0,375
0,625
0,875
0,2671
0,9400
2,2479
4,1589
Ferreira, D.F.
Estatstica multivariada
163
q(j)
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
d(j)
Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de
utilizao deste processo para os casos de dimenses superiores ou
iguais a 2.
{(
1,p = E X 1 Y
164
)}
(4.30)
{(
2,p = E X 1 X
)}
(4.31)
1
1,p = 2
n
g
i =1 j=1
3
ij
1 n
1 n
2,p = g i2i = d i4
n i =1
n i =1
em que,
g i j = ( X i X ) Sn1
t
( X
X) e
di = gi i
Ferreira, D.F.
Estatstica multivariada
165
( )
k1 =
n 1,p
6
k2 =
2 ,p
p(p + 2)
8p(p + 2)
1/ 2
Exemplo 4.5
Usando o exemplo das raes testar a normalidade multivariada pelo teste dos
desvios de assimetria e curtose. Os valores amostrais so:
Obs
1
2
3
4
166
Reais
80
120
90
110
Vendas
10
12
6
8
9
0,243902
1025 15 250
15 5
0,014634
1. 1t = [ 20 1] 2. 2t = [ 20 3]
3. 3t = [ 10 3]
4. 4t = [10 1]
20
Para i=1 e j=1, g 1 1 = [ 20 1]Sn1
= 2,7805
1
20
Para i=1 e j=2, g1 2 = [ 20 1] Sn1 = 0, 6341
3
Ferreira, D.F.
Estatstica multivariada
167
Logo,
( 2, 7805
1,2 =
=1,2766
ento,
k1 =
n 1, 2
6
4 1,2766
= 0,8511
6
1 n 2 1
17,7513
2
2
2
2
= 4,4378
2,p = g i i = 2,7805 + 2,3902 + 1,8049 + 1,0244 =
n i =1
4
4
168
k2 =
4, 4378 2(2 + 2)
8 2 4
3,5621
= 0,8905
4
Proc IML;
use FR;
read next 4 into X; /* lendo n observacoes dentro de X */
n=nrow(X);p=ncol(X);
dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p
*/
q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar
*/
S=(1/n)*x`*q*x;
/* matriz de covariancias viesada
*/
S_inv=inv(S);
/* inversa de S
*/
print s s_inv;
g=q*x*s_inv*x`*q;
/* matriz com gij
*/
print g;
beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */
beta2=trace(g#g)/n; /* idem com tomada do traco/n
*/
print beta1 beta2;
k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */
k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n);
pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos
*/
pvalkurt=2*(1-probnorm(abs(k2)));
print k1 pvalskew;
print k2 pvalkurt;
Quit; /* abandonando IML
*/
Ferreira, D.F.
Estatstica multivariada
169
Proc IML;
n=100;p=3;
SIG={8 4 1,
4 10 3,
1 3 18};
st=Root(sig);
mu={1, 10, 8};
x=j(n,p,0);
zi=j(p,1,0);
do i=1 to n;
do ii=1 to p;
zi[ii]=rannor(0);
end;
xi=st`*zi+mu;
do ii=1 to p;
x[I,ii]=xi[ii];
end;
end;
print x;
create dtnorm from x;
append from x;
quit;
proc print data=dtnorm;
run;quit;
170
4.8. Exerccios
4.8.1. Com os dados do exemplo 4.4, tendo como hiptese que os mesmos
seguem a distribuio normal bivariada, utilize o resultado 4.2, ao nvel de
50%, de que as distncias generalizadas seguem a distribuio
qui-quadrado. Utilizando ento a distribuio de propores, item (a),
verifique a normalidade bivariada dos dados, contando a proporo
observada ( P i ) de distncias que pertencem a elipse, e comparando com a
estatstica abaixo.
| P i 0,5 | > 3
4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,
propostos, neste captulo, para ambas variveis.
Ferreira, D.F.
Estatstica multivariada
171
Temperatura
Precipitao (mm)
22,7
23,7
24,3
24,4
24,5
25,2
25,5
24,7
24,3
24,7
24,9
64,1
56,1
54,9
58,2
62,8
70,3
75,2
81,4
79,3
74,6
78,0
7,9
1,5
0,0
0,0
8,7
22,5
57,0
75,7
123,2
124,4
148,0
||[
]||
5.1. Introduo
172
H0 : = 0
H1 : 0
vs
t=
( X ) , em que, X = 1 X
0
S
n
n j=1
e S2 =
1 n
(Xj X)2 .
n 1 j=1
Ferreira, D.F.
Estatstica multivariada
173
(5.1)
mdia
para
populao
normal
estudada.
Da
bem
conhecida
X 0
< tn1( / 2) (no rejeitar H0) equivalente a:
S
n
X t n 1 ( / 2 )
S
S
0 X + t n 1 ( / 2 )
n
n
(5.2)
174
T 2 = n X 0 S1 X 0
(5.3)
em que,
t
1 n
1 n
X = Xj , S =
X j X )( X j X )
(
n j=1
n 1 j=1
01
02
e 0 =
#
0p
(n 1)p
Fp,n p
np
(5.4)
Ferreira, D.F.
Estatstica multivariada
175
em que, Fp,n-p representa uma varivel com distribuio F com p e n-p GL.
De uma forma geral a distribuio de T2 considerando graus de
liberdade e dimenso p dada por:
T 2 = Fp,+1 p
p
+1 p
(5.5)
t
(n 1)p
T 2 = n X 0 S1 X 0 >
Fp,n p ()
np
(5.6)
Exemplo 5.1
A matriz X, apresentada a seguir, representa uma amostra de n=3 observaes
retiradas de uma distribuio normal bivariada.
176
11 2
X = 10 4
9 3
Teste a hiptese de que 0t =[9 2] seja um valor plausvel para representar a mdia
populacional.
A estatsticas amostrais so:
10
1,0 0,5
X= e S=
3
0,5 1,0
Ento,
S1 =
1 4 2
3 2 4
T 2 = 3 [10 9 3 2]
1 4 2 10 9
= 12
3 2 4 3 2
Ferreira, D.F.
Estatstica multivariada
177
(n 1)p
4
F2,1 = 199,5 = 798,0 .
1
np
5.3. Regio
de
confiana
e
Comparaes
simultneas de componentes de mdia
Ser inicialmente, generalizado o conceito univariado de intervalo de
confiana para o multivariado de regio de confiana, R(X). A regio de confiana
conter 100(1-)% se antes de a amostra ser selecionada,
(5.7)
178
(n 1)p
P n X S1 X
Fp,n p ()
np
(5.8)
(n 1)pFp,n p () /(n p) .
Se
distncia
quadrada
for
maior
que
t
p(n 1)
n X S1 X c2 =
Fp,np ()
n p
so determinados por
) (
Ferreira, D.F.
i c
n
Estatstica multivariada
179
Exemplo 5.2
A partir dos dados do exemplo 5.1, obter a regio de confiana de 95%, e verificar
se o ponto 0t =(13, 4) pertence a mesma.
10
1,0 0,5
1 4 2
1
=
e
S
X = , S=
3
3 2 4
0,5 1,0
1 = 1,5
2 = 0,5
e 2t = [ 0, 707107
0, 707107 ]
180
1 4 2 10 1 2 (2)
3 [10 1 , 3 2 ]
199,5
3 2 4 3 2
1
o que permite que se conclua que o ponto testado est na regio de confiana. O
grfico da elipse obtida pode ser visualizado na Figura 5.1. com a anlise grfica,
pode-se confirmar que o ponto em questo pertence regio de confiana.
Ferreira, D.F.
Estatstica multivariada
181
x2
x1
Exemplo 5.3
Para exemplificar a regio tridimensional para a mdia populacional, os dados de
produo comercial (t/ha), produo de tubrculos grados (t/ha) e peso mdio de
tubrculos grados (g) de 15 clones de batata selecionados em Maria da F e
Lavras (Moment, 1994), foram utilizados e encontram-se no quadro a seguir.
Obter a regio de 95% de confiana para o vetor mdia populacional.
Verificar se o ponto 0t = (16,89 8, 76 109, 23) pertence a regio de confiana (ponto
referente a cultivar Achat). Traar a regio de confiana.
182
Clones
Produo
comercial
1
47,82
2
42,40
3
41,82
4
40,77
5
40,27
6
39,84
7
38,36
8
38,15
9
37,55
10
36,19
11
36,15
12
35,17
13
34,90
14
34,57
15
34,15
Fonte: Moment, 1994
Produo de
tubrculos grados
40,40
26,96
27,33
21,81
33,06
22,31
32,81
26,02
21,69
25,65
23,46
25,29
22,92
16,25
21,75
Peso mdio de
tubrculos grados
146,30
94,58
143,66
127,29
115,17
99,32
150,13
131,17
152,04
154,83
95,43
105,97
113,59
86,39
119,50
38,541
X = 25,854
122,358
1 = 549, 208
2 = 34, 460
3 = 5,185
Ferreira, D.F.
Estatstica multivariada
183
p(n 1)
n(X ) t S1 (X ) c 2 =
Fp,n p ()
np
15 [38,541 1
25,854 2
Sim.
0,15149
38,541 1
25,854
2
122,358 3
3 14
3, 49 = 12, 215
12
= 2, 27(38,541 1 ) 2 2,14(38,541 1 )(25,854 2 ) + 0,04(38,541 1 )(122,358 3 ) +
+1,05(25,854 2 ) 2 0,15(25,854 2 )(122,358 3 ) + 0,04(122,358 3 ) 2 12, 215
184
x3
x2
x1
Ferreira, D.F.
Estatstica multivariada
185
A t X = A1 X1 + A 2 X 2 + " + A p X p
A t SA
n
A t SA
A X t n 1 ( / 2)
n
t
(5.9)
populao normal univariada. Neste caso tem-se uma srie de inferncias sobre
os componentes de , cada um associado com o coeficiente de confiana de 1-,
atravs de diferentes escolhas de A . No entanto o coeficiente de confiana para
186
p(n 1)
At X
Fp,n p ( )A t SA
n(n p)
(5.10)
Xi tn1(2m
)
Sii
n
i =1,2,...,p = m
(5.11)
Ferreira, D.F.
Estatstica multivariada
187
Exemplo 5.4
Utilizando os dados do exemplo 5.2, obter os intervalos clssicos de t-student, T2 e
Bonferroni, para os componentes individuais do vetor de mdia, e compar-los
entre si, quanto ao comprimento.
O vetor de mdias e a matriz de covarincia amostral so:
10
1,0 0,5
X= e S=
3
0,5 1,0
1. Intervalo T2
IC1 (0,95) = X1
p(n 1)
S
Fp,n p () 11
np
n
IC1 (0,95) = 10
2(3 1)
1
199,5
32
3
IC2 (0,95) = 3
2(3 1)
1
199,5
3 2
3
188
2. Intervalo de Bonferroni
1
3
IC1 (0,95) = 10 6, 21
IC2 (0,95) = 3 6, 21
1
3
Ferreira, D.F.
Estatstica multivariada
189
3. Intervalo t de Student
1
3
1
3
(1-)p=0,952=0,9025.
5.4. Inferncias
amostras
190
sobre
propores
de
grandes
p1
p
2
E(p) =
#
p q
p1 p 2
p1 (1 p1 )
p p
p 2 (1 p 2 )
1
2 1
=
e Cov(p)
#
#
n
pq p 2
p q p1
p1 p q
p 2 p q 1
"
= .
n
%
#
" p q (1 p q )
"
()
Ferreira, D.F.
Estatstica multivariada
191
A t A
A t p q2 1 ()
n
(5.12)
garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor
grande de n-q-1, significa que np k deve estar em torno de 20 para cada categoria
k=1, 2, ..., q.
Exemplo 5.5
Numa amostra de n=35 cochonilhas, obtida na regio de Jacu, MG, em fevereiro
de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes
resultados:
Fmeas adultas
5
Ninfa mvel
11
Ninfa fmea
15
Ninfa macho
4
Total
35
192
Sim.
0,1429
0,1225
0,0449 0, 2155
0,3143
p =
e =
0,
4286
0,0612
0,1347
0,
2449
p1 : 0,1429 7,815
0,1225
= 0,1429 0,1654 = [0,0225; 0,3083]
35
p 2 : 0,3143 7,815
0, 2155
= [0,0949; 0,5337]
35
p3 : 0, 4286 7,815
0, 2449
= [0,1948; 0,6624]
35
p 4 : 0,1142 7,815
0,1012
= [0,0361; 0, 2645]
35
Ferreira, D.F.
Estatstica multivariada
193
(5.13)
t=
D
SD
n
(5.14)
D=
1 n
Dj e
n j=1
SD =
194
1 n
Dj D
n 1 j=1
1
=
n 1
Dj
n
j=1
D 2j
n
j=1
(5.15)
D t n 1 ( / 2)
SD
n
(5.16)
Ferreira, D.F.
Estatstica multivariada
195
as
diferenas
observadas
D tj = D j1
D j2 " D jp ,
t
p(n 1)
T 2 = n ( D 0 ) Sd1 ( D 0 ) >
Fp,n p ()
(n p)
em que,
1 n
D = Dj
n j=1
e SD =
t
1 n
D j D )( D j D )
(
n 1 j=1
(5.17)
196
p(n 1)
T 2 = n(D ) t SD1 (D )
Fp,n p ( )
(n p)
(5.18)
ICi (1 ) : Di
SD(ii)
p(n 1)
Fp,n p ()
(n p)
n
(5.19)
SD(ii)
ICi (1 ) : Di t n 1
n
2p
(5.20)
Ferreira, D.F.
Estatstica multivariada
197
Exemplo 5.6
Em uma amostra de n=4 fazendas em Marechal Cndido Rondon foram
mensuradas a produo leiteira diria mdia por animal (X1) e a renda total diria
da produtividade de leite (X2) antes da aplicao do plano governamental panela
cheia e aps a aplicao. Testar a hiptese de que o plano foi ineficiente em
aumentar a mdia dos dois ndices zootcnicos. Os dados da amostra so:
Antes
Aps
X1j1
X1j2
X2j2
X2j2
10
11
9
8
80
80
60
60
13
15
16
19
90
92
88
90
0
H0 : = 0 =
0
Dj2
3
4
7
11
10
12
28
30
198
6, 25
12,9167 34, 6667
e SD =
D=
20, 00
34, 6667 109,3333
0,5195 0,1647 6, 25
T 2 = 4 [ 6, 25 20]
= 14, 6515
0,1647 0, 0614 20, 00
O valor crtico :
p(n 1)
2 (4 1)
Fp,n p (5%) =
F2,4 2 (5%) = 3 19 = 57
(n p)
(4 2)
IC1 (0,95) : D1
2(4 1)
12,9167
F2,4 2 (0, 05)
= 6, 25 13,57 = [ 7,32;19,82]
(4 2)
4
IC2 (0,95) : D 2
2(4 1)
109,3333
= 20 39, 47 = [ 19, 47; 59, 47 ]
F2,4 2 (0, 05)
(4 2)
4
Ferreira, D.F.
Estatstica multivariada
5.6. Comparaes
populaes
199
de
vetores
mdias
de
duas
Amostra
(Populao 1)
X11 , X12 , ..., X1n1
Estatsticas amostrais
t
1
1 n1
X1 = X1j
S1 =
X1j X1 )( X1j X )
(
n1 j=1
n1 1 j=1
n1
(Populao 2)
1 n2
=
X
X 21 , X 22 , ..., X 2n 2
X2 j
2
n 2 j=1
Subscritos 1 e 2, denotam a populao.
S2 =
t
1 n2
X 2 j X 2 )( X 2 j X 2 )
(
n 2 1 j=1
200
Sp =
(5.21)
Ferreira, D.F.
Estatstica multivariada
201
E X1 X 2 = 1 2
(5.22)
1 1
Cov X1 X 2 = +
n1 n 2
(5.23)
1 1
+ Sp
n1 n2
um estimador de Cov X1 X 2 .
Demonstra-se que o teste da razo de verossimilhana para a
hiptese,
H 0 : 1 2 = 0
1 1
(n1 + n 2 2)p
T = [X1 X 2 0 ] + Sp [X1 X 2 0 ] >
Fp,n + n p 1 ( )
n1 n 2
(n1 + n 2 p 1) 1 2
2
202
Exemplo 5.7
Os dados a seguir referem-se produtividade e altura de plantas de duas
variedades de milho (A e B). Determinar a regio de 95% de confiana para
diferena 1 2 .
A
Produtividade
Altura da planta
Produtividade
B
Altura da planta
5,7
8,9
6,2
5,8
6,8
6,2
2,10
1,90
1,98
1,92
2,00
2,01
4,4
7,5
5,4
4,6
5,9
1,80
1,75
1,78
1,89
1,90
6,57
1, 4587 0,0514
X1 =
, S1 =
1,99
0,0514 0,0051
5,56
1,5430 0,0366
X2 =
, S2 =
1,82
0,0366 0,0045
1, 4962 0,0448
Sp =
0,0448 0,0048
Ferreira, D.F.
Estatstica multivariada
203
1 = 1, 4975
2 = 0, 0035
e 2t = [ 0, 0300
0,9995]
1 1
(n1 + n 2 2)p
T = [X1 X 2 0 ] + Sp [X1 X 2 0 ]
Fp,n + n p 1 ( )
n1 n 2
(n1 + n 2 p 1) 1 2
2
21
em que, 0 = 1 = 11
2 12 22
[1,01 1
0,17 2 ]
8,6575 1,01 1
30 0,9276
10,0328
204
12 22
11 21
Figura 5.3. Elipse de 95% de confiana para diferena do vetor mdia de ambas
as variedades de milho.
Ferreira, D.F.
Estatstica multivariada
205
1 1
(n1 + n 2 2)p
A t ( X1 X 2 )
Fp,n1 + n 2 p 1 () + A tSp A
n1 + n 2 p 1
n1 n 2
(5.24)
1 1
1i 2i : (X1i X 2i ) t n1 + n 2 2 + Sii
2p n1 n 2
(5.25)
206
de Bartlett pode ser usado para testar H0: 1 2 . No entanto, este teste
fortemente afetado se a pressuposio de normalidade for violada. O teste em
questo
no
pode
diferenciar
entre
ausncia
de
normalidade
1
1
[X1 X 2 0 ] S1 + S2 [X1 X 2 0 ] p2 ()
n2
n1
t
(5.26)
1
1
A t ( X1 X 2 ) p2 ( ) A t S1 + S2 A
n1
n2
(5.27)
Ferreira, D.F.
Estatstica multivariada
207
a) Aproximao de Bennett
n
1
Z j = X1j 1 X 2 j +
n2
n 1n 2
n1
1
X2 j
n2
j=1
n2
X
k =1
2k
(5.28)
T 2 = n1Zt SZ1Z
(5.29)
b) Aproximao de James
208
1
1
T = [X1 X 2 ] S1 + S2 [X1 X 2 ] ~ p2
n2
n1
2
(5.30)
2p ( ) ( A + B 2p ( ) )
(5.31)
1 2 1 1 Si
A = 1+
tr Se
2p i =1 n i 1
ni
2
2
2
1
1 1 Si 1 Si
B=
tr 2 Se
+ tr Se
2p(p + 2) i =1 n i 1
ni
ni
(5.32)
(5.33)
em que:
Se =
S1 S2
+
n1 n 2
(5.34)
Ferreira, D.F.
Estatstica multivariada
209
c) Aproximao de Yao
1
1
=
( T 2 ) 2
2
1
t 1 S
1
i
Se ( X1 X 2 )
( X1 X 2 ) Se
ni
i =1 n i 1
(5.35)
d) Aproximao de Johansen
Fc =
T 2
C
C = p
2D + 6D
p(p 1) + 2
(5.36)
(5.37)
D=
i =1
210
1
tr ( I V 1V )2 + tr ( I V 1V ) 2
i
i
2(n i 1)
p(p + 2)
3D
(5.38)
(5.39)
tr ( Se ) + tr ( Se )
=
2
2
2
2
1 S1 S1
1 S2 S2
tr + tr +
tr + tr
n1 1 n1 n 1 n 2 1 n 2 n 2
(5.40)
Ferreira, D.F.
Estatstica multivariada
211
f) Aproximao de Kim
S
qt 1 q
n
d= 1
S
qt 2 q
n2
S1
S2
dk qk = 0
n2
n1
(5.41)
w = Q t ( X1 X 2 )
(5.42)
212
p
2p
r = dk
k =1
Ak =
dk + 1
dk + r
c=
2
k
k =1
p
k =1
(5.43)
(5.44)
(5.45)
Ak
k =1
f = p
A2k
(5.46)
k =1
G = w t ( D1/ 2 + rI )
Fc =
( p + 1)G
cf
(D
1/ 2
+ rI ) w
1
(5.47)
(5.48)
Ferreira, D.F.
Estatstica multivariada
1
1 w t D(D + I) 2 w
1 w t (D + I) 2 w
=
+
n1 1 w t (D + I) 1 w n 2 1 w t (D + I) 1 w
213
(5.49)
H o : 1 = 2 = " = k =
k 1
1 2p 2 + 3p 1
= 1
n k 6(p + 1)(k 1)
j=1 n j 1
2
c
(5.50)
k
( n j 1) ln S j (n k) ln Sp
j=1
214
Sp =
(n
j=1
1) S j
nk
0,51964 0, 44700
0,85143 0, 73786
S1 =
com n1=11 e S2 =
com n2=15
0, 44700 0, 47600
0, 73786 1,54828
H o : 1 = 2 =
Os demais valores necessrios para a realizao do teste de
hiptese so:
Ferreira, D.F.
Estatstica multivariada
215
Logo,
1
1
1 2 22 + 3 2 1
c2 = 1 +
6 3 1
10 14 24
= 11, 43
5.7. Exerccio
216
11
10
X =
9
10
2
4
3
a) T2 de Hotelling
b) Procedimento de Bonferroni
5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variveis, teste
a pressuposio de normalidade univariada (marginal) e bivariada,
utilizando os procedimentos apresentados no captulo 4.
Ferreira, D.F.
Estatstica multivariada
217
Antes
Aps
Peso
Teor de protena
(%)
Peso
Teor de protena
(%)
250
300
350
320
400
320
10
12
13
15
9
11
280
320
360
380
410
350
12
16
13
18
15
12
218
A
Produtividade
Altura da planta
Produtividade
5,7
8,9
6,2
5,8
6,8
6,2
2,10
1,90
1,98
1,92
2,00
2,01
4,4
7,5
5,4
4,6
5,9
B
Altura da planta
1,80
1,75
1,78
1,89
1,90
||[
]||
6.1. Introduo
terminologias
dos
delineamentos
experimentais,
tipos
de
tratamentos
so
aplicados
ao
material
experimental
220
consiste
em
tratamentos,
possivelmente
incluindo
a(s)
Tratamento 2: X 21 , X 22 , ..., X 2n 2
Tratamento g: X g1 , X g 2 , ..., X gn g
Ferreira, D.F.
Estatstica multivariada
221
Xi j = + i + ei j
i = 1, 2, ", g e j = 1, 2, ", n i
(6.1)
n
i =1
i i
=0.
222
Xi j
=
X..
+
(X i. X.. )
+
Observao Estimativa da
Estimativa do
mdia geral efeito do tratamento
(X i j X i. )
resduo
(6.2)
= SQP tratamentos
SQP resduo
total corrigido
g
ni
( X
i =1 j=1
ij
)(
X.. X i j X..
(6.3)
g
ni
= n i ( X i. X.. )( X i. X.. ) + X i j X i.
i =1
i =1 j=1
t
)( X
ij
X i.
ni
)(
E = X i j X i. X i j X i.
i =1 j=1
(6.4)
H 0 : 1 = 2 = " = g = 0
(6.5)
Ferreira, D.F.
Estatstica multivariada
223
GL
Matriz de SQP
Tratamento
g-1
B = n i X i. X.. X i. X..
i =1
Resduo
= ni g
i =1
Total corrigido
n
i =1
)(
)(
ni
E = X i j X i. X i j X i.
i =1 j=1
g
ni
)(
B + E = X i j X.. X i j X..
i =1 j=1
224
( H k E ) ek = 0
Ferreira, D.F.
Estatstica multivariada
225
Estatstica
Aproximao F
GL de F
|E|
1
=
|H+E| k 1+k
1 1t rt 2f
F = 1
t pq
v1=pq
V = tr[H(H + E)1] = k
1+k
V 2n + s + 1
F=
s V 2m + s + 1
v1=s(2m+s+1)
2(sn +1)U
s (2m + s +1)
v1=s(2m+s+1)
( d + q)
d
v1=d
Wilks
Trao de Pillai
Trao de
Hotelling
Lawley
U = tr(HE1) = k
Raz mxima
= 1
de Roy
F=
F=
v2=rt-2f
v2=s(2n+s+1)
v2=2(sn+1)
v2= d + q
t = p2 + q 2 5
Se p 2 + q 2 5 > 0
cc
226
Exemplo 6.1
Num experimento envolvendo 4 variedades de feijo, avaliou-se na seca, a
produtividade (P) em kg/ha e nmero de gro por vagem (NGV), utilizando 5
repeties. Os resultados obtidos foram:
Cultivar
A
NGV
NGV
NGV
NGV
1082
1070
1180
1050
1080
5462
4,66
4,50
4,30
4,70
4,60
22,76
1163
1100
1200
1190
1170
5823
5,52
5,30
5,42
5,62
5,70
27,56
1544
1500
1550
1600
1540
7734
5,18
5,10
5,20
5,30
5,12
25,90
1644
1600
1680
1700
1704
8328
5,45
5,18
5,18
5,40
5,50
26,71
1092, 400
1164, 600
1546,800
1665, 600
X1. =
X 2. =
X 3. =
X 4. =
5,180
5,512
5,342
4,552
E a mdia geral:
1367,35000
X.. =
5,1465
Ferreira, D.F.
Estatstica multivariada
227
5,512
4,552
1665,600 1367,3500
[1665, 600 5,512] [1367,3500 5,1465]
+ 5
5,512
5,342
SQBkk =
i =1
2
X i.k
X2
g ..k
ni
ni
(6.6)
i =1
SPBkA =
i =1
(6.7)
i =1
A , com
228
ni
SQTkk = X ijk
i =1 j=1
X
n
g
i =1
ni
(6.8)
..k
i
X X
n
..k
g
i =1
..A
(6.9)
E=T-B
(6.10)
1189302,1500 768,3605
B =
768,3605
2, 6318
Ferreira, D.F.
Estatstica multivariada
FV
GL
Tratamento
229
SQ&P
1189302,1500 768, 3605
B=
768, 3605
2, 6318
Erro
16
29058, 4000
E=
9, 9040
9, 9040
0, 3199
Total Corrigido
19
( B k E ) ek = 0
230
Critrio
Estatstica
Wilks
Trao de Pillai
G.L.
Pr>F
=0,0030756 85,16
v1=6 e v2=30
0,0001
V=1,846145
64,00
v1=6 e v2=32
0,0001
U=48,0244
112,06
v1=6 e v2=28
0,0001
de =41,3463
220,51
v1=3 e v2=16
0,0001
Trao de Hotelling
Lawley
Raz
mxima
Roy
p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2
Ferreira, D.F.
Estatstica multivariada
231
ik = X i.k X..k
(6.11)
^
1 1 E
Var(X h.k X i.k ) = + kk
nh ni
(6.12)
1 1 E kk
X h.k X i.k t
+
pg(g 1) n h n i
(6.13)
232
6.4. Exerccio
||[
Componentes principais
]||
7.1. Introduo
7. Componentes principais
234
os
componentes
principais
representam
X p
amostrado de uma
Ferreira, D.F.
Estatstica multivariada
235
(7.1)
Yp = e pt X = e p1X1 + e p2 X 2 + ... + e pp X p
(7.2)
(7.3)
i = 1, 2,..., p
(7.4)
7. Componentes principais
236
e t e
, ento
et e
( i I ) ei = 0
(7.5)
(7.6)
ik
(7.7)
i =1
i =1
Var(Xi ) = Var(Yi )
11 + 22 + ... + pp = 1 + 2 + ... + p
Ferreira, D.F.
Estatstica multivariada
matriz de covarincia
237
tr() = tr ( PP t )
i =1
i =1
tr() = ii = tr ( PP t ) = tr ( P t P ) = tr ( ) = i
%VarExp(Yk ) =
k
p
100
(7.8)
i =1
7. Componentes principais
238
sobre a importncia das variveis para o i-simo componente principal, por meio
de suas magnitudes. No entanto, esses componentes so influenciados pela
escala das variveis. Para contornar tal problema, os pesquisadores podem
utilizar uma importante medida de associao, a qual no depende da magnitude
das mensuraes (escala) das variveis originais, que o coeficiente de
correlao entre Yi e Xk. Esse coeficiente de correlao est apresentado em (7.9)
.
Yi ,Xk =
eik i
kk
, i, k = 1, 2,..., p
(7.9)
Yi ,Xk =
Cov ( Yi , X k )
Var ( Yi ) Var ( X k )
Ferreira, D.F.
Estatstica multivariada
239
Mas,
Cov ( Yi , X k ) = Cov ( eit X, X k ) = Cov ( eit X, t X )
com,
Logo,
Como ei = i ei , ento,
Cov ( Yi , X k ) = t ei = t i ei = i t ei = i eik
e,
Var(X k ) = kk
7. Componentes principais
240
Cov ( Yi , X k )
Yi ,Xk =
Var ( Yi ) Var ( X k )
i eik
i kk
i eik
kk
Exemplo 7.1
Sejam as variveis aleatrias X1, X2 e X3 com covarincia dada por:
4 1 0
= 1 4 0
0 0 2
i =1
i =1
Var(Xi ) = Var(Yi )
11 + 22 + ... + pp = 1 + 2 + ... + p
Ferreira, D.F.
Estatstica multivariada
241
Y2 = e 2t X = 0,7071X1 0,7071X 2
Y3 = e3t X = X 3
2
2
2
2
Var(Y1 ) = Var
X1 +
X 2 = Var
X1 + Var
X 2 + 2Cov
X1 ,
X 2 =
2
2
2
1
1
2 2
1
1
= Var ( X1 ) + Var ( X 2 ) + 2
Cov ( X1 , X 2 ) = 4 + 4 + 1 = 5 = 1
2
2
2 2
2
2
11 + 22 + 33 = 1 + 2 + 3
4+4+2=5+3+2
10=10 c.q.m.
7. Componentes principais
242
Componente
Y1
Y2
Y3
Var(Yi)=i
5
3
2
% da variao explicada
50
30
20
% variao acumulada
50
80
100
X1
0,7906
0,6124
0,0000
X2
0,7906
-0,6124
0,0000
X3
0,0000
0,0000
1,0000
Y1 ,X1 =
e11 1
11
2
5
= 2
= 0,7906 .
4
Ferreira, D.F.
Estatstica multivariada
243
Zi =
X i i
ii
(7.10)
Z = V 1/ 2 X
(7.11)
ii .
E ( Z ) = 0 e Cov ( Z ) = V 1/ 2 V 1/ 2 =
Yi = eit Z = eit V 1/ 2 X ,
i=1, 2, ..., p
(7.12)
7. Componentes principais
244
p
i =1
i =1
Var(Yi ) = Var(Zi ) = p
(7.13)
i = p
i =1
Yi ,Zk = eik i
(7.14)
11 0
0
22
=
0
0
0
0
pp
(7.15)
Ferreira, D.F.
Estatstica multivariada
i=ii e eit = [ 0
0 1 0
245
e i = i e i
= ei = ii ei
11 0
0
22
=
0
0
0
0
0
0
0
1 = ii 1
0
0
pp
0
0
7. Componentes principais
246
biolgicas,
desempenha
um
papel
importante
na
teoria
dos
componentes principais.
2
2
2
2
2
(7.16)
1
1
=
(7.17)
Ferreira, D.F.
Estatstica multivariada
247
1 = 2 [1 + (p 1)]
(7.18)
1 1
1
e1t =
,
,...,
p
p p
(7.19)
demais
(p-1)
componentes
principais
possuem
valores
i = 2 (1 ) ;
i = 2, 3,
,p
(7.20)
7. Componentes principais
t
e 2 =
t
e 3 =
eit =
e t =
p
248
1
1
,
, 0,..., 0
1 2 1 2
1
1
2
,
,
, 0,..., 0
23 23 23
(7.21)
1
1
(i 1)
,...,
,
, 0,..., 0
(i 1) i
(i 1) i (i 1) i
1
1
(p 1)
,...,
,
(p 1) p
(p 1) p (p 1) p
(X ) (X ) = c
t
= p2 ( )
2p ( ) = X t 1X =
2
1 t 2 1 t 2
1
e1X ) + ( e 2 X ) + ... + ( e pt X )
(
1
2
p
Ferreira, D.F.
Estatstica multivariada
249
2p ( ) = X t 1X =
1 2 1 2
1
Y1 + Y2 + ... + Yp2
1
2
p
em
uma
situao
real.
Todavia,
as
interpretaes
definidas
Yi = eit X , i = 1, 2, ..., p
(7.22)
o qual tem mdia zero e direo definida por ei . Na Figura 7.1 ilustram-se os
componentes principais bivariados com densidade fixa de 95%. A rotao dos
eixos X1 e X2 nos novos eixos Y1 e Y2 so a essncia dos componentes principais.
7. Componentes principais
250
Y1
Y2
Ferreira, D.F.
Estatstica multivariada
251
= Var(e
Q = Var(Y)
X) = e t Se
e tSe
et e
t e)
2(e tSe)e
2
e tSe
2Se(e
S
=
=
e = 0
2
(e t e)
e 'e
e t e
e
e t Se
S t e = 0
ee
(S ) e = 0
(7.23)
7. Componentes principais
252
( ; e )
i
= e t X = e X + e X + ... + e X , i = 1, 2, ..., p
Y
i
i
i1 1
i2 2
ip p
(7.24)
( )
= ,
Var
Y
k
k
k = 1, 2,..., p
(7.25)
,Y
= 0, i k = 1, 2,..., p
Y
Cov
i
k
(7.26)
i =1
i =1
Ferreira, D.F.
Estatstica multivariada
253
( )
P t = tr
P t P = tr
=
tr(S) = Sii = tr P
i
i =1
i =1
) = k 100
%VarExp(Y
k
p
i
(7.27)
i =1
e Xk definida por:
A correlao amostral entre Y
i
rY ,X =
i
e ik i
Skk
, i, k = 1, 2,..., p
(7.28)
7. Componentes principais
254
Z j = D 1/ 2 ( X j X ) ,
j = 1, 2,..., n
(7.30)
em que D-1/2= Diag 1/ S11 ,1/ S22 ,...,1/ Spp . O estimador de a covarincia de Z
dado por:
1/ 2
= D 1/ 2 Cov(X)D
= D 1/ 2SD 1/ 2 = R
Cov(Z)
(7.31)
= e t Z = e Z + e Z + ... + e Z ,
Y
i
i
i1 1
i2 2
ip p
i = 1, 2, ..., p
(7.32)
) = k 100
%VarExp(Y
k
p
(7.33)
Ferreira, D.F.
Estatstica multivariada
255
e Zk definida por:
A correlao amostral entre Y
i
rY ,Z = e ik i ,
i
i, k = 1, 2,..., p
(7.34)
7. Componentes principais
256
^ 10
0
1
componente principal
Figura 7.2. Scree plot de um exemplo com p=6 componentes principais para
ilustrar o processo de determinao de o nmero apropriado de
componentes a ser retido.
Ferreira, D.F.
Estatstica multivariada
257
(7.35)
t = Y
representados pelo vetor Y
j
j1 Yj2 ... Yjp para a j-sima observao amostral
e1t
t
t
= P X = e 2 X
Y
j
j
j
e pt
(7.36)
7. Componentes principais
258
( )
t = P t P = , portanto P t
pois PP
= e e
X j = PY
j
1 2
e p Y
j
(7.37)
e + Y
e +
Xj = Y
j1 1
j2 2
e
+Y
jp p
Ferreira, D.F.
Estatstica multivariada
259
e + Y
e +
avaliando quanto Y
j1 1
j2 2
e + Y
e +
dado por Y
jq +1 q +1
jq + 2 q + 2
2 +Y
2 +
por Y
j q +1
j q+2
,Y
,
possuem pelo menos uma das coordenadas de Y
j q +1
j q+2
que contribui
,Y
jp
( ; e ) ,
i
7. Componentes principais
260
> p > 0 e e1 , e 2 ,
, e p .
p e para os autovetores
e1 , e 2 ,
, p de
, ento,
1.
2. Seja
k
Ei = i
e et
2 k k
k =1 ( )
k
i
k i
ento,
n ( e i ei ) N p 1 ( 0, E i ) .
(7.38)
Ferreira, D.F.
Estatstica multivariada
261
Cov ( e ir , e js ) =
i jeis e jr
n ( i j )
(i j)
(7.39)
7. Componentes principais
262
i i
Z ( / 2 ) = 1
P
2
i n
(7.40)
i
i
ICi (1 ) :
;
2
2
1 + Z ( / 2 ) n 1 Z ( / 2 ) n
(7.41)
2
2
ICi (1 ) : i Z ( / 2 ) i
; i + Z ( / 2 ) i
n
n
(7.42)
Zc =
i 0
2
0
n
(7.43)
Ferreira, D.F.
Estatstica multivariada
263
H 0 : q +1 = q + 2 =
= q+r
(7.44)
q+r
j
q+r
j= q +1
2
c = (n 1) ln j + (n 1)r ln
j= q +1
r
( )
(7.45)
7. Componentes principais
264
H 0 : ei = e0
(7.46)
1
t
c2 = n i e0t S1e0 + e0t Se0 2 = n ( e i e0 ) E ig ( e i e0 )
(7.47)
Ferreira, D.F.
Estatstica multivariada
( 1 i )
i =
265
2
( p i )
( 2 i )
j
, pxp.
eliminao da i-sima linha e i-sima coluna de uma matriz Diag
( )2
i
j
Pi = e1 e 2
px(p-1).
Assim, pode-se definir Ei por:
p
j
t
E i = i Pi i Pit = i
e
e
2 j j
j=1 ( )
i
j
j i
1
1
E = Pi i1Pit =
i
i
g
i
( )2
i
j
t
e je j
j
j=1
j i
p
n ( ei e0 ) E ig n ( ei e0 ) 2p 1
t
7. Componentes principais
266
n ( ei e 0 )
p ( )
n
i
j
g
t g
t
t
E i ( ei e0 ) = ne0 E i e0 = e0
e je j e 0 =
i j=1
j
j i
2
2
p
p
n t p ( j 2 i j + i ) t
n tp
1
t
t
2
t
e je j e0 = e0 je je j 2 i e je j + i e je j e0 =
= e0
i j=1
j
i j=1
j=1
j=1 j
j i
j i
j i
j i
Como
je jetj = ,
j=1
termo da expresso
je je tj , tem-se que:
j=1
j i
1
Utilizando o mesmo raciocnio para 1 = e je tj somando e
j=1 j
subtraindo ao termo
1
1
1
e je tj + ei eit ei eit = 1 ei eit
i
i
j=1 j
i
j i
p
1
ei eit , tem-se:
e je tj a quantidade dada por
j=1 j
j i
p
Ferreira, D.F.
Estatstica multivariada
Finalmente, o termo
267
p
e je tj
j=1
j i
e je tj = I ei eit
j=1
j i
p
p
n tp
1
t
t
2
t
e0 j e j e j 2 i e j e j + i e j e j e0 =
i j=1
j=1
j=1 j
j i
j i
ji
n t
1
e0 i ei eit 2 i ( I ei eit ) + i2 1 ei eit e0 =
i
i
e t e
et e et e
e t Ie
et e et e
e t 1e0
et e et e
i2 0 i i 0 =
= n 0 0 0 i i 0 i 0 0 2 i + 2 i 0 i i 0 + i2 0
i
i
i
i i
i
i
e t e
e t e
= n 0 0 + i e0t 1e0 2
i
7. Componentes principais
268
1
1
H 0 : = 0 =
vs H 0 : 0
(7.48)
Ferreira, D.F.
Estatstica multivariada
rk =
269
1 p
rik ; k = 1, 2, ..., p
p 1 i =1
(7.49)
ik
r=
2 p 1 p
rik
p(p 1) i =1 k =i +1
(p 1) 2 1 (1 r ) 2
p (p 2)(1 r ) 2
(7.50)
(7.51)
c2 =
p
2
n 1 p 1 p
2
r
r
rk r )
(
)
(
ik
2
(1 r ) i =1 k =i +1
k =1
(7.52)
H0 : = 0 = 2 I
(7.53)
7. Componentes principais
270
H 0 : = dada por:
n
1 n
t
L ( , X ) = f ( X j ) = ( 2 ) np / 2 n / 2 exp ( X j ) 1 ( X j )
j =1
2 j =1
t
n
np
n
1 n
X
,
X
f
S(
) = ln ( j ) = 2 ln ( 2 ) 2 ln 2 ( X j ) 1 ( X j )
j =1
j =1
a) Derivada de S ( , X ) em relao a
Ferreira, D.F.
Estatstica multivariada
271
S ( , X )
= 1 ( X j )
j =1
(X
j =1
) = 0
n
n = X j
j =1
n
j =1
Xj
n
=X
b) Derivada de S ( , X ) em relao a
S ( , X )
n
1
t
= ( 1 ) + n 1S n 1
2
2
7. Componentes principais
272
S ( , X )
=0
n 1 t 1 1 1
( ) + n Sn = 0
2
2
1 1 1 n 1
n S n = ( )
2
2
1S n 1 = 1
1S 1 =
1
n
1 n
1 n
= S n = ( X j X )( X j X )t = W j
n j =1
n j =1
L , = ( 2 ) np / 2 S n
n / 2
= ( 2 ) np / 2 S n
n / 2
= ( 2 ) np / 2 S n
n / 2
1 n
t
exp ( X j X j ) S n1 ( X j X j )
2 j =1
1 n 1
exp tr S n ( X j X j )( X j X j )
2 j =1
t
1 1 n
exp tr S n ( X j X j )( X j X j )
j =1
2
Ferreira, D.F.
Estatstica multivariada
273
= ( 2 ) np / 2 Sn
n / 2
= ( 2 ) np / 2 S n
n / 2
= ( 2 ) np / 2 Sn
n / 2
exp tr Sn1nSn
2
exp tr [ ]
2
np
exp
2
L ( , 0 X ) = ( 2 ) np / 2 0
= ( 2 ) np / 2 ( 2 )
n / 2
1 n
t
exp ( X j ) 01 ( X j )
2 j =1
np / 2
1 n
t
exp 2 ( X j ) ( X j )
2 j =1
S , 2 X =
t
np
np
1 n
ln ( 2 ) ln ( 2 ) 2 ( X j ) ( X j )
2
2
2 j =1
7. Componentes principais
274
c) Derivada de S , 2 X em relao a
S , 2 X
)=
1 n
( X j )
22 j =1
(X
j =1
) = 0
n
n = X j
j =1
n
Xj
j =1
=X
d) Derivada de S , 2 X em relao a 0
S , 2 X
) = np
2
1
2( )
2 2
(X
j =1
)t ( X j )
Ferreira, D.F.
Estatstica multivariada
275
S , 2 X
) =0
n
np
1
+
( X j X )t ( X j X ) = 0
2
2
2
2
2 ( ) j =1
1
2 ( )
2 2
tr ( X
j =1
X )t ( X j X ) =
np
2 2
n
np
( X j X )( X j X )t = 2
tr
2
( 2 ) j =1
1
( )
2 2
tr ( nS n ) =
np 2
np
p
1
=
=
2
n tr ( S n ) tr ( S n )
2 =
tr ( S n )
p
7. Componentes principais
276
tr ( S n )
L , 0 = ( 2 ) np / 2
= ( 2 )
np / 2
= ( 2 )
np / 2
np / 2
tr ( S n )
np / 2
tr ( S n )
np / 2
n
t
p
X j X j ) ( X j X j )
exp
(
2tr ( S n ) j =1
p
exp
tr ( nS n )
2tr ( S n )
np
exp
2
1 =
( )=
L ( , )
L , 0
( 2 )
np / 2
tr ( S n )
( 2 ) np / 2
np / 2
np
exp
n/2
Sn
2
=
np / 2
n / 2
np
tr ( S n )
exp
Sn
2
p
np / 2
1 =
n/2
[ tr(S) / p]
np / 2
np / 2
p
p
i
i
i =1
=
= p i =1
np / 2
p
i / p
/
p
i =1
i =1
(7.54)
Ferreira, D.F.
Estatstica multivariada
277
np
n
p
np p
n
2
= 2 ln ( ) +
ln ln ( p )
2 i =1
2 i =1
(7.55)
= p+
p ( p + 1)
p ( p + 1) 2 ( p + 2)( p 1)
p 1 =
=
2
2
2
(2p 2 + p + 2)
c2 = 2 1
ln ( 1 )
6pn
(7.56)
7. Componentes principais
278
11 0
0
22
H0 : =
0
0
0
0
; ii >0
pp
(7.57)
2 =
n/2
Sii
i =1
n/2
= R
n/2
(7.58)
(2p + 11)
c2 = 2 1
ln ( 2 )
6n
(7.59)
Ferreira, D.F.
Estatstica multivariada
279
(2p + 11) p 1 p 2
c2 n
rik
6
i =1 k = i +1
(7.60)
7. Componentes principais
280
Rs=D_12*S*D_12;
print 'Matriz de correlacoes amostrais R';
print Rs;
Lr=diag(eigval(Rs));
print 'Matriz de autovalores de R';
print Lr;
Pr=eigvec(Rs);
print 'Matriz de autovetores de R';
print Pr;
/*intervalo de confianca para autovalores de S - equacao 7.41*/
za2=probit(1-alpha/2);
print 'Intervalos de confianca para os autovalores de S, sendo 1alpha=' alpha;
print 'Autovalor
Li
Ls';
do i=1 to p;
lin=ls[i,i]/(1+za2*(2/n)**0.5);
lsu=ls[i,i]/(1-za2*(2/n)**0.5);
print i
lin
lsu;
end;
/*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 equacao 7.42 */
/* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com
sig2=4.2 e rho=0.97
*/
l0=12.35;
Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5;
przc=2*(1-probnorm(abs(zc)));
print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas
um exemplo';
print 'Valor de Zc valor de prob>|zc|';
print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada';
print Zc przc;
/* teste 7.43 igualdade de r autovalores intermediarios*/
/* neste exemplo sera testado Ho: l2 = l3
*/
/*q=1, r=2, p=3 -teste 7.44
*/
aux1=0;aux2=0;q=1;r=2;
do i=q+1 to q+r;
aux1=aux1+log(ls[i,i]);
aux2=aux2+ls[i,i]/r;
end;
qui2c=-(n-1)*aux1+(n-1)*r*log(aux2);
print 'Valores dos somatorios auxiliares para teste H0: l2 = l3';
print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios';
print aux1 aux2;
v=r*(r+1)/2-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotese de que Ho: l2 = l3 ';
print 'Qui-quadrado
GL
Pr>qui-Quadr';
print qui2c v prqui2c;
/* teste para a hipotese de igualdade de um autovetor a um vetor de
constantes*/
/* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou
seja, igual*/
/* estrutura de correlacao da matriz Sigma que originou a S
*/
e0=j(p,1,1/3**0.5);
E1=j(p,p,0);
do i=1 to p;
ek=Ps[,i];
if i^=1 then
do;
E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);
Ferreira, D.F.
Estatstica multivariada
281
end;
end;
E1=ls[1,1]*E1;
Le=eigval(e1);
*print E1 le;
ei1=Ps[,1];
print e0 ei1;
qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2);
qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0);
v=p-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])';
print 'Qui-quadrado1 qui-quad2
GL
Pr>qui-Quadr';
print qui2c qui2c2 v prqui2c;
/*teste da H0:phoij=pho - igual estrutura de correlacao */
rbar=(sum(Rs)-trace(Rs))/(p*(p-1));
rk=j(p,1,0);
do i=1 to p;
rk[i]=(sum(Rs[,i])-1)/(p-1);
end;
gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2);
aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar));
aux2=(sum(aux1)-trace(aux1))/2;
aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar));
aux4=sum(aux3);
qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4);
v=(p+1)*(p-2)/2;
if qui2c<=0 then qui2c=1e-14;
prqui2=1-probchi(qui2c,v);
print 'Teste da hipotes phij=pho: igual estrutura de correlacao';
print 'Qui-quadrado GL
Pr>qui-Quadr';
print qui2c v prqui2;
print 'Valores utilizados no teste-para simples conferencia';
print 'media geral dos rij, vetor de medias de cada coluna de R e gama
chapeu';
print rbar rk gama;
/*teste de esfericidade-H0: Sigma=Sig^2*I*/
Lamb1=((det(S)**(1/p))/(trace(S)/p));
qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n));
v=(p+2)*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de esfericidade - H0: Sigma=Sig^2*I';
print 'Qui-quadrado GL
Pr>qui-Quadr
Lambida 1^(2/(np))';
print qui2c v prqui2 lamb1;
/*teste de independencia de variaveis mais geral - H0: Sigma =
Diag(sig11 sig22 ... sigpp)*/
Lamb2=det(Rs);
qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n));
v=p*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ...
sigpp)';
print 'Qui-quadrado GL
Pr>qui-Quadr
Lambida 2^2/n';
print qui2c v prqui2 lamb2;
/*teste de independencia de variaveis - uso da aproximacao de Lawleypior*/
aux1=Rs#Rs;
aux2=(sum(aux1)-trace(aux1))/2;
qui2c=aux2*(n-(2*p+11)/6);
v=p*(p-1)/2;
7. Componentes principais
282
prqui2=1-probchi(qui2c,v);
print 'Teste de independencia aproximado de Lawley (1940)';
print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)';
print 'Qui-quadrado GL
Pr>qui-Quadr
Soma de rij^2=aux2';
print 'Obs. para grandes valores de rij essa eh uma pessima
aproximacao';
print qui2c v prqui2 aux2;
quit;
7.6. Exerccios
2,128
X = 2, 008
1, 710
Ferreira, D.F.
Estatstica multivariada
283
7. Componentes principais
284
U.A.
X1
X2
X3
12,80
29,56
45,19
14,12
26,54
49,29
19,09
33,26
49,79
15,98
31,00
51,73
16,00
28,94
50,30
16,51
31,67
48,06
14,05
30,11
55,15
14,34
26,47
46,84
16,87
29,00
52,16
10
21,93
38,00
39,24
11
15,21
30,68
54,02
12
15,54
27,37
51,52
13
17,71
30,20
51,66
14
14,42
29,99
52,50
15
13,38
31,61
52,33
16
13,91
29,59
44,19
17
15,53
29,30
53,71
18
16,40
28,96
46,56
19
18,35
30,15
52,18
20
13,59
27,70
52,33
21
19,08
31,26
48,59
22
13,95
29,94
54,73
23
16,11
34,52
52,69
24
17,10
29,39
52,03
25
18,81
31,48
49,79
26
15,27
29,54
43,11
27
14,80
31,88
48,08
28
17,39
28,88
50,69
29
18,02
34,02
49,58
30
9,52
25,23
45,89
||[
Anlise de agrupamento
]||
8.1. Introduo
8. Anlise de agrupamento
286
20
Varivel 2
18
16
14
12
A
10
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Varivel 1
Figura 8.1. Disperso entre trs indivduos mensurados com relao a duas
variveis quantitativas contnuas.
8.2. Medidas
de
dissimilaridade)
parecena
(similaridade
Ferreira, D.F.
Estatstica multivariada
287
e X 2t = X 21 X 22 " X 2p
d ( X1 , X 2 ) =
( X11 X 21 )
d ( X1 , X 2 ) = (X1 X 2 ) t S1 (X1 X 2 )
(8.2)
1m
p
m
d ( X1 , X 2 ) = X1i X i2i
i =1
(8.3)
8. Anlise de agrupamento
288
d h,i =
( X
j =1
hj
X ij )
(8.4)
d h,i
X hj X ij
=
=
S
j =1
jj
( X h Xi )
D 1 ( X h X i )
(8.5)
Ferreira, D.F.
Estatstica multivariada
289
em que, D uma matriz diagonal tendo o j-simo componente igual a varincia Sjj,
ou seja,
0 "
0
S11
0 S
0
"
22
D=
#
# %
#
0 " Spp
0
d h,i
X hj X ij
S
j =1
jj
=
=
p
p
( X h Xi )
D 1 ( X h X i )
p
(8.6)
d h,i
1 p X hj X ij
= log10 1
p j =1 X ( n ) j X (1) j
(8.7)
8. Anlise de agrupamento
290
Ferreira, D.F.
Estatstica multivariada
291
Linhagens
A
B
1
1
1
Bandas
3
0
0
2
0
1
4
1
1
5
1
0
(X
hj
X ij )
0 se X hj = X ij = 1 ou se X hj = X ij = 0
=
1 se X X
hj
ij
(8.8)
do
nmero
de
pares
no
coincidentes.
Grandes
distncias
d A2 , B = 2
8. Anlise de agrupamento
292
A equao (8.4) pode ser usada muitas vezes como base para
distncia, no entanto, algumas vezes possui algumas limitaes por considerar
que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas
situaes reais (1-1) representa uma forte evidncia de similaridade, mas o (0-0)
no. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este
problema. Cabe ao leitor decidir em qual situao o seu problema se enquadra e
escolher a medida de parecena mais apropriada. Para introduzir estas medidas
de parecena so apresentados os resultados de coincidncias e divergncias dos
objetos h e i em uma tabela de contingncia.
Item i
1
Totais
a+b
c+d
a+c
b+d
p = a + b +c + d
Item h
Totais
Tabela
8.1
apresentam-se
alguns
dos
coeficientes
de
Ferreira, D.F.
Estatstica multivariada
293
Sh,i =
1
1 + d h ,i
(8.9)
Sh,i
2 p d h2, i
3
=
2
2 p + d h2,i
3
(8.10)
Sh,i =
2 p d h2, i
2 p + d h2, i
(8.11)
8. Anlise de agrupamento
294
d h , i = 2 (1 S h ,i )
(8.12)
Ferreira, D.F.
Estatstica multivariada
295
Expresso
Explicao
Variao
Ex.
0-1
0,60
0-1
0,75
0-1
0,43
0-1
0,40
a
a+b+c
2a
2a + b + c
a
a + 2( b + c)
0-1
0,50
0-1
0,66
0-1
0,33
a
b+c
0-(p-1)
1,00
0-1
0,63
a
( a + b )( a + c)
Concordncias
positivas
sobre
adaptao da mdia geomtrica de
discordncias
0-1
0,67
Baroni-UrbaniBuser
a + ad
a + b + c + ad
0-1
0,63
Haman
(a + d) (b + c )
p
-1 - +1
0,20
a+d
p
Coincidncia
simples
Sokal
Sneath
2 (a + d )
2 (a + d ) + b + c
Rogers
Tanimoto
a+d
a + 2( b + c) + d
Duplo peso
coincidentes
Russel e Rao
Jaccard
Sorenson
Dist.
Binria
de Sokal
Ochiai
a
p
b+c
p
para
pares
no
Yule
ad bc
ad + bc
Proporo de ad menos a de bc
-1 - +1
0,33
ad bc
-1 - +1
0,17
Proporo de coincidncias em
relao mdia geom. total
modificada
0 -1
0,33
ad
(a + b)(a + c)(b + d )(c + d )
8. Anlise de agrupamento
296
8.3. Agrupamentos
Ferreira, D.F.
Estatstica multivariada
297
8. Anlise de agrupamento
298
.2
.1
d24
.4
.3
.2
.
(a)
d15
(b)
.2
.1
.4
.4
.3
.5
.3
.5
(c)
(d13+d14+d15+d23+d24+d25)/6
Figura 8.2. Distncias entre os grupos para os mtodos da (a) ligao simples, (b)
ligao completa e (c) ligao mdia.
Ferreira, D.F.
Estatstica multivariada
299
1. Iniciar com n grupos, cada um com um nico elemento e com uma matriz
simtrica n x n de dissimilaridades (distncias) D={dhi}.
2. Buscar na matriz D o par de grupos mais similar (menor distncia) e fazer a
distncia entre os grupos mais similares U e V igual a duv.
3. Fundir os grupos U e V e nome-lo por (UV). Recalcular e rearranjar as
distncias na matriz D (a) eliminando as linhas e colunas correspondentes a U
e V e (b) acrescentando uma linha e coluna com as distncias entre o grupo
(UV) e os demais grupos.
4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estaro em
nico grupo). Anotar a identidade dos grupos que vo sendo fundidos e os
respectivos nveis (distncias) nas quais isto ocorre.
B 3 0
D=
C 7 9 0
D 8 6 5 0
8. Anlise de agrupamento
300
D = C 7 0
D 6 5 0
A menor distncia entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nvel 5. Recalculando as distncias tm-se,
DC 0
AB 6 0
Ferreira, D.F.
Estatstica multivariada
301
Dendrograma
Single Linkage
Matriz de dissmilaridade
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
Distncia de ligao
8. Anlise de agrupamento
302
D = C 9 0
D 8 5 0
A menor distncia entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nvel 5. Recalculando as distncias entre os grupos
tem-se,
DC 0
AB 9 0
Ferreira, D.F.
Estatstica multivariada
303
Dendrograma
Complete Linkage
Matriz de dissimilaridades
10
Distncia de ligao
8. Anlise de agrupamento
304
d( AB ), C = (dAC + dBC ) / 2 = (7 + 9) / 2 = 8
d ( AB ),D = (d AD + dBD ) / 2 = (8 + 6) / 2 = 7
A nova matriz D para o prximo passo :
AB C D
AB 0
D = C 8 0
D 7 5 0
A menor distncia entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nvel 5. Recalculando as distncias tm-se,
DC AB
D=
DC 0
AB 7,5 0
Ferreira, D.F.
Estatstica multivariada
305
Dendrograma
Unweighted pair-group average
Matriz de dissimilaridade
Distncia de ligao
8. Anlise de agrupamento
306
Exemplo 8.1
Utilizando 4 itens (A, B, C e D) e 2 variveis (X1 e X2) dividir em k=2
grupos, pelo mtodo das k-mdias.
Observao
Objeto
A
B
C
D
x1
2
5
1
8
x2
0
2
4
4
Centride
Objeto
AD
BC
X1
(2+8)/2=5
(1+5)/2=3
X2
(0+4)/2=2
(2+4)/2=3
Ferreira, D.F.
Estatstica multivariada
307
ii) Neste passo a distncia de cada item ser computada em relao ao centride
de cada grupo e se necessrio, os objetos sero realocados para o grupo mais
prximo.
d
d
2
A ( AD )
2
A (BC )
= (2 5) 2 + (0 2) 2 = 13
= (2 3) 2 + (0 3) 2 = 10
Centride
Objeto
X1
X2
D
ABC
8
2,667
4
2
d
d
2
A ,D
= 52
2
A ,( ABC )
d
d
B ,D
= 4, 44
Grupo
D
ABC
= 13
B ,( ABC )
= 5, 44
d
d
C ,D
= 49
C ,( ABC )
= 6,77
8. Anlise de agrupamento
308
8.4. Exerccios
A B C D
A 0
B 9
0
D=
C 25 36 0
D 49 100 16 0
||[
Anlise de fatores
]||
9.1. Introduo
tcnica
dos
componentes
principais
consiste
em
uma
9. Anlise de fatores
310
Ferreira, D.F.
Estatstica multivariada
311
(9.1)
X p p = A p1F1 + A p2 F2 + ... + A pm Fm + p
X = L F
(p1)
(p m) (m1)
+
(p1)
(9.2)
9. Anlise de fatores
312
E(F) = 0
(9.3)
Cov(F) = E(FFt ) =
(9.4)
E() = 0
(9.5)
1 0
0
2
t
Cov() = E( ) = =
#
#
0
0
0
" 0
% #
" p
"
(9.6)
Cov(, F) = E ( Ft ) = 0
(p m)
(9.7)
Ferreira, D.F.
Estatstica multivariada
313
( X )( X )
= ( LF + )( LF + ) = ( LF + ) ( LF ) + t =
t
t
t
t
= LF ( LF ) + ( LF ) + LF +
t
Ento,
Cov(X) = = E(X )(X ) t =
t
t
= E LF ( LF ) + ( LF ) + LF t + t
t
t
t
t
= LE(FF )L + E ( F ) L + L E ( F t ) + E ( t )
Cov(X) = = LLt +
(9.8)
Cov ( X, F ) = E X Ft = E ( LF + ) Ft = E ( LFFt + Ft ) =
= E ( LFFt ) + E ( Ft ) = LE ( FFt ) + E ( Ft ) = L + 0 = L
9. Anlise de fatores
314
Logo,
Cov ( X, F ) = L
ou
Cov ( X i , Fj ) = A ij
(9.9)
(9.10)
m
(9.11)
Assim,
ii = h i2 + i
i = 1, 2, ..., p
(9.12)
Ferreira, D.F.
Estatstica multivariada
315
X = LF + = LTT t F + = L*F* +
em que: L* = LT e F* = T t F .
(9.13)
9. Anlise de fatores
316
(9.14)
Ferreira, D.F.
Estatstica multivariada
317
1 2 ... p , ento:
= PP t = P1/ 2 1/ 2 P t = LLt
(9.15)
9. Anlise de fatores
318
exata, esta no til por utilizar tantos fatores quanto variveis e por no deixar
variao alguma para os fatores especficos.
Uma soluo para o problema considerar um nmero m, de fatores
comuns, menor do que o de variveis p. Com esse critrio p-m autovalores e os
respectivos autovetores so desconsiderados. Esses autovalores so queles (pm) menores. Dessa forma a contribuio de m +1e m +1e mt +1 + m + 2 e m + 2 e mt + 2 + ... + p e p e pt
para negligenciada. Desprezando essa contribuio, a seguinte aproximao
de pode ser obtida:
1 e1
2 e 2 ...
1 e1
2 e2
t
m e m
= LL
#
e
m m
(9.16)
Ferreira, D.F.
Estatstica multivariada
319
LLt +
(9.17)
m
j =1
X1 1
Z1
11
Z
2
Z = = V 1/ 2 X = #
#
X p p
Zp
pp
em que:
1/ 2
1
11
"
1
22
"
"
1
pp
(9.18)
9. Anlise de fatores
320
( )
L = 1 e1
2 e 2 ...
1/ 2
m e m = P1
1
(9.19)
Ferreira, D.F.
Estatstica multivariada
321
uma matriz
em que P1 uma matriz p x m dos autovetores amostrais de S e
1
diagonal m x m dos autovalores amostrais de S.
Os estimadores das varincias especficas so dados pela matriz
diagonal resultante da seguinte operao matricial.
1
0
=
#
0 " 0
2 " 0
t
= Diag S LL
#
% #
0 " p
(9.20)
(9.21)
j=1
(9.22)
9. Anlise de fatores
322
t +
S LL
(9.23)
t
menor ou igual a
resduos S LL
i = m +1
2
i
A
i =1
2
ij
(9.24)
Ferreira, D.F.
Estatstica multivariada
323
j
100 para fatores de S
Tr(S)
%VarExp =
(9.25)
9. Anlise de fatores
324
11 0
0
22
H0 : =
#
#
0
0
0
" 0
; ii >0
% #
" pp
"
Variveis
X1
X2
X3
% explicao
Cargas fatoriais
F1
Comunalidades
2,2165
1,7277
2,1770
98,1500
4,9129
2,9849
4,7394
h i2
Varincias
especficas
i
0,0681
0,0831
0,0870
Ferreira, D.F.
Estatstica multivariada
325
t
=
S LL
4,9810 3,8063 4, 7740
= 3,8063 3, 0680 3, 7183
4, 7740 3, 7183 4,8264
0
0
2, 2165
0, 0681
1, 7277 [ 2, 2165 1, 7277 2,1770] 0
0, 0831
0
2,1770
0
0
0, 0870
0, 0228 0, 0515
0
= 0, 0228
0
0, 0429
0, 0515 0, 0429
0
Comunalidades
F1
F2
h i2
2,2165
1,7277
2,1770
0,1630
0,1608
-0,2935
4,9394
3,0108
4,8255
98,15
99,23
Varincias
especficas
i
0,0418
0,0575
0,0003
9. Anlise de fatores
Uma
326
aproximao
modificada
do
mtodo
dos
componentes
h1*2
r
*
R r = R = 21
#
rp1
r12
h *2
2
#
rp2
" r1p
" r2p
% #
" h *2
(9.26)
Ferreira, D.F.
Estatstica multivariada
327
R r L*r L*tr
(9.27)
*
* *
*2 e *2
L r = 1 e1
m
*i = 1 A*2
ij
j=1
em que
( ; e ) ,
*
i
*m e *m
(9.28)
obtidos de Rr.
As comunalidades devem ser re-estimadas por:
*2
h *2
i = A ij
(9.29)
j=1
9. Anlise de fatores
328
estimativas das cargas fatoriais e das varincias especficas para uma dada
preciso.
Um problema que pode surgir nesse procedimento o aparecimento
de autovalores de Rr negativos. Recomenda-se utilizar o nmero de fatores
comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores
negativos devida aos valores iniciais das varincias especficas utilizadas.
Algumas alternativas existem para a escolha desses valores iniciais. A mais
popular utilizar *i = 1 r ii , em que rii o elemento da i-sima diagonal da matriz
R-1. As comunalidades iniciais so, ento, dadas por:
*
h *2
i = 1 i = 1
1
r ii
(9.30)
m ii
h *2
i = Sii 1
S
2p
(9.31)
Ferreira, D.F.
Estatstica multivariada
329
n / 2
L(, ) = (2) np / 2
1 n
t
t
exp tr 1 ( X j X )( X j X ) + n X X =
2 j=1
= (2)
(n 1)p / 2
(2) p / 2
1/ 2
(n 1) / 2
)(
exp tr 1Sn
2
t
n
exp tr X 1 X
2
(9.32)
multiplicidade
de
escolhas
para
dadas
por
(9.33)
9. Anlise de fatores
330
devem ser
Os estimadores de mxima verossimilhana L e
obtidos por maximizao numrica de (9.32). A maximizao de (9.32) sujeita a
condio de unicidade (9.33) deve satisfazer:
1/ 2
)(
1/ 2
1/ 2 L =
1/ 2 L +
Sn
(9.34)
1L
= L t
(9.35)
1/ 2
1/ 2
1/ 2 L =
1/ 2 L + L t
1L
Sn
1/ 2
1/ 2
1/ 2 L
1/ 2 L =
1/ 2 LL
t
1L
Sn
1/ 2
1/ 2
1/ 2 L =
1/ 2 LL
t
1L
Sn
Logo,
1/ 2 S
1/ 2
1/ 2 L =
1/ 2 LL
t
1L
(9.36)
Ferreira, D.F.
Estatstica multivariada
331
(S
1/ 2 S
1/ 2 ,
1 , e portanto
1/ 2 S
1/ 2 . O clculo desses vetores no um
ao i-simo autovalor de
n
so tambm desconhecidos, os
processo direto, uma vez que os elementos de
= Diag(S LL
t ) . Sendo assim, o processo de
quais devem ser obtidos da relao
estimao
deve
ser
executado
iterativamente
estimando-se
os
vetores
, e ento,
caractersticos correspondentes a valores iniciais de os elementos de
utiliz-los para obter novas estimativas mais precisas das varincias especficas
sucessivamente.
Para
modelo
com
fatores
os
vetores
caractersticos
10
, 20 ,..., m0
( e10 , e 20 ,..., e m0 ) ,
de Sn e os vetores
9. Anlise de fatores
332
10
= 0
0
#
20
#
0
" 0
% #
" m0
"
e
1/ 2
P0 = Q
0 0
(9.37)
1/ 2 S
1/ 2
0
n
0
0
(9.38)
= Diag S P P t
0
n
0 0
3. Obter a matriz
11
, 21 ,..., m1
Ferreira, D.F.
Estatstica multivariada
333
11 0
= 0 21
1
#
#
0
0
" 0
% #
" m1
"
1/ 2
P1 = Q
1 1
( )
1/ 2 P
L 1 =
0
1
(9.39)
4. Calcular
= Diag S L L t
1
n
1 1
(9.40)
9. Anlise de fatores
334
( )
L Z = D 1/ 2 L
(9.41)
= D 1/ 2
D 1/ 2
(9.42)
(9.43)
Ferreira, D.F.
Estatstica multivariada
335
9. Anlise de fatores
336
p 2
A ij
i =1 100 para fatores de S
Tr(S)
%VarExp =
p
A 2Z(i j)
i =1
100 para fatores de R
p
(9.44)
A 2i j t =
A ij(t 1)
A ijt
A ijt
A ij(t +1)
(9.45)
Ferreira, D.F.
Estatstica multivariada
337
i)
1/
2
= 12,637147 Q = 0, 4859812 L = P = Q
0
0 0 = 1, 727603
0
0
0
0, 612436
2,1771344
ii)
0
0
0, 0683794
= Diag S P P =
0
0, 0833879
0
0
n
0
0
0, 0864857
iii)
t
0 0
(3 1) e P (3 1) .
(1 1), Q
foram usados para compor as matrizes
1
1
1
9. Anlise de fatores
338
1/ 2 S
1/ 2
0
n
0
0
71,843527
= 50,406739
62,079406
50,406739 62,079406
35,791891 43,784534
43,784534 54,805777
0,6657947
8,4600381
1/
2
= 161,45963 Q = 0,4691915 P = Q
= 5,9618652
1 1
1
1
0,5801523
7,3718074
2,2122546
P = 1,721606
L 1 =
2,167934
1/ 2
0
1
iv)
por:
Foi calculado o segundo valor
1
0
0
0,0869296
1 = Diag Sn L 0 L 0 =
0
0,1040727
0
0
0
0,1264622
Ferreira, D.F.
Estatstica multivariada
339
2,2106526
1/ 2 P = 1,7217993 e
L 41 =
40 41
2,1595433
= Diag S L L
41
n
t
41 41
0
0
0,0940152
=
0
0,1034073
0
0
0
0,1627727
0
2,9835E-8 3,7474E-8
R = 2,9835E-8
0
-7,05E-8
3,7474E-8 -7,05E-8
SQResduos= 1,453E-14
4,9810
L Z = D 1/ 2 L =
0
0
1
3, 0680
0
2,2106526 0,9905177
0
1,7217993 = 0,983003
2,1595433 0,9829926
4,8264
0
9. Anlise de fatores
= D 1/ 2
D 1/ 2
340
0
0
0, 0188748
=
0
0, 0337051
0
0
0
0, 0337255
1, 00 0,59 0,35
1, 00 0, 42
1, 00
R=
0,34 0, 63 0, 40 0, 28 0, 20
0,51 0, 49 0,52
0,31 0,36
0, 29 0, 46 0, 27 0,39
1, 00
0,34 0,17
1, 00
0, 23
0,32 0,33
1, 00
0, 24
1, 00
0,11 0, 07
0, 21 0, 09
0, 44 0, 08
0,17 0,18
0,13 0,39
0,18 0, 00
0,34 0, 02
0, 24 0,17
1, 00 0, 00
1, 00
Ferreira, D.F.
Estatstica multivariada
341
F1
F2
F3
F4
-0,0869
0,0688
-0,1294
0,1603
0,3787
-0,0178
-0,0563
0,1573
-0,0218
0,9986
0,3449
0,4352
0,9911
0,4059
0,2437
0,3629
0,7294
0,2640
0,4411
0,0496
0,8290
0,5931
-0,0038
0,3343
0,6702
0,4234
0,0268
0,2275
-0,0115
-0,0004
-0,1685
0,2746
-0,0007
0,4451
-0,1372
0,3878
0,0182
0,3937
0,0971
-0,0001
0,12
0,37
0,55
0,61
i = 1 h i2
0,157935
0,378693
0,001053
0,499688
0,329262
0,538310
0,463815
0,698795
0,795340
0,000408
9. Anlise de fatores
342
Ferreira, D.F.
Estatstica multivariada
343
j=1
j=1
p m
p m 1 m
m 2
4
2 2
A ij = A ij + 2 A ijA ik
i =1 j=1
i =1 j=1
i =1 j=1 k = j+1
(9.46)
tambm invariante.
Com esse resultado em evidncia possvel especificar critrios de
simplicidade ou parcimnia propostos pelos analistas de fatores (Morrison, 1976).
Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como
uma medida de parcimnia, por meio de uma escolha adequada de T. Esse
resultado foi determinado quase que ao mesmo tempo e independentemente por
Carroll (1953).
Neuhaus e Wrigley (1954) propuseram a maximizao da varincia
do quadrado das pm cargas fatoriais para definir T. A varincia do quadrado das
cargas fatoriais :
1 p m 2
V = A
A ij
pm i =1 j=1
i =1 j=1
p
4
ij
(9.47)
9. Anlise de fatores
344
1
v = 2
p
*
p 4 p 2 2
p A ij A ij
j=1 i =1
i =1
(9.48)
1
v= 2
p
p 4 p 2 2
p x ij x ij
j=1 i =1
i =1
(9.49)
em que:
x ij =
A ij
m
A
j=1
(9.50)
2
ij
Ferreira, D.F.
Estatstica multivariada
345
j-sima carga fatorial do i-sima varivel resposta dividida pela raiz quadrada de
sua comunalidade. Na seqncia da rotao os valores de xij devem ser
multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a
dimenso original. Esse critrio foi nomeado por Kaiser de varimax.
O processo computacional para a rotao varimax descrito a
seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A
rotao desses fatores envolve o simples ngulo , e diferenciando (9.49) com
relao a Kaiser mostrou que o ngulo deve satisfazer a relao:
p
p
p 2
2
2
2
2 2p ( x ir x is ) x ir x is ( x ir x is ) 2 x ir x is
i =1
i =1
i =1
tg() =
2
2
p
p
p
2
2
2
2
2
p ( x ir x is ) ( 2x ir x is ) ( x ir x is ) 2 x ir x is
i =1
i =1
i =1
(9.51)
9. Anlise de fatores
346
com o terceiro fator original, e assim por diante, at que m(m-1)/2 pares de
rotaes tenham sido executadas. Essa seqncia de rotaes repetida at que
todos os ngulos sejam menores que um critrio de convergncia especificado ,
dentro de um ciclo.
Sinal do numerador
+ (positivo)
- (negativo)
+ (positivo)
: 004<900
V: -9004<00
- (negativo)
: 9004<1800
: -18004<-900
Exemplo 9.4. Efetuar a rotao varimax dos m = 3 fatores obtidos por Morrison
(1974) apresentados a seguir.
(incompleto)
Ferreira, D.F.
Estatstica multivariada
347
H 0 : = LLt +
(9.52)
t
(2p + 4m + 5) LL +
= n 1
ln S
6
2
c
(9.53)
1
(p m) 2 p m
2
(9.54)
graus de liberdade.
Pela propriedade da invarincia das cargas e das varincias
especficas estimadas segue-se que o valor do teste seria o mesmo da soluo de
fatores da matriz de correlao R. Para a aplicao do teste da falta de ajuste
necessrio que os graus de liberdade sejam positivos. Isso significa que o nmero
de fatores comuns m no pode exceder o maior inteiro que satisfaz a equao:
m<
1
2p + 1 8p + 1
2
(9.55)
9. Anlise de fatores
348
t +
aproximar de Sn, de tal sorte que o acrscimo de novos fatores no
de LL
traga novas melhoras ao modelo. A diminuio de m pode, ainda, pelas mesmas
razes levar a no rejeio de H0. Algum tipo de bom sendo deve ser aplicado na
escolha de m.
Para demonstrar que a padronizao das variveis no afeta o teste
apresentado seja D 1/ 2 definida anteriormente a matriz diagonal com o recproco
dos desvios padres das p variveis na diagonal principal. Ento, a razo que
aparece na equao (9.53) pode ser operada por:
t +
LL
Sn
t +
D 1/ 2
D 1/ 2 LL
D 1/ 2 Sn D 1/ 2
Ferreira, D.F.
Estatstica multivariada
t +
LL
Sn
349
t D 1/ 2 + D 1/ 2
D 1/ 2
D 1/ 2 LL
D 1/ 2Sn D 1/ 2
L Z L tZ +
z
R
9. Anlise de fatores
350
X = LF +
i2
i =1
= t 1 = X LF 1 X LF
(9.56)
1
F = ( Lt 1L ) Lt 1 X
(9.57)
Ferreira, D.F.
Estatstica multivariada
1L
F j = L t
351
1 ( X X ) j = 1, 2, ..., n
L t
j
(9.58)
1L
F j = L tZ
Z
Z
1Z j = 1, 2, ..., n
L tZ
Z
j
(9.59)
,
Se as cargas fatoriais que sofreram rotao so usadas L* = LT
ento, F j se relaciona com F j* por:
F j* = T ' F j
(9.60)
X = LF +
9. Anlise de fatores
352
LLt +
=
t
L
(9.61)
E ( F / x ) = Lt 1 x = Lt ( LLt + )
( x )
(9.62)
e
C ov ( F / x ) = Lt 1L = Lt ( LLt + ) L
1
Os coeficientes Lt ( LLt + )
(9.63)
t +
F j = L t LL
) ( X X )
1
j = 1, 2, ..., n
(9.64)
Ferreira, D.F.
Estatstica multivariada
353
t +
L t LL
) = ( + L L )
1
1
L t
(9.65)
pode simplificar o clculo dos escores dos fatores, os quais so dados por:
1L
F j = + L t
1 ( X X ) j = 1, 2, ..., n
L t
j
(9.66)
t +
1
L t LL
) = ( + L L )
1
1
L t
Tem-se:
1L
F jWLS = L t
) ( + L L ) F
1
LS
j
1L
= L t
LS
+ F j
( L L )
t
9. Anlise de fatores
354
9.7. Exerccios
||[
10
]||
10.1. Introduo
356
10.2. Variveis
cannicas
populacionais
correlao
cannica
X1(1)
(1)
X2
#
X (1) X (1)
p
X = (2) = (2)
X X1
(2)
X2
#
X (2)
q
(10.1)
Ferreira, D.F.
Estatstica multivariada
357
Cuja mdia :
(1)
= E(X) = (2)
(10.2)
t
12
p
= E X X = 11
q 21 22
)(
(10.3)
(2)
(2)
Cov ( X (2) ) = 22
E ( X ) =
(10.4)
358
Seguindo
notao
normalmente
utilizada
na
literatura
U = a t X (1)
V = b t X (2)
(10.5)
t (2)
t
Var(V) = Cov ( b X ) = b 22 b
t
(1)
(2)
=
Cov(U,
V)
a
C
ov
X
,
X
b = a t 12 b
(
)
(10.6)
Corr(U, V) = U, V =
a t 12 b
a t 11a b t 22 b
(10.7)
Ferreira, D.F.
Estatstica multivariada
359
a t 11a = b t 22 b = 1
(10.8)
U,V
1/ 2
1/ 2
3 / 2
1
= ( b t 22 b ) ( a t 11a ) 12 b + 2 ( a t 12 b )( a t 11a ) 11a
2
a
11
22
12
12
22
22
b
2
(10.9)
360
( a t 12 b ) 11a + 12 b = 0
t
t
12a ( a 12 b ) 22 b = 0
(10.10)
U, V 11a + 12 b = 0
t
12a U, V 22 b = 0
(10.11)
U, V 11
12
=0
t
12 U, V 22
(10.12)
A
A = 11
A 21
A12
A 22
(10.13)
Ferreira, D.F.
Estatstica multivariada
361
1
A = A11 A 22 A 21A11
A12
ou
1
A = A 22 A11 A12 A 22 A 21
(10.14)
U, V 11 U, V 22 +
1
U, V
t
1
12
11
12 = 0
U, V 22 +
1
U, V
t
1
12
11
12 = 0
362
t
12 22112
2U,V 11 = 0
t 1
2
12 11 12 U,V 22 = 0
(10.15)
e t Ae
= t
e Be
restrito a e t Be =1.
Assim, os resultados de (10.15) podem ser reescritos (captulo 2) da
seguinte forma:
t
( 12 22112
11 ) a = 0 (a)
t 1
( 12 11 12 22 ) b = 0 (b)
(10.16)
1/ 2
a for substitudo por a = 11
c , ento:
Ferreira, D.F.
Estatstica multivariada
363
1/ 2
11
( 1222112t 11 ) 111/ 2c = 0
1/ 2
11
t
1/ 2
1/ 2
1/ 2
12 22112
11
11
1111
) c = 0
1/ 2
11
t
1/ 2
12 22112
11
i ) ci = 0
(10.17)
1/ 2
a i = 11
ci
(10.18)
364
1/ 2
22
t
1
12
11
12 221/ 2 i ) d i = 0
(10.19)
bi = 221/ 2 d i
(10.20)
a t 12 b
= a t 12 b
Max ( U, V ) =
t
t
a 11a b 22 b
a, b
Max ( U, V ) = i
a, b
1/ 2
1/ 2
Var(U i ) = Cov ( a it X (1) ) = a it 11a i = cit 11
1111
ci = cit ci
(10.21)
Ferreira, D.F.
Estatstica multivariada
365
1/ 2
t
1/ 2
Sabendo que ci um autovetor de 11
12 22112
11
com norma 1, e
Var ( U i ) = Var ( Vi ) = 1
(10.22)
Logo,
Cov ( U k , U A ) = Corr ( U k , U A ) = 0 ( k A )
Cov V , V = Corr V , V = 0 k A
( k A)
( k A)
(
)
(10.23)
Logo,
366
Cov ( U k , VA ) = Corr ( U k , VA ) = 0
Para
variveis
(k A)
padronizadas
(10.24)
(1)
(2)
1/ 2 (1)
U k = a kt Z(1) = c kt 11
Z
V = b t Z(2) = d t 1/ 2 Z(2)
k 22
k k
(10.25)
1/ 2
t
1/ 2
1222112
11
e
em que c k e d k so os autovetores de norma 1 das matrizes 11
t
1
221/ 212
11
12221/ 2 ,
respectivamente.
Os
autovetores
originais
devem
ser
recuperados por:
1/ 2
a k = 11
ck
b = 1/ 2 d
22
k
k
(10.26)
12
p
= E ( ZZt ) = 11
q 21 22
(10.27)
Ferreira, D.F.
Estatstica multivariada
367
de forma que:
(2)
(2)
E ( Z ) = 0 Cov ( Z ) = 22
(10.28)
Corr(U k , Vk ) =
a kt 12 b k
= k
a kt 11a k b kt 22 b k
(10.29)
1/ 2
t
1/ 2
em que k k-simo autovalor de 11
1222112
11
, ou equivalentemente de
1/ 2 t
1
22
1211
12221/ 2 .
368
a1t
b1t
t
t
a2
b
A = e B = 2
#
#
t
t
ap
bq
(10.30)
U1
V1
U
V
2
2
(1)
= AX
U=
e V = = BX(2)
#
#
Up
Vq
(10.31)
(10.32)
Logo,
Ferreira, D.F.
Estatstica multivariada
369
0
(1)
X1
0 X(1)
2
#
# (1)
Xp
1
(1)
pp
(10.33)
(10.34)
1/ 2
11
X
(1)
1
(1)
11
0
1
(1)
22
"
"
"
Assim,
( 2 ) = A12 V221/ 2 (p q)
U , X
1/ 2
(q q)
V , X( 2) = B 22 V22
V111/ 2 (q p)
= B12
V , X (1)
(10.35)
em que V221/ 2 uma matriz diagonal (q x q) com o i-simo elemento dado por
1/ ii(2) .
370
U, Z(1) = A Z11 ;
= A Z12 ;
U , Z ( 2)
V , Z( 2) = BZ22
(10.36)
V ,Z(1) = B
t
Z 12
Ferreira, D.F.
Estatstica multivariada
371
X1(1)
#
X(1) Xp(1)
X=
=
(2)
(2)
X
X1
#
(2)
Xq
(10.37)
1 n
X(2) = X(2)
j
n j=1
(10.38)
Em que:
1 n
X(1) = X(1)
j
n j=1
S12
p S
S = 11
q S21 S 22
(10.39)
em que SkA =
1 n
X(j k ) X(k )
n 1 j =1
372
)( X
(A)
j
X( A ) , k, A = 1, 2 .
= a t X (1)
U
k
k
t (2)
Vk = b k X
(10.40)
rU
k , Vk
a kt S12 b k
=
a kt S11a k b kt S22 b k
(10.41)
1 t
S12S22
S12 k S11
t 1
) a
) b
= 0 (a)
= 0 (b)
(10.42)
Ferreira, D.F.
Estatstica multivariada
373
Em que o mximo de ru
dado por
k , Vk
k , para os autovetores a k e
b k obtidos por:
1/ 2
a k = S11
c k (a)
1/ 2
b k = S22 d k (b)
(10.43)
1/ 2
t
1/ 2
sendo que c k k-simo autovetor de S11
S12S221S12
S11
e d k o k-simo autovetor de
1/ 2 t
1
S22
S12S11
S12S221/ 2 ; k o k-simo autovalor de ambas as matrizes, por serem
( )
( )
(10.44)
= 0 (k A)
(10.45)
= k
(10.46)
= Var
=1
U
V
Var
k
k
2. Correlaes amostrais:
rU
k ; UA
= rV ; V = rU
k
k ; VA
rU
k ; Vk
374
(p p) e B
(q q) definidas pelos vetores
Sejam as matrizes A
cannicos amostrais:
b 1t
a 1t
t
a
b t
2
A = e B = 2
#
#
t
b t
a p
q
(10.47)
U
V 1
1
V (2)
U
(1)
2
=
U
e V = 2 = BX
= AX
#
#
U
V
p
q
(10.48)
1/ 2
matrizes diagonais D11
= Diag 1/ Sii(1) , (pxp) e D 221/ 2 = Diag 1/ Sii(2) , (qxq).
e X (1)
1. Matriz de correlaes entre U
D 1/ 2
R U, X(1) = AS
11 11
(10.49)
Ferreira, D.F.
Estatstica multivariada
375
e X (2)
2. Matriz de correlaes entre U
D 1/ 2
R U, X( 2) = AS
12 22
(10.50)
t D 1/ 2
R V, X(1) = BS
12 11
(10.51)
D 1/ 2
R V, X( 2 ) = BS
22 22
(10.52)
e X (1)
3. Matriz de correlaes entre V
e X (2)
4. Matriz de correlaes entre V
Para
variveis
padronizadas,
as
variveis
cannicas
correspondentes so:
U
V 1
1
U
(1)
= 2 = A Z
= V2 = B Z (2)
U
e
V
Z
Z
#
#
U
V
p
q
(10.53)
1/ 2 e
A Z = AD
11
(10.54)
em que:
1/ 2
B Z = BD
22
376
R =A
1
R (1) = A
Z 11
Z
U,Z
( 2) = A Z R 12
R U,Z
t
R V,Z
(1) = B Z R 12
(10.55)
1
R V,Z
( 2) = B Z R 22 = B Z
Ferreira, D.F.
Estatstica multivariada
377
= AX
(1) e V = BX
(2) . Logo, possvel definir:
definies U
X(1) = A 1U
X(2) = B 1V
(10.56)
d 1t
c1t
t
t
c
1/ 2
= P (2)t S1/ 2 = d 2 S1/ 2
e B
= 2 S11
22
22
#
#
t
d t
c p
p
(10.57)
e B
so dadas por:
Como A
= P (1)tS1/ 2
A
11
Ento:
1 = S1/ 2 P (1)
A
11
1 = S1/ 2 P (2)
B
22
(10.58)
devido a P (1) e P (2) serem matrizes ortogonais de autovetores, fcil perceber que
( P )
(1)t
= P (1) e P (2)t
= P (2) .
e V
sabe-se que a covarincia entre eles
Das definies de U
(pxq) com
uma matriz diagonal
Cov
Cov
Cov
378
( U, V ) = AS
12
( U ) = AS
11
( V ) = BS
22
B
11
12 22
=
(10.59)
t =
B
Assim,
B
t =
AS
12
1
t =A
S12 B
( )
1
B
1
S12 = A
Da mesma forma:
( )
1 A
1
S11 = A
( )
1 B
1
S22 = B
Ferreira, D.F.
Estatstica multivariada
379
= P (1)t S1/ 2
A
r
r
11
c1t
t
c
1/ 2
= 2 S11
#
t
c r
(10.60)
= P (2)t S1/ 2
B
r
r
22
d 1t
t
d
= 2 S221/ 2
#
d t
r
(10.61)
(10.62)
1 = S1/ 2 P (1) e B
1 = S1/ 2 P (2)
A
r
11 r
r
22 r
(10.63)
"
"
"
380
( A )( A )
( B )( B )
E = S
11
11
E 22 = S22
E12 = S12
1
r
1
r
1
r
1
r
( A ) ( B )
1
r
1
r
(a)
(10.64)
(b)
t
(c)
( )( )
t
1 A
1 + tr ( E ) , e assim
ou pq valores de E11, E22 e E12. Como tr ( S11 ) = tr A
r
r
11
por diante para as demais matrizes, a explicao das r variveis cannicas para o
seu respectivo conjunto dada por:
,U
," , U
de X (1) = 100 1 tr ( E11 ) (a)
%Exp U
1
2
r
tr ( S )
11
%Exp V
,V
," , V
de X (2) = 100 1 tr ( E 22 ) (b)
1
2
r
tr ( S22 )
(
(
(10.65)
U = a t X (1)
V = b t X (2)
Ferreira, D.F.
Estatstica multivariada
381
H 0 : 12 = 0 (p q) vs H1 : 12 0
(10.66)
X (1)
j
X j = (2)
X j
cuja covarincia pode ser particionada em:
12
p
= 11
q 21 22
n / 2
exp ( n(p + q) / 2 )
(10.67)
382
L1 ( X, S ) = (2) np / 2 S n / 2 exp ( np / 2 )
(10.68)
n / 2
(10.69)
S11 S22
c2 = 2 ln( ) = n ln
S
= n ln 1 i
i =1
(10.70)
Ferreira, D.F.
com
Estatstica multivariada
varincia
383
S11
S22
generalizada
= S11 S22
irrestrita,
|S|.
primeiro
caso
com
S11 S22
c2 = n 1 ( p + q + 1) ln
2
= n 1 ( p + q + 1) ln 1 i
i =1
(10.71)
buscar
um
nmero
de
correlaes
cannicas
que
diferem
384
)
H (k
0 : 1 0, 2 0," , k 0, k +1 = k + 2 = " = p = 0
H (k ) : 0 para algum i k + 1
i
1
(10.72)
c2 = n 1 ( p + q + 1) ln 1 i
2
i = k +1
(10.73)
Ferreira, D.F.
Estatstica multivariada
385
(10.74)
Vc =
S
S11 S22 " Skk
(10.75)
cuja distribuio muito complicada. Mas Box (1949) obteve boa aproximao de
qui-quadrado com graus de liberdade. O teste proposto :
c2 =
em que:
n 1
ln ( Vc )
C
(10.76)
386
1
1
C = 1 12 (n 1) ( 23 + 3 2 )
1
= 2
2
(10.77)
k
k
S = pi pSi ;
i =1
i =1
S = 2, 3
(10.78)
10.5. Exerccios
10.5.1. Verifique que a derivao do mximo de (10.7) pode ser obtida a partir de
(10.16) utilizando o fator de Cholesky F, na transformao linear de
1/ 2
a = ( F111 ) c e de b = ( F221 ) d no lugar de a = 11
c e de b = 221/ 2 d ,
Ferreira, D.F.
Estatstica multivariada
387
1, 0000 0, 6328
1, 0000 0, 4248
0, 2412 0, 0586
; R 22 =
; e R 12 =
R 11 =
0, 6328 1, 0000
0, 4248 1, 0000
0, 0553 0, 0655
H 0 : 12 = 12 = 0 (p q) vs H1 : 12 = 12 0
H 0 : 1 0; 2 = 0 Vs H 0 : 2 0
388
c) estime as matrizes E11, E22 e E12 para o primeiro par de variveis cannicas
(r=1).
||[
11
Referncias bibliogrficas
]||
390
for
seven
solutions
to
the
multivariate
Behrens-Fisher
problem.
b1 ,
391
HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321377, 1936.
392
KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of
Educational and Psychological Measurement. v.19, pp.413-420, 1959.
KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.
Psychometrika. v.23, pp.187-200, 1958.
393
LAWLEY, D.N. Tests of significance for the latent roots of covariance and
correlation matrices. Biometrika, v.43, p.128-136, 1956.
LAWLEY, D.N. The estimation of factor loadings by the method of the maximum
likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40
(checar), pp.64-82, 1940.
394
NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher
problem. Communications in Statistics: Theory and Methods, v.15, p.37193735, 1986.
PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.
Cambridge University Press, New York, 1966.
SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,
1966.
WIKS, S.S. On the independence of k sets of normally distributed statistical
variables. Econometrica. v.3, p.309-326, 1935.