Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística Multivariada Aplicada PDF
Estatística Multivariada Aplicada PDF
Estatstica
Multivariada
Aplicada
2000
ii
Sumrio
iii
7 Anlise de componentes principais e anlise factorial --------------------- 75
7.1 Introduo ---------------------------------------------------------------------- 75
7.2 Componentes principais ---------------------------------------------------- 78
7.3 Anlise factorial --------------------------------------------------------------- 86
iv
1
Introduo anlise multivariada
x11 x12 x1 j x1 p
x x 22 x2 j x 2 p
21
. . . .
X =
x i1 xi 2 x ij x ip
. . . .
x n1 x n2 x nj x np
Exemplo 1.1: Pretende-se estudar as vendas dos livros de uma livraria e, para isso,
Varivel Nome
1 Total 42 52 48 58
2 No. livros 4 5 4 3
Representando numa forma matricial obtemos a matriz X com duas linhas
'
42 52 48 58
X =
4 5 4 3
o
feitas na varivel j (coluna j da matriz X), podemos denominar por x j a mdia amostral
da varivel j
x
1
xj = ij j = 1,2,,p
n i =1
dada por
2 n
(x
1
si = sii = ij xj ) 2 i = 1,2,,p
n i =1
representada pela mdia dos produtos dos desvios em relao s respectivas mdias
(x
1
sik = ski = ij xj ) ( x ik x k ) i = 1,2,,p ; k = 1,2,,p
n i =1
2
Se valores altos de uma varivel foram observados conjuntamente com valores
ser positiva. Se valores altos de uma varivel ocorrerem com valores pequenos de
outra varivel, sjk ser negativa. Caso no exista associao entre os valores de
uma medida de associao linear entre duas variveis, independente das unidades de
s jk (x
i =1
ij x j ) ( x ik x k )
rjk = rkj = =
s jj s kk n n
i =1
( x ij x i ) 2 (x
i =1
ik xk )2
Esta ltima medida constitui, como facilmente se pode observar, uma verso
coeficiente de correlao amostral rjk pode ser visto como a covarincia amostral.
por
3
x1
x
x=
2
x p
s11 s12 s1 p
s s 22 s 2 p
Sn =
21
. . .
s p1 s p2 s pp
1 r12 r1 p
r 1 r2 p
R =
21
. . .
r p1 rp2 1
'
42 52 48 58
X =
4 5 4 3
_
podemos determinar o vector x e as matrizes Sn e R. Assim,
_ 4
x
1 1
x1 = i1 = (42 + 52 + 48 + 58) = 50
4 i =1
4
4
_ 4
x
1 1
x2 = i2 = (4 + 5 + 4 + 3) = 4
4 i =1
4
_ x1 50
e ento, x = =
x 4 2
Do mesmo modo,
[ ]
4
(x
1 1
s11 = i1 x1 ) 2 = (42 50) 2 + (52 50) 2 + (48 50) 2 + (58 50) 2 = 34
4 i =1
4
[ ]
4
(x
1 1
s22 = i2 x2 )2 = (4 4) 2 + (5 4) 2 + (4 4) 2 + (3 4) 2 = .5
4 i =1
4
(x
1
s12 = i1 x1 ) ( xi 2 x 2 ) =
4 i =1
=
1
[(42 50)(4 4) + (52 50)(5 4) + (48 50)(4 4) + (58 50)(3 4)] = -1.5
4
34 1.5
Sn =
1.5 .5
s12 1.5
r12 = r21 = = = -.36
s11 s 22 34 .5
1 .36
R =
.36 1
5
1.3 Distncias
x d(O,P) = x12 + x 22
2
dizer que todos os pontos (x1,x2, ,xp) que estejam a uma mesma distncia
2
d (O,P) = x 12 + x 22 + + x 2p
d(P,Q) = ( x1 y1 ) 2 + ( x2 y 2 ) 2 + + ( x p y p ) 2
6
Ora tambm aqui se faz sentir o eventual problema das vrias dimenses
Por isso, uma distncia baseada numa linha recta, ou euclideana, no a mais
este novo tipo de distncia vai ter em conta as diferenas de variao, denomina-la-
x2
x1
dividindo cada uma delas pelo respectivo desvio padro amostral. Assim, uma
2 2
x x x12 x 22
d(O,P) = 1 + 2 = +
s s s11 s 22
11 22
7
respectivamente, a x 12 e x 22 . Tambm aqui todos os pontos de coordenadas (x1,x2) a
x12 x2
+ 2 = c2
s11 s 22
coordenadas.
x
c s 2
22 P
x
1
0
c s
11
_
Exemplo 1.2: Suponhamos que temos duas variveis independentes com mdias x1
_
= x2 = 0 e com varincias s11 = 4 e s22 = 1.
caso por
2 x
1
2 x2 x2
d (O,P) = 1 + 2
Figura 1.4 Elipse 4 1
8
Todos os pontos (x1,x2) que esto a uma distncia constante 1 da origem
satisfazem a equao
x12 x2
+ 2 = 1
4 1
respectivamente.
( x1 y1 ) 2 ( x 2 y 2 ) 2 (x p y p ) 2
d(P,Q) = + ++
s11 s 22 s pp
com s11, s22, , spp as varincias construdas a partir das n medies nas variveis
9
x
2 x~ Da figura ao lado vemos que basta
1
x~ rodarmos o sistema original de eixos de um
2
ngulo para termos uma situao
x semelhante s anteriores.
1
A distncia entre o ponto P=(x~1 ,x~2 ) e a origem O=(0,0) ento definida como
~
x12 ~x 22
d(O,P) = ~ + = a11 x12 + 2a12 x1 x 2 + a 22 x 22
s11 ~s 22
Nesta fase no vital sabermos como determinar os valores destes as. O que
correlao r12 no nula. Mais ainda, quando olhamos para a equao correspondente
1 1
a11 = a22 = a12 = 0
s11 s 22
10
As coordenadas de todos os pontos P=(x1,x2) que estejam a uma distncia
11
12
2
lgebra matricial e vectores aleatrios
Vejamos alguns conceitos que nos iro ser teis mais tarde.
Lx = x12 + x 22 + + x n2
num plano com um ngulo entre eles, podemos considerar que = 2 - 1, sendo 1
Figura 2.1).
x1 y1
cos (1) = cos (2) =
Lx Ly
13
x2 y2
sin (1) = sin (2) =
Lx Ly
e que cos () = cos (2 - 1) = cos (2) cos (1) + sin (2) sin (1)
y y
2
x x
2
1
2
y x Figura 2.1 Diferena entre ngulos
1
obtemos
y x y x x y + x2 y2
cos () = cos (1 - 2) = 1 1 + 2 2 = 1 1
L y L x L y L x Lx Ly
xy xy
Lx = xx e cos () = =
Lx Ly xx yy
14
Como xx = 12 + 32 + 22 = 14
yy = (-2)2 + 12 + (-1)2 = 6
ento Lx = xx = 14 = 3.74
Ly = yy = 6 = 2.45
xy -1
cos () = = (3.74) (2.45) = -.109 , donde, = 96.3
Lx Ly
c1 x1 + c2 x2 + + ck xk = 0
0, -1 ] e x3= [ 1, -2, 1 ] .
c1 + c2 + c3 = 0
2c1 - 2c3 = 0
c1 - c2 + c3 = 0
15
Neste caso, dizemos que os vectores x1, x2 e x3 so linearmente independentes.
o
x
Figura 2.2 Projeco de x em y
y
xy xy 1
y = y
yy Ly Ly
| xy | xy
= Lx = Lx | cos() |
Ly Lx Ly
vector prprio. Uma matriz quadrada A tem um valor prprio com o correspondente
vector prprio x 0 se
A x = x
1 5
Exemplo 2.3: Determinar os valores e vectores prprios da matriz A =
5 1
1 5
|A-I|=0 B = 0 B (1 - )2 - 25 = 0 B 1=6 ou 2=-4
5 1
16
1 5 e11 e11
Para 1=6, A e = 1 e B = 6 e
5 1 e 21 21
1
e11 5e 21 = 6e11 e11 =
B 2
5e11 + e 21 = 6e 21 e 21 =
1
2
1
um vector prprio normalizado correspondente ao valor prprio
e1 = 2
1
2 1=6.
1
De modo idntico se encontra e2 = 2 como sendo o vector prprio
1
2
correspondente a 2 = -4.
positivas associadas.
17
A = 1 e1 e1 + 2 e2 e2 + + k ek ek
correspondentes vectores prprios normalizados, isto , ei ei = 1 (i = 1, 2, , k) e
ei ej = 0 (i j).
3 1
Exemplo 2.4: Sendo dada a matriz A = , obtm-se os valores prprios 1 = 4
1 3
1
=
1
1 1
Encontra-se e1 = 2 . Do mesmo modo se obtinha e = 2.
2
1 1
2 2
Reparar que e1 e 2 , isto , e1 e2 = 0.
1 1
3 1 2 1 1 2 1 1
1 3 = 4 1 2 + 2 1 =
2 2 2
2 2
18
1 1 1 1
2 + 2 2 2 = 2 2 + 1 1 = 3 1
= 4 2
1 1 1 1 2 2
1 1
1 3
2 2 2 2
o
Sempre que a matriz A (kk) simtrica seja tal que xA x seja sempre maior
de forma quadrtica.
Para k = 2,
a11 a12 x1 a x + a x
xA x = [x1 x 2 ] = [x1 x 2 ] 11 1 12 2
a12 a 22 x 2 a12 x1 + a 22 x 2
= d2(0,x) = c2
Pela decomposio espectral; A = 1 e1 e1 + 2 e2 e2
19
e x = c 21 / 2 e2 nos d a distncia na direco e2
Deste modo os pontos situados a uma distncia c fazem parte de uma elipse
proporcionalidade c.
c2 = 1 (xe1)2 + + p (xep)2
c
ei igual a , i = 1, 2, , p, onde 1, 2, , p, so os valores prprios de A.
i
20
2.3 Mdias e covarincias de combinaes lineares
mesmo modo, uma matriz aleatria uma matriz cujos elementos so variveis
aleatrias.
mdia E(cX) = c
e varincia Var(cX) = c c
[
onde = E(X) e = Cov(X) = E ( X ) ( X ) ' ]
'
2 3 1
Exemplo 2.5: Consideremos a matriz X =
2 5 0
2
A mdia desta matriz =
1
2 / 3 2/3
e a matriz das covarincias =
2 / 3 26 / 3
2 3 1
Assim, a combinao linear Y = 3 X1 + 2 X2 , isto , [3 2] ,
2 5 0
2
ter a mdia E(YX) = [3 2] = 8
1
2 / 3 2 / 3 3
e a varincia Var(YX) = [3 2] = 48.67
2 / 3 26 / 3 2
21
Alm dos resultados anteriores podemos tambm afirmar que, sendo dado
Cov(aX,bX) = a' b
22
3
Geometria amostral e amostragem aleatria
_
descritivas amostrais x , Sn e R. Ser tambm introduzido o conceito de varincia
numa matriz np
x11 x12 x1 p x1
x x 22 x 2 p x
21 2
. . . .
X = =
. . . .
. . . .
x n1 x n2 x np x n
determinante de Sn.
23
_ '
4 1 3
Exemplo 3.1: Determinar o vector mdia x da matriz X = 1 3 5 ,
_
apresente os n = 3 pontos num espao a p = 2 dimenses e localize x .
4 1+ 3
_ 3 2
x = 1 + 3 + 5 =
3
3
5 X3
4
X2 3 x
2
1
X1
0
-2 -1 0 1 2 3 4 5 6
-1
-2
x11 x12 x1 p
x x 22 x 2 p
21
. . .
X = = [y1 y2 yp]
. . .
. . .
x n1 x n2 x np
24
Nesta nova interpretao, as coordenadas do i-simo ponto yi = [x1i , x2i , ,
vectores y1 e y2.
y1 = [ 4 -1 3 ] y2 = [ 1 3 5 ]
4
y
2
3
1
y 2
1 1 2 3 4 5 6
1
2
3
4
5
6
1n = 1 = [ 1 1 1 ]
que, por definio, forma ngulos iguais com cada uma das n coordenadas.
25
1
Deste modo, 1 tem comprimento unitrio e direco do ngulo igualitrio.
n
1 1 x + x + + x in _
yi 1 1 = i1 i 2 1 = xi 1
n n n
_
isto , a mdia amostral xi = yi 1/ n corresponde ao mltiplo de 1 necessrio para
Alm disso, para cada yj podemos determinar o vector desvio dj , desvio entre yj e
x i 1.
x1i x i
y x 2i x i
2 dj = yj - xj 1 =
x ni x i
2 3
_ 2 _ 3
x1 1 = x2 1 =
2 3
Consequentemente,
4 2 2
_ 1 - 2 = 3
d1 = y1 - x1 1 =
3 2 1
1 3 2
_
d2 = y2 - x2 1 = 3 - 3 =
0
5 3 2
26
Figura 3.4 Vectores desvios
o
3
y
2
d2
x 1
2
d1 x 1
1
y 2
1
1
fcil ver que
n
L 2d i = di di = (x
i =1
ij x j )2
dos desvios.
Do mesmo modo,
n
di dk = (x
j =1
ij x i ) ( x kj x k ) = L d L d cos(ik)
i k
e ento,
s ik
rik = = cos(ik)
s ii s kk
27
correlao amostral quase nula. Se os dois vectores estiverem orientados
2
d1 d1 = [2 3 1] 3 = 14 = 3 s11
1
2
d2 d2 = [ 2 0 2] 0 = 8 = 3 s22
2
2
d1 d2 = [2 3 1] 0 = -2 = 3 s12
2
14 2
3
Sn = 3
2 8
3 3
2
s12 3
r12 = = = -.189
s11 s 22 14 8
3 3
1 .189
R =
.189 1
_
Para estudarmos a variabilidade amostral de x e Sn e para podermos inferir
28
Dada a matriz
x11 x12 x1 p x1
x x 22 x 2 p x
21 2
. . . .
X = =
. . . .
. . . .
x n1 x n2 x np x n
f(xn).
_
varincias da amostra aleatria x1 , x2 , , xn , ento x um estimador no
_ n
enviesado de [E(x ) = ] e S = S um estimador no enviesado de , isto ,
n 1 n
n
E( S ) = .
n 1 n
(x
n 1
S= Sn = j x ) ( x j x) '
n 1 n 1 j =1
29
x11 x12 x1 p
x x 22 x 2 p
21 n
. . 1
S =
.
= s jk = ( x ij x j ) ( x ik x k )
. . . n 1 i =1
. . .
x n1 x n2 x np
14808 14213
Exemplo 3.5: Consideremos a matriz S =
14213 15538
_ _
ento a rea gerada pelos dois vectores desvio d1 = y1 - x1 1 e d2 = y2 - x2 1
d1
rea = [L d1
]
sin( ) L d
2
Ld1sin
= L d1 L d 2 1 cos 2
d2
= (n - 1) s11 s 22 (1 r122 )
30
Por outro lado,
s s s s11 s 22 r12
| S | = 11 12 = 11
12
s s 22 11 s 22 r12
s s 22
rea 2
|S| = = (n - 1)-2 rea2
(n 1) 2
3 3
d1
d1 d2 d3
d3
d2 2 2
1 1
31
A varincia generalizada tem tambm interpretao no grfico de pontos num
_ _ _ _
p-espao. Consideremos, para isso, a mdia amostral x = [ x1 , x2 , , xp ].
_
de x satisfazem
_ _
(x - x ) S-1 (x - x ) = c2
_
que define uma elipse (p = 2) centrada em x .
{ }
Volume de x : (x x)S 1 (x x) = c 2 = kp | S |1/2 cp
ou
limitada como indicador descritivo de uma matriz amostral de varincias. Para ilustrar
5 4 5 4 3 0
S= S= S=
4 5 4 5
0 3
32
todas elas com a mesma varincia generalizada | S | = 9 mas com distintos
p
escrito como o produto dos seus valores prprios 1, 1, , p, isto , | A | =
i =1
i .
vector desvio estiver no hiperplano formado por todas as combinaes lineares dos
dependentes.
1 4 4
Exemplo 3.7: Dada a matriz X = 2 1 0 ,
5 6 4
2 1 1
_ _
a matriz das mdias x = [ 3 , 1 , 5 ] e ento X - x 1 = 1 0 1 .
0 1 1
2 1 0
Os desvios residuais so d1 = 1 , d = 0e d = 1.
2 3
1 1 1
33
|S| = 0 significa, em termos matemticos, que as medies em algumas
variveis podem ser retiradas do estudo. Por outro lado |S| tambm ser nulo se o
Como |S| e |R| esto relacionadas por |S| = (s11 s22 spp) |R|, podemos
escrever
4 3 1
Exemplo 3.8: Sendo dada a matriz S = 3 9 2 , s11 = 4; s22 = 9 e s33 =
1 2 1
1.
1 1
1 2 2
1 2 7
Alm disso, R = 1 . Como | S | = 14 e | R | = , confirma-se que
2 3 18
1 2
2 1
3
7
14 = | S | = s11 s22 s33 | R | = (4) (9) (1) = 14
18
total cujo valor corresponde ao valor do trao da matriz S, isto , soma dos
34
Varincia amostral total = s11 + s22 + + spp
14808 14213
Exemplo 3.9: A varincia amostral total da matriz S =
14213 15538
3
3 0
2
3 1
A varincia amostral total da matriz S = 1
2 2
1
0 2
1
_
quadrados dos comprimentos dos p vectores residuais d1 = y1 - x1 1, , dp = yp -
_
xp 1 dividida por n - 1.
35
36
4
Distribuio normal multivariada
f(x) =
1
e - [( x ) / ]2 / 2 - < x <
2 2
x2
O termo = (x - ) (2)-1 (x - ) no expoente da funo densidade no
(x - ) -1 (x - )
matriz da varincias.
37
A funo densidade normal p-dimensional Np(, ) para o vector aleatrio x
-1
e - (1/2) (x - ) (x - )
1
f(x) =
(2 ) p/2
|| 1/ 2
s s
Neste espao = 1 e = 11 12
2 s12 s 22
22 12
-1 =
1
11 22 12 12 11
2
22 12 11 22 x1 1
= [x1 1 x1 1 ]
1
11 22 12 12 11 22 11 x 2 2
2
2
2
=
1 x1 1 + x 2 2 2 x1 1 x1 1
1 12
2 12
11 22 11 11
Deste modo,
38
1
f(x1,x2) =
2 11 22 (1 12
2
)
2
2
1
exp x1 1 + x 2 2 2 x1 1 x1 1
(
2 1 12
2
)
11
22
12
11
11
isto , X1 e X2 so independentes.
Do que atrs ficou dito, podemos concluir que a densidade normal multivariada
39
Exemplo 4.2: Consideremos o caso em que 11 = 22.
11 12
=0 =0
12 11
( - 11 - 12) ( - 11 + 12) = 0
f(x , x )
1 2
x
2
(a)
x
1
f(x , x )
1 2
x2
(b)
x
1
40
Ento, os valores prprios so 1 = 11 + 12 e 2 = 11 - 12. O vector prprio
1
e11 2
e1 = e = 1
21
2
1
e12 2
De modo idntico e2 = =
e 22 1
2
x
2
c 11 +
12
c 11-
12
1 x
1
Figura 4.2 - Contorno de densidade constante para uma distribuio normal bivariada
vector prprio e1' = 1 , 1 ] situa-se na recta a 45 que passa por = [1, 2].
2 2
41
c 2 e 2 , com cada vector prprio de comprimento unitrio, o maior eixo est
-1
e - (1/2) (x - ) (x - )
1
f(x) =
(2 ) p / 2 | |1 / 2
a X = a1 X1 + a2 X2 + + ap Xp ~ N(a, aa)
a11 X 1 + ... + a1 p Xp
a X + ... + a 2 p Xp
A X
=
21 1
~ Nq(A, AA)
(q p) ( p 1) ...
a q1 X 1 + ... + a qp Xp
42
X d
+ ~ Np(, d)
( p 1) ( p 1)
multivariada. Se dividirmos X, e
X1 1
X (q 1) (q 1)
= =
( p 1) X2 ( p 1) 2
(( p q ) 1)
(( p q ) 1)
11 | 12
(q q) | (q ( p q))
=
( p p) 21 | 22
(( p q) q) | (( p q ) ( p q))
X1 1 11 | 12
Se X = ~ N (, ) com =
p
, = _ _ _
X
2 2 21 | 22
43
Se || > 0, ento (x - ) -1 (x - ) ~ 2p , uma distribuio de qui-quadrado
{x : (x ) 1
}
(x ) = 2p ( )
Sendo dado x1, x2, , xn uma amostra aleatria de uma populao normal
= X
n 1
n
= 1
n
(X j X)( X j X) = S
j =1
n
uma
Notar que o estimador X um vector aleatrio e que o estimador
matriz aleatria.
44
n
(X
1
com jj = ij X j ) 2 como sendo o estimador de mxima verosimilhana de jj
n i =1
= Var(Xj).
dados X est contida em X e S; qualquer que seja o tamanho n da amostra. Como
4.4 Distribuio amostral de X e S
No caso univariado (p = 1) sabemos que X segue uma distribuio normal
1 2
com mdia e varincia n . O resultado para o caso multivariado (p 2)
1
idntico. X segue uma distribuio normal com mdia e matriz de covarincia n
Ora, como desconhecida, a distribuio de X no pode ser usada
informao suficiente acerca de . medida que o tamanho da amostra cresce, X e
populao-pai. O nico requisito que existe que esta populao-pai, qualquer que
Pela Lei dos Grandes Nmeros e sempre que o tamanho da amostra seja
grande, existe uma grande probabilidade de que X se aproxime de e que S se
45
aproxime de . Precisando um pouco mais (Teorema do Limite Central), sejam X1,
covarincia finita . Ento, para amostras grandes (n deve ser grande relativamente a
p), n ( X - ) aproximadamente segue uma distribuio Np(0, ).
1
Quando X ~ Np(, n ) ou seja, quando n ( X - ) ~ Np(0; ), pode tambm
demonstrar-se que n ( X - ) -1 ( X - ) ~ 2p .
46
5
Inferncia acerca do vector mdia
populao normal.
5.1 T2 de Hotelling
( X o ) 2
t2 = 2
= n ( X - o) (s2)-1 ( X - o)
s /n
a correspondente multivariada
-1
T2 = ( X - o) S ( X - o) = n ( X - o) S-1 ( X - o)
1
n
X
X 1
onde = j
( p 1) n j =1
10
(X )( )
S n
0
=
1 ' 20
= X Xj X
( p p) ( p 1) M
j
n 1 j =1
p 0
1
e n S representa a matriz estimada das covarincias de X .
47
A estatstica T2 denominada T2 de Hotelling em homenagem a Harold
_
T2 for grande, isto ; se x estiver muito longe de 0, a hiptese H0: = 0 ser
rejeitada. Ora, para podermos ter uma ideia da grandeza da distncia T2, utilizamos o
(n 1) p
T2 ~ F
(n p ) p, n-p
onde Fp,n-p indica uma varivel aleatria com uma distribuio F com p e n-p graus
de liberdade.
Np(, ),
(n 1) p (n 1) p
= P T 2 > F p ,n p ( ) = n( X )S 1 ( X ) > F p ,n p ( )
( n p ) (n p)
_ _ (n 1) p
T2 = n (x - 0) S-1 (x - 0) > F ()
(n p ) p,n-p
48
X3 = contedo de potssio. Os valores encontrados levaram aos seguintes
resultados:
confiana de = .10.
Ora T2 = n ( X - 0) S-1 ( X - 0)
.467
= 20 [.640 ; -4.600 ; -.035 ] .042 = 9,74
.160
(n 1) p 19(3)
Fp,n-p(.10) = F3,17(.10) = (3.353) (2.44) = 8,18
(n p ) 17
confiana de 90%.
49
5.2 Regies de confiana
(n 1) p
P n( X )S 1 ( X ) F p ,n p ( ) = 1 -
(n p)
(n 1) p
Por outras palavras, X estar a uma distncia F p ,n p ( ) de , com
(n p )
-1
1
probabilidade 1 - , desde que a distncia seja definida em termos de S .
n
_ _
n (x - o) S-1 (x - o)
(n 1) p
e compar-la com o valor de F (). Caso a distncia seja maior do que
(n p ) p,n-p
50
Os eixos do elipside de confiana e os seus respectivos comprimentos podem ser
_
Centrado em x , os eixos do elipside
_ _ (n 1) p
n (x - ) S-1 (x - ) c2 = Fp,n-p()
(n p )
(n 1) p
so i F p ,n p ( ) ei ; onde Sei = i ei , i = 1, 2, , p.
n( n p )
satisfazem a inequao
51
42(203.018)(.564-1)2 + 42(200.228)(.603-2)2 - 84(163.391)(.564-1)(.603-2) 6.62
.562
Do mesmo modo, um teste de H0: = no ser rejeitado em favor de H1 :
.589
.562
a um nvel de significncia = .05.
.589
.564
O elipside de confiana conjunta est centrado em X = .603 e,
(n 1) p 2(41)
1 F p ,n p ( ) = .026 (3.23) = .064
n( n p ) 42(40)
(n 1) p 2(41)
e 2 F p ,n p ( ) = .002 (3.23) = .018
n(n p ) 42(40)
Pode-se facilmente ver que o eixo maior cerca de 3.6 vezes maior do que o eixo
menor.
c c c
cSc cSc
x - tn-1(/2) x + tn-1(/2)
n n
52
onde tn-1(/2) o percentil superior de ordem 100(/2) de uma distribuio t com n-1
graus de liberdade.
cX p (n 1) F p ,n p ( )c' Sc ; cX +
p(n 1)
F p , n p ( )c' Sc
n( n p ) n( n p )
intervalos
p (n 1) s11 p (n 1) s11
x1 - F p ,n p ( ) 1 x1 + F p ,n p ( )
(n p) n (n p) n
53
p (n 1) s 22 p (n 1) s 22
x2 - F p , n p ( ) 2 x2 + F p ,n p ( )
(n p) n (n p) n
p (n 1) s pp p (n 1) s pp
xp - F p ,n p ( ) p xp + F p ,n p ( )
(n p) n (n p) n
p (n 1) s 2 s ik + s kk
xi - x k F p ,n p ( ) ii
(n p) n
p (n 1) 3(87 1) 3(86)
Fp,n-p() = F3,84(.05) = (2.7) = 8.29
(n p) (87 3) 84
54
5691.34 5691.34
527.74 - 8.29 1 527.74 + 8.29 504.45 1 551.03
87 87
126.05 126.05
54.69 - 8.29 2 54.69 + 8.29 51.22 2 58.16
87 87
23.11 23.11
25.13 - 8.29 3 25.13 + 8.29 23.65 3 26.61
87 87
_ s
x i tn-1 i ii i = 1, 2, , m
2 n
s11 s11
x 1 - tn-1 1 x 1 + tn-1
2p n 2p n
s 22 s 22
x 2 - tn-1 2 x 2 + tn-1
2p n 2p n
_ s pp _ s pp
x p - tn-1 p x p + tn-1
2p n 2p n
55
Exemplo 5.4: Voltando aos dados da transpirao, podemos obter os
_ s11 2.879
x 1 t19 (.0083) = 4.64 2.625 3.64 1 5.64
n 20
_ s 22 199.798
x 2 t19 (.0083) = 45.4 2.625 37.10 2 53.70
n 20
_ s 33 3.628
x 3 t19 (.0083) = 9.965 2.625 8.85 3 11.08
n 20
1
( X - ) S -1 ( X - ) = n ( X - ) S-1 ( X - ) aproximadamente 2
n
[ ]
P n( X )S 1 ( X ) 2p ( ) = 1 -
56
onde 2p ( ) o percentil superior de ordem (100) da distribuio 2p .
Seja X1, X2, , Xn uma amostra aleatria de uma populao com mdia e
significncia aproximadamente se
_ _
n (x - o) S-1 (x - o) > 2p ( )
cSc
c X 2p ( ) contm c, para todo c, com probabilidade aproximadamente
n
_ s11
x1 2p ( ) contm 1
n
_ s 22
x2 2p ( ) contm 2
n
_ s pp
xp 2p ( ) contm p
n
centradas na mdia
_ _ -1
s s ik x _ i i
n [x i - i ; x k - k] ii x _ p ( ) contm (i, k)
2
s ik s kk k k
57
58
6
Comparao entre duas mdias multivariadas
(D )
t = ;
sd / n
59
n n
(D
1 1
onde D = Dj e s 2d = j D) 2, segue uma distribuio t com n-1
n j =1
n 1 j =1
graus de liberdade.
confiana a 100(1-)% para a diferena mdia = E(X1j - X2j) pode ser obtido pela
expresso
s s
d - tn-1(/2) d d + tn-1(/2) d
n n
aleatrias de diferenas
Considerando Dj = [D1 j D 2 j D pj ]
( j = 1,2, , n) ,
60
1
E(Dj) = = e cov(Dj)=d.
2
L
p
Se, alm disso, D1, D2, , Dn forem vectores aleatrios independentes Np(,
d), ento
T2 = n ( D - )S d1 (D )
n n
(D
1 1
onde D= Dj e Sd = j D)(D j D) distribudo como uma varivel
n j =1
n 1 j =1
(n 1) p
aleatria F .
(n p ) p,n-p
observado
-1 (n 1) p
T2 = n d S d > F ()
d (n p ) p,n-p
p graus de liberdade.
61
Uma regio de confiana a 100(1-)% para formado por todos os tal que
-1 (n 1) p
( d - ) S ( d - d) F ()
d n(n p) p,n-p
(n 1) p s d2i
i: di F p , n p ( )
(n p) n
2
onde di o elemento de ordem i de d e sd o i-simo elemento da diagonal de
i
Sd.
(n 1) p
Para n-p grande; F () aproxima-se da distribuio 2p ( ) , e a
(n p ) p,n-p
2
s di
i: di tn-p
2p n
onde tn-p o percentil de ordem 100(/2p) de uma distribuio t com n-p graus
2p
de liberdade.
62
Exemplo 6.1: Um conjunto de 11 amostras de gua foi enviado a dois
Laboratrio 1 Laboratrio 2
Amostra j x11j (NOB) x12j (SS) x21j (NOB) x22j (SS)
1 6 27 25 15
2 6 23 28 33
3 18 64 36 22
4 8 44 35 29
5 11 30 15 31
6 34 75 44 64
7 28 26 42 30
8 71 124 54 64
9 43 54 34 56
10 33 30 29 20
11 20 14 39 21
d1j = x11j - x21j -19 -22 -18 -27 -4 -10 -14 17 9 4 -19
63
Ento,
(n 1) p 2 (10)
Com = .05; encontramos Fp;n-p(.05) = 9 F2;9(.05) = 9.47
(n p)
Como T2 = 13.6 > 9.47, rejeitamos H0 e conclumos que existe uma diferena
mdia no nula entre as medies dos dois laboratrios. Dos dados parece
evidente que o primeiro laboratrio tende a produzir medies mais baixas para
(n 1) p s d21 199.26
d1 F p ,n p ( ) = -9.36 9.47 ou (-22.46 ; 3.74)
(n p) n 11
(n 1) p s d21 418.61
d2 F p ,n p ( ) = 13.27 9.47 ou (-5.71 ; 32.25)
(n p) n 11
64
correspondem s escolhas (c1 = 1, c2 = 0) e (c1 = 0, c2 = 1). Estes intervalos
contm o valor zero; no entanto, outras escolhas para c1e c2 produzem intervalos
X1j
X
2j
.
Xj = j = 1, 2, , n
.
.
X qj
j.
65
_ _ (n 1)(q 1)
T2 = n (Cx ) (CSC)-1 Cx > F ()
(n q + 1) q-1,n-q+1
_ _ (n 1)(q 1)
n (Cx - C) (CSC)-1 (Cx - C) F ()
(n q + 1) q-1,n-q+1
_ (n 1)(q 1) c ' Sc
c : cx Fq 1, n q +1 ( )
(n q + 1) n
Exemplo 6.2: Num teste de eficcia de um novo anestsico, foi escolhida uma
amostra de 19 ces aos quais foi administrado dixido de carbono (CO2) a dois
de dixido de carbono.
Presente
Halotano
Ausente
Baixo Alto
CO
2
66
tratamento 1 = CO2 alto sem H tratamento 3 = CO2 alto com H
apresentados a seguir:
Tratamento
Co 1 2 3 4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 256 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
67
(3 + 4) - (1 + 2) contraste halotano, representando a diferena entre a
1 1 1 1
Com = [1 2 3 4] , a matriz de contraste C = 1 1 1 1
1 1 1 1
368.21 2819.19 . . .
_ 404.63 .
Dos dados acima, x = e S = 3568.42 7963.14 .
479.26 2943.49 5303.98 6851.32 .
502.89 2295.35 4065.44 4499.63 4878.99
_ _
e T2 = n (Cx ) (CSC)-1 (Cx ) = 19 (6.11) = 116.
68
18 (3) c1Sc1
(x
3 + x4 ) - (x1 + x2 ) 16 F3,16(.05) 19
9432.32
= 209.31 10.94 = 209.31 73.70
19
5195.84
= -60.05 10.94 = -60.05 54.70
19
7557.44
= -12.79 10.94 = -12.79 65.97
19
do halotano produz tempos mais longos entre batidas do corao, o que acontece
H, no entanto, que referir que estes resultados devem ser encarados com
algum cuidado, uma vez que as experincias com halotano tem necessariamente de
69
6.3 Comparaes entre duas populaes
que:
Amostra Estatsticas
Populao 1 = 1
n1 n1
(x
1
x 1 x1 j S1 = 1j x 1 )(x1 j x 1 )
n1 n1 1
x11, x12, , x1n1 j =1 j =1
Populao 2 =
n2 n2
(x
1 1
x 2 x2 j S2 = 2j x 2 )(x 2 j x 2 )
n2 n2 1
x21, x22, , x2n2 j =1 j =1
mdias so diferentes?
70
Alm disto, quando n1 e n2 so pequenos,
fazendo
n1 n2
j =1
(x1 j x 1 )(x 1 j x1 ) + (x
j =1
2j x 2 )(x 2 j x 2 )
Scomum =
n1 + n 2 2
1 1
Como Scomum estima , podemos afirmar que + Scomum um estimador
n1 n 2
de Cov(X1 - X2 ).
-x - ) 1 1 -1 - ) > c2
T2 = (x 1 2 0 + S comum (x1 - x 2 0
1
n n 2
(n1 + n 2 2) p
onde c2 = F ().
(n1 + n 2 p 1) p,n1+n2-p-1
71
Exemplo 6.3: 50 barras de sabo so fabricadas de cada um de dois
_ 8.3 2 1
x1= S1 =
4.1 1 6
_ 10.2 2 1
x2= S1 =
3.9 1 4
comum de covarincias:
_ _ 1 .9
Como x 1 - x 2 = , a elipse de confiana est centrada em [-1.9; .2], sendo
.2
2 l 1 2
0 = S comum I =
= - 7 + 9.
1 5 l
1 1 2 1 1 (98)(2)
Alm disso; + c = + F2,97(.05) = .25
1
n n 2 50 50 (97)
72
1 1 2
A elipse de confiana estende-se i + c = i .25 unidades segundo o
n1 n 2
73
74
7
Anlise de componentes principais e anlise factorial
7.1 Introduo
afirmem que esto a levar a cabo uma anlise factorial quando, de facto, esto a
regio. O valor 0.9 de coeficiente de correlao entre ambas as variveis pode ser
representada por T, as 'horas de sol' por S e o vector de referncia por F1. Este
vector faz um ngulo de 12.5 com T e com S. O coseno de 12.5, igual a 0.976,
varivel no factor.
75
Tambm j vimos que o quadrado do
F1
coeficiente de correlao, R2, representa a T S
quantidade da varincia partilhada por ambas as
1.9
da varincia extrada por F1 2 x100 = 95. Isto j nos d 95% da representao da
relao entre ambas. No entanto, para obter a imagem completa, temos de desenhar
o outro vector F2, fazendo um ngulo recto (ou ortogonal) com F1.
F1
T S
b
a
F2
76
^ = 77.5)
( = 102.5 ; b
5%.
1 2
factor comum. Assim, por exemplo para T, temos (0.976)2 + (-0.216)2 = 1.0 que
77
atribuda a um nmero menor k de componentes principais. Existir, assim, quase
variveis.
(clusters).
X2, , Xp ] e os pares de valores-vectores prprios (1, e1), (2, e2), , (p, ep),
dada por
p) ].
78
' X , Y2 = e2
Alm disso, se Y1 = e1 ' X , , Yp = ep
' X forem as
componentes principais,
p p
11 + 22 + + pp =
j =1
Var ( X i ) = 1 + 2 + + p = Var (Y )
j =1
i
Proporo da varincia
total da populao
k
devida componente = , k = 1,2, , p
+ 2 + + p
principal de ordem k 1
e ki i
2, , p) so dados por =
Yi, Xk kk
matriz de covarincias:
1 2 0
= 2 5 0
0 0 2
2 = 2.00 ' = [ 0; 0; 1 ]
e2
79
As componentes principais so ento,
' X = X3
Y2 = e2
= 5.83 = 1
= 0
1 5.83
= = .73
1 + 2 + 3 8
80
5,83 + 2
e as primeiras duas componentes principais so responsveis por = 98% da
8
e 21 l1 .924 5.83
= = = -.998
Y1, X2 22 5
e32 l 2 2
= = 0 e = = = 1
Y2, X1 Y2, X2 Y2, X3 33 2
componente no importante.
' x , y2 = e2
As componentes principais y1 = e1 ' x , , yp = ep
' x posicionam-se
nas direces dos eixos do elipside de densidade constante. Assim, qualquer ponto
, 0, yi, 0, , 0 ].
81
componentes principais so obtidas rodando o sistema inicial de coordenadas de um
x
2
y
1
y
2
x
1
Alm disto, sendo (1, e1), (2, e2), , (p, ep) os pares valores-vectores
prprios de com 1 2 p 0,
p p
j =1
Var (Yi ) = Var (Z ) =
j =1
i p
82
Proporo da varincia total
da populao estandardizada
devida componente
k
= , k = 1,2, , p
principal de ordem k p
1 4
Exemplo 7.2: Consideremos a matriz de covarincias = e a
4 100
1 .4
correspondente matriz de correlaes =
.4 1
Y1 = .040 X1 + .999 X2
Y2 = .999 X1 - .040 X2
e para :
X 1 1 X 2 2
Y1 = .707 Z1+.707 Z2 = .707 +.707 = .707 (X1 - 1) +.0707 (X2 - 2)
1 10
X 1 1 X 2 2
Y2 = .707 Z1 -.707 Z2 = .707 -.707 = .707 (X1 - 1) -.0707 (X2 - 2)
1 10
83
Devido sua maior varincia, X2 domina completamente a primeira componente
1
principal obtida a partir de . Esta primeira componente principal explica =
1 + 2
100.16
= .992 da varincia total da populao.
101
de . Assim, como
1 1.4
a primeira componente principal explica = = .7 da varincia total da
p 2
populao estandardizada.
Exemplo 7.3: Sejam x1, x2, x3, x4 e x5 observaes semanais das taxas de
retorno das aces de cinco empresas (Allied Chemical, DuPont, Union Carbide,
_
x ' = [ .0054; .0048; .0057; .0063; .0037 ]
84
1.000 .577 .509 .387 .462
.577 1.000 .599 .389 .322
e R = .509 .599 1.000 .436 .426
.387 .389 .436 1.000 .523
.462 .322 .426 .523 1.000
principais
1 + 2 2.857 + .809
Estas componentes, que explicam 100% = 100% = 73% tm
p 5
85
As restantes componentes, de difcil interpretao, representam no seu conjunto a
A anlise factorial pode ser vista como uma extenso da anlise das
componentes principais, uma vez que ambas podem ser encaradas como
factores especficos.
X L F
= +
( p 1) ( p m) (m 1) ( p 1)
ou seja,
86
X2 - 2 = l21 F1 + l22 F2 + + l2m Fm + 2
Alm disso, as variveis aleatrias F1, F2, , Fm, assim como os erros 1, 2,
0
E(F) = ; Cov(F) = E[FF'] =
(m 1) ( m m)
1 0 0
0 2 0
0
E() = ; Cov() = E['] = =
( p 1) ( p p) . . .
0 0 p
0
F e so independentes; isto ; Cov(; F) = E( F') =
( p m)
devida aos m factores comuns. Deste modo, a varincia de Xi pode ser dada por
2
Var(Xi) = comunalidade hi + varincia especfica i
87
[
ii = l i1 2 + l i1 2 + + l i1 2 + i]
19 30 2 12
30 57 5 23
=
2 5 38 47
12 23 47 68
19 30 2 12 4 1 2 0 0 0
30 57 5 23 7 2 4 7 1 1 0 4 0 0
= +
2 5 38 47 1 6 1 2 6 8 0 0 1 0
12 23 47 68 1 8 0 0 0 3
pode ser verificada pela lgebra matricial. Deste modo, tem a estrutura produzida
l 11 l 12 4 1 1 0 00 2 0 0 0
l 7 0 0 0
l 22 2 2 0 4 0 0
Sendo L = 21 = e = =
l 31 l 32 1 6 0 0 3 0 0 0 1 0
l 41 l 42 1 8 0 0 0 4 0 0 0 3
a comunalidade de X1
2 2 2 2 2
h1 = l 11 + l 12 = 4 + 1 = 17
2
11 = h1 + 1 = 17 + 2 = 19
88
Infelizmente, quando o nmero m de factores muito menor do que o nmero
se apresenta de muita utilidade, uma vez que, neste caso, os factores especficos
comuns.
89
seus pares de valores-vectores prprios estimados ( l 1, e 1); ( l 2, e 2), , ( l p, e p)
~
pesos factoriais estimados { l ij} dada por
~ = l e | l e | | l e
L
m
1 1 2 2 m
diagonal da matriz S - ~
L~L ';
~1
0
~2
0
m
= ~l 2ij
~ 0 0 ~ i = sii -
com
. . .
0 0 ~ p
j=1
~2 2 2 2
hi = ~l i1 + ~l i2 + + ~l im
90
para uma anlise factorial de R:
semanais das taxas de retorno das aces de p=5 empresas qumicas e onde se
m=1 e m=2. Assim, para encontrar os pesos factoriais estimados basta multiplicar
explicada por cada factor, para as solues com m=1 e com m=2.
91
0 .127 .164 .069 .017
.127 0 . 122 . 055 .012
~L
R-L ~'-
~ = .164 .122 0 .019 .017
.069 .055 .019 0 .232
.017 012 .017 .232 0
gerais e pode ser chamado factor de mercado, todas as aces tm um peso alto e
separao das empresas qumicas com aces de petrleo das empresas qumicas
matriz de covarincia (ou de correlao). Ora, pela lgebra matricial sabemos que
coordenados. Por esta razo, a uma transformao ortogonal dos pesos factoriais
92
Exemplo 7.6: Consideremos a seguinte matriz de correlaes referentes s
93
F2
0.5
Histria
Portugus
0.4
0.3 Ingls
0.2
0.1
0 F1
0 0.2 0.4 0.6 0.8
-0.1
Geometria
-0.2 lgebra
Aritmtica
-0.3
2 2
F1 passe pelo ponto (~l 41 ; ~l 42 ), como o representado na Figura 7.5.
*
F F
2 2
0.5
Histria Portugus
0.4
0.3 Ingls
0.2
0.1
0 F
1
-0.1
0 0.2 0.4 0.6 0.8
Geometria
-0.2 lgebra
Aritmtica
-0.3
*
F
1
Figura 7.5 Rotao factorial
94
Quando isto feito todos os pontos se encontram no primeiro quadrante (todos os
Ora, esta rotao pode ser conseguida analiticamente, por exemplo atravs do
*
l ij
critrio varimax. Considerando ~ *
l ij = , o procedimento varimax selecciona a
*
hi
p ~*22
l ij
p 4 i=1
V = p ~
1 m
j=1
*
l ij -
i=1
p
95
For fim, falta ainda debruarmo-nos um pouco sobre um problema prtico
dos critrios mais vulgares reter apenas factores com valores prprios maiores do
dos valores prprios e parar a anlise no ponto onde a linha deste grfico comea a
ser quase paralela com o eixo horizontal. Este ltima alternativa; denominada teste de
0
0 2 4 6 8 10 12
Factor
Segundo este grfico o investigador concluiria que no deveriam ser extrados mais
de cinco factores.
96
97
8
Anlise de agrupamentos (clusters)
8.1 Introduo
agregao.
98
de distncias. As variveis podem, por exemplo, ser agrupadas com base no
coeficiente de correlao.
variveis:
p
d ij = .( x
k =1
ik x jk ) 2
variveis:
p
d ij2 = .( xik x jk ) 2
k =1
variveis:
p
d ij = xik x jk .
k =1
99
m 1m
p
d ij = xik x jk
k =1
varincias:
d ij = (xi x j ) (x xj )
' 1
i
de 5 observaes em 3 variveis:
X1 X2 X3
1 1,06 9,2 151
2 1,10 9,2 245
3 1,34 13,0 168
4 1,43 15,4 113
5 1,16 11,7 104
dados.
Distncia Euclideana 1 2 3 4
2 94,0
3 17,4 77,1
4 38,5 132,1 55,0
5 47,1 141,0 64,0 9,7
100
5 49,6 143,6 65,5 13,0
variveis qualitativas podem ser introduzidas neste tipo de anlise custa da sua
Indivduo j Totais
Indivduo i 1 0
1 a b a+b
0 c d c+d
Totais a+c b+d
101
b ao nmero de caractersticas presentes em i e ausentes em j, e c ao nmero de
apresentados a seguir:
a+d
1 Igual peso s as presenas e as ausncias simultneas;
a+b+c+d
2(a + d )
2 Peso duplo s presenas e ausncias simultneas;
2(a + d ) + b + c
a+d
3 Peso duplo s situaes discordantes; incluso das
a + d + 2(b + c)
ausncias simultneas
2a
4 Peso duplo s presenas ausncias simultneas;
2a + b + c
excluso das ausncias simultneas.
a
5 Peso duplo as situaes discordantes; excluso das
a + 2(b + c)
ausncias simultneas.
a
6 Quociente entre presenas simultneas e situaes
b+c
discordantes; excluso das ausncias simultneas.
Definamos as seis variveis binrias X1, X2, X3, X4, X5, e X6 do seguinte modo:
102
1 peso 68 Kg 1 no canhoto
X2 = X5 =
0 peso < 68 Kg 0 canhoto
Indivduo X1 X2 X3 X4 X5 X6
1 0 0 0 1 1 1
2 1 1 1 0 1 0
Indivduo 2 Totais
Indivduo 1 1 0
1 1 2 3
0 3 0 3
Totais 4 2 6
a+d 1+ 0 1
Utilizando o primeiro coeficiente de semelhana, obtemos = = e,
a+b+c+d 6 6
103
1 2 3 4 5
1 1
2 1 1
6
3 4 3 1
6 6
4 4 3 2 1
6 6 6
5 0 5 2 2 1
6 6 6
1
s ij =
1 + dij
comparar os resultados.
vizinho mais prximo (single linkage), o critrio do vizinho mais afastado (complete
critrio de Ward
104
8.3.1 Critrio do vizinho mais prximo (single linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles igual menor distncia
d (i , j ) k = min{d ik ; d jk }
Com este critrio, cada indivduo ter mais tendncia para se agrupar a um grupo j
definido do que para formar o ncleo de um novo grupo. Isto constitui uma
Dados dois grupos (i,j) e (k), a distancia entre eles igual maior distncia
d (i , j ) k = max{d ik ; d jk }
Com este critrio, cada grupo passa a ser definido como o conjunto dos indivduos em
que cada um mais semelhante a todos os outros do grupo do que a qualquer outro
105
8.3.3 Critrio da mdia dos grupos (average linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles a mdia entre todos os
dos quadrados dos desvios das observaes em relao mdia dos grupos.
variveis para cada indivduo. Por fim, somam-se as distncias para todos os
106
107
Referncias bibliogrficas
Aldenferfer MS, Blashfield RK. Cluster analysis. Sage university paper series on
quantitative applications in the social sciences, 07-044. Beverly Hills: Sage, 1984.
quantitative applications in the social sciences, 07-069. Beverly Hills: Sage, 1989.
Hair JF, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. Englewood
Jobson JD. Applied multivariate analysis. Volume II: Categorical and multivariate
Prentice-Hall, 1988.
Kim J-O, Mueller C. Introduction to factor analysis. Sage university paper series on
quantitative applications in the social sciences, 07-013. Beverly Hills: Sage, 1978.
108
Kim J-O, Mueller C. Factor analysis. Statistical methods and practical issues. Sage
109