Escolar Documentos
Profissional Documentos
Cultura Documentos
Ap200001 PDF
Ap200001 PDF
Estatstica
Multivariada
Aplicada
2000
ii
Sumrio
13
13
17
21
23
23
28
29
37
37
42
44
47
47
50
56
59
59
65
70
iii
45
75
75
78
86
99
99
99
iv
1
Introduo anlise multivariada
X =
x11
x
21
.
x i1
.
x n1
x12
x 22
.
xi 2
.
x n2
x1 j
x2 j
.
x ij
.
x nj
x1 p
x 2 p
.
x ip
.
x np
Total
42
52
48
58
No. livros
42 52 48 58
5 4 3
'
X =
4
x1j,x2j,,xij,,xnj
feitas na varivel j (coluna j da matriz X), podemos denominar por x j a mdia amostral
da varivel j
xj =
1
n
j = 1,2,,p
ij
i =1
(x
ij
xj ) 2
i = 1,2,,p
i =1
sik = ski =
1
n
(x
ij
xj ) ( x ik x k )
i =1
i = 1,2,,p ; k = 1,2,,p
rjk = rkj =
s jk
s jj
(x
ij
x j ) ( x ik x k )
i =1
=
n
s kk
( x ij x i ) 2
i =1
(x
ik
xk )2
i =1
(xij -
xj
) /
s jj e
xij
(xik -
xik
xk
) /
pelos
s kk , o
coeficiente de correlao amostral rjk pode ser visto como a covarincia amostral.
Aps a estandardizao, ambas as variveis podem ser comparadas, pois passam a
estar nas mesmas unidades.
Voltando, de novo, apresentao matricial, baseando-nos na matriz X com n
medies (linhas) em p variveis (colunas), as mdias amostrais so representadas
por
x1
x
2
x=
x p
s p1
s12
s 22
.
s p2
s1 p
s 2 p
.
s pp
r p1
r12
1
.
rp2
r1 p
r2 p
.
42 52 48 58
X =
4 5 4 3
'
_
podemos determinar o vector x e as matrizes Sn e R. Assim,
_
1
x1 =
4
x
i =1
i1
1
(42 + 52 + 48 + 58) = 50
4
_
1
x2 =
4
i2
1
(4 + 5 + 4 + 3) = 4
4
i =1
_
x1
50
e ento, x = =
4
x
Do mesmo modo,
1
4
(x
s22 =
1
4
(x
s12 =
1
4
(x
s11 =
1
(42 50) 2 + (52 50) 2 + (48 50) 2 + (58 50) 2 = 34
4
i1
x1 ) 2 =
i2
x2 )2 =
i1
x1 ) ( xi 2 x 2 ) =
i =1
1
(4 4) 2 + (5 4) 2 + (4 4) 2 + (3 4) 2 = .5
4
i =1
i =1
1
[(42 50)(4 4) + (52 50)(5 4) + (48 50)(4 4) + (58 50)(3 4)] = -1.5
4
1.5
.5
34
Sn =
1.5
r12 = r21 =
R =
.36
s12
s11 s 22
1.5
= -.36
34 .5
.36
1
1.3 Distncias
A maioria das tcnicas multivariadas so baseadas no conceito simples de
distncia. Se considerarmos um plano e um ponto P = (x1,x2) nesse plano, a distncia
d(O,P) entre a origem e esse ponto dada por
P
x
d(O,P) =
x12 + x 22
x12 + x 22 + + x 2p
(x1,x2, ,xp)
d(P,Q) =
( x1 y1 ) 2 + ( x2 y 2 ) 2 + + ( x p y p ) 2
Ora tambm aqui se faz sentir o eventual problema das vrias dimenses
terem unidades de medida distintas. Mais ainda, as medies das diversas
coordenadas podem estar sujeitas a variaes aleatrias com intensidades diferentes.
Por isso, uma distncia baseada numa linha recta, ou euclideana, no a mais
apropriada. Necessitamos ento de um outro tipo de medio de distncias e, porque
este novo tipo de distncia vai ter em conta as diferenas de variao, denomina-laemos distncia estatstica.
Para ilustrar o conceito de distncia estatstica, suponhamos que temos n
pares de medies em duas variveis independentes x1 e x2. Alm disso,
suponhamos tambm que a variao das medies da varivel x1 maior do que a
das medies em x2.
x2
x1
d(O,P) =
x
1
s
11
x
+ 2
s
22
x12 x 22
+
s11 s 22
c s
22
2
P
x
c s
11
_
Exemplo 1.2: Suponhamos que temos duas variveis independentes com mdias x1
_
= x2 = 0 e com varincias s11 = 4 e s22 = 1.
distncia
de
um
qualquer
ponto
caso por
1
2
x2
x2
d (O,P) = 1 + 2
4= 2 e
1 = 1,
respectivamente.
d(P,Q) =
(x p y p ) 2
( x1 y1 ) 2 ( x 2 y 2 ) 2
+
++
s11
s 22
s pp
com s11, s22, , spp as varincias construdas a partir das n medies nas variveis
x1,x2, ,xp, respectivamente. Todos os pontos P a uma distncia quadrada de Q
esto colocados num hiperelipside centrado em Q com os eixos principais paralelos
aos eixos do sistema de coordenadas. Obviamente, se todas as varincias fossem
iguais, encontramos a distncia euclideana j atrs apresentada.
Temos at agora analisado a situao em que os eixos da elipse dos dados
coincidem com os eixos do sistema de coordenadas. Ora, h situaes onde isto no
acontece, isto , em que a varivel x1 no varia independentemente da varivel x2 e,
neste caso, o coeficiente de correlao amostral no nulo.
x~
1
x~
2
ngulo
para
termos
uma
situao
semelhante s anteriores.
A distncia entre o ponto P=(x~1 ,x~2 ) e a origem O=(0,0) ento definida como
d(O,P) =
~
x12 ~
x 22
=
+
~
s11 ~
s 22
Nesta fase no vital sabermos como determinar os valores destes as. O que
importante vermos que existe um termo de produto cruzado indicador da
correlao r12 no nula. Mais ainda, quando olhamos para a equao correspondente
s duas variveis independentes, vemos que
a11 =
1
s11
a22 =
s
a12 = 0
22
d(P,Q) =
a11 ( x1 y1 ) 2 + 2a12 ( x1 y1 )( x 2 y 2 ) + a 22 ( x 2 y 2 ) 2
10
11
12
2
lgebra matricial e vectores aleatrios
Lx =
x12 + x 22 + + x n2
cos (1) =
x1
Lx
cos (2) =
13
y1
Ly
sin (1) =
x2
Lx
sin (2) =
y2
Ly
e que cos () = cos (2 - 1) = cos (2) cos (1) + sin (2) sin (1)
2
y
obtemos
y x y x
cos () = cos (1 - 2) = 1 1 + 2 2
L y L x
x y + x2 y2
= 1 1
L y L x
Lx Ly
Lx =
xx
cos () =
xy
=
Lx Ly
xy
xx yy
14
Como
xx = 12 + 32 + 22 = 14
yy = (-2)2 + 12 + (-1)2 = 6
xy = 1(-2) + 3(1) + 2(-1) = -1
ento
Lx =
xx =
14 = 3.74
Ly =
yy =
6 = 2.45
cos () =
-1
xy
= (3.74) (2.45) = -.109 , donde, = 96.3
Lx Ly
c1 + c2 + c3 = 0
2c1 - 2c3 = 0
c1 - c2 + c3 = 0
15
xy
y =
yy
xy 1
y
Ly Ly
| xy |
xy
= Lx
= Lx | cos() |
Lx Ly
Ly
|A-I|=0 B
5
1
1 5
= 0 B (1 - )2 - 25 = 0 B 1=6 ou 2=-4
5 1
16
Para 1=6,
A e = 1 e B
5
5 e11
e11
= 6 e
1 e 21
21
e11 =
e11 5e 21 = 6e11
2
B
5
e
e
6
e
+
=
11
21
21
e 21 =
2
1
e1 = 2
1
2
correspondente a 2 = -4.
17
(kk)
onde
e1
e1
(k1) (1k)
1, 2, , k
e2
e2
ek
ek
(k1)(1k)
(k1)(1k)
so os valores prprios de A e
e1, e2, , ek
ei ei
os
= 1 (i = 1, 2, , k) e
ei ej = 0 (i j).
3 1
=
1
Encontra-se e1 =
Reparar que
2
2
e11
+ e 21
=
12 + 1 2 =
e1 e 2 , isto , e1 e2 = 0.
3 1
1 3 = 4
2 1
1 2
2
1
2 1
+ 2 1
2
2
2
18
1
=
2
2.
1
2
= 4 2
1
1
1
2 + 2 2
1
1
2
2
1
2 = 2 2 + 1 1 = 3 1
2 2
1 1
1 3
1
Sempre que a matriz A (kk) simtrica seja tal que xA x seja sempre maior
ou igual a zero, qualquer que seja o vector x= [x1 x 2 x n ]
[0
0 0 ],
Para k = 2,
a11
a12
xA x = [x1 x 2 ]
a12 x1
=
a 22 x 2
[x1
a x + a x
x 2 ] 11 1 12 2
a12 x1 + a 22 x 2
xA x = 1 (xe1)2 + 2 (xe2)2
19
Deste modo os pontos situados a uma distncia c fazem parte de uma elipse
cujos eixos so dados pelos vectores prprios de A com comprimentos proporcionais
aos inversos das razes quadradas dos valores prprios. A constante de
proporcionalidade c.
c=
c2 = 1 (xe1)2 + + p (xep)2
cujos eixos so dados pelos vectores prprios de A . A meia distncia na direco de
ei igual a
c
i
20
E(cX) = c
e varincia
Var(cX) = c c
2 3 1
Exemplo 2.5: Consideremos a matriz X =
2 5 0
'
2/3
2 / 3 26 / 3
2
3 1
e a varincia Var(YX) =
[3
2 / 3 2 / 3 3
2]
= 48.67
2 / 3 26 / 3 2
21
Alm dos resultados anteriores podemos tambm afirmar que, sendo dado
duas combinaes lineares aX e bX, a covarincia entre elas dada por
Cov(aX,bX) = a' b
22
3
Geometria amostral e amostragem aleatria
x n1
x12
x 22
.
.
.
x n2
x1 p
x 2 p
.
=
.
.
x np
x1
x
2
.
.
.
x n
23
_
Determinar o vector mdia x da matriz
Exemplo 3.1:
'
4 1 3
1 3 5 ,
_
apresente os n = 3 pontos num espao a p = 2 dimenses e localize x .
4 1+ 3
3
2
1 + 3 + 5 =
3
_
x =
6
5
X3
X2
3
2
X1
1
0
-2
-1
-1
-2
x n1
x12
x 22
.
.
.
x n2
x1 p
x 2 p
.
= [y1
.
.
x np
24
y2 yp]
vectores y1 e y2.
y1 = [ 4 -1 3 ]
y2 = [ 1 3 5 ]
3
6
5
3
2
1
2
3
4
5
6
1
Figura 3.2 Representao dos vectores y1 e y2
25
Deste modo,
dj = yj -
_
x1 1 =
1 =
x1
Exemplo 3.3:
xj
_
x2 1 =
Consequentemente,
_
d1 = y1 - x1 1 =
x1i x i
x 2i x i
x ni x i
4
1
3
1
_
d2 = y2 - x2 1 = 3 5
2
2 =
2
3
3 =
3
2
3
1
2
0
2
26
3
3
3
d2
x 1
d1
x 1
1
1
fcil ver que
L 2d i = di di =
(x
ij
x j )2
i =1
di dk =
(x
ij
j =1
x i ) ( x kj x k ) = L d L d cos(ik)
i
e ento,
rik =
s ik
s ii s kk
= cos(ik)
27
Exemplo 3.4:
d1 d1 =
2
[2 3 1] 3 = 14 = 3 s11
1
d2 d2 =
[ 2
d1 d2 =
[2
2] 0 =
2
8 = 3 s22
2
3 1] 0 = -2 = 3 s12
2
14
Sn = 3
2
r12 =
s12
s11 s 22
2
3
8
2
3
= -.189
14 8
3 3
R =
.189
.189
1
28
Dada a matriz
x11
x
21
.
X =
.
.
x n1
dizemos que
x1 , x2 ,
, xn
x12
x 22
.
.
.
x n2
x1 p
x 2 p
.
=
.
.
x np
x1
x
2
.
.
.
x n
E(
n
S um estimador no enviesado de , isto ,
n 1 n
n
S ) = .
n 1 n
S=
n
1
Sn =
n 1
n 1
(x
x ) ( x j x) '
j =1
29
x11
x
21
.
S =
.
.
x n1
x12
x 22
.
.
.
x n2
x1 p
x 2 p
.
=
.
.
x np
1
s jk =
n 1
i =1
( x ij x j ) ( x ik x k )
Exemplo 3.5:
14808 14213
Consideremos a matriz S =
14213 15538
d1
rea =
Ld1sin
[L
d1
_
e d2 = y2 - x2 1
sin( ) L d
= L d1 L d 2 1 cos 2
d2
= (n - 1)
Figura 3.5 rea gerada pelos desvios
30
s11 s 22 (1 r122 )
s11 s 22 r12
s 22
11
| S | = 11 12 =
s
s
s
22
12
11 s 22 r12
2
2
= s11 s22 (1 - r 12
)
= s11 s22 - s11 s22 r 12
|S| =
rea 2
(n 1) 2
= (n - 1)-2 rea2
d1
d3
d2
d2
d1
d3
2
31
Exemplo 3.6:
Consideremos as matrizes
5 4
S=
4 5
S=
4
32
4
5
3 0
S=
0 3
o
Ora, prova-se que o determinante de uma qualquer matriz A pp pode ser
escrito como o produto dos seus valores prprios 1, 1, , p, isto , | A | =
i =1
Exemplo 3.7:
1 4 4
Dada a matriz X = 2 1 0 ,
5 6 4
2 1
_
_
a matriz das mdias x = [ 3 , 1 , 5 ] e ento X - x 1 = 1
Os desvios residuais so d1 =
2
1 , d =
2
1
1
0e d =
3
1
1
0 1 .
1 1
0
1.
1
33
|S| = 0
variveis podem ser retiradas do estudo. Por outro lado |S| tambm ser nulo se o
tamanho da amostra for menor ou igual ao nmero de variveis, isto , n p.
Se estivermos a trabalhar com variveis estandardizadas, podemos dizer que a
varincia amostral generalizada dada pelo determinante de R:
Exemplo 3.8:
4 3 1
Sendo dada a matriz S = 3 9 2 , s11 = 4; s22 = 9 e s33 =
1 2 1
1.
1
1
Alm disso, R =
2
1
2
1
2
1
2
3
1
2
7
2
. Como | S | = 14 e | R | =
, confirma-se que
3
18
34
Exemplo 3.9:
14808 14213
14213 15538
s11 + s22 = 14808 + 15538 = 30346.
3
3
A varincia amostral total da matriz S =
2
3
2
1
1
2
0
1
35
36
4
Distribuio normal multivariada
f(x) =
x2
O termo
1
2
e - [( x ) / ]2 / 2
- < x <
(x - ) -1 (x - )
onde o vector representa o valor esperado do vector aleatrio x e a matriz pp a
matriz da varincias.
37
f(x) =
onde
1
(2 )
p/2
||
1/ 2
e - (1/2) (x - )
-1
(x - )
- < xi < , i = 1, 2, , p.
Exemplo 4.1:
Consideremos o espao p = 2.
Neste espao = 1 e = 11 12
2
s12 s 22
Calculando a inversa da matriz de varincias, obtemos
-1 =
1
2
11 22 12
22
12
12
11
= [x1 1 x1 1 ]
1
2
11 22 12
22
12 11 22
12 11 22 x1 1
11
x 2 2
1
2
1 12
x1 1 + x 2 2
11
22
2 x1 1 x1 1
12
11
11
Deste modo,
38
f(x1,x2) =
1
2
2 11 22 (1 12
)
1
exp
2
2 1 12
x1 1 + x 2 2
22
11
2 x1 1 x1 1
12
11
11
Do que atrs ficou dito, podemos concluir que a densidade normal multivariada
constante nas superfcies onde a distncia quadrada (x - ) -1 (x - ) for
constante. Os eixos de cada elipside de constante densidade tm a direco dos
vectores prprios de -1 e os comprimentos proporcionais aos inversos das razes
quadradas dos valores prprios de .
1
, os valores prprios de -1 podem ser
Uma vez que e = e -1 e = e
39
Exemplo 4.2:
=0
11
12
12
11
=0
( - 11 - 12) ( - 11 + 12) = 0
f(x , x )
1 2
(a)
x
f(x , x )
1 2
x2
(b)
(b) 11 = 22 e 12 = .75
40
s11
s
12
s12 e11
= (11 + 12)
s11 e 21
e1 =
e11
e
21
1
e11 2
e = 1
21
2
1
e12 2
De modo idntico e2 = =
e 22 1
2
2
c
11 +
12
11-
12
x
1
Figura 4.2 - Contorno de densidade constante para uma distribuio normal bivariada
com 11 = 22 e 12 > 0 (ou 12 > 0)
41
1e1 e
f(x) =
1
(2 ) p / 2 | |1 / 2
e - (1/2) (x - )
-1
(x - )
a q1 X 1
+ ... +
a1 p Xp
+ ... + a 2 p Xp
~ Nq(A, AA)
...
+ ... + a qp Xp
42
X
d
~ Np(, d)
+
( p 1) ( p 1)
(q 1)
=
2
( p 1)
(( p q ) 1)
X1
(q 1)
=
X2
( p 1)
(( p q ) 1)
11
(q q)
=
21
( p p)
(( p q) q)
|
|
|
|
(q ( p q))
22
(( p q ) ( p q))
12
X1
Se X =
X
2
1
~ N (, ) com =
p
11 |
, = _ _
21 |
_
22
12
43
{x : (x )
(x ) = 2p ( )
= X
= 1
(X
n
X)( X j X) =
j =1
n 1
S
n
uma
Notar que o estimador X um vector aleatrio e que o estimador
matriz aleatria.
Estes estimadores de mxima verosimilhana possuem a propriedade da
invarincia. Isto significa, por exemplo, que o estimador de mxima verosimilhana de
1 1 e que o estimador de mxima verosimilhana de
44
jj
jj ,
com jj =
n
(X
i =1
ij
= Var(Xj).
Tratando-se de populaes normais, toda a informao amostral da matriz de
1 2
n . O resultado para o caso multivariado (p 2)
1
n
45
demonstrar-se que n ( X - ) -1 ( X - ) ~ 2p .
46
5
Inferncia acerca do vector mdia
5.1 T2 de Hotelling
Uma generalizao natural da distncia quadrada
( X o ) 2
t2 =
s /n
= n ( X - o) (s2)-1 ( X - o)
a correspondente multivariada
-1
1
T2 = ( X - o) S ( X - o) = n ( X - o) S-1 ( X - o)
n
onde
( p 1)
( p p)
1
n
j =1
1
n 1
(X
n
)(
X Xj X
10
0
20
=
( p 1) M
p 0
'
j =1
47
T2 ~
(n 1) p
F
(n p ) p, n-p
onde Fp,n-p indica uma varivel aleatria com uma distribuio F com p e n-p graus
de liberdade.
(n 1) p
(n 1) p
= P T 2 >
F p ,n p ( ) = n( X )S 1 ( X ) >
F p ,n p ( )
(
)
(n p)
n
p
_
_
T2 = n (x - 0) S-1 (x - 0)
Exemplo 5.1:
>
(n 1) p
F
()
(n p ) p,n-p
48
X = 45.400
9.965
.258
.586 .022
.006 .002
.258 .002
.402
e S-1 = .022
Ora T2 = n ( X - 0) S-1 ( X - 0)
.258 4.640 4
.586 .022
.467
= 20 [.640 ; -4.600 ; -.035 ] .042 = 9,74
.160
49
X2
P n( X )S 1 ( X )
(n 1) p
F p ,n p ( ) = 1 -
(n p)
(n 1) p
F p ,n p ( ) de , com
(n p )
1
n
-1
(n 1) p
F
(). Caso a distncia seja maior do que
(n p ) p,n-p
50
so
(n 1) p
F p ,n p ( ) ei ; onde Sei = i ei , i = 1, 2, , p.
n( n p )
Exemplo 5.2:
.564
X =
.603
.0144 .0117
S =
.0117 .0146
163.391
163.391 200.228
203.018
S-1 =
e1 = [ .704, .710 ]
2 = .002
e2 = [ -.710, .704 ]
42 [.564 - 1 ; .603 - 2]
163.391
163.391 .564 1
2(41)
F2,40(.05)
200.228 .603 2
40
51
H1 :
.562
a um nvel de significncia = .05.
.589
elipside
de
confiana
conjunta
est
centrado
X =
em
.564
.603 e,
(n 1) p
F p ,n p ( ) =
n( n p )
.026
2(41)
(3.23) = .064
42(40)
(n 1) p
F p ,n p ( ) =
n(n p )
.002
2(41)
(3.23) = .018
42(40)
o
Consideremos agora X ~ Np(, ) e a combinao linear Z = cX = c1 X1 + c2
2
X2 + + cp Xp . Ento, para c fixo e z desconhecido, um intervalo de confiana a
100(1 - )% para z = c dado por
c
x - tn-1(/2)
cSc
n
c c
x + tn-1(/2)
52
cSc
n
onde tn-1(/2) o percentil superior de ordem 100(/2) de uma distribuio t com n-1
graus de liberdade.
Esta desigualdade pode ser interpretada como uma afirmao em relao s
componentes do vector mdia . Por exemplo, com c= [ 1, 0, , 0 ], c = 1
torna-se no intervalo de confiana j por ns conhecido para a mdia de uma
populao normal, sendo cSc = s11.
Podemos deste modo construir vrios intervalos de confiana para os
componentes de , cada um deles associado a um coeficiente de confiana de 1-.
Basta para isso escolher os vectores c apropriados. Contudo, a confiana associada a
todos os intervalos quando tomados em conjunto no igual a 1-.
cX p (n 1) F p ,n p ( )c' Sc
n( n p )
cX +
p(n 1)
F p , n p ( )c' Sc
n( n p )
x1 -
p (n 1)
F p ,n p ( )
(n p)
s11
1
n
53
x1 +
p (n 1)
F p ,n p ( )
(n p)
s11
n
x2 -
p (n 1)
F p , n p ( )
(n p)
s 22
2
n
x2 +
p (n 1)
F p ,n p ( )
(n p)
s 22
n
xp +
p (n 1)
F p ,n p ( )
(n p)
s pp
xp -
p (n 1)
F p ,n p ( )
(n p)
s pp
n
xi - x k
Exemplo 5.3:
especiais:
s 2 s ik + s kk
p (n 1)
F p ,n p ( ) ii
n
(n p)
X = 54.69 e
25.13
S = 600.51 126.05
54
527.74 -
54.69 -
25.13 -
8.29
5691.34
1 527.74 +
87
8.29
8.29
8.29
5691.34
87
504.45 1 551.03
126.05
2 54.69 +
87
8.29
126.05
87
51.22 2 58.16
23.11
3 25.13 +
87
8.29
23.11
87
23.65 3 26.61
i = 1, 2, , m
x 1 - tn-1
2p n
1 x 1 + tn-1
s 22
x 2 - tn-1
2p n
2 x 2 + tn-1
_
s pp
x p - tn-1
2p
s11
2p n
s 22
2p n
_
s pp
p x p + tn-1
2p
55
Exemplo 5.4:
_
x 2 t19 (.0083)
_
x 3 t19 (.0083)
s11
= 4.64 2.625
n
s 22
= 45.4 2.625
n
2.879
20
3.64 1 5.64
199.798
20
37.10 2 53.70
3.628
20
8.85 3 11.08
s 33
= 9.965 2.625
n
1
( X - ) S -1 ( X - ) = n ( X - ) S-1 ( X - ) aproximadamente 2
n
P n( X )S 1 ( X ) 2p ( ) = 1 -
56
Seja X1, X2, , Xn uma amostra aleatria de uma populao com mdia e
matriz de covarincia definida positiva . Quando n - p for grande,
a hiptese H0: = 0
significncia aproximadamente se
_
_
n (x - o) S-1 (x - o) > 2p ( )
cSc
c X 2p ( )
contm c, para todo c, com probabilidade aproximadamente
n
2p ( )
s11
contm
n
_
x2
2p ( )
s 22
contm
n
_
xp
2p ( )
s pp
n
contm
_
_
s
n [x i - i ; x k - k] ii
s ik
s ik
s kk
-1
x _ i i
2
x _ p ( )
k
k
57
contm
(i, k)
58
6
Comparao entre duas mdias multivariadas
t =
(D )
sd / n
59
onde
D =
1
n
Dj e
s 2d =
j =1
1
n 1
(D
j =1
graus de liberdade.
Consequentemente, a um nvel , o teste H0: = 0 contra H0: 0 pode ser
conduzido comparando
| t |
confiana a 100(1-)% para a diferena mdia = E(X1j - X2j) pode ser obtido pela
expresso
s
s
d - tn-1(/2) d d + tn-1(/2) d
n
.
.
.
X 1 p1 X 1 p 2 X 1 pn
.
.
. =
X 2 p1 X 2 p 2 X 2 pn
Considerando Dj = [D1 j D 2 j D pj ]
( j = 1,2, , n) ,
60
.
.
.
D p1 D p 2 D pn
1
2
E(Dj) = = e cov(Dj)=d.
L
p
Se, alm disso, D1, D2, , Dn forem vectores aleatrios independentes Np(,
d), ento
T2 = n ( D - )S d1 (D )
onde
D=
aleatria
1
n
Dj
e Sd =
j =1
1
n 1
(D
j =1
(n 1) p
F
.
(n p ) p,n-p
T2 = n d S d >
d
(n 1) p
F
()
(n p ) p,n-p
onde Fp;n-p() o valor do percentil de ordem 100 de uma distribuio F com p e np graus de liberdade.
61
Uma regio de confiana a 100(1-)% para formado por todos os tal que
-1
( d - ) S ( d - d)
d
(n 1) p
F
()
n(n p) p,n-p
i:
di
s d2i
(n 1) p
F p , n p ( )
(n p)
n
(n 1) p
F
() aproxima-se da distribuio 2p ( ) , e a
(n p ) p,n-p
i:
s di
di tn-p
2p n
onde tn-p o percentil de ordem 100(/2p) de uma distribuio t com n-p graus
2p
de liberdade.
62
Exemplo 6.1:
Amostra j
Laboratrio 1
x11j (NOB)
x12j (SS)
Laboratrio 2
x21j (NOB)
x22j (SS)
27
25
15
23
28
33
18
64
36
22
44
35
29
11
30
15
31
34
75
44
64
28
26
42
30
71
124
54
64
43
54
34
56
10
33
30
29
20
11
20
14
39
21
-19
-22
-18
-27
-4
-10
-14
17
-19
12
10
42
15
-1
11
-4
60
-2
10
-7
63
Ento,
d 1 9.36
d = =
;
d 1 13.27
199.26
88.38
Sd =
e
88.38 418.61
.0055 .0012 9.36
= 13.6
.0026 13.27
T2 = 11 [-9.36; 13.27]
.0012
2 (10)
(n 1) p
Fp;n-p(.05) =
F2;9(.05) = 9.47
9
(n p)
Como T2 = 13.6 > 9.47, rejeitamos H0 e conclumos que existe uma diferena
mdia no nula entre as medies dos dois laboratrios. Dos dados parece
evidente que o primeiro laboratrio tende a produzir medies mais baixas para
NOB e mais altas para SS do que o segundo laboratrio.
Os intervalos de confiana simultneos a 95% para as mdias das diferenas
1e2 so, respectivamente,
d1
s d21
(n 1) p
F p ,n p ( )
= -9.36
n
(n p)
9.47
199.26
ou (-22.46 ; 3.74)
11
d2
s d21
(n 1) p
= 13.27
F p ,n p ( )
(n p)
n
9.47
418.61
ou (-5.71 ; 32.25)
11
64
o
6.2 Comparaes em desenhos de medidas repetidas
Outra generalizao da estatstica t univariada consiste no caso de q
tratamentos serem comparados relativamente a uma nica varivel de resposta. Cada
indivduo ou unidade experimental recebe o tratamento uma vez em vrios perodos
de tempo. A observao de ordem j
X1j
X
2j
.
Xj =
.
.
X qj
j = 1, 2, , n
65
_
_
T2 = n (Cx ) (CSC)-1 Cx >
(n 1)(q 1)
F
()
(n q + 1) q-1,n-q+1
onde Fq-1,n-q+1() o percentil de ordem 100 de uma distribuio F, com q-1 e nq+1 graus de liberdade.
(n 1)(q 1)
F
()
(n q + 1) q-1,n-q+1
c :
Exemplo 6.2:
_
cx
(n 1)(q 1)
Fq 1, n q +1 ( )
(n q + 1)
c ' Sc
n
amostra de 19 ces aos quais foi administrado dixido de carbono (CO2) a dois
nveis de presso (alto e baixo), seguido da adio de halotano (H) e da repetio
de dixido de carbono.
Presente
Halotano
Ausente
Alto
Baixo
CO
66
Tratamento
Co
426
609
556
600
253
236
392
395
359
433
349
357
432
431
522
600
405
426
513
513
324
438
507
539
310
312
410
456
326
326
350
504
375
447
547
548
10
256
286
403
422
11
349
382
473
497
12
429
410
488
547
13
348
377
447
514
14
412
473
472
446
15
347
326
455
468
16
434
458
637
524
17
364
367
432
469
18
420
395
508
531
19
397
556
645
625
67
(3 + 4) - (1 + 2)
(1 + 3) - (2 + 4)
(1 + 4) - (2 + 3)
1 1
1 1
1 1 1 1
368.21
2819.19
.
.
.
.
2943.49 5303.98 6851.32
.
404.63
_
e S = 3568.42 7963.14
Dos dados acima, x =
479.26
502.89
209.31
9432.32 1098.92
_
927.62
927.62
914.54
914.54 7557.44
_
_
e T2 = n (Cx ) (CSC)-1 (Cx ) = 19 (6.11) = 116.
Com = .05,
18(3)
(n 1)(q 1)
18(3)
F
() =
F3;16(5) =
(3.24) = 10.94.
16
16
(n q + 1) q-1;n-q+1
68
(x
3 + x4 ) - (x1 + x2 )
18 (3)
16 F3,16(.05)
= 209.31 10.94
c1Sc1
19
9432.32
= 209.31 73.70
19
= -60.05 10.94
5195.84
= -60.05 54.70
19
= -12.79 10.94
7557.44
= -12.79 65.97
19
69
Estatsticas
= 1
x
1
n1
=
x
2
1
n2
n1
S1 =
x1 j
j =1
n2
S2 =
x2 j
j =1
1
n1 1
1
n2 1
n1
(x
1j
x 1 )(x1 j x 1 )
j =1
n2
(x
2j
x 2 )(x 2 j x 2 )
j =1
70
Scomum =
(x1 j x 1 )(x 1 j x1 ) +
j =1
n2
(x
2j
x 2 )(x 2 j x 2 )
j =1
n1 + n 2 2
-x
- )
T2 = (x
1
2
0
onde c2 =
1
-1
1
- ) > c2
S comum
(x1 - x
+
2
0
n
n
2
1
(n1 + n 2 2) p
F
().
(n1 + n 2 p 1) p,n1+n2-p-1
71
Exemplo 6.3:
2 1
S1 =
1 6
4.1
_
10.2
x2=
S1 =
1 4
3.9
Scomum =
50 + 50 2
1 5
_
_
1 .9
Como x 1 - x 2 =
, a elipse de confiana est centrada em [-1.9; .2], sendo
.2
0 = S comum I =
Deste modo;
1 = 5.303
e1 = [ .290; .957 ]
2 = 1.697
e2 = [ .957; -.290 ]
1
1 2
1 (98)(2)
1
c
= +
F2,97(.05) = .25
+
n
n
50
50
(97)
2
1
Alm disso;
72
1
1 2
+
c =
n1 n 2
73
74
7
Anlise de componentes principais e anlise factorial
7.1 Introduo
75
Tambm
coeficiente
de
vimos
correlao,
que
R2,
quadrado
do
representa
F1
vector
de
^ =
referncia F1 ( = b
12.5)
F1
b
a
F2
76
^ = 77.5)
( = 102.5 ; b
Os ngulos formados por T e S com F2 so, respectivamente, 102.5 e 77.5,
correspondendo aos pesos cos(102.5) = -0.216 e cos(77.5) = 0.216. A varincia
extrada por F2 (-0.216)2 + (0.216)2 = 0.1 e a percentagem de varincia extrada
5%.
Estes resultados podem ser resumidos na seguinte tabela:
Variveis
Factores
Comunalidade
0.976
-0.216
1.0
0.976
0.216
1.0
Varincia extrada
1.9
0.1
2.0
Percentagem da varincia
95
100
77
i = 1, 2, , p
78
' X , Y2 = e2
' X , , Yp = ep
' X forem as
Alm disso, se Y1 = e1
componentes principais,
11 + 22 + + pp =
Var ( X i ) = 1 + 2 + + p =
j =1
Var (Y )
i
j =1
Proporo da varincia
total da populao
devida componente
principal de ordem k
k
1
=
2, , p) so dados por
Yi, Xk
Exemplo 7.1:
+ 2 + + p
e ki
, k = 1,2, , p
kk
matriz de covarincias:
1 2 0
= 2 5 0
0
0 2
2 = 2.00
' = [ 0; 0; 1 ]
e2
3 = 0.17
79
+ 2 + 3
80
5.83
= .73
8
5,83 + 2
= 98% da
Finalmente, como
Y1, X1
e11 l1
Y1, X2
e 21 l1
11
.383 5.83
= .925
22
.924 5.83
= -.998
= 0
=
Y2, X2
Y2, X1
Y2, X3
e32 l 2
33
= 1
' x , y2 = e2
' x , , yp = ep
' x posicionam-se
As componentes principais y1 = e1
nas direces dos eixos do elipside de densidade constante. Assim, qualquer ponto
no eixo de ordem i do elipside tem x coordenadas proporcionais a e'i x = [ e1i, e2i,
, epi ] e, necessariamente, coordenadas das componentes principais da forma [ 0,
, 0, yi, 0, , 0 ].
A Figura 7.3 uma elipse de densidade constante e as componentes principais para
um vector aleatrio normal bivariado com = 0 e = .75. Podemos ver que as
81
y
y
j =1
Var (Yi ) =
Var (Z ) =
i
j =1
= eki
Yi; Zk
(i, k = 1,2, , p )
82
da populao estandardizada
devida componente
principal de ordem k
Exemplo 7.2:
k = 1,2, , p
=
e a
4 100
1 .4
1
2 = .84
e, para ,
1 = 1 + = 1.4
2 = 1 - = .6
X 2 2
10
X 1 1
-.707
1
X 2 2
10
83
1
1
+ 2
100.16
= .992 da varincia total da populao.
101
Y1, Z1
= e21
= .707 1.4 = .837 e
Y1, Z2
1.4
= .7 da varincia total da
2
populao estandardizada.
Exemplo 7.3:
retorno das aces de cinco empresas (Allied Chemical, DuPont, Union Carbide,
Exxon e Texaco). Aps 100 semanas consecutivas, obteve-se
_
x ' = [ .0054; .0048; .0057; .0063; .0037 ]
84
2 = .809
3 = .540
4 = .452
5 = .343
2.857 + .809
100% =
100% = 73% tm
5
85
X
L
F
=
+
( p 1)
( p m) (m 1)
( p 1)
ou seja,
X1 - 1 = l11 F1 + l12 F2 + + l1m Fm + 1
86
E(F) =
( m m)
0
;
(m 1)
Cov(F) = E[FF'] =
0
;
( p 1)
1
0
Cov() = E['] =
=
.
( p p)
0
0
2
.
.
0 p
E() =
0
( p m)
87
ii = l i1 2 + l i1 2 + + l i1 2 + i
Exemplo 7.4:
=
2 5 38 47
12 23 47 68
=
2 5 38 47
12 23 47 68
4
7
1
2 4 7 1 1
+
6 1 2 6 8
2
0
0 0 0
4 0 0
0 1 0
0 0 3
pode ser verificada pela lgebra matricial. Deste modo, tem a estrutura produzida
por um modelo factorial ortogonal com m=2.
l 11
l
Sendo L = 21
l 31
l 41
l 12
l 22
=
l 32
l 42
4
7
1
1
0
2
e =
0
6
8
0
0
0
0
2
=
0 3
0
0 0 4
0
2
0
0 0 0
4 0 0
0 1 0
0 0 3
a comunalidade de X1
2
h1 =
l 11
l 12
2
2
= 4 + 1 = 17
88
89
~
=
~1
~2
0
.
.
0
~ p
0
0
.
com
~ i = sii
~l 2ij
j=1
90
Exemplo 7.5:
semanais das taxas de retorno das aces de p=5 empresas qumicas e onde se
encontraram as primeiras duas componentes principais obtidas a partir de R, fcil
determinar as solues das componentes principais para o modelo ortogonal com
m=1 e m=2. Assim, para encontrar os pesos factoriais estimados basta multiplicar
os coeficientes das componentes principais amostrais (vectores prprios de R) pela
razes quadradas dos correspondentes valores prprios.
A seguir, so apresentados os pesos factoriais estimados F, as comunalidades, as
varincias especficas e a proporo da varincia total (estandardizada) amostral
explicada por cada factor, para as solues com m=1 e com m=2.
Soluo 1 factor
Pesos factoriais
estimados
Varivel
F1
Varincias
especficas
~
~
i = 1 hi2
Soluo 2 factores
Pesos factoriais
estimados
F1
F2
Varincias
especficas
~
~
i = 1 hi 2
1. Allied Chemical
.783
.39
.783
-.217
.34
2. DuPont
.773
.40
.773
-.458
.19
3. Union Carbide
.794
.37
.794
-.234
.31
4. Exxon
.713
.49
.713
.472
.27
5. Texaco
.712
.49
.712
.524
.22
.571
.571
.733
91
~L
~'-
~ =
R-L
.127
0
.
122
.
055
.012
.164 .122
0 .019 .017
.055 .019
0 .232
.069
.017
012 .017 .232
0
92
Exemplo 7.6:
R=
1.0
Franc
Hist
.439
1.0
.410
.351
1.0
Aritm
.288
.354
.164
1.0
lgeb
Geomet
.248
.329
.181
.470
.464
1.0
.329
.320
.190
.595
1.0
1.
2.
3.
4.
5.
6.
Portugus
Francs
Histria
Aritmtica
lgebra
Geometria
F1
F2
.553
.568
.392
.740
.724
.595
.429
.288
.450
-.273
-.211
-.132
Comunalidades
hi2
.490
.406
.356
.623
.569
.372
~ ~
93
0.5
F2
Histria
0.4
Portugus
0.3
Ingls
0.2
0.1
0
-0.1
0.2
0.4
0.6
0.8
F1
Geometria
-0.2
lgebra
Aritmtica
-0.3
0.5
*
F
2
F
2
Histria Portugus
0.4
0.3
Ingls
0.2
0.1
0
-0.1
0.2
0.4
0.6
0.8
F
1
Geometria
-0.2
lgebra
Aritmtica
-0.3
*
F
1
Figura 7.5 Rotao factorial
94
Varivel
Comunalidades
2 = h2
h*
i
i
1. Portugus
.369
.594
.490
2. Francs
.433
.467
.406
3. Histria
.211
.558
.356
4. Aritmtica
.789
.001
.623
5. lgebra
.752
.054
.569
6. Geometria
.604
.083
.372
o
Ora, esta rotao pode ser conseguida analiticamente, por exemplo atravs do
*
~
l ij =
*
l ij
*
hi
p 4
1 m
*
V = p ~
l ij j=1
i=1
p ~*22
l ij
i=1
p
95
For fim,
4
3
2
1
0
0
10
12
Factor
Figura 7.6 Exemplo de um teste de base de montanha
Segundo este grfico o investigador concluiria que no deveriam ser extrados mais
de cinco factores.
96
97
8
Anlise de agrupamentos (clusters)
8.1 Introduo
Uma outra tcnica exploratria de dados aquela que pesquisa a existncia
de grupos naturais de indivduos ou de variveis. A aplicao desta tcnica no
pressupe qualquer caracterstica da estrutura do agrupamento; apenas se baseia em
medidas de semelhana ou de distncia entre objectos e na escolha de critrios de
agregao.
De uma maneira geral, esta anlise passa pelas seguintes fases:
1. Seleco da amostra de indivduos a agrupar;
2. Definio de variveis para permitir o agrupamento dos indivduos;
3. Definio de uma medida de semelhana ou de distncia;
4. Escolha de um critrio de agregao ou desagregao
5. Validao dos resultados encontrados.
98
d ij =
.( x
k =1
ik
x jk ) 2
d ij2 = .( xik x jk ) 2
k =1
d ij =
k =1
xik x jk
99
p
d ij = xik x jk
k =1
m 1m
d ij = (xi x j )
'
(x
xj )
X1
1
2
3
4
5
1,06
1,10
1,34
1,43
1,16
X2
9,2
9,2
13,0
15,4
11,7
X3
151
245
168
113
104
Distncia Euclideana
1
2
3
4
5
94,0
17,4
38,5
47,1
1
2
3
4
5
100
77,1
132,1
141,0
8836,0
303,5 5943,5
1482,6 17462,5
2215,3 19887,3
1
2
3
4
94,0
21,1
44,6
81,0
138,5
55,0
64,0
3030,8
4097,7
57,5
9,7
94,8
49,6
36,6
21,4
40,0
21,2
2
3
4
5
143,6
34,0
35,5
33,8
65,5
19,0
40,0
13,0
18,8
Totais
Totais
a+b
c+d
a+c
b+d
101
a+d
a+b+c+d
2(a + d )
2(a + d ) + b + c
a+d
a + d + 2(b + c)
1
2
3
2a
2a + b + c
Peso
duplo
presenas
ausncias
simultneas;
a
a + 2(b + c)
a
b+c
Altura (cm)
173
Peso (Kg)
64
Olhos
Verdes
Cabelo
Louros
Canhoto
No
Sexo
Fem
185
84
Castanhos
Castanhos
No
Masc
170
75
Azuis
Louros
No
Masc
163
54
Castanhos
Castanhos
No
Fem
193
95
Castanhos
Castanhos
Sim
Masc
Definamos as seis variveis binrias X1, X2, X3, X4, X5, e X6 do seguinte modo:
1 altura 183 cm
X1 =
0 altura < 183 cm
1 cabelo louro
X4 =
0 cabelo no louro
102
1
X2 =
0
peso 68 Kg
peso < 68 Kg
1 no canhoto
X5 =
0 canhoto
Indivduo
X1
X2
X3
X4
X5
X6
Totais
Totais
103
a+d
1+ 0 1
=
= e,
a+b+c+d
6
6
1
1
2
3
4
5
1
1
6
4
6
4
6
0
1
3
3
5
1
6
6
6
2
2
1
6
6
1
6
s ij =
1
1 + dij
104
Dados dois grupos (i,j) e (k), a distancia entre eles igual menor distncia
entre os elementos dos dois grupos, isto ,
d (i , j ) k = min{d ik ; d jk }
Com este critrio, cada indivduo ter mais tendncia para se agrupar a um grupo j
definido do que para formar o ncleo de um novo grupo. Isto constitui uma
desvantagem, principal responsvel pela fraca utilizao deste critrio.
Dados dois grupos (i,j) e (k), a distancia entre eles igual maior distncia
entre os elementos dos dois grupos, isto ,
d (i , j ) k = max{d ik ; d jk }
Com este critrio, cada grupo passa a ser definido como o conjunto dos indivduos em
que cada um mais semelhante a todos os outros do grupo do que a qualquer outro
elemento. Os grupos assim criados so mais compactos
105
Dados dois grupos (i,j) e (k), a distancia entre eles a mdia entre todos os
pares de indivduos constitudos por todos os elementos dos dois grupos.
Constitui-se como uma estratgia intermdia das restantes.
106
107
Referncias bibliogrficas
Aldenferfer MS, Blashfield RK. Cluster analysis. Sage university paper series on
quantitative applications in the social sciences, 07-044. Beverly Hills: Sage, 1984.
Alt M. Exploring hyperspace . A non-mathematical explanation of multivariate analysis.
London: McGraw-Hill, 1990.
Bryman A, Cramer D. Anlise de dados em cincias sociais: introduo s tcnicas
utilizando o SPSS. Oeiras: Celta Editora, 1992.
Dunteman GH. Principal componentes analysis. Sage university paper series on
quantitative applications in the social sciences, 07-069. Beverly Hills: Sage, 1989.
Hair JF, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. Englewood
Clifs: Prentice-Hall, 1995.
Jobson JD. Applied multivariate analysis. Volume II: Categorical and multivariate
methods. New York: Springer-Verlag, 1992.
Johnson RA, Wichern D. applied multivariate analysis. Englewood Cliffs, NJ:
Prentice-Hall, 1988.
Kim J-O, Mueller C. Introduction to factor analysis. Sage university paper series on
quantitative applications in the social sciences, 07-013. Beverly Hills: Sage, 1978.
108
Kim J-O, Mueller C. Factor analysis. Statistical methods and practical issues. Sage
university paper series on quantitative applications in the social sciences, 07-014.
Beverly Hills: Sage, 1978.
109