Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística
Multivariada
Aplicada
2000
ii
Sumário
iii
7 Análise de componentes principais e análise factorial --------------------- 75
7.1 Introdução ---------------------------------------------------------------------- 75
7.2 Componentes principais ---------------------------------------------------- 78
7.3 Análise factorial --------------------------------------------------------------- 86
iv
1
Introdução à análise multivariada
⎡ x11 x12 … x1 j … x1 p ⎤
⎢x x 22 … x2 j … x 2 p ⎥⎥
⎢ 21
⎢ . . … . … . ⎥
X = ⎢ ⎥
⎢ x i1 xi 2 … x ij … x ip ⎥
⎢ . . … . … . ⎥
⎢ ⎥
⎢⎣ x n1 x n2 … x nj … x np ⎥⎦
Exemplo 1.1: Pretende-se estudar as vendas dos livros de uma livraria e, para isso,
Variável Nome
1 Total 42 52 48 58
2 No. livros 4 5 4 3
Representando numa forma matricial obtemos a matriz X com duas linhas
'
⎡42 52 48 58⎤
X = ⎢
⎣4 5 4 3 ⎥⎦
o
feitas na variável j (coluna j da matriz X), podemos denominar por x j a média amostral
da variável j
∑x
1
xj = ij j = 1,2,…,p
n i =1
dada por
2 n
∑ (x
1
si = sii = ij − xj ) 2 i = 1,2,…,p
n i =1
representada pela média dos produtos dos desvios em relação às respectivas médias
∑ (x
1
sik = ski = ij − xj ) ( x ik − x k ) i = 1,2,…,p ; k = 1,2,…,p
n i =1
2
Se valores altos de uma variável foram observados conjuntamente com valores
será positiva. Se valores altos de uma variável ocorrerem com valores pequenos de
outra variável, sjk será negativa. Caso não exista associação entre os valores de
uma medida de associação linear entre duas variáveis, independente das unidades de
s jk ∑ (x
i =1
ij − x j ) ( x ik − x k )
rjk = rkj = =
s jj s kk n n
∑
i =1
( x ij − x i ) 2 ∑ (x
i =1
ik − xk )2
Esta última medida constitui, como facilmente se pode observar, uma versão
coeficiente de correlação amostral rjk pode ser visto como a covariância amostral.
por
3
⎡ x1 ⎤
⎢x ⎥
x= ⎢ ⎥
2
⎢…⎥
⎢ ⎥
⎣x p ⎦
⎡ s11 s12 … s1 p ⎤
⎢s s 22 … s 2 p ⎥⎥
Sn = ⎢
21
⎢ . . … . ⎥
⎢ ⎥
⎢⎣ s p1 s p2 … s pp ⎥⎦
⎡1 r12 … r1 p ⎤
⎢r 1 … r2 p ⎥⎥
R = ⎢
21
⎢ . . … . ⎥
⎢ ⎥
⎣⎢r p1 rp2 … 1 ⎦⎥
'
⎡42 52 48 58⎤
X’ = ⎢ ⎥
⎣4 5 4 3⎦
_
podemos determinar o vector x e as matrizes Sn e R. Assim,
_ 4
∑x
1 1
x1 = i1 = (42 + 52 + 48 + 58) = 50
4 i =1
4
4
_ 4
∑x
1 1
x2 = i2 = (4 + 5 + 4 + 3) = 4
4 i =1
4
_ ⎡ x1 ⎤ ⎡50⎤
e então, x = ⎢ ⎥ = ⎢ ⎥
x 4 ⎣ 2⎦ ⎣ ⎦
Do mesmo modo,
[ ]
4
∑ (x
1 1
s11 = i1 − x1 ) 2 = (42 − 50) 2 + (52 − 50) 2 + (48 − 50) 2 + (58 − 50) 2 = 34
4 i =1
4
[ ]
4
∑ (x
1 1
s22 = i2 − x2 )2 = (4 − 4) 2 + (5 − 4) 2 + (4 − 4) 2 + (3 − 4) 2 = .5
4 i =1
4
∑ (x
1
s12 = i1 − x1 ) ( xi 2 − x 2 ) =
4 i =1
=
1
[(42 − 50)(4 − 4) + (52 − 50)(5 − 4) + (48 − 50)(4 − 4) + (58 − 50)(3 − 4)] = -1.5
4
⎡ 34 − 1.5⎤
Sn = ⎢
⎣− 1.5 .5 ⎥⎦
s12 −1.5
r12 = r21 = = = -.36
s11 s 22 34 .5
⎡ 1 − .36⎤
R = ⎢
⎣− .36 1 ⎥⎦
5
1.3 Distâncias
x d(O,P) = x12 + x 22
2
dizer que todos os pontos (x1,x2, …,xp) que estejam a uma mesma distância
2
d (O,P) = x 12 + x 22 + … + x 2p
d(P,Q) = ( x1 − y1 ) 2 + ( x2 − y 2 ) 2 + … + ( x p − y p ) 2
6
Ora também aqui se faz sentir o eventual problema das várias dimensões
Por isso, uma distância baseada numa linha recta, ou euclideana, não é a mais
este novo tipo de distância vai ter em conta as diferenças de variação, denomina-la-
x2
dividindo cada uma delas pelo respectivo desvio padrão amostral. Assim, uma
2 2
⎛ x ⎞ ⎛ x ⎞ x12 x 22
d(O,P) = ⎜ 1 ⎟ +⎜ 2 ⎟ = +
⎜ s ⎟ ⎜ s ⎟ s11 s 22
⎝ 11 ⎠ ⎝ 22 ⎠
7
respectivamente, a x 12 e x 22 . Também aqui todos os pontos de coordenadas (x1,x2) a
x12 x2
+ 2 = c2
s11 s 22
Esta última equação não é mais do que a equação de uma elipse centrada na
coordenadas.
x
c s 2
22 P
x
1
0
c s
11
_
Exemplo 1.2: Suponhamos que temos duas variáveis independentes com médias x1
_
= x2 = 0 e com variâncias s11 = 4 e s22 = 1.
caso por
2 x
1
2 x2 x2
d (O,P) = 1 + 2
Figura 1.4 – Elipse 4 1
8
Todos os pontos (x1,x2) que estão a uma distância constante 1 da origem
satisfazem a equação
x12 x2
+ 2 = 1
4 1
respectivamente.
( x1 − y1 ) 2 ( x 2 − y 2 ) 2 (x p − y p ) 2
d(P,Q) = + +…+
s11 s 22 s pp
com s11, s22, …, spp as variâncias construídas a partir das n medições nas variáveis
Temos até agora analisado a situação em que os eixos da elipse dos dados
coincidem com os eixos do sistema de coordenadas. Ora, há situações onde isto não
9
x
2 x~ Da figura ao lado vemos que basta
1
x~ rodarmos o sistema original de eixos de um
2
θ ângulo θ para termos uma situação
x semelhante às anteriores.
1
A distância entre o ponto P=(x~1 ,x~2 ) e a origem O=(0,0) é então definida como
~
x12 ~x 22
d(O,P) = ~ + = a11 x12 + 2a12 x1 x 2 + a 22 x 22
s11 ~s 22
Nesta fase não é vital sabermos como determinar os valores destes a´s. O que
correlação r12 não nula. Mais ainda, quando olhamos para a equação correspondente
1 1
a11 = a22 = a12 = 0
s11 s 22
10
As coordenadas de todos os pontos P=(x1,x2) que estejam a uma distância
11
12
2
Álgebra matricial e vectores aleatórios
Vejamos alguns conceitos que nos irão ser úteis mais tarde.
Lx = x12 + x 22 + … + x n2
num plano com um ângulo θ entre eles, podemos considerar que θ = θ2 - θ1, sendo θ1
Figura 2.1).
x1 y1
cos (θ1) = cos (θ2) =
Lx Ly
13
x2 y2
sin (θ1) = sin (θ2) =
Lx Ly
e que cos (θ) = cos (θ2 - θ1) = cos (θ2) cos (θ1) + sin (θ2) sin (θ1)
y y
2
x x
2
θ θ1
θ2
y x Figura 2.1 – Diferença entre ângulos
1
obtemos
⎛ y ⎞⎛ x ⎞ ⎛ y ⎞⎛ x ⎞ x y + x2 y2
cos (θ) = cos (θ1 - θ2) = ⎜ 1 ⎟⎜⎜ 1 ⎟⎟ + ⎜ 2 ⎟⎜⎜ 2 ⎟= 1 1
⎜ L y ⎟⎝ L x ⎠ ⎜ L y ⎟⎝ L x ⎟⎠ Lx Ly
⎝ ⎠ ⎝ ⎠
Como o produto interno de dois vectores é dado por x´y = x1y1 + x2y2
x´y x´y
Lx = x´x e cos (θ) = =
Lx Ly x´x y´y
14
Como x´x = 12 + 32 + 22 = 14
Ly = y´y = 6 = 2.45
x´y -1
cos (θ) = = (3.74) (2.45) = -.109 , donde, θ = 96.3˚
Lx Ly
c1 x1 + c2 x2 + … + ck xk = 0
0, -1 ] e x3´= [ 1, -2, 1 ] .
⎧⎪ c1 + c2 + c3 = 0
⎨ 2c1 - 2c3 = 0
⎩⎪ c1 - c2 + c3 = 0
15
Neste caso, dizemos que os vectores x1, x2 e x3 são linearmente independentes.
o
x
θ
Figura 2.2 – Projecção de x em y
y
x´y x´y 1
y = y
y´y Ly Ly
| x´y | x´y
= Lx = Lx | cos(θ) |
Ly Lx Ly
vector próprio. Uma matriz quadrada A tem um valor próprio λ com o correspondente
vector próprio x ≠ 0 se
A x = λ x
⎡1 − 5⎤
Exemplo 2.3: Determinar os valores e vectores próprios da matriz A = ⎢
⎣− 5 1 ⎥⎦
1− λ − 5
|A-λI|=0 B = 0 B (1 - λ)2 - 25 = 0 B λ1=6 ou λ2=-4
− 5 1− λ
16
⎡1 − 5⎤ ⎡ e11 ⎤ ⎡ e11 ⎤
Para λ1=6, A e = λ1 e B ⎢ ⎢ ⎥ = 6 ⎢e ⎥
⎣− 5 1 ⎥⎦ ⎣e 21 ⎦ ⎣ 21 ⎦
⎧ 1
⎧ e11 − 5e 21 = 6e11 ⎪⎪e11 =
B ⎨ 2
⎨ −
⎩ − 5e11 + e 21 = 6e 21 ⎪e 21 =
1
⎪⎩ 2
⎡ 1 ⎤
⎢ ⎥ é um vector próprio normalizado correspondente ao valor próprio
e1 = ⎢ 2 ⎥
⎢ −1 ⎥
⎢⎣ 2 ⎥⎦ λ1=6.
⎡ 1 ⎤
⎢ ⎥
De modo idêntico se encontra e2 = ⎢ 2 ⎥ como sendo o vector próprio
⎢ 1 ⎥
⎢⎣ 2 ⎥⎦
correspondente a λ2 = -4.
destes conceitos são denominados formas quadráticas. Assim, neste capítulo iremos
positivas associadas.
17
’ ’ ’
A = λ1 e1 e1 + λ2 e2 e2 + … + λk ek ek
’
correspondentes vectores próprios normalizados, isto é, ei ei = 1 (i = 1, 2, …, k) e
’
ei ej = 0 (i ≠ j).
⎡3 1⎤
Exemplo 2.4: Sendo dada a matriz A = ⎢ ⎥ , obtêm-se os valores próprios λ1 = 4
⎣1 3⎦
⎡1⎤
= ⎢⎥
1 ⎣⎦
⎡ 1 ⎤ ⎡ 1 ⎤
⎢ ⎥ ⎢ ⎥
Encontra-se e1 = ⎢ 2 ⎥ . Do mesmo modo se obtinha e = ⎢ 2⎥.
2
⎢ 1 ⎥ ⎢ −1 ⎥
⎢⎣ 2 ⎥⎦ ⎢⎣ 2 ⎥⎦
’
Reparar que e1 ⊥ e 2 , isto é, e1 e2 = 0.
⎡ 1 ⎤ ⎡ 1 ⎤
⎢ ⎥ ⎢ ⎥
⎡3 1⎤ 2 ⎥⎡ 1 1 ⎤ 2 ⎡ 1 −1 ⎤
⎢1 3⎥ = 4 ⎢ 1 ⎥ ⎢⎣ 2 ⎥ + 2 ⎢ −1 ⎥⎢ ⎥=
⎣ ⎦ ⎢ 2⎦ ⎢ ⎥⎣ 2 2⎦
⎢⎣ 2 ⎥⎦ ⎢⎣ 2 ⎥⎦
18
⎡1 1⎤ ⎡1 − 1⎤
⎢ 2⎥ + 2 ⎢ 2 2 ⎥ = ⎡2 2⎤ + ⎡ 1 − 1⎤ = ⎡3 1⎤
= 4 ⎢2
1 1⎥ ⎢ −1 1 ⎥ ⎢ 2 2⎥
⎣ ⎦
⎢− 1 1 ⎥
⎣ ⎦
⎢1 3⎥
⎣ ⎦
⎢ ⎥ ⎢ ⎥
⎣2 2⎦ ⎣2 2⎦
o
Sempre que a matriz A (k×k) simétrica seja tal que x´A x seja sempre maior
positiva se x´A x > 0 para todo o vector x ≠ 0. À componente x´A x damos o nome
de forma quadrática.
Para k = 2,
⎡ a11 a12 ⎤ ⎡ x1 ⎤ ⎡a x + a x ⎤
x´A x = [x1 x 2 ] ⎢ = [x1 x 2 ] ⎢ 11 1 12 2 ⎥
⎣a12 a 22 ⎥⎦ ⎢⎣ x 2 ⎥⎦ ⎣a12 x1 + a 22 x 2 ⎦
= d2(0,x) = c2
’ ’
Pela decomposição espectral; A = λ1 e1 e1 + λ2 e2 e2
19
e x = c λ −21 / 2 e2 nos dá a distância na direcção e2
Deste modo os pontos situados a uma distância c fazem parte de uma elipse
cujos eixos são dados pelos vectores próprios de A com comprimentos proporcionais
proporcionalidade é c.
c2 = λ1 (x´e1)2 +… + λp (x´ep)2
cujos eixos são dados pelos vectores próprios de A . A meia distância na direcção de
c
ei é igual a , i = 1, 2, …, p, onde λ1, λ2, …, λp, são os valores próprios de A.
λi
20
2.3 Médias e covariâncias de combinações lineares
mesmo modo, uma matriz aleatória é uma matriz cujos elementos são variáveis
aleatórias.
[
onde µ = E(X) e ∑ = Cov(X) = E ( X − μ ) ( X − μ ) ' ]
'
⎡ 2 3 1⎤
Exemplo 2.5: Consideremos a matriz X’ = ⎢ ⎥
⎣ − 2 5 0⎦
⎡ 2⎤
A média desta matriz é µ = ⎢ ⎥
⎣1 ⎦
⎡2 / 3 2/3 ⎤
e a matriz das covariâncias é ∑ = ⎢ ⎥
⎣2 / 3 26 / 3⎦
⎡2 3 1⎤
Assim, a combinação linear Y = 3 X1 + 2 X2 , isto é, [3 2] ⎢ ⎥,
⎣− 2 5 0⎦
⎡2⎤
terá a média E(Y´X) = [3 2] ⎢ ⎥ = 8
⎣1 ⎦
⎡2 / 3 2 / 3 ⎤ ⎡ 3⎤
e a variância Var(Y´X) = [3 2] ⎢ ⎥ ⎢ ⎥ = 48.67
⎣2 / 3 26 / 3⎦ ⎣2⎦
21
Além dos resultados anteriores podemos também afirmar que, sendo dado
duas combinações lineares a´X e b´X, a covariância entre elas é dada por
Cov(a´X,b´X) = a' ∑ b
22
3
Geometria amostral e amostragem aleatória
_
descritivas amostrais x , Sn e R. Será também introduzido o conceito de variância
determinante de Sn.
23
_ '
⎡4 − 1 3⎤
Exemplo 3.1: Determinar o vector média x da matriz X’ = ⎢1 3 5⎥ ,
⎣ ⎦
_
apresente os n = 3 pontos num espaço a p = 2 dimensões e localize x .
⎡ 4 −1+ 3⎤
_ ⎢ 3 ⎥ ⎡ 2⎤
x = ⎢1 + 3 + 5 ⎥ = ⎢ ⎥
⎢ ⎥ ⎣ 3⎦
⎣ 3 ⎦
5 X3
4
X2 3 x
2
1
X1
0
-2 -1 0 1 2 3 4 5 6
-1
-2
⎡ x11 x12 … x1 p ⎤
⎢x x 22 … x 2 p ⎥⎥
⎢ 21
⎢ . . . ⎥
X = ⎢ ⎥ = [y1 y2 … yp]
⎢ . . . ⎥
⎢ . . . ⎥
⎢ ⎥
⎢⎣ x n1 x n2 … x np ⎥⎦
24
Nesta nova interpretação, as coordenadas do i-ésimo ponto yi = [x1i , x2i , … ,
y´1 = [ 4 -1 3 ] y´2 = [ 1 3 5 ]
4
y
2
3
1
y 2
1 1 2 3 4 5 6
1
2
3
4
5
6
determinação da média amostral. Para isso começamos por definir o vector n ×1
1´n = 1´ = [ 1 1 … 1 ]
que, por definição, forma ângulos iguais com cada uma das n coordenadas.
25
1
Deste modo, 1 tem comprimento unitário e direcção do ângulo igualitário.
n
⎛ 1 ⎞ 1 x + x + … + x in _
y´i ⎜⎜ 1 ⎟⎟ 1 = i1 i 2 1 = xi 1
⎝ n ⎠ n n
_
isto é, a média amostral xi = y´i 1/ n corresponde ao múltiplo de 1 necessário para
Além disso, para cada yj podemos determinar o vector desvio dj , desvio entre yj e
x i 1.
⎡ x1i − x i ⎤
⎢ ⎥
y ⎢ x 2i − x i ⎥
2 dj = yj - xj 1 = ⎢ … ⎥
⎢ ⎥
⎣⎢ x ni − x i ⎦⎥
⎡ 2⎤ ⎡3⎤
_ ⎢ 2⎥ _ ⎢3⎥
x1 1 = ⎢ ⎥ x2 1 = ⎢ ⎥
⎢⎣2⎥⎦ ⎢⎣3⎥⎦
Consequentemente,
⎡4⎤ ⎡ 2⎤ ⎡2⎤
_ ⎢− 1⎥ - ⎢ 2⎥ = ⎢− 3⎥
d1 = y1 - x1 1 = ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ 3 ⎥⎦ ⎢⎣2⎥⎦ ⎢⎣ 1 ⎥⎦
⎡1⎤ ⎡3⎤ ⎡ − 2⎤
_
d2 = y2 - x2 1 = ⎢⎢3⎥⎥ - ⎢3⎥ =
⎢ ⎥
⎢0⎥
⎢ ⎥
⎢⎣5⎥⎦ ⎢⎣3⎥⎦ ⎢⎣ 2 ⎥⎦
26
Figura 3.4 – Vectores desvios
o
3
y
2
d2
x 1
2
d1 x 1
1
y 2
1
1
É fácil ver que
´ n
L 2d i = di di = ∑ (x
i =1
ij − x j )2
dos desvios.
Do mesmo modo,
´ n
di dk = ∑ (x
j =1
ij − x i ) ( x kj − x k ) = L d L d cos(θik)
i k
e então,
s ik
rik = = cos(θik)
s ii s kk
27
correlação amostral é quase nula. Se os dois vectores estiverem orientados
⎡2⎤
´
d1 d1 = [2 − 3 1] ⎢⎢− 3⎥⎥ = 14 = 3 s11
⎢⎣ 1 ⎥⎦
⎡− 2⎤
´
d2 d2 = [− 2 0 2] ⎢⎢ 0 ⎥⎥ = 8 = 3 s22
⎢⎣ 2 ⎥⎦
⎡− 2⎤
´
d1 d2 = [2 − 3 1] ⎢⎢ 0 ⎥⎥ = -2 = 3 s12
⎢⎣ 2 ⎥⎦
⎡ 14 − 2⎤
⎢ 3 ⎥
Sn = ⎢ 3
−2 8 ⎥
⎢ ⎥
⎣ 3 3 ⎦
−2
s12 3
r12 = = = -.189
s11 s 22 14 8
3 3
⎡ 1 − .189⎤
R = ⎢
⎣− .189 1 ⎥⎦
_
Para estudarmos a variabilidade amostral de x e Sn e para podermos inferir
28
Dada a matriz
f(xn).
_
variâncias da amostra aleatória x1 , x2 , … , xn , então x é um estimador não
_ n
enviesado de µ [E(x ) = µ] e S = S é um estimador não enviesado de ∑, isto é,
n −1 n
n
E( S ) = ∑.
n −1 n
∑ (x
n 1
S= Sn = j − x ) ( x j − x) '
n −1 n −1 j =1
29
⎡ x11 x12 … x1 p ⎤
⎢x x 22 … x 2 p ⎥⎥
⎢ 21 ⎧⎪ n ⎫⎪
∑
⎢ . . ⎥ 1
S = ⎢
.
⎥= ⎨ s jk = ( x ij − x j ) ( x ik − x k ) ⎬
⎢ . . . ⎥ ⎪⎩ n −1 i =1 ⎪⎭
⎢ . . . ⎥
⎢ ⎥
⎣⎢ x n1 x n2 … x np ⎦⎥
⎡14808 14213⎤
Exemplo 3.5: Consideremos a matriz S = ⎢ ⎥
⎣14213 15538⎦
_ _
então a área gerada pelos dois vectores desvio d1 = y1 - x1 1 e d2 = y2 - x2 1
d1
Área = [L d1
]
sin(θ ) L d
2
Ld1sin θ
θ
= L d1 L d 2 1 − cos 2 θ
d2
= (n - 1) s11 s 22 (1 − r122 )
30
Por outro lado,
⎡s s ⎤ ⎡ s s11 s 22 r12 ⎤
| S | = ⎢ 11 12 ⎥ = ⎢ 11
⎥
⎣ 12
s s 22 ⎦ ⎢⎣ 11 s 22 r12
s s 22 ⎦⎥
área 2
|S| = = (n - 1)-2 área2
(n − 1) 2
3 3
d1
d1 d2 d3
d3
d2 2 2
1 1
31
A variância generalizada tem também interpretação no gráfico de pontos num
_ _ _ _
p-espaço. Consideremos, para isso, a média amostral x ´= [ x1 , x2 , … , xp ].
_
de x satisfazem
_ _
(x - x )´ S-1 (x - x ) = c2
_
que define uma elipse (p = 2) centrada em x .
{ }
Volume de x : (x − x)´S −1 (x − x) = c 2 = kp | S |1/2 cp
ou
limitada como indicador descritivo de uma matriz amostral de variâncias. Para ilustrar
⎡5 4⎤ ⎡5 − 4⎤ ⎡3 0⎤
S= ⎢ ⎥ S= ⎢ S= ⎢
⎣4 5⎦ ⎣− 4 5 ⎥⎦ ⎥
⎣0 3 ⎦
32
todas elas com a mesma variância generalizada | S | = 9 mas com distintos
Ora, prova-se que o determinante de uma qualquer matriz A p×p pode ser
p
escrito como o produto dos seus valores próprios λ1, λ1, …, λp, isto é, | A | = ∏λ
i =1
i .
vector desvio estiver no hiperplano formado por todas as combinações lineares dos
dependentes.
⎡1 4 4⎤
Exemplo 3.7: Dada a matriz X = ⎢⎢2 1 0⎥⎥ ,
⎢⎣5 6 4⎥⎦
⎡−2 1 1⎤
_ _
a matriz das médias é x ´= [ 3 , 1 , 5 ] e então X - x 1´ = ⎢⎢ 1 0 − 1⎥⎥ .
⎢⎣ 0 1 − 1⎥⎦
⎡ − 2⎤ ⎡1⎤ ⎡0⎤
Os desvios residuais são d1 = ⎢ 1 ⎥, d = ⎢0⎥e d = ⎢1⎥.
⎢ ⎥ 2 ⎢ ⎥ 3 ⎢ ⎥
⎢⎣ 1 ⎥⎦ ⎢⎣−1⎥⎦ ⎢⎣−1⎥⎦
33
|S| = 0 significa, em termos matemáticos, que as medições em algumas
variáveis podem ser retiradas do estudo. Por outro lado |S| também será nulo se o
Como |S| e |R| estão relacionadas por |S| = (s11 s22 … spp) |R|, podemos
escrever
⎡4 3 1⎤
Exemplo 3.8: Sendo dada a matriz S = ⎢⎢3 9 2⎥⎥ , s11 = 4; s22 = 9 e s33 =
⎢⎣1 2 1⎥⎦
1.
⎡ 1 1⎤
⎢1 2 2⎥
⎢1 2⎥ 7
Além disso, R = ⎢ 1 ⎥ . Como | S | = 14 e | R | = , confirma-se que
⎢2 3⎥ 18
⎢1 2 ⎥
⎢⎣ 2 1⎥
3 ⎦
⎛7⎞
14 = | S | = s11 s22 s33 | R | = (4) (9) (1) ⎜ ⎟ = 14
⎝ 18 ⎠
total cujo valor corresponde ao valor do traço da matriz S, isto é, à soma dos
34
Variância amostral total = s11 + s22 + … + spp
⎡14808 14213⎤
Exemplo 3.9: A variância amostral total da matriz S = ⎢ ⎥é
⎣14213 15538⎦
⎡ 3 ⎤
⎢ 3 − 0⎥
2
⎢ 3 1⎥
A variância amostral total da matriz S = ⎢− 1 ⎥
⎢ 2 2⎥
⎢ 1 ⎥
⎢⎣ 0 2
1⎥
⎦
_
quadrados dos comprimentos dos p vectores residuais d1 = y1 - x1 1, …, dp = yp -
_
xp 1 dividida por n - 1.
35
36
4
Distribuição normal multivariada
f(x) =
1
e - [( x − µ) / σ ]2 / 2 -∞ < x < ∞
2πσ 2
⎛ x−µ⎞2
O termo ⎜ ⎟ = (x - µ) (σ2)-1 (x - µ) no expoente da função densidade não
⎝ σ ⎠
(x - µ)´ ∑ -1 (x - µ)
matriz da variâncias.
37
A função densidade normal p-dimensional Np(µ, ∑) para o vector aleatório x
-1
e - (1/2) (x - µ)´ ∑ (x - µ)
1
f(x) =
(2π ) p/2
|Σ| 1/ 2
⎡µ ⎤ ⎡s s ⎤
Neste espaço µ = ⎢ 1 ⎥ e ∑ = ⎢ 11 12 ⎥
⎣µ2 ⎦ ⎣ s12 s 22 ⎦
⎡σ 22 σ 12 ⎤
∑-1 =
1
⎢ ⎥
σ 11σ 22 − σ 12 ⎣⎢σ 12 σ 11 ⎦⎥
2
⎡ σ 22 − ρ 12 σ 11 σ 22 ⎤ ⎡ x1 − μ1 ⎤
= [x1 − μ1 x1 − μ1 ]
1
⎢ ⎥⎢ ⎥
σ 11σ 22 − σ 12 ⎢⎣− ρ 12 σ 11 σ 22 σ 11 ⎥⎦ ⎣ x 2 − μ 2 ⎦
2
⎡⎛ 2
⎞ ⎛ ⎞
2
⎛ ⎞⎛ ⎞⎤
=
1 ⎢⎜ x1 − μ1 ⎟ + ⎜ x 2 − μ 2 ⎟ − 2 ρ ⎜ x1 − μ1 ⎟ ⎜ x1 − μ1 ⎟ ⎥
1 − ρ 12
2 ⎢⎜ σ ⎟ ⎜ σ ⎟ 12
⎜ σ ⎟⎜ σ ⎟⎥
⎢⎣⎝ 11 ⎠ ⎝ 22 ⎠ ⎝ 11 ⎠ ⎝ 11 ⎠ ⎥
⎦
Deste modo,
38
1
f(x1,x2) =
2π σ 11σ 22 (1 − ρ 12
2
)
⎧ ⎡⎛ 2
⎞ ⎛ ⎞
2
⎛ ⎞⎛ ⎞ ⎤⎫
⎪ −1
× exp⎨ ⎢⎜ x1 − μ 1 ⎟ + ⎜ x 2 − μ 2 ⎟ − 2 ρ ⎜ x1 − μ1 ⎟ ⎜ x1 − μ1 ⎟ ⎥ ⎪
⎩
(
⎪ 2 1 − ρ 12
2
) ⎢⎜ σ
⎣⎢⎝ 11 ⎠
⎟ ⎜ σ
⎝ 22
⎟
⎠
12
⎜ σ
⎝
⎟⎜ σ
11 ⎠ ⎝
⎟ ⎥⎬
11 ⎠ ⎥ ⎪
⎦⎭
Olhando para esta última equação, podemos dizer que se ρ12 = 0 , a densidade
Do que atrás ficou dito, podemos concluir que a densidade normal multivariada
39
Exemplo 4.2: Consideremos o caso em que σ11 = σ22.
σ 11 −λ σ 12
Σ − λΙ =0 ⇒ =0
σ 12 σ 11 −λ
f(x , x )
1 2
x
2
(a)
x
1
f(x , x )
1 2
x2
(b)
x
1
40
Então, os valores próprios são λ1 = σ11 + σ12 e λ2 = σ11 - σ12. O vector próprio
⎡ 1 ⎤
⎡ e11 ⎤ ⎢ 2 ⎥
⇒ e1 = ⎢e ⎥ = ⎢ 1 ⎥
⎣ 21 ⎦ ⎢ ⎥
⎢⎣ 2 ⎥⎦
⎡ 1 ⎤
⎡ e12 ⎤ ⎢ 2 ⎥
De modo idêntico e2 = ⎢ ⎥ = ⎢ ⎥
⎣e 22 ⎦ ⎢ − 1 ⎥
⎢⎣ 2 ⎥⎦
x
2
c σ11 + σ
12
c σ11- σ
12
μ2
μ1 x
1
Figura 4.2 - Contorno de densidade constante para uma distribuição normal bivariada
vector próprio e1' = ⎡⎢ 1 , 1 ⎤⎥ ] situa-se na recta a 45º que passa por µ´ = [µ1, µ2].
⎣ 2 2⎦
Como os eixos das elipses de densidade constante são dados por ± c λ1e1 e
41
±c λ 2 e 2 , com cada vector próprio de comprimento unitário, o maior eixo está
-1
e - (1/2) (x - µ)´ ∑ (x - µ)
1
f(x) =
(2π ) p / 2 | Σ |1 / 2
tem um valor máximo quando a distância quadrada (x - µ)´ ∑ -1 (x - µ) for nula, isto
dado o vector aleatório x com uma distribuição normal multivariada, x ~ Np(µ, ∑),
a´ X = a1 X1 + a2 X2 + … + ap Xp ~ N(a´µ, a´∑a)
⎡ a11 X 1 + ... + a1 p Xp ⎤
⎢a X + ... + a 2 p Xp ⎥⎥
A X
=⎢
21 1
~ Nq(Aµ, A∑A´)
(q × p) ( p × 1) ⎢ ... ⎥
⎢ ⎥
⎣⎢ a q1 X 1 + ... + a qp Xp ⎦⎥
42
X d
+ ~ Np(µ, d∑)
( p × 1) ( p × 1)
multivariada. Se dividirmos X, µ e ∑
⎡ X1 ⎤ ⎡ μ1 ⎤
X ⎢ (q × 1) ⎥ μ ⎢ (q × 1) ⎥
=⎢ ⎥ = ⎢ ⎥
( p × 1) ⎢ X2 ⎥ ( p × 1) ⎢ μ2 ⎥
⎢ (( p − q ) × 1) ⎥ ⎢ ⎥
⎣ ⎦ ⎣ (( p − q ) × 1) ⎦
⎡ Σ11 | Σ12 ⎤
⎢ ⎥
Σ ⎢ (q × q) | (q × ( p − q)) ⎥
=⎢ ⎥
( p × p) ⎢ Σ 21 | Σ 22
⎥
⎢ (( p − q) × q) | (( p − q ) × ( p − q)) ⎥
⎣ ⎦
⎡ X1 ⎤ ⎡ µ1 ⎤ ⎡ Σ 11 | Σ 12 ⎤
Se X = ⎢ —— ⎥ ~ N (µ, ∑) com µ = ⎢ ——
p
⎥ , ∑ = ⎢_ _ _ ⎥⎥
⎢ X ⎥ ⎢ µ ⎥ ⎢
⎣ 2 ⎦ ⎣ 2 ⎦ ⎢⎣Σ 21 | Σ 22 ⎥
⎦
a média = µ1 + ∑12 Σ −221 (x2 - µ2) e covariância = ∑11 - ∑12 Σ −221 ∑21.
43
• Se |∑| > 0, então (x - µ)´ ∑ -1 (x - µ) ~ χ 2p , uma distribuição de qui-quadrado
{x : (x − µ )´Σ −1
}
(x − µ ) = χ 2p (α )
Sendo dado x1, x2, …, xn uma amostra aleatória de uma população normal
—
µ̂ = X
n −1
n
ˆ = 1
n∑
∑ (X j − X)( X j − X)´ = S
j =1
n
— ˆ é uma
Notar que o estimador X é um vector aleatório e que o estimador ∑
matriz aleatória.
44
n
∑ (X
1
com σ ˆ jj = ij − X j ) 2 como sendo o estimador de máxima verosimilhança de σjj
n i =1
= Var(Xj).
—
dados X está contida em X e S; qualquer que seja o tamanho n da amostra. Como
—
4.4 Distribuição amostral de X e S
—
No caso univariado (p = 1) sabemos que X segue uma distribuição normal
1 2
com média µ e variância n σ . O resultado para o caso multivariado (p ≥ 2) é
— 1
idêntico. X segue uma distribuição normal com média µ e matriz de covariância n
∑.
—
Ora, como ∑ é desconhecida, a distribuição de X não pode ser usada
—
informação suficiente acerca de ∑. À medida que o tamanho da amostra cresce, X e
população-pai. O único requisito que existe é que esta população-pai, qualquer que
Pela Lei dos Grandes Números e sempre que o tamanho da amostra seja
—
grande, existe uma grande probabilidade de que X se aproxime de µ e que S se
45
aproxime de ∑. Precisando um pouco mais (Teorema do Limite Central), sejam X1,
covariância finita ∑. Então, para amostras grandes (n deve ser grande relativamente a
—
p), n ( X - µ) aproximadamente segue uma distribuição Np(0, ∑).
— 1 —
Quando X ~ Np(µ, n ∑) ou seja, quando n ( X - µ) ~ Np(0; ∑), pode também
— —
demonstrar-se que n ( X - µ)´ ∑ -1 ( X - µ) ~ χ 2p .
46
5
Inferência acerca do vector média
população normal.
5.1 T2 de Hotelling
( X − µo ) 2 — —
t2 = 2
= n ( X - µo) (s2)-1 ( X - µo)
s /n
é a correspondente multivariada
— -1 — — —
T2 = ( X - µo)´ ⎛⎜ S ⎞⎟ ( X - µo) = n ( X - µo)´ S-1 ( X - µo)
1
n ⎝ ⎠
∑X
X 1
onde = j
( p × 1) n j =1
⎡ μ10 ⎤
⎢μ ⎥
∑ (X )( )
S n
μ0
= ⎢
1 ' 20 ⎥
= −X Xj −X
( p × p) ( p × 1) ⎢ M ⎥
j
n −1 j =1 ⎢ ⎥
⎢⎣ μ p 0 ⎥⎦
1 —
e n S representa a matriz estimada das covariâncias de X .
47
A estatística T2 é denominada T2 de Hotelling em homenagem a Harold
_
T2 for grande, isto é; se x estiver muito longe de µ0, a hipótese H0: µ = µ0 será
rejeitada. Ora, para podermos ter uma ideia da grandeza da distância T2, utilizamos o
(n − 1) p
T2 ~ F
(n − p ) p, n-p
onde Fp,n-p indica uma variável aleatória com uma distribuição F com p e n-p graus
de liberdade.
Np(µ, ∑),
⎡ (n − 1) p ⎤ ⎡ (n − 1) p ⎤
α = P ⎢T 2 > F p ,n − p (α )⎥ = ⎢n( X − µ )´S −1 ( X − µ ) > F p ,n − p (α )⎥
⎣ ( n − p ) ⎦ ⎣ (n − p) ⎦
O que já foi dito é suficiente para testar H0: µ = µ0 contra H1: µ ≠ µ0. A um
_ _ (n − 1) p
T2 = n (x - µ0)´ S-1 (x - µ0) > F (α)
(n − p ) p,n-p
48
X3 = conteúdo de potássio. Os valores encontrados levaram aos seguintes
resultados:
confiança de α = .10.
— —
Ora T2 = n ( X - µ0)´ S-1 ( X - µ0)
⎡ .467⎤
= 20 [.640 ; -4.600 ; -.035 ] ⎢⎢− .042⎥⎥ = 9,74
⎢⎣ .160⎥⎦
(n − 1) p 19(3)
Fp,n-p(.10) = F3,17(.10) = (3.353) (2.44) = 8,18
(n − p ) 17
confiança de 90%.
49
5.2 Regiões de confiança
⎡ (n − 1) p ⎤
P ⎢n( X − µ )´S −1 ( X − µ ) ≤ F p ,n − p (α )⎥ = 1 - α
⎣ (n − p) ⎦
— (n − 1) p
Por outras palavras, X estará a uma distância F p ,n − p (α ) de µ, com
(n − p )
-1
⎛1 ⎞
probabilidade 1 - α, desde que a distância seja definida em termos de ⎜ S ⎟ .
⎝n ⎠
_ _
n (x - µo)´ S-1 (x - µo)
(n − 1) p
e compará-la com o valor de F (α). Caso a distância seja maior do que
(n − p ) p,n-p
50
Os eixos do elipsóide de confiança e os seus respectivos comprimentos podem ser
_
Centrado em x , os eixos do elipsóide
_ _ (n − 1) p
n (x - µ)´ S-1 (x - µ) ≤ c2 = Fp,n-p(α)
(n − p )
(n − 1) p
são ± λi F p ,n − p (α ) ei ; onde Sei = λi ei , i = 1, 2, …, p.
n( n − p )
A elipse a 95% de confiança para µ consiste em todos os valores (µ1 , µ2) que
satisfazem a inequação
51
42(203.018)(.564-µ1)2 + 42(200.228)(.603-µ2)2 - 84(163.391)(.564-µ1)(.603-µ2) ≤ 6.62
⎡.562⎤
Do mesmo modo, um teste de H0: µ = ⎢ ⎥ não será rejeitado em favor de H1 :
⎣.589⎦
⎡.562⎤
µ ≠ ⎢ ⎥ a um nível de significância α = .05.
⎣.589⎦
— ⎡.564⎤
O elipsóide de confiança conjunta está centrado em X = ⎢.603⎥ e,
⎣ ⎦
(n − 1) p 2(41)
λ1 F p ,n − p (α ) = .026 (3.23) = .064
n( n − p ) 42(40)
(n − 1) p 2(41)
e λ2 F p ,n − p (α ) = .002 (3.23) = .018
n(n − p ) 42(40)
Estes eixos encontram-se segundo e1´ = [ .704, .710 ] e e2´ = [ -.710, .704 ].
Pode-se facilmente ver que o eixo maior é cerca de 3.6 vezes maior do que o eixo
menor.
c´ – ≤ c´µ ≤ c´ –
c´Sc c´Sc
x - tn-1(α/2) x + tn-1(α/2)
n n
52
onde tn-1(α/2) é o percentil superior de ordem 100(α/2) de uma distribuição t com n-1
graus de liberdade.
Sendo dada a amostra aleatória X1, X2, …, Xn de uma população Np(µ, ∑),
⎛ ⎞
⎜ c´X − p (n − 1) F p ,n − p (α )c' Sc ; c´X +
p(n − 1)
F p , n − p (α )c' Sc ⎟
⎜ n( n − p ) n( n − p ) ⎟
⎝ ⎠
intervalos
— p (n − 1) s11 — p (n − 1) s11
x1 - F p ,n − p (α ) ≤ µ1 ≤ x1 + F p ,n − p (α )
(n − p) n (n − p) n
53
— p (n − 1) s 22 — p (n − 1) s 22
x2 - F p , n − p (α ) ≤ µ2 ≤ x2 + F p ,n − p (α )
(n − p) n (n − p) n
— p (n − 1) s pp — p (n − 1) s pp
xp - F p ,n − p (α ) ≤ µp ≤ xp + F p ,n − p (α )
(n − p) n (n − p) n
— p (n − 1) s − 2 s ik + s kk
xi - x k ± F p ,n − p (α ) ii
(n − p) n
p (n − 1) 3(87 − 1) 3(86)
Fp,n-p(α) = F3,84(.05) = (2.7) = 8.29
(n − p) (87 − 3) 84
54
5691.34 5691.34
527.74 - 8.29 ≤ µ1 ≤ 527.74 + 8.29 504.45 ≤ µ1 ≤ 551.03
87 87
126.05 126.05
54.69 - 8.29 ≤ µ2 ≤ 54.69 + 8.29 51.22 ≤ µ2 ≤ 58.16
87 87
23.11 23.11
25.13 - 8.29 ≤ µ3 ≤ 25.13 + 8.29 23.65 ≤ µ3 ≤ 26.61
87 87
_ ⎛α ⎞ s
x i ± tn-1 ⎜⎜ i ⎟⎟ ii i = 1, 2, …, m
⎝ 2⎠ n
⎛ α ⎞ s11 ⎛ α ⎞ s11
x 1 - tn-1 ⎜⎜ ⎟⎟ ≤ µ1 ≤ x 1 + tn-1 ⎜⎜ ⎟⎟
⎝ 2p ⎠ n ⎝ 2p ⎠ n
⎛ α ⎞ s 22 ⎛ α ⎞ s 22
x 2 - tn-1 ⎜⎜ ⎟⎟ ≤ µ2 ≤ x 2 + tn-1 ⎜⎜ ⎟⎟
⎝ 2p ⎠ n ⎝ 2p ⎠ n
_ ⎛ α ⎞ s pp _ ⎛ α ⎞ s pp
x p - tn-1 ⎜⎜ ⎟⎟ ≤ µp ≤ x p + tn-1 ⎜⎜ ⎟⎟
⎝ 2p ⎠ n ⎝ 2p ⎠ n
55
Exemplo 5.4: Voltando aos dados da transpiração, podemos obter os
_ s11 2.879
x 1 ± t19 (.0083) = 4.64 ± 2.625 3.64 ≤ µ1 ≤ 5.64
n 20
_ s 22 199.798
x 2 ± t19 (.0083) = 45.4 ± 2.625 37.10 ≤ µ2 ≤ 53.70
n 20
_ s 33 3.628
x 3 ± t19 (.0083) = 9.965 ± 2.625 8.85 ≤ µ3 ≤ 11.08
n 20
— ⎛1 ⎞ — — —
( X - µ)´ ⎜ S ⎟ -1 ( X - µ) = n ( X - µ)´ S-1 ( X - µ) é aproximadamente χ2
⎝n ⎠
[ ]
P n( X − µ )´S −1 ( X − µ ) ≤ χ 2p (α ) = 1 - α
56
onde χ 2p (α ) é o percentil superior de ordem (100α) da distribuição χ 2p .
Seja X1, X2, …, Xn uma amostra aleatória de uma população com média µ e
significância aproximadamente α se
_ _
n (x - µo)´ S-1 (x - µo) > χ 2p (α )
— c´Sc
• c´ X ± χ 2p (α ) contém c´µ, para todo c, com probabilidade aproximadamente
n
_ s11
x1± χ 2p (α ) contém µ1
n
_ s 22
x2± χ 2p (α ) contém µ2
n
_ s pp
xp± χ 2p (α ) contém µp
n
centradas na média
_ _ -1
⎡s s ik ⎤ ⎡ x _ i − µi ⎤
n [x i - µi ; x k - µk] ⎢ ii ⎢ x _ − µ ⎥ ≤ χ p (α ) contém (µi, µk)
2
⎣ s ik s kk ⎥⎦ ⎣ k k⎦
57
58
6
Comparação entre duas médias multivariadas
(D − δ )
t = ;
sd / n
59
— n n
∑ ∑ (D
1 1
onde D = Dj e s 2d = j − D) 2, segue uma distribuição t com n-1
n j =1
n −1 j =1
graus de liberdade.
confiança a 100(1-α)% para a diferença média δ = E(X1j - X2j) pode ser obtido pela
expressão
— s — s
d - tn-1(α/2) d ≤ δ ≤ d + tn-1(α/2) d
n n
aleatórias de diferenças
Considerando Dj = [D1 j D 2 j … D pj ]
´
( j = 1,2, … , n) ,
60
⎡δ1 ⎤
⎢δ ⎥
E(Dj) = δ= ⎢ ⎥ e cov(Dj)=∑d.
2
⎢L ⎥
⎢ ⎥
⎢⎣δ p ⎥⎦
Se, além disso, D1, D2, …, Dn forem vectores aleatórios independentes Np(δ,
∑d), então
—
T2 = n ( D - δ)´S −d1 (D − δ )
n n
∑ ∑ (D
1 1
onde D= Dj e Sd = j − D)´(D j − D) é distribuído como uma variável
n j =1
n −1 j =1
(n − 1) p
aleatória F .
(n − p ) p,n-p
observado
— -1 — (n − 1) p
T2 = n d ´ S d > F (α)
d (n − p ) p,n-p
p graus de liberdade.
61
Uma região de confiança a 100(1-α)% para δ é formado por todos os δ tal que
— -1 — (n − 1) p
( d - δ) S ( d - d) ≤ F (α)
d n(n − p) p,n-p
— (n − 1) p s d2i
δi: di ± F p , n − p (α )
(n − p) n
— — 2
onde di é o elemento de ordem i de d e sd é o i-ésimo elemento da diagonal de
i
Sd.
(n − 1) p
Para n-p grande; F (α) aproxima-se da distribuição χ 2p (α ) , e a
(n − p ) p,n-p
2
— ⎛ α ⎞ s di
δi: di ± tn-p ⎜⎜ ⎟⎟
⎝ 2p ⎠ n
⎛α ⎞
onde tn-p ⎜⎜ ⎟⎟ é o percentil de ordem 100(α/2p) de uma distribuição t com n-p graus
⎝ 2p ⎠
de liberdade.
62
Exemplo 6.1: Um conjunto de 11 amostras de água foi enviado a dois
Laboratório 1 Laboratório 2
Amostra j x11j (NOB) x12j (SS) x21j (NOB) x22j (SS)
1 6 27 25 15
2 6 23 28 33
3 18 64 36 22
4 8 44 35 29
5 11 30 15 31
6 34 75 44 64
7 28 26 42 30
8 71 124 54 64
9 43 54 34 56
10 33 30 29 20
11 20 14 39 21
d1j = x11j - x21j -19 -22 -18 -27 -4 -10 -14 17 9 4 -19
63
Então,
(n − 1) p 2 (10)
Com α= .05; encontramos Fp;n-p(.05) = 9 F2;9(.05) = 9.47
(n − p)
Como T2 = 13.6 > 9.47, rejeitamos H0 e concluímos que existe uma diferença
média não nula entre as medições dos dois laboratórios. Dos dados parece
evidente que o primeiro laboratório tende a produzir medições mais baixas para
— (n − 1) p s d21 199.26
d1 ± F p ,n − p (α ) = -9.36 ± 9.47 ou (-22.46 ; 3.74)
(n − p) n 11
— (n − 1) p s d21 418.61
d2 ± F p ,n − p (α ) = 13.27 ± 9.47 ou (-5.71 ; 32.25)
(n − p) n 11
64
correspondem às escolhas (c1 = 1, c2 = 0) e (c1 = 0, c2 = 1). Estes intervalos
contêm o valor zero; no entanto, outras escolhas para c1e c2 produzem intervalos
simultâneos que não contêm zero. Sabemos, sim , que se a hipótese H0: δ = 0 não
⎡ X1j ⎤
⎢X ⎥
⎢ 2j ⎥
⎢ . ⎥
Xj = ⎢ ⎥ j = 1, 2, …, n
⎢ . ⎥
⎢ . ⎥
⎢ ⎥
⎢⎣ X qj ⎥⎦
j.
65
_ _ (n − 1)(q − 1)
T2 = n (Cx )´ (CSC´)-1 Cx > F (α)
(n − q + 1) q-1,n-q+1
_ _ (n − 1)(q − 1)
n (Cx - Cµ)´ (CSC´)-1 (Cx - Cµ) ≤ F (α)
(n − q + 1) q-1,n-q+1
_ (n − 1)(q − 1) c ' Sc
c´µ : c´x ± Fq −1, n − q +1 (α )
(n − q + 1) n
Exemplo 6.2: Num teste de eficácia de um novo anestésico, foi escolhida uma
amostra de 19 cães aos quais foi administrado dióxido de carbono (CO2) a dois
de dióxido de carbono.
Presente
Halotano
Ausente
Baixo Alto
CO
2
66
tratamento 1 = CO2 alto sem H tratamento 3 = CO2 alto com H
apresentados a seguir:
Tratamento
Cão 1 2 3 4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 256 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
67
(µ3 + µ4) - (µ1 + µ2) contraste halotano, representando a diferença entre a
(µ1 + µ3) - (µ2 + µ4) contraste CO2, representando a diferença entre as pressões
⎡− 1 − 1 1 1⎤
Com µ´ = [µ1 µ2 µ3 µ4] , a matriz de contraste é C = ⎢⎢ 1 − 1 1 − 1⎥⎥
⎢⎣ 1 − 1 − 1 1⎥⎦
⎡ 368.21⎤ ⎡2819.19 . . .⎤
_ ⎢ 404.63⎥ ⎢ .⎥⎥
Dos dados acima, x = ⎢ ⎥ e S = ⎢3568.42 7963.14 .
⎢479.26⎥ ⎢2943.49 5303.98 6851.32 .⎥
⎢ ⎥ ⎢ ⎥
⎣502.89⎦ ⎣ 2295.35 4065.44 4499.63 4878.99⎦
_ _
e T2 = n (Cx )´ (CSC´)-1 (Cx ) = 19 (6.11) = 116.
68
´
18 (3) c1Sc1
• (x— — — —
3 + x4 ) - (x1 + x2 ) ± 16 F3,16(.05) 19
9432.32
= 209.31 ± 10.94 = 209.31 ± 73.70
19
5195.84
= -60.05 ± 10.94 = -60.05 ± 54.70
19
7557.44
= -12.79 ± 10.94 = -12.79 ± 65.97
19
do halotano produz tempos mais longos entre batidas do coração, o que acontece
Há, no entanto, que referir que estes resultados devem ser encarados com
algum cuidado, uma vez que as experiências com halotano tem necessariamente de
69
6.3 Comparações entre duas populações
que:
Amostra Estatísticas
População 1 — = 1
n1 n1
∑ ∑ (x
1
x 1 x1 j S1 = 1j − x 1 )(x1 j − x 1 )´
n1 n1 − 1
x11, x12, …, x1n1 j =1 j =1
População 2 — =
n2 n2
∑ ∑ (x
1 1
x 2 x2 j S2 = 2j − x 2 )(x 2 j − x 2 )´
n2 n2 −1
x21, x22, …, x2n2 j =1 j =1
70
Além disto, quando n1 e n2 são pequenos,
fazendo
n1 n2
∑
j =1
(x1 j − x 1 )(x 1 j − x1 )´ + ∑ (x
j =1
2j − x 2 )(x 2 j − x 2 )´
Scomum =
n1 + n 2 − 2
⎛ 1 1 ⎞
Como Scomum estima ∑, podemos afirmar que ⎜⎜ + ⎟⎟ Scomum é um estimador
⎝ n1 n 2 ⎠
— —
de Cov(X1 - X2 ).
— -x— - δ )´ ⎡⎛ 1 1 ⎞ ⎤ -1 — — - δ ) > c2
T2 = (x 1 2 0 ⎢⎜⎜ + ⎟⎟S comum ⎥ (x1 - x 2 0
⎣⎢⎝ 1
n n 2 ⎠ ⎦⎥
(n1 + n 2 − 2) p
onde c2 = F (α).
(n1 + n 2 − p − 1) p,n1+n2-p-1
71
Exemplo 6.3: 50 barras de sabão são fabricadas de cada um de dois
_ ⎡8.3⎤ ⎡2 1⎤
x1= ⎢ ⎥ S1 = ⎢ ⎥
⎣4.1⎦ ⎣ 1 6⎦
_ ⎡10.2⎤ ⎡2 1⎤
x2= ⎢ ⎥ S1 = ⎢ ⎥
⎣ 3.9⎦ ⎣ 1 4⎦
comum de covariâncias:
_ _ ⎡ − 1 .9 ⎤
Como x 1 - x 2 = ⎢ , a elipse de confiança está centrada em [-1.9; .2]´, sendo
⎣.2 ⎥ ⎦
⎡2 − l 1⎤ 2
0 = S comum − λI = ⎢
− ⎥ = λ - 7λ + 9.
⎣ 1 5 l ⎦
⎛ 1 1 ⎞ 2 ⎛ 1 1 ⎞ (98)(2)
Além disso; ⎜⎜ + ⎟⎟ c = ⎜ + ⎟ F2,97(.05) = .25
⎝ 1
n n 2 ⎠ ⎝ 50 50 ⎠ (97)
72
⎛ 1 1 ⎞ 2
A elipse de confiança estende-se λi ⎜⎜ + ⎟⎟c = λ i .25 unidades segundo o
⎝ n1 n 2 ⎠
resultados diferentes. Parece que os dois tipos de sabão têm a mesma suavidade,
73
74
7
Análise de componentes principais e análise factorial
7.1 Introdução
afirmem que estão a levar a cabo uma análise factorial quando, de facto, estão a
região. O valor 0.9 de coeficiente de correlação entre ambas as variáveis pode ser
representada por T, as 'horas de sol' por S e o vector de referência por F1. Este
vector faz um ângulo de 12.5˚ com T e com S. O coseno de 12.5˚, igual a 0.976,
variável no factor.
75
Também já vimos que o quadrado do
F1
coeficiente de correlação, R2, representa a T S
quantidade da variância partilhada por ambas as
1.9
da variância extraída por F1 é 2 x100 = 95. Isto já nos dá 95% da representação da
relação entre ambas. No entanto, para obter a imagem completa, temos de desenhar
o outro vector F2, fazendo um ângulo recto (ou ortogonal) com F1.
F1
T S
b̂
â
F2
76
^ = 77.5˚)
(â = 102.5˚ ; b
5%.
1 2
factor comum. Assim, por exemplo para T, temos (0.976)2 + (-0.216)2 = 1.0 que
77
atribuída a um número menor k de componentes principais. Existirá, assim, quase
variáveis.
(clusters).
X2, …, Xp ] e os pares de valores-vectores próprios (λ1, e1), (λ2, e2), …, (λp, ep),
dada por
p) ].
78
' X , Y2 = e2
Além disso, se Y1 = e1 ' X , …, Yp = ep
' X forem as
componentes principais,
p p
• σ11 + σ22 + … + σpp = ∑
j =1
Var ( X i ) = λ1 + λ2 + … + λp = ∑ Var (Y )
j =1
i
Proporção da variância
⎛ total da população ⎞
⎜ ⎟
λk
• devida à componente = , k = 1,2, … , p
+ λ2 + …+ λ p
⎝ principal de ordem k ⎠ λ1
e ki λi
2, …, p) são dados por ρ =
Yi, Xk σ kk
matriz de covariâncias:
⎡ 1 − 2 0⎤
∑ = ⎢⎢− 2 5 0⎥⎥
⎢⎣ 0 0 2⎥⎦
λ2 = 2.00 ' = [ 0; 0; 1 ]
e2
79
As componentes principais são então,
' X = X3
Y2 = e2
= 5.83 = λ1
= 0
λ1 5.83
= = .73
λ1 + λ 2 + λ3 8
80
5,83 + 2
e as primeiras duas componentes principais são responsáveis por = 98% da
8
e 21 l1 − .924 5.83
ρ = = = -.998
Y1, X2 σ 22 5
e32 l 2 2
ρ = ρ = 0 e ρ = = = 1
Y2, X1 Y2, X2 Y2, X3 σ 33 2
' x , y2 = e2
As componentes principais y1 = e1 ' x , …, yp = ep
' x posicionam-se
nas direcções dos eixos do elipsóide de densidade constante. Assim, qualquer ponto
…, 0, yi, 0, …, 0 ].
81
componentes principais são obtidas rodando o sistema inicial de coordenadas de um
x
2
y
1
y
2
x
1
Além disto, sendo (λ1, e1), (λ2, e2), …, (λp, ep) os pares valores-vectores
próprios de ρ com λ1 ≥ λ2 ≥ … ≥ λp ≥ 0,
p p
• ∑j =1
Var (Yi ) = ∑ Var (Z ) =
j =1
i p
82
Proporção da variância total
⎛ da população estandardizada ⎞
⎜ devida à componente ⎟
λk
• = , k = 1,2, … , p
⎝ principal de ordem k ⎠ p
⎡1 4⎤
Exemplo 7.2: Consideremos a matriz de covariâncias ∑ = ⎢ ⎥e a
⎣4 100⎦
⎡ 1 .4 ⎤
correspondente matriz de correlações ρ = ⎢
⎣.4 1⎥⎦
Y1 = .040 X1 + .999 X2
Y2 = .999 X1 - .040 X2
e para ρ:
⎛ X 1 − µ1 ⎞ ⎛ X 2 − µ2 ⎞
Y1 = .707 Z1+.707 Z2 = .707 ⎜⎜ ⎟⎟ +.707 ⎜⎜ ⎟⎟ = .707 (X1 - µ1) +.0707 (X2 - µ2)
⎝ 1 ⎠ ⎝ 10 ⎠
⎛ X 1 − µ1 ⎞ ⎛ X 2 − µ2 ⎞
Y2 = .707 Z1 -.707 Z2 = .707 ⎜⎜ ⎟⎟ -.707 ⎜⎜ ⎟⎟ = .707 (X1 - µ1) -.0707 (X2 - µ2)
⎝ 1 ⎠ ⎝ 10 ⎠
83
Devido à sua maior variância, X2 domina completamente a primeira componente
λ1
principal obtida a partir de ∑. Esta primeira componente principal explica =
λ1 + λ2
100.16
= .992 da variância total da população.
101
de ρ. Assim, como
λ1 1.4
a primeira componente principal explica = = .7 da variância total da
p 2
população estandardizada.
Exemplo 7.3: Sejam x1, x2, x3, x4 e x5 observações semanais das taxas de
retorno das acções de cinco empresas (Allied Chemical, DuPont, Union Carbide,
_
x ' = [ .0054; .0048; .0057; .0063; .0037 ]
84
⎡1.000 .577 .509 .387 .462⎤
⎢ .577 1.000 .599 .389 .322⎥
⎢ ⎥
e R = ⎢ .509 .599 1.000 .436 .426⎥
⎢ ⎥
⎢ .387 .389 .436 1.000 .523⎥
⎢⎣ .462 .322 .426 .523 1.000⎥⎦
principais
⎛ λ1 + λ 2 ⎞ ⎛ 2.857 + .809 ⎞
Estas componentes, que explicam ⎜⎜ ⎟⎟ 100% = ⎜ ⎟ 100% = 73% têm
⎝ p ⎠ ⎝ 5 ⎠
85
As restantes componentes, de difícil interpretação, representam no seu conjunto a
A análise factorial pode ser vista como uma extensão da análise das
componentes principais, uma vez que ambas podem ser encaradas como
chamados factores comuns, e p fontes de variação ε1, ε2, …, εm, chamados erros ou
factores específicos.
X −μ L F ε
= +
( p × 1) ( p × m) (m × 1) ( p × 1)
ou seja,
86
X2 - µ2 = l21 F1 + l22 F2 + … + l2m Fm + ε2
Além disso, as variáveis aleatórias F1, F2, …, Fm, assim como os erros ε1, ε2,
0 Ι
• E(F) = ; Cov(F) = E[FF'] =
(m × 1) ( m × m)
⎡ Ψ1 0 … 0⎤
⎢ 0 Ψ2 … 0⎥⎥
0 Ψ
• E(ε) = ; Cov(ε) = E[εε'] = = ⎢
( p × 1) ( p × p) ⎢ . . … .⎥
⎢ ⎥
⎢⎣ 0 0 … Ψ p ⎥⎦
0
• F e ε são independentes; isto é; Cov(ε; F) = E(ε F') =
( p × m)
devida aos m factores comuns. Deste modo, a variância de Xi pode ser dada por
2
Var(Xi) = comunalidade hi + variância específica ψi
87
[
σii = l i1 2 + l i1 2 + … + l i1 2 + ψi]
⎡19 30 2 12⎤
⎢30 57 5 23⎥
∑ = ⎢ ⎥
⎢ 2 5 38 47 ⎥
⎢ ⎥
⎣12 23 47 68⎦
⎡19 30 2 12⎤ ⎡ 4 1⎤ ⎡2 0 0 0⎤
⎢30 57 5 23⎥ ⎢ 7 2⎥⎥ ⎡4 7 − 1 1⎤ ⎢0 4 0 0⎥⎥
⎢ ⎥= ⎢ + ⎢
⎢ 2 5 38 47⎥ ⎢− 1 6⎥ ⎢⎣ 1 2 6 8⎥⎦ ⎢0 0 1 0⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣12 23 47 68⎦ ⎣ 1 8⎦ ⎣0 0 0 3⎦
pode ser verificada pela álgebra matricial. Deste modo, ∑ tem a estrutura produzida
⎡ l 11 l 12 ⎤ ⎡ 4 1⎤ ⎡ Ψ1 0 00⎤ ⎡2 0 0 0⎤
⎢l ⎥ ⎢ 7 ⎥ ⎢ 0 0⎥⎥ ⎢0
l 22 2⎥ Ψ2 0 4 0 0⎥⎥
Sendo L = ⎢ 21 ⎥= ⎢ e Ψ= ⎢ = ⎢
⎢ l 31 l 32 ⎥ ⎢− 1 6⎥ ⎢ 0 0 Ψ3 0⎥ ⎢0 0 1 0⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣l 41 l 42 ⎦ ⎣ 1 8⎦ ⎣ 0 0 0 Ψ4 ⎦ ⎣0 0 0 3⎦
a comunalidade de X1 é
2 2 2 2 2
h1 = l 11 + l 12 = 4 + 1 = 17
2
σ11 = h1 + ψ1 = 17 + 2 = 19
88
Infelizmente, quando o número m de factores é muito menor do que o número
ortogonais, sabendo nós de antemão que, quer os pesos, quer as comunalidades, não
se apresenta de muita utilidade, uma vez que, neste caso, os factores específicos
comuns.
89
seus pares de valores-vectores próprios estimados ( l̂ 1, ê 1); ( l̂ 2, ê 2), …, ( l̂ p, ê p)
~
pesos factoriais estimados { l ij} é dada por
~ = ⎡ lˆ eˆ | ˆl eˆ | … | lˆ eˆ ⎤
L
⎣⎢
m⎥
⎦
1 1 2 2 m
diagonal da matriz S - ~
L~L ';
~1
⎡ ψ 0 …
~2 …
0
⎤ m
Ψ = ⎢ ⎥ ∑ ~l 2ij
~ 0 ψ 0 ~ i = sii -
com ψ
. . … .
⎣ 0 0 … ~ p⎦
ψ
j=1
~2 2 2 2
hi = ~l i1 + ~l i2 + … + ~l im
vez de S. Além disso, os pesos factoriais estimados para um determinado factor não
90
• para uma análise factorial de R:
semanais das taxas de retorno das acções de p=5 empresas químicas e onde se
m=1 e m=2. Assim, para encontrar os pesos factoriais estimados basta multiplicar
explicada por cada factor, para as soluções com m=1 e com m=2.
91
⎡ 0 − .127 − .164 − .069 .017 ⎤
⎢− .127 0 − . 122 . 055 .012⎥⎥
⎢
~L
R-L ~'-Ψ
~ = ⎢ − .164 − .122 0 − .019 − .017 ⎥
⎢ ⎥
⎢ − .069 .055 − .019 0 − .232⎥
⎢⎣ .017 012 − .017 − .232 0⎥⎦
gerais e pode ser chamado factor de mercado, todas as acções têm um peso alto e
todos os pesos são mais ou menos iguais. O segundo factor, que permite a
separação das empresas químicas com acções de petróleo das empresas químicas
matriz de covariância (ou de correlação). Ora, pela álgebra matricial sabemos que
coordenados. Por esta razão, a uma transformação ortogonal dos pesos factoriais
método, então L̂ * = L̂ T (onde TT' = T'T = I) é a matriz p×m de pesos após rotação.
2
como as variâncias específicas Ψ̂i i e as comunalidades ĥi . Isto significa que, sob o
92
Exemplo 7.6: Consideremos a seguinte matriz de correlações referentes às
93
F2
0.5
História
Português
0.4
0.3 Inglês
0.2
0.1
0 F1
0 0.2 0.4 0.6 0.8
-0.1
Geometria
-0.2 Álgebra
Aritmética
-0.3
Rodando o sistema de eixos de θ= 20º, fazemos com que o transformado do eixo
2 2
F1 passe pelo ponto (~l 41 ; ~l 42 ), como o representado na Figura 7.5.
*
F F
2 2
0.5
História Português
0.4
0.3 Inglês
0.2
0.1
0 F
1
-0.1
0 0.2 θ 0.4 0.6 0.8
Geometria
-0.2 Álgebra
Aritmética
-0.3
*
F
1
Figura 7.5 — Rotação factorial
94
Quando isto é feito todos os pontos se encontram no primeiro quadrante (todos os
pesos factoriais são positivos) e os dois grupos de variáveis são evidenciados. Isto
Ora, esta rotação pode ser conseguida analiticamente, por exemplo através do
*
lˆ ij
~ *
l ij =
critério varimax. Considerando * , o procedimento varimax selecciona a
ĥi
⎡ ⎛ p ~*2⎞2⎤
⎜∑ l ij ⎟ ⎥
⎢p 4 ⎝ i=1 ⎠
V = p ∑ ⎢∑ ~
1 m
j=1 ⎣
*
l ij - ⎥
i=1
p
⎦
modelos factoriais onde se pressupõe que os factores são independentes. Caso isso
se não verifique existem rotações oblíquas (não ortogonais), mas que não se regem
95
For fim, falta ainda debruçarmo-nos um pouco sobre um problema prático
dos critérios mais vulgares é reter apenas factores com valores próprios maiores do
dos valores próprios e parar a análise no ponto onde a linha deste gráfico começa a
ser quase paralela com o eixo horizontal. Este última alternativa; denominada teste de
0
0 2 4 6 8 10 12
Factor
Segundo este gráfico o investigador concluiria que não deveriam ser extraídos mais
de cinco factores.
96
97
8
Análise de agrupamentos (clusters)
8.1 Introdução
agregação.
98
de distâncias. As variáveis podem, por exemplo, ser agrupadas com base no
coeficiente de correlação.
variáveis:
p
d ij = ∑ .( x
k =1
ik − x jk ) 2
variáveis:
p
d ij2 = ∑ .( xik − x jk ) 2
k =1
variáveis:
p
d ij = ∑ xik − x jk .
k =1
99
m 1m
⎛ p ⎞
d ij = ⎜⎜ ∑ xik − x jk ⎟⎟
⎝ k =1 ⎠
variâncias:
d ij = (xi − x j ) ∑ (x − xj )
' −1
i
de 5 observações em 3 variáveis:
X1 X2 X3
1 1,06 9,2 151
2 1,10 9,2 245
3 1,34 13,0 168
4 1,43 15,4 113
5 1,16 11,7 104
dados.
Distância Euclideana 1 2 3 4
2 94,0
3 17,4 77,1
4 38,5 132,1 55,0
5 47,1 141,0 64,0 9,7
100
5 49,6 143,6 65,5 13,0
Por outro lado, todas estas variáveis são quantitativas. No entanto, também as
variáveis qualitativas podem ser introduzidas neste tipo de análise à custa da sua
Indivíduo j Totais
Indivíduo i 1 0
1 a b a+b
0 c d c+d
Totais a+c b+d
101
b ao número de características presentes em i e ausentes em j, e c ao número de
apresentados a seguir:
a+d
1 Igual peso às as presenças e as ausências simultâneas;
a+b+c+d
2(a + d )
2 Peso duplo às presenças e ausências simultâneas;
2(a + d ) + b + c
a+d
3 Peso duplo às situações discordantes; inclusão das
a + d + 2(b + c)
ausências simultâneas
2a
4 Peso duplo às presenças ausências simultâneas;
2a + b + c
exclusão das ausências simultâneas.
a
5 Peso duplo as situações discordantes; exclusão das
a + 2(b + c)
ausências simultâneas.
a
6 Quociente entre presenças simultâneas e situações
b+c
discordantes; exclusão das ausências simultâneas.
Definamos as seis variáveis binárias X1, X2, X3, X4, X5, e X6 do seguinte modo:
102
⎧1 peso ≥ 68 Kg ⎧1 não canhoto
X2 = ⎨ X5 = ⎨
⎩0 peso < 68 Kg ⎩0 canhoto
Indivíduo X1 X2 X3 X4 X5 X6
1 0 0 0 1 1 1
2 1 1 1 0 1 0
Indivíduo 2 Totais
Indivíduo 1 1 0
1 1 2 3
0 3 0 3
Totais 4 2 6
a+d 1+ 0 1
Utilizando o primeiro coeficiente de semelhança, obtemos = = e,
a+b+c+d 6 6
103
1 2 3 4 5
1 1
2 1 1
6
3 4 3 1
6 6
4 4 3 2 1
6 6 6
5 0 5 2 2 1
6 6 6
indivíduos 1 e 5 são menos semelhantes entre si. Os dois subgrupos que se podiam
1
s ij =
1 + dij
comparar os resultados.
vizinho mais próximo (single linkage), o critério do vizinho mais afastado (complete
critério de Ward
104
8.3.1 Critério do vizinho mais próximo (single linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles é igual à menor distância
d (i , j ) k = min{d ik ; d jk }
Com este critério, cada indivíduo terá mais tendência para se agrupar a um grupo já
definido do que para formar o núcleo de um novo grupo. Isto constitui uma
Dados dois grupos (i,j) e (k), a distancia entre eles é igual à maior distância
d (i , j ) k = max{d ik ; d jk }
Com este critério, cada grupo passa a ser definido como o conjunto dos indivíduos em
que cada um é mais semelhante a todos os outros do grupo do que a qualquer outro
105
8.3.3 Critério da média dos grupos (average linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles é a média entre todos os
dos quadrados dos desvios das observações em relação à média dos grupos.
variáveis para cada indivíduo. Por fim, somam-se as distâncias para todos os
106
107
Referências bibliográficas
Aldenferfer MS, Blashfield RK. Cluster analysis. Sage university paper series on
quantitative applications in the social sciences, 07-044. Beverly Hills: Sage, 1984.
quantitative applications in the social sciences, 07-069. Beverly Hills: Sage, 1989.
Hair JF, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. Englewood
Jobson JD. Applied multivariate analysis. Volume II: Categorical and multivariate
Prentice-Hall, 1988.
Kim J-O, Mueller C. Introduction to factor analysis. Sage university paper series on
quantitative applications in the social sciences, 07-013. Beverly Hills: Sage, 1978.
108
Kim J-O, Mueller C. Factor analysis. Statistical methods and practical issues. Sage
109