Você está na página 1de 90

Anlise Multivariada

G. Amaral
Anlise Multivariada
Getlio Amaral
Universidade Federal de Pernambuco
2006
Anlise Multivariada
G. Amaral
As notas de aula Apenas apresentam os tpicos de
Interesse. O aluno precisa consultar os livros abaixo para
obter os conhecimentos necessrios para as provas e,
futuramente, para
sua vida prossional.
Livros Textos
Anderson, T. A. (1984), An Introduction To Multivariate
Statistical
Mardia, Kent and Bibby (1979) Multivariate Analysis
Johnson and Wichern (1982) Applied Multivariate Statistical
Analysis
Avaliao
1 Prova
2 Trabalho (artigo, apresentao, relatrio, 5 perguntas,
respostas) Sorteio toda aula
3 Conjunto de Dados
Anlise Multivariada
G. Amaral
As notas de aula Apenas apresentam os tpicos de
Interesse. O aluno precisa consultar os livros abaixo para
obter os conhecimentos necessrios para as provas e,
futuramente, para
sua vida prossional.
Livros Textos
Anderson, T. A. (1984), An Introduction To Multivariate
Statistical
Mardia, Kent and Bibby (1979) Multivariate Analysis
Johnson and Wichern (1982) Applied Multivariate Statistical
Analysis
Avaliao
1 Prova
2 Trabalho (artigo, apresentao, relatrio, 5 perguntas,
respostas) Sorteio toda aula
3 Conjunto de Dados
Anlise Multivariada
G. Amaral
As notas de aula Apenas apresentam os tpicos de
Interesse. O aluno precisa consultar os livros abaixo para
obter os conhecimentos necessrios para as provas e,
futuramente, para
sua vida prossional.
Livros Textos
Anderson, T. A. (1984), An Introduction To Multivariate
Statistical
Mardia, Kent and Bibby (1979) Multivariate Analysis
Johnson and Wichern (1982) Applied Multivariate Statistical
Analysis
Avaliao
1 Prova
2 Trabalho (artigo, apresentao, relatrio, 5 perguntas,
respostas) Sorteio toda aula
3 Conjunto de Dados
Anlise Multivariada
G. Amaral
As notas de aula Apenas apresentam os tpicos de
Interesse. O aluno precisa consultar os livros abaixo para
obter os conhecimentos necessrios para as provas e,
futuramente, para
sua vida prossional.
Livros Textos
Anderson, T. A. (1984), An Introduction To Multivariate
Statistical
Mardia, Kent and Bibby (1979) Multivariate Analysis
Johnson and Wichern (1982) Applied Multivariate Statistical
Analysis
Avaliao
1 Prova
2 Trabalho (artigo, apresentao, relatrio, 5 perguntas,
respostas) Sorteio toda aula
3 Conjunto de Dados
Anlise Multivariada
G. Amaral
As notas de aula Apenas apresentam os tpicos de
Interesse. O aluno precisa consultar os livros abaixo para
obter os conhecimentos necessrios para as provas e,
futuramente, para
sua vida prossional.
Livros Textos
Anderson, T. A. (1984), An Introduction To Multivariate
Statistical
Mardia, Kent and Bibby (1979) Multivariate Analysis
Johnson and Wichern (1982) Applied Multivariate Statistical
Analysis
Avaliao
1 Prova
2 Trabalho (artigo, apresentao, relatrio, 5 perguntas,
respostas) Sorteio toda aula
3 Conjunto de Dados
Anlise Multivariada
G. Amaral
Pesquisas Histricas
Normal Bivariada: Adrian (1808) Laplace (1811) Gauss (1823)
Galton Geneticista - Correlao, Regresso e
Homocedasticidade
Karl Pearson - Coeciente de correlao para estudar problemas
em gentica, biologia e outras reas.
Fisher - Mtodos para agricultura, botanica e outras reas.
Anlise Multivariada
G. Amaral
Normal Multivariada
Tem sido adequada para problemas de vrias reas do
conhecimento como psicologia, engenharia, economia e outros.
Mtodos no Paramtricos (sero abordados em seminrios)
Modernos, boas possibilidades de pulicaes, melhores resultados
em muitos casos.
Bootstrap Distribuio Emprica c/reamostragem
Kernel Distribuio estimada dos dados
Anlise Multivariada
G. Amaral
Matrix de dados
X =
_
_
_
x
11
. . . x
1p
.
.
.
.
.
.
x
n1
. . . x
np
_
_
_
Seja x
i
a i-sima linha escrita como coluna, que dada por
x

i
= (x
i 1
, . . . , x
ip
)
Seja x
(j )
a j-sima coluna de X
x

(j )
= (x
1j
, . . . , x
nj
)
Anlise Multivariada
G. Amaral
Vetor de Mdias
x

= ( x
1
, . . . , x
p
)
onde x
i
=
1
n

n
r=1
x
ri
.
Matriz de covarincia
S = (s
ij
),
onde s
ij
=
1
n

n
r=1
(x
ri
x
i
)(x
rj
x
j
).
Notao Matricial
x =
1
n
X

1,
onde 1

= (1, . . . , 1) um vetor de dimenso n.


Para a matriz de covarianncia
S =
1
n
(X

X
1
n
X

11

X),
ou ainda, se H = I
1
n
11

,
S =
1
n
X

HX
Anlise Multivariada
G. Amaral
Matriz de Correlao
R = (r
ij
),
onde r
ij
=
s
ij
s
i
s
j
.
Exerccio 1 (Mardia et al, 1979, p. 11) Exemplo 1.4.1 (dados de
28 rvores).
Calcular, usando o R ou outro programa, o vetor de mdias, a
matriz de covarincia e a matriz de correlao.
Exerccio 2
Fazer o download do "Atlas do desenvolvimento Humano do
Recife."Escolher uma varivel quantitativa e calcular as mesmas
quantidades do exerccio 1.
Anlise Multivariada
G. Amaral
Combinaes lineares
y
r
= a
1
x
r1
+, . . . , a
p
x
rp
Transformao de Escala
y
r
= D
1
(x
r
x),
onde r = 1, . . . , n, D = diag(s
i
) e diag(.) denota uma matriz
diagonal.
Esta mudana torna unitria a varincia das variveis.
Transformao de Mahalanobis
z
r
= S
1/2
(x
r
x),
onde S
1/2
S
1/2
= S inversa da matriz raiz quadrada de S.
S
1/2
denida a partir dos autovalores e autovetores de S.
Se matriz de autovetores de S e
1
, . . . ,
p
os autovalores de
S,a matriz raiz quadrada dada por
S
1/2
=
1/2

,
onde
1/2
= diag(
1/2
i
).
A inversa de S
1/2
por
S
1/2
=
1/2

,
onde
1/2
= diag(
1/2
i
).
Anlise Multivariada
G. Amaral
Notao
X:Matriz de Dados;
x
i
: uma observao;
x
(j )
uma varivel;
X
i
um vetor aletrio cujo o valor observado x
i
.
Anlise Multivariada
G. Amaral
Distribuies Multivariadas
Considere p variveis aleatrias X
1
, . . . , X
p
, a funo de
distribuio de probabilidade (fdp) dada por
F(x
1
, . . . , x
p
) = P(X
1
x
1
), . . . , X
p
x
p
).
A funo de densidade (fd) denida por
F(x
1
, . . . , x
n
)
x
1
. . . x
p
= f (x
1
, . . . , x
p
).
e
F(x
1
, . . . , x
p
) =
_
xp

. . .
_
x
1

f (u
1
, . . . , u
p
)du
1
. . . du
p
.
Anlise Multivariada
G. Amaral
Independncia
Seja F(x
1
, . . . , x
p
) a fdp de X
1
, . . . , X
p
, o conjunto de variveis
aleatrias X
1
, . . . , X
p
, mutuamente independente se
F(x
1
, . . . , x
p
) = F
1
(x
1
) . . . F
p
(x
p
),
onde
F
i
(x
i
) =
_

. . .
_

f (u
1
, . . . , u
p
)du
1
. . . du
p
,
onde u
j
= x
i
Anlise Multivariada
G. Amaral
Transformao de Variveis
Se a densidade de X
1
, . . . , X
p
f (x
1
, . . . , x
p
), considere as
seguintes p funes
y
i
= y
i
(x
1
, . . . , x
p
)
A transforma ao inversa
x
i
= x
i
(y
1
, . . . , y
p
).
Considere as p variveis aleatrias
Y
i
= y
i
(x
1
, . . . , x
p
)
A densidade de Y
1
, . . . , Y
p

g(y
1
, . . . , y
p
) = f (x
1
(y
1
, . . . , y
p
), . . . , xp(y
1
, . . . , y
p
))
|J(y
1
, . . . , y
p
)|,
onde
J(y
1
, . . . , y
p
) =
_
_
_
_
x
1
y
1
. . .
x
1
y
p
.
.
.
.
.
.
x
p
y
1
. . .
x
p
y
p
_
_
_
_
Anlise Multivariada
G. Amaral
Amostra Aleatria
Seja X
1
, ..., X
n
uma amostra aleatria de uma distribuio F(x)
com vetor de mdias e matriz de covarincia .
O estimador

X =

n
i =1
X
i
n
centrado, isto , E(

X) = .
Alm disto, cov(

X) =
1
n
.
Anlise Multivariada
G. Amaral
possvel mostrar tambm que
E(S
n
) =
n 1
n
,
onde S
n
=

n
j =1
(X
j


X)(X
j


X)

.
Exerccio 3
Se um vetor aleatrio V tem E(V) =
v
e Cov(V) =
v
, prove
que E(VV

) =
v
+
v

v
.
Anlise Multivariada
G. Amaral
Normal Multivarida
Normal univariada
f (x; , ) = k exp
1
2
(x )
1
(x )
As quantidades univariadas podem ser redenidas para o caso
multivariado
x =
_
_
_
x
1
.
.
.
x
n
_
_
_
=
_
_
_

1
.
.
.

n
_
_
_
Anlise Multivariada
G. Amaral
=
_
_
_

1,1
. . .
1,m
.
.
.
.
.
.
.
.
.

k,1
. . .
k,m
_
_
_
Substituindo-se x, e por suas verses multivariadas, temos
f (x; , ) = k exp

1
2
(x)

1
(x)
.
A nica incgnita para determinar a distribuio de x k.
Anlise Multivariada
G. Amaral
Clculo da Constante k
k =
_

. . .
_

exp

1
2
(x)

1
(x)
dx
p
. . . dx
1
.
Usando-se o corolrio A.1.6 (Vide Anderson, 1984, p. 586), se
positiva denida, ento existe uma matriz no singular C tal
que
C

1
C = I ,
I a matriz identidade e C

a tranposta de C.
Considere
x = Cy,
onde y

= (y
1
, . . . , y
p
).
Temos que
(x )

1
(x ) = y

1
Cy = y

y.
Como
J = |C|,
a constante de interesse dada por
k

= Mod|C|
_

. . .
_

exp
{
1
2
y

y}
dy
p
. . . dy
1
.
Anlise Multivariada
G. Amaral
Simplicando-se o integrando, temos
exp
{
1
2
y

y}
=
p

i =1
exp

1
2
y
2
i
.
O valor da constante de interesse dado por
k = Mod|C|
_

. . .
_

exp

1
2
y
2
1
. . .
exp

1
2
y
2
p
dy
p
. . . dy
1
= Mod|C|
_

exp

1
2
y
2
p
dy
p
. . .
_

exp

1
2
y
2
1
dy
1
= Mod|C|(

2)
p
.
Calculando-se o determinante de C, tem-se
|C

||
1
||C| = I ,
o que resulta em
Mod|C| =
1
_
|
1
|
.
Assim, a constante de interesse
1
k
=

1
(2)

1
2
p
.
Portanto, a funo de densidade da normal multivariada dada
por
_
|A|(2)
1
2
p
exp

1
2
(x)

1
(x)
Anlise Multivariada
G. Amaral
Exerccio 4
Considere uma distribuio multivariada do vetor (x, y). Para
obter este vetor, seja u and v N(0, 1) independentes e dena
x = u se uv 0 enquanto x = u se uv < 0. Dena y = v.
Mostre que x e y so N(0, 1), porm (x, y) no tem distribuio
normal bivariada.
Anlise Multivariada
G. Amaral
Esperana e Covarincia
Esperana de Um Vetor
Se X

= (X
1
, . . . , X
p
), o valor esperado de X dado por
E(X) =
_
_
_
E(X
1
)
.
.
.
E(X
p
)
_
_
_
.
Anlise Multivariada
G. Amaral
Se Y = DX + b, onde X um vetor aleatrio, podemos armar
que
E(Y) = DE(X) + b
e
V(Y) = DV(X)D

.
Prova: Anderson (1984, p. 19).
Anlise Multivariada
G. Amaral
Se a funo de densidade de X denida como
_
|A|(2)
1
2
p
exp

1
2
(x)

1
(x)
Temos que
E(X) =
e
V(X) = .
Prova: Anderson (1984, pp. 19-20).
Notao: N(, ) denota uma normal multivariada com mdia
e matriz de covarincia .
Anlise Multivariada
G. Amaral
Teorema. Se X N(, ), a transformao
Y = CX
tem distribuio N(C, CC

), onde C no singular.
Prova: Vide Anderson (1984, pp. 25-26).
Anlise Multivariada
G. Amaral
Teorema. A funo caracterstica de X N(, ) igual a
(t) = E(exp
it

X
) = exp
it

1
2
t

t
,
onde t um vetor real.
Prova: Anderson (1984, p. 46).
Anlise Multivariada
G. Amaral
Exerccio 5
Encontre e nas densidades:
a)
1
2
exp

1
2
[(x1)
2
+(y2)
2
]
b)
1
2
exp

1
2
[x
2
+y
2
+4x6y+13]
Exerccio 6
Prove que se positiva denida, tem-se
|| = |
11

12

1
22

21
||
22
|.
(Vide Anderson, 1984, p. 35).
Anlise Multivariada
G. Amaral
Exerccio 7
Se X N(, ), onde
=
_
_
0
0
0
_
_
e

1
=
_
_
7 3 2
3 4 1
2 1 2
_
_
,
qual a distribuio de X
1
+ 2X
2
3X
3
.
Exerccio 8 Quais so as densidades marginais de X e Y em (a)
e (b) do exerccio 5.
Anlise Multivariada
G. Amaral
Distribuio de (X )

1
(X )
Seja X distribuida como uma N(, ), com || > 0, os seguintes
resultados so vlidos:
1. (X )

1
(X )
2
p
.
2. P[(X )

1
(X )
2
p
] = 1 um elipsoide.
Anlise Multivariada
G. Amaral
Vericao da Hiptese de Normalidade Multivariada
1. Obter q-q plots e aplicar testes de normalidade (Kolmogorov
ou outro), para cada varivel individualmente.
2. Fazer diagramas de disperso (XY) e verique se o conjunto
dos pontos possuem aproximadamente a forma de uma
elipse.
3. Vericar se existem pontos aberrantes que precisam ser
cuidadosamente analisados.
Anlise Multivariada
G. Amaral
4 Calcular
d
2
j
= (x
j
x)

S
1
(x
j
x) j = 1, . . . , n,
onde x
1
, . . . , x
n
so as observaes amostrais.
Em seguida, vericar por um Q-Q plot se os d

j
s seguem uma
distribuio
2
p
.
Anlise Multivariada
G. Amaral
Estimao de Mxima Verossimilhana
Funo de Verossimilhana
Considere uma a.a. X
1
, . . . , X
n
onde X
i
tem f.d.p f (x
i
; ), onde
um vetor de parmetros. A funo de verossimilhana
denida como
L(x
1
, . . . , x
n
; ) =
n

i =1
f (x
i
; ).
O log da funo de verossimilhana dado por
l (x
1
, . . . , x
n
; ) =
n

i =1
log f (x
i
; ).
Anlise Multivariada
G. Amaral
Estimao de Mxima Verossimilhana
Funo de Verossimilhana
Considere uma a.a. X
1
, . . . , X
n
onde X
i
tem f.d.p f (x
i
; ), onde
um vetor de parmetros. A funo de verossimilhana
denida como
L(x
1
, . . . , x
n
; ) =
n

i =1
f (x
i
; ).
O log da funo de verossimilhana dado por
l (x
1
, . . . , x
n
; ) =
n

i =1
log f (x
i
; ).
Anlise Multivariada
G. Amaral
Estimao de Mxima Verossimilhana
Funo de Verossimilhana
Considere uma a.a. X
1
, . . . , X
n
onde X
i
tem f.d.p f (x
i
; ), onde
um vetor de parmetros. A funo de verossimilhana
denida como
L(x
1
, . . . , x
n
; ) =
n

i =1
f (x
i
; ).
O log da funo de verossimilhana dado por
l (x
1
, . . . , x
n
; ) =
n

i =1
log f (x
i
; ).
Anlise Multivariada
G. Amaral
Distribuio Normal
Caso da Normal Multivariada
l (x
1
, . . . , x
n
; ) =
n
2
log |2|
1
2
n

i =1
(x
i
)

1
(x
i
)
ou
l (x
1
, . . . , x
n
; ) =
n
2
log |2|
n
2
tr
1
S
n
2
( x)

1
( x).
(Vide Mardia et al, 1979, pp. 96-97).
Anlise Multivariada
G. Amaral
Distribuio Normal
Caso da Normal Multivariada
l (x
1
, . . . , x
n
; ) =
n
2
log |2|
1
2
n

i =1
(x
i
)

1
(x
i
)
ou
l (x
1
, . . . , x
n
; ) =
n
2
log |2|
n
2
tr
1
S
n
2
( x)

1
( x).
(Vide Mardia et al, 1979, pp. 96-97).
Anlise Multivariada
G. Amaral
Escores e Matrix de Informao
Funo Escore
S(x
1
, . . . , x
n
; ) =

l (X; )
Matriz de Informao de Fisher
F = E
_

2
l

_
Anlise Multivariada
G. Amaral
Estimadores de Mxima Verossimilhaa
O mximo de l (X; ) obtido quando
(l /) = 0,
para um certo valor

, que o estimador de mxima
verossimilhana de .
Exerccio 9 Verique que no exemplo 4.1.4 (Vide Mardia et al,
1979, p. 100) tm-se
l (X; ) = log cn log 4+x
1
log 2 ++(x
2
+x
3
)log(1)+x
4
log ,
s(X; ) =
l (X; )

=
x
1
2 +

x
2
+ x
3
1
+
x
4

e
F =
n(1 + 2)
2(1 )(2 +)
.
Anlise Multivariada
G. Amaral
Exerccio 10 Encontre o estimador de mxima verossimilhana
do exerccio 9 por solucionar a equao s(X; ) = 0.
Os problemas descritos acima tratam da distribuio descrita por
Fisher (1970, p. 305), que um experimento com 4 resultados
cujas as probabilidades destes resultados so
(2 +)/4, (1 )/4, (1 )/4 e /4. Esta distribuio uma
multinomial.
Anlise Multivariada
G. Amaral
Maximizando a Verossimilhaa da Normal
Multivariada
Log Verossimilhana
l (x
1
, . . . , x
n
; ) =
n
2
log |2|
n
2
tr
1
S
n
2
( x)

1
( x).
Estimadores
= x,

= S.
Para garantir que o ponto crtico o mximo, usa-se
Teorema Se A uma matrix p p xa, o mximo de
f () = ||
n/2
exp(
1
2
tr
1
A)
= n
1
A.
Anlise Multivariada
G. Amaral
Inferncia Bayesiana
(Vide Gelman et al, 1995, pp. 3-82).
1. Existe um modelo probabilstico completo, isto , uma
distribuio de probabilidade conjunta para todas as
quantidades observveis e no observveis.
2. Obter uma distribuio condicionada aos dados observados.
3. Avaliar o modelo e a distribuio obtida a posteriori. Caso o
modelo no seja adequado, as etapas 1, 2 e 3 devem ser
repetidas.
O pensamento Bayesiano facilita uma interpretao das
concluses estatsticas associadas ao bom senso.
Um intervalo de conana bayesiano para uma quantidade de
interese desconhecida pode ser considerado como tendo uma alta
probabilidade de conter o parmetro verdadeiro.
Por outro lado, o intervalo frequentista, no pode ter a mesma
interpretao. O que pode ser dito que em uma grande
quantidade de realizaes de um experimento espera-se que o
intervalo contenha o valor verdadeiro em uma grande proporo
destas realizaes.
Anlise Multivariada
G. Amaral
Notao Bayesiana
- Vetor de quantidades no observveis.
y - Dados observados
y - Quantidade desconhecida que, porm, potencialmente
observvel.
p() - Priori, representa o conhecimento subjetivo que o
pesquisador da rea de estudo (medicina, oceanograa,
engenharia) tm a respeito de .
p(y|) - Verossimilhana, representa as informaes provinientes
dos dados.
p(|y) - Posteriori, a distribuio nal que utilizada para
construir regies de conana e para testar hipteses.
Regra de Bayes
p(|y) = p()p(y|).
Anlise Multivariada
G. Amaral
Verossimillhana para um ponto da Normal univariada
Verossimilhana
P(y|) =
1

2
exp

1
2
2
(y)
2
Priori
p() exp(
1

2
0
(
0
)
2
),
N(
0
,
2
0
), onde
0
e
2
0
so hyperparmetros.
Posteriori
P(|y) exp(
1
2
_
(y )
2

2
+
(
0
)
2

2
0
_
Simplicandos-se (completando-se quadrados e etc),
P(|y) exp(
1
2
2
1
(
1
)
2
,
onde

1
=
1

2
0

0
+
1

2
y
1

2
+
1

2
e
1

2
1
=
1

2
0
+
1

2
.
Anlise Multivariada
G. Amaral
Normal Multivariada
Verossimilhana
P(y|, ) || exp
_

1
2
(y )

1
(y )
_
para uma amostra Y
1
, . . . , Y
n
,
P(y
1
, . . . , y
n
) ||
n/2
exp
n

i =1
(y
i
)

1
(y
i
)
Posterior Distribution
P(|y, ) exp
_

1
2
_
(
0
)

1
0
(
0
) +
n

i =1
(y
i
)

1
(y
i
)
__
,
ou ainda,
P(|y, ) = N(|
n
,
n
),

n
= (
1
0
+ n
1
)
1
(
1
0

0
+ n
1
y),

1
n
=
1
0
+ n
1
.
Anlise Multivariada
G. Amaral
Testes de Hipteses
Teste da Razo de Verossimilhana
Seja X
1
, . . . , X
n
uma a.a. de F(). Sejam H
0
:
0
e
H
1
:
1
. A razo de verossimilhana denida por
(x) =
L

0
L

1
,
onde L

i
o maior valor que a funo de verossimilhana assume
na regio
i
, i = 0, 1.
Para simplicar, usa-se a estatstica
2log = 2(l

1
l

0
),
onde l

1
= log L

1
e l

0
= log L

0
.
Anlise Multivariada
G. Amaral
Hiptese H
0
: =
0
, Conhecido
l

0
= l (
0
, ) =
1
2
nlog|2pi |
1
2
tr
1
S
1
2
n( x
0
)

1
( x
0
)
No existe restries para em H
1
, logo, E.M.V de x.
Usando-se a razo de verossimilana,
2log = 2(l

1
l

0
) = n( x
0
)

1
( x
0
)
Anlise Multivariada
G. Amaral
Hiptese H
0
: =
0
, desconhecido (Teste de
Hotelling para Uma Amostra)
deve ser estimado sob H
0
e H
1
.
Usando os resultados de Mardia et al (1979, pp. 102-108),
Sob H
0
, =
0
e

= S + dd

onde d = x
0
.
Sob H
1
, = x e

= S.
Logo,
l

0
= l (
0
, S +dd

) =
1
2
{plog2+log|S| +log(1+d

S
1
d)+p}
e l

1
= l ( x, S) obtido por colocar d = 0 na expresso acima.
Logo,
2log = 2(l

1
l

0
) = nlog(1 + d

S
1
d).
A estatstica
d

S
1
d
chamada de T
2
de Hotelling.
Anlise Multivariada
G. Amaral
A distribuio da estatstica
n p
p
d

S
1
d F
p,np
.
falicita o uso do teste acima em muitos problemas reais.
Anlise Multivariada
G. Amaral
Hiptese H
0
: =
0
, onde Desconhecido
Sob H
0
, temos = x e =
0
.
Sob H
1
, temos = x e = S
Logo,
l

0
= 12nlog|2
0
|
1
2
ntr
1
0
S,
l

1
= 12nlog|2|
1
2
np
e
2log = ntr
1
0
S nlog|
1
0
S| np.
Distribuio muito complexa, alternativas: bootstrap,
verossimilhana emprica.
Anlise Multivariada
G. Amaral
Se w e v so variveis aletrias unidimensionais independentes e
suas distribuies so
2

e
2

, respectivamente, o termo
w/v tm distribuio F
,
.
Distribuio de Wishart
Se M(p) pode ser escrita como M = X

X, one X(n) uma


matriz de dados de N(0, ), a distribuio da matriz M uma
Wishart com matriz de escala e com n graus de liberdade. A
forma padro da distribuio ocorre quando M = I .
A distribuio de Wishart denotada po W
p
(, n).
Anlise Multivariada
G. Amaral
No caso multivariado, Se A W(, m) e B W(, n) so
independentes, dene-se que
= |A|/|A + B| = |I + A
1
B|
1
(p, m, n),
onde (p, m, n) a distribuio lambda de Wilks.
Anlise Multivariada
G. Amaral
Teste T
2
de Hotelling para 2 Amostras
Se x e M so independentes e distribuidas como N(, ) e
W
p
(, m), respectivamente, tm-se
m(x )

M
1
(x ) T
2
(p, m),
onde T
2
(p, m) a distribuio de Hotelling com parmetros m e
p.
Theorem
T
2
(p, n) = {np/(n p + 1)} F
p,np+1
Logo,
{(n p)/p}( x )
1
( x ) F
p,np
Suponha duas amostras de tamanho n
1
e n
2
, onde n
1
+ n
2
= n.
Anlise Multivariada
G. Amaral
Teste de Hotelling p/ Duas Populaes
H
0
:
1
=
2
Considera-se que as matrizes de covarincia so iguais.
O ncleo da estatstica do teste
D
2
= ( x
1
x
2
)

S
1
c
( x
1
x
2
),
onde (S
c
= n
1
S
1
+ n
2
S
2
)/(n 2) a matriz de covarincia
combinada.
Usando os resultados anteriores, temos
n
1
n
2
(n p 1)
n(n 2)p
D
2
F
(p,np1)
.
Anlise Multivariada
G. Amaral
Problema de Vrias Amostras
Anlise de Varincia com um Fator
Considere
H
0
:
1
= . . . =
p
, dado que
1
= . . . =
k
Sob H
0
, os EMVs de e so x e S, respectivamente.
Sob H
1
, a log-verossimilhaa dada por
l

0
=
1
2
p

i =1
[n
i
log|2| + n
i
tr
1
(S
i
+ d
i
d

i
)],
onde S
i
a matriz de covarincia da i-sima amostra e
d
i
= x
i

i
.
O EMV de
i
x
i
e
l

0
=
1
2
log|2|
1
2
tr
1
W, onde W =
p

i =1
n
i
S
i
.
Derivando a equao acima com respeito a e igualando a zero,
temos

= n
1
W.
Anlise Multivariada
G. Amaral
Problema de Vrias Amostras
W = soma de quadrados e produtos (SQP) dentro dos grupos
A razo das verossimilhanas dada por
=
_
|W|
|nS|
_
n/2
= |T
1
W|
n/2
,
onde T = nS a SQP total.
Como W a SQPD e T a SQPT, temos a seguinte relao
B = T W = n
i
( x
i
x)( x
i
x)

,
onde a matriz B considerada a SQP entre os grupos ou SQPE.
Logo podemos escrever
=
|W|
|B + W|
= |I + W
1
B|
1
.
Antes de determinar a distribuio desta estatstica, necessrio
introduzir algumas denies.
Anlise Multivariada
G. Amaral
Exerccio 11 A densidade de uma normal bivariada
Existe uma elipse associada a esta densidade. Os eixos e faa um
grco desta elipse.
Exerccio 12 Se X N(0, ), onde
=
_
4 2
2 1
_
,
Ache a tal que X = a

Y e Y tem distribuio normal no


singular. Apresente a densidade de Y.
Anlise Multivariada
G. Amaral
Exerccio 13 Considere (X
1
, Y
1
)

, (X
2
, Y
2
)

, (X
3
, Y
3
)

, onde
(X
i
, Y
i
)

so i.i.d com distribuio N(, ), com

= (
x
,
y
)
e
= .
Anlise Multivariada
G. Amaral
Anlise de Agrupamento
Histrico
Hindus usaram o sexo, caractersticas fsicas e comportamentais
para classicar pessoas em seis tipos, os quais eles usaram nomes
de animais.
Romanos usaram Caratersticas Fsicas e gregos nove
temperamentos.
Existem muitos critrios para classicar, o genro, a espcie e
outros.
Anlise Multivariada
G. Amaral
Matriz de Dados
X =
_
_
_
x
11
. . . x
1p
.
.
.
.
.
.
.
.
.
x
n1
. . . x
np
_
_
_
,
Classicao das tcnicas de agrupamento:
i)Tcnicas Hierrquicas;
ii)Tcnicas de Partio-Otimizao.
Anlise Multivariada
G. Amaral
Idia geral de alguns mtodos:
1)Clculo das distncias;
2)Algoritmo para agrupar as observaes.
Distncia Euclideana
A distncia entre os objetos "i"e "j"pode ser calculada por
d(x
i
, x
j
) =
_
(x
i 1
x
j 1
)
2
+, . . . , +(x
ip
x
jp
)
2
Anlise Multivariada
G. Amaral
Mtodos Aglomerativos
Inicia com o clculo das distncias ou similaridades entre os
objetos, o que produz uma matriz n n com estas medidas.
Como existem vrios mtodos para calcular distncias ou
similaridades, existir para um certo mtodo aglomerativo vrias
opes.
Alm das medidas de distncias e similaridades, fundamental
estabelecer o algoritmo utilizado para formar os grupos de
entidades.
Anlise Multivariada
G. Amaral
Mtodo do Vizinho Mais Prximo
Inicialmente, se existem n indivduos, existiro n grupos. Em
cada etapa existe uma fuso entre os grupos mais prximos.
Exemplo:
Suponha que a matriz de distncias :
D
1
=
_
_
_
_
_
_
0.0 2.0 6.0 10.0 9.0
2.0 0.0 5.0 9.0 8.0
6.0 5.0 0.0 4.0 5.0
10.0 9.0 4.0 0.0 3.0
9.0 8.0 5.0 3.0 0.0
_
_
_
_
_
_
,
No primeiro passo, ocorre o agrupamento de 1 e 2, e novas
distncias so calculadas usando
d
(12)3
= Min{d
13
, d
23
} = d
23
= 5.0
A nova matriz :
D
2
=
_
_
_
_
0.0 5.0 9.0 8.0
5.0 0.0 4.0 5.0
9.0 4.0 0.0 3.0
8.0 5.0 3.0 0.0
_
_
_
_
,
No passo seguinte, as observaes 4 e 5 so agrupadas, e tm-se:
D
3
=
_
_
0.0 5.0 8.0
5.0 0.0 4.0
8.0 4.0 0.0
_
_
,
Anlise Multivariada
G. Amaral
Mtodo da Ligao Completa
As mesmas etapas devem ser seguidas. Porm, em cada
agrupamento a nova distncia deve ser calculada como
d
(12)3
= max{d
13
, d
23
} = d
13
= 6.0
Anlise Multivariada
G. Amaral
Mtodo do Centride
Calcula-se a matriz de distncias entre todos os objetos. Os
objetos com a menor distncia iro forma um novo grupo.
Calcula-se o centride de um novo grupo e usa-se esta medida
para obter a matriz distncia relativa a este grupo.
A distncia entre os grupos calculada como a distncia entre os
centrides dos grupos.
Anlise Multivariada
G. Amaral
Distncias, Similaridades e seus Axiomas
1. D(x, y) 0;
2. D(x, y) = 0 sse x = y;
3. D(x, y) = D(y, x), x, y R
d
;
4. D(x, y) D(x, z) + D(y, z), x, y, z R
d
;
1. s(A, B) = s(B, A)
2. s(A, B) > 0
3. s(A, B) similaridade entre A e B
Anlise Multivariada
G. Amaral
Medidas de Distncia
Nome Frmula
Euclideana
_

p
j =1
w
j
(x
rj
x
sj
)
2
_
1/2
Karl Pearson w
j
1
s
2
k
Mahalanobis {(x
r
x
s
)
1
(x
r
x
s
)}
1/2
Manhanttan

p
j =1
w
j
|x
rj
x
sk
|
Tabela: Distncias, Mardia et al. (1979, p. 381)
Variveis Qualitativas
r =
ad bc
(a + b)(c + d)(a + c)(b + d)
.
Anlise Multivariada
G. Amaral
Mtodo de K-Mdias
Este mtodo adiciona cada item ao grupo que tem o centride
(mdia) mais prxima.
A verso mais simples deste mtodo tm as seguintes etapas:
1. Decidir qual o valor de K
2. Particionar os itens em K grupos
3. Para cada item, vericar que grupo mais prximo. Caso
exista um grupo mais prximo do item do que seu grupo
atual, retirar este item do grupo atual e recoloc-lo no
grupo mais prximo. Em seguida, os novos centrides de
cada grupo devem ser recalculados.
4. repetir a etapa 3 at que nenhum item precise ser movido.
Anlise Multivariada
G. Amaral
Anlise Discriminante
Considere g populaes ou grupos
1
, . . . ,
g
, onde se x
i

j
ento x
i
f
j
(x).
O objetivo alocar um certo objeto "i"a uma das populaes
j
,
usando o vetor de variveis x
i
.
Esta alocao deve minimizar o erro de classicao.
Duas situaes principais de classicao:
a)Anlise de Agrupamento - A populao do objeto "i"no
conhecida (classicao no supervisionada)
b)Anlise discriminante - A populao do objeto "i" conhecida
(classicao supervisionada)
Anlise Multivariada
G. Amaral
Modelos de Classicao
Existem 2 principais casos de interesse:
1. A f.d.p. associada a
j
f
j
(x), isto , uma densidade de
forma conhecida;
2. Um mtodo emprico, onde nenhuma forma particular para a
f.d.p. associada a
j
assumida.
Regra de alocao: Alocar o objeto x a uma das populaes

1
, . . . ,
g
que produz o maior valor da verossimilhana para x.
Assim,
L
i
(x) = Max
i
L
i
(x).
Para os prximos exemplos, considere que
P(L
i
(x) = L
k
(x)para algum i = k|
i
) = 0.
Distribuio Normal: Caso de duas Populaes

1
= N(
1
,
2
1
)

2
= N(
2
,
2
2
)
L
i
(x) = (2
2
i
)
1/2
exp
_

1
2
_
x
i

i
_
2
_
.
Anlise Multivariada
G. Amaral
=
L
1
(x)
L
2
(x)
=

2

1
exp
_

1
2
_
_
x
1

1
_
2
+
_
x
2

2
_
2
__
> 1
Simplicando,
x
2
_
1

2
1

2
2
_
2x
_

2
1

2
2
_
+
_

2
1

2
1


2
2

2
2
_
< 2 log

2

1
Esta regra utilizada para alocar x a
1
ou
2
.
Teorema
Se = N
p
(
i
, ), i = 1, . . . , g e > 0, x alocado a
j
se
(x
j
)

1
(x
j
)
o valor mnimo de a

1
a
i
, onde a
i
= (x
i
), para
i = 1, . . . , g.
Anlise Multivariada
G. Amaral
Quando g = 2, a regra alocar x a
1
se

(x ) = [
1
(
1

2
)]

(x
1
2
(
1

2
))
= (
1

2
)

1
(x

1
2


2
2
) > 0.
Anlise Multivariada
G. Amaral
Estimando a Regra Discriminante
Condies:
1. Matriz de Dados X(n p);
2.
1
, . . . ,
g
so conhecidos com f
i
(, ) normal, e e
devem ser estimados;
3. As linhas de X so particionadas em g grupos
X

= (X

1
, . . . , X

g
);
4. x
1
, . . . , x

g
e S
u
=
P
n
i
S
i
(ng)
so os estimadores no viesados de

1
, . . . ,
g
e .
Se g = 2, A regra alocar x a
1
se
( x
1
x
2
)S
1
{x 1/2( x
1
+ x} > 0.
Anlise Multivariada
G. Amaral
Componentes Principais
A mdia representa uma combinao linear que dada por
1
5
1x = (
1
5
1
5
1
5
1
5
1
5
)

x.
Porm, esta combinao linear atribui o mesmo peso todas as
variveis.
O mtodo de componentes principais fornece uma combinao
linear com pesos diferentes.
Denio
Se x um vetor aleatrio com mdia e matriz de covarincia
, as componentes principais so denidas por
y =

(x ),
onde ortogonal,

= = diag{
1
, . . . ,
p
.}
Tem-se que
1

2
. . .
p
0 e a matriz de
autovetores.
Anlise Multivariada
G. Amaral
Teorema Se x (, ), a transformao y =

(x ) satisfaz
os seguintes resultados
a)E(Y
i
) = 0
b) V(Y
i
) =
i
c) Cov(Y
i
, Y
j
) = 0, i = j
b)V(Y
1
) V(Y
2
) . . . V(Y
p
) 0
e)

p
i =1
V(Y
i
) = tr
f)

p
i =1
V(Y
i
) = ||
Teorema: Nenhuma combinao linear de x tem varincia maior
do que
1
, a varincia da primeira componente principal.
Anlise Multivariada
G. Amaral
Se = a

x uma combinao linear de x que no


correlacionada com as com as primeiras k componentes
principais de x, ento a varincia de maximizada quando
a (k + 1)sima componente principal.
Componentes Principais Amostrais
X = (x
1
, . . . , x
n
)
Xa uma soma ponderada das colunas de X.
V(Xa) = a

Sa
Primeira componente principal
Y
(1)
= (X 1

)e
(1)
e
Y
(i )
= (X 1

)e
(i )
.
O conjunto dos componentes principais dado por
Y = (X 1

)G.
Anlise Multivariada
G. Amaral
Propriedades das Componentes Principais
a)A proporo da variabilidade explicada pelas k componentes
principais dado por
(
1
+. . . +
k
)
(
1
+. . . +
p
)
.
b)Componentes principais so afetadas por mudana de escala.
Isto pode ser solucionada por padrozinar as variveis ou usar a
matriz de correlao.
c)O posto de x = r < p, a variabilidade total pode ser explicada
pelas r primeiras componentes.
d)Elipside
(x )S
1
(x ) = T

Anlise Multivariada
G. Amaral
Eliminao de Componentes
hipteses
H
0
:
p
=
p1
= . . . =
k+1
.
O log da estatstica da razo de verossimilhana dada por
2log = np(a 1 log g),
onde a e g so as mdias geomtricas dos autovalores de

1
S,
onde

de . Os autovalores de S so os mesmos de

.
Sejam a
0
=
(
k+1
,...,+
p
)
(pk)
e g
0
= (
k+1
, . . . ,
p
).
A estatstica para testar a hiptese acima, com a aplicao da
correo de Bartlett, dada
(n
2p + 11
6
)(p k) log(
a
0
g
0
)
2
(pk+2)(pk1)/2,
O mesmo pode ser feito com a matriz de correlao (Vide
Mardia et al (1979, p. 236).
Anlise Multivariada
G. Amaral
Componentes Principais e Anlise de Regresso
Para vrias explicativas muito correlacionadas, o mtodo de
componentes principais torna-se uma boa alternativa.
O critrio de escolha das componentes no mais o teste
anteriormente descrito. Este critrio o mesmo usado para as
variveis explicativas do modelo de regresso, onde estas
variveis explicativas so as componentes principais.
As principais vantagens do uso de componentes principais em
anlise regresso so:
O uso de componentes principais faz com que todas as variveis
possam ser utilizadas na anlise.
As componentes principais permitem que o efeito individual de
cada varivel seja melhor quanticado.
Anlise Multivariada
G. Amaral
Formulao do Modelo
Modelo de regresso
y = X +, onde N(0,
2
H) e H = I n
1
11

.
O modelo de regresso com as componentes principais W = XG
denido como
y = W +,
onde = G

.
Anlise Multivariada
G. Amaral
Regresso Mltipla Multivariada
Modelo
Y
(nm)
= Z
n(p+1)

(p+1)m)
+
(nm)
,
onde
Z =
_
_
_
z
11
z
12
. . . z
1m
.
.
.
.
.
.
.
.
.
.
.
.
z
n1
z
n2
. . . z
nm
_
_
_
=
_
_
_

01

02
. . .
0m
.
.
.
.
.
.
.
.
.
.
.
.

p1

p2
. . .
pm
_
_
_
=
_
_
_

11

12
. . .
1m
.
.
.
.
.
.
.
.
.
.
.
.

n1

n2
. . .
nm
_
_
_
Anlise Multivariada
G. Amaral
Anlise Multivariada
G. Amaral
Anlise Multivariada
G. Amaral
Anlise Multivariada
G. Amaral
Anderson, T. W., (1971). An Introduction to Multivariate
Statistical Analysis, John Wiley & Sons, New York.
Everitt, B., (1974). Cluster Analysis , Heinemann
Educational Books, London.
Mardia, K. V., Kent, J. T. and Bibby, J. M. (1979).
Multivariate Analysis, Academic Press, London.
Anlise Multivariada
G. Amaral
Critrios de Avaliao - Atlas Banco de Dados
1. Usar latex;
2. Usar R ou OX;
3. A avaliao competitiva, isto , o melhor trabalho recebe a
melhor nota e fora a reduo das notas dos outros
trabalhos;
4. Justicar a escolha das variveis e o objetivo de sua anlise;
5. Usar as informaes dos livros porque as notas de aula so
apenas slides;
6. Explicar os modelos utilizados (equaes e idias);
7. Colocar referncias bibliogrcas;
8. Escrever notas explicativas nos programas desenvolvidos e
colocar todos os programas em um apndice.
As melhores anlises sero enviadas para secretaria de
planejamento da cidade do Recife. Nossa expectativa receber
alguma retroalimentao.
Anlise Multivariada
G. Amaral
Calendrio
Prova 17.10.06
Anlise do Banco de Dados:
Atlas (Recife) 24.10.06
Seminrio: 19.10.06
Anlise Multivariada
G. Amaral
Os trabalhos entregues 2 dias antes do prazo tm um acrscimo
de 20% no valor da nota.
Mtodo Data
da En-
trega
Abrao Fbio Juliana
Agrupamento 24.10 2,6 2,4 2,2
Discriminante 10.11 2,6 2,4 2,4
Componentes
Principais
20.11 2,4 2,4 2,2
Regresso
Multivariada
30.11 2,6 2,4 2,3
Tabela: Cronograma e Avaliao
Anlise Multivariada
G. Amaral
Os alunos Jos Luis e Edson j esto reprovados.
Aluno SeminrioProva Anlise
Dados
Mdia
Final
Abrao 9,5 7,5 10 9,0
Edson 4 0,7 0
Fbio 8,5 7,0 9,6 8,4
Jose Luis 5 0 0
Juliana 8,5 4,5 9.1 7,4
Tabela: Resultados Parciais