Você está na página 1de 31

A N ÁLISE E STAT ÍSTICA M ULTIVARIADA

Ralph S. Silva
http://www.im.ufrj.br/ralph/multivariada.html

Departamento de Métodos Estatı́sticos


Instituto de Matemática
Universidade Federal do Rio de Janeiro
Análise Estatı́stica Multivariada

Sumário

Regressão Linear Multivariada


Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Regressão Linear Multivariada


O caso univariado
Sejam z1 , z2 , . . . , zr r covariáveis relacionadas a uma variável resposta y .
O modelo de regressão linear múltiplo univariado é dado pela equação:

y = β0 + β1 z1 + · · · + βr zr + ε
|{z}
|{z} | {z }
resposta média; parte estrutural erro; parte aleatória

O modelo é dito linear, pois a parte estrutural é linear nos parâmetros βj ,


j = 1, 2, . . . , r .
Se dispomos de n observações independentes, então

yi = β0 + β1 z1i + · · · + βr zri + εi , i = 1, 2, . . . , n.

Suposições:
S1: E(εi ) = 0, ∀i = 1, 2, . . . , n.
S2: Var(εi ) = σ 2 , ∀i = 1, 2, . . . , n (homocedasticidade).
S3: Cov(εi , εk ) = 0, ∀i 6= k , i, k ∈ {1, 2, ..., n}.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Na notação matricial, tem-se

y = |{z}
Z β + |{z}
ε ,
|{z} |{z}
n×1 n×(r +1) (r +1)×1 n×1

com
S1: E(ε) = 0;
S2 e S3: Var(εi ) = σ 2 I n ;
   
y1 1 z11 z12 ... z1r
 y2   1 z21 z22 ... z2r 
y =  . ; Z =  .. .. .. .. ;
   
 ..  ..
 . . . . . 
yn 1 zn1 zn2 ... znr
   
β0 ε1
 β1   ε2 
β =  . ; e ε= ..
   
 .. 

 . 
βr εn
Observe que ainda não fizemos nenhuma suposição a cerca da distribuição
dos erros.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Para efeito de obter os estimadores de mı́nimos quadrados, de fato, não é


necessária nenhuma suposição sobre a distribuição da parte aleatória.
Porém, para fins de inferência, será necessário.

Estimadores de Mı́nimos Quadrados


Suponha que a matriz Z seja de posto completo tal que suas colunas
formam um conjunto de vetores linearmente independentes. Neste caso, a
matriz Z 0 Z é não-singular e o estimador de mı́nimos quadrados do vetor β é
dado por
b = (Z 0 Z )−1 Z 0 y.
β
Os valores ajustados são, então, dados por

y b = Z (Z 0 Z )−1 Z 0 y = Hy,
b = Zβ where H , Z (Z 0 Z )−1 Z 0 ,

e os resı́duos

ε=y −y
b b = [I − H]y = Py, where P , I − H,

satisfazendo as seguintes relações (somente quando houver a constante β0


no modelo)
Z 0b
ε=0 e y b0b
ε = 0.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Temos que H e P são matrizes idempotentes (H = HH e H = H 0 ).

A soma de quadrados de resı́duos é


Xn
SQRes = ε0 b
(yi − ybi )2 = b ε = y 0 Py = y 0 y − y 0 Z β.
b
i=1

Observe que
Xn
yi2 = y 0 y = (y − y b )0 (y − y
b+y b+y b0 y
b) = y ε0 b
b+b ε.
i=1
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

O R2 e a Geometria dos Mı́nimos Quadrados


Xn
ε0 b
ε (ybi − y )2
2
R = 1 − Xn = Xi=1
b
n .
(yi − y)2 (yi − y )2
i=1 i=1

I R2 fornece a proporção da variação total dos yi ’s que é “explicada” pelas


covariáveis.
I Por um lado, R2 seria igual 1 se a equação do modelo se ajustasse
perfeitamente aos dados.
I Por outro lado, R2 seria zero se βb0 = y e os demais seriam todos nulos.
Neste caso, as covariáveis não exerceriam nenhuma influência sobre a
resposta.
I R2 deve ser olhado com cuidado na verificação do modelo, pois valores
altos de R2 não necessariamente implicam que o modelo ajustado é
bom. Além dessa medida é fundamental realizar uma análise dos
resı́duos.
I Além disso, um R2 não tão elevado, para um modelo ajustado cuja
análise de resı́duos foi boa, pode ser considerado.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Considere o modelo
y = Z β + ε.
E(y) = Z β é uma combinação linear das linhas da matriz Z com
coeficientes β0 , β1 , . . . , βr .

A medida que β varia, Z β gera o “plano modelo” de todas as combinações


lineares das colunas de Z .

Geralmente, o vetor observado y não pertencerá ao plano modelo devido ao


erro aleatório. Isto é, y não é uma combinação linear das colunas de Z .

Uma vez que as observações tornam-se disponı́veis, a solução de mı́nimos


quadrados é obtida a partir do vetor desvio dado por
y − Zβ
|{z} |{z}
vetor de observação vetor no plano modelo
O quadrado do módulo deste vetor é
S(β) = (y − Z β)0 (y − Z β)
Supondo n = 3 e r = 1 é possı́vel fazer uma representação da geometria
dos mı́nimos quadrados.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

I b é tão pequeno quanto possı́vel, quando β


S(β) b é selecionado tal que
Zβb é o ponto no plano modelo mais próximo do vetor de observação.
I De fato, Z βb é a projeção ortogonal do vetor de observação y sobre o
plano modelo.
I O vetor bε é ortogonal ao plano modelo.
I Como y b = Zβ b = Z (Z 0 Z )−1 Z 0 y = Hy, dizemos que H é a matriz de
projeção ortogonal do vetor de observações sobre o plano modelo Z β.
I Similarmente, P é a matriz de projeção de y sobre o plano
perpendicular ao modelo.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Inferências sobre os parâmetros


Sob o modelo y = Z β + ε com E(ε) = 0 e Var(ε) = σ 2 I, o estimador de
b = (Z 0 Z )−1 Z 0 y. Então,
mı́nimos quadrados de β é β

E(β)
b = β,
Var(β)
b = σ 2 (Z 0 Z )−1 ,
E(b
ε) = 0, e
Var(b
ε) = σ 2 P.

Observe que apesar dos erros serem supostos independentes, os resı́duos


não o serão necessariamente, pois a matriz P = I − H pode não ser
diagonal.

Temos que
ε0 b
E(b ε) = (n − r − 1)σ 2 ,
ε0 b
ε y 0 Py
tal que s2 = é um estimador não tendencioso de σ 2 .
b
=
n−r −1 n−r −1
Além disso, β
b eb
ε são não correlacionados.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Para ir adiante nas inferências impõe-se a necessidade de se fazer


suposições sobre a distribuição dos erros.

A suposição adicional aqui é ε ∼ Nn (0, σ 2 I).


b é o estimador de
Com esta suposição adicional, é possı́vel provar que β
máxima verossimilhança de β. Além disso,
b ∼ Nr +1 (β, σ 2 (Z 0 Z )−1 )
β

e
(n − r − 1)s2 ε0 b
ε
= 2 ∼ χ2n−r −1 .
b
σ 2 σ
Podemos então construir uma região de confiança conjunta para β usando
b 0 Z 0 Z (β − β)
(β − β) b
2
∼ (r + 1)Fr +1,n−r −1 .
s
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Intervalos simultâneos de 100(1 − α)% para os βi ’s

q p
IC100(1−α)% (βi ) = βbi ± Var(
d βbi ) (r + 1)Fr +1,n−r −1,1−α , i = 0, 1, . . . , r ,

d βbi ) o i-ésimo elemento da diagonal de s2 (Z 0 Z )−1 .


sendo Var(

É comum ignorar a simultaneidade dos intervalos trabalhando-se com os


intervalos separados que são mais estreitos.
q
IC100(1−α)% (βi ) = βbi ± Var(
d βbi )tn−r −1,1−α/2 .

Neste caso deve-se atentar para o fato de que aqui a confiança não é
simultânea para os r + 1 intervalos.

Uma abordagem que é interessante de ser usada aqui é a abordagem de


Bonferroni.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Inferências a partir da função de regressão estimada

Estimação da média de uma observação nova E(y0 |z 0 ), com


z 00 = (1, z01 , . . . , z0r ).

A média é dada por E(y0 |z 0 ) = β0 + β1 z01 + · · · + βr z0r = z 00 β.


\ 0b
Logo, E(y0 |z 0 ) = z 0 β.

Temos que
z 00 β
b ∼ N (z 00 β, σ 2 z 00 (Z 0 Z )−1 z 0 ).

O intervalo de 100(1-α)% de confiança para z 00 β é dado por


q
IC100(1−α)% (z 00 β) = z 00 β
b ± tn−r −1,1−α/2 s2 z 0 (Z 0 Z )−1 z 0 .
0
Análise Estatı́stica Multivariada
Regressão Linear Multivariada
Revisão: Regressão Linear (Univariada) Múltipla

Previsão de uma nova observação, quando z = z 0


O intervalo de previsão 100(1-α)% de confiança para y0 é dado por
q
IC100(1−α)% (y0 ) = z 00 β
b ± tn−r −1,1−α/2 s2 (1 + z 0 (Z 0 Z )−1 z 0 ).
0

Alguns outros tópicos que devem ser revisados pelo aluno:

I Verificação do ajuste e outros aspectos da regressão.


I Análise de resı́duos.
I Pontos de alavanca e de influência.
I Seleção de covariáveis.
I Comparação de modelos.

Exercı́cios do capı́tulo 7 para entregar:


1, 2, 3, 6, 8 e 9.

FAÇAM TODOS OS EXERC ÍCIOS !


Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Regressão Linear Multivariada


Suponha que a variável resposta y é p-variada e que z1 , z2 , . . . , zr
representam r covariáveis escalares.

O modelo de regressão linear múltiplo multivariado é dado pelas equações:

y1,i = β01 + β11 z1,i + · · · + βr 1 zr ,i + ε1,i


y2,i = β02 + β12 z1,i + · · · + βr 2 zr ,i + ε2,i
.. .. ..
. . .
yp,i = β0p + β1p z1,i + · · · + βrp zr ,i + εp,i

para i = 1, 2, . . . , n, sendo ε0i = (ε1,i , ε2,i , . . . , εp,i ).

Suposições:
I E(ε) = 0; e
I Var(ε) = Σ, uma matriz p × p simétrica e positiva definida.
Portanto, os termos de erro associados com diferentes componentes do
vetor resposta podem ser correlacionados.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Na notação matricial, tem-se

Y = |{z}
|{z} Z β + |{z}
ε
|{z}
n×p n×(r +1) (r +1)×p n×p

com
···
 
y11 y12 y1p
 y21 y22 ··· y2p   
Y = .. .. ..  = y 1, y 2, . . . , y p ,
 
 ..
 . . . . 
yn1 yn2 ··· ynp
···
 
1 z11 z12 z1r
 1 z21 z22 ··· z2r 
Z = .. .. .. ..  = [1, z 1 , z 2 , . . . , z r ] ,
 
 ..
 . . . . . 
1 zn1 zn2 ··· znr
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

···
 
β01 β02 β0p
 β11 β12 ··· β1p   
β = .. .. ..  = β1 , β2 , . . . , βp , e
 
 ..
 . . . . 
βr 1 βr 2 ··· βrp
···
 
ε11 ε12 ε1p
 ε21 ε22 ··· ε2p 
ε = .. .. ..  = [ε1 , ε2 , . . . , εp ] .
 
 ..
 . . . . 
εn1 εn2 ··· εnp
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Y = |{z}
Suposições do Modelo |{z} Z ε :
β + |{z}
|{z}
n×p n×(r +1) (r +1)×p n×p

I E(εj ) = 0, e
I Cov(εj , εk ) = σjk I n , para j, k = 1, 2, . . . , p.

As p medidas sobre a i-ésima observação têm matriz de covariância dada


por Σ, mas medidas provenientes observações diferentes são não
correlacionadas.

Temos que β e Σ são desconhecidos.

Observe que a j-ésima coluna da matriz resposta segue o modelo linear


univariado múltiplo dado por

y j = Z β j + εj , para j = 1, 2, . . . , p.

com Var(εj ) = σjj I n .


Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Estimação de Mı́nimos Quadrados:


b = (Z 0 Z )−1 Z 0 Y .
B,β

Matriz de somas de quadrados e produtos cruzados:

(Y − Z B)0 (Y − Z B).

Valores ajustados:
b = Z B = Z (Z 0 Z )−1 Z 0 Y
Y
Resı́duos:
b = Y − Z B = [I − Z (Z 0 Z )−1 Z 0 ]Y .
ε=Y −Y
b
Propriedades:
Z 0b 0
ε = |{z} e b 0b
Y 0 ;
ε = |{z}
(r +1)×p p×p

0
Y 0Y = Y
b Y ε0 b
b +b ε; e
0 0 0 0
εb
b ε = Y Y − B (Z Z )B.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Para o estimador de mı́nimos quadrados B e com a matriz Z de posto


completo, tem-se

E(B) = β,
Cov(β
b ,β
j
b )
k = σjk (Z 0 Z )−1 ,
E(b
ε) = 0
|{z} , e
matriz nula
1
E( ε0 b
ε) = Σ.
n−r −1
b

Beb
ε são não correlacionados.

Estimador não tendencioso de Σ:


ε0 b
ε
S=
b
.
n−r −1
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Inferências a partir da função de regressão estimada

Suponha que o modelo Y = Z β + ε, com erros normais tenha sido ajustado.


Se o ajuste for considerado bom, ele poderá ser usado para fins de previsão.

Um problema é prever a média correspondente a um vetor de covariáveis z 0 .

Inferências sobre a média podem ser feitas usando-se os mesmos


resultados estudados no caso univariado.

B 0 z 0 ∼ Np (β 0 z 0 , z 00 (Z 0 Z )−1 z 0 Σ)

e
b ∼ Wp (n − r − 1, Σ),
nΣ independentemente.
Intervalos-T simultâneos de 100(1-α)% de confiança para E(yk |z 0 ) = z 00 β k :
2

s s  
0b p(n − r − 1) n
z 0 βk ± Fp,n−r −p,1−α z 00 (Z 0 Z )−1 z 0 σ
bkk ,
n−r −p n−r −1

para k = 1, 2, . . . , p.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

O outro problema está voltado para a previsão de uma nova resposta y 0


dado o vetor de covariáveis z 0 .

Agora,
y 0 ∼ Np (β 0 z 0 , (1 + z 00 (Z 0 Z )−1 z 0 )Σ).
E, assim, intervalos simultâneos de previsão de 100(1-α)% para a k -ésima
componente de y 0 , y0,k , k = 1, 2, . . . , p, são dados por
s s  
0b p(n − r − 1) 0 0 −1
n
z 0 βk ± Fp,n−r −p,1−α (1 + z 0 (Z Z ) z 0 ) σ
bkk ,
n−r −p n−r −1
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

O Conceito de Regressão Linear

O modelo de regressão linear clássico diz respeito à associação entre uma


variável dependente (ou resposta) y e uma coleção de covariáveis
z1 , z2 , . . . , zr .

O modelo que consideramos trata y como uma variável aleatória cuja média
depende dos valores fixados das covariáveis.

A média é uma função linear dos coeficientes da regressão β0 , β1 , . . . , βr .

O modelo de regressão linear também surge numa configuração diferente.

Suponha que todas as variáveis y , z1 , z2 , . . . , zr são variáveis aleatórias e


têm uma distribuição conjunta com média µ de dimensão (r + 1) × 1 e
variância Σ de dimensão (r + 1) × (r + 1).
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Particionando µ e Σ de forma apropriada temos


   
µy σyy Σyz
µ= e Σ= ,
µz Σzy Σzz
com
Σyz = [σyz1 , σyz2 , . . . , σyzr ].
Σzz é suposta ser não singular. Se isso não acontecer, significa que pelo
menos uma das covariáveis é combinação linear das demais, de modo que
esta covariável é redundante e pode ser eliminada do problema.

Preditor Linear:
b 0 z,
βb0 + βb1 z1 + · · · + βbr zr = βb0 + β com βb0 = (βb1 , βb1 , . . . , βbr ).
Para um preditor dessa forma, o erro de previsão é dado por:
0
y − βb0 − β
b z.

Como este erro é aleatório, costuma-se escolher βb0 e β


b de modo a minimizar
o erro quadrático médio
b 0 z]2 .
 
EQM = E [y − βb0 − β
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

O EQM depende da distribuição conjunta de y e z somente através de µ e Σ.

É possı́vel expressar o preditor linear ótimo em função dessas quantidades.

Resultado:

O preditor linear β0 + β 0 z com coeficientes β = Σ−1 0


zz Σzy , β0 = µy − β µz tem
EQM mı́nimo entre todos os preditores lineares de y . Além disso,

b 0 z]2 = σyy − Σyz Σ−1


 
E [y − βb0 − β zz Σzy .

Também β0 + β 0 z é o preditor linear de maior correlação com y dada por


s
Σyz Σ−1
zz Σzy
.
σyy
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Esse coeficiente de correlação é chamado coeficiente de correlação múltiplo


da população e será denotado por ρy(z) .
s
Σyz Σ−1
zz Σzy
ρy(z) = .
σyy

Observe que este coeficiente de correlação múltiplo, diferente dos outros


varia entre 0 e 1.

O quadrado do coeficiente de correlação múltiplo populacional é chamado


coeficiente de determinação populacional.

O coeficiente de determinação populacional tem uma interpretação


importante. O EQM em usar β0 + β 0 z para prever y é

σyy − Σyz Σ−1 2 2


zz Σzy = σyy − σyy ρy (z) = σyy (1 − ρy(z) ).

Se ρy (z) = 0, z não acrescenta nenhum poder de previsão. No outro extremo,


y pode ser perefeitamente explicada por z.
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Previsão de Várias Variáveis

A extensão destes resultados para a previsão de várias respostas


y1 , y2 , . . . , yp é quase imediata.

Suponha  
y p×1
∼ Np+r (µ, Σ)
z r ×1
com    
µy Σyy Σyz
µ= e Σ= .
µz Σzy Σzz
Vimos que
E(y|z1 , z2 , . . . , zr ] = µy + Σyz Σ−1
zz (z − µz ).

este valor esperado condicional, considerado como uma função de


z1 , z2 , . . . , zr é chamado vetor de regressão multivariada de y em z.

Ele compõe-se de p regressões múltiplas univariadas.


Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Por exemplo, o primeiro componente do vetor de média condicional é:

µy1 + Σy1 z Σ−1


zz (z − µz ) = E(y1 |z1 , z2 , . . . , zr )

que minimiza o erro de previsão nesse componente.

A matriz β p×r = Σyz Σ−1


zz é chamada matriz de coeficientes de regressão.

O vetor de erro de previsão é:

v = y − µy − Σyz Σ−1
zz (z − µz ) e E(vv 0 ) = Σyy.z = Σyy − Σyz Σ−1
zz Σzy .

Como µ e Σ costumam ser desconhecidos, eles devem ser estimados.


Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Os estimadores de máxima verossimilhança da função de regressão são


dados por:
y + S yz S −1
zz (z − z), e

b yy.z = n − 1 (S yy − S yz S −1
Σ zz S zy ).
n
Observação: a coleção y1 , y2 , . . . , yp , z1 , z2 , . . . , zr leva as seguintes
equações de previsão:

yb1 = βb01 + βb11 z1 + · · · + βbr 1 zr


yb2 = βb02 + βb12 z1 + · · · + βbr 2 zr
.. .. ..
. . .
ybp = βb0p + βb1p z1 + · · · + βbrp zr .

1. Os mesmos valores z1 , z2 , . . . , zr são usados para prever cada yi .


2. Os βbjk são estimativas das entradas (j, k ) da matriz β = Σyz Σ−1zz .
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Coeficiente de Correlação Parcial

 
y p×1
Considere ∼ Np+r (µ, Σ).
z r ×1

O coeficiente de correlação parcial entre yj e yk eliminando-se z é definido


por
σyj yk .z
ρyj yk .z = √
σyj yj .z σyk yk .z

com σyj yk .z a entrada (j, k ) da matriz Σyy.z = Σyy − Σyz Σ−1


zz Σzy .

O coeficiente de correlação amostral correspondente é dado por


syj yk .z
ryj yk . = p
syj yj .z syk yk .z
−1
com syj yk .z a entrada (j, k) da matriz S yy.z = S yy − S yz S zz S zy .
Análise Estatı́stica Multivariada
Regressão Linear Multivariada

Exercı́cios do capı́tulo 7 para entregar:

10, 12, 13, 14, 19, 21 e 22.

FAÇAM TODOS OS EXERC ÍCIOS !

Você também pode gostar