Aula 05

A N ÁLISE E STAT ÍSTICA M ULTIVARIADA
Ralph S. Silva
http://www.im.ufrj.br/ralph/multivariada.html
Departamento de Métodos Estatı́sticos

Instituto de Matemática
Universidade Federal do Rio de Janeiro
Análise Estatı́stica Multivariada
Sumário
Regressão Linear Multivariada

Revisão: Regressão Linear (Univariada) Múltipla

O caso univariado
Sejam z1 , z2 , . . . , zr r covariáveis relacionadas a uma variável resposta y .
O modelo de regressão linear múltiplo univariado é dado pela equação:
y = β0 + β1 z1 + · · · + βr zr + ε
|{z}
|{z} | {z }
resposta média; parte estrutural erro; parte aleatória
O modelo é dito linear, pois a parte estrutural é linear nos parâmetros βj ,

j = 1, 2, . . . , r .
Se dispomos de n observações independentes, então
yi = β0 + β1 z1i + · · · + βr zri + εi , i = 1, 2, . . . , n.
Suposições:
S1: E(εi ) = 0, ∀i = 1, 2, . . . , n.
S2: Var(εi ) = σ 2 , ∀i = 1, 2, . . . , n (homocedasticidade).
S3: Cov(εi , εk ) = 0, ∀i 6= k , i, k ∈ {1, 2, ..., n}.
Na notação matricial, tem-se
y = |{z}
Z β + |{z}
ε ,
|{z} |{z}
n×1 n×(r +1) (r +1)×1 n×1
com
S1: E(ε) = 0;
S2 e S3: Var(εi ) = σ 2 I n ;
   
y1 1 z11 z12 ... z1r
 y2   1 z21 z22 ... z2r 
y =  . ; Z =  .. .. .. .. ;
   
 ..  ..
 . . . . . 
yn 1 zn1 zn2 ... znr
   
β0 ε1
 β1   ε2 
β =  . ; e ε= ..
   
 .. 

 . 
βr εn
Observe que ainda não fizemos nenhuma suposição a cerca da distribuição
dos erros.
Para efeito de obter os estimadores de mı́nimos quadrados, de fato, não é

necessária nenhuma suposição sobre a distribuição da parte aleatória.
Porém, para fins de inferência, será necessário.
Estimadores de Mı́nimos Quadrados

Suponha que a matriz Z seja de posto completo tal que suas colunas
formam um conjunto de vetores linearmente independentes. Neste caso, a
matriz Z 0 Z é não-singular e o estimador de mı́nimos quadrados do vetor β é
dado por
b = (Z 0 Z )−1 Z 0 y.
β
Os valores ajustados são, então, dados por
y b = Z (Z 0 Z )−1 Z 0 y = Hy,
b = Zβ where H , Z (Z 0 Z )−1 Z 0 ,
e os resı́duos
ε=y −y
b b = [I − H]y = Py, where P , I − H,
satisfazendo as seguintes relações (somente quando houver a constante β0

no modelo)
Z 0b
ε=0 e y b0b
ε = 0.
Temos que H e P são matrizes idempotentes (H = HH e H = H 0 ).
A soma de quadrados de resı́duos é

Xn
SQRes = ε0 b
(yi − ybi )2 = b ε = y 0 Py = y 0 y − y 0 Z β.
b
i=1
Observe que
Xn
yi2 = y 0 y = (y − y b )0 (y − y
b+y b+y b0 y
b) = y ε0 b
b+b ε.
i=1
O R2 e a Geometria dos Mı́nimos Quadrados

Xn
ε0 b
ε (ybi − y )2
2
R = 1 − Xn = Xi=1
b
n .
(yi − y)2 (yi − y )2
i=1 i=1
I R2 fornece a proporção da variação total dos yi ’s que é “explicada” pelas

covariáveis.
I Por um lado, R2 seria igual 1 se a equação do modelo se ajustasse
perfeitamente aos dados.
I Por outro lado, R2 seria zero se βb0 = y e os demais seriam todos nulos.
Neste caso, as covariáveis não exerceriam nenhuma influência sobre a
resposta.
I R2 deve ser olhado com cuidado na verificação do modelo, pois valores
altos de R2 não necessariamente implicam que o modelo ajustado é
bom. Além dessa medida é fundamental realizar uma análise dos
resı́duos.
I Além disso, um R2 não tão elevado, para um modelo ajustado cuja
análise de resı́duos foi boa, pode ser considerado.
Considere o modelo
y = Z β + ε.
E(y) = Z β é uma combinação linear das linhas da matriz Z com
coeficientes β0 , β1 , . . . , βr .
A medida que β varia, Z β gera o “plano modelo” de todas as combinações

lineares das colunas de Z .
Geralmente, o vetor observado y não pertencerá ao plano modelo devido ao

erro aleatório. Isto é, y não é uma combinação linear das colunas de Z .
Uma vez que as observações tornam-se disponı́veis, a solução de mı́nimos

quadrados é obtida a partir do vetor desvio dado por
y − Zβ
|{z} |{z}
vetor de observação vetor no plano modelo
O quadrado do módulo deste vetor é
S(β) = (y − Z β)0 (y − Z β)
Supondo n = 3 e r = 1 é possı́vel fazer uma representação da geometria
dos mı́nimos quadrados.
I b é tão pequeno quanto possı́vel, quando β

S(β) b é selecionado tal que
Zβb é o ponto no plano modelo mais próximo do vetor de observação.
I De fato, Z βb é a projeção ortogonal do vetor de observação y sobre o
plano modelo.
I O vetor bε é ortogonal ao plano modelo.
I Como y b = Zβ b = Z (Z 0 Z )−1 Z 0 y = Hy, dizemos que H é a matriz de
projeção ortogonal do vetor de observações sobre o plano modelo Z β.
I Similarmente, P é a matriz de projeção de y sobre o plano
perpendicular ao modelo.
Inferências sobre os parâmetros

Sob o modelo y = Z β + ε com E(ε) = 0 e Var(ε) = σ 2 I, o estimador de
b = (Z 0 Z )−1 Z 0 y. Então,
mı́nimos quadrados de β é β
E(β)
b = β,
Var(β)
b = σ 2 (Z 0 Z )−1 ,
E(b
ε) = 0, e
Var(b
ε) = σ 2 P.
Observe que apesar dos erros serem supostos independentes, os resı́duos

não o serão necessariamente, pois a matriz P = I − H pode não ser
diagonal.
Temos que
ε0 b
E(b ε) = (n − r − 1)σ 2 ,
ε0 b
ε y 0 Py
tal que s2 = é um estimador não tendencioso de σ 2 .
b
=
n−r −1 n−r −1
Além disso, β
b eb
ε são não correlacionados.
Para ir adiante nas inferências impõe-se a necessidade de se fazer

suposições sobre a distribuição dos erros.
A suposição adicional aqui é ε ∼ Nn (0, σ 2 I).

b é o estimador de
Com esta suposição adicional, é possı́vel provar que β
máxima verossimilhança de β. Além disso,
b ∼ Nr +1 (β, σ 2 (Z 0 Z )−1 )
β
e
(n − r − 1)s2 ε0 b
ε
= 2 ∼ χ2n−r −1 .
b
σ 2 σ
Podemos então construir uma região de confiança conjunta para β usando
b 0 Z 0 Z (β − β)
(β − β) b
2
∼ (r + 1)Fr +1,n−r −1 .
s
Intervalos simultâneos de 100(1 − α)% para os βi ’s
q p
IC100(1−α)% (βi ) = βbi ± Var(
d βbi ) (r + 1)Fr +1,n−r −1,1−α , i = 0, 1, . . . , r ,
d βbi ) o i-ésimo elemento da diagonal de s2 (Z 0 Z )−1 .

sendo Var(
É comum ignorar a simultaneidade dos intervalos trabalhando-se com os

intervalos separados que são mais estreitos.
q
IC100(1−α)% (βi ) = βbi ± Var(
d βbi )tn−r −1,1−α/2 .
Neste caso deve-se atentar para o fato de que aqui a confiança não é
simultânea para os r + 1 intervalos.
Uma abordagem que é interessante de ser usada aqui é a abordagem de

Bonferroni.
Inferências a partir da função de regressão estimada
Estimação da média de uma observação nova E(y0 |z 0 ), com

z 00 = (1, z01 , . . . , z0r ).
A média é dada por E(y0 |z 0 ) = β0 + β1 z01 + · · · + βr z0r = z 00 β.

\ 0b
Logo, E(y0 |z 0 ) = z 0 β.
Temos que
z 00 β
b ∼ N (z 00 β, σ 2 z 00 (Z 0 Z )−1 z 0 ).
O intervalo de 100(1-α)% de confiança para z 00 β é dado por

q
IC100(1−α)% (z 00 β) = z 00 β
b ± tn−r −1,1−α/2 s2 z 0 (Z 0 Z )−1 z 0 .
0
Previsão de uma nova observação, quando z = z 0

O intervalo de previsão 100(1-α)% de confiança para y0 é dado por
q
IC100(1−α)% (y0 ) = z 00 β
b ± tn−r −1,1−α/2 s2 (1 + z 0 (Z 0 Z )−1 z 0 ).
0
Alguns outros tópicos que devem ser revisados pelo aluno:
I Verificação do ajuste e outros aspectos da regressão.

I Análise de resı́duos.
I Pontos de alavanca e de influência.
I Seleção de covariáveis.
I Comparação de modelos.
Exercı́cios do capı́tulo 7 para entregar:

1, 2, 3, 6, 8 e 9.
FAÇAM TODOS OS EXERC ÍCIOS !


Suponha que a variável resposta y é p-variada e que z1 , z2 , . . . , zr
representam r covariáveis escalares.
O modelo de regressão linear múltiplo multivariado é dado pelas equações:
y1,i = β01 + β11 z1,i + · · · + βr 1 zr ,i + ε1,i

y2,i = β02 + β12 z1,i + · · · + βr 2 zr ,i + ε2,i
.. .. ..
. . .
yp,i = β0p + β1p z1,i + · · · + βrp zr ,i + εp,i
para i = 1, 2, . . . , n, sendo ε0i = (ε1,i , ε2,i , . . . , εp,i ).
Suposições:
I E(ε) = 0; e
I Var(ε) = Σ, uma matriz p × p simétrica e positiva definida.
Portanto, os termos de erro associados com diferentes componentes do
vetor resposta podem ser correlacionados.
Na notação matricial, tem-se
Y = |{z}
|{z} Z β + |{z}
ε
|{z}
n×p n×(r +1) (r +1)×p n×p
com
···
 
y11 y12 y1p
 y21 y22 ··· y2p 
Y = .. .. ..  = y 1, y 2, . . . , y p ,
 
 ..
 . . . . 
yn1 yn2 ··· ynp
···
 
1 z11 z12 z1r
 1 z21 z22 ··· z2r 
Z = .. .. .. ..  = [1, z 1 , z 2 , . . . , z r ] ,
 
 ..
 . . . . . 
1 zn1 zn2 ··· znr
···
 
β01 β02 β0p
 β11 β12 ··· β1p 
β = .. .. ..  = β1 , β2 , . . . , βp , e
 
 ..
 . . . . 
βr 1 βr 2 ··· βrp
···
 
ε11 ε12 ε1p
 ε21 ε22 ··· ε2p 
ε = .. .. ..  = [ε1 , ε2 , . . . , εp ] .
 
 ..
 . . . . 
εn1 εn2 ··· εnp
Y = |{z}
Suposições do Modelo |{z} Z ε :
β + |{z}
|{z}
n×p n×(r +1) (r +1)×p n×p
I E(εj ) = 0, e
I Cov(εj , εk ) = σjk I n , para j, k = 1, 2, . . . , p.
As p medidas sobre a i-ésima observação têm matriz de covariância dada

por Σ, mas medidas provenientes observações diferentes são não
correlacionadas.
Temos que β e Σ são desconhecidos.
Observe que a j-ésima coluna da matriz resposta segue o modelo linear

univariado múltiplo dado por
y j = Z β j + εj , para j = 1, 2, . . . , p.
com Var(εj ) = σjj I n .

Estimação de Mı́nimos Quadrados:

b = (Z 0 Z )−1 Z 0 Y .
B,β
Matriz de somas de quadrados e produtos cruzados:
(Y − Z B)0 (Y − Z B).
Valores ajustados:
b = Z B = Z (Z 0 Z )−1 Z 0 Y
Y
Resı́duos:
b = Y − Z B = [I − Z (Z 0 Z )−1 Z 0 ]Y .
ε=Y −Y
b
Propriedades:
Z 0b 0
ε = |{z} e b 0b
Y 0 ;
ε = |{z}
(r +1)×p p×p
0
Y 0Y = Y
b Y ε0 b
b +b ε; e
0 0 0 0
εb
b ε = Y Y − B (Z Z )B.
Para o estimador de mı́nimos quadrados B e com a matriz Z de posto

completo, tem-se
E(B) = β,
Cov(β
b ,β
j
b )
k = σjk (Z 0 Z )−1 ,
E(b
ε) = 0
|{z} , e
matriz nula
1
E( ε0 b
ε) = Σ.
n−r −1
b
Beb
ε são não correlacionados.
Estimador não tendencioso de Σ:

ε0 b
ε
S=
b
.
n−r −1
Inferências a partir da função de regressão estimada
Suponha que o modelo Y = Z β + ε, com erros normais tenha sido ajustado.

Se o ajuste for considerado bom, ele poderá ser usado para fins de previsão.
Um problema é prever a média correspondente a um vetor de covariáveis z 0 .
Inferências sobre a média podem ser feitas usando-se os mesmos

resultados estudados no caso univariado.
B 0 z 0 ∼ Np (β 0 z 0 , z 00 (Z 0 Z )−1 z 0 Σ)
e
b ∼ Wp (n − r − 1, Σ),
nΣ independentemente.
Intervalos-T simultâneos de 100(1-α)% de confiança para E(yk |z 0 ) = z 00 β k :
2
s s
0b p(n − r − 1) n
z 0 βk ± Fp,n−r −p,1−α z 00 (Z 0 Z )−1 z 0 σ
bkk ,
n−r −p n−r −1
para k = 1, 2, . . . , p.
O outro problema está voltado para a previsão de uma nova resposta y 0

dado o vetor de covariáveis z 0 .
Agora,
y 0 ∼ Np (β 0 z 0 , (1 + z 00 (Z 0 Z )−1 z 0 )Σ).
E, assim, intervalos simultâneos de previsão de 100(1-α)% para a k -ésima
componente de y 0 , y0,k , k = 1, 2, . . . , p, são dados por
s s
0b p(n − r − 1) 0 0 −1
n
z 0 βk ± Fp,n−r −p,1−α (1 + z 0 (Z Z ) z 0 ) σ
bkk ,
n−r −p n−r −1
O Conceito de Regressão Linear
O modelo de regressão linear clássico diz respeito à associação entre uma

variável dependente (ou resposta) y e uma coleção de covariáveis
z1 , z2 , . . . , zr .
O modelo que consideramos trata y como uma variável aleatória cuja média
depende dos valores fixados das covariáveis.
A média é uma função linear dos coeficientes da regressão β0 , β1 , . . . , βr .
O modelo de regressão linear também surge numa configuração diferente.
Suponha que todas as variáveis y , z1 , z2 , . . . , zr são variáveis aleatórias e

têm uma distribuição conjunta com média µ de dimensão (r + 1) × 1 e
variância Σ de dimensão (r + 1) × (r + 1).
Particionando µ e Σ de forma apropriada temos

µy σyy Σyz
µ= e Σ= ,
µz Σzy Σzz
com
Σyz = [σyz1 , σyz2 , . . . , σyzr ].
Σzz é suposta ser não singular. Se isso não acontecer, significa que pelo
menos uma das covariáveis é combinação linear das demais, de modo que
esta covariável é redundante e pode ser eliminada do problema.
Preditor Linear:
b 0 z,
βb0 + βb1 z1 + · · · + βbr zr = βb0 + β com βb0 = (βb1 , βb1 , . . . , βbr ).
Para um preditor dessa forma, o erro de previsão é dado por:
0
y − βb0 − β
b z.
Como este erro é aleatório, costuma-se escolher βb0 e β

b de modo a minimizar
o erro quadrático médio
b 0 z]2 .

EQM = E [y − βb0 − β
O EQM depende da distribuição conjunta de y e z somente através de µ e Σ.
É possı́vel expressar o preditor linear ótimo em função dessas quantidades.
Resultado:
O preditor linear β0 + β 0 z com coeficientes β = Σ−1 0

zz Σzy , β0 = µy − β µz tem
EQM mı́nimo entre todos os preditores lineares de y . Além disso,
b 0 z]2 = σyy − Σyz Σ−1

E [y − βb0 − β zz Σzy .
Também β0 + β 0 z é o preditor linear de maior correlação com y dada por

s
Σyz Σ−1
zz Σzy
.
σyy
Esse coeficiente de correlação é chamado coeficiente de correlação múltiplo

da população e será denotado por ρy(z) .
s
Σyz Σ−1
zz Σzy
ρy(z) = .
σyy
Observe que este coeficiente de correlação múltiplo, diferente dos outros

varia entre 0 e 1.
O quadrado do coeficiente de correlação múltiplo populacional é chamado

coeficiente de determinação populacional.
O coeficiente de determinação populacional tem uma interpretação

importante. O EQM em usar β0 + β 0 z para prever y é
σyy − Σyz Σ−1 2 2

zz Σzy = σyy − σyy ρy (z) = σyy (1 − ρy(z) ).
Se ρy (z) = 0, z não acrescenta nenhum poder de previsão. No outro extremo,

y pode ser perefeitamente explicada por z.
Previsão de Várias Variáveis
A extensão destes resultados para a previsão de várias respostas

y1 , y2 , . . . , yp é quase imediata.
Suponha
y p×1
∼ Np+r (µ, Σ)
z r ×1
com
µy Σyy Σyz
µ= e Σ= .
µz Σzy Σzz
Vimos que
E(y|z1 , z2 , . . . , zr ] = µy + Σyz Σ−1
zz (z − µz ).
este valor esperado condicional, considerado como uma função de

z1 , z2 , . . . , zr é chamado vetor de regressão multivariada de y em z.
Ele compõe-se de p regressões múltiplas univariadas.

Por exemplo, o primeiro componente do vetor de média condicional é:
µy1 + Σy1 z Σ−1

zz (z − µz ) = E(y1 |z1 , z2 , . . . , zr )
que minimiza o erro de previsão nesse componente.
A matriz β p×r = Σyz Σ−1

zz é chamada matriz de coeficientes de regressão.
O vetor de erro de previsão é:
v = y − µy − Σyz Σ−1
zz (z − µz ) e E(vv 0 ) = Σyy.z = Σyy − Σyz Σ−1
zz Σzy .
Como µ e Σ costumam ser desconhecidos, eles devem ser estimados.

Os estimadores de máxima verossimilhança da função de regressão são

dados por:
y + S yz S −1
zz (z − z), e
b yy.z = n − 1 (S yy − S yz S −1
Σ zz S zy ).
n
Observação: a coleção y1 , y2 , . . . , yp , z1 , z2 , . . . , zr leva as seguintes
equações de previsão:
yb1 = βb01 + βb11 z1 + · · · + βbr 1 zr

yb2 = βb02 + βb12 z1 + · · · + βbr 2 zr
.. .. ..
. . .
ybp = βb0p + βb1p z1 + · · · + βbrp zr .
1. Os mesmos valores z1 , z2 , . . . , zr são usados para prever cada yi .

2. Os βbjk são estimativas das entradas (j, k ) da matriz β = Σyz Σ−1zz .
Coeficiente de Correlação Parcial

y p×1
Considere ∼ Np+r (µ, Σ).
z r ×1
O coeficiente de correlação parcial entre yj e yk eliminando-se z é definido

por
σyj yk .z
ρyj yk .z = √
σyj yj .z σyk yk .z
com σyj yk .z a entrada (j, k ) da matriz Σyy.z = Σyy − Σyz Σ−1

zz Σzy .
O coeficiente de correlação amostral correspondente é dado por

syj yk .z
ryj yk . = p
syj yj .z syk yk .z
−1
com syj yk .z a entrada (j, k) da matriz S yy.z = S yy − S yz S zz S zy .
Exercı́cios do capı́tulo 7 para entregar:
10, 12, 13, 14, 19, 21 e 22.
FAÇAM TODOS OS EXERC ÍCIOS !

Aula 05

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 05

Enviado por

Direitos autorais:

Formatos disponíveis

A N ÁLISE E STAT ÍSTICA M ULTIVARIADA

Departamento de Métodos Estatı́sticos

Regressão Linear Multivariada

Regressão Linear Multivariada

O modelo é dito linear, pois a parte estrutural é linear nos parâmetros βj ,

Na notação matricial, tem-se

Para efeito de obter os estimadores de mı́nimos quadrados, de fato, não é

Estimadores de Mı́nimos Quadrados

satisfazendo as seguintes relações (somente quando houver a constante β0

Temos que H e P são matrizes idempotentes (H = HH e H = H 0 ).

A soma de quadrados de resı́duos é

O R2 e a Geometria dos Mı́nimos Quadrados

I R2 fornece a proporção da variação total dos yi ’s que é “explicada” pelas

A medida que β varia, Z β gera o “plano modelo” de todas as combinações

Geralmente, o vetor observado y não pertencerá ao plano modelo devido ao

Uma vez que as observações tornam-se disponı́veis, a solução de mı́nimos

I b é tão pequeno quanto possı́vel, quando β

Inferências sobre os parâmetros

Observe que apesar dos erros serem supostos independentes, os resı́duos

Para ir adiante nas inferências impõe-se a necessidade de se fazer

A suposição adicional aqui é ε ∼ Nn (0, σ 2 I).

Intervalos simultâneos de 100(1 − α)% para os βi ’s

d βbi ) o i-ésimo elemento da diagonal de s2 (Z 0 Z )−1 .

É comum ignorar a simultaneidade dos intervalos trabalhando-se com os

Uma abordagem que é interessante de ser usada aqui é a abordagem de

Inferências a partir da função de regressão estimada

Estimação da média de uma observação nova E(y0 |z 0 ), com

A média é dada por E(y0 |z 0 ) = β0 + β1 z01 + · · · + βr z0r = z 00 β.

O intervalo de 100(1-α)% de confiança para z 00 β é dado por

Previsão de uma nova observação, quando z = z 0

Alguns outros tópicos que devem ser revisados pelo aluno:

I Verificação do ajuste e outros aspectos da regressão.

Exercı́cios do capı́tulo 7 para entregar:

FAÇAM TODOS OS EXERC ÍCIOS !

Regressão Linear Multivariada

O modelo de regressão linear múltiplo multivariado é dado pelas equações:

y1,i = β01 + β11 z1,i + · · · + βr 1 zr ,i + ε1,i

para i = 1, 2, . . . , n, sendo ε0i = (ε1,i , ε2,i , . . . , εp,i ).

Na notação matricial, tem-se

As p medidas sobre a i-ésima observação têm matriz de covariância dada

Temos que β e Σ são desconhecidos.

Observe que a j-ésima coluna da matriz resposta segue o modelo linear

com Var(εj ) = σjj I n .

Estimação de Mı́nimos Quadrados:

Matriz de somas de quadrados e produtos cruzados:

Para o estimador de mı́nimos quadrados B e com a matriz Z de posto

Estimador não tendencioso de Σ:

Inferências a partir da função de regressão estimada

Suponha que o modelo Y = Z β + ε, com erros normais tenha sido ajustado.

Um problema é prever a média correspondente a um vetor de covariáveis z 0 .

Inferências sobre a média podem ser feitas usando-se os mesmos

O outro problema está voltado para a previsão de uma nova resposta y 0

O Conceito de Regressão Linear

O modelo de regressão linear clássico diz respeito à associação entre uma

A média é uma função linear dos coeficientes da regressão β0 , β1 , . . . , βr .

O modelo de regressão linear também surge numa configuração diferente.

Suponha que todas as variáveis y , z1 , z2 , . . . , zr são variáveis aleatórias e

Particionando µ e Σ de forma apropriada temos

Como este erro é aleatório, costuma-se escolher βb0 e β

O EQM depende da distribuição conjunta de y e z somente através de µ e Σ.

É possı́vel expressar o preditor linear ótimo em função dessas quantidades.

O preditor linear β0 + β 0 z com coeficientes β = Σ−1 0