Você está na página 1de 31

CAP

ITULO 8. MODELOS LINEALES Y



REGRESION

Para leer

Gelman et al, Captulo 8

Se supone que Y es un vector de n observa-


ciones. Se define un modelo lineal para y

E[y| ] = A
donde es un vector de p par ametros, A es
una matriz conocida de dise no y la matriz de
varianza de y es C. Se define C1 la matriz de
precisi
on.

Observaci on 27 A menudo se supone que la


on de y es normal.
distribuci

Tambien en muchos problemas, la matriz de


varianzas tiene una forma simple, por ejemplo
C = 2I.
153
Ejemplo 59 Observaciones univariables
1
AT = (1, . . . , 1), escalar C= I p=1

Ejemplo 60 Regresi
on lineal simple.

El modelo es
yi = + xi + i i = 1, . . . , n
donde i N (0, 1/). Entonces
! !
1 1 1
AT = =
x 1 x2 xn
1 I.
y C=

Es habitual escribir el modelo de otra forma:


yi = 0 + (xi x
) + i
donde 0 = +
x.

En este caso se tiene


0
! !
1 1 1
AT = =
x1 x
x2 x
xn x

154
Ejemplo 61 El modelo de dos factores (sin
r
eplicas) Las observaciones son yij donde i =
1, . . . , t y j = 1, . . . , b. Entonces hay n = tb ob-
servaciones. El modelo es

E[yij | ] = + i + j .
Suponiendo la restriccion GLIM 1 = 1 = 0
(para hacer el modelo identificable), en el caso
de t = 2, b = 3 se tiene

y11 1 0 0 0

y12 1 0 1 0



y13 = 1 0
0 1 2
E
y21 1 1 0 0 2



y22
1 1

1 0
3
y23 1 1 0 1

155
La distribuci
on normal multivariante

Para hacer la inferencia se necesita conocer


las propiedades de la distribuci
on normal mul-
tivariante.

on 13 Un vector y de dimensi
Definici on k tiene
una distribuci
on normal multivariante con me-
dia y varianza E[(y )(y )T ] = V si
1
 
k
2 1
f (y|, V) = (2) |V| 2 exp (y )T V1(y )
2

Propiedades importantes de la distribuci


on son
las siguientes.

Cualquier subconjunto de y tambi


en se dis-
tribuye como normal. Si
! !!
y1 1 V1 V12
y= N ,
y2 2 V21 V2
entonces y1 N (1, V1) y y2 N (2, V2).

156
Si y1 N (1, V1) y y2 N (2, V2) son
variables independientes con la misma di-
mension entonces

y1 y2 N (1 2, V1 + V2)

Si z = Dy para una matriz D entonces


 
zN D, DVDT .

Ejemplo 62 El modelo lineal normal es

y = A + 
donde  N (0, C). Entonces y| N (A , C).

157
Matrices, vectores y formas cuadr
aticas

Es necesario entender c omo se manipulan ma-


trices y vectores para hacer los c
alculos nece-
sarios para la inferencia.

Unos resultados
utiles son

Para matrices o vectores A y B,

(AB)T = BT AT .

Si xi, (i = 1, . . . , n) y son vectores de


dimension k 1 y V es una matriz sim etrica
de dimension k k,
n
X
xiV = n
xV
i=1
1 Pn
x=n
donde i=1 xi

158
Para vectores x, (k1) y matriz sim
etrica
V una forma cuadr atica es

(x )T V(x ).
Se tiene la expansi
on

(x )T V(x ) = xT Vx T Vx xT V
+T V
= xT Vx 2xT V + T V
Se observa que el resultado es escalar.

Se puede expresar una forma cuadr


atica de
otra manera:

(x )T V(x ) = tr(VW)
donde W = (x )(x )T y tr() es la
traza de la matriz.

159
Ejemplo 63 La verosimilitud para una mues-
tra de una distribuci
on normal multivari-
able.

Sea y1, . . . , yn una muestra de una distribuci


on
normal multivariante N (, V). La verosimilitud
es

n
!
n 1X
l(, V|datos) |V| 2 exp (yi )T V1 (yi )
2 i=1
n
n2 1X
|V| exp (yi y )T V1
+y
2 i=1
!
(yi y )
+y
"
n
n 1 X
|V| exp2 )T V1 (yi y
(yi y )
2 i=1
n
X
2 )T V1 (
(yi y y )+
i=1
#!
y )T V1(
n( y )
" n
n2 1 X
= |V | exp )T V1 (yi y
(yi y )
2 i=1
#!
y )T V1(
+ n( y )

n 1
|V| exp
2 tr(V1 S)
2
#!
y )T V1(
+ n( y )

Pn T.
donde S = i=1 ( yi y
)( yi y
)

La formula para la verosimilitud es parecida a


la f
ormula en el caso univariable.

160
Ejemplo 64 Inferencia bayesiana para la dis-
tribuci
on normal multivariante

Se puede hacer inferencia conjugada para la


distribuci
on normal multivariable. Suponiendo
V conocida y con la distribuci
on a priori
1
 
N m, V

entonces, la distribuci
on a posteriori es tam-
bi
en normal
1
 
|y N m, donde
V
= + n
m + n y
m =
+n

161
Demostraci
on

f (|y) l(|y)f ()

1
exp n( y )T V1 ( y )+
2

( m)T V1 ( m)



1
exp nT V1 2nT V1 y +
2

T V1 2T V1 m



1
exp ( + n)T V1
2

m + ny
2( + n)T V1
+n
 
1  T 1
exp V 2 T V1 m

2

 
( m )T V1 ( m )

exp
2
 1 !
1 1
exp ( m )T V ( m
)
2
que es el n
ucleo de una distribuci
on normal. 

162
Con una distribuci
on a priori uniforme se tiene
1
 
|y N y , V
n
y la media a posteriori de coincide con el
EMV.

El caso de V desconocida.

En este caso, la distribuci


on a priori conjugada
para V es una distribuci on Wishart invertida,
V WI(, W), es decir
+p+1 1  1 
 
f (V ) |V| 2 exp tr V W
2
donde p = dim(V).

163
Teorema 10 Si Y|, V  N (, V) con dis-
1 V y V WI(, W),
on a priori |V N m,
tribuci
 
luego |y, V N 1
m , V y V|y WI ( , W)
donde

= + n
m + n
y
m =
+n
= + n
n
W = W + S + y m )T
y m)(
(
+n

El resultado es similar al resultado univariable.

164
Inferencia para el modelo lineal con vari-
anza conocida.

Supongamos el modelo b asico y| N (A , C)


on a priori normal N (, V)
y una distribuci
donde A, C, y V son conocidos.

Este modelo se llama el modelo lineal de 2


etapas.

Tenemos el siguiente teorema

on marginal de y es
Teorema 11 La distribuci
 
yN A, C + AVAT
on a posteriori de es |y
y la distribuci
N (Bb, B) donde

B1 = V1 + AT C1A
b = AT C1y + V1

165
Demostraci
on

En primer lugar se calcula la distribuci


on marginal
de y.

Es suficiente calcular la media y la varianza.

E[y] = E[E[y| ]]
= E[A ]
= AE[ ] = A
V [y] = E[V [y| ]] + V [E[y| ]]
= E[C] + V [A ]
= C + AV [ ]AT
= C + AVAT

La normalidad sigue imediatamente recordan-


doo que y = A +  donde y  son normales.

166
Ahora se calcula la distribuci
on a posteriori

f ( |y) f ( )f (y| )
1
 
exp ( )T V1( )
 2
1

exp (y A )T C1(y A )
 2h
1 T
exp (V1 + AT C1A)
2 
2 T (V1 + AT C1y)
i

1 h T 1
 i 
exp B 2 b T
 2h
1 T 1 i
exp B 2 T B1Bb
 2
1

exp ( Bb)T B1( Bb)
2
que es el n
ucleo de una distribuci
on normal
N (Bb, B). 

167
Relaci
on con el EMV

El estimador de mnimos cuadrados para este


problema es
1
1 AT C1y

T
= A C A

y entonces
1 
1 1 1 1
 
Bb T
= V +A C A T
A C y+V
1 h
1 1 1 1
  i
T
= V +A C A T
A C A +V

La media a posteriori es una media ponder-


ada de la media a priori y el EMV con
ponderaciones proporcionales a las matrices de
precisi
on.

168
Se puede expresar la media a posteriori de otra
manera.

AT C1(y A) + AT C1A + V1
h   i
Bb = B
= + BAT C1(y A)

Se ha expresado la media a posteriori como la


media a priori m
as una correcci
on.

La cantidad y A es la diferencia entre la


on y y su esperanza a priori A. La
observaci
cantidad BAT C1 se llama un filtro

169
Ejemplo 65 Retomando el Ejemplo 59 con ob-
servaciones univariables y A = (1, . .. , 1)T, C =
1 I y la distribuci
o n a priori N , 1
ten-
emos

AT C1A = n
n
AT C1y =
X
yi = n
y
i=1
AT C1A + V1 = n + = (n + )
AT C1y + V1 = n y +
n
y +
Bb =
n+
que es el resultado que hemos visto para la
media a posteriori en el Ejemplo 38.

170
Ejemplo 66 Escribir el siguiente problema en
t
erminos del modelo lineal de 2 etapas y en-
tonces calcular las distribuciones a posteriori
de y .

! !
1 1
y1 N + , y2 N ,

donde y1 y y2 independientes dados y .

N (m, v) N (0, w)
independientes.

Que forma tiene la distribuci


on a posteriori
cuando v ?

171
Definimos y = (y1, y2)T y = (, )T y en-
tonces
!
1 1
E[y| ] = A donde A=
1 1

Tambi 1 I y la distribuci
en C = V [y| ] = on a
priori de es

N (, V) donde
= (m, 0)T !
v 0
V =
0 w

Calculamos la distribuci
on a posteriori utilizan-
do el resultado del teorema.

172
!
1/v 0
V1 =
0 1/w
! !
1 1 1 1
AT C1A =
1 1 1 1
!
2 0
=
0 2
1 + 2
!
0
B1 = v
1
0 w + 2
1

0
1v +2
B = 1


0 1
w +2
V1 = (m/v, 0)T
AT C1y = (y1 + y2, y1 y2)T
T
m

b = + (y1 + y2), (y1 y2)
v
T
m + (y + y )
v 1 2 (y1 y2 )
Bb =
1 + 2
, 1
v w + 2

173
Entonces y son independientes a posteriori
con distribuciones

m + (y + y )
v 1 2 1
|y N
1 + 2
,1
v v + 2

(y1 y2) 1
|y N 1 + 2
,1
w w + 2

La media a posteriori de es una media pon-


derada de la media a priori y el EMV con pesos
proporcionales a la precisi
on a priori (1/v) y la
precisi
on del EMV (2).

Si v , tenemos
m + (y + y )
v 1 2 (y1 + y2)
E[|y] = 1 + 2
= y
v
2
1 1
V [|y] = 1
v + 2
2
 
on a posteriori de es N
y la distribuci 1
y, 2 .
No cambia la distribucion a posteriori de .
174
Resultados para el modelo de 2 etapas con
distribuci
on a priori uniforme

on a priori no informativa; f ( )
Sea la distribuci
1. Esta distribucion a priori equivale a poner
V1 = 0 en el Teorema. Entonces:
B1 = A T C1 A
1
1

T
B = A C A
b = AT C1y
y la distribuci
on a posteriori ser
a
 1 1
AT C1A AT C1y, AT C1A

|y N .

La media a posteriori es igual al EMV de .

Ejemplo 67 Siendo C = 1 I, se tiene el mode-

lo lineal con errores independientes y dada una


distribucion a priori uniforme, la distribucion a
posteriori es
 
1 T 1 1
|y N AT A A y, AT A

y la media a posteriori de coincide con el
EMV.
175
Ejemplo 68 Retomando el modelo de regre-
si
on simple del Ejemplo 60 se tiene

!
n 0
AT A =
)2
(xi x
P
0
!
1/n 0
AT A1 =
)2
0 1/ (xi x
P
P !
yi
AT y =
yi(xi x
P
)
1 Py

Pn i
AT A1AT y = y i (x i x )
x) 2
P
(xi
!
y
=
SC(xy)/SC(xx)

i(xi x
)(yi y) y SC(xx) =
P
donde SC(xy) =
)2.
i(xi x
P

176
Las distribuciones a posteriori de y son
independientes con medias iguales a los esti-
madores mnimos cuadrados:
!
1
|y N y,
n
!
SC(xy) 1
|y N ,
SC(xx) SC(xx)

Ejemplo 69 Volviendo al Ejemplo 61 supong-


amos una distribuci on a priori uniforme para
= (, 2, 2, 3)T .

177
Tenemos

6 3 2 2
T
3 3 1 1
A A =
2 1 2 0


2 1 0 2

2/3 1/3 1/2 1/2
T 1
1/3 2/3 0 0
(A A) =

1/2 0 1 1/2


1/2 0 1/2 1

6y
T
3
y2
A y =
2
y2


2
y3

donde y = 1 1 P y , etc.
P P
6 y
i j ij , y
2 = 3 j 2j

Entonces por ejemplo, la distribuci


on a poste-
riori de 2 es normal con media 2 y2 2
y y
varianza 2/(3).

178
Cuando la varianza C es desconocida

Consideramos s 1 D con D
olo el caso: C =
conocida (por ejemplo D = I).

Supongamos la distribuci on a priori no infor-


mativa
1
f ( , ) .

Entonces, se tiene

Teorema 12 La distribuci
on a posteriori es
!
1
|, y N Bb, B donde

B1 = AT D1A
b = AT D1y
T 1 T
!
n p y D y b Bb
|y G ,
2 2

179
Demostraci
on

La demostraci
on es similar a la del teorema 11.
Se tiene


 
n
f ( , |y) 1
2 exp (y A )T D1(y A )
2
h

n 1
2 exp ( Bb)T B1( Bb)
2 
1 1
i
T T
+y D y (Bb) B (Bb)
np
 i
f (|y) 2 1 exp yT D1y bT Bb
h

2
que es el n on gamma. 
ucleo de una distribuci

El resultado implica que la distribucion a pos-


teriori marginal de ser
a una distribuci
on t, no
centrada y multivariante. Es muy difcil tratar
con esta distribuci
on excepto en algunos casos
especiales.
180
Ejemplo 70 Volviendo al Ejemplo 68, tenemos

n
X
yT D1y = yi2
i=1
n
! 
X y
bT Bb = n
y, (xi x
)yi
SC(xy)/SC(xx)
i=1
= ny + SC(xy)2 /SC(xx)
2

yT D1y bT Bb = SC(yy) SC(xy)2/SC(xx)


n 2 SC(yy) SC(xy)2 /SC(xx)
 
|y G ,
2 2

Observamos que el estimador cl


asico de la var-
ianza residual es
SC(xy)2
!
1
s2 = SC(yy) .
n2 SC(xx)

181
Entonces, se puede demostrar que las distribu-
ciones marginales de y son independientes
t no centradas y (por ejemplo) un intervalo de
credibilidad para es
SC(xy) s
q tn2(,025).
SC(xx) SC(xx)

Este intervalo es igual al intervalo cl


asico de
confianza.

En el caso de que la varianza es completamente


desconocida se necesitan m etodos num ericos
para calcular las distribuciones a posteriori.

182

Você também pode gostar