Escolar Documentos
Profissional Documentos
Cultura Documentos
Septiembre 2009
en donde:
yt : observación
b ió t-ésima
té i d
de lla variable
i bl endógena
dó od
dependiente,
di t
xti : observación t-ésima de la i-ésima variable exógena, variable explicativa o regresor,
βi és o parámetro
: i-ésimo pa á et o o coeficiente,
coe c e te,
εt : t-ésimo valor del término de error o perturbación,
k : número de parámetros, y
n : número de observaciones o casos de la muestra.
y idéntica e independientemente
“El término de error del MLG se distribuye p como una
variable aleatoria normal, de media nula y varianza constante”.
En notación matemática:
Por tanto, las hipótesis [H.1], [H.4], [H.6] y [H.7] permiten caracterizar completamente la
estructura estocástica de y dada la información disponible en X. X
Min S( βˆ ) = ( y − X βˆ )Τ ( y − X βˆ ) = y Τ y − 2 βˆ Τ X T y + βˆ Τ X T X βˆ
βˆ
C
Cuyas condiciones
di i d
de primer
i orden
d proporcionan
i lla siguiente
i i t solución
l ió (b
(bajo
j [H
[H.3]
3] y [H
[H.5]):
5])
δS( βˆ )
= 0; − 2 X T
y + 2 X T
X βˆΜCΟ = 0 ;
δβˆ Τ
(3)
X T X βˆΜCΟ = X T y ⇔ βˆΜCΟ = ( X T X )−1 X T y
{
luego: εˆ X ∼ N 0, σε
2 ⎡ I − X ( X T X )−1 X T ⎤
⎢⎣ ⎥⎦ }
Ver. 28/09/2006, Slide # 16
Mínimos cuadrados ordinarios (VI): Propiedades algebraicas
Cuando se estima el MLG por MCO, se cumplen las siguientes propiedades:
X T εˆ = 0 (8)
yˆ T εˆ = 0 (9)
y T y = yˆ T yˆ + εˆT εˆ (10)
y si el modelo tiene término constante se cumplen
y, cumplen, además
además, las siguientes propiedades:
i nT y = i nT yˆ (11)
i nT εˆ = 0 (12)
(y − μˆ y ) (y − μˆ y ) = (yˆ − μˆ yˆ ) (yˆ − μˆ yˆ ) + εˆT εˆ
T T
(13)
⎪⎧ 1 ⎪⎫
L( βˆ , σˆ 2 y , X ) = (2π )−n / 2 (σˆ 2 )−n / 2 exp ⎨− 2 ( y − X βˆ )Τ ( y − X βˆ )⎬
⎪⎩⎪ 2σˆ ⎪⎭⎪
y, consecuentemente, su logaritmo es:
n n 1
( βˆ , σˆ 2 y , X ) = − ln(2π ) − ln(σˆ 2 ) − 2 ( y − X βˆ )Τ ( y − X βˆ )
2 2 2σˆ
y las condiciones necesarias de primer orden para maximizar esta función son:
∂ () 1 ∂
∂βˆ Τ
= 0 ; −
2σ̂ ∂βˆ Τ
2 {( y − X ˆ )Τ ( y − X βˆ )} = 0 ; βˆ = ( X T X )−1 X T y
β ΜV
∂ () n 1 1 ˆ )Τ ( y − X βˆ ) = 0 ; σˆ 2 = 1 εˆT εˆ
= 0 ; − + ( y − X β MV
∂σˆ 2 2 σˆ 2 2σˆ 4 n
( ) de β coincide con el
Teniendo en cuenta resultados anteriores,, el estimador MV: (a)
MCO y (b) de la varianza del error es sesgado.
En principio
principio, un modelo es tanto mejor cuanto mayor sea su correspondiente R2 , ya que
un valor alto supone que el modelo explica gran parte de la variabilidad de y.
55 55 55
Peso (p)
Peso (p)
Peso (p)
50 50 50
45 45 45
40 40 40
35 35 35
6 8 10 12 14 16 6 8 10 12 14 16 6 8 10 12 14 16
Edad (e) Edad (e) Edad (e)
Una regresión lineal explica el Una regresión cuadrática Una regresión cúbica
89% de la varianza del peso mejora el R2 (96%) y muestra proporciona un ajuste de
El modelo es imperfecto un perfil intuitivamente más del 99%
(¿qué peso predice para un razonable Este es un buen resultado,
niño de 0 años?) A cambio, el nuevo modelo es siempre que estemos
Estas imperfecciones pueden más complejo, ya que dispuestos a aceptar que los
deberse a: (a) limitaciones de requiere
q estimar tres niños adelgazan
g appartir de
la muestra y (b) no linealidad parámetros en vez de dos los 13 años
de la relación
Ver. 28/09/2006, Slide # 22
Medidas de ajuste (III): Medidas alternativas
El uso mecánico del R2 induce a sobreajustar la muestra. Para resolver este problema,
a veces se usa un estadístico alternativo: el R2 corregido con grados de libertad:
εˆT εˆ
n-k n −1
R2 = 1 − = 1 − (1 − R 2 ) (16)
(y − μˆ y ) (y − μˆ y )
T
n−k
n −1
Este coeficiente: a) compara los estimadores insesgados de la varianza residual y de la
varianza de la variable dependiente y b) penaliza los modelos con un elevado número
de parámetros.
parámetros
Actualmente disponemos de medidas más sofisticadas para comparar modelos, como
por ejemplo los criterios de información de Akaike (AIC) y Schwartz (SBC)
εˆT εˆ
AIC = n ln(2π ) + n ln( ) + n + 2(k + 1) (17)
n
εˆT εˆ
SBC = n ln(2π ) + n ln( ) + n + (k + 1)ln(n ) (18)
n
El AIC prima la capacidad predictiva del modelo y tiende a sobreparametrizarlo, el SBC
prima la especificación correcta.
por tanto:
{ T
cov( β ) = E ⎡⎣⎢( X T X )−1 X T + D ⎤⎦⎥ εεT ⎡⎣⎢( X T X )−1 X T + D ⎤⎦⎥ X }
= σε2 ⎡⎢⎣( X T X )−1 X T + D ⎤⎥⎦ ⎡⎢⎣ X ( X T X )−1 + DT ⎤⎥⎦
= σε2 ⎡⎢⎣( X T X )−1 + DDT ⎤⎥⎦
y DDT es una matriz semidefinida positiva, que es el resultado que queríamos demostrar.
1
E (σˆ ε2 ) = E (εˆT εˆ X ) y, como : εˆ = ⎡⎢⎣I − X ( X T X )−1 X T ⎤⎥⎦ ε = M ε
n−k
1
= E (εT MM ε X ) por ser M idempotente,
n−k
1 1 1
= E (εT M ε X ) = E ⎡⎢tr (εT M ε) X ⎥⎤ = E ⎢⎡tr (M εεT ) X ) ⎥⎤
n−k n −k ⎣ ⎦ n−k ⎣ ⎦
1 1
= tr ⎡⎢M E (εεT X ) ⎤⎥ = σε2 tr (M )
n−k ⎣ ⎦ n−k
= σε2 ya que tr (M ) = n − k