Apuntes de Econometria (Modelo de Regresión Con Dos Variables)

I.
EL MODELO DE REGRESIN CON DOS VARIABLES
1.- Introduccin
En este programa se interpreta que el objetivo de la econometra es la medicin de
teoras econmicas. Desde este punto de vista la econometra constituye un
complemento de la economa cualitativa establecida deductivamente y tratara de dotar
a sta de contenido emprico.
Muchas leyes econmicas son simples, siendo en general la sencillez un
requisito deseable en cualquier ley cientfica. Por ejemplo (tema 1, epgrafe 1.7), la ley
de la demanda relaciona la cantidad demandada con su precio, es decir es una ley que
implica nicamente dos variables, cantidad y, y precio x, de manera que respondera a la
forma y = f(x), siendo misin de la econometra especificar la forma de dicha funcin y
encontrar los valores de los parmetros implicados. Si nos decidimos por una funcin
lineal, tendramos,
y = a + bx
siendo a y b los parmetros a estimar.
Una relacin como Yt = + Xt es una descripcin inadecuada de la realidad. Es
decir no cabe esperar una relacin lineal perfecta entre las variables X e Y, por lo que en
el modelo anterior introducimos una variable aleatoria vt,
Y t = + X t + v t
(1)
Ello implica una modificacin sustancial de la naturaleza del modelo debido a

que con la consideracin de vt se ha introducido explcitamente la probabilidad en el
mismo. Por tanto mientras que Yt = + Xt era determinista, el modelo (1) es de
naturaleza probabilstica.
La justificacin para incluir la perturbacin aleatoria en (1) suele hacerse en
virtud de diversas circunstancias. En primer lugar suele citarse las variables omitidas, es
decir aunque suponemos que la variable ms importante en la determinacin de Y es X
hay muchas otras variables que ejercen influencia sobre Y aunque sta pueda ser menor.
Por ejemplo, en el caso de la teora de la demanda, aunque se considera que el precio es
la principal variable explicativa, tambin la renta, los gustos de los consumidores o los
precios de los bienes sustitutivos deberan tomarse en consideracin. En el modelo (1)
se considera que la influencia de todas estas variables es recogida por v. Otra fuente de
error proviene de que las variables econmicas no suelen estar medidas con exactitud.
Por otra parte la forma funcional (lineal) considerada, puede no ser la ms adecuada,
etc.
La inclusin de vt en el modelo convierte a Yt en una variable aleatoria al ser la
suma de Xt que se considera fija, y vt que es estocstica. Por tanto la relacin anterior es
ahora una relacin estocstica. Aunque no podemos predecir los valores individuales de
las vt si podemos hacer proposiciones sobre las caractersticas bsicas de su distribucin
de probabilidad:
a) Esperanza nula, el efecto conjunto sobre Y de v es nulo. Matemticamente,
E[v] = 0
b) Varianza constante, se postula asimismo que no son de esperar varianzas
mayores (o menores) a medida que X crezca, de manera que,
var(v ) v2 cte
cuando se cumple esta hiptesis decimos que los residuos son homocedsticos y en
caso contrario que son heterocedsticos o que hay heterocedasticidad.
c) No autocorrelacin, significa que los valores de v se distribuyen
independientemente, es decir no hay ninguna relacin entre ellos. En trminos
matemticos diremos que la covarianza entre valores sucesivos (separados por u
intervalos, siendo u distinto de cero), es nula,
Cov (vt, vt-u) = E[vt-E(vt)][ vt-u-E(vt-u)]= E(vtvt-u) = 0, para u 0
d) Normalidad, aunque las propiedades de los estimadores no resultaran afectadas

por el incumplimiento de esta hiptesis, es necesaria para poder efectuar
inferencias y pruebas estadsticas sobre los parmetros y el modelo de regresin.
Adems de estas cuatro hiptesis, en la formulacin del modelo probabilstico

admitimos tambin que las X eran fijas o no estocsticas, lo que implica lgicamente
que stas son independientes del trmino de error, es decir:
cov (Xt,vt) = E[Xtvt] = XtE(vt) = 0
Finalmente, suponemos que la relacin entre X e Y es lineal. Sobre estas seis
hiptesis se construye el modelo probabilstico de regresin. Para cada valor concreto
de X podemos observar diferentes valores de Y. Los diferentes valores de Y para cada
valor fijo de X, seguirn una distribucin normal cuya media ser precisamente el valor
terico dado por la ecuacin de regresin, que es el valor ms probable. La situacin se
ilustra en la figura 1,
Figura 1 Modelo probabilstico de regresin con dos variables
2.- Clculo de los estimadores
Los parmetros del modelo (1) son desconocidos. Su clculo se realiza en base al
criterio de minimizar la suma cuadrtica de las discrepancias d, siendo stas las
diferencias entre los valores observados de la variable dependiente o endgena Y, y los
valores tericos obtenidos con la ecuacin de regresin una vez que conocemos los
estimadores de y . Este criterio define el mtodo de los mnimos cuadrados
ordinarios (MCO).
N
En resumen se trata de minimizar
dt2 siendo las discrepancias,

t 1
d t Yt Yt Yt a bX t
(2)
donde a y b son los estimadores de y. Por tanto, aplicando las condiciones de

mnimo a la funcin,
D
(Y a
t
t 1
bX t ) 2
2
t
(3)
donde a y b son las variables, se tiene,

D
2 Yt a bX t 0
a
(4)
D
2 Yt a bX t X t 0
b
Tras algunas operaciones elementales, llegamos a,
Y na b X
t
Y X
t
a X t b X t2
(5.1)
(5.2)
que constituye el sistema de ecuaciones normales a partir del cual podramos estimar
los valores de los parmetros y .
Si multiplicamos la primera ecuacin por
X Y
t
y la segunda por n, tenemos,
na X t b X t
n Yt X t na X t nb X t2
y si de la segunda restamos la primera,
n X tYt Yt X t nb X t2 b X t
y despejando b,
b
n X tYt X t Yt
n X t2 X t
(6)
dividiendo numerador y denominador por n2 se tiene finalmente,
XY
XY s
n
b
xy2
2
X t X 2 sx
n
t t
(7)
que permite calcular la pendiente en funcin de las varianzas y covarianzas. Conocido el

valor de b podemos utilizar la ecuacin (5.1) para calcular a.
3.- Bondad del ajuste

Nuestro modelo de regresin postula que las variaciones en Y son debidas en parte a las
variaciones de X y en parte a las variaciones de la perturbacin aleatoria, v. Nos interesa
cuantificar esas partes, es decir conocer qu parte de la variacin observada en Y puede
atribuirse a la variable exgena X, y qu parte a la perturbacin. Una buena ecuacin de

regresin, o lo que es lo mismo, una ecuacin que ayude a explicar una elevada
proporcin de la variacin de Yt, ser aquella en la que la mayor parte de dicha variacin
pueda ser atribuida a X.
Para conocer la importancia cuantitativa de X a la hora de explicar las
variaciones de Y, descompondremos la variacin de Y en dos partes, una atribuible a X a
la que llamaremos variacin explicada, y otra a la perturbacin aleatoria, o variacin
residual o inexplicada. Intuitivamente es claro que cuanto menor sea la segunda mayor
ser la capacidad explicativa de nuestro modelo.
La variacin de Y puede representarse por la suma,
SCT Yt Y
La expresin anterior puede escribirse como,
2
SCT Yt Y Yt Yt Yt Y
(Y Y ) (Y Y )
2
2 (Yt Y )(Yt Y )
pero, puesto que el ltimo trmino del segundo miembro es nulo1, tenemos:
(Y Y ) (Y Y ) (Y Y )
2
( SCT )
( SCE ) ( SCR )
(7b)
de manera que la suma total de cuadrados (SCT) se expresa como la suma de cuadrados
explicada (SCE) ms la suma de cuadrados residual o no explicada (SCR). El primero
de estos sumandos es el que mide la contribucin de la variacin de X a la variacin
total. Dividiendo por SCT a ambos lados se tiene:
1
SCE SCR
SCT SCT
El cociente SCE/SCT es el denominado coeficiente de determinacin. Se

representa por R2 y se utiliza en econometra para medir la bondad del ajuste,
1
(Y Y )(Y Y ) (Y Y )d Y d
t
Y dt d t X t d t Y 0 0
R2
SCE
SCR
1
SCT
SCT
De la expresin anterior se deduce que dicho coeficiente vara entre 0 y 1. Un valor nulo
implica que la suma de los cuadrados residual es igual que la suma de los cuadrados
total, de manera que la variable X no contribuye en ninguna medida a la explicacin de
Y. Por otra parte, cuando la suma residual es nula (no hay desviaciones entre los valores
observados y los estimados), SCE = SCT y el ajuste es perfecto.
Aunque puede demostrarse fcilmente que el coeficiente de determinacin
coincide con el cuadrado del coeficiente de correlacin de la estadstica clsica, su
preferencia en econometra deriva de la descomposicin de la variacin de Y expresada
por la ecuacin anterior. Multiplicado por 100 indicara el porcentaje de variacin de Y
que cabe atribuir a la regresin (X). Ividiendo (7b) entre n, se tiene,
(Y Y )
t
(Y Y ) (Y Y )
o bien,
s 2y sry2 sey2
de donde,
R 1
2
sry2
s y2
Se demuestra inmediatamente que el coeficiente de determinacin se relaciona

con el coeficiente estimado de X, de acuerdo a,
R 2
2
x
y
2
t
2
t
una frmula que puede ser til en el clculo. Anlogamente, dado que el coeficiente de
correlacin, r, es,
x y
y
t
2
t
puede seguirse esta va para obtener R2.
4.- Propiedades del modelo y sus estimadores

Se demuestran inmediatamente las siguientes cinco propiedades:
Propiedad 1
La variable endgena Y, es una variable aleatoria. Como dijimos, es
consecuencia de que en el modelo probabilstico la variable endgena Y es la suma de
una parte fija a+bX, y otra estocstica, v. La aleatoriedad de v convierte a Y en una
variable de la misma naturaleza.
Propiedad 2
La esperanza matemtica de Y condicionada a X, es,
E Yt / X t E ( X t vt ) X t
Propiedad 3
La varianza de Yt es igual a la varianza de vt,
var(Yt ) E Yt E Yt
E X t vt X t E (vt ) 2 v2
2
Propiedad 4
1
v1 ... vn
E (v1 ) ... E (vn ) 0
n
n
E (v ) E
Propiedad 5
La esperanza matemtica de yt Yt Y X t X xt . En efecto, si sumamos los

dos miembros del modelo (1), tenemos,
Y n X v ,
t
y dividiendo por n,
Y X v
restando esta expresin del modelo,
Yt Y ( ) ( X t X ) (vt v )
y tomando esperanzas,
E (Yt Y ) E ( yt ) E ( X t X ) E (vt v ) xt
La razn de utilizar el mtodo MCO es que con l se obtienen estimadores con
buenas propiedades. Veamos a continuacin cules son las propiedades de que debe
gozar un buen estimador. En primer lugar ha de ser insesgado. Puesto que Y es una
variable aleatoria, con una muestra determinada de valores obtendremos unos
estimadores para nuestros parmetros tambin determinados, a1 y b1. Si dispusisemos
de otra muestra diferente, entonces los estimadores seran tambin diferentes, digamos
a2 y b2. Con ms muestras seguiramos obteniendo nuevos estimadores, de manera que
queda claro que estos estimadores son tambin variables aleatorias.
Algunas de las caractersticas importantes a la hora de evaluar un estimador, son
las siguientes:
a) La media o valor medio del estimador, E (b)
, que indica el promedio que
obtendramos para el estimador b (de ), despus de aplicar repetidas veces el

proceso de muestreo. En estas condiciones se define sesgo, S, del estimador,
como,
S = E(b)-
de manera que el estimador ser insesgado si S = 0, o bien,
E(b) =
b) La varianza, var (b) = E[b-E(b)]2 que mide la dispersin de b en torno a su valor

medio. Cuanto menor sea la varianza del estimador b, mayor ser su precisin,
es decir mayor ser la probabilidad de que, disponiendo de una sola muestra, el
estimador calculado bi est situado cerca del verdadero parmetro poblacional,
.
Dado un conjunto de estimadores insesgados, ser preferible aquel que
tenga varianza mnima.
c) Error cuadrtico medio, a veces es necesario elegir entre insesgadez y varianza
mnima. Por ejemplo, puede ser preferible un estimador sesgado pero con poca
varianza, a uno insesgado pero con varianza elevada, especialmente cuando se
dispone de una sola muestra. Por ello a veces la eleccin se hace atendiendo al
criterio del menor error cuadrtico medio. El error cuadrtico medio (ECM), se
define como,
ECM(b) = E(b-)2 = E[b-E(b)+E(b)-]2 =

= E[b-E(b)]2 + E[E(b)-]2 = var(b) + S2
puesto que el trmino 2E[(b-E(b))(E(b)-)], se anula.
Cuando el sesgo es nulo, ECM y varianza coinciden, pero si sta es elevada,
puede que exista un estimador sesgado con poca varianza que tenga un ECM que un
estimador insesgado.
d) Eficiencia, decimos que un estimador insesgado es eficiente, si para un tamao

muestral dado, su varianza es menor que la de cualquier otro estimador
insesgado.
e) Consistencia pertenece a las denominadas propiedades asintticas. Un
estimador se dice consistente si a medida que crece el tamao de la muestra, la
diferencia entre dicho estimador y el verdadero parmetro poblacional es cada
vez ms pequea. Ms adelante veremos con ms detalle esta propiedad.
f) Robustez A veces se habla tambin de estimadores robustos. En la obtencin de

estimadores es frecuente establecer hiptesis sobre la poblacin objeto de
estudio, que no siempre se cumplen. La propiedad de robustez de un estimador
se refiere al hecho de que desviaciones en la hiptesis iniciales no afectan a
dicho estimador o lo hacen dbilmente. (Ruiz Maya y Martn Pliego, p.72)
Veamos ahora cuales son los resultados de los estimadores MCO en relacin a
estas propiedades.
Propiedad 6. Los estimadores MCO son insesgados. Vemoslo con b. Partiendo del
modelo en desviaciones con respecto a las medias, yt = xt + vt, tenemos,
x y x (Y Y ) x Y x Y
x
x
x x
t
2
t
t t
2
t
2
t
2
t
x Y Y x 0 , queda,
pero como
b
y haciendo wt
xt
, se tiene,
xt2
xY
x
t t
2
t
b wtYt
(8)
es decir que el estimador b es una combinacin lineal de los valores de Yt. Podemos
ilustrarlo con un ejemplo. Sean las variables X e Y,
X
2
3
1
5
9
20
Y
4
7
3
9
17
40
XY
8
21
3
45
153
230
X2
4
9
1
25
81
120
4.5
6.25
2.75
9.75
16.75
40
dt
-0.5
0.75
0.25
-0.75
0.25
0
x
-2
-1
-3
1
5
0
y
-4
-1
-5
1
9
0
xy
8
1
15
11
45
70
x2
4
1
9
1
25
40
y2
16
1
25
1
81
124
d2
0.25
0.5625
0.0625
0.5625
0.0625
1.5
Tabla 1 Ejemplo hipottico (en la ltima fila la suma de cada columna) (Johnston)
En este caso la regresin de Y sobre X, es, aplicando (7),
XY
t t
XY
n
X t2 X 2
n
230
48
14
5
1.75
120 2 8
4
5
y segn (8),
b wtYt
La expresin wt
a)
2
1
3
1
5
70
4 7 3 9 17
1.75
40
40
40
40
40
40
xt
cumple,
xt2
xt
xt 0 0
2
xt2 xt2
xt
w
t
b) wt X t
(9)
x X X X X X X X
x
x
x
t
2
t
2
t
2
t
2
t
X nX
x
2
t
2
t
como el denominador,
x X
= X nX
X X t2 X 2 2 XX t X t2 nX 2 2 X X t X t2 nX 2 2nX 2
2
2
t
2
t
t
2
, resulta que finalmente,
w X
t
c)
2
t
2
t
nX 2
nX 2
xt2
(10)
2
xt 1
2 2
x 2 2
xt2
t
t
wt2
(11)
Podemos ahora comprobar que los estimadores MCO son insesgados.

Comenzando por b, se tiene,
b wtYt wt ( X t vt ) wt wt X t wt vt
que en virtud de (9), (10) y (11), queda,

b wt vt
(12)
expresin de la que se deduce que,

b wt vt
(13)
que ser utilizada en la demostracin de otras propiedades. Tomando esperanzas en (12)

tenemos que,
E(b) = + E(wtvt) = + wtE(vt) =
Anlogamente puesto que,
a Y bX
y siendo2 Y X v ,
a X v bX (b ) X v
(14)
y tomado esperanzas,
E ( a) E ( ) XE (b ) E (v )
que dada la insesgadez de b y la propiedad 4, lleva a
E(a) =
(15)
Es decir que a es tambin un estimador insesgado.
v2
Propiedad 7 La varianza del estimador de , b
. En efecto,
xt2
var(b) E b E (b) E b E
2
w v
t t
(por 13)
Al desarrollar el sumatorio entre corchetes, encontraremos dos tipos de miembros: por

2 2
2 2
una parte aquellos que tengan los mismos subndices ( w1 v1 ,..., w j v j ), y por otra los
productos cruzados del tipo w1v1w2 v2 ,..., wi vi w j v j . stos se repetirn dos veces, pues por
2
Y X t vt ,
Y ( X
sigue la igualdad del texto.
vt ) n X t vt , y dividiendo por n se
cada wi vi w j v j aparecer tambin w j v j wi vi que, obviamente es idntico. De manera que

podemos poner:
var(b) E
= E
w v
2 2
i i
w v
t t
2 E
w w v v
i
j i
w v
2 2
i i
2 wi w j vi v j
i j
wi2 E (vi2 ) 2 wi w j E (vi v j )
Pero en virtud de la hiptesis de no autocorrelacin de las perturbaciones, E(vivj) = 0, y

por tanto, teniendo en cuenta (11),
var(b) wi2 E (vi ) 2 wi2 v2
v2
xt2
(16)
1
X2
. Teniendo en cuenta (14), podemos

2
n xt
2
Propiedad 8 La varianza de a, es var(a ) v
poner,
var(a ) E (a ) 2 E[(b ) X v ]2
= E[(b ) 2 X 2 v 2 2(b ) X v ]
Pero tenemos que,
2
2
2
2
2
2
a) E[(b ) X ] X E (b ) X var(b) X
v ... vn
b) E (v ) E 1
v2
xt2
1
E (v1 ... vn )2 . Como los trminos E (vi v j ) 0, i j , se
2
n
tiene,
E (v ) 2
1
1
v2
2
2
2
E
(
v
...
v
)
1
n
v
n2
n2
n
c) E 2(b ) X v 0, ya que tanto E (b ) como E (v ) son nulos, y X cte.

Por lo tanto,
var(a ) E[(b ) X v ]2 X 2
v2
v2
X2
2 1
v
2
xt2 n
n xt
Propiedad 9 La covarianza entre a y b, es, cov(a, b)
(17)
X v2
.
xt2
cov(a, b) E (a )(b ) E ((b ) X v )(b )

2
= E v (b ) X (b )
Pero E v (b ) 0 , al ser nulas las esperanzas tanto de v como de (b-), as que,
cov(a, b) E X (b ) 2 X var(b) X
v2
xt2
(18)
En el desarrollo de todas estas propiedades, hemos hecho uso permanentemente

de las hiptesis a), b) y c). Su incumplimiento tendr consecuencias sobre las mismas
como tendremos ocasin de ver ms adelante.
Propiedad 10: Teorema de Gauss Markov. Es el teorema ms importante de los MCO.

El teorema afirma que los estimadores mnimo cuadrticos son los de varianza menor
entre la clase de los estimadores lineales e insesgados (eficiencia).
Para probarlo se define un nuevo estimador lineal e insesgado, B, y se llega a la
conclusin de que var(B) > var(b) siendo b el estimador MCO. Sea pues,
B ctYt
(19)
donde ct son las ponderaciones que hacen a B una combinacin lineal de Yt. Se tiene
que,
B ctYt ct ( X t vt ) ct ct X t ct vt
por tanto,
E ( B ) E ( ct ) E ( ct X t ) E ( ct vt ) ct ct X t
Si B es un estimador insesgado, ha de cumplirse que
c 0 y c X
t
1. Ahora
podemos probar el teorema siguiendo dos vas alternativas:

a) Prueba 1. Como,
var( B ) E[ B ]2 E[ ctYt ]2 E[ ct ( X t vt ) ]2 =
2
= E[ ct ct X t ct vt ]
que, en virtud de las condiciones de insesgadez, queda,

var( B ) E[ ct vt ]2 E[ ct vt ]2 =
2 2
= E c1v1 ... cn vn E[ ct vt 2 ci c j vi v j ]
2
i j
pero el ltimo trmino tendr esperanza nula por la hiptesis de no autocorrelacin, y

por tanto,
var( B ) E ( ct2vt2 ) ct2 E (vt2 ) v2 ct2
(20)
Para comparar la varianza de este nuevo estimador B con la del estimador MCO,
podemos escribir,
ct = wt + (ct wt)
c w (c w )
2
t
2
t
2 wt (ct wt )
pero,
c w x
ct xt
y,
c x c (X
t t
2
t
X ) ct X t X ct 1
por las condiciones de insesgadez de ct. Por tanto,
c w x
ct xt
2
t
1
xt2
y,
2 wt (ct wt ) 2 wt ct 2 wt2 2
1
1
2
0
2
xt xt2
de manera que,
c w (c w )
2
t
2
t
o bien,
v2 ct2 v2 wt2 v2 (ct wt )2

lo que conduce a,
var( B ) var(b) v2 (ct wt )
(21)
siendo el segundo trmino del segundo miembro necesariamente positivo o nulo, se

sigue que, o bien la varianza de B es mayor que la de b, o en todo caso son iguales, pero
esta ltima posibilidad implica que,
(c w )
t
(c w ) 0
t
c w , y cY wY
t
t t
t t
B b
Anlogamente se probara que a es un estimador lineal, insesgado y de mnima varianza

(ptimo) de .
b) Prueba 2. Partimos de (19),

B ctYt
y anlogamente hacemos,
A dtYt
llegndose a,
var( B ) v2 ct2 , y var( A) v2 d t2
Probaremos ahora que cuando var(B) es mnima, entonces B coincide con b, el
estimador mnimo cuadrtico. Y anlogamente con A.
La var(B) ser mnima cuando lo sea la expresin
2
t
2
dado que v es
constante. Por tanto nuestro problema se reduce a minimizar dicha expresin sujeta a las
condiciones de insesgadez,
c 0 y c X
t
1.
La funcin auxiliar de Lagrange a minimizar, es:

L ct2 2 ct X t 1 2 ct
de donde3,
L
2ct 2 X t 2 0, ct X t
ct
(22)
Sumando,
c X
t
n 0, por
c 0 (insesgadez)
t
Anlogamente multiplicando (22) por Xt y sumando,

ct X t X t2 X t
c X
t
X t2 X t 1, por ct X t 1 (insesgadez)
Tenemos pues el sistema,
X t n 0
X t2 X t 1
3
Tngase en cuenta que
derivando respecto a cada ci, ,

deduce la del texto.
L (c12 c22 ... cn2 ) 2 (c1 X 1 ... cn X n 1) 2 (c1 ... cn ) y

L
c1
2c1 2 X 1 2 0; ...
L
cn
2cn 2 X n 2 0 , de donde se
o bien,
X 0
X t2 X t 1
de la primera ecuacin se deduce que X , y sustituyendo en la segunda,
1
1
2
( X t X ) xt2
Sustituyendo estos resultados en (22), tenemos,

ct
Xt
X
X X
x
t 2 t 2
2
2
xt xt xt xt
xt
coincide con wt, es decir con las ponderaciones del
xt2
estimador mnimo cuadrtico, quedando as probado el teorema.
Pero la ltima expresin,
En efecto, el estimador MCO qued definido como,

b wtYt
hemos definido un nuevo estimador lineal e insesgado B ctYt y cuando hemos
minimizado su varianza, hemos llegado a la conclusin de que,
B ctYt wtYt b
La introduccin del trmino de perturbacin aleatoria en el modelo, transform a

Yt en una variable aleatoria (propiedad 1). Puesto que postulamos que las vt seguan una
distribucin normal (proposicin 4), sta ser tambin la distribucin de Yt. Siendo los
estimadores a y b combinaciones lineales de las Yt, su distribucin de probabilidad ser
asimismo normal. Hemos calculado sus respectivas medias y varianzas (propiedades 6,7
y 8) de forma que,

1
X2
a N , v2
2
n xt
2
b N , v 2
xt
(23)
(24)
Con estos resultados estaramos en condiciones de poder contrastar hiptesis

sobre ambos estimadores. Antes repasaremos brevemente los principios bsicos de la
contrastacin de hiptesis.
5.- Contrastacin de hiptesis

Los resultados establecidos en (23) y (24) nos permitiran en principio seguir un
procedimiento anlogo al descrito en el epgrafe anterior para contrastar hiptesis acerca
de los valores de los parmetros. Por ejemplo, si estimamos una funcin de consumo
keynesiana y obtenemos t = 2.5 + 0.8t, puesto que b es una normal, podramos
efectuar un contraste estadstico acerca del verdadero valor del parmetro poblacional.
El estadstico de contraste sera,
b
b
v
b
xt2
(25)
que sigue una distribucin normal tipificada al estar b corregido por su media () y su
desviacin tpica.
El problema es que no conocemos la varianza de las perturbaciones aleatorias.
Una solucin lgica es sustituirla por la varianza muestral, pero ste no es un estimador
insesgado (aunque s mximo verosmil). Obtendremos ahora un estimador insesgado de
la varianza de las perturbaciones aleatorias.
Propiedad 11. Un estimador insesgado de la varianza de las perturbaciones aleatorias

viene dado por la expresin,
s2
2
t
(26)
n2
Puesto que Yt = + Xt + vt, y Y X v , restando se obtiene,

Yt Y ( X t X ) (vt v ),
yt xt (vt v )
siendo yt bxt , queda,
dt yt yt xt (vt v ) bxt (b ) xt (vt v )
Elevando al cuadrado y sumando,
d
como
2
t
(b ) 2 xt2 (vt v ) 2 2(b ) xt (vt v )
x v 0, se tiene,
t
2
t
(b ) 2 xt2 (vt v ) 2 2(b ) xt vt
y tomado esperanzas,
2
2
2
2
E[ dt ] E[(b ) xt (vt v ) 2(b ) xt vt ]
(27)
Pero,
2
2
2
2
2
2
a) E[(b ) xt ] xt E (b ) xt var(b) xt
(v v )
b) Adems E
E
(v
(v
v ) 2 E
2
t
(v
v )
finalmente, E
(v
tanto, E
E
v )
v2
v2
2
x
t
(n 1) v2 . En efecto,
v 2 2vt v ) . Pero
2
t
nv
2
t
v
nv 2 y 2 v vt 2vn t 2nv 2 . Por
n
v ... vn
. Como nE ( v ) nE 1
nv
n v2
n2
v2 . Y
E (vt2 ) nE ( v 2 ) n v2 v2 (n 1) v2
c) Por ltimo, 2 E (b ) xt v t 2 E
x v x v
x
t t
2
t
2
2
2
E xt vt . Pero E xt vt E
2
xt
x Ev
2
t
2
t
t t
x v
2 2
i i
x v
x
2E
t t
2
t
2 xi x j vi v j E xi2vi2 =
i j
2 v xt
2
2
x , de manera que,
E
(
x
v
)
2 v2
t
t
2
2
xt
xt
2
2
v
2
t
Resumiendo, los resultados anteriores permiten poner (26) de la forma,

E
2
t
v2 (n 1) v2 2 v2 v2 [1 ( n 1) 2] ( n 2) v2
de aqu se sigue que,

E d t2
n2
de manera que la expresin
2
t
n 2
v2
(28)
2
t
es un estimador insesgado de la varianza de las

n2
perturbaciones aleatorias en el modelo de regresin simple lineal.
Ahora podramos sustituir este valor en la expresin (25) y proceder as a la
contrastacin de hiptesis. Es decir, utilizaramos el estadstico de prueba:
b
sv
xt2
(29)
Surge sin embargo un nuevo problema. Cuando se sustituye la varianza de las

perturbaciones aleatorias por su estimador insesgado, la expresin (29) ya no sigue una
distribucin normal sino otra diferente.
Recordando que el cociente entre una variable aleatoria N(0, 1) y la raz cuadrada
de una variable aleatoria distribuida segn una 2 corregida por sus grados de
libertad, es una t-Student, un procedimiento para proceder a la contrastacin, sera
dividir en (29) numerador y denominador por v . As,
b
b
sv
2
t
d n2
x
2
t
2
t
2
t
sv
v
En el numerador tenemos ahora una distribucin N(0, 1) y en el denominador

2
una n 2 corregida por sus respectivos grados de libertad 4. Esta es precisamente la
definicin de una t-Student con n-2 grados de libertad, de manera que,

b
tn 2
sv
xt2
(31)
que es la distribucin adecuada para llevar a cabo el contraste de hiptesis. Con la

salvedad de que esta distribucin tiene valores diferentes en funcin del tamao de la
muestra y de los grados de libertad, el procedimiento para llevar a cabo el contraste es
idntico al descrito en el epgrafe 5. Adems para tamaos muestrales grandes, la t
converge a la normal, por lo que para n > 30 podemos usar las tablas de esta ltima
distribucin.
Lo habitual es contrastar la hiptesis nula de que = 0, lo que en una regresin
simple equivale a postular la ausencia de relacin entre las explicativas (en este caso
slo la X) y la explicada. Sencillamente, calcularamos el cociente (30) y si el valor
obtenido es superior al tabulado, se rechazara H 0 al nivel de significacin elegido. El
razonamiento es que si la hiptesis nula es cierta ( = 0), el cociente anterior se
distribuira como un tn-2, y en ese caso la probabilidad de encontrar valores superiores al
tabulado para el nivel de significacin elegido, es inferior a dicho nivel de significacin
(se entiende mejor con un ejemplo concreto).
Si la hiptesis a contrastar es otra, por ejemplo H 0: =0, el procedimiento es
idntico.
La expresin
pgs. 218 y 219)
2
v
2
t
( n 2) sv2
2
v
se distribuye como una
n2 2 . (Johnston, pg. 40. Demostracin en
Para construir intervalos de confianza, seguimos un proceso anlogo. Elegido el

nivel de significacin , se tiene:
b
Pr t
t 1
sb
2
2
o bien,
Pr b sbt b sbt 1
2
2
donde t/2 es el valor en tablas para el nivel de significacin elegido. En resumen, con un
nivel de confianza de 1-, el verdadero parmetro poblacional estar comprendido en el
intervalo,
b sbt / 2 , b sbt / 2
o b sbt / 2
La ausencia de relacin entre las explicativas (en este caso slo la X) y la

explicada puede contrastarse tambin por medio de otro estadstico que no emplea la
distribucin t. Si H0 es cierta, es decir si no existe relacin entre X e Y, la variacin en Y
no se ver afectada por los cambios en X y la suma de los cuadrados de la regresin ser
distinta de cero slo porque estamos observando una muestra en vez de la poblacin
total. Ello es evidente si tenemos en cuenta que la suma de los cuadrados explicada por
la regresin, SCE es,
SCE Yt Y
a bX
2
como Y a bX , a Y bX , y,
SCE a bX t Y Y bX bX t Y
2
b( X
X )
bxt b 2 xt2
2
(32)
si = 0, b slo ser diferente de cero por las variaciones muestrales, pero en el segundo
miembro de la descomposicin (7b),
SCT = SCE + SCR
la prctica totalidad de la variacin corresponder a la suma de los cuadrados residual,

o lo que es lo mismo, el cociente SCE/SCR slo es diferente de cero como consecuencia
del muestreo. Si corregimos por los respectivos grados de libertad,
SCE /1
SCR /(n 2)
(33)
obtenemos el cociente de dos distribuciones 2 ponderadas por sus grados de libertad

respectivos, es decir una distribucin F1,
, con la que podemos llevar a cabo el
n-2
contraste H0: = 0: calculado el cociente anterior, si el valor obtenido es superior al

tabulado, se rechaza H0. De hecho se demuestra inmediatamente que t2 = F.
En las aplicaciones puede resultar ms cmodo para el clculo, expresar el
cociente anterior en trminos del coeficiente de determinacin:
R 2 /1
(1 R 2 ) /(n 2)
(n 2) sv2
2
Finalmente puesto que
se distribuye segn una n 2 podemos utilizar
2
v
el cociente anterior para contratar hiptesis o construir intervalos de confianza, para el
valor de la varianza de las perturbaciones aleatorias.
Ejemplo 1
Veamos todo ello con un ejemplo concreto. La tabla siguiente recoge los datos de
desempleo e inflacin correspondientes a la economa espaola en el periodo de
referencia. Se trata de contrastar la hiptesis de Phillips segn la cual existira una
relacin inversa entre inflacin y desempleo
Trimestre
1982:1
1982:2
1982:3
1982:4
1983:1
1983:2
Yt
Tasa paro
15.67000
15.49000
16.12000
16.79000
17.47000
17.04000
Xt
Inflacin
3.874580
3.773178
2.098483
3.581604
2.829077
2.388231
1983:3
1983:4
1984:1
1984:2
1984:3
1984:4
1985:1
1985:2
1985:3
1985:4
17.36000
18.07000
19.70000
19.83000
20.17000
21.30000
21.71000
21.68000
21.50000
21.67000
2.519127
3.967965
2.766106
1.720613
2.445152
1.814615
3.227360
1.182143
1.829362
1.705918
Tabla 1. Datos bsicos de paro e inflacin

La matriz de varianzas y covarianzas, es:
Y
X
Medias
Y
5.106165
-1.197381
18.84813
X
-1.197381
0.714318
2.607720
Tabla 2. Varianzas, covarianzas y medias

Estimamos en primer lugar la ecuacin,
Yt X t vt
obtenindose,
a
b

X
X
Y
XY
1
120.232*16 41.7242
16
41.724

41.724 120.232

120.232 41.724
41.724
16
301.57
767.252
301.57
23.225

767.525
1.684

El signo del parmetro es negativo como postula la hiptesis terica.

El ajuste vendra dado por el coeficiente de determinacin, ser
2
2
SCE b xt b 2 sx2 (1.684) 2 0.714318
R
0.3967
SCT
5.106165
yt2 s y2
2
Al mismo resultado se llega calculando el coeficiente de correlacin,

r
sxy
sx s y
1.197381
0.627
0.71435.1062
y elevando al cuadrado este valor.

Tambin podra calcularse a partir de,
R 2 1
sry2
s y2
donde sr2 es la varianza residual que podemos obtener a partir de,

s
2
ry
2
t
El ajuste no es excesivamente bueno aunque esto es habitual cuando se trabaja

con tasas de variacin.
Veamos ahora el contraste de hiptesis.
a) Contraste de la hiptesis H0: = 0 El estadstico de contraste es,
b
tn 2
sb
de manera que necesitamos conocer sb. Sabemos que,
v2
sv2
sv2
s
xt2 xt2 nsx2

2
b
y el estimador insesgado de la varianza de las perturbaciones aleatorias, es:

sv2
2
t
n2
La suma cuadrtica de los residuos puede obtenerse de distintas formas. De la

definicin se deduce que,
d y
2
t
bxt yt2 b 2 xt2 n s y2 b 2 s x2 16(5.106 (1.684) 2 0.7143 49.29

2
y por tanto,
sv2
2
t
n2
49.29
3.52
16 2
lo que proporciona,
sv2
sv2
3.52
s
2
0.308, y sb 0.308 0.555
2
xt nsx 160.7143
2
b
de manera que ya tenemos todos los datos del estadstico de contraste. Si la hiptesis
nula es cierta, entonces (b ) / sb , se distribuye como una t de Student con 14 grados
de libertad. Para un nivel de significacin del 5% (puede elegirse el que se quiera),
sabemos por las tablas de dicha distribucin, que el 95 % de la masa de probabilidad
est comprendido en el intervalo (-2.145, 2.145). Por tanto si el valor que obtengamos
est fuera del mismo, tenemos una evidencia emprica en contra de la hiptesis nula. Es
decir, rechazaremos dicha hiptesis si el valor que obtengamos es mayor en valor
absoluto que 2.145. Los clculos para nuestro ejemplo concreto arrojan,
b 1.684 0
3.03
sb
0.555
que es en efecto mayor (en valor absoluto) que el valor crtico tabulado. Se rechaza por
tanto H0.
Si se considera que el contraste debe ser de una cola (es decir, si pensamos que
la evidencia en contra slo ha de buscarse en la cola negativa de la distribucin), el
valor en tablas es menor en valor absoluto: - 1.761, de manera tambin se rechaza la
hiptesis en este caso.
b) Contraste de la hiptesis H0: = - 1 Los clculos son idnticos, pero no el
resultado,
b 1.684 (1)
1.232
sb
0.555
es decir, en este caso no podra rechazarse la hiptesis nula al no ser el valor obtenido
superior en valor absoluto al tabulado.
c) Construccin de un intervalo de confianza del 95%. En este caso sabemos que,
b
1.684
Pr t0.025
t0.025 2.145
2.145 0.95
sb
0.555
es decir,
Pr 1.684 0.5552.145 1.684 0.5552.145 0.95
de manera que con un nivel de confianza del 95%,
( 2.874, 0.4935) - 1.684 0.5552.145
d) Contraste de la significatividad global de la regresin. En el caso de la regresin

simple, no hay diferencia entre este contraste y el que se refiere al parmetro , es
decir si es significativo, lo ser tambin la regresin ya que sta slo tiene una
variable explicativa. La situacin es diferente en el caso de la regresin mltiple
como veremos en u momento. De todas formas ilustramos aqu este contraste.
Usaramos el estadstico dado por (33), que puesto en funcin del coeficiente de
determinacin, queda:
F1,14
R 2 /1
0.3967
9.206
2
(1 R ) /14 0.0431
siendo superior al valor tabulado al 5% (4.60), se rechazara la hiptesis nula. Se

comprueba que F = t2.
e) Intervalo de confianza para la varianza de las perturbaciones aleatorias. Puesto
que,
(n 2) sv2
142
v2
para un nivel de confianza del 95% se tiene,
14 sv2
Pr A 2 B 0.95
v
14 s 2
Pr 5.629 2v 26.119 0.95
v
143.52
Pr 5.629
26.119 0.95
2
v
1
v2
1
Pr
0.95
26.119 49.28 5.629
Pr 1.8867 v2 8.7547 0.95
que es el intervalo de confianza del 95%.
A continuacin se muestran los resultados obtenidos con E-views (en negrilla los
que hemos calculado en los epgrafes anteriores):
Dependent Variable: PARO
Method: Least Squares
Date: 04/20/03 Time: 13:28
Sample: 1982:1 1985:4
Included observations: 16
Variable
Coefficient
C
23.21934
TP
-1.676258
R-squared
0.393078
Adjusted R-squared
0.349726
S.E. of regression
1.881958
Sum squared resid
49.58474
Log likelihood
-31.75177
Durbin-Watson stat
1.056185
Std. Error
t-Statistic
1.526001
15.21581
0.556678
-3.011179
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
Prob.
0.0000
0.0093
18.84812
2.333790
4.218971
4.315545
9.067200
0.009342
7.- Prediccin
Estimada la ecuacin (1), puede interesarnos efectuar pronsticos sobre los valores
futuros de la variable dependiente Yt. Por ejemplo queremos conocer cul ser el valor
Y0 asociado a un X0 determinado (prediccin condicionada). La prediccin lleva
implcito el supuesto de que la relacin estimada se mantendr en el futuro.
Se pueden hacer dos tipos bsicos de prediccin, por puntos o por intervalos, de
la misma forma que puede darse una estimacin puntual o por intervalos del parmetro
poblacional . Pero en la prctica la prediccin es de poca utilidad si no va acompaada
de una medida de su precisin, por lo que lo habitual es efectuar una prediccin por
intervalo. Es pues necesario conocer el error del pronstico.
La prediccin puntual ser,

Y0 a bX 0
en tanto que el verdadero valor de Y0 es,
Y0 X 0 v0
de manera que el error del pronstico, ser,
e0 Y0 Y0 X 0 v0 a bX 0 v0 (a ) (b ) X 0
(34)
Es inmediato que,
E (e0 ) E (v0 ) E (a ) X 0 E (b ) 0
ya que a y b son estimadores insesgados de y , y que la esperanza de v0 es nula por
hiptesis. Por tanto,
E (Y0 ) Y0
y el predictor Y0 es por tanto un estimador insesgado del verdadero valor Y0.
En cuanto a la varianza del error, vendr dada por,
var(e0 ) E (e0 ) 2 E v0 (a ) (b ) X 0
2
2
2
2
2
= E v0 (a ) X 0 (b ) 2 X 0 (a )(b ) 2v0 (a ) 2v0 X 0 (b )
Pero puesto que E[v0(a-)] y E[v0(b-)] son nulas, se tiene:

var(e0 ) E v02 (a ) 2 X 02 (b ) 2 2 X 0 ( a )(b ) =
2
2
2
2
= E (v0 ) E (a ) X 0 E (b ) 2 X 0 E[( a )(b )]
2
= var(v0 ) var(a ) X 0 var(b) 2 X 0 cov(a, b)
Sustituyendo estas expresiones por los valores obtenidos en las propiedades (7),
(8) y (9), se llega a:
2
1
X2
2X0 X
2 X0
var(e0 )
v
v2
=
2
2
xt
xt2
n xt
2
v
2
v

2
1
X2
X 02
2 X 0 X
1 ( X 0 X ) 2
2
= v
n xt2 xt2 xt2

n
xt2
(35)
De la expresin anterior se deduce que la varianza del error ser mnima cuando
X 0 X y crecer en la medida en que se aleje de dicho valor.
De (34) se deduce que e0 ser una normal con media nula y varianza dada por
(35), de manera que,
e0 E (e0 )
N (0,1)
1 ( X 0 X ) 2
1
n
xt2
Sustituyendo v por su estimador insesgado sv, se tiene,

e0
1
e0 E (e0 )
dt2
n2
1
1
n
(X0 X )
2
t
e0
1 (X0 X )
n
xt2
dt2
n2
1 ( X X )2
v 1 0 2
n
xt
2
t
n2
v
La ltima expresin es el cociente de una N(0, 1) y una 2 corregida por sus

grados de libertad, es decir una t-Student con n-2 grados de libertad. De manera que,
e0
dt2
n2
1 ( X 0 X ) 2
1
xt2
Y0 Y0
dt2
n 2
1 ( X X ) 2
1 0 2
n
xt
tn 2
(36)
expresin con la que pueden llevarse a cabo contrastes de hiptesis o construir

intervalos de confianza para la prediccin. El procedimiento es anlogo al que ya se vi
para y .
Si el inters radica en pronosticar no Y0 sino E(Y0), la nica diferencia estriba en

que el error de prediccin ser menor, al haber desaparecido una fuente de variacin,
e0 E (Y0 ) Y0 X 0 a bX 0 (a ) (b ) X 0
(37)
La diferencia con (34) es que ahora no aparece el trmino v0. Ello tiene su
correspondiente reflejo en la varianza,
2
1
2 1 ( X 0 X ) 2
X2
2 X0
2 2X0 X
2 v
v
v
n xt
xt2
xt2 n xt2
var(e0 ) v2
(38)
El predictor sigue siendo un estimador insesgado ya que E (e0 ) 0 , pero su

varianza es ahora menor.
Anlogamente,
e0
dt2
n2
1 ( X 0 X )2
n
dt2
E (Y0 ) Y0
dt2
n2
1 ( X 0 X )2
n
dt2
tn 2
(39)
Siguiendo con el ejemplo de la curva de Phillips, si queremos una prediccin por

intervalos de la tasa de paro para 1986:1, suponiendo que la inflacin fuese del
2%, tendremos que la prediccin ser simplemente,
Y1986.1 23.22 1.68* 2 19.86
es decir que, si la inflacin es del 2%, el paro ser del 19.86 %.
Para construir el intervalo de confianza utilizamos las expresin (3) de la que ya
hemos calculado prcticamente todos los valores. Como el intervalo es del 95% hemos
de buscar en las tablas de la t Student con 14 g.l., los valores entre los que est
comprendida el 95% de la masa de probabilidad. Dichos valores resultan ser -2.145 y
2.145. Por tanto,
Pr 2.145
Y0 Y0
2
t
n 2
1 ( X 0 X ) 2
n
xt2
2.145 0.95
y sustituyendo,
Y0 19.86
Pr 2.145
1 (2 2.61) 2
3.52 1
16
11.429
de manera que el intervalo queda finalmente,

19.86 2.1451.9633
2.145 0.95

Apuntes de Econometria (Modelo de Regresión Con Dos Variables)

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apuntes de Econometria (Modelo de Regresión Con Dos Variables)

Enviado por

Direitos autorais:

Formatos disponíveis

I.

EL MODELO DE REGRESIN CON DOS VARIABLES

Ello implica una modificacin sustancial de la naturaleza del modelo debido a

d) Normalidad, aunque las propiedades de los estimadores no resultaran afectadas

Adems de estas cuatro hiptesis, en la formulacin del modelo probabilstico

Figura 1 Modelo probabilstico de regresin con dos variables

2.- Clculo de los estimadores

En resumen se trata de minimizar

dt2 siendo las discrepancias,

donde a y b son los estimadores de y. Por tanto, aplicando las condiciones de

donde a y b son las variables, se tiene,

Si multiplicamos la primera ecuacin por

y la segunda por n, tenemos,

dividiendo numerador y denominador por n2 se tiene finalmente,

que permite calcular la pendiente en funcin de las varianzas y covarianzas. Conocido el

3.- Bondad del ajuste

atribuirse a la variable exgena X, y qu parte a la perturbacin. Una buena ecuacin de

La expresin anterior puede escribirse como,

El cociente SCE/SCT es el denominado coeficiente de determinacin. Se

Se demuestra inmediatamente que el coeficiente de determinacin se relaciona

puede seguirse esta va para obtener R2.

4.- Propiedades del modelo y sus estimadores

La esperanza matemtica de yt Yt Y X t X xt . En efecto, si sumamos los

a) La media o valor medio del estimador, E (b)

, que indica el promedio que

obtendramos para el estimador b (de ), despus de aplicar repetidas veces el

b) La varianza, var (b) = E[b-E(b)]2 que mide la dispersin de b en torno a su valor

ECM(b) = E(b-)2 = E[b-E(b)+E(b)-]2 =

d) Eficiencia, decimos que un estimador insesgado es eficiente, si para un tamao

f) Robustez A veces se habla tambin de estimadores robustos. En la obtencin de

En este caso la regresin de Y sobre X, es, aplicando (7),

, resulta que finalmente,

Podemos ahora comprobar que los estimadores MCO son insesgados.

que en virtud de (9), (10) y (11), queda,

expresin de la que se deduce que,

que ser utilizada en la demostracin de otras propiedades. Tomando esperanzas en (12)

Es decir que a es tambin un estimador insesgado.

Al desarrollar el sumatorio entre corchetes, encontraremos dos tipos de miembros: por

sigue la igualdad del texto.

cada wi vi w j v j aparecer tambin w j v j wi vi que, obviamente es idntico. De manera que

wi2 E (vi2 ) 2 wi w j E (vi v j )

Pero en virtud de la hiptesis de no autocorrelacin de las perturbaciones, E(vivj) = 0, y

var(b) wi2 E (vi ) 2 wi2 v2

. Teniendo en cuenta (14), podemos

c) E 2(b ) X v 0, ya que tanto E (b ) como E (v ) son nulos, y X cte.

Propiedad 9 La covarianza entre a y b, es, cov(a, b)

cov(a, b) E (a )(b ) E ((b ) X v )(b )

Pero E v (b ) 0 , al ser nulas las esperanzas tanto de v como de (b-), as que,

En el desarrollo de todas estas propiedades, hemos hecho uso permanentemente

Propiedad 10: Teorema de Gauss Markov. Es el teorema ms importante de los MCO.

Si B es un estimador insesgado, ha de cumplirse que

podemos probar el teorema siguiendo dos vas alternativas:

que, en virtud de las condiciones de insesgadez, queda,

pero el ltimo trmino tendr esperanza nula por la hiptesis de no autocorrelacin, y

por las condiciones de insesgadez de ct. Por tanto,

v2 ct2 v2 wt2 v2 (ct wt )2

siendo el segundo trmino del segundo miembro necesariamente positivo o nulo, se

Anlogamente se probara que a es un estimador lineal, insesgado y de mnima varianza

b) Prueba 2. Partimos de (19),

La funcin auxiliar de Lagrange a minimizar, es:

Anlogamente multiplicando (22) por Xt y sumando,

Tenemos pues el sistema,

Tngase en cuenta que