Você está na página 1de 170

Ejercicios de

Econometría Aplicada
Pablo Lavado , Gonzalo Rivera , Claudia Lisboa, Luciana Velarde, Óscar Jara
Agosto del 2016
Libro de Ejercicios de Econometría
Aplicada

Introducción
El manejo de los conocimientos y herramientas econométricas es de vital importancia para
un economista, ya sea que se desempeñe en la academia, en el sector privado y en el
sector público. La econometría es una herramienta estadística útil para explicar fenómenos
y regularidades empíricas. De igual forma, brinda al investigador la capacidad de poder
aislar los efectos causales de una variable de interés sobre otra y distinguir entre correlación
y causalidad. El objetivo central de la econometría es confrontar la teoría con los datos
observados y dar una interpretación de los mecanismos subyacentes o modelar estos
mecanismos. En suma, la econometría permite explicar, predecir y controlar el fenómeno
que estamos analizando a través de un modelo econométrico simple, que debe ser realista
y manejable.

Existen libros de texto de muy buena calidad dedicados al desarrollo del contenido teórico
econométrico introductorio. En particular, destacamos los textos llevados a cabo por Jeffrey
Wooldridge (2009), Alfonso Novales (1993), Guajarati (1995), Johnston y DiNardo (1997) y
Stock y Watson (2009); y, para mayor profundidad, el texto desarrollado por William Greene
(2012). No obstante esta gran cantidad de literatura, consideramos que no existe en la
actualidad un documento que permita reforzar la parte práctica de la econometría básica.
Por la naturaleza de la econometría, es conveniente que la parte teórica sea
complementada por ejercicios prácticos a fin de que se pueda contrastar los conocimientos
teóricos. Si bien los libros de texto mencionados poseen una parte práctica, consideramos
que hace falta una guía de resolución de ejercicios un poco más detallada que permita un
mayor entendimiento de la parte teórica; en especial para aquellos estudiantes que están
empezando a dar sus primeros pasos en el campo de la econometría.

De este modo, el objetivo de este libro es justamente ser una guía práctica de resolución
de ejercicios de econometría básica. En ese sentido, este documento permitirá al estudiante
contrastar los conocimientos teóricos con ejercicios prácticos, ayudándolo a internalizar de
una mejor manera los conceptos y la intuición que hay detrás de ellos y familiarizarse con
los modelos aplicados en trabajos de investigación aplicados a la realidad.

El presente documento no pretende ser un libro de texto, sino ser una guía dirigida para el
desarrollo de la parte práctica de la econometría, de tal manera que el estudiante pueda
aprovechar de la mejor manera posible el contenido teórico adquirido durante los cursos
que realice o a través de la lectura de libros de texto relacionados. Es por ello que se
recomienda al lector poseer conocimientos previos de álgebra lineal, estadística y alguna
noción acerca de econometría básica.
El presente trabajo es el resultado de una recolección y resolución de ejercicios del primer
curso de Econometría en la Universidad del Pacífico. Las fuentes de estos problemas
presentados son muy diversas. Algunos provienen de las épocas en que cada uno de los
autores eran alumnos en la Universidad del Pacífico; mientras que otros se originaron
cuando luego los mismos pasaron a dictar el curso de Econometría I, ya sea como jefes de
prácticas o profesor. Los ejercicios desarrollados en este libro provinieron de las tareas,
prácticas dirigidas y calificadas de este curso.

Queremos agradecer el apoyo de todos los profesores y jefes de práctica que han dictado
el curso en estos últimos años por habernos provisto de ejercicios; así como de permitirnos
su uso en este libro. En particular, queremos realizar un cordial agradecimiento a Juan
Francisco Castro, Guillermo Díaz y Miguel Jaramillo. Asimismo, agradecemos el apoyo de
nuestros coautores Claudia Lisboa, Luciana Velarde y Oscar Jara sin cuyo apoyo este libro
no podría haberse desarrollado. De este modo, queremos enfatizar que todas las
resoluciones propuestas en este libro son de nuestra responsabilidad. Pablo Lavado
quisiera agradecer a aquellas personas que durante su vida le enseñaron la ciencia y arte
de la econometría cultivada con rigurosidad y pasión: Manuel Arellano (CEMFI), Arlette
Beltrán (UP), Stephanne Bonhomme (Universidad de Chicago), Carlos Casas (UP), Jorge
Cortez (UP), Pedro Mira (CEMFI) y Enrique Sentana (CEMFI). Finalmente, queremos
agradecer a Nelson Oviedo por su asistencia en la preparación final de este manuscrito y
al revisor anónimo que ayudó mucho con sus comentarios a versiones previas del
manuscrito.

El documento de ejercicios se ha organizado en nueve capítulos; cada uno de los cuales


busca tratar cada uno de los temas seleccionados: Modelo Lineal General y Mínimos
Cuadrados Ordinarios (MCO), Inferencia, Predicción, Máxima Verosimilitud,
Multicolinealidad, Quiebre Estructural, Errores no esféricos (Heterocedasticidad y
Autocorrelación) y Endogeneidad. En cada uno de estos capítulos se proponen y resuelven
los ejercicios vinculados a cada uno de los temas previamente mencionados.

Pablo Lavado

Gonzalo Rivera
Glosario de términos
LEI: Ley de Esperanzas Iteradas
MCG: Mínimos Cuadrados Generalizados
MCGF: Mínimos Cuadrados Generalizados Factibles
MCO: Mínimos Cuadrados Ordinarios
MELI: Mejor Estimador Lineal Insesgado
MLG: Modelo Lineal General
MV: Máxima Verosimilitud
PGD: Proceso Generador de Datos
PMC: Propensión Marginal a Consumir
SCE: Suma de Cuadrados Explicados
SCR: Suma de Cuadrados Residuales
SCT: Suma de Cuadrados Totales
TLC: Teorema del Límite Central
VI: Variables Instrumentales
Índice

INTRODUCCIÓN.................................................................................................................. 1
1. MODELO LINEAL GENERAL: MÍNIMOS CUADRADOS ORDINARIOS...................... 5
2. INFERENCIA............................................................................................................... 55
3. MÁXIMA VEROSIMILITUD ......................................................................................... 92
4. ERRORES NO ESFÉRICOS .................................................................................... 118
4.1 HETEROCEDASTICIDAD ............................................................................................. 122
4.2 AUTOCORRELACIÓN .................................................................................................. 141
5. ENDOGENEIDAD ..................................................................................................... 158
6. BIBLIOGRAFÍA ......................................................................................................... 169
1. Modelo Lineal General: Mínimos Cuadrados Ordinarios

Problema 1.1

Probar que para cualquier variable aleatoria !, se cumple que:

" !# > "# ! (1)

Solución

Como la varianza de ! es positiva e igual a:

% ! = " !# − "# ! > 0 (2)

Así, la condición que se solicita verificar en (1) sí se cumple.

Problema 1.2

De acuerdo con el criterio de los Mínimos Cuadrados Ordinarios, el modelo )* = +, +


# ,
+# + 0* , es imposible de estimar, ya que no es lineal en las variables.
./

Solución

Incierto, efectivamente no es posible de estimar por MCO ya que el modelo no es lineal en


sus parámetros. Una salida válida, es reemplazar el parámetro +## = +2 ; de modo que sí se
pueda estimar +2 y luego se logre recuperar +# .

Problema 1.3

El teorema de Gauss-Markov señala que es estimador MCO es MELI sobre la base de que
"(4 ! = 0 y que 5 = 6+ + 4 (el modelo es lineal) con "(4) = 0.

Solución

El teorema de Gauss-Markov consiste en el cumplimiento de supuestos específicos. Estos


incluyen linealidad en los parámetros, homocedasticidad, errores independiente e
idénticamente distribuidos y regresores determinísticos. Si se cumplen todos estos
supuestos, entonces el estimador MCO es MELI.

Problema 1.4

Siempre es preferible el estimador de menor varianza. Comente.

Solución
Falso. Existe la posibilidad de tener un estimador con menor varianza al de MCO (siempre
que no se cumplan algunos supuestos) aunque estos sean sesgados (como el MCG).
Puede que el sesgo de un estimador sea tan grande que, a pesar de tener la menor
varianza, sea menos preferible que otro estimador sesgado. Esto dependerá
exclusivamente del propósito de la investigación.

Problema 1.5

El teorema del límite central (TLC) establece que la distribución de cualquier variable
aleatoria debe tener una distribución 8 para que, en el límite, cuando el número de
observaciones tienda a infinito, converja a una distribución normal.

Solución

9:;[9]
Falso. El TLC indica que todo promedio muestral estandarizando se distribuye
>?@[9]
aproximadamente normal estándar, si el tamaño de muestra es lo suficientemente grande.

Problema 1.6

En un modelo econométrico, lo ideal es que los datos observados no varíen ya que de esta
forma reduzco las perturbaciones estocásticas A* , por lo que será más fácil minimizar los
∑0*# y encontrar los parámetros eficientes.

Solución

Falso. Debido que se busca explicar la variabilidad en la dependiente mediante la


variabilidad en explicativa, es mejor que se cuente con un mayor nivel de variabilidad de
esta última. Más aún, se debe notar que la varianza del estimador depende inversamente
del nivel de variabilidad de la explicativa.

Problema 1.7

Siempre se puede usar el estimador MCO gracias a la existencia y unicidad de la proyección


ortogonal de ) en el espacio de las ! para la estimación del vector de parámetros.

Solución

Falso, la existencia y unicidad de la proyección ortogonal garantizan que la estimación por


MCO, de poder desarrollarse, va a presentar el mínimo error. La utilización del estimador
MCO va a estar determinada por los supuestos del modelo lineal general, es decir, si se
cumplen estas el MCO va a tener buenas propiedades.

Problema 1.8

Si el estimador MCO cumple con distribuirse normalmente con media + y varianza


C # (!′!):, cuando el tamaño de muestra tiende a infinito, entonces será un estimador
eficiente. Comente. Cambia su respuesta si no tiene media +, ni varianza C # (!′!):, , pero
sigue distribuyéndose normal. Justifique.

Solución

Falso. El hecho de que +EFG ∼ I(+, C # (!′!):, ) cuando K → ∞, implica que se cumplen los
siguientes supuestos:

• ! son estocásticas y no presentan correlación contemporánea con el término de


error.
• Homocedasticidad en la distribución de los errores.

Sin embargo, para que el estimador sea eficiente, es necesario verificar los siguientes
supuestos:

• Independencia en media del término de error con las ! (" 4|! = 0), lo que
garantiza insesgamiento.
• El error presenta una matriz de varianzas y covarianzas escalar. Esto es necesario
para garantizar que el estimador MCO sea el de mínima varianza dentro del grupo
de los estimadores insesgados.

Ahora, en el caso de que no se cumpla que +EFG ∼ I(+, C # (!′!):, ), esto implica que no se
cumplen los supuestos de no contemporaneidad y homocedasticidad. Por lo tanto, el
comente continúa siendo falso.

Problema 1.9

Una condición suficiente para que el estimador mínimo cuadrático sea insesgado es que
los errores sean independientes en media de la matriz !. Por otro lado, para garantizar
consistencia no debe existir correlación contemporánea entre las variables explicativas y el
término de error.

Solución

Verdadero, basta que se cumpla que "(4 ! = 0 para garantizar insesgamiento. Un


supuesto, menos fuerte que también garantiza insesgamiento es el supuesto de correlación
contemporánea. En ese sentido, no debe existir correlación contemporánea ("(4O 6PO ) = 0)
entre las variables explicativas y el término de error para garantizar consistencia.

Problema 1.10

Se desea calcular los determinantes del salario por hora para lo que se ha planteado la
siguiente regresión: QRSRTUV = WRñVQ YZ ZY0[R[Uó] + !+ + 4 donde ! es la matriz del resto
de explicativas del modelo (asuma una correcta especificación del mismo).

a) Discuta la consistencia de los estimadores MCO.


Solución

En el término de error de esta ecuación de salarios se encuentran factores no


medibles como el esfuerzo, responsabilidad, entre otros. Es lógico pensar que estos
están correlacionados positivamente al salario de cada uno de los individuos pero
también a los años de educación. Por ende, al existir este problema (correlación
contemporánea entre ! y 4), se ve afectada la consistencia de los estimadores MCO.

b) Cambiaría su respuesta si el comportamiento de las personas fuese totalmente


atípico y siguiera el siguiente patrón: “Si una persona posee ganas de superación
trabaja más duro pero en lugar de estudiar más años apoya a su vecino para que
este lo haga”. Sustente.

Solución

En este segundo caso, claramente los factores no observables de la ecuación de salarios


del individuo i no afectan a su variable dependiente, sino a la de otro individuo, j (relación
entre !*O y 4PO .). Por ello, no habría más correlación contemporánea entre ! y 4 para un
mismo individuo. Por ende, no se vería afectada la consistencia de los estimadores MCO.

Problema 1.11
Si al trabajar con el logaritmo de las variables del modelo obtengo un R2 mayor que al
trabajar con las variables en niveles, ¿puede concluir que el modelo en logaritmos es
“mejor”?

Solución

En primer lugar, hay que notar que cuando se aplican logaritmos a las variables se está
modificando la escala de la regresión. En particular, lo que ocurre es que se reduce la
dispersión de los datos. Esto conlleva a obtener una menor Suma de Cuadrados Totales
(SCT), y; por ende, un mayor R2.

Sin embargo, de ello no se desprende que el modelo de regresión en logaritmos siempre


sea “mejor” que el expresado en niveles, dado que los modelos con variables dependientes
expresadas en distinta escala no son comparables.

Problema 1.12
Una regresión del residuo MCO sobre los regresores del modelo que los generó dará por
construcción un R2 igual a cero.

Solución
Los coeficiente de una regresión de los residuos contra los X que los generan son por
definición iguales a cero: (! ^ !):, ! ^ _ = 0, dado que ! ^ _ = 0 (de las ecuaciones normales).
Ahora, esto implica que el R2 será igual a cero puesto que: (1) cada valor ajustado de esta
regresión será igual a cero, y (2) que el promedio de los residuos es igual a cero – ambos
puntos implican que la SEC (suma explicada de cuadrados) de esta regresión será cero.
Luego basta recordar:

a
*b,(5* − 5)# cd"
`# = a = (1)
*b,(5* − 5)# cdK

Problema 1.13

Considere el modelo de regresión:

5* = 6* + + 4* para U = 1,2, … , ]

Donde los valores de 6* son determinísticos, " 4* = 0 y % 4* = C # para todo U. Obtenga el


estimador MCO de +, diga si es insesgado y encuentre su varianza.

Solución

Para obtener el estimador h para el parámetro poblacional +, se minimiza la suma de


errores al cuadrado del modelo. Así,

4* = 5* − 6* + (1)

a a

4*# = 5* − 6* + # (2)
*b, *b,
a a

min 4*# = 5* − 6* h # (3)


l
*b, *b,

Por lo tanto, la condición de primer orden es

0= 6* 5* − 6* h (4)
*b,
a a

0= 6* 5* − 6* 6*^ h (5)
*b, *b,

Tras simples manipulaciones de la ecuación (5),


a a
:, :,
h=( 6* 6* ′) 6* 5* = !′! !′) (6)
*b, *b,
Para analizar el insesgamiento, se reemplaza 5* = 6* + + 4* en (6):

a a
:,
h=( 6* 6* ′) 6* (6* + + 4* ) (7)
*b, *b,

a a
:,
h =++( 6* 6* ′) 6* 4* (8)
*b, *b,

Se obtiene el valor esperado y la varianza del estimador MCO de +, h a partir de (8):


a a
:,
" h = + + ( 6* 6* ′) 6* "(4* ) (9)
*b, *b,

Dado que " 4* = 0

" h = + (10)

Y utilizando el resultado de (10), se obtiene:

% h = " (h − "(h))(h − "(h))′ (11)

% h = " (h − +)(h − +)′ (12)

a :, a a a :,

% h = "[ 6* 6*^ 6* 4* 6* 4* 6* 6*^ ] (13)


*b, *b, *b, *b,

Dado que 6* es determinístico,


a a a

% h =( 6* 6* ′) " :,
4*# 6* 6* ′ ( 6* 6* ′):, (14)
*b, *b, *b,

Dado que los errores son homocedásticos entre los individuos, a partir de (14):

a a a

% h = "(4*# )( 6* 6* ′) :,
6* 6* ′ ( 6* 6* ′):, (15)
*b, *b, *b,
a
#
% h =C ( 6* 6* ´):, (16)
*b,

Problema 1.14
Sea ! una variable que se distribuye normalmente con media A y varianza C # . Suponga
que se han obtenido independientemente dos muestras aleatorias simples a partir de !, de
tamaños K, y K# , y con medias !, y !# respectivamente.

a. Un investigador pretende estimar A y propone como estimadores alternativos:

!, + !#
A= (1)
2
K, !, + K# !#
A= (2)
K, + K#

Comparar las propiedades finitas de ambos: ¿los estimadores son insesgados? ¿Cuál de
ellos tiene menor varianza?

Solución

Primero, se halla la media del promedio muestral:

!, + !# + ⋯ + !p/ 1 K* A
"(!* ) = " = " !, + " !# + ⋯ + " !p/ = =A (3)
K* K* K*

Segundo, se halla la varianza del promedio muestral1:


#
# #
!, + !# + ⋯ !pq − K* A
" !* − " !* = " !* − A =" (4)
K*

#
1 #
" !* − A = " (!, − A) + (!# − A) + ⋯ + (!p/ − A) (5)
K*#

Para simplificar (5), sin pérdida de generalidad, es útil calcular:


# #
" (!* − A) + (!P − A) = " !* − A + "(!P − A)# + 2"[(!* − A)(!P − A)] (6)

Dado que

"[(!* − A)(!P − A)] = "(!* !P ) − "(!* A) − "(A!P ) + "(A # ) (7)

"[(!* − A)(!P − A)] = A # − 2A # + A # = 0 (8)


1 .q r.s r⋯r.t/
Una forma alternativa de hallar la varianza muestral es la siguiente: %RT !* = %RT =
p/
, u?@ . vs
%RT !, + ⋯ + %RT !p/ = = .
p/s p/ p/
Tomando en cuenta (8), se obtiene que la varianza del promedio muestral obtenido en (5)
es

#
1 # # K* C # C #
" !* − A = " !, − A + ⋯ + " !p / − A = = (9)
K*# K*# K*

Sesgo

Se halla el sesgo para ambos estimadores:

"(!, ) + "(!# ) 2A
"(A) = = =A (10)
2 2

K, "(!, ) + K# "(!# ) A(K, + K# )


"(A) = = =A (11)
K, + K# K, + K#

Por lo tanto, los dos estimadores son insesgados.

Varianza

Se halla la varianza para A:

# #
!, + !# (!, − A) + (!# − A)
%RT(A) = "[A − "(A)]# = " −A =" (12)
2 2
1 # #
%RT(A) = " !, − A + " !# − A + 2"[(!, − A)(!# − A)] (13)
4

Por lo tanto,

1 C# C# C#
%RT(A) = + +0 = K + K# (14)
4 K, K# 4K, K# ,

Ahora, se halla la varianza de A:


#
K, !, + K# !# − (K, + K# )A
%RT(A) = " (15)
K, + K#

1
%RT(A) = [K # " !, − A #
+ K## " !# − A # ] (16)
(K, + K# )# ,

pqs v s pss v s
( + ) C#
%RT A =
pq ps
= (K + K# ) (17)
(K, + K# )# (K, + K# )# ,

Para comparar (14) y (17), se prueba que

(K, + K# )# = K,# + K## + 2K, K# (18)

Restando −4K, K# a ambos lados de (18):


(K, + K# )# − 4K, K# = K, − K# #
>0 (19)

Entonces,
#
K, + K# > 4K, K# , si K, ≠ K# (20)

Por lo tanto,

%RT A > %RT A , si K, ≠ K# (21)

b. En un etapa posterior pretende estimar A # y propone los siguientes estimadores:

y, = !, ∗ !# (1)

#
!, + !#
y# = (2)
2

!,# + !##
y2 = (3)
2

¿Estos estimadores son sesgados? ¿Si es así, cuál de ellos presenta un menor sesgo?

Solución

Para y, :

"(y, ) = " !, !# = "(!, )"(!# ) = A # (4)

Por lo que es insesgado.

Para y# :
#
!, + !# 1
"(y# ) = " = "(!,# ) + "(!## ) + 2"(!, )"(!# ) (5)
2 4

1 C# C# 1 C# C#
"(y# ) = + A# + + A # + 2A # = ( + + 4A # ) (6)
4 K, K# 4 K, K#

Por tanto, el sesgo de este estimador es

1 C# C#
cZQ{V(y# ) = "(y# ) − A = ( + ) (7)
4 K, K#

Para y2 :

"(!,# ) + " !## 1 C# C# 1 C# C#


" y2 = = + A# + + A# = ( + + 2A # ) (8)
2 2 K, K# 2 K, K#
Por tanto, el sesgo de este estimador es

1 C# C#
cZQ{V(y2 ) = "(y2 ) − A = ( + ) (9)
2 K, K#

Tomando en cuenta (4), (7) y (9), se concluye que el de menor sesgo es el estimador y, ya
que es insesgado.

Problema 1.15

Un investigador A sabe que la verdadera relación entre las variables ) y ! es la siguiente:

)* = 1 + 2!* + 4* (1)

Donde 4* tiene una distribución normal con media igual a 0 y varianza igual a 1. Además, !
toma los valores: 1, 2, 3, 4, 5 y 6. El investigador simula 6 observaciones de 4* con la
distribución asumida y obtiene:

4, = 0.464 4} = −0.160
4# = 0.060 4~ = 1.022
42 = −1.500 4Ä = 0.200

A partir de estos datos genera valores de ) usando el modelo verdadero.

Otro investigador B solo tiene acceso a los datos de ! e ) generados por el investigador A
(pero no conoce el modelo verdadero) y a partir de ellos trata de obtener una estimación
del coeficientede la variable ! en el modelo verdadero, para lo cual utiliza dos estimadores:
1
+= ) + )~ − )# − ), ; (2)
100 Ä
(!* − !)()* − ))
+= (3)
(!* − !)#

Se pide:

a. Generar los valores de ) y calcular las dos estimaciones.

Solución

La generación de los datos es directa:

), = 1 + 2 1 + 0.464 = 3.464

)# = 1 + 2 2 + 0.060 = 5.060

)2 = 1 + 2 3 − 1.5 = 5.500

)} = 1 + 2 4 − 0.160 = 8.840

)~ = 1 + 2 5 + 1.022 = 12.022
)~ = 1 + 2 6 + 0.200 = 13.200

Para calcular las dos estimaciones se construye la Tabla 1.1:

Tabla 1.1. Estimaciones

6* 5* 6 − 6 5 − 5 (6 − 6)(5 − 5) (6 − 6)#

1 3.464 -2.5 -4.6 11.38 6.25

2 5.06 -1.5 -3.0 4.43 2.25

3 5.5 -0.5 -2.5 1.26 0.25

4 8.84 0.5 0.8 0.41 0.25

5 12.022 1.5 4.0 6.01 2.25

6 13.2 2.5 5.2 12.96 6.25

6 =3.5 5 =8.01 =34.45 =17.5

Con esta información, los estimadores serían los siguientes:


1 1
+= )Ä + )~ − )# − ), = 16.698 = 0.17 (4)
100 100
(!* − !)()* − )) 34.45
+= = = 2.08 (5)
(!* − !)# 17.5

b. Obtener las propiedades finitas de ambos estimadores.

Solución

Las propiedades de muestras finitas son el sesgo y la varianza.

Las propiedades de + son conocidas, pues es el estimador MCO:

"(+) = + (1)

C# C#
ÜRT + = = (2)
(!* − !) # 17.5
Sobre el estimador +:
1
" + = "()Ä ) + "()~ ) − "()# ) − "(), ) (3)
100
1 8
" + = +!Ä + +!~ − +!# − +!, = + = 0.08+ (4)
100 100

Por tanto, el sesgo de este estimador será


" + − + = 0.08+ − + = −0.92+ (5)

Sobre su varianza:
1 4C # C#
ÜRT + = ÜRT()Ä ) + ÜRT()~ ) + ÜRT()# ) + ÜRT(), ) = = (6)
100# 10000 2500

Se concluye que para cualquier valor de C # , ocurre:

ÜRT + < ÜRT + (7)

c. Sobre la base de la varianza de ambos estimadores, el investigador B decide adoptar el


primer estimador +. Comente esta decisión, teniendo presente el concepto de Error
Cuadrático Medio ("dà).
Ayuda: El "dà + = [QZQ{V(+)]# + ÜRT + . El mejor predictor del parámetro + es el de
menor "dà.

Solución

Considerando únicamente la varianza, la elección por + parece ser la correcta. Tomando


en cuenta el sesgo, los resultados pueden variar. Sin embargo, el investigador B no puede
considerar el sesgo ya que no conoce el verdadero valor de +; por lo tanto, solo puede
considerar el criterio de mínima varianza, por lo que escoge el estimador +. En cambio, el
investigador A puede calcular el "dà de los dos estimadores:

C# 1
"dà + = 0 + ÜRT + = = = 0.05714. (1)
17.5 17.5
C#
"dà + = [QZQ{V(+)]# + ÜRT + = (−0.92+)# + = 3.3856 + 0.0004 = 3.386 (2)
2500

Por tanto, se concluye que:

"dà + < "dà + (3)

Por lo tanto, conociendo el valor de +, la decisión del investigador B no es la óptima.

Problema 1.16

Algunos econometristas (sobre todo en ciencias sociales fuera de la economía) utilizan el


método de regresión estandarizada. Esta consiste en la regresión tradicional, pero luego de
estandarizar cada variable, dependiente e independiente, restándole su media muestral y
dividiendo el resultado por su desviación estándar muestral. Entonces, si la regresión
original era

5* = +â + +, 6* + 0* (1)
se plantea la regresión:

5*∗ = +â∗ + +,∗ 6*∗ + Ü* (2)

con
5* − 5
5*∗ = (3)

6* − 6
6*∗ = (4)
Q9

Donde 5 y 6 son las medias muestrales, y Qä y Q9 son las desviaciones estándar muestrales
de 5 y 6 respectivamente:

a
*b,(5* − 5)#
Qä = (5)
]

a
*b,(6* − 6)#
Q9 = (6)
]

a) Tomando en cuenta las definiciones de 5*∗ y 6*∗ , interprete +,∗ .

Solución

El coeficiente +,∗ mide cuántas desviaciones estándar cambia 5 si 6 aumenta en una


desviación estándar.

b) Muestre que +â∗ = 0.

Solución

Nótese que:
a a a
6* − 6 1
6*∗ = = (6* − 6) = 0 (7)
Q9 Q9
*b, *b, *b,

Esto implica que

a ∗
*b, 6*
6∗ = =0 (8)
]

De manera similar se prueba que 5 ∗ = 0. Por lo tanto,

+â∗ = 5 ∗ − +,∗ 6 ∗ = 0 (9)


ãå
c) Muestre que +,∗ = +.
ãç ,
Solución

Ya que se probó 5 ∗ = 6 ∗ = +â∗ = 0, la fórmula MCO para +,∗ es la misma que en el modelo
sin intercepto:
a ∗ ∗
*b, 6* 5*
+,∗ = a ∗ # (10)
*b, 6*

Sustituyendo los valores:


, a
a ∗ ∗ ( ) *b,(6* − 6 )(5* − 5)
*b, 6* 5* ãå ãç Q9
+,∗ = = = + (11)
a
*b, 6*
∗ # , # a # Qä ,
*b, 6* − 6
ãå

, ,
d) Muestre que 5*∗ = 5* − 5 , y que Ü* = 0* .
ãç ãç

Solución

Usando el hecho de que +â∗ = 0:

Q9 6* − 6 1
5*∗ = +,∗ 6*∗ = + = + 6 − +, 6 (12)
Qä , Q9 Qä , *
1 1 1
5*∗ = + 6 − +, 6 = 5 − +â − 5 + +â = 5 −5 (13)
Qä , * Qä * Qä *

Además,

5* − 5 5* − 5 5* − 5* 0*
Ü* = 5*∗ − 5*∗ = − = = (14)
Qä Qä Qä Qä

ãå
e) Muestre que ZZ +,∗ = ZZ +, . (Recordar que ZZ denota “error estándar” y es nuestro
ãç
estimador de la desviación estándar del coeficiente MCO estimado).

Solución

El error estándar del coeficiente asociado a 6 puede ser expresado como:

# s
∗s , a é/
a >/
*b, a ãç *b, a Q9
ZZ +,∗ = = = ZZ(+, ) (15)
a ∗# #

*b, 6*
, a #
ã *b,(6* − 6)
å
s
a é/
Q9 *b, a Q9 (16)
ZZ +,∗ = a = ZZ(+, )
Qä *b,(6* − 6)# Qä

Problema 1.17

Demostrar que èSUê Z* − 4* = 0, donde Z* es el i-ésimo residuo de una regresión de ) en


!; mientras que 4* es su correspondiente de la verdadera distribución.

Solución

Por dato, se cumple que:

• )* = !* + + 4* (Modelo Teórico)
• )* = !* + + Z* (Modelo Empírico)

Por lo tanto,
èSUê Z* − 4* = 0 (1)

èSUê ()* − !* +) − ()* − !* + = 0 (2)

èSUê !* + − !* + = 0 (3)

èSUê !* (+ − +) = 0 (4)

Por Slutsky2, la expresión (4) se puede representar como:

èSUê!* [èSUê + − + ] = 0 (5)

èSUê!* [+ − èSUê+] = 0 (6)

Asumiendo que se cumplen los supuestos del MLG (modelo lineal general), se sabe que el
estimador MCO de + es consistente, lo cual implica que: èSUê + = +. Finalmente:

èSUê!* ∅ = 0 (7)

0=0 (8)

Por lo tanto, se cumple que èSUê Z* − 4* = 0.

Problema 1.18


2
El teorema de Slutsky señala que el límite probabilístico de un producto puede ser expresado como
el producto de los límites probabilísticos.
Considere el siguiente modelo de regresión lineal: 5* = A + 4* , con 4* ~U. U. Y. 0, C # .
Demuestre que el promedio muestral A un estimador consistente y cuál es su distribución
asintótica.

Solución

Primero veamos cual es el estimador MCO de A: A = U ^ U :,


(U ^ 5) donde i es un vector de
unos. Es decir,
5*
A = =5 (1)
I
Ahora, analicemos la consistencia. Para ello, reemplacemos el modelo poblacional, y
tomemos èSUê:

4*
èSUêA = A + èSUê (2)
I
Por LGN, se cumple que:

èSUêA = A + " 4* (3)

èSUêA = A (4)

Ahora analicemos la distribución asintótica del estimador:

4*
I(A − A) = (5)
I
Aplicando el TLC (dado que está dividido entre I), podemos obtener que:

I(A − A) = I 0; C # (6)

Problema 1.19
Considere el siguiente modelo de regresión lineal: 5* = A + 4* , con 4* ~U. U. Y. 0, C # . Ahora
* *
considere el estimador alternativo A = ì* 5* , ì* = = . Note que ì* = 1.
a ar, /# *
Demuestre que este es un estimador consistente de A y obtenga su varianza asintótica.
[Recordar que: U # = ](] + 1)(2] + 1)/6]

Solución

Demostremos primero la consistencia. Para ello, reemplacemos primero el modelo


poblacional:
A= ì* 5* (1)

A= ì* A + 4* = A + ì* 4* (2)

Reemplazando el peso:

U
A=A+ 4 (3)
] ] + 1 /2 *
Utilizando la LGN, se puede llegar a:

2
èSUêA = A + èSUê( )U" 4* (4)
]+1

èSUêA = A (5)

Para ver la varianza asintótica, podemos hallar primero la varianza del estimador
alternativo:

% A =% A+ ì* 4* = " ì* # 4* # (6)

Usando la ley de esperanzas iteradas (LEI)3:

% A = C# ì* # (7)

Se puede ver que la sumatoria de los pesos al cuadrado se puede expresar de la siguiente
forma:

2a ,
U# [](] + 1)(2] + 1)/6] 2[]# + + ]
ì* =#
= = # # (8)
U # [](] + 1)/2]# 1.5][]# + 2] + 1]

Para obtener la varianza asintótica, se toma límite a esta varianza:

2a ,
2[]# + + ]
lim % A = C # # #
= 1.333C # (9)
a→ñ 1.5[]# + 2] + 1]

Esta varianza es mayor a la varianza obtenida por MCO; demostrando así que MCO es
eficiente.


3
La LEI indica que " ) = " " )|! .
Problema 1.20

Una variable ) está determinada por una variable !. La relación tiene la forma de

) = +, + +# ! + 0 (1)

Donde 0 es la perturbación que satisface los supuestos del modelo. Los valores de las !
son tomados aleatoriamente de una población con varianza C # . Un investigador comete un
error y regresiona ! sobre ) ajustando el modelo ! = Y, + Y# ) + 0, donde Y# =
ó
/òq(9/ :9)(ä/ :ä)
ó s .
/òq(ä/ :ä)

Cuando se nota su error, el investigador señala la relación original puede ser escrita como

+, 1 1
!=− + )− 0 (2)
+# +# +#
,
Y, por lo tanto Y# sería un estimador de , de donde puede recuperarse un estimador de
ôs
,
+# . Se le encarga demostrar que Y# es un estimador inconsistente de y determinar la
ôs
dirección del sesgo en muestras grandes.

Solución

A partir del modelo estimado por el investigador, se tiene que:

a
*b,(6* − 6)(5* − 5)
Y# = a #
(3)
*b,(5* − 5)

Entonces, bajo el modelo sugerido:

a ôq , , ôq , ,
− + 5* − 0 + − 5+ 0 5* − 5
*b, ôs ôs ôs * ôs ôs ôs (4)
Y# = a #
5
*b, * − 5
a , , , ,
*b, ô 5* −
ôs *
0 − 5+ 0 5* − 5
Y# = s ôs ôs (5)
a #
*b, 5* − 5
a , ,
*b, ô (5* − 5) −
ôs
(0* − 0) (5* − 5)
Y# = s (6)
a
*b,(5* − 5)#
a , a ,
*b, ô (5* − 5)# − *b, ô (0* − 0)(5* − 5)
Y# = s s (7)
a #
*b,(5* − 5)
a , , , a ,
*b, a ô (5* − 5)# − (0* − 0)(5* − 5)
s a *b, ô s
Y# = ,
(8)
a
*b,(5* − 5)#
a
Aplicando el límite probabilístico para evaluar la consistencia del estimador desarrollado por
el practicante:

, ,
ÜRT 5 − [VÜ(0, 5)
ôs ôs (9)
èSUê(Y# ) =
ÜRT 5

1 1 [VÜ(0, 5)
èSUê(Y# ) = − (10)
+# +# ÜRT 5

Finalmente, se observa que el estimador Y# es inconsistente. Además, como [VÜ 0, 5 > 0


y ÜRT 5 > 0, se tiene que el sesgo del estimador Y# dependerá del signo de +# .

Problema 1.21

Considere que desea estimar el modelo 5* = ö + +6*∗ + 4* , donde 5* denota al promedio final
obtenido por un alumno al terminar la secundaria y 6*∗ denota a las habilidades cognitivas
del alumno. Sin embargo, dado que las habilidades cognitivas no se conocen, sólo se puede
aproximar a ellas con los resultados de un grupo de tests que los alumnos tomaron para
medir su habilidad verbal y lógico-matemática. Por ello, no cuenta con 6*∗ sino con una
variable proxy (resultados del test) 6* = 6* ∗ + ì* . Además sabe que 4* ~I 0, Cõ# es un
término de error independiente de las habilidades cognitivas del alumno; ì* ~I 0, Cú# es un
error de medición independiente de las habilidades cognitivas y de 4* que cumple con
s

" ì* ìã = 0 ∀ U ≠ Q. Demuestre que èSUê + = + 1 − .
vås

Solución

El modelo es 5* = ö + + 6* − ì* + 4O = ö + +6O + 0O , donde 0O = −+ìO + 4O .

a a
*b, 6−6 5−5 *b, 6−6 0−0
èSUê + = èSUê a = èSUê + + a (1)
*b, 6−6 # *b, 6−6 #

dVÜ 6* , 0* dVÜ 6* , −+ì* + 4*


èSUê + = + + =++ (2)
C9# C9#

+dVÜ 6* , ì* +dVÜ 6* ∗ + ì* , ì*
èSUê + = + − = − (3)
C9# C9#

Cú# Cú#
èSUê + = + − + = + 1 − (4)
C9# C9#

Problema 1.172

Se supone el siguiente modelo:


) = !+ + A = !, +, + !# +# + A (1)

Adicionalmente se define el siguiente modelo:

) = !, + r + ü (2)

Donde + r = †+, siendo † = (!,^ !, ):, !,^ !.

Se pide:

a. Obtener ü y derivar sus propiedades.

Solución

Obteniendo ü

ü = ) − !, + r = ! − !, † + + 0 (3)

Sus propiedades:

" ü = " ! − !, † + + 0 = ! − !, † + ≠ 0 (4)

" üü ^ = " ! − !, † + + 0 + ^ ! − !, † ^ + 0 (5)

" üü ^ = ! − !, † ++ ^ ! − !, † ^ + C # °p (6)

^
" ü−" ü ü−" ü = C # °p (7)

De forma que la matriz de varianzas y covarianzas es idéntica a la original.

b. Obtener el estimador MCO de + r . Evaluar sus propiedades de muestras pequeñas.

Solución

+ r = (!,^ !, ):, !,^ ) = + r + (!, ′!, ):, !,^ ü (8)

+ r = + r + (!,^ !, ):, !,^ ! − !, † + + 0 = + r + (!,^ !, ):, !,^ 0 (9)

Por lo tanto, las propiedades de ese estimador son:

"(+ r ) = + r (10)
"[(+ r − + r )(+ r − + r )′] = C # (!, ′!, ):, (11)

Problema 1.183

Demuestre que el estimador MCO de +, del siguiente modelo:

5 = +â + +, 6, + +# 6# + 4 (1)

Puede expresarse como:

Cä (T,ä − T,# T#ä )


+, = (2)
C, (1 − T,# # )
Nota: T?l es el coeficiente de correlación entre a y b.

Solución

Se definen las variables en desviaciones: 6 y 5

Entonces se plantea:

+, = 6,^ à# 6, :,
(6,^ à# 5) (3)

Donde à# = ° − 6# 6#^ 6# :, ^
6#

+, = 6, ′6* − 6,^ 6# 6#^ 6# :, ^


6# 6, :, (6,^ 5 − 6, ′6# (6# ′6# ):, 6# ′5) (4)

A la expresión anterior se le multiplica y divide por ] y resulta:

C,ä − C,# C#ä /C##


+, = (5)
C,# − C,# C#, /C##

(C,ä C## − C,# C#ä )


+, = (6)
(C,# C## − C,# C#, )
Luego, si se tiene que: C?l = T?l C? Cl

(T,ä C, Cä C## − T,# C, C## T#ä Cä )


+, = (7)
(C,# C## − T,# # C,# C## )

C, Cä C## (T,ä − T,# T#ä )


+, = (8)
C,# C## (1 − T,# # )
Cä (T,ä − T,# T#ä )
+, = (9)
C, (1 − T,# # )

Problema 1.194

Si se regresiona la variable dependiente ) contra su valor predicho ), se obtiene


necesariamente que el estimador MCO del intercepto y de la pendiente son 0 y 1
respectivamente.

Solución

Se supone que se estima el siguiente modelo empírico:

) = !+ + Z (1)

Asimismo, se tiene que el modelo original es el siguiente:

) = !+ + 4 (2)

Ahora, si se regresiona ) contra su valor predicho ) se obtiene:

) =)+4 (3)

Sin embargo, utilizando el hecho de que ) = !+, se puede expresar ) = ) − Z.


Reemplazando este resultado, se llega a:

) =)−Z+4 (4)

Z=4 (5)

Es decir, se obtiene que el error teórico es igual al error empírico.

Recordar que una pendiente igual a 1 (en el caso que no haya intercepto en el modelo)
implica un ajuste perfecto (determinístico) entre la variable dependiente y la independiente.
Al regresionar ) contra su valor predicho ), se llega a que Z = 4. De ello, se desprende que
la regresión original a partir de la cual se obtuvo ) y la nueva regresión planteada se
encuentran superpuestas. No obstante, la pendiente de la nueva regresión no será
exactamente uno en tanto exista un término de error reconocido en el modelo.

Problema 1.205
Se quiere regresionar una variable ) versus una variable ¢ (la explicativa). Halle el
estimador MCO, si se sabe que ¢ es el doble de ).

Solución

La regresión que se plantea realizar es de la siguiente manera:

) = +¢ + Z (1)

Por tanto, el estimador MCO de ¢ sería (tomando en cuenta que solo hay una variable):

§
*b, £* 5*
+EFG = ¢ ^ ¢ :, ^
¢)= § #
(2)
*b, £*

Reemplazando en esta ecuación el hecho que ¢ = 2); y desarrollando, se llega a:

§ § #
*b, 25* 5* 2 *b,(5* ) 1
+EFG = § #
= § #
= (3)
*b,(25* ) 4 *b,(5* ) 2

Este resultado es evidente ya que el valor esperado de la variable y siempre será la mitad
del que tome la variable Z; por construcción de esta última.

Vale la pena recalcar que este resultado no varía si se añade a la especificación un


intercepto:

) = +• + +, ¢ + Z (4)

El estimador MCO será:

§ §
*b,(£* − £)(5* − 5) *b, 2(5* − 5)(5* − 5) 1
+¶ß• = § #
= § #
= (5)
*b,(£* − £) *b, 4(5* − 5) 2

En este segundo caso, el estimador MCO del intercepto resultará ser aproximadamente
cero.

Problema 1.26

Demostrar qué ocurre con el estimador de mínimos cuadrados ordinarios cuando se omite
una variable relevante. ¿Qué pasa cuando se incluye una variable irrelevante?

Solución

Para ver qué es lo que ocurre ante estos dos casos, es necesario analizar cómo se ven
afectadas las propiedades del estimador MCO: insesgadez y eficiencia.
Omisión de una variable relevante:

En este caso, se tiene que el PGD es de la forma:

) = !+, + ¢+# + 4 (M1)

Pero se estima un modelo de la forma:

) = !+, + Z (M2)

Para analizar el efecto sobre las propiedades del estimador, se debe comparar los
resultados obtenidos bajo ambas especificaciones:

(M1): +, = ! ^ à® ! :,
!′à® ) vs (M2): +, = ! ^ ! :,
!′) (3)

Sesgo

A priori, se puede ver que el estimador obtenido omitiendo una variable relevante se
encuentra sesgado. Para confirmar esta impresión, se procede a analizar si dicho estimador
es insesgado:

+,,EFG = ! ^ ! :,
! ^) = ! ^! :,
! ^ (!+, + ¢+# + 4) (4)

+,,EFG = ! ^ ! :,
! ^ !+, + ! ^ ! :,
!′¢+# + ! ^ ! :,
!′4 (5)

Ahora, tomando el valor esperado de +, y reduciendo la expresión se llega a:

"[+,,¶ß• /!, ¢] = "[ ! ^ ! :,


! ^ !+, /!, ¢] + "[ ! ^ ! :,
! ^ ¢+# /!, ¢] + "[ ! ^ ! :,
!′4/!, ¢] (6)

"[+,,¶ß• /!, ¢] = +, + ! ^ ! :,
! ^ ¢+# + ! ^ ! :,
!′"[4/!, ¢] (7)

Por el supuesto de independencia en media condicional del error, se cumple que


"[4/!, ¢] = 0; por lo que se obtiene:

"[+,,¶ß• /!, ¢] = +, + ! ^ ! :,
! ^ ¢+# (8)

Se puede apreciar claramente el sesgo que implica la omisión de la variable Z. Sin embargo,
se debe notar que dicho estimador será insesgado en cualquiera de los siguientes dos
casos: (i) ambas variables son ortogonales (!’¢ = 0) o (ii) ¢ es una variable irrelevante; es
decir, +# = 0 .

Eficiencia:
En segundo lugar, para analizar la varianza de MCO, se debe comparar la varianza bajo
ambas especificaciones:

(M1): %RT(+, /!, ¢) = C # ! ^ à® ! :,


vs (M2): %RT(+, /!, ¢) = C # ! ^ ! :, (9)

Al comparar ambas expresiones, es claro ver que la varianza del estimador del segundo
modelo es menor. Esto se puede apreciar si se diferencia los denominadores de ambas
expresiones; obteniendo que el del segundo modelo es mayor; y por tanto, dicho estimador
tendrá una menor varianza:

! ^ ! − ! ^ à® ! = ! ^ †® ! = ! ^ †® ′†® ! > 0 (10)

(M1): %RT(+, /!, ¢) = C # ! ^ à® ! :,


> (M2): %RT(+, /!, ¢) = C # ! ^ ! :, (11)

En conclusión, la omisión de una variable relevante lleva a obtener un estimador sesgado


pero con menor varianza. En este caso, MCO seguiría siendo MELI ya que todavía es el
estimador insesgado de mínima varianza.

Inclusión de una variable irrelevante:

En este caso, se tiene que el PGD es de la forma:

) = !+, + 4 (M12)

Pero se estima un modelo de la forma:

) = !+, + ¢+# + Z (M13)

Nuevamente, para efectos comparativos, se obtienen los estimadores de ambas


especificaciones:

(M12): +, = ! ^ ! :,
!′) vs (M13): +, = ! ^ à® ! :,
!′à® ) (14)

Sesgo

Al igual que el caso anterior, se analizará si el estimador MCO del M4 presenta un sesgo:

+,,EFG = ! ^ à® ! :,
! ^ à® ) = ! ^ à® ! :,
! ^ à® (!+, + ¢+# + 4) (15)

+,,EFG = ! ^ à® ! :,
! ^ à® !+, + ! ^ à® ! :,
!′à® ¢+# + ! ^ à® ! :,
!′à® 4 (16)
Recordar que el producto del “hacedor de residuos”, à, de una variable y ella misma es
cero (à® ¢ = 0). De esta manera, simplificando, se llega a:

+,,¶ß• = +, + ! ^ à® ! :,
!′à® 4 (17)

Tomando esperanzas a la expresión anterior:

"[+,,¶ß• /!, ¢] = "[+, /!, ¢] + "[ ! ^ ! :,


!′4/!, ¢] (18)

"[+,,¶ß• /!, ¢] = +, + ! ^ ! :,
!′"[4/!, ¢] (19)

Por el supuesto de independencia en media condicional del error, se cumple que


"[4/!, ¢] = 0; por lo que se obtiene:

"[+,,¶ß• /!, ¢] = +, (20)

Es decir, la inclusión de una variable relevante no genera un sesgo en el estimador.

Eficiencia:

Finalmente, se debe comparar la varianza entre ambos modelos:

(M12): %RT(+, /!, ¢) = C # ! ^ ! :,


vs (M13): %RT(+, /!, ¢) = C # ! ^ à® ! :, (21)

La comparación entre ambas expresiones resulta en que es M3 el que tiene menor varianza;
según lo visto en el caso anterior. Es decir, incluir una variable irrelevante al modelo genera
ruido adicional (e innecesario) a la estimación; por lo que incrementa la variabilidad del
estimador.

En conclusión, la inclusión de una variable irrelevante lleva a obtener un estimador


insesgado pero con mayor varianza; justamente lo contrario al caso anterior.

Problema 1.27

Considere el modelo lineal 5 = !, +, + !# +# + 4 donde " 4 = 0 y la " 44′ = C # °a .


Además, !P para ™ = 1, 2 son matrices de dimensión ] 6 ´P de regresores no aleatorios.

Suponga que se estima +, a partir de una regresión de 5 sobre !, .

• Muestre que el estimador MCO resultante es sesgado a menos que !, y !# sean


ortogonales.
• Muestre también que el estimador usual de la varianza del error presenta un sesgo
positivo. ¿Cambian sus conclusiones si se asume que !, y !# son ortogonales?
Solución

Conforme a lo que se indica en el enunciado, estimador de +, quedaría como:

:, (1)
+, = !, ′!, (!, ′ !, +, + !# +# + 4 )

:, :, (2)
+, = +, + !, ′!, ′!, ′!# +# + !, ′!, !, ′4

:, :, (3)
"(+, ) = +, + !, ′!, ′!, ′!# +# + !, ′!, !, ′"(4)

:, (4)
"(+, ) = +, + !, ′!, ′!, ′!# +#

Esto indica que la estimación de +, a partir de una regresión de 5 sobre !, genera un sesgo
positivo que está dado por: !, ′!, :, ′!, ′!# +#

Además, este sesgo desaparece o lo que es lo mismo, "(+, ) = +, , si !, ′!# = 0, esto es, si
!, y !# son ortogonales.

Por otro lado, el estimador usual de la varianza del error está dado por:

Z′Z
Q# = (5)
]

Donde Z = 5 − !+. Para el modelo estimado en este caso, se tiene:

Z, ′Z,
Q# = (6)
]
Donde Z, = 5 − !, +, . Entonces,

Z, = !, +, + !# +# + 4 − !, +, (7)

Z, = !, +, + !# +# + 4 − !, +, + !,^ !, :,
′!,^ !# +# + !, ′!, :,
!,^ 4 (8)

Z, = !# +# + 4 − !, !,^ !, :,
′!,^ !# +# + !, !,^ !, :,
!,^ 4 (9)

Z, = !# +# + 4– †., !# +# + †., 4) (10)

Z, = (° − †., )!# +# + (° − †., )4 (11)


Z, = à., !# +# + à., 4 (12)

Elevando al cuadrado la expresión:

Z, ′Z, = à., !# +# + à., 4 ^ (à., !# +# + à., 4) (13)

Z, ′Z, = +# !# ′à., ′à., !# +# + +# !# ′à., ′à., 4 + 4′à., ′à., !# +# + 4′à., à., 4 (14)

Z, ′Z, = +# !# ′à., !# +# + +# !# ′à., 4 + 4′à., !# +# + 4′à., 4 (15)

Considerando el hecho de que à., = ° − †.,

Z, ′Z, = +# !# ′!# +# − +# !# ′!, !, ′!, :, !, ′!# +# + +# !# ′4 − +# !# ′!, !, ′!, :,


!, ′4 + 4′!# +#
− 4′!, !, ′!, :, !, ′!# +# + 4′4 − 4′!, !, ′!, :, !, ′4 (16)

Tomando esperanzas y teniendo en cuenta que los errores son ortogonales a las !:

:,
"(Z, ′Z, ) = +# !# ′!# +# − +# !# ′!, !, ′!, !, ′!# +# + C # (17)

"(Z, ′Z, ) = +# !# ′à., !# +# + C # ° (18)

Así, el sesgo positivo está dado por: +# !# ′à., !# +#

En el caso de que !, y !# son ortogonales (!, ′!# = 0), el sesgo estaría dado únicamente
por: +# !# ′!# +# , es decir, sería menor que el anterior.

Problema 1.28

Con el fin de mejorar el sistema de focalización de hogares en los programas sociales, se


requiere estimar un modelo que explique el efecto de participar en un programa social entre
los niños que se encuentran cursando la primaria sobre las notas de los mismos a nivel
nacional. Para ello, se cuenta con la siguiente información:

• I≠ = notas trimestrales de los alumnos


• ) = †Æ° per cápita trimestral departamental
• "YRY = edad del alumno
• Ø* = participa en el programa social U
• cZ6V = sexo del alumno
• ! = características del hogar y de la vivienda
• d≠∞ = características del colegio
Recuerde que los modelos que estima van cambiando según agrega o quita variables,
así que debe de especificar con qué modelo final está trabajando y que transformaciones
le haría a la data de ser conveniente.

a. Proponga un modelo econométrico teórico. Justifique la inclusión de las variables


más relevantes para el modelo para dar respuesta a lo pedido a sus jefes de práctica.
Asimismo, deberá discutir cuales son los principales supuestos sobre los que
sustenta las técnicas de estimación y justificar cada uno de los regresores sugeridos.
Interesa también saber qué controles cree conveniente incluir dada la naturaleza de
la variable explicada propuesta.

Solución

El modelo teórico considera aquellas variables que son parte del proceso generador
de datos. Así, el modelo teórico es el siguiente:

S]I≠ = +â + ö + +, ZYRY + +# ZYRY # + !+2 + d≠∞+} + +~ )


(1)
++Ä QZ6V + +± Y, + +≤ Y# + +≥ Y,,# + +,â YTP + 4

Donde las características del hogar y la vivienda seleccionadas son: nivel educativo
del jefe de hogar, ingreso del hogar, material del hogar, tipo de alumbrado y fuentes
de comunicación como radio y televisión. d≠∞ está compuesto por indicadores de
número promedio de alumnos por aula en los colegios, material predominante en el
colegio, años de experiencia promedio de los profesores y si es el colegio es
multigrado y si tiene más de un turno.

Tanto Y, como Y# implican pertenencia del individuo a dos distintos programas


sociales, la variable Y,,# intenta capturar efectos de complementariedad de ambos
programas, como lo serían desayunos escolares y otros programas nutricionales, El
ö recoge los efectos individuales de cada alumno tales como la habilidad innata. Los
efectos propios de cada región son recogidos por la dummy YTP , donde ™ es por cada
región. (Podría considerarse a S]I≠O:, como regresor, pero es opcional).

En este caso, desde que se cuenta con toda la información disponible observable es
posible en principio estimar el modelo. El problema radica en que no se puede incluir
el efecto individual debido ya que no es observable (como es un corte transversal
tampoco se puede hacer un modelo de efectos aleatorios). Es decir, el modelo usado
al momento de la estimación no tendría problemas si no fuera por el ö, el cual lleva
un estimador sesgado pero consistente.

El punto principal radica en que no exista correlación entre los ö y los errores. En
segunda instancia, que la variable dependiente sea comparable entre los distintos
colegios y que no se presente error de medición en ningún regresor por lo difícil de
estandarizar la data a nivel nacional.
b. Considere el modelo propuesto en el inciso anterior y los supuestos tomados para
su estimación insesgada vía MCO. Discuta la razonabilidad de dichos supuestos.

Solución

Tales supuestos son poco realistas en la medida que en el error existan factores
idiosincráticos como el esfuerzo de los padres por educar a sus hijos o institucionales
relativos a cada comunidad y centro escolar. Es decir, debe observarse si existe
alguna correlación entre el ö y las !.

Problema 1.29

Suponga que desea estimar el siguiente PGD:

cRSRTUV = +, ZYRY + +# RñVQ¥µéß + +2 QZ6V + 4* (1)

pero, por diversas razones, realiza una regresión de "cRSRTUV" sobre "ZYRY" y "RñVQ_ZY0["
únicamente. Respecto a los estimadores de mínimos cuadrados del modelo estimado
¿serán consistentes? ¿es posible que uno de ellos sea consistente y el otro no? Explique.

Solución

En tanto existe una variable relevante omitida, la consistencia de los estimadores puede
verse afectada. El estimador de +, será consistente si y solo si " 6,* 62* = 0. Ello, sin
embargo, no implica que el otro estimador +# sea también consistente, lo cual se dará si
" 6#* 62* = 0 ya que la variable 62* formaría parte del error en el modelo estimado.

Problema 1.30

La siguiente ecuación describe el precio mediano de la vivienda en una comunidad en


función del nivel de contaminación medido por niveles de óxido nitroso (]V6) y el número
medio de habitaciones en las viviendas de la comunidad (TVVêQ):

log èTU[Z = +â + +, log ]V6 + +# TVVêQ + A (1)

a. ¿Cuáles serán los signos esperados probables de +, y +# ? ¿Cuál es la interpretación


de +, ? Explicar la respuesta.

Solución

• +, < 0: A mayor polución, se espera un menor valor de las casas.


• +# > 0: El número de cuartos está relacionado con el tamaño del inmueble.
• +, es la elasticidad del precio de la vivienda respecto a nox.
b. ¿Por qué log (]V6) y TVVêQ pueden estar negativamente correlacionados? Y ¿en qué
caso, la regresión simple de log èTU[Z sobre log (]V6) produce un estimador de +,
con sesgo al alza o a la baja?

Solución

Si se asume que la cantidad de TVVêQ aumenta con la calidad del inmueble, entonces
SV{(]V6) y TVVêQ estaría negativamente correlacionados, especialmente en
vecindarios que tienen más contaminación ya que a mayor SV{ ]V6 menor calidad4.

Si se realiza la regresión solo entre log èTU[Z y log ]V6 , se estaría omitiendo una
variable relevante. Sobre la base de la tabla 1.2, se puede decir que, debido a que
[VTT 6, , 6# < 0 y +# > 0, el estimador +, podría tener un sesgo negativo. Sin
embargo, como +, < 0, esto implicaría que se estaría sobrestimando el efecto
negativo de la polución; es decir, existe un sesgo positivo.

Tabla 1.2. Sesgo según correlación y signo de coeficiente

[VTT 6, , 6# > 0 [VTT 6, , 6# < 0

+# > 0 Sesgo positivo Sesgo negativo

+# < 0 Sesgo negativo Sesgo positivo

c. Suponga que se han estimado las siguientes ecuaciones:

log èT∫[Z = 11.71 − 1.043 log ]V6 , ] = 506, ` # = 0.264. (1)

log èT∫[Z = 9.23 − 0.718 log ]V6 + 0.306TVVêQ, ] = 506, ` # = 0.514 (2)

¿Es la relación entre los estimadores de la regresión simple y múltiple de la elasticidad


de èTU[Z con respecto a ]V6 la que estaba prevista, de acuerdo con la respuesta de
b? ¿Significa esto que -0.718 está más cerca de la elasticidad verdadera que -1.043?

Solución

La relación es la esperada. La regresión simple estima un coeficiente más negativo.


Como se está estimando sobre una sola muestra, no se puede saber qué estimación
está más cerca de +, . Pero si se supone que esta es una muestra representativa, se
puede afirmar que el estimador +, es cercano a -0.718.


4
También podría darse el caso en el que las variables estén correlacionadas positivamente si se
asume que a mayor número de cuartos existe un mayor nivel de contaminación dado que existe un
mayor número de personas dentro de la vivienda, lo cual implica una mayor cantidad de desperdicios
generados.
Problema 1.31

Un investigador requiere estimar una ecuación de demanda por alimentos. En un primer


intento, obtiene los siguientes resultados:

ªµ = 89.97 + 0.107†µ (1)

Su asistente le indica que el coeficiente asociado al precio es positivo por un problema de


variable omitida. Comente este argumento. Si es verdadero, ¿cómo podría mejorar su
estimación?

Solución

El argumento es verdadero. En las ecuaciones de demanda se suele usar una variable de


escala, como por ejemplo el ingreso. Por tanto, el problema (signo positivo viola la ley de la
demanda) se debería a la omisión de una variable omitida.

El coeficiente esperado del ingreso es positivo. Se espera una correlación positiva entre el
precio e ingreso. Con esto, el sesgo por la omisión de la variable es positivo. Esto podría
tornar un coeficiente negativo a positivo.

Un modelo sugerido para mejorar la estimación sería ªµ = +â + +, †µ + +# ) + A, donde )


denota el ingreso.

Problema 1.212

Considere un simple modelo de oferta y demanda.

ªOµ = ö + +†O + 4O (1)

ªO• = º + W†O + AO (2)

ªOµ = ªO• (3)

¿Será el estimador MCO de + insesgado y consistente?

Solución

Igualando demanda y oferta, se obtendría una cantidad establecida en el mercado

ªOµ = ªO• = ªO (4)

De esta forma, se podrían obtener la siguiente ecuación:


ªO = ö + +†O + 4O (5)

Sin embargo, se sabe que tanto las cantidades y los precios son determinados casi de
manera simultánea; por lo que otra ecuación relevante sería de la forma:

º ªO AO
†O = − + − (6)
W W W

De donde se observa claramente que "(†O 4O ) ≠ 0. Aquí se presenta un problema de


causalidad reversa dado que la cantidad demandada causa a la cantidad ofertada; al mismo
tiempo que la cantidad ofertada también causa a la cantidad demandada. Por lo tanto, el
estimador MCO no es consistente al no tomar en cuenta esta relación bidireccional.

Problema 1.223

Si se tiene la regresión ) = +• + +, ! + 4 y se multiplica cada uno de los valores de ! por


una constante, ¿qué sucedería con el +, ? ¿Qué pasaría si se suma una constante a cada
valor de !?

Solución

Para ver qué ocurre cuando se modifican las explicativas en un modelo, es necesario
comparar los estimadores de ambos modelos. El estimador MCO del modelo inicial es:

+,,¶ß• = ! ^ àâ ! :,
! ^ àâ ) (1)

Ahora es necesario hallar el estimador del otro modelo y tratar de expresarlo en términos
del inicial. El primer caso es en el que se multiplica por una constante a los valores de !;
por lo que se debe definir la variable:

! ∗ = Ω! (2)

Ahora, recordar el modelo quedaría expresado de la siguiente manera:

) = +• + +, ! ∗ + 4 (3)

El estimador MCO de dicho estimador sería:

+, = ! ∗ ^ àâ ! ∗ :,
! ∗ ^ àâ ) (4)

Reemplazando el valor de ! ∗ :
+, = Ω! ^ àâ Ω! :,
Ω! ^ àâ ) (5)

+, = Ω :, ! ^ àâ ! :,
! ^ àâ ) (6)

+, = Ω :, +,,EFG (7)

Es decir, cuando se multiplica a las explicativas por una misma constante, el estimador
original queda multiplicado por la inversa de dicha constante.

De manera similar se analiza el segundo caso, en el cual se suma a cada variable de X una
constante; para lo cual se empieza definiendo la variable:

! ∗∗ = ! + W (8)

En este caso, el modelo quedaría como:

) = +• + +, ! ∗∗ + 4 (9)

Reemplazando y reagrupando:

) = +• + +, (! + W) + 4 (10)

) = (+• ++, W) + +, ! + 4 (11)

) = ö + +, ! + 4; YV]YZ ö = (+• ++, W) (12)

Es decir, no varían los coeficientes relacionados a las pendientes, pero si se modifica el


intercepto de la regresión ya que justamente absorbe el efecto promedio de todos los demás
regresores.

Otra forma de demostrarlo es a partir de la siguiente representación del estimador MCO


(dado que incluye intercepto):

+, = ! ∗∗ − ! ∗∗ ^
! ∗∗ − ! ∗∗ :,
[ ! ∗∗ − ! ∗∗ ′ ) − ) ] (13)

Sustituyendo y simplificando, se llega a:


^ :,
+, = !+W − !+W (! + W) − ! + W (! + W) − ! + W ′ )−) (14)
^ :,
+, = !−! + W−W !−! + W−W !−! + W−W ′ )−) (15)

, a
Dado que W= *b, W = W:
a

+, = +,,EFG (16)

En efecto, se puede observar que sumarle una constante a las explicativas no afecta el
estimador relacionado a las pendientes.

Problema 1.34

Un investigador desea hallar los determinantes del consumo de helados. Para eso, ha
estimado una ecuación de la forma:

) = 20 + 100d (1)

`cc = 1020 (2)

` # = 0.90 (3)

Donde ) es el número de helados que se consumen a diario y d es la temperatura promedio


diaria en grados Celsius.

Qué pasaría con los siguientes componentes de la regresión si en vez de usar grados
Celsius se hubiera utilizado grados Fahrenheit (8). Explique matemáticamente (Recuerde
que 8 = 1.8d + 32).

• El coeficiente estimado de 8
• El estimador del intercepto
• La suma de errores al cuadrado (SCR)

Solución
æ:2#
• A partir de 8 = 1.8d + 32, se tiene que d = . Con esto, se reemplaza en la
,.≤
æ:2#
ecuación principal tal que ) = 20 + 100 = −1757.7 + 55.58. Entonces, el
,.≤
coeficiente estimado de 8 es 11.1.
• El estimador del intercepto es: -1757.7.
a
• Luego, como el ) no ha cambiado y la cd` = øb,() − ))# , se tiene que la SCR
tampoco ha cambiado y sigue siendo 1020.
Problema 1.35

En un modelo bivariado ) = +â + +, !, + Z, se sabe que el estimador MCO de +, es: +, =


¿/ :¿ ./ :.
. ¿Qué relación tiene esta estimación con el concepto de regresión particionada
./ :. s
y el teorema de Frisch-Waugh?

Solución

En primer lugar, se debe notar que, de acuerdo con la forma en la que está planteada la
regresión, se trata claramente de una regresión particionada. En este caso, se está
dividiendo a las variables explicativas en dos grupos: el intercepto y las variables de interés.
Tomando esto en cuenta, se puede definir las matrices “†” y “à” (hacedor de estimados y
residuos respectivamente) como:

UU′ UU′
†â = U(U ^ U):, U ^ = 5 àâ = ° − †â = ° − (1)
I I

Donde U representa un vector de (]6]) lleno de unos. De esta manera, se puede ver que
multiplicando por àâ al modelo inicial, se obtiene el modelo original pero con las variables
desviadas de su media:

àâ ) = àâ U′+â + àâ !, +, + àâ Z (2)

) − ) = +, (!, − !, ) + Z (3)

Por tanto, se puede ver que el estimador MCO de +, en ambos modelos resulta ser el
mismo. Por otro lado, el teorema de Frisch-Waugh establece que el estimador MCO de +,
de una regresión particionada () = +, !, + +# !# + Z) será el mismo que el estimador MCO
.
de ö en la siguiente regresión de residuos: Z.¿s = öZ.sq + Ü, donde Ü = à# Z.

.
En este caso, se busca demostrar que el estimador ö de la siguiente regresión Z*¿ = öZ* q +
Ü equivale a +, . La variable dependiente son los residuos de ) contra un intercepto
(desviado de la media); mientras que la explicativa son los residuos de ! contra un
intercepto:

. . .
ö = (Z* q ′ Z* q ):, Z* q ′Z*¿ (4)

^ :,
ö= àâ !, àâ !, (àâ !, )′àâ ) (5)

:,
ö= àâ !, ^
àâ !, (àâ !, )′àâ ) (6)
)* − ) !* − !
ö = +, = (7)
!* − ! #

Por lo tanto, dicho modelo con intercepto sí tiene una relación con el teorema de Frisch-
Waugh.

Problema 1.36

En la siguiente regresión:

5 = ö + +6 + Z (1)

Para poder computar los coeficientes asociados a !, se puede primero transformar ) a


desviaciones de su media (5 ∗ ) y de la misma manera transformar cada columna de la matriz
! a desviaciones de sus respectivas medias (6 ∗ ). Asimismo, se regresiona 5 ∗ sobre 6 ∗ sin
constante. ¿Se obtiene el mismo resultado si solo se transforma 5 y se realiza la regresión?
¿Qué pasa si solo se transforma 6?

Solución

Para evaluar qué sucede en los tres casos que se plantean en el problema, se tiene:

5∗ = 5 − 5 (2)

6∗ = 6 − 6 (3)

Entonces, si se transforman 6 e 5:

5 ∗ = +6 ∗ + Z (4)

+ = (6 ∗ ′6 ∗ ):, 6 ∗ 5 ∗ (5)

:,
+= 6−6 6−6 (6 − 6)(5 − 5) (6)

:, (7)
+ = 6′àâ 6 6′àâ 5

Si se transforma solo 6:

5 = +6 ∗ + Z (8)
+ = (6 ∗ ′6 ∗ ):, 6 ∗ 5 (9)

:,
+= 6−6 6−6 (6 − 6)5 (10)

:, (11)
+ = 6′àâ 6 6′àâ 5

Si se transforma solo 5:

5 ∗ = +6 + Z (12)

+ = (6′6):, 6′5 ∗ (13)

:, (14)
+ = 6′6 6′(5 − 5)

:, (15)
+ = 6′6 6àâ 5

Entonces, en el primer y segundo caso, se obtienen los mismos resultado; sin embargo, si
se desvía solo 5 respecto de su media, esto no ocurre. Como àâ es idempotente al limpiar
a 5 del efecto de su media, se está limpiando a 6 de la suya, pero al revés no ocurre lo
mismo.

Problema 1.37

Considere el modelo 5* = +â + +, 6* + 0* , en el cual "[0* |6* ] = y, donde y es una


constante diferente de cero. Demuestre que el estimador MCO de +, es insesgado, pero el
de +â es sesgado. Esto muestra que no se necesita asumir que y sea exactamente igual a
cero para estimar +, sin sesgo usando MCO.

Solución

Dado que el modelo posee intercepto, el modelo puede ser expresado como desviaciones
con respecto a la media:

5* − 5 = +, 6* − 6 + 0* (1)

Por tanto, +, puede expresarse como:

a
*b, 6* − 6 5* − 5
+, = a #
(2)
*b, 6* − 6
Reemplazando (5* − 5), se obtiene

a
*b, 6* − 6 0*
+, = +, + a #
(3)
*b, 6* − 6

Aplicando esperanza condicional para ver el sesgo:

a
*b, 6* − 6 0*
" +, !] = " +, + a #
! (4)
*b, 6* − 6

a
*b, 6* − 6 " 0* !
= +, + a #
(5)
*b, 6* − 6

a
y *b, 6* − 6
= +, + a #
(6)
*b, 6* − 6

Dado que y es constante, se puede sacar de la sumatoria. Luego, se usa el hecho que
a
*b, 6* − 6 = 0. Así,

" +, !] = +, (7)

Ahora, para el caso del intercepto:

" +â !] = " 5 − +, 6 ! (8)

Sustituyendo 5 = +â + +, 6 + 0,

" +â !] = " +â + +, − +, 6 + 0 ! (9)

" +â !] = +â + " +, − +, ! 6 + " 0 ! (10)

Dado que "[+, ] = +, ,

a
*b, 0*
" +â !] = +â + " ! (11)
]

a
*b, "[0* |!]
" +â !] = +â + (12)
]

" +â !] = +â + y (13)

Problema 1.38
Considere el modelo de regresión lineal:

" 5* |6* = +, + 6* +# para U = 1,2, … , ] (1)

Donde 6* = 1 si el individuo U pertenece al grupo 1 y 6* = 0 si el individuo U pertenece al


grupo 2. Muestre que el estimador MCO de +# puede expresarse como h# = 5, − 5# , donde
5P es el promedio de las observaciones del grupo ™ (™ = 1,2). Muestre además que el
estimador MCO de +, es h, = 5# .

Solución

5* |6* = +, + 6* +# (2)

h# = (!#^ à, !# ):, (!#^ à, 5) (3)

De la definición à, = ° − !, (!,^ !, ):, !,^ ,

En este caso particular: à, = ° − U U ^ U :, ^


U

Donde U = 1 … 1

Entonces,

h# = 6#^ (° − U U ^ U U )6# ):, (6#´ (° − U U ^ U


:, ^ :, ^
U ))5 (4)

h# = 6# ′6# − 6# ′U U ^ U :, ^
U 6# :,
(6# ′5 − 6# ′U U ^ U :, ^
U 5) (5)

:,
6# ′U U′6# 6# ′U U′5
h# = 6# ′6# − 6# ´5 − (6)
] ]
a :, a
a # a a
( *b, 6# ) *b, 6# *b, 5
h# = 6## − 6# 5 − (7)
] ]
*b, *b,
:, a a
],# ], *b, 5
h# = ], − 5, − (8)
] ]
*b,
:, a a
], ] − ],# ] *b, 5, − ], *b, 5
h# = (9)
] ]
a a
] ] *b, 5, − ], *b, 5
h# = (10)
], ] − ],# ]
a a
] *b, 5, − ], *b, 5
h# = (11)
], ] − ],#
]5, − ]5
h# = (12)
] − ],

]5, − ]5
h# = (13)
]#

]5, − ], 5, − ]# 5#
h# = (14)
]#

h# = 5, − 5# (15)

Por otro lado,

h, = 5 − h# 6 (16)

h, = 5 − (5, − 5# )6# (17)

Se sabe que

a
],
6# = 6# = (18)
]
*b,

Entonces,

],
h, = 5 − (5, − 5# ) (19)
]

]5 − 5, ] + 5# ],
h, = (20)
]

], 5, + ]# 5# − 5, ], + 5# ],
h, = (21)
]

]# 5# + 5# ],
h, = (22)
]

h, = 5# (23)

Problema 1.39
Dadas las siguientes expresiones del modelo lineal: ) = !+ y A = ) − !+. Se pide:
p
a) Demostrar que *bâ A* = 0.
Solución

ª= ()* − +â − +, !*, − ⋯ − +¡ !*¡ )# (1)


*b,

Derivando respecto a +â e igualando a 0:

p
»
= −2 ()* − +â − +, !*, − ⋯ − +¡ !*¡ )# = 0 (2)
¬+â
*b,

Tras sustituir +P por cada +P de forma que 0* = 0.

p p
b) Demostrar que * )* = â )*

Solución

Se sabe que ) = !+; ) = !+ + 0, de forma que )* = )* +0* . Tomando sumatorias a


ambos lados de la última expresión, se tendría:

p p p

)* = )* + 0* (3)
*b, *b, *b,

p
Pero por resultado de U, *bâ 0* = 0, se tiene que:

p p

)* = )* (4)
*b, *b,

c) Demostrar que ) ^ ) = + ^ !′).

Solución

^
) ^ ) = !+ !+ = +! ^ !+ = + ! ^ ! ! ^ ! :,
! ^ ) = +′!′) (5)

d) Demostrar que A ^ A = ) ^ ) − + ^ !′).

Solución

0 ^ 0 = ) ^ − + ^ ! ^ ) − !+ = ) ^ ) − ) ^ !+ − +′! ^ ) + +!′!+ (6)

Y al ser +′! ^ ) un escalar, se puede escribir igual que su traspuesta )′!+

0 ^ 0 = ) ^ ) − 2+′! ^ ) + + ^ ! ^ !+ = ) ^ ) − 2+ ^ ! ^ ) + + ^ ! ^ ! ! ^ ! :,
! ^) (7)
= ) ^ ) − 2+ ^ ! ^ ) + + ^ ! ^ ) = ) ^ ) − +′!′) (8)

p p
e) Dada la siguiente información, calcular +, ) y A y verificar que *bâ A* =0y * )* =
p
)
â *.

Tabla 1.3. Sesgo según correlación y signo de coeficiente

!, 1 0 1 2 1

!# 2 2 0 -1 0

) 2 2 5 10 5

Solución

Ordenando matricialmente, se tendría luego:

5 3 3
! ^! = 3 7 −4 ; ! ^ ! = 19; (9)
3 −4 9

1 47 −39 −33 24
! ^! :,
= −39 36 29 ; ! ^ ) = 28 (10)
19
−33 29 26 −2

El estimador MCO de + es:

102/19
^ :,
1 47
^
−39 −33 24 5.368
+ = (! !) ! ) = −39 36 29 28 = 14/19 = 0.736 (11)
19
−33 29 26 −2 −32/19 −1.684

1 −1 2 24 1.2631
1 0 2 102/19 38 2
1
) = !+ = 1 1 0 14/19 = 116 = 6.1052 (12)
19
1 2 −1 −32/19 162 8.263
1 1 0 116 6.1052
p p

)* = )* = 24 (13)
* â

Problema 1.23
Se supone que se ha estimado la siguiente ecuación utilizando MCO (con las variables
medidas en logaritmos):

)O = +â + +, !,O + +# !#O + AO , √ = 1, … … 17 (1)

Y las estimaciones de los parámetros son:


+â = 1.37; +, = 1.14 5+# = −0.83 (2)

También se sabe que:

)^ ° − ! ! ^! :,
! ^ ) = 0.0028 (3)

Y los elementos de ! ^ ! :,
son:

510.89 −254.35 0.42


−254.35 132.70 −6.82 (4)
0.42 −6.82 7.11
Se pide:

a. Calcular las varianzas de los estimadores MCO de +â ; +, 5+# .

Solución

La varianza de los estimadores está dada por la expresión C # (! ^ !):, , donde C # es


un escalar cuyo estimador insesgado viene dado por:

0′0
C# = (5)
K−´

Conocida(! ^ !):, solo falta estimar 0′0

0 = ) − !+ = ) − ! ! ^ ! :,
! ^) (6)

0^0 = ) ^ − ) ^! ! ^! :,
! ^ ) − ! ! ^! :,
! ^) (7)

= )^) − )^! ! ^! :,
! ^) − )^! ! ^! :,
! ^ ) + )′! ! ^ ! :,
!′! ! ^ ! :,
!′) (8)

= )^) − )^! ! ^! :,
! ^) = )^ ° − ! ! ^! :,
! ^ ) = 0.0028 (9)

Entonces

0.0028
C# = = 0.0002 (10)
17 − 3

Las varianzas de los estimadores serían:

510.89 −254.35 0.42 var βâ 0.10210


ÜRT + = 0.0002 −254.35 132.70 −6.82 ⟹ var β, = 0.02654 (11)
0.42 −6.82 7.11 var β# 0.00142
Problema 1.241
Un investigador ha estimado el siguiente modelo con una muestra de 5 observaciones:

)O = +, + +# !O + 0O (1)

Una vez realizada la estimación extravía toda la información de que disponía excepto la
que aparece en la tabla 1.4.

Tabla 1.4. Información disponible de la estimación

Núm. Xt uàt
obs.

1 1 2

2 3 -3

3 4 0

4 5 ¿?

5 6 ¿?

Con la información anterior el investigador debe calcular una estimación de la varianza de


las perturbaciones aleatorias ¿Cómo debe proceder?

Solución

El primer problema que se debe resolver es hallar los valores de los residuos para las
observaciones número 4 y 5. Para ello, se considera que las dos ecuaciones normales de
los coeficientes imponen restricciones sobre los residuos, ya que:

0O = 0 (2)
Ob,
p

0O !O = 0 (3)
Ob,

Entonces,

0, + 0# + 02 + 0} + 0~ = 0 (4)

0, !, + 0# !# + 02 !2 + 0} !} + 0~ !~ = 0 (5)
Reemplazado los valores de la tabla:

2 − 3 + 0 + 0} + 0~ = 0 (6)

261 − 363 + 064 + 50} + 60~ = 0 (7)

Es decir,

0} + 0~ = 1 (8)

50} + 60~ = 7 (9)

Resolviendo el sistema:

0} = −1 (10)

0~ = 2 (11)

Luego, el estimador insesgado de la varianza de las perturbaciones viene dado por

p #
Ob, 0O
Cõ# = (12)
K−2

Aplicando la fórmula:

~ #
Ob, 0O 2# + (−3)# + 0# + (−1)# + 2#
Cõ# = = =6 (13)
5−2 3

Problema 1.42

En la siguiente regresión ) = ö + +! + Z, para poder computar los coeficientes asociados


a X, se puede primero transformar ) a desviaciones de su media (obteniendo ) ∗) y, de la
misma manera, transformar cada columna de la matriz ! a desviaciones de sus respectivas
medias (obteniendo ! ∗). Asimismo, se regresiona ) ∗ con ! ∗ sin incluir una constante. ¿Se
obtiene el mismo resultado si solo se transforma ), y se regresiona? ¿Qué pasa si solo se
transforma !?

Solución
Partiendo del modelo: ) = ö + +! + Z, se define dos variables transformadas desviándolas
de su media:

) ∗ = àâ ) = ) − ) (1)

! ∗ = àâ ! = ! − ! (2)

Recordando el concepto de regresión particionada, si se utiliza:

(i) El modelo con ambas variables transformadas: ) ∗ = +! ∗ + Z:

+¶ß• = (! ∗ ′! ∗ ):, ! ∗ ′) ∗ (3)

^ :,
+¶ß• = !−! !−! (! − !)′() − )) (4)

^ :,
+¶ß• = àâ ! àâ ! (àâ !)′(àâ )) (5)

:,
+¶ß• = !′àâ ′àâ ! !′àâ ′àâ ) (6)

Se sabe que las matriz M es simétrica e idempotente, por tanto:

:,
+¶ß• = !′àâ ! !′àâ ) … (1)
(7)

(ii) El modelo con sólo las X transformadas:) = +! ∗ + Z:

+¶ß• = (! ∗ ′! ∗ ):, ! ∗ ′) (8)

^ :,
+¶ß• = àâ ! àâ ! (àâ !)′()) (9)

:,
+¶ß• = !′àâ ′àâ ! !′àâ ′) (10)

:,
+¶ß• = !′àâ ! !′àâ ) … (2) (11)

Por tanto, se puede concluir que el modelo arroja el mismo estimador si se transforma
tanto la dependiente y las explicativas como si sólo se transforma las explicativas. El
último caso es:

(iii) El modelo con sólo Y transformada: ) ∗ = +! + Z:


+¶ß• = (!′!):, !′) ∗ (12)

+¶ß• = ! ^ ! :,
!′() − )) (13)

+¶ß• = ! ^ ! :,
!′àâ ) … (3) (14)

Finalmente, se puede concluir que desviando únicamente Y respecto de la media no se


obtiene el mismo resultado que en los dos casos anteriores. Esto se explica por la
idempotencia de àâ , ya que logra limpiar a las ! del lado derecho mas no a las del lado
izquierdo; por lo que en el modelo estimado se terminan utilizando tres variables:
!; àâ !; àâ ).

Problema 1.43
Considere tres variables I, Ø e ), con media cero y varianzas unitarias. Una cuarta variable
es creada como d = I + Ø. Se sabe que (i) en una regresión de d contra ), se obtiene
que el coeficiente es 0.8, (ii) en una regresión de d contra I, se obtiene que el coeficiente
es 0.5 y (iii) en una regresión de Ø contra ), el coeficiente obtenido es 0.4. ¿A cuánto
equivale la suma de cuadrados residuales (SCR) en una regresión de C contra D?
Considere que hay 21 observaciones.

Solución

Ahora, primero veamos qué es lo que se necesita obtener para obtener la SCR. Sabemos
que esta suma equivale a:

#
dVÜ d; Ø (1)
cd` = (] − 1) Z* # = [* − hY* #
= [* # − h # Y* # = % d − %(Ø)
% Ø
#
dVÜ d; Ø
cd` = (] − 1) % d − %(Ø) (2)
% Ø

El (] − 1) aparece ya que hemos transformado sumatorias en varianzas muestrales.

Asimismo, la varianza de C equivale a:

% d = % I + Ø = % I + % Ø + 2dVÜ I; Ø = 2(1 + dVÜ I; Ø ) (3)

Como sabemos que las varianzas son unitarias; lo único que debemos hallar es la
covarianza entre C y D; y la covarianza entre N y D.

Dado que las variables tienen media cero, los coeficientes proporcionados nos
proporcionan en general la covarianza entre la varianza. Sin embargo, como la varianza
de cada variable es unitaria; en general, los coeficientes que nos dan nos están diciendo
las covarianzas entre las variables relacionadas.

Por dato, sabemos que:

(4)
dVÜ d; ) = dVÜ I; ) + dVÜ Ø; ) = 0.8

(5)
dVÜ d; I = % I + dVÜ(I; Ø) = 0.5

(6)
dVÜ Ø; ) = 0.4

De la segunda ecuación se obtiene que:

(7)
1 + dVÜ I; Ø = 0.5 → dVÜ I; Ø = −0.5

(8)
% d = 2 1 + −0.5 =1

Ahora, falta hallar la covarianza entre C y D:

dVÜ d; Ø = dVÜ I; Ø + % Ø = −0.5 + 1 = 0.5 (9)

Con esto, obtenemos que la SCR equivale a

#
0.5
cd` = 21 − 1 1− 1 = 15 (10)
1

Problema 1.44
Muestre que si h es el estimador MCO de la regresión de 5 sobre ! y si [ es cualquier otro
vector de ´61, se cumple lo siguiente:

5 − ![ ′ 5 − ![ − 5 − !h ′ 5 − !h = ([ − h)′!′!([ − h) (1)

¿Qué implicancia tiene el resultado anterior con respecto al estimador MCO?

Solución
Primero se llega a la expresión planteada en la pregunta. Para ello, se define las siguientes
ecuaciones:

5 = !h + Z (2)

5 = !h + 0 (3)

Usamos [ = h − h + [

0′0 = 5 − ![ ′ 5 − ![ = (5 − ! h + [ − h )′(5 − ! h + [ − h ) (4)

0′0 = 5 − ![ ′ 5 − ![ = (5 − !h − ! [ − h )′(5 − !h − ! [ − h ) (5)

0′0 = 5 − !h ′ 5 − !h − 2 5 − !h ! [ − h ′ + ! [ − h ′ ! [ − h (6)

Tener en cuenta que 5 − !h = Z, y que !′Z = 0 , por lo que el segundo término de la


ecuación anterior se hace 0 . Si además se traspone el primer componente del último
término queda:

0′0 = 5 − !h ′ 5 − !h + ([ − h)′!′! [ − h (7)

5 − ![ ′ 5 − ![ − 5 − !h ′ 5 − !h = ([ − h)′!′! [ − h (8)

Si se reemplaza Z:

0′0 − Z′Z = ([ − h)′!′! [ − h (9)

La matriz ([ − h)′!′! [ − h es semidefinida positiva, por lo que la suma de errores al


cuadrado del estimador [ siempre será mayor a la del estimador h: MCO minimiza la suma
de errores al cuadrado.
2. Inferencia

Problema 2.1

El nivel de significancia de un test de hipótesis refleja la probabilidad de aceptar …• dado


que …• es falsa.

Solución

Falso. El nivel de significancia refleja la probabilidad de cometer Error Tipo 1, esto es, la
probabilidad de rechazar …• dado que la …• es verdadera. Para una muestra, existe un nivel
determinado de trade-off entre la probabilidad de cometer Error Tipo I y II. Para reducir el
error tipo II sin incrementar el Error Tipo I es necesario incrementar el tamaño de la muestra.

Problema 2.2

¿Qué es el nivel de potencia de una prueba de hipótesis y cuál es la relación que tiene con
el nivel de significancia?

Solución

La potencia de una prueba se define como el complemento de la probabilidad de “aceptar”


una hipótesis nula falsa. Existe un trade-off entre la potencia de un test y su significancia.
Si se escoge una probabilidad de cometer error tipo I muy baja (nivel de significancia),
incrementará la probabilidad de cometer error tipo II; es decir, caerá la potencia de la
prueba.

Problema 2.3

En una prueba de significancia individual, siempre que el √ calculado (√ß? ) sea menor al √
de tabla puedo asegurar que la variable es no significativa.

Solución

Incierto. Si el √ß? en valor absoluto y el estadístico calculado es mayor al de tabla se puede


asegurar que la variable es significativa. Si no se calcula el √ß? en términos absolutos y el
coeficiente es negativo (por lo que el √ß? también resultara negativo) la respuesta depende
de respecto a qué √ de tabla se está comparando ya que la prueba es de dos colas.

Problema 2.4

A menor varianza de + la probabilidad de captar la hipótesis nula de no significancia es


mayor.

Solución
ô/ :ô/
Hipótesis nula de no significancia recae en el √ß? = . Si disminuye la varianza del

estimador, entonces el ç? aumenta. Considerando que se trabaja con el valor absoluto, el
objetivo de la prueba √ es conocer si el coeficiente de +* es estadísticamente significativo
(proviene de una distribución en la cual el valor más probable, el parámetro, es diferente de
cero) o si el valor obtenido toma su valor debido a la varianza (el coeficiente efectivamente
proviene de una distribución centrada en cero pero por un tema de varianza, aleatoriedad,
el valor del coeficiente resultó diferente de cero). Es por ello que se divide entre la
desviación estándar y se compara con el √ de tabla. Así, ante un mayor √ß? , se disminuye
la posibilidad de aceptación de la hipótesis nula. Por lo tanto, el comente es falso, sin
importar si el coeficiente sea positivo o negativo.

Problema 2.5

Si existe evidencia estadística suficiente para rechazar que solo uno de los regresores
incluidos en un determinado modelo es distinto de cero (es decir que todos los demás
regresores son no significativos), entonces es probable que la prueba 8 de significancia
conjunta lleve a no rechazar la …â .

Solución

En primer lugar, la …â suele llevar la restricción de igualdad, por lo que, en la prueba de


hipótesis, la hipótesis nula tendría que ser + = 0. Entonces, si tras evaluar la significancia
se obtiene que sólo uno de ellos es distinto de 0, esto no implica que será probable que la
prueba 8 de significancia conjunta arroje que todos los + ^ Q son 0. Esto se debe a que los
+ ^ Q de regresiones con diferentes variables son distintos ya que al ir quitando variables, los
+ ^ Q que quedan “incorporan” parte del efecto de las variables que salen. Por ende, puede
ocurrir que siendo sólo un + significativo, la nula de no significancia conjunta se rechace.

Problema 2.6

El proceso de inferencia no tiene sentido ya que siempre podré aceptar cualquier hipótesis
nula de trabajar con un nivel de significancia lo suficientemente alto.

Solución

Falso. “Manipular” el nivel de significancia genera un riesgo al investigador debido a que se


puede inducir el error tipo I (rechazar una …â cuando no es falsa).

Problema 2.7

A medida que la correlación entre las variables explicativas tiende a uno, la potencia de la
prueba de hipótesis de no significancia individual crece.

Solución

Se define el siguiente modelo bivariado:


5 = !+, + ¢+# + 4 (1)

La varianza del estimador de beta asociado a ! (! es de ]61) estará dada por:

%RT(+, ) = Cõ# ! ^ àà ! :, (2)

%RT(+, ) = Cõ# ! ^ (° − †Ã )! :, (3)

%RT(+, ) = Cõ# ! ^ ! − !′†Ã ! :, (4)

:,
Cõ# ! ^ †Ã !
%RT(+, ) = 1 − (5)
! ^! ! ^!

Como P es simétrica e idempotente: ! ^ †Ã ! = ! ^ †Ã^ †Ã ! = (†Ã !)′(†Ã !) = cd" de una


regresión de ! sobre el espacio de ¢. Por otro lado, !’! es la suma de cuadrados total de
!, con lo que la expresión anterior puede escribirse como:

Cõ#
%RT(+, ) = 1 − `# :, (6)
! ^!

Donde el R–cuadrado corresponde a una regresión de 6 sobre £. Si estas variables están


fuertemente relacionadas, el R cuadrado subirá, lo que incrementa la varianza de beta. Esto
hace que los intervalos de confianza sean más amplios, con lo cual la prueba pierde
potencia.

Problema 2.8

En ocasiones imponer Õ < ´ restricciones lineales tal que `+ = T, donde Õ es el número de


restricciones lineales y ´ es el número de parámetros a estimar, podría mejorar algunos
aspectos de la estimación. En ese sentido, se le solicita obtener el estimador de Mínimos
Cuadrados Restringidos (MCR) de manera similar al de MCO.

Solución

Se tienen las Õ restricciones tal que …G : `œ9¡ +¡9, = Tœ9, donde ` no es necesariamente una
matriz cuadrada.

El problema consiste en resolver el problema de optimización sujeto a las restricciones


descritas. Entonces, se tiene como Lagrangiano:

1
∞ +, λ = (5 − !+)´ 5 − !+ + λ´(`+ − T) (1)
2
Donde λ es un vector de dimensión Õ61 que contiene multiplicadores de Lagrange. Las
condiciones de primer orden (CPO) para minimizar:

¬∞ +— , λ
= −!´ 5 − !+— + `´λ = 0 (2)
¬+—

¬∞ +— , λ
= `+— − T = 0 (3)
¬λ
A partir de (1):

`´λ = !´5 − !´!+— (4)

Entonces, como no se puede despejar λ porque ` no es necesariamente una matriz


cuadrada, se premultiplica la expresión previa por (!´!):, tal que:

(!´!):, `´λ = (!´!):, !´5 − +— (5)

(!´!):, `´λ = h¶ß• − +— (6)

Además, se premultiplica por ` para poder encontrar una forma cuadrada que se pueda
invertir:

`(!´!):, `´λ = `hEFG − `+— (7)

:,
(` !´! `´):, `(!´!):, `´λ = (` !´! :,
`´):, `hEFG − `+— (8)

:,
λ = (` !´! `´):, `hEFG − T (9)

Entonces, se reemplaza λ en (3) de modo que:

+EFG = hEFG − (!´!):, `´λ (10)

+— = hEFG − (!´!):, `´(` !´! :,


`´):, `hEFG − T (11)

Adicionalmente se tiene que si se premultiplica por ` se tiene que

`+— = `hEFG − `hEFG − T (12)


`+— = T (13)

Entonces, en el óptimo, se satisfacen las restricciones.

Problema 2.9

El estimador de Mínimos Cuadrados Restringidos (MCR) es un estimador que minimiza la


suma de residuos al cuadrado tal como MCO, pero sujeto a restricciones. Este estimador
puede utilizarse para imponer explícitamente la hipótesis nula de un test de hipótesis y así
obtener, por ejemplo, la cd` del modelo restringido, que no sería otra cosa que la cd` de
àd`. Se puede probar que este estimador está relacionado con el estimador MCO de la
siguiente manera:

+EF— = +EFG − ! ^ ! :,
`^ ` ! ^! :,
`^ :,
(` +EFG − T) (1)

Donde ` es una matriz de Õ×´ (Õ es el número de restricciones impuestas); ! ^ ! :, es una


matriz de ´×´; +EFG es un vector de ´×1 y T es un vector de Õ×1 , de manera que Ho:
`+ = T. Sabiendo además, que la prueba 8 para evaluar un modelo restringido vs. un
modelo sin restringir es la siguiente:

SCR @ − SCR ã@ ] − ´
F= (2)
SCR ã@ Õ

Exprese la prueba 8 en función de las matrices ! y ` y los vectores +EFG 5 T.

Solución

La expresión anterior de la prueba 8 es equivalente a decir:

e@ ′e@ − eã@ ′eã@ ]−´


F= (3)
eã@ ′eã@ Õ

Además,

Z@ = ) − !+@ (4)

e@ = ) − ! +EFG − ! ^ ! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (5)

e@ = eã@ + ! ! ^ ! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (6)

Definiendo la matriz H como:


… = ! ! ^! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (7)

e^@ e@ = e^ã@ eã@ + eã@ ′!… + …′!′eã@ + …′… (8)

Pero por construcción: e^ã@ ! = 0

Entonces:

^
e^@ e@ = e^ã@ eã@ + ! ! ^ ! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (9)

! ! ^! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (10)

^
e^@ e@ = e^ã@ eã@ + ! ^! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (11)

! ^! :,
`^ ` ! ^! :,
`^ :,
`+EFG − T (12)

e^@ e@ = e^ã@ eã@ + `+EFG − T ′ ` ! ^ ! :,


`^ :,
`+EFG − T (13)

e^@ e@ − e^ã@ eã@ ] − ´ `+EFG − T ′ ` ! ^ ! :, ` ^ :,


`+EFG − T ]−´
8= ^
= (14)
eã@ eã@ Õ e^ã@ eã@ Õ

Problema 2.10

Un grupo de investigadores está analizando el impacto de la educación sobre el ingreso.


Para esto, dispone de una base de datos de individuos que contiene las siguientes
variables:

(a) °Iÿ`"c≠ = el logaritmo del ingreso mensual;

(b) "Ø_d = número de años de estudio del individuo;

(c) "!†"` = la edad del individuo menos sus años de educación;

(d) c"!≠ = adopta el valor de 1 si el individuo es mujer; 0 de otro modo.

En particular, el equipo de trabajo está interesado en evaluar las siguientes hipótesis:

(i) El mercado laboral local no discrimina por sexo.

(ii) Si bien la educación y la experiencia exhiben rendimientos positivos, la primera


muestra un retorno mayor.
(iii) Cada año adicional de estudios lleva a un incremento del orden del 7.5% en el
ingreso mensual.

(iv) Cinco años de experiencia pueden compensar por un año menos de educación.

(v) La educación exhibe rendimientos positivos y crecientes.

a) Proponer un modelo econométrico teórico que permita, sobre la base de información


provista, analizar los determinantes del ingreso mensual.

Solución

°]{TZQV = +â + +, "Y0[ + +# ["Y0[]# + +2 "6èZT + +} cZ6V + Ÿ (1)

+â expresa el valor promedio del logaritmo del ingreso mensual cuando los valores de
las demás variables son iguales a cero. "6èZT se calcula como la edad menos los años
de educación. Cabe señalar también que, en la práctica, los modelos presentan cierto
grado de colinealidad o multicolinealidad, las variables explicativas no son del todo
ortogonales. Sin embargo, es posible permitir cierto grado de multicolinealidad ya que
el objetivo es que ninguna variable se pueda definir como una combinación lineal de
otras. Por su parte, "Y0[ # busca introducir en el modelo el hecho que el ingreso tiende
a incrementarse más rápidamente en los últimos años de educación que en los
primeros.

El efecto de que la educación aumente en 1 (año de educación) en el ingreso será


diferente si el camino es, por ejemplo, de 4to a 5to de secundaria que si es del último
año de universidad al primer año de maestría. cZ6V es una variable dummy que puede
tener un efecto aditivo, un efecto multiplicativo o ambos.

°]{TZQV = +â + +, "Y0[ + +# ["Y0[]# + +2 "6èZT + +} cZ6V + Ÿ (2)

°]{TZQV = +â + +, "Y0[ + +# ["Y0[]# + +2 "6èZT + +} "Y0[ cZ6V + Ÿ (3)

°]{TZQV = +â + +, "Y0[ + +# ["Y0[]# + +2 "6èZT + +} cZ6V + +~ "Y0[ cZ6V


(4)
+ Ÿ

En el primer modelo, +} reflejaría el efecto de la variable cZ6V en el ingreso. Se quiere


saber si el ingreso es diferente para dos individuos que tengan los mismos niveles de
educación y experiencia pero que tienen distinto sexo. En el segundo modelo, +}
reflejaría el cambio en el efecto de la variable "Y0[ en el ingreso cuando se pasas de
un individuo que es hombre a un individuo mujer. El tercero refleja la combinación de
ambos.
b) Sobre la base de tu modelo teórico, plantea un conjunto de pruebas de hipótesis (y los
respectivos tests a utilizar) que permitan verificar las cinco hipótesis que tiene el
equipo de trabajo.

Solución

°]{TZQV = +â + +, "Y0[ + +# ["Y0[]# + +2 "6èZT + +} cZ6V + Ÿ (5)

i) Hipótesis nula +} = 0 y alternativa diferente de cero

ii) Hipótesis nula 1, +, menor o igual a cero y alternativa mayor a cero. Hipótesis
nula 2, +# menor o igual a cero y la alternativa mayor a cero. Hipótesis nula
3, +, − +# menor o igual a cero y la alternativa mayor a cero.

iii) En el modelo se asume que el efecto de la variable educación en el ingreso


dependerá del nivel de educación, no será constante este efecto (+# recoge
esta característica). El objetivo pide inferir si cada año adicional de estudios
lleva a un incremento del orden del 7.5% en el ingreso mensual, es decir, este
efecto constante. Para verificar esta hipótesis, se necesita dos restricciones.
Por un lado, que el efecto de la educación en el ingreso es constante (+# = 0)
y por el otro, que este efecto es de 7.5%.

Hipótesis nula 1, +, = 0.075 y la alternativa diferente 0.075.

Hipótesis nula 2, +# = 0 y la alternativa diferente de 0.

iv) La pregunta de nuevo asume de nuevo un efecto de la educación constante.

Hipótesis nula 1, 5+2 − +, = 0 y la alternativa diferente de cero.

Hipótesis nula 2, +# = 0 y la alternativa diferente de cero.

v) Hipótesis nula 1, +, menor o igual a cero y la alternativa mayor a cero


(rendimientos positivos).

Hipótesis nula 2, +# menor o igual a cero y la alternativa mayor a cero


(rendimientos crecientes).

Problema 2.11

Se estimó la siguiente ecuación de regresión como una función de producción para ª:

∞] ª = 0.632 ∞] ⁄ + 0.452 ∞] ∞ (1)

c√Y +¤ = 0.257; c√Y +‹ = 0.219; dVÜ(+¤ , +‹ ) = 0.055 (2)

Así, se le pide que verifique las hipótesis siguientes sabiendo que √â.â#~ = 1.96:
a) Verifique la hipótesis de que las elasticidades del capital y trabajo son idénticas.

Solución

…• : ö − + = 0 (3)

…• : ö − + ≠ 0 (4)

(0.632 − 0.452)
ç? = = 2.842498 (5)
0.257 # + 0.219 # + 2(0.055)

√ß? > √O?l ∶ 2.842498 > 1.96 (6)

Se rechaza la Ho, entonces ö ≠ +.

b) Verifique la hipótesis de que hay rendimientos a escala constantes.

Solución

…• : ö + + = 1 (7)

…• : ö + + ≠ 1 (8)

0.632 + 0.452 − 1
ç? = = 0.177478 (9)
0.257 # + 0.219 # + 2(0.055)

Como √ß? < √O?l , no se puede rechazar la Ho, es decir, ö + + = 1.

Problema 2.12

Se le pide que comente la siguiente regresión de Mincer5 y analice de manera detallada


cada uno de los estadísticos reportados en la ventana de resultados. De manera particular,
interprete el ` cuadrado, la prueba 8 así como el valor del è − ÜRS0Z.

Tabla 2.1. Resultados de estimación (p-value en paréntesis)

Variables Var. Dependiente:


Independientes log wage
Constante 0.12
(0.227)
ZY0[ 0.09


5
Se conoce como regresión de Mincer a aquellas ecuaciones que buscan explicar el salario de las
personas a partir, principalmente, de su educación y experiencia.
(0.000)
Z6èZT 0.04
(0.000)
Z6èZTQÕ -0.0007
(0.000)
Prob>F 0.0000
R2 0.3003

Solución

La anterior regresión de Mincer es la más simple. Así, es importante analizar la


interpretación de los +’s. En este caso son semielasticidades dado que la variable
dependiente está en logaritmos. El è − ÜRS0Z es la probabilidad de aceptar la hipótesis nula.
Si è − ÜRS0Z > 5% (valor de significancia que se fija), entonces se acepta la hipótesis nula.
Si è − ÜRS0Z < 5% entonces se rechaza la hipótesis nula. Notar que, en este caso, dado
que la hipótesis nula es que el + = 0, lo que se busca es que se rechace dicha hipótesis.

El `2 es una medida de bondad de ajuste, que en este caso indica que el modelo, como
está planteado, no está explicando la variabilidad de la dependiente. La prueba 8 es una
prueba de significancia global. En este caso dicho è − ÜRS0Z es menor al 5%, por ende, se
rechaza la …• de la prueba 8 (…• de la prueba 8 es que todos los betas son iguales a cero).

Problema 2.13

Una estimación MCO de la demanda de vinos provee el siguiente resultado:

Tabla 2.2. Resultados de estimación

Variables Var. Dependiente:


Independientes log C
Constante -21.20
(3.54)
SV{ †ú -1.34
(0.26)
SV{ †fi 0.24
(0.62)
SV{ ) 2.35
(0.30)

Donde d es el consumo de vino per cápita, †ú es el precio del vino, †fi es el precio de la


cerveza, e ) es el ingreso per cápita. Además, los números en paréntesis corresponden a
los errores estándar de los coeficientes estimados.
a) ¿Este modelo provee evidencia de que el precio de la cerveza afecta el consumo
de vino? Si no es así, ¿se puede concluir que el precio de la cerveza no afecta el
consumo del vino? Explique.

Solución

El test √ de significancia individual para el coeficiente de


SV{ †fi (se define como W# ) es (0.24)/(0.62) < 1.96, por lo que no se rechaza …â : W# =
0. Ahora, la no significancia estadística no significa que se acepte …â , simplemente
que no se rechaza. Concluir que el precio de la cerveza no afecta el consumo de
vino equivale a aceptar que W# = 0, lo que no es correcto. De hecho, si se realiza
otro test t teniendo como hipótesis nula, por ejemplo, W# = 0.01, tampoco se rechaza
pues (0.24 – 0.01)/(0.62) < 1.96. No tendría sentido aceptar que W# = 0.01 y W# = 0
al mismo tiempo.

b) Suponga que el gobierno impone un impuesto que incrementa el precio del vino en
10%. ¿Qué efecto tendrá este impuesto sobre el consumo de vino? Dé una
respuesta numérica.

Solución

Se consideran dos respuestas correctas, aunque una es más precisa que la otra. La
respuesta más directa es usar la aproximación de cálculo: dado que la elasticidad
de d con respecto a †ú es igual al coeficiente de †ú en la regresión anterior (definido
como δ, )

†ú ¬d ¬ log d
= = δ, (1)
d ¬†ú ¬ log †ú

Entonces se estima el cambio porcentual en d con 10 δ, % = −13.4% . Sin


embargo, las derivadas son precisas para cambios pequeños, y, en este caso, se
cuenta con un cambio potencialmente grande (10%). Para calcular el efecto exacto,
se asume que un cambio de ∆†ú en el precio del vino ocasiona un cambio de ∆d en
su consumo, entonces restando las expresiones:

log(d + ∆d) = Wâ + W, log(†ú + ∆†ú ) + W# log †fi + W2 log ) + _ (2)

log(d) = Wâ + W, log †ú + W# log †fi + W2 log ) + _ (3)

Se obtiene:

log d + ∆d − log d = W, [log †ú + ∆†ú − log †ú ] (4)


∆d ∆†ú
log 1 + = −1.34 log 1 + (5)
d †ú

Por propiedades de logaritmos6:

:,.2}
∆d ∆†ú :,.2}
= 1+ − 1 = 1 + 10% − 1 = −11.2% (6)
d †ú

c) Alguien sugiere que la demanda debería depender de los precios pero relativos al
ingreso. Es decir, se sugiere que el modelo debería ser:

†ú †fi
log d = +â + +, log + +# log + +2 ) + _ (7)
) )

¿Qué valores de los coeficientes obtendría si estima este modelo por MCO?

Solución

Partiendo de la ecuación final y reordenando:

†ú †fi
log d = +â + +, log + +# log + +2 log ) + _ (8)
) )

log d = +â + +, log †ú + +# log †fi + (+2 − +, − +# ) log ) + _ (9)

Que es igual a la especificación original. Entonces, el coeficiente de log †ú en la


tabla 2.1 da un estimado de +, , el de log †fi da un estimado de +# , y el coeficiente
de log ) da un estimado de +2 − +, − +# . Es decir 2.35 = +2 − −1.34 − 0.24, lo
que implica +2 = 1.25.

d) Alguien más le sugiere que debería incluir los precios relativos del vino y la cerveza.
Es decir, se sugiere que el modelo debería ser:

†ú
log d = +â + +, log †ú + +# log †fi + +2 log ( ) + +} ) + _ (10)
†fi
¿Qué pasará si intenta estimar este modelo?

Solución

‚û
Este modelo exhibe colinealidad perfecta pues se tiene que log =
‚„
log †ú − log †fi . Por lo tanto, no puede ser estimado.


6
‰. SV{Æ = log Æ Â
e) La figura de abajo muestra los residuos de la regresión del cuadro anterior
(“residuals” es el término en inglés para residuos, y “fittedvalues” es el término para
valores ajustados). A partir de esta evidencia, ¿qué opina sobre la especificación de
la demanda de vino escogida?

Solución

La figura muestra un patrón entre los residuos y los valores ajustados: los residuos
tienden a ser negativos en los bordes, y positivos en el centro. Esto es una indicación
de que existiría alguna relación no lineal entre las X y la Y que no está siendo
capturada por nuestra regresión lineal.

Problema 2.14

Un investigador averigua los determinantes de los salarios de los gerentes de empresas.


Para esto estudia una muestra con datos de los salarios de 177 gerentes y los relaciona
con información del valor de las ventas anuales de las empresas (QRSZQ), el valor en bolsa
de las empresas (ê´√ÜRS), los beneficios netos de las empresas como porcentaje de las
ventas (èTVÊêRT{), el número de años del individuo en la compañía ([Vê√Z]) y el número
de años del individuo como gerente de la compañía ([ZV√Z]). El investigador estudia
diversas especificaciones cuyos resultados (usando MCO) se encuentran en el siguiente
cuadro:

Variables (1) (2) (3)


Independientes
SV{(QRSZQ) 0.224 0.158 0.188
(0.27) (0.40) (0.40)
SV{(ê´√ÜRS) -- 0.112 0.100
-- (0.05) (0.049)
èTVÊêRT{ -- -0.0023 -0.0022
-- (0.022) (0.0021)
[ZV√Z] -- -- 0.0171
-- -- (0.0055)
[Vê√Z] -- -- -0.0092
-- -- (0.0033)
[V]Q√R]√Z 4.94 4.62 4.57
(0.20) (0.25) (0.57)
Observaciones 177 177 177
R2 0.281 0.304 0.353
SCR 46.49 45.03 41.86

a) Analice el efecto de èTVÊêRT{ sobre el sueldo de los gerentes. Es decir, responda


a las preguntas, si el èTVÊêRT{ aumenta en 1(%), ¿en cuánto cambiaría el sueldo
de los gerentes? ¿Es este efecto económico o estadísticamente significativo?

Solución

El efecto de èTVÊêRT{ sería de aproximadamente una caída de 0.23% y 0.22% en


el sueldo de los gerentes. Sin embargo los tests √ de significancia individual en
ambos casos son menores a 1.96, de manera que no son estadísticamente
significativos: no se puede rechazar la hipótesis nula de que ambos efectos son
cero. Por otro lado, asumiendo que lo fueran, el tamaño de los efectos los hace
económicamente poco significativos: no parecen ser un determinante importante del
salario de los gerentes.

b) ¿Tiene un efecto significativo el valor de mercado?

Solución

El valor de mercado sí parece tener un efecto significativo (el valor del estadístico √
en las columnas 2 y 3 es mayor a 1.96). Analizando la columna 3 (que tiene un
mayor número de controles y es menos probable que sufra de variable relevante
omitida), se observa que el efecto es relativamente pequeño: un cambio de 10%
generaría un incremento de 1% en el salario de los gerentes.

c) Interprete los coeficientes de [ZV√Z] y [Vê√Z]. ¿Son estas variables


estadísticamente significativas individual o conjuntamente?

Solución

Ambas son significativas individualmente. Sus tests √ son (0.0171/0.005 ≈ 3.1) y (-


0.0092/0.0033 ≈ -2.8) por lo que están por encima en valor absoluto del valor crítico
de una normal estándar al 5% (la aproximación es razonable pues la muestra es
relativamente grande). Para la prueba de significancia conjunta se usa el test 8:
(c`d@ − c`da@ )/Õ (45.03 − 41.86)/2
8= = ≈ 6.47 (1)
c`da@ /(] − ´ − 1) 41.86/(177 − 6)

s
Ë(s) ~.≥≥
Esto se compara con el valor crítico de una 8#,,±, = 3 o con una = ≈ 3,
# #
dado que en muestras grandes ambos valores son aproximadamente iguales (la chi-
cuadrado dividida entre Õ se aproxima a una 8, al igual como la normal estándar se
aproxima a una √ cuando la muestra es grande). Se rechaza la hipótesis nula: las
variables son conjuntamente significativas.

El aumento de un año como CEO de la compañía ([ZV√Z]) aumenta el salario en


aproximadamente 1.71% (el efecto exacto sería Z6è(1.71%) − 1 = 1.72%7). Si
permanece un año más como empleado de la compañía ([Vê√Z]) el salario más
bien cae en 0.92%.

d) ¿Cómo se interpreta el signo negativo de la variable [Vê√Z]?

Solución

El signo negativo puede deberse a lo que se llama efecto “súper estrella”. Las
compañías que contratan CEOs de fuera de la empresa tienden a buscar los
mejores candidatos posibles, con salarios potencialmente altos. Si una persona ha
sido muchos años un empleado normal (no CEO) de una compañía significa que no
es probablemente considerado una súper estrella.

Problema 2.15

Considere una ecuación para explicar los sueldos de los directores generales en términos
de las ventas anuales de la empresa, el rendimiento sobre capital (TVZ, en forma de
porcentaje), y el rendimiento de las acciones de la empresa (TVQ, en forma de porcentaje):

log QRSRTUV = +â + +, log ÜZ]√RQ + +# TVZ + +2 TVQ + 0 (1)

a) Establezca la hipótesis nula de que controlando por ÜZ]√RQ y TVZ, TVQ no tiene efecto
en el sueldo de los directores generales. Establecer la alternativa de que un mejor
desempeño de las acciones de la empresa incrementa el suelo de los directores.

Solución

Las hipótesis en este caso son:


7
Note que la aproximación funciona bien para cambios pequeños.
…â : +2 = 0 (2)

…, : +2 > 0 (3)

Esto se da ya que se pide explícitamente que la alternativa implique un incremento en el


sueldo dado un mejor desempeño de las acciones. La nula se iguala a cero, pues se
requiere evaluar si es que tiene efecto o no.

b) Se obtienen los siguientes resultados:

log QRSRT∫V = 4.32 + 0.28 log ÜZ]√RQ + 0.0174 TVZ + 0.00024 TVQ (4)

0.32 0.035 0.0041 (0.00054)

¿Cuál es el porcentaje de aumento de salario que pronostica si TVQ aumenta 50


puntos?

¿Tiene TVQ un efecto práctico grande sobre salarios?

Solución

Se debe notar que, como el modelo está en logaritmos y TVQ está expresado en
porcentaje; el coeficiente estimado para ros en el modelo anterior es una elasticidad.
Por tanto, para calcular el aumento del salario ante un incremento de TVQ en 50 puntos
porcentuales, se multiplica la elasticidad calculada por dicho aumento porcentual:

0.00024 50 = 0.012 = 1.2% (5)

El rendimiento de las acciones de la empresa parece no tener un efecto significativo


en un sentido “práctico” ya que un aumento de 50 puntos porcentuales de este
rendimiento solo genera un aumento de 1.2% en los salarios de los directores.

c) Pruebe la hipótesis nula que TVQ no tiene efecto sobre QRSRTUV contra la hipótesis
alternativa de que TVQ tiene un efecto positivo. Realice la prueba al 10% de
significancia.

Solución

Las hipótesis son:

…â : +2 = 0 (6)

…, : +2 > 0 (7)
ö = 0.1 (8)

+2 − +2
√= ~√a:¡:, (9)
ZZ +2
Se acepta …â si √ ≤ 1.282.

0.00024
ç? = = 0.444 (10)
0.00054
Por lo tanto, no puede rechazarse …â ; es decir, a un nivel de significancia de ö = 0.1,
se concluye que ante las evidencias muestrales el rendimiento de las acciones no
tiene un efecto positivo sobre el salario de los directores.

d) Explique si incluiría TVQ en el modelo final que explica las compensaciones de los
directores en términos del desempeño de la empresa.

Solución

Las evidencias muéstrales indican que la variable TVQ no tiene ningún efecto sobre la
variable independiente, por lo que de existir algún sesgo por omitir esta variable sería
muy pequeño.

Problema 2.16

Se estima la siguiente ecuación para los estudiantes que se encuentran cursando el


segundo semestre del año:

]V√èT = −2.12 + .9]V√èTèV] + .193]V√R[0 + .0014ℎVTRQ + .0018QR√ − .0039èZTℎ


(1)
+ .351ÊZê − .157√Zêè
. 55 . 175 . 064 . 0012 . 0002 . 0018 . 085 (.098)
. 55 . 166 . 074 . 0012 . 0002 . 0019 . 079 [.080]
] = 269, ` # = .465

En este modelo, ]VÏT es el promedio general de calificaciones del semestre actual,


]V√èTèV] es un promedio ponderado de calificaciones de los cursos que están tomando,
]V√R[0 es el promedio general de calificaciones antes del semestre presente, ℎVTRQ son las
horasde estudio del semestre anterior, QR√ es la puntuación en la prueba SAT de admisión
a la universidad, èZTℎ es el percentil que ocupó el alumno entre los graduados del
bachillerato, ÊZê es una variable binaria para el género femenino y √Zêè es una variable
binaria que toma el valor de uno si el deporte del estudiante se practica durante el segundo
semestre. Entre paréntesis y entre corchetes se dan respectivamente los errores
estándares usuales y los errores estándares robustos a la heterocedasticidad.
a) ¿Tienen las variables ]V√èTèV], ]V√R[0 y ℎVTRQ los efectos esperados? ¿Cuáles de
estas variables son estadísticamente significativas al 5%? ¿Importa qué error
estándar se use?

Solución

En general, todas tienen el signo esperado. Por ejemplo, √Zêè tiene un coeficiente
negativo lo que era de esperarse ya que si el estudiante practica algún deporte
tendrá menos tiempo para estudiar y por ende tendrá notas más bajas.

Todos los efectos calculados (tanto con los estadísticos t usuales como los robustos
a la heterocedasticidad) son estadísticamente significativos excepto los de ℎVTRQ.

b) ¿Por qué es razonable la hipótesis +a•OÎ@Εa = 1? Pruebe esta hipótesis contra la


alternativa de dos colas al nivel de 5%, usando los dos errores estándar. Concluya.

Solución

Es razonable porque la estimación mide la calificación del estudiante promedio y


]V√èTèV] mide precisamente el promedio de los estudiantes. Sin embargo, al hacer
la prueba √ se halla que no es estadísticamente significativo (ni para el estadístico
usual ni para el caso de heterocedasticidad).

c) Pruebe si el hecho de que el deporte del estudiante se practique en el segundo


semestre tiene un efecto sobre la nota del semestre, usando ambos errores
estándar. ¿El nivel de significancia al que se puede rechazar la prueba depende de
cual error estándar se emplee?

Solución

Efectivamente. La prueba con el estadístico √ robusto a la elasticidad se rechaza a


un nivel de 5% de significancia; mientras que el estadístico usual no, ya que este es
mucho más bajo. Esto no es extraño porque los estadísticos √ robustos a la
heterocedasticidad suelen ser mayores.

Problema 2.17

Un investigador está interesado en estimar el efecto que tiene una serie de factores sobre
la productividad agrícola de los productores de papa en la Sierra del Perú. Gracias a su
grupo de ayudantes, pudo estimar una serie de regresiones que se muestran a
continuación:

Regresión 1
Variable dependiente: LN(Producción)

Coeficiente Error Estándar T Prob.


Constante 1.25 0.52 2.404 0.0164
Tamaño_parcela 0.95 0.09 10.556 0.0000
Temp 0.42 0.12 3.5 0.0005

R2 0.318516
Prob (F) 0.000000

Regresión 2

Variable dependiente: Producción

Coeficiente Error Estándar T Prob.


Constante 189.27 25.20 7.511 0.0000
Tamaño_parcela 36.46 3.24 11.253 0.0000
No_Helada 16.4 5.67 2.892 0.0039

R2 0.295559
Prob (F) 0.000000

Regresión 3

Variable dependiente: Producción

Coeficiente Error Estándar T Prob.


Constante 193.65 22.34 8.668 0.0000
Años_Educ 24.03 2.43 9.889 0.0000
Otras_actividades -36.23 10.32 -3.511 0.0005
Miembros_familia 27.09 25.00 1.084 0.2788

R2 0.493302
Prob (F) 0.000000

Regresión 4

Variable dependiente: LN(Producción)

Coeficiente Error Estándar T Prob.


Constante 1.05 0.50 2.100 0.036
Años_Educ 0.03 0.01 3.000 0.0028
Otras_actividades -0.15 0.07 -2.143 0.0324

R2 0.226759
Prob (F) 0.000000

Regresión 5
Variable dependiente: LN(Producción)

Coeficiente Error Estándar T Prob.


Constante 0.93 0.39 2.385 0.0173
Tamaño_parcela 0.87 0.11 7.909 0.0000
Temp 0.31 0.13 2.385 0.0173
No_Helada 0.05 0.01 5.000 0.0000
Temp*No_Helada -0.15 0.07 -2.143 0.0324

R2 0.493072
Prob (F) 0.000000

Donde:

Tamaño_parcela Tamaño de la parela de ultivo, en km2.


Temp Temperatura de la zona de cultivo en grados Centígrados.
Dummy que toma el valor de 1 si la temperatura es
No_Helada
mayor a 15 grados centígrados.
Años_Educ Años de educación
Número de horas al día que dedica a actividades
Otras_actividades
diferentes de la agricultura.
Miembros_familia Miembros de la familia que cultiva la parcela.

Además, se sabe que la variable †TVY0[[Uó] está expresada en Nuevos soles.

Especifique para cada hipótesis: i) La regresión con la que cree que es más pertinente
trabajar, ii) La(s) hipótesis nula(s), iii) la prueba estadística correspondiente y iv) qué
resultados/valores le permiten concluir que la hipótesis efectivamente se cumple o no.
Trabaje con un nivel de confianza de 95%.

a. Un incremento del tamaño de la parcela de 3.5 kilómetros cuadrados generará un


incremento en la producción equivalente a 25 soles en la producción.

Solución

Regresión 2

…â : 3.5+, = 25 (1)

…, : 3.5+, ≠ 25 (2)

#~
+, −
Kß? ß = 2.~ (3)
c√Y. "TTVT

36.46 − 7.14
Kß? ß = = 9.06 (4)
3.24

Se rechaza …â .
b. Realizar otras actividades diferentes de la agricultura durante una hora más por día
reducirá la producción en 13%.

Solución

Regresión 4

…â : +# = −0.13 (5)

…, : +# ≠ −0.13 (6)

+# + 0.13
Kß? ß = (7)
c√Y. "TTVT

0.02
Kß? ß = = 0.28 (8)
0.07

No se puede rechazar …â .

c. El incremento en la producción por tener a un integrante más en la familia es de 15


soles.

Solución

Regresión 3

…â : +2 = 15 (9)

…, : +2 ≠ 15 (10)

+2 − 15
Kß? ß = (11)
c√Y. "TTVT

27.09 − 15
Kß? ß = = 0.48 (12)
25

No se puede rechazar …â . Sin embargo, hay que observar también que esta
variable no es significativa, por lo cual también se aceptaría la hipótesis de que
tener más integrantes en la familia no afecta a la producción.

d. A partir de la regresión 5, grafique la relación (ceteris paribus) entre la temperatura y


el logaritmo de la producción. Noten que hay un término de interacción incorporado.
¿Cómo cambiaría el gráfico si la dummy IV_…ZSRYR no fuese significativa? ¿Cómo
cambiaría si la multiplicación de IV_…ZSRYR y KZêè no fuese significativa pero
IV_…ZSRYR sí lo fuera?

Solución

Si IV_…ZSRYR no fuese significativa:


Al no ser significativo el cambio en el intercepto, el segundo tramo de la recta partirá de
donde hubiera estado si hubiera tenido esa pendiente desde el inicio.

Si IV_…ZSRYR es significativa, pero no la multiplicación:

Problema 2.18

Un investigador ha decidido correr diferentes especificaciones de ecuaciones de salario. Su


principal interés es analizar el efecto de los años de educación en la determinación del
salario de los individuos en la muestra y, específicamente, cómo este efecto puede variar
según la raza y el género.

Considere lo siguiente:

• Earnings: representa el salario por hora y que la muestra está compuesta solo por
individuos de razas blanca y negra.
• Ethblack: es una dummy que indica si el individuo es de raza negra,
• Male: es una dummy que indica si el individuo es hombre,
• S: representa los años de educación,
• Sblack: es una variable creada multiplicando las dummies “S” y “Ethblack”
• MB: es la multiplicación de las dummies “Male” y “Ethblack”.

Trabaje con un nivel de significancia de 5%.


Especifique para cada hipótesis: i) La regresión con la que cree que es más pertinente
trabajar, ii) La(s) hipótesis nula(s), iii) la prueba estadística correspondiente y iv) qué
resultados/valores le permiten concluir que la hipótesis efectivamente se cumple o no.

A continuación, se especifican las hipótesis que desea probar:

a. Se puede decir que cada año adicional de educación genera un incremento de


11% en el salario por hora.

b. Los individuos de raza blanca ganan aproximadamente tres soles más por hora
que los de raza negra.

c. Se puede decir que el retorno a la educación es mayor para las personas de


raza negra.

d. El hecho de que un individuo de raza negra sea hombre contrarresta el castigo


en el salario generado por su raza (si bien un individuo de raza negra gana
menos que uno de raza blanca, un hombre de raza negra gana tanto como un
individuo promedio de raza blanca)

Además, sobre la base de la regresión 3, responda a las siguientes preguntas:

e. Si se trabaja con un nivel de significancia de 15%, represente gráficamente la


relación lineal entre el logaritmo del salario por hora y los años de educación
para individuos de raza blanca y para aquellos de raza negra.

f. Cómo cambiaría su respuesta si es que ahora se trabaja con un nivel de


significancia de 25%? ¿Es posible que a partir de cierto nivel educativo el
individuo promedio de raza negra supere en términos de salario al individuo
promedio de raza blanca?

g. Re exprese todas las hipótesis analizadas en función de la matriz de


restricciones R. Plantee las Hipótesis …â = `+ = T. Defina los órdenes de la
matriz y los vectores.

A continuación se muestran los resultados de las cinco regresiones estimadas:

Regresión 1
Variable dependiente: EARNINGS

Coeficiente Error Estándar T Prob.


Constante -13.20 3.23 -4.090 0.0001
Ethblack -3.50 1.84 -1.900 0.0576
S 2.43 0.23 10.570 0.0000

R2 0.178038
Prob (F) 0.000000

Regresión 2

Variable dependiente: LNEARNINGS

Coeficiente Error Estándar T Prob.


Constante 1.32 0.13 10.15 0.0000
Ethblack -0.16 0.07 -2.29 0.0272
S 0.11 0.01 11.00 0.0000

R2 0.213735
Prob (F) 0.000000

Regresión 3

Variable dependiente: LNEARNINGS

Coeficiente Error Estándar T Prob.


Constante 1.38 0.14 10.19 0.0000
Ethblack -0.71 0.44 -1.63 0.1044
S 0.1 0.01 10.81 0.0000
Sblack 0.04 0.03 1.27 0.2035

R2 0.216106
Prob (F) 0.000000

Regresión 4
Variable dependiente: LNEARNINGS

Coeficiente Error Estándar T Prob.


Constante 2.81 0.27 105.700 0.0000
Ethblack -0.29 0.11 -2.730 0.0065
MB 0.18 0.16 1.140 0.2561

R2 0.014904
Prob (F) 0.000000

Regresión 5

Variable dependiente: LNEARNINGS

Coeficiente Error Estándar T Prob.


Constante 2.65 0.04 74.670 0.0000
Male 0.33 0.05 6.880 0.0000
Ethblack -0.19 0.08 -2.430 0.0154

R2 0.092702
Prob (F) 0.000000

Solución

a. Se debe de trabajar con la regresión 2 porque al estar en logaritmos medirá el


cambio porcentual y porque el coeficiente asociado a “c” es el que mide el efecto
de los años de educación, sin importar la raza.

…â : +# = 11 (1)

…, : +# ≠ 11 (2)

+# − 11
Kß? ß = (3)
c√Y. "TTVT

11 − 11
Kß? ß = =0 (4)
0.01

No se rechaza …â .

b. Se debe de trabajar con la regresión 1 porque es la única que mide el cambio


absoluto en el salario.
…â : +, = −3 (5)

…, : +, ≠ −3 (6)

+# + 3
Kß? ß = (7)
c√Y. "TTVT

−0.49
Kß? ß = = −0.02 (8)
1.84

No se rechaza Ho.

c. Se debe de trabajar con la regresión 3:

Si Z√ℎhSR[´ = 1 → ln 5 = +â + +, + +# c + +2 c ∗ Z√ℎhSR[´ + Z (9)

ln 5 = +â + +, + +# c + +2 c ∗ 1 + Z (10)

ln 5 = +â + +, + (+# + +2 )c + Z (11)

cU Z√ℎhSR[´ = 0 → ln 5 = +â + +# c + Z (12)

+2 es el retorno adicional a los años de educación de las personas de raza


negra

…â : +2 ≤ 0 (13)

…, : +2 > 0 (14)

+2 − 0
Kß? ß = (15)
c√Y. "TTVT

Kß? ß = 1.27 (16)

No se rechaza Ho.

d. Se debe de trabajar con la regresión 4:


…â : +, + +# ≥ 0 (17)

…, : +, + +# < 0 (18)

(+, + +# ) − 0
Kß? ß =
s (19)
c√Y. "TTVT, # + c√Y. "TTVT# # + 2dVÜ(+, ; +# )

En este caso no se puede realizar la prueba porque no se conoce dVÜ(+, ; +# ).

e. Al 15% de significancia, cÆSR[´ no es significativo, pero todos los demás betas


lo son. Por lo tanto, si se grafica la relación entre el logaritmo del ingreso y los
años de educación para los individuos de raza blanca y los de raza negra, se
tendrán dos rectas paralelas, pero con diferente intercepto. La diferencia en el
intercepto estará dada por +, .

f. Si se sube el nivel de significancia, cambiaría la situación, pues todos los betas


serían significativos, con lo cual la diferencia en el rendimiento de la educación
entre personas de raza blanca y de raza negra se daría no sólo en el intercepto,
sino también en la pendiente de las rectas:

El retorno de la educación de los individuos de raza negra supera al de los


de raza blanca alrededor de los 17 años de educación

g. Se roma todas las hipótesis como si fueran con una regresión que contiene a
todas las variables cuyos betas se van a evaluar:

+â dV]Q√R]√Z
+, "√ℎhSR[´
+# °]{
+2 c
+} chSR[´
+~ àRSZ
+Ä àÆ

…â : `+ = Õ (20)

Las matrices correspondientes se muestren abajo. Se debe recordar que cada


fila de la matriz ` indica una restricción distinta; mientras que cada columna
indica si cada coeficiente se encuentra activo en cada una de las restricciones.
Es decir, la k-ésima columna indica sobre qué restricciones participa el
coeficiente +¡ .

0 0 0 1 0 0 0
0 0
`= 0 1 0 0 0 (21)
0 0 0 1 0 0 0
0 0 1 0 0 0 1

+ = [+â +, +# +2 +} +~ +Ä ] (22)

Õ = [11 − 3 0 0] (23)

Problema 2.19

Tres investigadores se encuentran analizando los determinantes de los ingresos por hora
con una data proveniente de una muestra de 104 trabajadores (todos varones) en EEUU
en 2006. Las variables incluidas son las siguientes:

• °]{: ingresos por hora en dólares


• "Y0[: años de educación
• I0ê: resultado del individuo en test de habilidad numérica
• %ZTh: resultado del individuo en test de habilidad verbal.
Los test verbales y numéricos tienen un puntaje que va de 0 a 100 y la correlación
entre ambos es de 0.81.
• ∞]°]{: Logaritmo natural de los ingresos por hora en dólares

El primer investigador estima la siguiente ecuación (las desviaciones estándar de los


estimadores aparecen abajo entre paréntesis y SCR es la suma de cuadrados residual):

∞]°]{ = 2.02 + 0.063 ∗ "Y0[ + 0.0044 ∗ I0ê + 0.0026 ∗ %ZTh; cd` = 2 000 (1)

(1.81) (0.007) (0.0011) (0.0010)

El investigador 2 define una nueva variable cd≠`", como el promedio entre I0ê y %ZTh.
Él estima la siguiente ecuación:
∞]°]{ = 1.72 + 0.050 ∗ "Y0[ + 0.0086 ∗ cd≠`"; `cc = 2 045 (2)

(1.78) (0.005) (0.0010)

El investigador 3 estima:

∞]°]{ = 2.02 + 0.063 ∗ "Y0[ + 0.0088 ∗ cd≠`" − 0.0018 ∗ %ZTh; `cc = 2 000 (3)

(1.81) (0.007) (0.0022) (0.0012)

a. Demostrar que la especificación del investigador 2 es una versión restringida de la


especificación del investigador 1 y plantear la restricción. Probar la restricción con
una prueba 8.

Solución

Se conoce que la variable cd≠`" puede reescribirse como:

%ZTh + I0ê
(4)
2
Por ende, el modelo 2 puede reescribirse como:

+# +#
∞] °]{ = +â + +, "Y0[ + %ZTh + I0ê + 4 (5)
2 2
Por otro lado, el modelo 1 es el siguiente:

∞] °]{ = +â + +, "Y0[ + +# %ZTh + +2 I0ê + 4 (6)

Aquí se puede notar que estimar el segundo modelo es equivalente a estimar el


primero con la restricción +# = +2 . Se conoce que la prueba 8 puede escribirse en
función de la suma de cuadrados residuales de los modelos:

SCR @ − SCR ã@ /Õ
F= (7)
SCR ã@ /] − ´

En este caso, sólo hay una restricción, por lo que Õ es 1. El número de


observaciones es 104, y el número de parámetros estimados es 4. Por ende, el 8
calculado sería:

2045 − 2000 100


8ß? ß = 6 = 2.25 (8)
2000 1
b. Demostrar que la especificación del investigador 3 es una versión re-
parametrizada de la especificación del investigador 1 (es decir, hallando la
ecuación 3 se puede llegar a los betas de la ecuación 1). Una vez hecho esto,
haga una prueba K para la restricción mostrada en la especificación del
investigador 2.

Solución

Se tiene el modelo 1:

∞] °]{ = +â + +, "Y0[ + +# %ZTh + +2 I0ê + 4 (9)

Además, se tiene el siguiente modelo en la ecuación 3:

∞] °]{ = +â + +, "Y0[ + +# c[VTZ + +2 %ZTh + 4 (10)

Como en la pregunta anterior, cd≠`" puede reescribirse como el promedio


entre %ZTh y I0ê:
+# +#
∞] °]{ = +â + +, "Y0[ + %ZTh + I0ê + +2 %ZTh + 4 (11)
2 2
Reordenando:
+# +#
∞] °]{ = +â + +, "Y0[ + + +2 %ZTh + I0ê + 4 (12)
2 2
De donde puede decirse que +# entre dos, más +2 del modelo 3 debería ser
igual al +# del modelo 1. Y +2 del modelo uno, debería de ser igual a +# del
modelo tres entre 2. Esto se puede comprobar comparando los valores de los
betas obtenidos en las estimaciones de cada modelo.

Problema 2.20

El Ministerio de Desarrollo e Inclusión Social (MIDIS) está interesado en determinar los


efectos que tiene el grado de instrucción y sexo del jefe de hogar sobre la decisión de enviar
a los hijos al colegio. Para esto, te entrega una base de datos a nivel de hogar que contiene:
(a) ‰c°cK"Id°‰: el número de integrantes del hogar en edad escolar que asiste a la
primaria o secundaria; (b) †`°à: adopta el valor de 1 si el jefe de hogar tiene instrucción
primaria, 0 de otro modo; (c) c"d: adopta el valor de 1 si el jefe de hogar tiene instrucción
secundaria, 0 de otro modo; (d) c_†: adopta el valor de 1 si el jefe de hogar tiene instrucción
superior, 0 de otro modo; y (e) c"!≠: adopta el valor de 1 si el jefe de hogar es hombre.

Sobre la base de esta información, el MIDIS está interesado en verificar las siguientes
hipótesis:

(i) “El acceso a la educación secundaria por parte del jefe de hogar tiene un impacto
positivo sobre la decisión de enviar a los hijos al colegio”.

(ii) “La decisión de enviar a los hijos al colegio de un hogar cuyo jefe tiene
instrucción superior será similar a la de un hogar cuyo jefe tiene sólo instrucción
secundaria”.
(iii) “La falta de acceso a instrucción secundaria por parte del jefe de hogar puede
ser compensada si es que el hogar en cuestión tiene un jefe mujer”.

a. Propón un modelo econométrico teórico que permita, sobre la base de información


provista, analizar cuáles son los determinantes de la decisión de enviar a los hijos al
colegio. Propón un conjunto de variables relevantes y discute su pertinencia. Discute
cuáles son los principales supuestos sobre los que se sustentan las técnicas de
estimación e inferencia que utilizarás.

Solución

Un modelo posible es el siguiente:

‰QUQ√* = +â + +, †`°à* + +# c"d* + +2 c_†* + +} c"!≠* + dV]√TVSZQ + 4* (1)

Los controles pueden ser una serie de variables diferentes que respondan a
características relevantes. Podrían ser:

a. Zona en donde vive (dummy urbano – rural)

b. Ingresos del hogar

c. Características de la vivienda (diversos controles - incluye acceso a


infraestructura)

d. El niño repitió uno o más años en el colegio (dummy)

e. Interacciones "Y0[ ∗ cZ6V

Los signos esperados de las variables principales son positivos para †`°à, c"d y
c_†. Para la variable c"!≠ va a depender de la percepción del alumno. En principio,
podría esperarse que tenga un efecto negativo por la misma definición de esta
variable dummy. Es decir, se puede esperar que en promedio las mujeres (como jefe
de hogar) estén más preocupadas por mandar al colegio a sus hijos. Sobre algunos
supuestos, los básicos son el supuesto de normalidad y homocedasticidad si se
busca hacer inferencia en muestras pequeñas.

b. Sobre la base del modelo teórico, plantea un conjunto de pruebas de hipótesis (y los
respectivos tests a utilizar) que permitan verificar las tres hipótesis que tiene el
MIDIS.

Solución

Primera hipótesis:

…â : +# > 0 (2)
…, : +# ≤ 0 (3)

Segunda hipótesis:

…â : +# = +2 (4)

…, : +# ≠ +2 (5)

Tercera hipótesis:

Una posible interpretación pasa por reconocer que el efecto de tener primaria y a la
vez ser mujer es equivalente al efecto de tener secundaria y ser hombre. En este
caso, es importante definir que el efecto de ser hombre impacta negativamente sobre
la asistencia al colegio. Así, podría compararse el impacto de ser jefe del hogar
hombre con secundaria versus solamente el hecho de ser mujer. Esto, no obstante,
es complicado por la definición de la variable dummy SEXO (1 si es hombre, 0 de
otro modo).

Para probar esta hipótesis, debería plantearse un modelo con interacciones:

‰QUQ√* = +â + +, †`°à* + +# c"d* + +2 c_†* + +} c"!≠* + +~ †`°à* c"!≠*


(6)
+ +Ä c"d* c"!≠* + dV]√TVSZQ + 4*

Si la persona es hombre con secundaria:

‰QUQ√* = +â + +# 1 + +} (1) + +Ä (1) + dV]√TVSZQ + 4* (7)

Si la persona es mujer con primaria:

‰QUQ√* = +â + +, + dV]√TVSZQ + 4* (8)

La hipótesis sería:

…â : +, = +# + +Ä (9)

…, : +, ≠ +# + +Ä (10)

Se asume que +Ä es negativo bajo la percepción de que ser hombre impacta


negativamente a la asistencia al colegio con respecto a si el jefe del hogar es mujer.
Ceteris paribus:

Asist
Sec + mujer

Sec + hombre = Prim + mujer


Problema 2.21

Una función de consumo que tiene diferentes propensiones marginales a consumir (PMC)
de corto y de largo plazo puede escribirse como:

ln dO = ö + +S])O + ΩS]dO:, + 4O (1)

En este modelo, la PMC de corto plazo es igual a +; mientras que la de largo plazo equivale
a W = +/(1 − Ω).

Un investigador decidió estimar este modelo; pero olvidó incluir la variable dependiente
rezagada en la regresión (dO:, ). Sin embargo, dijo que no importaba demasiado,
argumentando que muchos estudios previos afirmaban que este parámetro era igual a 0.9.
Los resultados que obtuvo de este modelo fueron los siguientes:

ln dO = 0.004132 + 0.12643S])O + 0O #
, ` = 0.67845 (2)
. (0.01560) . (0.03157) . .

Las desviaciones estándar se encuentran entre paréntesis.

a) Pruebe la hipótesis de que la PMC de largo plazo equivale a 1.

Solución

ô
La hipótesis nula en este caso es …â : W = = 1. Por tanto, lo que se debe probar
(,:â.≥)
es que:

…â : + = 0.1 (3)

El estadístico a utilizar es la prueba √:

+ − 0.1 0.12643 − 0.1


√= = = 0.8371872 (4)
cØ(+) 0.03157
Dado que se trata de una prueba a dos colas, el valor crítico del estadístico t es 1.96.
Como el √ calculado es menor al √ crítico al 95% de confianza, no se puede rechazar
la hipótesis nula de que la PMC de LP es igual a 1.

No obstante, el investigador no se siente totalmente seguro de este resultado. Ante


ello, estima el modelo de manera correcta. Los resultados obtenidos se presentan a
continuación:

ln dO = 0.003142 + 0.07495S])O + 0.9246S]dO:, + ZO , ` # = 0.999712 (5)

Donde la matriz de varianzas covarianzas asintóticas está dada por:

0.0008254 −0.0008207
%RT +; Ω = (6)
−0.0008207 0.0008173

b) Nuevamente, pruebe la hipótesis de que el PMC de largo plazo equivale a 1. Utilice


el método más adecuado tomando en cuenta la forma funcional de la hipótesis
planteada.

Solución

Ahora, no se conoce el valor de gamma; sino que se estima. La hipótesis nula es:

+
…â : W = =1 (7)
(1 − Ω)

La prueba a utilizar es la prueba de Wald:

Ì = ` y − Õ ′ %RT y ` y − Õ ~Ó # (™) (8)

En este caso, se trata de una única restricción; por lo que el estadístico se puede
expresar como:

#
` y −Õ
Ì= ~Ó # (™) (9)
%RT y

Por lo tanto, dado que una chi-cuadrado es una normal al cuadrado; el estadístico
se distribuye como una normal estándar bajo la hipótesis nula:

` y −Õ
£= ~I(0,1) (10)
cØ(y)

En este caso, ` y = W. De esta forma, lo que se debe calcular es el valor estimado


de la PMC de LP; así como su varianza. El valor estimado se halla fácilmente:
0.07495
W= = 0.99403 (11)
(1 − 0.9246)

Para obtener la varianza, se utiliza el hecho de que el parámetro W es una función


no lineal de los parámetros. Por ello, para calcular la varianza se utiliza el método
delta:

%RT W = Ô^ %RT +; Ω Ô (12)

1
1 + 0.0008254 −0.0008207 (1 − Ω)
%RT W = − (13)
(1 − Ω) (1 − Ω)# −0.0008207 0.0008173 +

(1 − Ω)#
0.0008254 −0.0008207 13.2626
%RT W = 13.2626 −13.1834 (14)
−0.0008207 0.0008173 −13.1834

0.0008254 −0.0008207 13.2626


%RT W = 13.2626 −13.1834 (15)
−0.0008207 0.0008173 −13.1834

%RT W = 13.2626# 0.0008254 + 13.1834# 0.0008173


(16)
− 2 13.2626 13.1834 −0.0008207

%RT W = 0.0002585 (17)

Reemplazando en la prueba anterior:

0.99403 − 1 0.99403 − 1
£= = = −0.37131 (18)
0.0002585 0.016078

Por lo tanto, no se puede rechazar que la PMC de LP sea igual a uno.

Otra manera de hacerlo es usando una prueba lineal. Si se plantea la hipótesis nula
como:

…â : + + Ω = 1 (19)

Se puede utilizar una prueba t:

++Ω−1
√= (20)
cØ(+ + Ω)

Para obtener la varianza:


%RT + + Ω = %RT + + %RT Ω + 2dVÜ +; Ω (21)

cØ + + Ω = 0.0008254 + 0.0008173 − 2(−0.0008207) = 0.00118 (22)

Por tanto, la prueba t queda expresada como:

++Ω−1 0.9246 + 0.07495 − 1


√= = = −0.38135 (23)
cØ(+ + Ω) 0.00118

Por lo tanto, no se puede rechazar la hipótesis nula.


3. Máxima Verosimilitud

Problema 3.1

¿Cuál es la intuición detrás del estimador de MV? ¿Cuál es el valor al que deben ser
igualadas las condiciones de primer y segundo orden de la maximización de MV?

Solución

El estimador de MV busca estimar el valor de los parámetros que mejor describen a la


distribución de la cual podrían provenir los datos observados. Es decir, aquellos parámetros
(correspondientes a una distribución determinada) que maximicen la probabilidad de
observar la data que efectivamente se observa. Por ejemplo, si la variable dependiente
proviene de una distribución normal, entonces se sabe que está caracterizada por una
media A y una varianza C # : estos dos serian los parámetros a estimar. Así, si los valores
que se observan son

) = {54,53,49,61,58} (1)

Entonces, es poco probable que se pueda obtener estas mismas observaciones si se


eligiera una distribución normal con media A = 100, ya que todos los datos observados
están muy por debajo de ese valor. No obstante, las probabilidades mejoran si se considera
una distribución normal con media A = 55. En conclusión, MV es una forma sistematizada
de encontrar valores para los parámetros de una distribución (previamente determinada)
que maximicen la probabilidad de observar la data que, efectivamente, se observa.

Dado que MV es en esencia un problema de maximización, la condición de primer orden


de dicho problema deber igualarse a cero (para asegurarnos de que se ha llegado a un
máximo o un mínimo). La condición de segundo orden debe corresponder a un valor
positivo, de esta manera se confirma que los parámetros hallados maximizan (y no
minimizan) la función.

Problema 3.2

¿Qué es la contribución individual a la verosimilitud y cuál es su relación con la función de


verosimilitud? ¿Cómo podría leerse esta contribución?

Solución

La contribución individual a la verosimilitud refleja cuánto es que una observación U


contribuye a la función de verosimilitud. La función de verosimilitud siempre puede
expresarse como la productoria de las contribuciones individuales. Cada una de estas
contribuciones resume las características de la observación U en particular (la cual puede
ser una persona). Por ejemplo, una persona puede tener un salario dado, una edad que
afecta ese salario y experiencia relevante para sustentar, o no, ese salario.
Problema 3.3

Enumere y comente cada una de las 4 propiedades de los estimadores de MV:

Solución

El estimador de Máxima Verosimilitud (MV) cumple con las siguientes propiedades


asintóticas:

i) Consistencia: èSUê y = yâ . Es decir, con un número suficientemente grande de


datos es posible encontrar el valor yâ poblacional.
ii) Normalidad asintótica: y ∼ I[yâ , ° yâ :, ] donde ° yâ =
# ^
−"[Y S]∞/Yyâ Yyâ ]. Como se observa, la varianza del estimador termina siendo
la inversa de la matriz de información, la cual proviene del Hessiano del
problema de maximización de la verosimilitud.
iii) Eficiencia asintótica: y es asintoticamente eficiente y alcanza la cota inferior
de Cramér-Rao de estimadores consistentes. En otras palabras, no existe otro
estimador con un "dà menor que el de y.
iv) Invarianza: El estimador de MV de la función Ωâ = [(yâ ) es [(y) si [(yâ ) es una
función continua y continuamente diferenciable. Es decir, el estimador es
invariable cuando se le aplica una función con estas características.

Problema 3.4

El estimador de Máxima Verosimilitud sólo debe de utilizarse cuando es imposible estimar


por MCO. Esto se debe a que, si bien MV es consistente, siempre presentará una mayor
varianza que el estimador MCO. Precisamente, según el teorema de Gauss-Markov, MCO
es el mejor estimador lineal insesgado (MELI).

Solución

Falso. El estimador de MV es preferible cuando se conoce la función de densidad


condicional de los datos, o cuando se puede hacer un supuesto sobre la distribución y se
puede encontrar el estimado de los parámetros que maximiza la probabilidad de ajustar la
distribución hipotetizada a la distribución de los datos. Además, estimar por MV permite
utilizar especificaciones no lineales, mientras que MCO sólo permite trabajar con modelos
lineales.

Por otro lado, en la medida que se especifique correctamente la función de verosimilitud,


los estimados serán consistentes y tendrán la menor varianza asintótica de todos los
estimadores consistentes. A esto último se le conoce como la cota inferior de Cramer-Rao.

Problema 3.5
Comente la siguiente afirmación: “Es lo mismo estimar un parámetro a partir de la función
de verosimilitud que a partir de la función de log-verosimilitud ya que el valor máximo de
ambas funciones, que se obtiene con el parámetro hallado, es el mismo”

Solución

Falso. La aplicación del logaritmo implica una transformación monotónica de la función en


cuestión, por lo tanto el valor del parámetro que maximiza ambas funciones es el mismo.
No obstante, el valor máximo de la función original y el logaritmo de la misma, evaluadas
en dicho parámetro, difiere.

Problema 3.6

El estimador de máxima verosimilitud busca maximizar la probabilidad de ocurrencia


conjunta de los valores observados de la variable dependiente (5) y devuelve un único
vector +Eu . Esto último, sin embargo, puede no ser posible si los valores observados de 5
provienen de distribuciones con medias distintas.

Solución

El estimador de máxima verosimilitud busca maximizar la probabilidad (conjunta) de que


los datos observados provengan de una distribución determinada.

Por tanto, si se observan datos de distintas distribuciones y se quiere hallar un estimado de


máxima verosimilitud con esos datos, se busca estimar los parámetros que caracterizarían
a la distribución que ajusta (podría contener) a las realizaciones observadas. En este caso,
el estimado no debería buscar ser similar a ninguna de las dos medias, sino de la media de
la (nueva) distribución que podría haber contenido a las realizaciones observadas.

En caso quisiera hallarse estimados de MV de las dos distribuciones de las que provienen
las observaciones, se debe proceder a estimar por separado usando realizaciones solo de
una u otra distribución (en caso sea posible identificar que vienen de alguna determinada
distribución).

Problema 3.7

El criterio de Máxima Verosimilitud consiste en encontrar el estimador yEu que maximiza la


probabilidad de ocurrencia de los datos, dada una distribución asumida para estos. Este
criterio, sin embargo, no funcionará si los valores observados de los datos (5* ) provienen
de una distribución Poisson algunos, y una Normal otros.

Solución

Verdadero. Por ejemplo, en un contexto de corte transversal, la función de verosimilitud


está conformada por las contribuciones de cada observación. En principio, uno asume que
cada una de estas contribuciones está caracterizada por la misma distribución. Por lo tanto,
si cada persona perteneciera a una distribución diferente, los parámetros asociados a tales
distribuciones serían distintos y no podrían estimarse debido a que se tendrían “]”
individuos con “]” distribuciones diferentes en el extremo, por lo que no hay suficientes
datos en el modelo para estimar “]” parámetros correspondientes a cada distribución. El
supuesto de UUY se aplica en este caso.

Problema 3.8

¿Qué sucede entre el estimador MCO y el de MV cuando se cumple el supuesto de


normalidad?

Solución

Bajo el supuesto de normalidad, ambos estimadores son equivalentes. Dada la función de


densidad de la distribución normal, al resolver las condiciones de primer orden del problema
de MV resulta en los estimadores MCO. Es decir, el estimador que maximiza la verosimilitud
considerando la función de densidad de la Normal es el estimador de MCO.

Si se considera perturbaciones distribuidas normalmente, entonces 5* | !* se distribuye


(también) normal con media !*^ + y varianza C # . De esta manera, la funcion de densidad de
5* | !* es:

exp [−qs 5* − !*^ + # ]


Ê(5* | !* ) = (1)
2ÙC #

Por otro lado, la función de log verosimilitud de una muestra independiente de ]


observaciones es igual al logaritmo de la función de densidad conjunta de las variables
aleatorias observadas. Asimismo, para una muestra aleatoria, la función de densidad
conjunta sería el producto del logaritmo de la función de densidad individual (contribución
individual):

] ] 1
S]∞ +, C # 5, ! = − S]C # − S]2Ù − # 5* − !*^ + # ] (2)
2 2 2C P

Lo cual puede expresarse en forma matricial como:


] ] 1
S]∞ +, C # 5, ! = − S]C # − S]2Ù − # [(5 − !+)′(5 − !+)] (3)
2 2 2C

] ] 1
S]∞ +, C # 5, ! = − S]C # − S]2Ù − # [5 ^ 5 − 25 ^ !+ + + ^ ! ^ !+] (4)
2 2 2C

Para hallar el valor de los parámetros que maximizan la verosimilitud, se busca el vector
gradiente derivando la función S]∞ respecto a + y C # .
Derivando respecto a +:
YS]∞ 1 Y 5 ^ 5 − 25 ^ !+ + + ^ ! ^ !+
=− # (5)
Y+ 2C Y+
YS]∞ 1
= − # [−2! ^ 5 + 2! ^ !+] (6)
Y+ 2C

YS]∞ 1
= # [! ^ 5 − ! ^ !+] (7)
Y+ C

Con el fin de maximizar, se iguala el gradiente a cero,


1
! ^ 5 − ! ^ !+ = 0 (8)
C#

! ^ !+ = ! ^ 5 (9)

+ = ! ^! :,
!′5 (10)

Derivando respecto a σ# :

YS]∞ ] 1
#
= − # − } [(5 − !+)′(5 − !+)] (11)
YC 2C 2C

Con el fin de maximizar, se iguala el gradiente a cero,


] 1 ^
− #
− } 5 − !+ 5 − !+ =0 (12)
2C 2C

1 ^
]
5 − !+ 5 − !+ = (13)
2C } 2C #

1 ^
5 − !+ 5 − !+ =] (14)
C#

Dado que ya se halló el valor de +, se reemplaza dicha expresión,


1 ^
5 − !+ 5 − !+ =] (15)
C#

1 ^
5−5 5−5 =] (16)
C#

1
Z′Z = ] (17)
C#

Z ^Z
C# = (18)
]

Problema 3.9
Asumiendo que las observaciones correspondientes a la variable dependiente provienen
de una función de distribución marginal normal, derive la normalidad asintótica del
estimador de MV.

Solución

Si las observaciones correspondientes a la variable dependiente provienen de una función


de distribución marginal normal, entonces el estimador que maximiza la verosimilitud de la
función equivale al estimador de Mínimos Cuadrados Ordinarios (MCO). Por tanto, basta
con derivar la normalidad asintótica del estimador MCO.

+EFG = ! ^ ! :,
! ^) (1)

Reemplazando ) se obtiene:

+EFG − + = ! ^ ! :,
! ^Ÿ (2)

Tras multiplicar por ] en ambos lados y reordenar en el lado derecho:

:,
1 ^ ] ^
](+EFG − +) = !! !Ÿ (3)
] ]

, :,
Por Ley de Grandes números: ! ^! → " ! ^! :,
a

a
Por TLC: ! ^ Ÿ → I[0, Cˆ# " ! ^ ! ]
a

Por tanto,

](+EFG − +) − Y → I[0, Cˆ# " ! ^ ! :,


] (4)

Problema 3.10

La variable 5* denota el número de veces un individuo U compra tabaco en un mes dado.


Suponga que cuenta con una muestra aleatoria de I individuos. La variable 6* es una
característica del individuo (por ejemplo, género). Si se asume que para un (6* , 5* ) tiene
una distribución de Poisson con parámetro ˜* = Z6è (+, + +# 6* ), la probabilidad
condicional de 5 dado 6 está dada por:
Z :¯/ ˜* ä/
† 5* = 5|6* = (1)
5* !
a) Escriba la función de verosimilitud de este modelo de regresión Poisson.

Solución

Contribución individual a la verosimilitud:

Z :¯/ ˜* ä/
∞* = (2)
5* !

Función de verosimilitud:

a a
Z :¯/ ˜* ä/
∞* = (3)
5* !
*b, *b,

b) Halle las condiciones de primer orden. Considerando que la distribución de


Poisson implica que " 5* |6* = ˜* , demuestre que las contribuciones del score
tienen media cero.

Solución

a
Z :¯/ ˜* ä/
∞V{∞ = ∞V{ (4)
5* !
*b,
a (Àq ˙Às ˚/ )ç/
Z :¥ Z (ôqrôs ./)ä/
∞V{∞ = ∞V{ (5)
5* !
*b,
a
ôq rôs ./
∞V{∞ = [−Z + 5* +, + +# !* − log (5* !)] (6)
*b,
a
¬SV{∞ ôq rôs ./
= [5* − Z ] (7)
¬+,
*b,
a
¬SV{∞ ôq rôs ./
= [6* 5* − 6* Z ] (8)
¬+#
*b,
Para demostrar que las contribuciones al Score son cero, se usará el dato que
provee el enunciado. Si se evalúa los estimadores en los parámetros y se
toman expectativas condicionales en !:
a
ôq rôs ./ ôq rôs ./
" 5* − Z = "(5* /6* ) − " Z 6* ) = ]˜* − ]˜*
(9)
*b,
=0
a
ôq rôs ./ ôq rôs ./
" 5* 6* − 6* Z |6* = "(5* /6* )6* − 6* " Z 6* )
*b, (10)
= 6* ˜* − 6* ˜* = 0
a
ôq rôs ./ ôq rôs ./
" 5* − Z = "(5* /6* ) − " Z 6* ) = ]˜* − ]˜*
(11)
*b,
=0

c) Derive una expresión para la matriz de información y úsela para determinar la


matriz de varianzas-covarianzas asintótica del estimador MV, y un estimador.

Solución

Se puede hacer el análisis para la U-ésima observación:

¬ # ln ∞ ôq rôs 9/
= −Z (12)
¬+, #

¬ # ln ∞
= −6*# Z ôq rôs 9/
(13)
¬+# #

¬ # ln ∞ ôq rôs 9/
= −6* Z (14)
¬+, ¬+#

Se debe recordar que la varianza es la inversa de la matriz de información.


Por tanto, primero se obtiene esta matriz; la cual es igual al negativo de la
esperanza del Hessiano:
§ §
ôq rôs 9/ ôq rôs 9/
− Z − 6* Z
*b, *b,
° +, ; +# = −" § § (15)
− 6* Z ôq rôs 9/
− 6*# Z ôq rôs 9/

*b, *b,
§ §
ôq rôs 9/ ôq rôs 9/
Z 6* Z
*b, *b,
° +, ; +# = § § (16)
6* Z ôq rôs 9/
6*# Z ôq rôs 9/

*b, *b,
Ahora, invirtiendo esta matriz para obtener la varianza:

§ § :,

˜* 6* ˜*
:, *b, *b, (17)
%RT +, ; +# = ° +, ; +# = § §

6* ˜* 6* # ˜*
*b, *b,
Problema 3.11

La UP ha decidido regalar un carro a cada alumno del salón de Econometría I (el salón está
compuesto por 14 alumnos). Cada alumno puede elegir el color del carro que recibe.
Considere que 5 es la variable aleatoria que denota el color de carro elegido, asuma que
esta puede tomar los siguientes valores: 5* = 0 si el carro elegido es rojo, 5* = 1 si el carro
elegido es negro, y 5* = 2 si el carro elegido es blanco.

a) Plantee la contribución individual (de un determinado alumno) a la verosimilitud, en


función de los posibles valores de la variable dependiente “color del carro” (5).

Solución

Si se tratara de un problema en que existieran dos posibilidades (éxito y fracaso), la


función de verosimilitud seria:

L˝ = πˇ 1 − π ,:ˇ
(1)

Dado que el problema plantea tres opciones (rojo, negro y blanco), la función de
verosimilitud, la función de verosimilitud es:

# $ % (2)
L˝ = Pr y = 0 Pr y = 1 Pr y = 2

1−y 2−y (3)


donde A = ; B = 2 − y y; C = 1 − A − B
2

b) Asuma que los 14 carros elegidos por los alumnos de la sección B del curso de
Econometría I tienen la siguiente distribución: 3 carros rojos, 7 carros negros y 4
carros blancos. Asimismo, considere que ö es la probabilidad de que un alumno elija
un auto rojo, + es la probabilidad de que un alumno elija un auto negro y W, la
probabilidad de que un alumno elija un auto blanco. A partir de la contribución
individual hallada en (i), plantee la función de verosimilitud y halle el valor de los
parámetros que maximizan dicha función.

Solución

∞ = ö a)*+*, + aó-.)*, W a/01ó2*, (4)

(5)
∞ = ö a)*+*, + aó-.)*, (1 − ö − +),}: a)*+*,: aó-.)*,
(6)
∞ = ö 2 + ± (1 − ö − +)}

(7)
∞]∞ = 3∞]ö + 7∞]+ + 4 ∞](1 − ö − +)

¬∞]∞ 3 4 (8)
≡ − =0
¬ö ö (1 − ö − +)

¬∞]∞ 7 4 (9)
≡ − =0
¬+ + (1 − ö − +)
2 ± ±
= ;+= ö (10)
4 ô 2

3 4 (11)
=
ö (1 − ö − ± ö)
2

3 4 (12)
=
ö (1 − ,â ö)
2

10 (13)
3 1 − ö = 4ö
3

(14)
3 − 10ö = 4ö

(15)
3 = 14ö

2 ± }
ö∗ = ; +∗ = ; W∗ = (16)
,} ,} ,}

Problema 3.12

Se considera el siguiente modelo:

5|! ∼ I(!+, 5) (1)

Donde 5 es una matriz simétrica conocida de dimensión I6I.

a) Muestre que el estimador de MV de + resuelve el siguiente problema:

+ = RT{êU]l 5 − !h ^ 5 :, (5 − !h) (2)

Solución
Se parte asumiendo que 5 proviene de una distribución normal, tal que 5 ∼
I(A, 6) . La función de densidad normal multivariada seria:

1 1
7 Z6è − (5 − A)′6 :, (5 − A)
q (3)
2Ù s 6 s
2

Donde è es la dimensión de 5 , y |6| es el determinante de 6 . Con esta


expresión, se halla la función de verosimilitud ([ es una constante):

1
∞ h = [ − (5 − !h)′5 :, (5 − !h) (4)
2
Ya que es una constante, maximizar la función L b equivale a maximizar el
segundo término, (5 − !h)′5 :, (5 − !h), que es justamente lo que se pedía
demostrar.

b) Muestre que:

+ = ! ^ 5 :, ! :,
!′5 :, 5 (5)

Solución

Partiendo del hecho de que el estimador resulta del siguiente problema:

+ = RT{êU]l 5 − !h ^ 5 :, (5 − !h) (6)

Se halla la condición de primer orden (CPO):

:q
−2! ^9 5 + 2! ^ 5 :, !+ = 0 (7)

Despejando +, se obtiene la expresión planteada:

+ = ! ^ 5 :, ! :,
!′5 :, 5 (8)

c) Halle la varianza de +.

Solución

Ya que + = ! ^ 5 :, ! :,
!′5 :, 5, se extrae la varianza de los dos lados de la
expresión:

%RT(+|!) = ! ^ 5 :, ! :,
!′5 :, %RT(5|!)5 :, ! ! ^ 5 :, ! :, (9)

y dado que %RT 5 ! = 5:


%RT(+|!) = ! ^ 5 :, ! :, (10)

d) ¿+ es consistente? ¿Es insesgado?

Solución

Dado que + es el estimador de MV, cuenta con las cuatro propiedades de


ese tipo de estimadores (consistencia, normalidad asintótica, eficiencia
asintótica e invarianza) y es, por tanto, consistente. Más aún, + tambien es
insesgado, ya que:

"(+|!) = ! ^ 5 :, ! :,
!′5 :, "(5|!) (11)

"(+|!) = ! ^ 5 :, ! :,
!′5 :, !+ (12)

"(+|!) = + ()

e) Provea la expresión de la matriz de información de Fisher. ¿+ es el estimador


insesgado de menor varianza (EIMV)?

Solución

Ya que 5 es conocido, la matriz de información de Fisher es:

1 Y#∞ + 1 ^ :,
° + =" − =" − !5 ! (13)
I Y+Y+′ I

No obstante, por la ley de expectativas iteradas (LEI),

%RT(+) = "[ ! ^ 5 :, ! :,
] (14)

Lo que implica que + generalmente no alcanza la Cota Inferior de Cramér-


Rao ya que generalmente "[ ! ^ 5 :, ! :, ] ≠ [" ! ^ 5 :, ! ]:, .

No obstante, en el caso particular en el que ! es no-estocástico, β si alcanza


la cota de Cramér-Rao y es, por tanto, el estimador insesgado de menor
varianza.

f) Ahora considere que el modelo verdadero sigue siendo el mismo

5|! ∼ I(!+, 5) (15)


Pero que 5 es desconocido y, por tanto, se propone estimar por Maxima
Verosimilitud por medio de un pseudo-modelo:

5|! ∼ I(!+, 6) (16)

Donde 6 es una matriz simétrica de I6I distinta a 5 . Halle la expresión


para el estimador de MV y su varianza. Discuta.

Solución

En este caso, el estimador MV sería:

+ = ! ^ 6 :, ! :,
!′6 :, 5 (17)

el cual es insesgado y consistente. No obstante, su varianza:

:q
%RT + ! = ! ^ 6 :, ! :,
! ^; %RT 5 ! 6 :, ! ! ^ 6 :, ! :, (18)

%RT(+|!) = ! ^ 6 :, ! :,
!′6 :, 56 :, ! ! ^ 6 :, ! :, (19)

:q
%RT + ! = ! ^ 6 :, ! :, ! ^; 56 :, ! ! ^ 6 :, ! :,
> ! ^ 6 :, ! :,
(20)
= %RT + !
Esta es la fórmula de White. Es un ejemplo de pseudo-verosimilitud en la
que se logra obtener consistencia, pero se debe considerar la estructura
(errónea) de las perturbaciones con el fin de obtener errores estándares
adecuados para la inferencia.

Problema 3.13

Considere el siguiente modelo:

5* = 6*^ + + Z6è (6* ′Ω)0* (1)

en el cual las observaciones son UUY y 0* |6* ∼ I(0,1). Además, asuma que + y Ω son los
estimadores de MV de + y Ω, respectivamente.

a) Escriba la función de log-verosimilitud (condicional a 6* , … , 6a ). ¿Cómo


estimaría + y Ω en la práctica?

Solución

§
1 1 5* − 6*^ h #
∞ h, [ = S] Z6è − (2)
2ÙZ6è (6* ′[) 2 Z6è 26*^ [
*b,
Para hallar los estimados, se buscaría maximizar la función de verosimilitud
respecto a h y [, haciendo uso de una rutina de maximización como el método
iterativo de Newton-Raphson.

b) Escriba la condición de primer orden del problema de maximización respecto


al argumento + y muestre como ello implica que + puede ser escrito como una
función de las observaciones y de Ω. Brinde una interpretación de + distinta a
la propuesta.

Partiendo de la función de log-verosimilitud:

§
1 5* − 6*^ h #
∞ h, [ = d − 6*^ [ + (3)
2 Z6è 26*^ [
*b,

Se halla la CPO:

§
Y∞ h, [ 5* − 6*^ h #
= 6 (4)
Y+ Z6è 26*^ [ *
*b,

Por lo tanto,

§ #
Y∞ +, Ω 5* − 6*^ +
= 6 (5)
Y+ Z6è 26*^ Ω *
*b,

Lo cual conlleva a:

§ :, §
1 1
+= 66′ 65 (6)
Z6è 26*^ Ω * * Z6è 26*^ Ω * *
*b, *b,

Este es el estimador de mínimos cuadrados generalizados factibles (MCGF)


de +, donde C< = Z6è 26*^ [

c) Brinde la expresión correspondiente a la varianza asintótica de + usando el


hecho de que + es el estimador de MV.

Solución

La derivada cruzada:

§
Y # ∞ h, [
= −2 5* − 6*^ h Z6è −26*^ [ 6* 6*^ (7)
Y+YΩ′
*b,
Por lo cual
Y # ∞ +, Ω
" =0 (8)
Y+YΩ′

ya que " 0* 6* ) = 0.

Por otro lado, la segunda derivada respecto a +:

§
Y # ∞ h, [ 1
=− 6 6^ (9)
Y+Y+′ Z6è −26*^ [ * *
*b,

Por lo tanto, la varianza asintótica de + esta dada por la siguiente expresión:


:,
,
" 6* 6*^ (10)
¥9Î :#9/= >
I

Esto corresponde a la varianza asintótica del estimador factible de mínimos


cuadrados generalizados (MCG). Esto no debe llamar la atención ya que se
conoce que los estimadores MCG y MCGF son asintóticamente equivalentes.

Problema 3.14

Se asume el siguiente modelo del logaritmo de los salarios y años de educación:

5* = +6* + Ω£* + 0* (1)

6* = W£* + Ü* (2)

en el cual 5* , U = 1 … I, es el logaritmo de salario del individuo U, 6* es su nivel educativo y


z˝ , su coeficiente intelectual. Todas las variables son escalares. Se ha omitido los términos
constantes por simplicidad. (5* , 6* , £* ), U = 1 … I son UUY, Ü* es independiente en media
respecto a z˝ , y u˝ es independiente en media respecto a 6* y £* .

i) Halle el efecto (marginal) del CI en los salarios:

Y" 5* £*
A +, Ω, W = (3)
Y£*

Muestre que no depende de £* .

Solución

Reemplazando la ecuación de educación en la ecuación de salarios se


obtiene que
5* = +W + Ω £* + +Ü* + 0* (4)

Dado que 0* y Ü* son independientes en mendia respecto a £* ,

"(5* |£* ) = +W + Ω £* (5)

De manera que:

A +, Ω, W = +W + Ω (6)

ii) Se quiere probar …â : A = 0 vs. …, : A ≠ 0. Para ello, se dispone de los


estimados MCO +,Ω y W, y su matriz de varianza-covarianza, la cual se
asume diagonal:

C ô# 0 0
6= 0 C #> 0 (7)
0 0 C B#

Construya el estadístico de Wald para probar la hipótesis planteada.

Solución

Dado que Ü* es independiente en media respecto a z˝ , y u˝ es independiente


en media respecto a 6* y £* , todos los estimados MCO +,Ω y W son
consistentes.

De esta manera, se obtiene:

+ +
I Ω − Ω I 0, èSUê I6 (8)
µ §→ñ
W W

Sabiendo que se cumple que:

YA YA YA
= W 1 + (9)
Y+ YΩ YW

Y aplicando el método delta:

W
I(A − A) I 0, W 1 + èSUê I6 1 (10)
µ §→ñ +
Se deriva que el estadístico de Wald es:
#
+W + Ω
Ì= (11)
W # C ô# + C #> + + # C B#

iii) Indique cual es la distribución asintótica del estadístico de Wald bajo …â .

Solución

Bajo …â , Ì se distribuye Ó,# .

iv) ¿Cómo probaría Ud. …â : A = 0 vs. …, : A < 0?

Solución

Para probar la hipótesis …â : A = 0 vs. H, : Δ < 0, se debe considerar una


prueba de una sola cola. Se puede usar el hecho de que si A = 0, entonces:

+W + Ω
à= ∼ I(0,1)
(12)
W # C ô# + C #> + + # C B#

De esta manera, con un nivel de confianza de 5%, se rechazaría la …â si à <


−1.64.

Problema 3.15

Pedro inventa un juego, similar al “Bingo”, que consta de una caja que contiene canicas,
donde cada canica representa a un número. Los números considerados como elegibles son
consecutivos y pertenecen a un rango determinado. En particular, Pedro decide incluir
números consecutivos, no repetidos, contenidos en el rango [5, 15]. Quien dirige el juego
elige en cada ronda una canica de la caja a manera de muestreo con reemplazo, es decir,
en cada ronda se elige una canica y anuncia el número correspondiente, tras lo cual se
vuelve a incluir dicha canica en el “pool” de canicas elegibles. Cada jugador tiene una cartilla
con números. Un jugador puede marcar un número en su cartilla si quien dirige el juego
anuncia dicho número como elegido en alguna determinada ronda. Quien llene la cartilla
primero gana.

Juan, muy ansioso, desea descifrar cómo ganar el juego antes de que Pedro le explique
cómo jugar. Juan deduce que todas las canicas tienen la misma probabilidad de ser
elegidas y que lo único que necesita para determinar dicha probabilidad es el intervalo al
que pertenecen los números elegibles en el juego. Así, logra descifrar que la distribución
de números elegibles corresponde a una distribución uniforme y recuerda que los
parámetros característicos de este tipo de distribución son el límite inferior y el límite
superior del rango al que pertenecen los números.

Considerando esta información:

a) Caracterice la función de densidad que representa el juego en cuestión.


Solución

El juego descrito corresponde a realizaciones que provienen de una distribución


uniforme. Gráficamente:

Por tanto, la función de densidad consta de tres segmentos:

Ê 5O , + = 0 QU 5O < +, (1)

1
Ê 5O , + = QU +, ≤ 5O ≤ +# (2)
+# − +,

Ê 5O , + = 0 QU 5O > +# (3)

b) Plantee la función de log verosimilitud de dicho problema.

Solución

Los parámetros que caracterizan el problema son +, y +# .

Ya que, como se indicó en el enunciado todas las observaciones tienen la misma


probabilidad de ocurrencia, por lo que la función de verosimilitud es:

1
∞= (4)
+# − +,

1
∞= a
(5)
+# − +,

Por tanto, la función de log-verosimilitud sería:

SV{∞ 5, + = −]SV{(+# − +, ) (6)

c) Halle el valor estimado para los parámetros que caracterizan la distribución y


explique en qué difiere el procedimiento utilizado para estimar los parámetros,
de lo que se habría aplicado si los números de las canicas provinieran de una
distribución normal.
Solución

En este caso, la manera de maximizar la verosimilitud es que la diferencia (+# −


+, ) sea la menor posible. Así, se busca que +, sea lo mayor posible y +# sea lo
menor posible. No obstante, +, no puede ser mayor que el menor valor
observado de 5O ni +# menor al mayor valor observado de 5O , ya que de otro
modo la función de verosimilitud sería igual a 0. Por tanto, los estimadores de
MV deben ser:

+, = min (5O ) (7)

+# = max(5O ) (8)

Por supuesto, el procedimiento aplicado difiere al que se hubiera aplicado si


provinieran de una distribución normal. En ese caso, se habrían hallado las
condiciones de primer orden e igualado a cero. No obstante, no se puede
proceder de esa manera en este caso.

d) ¿Son los estimados consistentes? Explique y justifique (intuitivamente) cual es


la relación entre los estimados y los verdaderos parámetros.

Por la forma como se encuentra definida una distribución uniforme, siempre los
valores de 5O estarán contenidos entre +, y +# . Asi, se cumplira que +, ≥ +, y
+# ≤ +# . Sin embargo, ambos estitmados son consistentes. De manera intuitiva,
ello se justifica por el hecho de que conforme se incremente el tamaño de la
muestra, los valores observados de 5O irán rellenando el espacio entre +, y +# .

Problema 3.16

Demuestre que la función de log-verosimilitud para el modelo lineal general con errores
distribuidos normalmente (evaluada en los estimados de + y C # que lo maximizan) es una
función creciente del ` # del modelo.

Solución

La función de log-verosimilitud cuando los errores se distribuyen normalmente es:

a
1 1 1
ln ∞ = − S] 2Ù − S] C # − # 5* − 6′* + #
(1)
2 2 2C
*b,

Realizando el proceso de maximización, se sabe que los estimados obtenidos para los
parámetros son:
a #
:,
6* 5* # Z′Z *b, 5* − 6′* +
+ = !′! ! ^) = C = = (2)
6* # I I
La función de log-verosimilitud evaluada en estos parámetros resulta en:

a
] ] Z′Z I #
ln ∞ = − S] 2Ù − S] − a #
5* − 6′* + (3)
2 2 I 2 *b, 5* − 6′* +
*b,

] Z′Z
ln ∞ = − 1 + S] 2Ù + S] (4)
2 I
Recordando que el ` # = 1 − Z ^ Z/cdK; la expresión anterior queda como:

] cdK 1 − ` #
ln ∞ = − 1 + S] 2Ù + S] (5)
2 I

] cdK
ln ∞ = − 1 + S] 2Ù + S] + S] 1 − ` # (6)
2 I
Derivando con respecto al ` # :

¬ ln ∞ ] 1
#
=− −1 > 0 (7)
¬` 2 1 − `#

Problema 3.17

Asuma que la variable 6 posee la siguiente función de distribución:

À
Ê 6 = ö+6 ô:, Z :49 ; 6 ≥ 0, ö, + > 0 (1)

a) Obtenga la función de log-verosimilitud para una muestra de n observaciones.


Indique claramente cuál es la contribución individual a la verosimilitud.

Solución

La contribución individual a la verosimilitud está dada por:

À
S* = ö+6* ô:, Z :49/ (2)

La función de verosimilitud es:

a a
À
∞= S* = ö+6* ô:, Z :49/ (3)
*b, *b,
Aplicando logaritmos:
a

ln ∞ = S] ö + S] + + + − 1 S] 6* − ö6* ô (4)
*b,
a a

ln ∞ = ] ∗ S] ö + ] ∗ S] + + + − 1 S] 6* − ö 6* ô (5)
*b, *b,
b) Halle las condiciones de primer orden y obtenga una ecuación implícita para +.

Solución

De la función de log-verosimilitud se obtienen las CPO:

a
¬ ln ∞ ] ]
= − 6* ô = 0 → ö = a ô
(6)
¬ö ö *b, 6*
*b,
a a
¬ ln ∞ ]
= + S] 6* − ö S] 6* 6* ô = 0 (7)
¬+ +
*b, *b,

Reemplazando el primer resultado en la segunda ecuación, se obtiene la ecuación


implícita para +:

a a
] ]
+ S] 6* − a ô
S] 6* 6* ô = 0 (8)
+ *b, 6* *b,
*b,

c) Encuentre las matriz de segundas derivadas de la función log-verosímil con


respecto a ö y +. ¿Cómo obtendría la matriz de covarianzas si se tuvieran los
estimadores?

Solución

Las segundas derivadas serían:

¬ # ln ∞ ]
=− # (9)
¬ö # ö
a
¬ # ln ∞ ]
=− #−ö S] 6* # 6* ô (10)
¬+ # +
*b,
a
#
¬ ln ∞
=− S] 6* 6* ô (11)
¬ö¬+
*b,

De esta forma, el Hessiano queda como:


a
]
− # − S] 6* 6* ô
ö
*b,
…= a a (12)
]
− S] 6* 6* ô − #−ö S] 6* # 6* ô
+
*b, *b,
Si se tuvieran los estimadores, bastaría evaluar el Hessiano en dichos valores,
hallar el valor esperado (hasta aquí la matriz de información) y finalmente
invertirla.

d) Demuestre que ö+dVÜ ln 6; 6 ô = 1. (Ayuda: Recuerde que el valor esperado del


score es cero).

Solución

Partiendo de que el valor esperado del Q[VTZ es cero:

a
¬ ln ∞ ] 1
" = − 6* ô = 0 → " 6* ô = (13)
¬ö ö ö
*b,
a a
¬ ln ∞ ]
" = +" S] 6* − ö" S] 6* 6* ô = 0 (14)
¬+ +
*b, *b,

Dividiendo entre ]:

a a
1 " *b, S] 6*
+ − ö" S] 6* 6* ô /] = 0 (15)
+ ]
*b,

Utilizando el hecho de que cada término de la sumatoria tiene la misma


esperanza; y reemplazando el primer resultado obtenido se obtiene que:

1 " S] 6* 6* ô
+ " S] 6* − =0 (16)
+ " 6* ô

Multiplicando todo por " 6* ô se obtiene:

" 6* ô " 6* ô
+ " 6* ô " S] 6* − " S] 6* 6* ô = 0 →
+ + (17)
= " S] 6* 6* ô − " 6* ô " S] 6*
1
= dVÜ ln 6; 6 ô (18)
ö+

Problema 3.18

Asumiendo una función de distribución normal univariada; un investigador decide


, ô
reparametrizar la función de verosimilitud en términos de E = yW= . Encuentre los
v v
estimadores de máxima verosimilitud para E y W; y obtenga la matriz de covarianzas de
dichos estimados.
Solución

La función log-verosímil para el modelo lineal general es:

a
1 1 1
ln ∞ = − S] 2Ù − S] C # − # 5* − 6′* + # (1)
2 2 2C
*b,

Reparametrizando E = 1/C y W = (+/C) se obtiene:

a
1 1 1
ln ∞ = − S] 2Ù + S] E # − E5* − 6′* W # (2)
2 2 2
*b,

Las condiciones de primer orden son ahora:

a
¬ ln ∞
= 6* E5* − 6′* W = 0 (3)
¬W
*b,
a
¬ ln ∞ ]
= − 5* E5* − 6′* W = 0 (4)
¬E E
*b,

De la primera condición se puede obtener el estimado para W:

a
*b, 6* 5* :,
W=E a #
= E !′! ! ^ ) = Eh (5)
*b, 6*

Reemplazando en la segunda condición:

a
]
= 5* E5* − 6′* Eh (6)
E
*b,
a
]
=E 5* 5* − 6′* h (7)
E
*b,
a
]
E# = ] 5* 5* − 6′* h = (8)
Z′Z
*b,

Sustituyendo en el resultado obtenido para W se obtiene:

a ,/#

W= ] 5* 5* − 6′* h ∗h (9)
*b,

Las segundas derivadas de este modelo son:


a
¬ # ln ∞
=− 6* 6′* (10)
¬W #
*b,
a
¬ # ln ∞ ]
#
=− #− 5*# (11)
¬E E
*b,
a
¬ # ln ∞
= 6* 5* (12)
¬W¬E
*b,

Luego, se debe obtener el esperado de cada una de las segundas derivadas. Se debe tomar
9/= B , ,
en cuenta que " 5* |6* = 6*^ h = . Por lo tanto, " 5* # |6* = W′6* + (dado que los
F Fs Fs
términos cruzados son cero). Agregando para todos los términos se reemplaza en la
segunda derivada con respecto a E. En términos matriciales, la matriz de información se
construye a partir de:

¬ # ln ∞
" |! = −!′! (13)
¬W #

¬ # ln ∞ 2] ]
" |! = − # − # W′!′!W (14)
¬E # E E

¬ # ln ∞ 1
" |! = !′!W (15)
¬W¬E E

De esta forma, la matriz de covarianzas es la inversa del negativo de la matriz de


información; es decir:

1
!′! − !′!W
%RT(W, E) = E (16)
1 2] ]
− !′!W − W′!′!W
E E# E#

Problema 3.19

Considere una muestra (de ] observaciones) obtenida a partir de una distribución normal
multivariada con media A = A, ; A# ; … ; AE y matriz de covarianzas escalar (C # °). La
función log-verosímil es de la forma:

a
−]à ]à 1
ln ∞ = ln 2Ù — ln C # − # 5* − A ′ 5* − A (1)
2 2 2C
*b,
a) Obtenga los estimadores para A y C # .

Solución

Las CPO son:


a
¬ ln ∞ 1
=− # −2 5* − A = 0 (2)
¬A 2C
*b,
a
¬ ln ∞ ]à 1
#
=− #− } 5* − A ′ 5* − A = 0 (3)
¬C 2C 2C
*b,

De la primera ecuación se puede observar que el estimador para A es el vector


de medias para cada variable. Por otro lado, en la segunda ecuación, cada
término de la suma es E #
¶b, 5*¶ − A¶ . Insertando el hecho de que los
estimadores de A¶ son los promedios muestrales se obtiene:

a E a E
E #
# *b, ¶b,5*¶ − 5¶ 1 1 #
1
C = = 5*¶ − 5¶ = C #¶ (4)
]à à ] à
¶b, *b, ¶b,

b) Derive las condiciones de segundo orden. Asimismo, halle la matriz de


covarianzas estimada para A y C # .

Solución

Las segundas derivadas son:


a
¬ # ln ∞ 1
= # −° (5)
¬A¬A′ C
*b,
a
¬ # ln ∞ 1
= −2 5* − A (6)
¬A¬C # 2C }
*b,
a
¬ # ln ∞ ]à 1
# #
= }
− Ä 5* − A ′ 5* − A (7)
¬C ¬C 2C C
*b,

El esperado de estas derivadas es:


¬ # ln ∞ ]
" =− ° (8)
¬A¬A′ C#

¬ # ln ∞
" =0 (9)
¬A¬C #
a
¬ # ln ∞ ]à 1 ]à ]à ]à
" # #
= }
− Ä àC # = }
− } =− } (10)
¬C ¬C 2C C 2C C C
*b,

Así, la matriz de covarianzas será la inversa del negativo de la matriz de


información; es decir:

] :,
° 0
C#
%RT(A, C # ) = ]à
(11)
0
C}
4. Errores no esféricos

Problema 4.1

¿Cómo es la varianza del estimador MCO cuando la matriz de varianzas y covarianzas no


es escalar?

Solución

El problema de una matriz de varianzas y covarianzas no escalar es que ahora el estimador


MCO, si bien sigue siendo insesgado y consistente, ya no es eficiente; es decir, ya no tiene
la menor varianza. Asumiendo que " 44 ^ = C # Ω, ahora la varianza de MCO es:

^
%RT + = " + − "(+) + − " + |! (1)

:,
%RT + = " !′! !′4 ! ^! :,
! ^ 4 ^ |! (2)

:,
%RT + = " !′! ! ^ 44 ^ ! ! ^ ! :,
|! (3)

:,
%RT + = !′! !′" 44 ^ |! ! ! ^ ! :, (4)

%RT + = C # !′! :,
! ^ Ω! ! ^ ! :,
> %RT + = C # !′! :, (5)

Claramente, la varianza de MCO con heterocedasticidad (izquierda) es mayor que en el


caso de homocedasticidad (derecha).

Problema 4.2

¿Qué se debe hacer para obtener un estimador eficiente cuando la matriz de varianzas y
covarianzas no es escalar?

Solución

Lo que se debe hacer el transformar el modelo y aplicar MCO al modelo transformado. A


ello, se le denomina Mínimos Cuadrados Generalizados (MCG). Se supone el siguiente
modelo:

) = !+ + 4 (1)

donde " 44 ^ = C # Ω. Para transformar el modelo, se debe multiplicar por una matriz,
llámese † que haga que el nuevo error tenga una matriz de varianzas y covarianzas escalar:
†) = †!+ + †4 (2)

Donde ahora " †4 †4 ^ = " †44 ^ † = †′" 44 ^ † = C # †′ΩP. Para que esta matriz sea
escalar; se debe cumplir que: † ^ ΩP = °; de donde se obtiene que : ††′ = Ω:, . Para el lector
que tenga conocimientos de álgebra matricial, † es la matriz que contiene a los vectores
propios ortonormales de Ω.

De este modo, aplicando MCO al nuevo modelo transformado, se obtiene el estimador por
MCG:

:,
+EFI = †! ′†! †! ′†) (3)

:, (4)
+EFI = !′†′†! !′†′†)

+EFI = !′Ω:, ! :,
!′Ω:, ) (5)

Problema 4.3

Demuestre que el estimador +EFI minimiza la suma de cuadrados generalizada siguiente:

() − !+)′ Ω:, () − !+) (1)

Solución

Partiendo de lo mencionado, se debe:

àU] () − ! + )′ Ω:, () − ! + ) (2)

àU] )′Ω:, ) − + ′!′Ω:, ) − )′Ω:, !+ + + ′!′Ω:, !+ (3)

Derivando con respecto a + :

−!′Ω:, ) − )′Ω:, ! ′ + 2!′Ω:, !+ = ∅ (4)

−2!′Ω:, ) + 2!′Ω:, !+ = ∅ (5)

+ = !′Ω:, ! :,
!′Ω:, ) (6)
Problema 4.4

Demuestre que el estimador +EFI es el estimador más eficiente en presencia de


heterocedasticidad.

Solución

En primer lugar, se tiene el siguiente modelo:

) = !+ + A (1)

Donde " AA ^ |! = C # Ω. Pre-multiplicando el modelo por la matriz † que convierte a los


errores en esféricos, se obtiene:

†) = †!+ + †A (2)

)∗ = ! ∗+ + 4 (3)

Donde ahora " 44′|! = " †AA′†′|! = †C # Ω† ^ = C # I. Por tanto, se cumple que †Ω† ^ = °;
es decir, que Ω:, = †′†.

De esta forma, el +EFI puede expresarse como:

+ = !′Ω:, ! :,
!′Ω:, ) = ! ∗ ′! ∗ :,
! ∗ ′) ∗ (4)

Para analizar la eficiencia, se debe hallar la varianza de +EFI . Se sabe que este estimador
es insesgado (tarea) dado que las perturbaciones no esféricas sólo afectan la eficiencia del
estimador, mas no le incluyen un sesgo.

Por tanto, la varianza se puede expresar como:

%RT +EFI |! = C # ! ∗ ′! ∗ :,
= C # !′†′†! :, (5)

%RT +EFI |! = C # !′Ω:, ! :, (6)

Se define otro estimador lineal insesgado: + = ‰):

" +|! = ‰! ∗ + + ‰" 4|! (7)

Para que sea insesgado, se debe cumplir que ‰! ∗ = ‰†! = °.

La varianza de este estimador resulta ser:


%RT +|! = " ‰44′‰ = C # ‰‰′ (8)

Ahora, se define una matriz Ø tal que: Ø = ‰ − ! ∗ ′! ∗ :,


! ∗^ = ‰ − !′Ω:, ! :,
!′†′

De esta forma, la varianza del nuevo estimador lineal insesgado puede escribirse como:

%RT +|! = C # Ø + !′Ω:, ! :,


!′†′ Ø + !′Ω:, ! :,
!′†′ ′ (9)

%RT +|! = C # ØØ′ + ؆! !′Ω:, ! :, + !′Ω:, ! :,


!′†′Ø′
(10)
+ !′Ω:, ! :, !′†′†! !′Ω:, ! :,

Los términos cruzados se anulan, puesto que, reemplazando D:

‰†! !′Ω:, ! :,
− !′Ω:, ! :,
!′†′†! !′Ω:, ! :,
(11)

° !′Ω:, ! :,
− !′Ω:, ! :,
!′Ω:, ! !′Ω:, ! :,
(12)

!′Ω:, ! :,
− !′Ω:, ! :,
=∅ (13)

De esta forma:

%RT +|! = C # ØØ′ + !′Ω:, ! :,


!′†′†! !′Ω:, ! :, (14)

%RT +|! = C # ØØ′ + !′Ω:, ! :,


!′Ω:, ! !′Ω:, ! :, (15)

%RT +|! = C # ØØ′ + !′Ω:, ! :, (16)

%RT +|! = C # ØØ ^ + C # !′Ω:, ! :,


(17)

%RT +|! = C # ØØ ^ + %RT +EFI |! (18)

%RT +|! − %RT +EFI |! = C # ØØ ^ (19)

Definiendo £ = Ø ^ Õ → £ ^ £ = Õ′ØØ′Õ ≥ 0. Por lo tanto, se cumple que la matriz ØØ’ es


semi-definida positiva.

De esta manera, la diferencia entre ambas varianzas siempre dará una matriz semi-definida
positiva; por lo que se concluye que el estimador MCG es el estimador de menor varianza
trabajando sobre el modelo transformado.
Problema 4.5

¿Cuáles son los casos en los que existe una matriz de varianzas y covarianzas no escalar?

Solución

Se suele dividir este problema en dos casos:

• Heterocedasticidad: cuando no hay varianza constante. Este problema suele


encontrarse en datos de corte transversal.
• Autocorrelación: cuando los errores se encuentran correlacionados entre sí. Este
caso suele darse en series de tiempo; aunque también puede darse en datos de
corte a través de autocorrelación espacial; es decir, que los errores de individuos
cercanos geográficamente estén correlacionados.

4.1 Heterocedasticidad

Problema 4.6

En el caso de heterocedasticidad, ¿cómo es la matriz de errores y cómo se realiza la


corrección?

Solución

En el caso de heterocedasticidad, la matriz de errores es:

L, ⋯ 0
Ω= ⋮ ⋱ ⋮ (1)
0 ⋯ L§

Se puede ver claramente que la varianza de los errores será distinta ya que cada una
depende de su propio peso denotado por L. La matriz † en este caso es:

1
⋯ 0
L,
P= ⋮ ⋱ ⋮ (2)
1
0 ⋯

Como se puede ver, al multiplicar al modelo por la matriz †, se está ponderando a cada
observación. La ponderación que se le asigne a cada una de ellas dependerá de manera
negativa del peso L; es decir, lo que se hace al multiplicar por † al modelo es
semiestandarizar cada observación, dándole mayor importancia a aquellas observaciones
menos variables (más precisas).

Problema 4.7

¿Cómo se detecta la heterocedasticidad?

Solución
Para detectar la heterocedasticidad, la prueba más utilizada es la prueba de White. Esta
prueba tiene como hipótesis nula que no hay heterocedasticidad. Para evaluarla, White
corre una regresión entre los errores al cuadrado de la regresión y las explicativas; así como
sus productos cruzados. El estadístico que evalúa es Ì = I` # ~Ó¡# ; donde k es el número
de regresores. Si se acepta la hipótesis nula, la prueba indica que hay no hay
heterocedasticidad; por lo que se puede utilizar MCO. De lo contrario, se debe corregir el
modelo.

La lógica detrás de esta prueba es verificar si la varianza de los errores depende de


características individuales; lo cual haría que justamente sea heterocedástico. Se puede
pensar como si estas características son las que forman el L señalado en la pregunta
anterior.

De este modo, si el ajuste de la regresión auxiliar es bueno; quiere decir que las
características individuales explican la varianza del error; lo que conlleva a que el L sea
distinto para cada individuo.

Una gran limitación de esta prueba es que asume que el modelo está bien especificado. Si
el modelo no está bien especificado, la prueba puede indicar que hay heterocedasticidad
cuando en realidad no hay; es decir, es poco potente. Por ello, se pueden utilizar otras
pruebas como la prueba de Goldfeld y Quant o la de Breusch Pagan.

La primera compara los residuos recursivos en una submuestra al inicio y otra al final; y si
la SCR es muy distinta, entonces indica que hay heterocedasticidad. Por otro lado, la prueba
de Breusch-Pagan asume que hay una relación únicamente lineal entre los regresores y la
varianza del error. Por ello, corre una regresión de los errores al cuadrado contra los
regresores y utiliza la prueba F de significancia global para evaluar si los coeficientes son
cero. Si se acepta, entonces la prueba indica que no hay heterocedasticidad. El estadístico
es el mismo que le de la prueba de White.

Problema 4.8

¿Cómo se corrige la heterocedasticidad?

Solución

Para corregirla, se debe transformar el modelo por la matriz P. Si se conociera la matriz P,


la corrección sería únicamente armar la matriz P y multiplicar al modelo por dicha variable.
No obstante, no siempre se conoce. En este caso, se debe estimarla.

Para ello, lo que se hace es correr los errores al cuadrado de la regresión contra algunas
variables que uno considere puedan ser la causa de heterocedasticidad. Por ejemplo, en
una regresión donde la dependiente es el nivel educativo, el ingreso podría ser una variable
escala útil. Una vez realizada la regresión, se estima la varianza del error:

C # = Z # = ö! (1)

Por último, se arma la matriz P estimada como y luego se transforma el modelo. El estimado
de este modelo transformado se le denomina Mínimos Cuadrados Generalizados Factibles
(MCGF):

1
⋯ 0
ö!,
P= ⋮ ⋱ ⋮ (2)
1
0 ⋯
ö!§

Finalmente, si no se puede determinar una variable escala ni cuál es la fuente de


heterocedasticidad, se puede utilizar la matriz de varianzas covarianzas de White
consistente ante la presencia de heterocedasticidad. Al realizar esto no se está corrigiendo
este problema; lo único que se hace es reconocer que existe. En efecto, White realiza un
estimado de la varianza de MCO cuando hay heterocedasticidad, aproximándolo como:

%RT + = C # !′! :,
Z*# 6* 6* ^ ! ^! :,
(3)

Es decir, se utiliza esta varianza a la hora de realizar inferencia una vez hecho el modelo.

Problema 4.9

El estimador de mínimos cuadrados generalizado (MCG) se prefiere al de mínimos


cuadrados ordinarios (MCO) cuando se ha omitido una variable importante del modelo.

Solución

Falso. MCG se prefiere cuando existe evidencia de que el error del modelo no tiene una
varianza homogénea ya que es más eficiente que MCO. Por otro lado, omitir una variable
importante del modelo genera estimadores sesgados e inconsistentes tanto en MCG como
en MCO.

Problema 4.10

El único problema que acarrea la presencia de heterocedasticidad es que la varianza del


estimador MCO deja de ser la clásica. Por lo mismo, bastaría con utilizar una matriz de
varianzas-covarianzas consistente con la presencia de errores heterocedásticos (como
aquella propuesta por White) para tener un estimador eficiente.

Solución
El problema que acarrea esto es que MCO ya no es eficiente. La segunda parte del comente
es falsa dado que utilizar esa matriz de White no corrige el problema, ya que simplemente
indica que se tomará en cuenta dicha varianza para realizar la inferencia.

Problema 4.11

¿Cuál de las siguientes causas pueden hacer que los estadísticos √ de MCO no sean
válidos, es decir que no tengan una distribución √ bajo …• ?

a) Heterocedasticidad

Solución

Heterocedasticidad: La presencia de heterocedasticidad puede ocasionar que el


estadístico no tenga una distribución “t” exacta. Si bien pueden construirse
estadísticos robustos a la heterocedasticidad, estos solo son útiles para tamaños de
muestra grandes.

b) Presencia de un coeficiente de correlación muestral de 0.95 entre dos variables


independiente del modelo

Solución

Presencia de un coeficiente de correlación muestral de 0.95 entre dos variables


independiente del modelo: La correlación entre variables independientes no afecta
los supuestos que subyacen al teorema de distribución √ para estimadores
ô/ :ô/
estandarizados ~√a:¡ .
¥¥ ô/

c) Omisión de variable explicativa importante

Solución

Omisión de variable explicativa importante: La omisión de una variable “importante”


(que pertenece al modelo) hacen al estimador sesgado, por lo que el estadístico “t”
como esta formulado en el teorema de distribución √ para estimadores
estandarizados ya no es válido.

Problema 4.12

Considere el siguiente modelo:

5* = +â + +, 6,* + +# 6#* + 4*
(1)

O 4* = 0 (2)
#
%RT 4* = Cõ# 6#* (3)

Indique la estructura de la matriz de varianzas-covarianzas del error. Indica la forma que


tiene la matriz ( P ) que transforma el modelo tal que el “nuevo” error tenga una matriz de
varianzas escalar y demuestre que el modelo transformado presenta una varianza
homocedástica. ¿Qué implicancia tiene que dicha matriz contenga o no el parámetro Cõ# ?
¿Por qué?

Solución

La estructura de varianzas y varianzas del error es no escalar ya que interviene la variable


6#* de cada individuo.

Desde que se conoce la estructura de la matriz de varianzas y covarianzas es posible hallar


la matriz †, la cual está compuesta por valores de 6#* y no de Cõ# :

1
⋯ 0
6#,
†= ⋮ ⋱ ⋮ (4)
1
0 ⋯
6#§

El modelo transformado sería ahora:

1 6,* 1
5* = +â + +, + +# + 4* (5)
6#* 6#* 6#*

Así, la matriz † contiene Cõ# porque desde que este término es constante no es necesario
controlar por tal variable al momento de ponderar a las observaciones.

Problema 4.13

a) Dispuesto a obtener el estimado más preciso posible de la pendiente de !# , un


analista utiliza el ponderador asociado a la matriz ( P ) de la pregunta anterior, y
observa los siguientes resultados. Explícale que significa cada uno (paneles B, C, D
y E) e indícale qué modelo es el que utiliza la técnica de estimación más eficiente.
¿Por qué? ¿Cuál es el estimado más preciso de la pendiente de !# ?
Solución

El Panel B indica la prueba de White. Por los resultados obtenidos, se rechaza la


hipótesis nula, por lo que se admite la presencia de heterocedasticidad
El Panel C muestra un modelo transformado, pero lo es erróneamente dado que no
está considerando que en el modelo original existe una constante.

El Panel D es la correcta transformación utilizando la matriz †; tal y como se muestra


en la parte a). Este es el mejor modelo; y el mejor estimado de !# es la constante C
de este panel.

El Panel E muestra un modelo en el cual admite la presencia de heterocedasticidad


considerando la matriz de varianzas y covarianzas de White. Este modelo no corrige
el problema.

b) Tomando en cuenta lo anterior, responda la siguiente afirmación: “Se asume que se


conoce que la heterocedasticidad proviene de una variable (!¡ ). Si la matriz 5
depende de una potencia distinta de dos (de !¡ ); entonces los ` # del modelo sin
corregir y el modelo corregido con la matriz † no serán comparables”.

Solución

Es verdadero ya que si depende de una potencia de dos: el modelo corregido y sin


corregir tendrán una constante (como se vio en este ejercicio). Por tanto, ambos
modelos son comparables dado que el ` # está acotado entre 0 y 1. En cambio, si
es de una potencia distinta de dos; el modelo corregido no tendrá constante, por lo
que los modelos no serán comparables.

Problema 4.14

Si no se confirma la naturaleza de la heterocedasticidad, siempre se podrá utilizar el


estimador consistente de White para obtener un estimado de la matriz varianza - covarianza
(Ω) y proceder a construir el estimador de Mínimos Cuadrados Generalizados.

Solución

White tiene la gran limitación de que va a trabajar desde el modelo (a partir de su regresión
extra). De esta forma, puede haber heterocedasticidad a partir del análisis visual, pero
White puede rechazarlo ya que esta heterocedasticidad puede que sea explicada desde el
error mismo y no desde las !’s.

Por otro lado, el estimador consistente de White no construye 5, sino que ajusta a MCO
para poder utilizarlo con la posibilidad de hacer inferencia más acotada.

Problema 4.15

Ante errores no esféricos, la estimación MCO de un modelo ignorando este problema hace
que la prueba K de significancia sea menos potente.

Solución
Si no se considera la presencia de errores no esféricos, las varianzas de los estimadores
son subestimadas. Por lo tanto, los estadísticos √ de significancia individual serían mayores,
y se rechazarían más veces la hipótesis nula que en otros casos, aumentando la
probabilidad de cometer error tipo 1 (ö).

Problema 4.16

Determinado investigador pretende analizar los determinantes de las variables 51 y 52.


Para esto, propone las regresiones:

51O = 6O ´+ + 4O (1)

52O = £O ´Ω + AO (2)

Luego de obtener un primer conjunto de estimados para cada vector de parámetros a través
de MCO, nuestro investigador decide analizar el comportamiento del residuo recursivo. Los
resultados que obtiene se muestran a continuación:

a) Sobre la base de la evidencia gráfica mostrada, ¿qué “problema(s)” crees exhiben


los modelos propuestos? Justifica tu respuesta. ¿Por qué es importante preguntarse
si es que nuestro modelo presenta estas características?

Solución

Cuando se analicen estas pruebas de residuos recursivos, si se está trabajando con


data de corte transversal, es necesario ordenar la data según la variable que uno
considera que tiene el problema (por ejemplo, hombre y mujer, por años de
educación, edad, entre otros).

El modelo de la izquierda presenta heterocedasticidad, lo cual se evidencia en que


las bandas de confianza y el error de predicción se hace cada vez más disperso;
aunque sigue estando centrado en cero. Este problema genera que MCO deje de
ser eficiente; aunque sigue siendo consistente.
Por otro lado, el modelo de la derecha presenta un caso claro de quiebre estructural
ya que el error de predicción deja de estar centrado en cero. Este problema genera
inconsistencia en MCO, aunque sigue siendo eficiente.

b) ¿Qué pruebas adicionales recomiendas hacer para corroborar tus sospechas?


¿Qué medidas correctivas propones y cuál es su objetivo?

Solución

Para ver si están ocurriendo estos problemas, se debería correr el test de White
para verificar la presencia de heterocedasticidad. La hipótesis nula de esta prueba
es la ausencia de heterocedasticidad.

Por otro lado, para analizar la presencia de quiebre estructural, existen dos tipos de
pruebas: las recursivas y las estructurales. Las primeras son aquellas que te ayudan
a encontrar el momento del quiebre; dentro de las cuales se encuentra la prueba de
residuos recursivos (arriba), CUSUM y CUSUM cuadrado. Luego, con la fecha de
quiebre obtenida de estas pruebas, se puede realizar las estructurales, que consiste
principalmente en la prueba 8 de Chow. Su hipótesis nula es que no existe quiebre
en el periodo colocado como input. Esta prueba se basa en la de errores residuales
entre el modelo restringido (que los betas no cambien) y el modelo sin restringir (que
los betas si son diferentes):

I−´ Z— ′Z— − Z, ′Z, + Z# ′Z#


8= (3)
™ Z, ′Z, + Z# ′Z#

c) Si se tiene que el modelo mostrado del lado derecho presenta los siguientes
resultados:

White Heteroskedasticity Test:


Obs*R-squared: 30.36113 Probability: 0.00023
Regresión auxiliar:
Variable Prob.
d 0.43987
!1 0.19876
#
!1 0.37875
!2 0.14523
#
!2 0.08765

¿Qué puede concluir acerca de lo planteado en a) y en b)?

Solución

A partir de lo obtenido tras correr el test de White se confirma que este test es muy
sensible ante cambios en la especificación, por lo cual puede llevar a rechazar la
hipótesis nula aún en ausencia de heterocedasticidad si es que el modelo está
incorrectamente especificado.

Problema 4.17

Una forma de solucionar la multicolinealidad es mediante la transformación de razón. Para


ilustrar este método considere el siguiente modelo:

dO = +â + +, †Æ°O + +# IO + 4O ; 4O ~U. U. Y 0; C # (1)

Donde d indica el gasto de consumo en soles, †Æ° es el producto bruto interno real y I es
la población total. No obstante, es probable que las variables incluidas en el modelo estén
altamente correlacionadas ya que aumentan con el tiempo. Ante ello, se puede solucionar
este problema expresando todo el modelo en términos per-cápita; la cual usualmente
reduce la colinealidad en las variables:

dO 1 †Æ°O 1
= +â + +, + +# + 4O (2)
IO IO IO IO

¿Encuentra algún problema en este método?

Solución

El principal problema que ocasiona este modelo es que genera heterocedasticidad, dado
que ahora el error nuevo dependerá de la población en cada periodo. Se debería corregir
multiplicando el modelo por la raíz cuadrada de I√ (recuerde la forma de la matriz †).

Problema 4.18

Un economista desea estimar la ecuación de consumo:

[* = öâ + ö, 5* + 4* ; 4* ~I(0, Cõ # ) (1)

Donde [* denota el consumo familiar e 5* denota la renta disponible. Para ello se recoge
información de N familias estructuradas en k subgrupos de tamaños IP , con ™ = 1, 2, . . , ´.
De cada uno de ellos se obtiene el consumo y la renta disponible agregados para cada
§+ §+ ¡
subgrupo poblacional dP = [
*b, *
y )P = 5.
*b, *
Note que: *b, I* = I.

a) Lamentablemente, sólo cuenta con los promedios para cada subgrupo de la


F+ ¿+
población ([P = ; 5P = ). Por tanto, estima el siguiente modelo:
§+ §+

[P = Ωâ + Ω, 5P + 0* (2)
¿Cuál es la relación existente entre los parámetros del primer modelo (öâ , ö, ) y los
del nuevo modelo (Ωâ , Ω, )? Demuestre analíticamente la forma de la varianza del
error este nuevo modelo.

Solución

Reemplazando el valor de la ecuación de consumo individual:

§+ §+
dP ö
*b, â
+ ö, 5* + 4* 4
*b, *
[P = = = öâ + ö, 5P + (3)
IP IP IP
P+
õ
/òq /
Por tanto, öâ y ö, , serán iguales a Ωâ , Ω, y 0* = . La varianza del nuevo error
§+
será:

§+ §+
4
*b, * 1 1 Cõ #
ÜRT 0* = ÜRT = ÜRT(4* ) = IP ∗ Cõ # = (4)
# #
IP IP IP IP
*b,

b) ¿Qué problema(s) encontró en el modelo anterior? Indique que transformación


realizaría a los modelos anteriores para corregirlos. En particular, indique la forma
de la matriz 5 y de la matriz †.

Solución

El problema presente en este caso es el de heterocedasticidad. Las matrices


correspondientes son:

1
⋯ 0
I,
5= ⋮ ⋱ ⋮ (5)
1
0 ⋯

I, ⋯ 0
†= ⋮ ⋱ ⋮ (6)
0 ⋯ I¡

Esto indica que cuando se trabaja con promedios de datos agrupados, hay
heterocedasticidad.

Problema 4.19

Un investigador le plantea el siguiente proceso generador de datos (PGD):

6* = 5 + 4* ; 4* ~I(0,4) (1)
£* = 6* + A* ; A* ~I 0, C # ; C = 5 (2)

5* = 1.2 + 0.356* + L* £* ; L* ~I 0,1 (3)

Al correr una regresión de 5* sobre 6* y aplicar el test de White, obtiene que no tiene
suficiente evidencia para rechazar la hipótesis nula. Contrariado, decide probar con distintos
valores de C. Para cada uno de ellos, genera los datos, corre una regresión y aplica la
prueba de White 100 veces. La tabla 4.1 muestra el porcentaje de veces que se rechazó la
hipótesis nula en cada caso:

Tabla 4.1. Porcentaje de rechazo de la nula

C=1 C=2 C=3 C=4 C=5

96% 59% 41% 38% 33%

Explique al investigador los resultados obtenidos. ¿Qué otra prueba se aplicaría para
detectar de manera correcta la heterocedasticidad?

Solución

El problema aquí es que a medida que aumenta sigma; quiere decir que hay una menor
correlación entre el error y el regresor 6* . Por tanto, esto indica que mientras peor
especificado esté el modelo (medido a través de la correlación entre el error y el regresor);
la prueba de White aceptará más veces. Esto refleja la poca potencia que tiene este test.

Problema 4.20

Considere un modelo lineal para explicar el consumo mensual de cerveza ([ZTÜZ£R):

(1)
[ZTÜZ£R = +• + +, U][ + +# èTZ[UV + +2 ZY0[ + +} ÊZêZ]U]V + 0

(2)
O 0 U][, èTZ[UV, ZY0[, ÊZêZ]U]V = 0

(3)
%RT 0 U][, èTZ[UV, ZY0[, ÊZêZ]U]V = C # U][ #

Escriba la ecuación transformada que tiene un término de error homocedástico.

Solución

El modelo anterior puede reescribirse de tal manera que presente un error


homocedástico:
[ZTÜZ£R ∗ = +â + +, U][ ∗ + +# èTZ[UV ∗ + +2 ZY0[ ∗ + +} ÊZêZ]U]V ∗ + Z (4)

Donde

6 0
6∗ = ;Z = (5)
U][ U][

Y se cumple que:

" 0
" Z = =0 (6)
U][

%RT 0
%RT Z = = C# (7)
U][ #

Problema 4.21

Una de las formas de combinar las pruebas de Breusch-Pagan y de White para


heterocedasticidad es regresionar los errores estimados al cuadrado sobre sus explicativas
y los valores calculados de la dependiente al cuadrado:

0* # sobre 6*, , 6*# , … , 6*¡ , 5* # , U = 1, … , ]


(1)

Donde 0 son los residuos MCO y las 5* son los valores ajustados de MCO. Después se
prueba la significancia conjunta de 6*, , 6*# , … , 6*¡ y 5* incluyendo un intercepto.

a) ¿Cuáles son los grados de libertad correspondientes a la prueba F propuesta para


heterocedasticidad?

Solución

Tiene ´ + 1 y ] − ´ − 1 grados de libertad.

b) Explique por qué el ` # de la regresión indicada arriba siempre era por lo menos tan
grande como el ` # de la regresión BP y del caso especial de la prueba de White.

Solución

Sera por lo menos tan grande como la prueba BP porque si 5* # no explica la


variación de 0* # entonces el ` # será justamente el de la prueba BP. En el caso de
la prueba de White, 5* es justamente la parte explicada por las 6 asi que si 5* explica
tan bien la variación de 0* # como las x entonces su ` # será el mismo.

c) Explique porque el inciso b) implica que con la nueva prueba siempre se obtiene un
valor-p menor que el estadístico BP o que el del caso especial del estadístico White.
Solución

No necesariamente, hay que ver los grados de libertad.

d) Suponga que alguien sugiere agregar también 5* a la prueba recién propuesta.


¿Está de acuerdo con esta idea?

Solución

Sería redundante ya que las 6 ya explican esa parte de la variación de 0* # .

Problema 4.22

Considere un modelo para los empleados,

5*,¥ = +â + +, 6*,¥,, + +# 6*,¥,# + … + +¡ 6*,¥,¡ + Ê* + Ü*,¥ , (1)

Donde la variable inobservada Ê* es un efecto de la empresa para cada empleado en una


empresa dada U. El término de error Ü*,¥ es específico para cada empleado Z en la empresa
U. El error compuesto es 0*,¥ = Ê* + Ü*,¥ .

a) Suponga que %RT Ê* = CQ# , %RT Ü*,¥ = C># y que Ê* y Ü*,¥ no estén correlacionadas.
Muestre que %RT 0*,¥ = CQ# + C># , llame a esto C # .

Solución

%RT Ê* = CQ# (2)

%RT Ü*,¥ = C># (3)

dVÜ Ê* , Ü*,¥ = 0 (4)

%RT 0*,¥ = %RT Ê* + %RT Ü*,¥ + dVÜ Ê* , Ü*,¥ (5)

%RT 0*,¥ = CQ# + C># = C # (6)

b) Ahora suponga que para Z ≠ {, Ü*,¥ y Ü*,¥ no están correlacionadas. Muestre que
dVÜ 0*,¥ , 0*,R = CQ# .

Solución

dVÜ Ü*,¥ , Ü*,R = 0 (7)


dVÜ 0*,¥ , 0*,R = dVÜ Ê* + Ü*,¥ , Ê* + Ü*,R (8)

dVÜ 0*,¥ , 0*,R = dVÜ Ê* , Ê* + dVÜ Ü*,¥ , Ê* + dVÜ Ê* , Ü*,R + dVÜ Ü*,¥ , Ü*,R (9)

dVÜ 0*,¥ , 0*,R = dVÜ Ê* , Ê* = %RT Ê* = CQ# (10)


c) Sea 0* = ê* :, ¥b, 0*,¥ el promedio de los errores compuestos dentro de una
vSs
empresa. Muestre que %RT 0* = CQ# + .
¶/

Solución


:,
0* = ê * 0*,¥ (11)
¥b,

%RT 0* = ê* :# %RT 0*,¥ (12)


¥b,
¶ ¶
1
%RT 0* = dVÜ 0* , 0* = dVÜ 0*,¥ , 0*,R (13)
ê* #
¥b, Rb,

1
%RT 0* = ê* # CQ# + ê* C># (14)
ê* #

1 # # # #
C>#
%RT 0* = ê * CQ + ê * C> = CQ + (15)
ê* # ê*

d) Analice la relevancia del inciso b) para la estimación por mínimos cuadrados


ponderados empleando datos promediados a nivel de las empresas, dando el
ponderador empleado para observación U es el tamaño de la firma, como es
costumbre.

Solución

Si se utiliza como ponderador el tamaño de la empresa ê* , se obtendrán


estimadores insesgados y consistentes. Sin embargo, los errores estándar y los
estadísticos de prueba ya no son válidos incluso en muestras grandes. Además
nada asegura que el método de mínimos cuadrados ponderados sea más eficiente.

Problema 4.23

Se considera el siguiente modelo clásico de regresión:


O 5 ! = !+ (1)

%RT 5 ! = C # °§ (2)

Donde hay ⁄ regresores y I observaciones.

Se asume que las observaciones 5* , 6* son agrupados en J grupos de tamaños ], , . . . , ]T , y


que solo se observa las medias de 5 y de ! en los grupos:

1 1
5P∗ = 5* , 6P∗ = 6* , (3)
]P ]P
* ˆ P * ˆ P

Se construye un vector 5 ∗ de Jx1 y una matriz ! ∗ de JxK.

1. Muestre que:

O 5 ∗ ! ∗ = ! ∗+ (4)

%RT 5 ∗ ! ∗ = C # ا (5)

Donde

C#
0 0
],
ا = 0 … 0 (6)
C#
0 0
]T

Pista: encuentre una matriz à tal que 5 ∗ = à5 y ! ∗ = à!.

Solución

Se tiene:

5 ∗ = à5 (7)

! ∗ = à! (8)

Donde à es una matriz de Ô6I:


1 1
… … 0 … 0
], ],
0 … 0 … 0 … 0…
à= … … … … (9)
… … 1 1
0 … 0 … …
]T ]T

Entonces:

5 = !+ + 0 (10)

Donde O 0 ! = 0. Por lo tanto: 5 ∗ = ! ∗ + + à0,O 0 ! ∗ = O 0 à! = 0, asi


O à0 ! ∗ = 0 y:

O 5 ∗ ! ∗ = ! ∗ + + 0. (11)

Así,

%RT 5 ∗ ! ∗ = à%RT 0 ∗ ! ∗ à ^ = C # ا (12)

2. Muestre que:

T :, T

+EFI = ]P 6P∗ 6P∗^ ]P 6P∗ 5P∗ (13)


Pb, Pb,

Interprete.

Solución

Se tiene.

T :, T

+EFI = ! ∗^
ا:, ! ∗ :, ! ∗^ ا:, 5 ∗ = ]P 6P∗ 6P∗^ ]P 6P∗ 5P∗ (14)
Pb, Pb,

Problema 4.24

Se quiere estimar + en el siguiente modelo clásico de regresión,

O 5 ! = !+ (1)

%RT 5 ! = C # °#§ (2)

Donde U = 1, … ,2I son observaciones individuales.


Desde luego, no se dispone con información a nivel individual. En lugar de eso, se observa
información tomada a nivel de hogar. Se asume que cada hogar está compuesto por dos
individuos. Se observa 6P∗ y 5P∗ , ™ = 1, … , I, los cuales son los valores promedios en cada
hogar. El tamaño de la muestra I es 1000.

Se regresiona5P∗ contra 6P∗ mediante MCO y se usa formula estándar para computar el error
estándar.

a) Dé el valor de %RT 5 ∗ ! ∗ , donde 5 ∗ es un vector de Nx1 compuesto por los 5P∗ y ! ∗


es una matriz de NxK compuesta por los (6P∗ )^ , como función de C # .

Solución

Se puede escribir para ™ = 1, … , I:

1
5P∗ = 5 + 5Q , (3)
2 ¶ P P

Donde ê ™ y Ê ™ son hombre y mujer en el hogar ™.

Del mismo modo:

1
6P∗ = 6 + 6Q , (4)
2 ¶ P P

Por lo tanto:

5 ∗ = à5 (5)

! ∗ = à! (6)

1 1 1 0 0 … 0 0
à= 0 0 1 1 … 0 0 , (7)
2
0 0 0 0 … 1 1

Y se ordena la data a nivel de hogar. M es una matriz de Nx2N.

Entonces

O 5∗ !∗ = O O 5∗ ! !∗
(8)

= O àO 5 ! ! ∗ (9)

= O à!+ ! ∗ (10)
= O ! ∗+ ! ∗ (11)

= ! ∗+ (12)

Más aun, por la descomposición de la varianza:

%RT 5 ∗ ! ∗ = %RT O 5 ∗ ! ! ∗ + O %RT 5 ∗ ! ∗ ! ∗ , (13)

%RT 5 ∗ ! ∗ = %RT ! ∗ + ! ∗ + O %RT à5 ! ! ∗ , (14)

%RT 5 ∗ ! ∗ = 0 + O à%RT 5 ! à ^ ! ∗ , (15)

%RT 5 ∗ ! ∗ = O àC # °#§ à ^ ! ∗ , (16)

%RT 5 ∗ ! ∗ = C # àà′ (17)

Por lo tanto:

1/2 0 0 … 0
∗ ∗ # 0 1/2 0 … 0
%RT 5 ! =C … … … … (18)
1/2
0 0 0 … 1/2

b) ¿Es el modo en el que se ha computado el error estándar correcto?

Solución

Es consistente debido a que el modelo es homocedástico. En un modelo


homocedástico el estimador MCG y el MCO son idénticos.

Problema 4.25

Derive y compruebe que el estimador de Mínimos Cuadrados Generalizados Factibles es


en efecto el que se debería utilizar cuando no se conoce la matriz Ω, por lo que no se puede
estimar MCG.

Solución

Los dos estimadores que se tienen son:


hEFI = ! ^ Ω:, ! :,
! ^ Ω:, 5 (1)

:,
hEFIæ = ! ^ Ω:, ! ! ^ Ω:, 5 (2)

Entonces lo que se necesita es comprobar que la diferencia asintótica entre ambos sea
nula. Debe de notarse que lo que en realidad se necesita es un estimador de 5 :, . Así, debe
de notarse que:

:,
! ^ 5 :, ! ! ^ 5 :, Ÿ
] hEFI − + = (3)
] ]
:,
! ^ 5 :, ! ! ^Ÿ
] hEFIæ − + = (4)
] ]

Donde hEFIæ tendrá la misma distribución asintótica que hEFI , es decir serán
asintóticamente equivalente si se cumple que:

! ^ 5 :, ! ! ^ 5 :, ! ‚
− 0 (5)
] ]

! ^ 5 :, Ÿ ! ^ 5 :, Ÿ ‚
− 0 (6)
] ]

. = W:q .
La primera expresión no hace sino asegurar que pueda ser efectivamente reeplazada
a
. = W:q .
cuando ] tienda a infinito por . Por otro lado, la segunda expresión implica que en el
a
. = W:q ˆ . = W:q ˆ
límite puede ser reemplazado por .
a a

4.2 Autocorrelación

Problema 4.26

En el caso de autocorrelación, ¿cómo es la matriz de errores?

Solución

Asumiendo que el error es un proceso autorregresivo AR(1):

5O = 6O + + 4O (1)
4O = º4O:, + 0O ; donde 0O ∼ I(0; Cé# ) (2)

Si se expresa el error únicamente en función de 0O y sus rezagos:

4O = º ã 0O:ã (3)
Ob,

La varianza del error será

Cé#
ÜRT 4O = (4)
1−º

Mientras que la covarianza es

Cé#
[VÜ 4O ; 4O:¡ = º ¡ (5)
1−º
Tomando esto en cuenta, la matriz de varianzas covarianzas es:

1 º ⋯ º§
º 1 ⋯ º §:,
Ω= ⋮ (6)
⋮ ⋱ ⋮
§:,
º§ º ⋯ 1

Problema 4.27

¿Cómo se detecta la autocorrelación?

Solución

Para detectar la autocorrelación, existen varias pruebas. Primero, se puede utilizar el


estadístico Durbin Watson. Esta prueba sólo permite ver autocorrelación de primer orden.
Si el valor de su estadístico es cercano a 2; quiere decir que no hay autocorrelación;
mientras que si es cercano a 0 ó 4 indica que la correlación es cercana a 1 y -1
respectivamente.

Otra prueba muy utilizada es la de Breusch Godfrey. Esta prueba consiste en regresionar
el error sobre sus “p” propios rezagos:

4O = öâ + ö, 4O:, + ⋯ + öÎ 4O:Î + !+ + AO (1)

Se obtiene el ` # de este modelo auxiliar. La hipótesis nula es que todos los coeficientes ö
sean cero; lo cual implica que el error es un ruido blanco. El estadístico de la prueba es
#
I` # ~!(Î) . Si el ajuste de la regresión es alto, quiere decir que, en efecto, el error depende
de sus rezagos; por lo que se rechaza la nula afirmando que existe autocorrelación de orden
p.

Finalmente, se podría utilizar el correlograma y aplicar la prueba de Ljung-Box; la cual


consiste evalúa de manera secuencial el orden de la autocorrelación.

Problema 4.28

¿Cómo se corrige la autocorrelación?

Solución

Para corregirla, se transforma el modelo. La corrección en caso de errores tipo AR(1)


vendría dada por realizar la primera cuasidiferencia del modelo. Es decir, si se cuenta con
el siguiente modelo:

5O = 6O + + 4O
(1)

4O = º4O:, + 0O ; donde 0O ∼ I(0; Cé# ) (2)

La transformación consiste en:

5O − º5O:, = 6O − º6O:, + + 4O − º4O:,


(3)

5O − º5O:, = 6O − º6O:, + + 0O
(4)

Donde ahora el nuevo error si cumple las propiedades del MLG.

Si se conoce el valor de º, simplemente se realiza la transformación anterior para corregir


el problema. No obstante, si no se conoce º, se debe estimarlo. Para ello, se utiliza el
proceso iterativo de Cochrane y Orcutt.

1. Primero se estima el modelo original y se recogen los errores.


2. Luego, se corre la siguiente regresión de los errores: 4O = º4O:, + 0O ; obteniendo el
estimado de º.
3. Se transforman las variables realizando la primera cuasidiferencia del modelo.
4. Con las variables transformadas, se estima: 5O − º5O:, = 6O − º6O:, + + 0O y se
recogen los errores.
5. Se repiten los pasos 2 al 4 hasta que el estimado de º converja a un valor.
6. Finalmente, se utiliza este valor estimado al cual convergió º para transformar el
modelo.

Problema 4.29
Se tiene una base de series de tiempo que contiene las variables Y, X1 y X2. Se le pide
que corra una regresión entre las mismas, donde Y es la variable dependiente y analice los
residuos de dicha regresión. En particular se quiere determinar si dichos residuos presentan
autocorrelación o no. Analice e intérprete de manera particular el estadístico de Durbin-
Watson, el correlograma de los residuos así como el estadístico de Ljung-Box.

Dependent Variable: Y

Method: LeastSquares

Date: 04/02/13 Time: 16:08

Sample: 1 100

Includedobservations: 100

Variable Coefficient Std. Error t-Statistic Prob.

X1 0.983077 0.142248 6.910984 0.0000

X2 0.288391 0.148700 1.939414 0.0553

-
R-squared 0.353531 Mean dependent var 0.023485

Adjusted R-squared 0.346935 S.D. dependent var 1.625539

S.E. of regression 1.313638 Akaike info criterion 3.403275

Sum squared resid 169.1131 Schwarz criterion 3.455378

Log likelihood -168.1637 Hannan-Quinn criter. 3.424362

Durbin-Watson stat 0.753684


Solución

Es necesario analizar el comportamiento de los residuos. Para ello, se puede ver los
siguientes estadísticos

• Durbin Watson: ØÌ = 2(1 − º). En este caso, el ØÌ se encuentra “cercano a 0”,


por lo cual podría afirmar que hay autocorrelación de primer orden.
• Estadístico de Ljung-Box y Correlograma.

Analizando el correlograma (ver que el partialcorrelation o correlación parcial –PAC-) se


nota que, en el primer rezago existe un estadístico ª alto. Esto indica que los residuos
tienen un componente de autocorrelación de primer orden. Más aún se puede ver viendo el
PAC que el valor de º sería 0.620. Si se observa la probabilidad de aceptar el estadístico
ª, también se concluye la existencia de autocorrelación de primer orden.

Problema 4.30

Un investigador está modelando la variable Y en función de una constante y una variable


explicativa X1 en una serie de tiempo. Los resultados de la ecuación se muestran a
continuación:

Dependent Variable: Y
Method: Least Squares

Sample: 1 1000

Included observations: 1000

Variable Coefficient Std. Error t-Statistic Prob.

C 3.171182 0.185139 17.12862 0.0000

X1 0.802400 0.015583 51.49123 0.0000

R-squared 0.726526 Mean dependent var 11.25118

Adjusted R-squared 0.726252 S.D. dependent var 5.938133

S.E. of regression 3.106884 Akaike info criterion 5.107116

Sum squared resid 9633.425 Schwarz criterion 5.116931

Log likelihood -2551.558 F-statistic 2651.346

Durbin-Watson stat 1.913092 Prob(F-statistic) 0.000000

Se corrieron una serie de pruebas porque se sabe que un modelo de serie de tiempo
puede tener varios problemas.
12

-4

-8

-12
250 500 750 1000

Recursive Residuals ± 2 S.E.


F-statistic 665.3110 Probability 0.000000

Obs*R-squared 571.9115 Probability 0.000000

Test Equation:

Dependent Variable: RESID

Method: Least Squares

Date: 06/11/11 Time: 15:04

Presample missing value lagged residuals set to zero.

Coefficie
Variable nt Std. Error t-Statistic Prob.

-
C 0.046787 0.121288 -0.385753 0.6998

X1 0.004669 0.010210 0.457280 0.6476

RESID(-1) 0.010282 0.020758 0.495304 0.6205

RESID(-2) 0.755877 0.020756 36.41760 0.0000

R-squared 0.571912 Mean dependent var 8.56E-16

Adjusted R-squared 0.570622 S.D. dependent var 3.105329

S.E. of regression 2.034827 Akaike info criterion 4.262690

Sum squared resid 4123.958 Schwarz criterion 4.282321


-
Log likelihood 2127.345 F-statistic 443.5406

Durbin-Watson stat 1.900573 Prob(F-statistic) 0.000000

a) Indicar qué tipos de problemas podría presentar una estimación de serie de


tiempo (problemas más comunes en series de tiempo).

Solución

El problema más común existente en series de tiempo es autocorrelación dado


que es muy común que los shocks en un periodo todavía tengan repercusión en
los siguientes. Asimismo, otro problema común podría ser el de quiebre
estructural, justamente por la presencia de shocks sistemáticos que cambien el
modelo poblacional.

b) ¿Qué problemas se encuentran en las pruebas mostradas anteriormente?

Solución

El problema que se encuentra es claramente de autocorrelación. Ahora, para


determinar si es de primer orden, se puede ver el Durbin-Watson presentado. Se
ve que es muy cercano a dos (1.9); por lo que, se concluye que no hay
autocorrelación de primer orden. Ahora, viendo el correlograma, se sospecha que
existe autocorrelación de segundo orden. Estas sospechas se ven corroboradas
al realizar el test de Breusch-Godfrey y se rechaza la hipótesis nula de que no
hay autocorrelación de hasta orden 2.

Luego de corregir el modelo anterior, corrió la siguiente prueba:


c) ¿Se corrigió el problema? ¿Qué puede haber hecho el investigador para
corregirlo?

Solución

Por los resultados mostrados, parece ser que sí se ha corregido el problema.


Dado que el correlograma ya no presenta ningún barra que sobrepase el
intervalo crítico. Lo que pudo haber hecho para corregirlo es haber tomado la
segunda cuasi-diferencia del modelo; previamente estimando el valor de rho vía
Cochrane-Orcutt (dado que no se conoce su verdadero valor).

Problema 4.31

El estimador MCGF es el mejor estimador lineal insesgado en caso de que haya


autocorrelación.

Solución

Verdadero. Dado que MCGF transforma el modelo tal que la matriz de varianzas y
covarianzas del modelo transformado sea escalar, lo que hace que posea la mínima
varianza al compararlo con cualquier otro estimador lineal insesgado aplicado sobre el
modelo transformado. Por tanto, MCGF es MELI.

Problema 4.32

En la práctica, la corrección del problema de autocorrelación no requiere de la estimación


de la matriz de varianzas-covarianzas del error (Ω). De hecho, y en lugar de utilizar el
estimador de mínimos cuadrados generalizados, para el trabajo empírico se recomienda
utilizar el estimador de mínimos cuadrados ordinarios sobre la primera diferencia del
modelo. Esto último responde al hecho de que el estimador de mínimos cuadrados
ordinarios retiene la propiedad de consistencia.

Solución

No necesariamente. Para corregir la autocorrelación, asumiendo un AR(1) para los errores,


se debe realizar la primera cuasi-diferencia del modelo; es decir, restarle º por el primer
rezago. Si se conoce el º, entonces la corrección es simple. Si no se conoce, se debe
estimar (lo cual equivale a estimar Ω); para lo cual aplica el método iterativo de Cochrane y
Orcutt. Una vez calculado, se realiza la primera cuasi-diferencia. Esto es MCGF. El comente
sería cierto sólo si el º obtenido (ya sea conocido o calculado por MCGF) es igual a 1.

Problema 4.33

Dos investigadores están discutiendo los resultados de una estimación que acaban de
hacer con series de tiempo. El primero de ellos dice que como el Durbin Watson es cercano
a 2, entonces pueden estar tranquilos porque su ecuación no tiene problemas de
autocorrelación; sin embargo el segundo investigador no está convencido y cree que deben
hacer más pruebas. ¿Qué deberían hacer?

Solución

Ambas no deberían estar completamente seguras dado que el Durbin Watson sólo mide
autocorrelación de primer orden en el error; es decir, que el error sea AR(1). Para ver
autocorrelación de mayor orden, deben realizar pruebas adicionales como la de Breusch-
Godfrey o ver el correlograma de Box-Pierce.

Problema 4.34

Un investigador halla la relación existente entre una variable dependiente (Y) y un conjunto
de regresores (X1 y X2). Para esto, se plantea la regresión:

Dada la evidencia mostrada en la regresión anterior, ¿se puede afirmar que el estimador es
eficiente? Ante esto, se plantea aplicar el procedimiento iterativo de Cochrane-Orcutt y
transformar las variables involucradas en su modelo utilizando el resultado de este
procedimiento.

Se decide llamar “..._STAR” a las variables transformadas y se obtiene:


Sin embargo, surgen dos cuestionamientos a estimación por parte de un investigador
independiente:

• “No creo que los estimados obtenidos en esta segunda regresión correspondan a
los que interesa estimar en primera instancia dado que estás trabajando con
transformaciones de las variables originales. Además, no veo qué ventaja hay en
utilizar las dos pendientes estimadas en esta segunda regresión en lugar de las
obtenidas en el primer modelo.”
• “En lugar de usar este segundo modelo, me parece que sería mejor usar el
siguiente.”
a) Responder la primera observación. Para reforzar el argumento, se debe mostrar
analíticamente si el investigador independiente está o no en lo cierto respecto a la
primera parte de su primer su comentario.

Solución

En primer lugar, los +’s obtenidas sí son los mismos:

) = !+ + 4 (1)

Multiplicando el modelo por la matriz †:

†) = †!+ + †4 (2)

)∗ = ! ∗+ + A (3)

Se puede apreciar que el + no ha cambiado al transformar las variables; por lo que


se siguen conservando los efectos que se desea estimar. Con respecto a su
segunda observación, lo que se gana transformando el modelo es que ahora el
estimador obtenido (por MCG) es eficiente; mientras que el de nuestra primera
estimación no lo era.

b) Muestra, analíticamente, si es que existe alguna correspondencia entre el segundo


modelo de nuestro investigador y el que le sugiere su compañero. ¿Qué implica la
utilización del primero?

Solución

Investigador independiente

)O = öâ + ö, )O:, + ö# !,O + ö2 !,,O:, + ö} !#,O + ö~ !#,O:, + AO (4)

Investigador:

)O − º)O:, = +â (1 − º) + +, !,O − º!,,O:, + +# !#O − º!#,O:, + 4O (5)

)O = +â (1 − º) + º)O:, + +, !,O − +, º!,,O:, + +# !#O − +# º!#,O:, + 4O (6)

Las relaciones entre ambos modelos son:

+â (1 − º) = öâ ; º = ö, ; +, = ö# ; +# = ö} ; ö2 = −+, º; ö~ = −+# º (7)


c) Construir y analizar los resultados asociados a una prueba de hipótesis que permita
saber si es o no cierto que conviene utilizar el modelo sugerido por el compañero y
descartar el propuesto por nuestro investigador. Parte de los insumos que se
necesitan para esta prueba son los siguientes (los demás están dados en las
regresiones del enunciado):

0 Ω# Ω, 1 0 0
d= (8)
0 Ω} 0 0 Ω, 1

129.7305 −159.1379
d %RT(Ω) d ^ = (9)
−159.1379 6725.706

Ó≥~%,# = 5.99 (10)

Donde Ω se refiere al vector de coeficientes estimados del modelo propuesto por el


compañero: Ω, = Ωâ … Ω~ . Sobre la base de los resultados ¿se debería descartar el
segundo modelo planteado por el investigador?

Solución

Las hipótesis relevantes en este caso son: ö2 − +, º = 0 y ö~ − +# º = 0. Como son


pruebas no lineales, se debe utilizar la prueba de Wald.

Sin embargo, antes se reemplaza para dejarlo en función de los alfas (del modelo
del compañero) dado que la inferencia se realiza sobre el mismo modelo.
Reemplazando, se obtiene: ö2 + ö, ö# = 0 y ö~ + ö, ö} = 0.

El estadístico de Wald es:

^ :,
Ì = ` + ′ d%RT + ` + ~Ó # (™) (11)

Ya se cuenta con la matriz de varianzas y covarianzas; por lo que falta R(h). Esta
matriz contiene a las hipótesis no lineales. En este caso, es de la forma:

ö2 + ö, ö#
` ö = (12)
ö~ + ö, ö}

Para obtener esta matriz, simplemente se reemplaza los valores estimados del
modelo del compañero; de acuerdo con los parámetros que se han colocado en la
parte b). La matriz C mostrada arriba es simplemente la derivada de R(+) con
respecto a B; que sirve para hallar la matriz de varianzas y covarianzas.

Armando la prueba de Wald y reemplazando los valores estimados, se obtiene que


el estadístico es:
Ì = 0.00001446 < 5.99 (13)

Se ve que es menor al crítico; por lo que se aceptan las hipótesis nulas; es decir, se
acepta la hipótesis de que ambos modelos son equivalentes. De manera adicional
se podrían realizar las demás hipótesis, utilizando simples pruebas T para verificar
si son iguales.

Problema 4.35

Un investigador se encuentra con el siguiente modelo:

5O = 6O + + 4O (1)

4O = º4O:, + 0O (2)

0O = ö0O:, + ÜO (3)

ÜO ∼ I(0; C># ) (4)

Donde ö < 1 y º < 1 .

a. El investigador, intrigado por los problemas que podría presentar el modelo


anterior, decidió generar una base de datos en Eviews y correr las siguientes
regresiones, usando los siguientes valores: + = 4.5; º = 0.4; ö = 0.5 y C># = 1.
Regresión 1:
Dependent Variable: Y

Method: Least Squares

Sample: 1 1000

Included observations: 1000

Variable Coefficient Std. Error t-Statistic Prob.

X 4.496773 0.050037 90.06913 0.0000

-
R-squared 0.890279 Mean dependentvar 0.127131
Adjusted R-squared 0.890279 S.D. dependent var 4.758422

S.E. of regression 1.576185 Akaike info criterion 3.748891

Sum squared resid 2481.874 Schwarz criterion 3.753799

Log likelihood -1873.445 Hannan-Quinn criter. 3.750756

Durbin-Watson stat 0.483263

Regresión 2:
Dependent Variable: Y_STAR

Method: Least Squares

Sample (adjusted): 2 1000

Included observations: 999 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

X_STAR 4.515391 0.033934 133.9476 0.0000

-
R-squared 0.947295 Mean dependent var 0.076318

Adjusted R-squared 0.947295 S.D. dependent var 5.023797

S.E. of regression 1.153341 Akaike info criterion 3.124204

Sum squared resid 1327.536 Schwarz criterion 3.129116

Log likelihood -1559.540 Hannan-Quinncriter. 3.126071

Durbin-Watson stat 0.955002

Regresión 3:

Dependent Variable: Y_STAR_1

Method: LeastSquares

Sample (adjusted): 2 1000


Included observations: 999 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

X_STAR_1 4.532040 0.024608 184.9794 0.0000

-
R-squared 0.971660 Mean dependent var 0.011710

Adjusted R-squared 0.971660 S.D. dependent var 6.217193

S.E. of regression 1.046632 Akaike info criterion 2.930033

Sum squaredresid 1093.249 Schwarz criterion 2.934945

Log likelihood -1462.552 Hannan-Quinn criter. 2.931900

Durbin-Watson stat 1.810472

Donde

!Xp— = 6O − º6O:, (5)

)Xp— = 5O − º5O:, (6)

!Xp—_, = 6O − (º + ö)6O:, (7)

)Xp—_, = 5O − (º + ö)5O:, (8)

A partir de lo anterior, ¿alguno de los modelos anteriores corrige el problema?


¿Por qué? De no ser el caso, indique cuál debería ser la transformación
apropiada al modelo.

Solución

Ninguna de las tres especificaciones es la correcta. La verdadera transformación


del modelo vendría dada por:

!Xp—_# = 6O − º + ö 6O:, + ºö6O:# (9)


)Xp—_# = 5O − º + ö 5O:, + ºö5O:# (10)

Si primero se corrige para 4O :

4O − ö4O:, = º 4O:, − ö4O:# + ÜO (11)

Luego, corrigiendo de nuevo para el modelo de interés; se obtiene:

5O − º + ö 5O:, + ºö5O:# = + 6O − º + ö 6O:, + ºö6O:# + ÜO (12)

Las dos primeras especificaciones no corrigen bien; basta ver el Durbin Watson.
La tercera sí corrige bien la autocorrelación de primer orden (DW cercano a 2);
no obstante, no toma en cuenta en absoluto que existe autocorrelación de
segundo orden; por lo que esta transformación no produce los resultados más
eficientes.

b. Considere ahora que su variable explicativa es la variable dependiente


rezagada; es decir, 6O = 5O:, ¿Existiría algún problema adicional con respecto
al caso anterior? Explique claramente por qué se daría esta complicación.

Solución

Dado que ahora el modelo original también es autorregresivo, el estimado será


inconsistente ya que en este caso habrá correlación contemporánea entre la
explicativa y el error. Tanto la dependiente rezagada (que ahora es la explicativa)
como el error dependen de sus valores pasados; lo cual implica que exista una
correlación entre ambos.
5. Endogeneidad

Problema 5.1

:, ^
Considere el estimador de variables instrumentales (VI): βYZ = X ^ X XY

a) Demuestra que si la matriz de instrumentos contiene tantos “instrumentos nuevos”


como el número de regresores estocásticos, el estimador puede expresarse de la
forma:

:, (1)
+uø = ¢′! ¢′)

Solución

Sea ! = †® !, es decir, la variación de ! inducida por los instrumentos ¢ (al tener


tantos “instrumentos nuevos” como numero de regresores estocásticos) y †® =
¢(¢ ^ ¢):, ¢′ la demostración es directa.

:,
+uø = ! ^ ! ! ^) (2)

(3)
+uø = ! ^ †® ! :,
! ^ †® )

(4)
+uø = ! ^ ¢(¢ ^ ¢):, ¢′! :,
! ^ ¢(¢ ^ ¢):, ¢′)

(5)
+uø = ¢ ^ ! :, ^
¢ ¢ ! ^¢ :,
(! ^ ¢)(¢ ^ ¢):, ¢′)

:, (6)
+uø = ¢′! ¢′)

b) Demuestra que: èSUê + = +. Se deberá ser explícito en cuanto a las Leyes de


Grandes Números y teoremas utilizados. Explica qué significa y por qué es
importante este resultado.

Solución

:, (7)
+uø = ¢′! ¢′)

:, ^ (8)
+uø = ¢′! ¢ !+ + Ÿ
:, ^ (9)
+uø = + + ¢′! ¢Ÿ

(10)
èSUê +uø = èSUê [+ + ¢ ^ ! :, ^
¢ Ÿ]

Por el Teorema de Slutsky8 es posible expresar el límite en probabilidad de una


función como la función de los límites en probabilidad.

èSUê +uø = èSUê + + èSUê ¢ ^ ! :, ^


¢Ÿ (11)

:,
1 ^ 1 ^ (12)
èSUê +uø = + + èSUê ¢! ¢Ÿ
] ]

El Teorema de Khinchine9 sostiene que en una muestra aleatoria, promedio


muestrales tienden a expectativas conforme n crece. Así, el segundo término de la
derecha puede ser re-expresado:

èSUê +uø = + + " ¢ ^ ! :,


"(¢ ^ Ÿ) (13)

Y dado que por definición la matriz de instrumentos carece de correlación


contemporánea con el término de error, entonces " ¢ ^ Ÿ = 0 y el segundo termino
de la derecha tiende en probabilidad a cero. Con ello, se demuestra la consistencia
de +uø .

èSUê +uø = + (14)

Problema 5.2

Considera los siguientes modelos:

i. …RhUSUYRY* = +ZY0[* + £*^ Ω + 4*


ii. `Z]YUêZ]√V* = +TZ]YèTVê* + 6*^ Ω + A*
iii. ∞V{cRSRTUV* = +ZY0[èTVê* + ì*^ Ω + L*

En el primero, se busca encontrar el efecto de la educación formal sobre la habilidad


cognitiva. En el segundo, el objetivo es evaluar si el rendimiento promedio del salón de


8
El teorema de Slutsky señala que el límite probabilístico de un producto puede ser expresado como
el producto de los límites probabilísticos.
9
Ley Débil de Grandes Números.
clase al que pertenece el estudiante tiene algún efecto sobre su rendimiento (conocido
como peer-effect). En el tercero, el objetivo es determinar si existen externalidades a la
educación (y se propone regresionar el logaritmo del ingreso laboral sobre los años de
educación promedio en la localidad donde reside el individuo).

a) Discute los potenciales problemas de endogeneidad que podrían impedir la


obtención de un estimado consistente de β en estas regresiones. Nota que, de
ser el caso, tu respuesta pasa por discutir los posibles controles incluidos en la
regresión.

Solución

i) En esta ecuación existe básicamente problemas de endogeneidad por


causalidad bidireccional y por heterogeneidad no observada (al margen de
la inconsistencia que resulta de la probable presencia de error de medida
en la proxy de habilidad). En primer lugar, si bien alguien con más
educación puede haber desarrollado sus habilidades, es probable que la
persona haya podido lograr concluir dichos años de educación realmente
porque tenía (inicialmente) un nivel de habilidades mayor. El problema se
reduce al segundo tema que es la heterogeneidad no observada. Si bien la
habilidad medida en cierto momento depende de la habilidad innata
(latente), los años de educación también dependen de esta habilidad
latente: por ello, la endogeneidad.

ii) En esta ecuación el regresor “rendimiento promedio del aula” es un


regresor estocástico ya que es probable que existan factores no
observables que afecten el rendimiento del niño analizado (y, por tanto,
estén en el término de error de la ecuación) que también influyan en el
rendimiento de los compañeros de clase (correlación con X).
Características del docente, de la infraestructura y cambios en el aula
(donde se desenvuelven todos los niños del aula) podrían ser algunos de
estos factores.

iii) De manera similar a las anteriores, se trata de un problema de


heterogeneidad no observada. Es probable que existan características
comunes al área donde reside el individuo analizado que influyen en su
salario, pero, también, a los años de educación que pudiera alcanzar
cualquier persona que resida también ahí. Un ejemplo es el nivel socio
económico. Es probable que una persona que vive en un distrito con un
nivel socio económico promedio alto, tenga un salario alto por ello mismo
y, también, sea un motivo para que las personas en dicha zona obtengan
grados educativos altos.

b) Considera ahora los siguientes instrumentos propuestos, respectivamente, para


cada uno de los tres regresores de interés.
• Importancia dada por los padres a la educación del individuo durante la
secundaria.
• Número de hermanos promedio que tienen los alumnos del salón.
• Nivel de escolaridad en la misma localidad hace dos décadas.

Evalúa cada uno de estos instrumentos.

Un instrumento idóneo debe satisfacer las restricciones de exclusión y


relevancia. Es decir, no debe estar correlacionado con el error, pero si con el
regresor a ser instrumentalizado; influir en la variable dependiente solo a través
de su impacto en la variable instrumentalizada.

Solución

i) Este instrumento cumple con la restricción d relevancia en tanto es razonable


que una mayor importancia por parte de los padres hacia la educación del
individuo durante la secundaria conllevará a que el niño sea capaz de cursar
una mayor cantidad de años de educación. Respecto a la condición de
exclusión, esta se satisface siempre que se tenga una proxy adecuada de
esta importancia. No habría problemas por ejemplo de NSE, porque el NSE
afecta la habilidad del niño básicamente a través de la importancia que le
den los padres al niño. Una posibilidad sería el hecho de que tu habilidad
innata (inobservable) estuviera condicionando el interés que tus padres
tengan (que se preocupen más porque parecías ser menos hábil). Pero en
caso este interés sea exógeno al niño, si se cumpliría la restricción de
exclusión.

ii) Este es un buen instrumento. El número de hermanos promedio de los


alumnos del salón (en principio) podría influir en el rendimiento del alumno
en cuestión solo a través del impacto que tuviera en el rendimiento de los
demás alumnos del salón.

iii) Este podría satisfacer la restricción de exclusión (no correlación con el


error) pero probablemente no la de relevancia; por temas de migración y
desarrollo de las ciudades es posible (aunque puede ser defendible,
depende del caso) que el nivel de escolaridad de hace dos décadas no
tenga relación con el nivel de escolaridad actual, ergo, menos en el ingreso
actual de un individuo de dicha zona.

Problema 5.3

Considere un modelo donde se pretende explicar el rendimiento escolar a partir del


rendimiento promedio del aula al que pertenece el estudiante, y otras variables de control.
Suponga que este rendimiento promedio se construye sin incluir la nota correspondiente al
alumno en cuestión.
a. Plantee la expresión matemática para este modelo, indique la forma que tiene el
estimador MCO, halle su límite en probabilidad, e indique por qué es que éste podría
diferir del parámetro.

Solución

`*,P = öâ + ö, `èTVêP + ö# ¢*,P + Ÿ*,P (1)

ö − ö = ! ^! :,
! ^Ÿ (2)

èSUê (ö − ö) = " ! ^ ! :,
"[! ^ Ÿ] (3)

En este caso èSUê ö − ö ≠ 0 ya que "[! ^ Ÿ] ≠ 0; es decir, se rompe el supuesto


de ausencia de correlación contemporánea entre los regresores y el error. Es
sencillo pensar en factores no observables que influyen tanto en el rendimiento de
un alumno y del rendimiento promedio de sus compañeros de aula. Aun cuando la
nota del propio alumno no esté incluida en dicho promedio, cualquier variable que
capture características del entorno (del aula), de los docentes a cargo del aula, etc.
influyen tanto en el alumno en cuestión como en sus compañeros de aula. Ello se
traduce en correlación contemporánea entre el regresor y el término de error de la
ecuación.

b. Suponga ahora que se desea instrumentalizar la variable “rendimiento promedio”.


Explica el rol que debe cumplir el instrumento en el contexto específico de la
pregunta. Proponer un instrumento.

Solución

Un instrumento que permita estimar consistentemente el efecto del rendimiento


promedio en el rendimiento de un alumno (el impacto del peer effect) debería cumplir
con que solo impacta en el rendimiento del niño a través del impacto que tiene en el
rendimiento de sus compañeros. Es decir, que impacte en el rendimiento de los
compañeros y que no impacte, de manera directa, al rendimiento del alumno en
cuestión.

Candidatos a instrumento podrían ser características promedio de los hogares de


los compañeros. Por ejemplo, el orden de nacimiento promedio de los compañeros,
un índice de recursos educativos promedio en los hogares de los compañeros, etc.
Estos, si bien influyen directamente en el rendimiento promedio de los compañeros
de aula, no deberían tener impacto directo en el rendimiento de algún niño que no
sea quien conforma el hogar.

c. Otro investigador pretende agregar un regresor que identifique si es que el niño


cuenta con un hermano que le ayude con las tareas. ¿Cabe sospechar
endogeneidad en este regresor? ¿Por qué? ¿Qué instrumento propondrías?
Solución

El utilizar dicha variable como regresor adicional implica endogeneidad ya que


conlleva el problema de causalidad bidireccional. Por un lado, es posible que el que
el niño tenga un hermano que le ayude genere una mejora en su rendimiento. Por
el otro, es posible que el hermano lo ayude justamente porque no está
desempeñándose de manera satisfactoria en la escuela (además del hecho de que
los rendimientos del alumno y del hermano están afectados por características
inobservables en común).

Un instrumento para el regresor propuesto podría ser el número de horas


académicas que recibe (en la escuela) el hermano del alumno.

Problema 5.4

El gobierno ha aprobado la implementación de un programa de ayuda social en la Sierra.


Este programa, denominado Canasta, consiste en entregar transferencias a las madres
pobres de Tatooine para mejorar la nutrición de sus hijos.

Para acceder a este programa, el único requisito es que algún miembro de la familia se
presente físicamente en alguna agencia del Gobierno, haga la solicitud de participar en el
programa y demuestre su condición de pobreza. Sabe además que el sistema para
determinar si un individuo es pobre no presenta fallas; es decir, no hay gente que se pueda
hacer pasar como pobre para recibir el programa si no lo es realmente.

Después de algunos años de mantener este programa, el Gobierno comenzó a


cuestionarse acerca de su efectividad, por lo que decidió llevar a cabo una evaluación de
impacto. Como el objetivo del programa es la nutrición, se eligió como medida de impacto
la estatura de los niños por edad. Así, se corrió una regresión de la variable ℎR_][ℎQ
(variable que mide la diferencia entre la altura de un niño de x años y la altura que debería
tener a esa edad, en desviaciones estándar) sobre una dummy (D) que toma el valor de 1
si el individuo recibió el programa y 0 de otro modo; y otros controles relevantes. A
continuación se presentan los resultados de esta regresión.

Regresión MCO de ]^__`]a sobre dummy de tratamiento y controles

Variables ha_nchs
Independientes
Ø 0.248
0.000
èZTQV]RQ -0.009
0.039
VTYZ]_] -0.063
0.026
V[0èRYV_™ZÊZ -0.036
0.103
ZY0[R_™ZÊZ 0.005
0.010
U]{TZQVQ_ℎV{RT_™ZÊZ 0.0001
0.107
[V]Q√R]√Z -0.084
0.063
Observaciones 4000
R2 0.056

a. ¿Considera que el coeficiente asociado a la variable D es un estimador


consistente del efecto del programa Canasta? ¿Por qué? Mencione claramente
los problemas que presenta esta regresión y que podrían afectar a la consistencia
del estimador.

Para medir el impacto del programa, se decidió hacer una regresión en 2 etapas,
utilizando dos instrumentos: número de oficinas operadoras del programa en el
municipio de residencia y la distancia desde el hogar de la familia hasta la oficina
administradora más cercana. Además, los encargados de la evaluación
decidieron hacer un test de Hausman para evaluar si el procedimiento realizado
era el correcto. A continuación se presentan sus resultados:

Regresión en dos etapas: Primera etapa

Variables D
Independientes
YUQ√R][UR -0.00004
0.000
èZTQV]RQ -0.021
0.000
VTYZ]_] -0.097
0.000
V[0èRYV_™ZÊZ 0.075
0.000
ZY0[R_™ZÊZ -0.005
0.006
U]{TZQVQ_ℎV{RT_™ZÊZ 0.0003
0.001
VÊ_Vè 0.033
0.000
[V]Q√R]√Z 0.452
0.000
Observaciones 4000
R2 0.054

Regresión en dos etapas: Segunda etapa

Variables ha_nchs
Independientes
Ø 0.210
0.030
èZTQV]RQ -0.010
0.040
VTYZ]_] -0.059
0.031
V[0èRYV_™ZÊZ -0.033
0.158
ZY0[R_™ZÊZ 0.005
0.016
U]{TZQVQ_ℎV{RT_™ZÊZ 0.0001
0.097
[V]Q√R]√Z -0.066
0.283
Observaciones 4000
R2 0.054

Test de Hausman
^ :,
Ó = +*> − +¶ß• (% +*> − % +¶ß• +*> − +¶ß•

†TVh > Ó = 0.9994

Solución

Asumiendo que la especificación del modelo es correcta, el principal problema de


endogeneidad es que la muestra no es aleatoria. En efecto, para participar en el
programa es necesario que las personas vayan a registrarse; es decir hay un
costo de participación. Por tanto, sólo participaran aquellas familias cuyo
beneficio supere este costo. El problema es que puede ocurrir que este grupo de
familias sea sistemáticamente distinto; por ejemplo, puede ocurrir que las madres
que vayan a registrarse tengan mayor motivación. Esta característica no solo
afecta la participación en el programa; sino también la crianza del niño, y, por
tanto, su estado nutricional (talla y peso). Es decir, hay endogeneidad. Al
problema de que la muestra no sea aleatoria se le denomina sesgo de selección.

b. Discuta la validez de los instrumentos propuestos por el investigador, y a partir


de la información presentada, determine si el coeficiente de “D” en la regresión
en dos etapas es un estimador consistente del efecto del programa Canasta
Espacial.

Solución

Es factible pensar que ambos sean buenos instrumentos. En primer lugar, la


distancia así como el número de oficinas administrativas parecen cumplir con la
propiedad de relevancia. Tomando en cuenta cómo es el costo de participación,
a medida que sea menor la distancia y haya más oficinas; es más probable que
la familia participe en el programa. Asimismo, también parece cumplir la
exogeneidad ya que es poco probable que estas variables estén correlacionadas
con características no observables de la madre. Además, ambos instrumentos no
afectan directamente la talla por edad; sólo lo haría a través de la participación
en el programa.

Problema 5.5

Antes de construir el estimador de variables instrumentales, resulta conveniente aplicar la


prueba de Haussman. Ésta ayudará a determinar si es que existe o no correlación
contemporánea entre los regresores y el error del modelo.

Solución

El test de Haussman permite evaluar la presencia de correlación contemporánea entre los


regresores y el modelo, dado un conjunto de instrumentos propuesto ex-ante. Es decir, si
la matriz de instrumentos propuesta sigue sin ser exógena (por ejemplo), el test de
Haussman rechazara que el høu sea consistente y hEFG no lo sea. La prueba indicaría que
ambos son igual de inconsistentes (lo cual podría confundirse con que no existe problema
de endogeneidad, es decir, con que no existe correlación contemporánea entre los
regresores y el error del modelo).

Problema 5.6

De aceptarse la hipótesis nula del test de Haussman, puede concluirse que tanto el
estimador de mínimos cuadrados ordinarios como el de variables instrumentales son
igualmente consistentes. Por lo mismo, esto será evidencia a favor del hecho de que se ha
elegido un buen conjunto de instrumentos.

Solución

Falso. El test de Haussman es una prueba de Wald que contrasta si dos estimadores son
asintóticamente equivalentes. Intenta comparar las propiedades del estimador MCO y del
estimador VI (generalizado) bajo homocedasticidad.

…â : 5 = !+ + Ÿ, Ÿ ~ UUY 0, C # °a [V] " ! ^ Ÿ = 0 (1)

(2)
…, : 5 = !+ + Ÿ, Ÿ ~ UUY 0, C # °a [V] " ¢ ^ Ÿ = 0

Bajo …â tanto hEFG como bYZ son consistentes. Sin embargo, hEFG es más eficiente (seria
el MELI); por lo tanto, de aceptarse la hipótesis nula, debería ser el elegido. En contraste,
bajo la …, , bYZ preserva la consistencia mientras que bb%c se torna inconsistente. No
obstante, la prueba de Haussman parte del supuesto de que los instrumentos utilizados
previamente son buenos; es decir, son tanto relevantes (alta correlación con la variable
endógena) como exógenos (correlación de cero con el error).
Al evaluar la diferencia asintótica entre ambos estimadores, es posible que ambos sean
igual de inconsistentes lo cual podría sugerir (erróneamente) que se estarían utilizando un
conjunto inadecuado de instrumentos (ya que VI no representa una ganancia respecto a
MCO).

Problema 5.7

Un alumno le dice que a otro que bajo ningún motivo el +Xd— será igual al +, el estimador
MCO ecuación por ecuación. El otro alumno, preocupado por tal afirmación contesta
rápidamente que estos dos estimadores serán iguales solo cuando los regresores sean
iguales. Comente y demuestre de ser el caso si alguno de ellos tiene razón.

Solución

La solución de este ejercicio pasa por contar como dos los casos en los cuales ambos
estimadores son iguales.

Caso 1: perturbaciones no correlacionadas

Cuando las ecuaciones aparentemente relacionadas en verdad no lo están entonces el


estimador MCO es el MELI. Las correlaciones entre las ecuaciones eran lo que justamente
permitía mejorar la eficiencia en la estimación de una ecuación utilizando información de
otra de las ecuaciones. Si la relación entre las ecuaciones es cero, es decir, si la correlación
es de cero, entonces no se podrían mejorar los resultados utilizando los datos de un solo
grupo.

Caso 2: mismos regresores

Cuando los regresores son los mismos en todas las ecuaciones, entonces aplicar MCO a
cada ecuación es equivalente a aplicar SUR al sistema.

Problema 5.8

En un sistema de ecuaciones simultáneas, si el tamaño de muestra es bastante grande, no


es necesario aplicar otros métodos de estimación debido a que el estimador MCO –si bien
no es eficiente-si es consistente.

Solución

Lo que hacen las ecuaciones simultáneas es obtener mayor eficiencia en la estimación de


un conjunto de observaciones, justamente para aprovechar la estructura de la matriz de
varianzas y covarianzas. Cuando se estima el sistema por MCO se debe entender que éste
no es el MELI debido a la presencia de heterocedasticidad, sin embargo es aún consistente
bajo determinados supuestos. Debido a que ante muestras grandes se dará prioridad la
insesgadez y no a la eficiencia, se preferirá el estimador MCO (además que este requiere
supuestos menos fuertes para la consistencia).
Problema 5.9

A medida que la correlación de los errores de las ecuaciones crece, la ganancia en


eficiencia del estimador SUR disminuye respecto al estimador MCO.

Solución

Falso. A medida que la correlación entre los errores crece, la ganancia en eficiencia es
mayor para el estimador SUR, debido a que aprovecha justamente esa correlación usando
las estructurar que existen entre las unidades de observación en el tiempo. Dicho de otro
modo, a mayor correlación entre los errores, el problema de ineficiencia de MCO crece; por
lo que al utilizar el estimador SUR, la ganancia en eficiencia es cada vez mayor.
6. Bibliografía

Castro, J.F. y Roddy Rivas-Llosa; 2005. Econometría Aplicada. Biblioteca Universitaria,


Centro de Investigación de la Universidad del Pacífico.

Greene, W.; 1999. Análisis Econométrico. Pearson Educación, tercera edición.

Kennedy, P.; 1993. A Guide to Econometrics. The MIT Press, tercera edición.

Stock, J. y M. Watson.; 2006. Introduction to Econometrics. Addison-Wesley, segunda


edición.

Wooldridge, J.; 2006. Introductory Econometrics. A modern approach, Edit. Thomson,


segunda edición.