Você está na página 1de 237

Econometría II

Notas de Clases

José Miguel Benavente H.1

10 de marzo de 2008

1 INTELIS, Departamento de Economía. Universidad de Chile. e-mail : jbe-


naven@econ.uchile.cl. Quisiera agradecer la eficiente ayuda de Emerson Melo en la tran-
scripción de estos apuntes como también los comentarios de varias generaciones que han
tomado este curso previamente. Todos los errores son responsabilidad del autor.
Capítulo 1

Introducción al Curso

1.1. Resumen
1. Conceptos y Metodología en Econometría

2. Una Nota de Precaución

1.1.1. Referencias
D.F. Hendry Dynamic Econometrics (1995) Capítulo 1.

J. Kmenta Elements of Econometrics (1986) Parte 1.

P. Kennedy A Guide to Econometrics (1997) Capítulo 1.

C. Mukherjee, H. White, M. Wuyts Econometrics and Data Analysis for


Developimng Countries (1998).

Dos artículos útiles:

C.L. Gilbert "Professor Hendryťs Methodology". Oxford Bulletin of Eco-


nomics and Statistics (1986, Vol 48).

D.N. McCloskey y S.T.Ziliak "The Standard Error of Regresions". Journal


of Economic Literature (Vol 34, Marzo 1996)

1
1.2. Conceptos y Metodología en Econometría

1.2.1. Objetivos

La econometría está relacionada con la medición de relaciones económicas me-


diante el uso de métodos y técnicas de estimación de la inferencia estadística clási-
ca. POr su lado, la economía matemática está relacionada con la formalización
de la teoría económica sin preocuparse de los problemas estadísticos asociados a
la inferencia a partir de los datos. La econometría pretende principalmente cerrar
la brecha que existe entre la teoría económica y los sistemas económicos reales
los que son pueden ser representados por datos.

1.2.2. Uso de la Econometría

Generalmente la econometría tiene tres propósitos relacionados:

1. Cuantificación: Aplicación de métodos para cuantificar relaciones con in-


terés económico. En otras palabras, se espera obtener de los datos aquellos
valores de los parámetros del modelo teórico, el que creemos representa la
teoría económica subyacente y que ha generado los datos observados. Por
ejemplo, si consideramos una función de demanda lineal que tiene la sigu-
iente forma:
Qt = α0 + α1 Pt + α2 Yt + µt (1.1)
la estimación está relacionada con el proceso de derivación de los valores
de α0 , α1 y α2 . Esto es un proceso intrísicamente mecánico. Existen nu-
merosos métodos para atacar este problema y la capacidad actual de los
computadores hacen de esta una tarea sencilla.

2. Inferencia: Habiendo obtenido los estimadores de α0 , α1 y α2 querremos


saber ahora si estos estimadores son una buena aproximación de la verdad,
es decir, la “verdadera” aunque no observable relación inherente (condi-
cional) entre Q, P e Y. Este aspecto de la econometría hace un uso intensivo
de la teoría clásica de inferencia estadística.

3. Predicción y Simulación: Suponga que una teoría dada es apoyada por


la información existente (i.e. los datos), podríamos desear predecir el com-
portamiento de la economía ahora sobre una muestra diferente. Esta podría

2
ser la conducta de un grupo diferente de agentes económicos o para los mis-
mos agentes pero sobre un período distinto. No obstante, la aplicación mas
común es la predicción de conductas futuras.

Una Nota de Precaución : Teoría y datos están íntimamente ligados ; los he-
chos no existen en el vacío, estos son distinguidos e interpretados por la teoría.
Los "hechos"en este caso son representados por los datos que podemos recolec-
tar. La manera en que los recolectamos, cómo medimos el fenómeno económico
inevitablemente está condicionado o guiado por la teoría, aquella que utilizamos
para especificar los modelos econométricos.

Esto produce una gran tensión dentro de la econometría dado que uno de
los objetivos es el uso de modelos econométricos y los datos para evaluar teoría
rivales como si los datos fueran independientes de la teoría. La pregunta que
continuamente los investigadores se hacen es: ¿cuál es el rol que tiene los datos en
el proceso de la comprensión económica?, ¿cómo podemos mantener el balance
entre ser fieles a la a la teoría y usar datos para “calibrar” el modelo teórico, por
una parte, y por la otra, mantenerse agnóstico acerca de la teoría y usar los datos
para refinar (o incluso definir) nuestra visión teórica del mundo?. Está tensión
está en el centro del debate metodológico en esta rama científica y aún no ha sido
resuelto.

1.2.3. Una Metodología Econométrica

La metodología adoptada en este curso comienza con los trabajos pioneros


de Dennis Sargan en 1960 la que se ha hecho mas popular con los trabajos con-
temporáneos de David Hendry y sus colegas. Esta metodología es probablemente
aquella que domina la econometría en Inglaterra y Europa y es comúnmente
referida como el “LSE Approach”. Estas notas brevemente discutirán los princi-
pales elementos y conceptos asociados a esta metodología . Para un mayor detalle
de ésta, se puede revisar el Capítulo 1 de Hendry (1995). Esta metodología no
ha estado exenta de críticas, particularmente en USA, donde generalmente (y
erróneamente, según mi percepción) ha sido caricaturizada como mostrando de-
masiado “agnosticismo” teórico.

Background. Los primeros años de la econometría (entre los 30s y los 50s)
estuvieron concentrados principalmente en asuntos relacionados con la obtención
de los estimadores, lo que , antes de la llegada de los computadores personales,
era una tarea monumental. De tal forma, la metodología econométrica de ese en-
tonces trabajaba bajo el supuesto que el modelo a estimar era conocido y además

3
era el correcto. La pobre performance de estos modelos sumado al hecho de la
fragilidad de los estimadores econométricos y las inferencias obtenidas de ellos,
representó un desafío significativo a la econometría y proveyó un estímulo para
la re-examinación de la metodología econométrica. Ya a los comienzos de los 70s
se observa un creciente cuestionamiento acerca de la metodología utilizada en la
econometría.
La filosofía subyacente a los acercamientos contemporáneos de la econometría
comienzan por revisar los cuestionamientos acerca de la “computación” al notar
que, en general, la estimación del modelo es fácil, pero que la especificación y
evaluación del modelo es difícil. De esta manera, la econometría es mas bien un
proceso de descubrimiento mas que uno de estimación y el debate econométrico
consiste en el desarrollo de un proceso eficiente de descubrimiento, diseño y eval-
uación.
Para formalizar un poco mas esta metodología distinguiremos cuatro niveles de
información disponible al investigador (Hendry, 1995, Capítulo 1)

Nivel A Teoría de Probabilidades en la cual la estructura del proceso generador


de datos (DGP) subyacente (normalmente estocástico) es conocido con certeza y
la verosimilitud (o probabilidad) de todos los posibles eventos puede ser deducida
directamente de la teoría.

Nivel B Teoría de Estimación donde la forma general del DGP es conocida pero
su calibración (i.e. valores de los parámetros) es desconocida. Aquí, la verosimil-
itud de todos los posibles eventos puede ser sólo inferida a partir de las observa-
ciones empíricas (datos) con la ayuda de la teoría desarrollada en el Nivel A.

Nivel C Teoría de Modelamiento donde la estructura del DGP es desconoci-


da. La única estrategia que se puede seguir aquí es hipotetizar características
alternativas del DGP (referidas como modelos) y desarrollar métodos para deter-
minar aquel modelo mas proclive de haber generado los datos observados.

Nivel D Teoría de Predicción donde ni el DGP ni la realización"de los datos


son observados. La teoría de predicción se preocupa de la evaluación de modelos
rivales derivados en el Nivel C.

Basados en esta caracterización, esta metodología consiste en cinco pasos in-


terrelacionados. Estos son los siguientes:

1. condicionamiento y marginalización del DGP


2. estimación de modelos no restrictivos y “sobreparametrizados”

4
3. simplificación del modelo sobreparametrizado
4. testeo e identificación de modelos “congruentes”
5. anidamiento de modelos rivales

Modelamiento econométrico es, de esta forma, un proceso iterativo de marginal-


ización y condicionamiento progresivo del conjunto de datos para definir el mod-
elo, y el testeo y validación de las restricciones de marginalización y condi-
cionamiento asumidas.
El proceso de detiene sólo cuando el investigador ha identificado lo que común-
mente se denomina un modelo congruente. Un modelo congruente es aquel que
puede ser interpretado en términos de relaciones económicas derivadas de la teoría
(consistencia teórica) y que también describe las características de los datos en
forma estadísticamente robusta (admisible por los datos). Este approach es referi-
do normalmente como un modelamiento del tipo general-a-específico (general-to-
specific).

1. El Proceso Generador de Datos (DGP) y modelos condicionales.


Esta metodología está basada en la noción de que los datos económicos son
generados por un proceso extremadamente amplio y complejo (i.e. la estruc-
tura de la economía y las interacciones de los agentes con esta estructura)
el que no es o no puede ser comprendido completamente. A este proce-
so complejo lo denominaremos como Proceso Generador de Datos (DGP).
En general, la tarea del econometrista es la de caracterizar las principales
propiedades de este DGP a través de la construcción de modelos que sean
consistentes con la teoría y estadísticamente válidos.
El conjunto de datos en economía consiste, típicamente, en una muestra de
observaciones relativamente pequeña de un gran número de variables. De
esta forma, para que sea manejable, el análisis debe concentrarse en un sub-
conjunto de estas variables. El DGP puede ser pensado como la distribución
de probabilidades conjunta de un vector de variables V y un conjunto de
parámetros Θ los que describen las relaciones (aun desconocidas) entre las
variables.
Podemos describir el DGP para V (para el período t = 1 ....T) como:

Vt = DV (Vt |Θ, V0 ) = ΠTt=1 DV (Vt |Θ, Vt−1 ) (1.2)

Sin embargo, supongamos que estamos interesados sólo en un aspecto es-


pecífico del funcionamiento general de la economía, por ejemplo en la con-
ducta de consumo del sector privado. Podremos definir un vector de parámet-
ros de interés específico como λ1 (escogido dada su relevancia teórica en el

5
problema analizado por el investigador). Por ejemplo, λ1 podría incluir la
propensión marginal a consumir.
El modelo ha ser estimado, que contiene sólo los parámetros de interés λ1 ,
que son un subconjunto de Θ, es obtenido mediante un proceso de factor-
ización de la distribución conjunta.
Cabe señalar que para cualquier par de variables aleatorias m y n, su dis-
tribución de probabilidades conjunta D(m,n) puede ser factorizada como:

D(m, n) = D(m|n)D(n) D(n|m)D(m) (1.3)

Volviendo al caso discutido en (2), supongamos que Vt = {Xt , yt , wt } donde


w es el conjunto de variables no relevantes para el problema y donde X =
( y , z ) es el conjunto de variables relevantes. Entonces el DGP puede ser
factorizado en sus procesos condicionales y marginales para cada t.

DV (Vt |Vt−1 , Θ) = DX|W (Xt |wt , Vt−1 , φ1 )DW (wt |Vt−1 , φ2 ) (1.4)

donde Θ = {φ1 , φ2 }. Una vez que el investigador a reducido el alcance


del problema al marginalizar la variables “ruidosas”, w, de esta manera,
factorizaciones posteriores se deben realizar para llegar a la especificación
preferida.

DX (yt , zt |Xt−1 , φ) = Dy|z (yt |zt , Xt−1 , λ1 )Dz (zt |Xt−1 , λ2 ) (1.5)

La ecuación (5), donde φ = {λ1 , λ2 } expresa la variable de interés mode-


lada (i.e. independiente), y, sólo en términos de la variables explicativas ,
z, su historia y los parámetros de interés. Todos los modelos econométri-
cos son esencialmente modelos condicionales de la forma especificada en (5)
obtenidos mediante este proceso de factorización del DGP ya sea en forma
explícita o, como suele ocurrir comúnmente, de forma implícita. La forma
específica del modelo dependerá de los supuestos impuestos sobre la forma
de la función de distribución conjunta (el DGP).
La marginalización de las variables w (i.e. la validez de exclusión de es-
tas variables) requiere que los parámetros de interés, λ1 , sean una función
solamente de φ1 y además que φ1 y φ2 sean libres de variación. Este pro-
ceso reduce el tamaño del problema y permite al investigador enfrentarse
a un problema manejable. Similarmente, la validez de la versión final del
modelo condicional requiere que la relación entre las variables y y z, pueda
ser descrita sola y completamente en términos de λ1 sin tener que saber
los parámetros del proceso marginal de z .Estos aspectos, conocidos como
exogeneidad, serán discutidos mas adelante en el curso.

2. Estimación. Esto será discutido en la tercera semana

6
3. Simplificación. Claramente, los procesos de marginalización y condicionamien-
to no son únicos. Estos dependerán del problema que se analice y de la
elección por parte del investigador acerca de la descomposición progresiva
del DGP hacia el modelo de condicional final. Ello, obviamente levanta la
pregunta acerca la arbitrariedad del proceso de modelamiento. La respues-
ta a esta pregunta es no, dado que cualquier arbitrariedad es controlada
de tres formas diferentes. La primera, es obviamente la teoría económica:
econometría es una herramienta para informar o probar una teoría. No im-
porta cuan “buena” pueda ser nuestra representación estadística, siempre
estaremos forzados a evaluar los modelos en términos de teoría económica.
Teoría y evidencia no son sustitutos. El segundo control viene en....

4. Testeo Diagnóstico. En el cual la validez estadística del condicionamiento


está sujeta a un testeo riguroso. La falla en los tests implementados entrega
evidencia acerca de la invalidez de las condiciones de exogeneidad asumidas.
Estos aspectos serán analizados entre la quinta y séptima semana de clases.
Un modelo “congruente” es aquel que : a) es interpretable en términos de los
parámetros estructurales de interés; b) coherente con los datos ; c) donde
exista estabilidad en los parámetros de tal forma que el modelo puede ser
generalizable para muestras alternativas.
Si los modelos resultantes no son congruentes (los cuales suele ser la regla al
comienzo de la investigación) el proceso de reducción general-a-específico, al
considerar el condicionamiento, el proceso de simplificación, la especificación
dinámica, etc deberán ser repetidos. La búsqueda de modelos congruentes
es, como se mencionó, un proceso iterativo.

5. Abarcamiento (Encompassing). Como resultado de los pasos (i) a (iv)


habremos desarrollado modelos que son congruentes. Pero cómo los pode-
mos comparar?
El propósito del abarcamiento es la de proveer formalmente una manera de
contrastar un modelo con otro para explicar los datos que se observan. Esen-
cialmente si tenemos dos modelos compitiendo (i.e. dos especificaciones que
persiguen describir la evolución de una variable en particular) deberemos
hacer la siguiente pregunta : creyendo en el Modelo 1, podemos explicar
a lo menos todo lo que el Modelo 2 puede explicar?. De ser así, podemos
decir que el Modelo 1 abarca al Modelo 2. El concepto de abarcamiento
parsimonioso captura la noción de que un modelo simple abarca a uno mas
general. Resulta claro que un modelo que tiene muchos regresores es intu-
itivamente menos “poderoso” que aquel que puede “explicar” lo mismo en
base a una especificación mas simple. En el límite, un modelo que describe
todo, explica nada !!!!

7
Recapitulando : modelamiento econométrico es un proceso iterativo donde las
primeras tres reglas de oro son “Test, Test and Test” (Hendry, 1995).

1.3. Una nota de precaución

Para finalizar estas notas llegamos a lo que probablemente sea la lección mas
importante en econometría, la que puede ser resumida por la siguiente frase: “...
una diferencia puede ser importante sin que necesariamente sea significante, y
una diferencia puede ser significante sin que sea necesariamente importante ...”.
McCloskey y Ziliak (1996) resaltan lo que ellos denominan la “hipótesis alarmante”
de que “ordinariamente en economía, la significancia estadística se considera como
similar a la significancia económica”.
Consideremos el siguiente ejemplo derivado de la teoría de tasas de cambio, en
forma particular, la condición de paridad de poder de compra (PPP):

P P P : P = α + β(EP ∗ ) + ² (1.6)

donde H0 : β = 1.
Suponga que derivamos una estimación puntual de 0.95 para β. Bajo que condi-
ciones podemos rechazar / no rechazar la hipótesis nula?. La respuesta es simple
ya que disponemos de metodologías estandarizadas para construir intervalos de
confianza. Sin embargo, que significa decir que β = 0.95 no es diferente de la
unidad si T = 100 pero lo contrario si T = 1000?. Es realmente diferente de la
unidad?
Pruebas de significancia tratan solamente con errores muestrales (i.e. la precisión
de una estimación) pero altas o bajas significancias estadísticas no necesariamente
determinan cuan importante es la variable. Un valor de β = 0.95 puede ser “sufi-
cientemente cercano” para un economista que investiga, por ejemplo, índices de
estándar de vida entre países. Es claramente diferente de uno para un trader en
los mercados internacionales de divisas.

8
Capítulo 2

Revisión de las Bases Estadísticas


de la Econometría y el Modelo de
Regresión Clásico

2.1. Resumen
1. Estimación: Conceptos Básicos

2. Benchmark: Modelo de Regresión Clásico

3. Apéndice: Algunas Distribuciones Utiles

2.1.1. Referencias
Gujarati: Parte 1

Kmenta: Capítulos 4-7

Greene: Capítulos 3 y 4

Kennedy: Capítulo 2

Mukherjee:Capítulo 2

9
2.2. Introducción

En esta y la clase siguiente nos preocuparemos de revisar dos importantes


actividades de la econometría:

Estimación: el uso de información muestral para obtener estimadores de parámet-


ros poblacionales (basados en supuestos sobre la DGP-Nivel B).

Inferencia: el uso de la teoría de probabilidades y distribuciones con el fin de


inferir los verdaderos valores de los parámetros en función en los momentos esti-
mados para la población ( Nivel A).

Estos dos componentes serán revisados a la luz del modelo clásico de regresión
lineal, piedra angular en la econometría moderna.

2.3. Estimación

Dejaremos para la siguiente clase métodos específicos de estimación donde ex-


aminaremos el método de Máxima Verosimilitud así como el ya conocido método
de Mínimos Cuadrados o el mas novedoso método de los Momentos. Por ahora
nos concentraremos en las propiedades deseables de un estimador general.

Definición 1: Un estimador es un estadístico de la muestra el que entrega infor-


mación acerca de la población.

Supongamos que el parámetro de interés es Θ (el que puede ser la media, varianza,
skewness u otro momento mayor), nos referiremos al estimador como Θ̂. Cada
observación individual se denomina como una estimación de dicho estimador.

1. Propiedades del estimador en muestras finitas. El primer conjunto


de propiedades están relacionadas con la calidad del estimador para una
muestra en particular de tamaño fijo:

a) Sesgo. Un estimador será insesgado si el valor esperado del estimador


es igual al "verdadero"valor poblacional. Así, E(Θ̂) = Θ. De esta man-

10
era, el sesgo de un estimador viene dado por:

Sesgo = [E(Θ̂) − Θ]

b) Eficiencia. Un estimador es eficiente si es insesgado y su varianza es


menor que cualquier otro estimador insesgado.

Lo anterior sugiere que a pesar de que podremos comparar la eficiencia rel-


ativa entre estimadores, no podemos realizar ninguna aseveración definitiva
acerca de un estimador ya que pudiera existir uno aún no descubierto, el
que pudiera tener una varianza menor.

Afortunadamente existe un teorema, el teorema de la Cota Mínima de


Cramer Rao, el que nos permite determinar la cota mínima a la cual
cualquier estimador insesgado puede alcanzar dado que podemos especificar
la forma funcional de la distribución poblacional.

Una medida de la calidad de un estimador, la que combina ambas propiedades


es el Error Cuadrado Medio. Este puede ser definido como :

ECM (Θ̂) = E(Θ̂ − Θ)2 = E[Θ̂ − E(Θ)]2 + [E(Θ̂) − Θ]2

El cual es la suma de la varianza del estimador mas el cuadrado del sesgo.

2. Propiedades límites y asintóticas. Generalmente estamos interesados


en la naturaleza del estimador a medida que la muestra crece en tamaño.
Ello debido a dos razones fundamentales:
Primero, en la mayoría de los casos no podremos decir nada preciso acerca
de las propiedades de un estimador cuando la muestra es pequeña pero sí
podremos derivar resultados (aproximados) acerca del estimador a medida
que la muestra crece. Segundo, a menudo encontramos que necesitamos tra-
bajar con estadísticos (principalmente pruebas estadísticas) las que no son
independientes del tamaño de la muestra. De ser así, necesitamos saber la
manera en que el estimador se comportará a medida que la muestra cambia,
generalmente cuando ésta crece.

Convergencia en Probabilidad
Una variable aleatoria x converge en probabilidad si:

lı́m x = plimx = x∗
n→∞

11
donde x∗ es un valor arbitrario dado, el que se lee “el valor límite en proba-
bilidad es x estrella”. La probabilidad en el límite puede ser reescrita como
sigue:
lı́m P r(x∗ − ² ≤ x ≤ x∗ + ²) = 1
n→∞

El Teorema de Slutsky
Si g(x) es una función continua de x entonces:
plim g(x) = g(plim(X))
El límite de la función es la función en el límite. Notar que esta no es una
propiedad general de las funciones (p.e. Desigualdad de Jensen)1 .
El teorema de Slutsky aplicado a vectores (matrices) aleatorias como tam-
bién a escalares aleatorios es como sigue.
Si plim Wn = Ω, entonces, plim Wn−1 = Ω−1 .

Convergencia en Distribución y Distribuciones Límites


La distribución límite de una variable aleatoria x se denotará por F(x). Di-
remos que la variable aleatoria xn converge en distribución a x, denotado
d
como xn −→ x. La media límite y la varianza límite son simplemente la
media y varianza de la distribución límite F(x). Existen dos resultados que
son necesario destacar: (ver Grenne cap. 4)

d d
Si xn −→ x y plimyn = c entonces xn yn −→ cx

d d
Si xn −→ x y g(x) es cóncava entonces g(xn ) −→ g(x)

Finalmente, en general se da el caso que la distribución límite F(x) de un


variable aleatoria es un punto (a menudo el cero). Hay muy poca informa-
ción en este punto y, en consecuencia, estaremos interesados en estudiar
las propiedades de la variable aleatoria antes de que colapse en esta sin-
gularidad. Ello puede lograrse mediante el uso de una transformación es-
tabilizadora. Por ejemplo, podremos encontrar un estadístico que tenga la
siguiente propiedad:
plimθ̂ = θ
el cual es un punto. Sin embargo, podemos definir una transformación de
tal manera que:
d
z = h(θ̂) −→ f (z)
1
La desigualdad de Jensen sugiere que, en general, E[g(x)] 6= g[E(x)]. Mas específicamente,
cuando g(x) es una función convexa, E[g(x)] ≥ g[E(x)].

12
donde f(z) es una función límite bien definida. Lo anterior, nos permite
introducir nuestra siguiente propiedad para un estimador:

3. Consistencia. Un estimador es consistente si su probabilidad límite ( o en


el límite) es igual al verdadero parámetro poblacional. En otras palabras:

plim(θ̂) = θ

Distribución Asintótica.
Distribuciones límites son de poco uso directo cuando estamos preocupados
por las propiedades de los estimadores derivadas a partir de muestras finitas
de observaciones. En tales circunstancias haremos uso de aproximaciones a
la verdadera (pero desconocida o no computable) distribución mediante el
análisis de la distribución del estadístico a medida en que el tamaño de la
muestra tiende a infinito.
a
xn −→ f (x, n)

4. Sesgo Asintótico. Un estimador se dice que es asintóticamente insesgado si:

lı́m E(θ̂) = θ
n→∞

Si un estimador es insesgado es automáticamente asintóticamente insesgado


también, pero lo contrario no es necesariamente cierto.

2.4. Uso de la Teoría de Distribuciones: Distribu-


ción Muestral de la Media Muestral

Imagine que obtiene una muestra aleatoria de n observaciones provenientes


de una población y que calcula un estadístico, por ejemplo, la media muestral.
Si obtenemos otra muestra podríamos, obviamente, obtener otro valor para este
estadístico. De esta forma , la media muestral es, efectivamente, una variable
aleatoria.

Estamos interesados aquí en derivar la distribución muestral de esta media mues-


tral en los casos en que la variable puede tomar cualquier valor y además puede
provenir de cualquier tipo de distribución.

Teorema 1

13
Si x1 , .., xn son una muestra aleatoria y sabiendo que estas variales son idéntica e
independientemente distribuidas cada una teniendo la misma media µ y varianza
σ 2 , entonces cualquiera que sea la forma de la distribución de X , la distribución
muestral de la variable aleatoria X̄ tendrá una media igual a la media poblacional
2
µ pero con una varianza igual a σn .

Demostración. Definiremos la media muestral como:


n
1X
X̄ = Xi
n i=1

donde X1 , .., Xn son n variables obtenidas de la misma muestra. Se asume que


Xi son i.i.d. Dado que n es constante, se tiene que :
n n
1X 1 X
E(X̄) = E Xi ⇒ E(X̄) = E Xi
n i=1 n i=1

sabemos que en el caso de una función lineal, el valor esperado de una suma es
igual a la suma de los valores esperados. Dado que la media de cada Xi es µ,
entonces:
1 1 nµ
E(X̄) = [E(X1 ) + ... + E(Xn )] = [µ + ... + µ] =
n n n
así, la media de la distribución muestral es igual a la media poblacional. POr otra
parte, la varianza de la media muestral es:
à n ! n
1 X 1 X
2
σX̄ = V ar(X̄) = V ar Xi = 2 V ar[ Xi ]
n i=1 n i=1

dadoPque las P
variables son independientes, sus covarianzas son cero, entonces,
V ar[ Xi ] = V ar(Xi ).

2 1 σ2
σX̄ = [V ar(X1 ) + ... + V ar(Xn )] =
n2 n
2
En resumen: si X ∼ (µ, σ 2 ) entonces X̄ ∼ (µ, σn ).

Teorema 2: Teorema del Límite Central


Si X1 , ..., Xn es una muestra aleatoria de cualquier distribución de probabilidades
con media finita µ y varianza finita σ 2 , entonces:
√ d
n(X̄ − µ) −→ N (0, σ 2 )

14
la que dice que la distribución límite de la media muestral es una Normal.
Existen variadas representaciones de esta última expresión. Por ejemplo, si es-
tandarizamos la variable aleatoria, la distribución límite viene dada por:

n(X̄ − µ) d
−→ N (0, 1)
σ
Si cada variable aleatoria tienen una media en común µ pero con varianzas difer-
entes σi2 , entonces la distribución límite viene dada por:

n(X̄ − µ) −→ N (0, σ¯2 )
d

Finalmente, el teorema central del límite también se puede aplicar en un contexto


multivariado:

Teorema 3: Lindberg-Levy TCL


Si X1 , ..., Xn es una muestra aleatoria obtenida a partir de cualquier distribución
de probabilidades multivariada con un vector de medias finito µy una matriz de
covarianzas Q finita positiva y definida, entonces:
√ d
n(X̄ − textbf mu) −→ N (0, Q)

el que dice que la distribución límite de la media muestral es una Normal (mul-
tivariada).

Los teoremas central del límite nos entregan una indicación acerca de las propiedades
de la distribución límite de la media muestral. Existe un último teorema funda-
mental:

Teorema 4: Distribución Asintótica de la Media Muestral


Si se tiene que : √
n(X̄ − µ) d
−→ N (0, 1)
σ
Entonces, asintóticamente: µ ¶
σ2
X̄ ∼ N µ,
n
El que se denota: µ ¶
a σ2
X̄ −→ N µ,
n
El que dice que la media de una variable aleatoria X es asintóticamente (i.e en
muestras muy grandes) normalmente distribuído con media µ (media poblacional)

15
σ2
y una varianza n
(la que tiende a cero a medida que la muestra crece infinita-
mente).

El teorema central del límite es una piedra angular en la econometría pues nos
permite basar nuestras inferencias acerca de las propiedades de la muestra bajo
el supuesto que su distribución puede ser aproximada por una Normal indepen-
dientemente de la distribución de la población. Ya que la gran mayoría de los
estimadores que se usan en econometría están basados en el TLC, observarán
estas expresiones asintóticas a menudo.

2.5. El Modelo Clásico de Regresión Lineal

Comenzaremos con el modelo simple de regresión lineal bivariado el cual puede


ser derivado como una esperanza condicionada de una distribución normal bivari-
ada (ver ayudantía).
Yi = α + βXi + ²i (2.1)
donde Y es la variable dependiente y X es la variable independiente, α y β son los
parámetros de la regresión y ² es un término de error estocástico. Los subindices
se refieren a las observaciones muestrales i los que pueden ser referidas al tiempo,
a un individuo o una firma.

El modelo de regresión es estocástico en el sentido de que para cada valor de Xi


existe toda una distribución de probabilidades para Yi . La forma de la distribu-
ción de Yi es determinada por la forma de la distribución de ².

El modelo de regresión lineal clásico (CLR) asume un conjunto de premisas acerca


de la forma de (1) y del término de error, haciendo de éste el modelo de regresión
de referencia (benchmark). Cabe señalar que raramente en la práctica la realidad
se ajusta a un CLR, pero la comprensión de su estructura e implicaciones, entrega
un punto de partida para la mayoría de la econometría.

Supuestos del Modelo Clásico de Regresión Lineal


A1. El error, ²i , se distribuye normal. Normalidad.
A2. El valor esperado del término de error, es cero, E(²i ) = 0. Media Cero.
A3. La varianza del error es constante, V ar(²i ) = σ 2 . Homoscedasticidad.
A4. La covarianza del error es cero, Cov(²i , ²j )) = 0. No Autocorrelación.

16
A5. La variable independiente X es no estocástica. X No estocástica

Los supuestos A1 al A4 tomados en su conjunto implican que el término de error


²i está idéntica e independientemente distribuido:

²i ∼ n.i.i.d(0, σ 2 )

Notar que si E(²i ) = 0 entonces se sigue que V ar(²i ) = E(²2i ) y que Cov(²i , ²j ) =
E(²i ²j ) (demostrar ).

Una característica central de estos cuatro primeros supuestos consiste en que el er-
ror es una secuencia de eventos independientes e individualmente insignificantes.
El término de error no contiene información sistemática sobre Y.

El último supuesto necesita un poco mas de explicación. El que la variable X


sea no estocástica, significa que tiene valores fijos en repetidas muestras de tal
manera de que para cualquier muestra de tamaño n:
n
1X
(Xi − X̄)2 6= 0
n i=1

y su límite, a medida que n tiende a infinito es finito. Ello implica de que (i)
los valores de X en la muestra no puede ser iguales y que no pueden aumentar
o decrecer sin límite a medida de que la muestra crece. De ser así, entonces su
varianza no podría ser definida (£por qué? ).

El supuesto de regresores no estocásticos significa que su valor es, ya sea controla-


do totalmente (el diseño experimental) o completamente predecible (en el sentido
probabilístico).

La principal implicancia de todo esto es que E(²i Xj ) = Xj E(²i ) = 0 para todo i,


j. En otras palabras, el producto entre el regresor X y el término de error es cero.
Estos no están relacionados de ninguna manera.

17
Capítulo 3

Estimación y teoría sobre pruebas


estadísticas

3.1. Resumen
1. Estimación de los parámetros en el modelo CLR

Máxima Verosimilitud (MLE)


Mínimos Cuadrados Ordinarios (OLS) - caso especial
Métodos de los Momentos - estimador consistente

2. Inferencia en el CLR

3. Marco General sobre Pruebas Estadísticas

3.1.1. Referencias
Gujarati. Parte 1

Kmenta. Capítulo 6

Greene. Capítulos 4 y 5

18
3.2. Estimación del modelo Clásico de Regresión
Lineal (CLR)

Como se derivó en la Clase 2, el CLR puede ser expresado como:

Yi = α + βXi + ²i (3.1)

Como principal objetivo deseamos estimar y realizar inferencias acerca de la (de-


sconocida) relación entre X e Y (i.e., los parámetros de la distribución condicional
(Y|X). Los primeros dos momentos de la distribución son:

E(Yi ) = E(α + βXi + ²i ) = α + βXi (3.2)

para la media y:

V ar(Yi ) = E(Yi − E(Yi ))2 = E[(α + βXi + ²i ) − (α + βXi )] = E(²2i ) = σ 2 (3.3)

para la varianza. La media de Yi puede ser interpretada como la línea de regresión


poblacional y la varianza describe la dispersión de Yi alrededor de esta línea de
regresión.

Dados los supuestos sobre los errores en el CLR, existen sólo tres parámetros
de interés : los parámetros que describen la media condicional de Y - en este
caso α y β - y los parámetros del término de error. Dado, que por definición,
² ∼ n.i.i.d(0, σ 2 ) el único parámetros desconocido es σ 2 . De esta forma, deseamos
estimar estos tres parámetros a partir de la información muestral. Examinaremos
sólo dos métodos de estimación en detalle : máxima verosimilitud (MLE) y mín-
imos cuadrados ordinarios (OLS). El tercer método de estimación, el método de
los momentos (MM), será revisado brevemente pero lo veremos mas en detalle al
final del curso.

3.2.1. Estimación I : Máxima Verosimilitud

Este método está basado en la simple idea, ya introducida en la Clase 1, en


que podemos pensar las relaciones económicas en términos de un proceso de gen-
eración de datos. Así, un modelo puede ser pensado como una representación
de las principales característricas de este DGP como una distribución conjunta
(condicional) del DGP. Nuestro objetivo en la estimación será la de usar muestras
generadas aleatoriamente a partir de esta (desconocida) DGP de modo de cuan-
tificar estas distribuciones conjuntas basadas en el mínimo número de supuestos

19
posibles acerca de la estructura de este DGP.

La forma más general de estimación puede ser encontrada en el método de Máx-


ima Verosimilitud. Para entender este método es bueno conocer el concepto de
función de verosimilitud.

Definición 1: Función de Verosimilitud.


La función de verosimilitud se define como la distribución de probabilidad conjun-
ta de la muestra. La densidad de cada observación es f (Xi ; θ), donde i = 1 ...... n .
Si las observaciones son independientes, entonces la distribución de probabilidad
conjunta de las n observaciones es:

f (Xi , X2 , ..., Xn ; θ) = f (X1 ; θ) · f (X2 ; θ) · · · f (Xn ; θ)

La que puede ser simplificada como:

f (Xi , X2 , ..., Xn ; θ) = Πni=1 f (Xi ; θ)

Esta distribución de probabilidad conjunta asume que los parámetros son conoci-
dos y que los datos son variables aleatorias. Suponga que notamos que para una
muestra dada, los valores x1 son conocidos y los parámetros desconocidos. La
distribución conjunta dada la muestra puede ser expresada en términos de los
parámetros desconocidos dado los datos, de la siguiente forma:

Πni=1 f (Xi ; θ) = L(θ|X1 , X2 , ..., Xn ) (3.4)

La función L(θ|X) se conoce como la función de verosimilitud. Notar que esta-


mos expresando la verosimilitud en términos de los parámetros (desconocidos)
condicional en los datos (conocidos). Esto es la esencia de la estimación. Con esta
definición de función de verosimilitud en la mano, el método de estimación de los
parámetros de la distribución de probabilidades es una tarea sencilla.

Definición 2: Estimación por Máxima Verosimilitud


Si una variable aleatoria X tiene una distribución de probabilidades f(X) car-
acterizada por los parámetros θ = {θ1 , θ2 , ..., θk } y observamos una muestra
X1 , X2 , ...Xn , entonces los estimadores máximo verosímil de θ1 , θ2 , ..., θk son
aquellos valores de los parámetros que podrían generar la muestra observada con
una mayor probabilidad o frecuencia.

En la función de verosimilitud, los valores de X son fijos - ellos son los que se ob-
serva en la muestra. El método de ML consiste simplemente en escoger los valores

20
de los parámetros que maximizan su valor. En otras palabras, el investigador se
pregunta “que valores de los parámetros para esta (clase de ) distribución puede
ser la mas probable de haber generado esta muestra de datos?”

Ejemplo
La muestra de observaciones X1 , X2 , ..., X10 pudo haber sido creada por cualquier
distribución de probabilidades dado que el rango se extiende desde −∞ a +∞.
Sin embargo, la probabilidad de que X1 , X2 , ..., X10 haya sido generada por la
distribución A o la distribución C es muy baja. Por otra parte, la probabilidad
de que las observaciones hayan sido generadas por la distribución B es muy alta.
Decimos que B es la distribución de máxima verosimilitud (aquella mas proba-
ble) para esta muestra de datos y que los parámetros estimados (de los momentos
) de B son los estimadores máximo verosímiles.
A B
C

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito

Este es un problema de optimización simple que requiere que el investigador


escoja θ1 , θ2 , ..., θk , de tal modo que:
∂L ∂L ∂L
= = ··· = =0 (3.5)
∂θ1 ∂θ2 ∂θk
Estas condiciones de primer orden aseguran un máximo (o mínimo) para la fun-
ción de verosimilitud. Notar que el vínculo natural entre el método de ML y la
discusión metodológica al comienzo del curso respecto a que la econometría es un
proceso de desarrollo de modelos que son coherentes con los datos.

Estimación ML del Modelo de Regresión Clásico Bivariado


En el caso del CRL bivariado tenemos una muestra de n observaciones de Y. Para
poder implementar los métodos de MLE debemos hacer uso del siguiente teorema.

Teorema de Cambio de Variable


Si X tiene un densidad de probabilidades f(X) y si Z es una función de X (de tal
manera que existe un mapeo uno a uno desde X a Z), la densidad de probabili-

21
dades de Z viene dada por:
¯ ¯
¯ dX ¯
¯
f (Z) = ¯ ¯ f (X), dX 6= 0
dZ ¯ dZ
¯ ¯
donde ¯ dX
dZ
¯ es el valor absoluto de la derivada de X con respecto a Z.

Este teorema es particularmente útil en el contexto del CLR donde no conocemos


directamente la distribución de Y pero sí sabemos algo de la distribución de ²
como también sabemos que existe una relación uno a uno de ²i a yi . De esta
manera, podemos escribir:
¯ ¯
¯ d²i ¯
f (yi ) = ¯¯ ¯¯ f (²i ) (3.6)
dyi
Dado que ²i = yi − α − βXi entonces la derivada de y con respecto a ² es igual
a uno y , en consecuencia f (yi ) = f (²i ). Por otra parte, sabemos que la forma
funcional general de una distribución Normal con media µ y desviación estándar
σ es:
1 (X−µ)2
f (X|µ, σ) = √ e− 2σ2 (3.7)
2πσ
Con esto y el teorema de cambio de variables podemos inferir que, bajo los
supuestos del CLR, los valores de Y están normalmente distribuidos y son in-
dependientes. De esta manera, podemos escribir la función de verosimilitud como
sigue:
L = f (y1 ) · f (y2 ) · · · f (yn ) (3.8)
Dado que es mas fácil trabajar con expresiones aditivas, y dado que la función
logaritmo es monótona , entonces la expresión en (8) es equivalente a la siguiente
expresión:
Xn
log(L) = logf (yi ) (3.9)
i=1

Por otra parte, dado que cada yi es normalmente distribuido con media α + βXi
y varianza σ 2 entonces podemos expresar cada f (yi ) (en logaritmos) como:
· ¸2
1 2 1 yi − α − βXi
logf (yi ) = − log(2πσ ) − (3.10)
2 2 σ

y sumando sobre toda la muestra tenemos:


n
n n 2 1 X
log(L) = − log(2π) − logσ − 2 (yi − α − βXi )2 (3.11)
2 2 2σ i=1

22
el cual es la función de verosimilitud en logaritmos para el modelo clásico de regre-
sión. A partir de aquí es sólo necesario diferenciar la función, igualar las derivadas
a cero y resolver los estimadores de ML de los parámetros. Las condiciones de
primer orden son:
n
∂log(L) 1 X
=− 2(yi − α̂ − β̂Xi )(−1) = 0 (3.12)
∂α 2σˆ2 i=1
n
∂log(L) 1 X
=− 2(yi − α̂ − β̂Xi )(−Xi ) = 0 (3.13)
∂β 2σˆ2 i=1
n
∂log(L) n 1 X
=− + (yi − α̂ − β̂Xi )2 = 0 (3.14)
∂σ 2 ˆ
2σ 2 ˆ4
2σ i=1
Resolviendo estas tres condiciones de primer orden encontramos los estimadores
máximo verosímil de los parámetros para el caso de una distribución normal
conjunta. Específicamente, de (12) y (13) podemos obtener:
n
X n
X
yi = nα̂ + β̂ Xi (3.15)
i=1 i=1

n
X n
X n
X
Xi yi = α̂ Xi + β̂ Xi2 (3.16)
i=1 i=1 i=1

Multiplicando (16) por n y sustituyendo α̂n de (15) tenemos:


P P P P
ˆ n( Xi yi ) − ( Xi )( yi ) (Xi − X̄)(yi − ȳ)
βM L = P 2 P 2
= P (3.17)
n( Xi ) − ( Xi ) (Xi − X̄)2
y de (15) tenemos:
n n
1X ˆL1
X
ˆ L X̄
αM
ˆL = yi + βM Xi = ȳ − βM (3.18)
n i=1 n i=n

Como veremos mas abajo, estos son precisamente los mismos estimadores que los
obtenidos por OLS para el CLR.

Finalmente, de (14) podemos derivar una expresión para el estimador MLE de la


varianza. Notando que (yi − α̂ − β̂Xi )2 = (²i )2 entonces multiplicando (14) por
2σˆ4 tenemos: n n
X 1X 2
ˆ
−nσ +2 2 ˆ
(²̂) = 0 ⇒ σ = 2 (ˆ
²i ) (3.19)
i=1
n i=1

23
el que dice que la estimación MLE de la varianza es igual a la varianza muestral.
Notar que la varianza estimada por el método ML será asintóticamente insesgada
pero será sesgada para muestras pequeñas dado que la varianza muestral es de
hecho un estimador sesgado de la verdadera varianza poblacional (el estimador
insesgado de la varianza es:
n
1 X 2
σˆ2 = (ˆ
²i ) (3.20)
n − 2 i=1

(ver Kmenta Capítulos 5 y 6).


Los métodos de ML tienen un amplio uso en la econometría. En particular, este
método no está restringido por la necesidad de que el modelo tenga que ser
lineal en los parámetros. Sólo requiere que podamos derivar una expresión (de
forma cerrada) para la función de verosimilitud. Como discutiremos en una clases
mas adelante, los métodos de MLE pueden manejar eficientemente funciones de
verosimilitud altamente no lineales.

3.2.2. Estimación II : Mínimos Cuadrados Ordinarios

La estimación por OLS ( o MCO) - la mas popular de las técnicas de esti-


mación - es un caso especial de la estimación por ML cuando el modelo es lineal
en los parámetros. El principio subyacente en la estimación OLS está rela-
cionado con la selección de aquellos parámetros de la distribución (desconocida),
específicamente α y β, los parámetros de la media en un modelo de regresión
lineal con el fin de minimizar la suma de las desviaciones cuadradas de los datos
observados de yi con respecto a su media E(yi ). Formalmente, lo que se desea es
minimizar: n n
X X
mı́n S = [yi − E(yi )]2 = (yi − α − βXi )2 (3.21)
α,β
i=1 i=1
Las condiciones de primer orden vienen dadas por:
n n
∂S X ∂(yi − α − βXi )2 X
= = 2(yi − α − βXi )(−1) = 0 (3.22)
∂α i=1
∂α i=1

y también por:
n n
∂S X ∂(yi − α − βXi )2 X
= = 2(yi − α − βXi )(−Xi ) = 0 (3.23)
∂β i=1
∂β i=1

las que son exactamente iguales a las condiciones de primer orden de los esti-
madores ML. No obstante, esto no es un resultado general : es una característica

24
del CLR. Mas tarde veremos casos donde los estimadores OLS no son los mismos
que aquellos MLE.

La línea de regresión muestral yi = α̂ + β̂Xi pasa por el punto (X̄, Ȳ ) y el proceso


de derivar los estimadores de la línea de regresión son usualmente referidos como
regresionar Y sobre X. Notar una vez estimado α y β es un ejercicio trivial estimar
la varianza del CLR el cual puede ser derivado simplemente de (14) al insertar
los valores de α y β. Dado que dos grados de libertad se han "gastado"en la
estimación de α y β, la formula para el estimador de la varianza viene dada por:
n n
1 X 1 X 2
σˆ2 = V ar(ˆ
²i ) = (yi − α̂ − β̂Xi )2 = ²ˆi (3.24)
n − 2 i=1 n − 2 i=1

el cual es un estimador insesgado para el caso de un CLR bivariado (ver de-


mostración en Kmenta pp 228-229).

Propiedades del estimador OLS para el caso del CLR


En la Clase 2 discutimos un conjunto de propiedades deseables para los esti-
madores. En esta sección mostraremos que el estimador OLS para el caso de
un CLR tiene este conjunto de propiedades. Particularmente demostraremos que
este estimador es MELI ( o BLUE en inglés). Por “mejor” entenderemos aquel
que tiene la mínima varianza y por lineal el que requiere que el estimador sea una
función lineal de la muestra de observaciones.(ver notas adjuntas)

3.2.3. Estimación III: Método de los Momentos

Los dos métodos anteriores son relativamente intuitivos y fáciles de aplicar.


También ambos son BLUE para el caso de modelos comunes. Sin embargo, es-
tas propiedades son específicas en el sentido que requieren supuestos específicos
acerca de la función de verosimilitud (p.ej. que ² ∼ N (0, σ 2 )) . En ciertas circun-
stancias encontraremos que estas restricciones son demasiado severas.

Una tercera forma de estimación está basada en el método de los momen-


tos. Este método es el menos restrictivo de los ya vistos pero con el costo de
que a pesar de ser consistente no siempre es eficiente. Sin embargo, bajo ciertas
circunstancias, es “lo mejor que podemos hacer”. Una aplicación práctica de este

25
enfoque es el denominado Método General de los Momentos (GMM).

Algunas aplicaciones donde este estimador es muy útil son las siguientes:

Modelos donde existe autocorelación/ heteroscedasticidad en el término de


error

Modelos autoregresivos con datos de panel

Modelos con selección de muestras

Estos modelos los revisaremos en la segunda mitad del curso. Mientras tanto,
una introducción a nivel intuitivo. Primero, algo de notación. En general, nos
referiremos al k-ésimo momento de una variable aleatoria como:
n
1X k
mk = X
n i=1 i

y a su k-ésimo momento central como:


n
1X
mk = (Xi − X̄)k
n i=1

Suponga que deseamos estimar los parámetros de la distribución de una variable


aleatoria y podemos describir su valor esperado como:

E(yi ) = µ (3.25)

La pregunta que surge naturalmente es cómo estimamos µ. De la ecuación anterior


podemos construir una “condición de momento”:

E(yi − µ) = 0 (3.26)

la cual tiene su contraparte muestral como sigue:


n
1X
(yi − µmm
ˆ )=0 (3.27)
n i=1

Así, µmm
ˆ es aquel valor que satisface la ecuación (27) es el estimador por mo-
mentos de µ.

26
Considere ahora el caso de CLR/OLS. Podemos imponer una condición de mo-
mentos, por ejemplo que E(Xi ²i ) = 0. El equivalente muestral es:
n n
1X 1X ˆ )=0
Xi ²i = Xi (yi − Xi0 βmm (3.28)
n i=1 n i=1

El estimador de β es nuevamente aquel que satisface la condición de momento.


Notar que este es simplemente el estimador OLS, el cual también es un estimador
de momentos. Todos los demás estimadores (GLS, MLE) son también métodos de
estimaciones de momentos. Notar, no obstante, que no hemos dicho nada acerca
de la distribución del término de error o que el modelo es lineal.

Una característica general del método de los momentos es que deben existir a
lo menos el mismo número de condiciones (independientes) de momentos (i.e.
ecuaciones) como el número de parámetros desconocidos a estimar. Suponga que
tenemos mas ecuaciones de momentos que el número de parámetros a estimar.
Si es ese el caso requeriremos un método que combine eficientemente las condi-
ciones de momentos. Este es el llamado Estimador General de Momentos
(estimador GMM) que los discutiremos en detalle mas adelante.

3.3. Inferencia Estadística y Pruebas de Hipótesis


para los Parámetros en el CLR
1. Dado que α y β son combinaciones lineales de variables normales indepen-
dientes yi , sabemos que entonces están normalmente distribuidos.

2. Dado que los estimadores son insesgados, entonces la media del estimador
es igual al verdadero valor del parámetro.

3. De la derivación de las propiedades BLUE de los estimadores, conocemos


la varianza de α y β. Además sabemos que:
· µ ¶¸
2 1 X̄ 2
α̂ ∼ N α, σ +P 2 (3.29)
n xi
· ¸
σ2
β̂ ∼ N β, P 2 (3.30)
xi

Características de la Varianza de α y β

27
1. La varianza aumenta con σ 2 . Mientras mayor la varianza de Y, dado los
valores de X, la estimación de los parámetros es menos precisa.
2. La varianza de α y β decrece con aumentos en la variación de X. En otra
palabras, mientras mayor variación exista en “el lado derecho” ceteris paribus
mas precisa será la estimación de los parámetros α y β. En el límite, si todos
los valores de X toman el mismo valor, la varianza será infinita.
3. La covarianza entre α y β, la cual mide la relación entre los errores mues-
trales de los dos estimadores, viene dada por la siguiente expresión:
µ 2 ¶
2 σ
Cov(α̂, β̂) = E(α̂ − α)(β̂ − β) = −X̄E(β̂ − β) = −X̄ P 2 (3.31)
xi
Un resultado clave de la relación anterior es el hecho que si la media de X
es positiva, entonces los errores muestrales de α y β están correlacionados
negativamente.

Intervalos de confianza para α y β: una aplicación de la distribución t-student


De lo anterior, sabemos que:

β̂ − β
β̂ ∼ N [β, σβ2 ] ⇒ ∼ N (0, 1) (3.32)
σβ
lo que dice simplemente que el estimador de β se distribuye normal, lo que im-
plica que puede ser expresado como una normal estándar. Pero ello asume que
la varianza de β es conocida....pero esto no es así y necesita en consecuencia ser
estimada. Procederemos de la siguiente forma:

Primero, podemos construir el siguiente estadístico (con una distribución para


la varianza conocida):
X (Yi − α̂ − β̂Xi )2 P (n − 2)Sβ̂2
(n − 2)S 2 (n − 2)S 2 /( Xi2 )
= = P = ∼ χ2n−2
σ2 σ2 σ 2 /( Xi2 ) σβ2
(3.33)
Ahora, dividiendo (32) por la raíz de (33) obtenemos una expresión la cual genera
una expresión para la distancia en que el valor estimado para β se desvía de su
verdadero valor. Esta expresión tienen una distribución bien definida, conocida
como t-student, la que puede ser usada para calcular intervalos de confianza para
el estimador.
(β̂ − β)/σβ̂ β̂ − β
q = ∼ tn−2 (3.34)
(n − 2)S 2 /(n − 2)σ 2 Sβ̂
β̂ β̂

28
donde S denota la desviación estándar estimada para β.
Esta regla también se aplica para la construcción de un intervalo de confianza
para el intercepto. De esta manera, el intervalo de confianza para β puede ser
escrito de la siguiente manera:

β̂ − tn−2,α/2 Sβ̂ ≤ β ≤ β̂ + tn−2,α/2 Sβ̂ (3.35)

donde α es el nivel de significancia del test y (1 − α) es el “nivel de confianza” del


test.

Intervalo de Confianza para la Varianza del Modelo Ya vimos que:

(n − 2)S 2
∼ χ2n−2 (3.36)
σ2
y de esta forma un intervalo de confianza puede ser construido a partir de la
distribución Chi-cuadrado notando que existen en este caso v = n − 2 grados de
libertad.

3.4. Medición del Grado de Ajuste en un Modelo

Revisaremos en detalle el aspecto del grado general de ajuste de un modelo


econométrico en las próximas clases, no obstante, aquí revisaremos dos compo-
nentes : el coeficiente de determinación, R2 y el análisis de variación (ANOVA).

(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y

predicción media de Y

media de X Xi

29
Del gráfico podemos observar que para una observación en particular Yi = Ŷi + ²i
y (Yi − Ȳ ) = (Ŷi − Ȳ ) + ²i .

Si sumamos sobre el cuadrado de esta expresión para todas las observaciones (el
elevar al cuadrado considera en forma análoga tanto los errores positivos como
los negativos), tendremos que:
n
X n
X n
X n
X n
X
2 2 2 2
(Yi − Ȳ ) = ([Ŷi − Ȳ ]+²i ) = (Ŷi − Ȳ ) + ²i +2 (Ŷi − Ȳ )²i (3.37)
i=1 i=1 i=1 i=1 i=1

Ahora bien, dado que el tercer término puede ser expresado como:
n
X n
X n
X n
X n
X
(Ŷi − Ȳ )²i = (α̂ + β̂ X̄ − Ȳ )²i = α̂ ²i + β̂ Xi ²i − Ȳ ²i = 0 (3.38)
i=1 i=1 i=1 i=1 i=1

entonces: n n n
X X X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + ²2i (3.39)
i=1 i=1 i=1

el que sugiere que la Suma de Cuadrados Totales (TSS) es la suma de los Suma de
los Cuadrados Explicados (ESS) mas la Suma de los Cuadrados de los Residuos
(RSS).
Finalmente, notar que:
n
X n
X n
X
2 2
ESS = (Yi − Ȳ ) = (α̂ + β̂Xi − Ȳ ) = [(Ȳ − β̂ X̄) + β̂Xi − Ȳ ]2 (3.40)
i=1 i=1 i=1

n
X n
X
2 2
ESS = [β̂(Xi − X̄)] = β̂ x2i (3.41)
i=1 i=1
De esta derivación, fácilmente se puede obtener una expresión para el coeficiente
de determinación: P
2 ESS β 2 ni=1 x2i
R = = Pn 2 (3.42)
T SS i=1 yi
donde 0 ≤ R2 ≤ 1.

ANOVA y el uso del estadístico F para la evaluación de Modelos


El problema con el R2 es que es una estadístico descriptivo el que no tiene una dis-
tribución bien definida. Podemos testear la hipótesis de no existencia de relación
alguna entre X e Y mas formalmente de la siguiente manera:
n
X n
X n
X
E(ESS) = E(βˆ2 x2i ) = E[(β̂ − β) + β] 2
x2i =σ +β 2 2
x2i (3.43)
i=1 i=1 i=1

30
Bajo la nula Ho: β = 0, entonces E (ESS) = σ 2 . También sabemos que E[RSS/(n−
2)] = E(S 2 ) = σ 2 .

ESS/1
Si la nula es correcta entonces el ratio RSS/(n−2)
convergerá a la unidad a medida
que n tienda a infinito.

Podremos decir algo acerca de la distribución de esta razón o ratio?


Notemos que: P
ESS β̂ 2 ni=1 x2i β̂ 2
= = ∼ χ21 (3.44)
σ2 σ2 σβ̂2
β̂ 2
La que se distribuye Chi-cuadrado con un grado de libertad dado que σ2
es el
β̂
cuadrado de una distribución normal estándar. También sabemos que ESS/σ 2 =
(n − 2)S 2 /σ 2 tiene una distribución Chi-cuadrado con ( n-2 ) grados de libertad.
De esta manera, la razón entre RSS y ESS ajustado por los grados de libertad
tiene una distribución F con la siguiente estructura:

RSS/1
∼ F1,n−2 (3.45)
ESS/(n − 2)

De esta manera podemos llevar a cabo inferencias acerca del grado de ajuste del
modelo. Esto puede ser resumido en una tabla ANOVA.

La forma F del test es muy importante en econometría y forma la base de la may-


oría de las pruebas estadísticas dado que suficientemente flexible para manejar un
numero ilimitado de restricciones sobre el modelo ( o en modelos con mas de una
variable explicativa). En el ejemplo anterior, existía una sola restricción hipotéti-
ca: β = 0. Generalmente, podemos considerar cualquier forma de restricción, por
ejemplo denotada por r y estimar el modelo bajo esta restricción o conjunto de
restricciones. Lo que haremos después es comparar este modelo restringido con
aquel sin ninguna restricción. El estadístico general que nos permite realizar esta
prueba viene dado por la siguiente expresión:

(ESSR − ESSU )/r


∼ Fr,n−k (3.46)
ESSU /(n − k)

31
3.5. Teoría sobre Pruebas Econométricas

Todas las formas de pruebas o testeo que se verán en el resto del curso
pueden ser pensadas como una aplicación especial del siguiente marco de máxima
verosimilitud.

La curva L(θ) representa los valores de la función de verosimilitud como una


función de todos los posibles valores del vector de parámetros. El valor máximo
verosímil asociado a los parámetros es (por definición) aquellos asociados con el
máximo valor de la curva L(θ), denotado θM L .

Todo test puede ser pensado como una restricción sobre los valores de los parámet-
ros. Las pruebas significan simplemente examinar si al imponer la restricción (θR )
implica una “significativa pérdida de verosimilitud” relativa al valor del parámetro
bajo la situación “no restrictiva” θM L . Del diagrama es claro que puede ser medido
de tres forma diferentes.

L(theta)

L(theta ML)
L(theta R)

C(theta)

LM
Wald

theta theta theta


R ML

Prueba de la Razón de Verosimilitud (LR test) Esta es la forma mas directa de

32
realizar una prueba sobre un valor restringido de uno ( o un conjunto) de parámetro
(s) , el que simplemente mide la distancia entre L(θM L ) y L(θR ). La razón de
verosimilitud se define como:
L(θˆR )
λ=
L(θMˆ L)
LR = −2log(λ) −→ χ2R (3.47)

Prueba del Multiplicador de Lagrange (LM test)


Considere la derivada de la función de verosimilitud dL(θ)/dθ. Esta es referida
como la función score y mide la pendiente de la función de verosimilitud. Esta
función debería tener un valor de cero en el valor de los parámetros máximo
verosímil y no cero en todo el resto de posible valores de los parámetros. La
prueba de Multiplicador de Lagrange es simplemente es la medida de la función
score al valor del parámetro restringido. Definiendo el valor de la función score a
los valores de los parámetros restringidos como:
∂L(θR )
T (θR ) =
∂θ
Podemos entonces definir el test LM como:

LM = T (θ)0 I(θR )−1 T (θR ) −→ χ2R (3.48)

donde I(θ) es la covarianza de θ evaluada a los valores restringidos de los parámet-


ros.

Prueba de Wald.
Esta prueba es similar a la prueba LM y explota la característica de continuidad
de la función de verosimilitud. Supongamos que existe una función C(θ) continua,
monotónica en θ y definida de tal manera de que tenga un valor igual a cero para
los valores restringidos de los parámetros. Esta función tendrá un valor distinto
de cero para cualquier otro valor de los parámetros incluidos aquellos máximo
verosímiles sin restricción. Entonces el test de Wald se define de la siguiente
manera:
W = C(θM L )0 [V (R(θM L ))]−1 C(θM L ) → χ2R (3.49)
Donde V (R(θM L )) es una estimación consistente de la covarianza de θ evaluada
en los valores máximo verosímiles sin restringir.
Notar que:

1. Estos tres test son asintóticamente equivalentes pero presentan diferencias


en sus propiedades en muestras pequeñas.

33
2. Existen circunstancias en que la construcción de uno de estos test puede
resultar ser mas fácil comparado con los demás y ello motive su preferencia
en los casos prácticos.

3. Todas las pruebas que veremos mas adelante están basados en alguno de
estos tres tests.

34
Capítulo 4

Forma Funcional, Especificación del


Modelo y Multicolinealidad

Habiendo establecido el modelo de regresión clásica como el paradigma con


propiedades estadísticas bien definidas bajo supuestos rigurosos sobre la ecuación
de error ahora procederemos a considerar problemas econométricos que tiene este
modelo canónico o de referencia al aplicarlo a problemas econométricos prácticos.
Las clases 5 a 8 considerarán las implicaciones para la estimación de parámetros
e inferencia cuando los supuestos estadísticos son violados o quebrados por los
modelos implementados. En esta clase consideraremos problemas asociados a la
especificación funcional de los modelos econométricos concentrándonos en aquel-
los casos donde el investigador tienen supuestos teóricos de antemano que guían
su investigación pero donde existe conocimiento incompleto acerca de la forma
y la verdadera especificación del DGP y donde el conjunto de datos puede ser
altamente colineal.

4.1. Resumen
1. Modelos Lineales versus no-lineales

2. Inclusión/Omisión de Variables Relevantes

3. Multicolinealidad

4. Apéndice: Mínimos Cuadrados No-Lineales

35
4.1.1. Referencias
Gujarati. Secciones 6.2, 8.9 y 10

Kmenta. Secciones 11, 10.3

Greene. Secciones 8.3, 9.2 y 11

Davidson y Mackinnon. Capítulo 2

4.2. Modelos Lineales versus No lineales

Como su nombre lo sugiere, el modelo de regresión lineal clásico asume que el


modelo (así como también los estimadores) son lineales. En muchas aplicaciones
económicas nuestra modelos teóricos no son lineales en los parámetros. De esta
manera, podemos distinguir dos tipos de modelos, aquellos modelos intrinsica-
mente lineales y aquellos modelos intrinsicamente no lineales.

Un modelo intrinsicamente lineal es aquel que puede ser lineal o no lineal en


sus variables pero es lineal ( o se puede hacer lineal) con respecto a sus parámet-
ros. Como resultado, estos modelos pueden ser convertidos en lineales. Modelos
intrinsicamente no lineales son aquellos que son no solo no lineales en sus parámet-
ros sino también en las variables.

Modelos Intriniscamente Lineales

1. Modelos polinomiales

Yi = β0 + β1 Xi + β2 Xi2 + β3 Xi3 + · · · + βk Xik + ²i (4.1)

redefiniendo las variables como Z1 = X; Z2 = X 2 , ..., Zk = X k podemos


reescribir el modelo de la siguiente manera:

Yi = β0 + β1 Z1i + β2 Z2i + β3 Z3i + · · · + βk Zki + ²i (10 )

y asumiendo que existen mas de K + 1 observaciones, podemos estimar


(1’) como un CLR y los parámetros βi tendrán las propiedades deseables
asumiendo que ²i (el error) es bien comportado.

36
2. Modelos con Términos de Interacción. Suponga que el cambio en el valor
esperado de Y en respuesta a cambios en X2 es una función de X3 . Por
ejemplo, podemos pensar en Y como ganancias, X2 como el nivel de edu-
cación y X3 como la edad.
Entonces:
E(Yi ) = f (X2i , X3i )
donde:
∂E(Yi )
= g(X3i )
∂X2i
y:
∂E(Yi )
= h(X2i )
∂X3i
Esto puede ser manejado usando una variable de interacción no lineal:

Yi = β0 + β1 X2i + β2 X3i + β3 X2i X3i + ²i (4.2)

se sigue de este modelo que:

∂E(Yi )
= β1 + β3 X3i
∂X2i
y:
∂E(Yi )
= β2 + β3 X2i
∂X3i
La ecuación (2) es no lineal pero puede ser redefinida como lineal si Z =
X2i X3i . Notar que al contestar la pregunta “cuál es la consecuencia de un
cambio en Y como resultado de un cambio en X2 ?” puede ser sólo respondida
al escoger explícitamente un valor de X3 (a menudo en su media a en un
valor interesante en particular).

3. El modelo Multiplicativo o Modelo Log-Lineal

Y = αX1β1 X2β2 · · · Xkβk e² (4.3)

Las elasticidades de Y con respecto a Xi son simplemente los βi . El ejemplo


mas típico de esta forma funcional es la función de utilidad/producción
Cobb-Douglas. Si tomamos logaritmos de (3) tenemos que:

log(Y ) = log(α) + β1 log(X1 ) + β2 log(X2 ) + ² (4.4)

Redefiniendo log(Xi ) como Zi el modelo entonces, se reduce a:

Y ∗ = A + β 1 Z1 + β 2 Z2 + ² (4.5)

37
donde: Y ∗ = log(Y ) y A = log(α). Por otra parte, si ² ∼ N (0, σ 2 ) entonces
e² se distribuye lognormal. Entonces, si estamos interesados en estimar una
función de producción tipo Cobb-Douglas como en (4) al estimar una versión
log-lineal, estamos asumiendo que la distribución de los resultados para un
conjunto de insumos dados es log-normal !!.

4. Modelos lineales Semi-log.


Dos formas de modelos semi-log existen:

log(Y ) = α + βX + ² (4.6)

Y = α + βlog(X) + ² (4.7)
Notar que la semi-elasticidad de Y con respecto a X es β(X) en la ecuación
(6) y β(1/Y ) para la ecuación (7). A diferencia del modelo log-lineal, la
semi-elasticidad no es constante.

5. Modelo Recíproco.
Y = α + β(1/X) + ² (4.8)
donde la elasticidad es :
β
− (4.9)
XY

Todos estos resultados se resumen en la siguiente tabla.

Cuadro 1: Forma funcional y elasticidad

Variable dependiente Variable independiente Elasticidad


Lineal Lineal β (X/Y) evaluada en la media
Log Log β
Log Lineal β(X) evaluada en la media
Lineal Log β(1/Y) evaluada en la media

Como se observa de la tabla anterior, en una especificación de logs para todas


la variables, el coeficiente β mide la elasticidad (i.e. el porcentaje de cambio en
Y dado un cambio de un uno por ciento en X ). Si la variable X es una vari-
able dummie, el coeficiente es sesgado ( la variable dummie entrega la mediana
estimada en vez de la media de la distribución) (ver Kennedy (1981) American
Economic Review para una discusión sobre este punto).

Modelos Intrinsicamente No Lineales Existe un conjunto adicional de modelos


no lineales que discutiremos a continuación.

38
Modelos Multiplicativos con errores aditivos
Modelos intrínsicamente no lineales son aquellos que no pueden ser trans-
formados en un modelo lineal en los parámetros. El modelo mas común y
básico en esta clase son aquellos en que el término de error en (3) es aditivo.

Y = αXiβ1 X2β2 + ε (4.10)

Este modelo no puede ser convertido simplemente a una forma log-lineal


dado que:
log(A + B) 6= log(A) + log(B)
Esto significa que no podemos utilizar el método de OLS para estimar (10).
No obstante podemos utilizar un método de estimación no lineal como los
Mínimos Cuadrados No-Lineales (NLS) o nuestro ya conocido MLE.
Una discusión del NLS se presenta en el apéndice, mientras que aquí nos
concentraremos en el MLE:
Dado que la función de verosimilitud en logaritmo de (10) puede ser escrita
como :
n
n n 1 X
2
log(L) = − log(2π) − log(σ ) − 2 (Yi − αX1β1 X2β2 )2 (4.11)
2 2 2σ i=1

es claro que esta puede ser resuelta para los cuatro parámetros del problema,
a saber α, β1 , β2 y σ 2 . Dado que (11) es no lineal, la solución puede ser sólo
derivada al usar un algoritmo maximizador lo que no trae problemas
computacionales de magnitud.

Funciones de Producción tipo CES y la Expansión de Taylor


Las funciones de producción tipo CES son ampliamente utilizadas en economía.
Tiene la siguiente forma:
ν
Q = A[δK −ρ + (1 − δ)L−ρ ]− ρ eε (4.12)

donde A es un parámetro “tecnológico”, δ es una parámetro de distribución,


es un parámetro que mide la sustitución entre K y L con σ = (1/(1 + ρ))
es la elasticidad de sustitución y ν es un parámetro que mide los retornos
a escala de la producción. Tomando logaritmos de (12) tenemos que:
ν
log(Q) = log(A) − log[δK −ρ + (1 − δ)L−ρ ] + ε (4.13)
ρ

el cual sigue siendo no lineal pero puede ser estimado (asumiendo que K y
L son no-estocásticos o si son estocásticos, son independientes de ε) usando
métodos de ML para estimar A, δ, ρ, ν, σ 2 .

39
A menudo, sin embargo, podemos hacer nuestra tarea mas fácil aún al
aproximar (13) usando una expansión de Taylor de segundo orden de Q
alrededor del valor de ρ = 0. Esto queda como sigue:
1
log(Q) = log(A)+νδlog(K)+ν(1−δ)log(L)− ρνδ(1−δ)[log(K)−log(L)]2 +ε
2
(4.14)
Esta ecuación es ahora intrínsicamente lineal la cual puede ser re escrita
como sigue:

log(Q) = β0 + β1 log(K) + β2 log(L) + β3 [log(K) − log(L)]2 + ε (4.15)

donde:
β1
A = eβ0 , δ= , ν = (β1 + β2 )
(β1 + β2 )
y:
2β4 (β1 + β2 )
ρ=−
β1 β2
La ecuación (15) puede ser generalizada un paso mas al expandir el com-
ponente cuadrático y dar finalmente lo siguiente:

log(Q) = β0 +β1 log(K)+β2 log(L)+β3 log(K)2 +β4 log(L)2 +β5 log(K)log(L)+ε


(4.16)
el cual es también es intrínsicamente lineal y es conocida como Función
de Utilidad / Producción logarítmica Trascendental (Translog).
Otro caso de modelos no lineales son los modelos de variable dependiente
limitada los que serán discutido en detalle mas adelante durante el curso.

Pruebas de Linealidad

El objetivo de estas pruebas es determninar aquella forma funcional que mejor


describa los datos disponibles. En particular revisaremos dos pruebas acerca de
la forma funcioonal.

1. Prueba de Mackinnon, White y Davidson (PE Test) : prueba específica en


contra de alternativas log-lineal. Suponga que sabemos que X e Y están
relacionados pero desconocemos si la relación es lineal o del tipo log-lineal.
Podremos utilizar los datos para escoger la forma funcional apropiada?.
La respuesta es si, si empleamos una versión general de las pruebas “no

40
anidadas” propuesta por Mackinnon et al (Journal of Econometrics, 1983).
Comenzaremos por los dos modelos alternativos:

H0 : Y = α + βX + ²1 (4.17)

HA : log(Y ) = γ + δlog(X) + ²2 (4.18)


los que pueden ser definidos en términos de un error compuesto de la sigu-
iente manera :

(1 − Λ)(Y − α − βX) + Λ(log(Y ) − γ − δlog(X)) = ² (4.19)

donde ² es el término de error compuesto. Bajo la hipótesis nula, Λ = 0


mientras que bajo la alternativa Λ = 1. El problema básico que enfrentamos
es que (19) es no lineal en los parámetros y puede ser difícil de estimar. Estos
autores proponen la siguiente aproximación. Reescribiendo (19) tenemos
que:

Y − α − βX = Λ(γ + δlog(X) − log(Y )) + Λ(Y − α − βX) + ² (4.20)

Ahora, si notamos que Y = Ŷ + ²ˆ1 y log(Y ) = log(Ŷ )+ ²ˆ2 podemos sustituir


Ŷ y ²̂ de (17) y log(Ŷ ), ²ˆ2 de (18) para reescribir (20) como sigue:

Y = α + β + Λ[log(Ŷ ) − log(Ŷ )] + µ (4.21)

donde µ es un término de error compuesto. La ecuación (21) nos permite


usar un test de t-student simple para ver la significancia del parámetro Λ.
Bajo la nula concluimos que no existe información en la diferencia entre la
predicción en el modelo log-lineal y el modelo lineal. Si rechazamos la nula
concluiremos entonces que el modelo lineal no caracteriza adecuadamente
el DGP.
Sin embargo, no podemos necesariamente concluir lo inverso (i.e. que la ver-
dadera forma funcional es log-lineal). De esta manera, deberemos repetir la
prueba bajo la posibilidad inversa donde Λ bajo HA donde ahora estimamos
:
log(Y ) = γ + δlog(X) + Λ[Ŷ − e(logŶ ) ] + v (210 )
Si no rechazamos la nula podremos concluir que la especificación log-lineal es
la correcta. Si rechazamos la nula bajo ambas formas de la prueba podremos
concluir que ninguna de las dos formas sugeridas está sustentada por los
datos.

2. Transformación de Box-Cox : Un método general para examinar no lin-


ealidad. La prueba anterior es altamente específica ya que sólo prueba un

41
modelo lineal contra la alternativa de ser no lineal. Sin embargo, puede
resultar de mucha utilidad definir una base mas general para testear la lin-
ealidad de una forma funcional. Esto puede ser realizado al utilizar una
Transformación de Box-Cox la cual especifica un modelo de regresión
entre Y y X de la siguiente forma:
µ λ ¶ µ µ ¶
Yi − 1 Xi − 1
=α+β + εi (4.22)
λ µ

Esta es una forma muy general, pero todas las formas particulares discutidas
anteriormente pueden ser derivadas de (22) dependiendo de los valores de
λ y µ.

a) Caso en que λ = µ = 0
Pareciera como si las expresiones en Y y X fueran cero bajo esta re-
stricción, pero al usar la regla de L’Hopital tenemos que:
µ λ ¶ µ ¶
Yi − 1 d(Yiλ − 1)/dλ
lı́m = lı́m = lı́m Yiλ log(Yi ) = log(Yi )
λ→0 λ λ→0 1 λ→0

Lo que significa que (22) colapsa en el modelo log-lineal:

log(Y ) = α + βlog(X) + ² (4.23)

b) Caso donde λ = µ = 1
En este caso (22) colapsa en la siguiente expresión:

(Yi − 1) = λ + β(Xi − 1) + ² ⇒ Yi = α∗ + βXi + ² (4.24)

donde α∗ = α − β + 1. El cual es el modelo de regresión lineal simple.

Debería ser claro ahora la forma en que opera este procedimiento. Por ex-
tensión tenemos que:
λ = 1 y µ = 0 genera un modelo semi logarítmico: Y = α + βlog(X) + ²
λ = 0 y µ = 1 genera un modelo semi logarítmico: log(Y ) = α + βX + ²
λ = 1 y µ = −1 genera un modelo recíproco.
Cómo podemos determinar los valores de λ y µ? La respuesta es simple-
mente estimar estos parámetros junto con los demás parámetros del mod-
elo en (22) mediante el uso de MLE y testear el valor de los parámetros
utilizando pruebas del tipo LM discutidas anteriormente (ver Davidson y
Maclinnon, 1993 capítulo 14).

42
4.3. Inclusión de Variables Irrelevantes / Omisión
de Variables Relevantes

Asumiendo que tenemos entre manos la forma funcional correcta, entonces


cuales serán las consecuencias para la estimación de los parámetros del modelo
el hecho de dejar fuera variables relevantes o incluir en el modelo variables irrel-
evantes?. En la terminología desarrollada en la Clase 1, queremos considerar las
implicaciones de un la invalidez en el condicionamiento del GDP.

Omisión de Variables Relevantes


Suponga que la regresión poblacional verdadera es la siguiente :

Yi = β1 + β2 Xi2 + β3 Xi3 + ²i (4.25)

pero nosotros estimamos el siguiente modelo:

Yi = β1 + β2 Xi2 + ²∗i (4.26)

El Valor Esperado de β2 .
Si (26) fuera correcto, entonces los estimadores de β1 y β2 serían insesgados y
eficientes. Ahora consideremos que el modelo (26) es el incorrecto y que el correcto
es (25). De (26) podemos estimar β2 (y también β1 ) como:
·Pn ¸
(X − X̄ )(Y − Ȳ )
E(βˆ2 ) = E i=1 i2 2 i
Pn 2
(4.27)
i=1 (Xi2 − X̄2 )

Dado que sabemos de (25) que :

(Yi − Ȳ ) = β2 (Xi2 − X̄) + β3 (Xi3 − X̄) + (²i − ²̄) (4.28)

Entonces por sustitución, tenemos que :

E(βˆ2 ) = β2 + β3 d32 (4.29)

con: Pn
i=1 (Xi2 − X̄2 )(Xi3 − X̄3 )
d32 = Pn 2
i=1 (Xi2 − X̄2 )
el cual sugiere que si el segundo término β3 d32 es cero, entonces el estimador
obtenido en (26) sería insesgado. El mismo método se puede aplicar para el esti-
mador del intercepto β1 . Así :

E(βˆ1 ) = E(Ȳ − βˆ2 X̄2 ) = β1 + β3 d31 (4.30)

43
con:
d31 = X̄3 + d32 X̄2
Notar que las expresiones d31 y d32 son, de hecho, los coeficientes mínimo cuadráti-
cos en la regresión de Xi3 (la variable omitida) sobre la variable incluida Xi2 .
Xi3 = d31 + d32 Xi2 + µi (4.31)
La varianza de β2 . (ver Kmenta p444)
La verdadera varianza de β2 viene dada por la fórmula estándar:
σ2
V ar(βˆ2 ) = E(βˆ2 − β2 ) = Pn 2
(4.32)
i=1 (Xi2 − X̄2 )

Sin embargo, dado el modelo incorrecto, la verdadera ecuación para la varianza


es estimada incorrectamente. Específicamente, a partir del modelo incorrecto la
varianza de β2 es:
P
2 s2 [(Yi − Ȳ ) − βˆ2 (Xi2 − X̄2 )]2 /(n − 2)
sβˆ2 = Pn 2
= P (4.33)
i=1 (Xi2 − X̄2 ) (Xi2 − X̄2 )2
No obstante, sabemos que la verdadera varianza s2 debería ser estimada como
sigue:
1
s2 = (myy − β2∗2 my2 − β3∗2 my3 ) (4.34)
(n − 3)
P
donde mxy = ni=1 (X − X̄)(Y − Ȳ ) y donde hemos usado ∗ para denotar los
verdaderos estimadores de los parámetros en (25). Sustituyendo los verdaderos
valores de (Yi − Ȳ ) a partir de (28) y rearreglando, podemos obtener la siguiente
expresión :
m22 V ar(βˆ2 ) + β32 m33 − 2m22 V ar(βˆ2 ) + (n − 1)σ 2 β32 m33
s2βˆ2 = = V ar(βˆ2 ) +
(n − 2)m22 (n − 2)m22
(4.35)
Donde mij es la suma de las desviaciones al cuadrado sobre la media. La ecuación
(35) indica que la varianza de los parámetros estimados del modelo con variable
omitida es también sesgado hacia arriba (dado que el segundo término es siempre
positivo) y de nuevo, depende de la importancia relativa de la variable omitida.

Implicaciones:

1. Dado que β3 es no cero el valor esperado de los parámetros estimados a


partir del modelo incorrecto no son iguales a los verdaderos parámetros
poblacionales. Si variables relevantes son omitidas de la regresión, los esti-
madores de todos los parámetros derivados a partir del modelo restringido
estarán sesgados ( a menos que d32 = 0).

44
2. Si d32 no desaparece a medida que el tamaño de la muestra aumenta, el
estimador de β2 será también inconsistente.
3. Por extensión, la varianza estimada para β2 a partir del modelo restringido
también será un estimador sesgado e inconsistente de la verdadera varianza
de β2 .
4. Si β3 y d32 tienen el mismo signo, entonces el sesgo es positivo. De otra
forma será negativo.
La siguiente tabla resumen todos los casos posibles.
Cuadro 2: Sesgo

β3 d32 sesgo
+ + +
+ - -
- - +
- + -

5. Aún si la variable omitida no está correlacionada con las variables explica-


tivas incluidas encontraremos que el estimador de β2 será insesgado y con-
sistente, pero su varianza será sesgada hacia arriba y así subestimaremos
la significancia de las variables incluidas.

Inclusión de Variables Irrelevantes


Si volvemos a las ecuaciones (25) y (26) pero esta vez asumiendo que (26) es
el verdadero modelo pero que estimamos un modelo “sobreparametrizado”. Bajo
este caso tenemos que:

1. Los estimadores de β1 y β2 son ambos insesgados y consistentes.


2. La varianza del error σ 2 es insesgada.
3. Los valores estimados para los parámetros serán, eso sí, ineficientes. En
otras palabras, la varianza de los parámetros cuando son obtenidas a partir
de modelos sobreparametrizados serán mayores que aquellos resultantes del
modelo verdadero.

Este último resultado es demostrable en forma sencilla. Si hemos estimado direc-


tamente el verdadero modelo (el que denotaremos por ∧) y enseguida realizamos
la estimación con el modelo sobreparametrizado (el que denotaremos por ∗ )
tenemos lo siguiente :
σ2 σ2
V ar(βˆ2 ) = Pn 2
y V ar(β ∗
2 ) = P n 2 2
(4.36)
i=1 (Xi2 − X̄i2 ) i=1 (Xi2 − X̄i2 ) (1 − r23 )

45
2
Dado que 0 ≤ r23 ≤ 1 se sigue que la varianza del modelo sobreparametrizado
es mayor que aquella del modelo verdadero. La implicancia de estos es que los
parámetros estimados a partir del modelo sobreparametrizado serán estimados
con menor precisión.

De esta manera existen dos tipos de problemas al decidir sobre la especificación


correcta del modelo. La primera sugiere que la omisión de variables relevantes
traerá como consecuencia sesgos en la estimación de los parámetros de la vari-
ables incluidas en el modelo. Sin embargo, al compensar la posible fuente de sesgo
al incluir todas las variables posibles (incluso algunas irrelevantes) tiene la con-
secuencia de incrementar la varianza de los estimadores de los parámetros.

Esto lleva a una estrategia de modelamiento general-a-específica partiendo de


un modelos insesgado pero ineficiente para converger en uno (aun insesgado) con
mayor grado de precisión.

Detección de Variable Omitida


Ya hemos discutido las clases de pruebas estadísticas necesarias para evaluar si
una variable deberá ser incluida o no. Esto es simplemente la aplicación de un test
F para el caso de restricciones impuestas. En el ejemplo anterior, la ecuación (25)
representa el modelo sin restricción mientras que el modelo en (26) representa el
modelo restringido bajo la restricción que β3 = 0. Un valor significativo para el
estadístico F implica que se rechaza la hipótesis nula a favor de la alternativa en
que al mantener la restricción se incurrirá en un sesgo por omisión de variable
en la estimación de los otros parámetros de modelo.

Aceptar la nula y manteniendo X3 en el modelo, no sesgará los estimadores de


los coeficientes, pero reducirá la eficiencia de los estimadores.

4.4. Multicolinealidad

Suponga que hemos escogido la forma funcional “correcta” y también el con-


junto “correcto” de variables, ahora veremos lo que puede suceder si las variables
escogidas son colineales. Aunque no lo hemos visto formalmente, el CLR asume
que los regresores X no están perfectamente correlacionados entre ellos (ya sea
en un sentido bivariado o en una combinación lineal).

Para ilustrar este punto, considere el siguiente modelo:


Y = β1 + β2 X2 + β3 X3 + ² (4.37)

46
A partir de la estimación de los coeficientes de (33) por OLS sabemos que:

σ2 σ2
V ar(βk ) = 2
Pn = 2
(4.38)
(1 − rjk ) i=1 (Xik − X̄k )2 (1 − rjk )Skk

donde, para e caso de dos variables independientes (I.e. k = 2), r12 es la coeficiente
de correlación entre X1 y X2 , y Skk es la suma de las desviaciones al cuadrado
para la variable Xk .

2
Si la colinealidad entre X1 y X2 es perfecta, entonces r12 = 1 y la varianza de βk
es infinita. De esta manera, el modelo no puede ser interpretable dado que una
varianza infinita significa que no podemos rechazar ninguna hipótesis acerca del
verdadero valor de βk . Este es un problema en la especificación del modelo.

2
Si tenemos colinealidad alta, pero no perfecta (tal que r12 < 1), el modelo de
regresión mantiene todas las propiedades asumidas (i.e. los estimadores serán
BLUE) pero existirán serios problemas de inferencia. Esto se puede observar a
2
partir de (34) dado que r12 Será un valor alto y en consecuencia, la varianza
estimada de los parámetros del modelo será también alta y entonces la precisión
en la estimación de los parámetros se verá reducida ( a pesar de seguir siendo
BLUE). Esto es un problema de la muestra de datos.

Síntomas de la Multicolinealidad

1. Pequeños cambios en la muestra producirán grandes cambios en los esti-


madores de los parámetros

2. Los coeficientes pueden tener grandes errores estándar (i.e. valores t pe-
queños) a pesar que la significancia conjunta de todos ellos sea alta (i.e.
ajuste por R2 ).

3. Los coeficientes muchas veces tienen el “signo incorrecto” o son de una


magnitud poco plausible.

Pero, porqué sucede esto ?


Es útil pensar el modelo en términos de notación matricial Y = Xβ + ² donde
existen k regresores. El k-ésimo elemento diagonal de la matriz inversa (X 0 X)−1
puede ser escrito como :

(xk M2 xk )−1 = [x0k xk − x0k X2 (X20 X2 )−1 X20 xk ]−1 (4.39)

47
donde M2 es la matriz de residuos de la regresión de los xk sobre todos los demás
regresores en el modelo, X2 .

La ecuación (39) puede ser entonces reescrita de la siguiente manera:


1
(x0k M2 xk )−1 = (4.40)
[Skk (1 − Rk2 )]
donde Rk2 es simplemente el R2 de la regresión de los xk sobre todas las demás
variables independientes en el modelo. Se desprende claramente que:
σ2
V ar(βk ) = (4.41)
(1 − Rk2 )Skk
Es, en consecuencia, fácil observar que si agregamos una variable al modelo la
que es altamente colineal con xk , entones esto puede :

1. Dejar el valor de Skk sin alterar.


2. No alterar σ 2 (ya que si xk y la nueva variable están altamente correla-
cionadas y entonces xk ella misma ha explicado ya bastante de la variación
en Y que la nueva variable se supone debería explicar).
3. Aumente el valor de Rk2 .

En consecuencia, la varianza de βk (V ar(βk )) aumentará. Una varianza mas alta


para el estimador de βk es consistente con los tres síntomas descritos anterior-
mente.

Identificación de la Fuente de Colinealidad


El método mas simple para identificar la fuente de multi-colinealidad son las
simples correlaciones entre las variables independientes
Cov(Xi , Xj )
ρXi Xj =
σXi σXj
Una forma alternativa es seguir con el análisis descrito en la sección anterior y
examinar el valor de Rk2 para cada una de las variables independientes.

Algunas Soluciones Posibles

1. Eliminar la variable problemática. Esto puede resolver el problema de mul-


ticolinealidad pero puede generar el sesgo por omisión de variable.

48
2. Transformar el modelo. Esta es a menudo, la solución en modelos de serie
de tiempo. Por ejemplo, considere el siguiente modelo:

Y = α + βX + γZ + e

Donde X e Z son altamente colineales. Podría darse el caso que mientras X


y Z son colineales, ∆X y ∆Z tengan una baja colinealidad. De ser así, los
parámetros β y γ pueden ser estimados a partir del siguiente modelo:

∆Y = β∆X + γ∆Z + e

3. Adoptar métodos de estimación alternativos. Existen dos formas alterna-


tivas de estimación que son frecuentemente utilizados en estos casos. El
primero es la Regresión de Ridge el cual produce estimadores, aunque
sesgados pero con menor varianza.

El estimador de Ridge es el siguiente :

br = [X 0 X + rD]−1 X 0 y

Donde r es un escalar de valor pequeño y D es la diagonal principal de X 0 X.


Debería ser claro que br está sesgado dado que:

E(br ) = E(X 0 X + rD)−1 X 0 Xβ 6= β

Pero la varianza del estimador de Ridge es :

V ar(br ) = σ 2 (X 0 X + rD)−1 X 0 X(X 0 X + rD)−1

La cual es menor que la varianza del estimador OLS ante la presencia de multi-
colinealidad. La elección de r dependerá si el estimador de Ridge tendrá un Error
Cuadrático Medio (MSE)menore que el de OLS.

La segunda forma de corregir este problema es el análisis de componentes


principales. Este método parte de la observación que dentro de la matriz X 0 X,
de existir una colinealidad sustancial, entonces existen pocas fuentes de variabil-
idad en el vector de variables independientes.

El análisis de componentes principales busca extraer a partir de la matriz de


X una pequeña cantidad de combinaciones lineales de las variables, de tal man-
era de dar cuenta de toda o la mayor parte de la variación de X. Si el subconjunto
puede ser identificado pueden sustituir al la matriz de X en la explicación de Y.

49
Capítulo 5

Violaciones de los Supuestos del


Modelo de Regresión Clásico

En la Clase 3 (y próxima ayudantía) desarrollamos el Modelo de Regresión


Clásico basado en el Teorema de Gauss-Markov. Como se mencionó, la derivación
de las propiedades de los estimadores mínimo cuadráticos descansan en unos
supuestos claves relacionados con la estructura del término de error. En partic-
ular, asumimos que los términos de error eran independientes e idénticamente
distribuidos Normal.

En la Clase 4 examinamos aspectos relacionados con el modelamiento tales


como especificación incorrecta y forma funcional, concentrándonos en los casos
de omisión de variables relevantes. En las tres clases siguientes analizaremos las
consecuencias de violar los supuestos relacionados con la estructura del término
de error en el modelo de regresión, los que dividiremos en la siguiente forma :

1. Normalidad [ Clase 5 ]

2. Homoscedasticidad [ Clase 6 ]

3. Independencia (cero autocorrelación) [ Clase 7 ]

4. Regresores No Estocásticos [ Clase 8 ]

Nota : Desde un punto de vista de la exposición de los temas, trataremos es-


tas violaciones como separables analíticamente y, en consecuencia, testearemos
cada una de ellas independientemente de otras (posibles) violaciones. Se asume,

50
entonces, que la distribución de las pruebas estadísticas son condicionales en el
supuesto de que la nula es que el modelo es CLR. Esto típicamente no es el caso
en problemas de la vida real donde generalmente los problemas con los supuestos
están presentes al mismo tiempo.

Parte I No-Normalidad

5.1. Resumen
1. Las consecuencias de que e 6∼ N.i.i.d para la estimación e inferencias

2. Cómo detectar violaciones al supuesto de normalidad

3. Soluciones al problema

4. Apéndice: Análisis de normalidad basado en series ordenadas

5.1.1. Referencias
Kmenta Capítulo 8

Greene Capítulo 10

Mukherjee et al. Capítulos 3 y 4

5.2. No Normalidad

El supuesto de normalidad en el término de error es una piedra angular en el


resultado de que los estimadores OLS fueran eficientes (el teorema de cota mínima
de Cramer-Rao). También es necesario para construir intervalos de confianza
correctos para los estimadores de parámetros. Sin el supuesto de normalidad en
el término de error, los estadísticos mas utilizados como t, F y chi-cuadrado
no tienen estas distribuciones y en consecuencia, no pueden ser utilizados para
realizar inferencias.

51
5.2.1. Consecuencias y Aplicaciones

La no normalidad en el término de error acarrea las siguientes consecuencias


(ver Greene Capítulo 10.5 para una discusión detallada sobre éste punto) :
Si la varianza del término de error es finita, entonces :

1. El estimador OLS es insesgado y consistente.


2. Gracias al Teorema del Límite Central, a pesar de que el error no esté
distribuido normal, los estimadores del parámetros si lo estarán en muestras
grandes. De esta manera, la distribución normal de los estimadores lineales
puede ser utilizada para inferencia.
Pero.....
3. El estimador OLS puede que no sea eficiente o asintóticamente eficiente. En
otras palabras, el estimador OLS no será ya BLUE.

Es esta tercera implicancia la que debería llamarnos la atención. Si los errores


no están normalmente distribuidos entonces existen otros estimadores, a parte de
los OLS, que nos puedan entregar con una estimación eficiente de los parámetros
del modelo ?. Examinaremos tres de estos estimadores, la desviación absoluta
mínima (MAD), su colega cercano, el estimador robusto y el estimador por
regresión cuantil. Pero antes, debemos analizar la forma de determinar si el
término de error, es efectivamente normal.

5.2.2. Detección

En el Apéndice de estas notas se discuten métodos para la identificación y el


análisis de no normalidad usando herramientas estadísticas basadas en series or-
denadas. Estos métodos son sólo aplicables si los datos no tiene un orden natural
como sería en el caso de datos de serie de tiempo. Si estos tiene un orden natural,
estaremos un poco mas restringidos en cuanto a los métodos de detección que
podremos implementar.

La distribución normal se puede describir completamente por sus dos primeros


momentos ya que todos sus momentos centrales superiores son cero. Específi-
camente, esta distribución es simétrica, lo que implica que el tercer momento
(skewness) es cero y mesokurtica, es decir que el cuarto momento es exacta-
mente igual a 3.

52
En consecuencia, si la variable x se distribuye normal, se debería cumplir que:
Media : E(X) = µ Primer momento
Varianza : E(X − µ)2 = σ 2 Segundo momento
E(ε3 ) = E(X − µ)3 Tercer momento (simetría)
E(ε4 ) = E(X − µ)4 Cuarto momento (kurtosis)

La medida estándar de simetría de cualquier distribución es el coeficiente de


skewness el cual se define de la siguiente manera:
p E(ε3 )
b1 = 2 3/2 (5.1)
(σ )
Por otra parte, la medida estándar de kurtosis, la cual es una medida de la anchura
de las colas de la distribución, tiene la siguiente fórmula :
E(ε4 )
b2 = (5.2)
(σ 2 )2
Como se dijo, el valor de kurtosis para una distribución normal es igual a 3.
Sabiendo esto, las pruebas estándares para normalidad están relacionadas con
el cálculo de la skewness y kurtosis de la muestra que tenemos y comparar el
skewness con cero y el kurtosis con 3. Este último se conoce como el exceso
de kurtosis, el cual es simplemente medido por (b2 − 3). Excesos positivos de
kurtosis se denominan plytokurtosis (colas anchas) e implica que (b2 − 3) > 0.
Mientras que excesos negativos de kurtosis se denominan como leptokurtosis
(i.e. colas angostas).

La prueba mas común para normalidad es la denominada Prueba de Jarque y


Bera el cual combina estas dos medidas, de la siguiente manera :
· ¸
b1 (b2 − 3)2
JB = n + ∼ χ2(2) (5.3)
6 24
donde n es el tamaño de la muestra. El test de JB es del tipo Wald (dado que
bajo la nula, la “distancia” JB es cero) y tiene una distribución Chi-cuadrado con
dos grados de libertad (uno para la restricción sobre la skewness nula y otra para
la restricción sobre exceso de kurtosis).

5.2.3. Soluciones para la estimación con errores No nor-


males

Por lo anteriormente dicho, en el caso de la estimación por OLS (no así en


MLE) no deberíamos preocuparnos en demasía acerca de la violación del supuesto

53
de normalidad en los errores por lo menos en muestras grandes, ya que los esti-
madores serán insesgados y consistentes. Pero si queremos correctamente carac-
terizar la distribución, tendríamos que realizar tareas adicionales.

Algunos ejemplos

El estimador de Desviaciones Absolutas Mínimas (MAD)

Suponga que el error tiene un exceso de kurtosis positivo, teniendo “colas an-
chas”. En el caso del estimador OLS, éste dará demasiado peso en las colas de la
distribución. En otras palabras, este estimador le da demasiado peso a los eventos
que ocurren con baja probabilidad. Ello debido a que el OLS está basado en la
suma de las desviaciones al cuadrado de la regresión. Es por ello que este esti-
mador es ineficiente bajo situaciones de no normalidad.

Un estimador alternativo es el estimador MAD el que minimiza la suma de


las desviaciones absolutas sobre la línea de regresión. Así, el estimador OLS es
definido como : n
X
mı́n S = (Yi − Xβ)2 (5.4)
β
i=1

(donde la constante está absorbida) mientras el estimador MAD tiene la siguiente


forma : n
X

mı́n S = |Yi − Xβ| (5.5)
β
i=1

El estimador MAD es mas eficiente en casos donde la desviación de la normal-


idad consiste en que la distribución resultante tiene colas mas anchas, esto es,
exceso de kurtosis positivo. El estimador MAD es asintóticamente insesgado y
normalmente distribuido (por el TLC) y tiene una varianza asintótica menor en
presencia de exceso de kurtosis.

Nota : si el término de error es de hecho normal, el estimador MAD será, aunque


consistente, ineficiente con respecto al OLS (por el teorema de Gauss-Markov).

Estimadores Robustos

Si el estimador OLS funciona bien en los casos de normalidad pero ineficien-


temente en casos de exceso de kurtosis, se ha propuesto el diseño de un estimador

54
el que entregue diferentes métodos de estimación dependiendo de la estructura
del término de error. Esta es la noción de estimador robusto. Este tipo de
estimador puede ser descrito de la siguiente forma :
n
X
mı́n µ = Θ(Y − Xβ) (5.6)
β
i=1

donde la función Θ es escogida de tal forma de satisfacer las propiedades an-


teriores. Un ejemplo, es el estimador de Huber el cual está relacionado con
una función la cual estima una regresión por OLS para desviaciones de la media
que son menores que un umbral dado de antemano y una estimación por MAD
para aquellas desviaciones que sobrepasan este valor pre asignado. A medida que
este umbral tiende a infinito, el estimador de Huber tiende al OLS y si este valor
tiende a cero, el estimador de Huber tiende al MAD.

Regresión Cuantil

El estimador MAD es un caso espacial de un estimador mas general denom-


inado regresión cuantil (quantile regression) el cual es particularmente útil en
el análisis de datos de encuestas donde hay presencia de hetersocedasticidad.
Este estimador lo discutiremos en la siguiente clase.

5.3. Modelos de Regresión ante la presencia de


datos Outliers, Leverage o Influyente

El estimador de Huber presenta a lo menos dos problemas. Primero es susep-


tible de una elección arbitraria del valor de umbral pre asignado para determinar
los valores que serán considerados como outliers. La segunda razón es que at-
aca el problema de los ouliers en términos “estadísticos” mas que en términos
“económicos”. Quizá los outliers pueden ser muy importantes y en consecuencia
su ponderación no debería ser arbitrariamente “disminuida”. Quizá deberían ser
modeladas mediante el uso de variables mudas (o dummies).

En un análisis univariado, los outliers son la únicas observaciones “problema”. En


un modelo de regresión, también queremos identificar las observaciones “proble-
ma” las que pueden tener un peso sobredimensionado sobre la esperanza condi-
cional de la variable dependiente (i.e. la línea de regresión). Teniendo esto en

55
consideración es bueno hacer una pausa y definir de mejor manera tres conceptos
que nos pueden ayudar en el análisis del problema con los datos en un modelo de
regresión :

Outlier : un dato que presenta un residuo significativamente mayor al restos


de los datos. Es decir, la distancia vertical desde la esperanza condicional media.

Leverage : un dato tendrá leverage si es extremo en la dirección de X. La carac-


terística importante del leverage es que podría influenciar la posición de la línea
de regresión.

Influyente: un dato influyente es aquel que su eliminación de la muestra podría


alterar significativamente la posición de los estimadores de la esperanza condi-
cional de la variable dependiente.

Dado que el estimador OLS no es una medida resistente de la esperanza condi-


cional de una variable, es importante entender las consecuencias de los problemas
que pueden presentar los datos. Veamos algunas medidas de ouliers, leverage e
influencia.

5.3.1. Medida basadas en la media de Outliers, Leverage e


Influencia

Comenzaremos con una medida del leverage para la observación i . Esta puede
ser definida como :
1 (Xi − X̄)2
hi = + Pn
n i=1 (Xi − X̄)
2

La cual es creciente respecto a la desviación de Xi de la media de X. La medida


hi varía desde 1/n, cuando Xi es igual a la media hasta 1 situación en la cual el
outlier domina tanto el proceso que termina por opacar a todas las demás observa-
ciones. Huber sugiere que el leverage comienza a ser un problema si máx(hi ) > 0,2

Para identificar un outlier podríamos ordenar los residuos por sus errores es-
tándar en el modelo (εi /S). Sin embargo, si existe un outlier este incrementará s
y en consecuencia, la desviación de ε de S se verá reducida. Para salvar este prob-
lema podemos utilizar un residuo “studientizado” el cual se define de la siguiente
manera :
εˆ
ti = pi ∼ t1
S(i) (1 − hi )

56
Donde hi es igual como se definió anteriormente y S(i) es la ecuación para el error
estándar al borrar la observación i-ésima.

Finalmente, para medir la influencia podemos usar el estadístico DFβ el cual


se define de la siguiente manera :

bj − bj (i)
DF βji =
Se(bj )(i)

Donde βj (i) denota la estimación j con la i-ésima observación eliminada de la


muestra y lo mismo para el coeficiente del error estándar. Claramente, si la i-
ésima observación tiene una influencia, entonces el DFβ se desviará de cero. Este
estadístico no tiene una distribución bien definida pero trabajos estadísticos sug-
ieren que si DFβ > 2 entonces se presume que la observación es influyente.

57
5.4. Apéndice
Identificación de No normalidad mediante el
uso de Estadísticas de series ordenadas

El análisis basado en orden puede ser sólo posible si los datos pueden ser re
ordenados, por ejemplo en términos creciente de acuerdo al tamaño. Esto es posi-
ble en el caso de datos de corte transversal pero no así en series de tiempo. En
estos casos podemos utilizar medidas “resistentes” como la mediana.

Calculando la Mediana (Md)


Ordenar los datos (Y1 , ..., Yn ) por tamaño y seleccionar la observación del medio.
Si el número de datos es par, promediar las dos observaciones del medio.
· ¸
Yn/2 + Yn/2+1
2

Calculando el Cuantil Mayor y el Cuantil Menor (QU , Ql )


Repita el mismo ejercicio para cada una de las mitades de la distribución ante-
rior. Los tres valores (QU , M d, Ql ) dividen la distribución en cuatro partes iguales.

El Rango Intercuartil (IQR)


Este se define como (QU − Ql ) y en consecuencia, contiene el 50 % del medio de
la distribución.

Outliers
Outliers como vimos, pueden afectar aquellas estadísticas que están basadas en la
media pero no así necesariamente en aquellos estadísticos mas resistentes. Existen
variadas formas de definir un outliers, pero en general podemos clasificarlas como
sigue :
Y0 es un outlier si : Y0 < Ql − 1,5IQR o bien Y0 > QU + 1,5IQR
Y0 es un outlier extremo si : Y0 < Ql − 3,0IQR o bien Y0 > QU + 3,0IQR

Analizando skewness and kurtosis mediante el uso de estadísticas basadas


en series ordenadas.
Skewness positivo: Media > Mediana
Skewness negativo: Media < Mediana
Notar sin embargo, que los outliers pueden generar skewness y de esta forma es
mas útil emplear medidas resistentes"tales como el Coeficiente de Skewness

58
de Bowley:
bS = (QU + Ql − 2M d)/IQR
con −1 ≤ bS ≤ 1.
Tanto el IQR como la desviación estándar miden el grado de tendencia central
en una distribución. Si una variable está normalmente distribuida entonces el
IQR = 1,35σ.

Usando esta relación podemos comparar el estadístico :

Sp = IQR/1,35

con s (la desviación estándar de la serie). Pueden ocurrir entonces, tres posibili-
dades :
Sp < S Distribución mas ancha que las colas normales
Sp ≈ S Distribución normal
Sp > S Distribución mas angosta que colas normales

Formas de remover el skewness mediante la utilización de transfor-


maciones de potencias

Potencia Transformación Efecto sobre skewness


3 Y3 Reduce skewness negativos extremos
2 Y2 Reduce skewness negativo
1 Y Deja los datos inalterados
0 log(Y ) Reduce el skewness positivo
-1 −Y −1 Reduce skewness positivos extremos

59
Capítulo 6

Violaciones de los supuestos del


modelo de regresión clásico

6.1. Resumen
Errores no esféricos y el Modelo de Regresion Generalizado

Heterocedasticidad-Consecuencias

Heterocedasticidad-Detección

Heterocedasticidad-Soluciones

6.1.1. Referencias
Gujarati Capítulo 11

Kmenta Capítulo 8-2

Grenne Capítulos 14

60
6.2. Errores No Esféricos y el Modelo de Regre-
sión Generalizado

Antes de introducir el tema de la Heterocedasticidad, es conveniente desarrol-


lar la noción de Modelo de Regresion Generalizado para la muestra
y = xβ + ² E[²] = 0 (6.1)
E[²²] = Ω ⇒ ² ∼ N (0, Ω)

donde Ω es una matriz cuadrada n × n positiva definida referida normalmente


como la matriz de varianza covarianza.

El modelo de regresión clásico asume que las distribuciones son esféricas.


Esto implica que E[²] = 0 y:
   
σ2 0 . . . 0 1 0 ... 0
 0 σ2 . . . 0   0 1 ... 0 
0 2   2 
E[²² ] = σ I =  ..  = σ  ..  (6.2)
 0 0 ... .   0 ... ... . 
0 0 . . . σ2 0 0 ... 1

Bajo este supuesto acerca de la forma de la ecuación de los residuos, el teo-


rema de Gauss-Markov muestra que el estimador OLS son BLUE, consistentes y
distribuidos asintóticamente normales (CAN).

Cuando Ω 6= σ 2 I los errores del modelo general se dice que son no esféricos.
Las dos dimensiones que nos concentraremos en esta y las siguientes clases son el
de la Heterocedasticidad donde:
 
σ12 0 . . . 0
 0 σ2 0 . . . 
 2 
Ω= .  (6.3)
 0 . . . . . . .. 
0 . . . . . . σn2

donde la varianza no es constante sobre toda la muestra (i.e.σi2 6= σ 2 ∀1 ).

El segundo caso de interes es de la autocorrelación donde:


 
1 ρ1 . . . ρn−1
 ρ1 1 . . . ρn−2 
 
Ω = σ 2  .. .. .. ..  (6.4)
 . . . . 
ρn−1 ρn−2 . . . 1

61
donde, a pesar de que la varianza es constante para cada valor de i la covari-
anza entre observaciones secesivas no es cero.

Si la verdadera forma de Ω es conocida, entonces el estimador minimo cuadráti-


co generalizado (GLS) es el estimador insesgado, lineal de minima varianza.

Recuerdo del OLS con notacion matrical

considere el modelo de regresión clásico y = xβ + ² donde ² ∼ N (0, Ω) y


Ω = σ 2 I. El estimador OLS de los coeficientes de este modelo vienen dado por la
siguiente expresion:
βb = (X 0 X)−1 X 0 Y

Sabemos que este estimador es insesgado:


b = E(X 0 X)−1 (X 0 (xβ + ²)) = β + E(X 0 X)−1 X 0 ² = β
E(β)

Y que la matriz de varianza-covarianzas viene dado por:

E((βb − β)(βb − β)0 ) = E(X 0 X)−1 X 0 ²²0 X(X 0 X)−1 = σ 2 (X0X)−1

El modelo GLS se deriva a partir de una estructura arbitraria de Ω como sigue.


La única restricción que requerimos es que Ω sea positiva definida lo que implica
que existe ina matriz diagonal P de tal manera que:

P 0 P = Ω−1

Si pre multiplicamos (1) por P tenemos lo siguiente:

P Y = P Xβ + P ² (6.5)

Esta transformación asegura que (5) satisface todos los supuestos del modelo
clásico. En particular, el estimador GLS viene dado por:

βbGLS = [(P X)0 (P X)]−1 (P X)0 (P Y ) (6.6)

el cual, notando que P 0 P = Ω−1 se simplifica como:

βbGLS = (X 0 P 0 P X)−1 (X 0 P 0 P Y )

62
βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 Y (6.7)
Ahora es un asunto trivial demostrar que este estimador GLS es insesgado:

E(βbGLS ) = E[(P X)0 (P X)]−1 P X 0 [P Xβ + P ²]


= β + E(X 0 Ω−1 X)−1 (X 0 Ω−1 ²) (6.8)
= β

y que su matriz de varianza-covarianza es aquella de varianza mínima:

E(βbGLS − β)(βbGLS − β)0 = E(X 0 Ω−1 X)−1 X 0 Ω−1 ²²0 Ω−10 X(X 0 Ω−1 X)−1

= (X 0 Ω−1 X)−1 (6.9)

el cual es el valor BLUE para la matriz de varianza- covarianzas para cualquier


matriz de varioanza-covarianza arbitraria.

GLS Factible
Si el verdadero valor o estructura de Ω es conocida (como suele suceder en la
practica), debemos entonces estimarla. Tipicamente podemos estimar la matriz
de varianza-covarianzas como una funcion de un pequeño conjunto de parametros
b y en
b = Ω(θ)
Ω = Ω(θ) Con el fin de hacer el GLS factible, nesecitamos de que Ω
consecuencia, el Estimador GLS Factible (o admisible) viene dado por:

βbGLS = (X 0 Ω
b −1 X)−1 X 0 Ω−1Y
b (6.10)

el cual es insesgado, consistente y asintóticamente eficiente, a pesar de no ser


eficiente en muestras finitas.

6.3. Heterocedasticidad

El modelo de regresión clásico asume que:

V ar(²2i ) = σ 2 ∀i

Dado que la medida de ²i es cero, esto implica que E(²2i ) = σ 2 para todos los i.
Violaciones de este supuesto se denominan Heterocedasticidad, y es un problema
muy recurrente en datos de corte transversal (cross-section data).

63
6.3.1. Consecuencias

En lo que sigue ilustraremos las consecuencias de la Heterocedasticidad de un


modelo simple bivariado donde asumiremos que todos los demas supuestos del
modelo de regresión clásico siguen siendo válidos.

Yi = α + βXi + ²i (6.11)

Sesgo
Si el termino de error en la regresión es Heterocedástico tenemos que:

E(²2i ) = σi2 (6.12)

El estimador mínimo cuadrático de β viene dado por:


Pn Pn
b y=1 x
ei Yi x
ei ²i
β = Pn 2 = β + Pi=1 n (6.13)
i=1 x
ei e2i
i=1 x

El valor esperado de este estimador es entonces:


Pn Pn
b = β + E[ Pn i=1 x
e i ² i y=1 x
ei
E(β) 2
] = β + Pn 2 E(²i ) (6.14)
i=1 x
ei i=1 x
ei


Resultado 1.El estimador mínimo cuadrático para β (α también) son insesgados
aún en presencia de Heterocedasticidad en término de error. BLUE
Podemos transformar la ecuacion de Heterocedasticidad (10) en una homoscedás-
tica al dividir la regresión por σi para obtener la siguiente estructura:
Yi 1 Xi ²i
= α( ) + β( ) + ( ) (6.15)
σi σi σi σi
la cual puede ser re escrita como:

Yi∗ = αwi∗ + βXi∗ + ²∗i (6.16)

Se sigue que E(²∗i ) = E(²i )/σi = 0 ; V ar(²∗i ) = V ar(²i )/σ 2 = 1 el cual es ahora
constante (i.e homoscedastico).

La ecuación (16) ahora satisface todas las propiedades del modelo de regresión
clásico. Si definimos wi = 1/σi2 entonces podemos definir los estimadores BLUE
como: Pn e i − Ye )
wi (Xi − X)(Y
e
β = i=1 Pn y e = Ye − βeX
α e (6.17)
e 2
wi (Xi − X)
i=1

64
donde: Pn Pn
i=1 (wi Xi )
e= P i=1 (wi Yi )
X n ∧ Ye = P n
i=1 wi i=1 wi
En el caso de la regresión heteroscedastica, esta formula entrega los estimadores
BLUE. En consecuencia, el estimador OLS no puede ser BLUE dado que bajo la
estimacion OLS, wi = 1 en vez de 1/σi2 .
Resultado 2.
El estimador OLS es una regresión heteroscedastica no es BLUE. Dado que los
estimadores son lineales e insesgados, se sigue que los estimadores OLS son ine-
ficientes. Los estimadores BLUE para el caso de las regresiones heteroscedasticas
son aquellos presentados en la ecuación (16) los que se conocen como estimadores
mínimos cuadráticos ponderados (WLS). Algo de intuición
OLS, por definicion entrega cada error al cuadrado una misma ponderacion (lo
cual es correcto en un mundo homoscedastico). Si existe heteroscedasticidad, el
estimador OLS entre u otorga "demasiado"peso a los errores grandes. [Sabemos
de lo anterior que el peso verdadero que deberá otorgársele a cada error es 1/wi y
a medida de que σi2 aumenta de valor 1/wi deberia disminuir. Pero OLS entrega
a todos los errores el mismo peso]. Para corregir por este problema deberiamos
darle mayor importancia a los errores menores. El estimador WLS usa informa-
cion muestral para definir estos pesos. Propiedades Asintóticas
Para probar de que los estimadores son consistentes frente al problema de la
heteroscedasticidad, necesitamos solo que chequear que la varianza del OLS de-
saparece a medida de que la muestra crece. La varianza del estimador OLS se
define como sigue:
Pn e
b = E(β − β)
V ar(β) b = E( Pi=1 Xi ²i )2
2
(6.18)
n
Xe2
i=1 i

Dado que E(²2i ) = σi2 ∧ E(²i ²j ) = 0 entonces (15) puede ser re escrito como:
Pn e 2 2
V ar(β)b = Pi=1 Xi σi (6.19)
e 2)
( ni=1 X i

Ahora cuando σ12 = σ 2 el cual es el de homoscedasticidad, este no es el caso. No


obstante, podemos definir las varianzas no constantes como σi2 = θi + σ 2 donde
σ 2 = Σσi2 /n de tal modo que Σθi = 0 entonces:
P e2 2 P e2
b Xi (σ + θi ) σ2 X θi
V ar(β) = P e2 2 =P + P i
( Xi ) e
X 2
( Xe 2 )2
i i
P e2
σ 2 /n ( X i θi /n)(1/n)
=P + P (6.20)
Xe 2 /n ( X e 2 /n)2
i i

65
P e2
Si tomamos el límite de (20) notamos que el límite de Xi /n es finito y que el
numerador de ambos componentes de (20) desaparecen. De esta forma, la varianza
del estimador OLS converge efectivamente a cero. Sin embargo, debe estar claro
que la varianza del estimador es, para todo tamaño de muestra, mayor que la
verdadera varianza y en consecuencia, es asintóticamente ineficiente (ver Kmenta
273-275 para prueba detallada en sobre este punto). Resultado 3.
El estimador OLS es consistente, pero es asintóticamente ineficiente.

Inferencia bajo Heterocedasticidad: La varianza del estimador OLS. En pres-


encia de Heterocedasticidad, el estimador OLS es insesgado, consistente pero in-
eficiente (y asintóticamente ineficiente). Si queremos realizar inferencias en base
a los estimadores necesitamos adémas que la varianza de los estimadores sea
tambien insesgadas.

La varianza del estimador mínimo cuadrático viene dada por la siguiente ex-
presion:
S2
Sβ2b = P (6.21)
e2
X i

Usando la notación anterior podemos re escribir el valor esperado de (21) como


sigue:
P e2
2 S2 σ2 Xi θi
E(Sβb) = E( P )= P − P e2 2 (6.22)
e
X 2
Xe 2
(n − 2)( X )
i i i

Sabemos de (20), sin embargo, que la "verdadera"varianza de βb viene dada por:


P e2 2 P e2
b Xi σi σ2 X θi
V ar(β) = P =P + P i (6.23)
( Xe 2 )2 e2 ( X
X e 2 )2
i i i

Estas dos expresiones son claramente diferentes. De hecho, el sesgo (de la varianza
estimada) puede ser calculada como sigue:
P e2 P e2 P e2
b = Xi θi X i θi (u − 1) Xi θi
E(Sβ2b) − V ar(β) P e2 2 − P e2 2 = P e2 2 (6.24)
(u − 2)( Xi ) ( Xi ) (u − 2)( Xi )

La ecuación (24) muestra que el sesgo en la varianza estimada dependerá del


P e2 ei2 y los terminos de varianza
valor de Xi θi /n el cual es la varianza entre X
individuales. Si esta covarianza es positiva entonces tendremos un sesgo negativo,
b Esto significa que los errores estándar en los coeficientes
ya que E(Sβ2b) < V ar(β).
estimados por OLS en la presencia de heteroscedasticidad serán muy pequeños,
implicando que el modelo presenta una precisión mayor de la que realmente tiene.

66
Resultado 4.
La varianza estimada para los estimadores OLS está sesgada. Si los errores het-
eroscedasticos están positivamente correlacionados con las variables entonces el
sesgo será hacia abajo implicando un falso sentido de precisión en el modelo.

6.3.2. Deteccion de la Heteroscedasticidad

De la discusión anterior debería resultar claro que con el fin de probar que la
varianza del término de error es constante requeriremos que la hipótesis nula sea:
2
Ho : σ12 = σ22 = .......σm (m ≤ n)

Existe una variada gama de tests, cada uno con diferentes fortalezas dependiendo
de las circuntancias.

Test de Goldfeld-Quandt
Esta prueba puede ser usada solamente con datos de corte transversal. La intu-
ición detras de esta prueba es si pudiéramos ordenar todos los datos en orden
creciente dependiendo de la varianza de sus errores asociados y escogiéramos sub
muestras de diferentes partes de esta muestra, entonces las varianzas al interi-
or de cada submuestras debería ser diferente solamente en fluctuaciones bajo la
nula. Sin embargo, si la muestra es heteroscedastica entonces las varianzas entre
submuestras deberian ser significativamente diferentes.
El test de GQ se define de la siguiente manera:
S22
GQ = ∼ Fn2 −2,n1 −2 (6.25)
S12
donde Pn1
b1 − βb1 Xi )2
i=1 (Yi
−α
S12 = ∀i = 1, .....n1
n1 − 2
Pn1 +p+n2
2
b1 − βb1 Xi )2
i=n1 +p (Yi − α
S2 = ∀n1 + p + 1.....n1 + p + n2 (6.26)
n2 − 2

Notar que las sumas individuales de los cuadrados se distribuyen en Chi-cuadrado


y en consecuencia la razon entre dos Chi-cuadrados independientes se distribuye
F. Notar tambien que las sub muestras son realizaciones independientes de la
muestra completa.

Algunos aspectos importantes:

67
1. p es un conjunto arbitrario de los datos y puede ser escogidos por el inves-
tigador. Evidencia experimental sugiere que el 15 por ciento del medio de
la muestra debe ser desechado.

2. La prueba de GQ tiene generalmente, bajo poder.

Prueba de Breush-Pagan
La prueba de BP es una aplicacion directa de la clase de test de Multiplicadores
de Lagrange introducidas en la clase 4. Aplicando la logica del LM test, si la
hipótesis nula (la restrictiva) es valida entonces la derivada de L no será signi-
ficativamente diferente de cero.

La hipótesis nula es probada en contra de la hipótesis alternativa mas general:

HA : σi2 = g[γ0 + γ1 z1i + γ2 z2i + ....γp zpi ] i = 1, 2, ...k

donde g es una función continua y donde las variables Z son no estocásticas, típi-
camente las variables explicaivas del modelo.

Para calcular la prueba de BP el investigador deberá estimar la siguiente


regresión auxiliar usando mínimos cuadrados:

²2i
= γ0 + γ1 z1i + γ2 z2i + ....γγ zpi + vi (6.27)
b2
σ
donde ²i son los residuos de la regresión mínimo cuadrática de Y sobre X y donde
además u
X epsilon2i
b2 =
σ
i=1
n
Si definimos ESSBP como la suma de cuadrados explicada de la regresión auxiliar
entonces si la nula es válida ESSBP será pequeña y en consecuencia:
ESSBP e2
BP = ∼X[p] (6.28)
2
Debería ser claro que si la regresión auxiliar explica la evolución de ²2i (lo que
implica que los residuos no son constantes) entonces ESS será alta y BP no se
distribuirá como chi-cuadrado y en consecuencia rechazaremos la hipótesis nula
de homocedasticidad.

68
Prueba de White
La prueba de White es conceptualmente similar a la prueba de BP (y es la prueba
principal ofrecida en la mayoría de los softwares). La prueba de White define la
hipótesis nula igual que el resto de las pruebas y donde la alternativa es:

HA : ²2i = δ0 + δ1 X1i + δ2 X2i + ....δp Xi Xj + ui ∀ i, j

donde las variables Xi son aquellas del modelo original de Y regresionado sobre
X. Notar que la prueba de White incluye los X individualmente, el cuadrado de
cada Xi , y el producto conjunto de todas las variables Xi Xj entre sí.

Habiendo hecho la regresión de White, que bajo la nula:


2
nRw e[p]
∼X 2
(6.29)
2
donde n es el numero de observaciones y Rw es la medida estandar R2 de ajuste
aplicado a la regresion auxiliar. Algunos aspectos importantes:

1. La regresión auxiliar no sólo entrega una prueba para la existencia de het-


eroscedasticidad sino que también una base para descubrir la forma de la
heteroscedasticidad y en consecuencia, permite ayudar en el proceso del
diseño del modelo final.

2. Tanto el test de BP como el de White pueden ser implementados usando la


metodología general-a-específico al comenzar con una especificación auxiliar
muy general y en seguida borrar los regresores irrelevantes. Esto significa
que el ultimo test resultante será insesgado, consistente y eficiente.

6.3.3. Soluciones para la Heteroscedasticidad

Hemos concluido que la heteroscedasticidad presenta problemas en la eficien-


cia de la estimación mínimo cuadrática pero mas seriamente, induce sesgo en la
varianza del estimador. Inferencia entonces es un elemento que está afectado ante
este problema. £Qué soluciones podemos implementar?

Hemos visto que los Mínimos Cuadrado Ponderados (WLS) son BLUE dado
que escalamos todas las variables por la ecuación conocida del error estándar.
Sin embargo, WLS como se ha presentado, asume que el verdadero valor de σi
para todos los i, es conocido. En general esto no es conocido. Es necesario, en

69
consecuencia, estimar el valor σi a partir de la muestra de datos disponible.

Nota: Nunca será posible estimar un modelo heteroscedastico completo dado


que el numero de parametros desconocidos (para una muestra de n observaciones)
es igual a n + k − 1. Todas las soluciones factibles para la heteroscedasticidad
tiene un costo de términos de eficiencia relativa a la situación en que toda la
informacion puede ser utilizada.

Heteroscedasticididad Multiplicativa

La heteroscedasticidad multiplicativa se refiere a aquella forma de heteroscedas-


ticidad que tiene la siguiente estructura:

σi2 = σ 2 ziδ (6.30)

la cual es una función de dos parámetros. Típicamente asumiremos que δ toma


valores pequeños, por ejemplo 1 o 2. Obviamente el caso en que δ = 0 es aquel
de homoscedasticidad. En este caso, el modelo completo queda expresado de la
siguiente manera:

Yi = α + βXi + ²i
²i = N (0, σi2 ) (6.31)
σi2 = σ 2 Ziδ (σ > 0, Z > 0)

Esto reduce el número de parámetros del modelo a ser estimados lo que lo hace
un estimador factible. En el caso especial en que δ = 2 y Zi = Xi , el modelo se
reduce a:
σi2 = σ 2 Xi2 (6.32)
La ecuación de regresión se hace homoscedástica al dividir el modelo por Xi lo
que resulta en la siguiente especificación:
Yi 1 ²i
( ) = α( ) + β + ( ) (6.33)
Xi Xi Xi

La ecuación (31) es ahora un modelo de regresión clásico.

70
Heteroscedasticidad Aditiva

Suponga que permitimos que la heteroscedasticidad tenga una forma mas


general, como la que sigue:

σi2 = a + bXi + cXi2 (6.34)

Podemos encontrar los valore de a, b y c al estimar la siguiente ecuación por OLS:

²2i = a + bXi + cXi2 + vi (6.35)

donde los ²2i son los residuos cuadrados de la regresion original (pero heteroscedas-
tica) entre Y y X y en consecuencia, vi = ²2i − σi2 . Esto nos entrega la "primera
ronda"de estimación de a,b y c.

σ a + bbXi + b
bi2 = b cXi2 (6.36)

Estos estimadores no son, sin embargo, eficientes dado que vi son heteroscedas-
ticos. En consecuencia, nesecitamos re estimar a,b y c al ajustar (35) por los
estimadores consistentes pero ineficientes de σi2 .

²2i 1 Xi Xi2
( 2
) = a( 2
) + b( 2
) + c( 2
) + vi∗ (6.37)
σ
bi σ
b1 σ
bi σ
bi

Estos estimadores revisados"son asintóticamente eficientes y son denotados por


un tilde (∼) y de esta manera podemos definir la "segunda ronda"en la estimación
de
σ a + ebXi + e
ei2 = e cXi2 (6.38)
el cual puede ser luego aplicado a la regresión heteroscedástica.
Yi 1 Xi
( ) = α( ) + β( ) + ²∗i (6.39)
σ
ei σ
ei σ
ei
la que asintóticamente eficiente y consistente.

Heteroscedasticidad en la Variable Dependiente

Finalmente, la heteroscedasticidad puede depender de la variable endógena,


con estructura como la siguiente:

σi2 = σ 2 [E(Yi )]2 = σ 2 (α + βXi )2 (6.40)

71
Podemos aplicar una versión modificada del WLS al estimar el siguiente modelo:
Yi 1 Xi
( ) = α( ) + β( ) + ²∗i (6.41)
Ybi Ybi Ybi

En todos los casos anteriores, dado que σi2 no es conocido y debe por tanto ser
estimado, existe una pérdida en la eficiencia en los estimadores. Estos estimadores
todos tienen propiedades asintóticamente deseables y a pesar de que estos esti-
madores son insesgados en muestras pequeñas, estamos menos seguros acerca de
la pérdida de eficiencia en tamaños de muestras pequeños.

6.3.4. Errores Estándares Heteroscedasticos Consistentes

Con el fin de solucionar los problemas asociados son el sesgo en la varianza de


los estimadores en presencia de Heteroscedasticidad, podemos calcular los errores
estándar Heteroscedasticos consistentes de la siguiente manera:
Pn
b HCSE = Pi=1 Xi2 ²2i
V ar(β) (6.42)
( ni=1 Xi2 )2
2
donde
P 2 2el estimador OLS de la varianza σ es reemplazado por la expresión
Xi ²i . White encuentra que este estimador de la varianza del OLS es con-
sistente.

6.3.5. Regresión Cuantil

Una forma conveniente para analizar datos intrínsicamente Heteroscedasticos


(donde la Heteroscedasticidad es en sí misma una caracteristica interesante del
DGP) es la regresión cuantil. Para entender este procedimiento recordemos el caso
de Heteroscedasticidad estándar donde el percentil de la distribución puede ser
representado por lineas paralelas y la línea de regresión pasa a través del 50mo.
Percentil.
A B
C

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito

72
Si la regresión es heteroscedastica las lineas de percentiles no serán paralelas y si
la heteroscedasticidad está relacionada con el valor de X entonces las líneas de
percentil divergirán (o convergerán) a medida que nos alejemos de la medida del
valor de X.
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y

predicción media de Y

media de X Xi

En este caso, en vez de ajustar una línea (i.e. estimar una regresión) utilizando
todos los datos, podemos ajustar línes a percentiles diferentes.

La regresión cuantil puede ser usada para detectar heteroscedasticidad. Si


la relación es de hecho homoscedástica entonces las pendientes de las regresiones
cuantiles deberían ser las mismas. Sin embargo, ante la presencia de heteroscedas-
ticidad entonces la regresión cuantil nos permite explorar la distribución condi-
cional con mas detalle. Podemos analizar el comportamiento de los diferentes
componentes de la muestra.

Por ejemplo, la relación entre consumo e ingreso para aquellos grupos de


bajo ingreso (10mo percentil de la muestra) y los grupos de altos ingresos (90mo
percentil). Un buen ejemplo de este tipo de ejercicios se puede encontrar en Angus
Deaton "The Analysis of Houshold Surveys"World Bank (1997) pp 81-85.
Formalmente, la definición del regresión cuantil es como sigue:
X X
Qq = mı́n(1 − q) (yi − x0i β) + q (yi − x0i β) (6.43)
β
y≤x0 β y>x0 β

el cual es igual a:
n
X
Qq = [q − f (y ≤ x0i β)] − (yi − x0i β) (6.44)
i=1

73
donde q denota el cuantil de interés y la función f (z) toma el valor de 1 si z es
verdarero, y un valor de 0 si z es falso.
Este método es discutido extensivamente en los manuales STATA. Ver la función
qreg y las diferencias que allí se citan.

74
Capítulo 7

Violaciones de los Supuestos del


Modelo de Regresión Clásico.
Parte III : Autocorrelación

7.1. Resumen
1. Consecuencias del supuesto de independencia
2. Autocorrelación - Detección
3. Autocorrelación - Soluciones

7.1.1. Referencias
Gujarati Capítulo 12
J. Kmenta Capítulo 8
Grenne Capítulo 15

7.2. Errores No Esféricos (continuación)

Volvamos al Modelo de Regresión Generalizado


Y = Xβ + ² (7.1)

75
E[²] = 0 E[²²0 ]² = Ω
donde Ω es una matriz cuadrada nxn positiva definida. El caso de autocorrelación
aparece cuando :

 
σ2 cov(²1 ²2 ) ··· ··· cov(²2 ²1 )
 cov(²1 ²n ) σ2 ··· ··· cov(²2 ²n ) 
 .. .. 
0  
E[²² ] = Ω =  . ··· ··· ··· .  = (7.2)
 .. .. .. .. 
 . . . ··· . 
cov(²2 ²1 ) ··· ··· ··· σ2
 
1 ρ1 ρ2 . . . ρn−1
 .. 
 ρ1 1 ... ... . 

2 .. 
σ  ρ2 ... 1 ... . 

 . .. .. .. 
 .. . . ... . 
ρn−1 ... ... ... 1
La forma de la autocorrelación será determinada por el número de elementos no
cero fuera de la diagonal en la matriz. En el caso de autocorrelación de primer
orden (la cual domina la literatura) la matriz de varianza-covarianzas tiene la
siguiente forma :  
1 ρ1 0 . . . 0
 . 
 ρ1 1 . . . . . . .. 
 .. 
Ω = σ2  0 . . . 1 . . . . 
 (7.3)
 . .. .. . 
 .. . . . . . .. 
0 ... ... ... 1
Como ya se había mencionado en la clase anterior, si la verdadera forma de Ω es
conocida, entonces el estimador de Mínimos Cuadrados Generallizados (GLS) es
aquel de estimador lineal insesgado de mínima varianza y tiene la siguiente forma
:
βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 y (7.4)
Si el verdadero valor de Ω es desconocido será necesario estimarlo en función de
un reducido conjunto de parámetros Ω = Ω(θ) . Con el fin de hacer GLS un
estimador factible requeriremos que Ω b , y en consecuencia, el estimador
b = Ω(θ)
GLS factible será el siguiente :

βbF GLS = (X 0 Ω
b −1 X)−1 X 0 Ω
b −1 y (7.5)

76
el cual es insesgado, consistente y asintóticamente eficiente, no obstante, no efi-
ciente en muestras finitas. Una vez mas, está falta de eficiencia proviene del hecho
que no podemos utilizar toda la información disponible para estimar Ω.

7.3. Proceso Autocorrelacionado y Autoregresivo:


algunas definiciones

En general, estamos acostumbrados a describir la evolución de variables en


términos de su relación sistemática con otras variables. No obstante, también es
instructivo examinar la evolución de las variables en términos de sus propios val-
ores pasados.

Una representación como un proceso Autoregresivo de Primer Orden AR(1) de


una serie puede ser expresado como :

²t = ρ²t−1 + µt (7.6)

donde µ ∼ N (0, σ 2 ) . El proceso mas general de orden p de una serie puede ser
representado por la siguiente expresión [AR(p)] :

²t = ρ1 ²t−1 + ρ2 ²t−2 + ........ + ρp ²t−p + µt (7.7)

la cual representa a ²t en función de valores pasados de ella misma.

Existe también la representación en términos de promedios móviles donde MA(1)


es la mas conocida la cual tiene la siguiente estructura :

²t = µt − θµt−1 (7.8)
donde, de nuevo, µ ∼ N (0, σ 2 ). Por extensión, el proceso de medias móviles mas
general, denotado como MA(q) tiene la siguiente estructura :

²t = µt − θ1 µt−1 − ....... − θq µt−q (7.9)

En los análisis de series de tiempo nos referiremos a los términos de error como
innovaciones con el fin de reflejar el hecho de que la única información nueva
que entra al proceso está contenida en los shocks estocásticos µt que ocurren en
cada período.

Un modelo general que engloba ambas especificaciones es el modelo de Media

77
Moviles y Autoregresivo (Auto Regressive Moving Average) denotados como mod-
elos ARMA (p,q) el cual tiene la siguiente estructura :

²t = ρ1 ²t−1 + ρ2 ²t−2 + ........ + ρp ²t−p + µt − θ1 µt−1 − ....... − θq µt−q (7.10)

Notar la convención de que en un modelo ARM A(p, q) existen p términos de


autoregresión y q términos de promedio móvil.

Una característica importante de estos procesos de series de tiempo es que bajo


ciertas circunstancias, especialmente cuando |ρ| < 1 ellos pueden ser también vis-
tos tanto como una regresión sobre valores rezagados con un error aditivo (caso
AR) o bien como la agregación de la historia de errores pasados (el caso MA).
Esto es una propiedad muy importante y de amplio uso. Para ver esto podemos
re escribir el proceso AR(1) por sustituciones repetidas como :

²t = ρ²t−1 + µt
²t = ρ(ρ²t−1 + µt−1 ) + µt
²t = ρ2 ²t−2 + ρµt + µt
.. .
. = ..
²t = ρs ²t−s + ρs−1 µt−s+1 + .........ρµt−1 + µt (7.11)

donde si s → ∞ implica que ρs → 0 y en consecuencia :



X
²t = ρs µt−s (7.12)
s=0

En otras palabras, el proceso autoregresivo de primer orden puede ser expresado


como un proceso infinito de medias móviles. Ello expresa la evolución de ²t en
términos de la historia de "innovaciones".

La evolución de ²t claramente depende de la historia de las innovaciones y en


consecuencia, del valor de ρ .

Si el valor de este parámetro ρ es menor que la unidad entonces para poten-


cias superiores progresivas (i.e. rezagos mayores) el efecto de las innovaciones
se disipa. Nos referiremos a este caso como una serie de corta memoria. Sin
embargo, si el valor de ρ es alto entonces innovaciones pasadas tienen un peso

78
cada vez mayor para determinar el valor actual de ²t . Nos referiremos a estas
series como aquellas de larga memoria. En el límite cuando podemos expresar
el AR(1) como :
²t = ²t−1 + µt (7.13)
o, utilizando (12), como :

X
²t = µt−i (7.14)
i=0
de tal manera que shocks antiguos tiene un peso igual a los mas nuevos en la
determinación del valor actual de ²t . Una serie de este tipo se conoce como paseo
aleatorio o random walk.

Debería quedar claro que la distinción entre series de memoria corta o larga está
directamente relacionado con el valor de ρ en el proceso AR. Esta es la principal
distinción entre una serie estacionaria de una no estacionaria, conceptos que
discutiremos en un par de clases.

Siguiendo esta discusión, podemos caracterizar el proceso autoregresivo de primer


orden como :

yt = α + βxt + ²t (7.15)
donde
²t = ρ²t−1 + µt
y
E(µt , µs ) = 0; E(µt , ²t−1 ) = 0; con µt ∼ N (0, σµ2 )
POr otra parte, la varianza viene dada por :
var(²t ) = var(µt ) + ρ2 var(µt−1 ) + ρ4 var(µt−2 ) + ......... + ρ2n var(µt−n )
σµ2
var(²t ) =
(1 − ρ2 )
la cual, notando que (1 + ρ2 + ρ4 ...) es una serie convergente cuando ρ < 1, define
la verdadera varianza del proceso AR(1) como :
σµ2
σ²2 = (7.16)
(1 − ρ2 )
Finalmente, respecto a la covarianzas, sabemos que :
cov(²t , ²t−1 ) = E(µt + ρµt−1 + ....)(µt−1 + ρµt−1 + ...) (7.17)
= ρσµ2 + ρ3 σµ2 + ρ5 σµ2 = ρσ²2

79
Se sigue entonces dado que :

cov(²t , ²t−1 ) = ρσ 2

Entonces se tiene que :

cov(²t , ²t−1 ) cov(²t , ²t−1 )


ρ= = p p
σ²2 var(²t ) var(²t−1 )

7.4. Estimación Minimo Cuadrática y Errores Au-


tocorrelacionados

En seguida derivaremos las propiedades del los estimadores mínimo cuadráti-


cos ante la presencia de autocorelación. Una vez mas es mas simple trabajar con
un proceso AR(1) en los errores.

7.4.1. Sesgo y Consistencia

Considere el modelo definio en (15). Dado que no hemos violado el supuesto


de regresores no estocásticos, la formula del OLS para el parámetro β será:
PT PT
x y xt ² t
βb = PT t=1 t t
2
= β + Pt=1
T 2
(7.18)
t=1 xt t=1 xt

y, en consecuencia, PT
b =β+ t=1 xt E(²t )
E(β) PT 2
t=1 xt

Resultado 1: La estimación OLS ante la presencia de errores autocorrelaciona-


dos se mantiene insesgada.

Resultado 2: Dado que los estimadores OLS son insesgados para todos tipo
de tamaño de muestra finita, sabemos que el estimador será consistente.

80
7.4.2. Eficiencia

Para examinar la pregunta acerca de la eficiencia primero debemos trans-


formar el modelo AR(1) en una forma que tenga un error independiente. Ello
lo haremos al multiplicar la regresión por el coeficiente de autocorrelación, luego
rezagando la regresión en un período y finalmente restando la expresión resultante
de la ecuación original. Esta transformación se denomina Cochrane Orcutt.

yt − ρyt−1 = α(1 − ρ) + β(xt − ρxt−1 ) + ²t − ²t−1 (7.19)


Pero dado que sabemos que ²t − ²t−1 = µt podemos re escribir la ecuación como :

yt − ρyt−1 = α(1 − ρ) + β(xt − ρxt−1 ) + µt (7.20)

donde tenemos una ecuación con errores no correlacionados,pero estimada a partir


de menos datos. Notar de (20) que si conocemos ρ podemos estimar inmediata-
mente β por : PT
(x∗ − ρx∗t−1 )(yt − yt−1 )
βb = t=1PTt ∗ ∗
(7.21)
2
t=1 (xt − ρxt−1 )

donde x∗t = (xt − xt−1 ) y x∗t−1 = (xt−1 − xt−1 ). El punto central acerca de este
estimador es que es función de ρ . Dado que el estimador OLS no es función de
este parámetro, podemos deducir fácilmente que este último, ante la presencia de
autocorrelación no es eficiente.

Resultado 3: Ante la presencia de autocorrelación, el estimador OLS para α


y β no es eficiente. Ello surge dado que el verdadero estimador es una función
de la autocorrelación. La intuición detrás de este resultado es simple. Para cada
observación en la muestra el coeficiente de autocorrelación entrega información
sobre la observación siguiente (en un sentido dinámico). Esta información puede
ser explotada (y es de hecho explotada por un estimador eficiente). Dado que el
estimador OLS ignora esta información importante, entonces no puede ser efi-
ciente al compararlos con otros que si la consideren.

Resultado 4: El estimador OLS es asintóticamente ineficiente. En otras pal-


abras la pérdida de eficiencia en muestras finitas no desaparece a medida que el
tamaño de la muestra crece, dado que ρ no desaparece a medida que la muestra
es mayor. (ver la prueba de esto en Kmenta pp 307-308).

81
7.4.3. La varianza del estimador OLS

La "verdadera"varianza del estimador OLS ante la presencia de autocor-


relación es la siguiente :
"P #2
T
b = E(βb − β)2 = E Pt=1 x t ² t
V ar(β) T 2
(7.22)
t=1 xt

Expandiendo esta expresión (y notando que ²t = ρ²t−1 + µt ) tenemos la siguiente


expresión :
" T T
#
2 2 X X
b = P σ²
V ar(β)
σ
+ 2 PT ² 2 ρ xt xt−1 + ρ2 xt xt−2 + ..... (7.23)
T 2 2
t=1 xt ( t=1 xt ) t=2 t=3

Finalmente, dado que sabemos que la varianza calculada del estimador OLS es:
σ2
E(Sβ2b) = PT
t=1 x2t

Entonces podemos derivar una expresión para el sesgo de la varianza del estimador
OLS como sigue :
" T T
#
σ2 2σ 2 X X
s = PT b =− P
− V ar(β) ρ xt xt−1 + ρ2 xt xt−2 + .....
2 T 2 2
x
t=1 t ( x
t=1 t ) t=2 t=3
(7.24)

Resultado 5: Cuando ρ > 0 y existe una correlación positiva entre los Xs en la


muestra el sesgo es negativo. En este caso subestimamos la verdadera varianza y
en consecuencia sobreestimamos la precisión de los estimadores.

Resumen
Las consecuencias para la estimación bajo OLS ante la presencia de autocor-
relaciónn en los errores son las mismas que en la situación de heteroscedasticidad.
Es, de hecho, un resultado general de tener errores no esféricos : el estimador OLS
es insesgado y consistente pero son ineficientes y asintóticamente ineficientes. Mas
aún, la varianza del estimador es sesgada y puede inducir precisión espurea en
los parámetros estimados.

La solución para el problema de la autocorrelación es similar para aquella en


que se desea utilizar el estimador FGLS el que incorpora una estimación del
componente no esférico del término de error.

82
7.5. Pruebas de Autocorrelación

Existen tres pruebas conocidas para autocorrelación. La primera es del tipo


LM asintótico atribuido a Engle, el segundo de carácter no-paramétrico denomi-
nado Box Pierce Q Test y el tercero el test de Durbin-Watson. En todos ellos la
hipótesis nula es la misma :
H0 : ρ = 0
Y la alternativa
H0 : ρ 6= 0
Como ya vimos en el caso de heteroscedasticidad, las pruebas requieren que una
forma específica de la hipótesis alternativa deba ser especificada

7.5.1. La Prueba General del Multiplicador de Lagrange


para Autocorrelación de Orden P

Esta prueba çlásica"de autocorrelación está basada en la teoría de máxima


verosimilitud y es la versión equivalente de la prueba de White en heteroscedas-
ticidad. Para ello construimos la siguiente regresión auxiliar :
²t = α1 ²t−1 + α2 ²t−2 + ...... + αp ²t−p + µt (7.25)

donde la nula :
H0 : α1 = α2 = ..... = αp = 0
La prueba LM se calcula al regresionar los residuos de la ecuación original sobre
sus propios valores rezagados hasta un orden p (con p < n). El estadístico deriva-
do del R2 de la regresión auxiliar se distribuye chi-cuadrado bajo la nula de la
siguiente forma :

LM = nR2 ∼ χ2n−p+1 (7.26)


A modo de recapitulación, si no existe una correlación de orden p en los er-
rores entonces el R2 de la regresión auxiliar será bajo (i.e. no habrá perdida de
verosimilitud significativa al imponer la restricción bajo la hipótesis nula), y el
estadístico LM tendrá una distribución chi-cuadrado.

Esta es una prueba general de autocorrelación y puede ser usada como una prue-
ba diagnóstica también. Su uso se recomienda pues se puede estudiar la presencia
de autocorrelación de cualquier orden.

83
7.5.2. La prueba de Box-Pierce Q (o de Portmanteau)

Esta es una prueba no-paramétrica ( en el sentido de que no debemos calcular


ningún parámetro de la regresión auxiliar). La prueba Q se define al construir
el conjunto de correlaciones muestrales ( para cada orden de la autocorrelación,
k = 1, 2....m )

PT
b
²tb
²t−k
rbk = t=k+1
Pn 2 ; k = 1, ....m (7.27)
t=1 b
²t
Al construir el estadístico Q podemos encontrar que también este tiene una dis-
tribución chi-cuadrado bajo la nula ( autocorrelación de orden m) :
Xm
Q=n rbk2 ∼ χ2m (7.28)
k=1

7.5.3. La prueba de Durbin-Watson para Autocorrelación


de Primer Orden

El archiconocido test de DW para autocorrelación involucra la construcción


de un estadístico y la posterior comparación de la distribución actual de ese
estadístico con aquella que se calcula a partir de la hipótesis nula. La clave de
este test es que no tiene una distribución estándar. Durbin y Watson han calculado
está distribución. El estadístico viene dado por :
PT
(b²t − b²t−1 )2
d = t=2PT 2 (7.29)
t=1 b
²t
Podemos expandir esta expresión de la siguiente manera :
PT 2 PT 2 PT
t=2 b
²t t=2 b
²t−1 t=2 b
²t b
²t−1
d = PT 2 + PT 2 − 2 P T
t=1 b
²t t=1 b
²t t=1 b²2t
Si tomamos el límite de esta última expresión podemos notar que los dos primeros
términos tienden a la unidad y el tercer término es simplemente 2ρ. En conse-
cuencia,
plimd = 2(1 − ρ)

Bajo la nula, a medida que rho tiende a cero, el valor de d tiende a dos. En
muestras finitas, sin embargo, el DW tiene una distribución compleja la cual se
ilustra en la siguiente figura.

84
El estadístico DW entrega los valores, dependientes de la muestra, dl y dr los
cuales se ilustran en el gráfico.

Descripción de las Zonas


A : Autocorrelación posistiva
B : Area inconclusa
C : Inexsitencia de autocorrelación
D : Area inconclusa
E : Autocorrelación negativa
Así, la regla de decisión es la siguiente:

Si d < Ll rechazar Ho a favor de autocorrelación positiva.

Si d > 4 − Ll rechazar Ho a favor de autocorrelación negativa.

Si Lu < d < 4 − Lu no rechazar Ho.

Si Ll ≤ d ≤ Lu o 4 − Lu ≤ d ≤ 4 − Ll resultado inconcluso.

7.5.4. La prueba h de Durbin

Suponga que el modelo autoregresivo tiene la siguiente forma :

yt = α + βxt + γyt−1 + ²t (7.30)

y donde
²t = ρ²t−1 + µt
En este caso la prueba de DW (d) no es aplicable pero sí una variante de esta
denominada la prueba h la cual ajusta la prueba d ante la presencia de variable
dependiente rezagada. El test h de Durbin tiene la siguiente estructura :
s
d n
h = (1 − ) ∼ N (0, 1)
2 1 − nSγb2

donde n es el número de observaciones y Sγb2 es la varianza estimada. Notar que


la distribución de este estadístico es una Normal.

Resumen
La pruebas anteriores todas tienen propiedades asintóticas bien definidas. Sin

85
embargo, sus propiedades en muestras pequeñas o finitas no son tan buenas. En
particular, la prueba de DW tiene relativamente bajo poder mientras que la prue-
ba de LM puede ser ineficiente en muestras pequeñas. No obstante, en general la
prueba del tipo LM es preferible dado que el DW es una prueba sólo aplicable a
situaciones en que los errores tiene una autocorelación de primer orden.

7.6. Soluciones para la Autocorrelación

Como en el caso de la heteroscedasticidad, lo que hacemos en presencia de


autocorrelación depende de cuánto sabemos acerca de la estructura del proceso
que la genera. En ambos casos utilizaremos una forma del estimador minimo
cuadrado generalizado (GLS).

βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 y

Como siempre, si el verdadero valor de Ω es desconocido, será necesario entonces


estimarlo de tal manera de aplicar en consecuencia el estimador GLS factible
(FGLS) el que tiene la siguiente forma

βbF GLS = (X 0 Ω
b −1 X)−1 X 0 Ω
b −1 y

el cual es insesgado, consistente y asintóticamente eficiente, aunque no eficiente


en muestras finitas. Lo anterior dado que existe una pérdida de información ante
la necesidad de estimar la matriz de varianzas-covarianzas.

La forma mas común de FGLS para el caso de autocorrelación son los esti-
madores mínimo cuadrático autoregresico iterativos donde el mas cono-
cido entre ellos es el Método de Cochrane Orcutt.

7.6.1. Método de Cochrane Orcutt

Suponga que el término error está autocorrelacionado (de primer orden) en-
tonces podremos estimar consistentemente la correlación de la siguiente manera
:

PT
t=1 b
²t b
²t−1
ρb = P T
t ²2t−1
b

86
con este estimador en la mano podemos usarlo para construir la transformación
de Cochrane Orcutt ya vista :

(yt − ρbyt−1 ) = α(1 − ρb) + β(xt − xt−1 ) + µ∗t

donde ahora, por definición, µ∗ está distribuido independientemente. De esta for-


ma, podremos entonces estimar consistentemente (pero no eficientemente) α, β y
σµ2 ∗ de (37)

Nota Importante : El método de Cochrane Orcutt es usualmente implementa-


do iterativamente. Suponga que después de esta estimación en dos etapas resulta
que µ∗t es autocorrelacionado (lo que puede ser testeado). Es posible entonces
repetir el proceso CO al re estimar el parámetro de autocorrelación de (36) de la
secuencia de errores de (37). Y de esta manera usarlo para estimar una versión
mejorada de (37). Si los valores de α y β no cambian entre cada iteración entonces
estaremos seguros de que la regresión tiene un error independiente. Este es un
proceso estándar de convergencia y los estimadores de α y β de la iteración final
se considerarán los mejores estimadores FGLS.

7.6.2. Problemas con el método de Cochrane Orcutt / Min-


imos Cuadrados Autoregresivos

A pesar de su extendido uso en econometría aplicada, el método de CO tiene


un problema serio. Considere el modelo autoregresivo siguiente :

yt = α + βxt + ²t

donde :
²t = ρ²t−1 + µt
con µt ∼ N (0, σµ2 ), E(µt , µs ) = 0, E(µt , ²) = 0
Suponga que estimamos el modelo utilizando el método de CO el que tiene la
siguiente forma :
b∗ + βx
yt∗ = α b ∗+µ b∗t
t

b∗t es un término de error independiente y yt∗ , x∗t son las transformaciones


donde µ
de Cochrane Orcutt de Y y X según la ecuación (37). Sin embargo, si recordamos
de que :
µ
bt
²bt =
(1 − ρbL)

87
donde L es el operador rezago, entonces podremos re escribir (38) de la siguiente
manera :
(1 − ρbL)yt = α b − ρbL)xt + µ
b∗ + β(1 b∗

o bien
yt − ρbyt−1 = α b t − βbρbxt−1 + µ
b∗ + βx b∗t
El aspecto clave acerca de esta relación dinámica es que impone la restricción de
que la relación (autoregresiva) condicional entre yt y yt−1 es idéntica a la relación
(autoregresiva) condicional entre xt y xt−1 y esa relación está definida por la
relación autoregresiva entre ²t y ²t−1 . Esto es conocido como la restricción de
factor común.

Debería ser obvio que esta es una restricción muy fuerte. Pero debería también
quedar claro que es una condición que puede ser testeable. Para ver esto último
mas en detalle podemos re escribir el modelo en (40) en forma mas general de la
siguiente manera :

(1 − γ)yt = α + β(1 − δL)xt + µt


y testear directamente la restricción de que :(1 − γ) = (1 − δ) = (1 − ρ) Para
implementar esta prueba debemos estimar la siguiente regresión :

yt = α0 + α1 + β1 yt−1 + β0 xt + β1 xt−1 + µt

y testear directamente la restricción de que α1 = −β1 /β0 . Si y sólo si la restricción


se mantiene, entonces la transformación de Cochrane Orcutt es válida. Mas aún,
si la restricción es válida entonces la estimación mediante CO será una estimación
eficiente. La prueba de Restricción de Factor Común COMFAC es una prueba
de Wald donde la hipótesis nula asume que la restricción de factor común es
válida. Esta prueba tiene una distribución chi-cuadrado bajo la nula donde los
grados de libertad vienen determinados por el orden del factor de polinomio. En
el ejemplo anterior, el polinomio de rezago tiene un orden igual a 1.

7.6.3. Estrategia de Modelamiento para Mínimos Cuadra-


dos Autoregresivos
1. Estime el modelo dinámico de la forma definida en (43) usando OLS.

2. Aplique la prueba de COMFAC al modelo.

88
3. Si la restricción de factor común no es rechazada entonces re estime el
modelo (sin los valores rezagados de Y y X ) usando ALS. En otras palabras,
estime la ecuación (39).

4. Si la restricción no es aceptada (i.e. Ho es rechazada) usted debería pensar


un poco acerca de la causa de la autocorrelación en el término de error.

Nota: el procedimiento COMFAC / ALS se aplica para cualquier tipo de


orden de polinomio rezagado y orden de autocorrelación. De esta manera, en un
modelo de dos rezagos sobre Y y X deberíamos testear por un factor polinomial
común de segundo orden. Si la restricción es aceptada, el término de error en (39)
debería ser de la forma µt = ²t − ρ1 ²t−1 − ρ2 ²t−2 . El cual es un proceso AR(2)
como el siguiente:
²t = ρ1 ²t−1 − ρ2 ²t−2 + µt
con µt ∼ N (0, σµ2 )

89
Capítulo 8

Regresores Estocásticos,
Exogeneidad y Estimación por
Variables Instrumentales

8.1. Resumen
1. Violación del supuesto de regresores no estocásticos

2. Una extensión : concepto de exogeneidad

3. Una solución : estimación por variables instrumentales

8.1.1. Referencias
Kmenta Capítulo 8, Capítulo 9.1, 13.4

Hendry Capítulo 5

Gujarati Secciones 13.6 y 16.9

Grenne Secciones 9.5 y 20.4

Kennedy Secciones 9.2

90
8.2. Introducción

El último supuesto del modelo de regresión lineal clásico asume que las vari-
ables independientes en el modelo son no estocásticas, es decir que tienen valores
fijos en muestras repetidas y las que satisfacen la condición de que :
n
1X
(xi − x)
n i=1

es igual a un valor finito y no cero para cualquier tamaño de muestra.

En la práctica, con datos reales, estos dos últimos requerimientos no son par-
ticularmente interesantes. El primero no puede ser evaluado dado que rara vez
tenemos muestras repetidas mientras que el segundo simplemente requiere que
los Xs no sean todos iguales.

Nota : generalmente asumimos que una ( y sólo una) de las Xs toma el mis-
mo valor a través de la muestra. Este es el caso de la constante.

El requerimiento clave en términos prácticos es la condición de que las vari-


ables X puedan ser tratadas como si fueran no estocásticas lo que requiere sim-
plemente que se cumpla lo siguiente :

E(²i , xj ) = xj E(²i ) = 0; ∀ i, j (8.1)

8.3. Consecuencias de la Violación del Supuesto


de Regresores no Estocásticos

Vamos a separar este problema en tres casos diferentes :

Caso 1: xt es estocástica pero es independiente de ²t


Considere el siguiente modelo :

yt = α + βxt + ²t (8.2)

donde ahora asumiremos que xt es estocástica pero independiente de ²t . El esti-


mador mínimo cuadrado ordinario de β es el siguiente :
PT
b xt ² t
β = β + Pt=1 T 2
(8.3)
t=1 xt

91
y el valor esperado viene dado por :

T
X
b =β+ xt
E(β) E( PT
)E(²t ) (8.4)
x2t
t=1 t=1
Notar que dado que ahora xt es estocástica, no es posible sacar esta variable fuera
del valor esperado como una constante. Sin embargo, dado que asumimos inde-
pendencia entre xt e ² sabemos que E(xt ²t ) = E(xt )E(²t ) Dado que E(²t ) = 0
entonces el valor esperado del estimador es el verdadero valor del parámetro (i.e.
es insesgado).

Notar también que el estimador de β ya no es una función lineal (pues ya no


podemos expresar este estimador como ki yt ). Estrictamente ya no es BLUE. Sin
embargo, esto no representa un problema en este caso ya que el estimador mínimo
cuadrático mantiene aún todas sus propiedades del modelo de regresión clásico.
Veamos todo esto.

Considere la densidad conjunta de xt e ²t como :


f (x1 .....xT , ²1 .....²T ) (8.5)
entonces su verosimilitud en logaritmos viene dada por :

logL = logf (x1 .....xT ) + logL(²1 ....²T ) (8.6)


el cual es igual a :
T
−T 2 1 X
logL = logf (x1 .....xT ) = log(2Πσ ) − 2 (yt − α − βxt )2 (8.7)
2 2σ t=1
Ahora, si la distribución de xt es independiente de ²t ( y en consecuencia α y β )
entonces maximizar la función de verosimilitud con respecto a α, β y σ 2 no será
influenciado por la verosimilitud de xt . En consecuencia, aun si xt es estocástico,
el estimador tendrá todas las propiedades del estimador mínimo cuadrado ordi-
nario. Esto puede ser probado al sacar la derivada parcial de (7) con respecto a
los parámetros del modelo de regresión.

Finalmente, podemos mostrar que la varianza del estimador mínimo cuadráti-


co es :

"P #2 "P # "P #


T T 2 2 T
b =E xi ² i t=1 xi ²t t=1 xt xj ²t ²j
V ar(β) Pt=1
T
=E P + 2E P (8.8)
t=1 xi
2
( Tt=1 x2t )2 ( Tt=1 x2t )2

92
" #
b = σ2E P 1
V ar(β) T
t=1 x2t
Dado que xt y ²t son independientes
PT entonces la covarianza entre ellos será cero, y
2
al cancelar el término t=1 xt del numerador y denominador nos quedamos con
la formula conocida para la varianza del estimador.

El resultado anterior también se aplica para el valor esperado y la varianza del


termino de intercepto.

Resultado 1. Si xt es una variable estocástica pero independiente de ²t entonces


todas las propiedades del modelo de regresión clásico y el estimador mínimo
cuadrático se mantienen inalteradas.

Caso 2: xt es estocástica, no es independiente pero está no correlacionada con-


temporáneamente.
En este caso no asumimos que xt y ²t son independientes pero mantenemos el
supuesto que :

Cov(x1 , ²1 ) = Cov(x2 , ²2 ) = ...... = Cov(xT , ²T ) = 0 (8.9)

Para ilustrar este caso, considere un modelo autoregresivo, es decir uno con vari-
able dependiente rezagada.

yt = α + βyt−1 + ²t (8.10)

En este caso asumimos que la variable xt es yt−1 . Si asumimos que |β| < 1
entonces podemos sustituir reiteradamente para el valor rezagado de yt y llegar
a una expresión como la siguiente :

yt = α(1 + β + β 2 + .... + β t−1 ) + β t y0 + ²t + β²t−1 + β 2 ²t−2 + .... + β t−1 ²1 (8.11)

A medida que t se hace mayor, llegando hasta infinito, entonces la expresión


converge a :
α
yt = + ²t + β²t−1 + β 2 ²t−2 + ...... + β t−1 ²1 (8.12)
(1 − β)

Como vimos en la clase pasada, esto es un modelo de media móvil con rezago
infinito el cual fue derivado de un modelo autoregresivo finito.

Notar que el supuesto de que Cov(xt , ²t ) = 0 implica que cov(yt−1 , ²t ) = 0 dado

93
que de (11) yt−1 es una función de y0 , ²0 , ²1 , .....²t−1 pero no de ²t . Considere el
estimador mínimo cuadrático de β.
PT
b yt−1 ²t
β = β + Pt=1 T 2
(8.13)
t=1 y t−2

Dado que yt−1 está definido como :


1
yt−1 = yt−1 − (y0 + y1 + ..... + yt + ..... + yT −1 ) (8.14)
T
podemos notar que es una función de yt , el cual, por definición, no es independi-
ente de ²t . De esta manera, yt−1 y ²t ya no son independientes. En forma similar
2
²t , no es independiente de yt−1 . Consecuentemente no podemos separar al tomar
el valor esperado en (13). En consecuencia, no podemos decir que si el estimador
OLS es insesgado.

Sin embargo, podemos tomar la probabilidad en el límite para βb como:


PT
plim yt−1 ²t /T
plimβb = β + Pt=2 =β (8.15)
plim Tt=2 yt−1
2
/T

El numerador de esta expresión es un estimador consistente de la covarianza


poblacional entre yt−1 y ²t la cual es cero mientras que el denominador es un
estimador consistente de la varianza poblacional de yt−1 . En consecuencia, el
segundo termino desaparece y así βb es un estimador consistente.

Resultado 2 Si la variable explicativa no es independiente del error pero no


está contenporaneamente correlacionada, entonces el estimador OLS puede estar
sesgado pero es consistente y todas las propiedades del modelo de regresión clási-
co estimados por mínimos cuadrados se mantienen asintóticamente. La principal
implicancia de este resultado es que modelos dinámicos producen estimadores los
que a pesar de ser consistentes tienen propiedades indeseables en muestras finitas.
No es posible calcular, exante, el signo o la magnitud de estos efectos en muestras
finitas.

Caso 3 Si Xt es estocástica, pero no es independiente y está correlacionada


contemporánemanete con el termino de error. Aquí, si xt y ²t covarían entonces
el estimador OLS de β viene dado por :
"P #
T
b = β + E Pt=1 x t ² t
E(β) T 2
6= β (8.16)
t=1 xt

94
Así, el estimador es sesgado para muestras finitas. Mas aún, dado que la covari-
anza poblacional entre xt y ²t no es cero ( por definición) entonces se sigue que
: PT
plim xt ²t /T
plimβb = β + Pt=2
T
6= β (8.17)
plim t=2 x2t /T
Resultado 3 Cuando la covarianza entre xt y ²t no es cero entonces el estimador
OLS no es insesgado ni consistente. Asi la estimación uniecuacional por OLS no
es válida.

En este caso, las implicaciones para el modelamiento son que para obtener una
estimación consistente y eficiente ante este problema, se requiere de un estimador
alternativo. Los dos métodos de estimación más comunes son la Estimación por
Variables Instrumentales (vea sección 4 de estas notas) y Estimación por
Sistemas de Ecuaciones (tales como Mínimos Cuadrados en Dos Etapas, MC
en Tres Etapas, Maxima Verosimilitud con Información Completa FIML). Estos
últimos estimadores serán revisados mas adelante.

8.4. Exogeneidad

Antes de repasar las formas de estimación de loscasos revisados anteriormente,


en esta sección consideraremos la importancia de este supuesto de la exogeneidad
para el modelamiento econométrico. Recodemos de la primera clase que podemos
considerar un sistema económico, referido como DGP, como una distribución con-
junta multivariada compleja denotada como D(zt |Zt−1 , Λ) .

Si pensamos en el vector Z consistiendo en dos variable (digamos yt y zt ) pode-


mos factorizar en términos de sus componentes: las distribuciones marginal y
condicional, de la siguiente manera :

D(zt |Zt−1 , Λ) = D(yt |Xt , Zt−1 ; λ1 )D(xt |Zt−1 ; λ2 ) (8.18)

donde D(yt |Xt , Zt−1 ; λ1 ) es la distribución condicional de yt , dado Xt y un con-


junto de parámetros λ1 y D(xt |Zt−1 ; λ2 ) es la distribución marginal de xt y con
Λ = (λ1 , λ2 ).

Todos los modelos econométricos son modelos condicionales del tipo de (18).
El aspecto de exogeneidad simplemente concierne a la pregunta de si la simplifi-
cación en el proceso de modelamiento logrado mediante la marginalización de la
variables no modeladas es válido. Específicamente, la esencia de la exogeneidad

95
radica en que si existe alguna pérdida de información cuando se explica yt por xt
sin necesariamente explicar xt al mismo tiempo. Si ocurre una pérdida de infor-
mación, entonces es inválido definir un modelo que condiciona en Xt ; y así xt no
es exógeno para los parámetros λ1 .

En (18) notamos que el requerimiento acerca de que no exista pérdida de informa-


ción al estimar el modelo condicional es equivalente a decir que no existe relación
sistemática entre el error estocástico del modelo condicional y los parámetros del
mismo modelo.

En las tres últimas clases hemos examinado casos en los cuales el término de
eror contiene "información.acerca de la evolución de yt . Cuando la fuente de esta
"información"surge de la covarianza entre xt y ²t nos referiremos a esta situación
como violación de la exogeneidad. Dependiendo del tipo de análisis condi-
cional que ha sido llevado a cabo, pueden existir tres tipos de exogeneidad.

8.4.1. Exogeneidad Débil

Si la especificación de la distribución marginal D(xt ) es irrelevante para la


especificación de los parámetros del modelo condicional, entonces se dice que xt
es debilmente exógena (o exógena debil) para la estimación de los parámetros λ .

Definición.
xt es debilmente exógena para los parámetros si yt |xt es función solamente de
λ1 y donde λ1 y λ2 son libres de variación. Exogeneidad débil es una condi-
ción necesaria para la estimación válida y eficiente de los valores desconocidos
de los parámetros en el modelo condicional. Exogeneidad débil es entonces una
condición necesaria para la econometría de ecuaciones simples o modelos uniecua-
cioinales, y la falla en establecer exogeneidad débil requiere que el investigador
utilice otros métodos para la estimación ya sea por variables instrumentales o
bien por sistemas de ecuaciones simultaneas.

8.4.2. Exogeneidad Fuerte y Causalidad de Granger.

Si xt es exogena débil y no es causada en el sentido de Granger por yt , entonces


se dice que xt es fuertemente exógena (o exógena fuerte). No causalidad según
Granger existe cuando la historia de yt no está determinada por xt .

96
Definición.
La no causalidad según Granger existe si y solo si :

D(xt |Xt−1 ; λ2 ) = D(Xt |Zt−1 ; λ2 )

Mientras la exogeneidad fuerte no es requerida para la inferencia de los parámetros


en el modelo condicional, exogeneidad fuerte es una condición necesaria
para predicción. La predicción de valores futuros de yt requiere el uso de valores
futuros de xt . Si existe causalidad según Granger entonces los valores futuros de yt
(i.e. aquellos que fueron predichos) tendrán un efecto de retroalimentación sobre
las variables xt (i.e. aquellas que fueron usadas para para realizar la predicción).

8.4.3. Superexogeneidad

Si los parámetros del modelo condicional son invariantes ante cualquier cambio
en la distribución marginal de xt y si además xt es exógena débil para λ1 ,entonces
se dice que xt es super-exógena.

Definición
La superexogeneidad requiere que los parámetros estimados del modelo condi-
cional sean independientes de las variaciones en el proceso marginal que produce
xt , así:
∂λ1
=0 (8.19)
∂D(xt |Xt−1 ; λ2 )

La ausencia de superexogeneidad en econometría es análogo a la Critica de


Lucas, la que dice que cambios en los gobiernos o en el las políticas o en el régi-
men de control serán incorporadas en el proceso de formación de expectativas de
los agentes los que no sólo alterarán su proceso marginal pero también la forma
condicional de su conducta. Como resultado, estudios empíricos que consideren
las respuestas en la conducta de los agentes ante cambios en la política económica
como invariantes colapsarán y en consecuencia, simulación acerca del impacto de
políticas serán erróneos, especialmente en el contexto cuando las simulaciones son
realizadas condicionales en el supuesto de expectativas invariantes departe de los
agentes económicos. En consecuencia, superexogeneidad es una condición
necesaria para simulación de políticas.

Considere, por ejemplo, un modelo donde la demanda por activos reales está
condicionada por el nivel de precios. Suponga que los precios están determinados
por el control que tiene el gobierno sobre la oferta monetaria, y bajo un cambio en

97
las autoridades, la autoridad monetaria a cambiado su política (i.e. el nuevo go-
bierno instituye los regímenes de crédito del FMI) y en consecuencia la conducta
de los agentes cambia como resultado de este cambio en el régimen político: Así,
los precios en este modelo no son superexógenos para los parámetros del modelo
condicional.

8.4.4. Pruebas para Exogeneidad

A pesar de la simplicidad del concepto de exogeneidad, la prueba directa de


las condiciones de exogeneidad no es tan fácil. Como debería ser claro, dada la
naturaleza de la interrelación existente en la distribución conjunta descrita por el
DGP, ninguna variable es perfectamente exógena, como tampoco es necesario que
así sea en todas las circunstancias. Como es común en métodos estadísticos de-
seamos testear si existe una perdida significativa de información al marginalizar
con respecto a una variable en particular. La hipótesis alternativa es que ex-
iste una gran pérdida de información (verosimilitud) como consecuencia de la
marginalización.

Prueba para Exogeneidad Débil

No existen test para probar directamente la exogeneidad débil como tal. No


obstante una prueba sobre la validez del condicionamiento en el modelamien-
to seguido es una prueba indirecta acerca de la exogeneidad débil. Cualquier
desviación del término de error de la normalidad, independiente, y distribución
idéntica puede ser causado por una condicionamiento inválido y en consecuencia,
una violación de la exogeneidad débil aunque ello puede ser también debido a la
heteroscedasticidad o la autocorrelación.

Sin embargo, una vez habiendo testeado por la presencia de autocorrelación o


heteroscedasticidad, el indicador mas importante de la violación de exogeneidad
débiles es la situación de parámetros no constantes. Estudiaremos en forma
mas directa métodos de estimación recursiva que ayudarán a resolver este
problema en una clases mas adelante.

Pruebas para Exogeneidad Fuerte

No obstante lo anterior, existen test bien establecidos para probar exogeneidad


fuerte o también denominado Causalidad según Granger. La prueba de causalidad

98
de Granger es una prueba F para la significancia de agregar la historia de yt a xt .

xt = β1 yt−1 + β2 yt−2 + .... + βt−k + et (8.20)

La hipótesis nula es H0 : β1 = β2 = ..... = βk = 0. Este estadístico se distribuye F


con K y T − k − 1 grados de libertad, donde k es el número de variables rezagadas
que se incluye en la ecuación (20).

Si la prueba de F es significativa, entonces la hipótesis nula se rechaza a fa-


vor de que yt çausa en el sentido de Granger.a xt y, en consecuencia, xt no es
exógena fuerte con respecto a los parámetros del modelo condicional de yt sobre
xt . Notar aquí que la causalidad según Granger es a menudo utilizada como una
forma de determinar el sentido de la causalidad económica. Sin embargo, esta es
una prueba débil de causalidad pues puede suceder que se llegue a la situación
de que "yt causa a xt "pero también que "xt causa a yt "sugiriendo que yt y xt
están co-determinadas. Esta es la propiedad que reside en la base de la noción de
cointegración, aspecto que retomaremos en las siguientes clases.

8.5. Estimación por Variables Instrumentales

El propósito de esta sección es la de examinar una solución ampliamente


utilizada para el problema donde el supuesto de que cov(xt , ²t ) = 0 es violado.

8.5.1. Una Solución para el Problema de Regresores Es-


tocásticos : Variables Instrumentales

Utilizaremos notación matricial suponiendo que la matriz X contiene sólo una


variable, ignorando por el momento la constante.

Y = Xβ + ² (8.21)

Para llegar al estimador de β necesitamos pre multiplicar la ecuación por X 0 para


obtener :
X 0 Y = X 0 Xβ + X 0 ² (8.22)
Asi, resolviendo para β tenemos :

β = (X 0 X)−1 X 0 Y − (X 0 X)−1 X 0 ² (8.23)

99
Bajo la condición de que X 0 ² es la matriz nula, llegamos a la formula estándar
de OLS.
βOLS = (X 0 X)−1 X 0 Y (8.24)
Sin embargo, si X 0 ² no es cero el βOLS será sesgado (por un monto (X 0 X)−1 X 0 ²).
Este es exactamente el problema donde los regresores del modelo son estocásticos
(y no independientes). Suponga, sin embargo, que existe una variable la cual tiene
las siguientes propiedades :

(i) está correlacionada con X (la variable de interés) pero,


(ii) no está correlacionada con ² , a lo menos asintóticamente

Esta variable se puede denotar como un instrumento para X . Llamaremos a


esta variable Z.

Usando el método de la Estimación IV (por variables instrumentales)


podemos simplemente pre multiplicar (21) no por X 0 pero por Z 0 , la variable
instrumental para obtener :
Z 0 Y = Z 0 Xβ + Z 0 ² (8.25)
y resolviendo para β tenemos :
β = (Z 0 X)−1 Z 0 Y − (Z 0 X)−1 Z 0 ² (8.26)
En una manera análoga al OLS, definiremos el estimador IV como :
βIV = (Z 0 X)−1 Z 0 Y (8.27)
Notar que, estrictamente, la condición (ii) señala que solamente la covarianza
asintótica entre Z y ² deberá ser cero (Cov(Z 0 ²) = 0 ). De esta forma, el estimador
IV es sesgado dado que para muestras finitas puede ocurrir que:
E((Z 0 X)−1 Z 0 ²) 6= 0
No obstante, este estimador es consistente. Para ver esto tomemos el límite de
la probabilidad de (27) :
plim(1/n)[Z 0 (Xβ + ²)] plim(1/n)[Z 0 ²]
plimβIV = = β + =β (8.28)
plim(1/n)[Z 0 X] plim(1/n)[Z 0 X]
ello pues el segundo término es ahora cero.
La varianza asintótica de βIV se define por :
asyvar[βIV ] = σ 2 [(Z 0 X)−1 (Z 0 Z)(X 0 Z)−1 ]−1 (8.29)

100
Resultado 4 Cuando Cov(X, ²) 6= 0 y el estimador OLS es sesgado e inconsis-
tente, un estimador IV será consistente pero no eficiente.

Notar que si pensamos el modelo en (21) como una regresión múltiple donde
el supuesto de Cov(X, ²) = 0 se mantiene para alguna de las variables, entonces
esos elementos de X no necesitarán instrumentos. Ellos son sus propios instru-
mentos.

8.6. Aplicación de la Estimación IV

La estimación IV parece ofrecer una opción atractiva en casos donde el supuesto


de regresores no correlacionados con el error es violado. En consecuencia, este
método surge como válido para un amplio espectro de problemas.

8.6.1. "Error de Medición 2


el modelo con errores en las
variables

La mayoría de los datos son medidos con algún grado de error tanto en corte
transversal como en series de tiempo. Por ejemplo :

(i) datos sobre consumo y ahorro son medidos típicamente como residuos de
datos de ingreso nacional y en consecuencia, contiene errores en la medida
de otros componentes.
(ii) En datos sobre balanza de pagos, los flujos de capital son usualmente me-
didos parcialmente pero también incluye errores en la medidas de cuentas
de comercio (las que son producto, por ejemplo, de declaraciones mal real-
izadas) .
(iii) En datos de corte transversal, la gente a menudo reporta sólo parte de su
ingreso (por miedo a impuestos adicionales) o bien pueden sistemáticamente
sub o sobre reportar el consumo de ciertos bienes.
(iv) En encuestas las firmas pueden sub reportar ganancias y sobre exagerara
impuestos pagados respondiendo de manera de satisfacer al encuestador.
Adicionalmente, ellos a menudo responderán en una forma que ellos piensen
que puedan influir en reformas a la política económica en forma beneficiosa
para ellos.

101
Todos estos factores sugieren que el tema del error en la medida de variables es
un aspecto muy común en los trabajos prácticos.

Podemos formalizar esto en el siguiente modelo. Asumiremos que la "verdadera-


elación viene dada por :
Y ∗ = βX ∗ + ² (8.30)
pero donde X ∗ y Y ∗ son sólo observado con un error estocástico. De esta manera,
observamos :
Y = Y ∗ + ν con ν ∼ N (0, σν2 ) (8.31)
y
X = X ∗ + µ con µ ∼ N (0, σµ2 ) (8.32)

Error de medición en la Variable Dependiente

Suponga, primero, que sólo Y ∗ está medido con error. Así

Y = βX ∗ + ² + ν (8.33)

lo que implica que


Y = βX ∗ + ²∗ (8.34)
donde :
²∗ = ² + ν
Dado que (por definición) X ∗ es no estocásticca y que :

E(²) = E(ν) = 0

Cov(x∗i , ²i ) = 0

Cov(x∗i , νi ) = 0

Cov(²i , νi ) = 0

entonces (34) es un modelo de regresión clásico y la estimación de β será insesgada.


Sin embargo, la varianza del β estimado será mayor que el caso de inexistencia
de error en la medición ya que :
2
b = Pnσ²∗ (σ 2 + σν2 )
V ar(β) = P²n ∗2 (8.35)
i=1 x∗2
i i=1 xi

102
donde x∗ representa desviaciones de la media.

Resultado 5Errores en la variable dependiente genera estimadores insesgados


pero la varianza estimada es mayor que en el caso de inexistencia de error en la
medición. Así, el estimador es ineficiente.

Error en la medición de las Variables Independientes

El resultado anterior no obstante no es aplicable cuando el error de medición


está en la variable independiente. Ello puede ocurrir por alguna de las razones
antes mencionadas o bien porque no hemos podidos utilizar la verdadera variable
sino mas bien una proxy de ella. En este caso (que por simplicidad asumiremos que
la variable dependiente está correctamente medida) el modelo puede ser escrito
como :
Y = βX ∗ + ² (8.36)
Y = βX + (² − βµ) = βX + ω (8.37)
donde ω = [² − βµ]

La principal característica de este modelo es que a pesar de que tiene media


cero, varianza constante, serialmente independiente y no correlacionado con ² , el
termino de error compuesto no es independiente de X . Para ver esto, asumiendo
de que E(ω) = 0 , podemos examinar la covarianza entre X y ω
Cov(ω, X) = E[ω − E(ω)][X − E(X)]
= E[(² − βX)µ]
= E[−βµ2 ] (8.38)
= −βσµ2
Así, dado que la covarianza entre ω y X es no cero, el modelo ya no es del tipo
clásico y el estimador OLS de β será sesgado. Mas aún, los estimadores serán
inconsistentes dado que se mantendrán sesgados a pesar de que el tamaño de la
muestra aumente indefinidamente. Para ver esto calcularemos la probabilidad en
el límite para βb :
Pn Pn ∗2 Pn ∗ Pn ∗ Pn
y x β x + β x ² + β x µ + i=1 ²i µi
βb = Pn 2 =
i=1 i i i=1 i i=1 i i i=1 i i
Pn ∗2 Pn ∗ Pn 2
(8.39)
i=1 xi i=1 xi + 2 i=1 xi µi + i=1 µi
Dividiendo por el tamaño de la muestra y tomando la probabilidad en el límite
encontramos que :
Pn ∗2 Pn ∗ Pn ∗ Pn
(1/n)[β x + β x ² + β x µ + i=1 ²i µi ]
plimβb = i=1 i i=1 i i i=1 i i
Pn ∗2 Pn ∗ Pn 2
(8.40)
(1/n)[ i=1 xi + 2 i=1 xi µi + i=1 µi ]

103
y por tanto
β
plimβb = h 2
σµ
i
1+ σx2

Dado que hemos supuesto de que a medida de que n tiende a infinito, no existe
correlación entre los términos de error ² y µ y entre ² y µ y el verdadero valor de
X, es decir X ∗ . Si σµ2 > 0 entonces βb es inconsistente y el sesgo es hacia abajo.

Resultado 6 Errores en la variable independiente genera estimadores sesgados


e inconsistentes. El sesgo es negativo.

Notar que el problema de error en la medición de variables es simplemente un


caso especial de variable omitida dado que podemos pensar sobre la ecuación (37)
simplemente como :
Y = βX + θµ + ² (8.41)
y en consecuencia, para usar un estimador OLS sin tomar en cuenta la variable
omitida,µ , esto llevará a estimadores sesgados para las variables incluidas ,X
donde :
b = β + θ Cov(X, µ)
E(β) (8.42)
V ar(X)

8.6.2. Variables Proxy

La estimación por IV está también cercanamente relacionado con el caso donde


necesitamos encontrar variables apropiadas para aproximar para nociones teóricas
que no tienen su contraparte empírica. Como ejemplo, si deseamos explicar las
ganancias (W) por educación (E) donde no medimos educación directamente sino
aproximadamente por los años de colegio (S). Así :

W = α + βE + ² (8.43)

Sin embargo, suponga que la relación entre educación y escolaridad puede ser
descrita como sigue :
E =S+µ (8.44)
así, la ecuación estimada será :

W = α + βS + υ (8.45)

donde υ = [² − βµ]

104
El aspecto importante de este modelo es que a pesar de que µ tenga media cero,
varianza constante, serialmente independiente y no correlacionado con el error
compuesto υ, este error no es independiente de S. Para ver esto, asumiendo de
que E(υ) = 0 podemos examinar la covarianza entre υ y S:

Cov(υ, S) = E[υ − E(υ)][S − E(S)]


= E[² − βµ](−µ)
= E(βµ2 ) (8.46)
= βσµ2

Así, dado que la covarianza entre υ y S es no cero, el modelo ya no es del tipo


clásico y en consecuencia el estimador de β será sesgado. Es apropiado, entonces
en nuestra estimación sobre el efecto de la educación sobre las ganancias usar una
estimación por IV de la ecuación (45). Deberiamos en consecuencia, escoger un
buen instrumento para S.

Nota : Una variabla proxy (S) no es un instrumento ( y vice versa).

8.6.3. Estimación por IV para modelos AR con errores au-


toregresivos

Un caso especial importante donde la estimación por IV puede ser utilizada


es en series de tiempo cuando un modelo contiene errores autoregresivos.

yt = βxt + γyt−1 + ²t (8.47)

donde ² = ρ²t−1 + νt

Estos modelos entregan estimadores sesgados e inconsistentes dado que yt−1 está
estocásticamente relacionada con el término de error ya que :Cov(yt−1 , ²t−1 ) 6= 0
La estimación IV puede entregar estimadores que aunque sesgados son consis-
tentes. En este caso particular, existe una elección obvia de instrumento: el valor
rezagado del regresor exógeno (i.e. no estocástico) en el modelo,xt−1 .

Es claro ya que xt y yt están relacionados, y entonces xt−1 e yt−1 también lo


estarán, satisfaciendo de esta forma parte de los requerimientos para ser un in-
strumento. Mas aún, en este caso, no estará corelaccionado con el término de error
actual ya que xt−1 es exógena. Así, esta variable aparece como un instrumento
válido.

105
8.6.4. Los Parámetros de un Sistema de Ecuaciones Si-
multáneas

Quizá esta es el área donde comúnmente aparecen violaciones a la exogenei-


dad. Considere el siguiente sistema de oferta y demanda con equilibrio :

q d = α1 p + α2 y + ²d (8.48)
q S = β1 p + ²s
qd = qs = q

Se asume que :

E(²dt ) = E(²st ) = 0
E(²2dt ) = σd2
E(²2st ) = σs2
E(²st , ²dt ) = 0
E(²st , yt ) = E(²dt , yt ) = 0 (8.49)

resolviendo el sistema para p y q usando la condición de equilibrio, se llega a que:


α2 y (²d − ²s )
p= + (8.50)
(β1 − α1 ) (β1 − α1 )
α2 y β1 ²d − α1 ²s
q = β1 + (8.51)
(β1 − α1 ) (β1 − α1 )
Ahora suponga que deseamos estimar los parámetros de la función de demanda
(48). Uno de los requerimientos del modelo de regresión clásico es que los regre-
sores de la ecuación no estén correlacionados con el término de error. En el caso
de la ecuación de demanda (48) esto significa que :

Cov(p, ²d ) = 0

No obstante, notar de que :

Cov(p, ²d ) = E[p − E(p)][²d − E(²d )]


· ¸
α2 y (²d − ²s ) α2 y
Cov(p, ²d ) = + − ²d
(β1 − α1 ) (β1 − α1 ) (β1 − α1 )
σd2
Cov(p, ²d ) = (8.52)
(β1 − α1 )
lo que claramente viola el supuesto de que la covarianza de los regresores con
el término de error sea cero. Así la estimación por OLS entregará estimadores

106
sesgados para los parámetros de p en la ecuación estructural con el fin de estimar
la elasticidad precio de la demanda a partir de una ecuación de q regresionada
sobre p y y. Mas aún, el estimador OLS es también inconsistente de tal manera
que el problema no puede ser solucionado al aumentar el tamaño de la muestra.

Intuitivamente, el sesgo en la ecuación simultánea surge pues ambos, p y q


son variables estocásticas determinadas conjuntamente. Dado que estas variables
endógenas están todas correlacionadas, no es posible identificar el único efecto
de p sobre q en (48) dado que p el mismo, es una función de q y de los mismos
términos de error estocásticos. Es claro que a pesar de que podemos estimar este
modelo, nuestro método debe tener en cuenta está dependencia conjunta de la
variables endógenas entre ellas y sobre los errores estocásticos comunes.

8.7. Una Prueba de Correlación entre los Regre-


sores y el Término de Error : Test de Haus-
man

¿ Como podemos saber si existe un problema de simultaneidad ? . Jerry Haus-


man ("Specification Test in Econometrics", Econometrica, Noviembre 1976) sug-
iere una prueba especialmente diseñada para el caso de errores en la medición
de las variables. No obstante, esta prueba es una general para los casos donde
deseamos probar sobre la covarianza estocástica entre el término de error y el
(los) regresor (res). La prueba asume que:

H0 no existe el problema de regresores estocásticos


HA existe un problema significativo de regresores estocásticos.

Bajo la nula tanto βbOLS como βbIV son insesgados y consistentes, pero el estimador
OLS es eficiente (y BLUE en el caso del modelo lineal) mientras que el estimador
IV es ineficiente (ver (29)). Bajo la hipótesis alternativa, sólo βbIV es consistente.

Así, resulta relativamente simple construir una prueba en torno a este hecho.
En consecuencia, deseamos probar la nula de que :
H = plim[βbOLS − βbIV ] = 0 (8.53)

Dada la inconsistencia de βbOLS ante la presencia del problema de regresión es-


tocástica, entonces H no será cero. Un valor significativo de H generará el rechazo

107
de la nula.

Para calcular este estadístico, necesitamos expresiones para la varianza asintótica


de ambos estimadores, βbOLS y βbIV . Para el caso de IV simplemente utilizamos
(29) el cual denotaremos V1 , mientras que para el caso del OLS definiremos
:V0 = σ 2 (X 0 X)−1 como la formula estándar para la varianza del estimador OLS.
En consecuencia, el estadístico se define como sigue :

W = [βbOLS − βbIV ]0 [V1 − V0 ]−1 [βbOLS − βbIV ] ∼ χ2k (8.54)

donde W es una prueba del tipo Wald la que se distribuye chi-cuadrado con k
grados de libertad donde k es el número de parámetros que han sido estimados.
Notar de que para realizar esta prueba necesitamos ambos estimadores, el OLS
y el IV.

8.8. Aplicaciones y Aspectos asociados a la esti-


mación por Variables Instrumentales (IV)

Identificando Instrumentos Validos


La identificación de Instrumentos válidos es bastante difícil. Comúnmente para
encontrar un instrumento el que esté no correlacionado con el error, el investi-
gador deberá escoger variables cuya correlación con la variable de interés X, es
baja. Aunque estas variables seguirán siendo un instrumento válido, no serán muy
eficientes.
Ello puede verse en (29) el que muestra que mientras Z’X decrece, la varianza
asintótica del estimador IV crecerá. Ante la ausencia de buenos instrumentos, los
investigadores pueden seguir prefiriendo estimar usando OLS en vez de IV pues
aunque sesgado e inconsistente, puede tener menores errores cuadráticos medios.

Sobreidentificación
Si hay menos instrumentos que variables explicativas endógenas entonces el mod-
elo está sub-identificado (i.e. el estimador IV no existe). Si existe el mismo
número de instrumentos que las variables problema, el modelo está identifica-
do exactamente. Si hay mas instrumentos que los necesarios, el modelo está
sobre-identificado. Esta última situación es muy atractiva. Sobre identificación
entregará generalmente un mayor grado de precisión en los estimadores pero
también entrega la oportunidad de llevar adelante pruebas sobre la validez de los
instrumentos.

108
Multiples Instrumentos
Si Z es un instrumento válido y W también es un instrumento válido entonces
una combinación lineal entre Z y W también será un instrumento válido. Dado
que, a partir de (29) la varianza del estimador IV es menor mientras mayor es el
grado de correlación entre el instrumento y la variable que se está instrumentan-
do, entonces debería resultar claro de que deberíamos elegir aquella combinación
lineal que tenga la mas alta correlación con X. Este instrumento es simplemente
el valor ajustado de X regresionado sobre Z y W

V = βb1 Z + βb2 W (8.55)

donde V tiene la propiedad de toda variable instrumental : no está correlacionada


con ² ya que Z y W no lo están y está correlacionada con X (por el modelo de
regresión). Esta forma de estimación se conoce como Estimación por Variable In-
strumental Generalizada (GIVE : Generalized Instrumental Variable Estimation).
Notar que si X es un vector de variables pero sólo se necesita instrumentalizar
una de las variables en X la regresión GIVE en (55) puede también incluir las
otras variables en X como instrumentos.

Pruebas de Sobre-identificación
Suponga que tenemos Z (n x k’) instrumentos donde X es una matriz (n x k) con
k’>k. Si definimos la matriz de proyección como :

Pz = Z(Z 0 Z)−1 Z 0

Entonces el estimador IV es :

βbIV = (X 0 Z(Z 0 Z)−1 Z 0 X)−1 X 0 Z(Z 0 Z)−1 Z 0 Y


βbIV = (X 0 PZ X)−1 X 0 Pz Y (8.56)

y, bajo los supuestos estándar, se tiene que:

V ar(βbIV ) = (X 0 Pz X)−1 (X 0 Pz0 DPz X)(X 0 Pz X) (8.57)

donde D = σ 2 I si los residuos son homoscedasticos. Cuando k 0 > k la validez de


los instrumentos está avalada al calcular una prueba de sobre identificación (OID).

El método básico (Davidson y McKinnon pp 232) implica regresionar los residuos


IV (es decir los residuos 2SLS de la segunda etapa) sobre la matriz de instru-
mentos. El estadístico T R2 (donde T es el tamaño de la muestra) tiene una
distribución chi-cuadrado con k 0 − k grados de libertad bajo la nula de que los
instrumentos sólo afectan la variable dependiente a través de su rol en la predic-
ción los regresores (endógenos).

109
Si la nula es rechazada ello implica que los instrumentos juegan un rol directo so-
bre Y , en vez de simplemente a través de su rol de predecir X y en consecuencia,
deberían ser regresores en el modelo en vez de ser tratados simplemente como
instrumentos.

110
Capítulo 9

Sistemas de Ecuaciones:
Endogeneidad y Modelos de
Sistemas de Ecuaciones

9.1. Resumen
1. Introducción a los Sistemas de Ecuaciones
2. El Problema de la Identificación
3. Sistemas Especiales:
Modelo de Regresión Aparentemente no Relacionadas (SUR)
Sistemas Recursivos
4. Estimación
Métodos de Estimación con Información Limitada (ILS y 2SLS)
Métodos de Estimación con Información Completa (3SLS y FIML)

9.1.1. Referencias
Kmenta Capítulo 13
Bernt Capítulo 10
Gujarati Capítulo 17
Grenne Capítulo 20

111
9.2. Introducción

Hasta el momento nos hemos concentrado en ecuaciones individuales sobre la


conducta económica. En la practica, sin embargo, muchos fenómenos económicos
se describen utilizando modelos los que consisten en ecuaciones simultáneas. Ello
pues dado el hecho de la violación del supuesto de exogeneidad débil, no podemos
realizar una descripción acerca de la evolución de las variables de interés en el
vector z mediante el uso de modelos uniecuacionales sin la pérdida de información.

Considere el vector z = y, x, w donde w es un vector de variables exógenas fuerte.


Como ya hemos visto, si x es un vector de variable débilmente exógeno, podemos
entonces expresar la distribución conjunta como :

D(zt |zt−1 ; θ) = D(yt |xt , wt , zt−1 ; λ1 )D(xt |wt , zt−1 ; λ2 )

y estimar el vector de parámetros λ1 de manera eficiente utilizando un estimador


uniecuacional. Sin embargo, si y y x son conjuntamente determinados (i.e. endó-
genas) entonces la factorización de la distribución conjunta será la siguiente :

D(zt |zt−1 ; θ) = D(yt |xt , wt , zt−1 ; λ1 )D(xt |wt , yt , zt−1 ; λ2 )

En la clase anterior vimos que podríamos controlar por la endogeneidad de xt me-


diante el uso del estimador por Variables Instrumentales (IV). Pero en variadas
circunstancias necesitaremos usar nuestro modelo para entender la estructura in-
herente de la relación conjunta entre y y x (i.e. estaremos interesados en los dos
vectores de estimadores λ1 y λ2 ). En consecuencia, necesitaremos métodos de
estimación para el vector completo de parámetros el que considere la simultanei-
dad entre x e y.

En la literatura econométrica tipicamente denominamos a estos modelos como


sistemas. En estas notas de clases entregaremos una introducción a los aspectos
econométricos asociados con la estimación de sistemas. Los aspectos que veremos
son aplicables tanto sistemas pequeños ( p.ej. un sistema con sólo dos ecuaciones)
como también a grandes sistemas macro-econométricos que son aplicados por los
gobiernos para predecir variables macro relevantes los que superan largamente las
cien ecuaciones.

112
9.3. Introducción a los Sistemas de Ecuaciones

El sistema de ecuaciones mas general puede ser descrito de la siguiente forma


genérica :
β11 yt1 + β21 yt2 + ........ + βm1 ytm + γ11 xt1 + ..... + γk1 xtk = ²t1
β12 yt1 + β22 yt2 + ........ + βm2 ytm + γ12 xt1 + ..... + γk2 xtk = ²t2
.. .
. = .. (9.1)
β1m yt1 + β21 yt2 + ........ + βtm ytm + γ1m xt1 + ..... + γkm xtk = ²tm
En este sistema hay M ecuaciones y M variables endógenas (y1t .....ytm ). Existen
además K variables exógenas (xt1 ...xtk ). Una de las variables y en cada ecuación
es denominada como la variable dependiente de esa ecuacion y en consecuencia
el beta que lo acompaña βij puede ser igualado a 1.
Byt + Γxt = ²t (9.2)
donde la dimensión de y es (M x1), la de B es (M xM ), la de Γ es (M xK), la
de x es (Kx1) y la de ²t es (M x1). La ecuación (2) es normalmente denotada
como la forma estructural del sistema y es la forma (estocástica) que corresponde
al modelo económico teórico inherente en él. En general, nuestro interés estará
centrado sobre la forma estructural y el vector de parámetros Γ y β .

La segunda forma bajo la cual el sistema en (1) puede ser expresado es referi-
da como la forma reducida la cual expresa la variables endógenas del modelo
solamente en función de las variables exógenas y el término de error. La forma
reducida se deriva al premultiplicar (2) por B −1 y al rearreglar obtenemos :
yt = −B −1 Γxt + B −1 ²t
yt = Πxt + υt (9.3)
La parámetros de la forma reducida corresponden a multiplicadores asociados con
el modelo. En otras palabras, ellos miden las consecuencias últimas en la variables
endógenas del modelo de una perturbación en las variables exógenas del modelo,
una vez que todos los efectos simultáneos de feed back entre las variables han
operado en el sistema.

Si asumimos que E(²t ) = 0 y que además E(²t ²0t ) = Σ la cual es la matriz


estructural de varianzas-covarianzas se sigue que si υt = B −1 ²t :
E(υt0 ) = E(B −1 )E(²0t ) = 0
E(υt υt0 ) = B −1 ΣB −1 = Ω (9.4)

113
la cual es la matriz de varianzas-covarianzas de la forma reducida del
sistema en (1).

En la práctica, sistemas de ecuaciones simultáneas son estimados en su forma


reducida (sin restricción) definida en (3). Ello levanta al menos dos preguntas
importantes para el investigador :

1. ¿Cuáles estimadores son válidos para estimar un sistema con una estructura
como la definida en (3) ?
2. Habiendo estimado los parámetros de la forma reducida del modelo, (i.e. la
ecuación (3)), ¿es posible recuperar los parámetros de las ecuaciones en el
modelo estructural ?.

Ello típicamente generará definir restricciones"sobre las ecuaciones del modelo


reducido.

9.4. El Problema de Identificación

Primero describiremos las formas de contestar la segunda de las preguntas de-


scritas en el párrafo anterior donde el problema radica en encontrar los parámetros
de la forma estructural a partir de aquellos estimados en la forma reducida, de-
jando para mas adelante el tema propio de la estimación de los mismos.

Este aspecto se conoce como el problema de la identificación. Es importante


notar que la identificación no es un problema estadístico sin que uno matemático
y tiene que ver con la especificación del modelo aunque existen algunas soluciones
estadísticas para este problema.

Existen a lo menos tres situaciones que podemos encontrar con respecto al sistema
que estamos estimando. Una ecuación puede estar :

1. No Identificada (o sub identificada)


2. Exactamente Identificada ( o completamente identificada)
3. Sobre Identificada

Por analogía con el concepto en matemáticas, un sistema de ecuaciones simultáneas


sólo puede ser resuelto si dichas ecuaciones están completamente determinadas.

114
La identificación es el problema análogo en estadística. Es importante notar que
el concepto de identificación se aplica ecuación por ecuación y así se puede en-
contrar el caso de que una ecuación esté completamente identificada y que otras
ecuaciones del mismo sistema no lo estén.

9.4.1. Cuatro Ejemplos

Caso A : Sub Identificaión Considere el siguiente modelo estructural

qd = α0 + α1 p + ²d (9.5)
qs = β0 + β1 p + ²s

donde q y p son variables endógenas. La forma reducida de este sistema (asum-


iendo que expost qs = qp = q) puede ser escrito de la siguiente forma :

p = π0 + υt (9.6)
q = π1 + ω t
(β0 −α0 ) (²s −²d ) (α1 β0 −α0 β1 ) (α1 ²s −β1 ²d )
donde π0 = (α1 −β1 )
, υt = (α1 −β1 )
, π1 = (α1 −β1 )
y ωt = (α1 −β1 )

Existen cuatro coeficientes estructurales (α0 , α1 , β0 , β1 ) pero sólo dos coeficientes


de la forma reducida ( π0 , π1 ). Así no existe suficiente información en la forma
reducida para recobrar los parámetros del sistema estructural. Se necesita de in-
formación adicional para distinguir los movimientos en la curva de demanda de
aquellos en la curva de oferta.

Caso B :Identificación Exacta en la Función de Oferta

Considere el siguiente sistema donde y denota ingreso :

qd = α0 + α1 p + α2 y + ²d
qs = β0 + β1 p + ²s (9.7)

La forma reducida de este sistema puede ser escrita de la siguiente manera :

p = π0 + π1 y + υt
q = π2 + π3 y + ω t (9.8)
(β0 −α0 ) α2 (α1 β0 −α0 β1 ) α2 β1
donde π0 = (α1 −β1 )
, π1 = (α1 −β1 )
, π2 = (α1 −β1 )
, π3 = (α1 −β1 )
,
(²s −²d ) (α1 ²t −β1 ²d )
υt = (α1 −β1 )
, y ωt = (α1 −β1 )

115
Las ecuaciones estructurales en (7) tienen 5 coeficientes estructurales (α0 , α1 , α2 , β0 , β1
) pero sólo cuatro coeficientes existen el la forma reducida (π0 , π1 , π2 , π3 ). Sin em-
bargo, es posible identificar exactamente la función de oferta dado que podemos
obtener a partir de los coeficientes de la forma reducida lo siguiente :
β0 = π2 − β1 π0 β1 = ππ13

Caso C : Identificación Exacta de las Funciones de Oferta y Demanda


Llevando el argumento un paso mas allá podemos notar que un sistema de la
forma :
qd = α0 + α1 p + α2 y + ²d (9.9)
qs = β0 + β1 p + β2 pt−1 + ²s
tiene una forma reducida de la siguiente forma :

p = π0 + π1 y + π2 pt−1 + υt (9.10)
q = π3 + π4 y + π5 pt−1 + ωt
Donde ahora existen 6 coeficientes estructurales y 6 coeficientes reducidos. Ahora
ambas ecuaciones pueden ser identificadas (demostrarlo)

Caso D : Sobre Identificación

Finalmente, si el sistema fuese :


qd = α0 + α1 p + α2 y + α3 R + ²d
qs = β0 + β1 p + β2 pt−1 + ²s (9.11)
entonces la forma reducida de este sistema tendría la siguiente forma :
p = πo + π1 y + π2 pt−1 + π3 R + υt
q = π4 + π5 y + π6 pt−1 + π7 R + ωt (9.12)
En este caso, tenemos 7 coeficientes estructurales y 8 coeficientes reducidos. Ex-
iste "demasiada"información para identificar únicamente ambas ecuaciones del
modelo. Como veremos mas adelante esto no representa un terrible problema.

9.4.2. Formalizando el Problema de la Identificación

Es relativamente sencillo pero tedioso determinar el tipo de identificación en


sistemas simples donde existen sólo dos ecuaciones, como el que hemos visto.

116
No obstante, podemos formalizar el proceso de identificación para sistemas de
ecuaciones de cualquier dimensión. Existen dos condiciones para identificación,
la condición de orden, la cual es una condición necesaria, y la condición de
rango, la cual es una condición suficiente. La razón de porqué no sólo tratamos
la condición de rango es que es generalmente fácil chequear la condición de orden
pero es mas tedioso chequear la de rango).

Para un sistema cualquiera podemos asumir :


M: número de variables endógenas en el sistema
m: número de variables endógenas en la ecuación
K: número de variables pre-determinadas (exógenas y endógenas rezagadas) en
el sistema.
k: número de variables pre-determinadas (exógenas y endógenas rezagadas) en la
ecuación.

Definición 1 : La Condición de Orden


En un modelo de M ecuaciones simultáneas, para que cada ecuación pueda ser
individualmente identificada se debe cumplir que el número de variables pre-
determinadas excluidas de la ecuación debe ser mayor o igual que el número de
variables endógenas incluidas en la ecuación, menos 1.

Así, una ecuación está identificada si K - k >= m - 1

Si encontramos que K - k <m - 1 la ecuación está sub identificada


Si encontramos que K - k = m - 1 la ecuación está exactamente identificada
Si encontramos que K - k >m - 1 la ecuación está sobre identificada.
Podemos aplicar esta definición para el ejemplo anterior de demanda y oferta de
mercado donde M = 2.

Caso A : K = 0

Función de Demanda : m-1=1 y K-k=0 Sub identificado

Función Oferta : m-1=1 y K-k=0 Sub identificado

Caso B K = 1

Función de Demanda : m-1=1 y K-k=0 Sub identificado

Función Oferta : m-1=1 y K-k=1 Identificado Exacta

117
Caso C K = 2

Función de Demanda : m-1=1 y K-k=1 Identificado Exacta

Función Oferta : m-1=1 y K-k=1 Identificado Exacta

Caso D K = 3

Función de Demanda : m-1=1 y K-k=1 Identificado Exacta

Función Oferta : m-1=1 y K-k=2 Sobre identificado

Así en un sistema con sólo dos variables endógenas, una ecuación estará identifi-
cada si dicha ecuación excluye una o mas variables las cuales están presentes en
otra parte en el modelo. La condición de orden es, no obstante, una condición
necesaria pero puede que no sea suficiente. Lo anterior pues las variables pre-
determinadas excluidas de la ecuación en análisis pero presente en otra aparte
del sistema puede que no sea independiente. Una forma de chequear esto es me-
diante el uso de la condición de rango.

Definición 2. La Condición de Rango


En un modelo que tiene M ecuaciones con M variables endógenas, una ecuación
estará identificada si y solo si la matriz construida a partir de los coeficientes
de las variables (endógenas y pre- determinadas) excluidas de esa ecuación en
particular pero incluida en otras ecuaciones del modelo, tiene rango M - 1.

En sistemas simples es usualmente mas facil si esta condición de rango es satis-


fecha. Cuando el sistema es complejo la cosa es mas difícil. El rango de la matriz
puede ser chequeado al calcular el orden de su determinante. El siguiente método
es una forma para comprobar fácilmente las condiciones de rango y orden en un
sistema de ecuaciones.

Ejemplo

y1t − β10 − β12 y2t − β13 y3t − γ11 x1t = µ1t (9.13)
y2t − β20 − β23 y3t − γ21 x1t − γ22 x2t = υ2t (9.14)
y3t − β30 − β31 y3t − γ31 x1t − γx2t = υ3t (9.15)
yt4 − β40 − β41 y1t − β42 y2t − γ43 x3t = υ4t (9.16)

118
No es tan obvio al solo mirar el sistema si las cada una de las ecuaciones están
identificadas o nó. Veamos la condición de orden. Notar que M=4 y K=3.

Ecuación (K-k) (m-1) Identificación (orden)


(13) 2 2 Exacta
(14) 1 1 Exacta
(15) 1 1 Exacta
(16) 2 2 Exacta

De acuerdo a la condición de orden, todas las ecuaciones están exactamente iden-


tificadas. No obstante, si examinamos la condición de rango los resultados serán
un poco diferentes. Para facilitar el análisis es conveniente escribir el sistema bajo
esta otra forma.

Ecuación 1 y1 y2 y3 y4 x1 x2 x3
(13) −β10 1 −β12 −β13 0 −γ11 0 0
(14) −β20 0 1 −β23 0 −γ21 −γ22 0
(15) −β30 −β31 0 1 0 −γ31 −γ32 0
(16) −β40 −β41 −β42 0 1 0 0 −γ43

Consideremos la primera ecuación (13). Esta ecuación excluye y4 , x2 yx3 . De esta


manera deberemos calcular el determinante a partir de los coeficientes de esta
variables en las demás ecuaciones.

La matriz de coeficientes es la siguiente :


 
0 −γ22 0
A =  0 −γ32 0  (9.17)
1 0 −γ43

El determinante de esta matriz es cero lo que implica que la ecuación (13) no está
identificada. El rango de la matriz de coeficientes excluidos determina el número
de variables independientes excluidas de la ecuación en cuestión pero incluidas
en el resto del sistema. Debería quedar claro cómo esto está relacionado con la
condición de orden. Las condiciones de orden determinan el número de variables
explicativas excluidas de la ecuación mientras que la condición de rango determi-
na si estas son variables independientes.

119
Continuando con el chequeo de la condición de rango podemos notar que (14)
y (15) también fallan el la prueba de rango (pruébelo usted mismo) pero (16)
tiene rango completo. Así, (16) excluye y3 , x1 y x3 y en consecuencia, la matriz
de coeficientes de variables excluidas correspondiente es :
 
−β13 −γ11 0
A =  −β23 −γ12 −γ22  (9.18)
1 −γ31 −γ32

La cual tiene rango 3 que es igual a M-1. Entonces (16) está exactamente identi-
ficada.

9.4.3. Qué hacer si las Ecuaciones No están Identificadas

Suponga que una ecuación no está identificada. Qué deberíamos hacer ?. Ex-
iste una variada gama de posibilidades las que son a menudo utilizadas. La prin-
cipales son las siguientes :

1. Ignorar el problema y concentrarse sólo en la estimación de la forma reduci-


da. Esto puede ser satisfactoria pero dependerá de las circunstancia de la
investigación

2. El uso de identidades. En algunos modelos, definiciones de variables o condi-


ciones de equilibrio impliquen que todos los coeficientes en una ecuación en
particular son conocidos.

3. Exclusión de Variables (la forma mas común de proceder). La omisión de


variables de una ecuación es equivalente a poner ceros en las matrices b. En
el ejemplo anterior, podemos pensar que las diferencia entre las funciones
de oferta entre el caso D y el caso C es que en C es simplemente la anterior
con una exclusión de cero para la variable R en la función de demanda.
Esta restricción significa que la función de oferta es identificada en C pero
no en D. En la práctica, muchos sistemas parten desde una forma reducida
sobre-identificada (la cual ocurre cuando todas las "posibles"variables son
incluidas en todas las ecuaciones del sistema) y entonces el proceso de iden-
tificación está relacionado con el hallazgo y justificación de restricciones a
los parámetros los que identifiquen las ecuaciones del modelo.

4. Restricciones Lineales. Esto es equivalente al caso de exclusión de variables


pero impone en este caso restricciones entre ecuaciones. Por ejemplo, en
modelos de función de producción es a menudo imposible distinguir los

120
efectos de la tecnología de aquellos efectos derivados de los retornos a la
escala. Una solución adoptada es imponer retornos constantes a la escala
en la función de producción para poder así identificar los efectos de la
tecnología.

9.4.4. La prueba de la Validez de la Restricciones de Iden-


tificación

Es claro de que pueden existir una gran variedad de restricciones que pueden
ser empleadas para identificar un modelo. La elección acerca de la restricción
para la identificación impuesta sobre la forma reducida es arbitraria pero gen-
eralmente basada en aspectos teóricos (o por la desesperación!). Sin embargo, las
consecuencias ( en un sentido estadístico ) al imponer una condición en particu-
lar pueden ser testeadas usando una prueba de Razón de Verosimilitud (LR test).

La intuición detrás de esta prueba es que la estimación mínimo cuadrática de la


forma reducida maximiza la verosimilitud de la función multivariada. Al imponer
restricciones (para la identificación) sobre el modelo se reduce esta verosimilitud,
la cual puede ser pensada como una reducción en la información contenida en el
modelo. Un estadístico de LR puede ser utilizado para medir si las restricciones
impuestas para la identificación reducen significativamente la verosimilitud de los
parámetros de la forma estructural .

LR = −2(log Lr − log Lu) ∼ χ2[k]

donde Lr es la verosimilitud del modelo con las restricciones de identificación


impuestas y K es el número de restricciones impuestas sobre el modelo.

9.5. Estimación por el Método de Ecuaciones Aparente-


mente No Relacionadas (SURE)

Considere el siguiente sistema el cual es una versión mas restringida de aquel


presentado en (1)
yt1 + γ11 xt1 + .......γk1 xtk = ²t1
yt2 + γ12 xt1 + .......γk2 xtk = ²t2
.

121
. (9.19)
.
ytm + γ1m xt1 + .......γkm xtk = ²tm
donde los valores del vector X varía a través de los m miembros. El aspecto clave
de este sistema es que pareciera que fuese un conjunto apilado de modelos de
regresión clásicos dado que en cada ecuación y es una función sólo de variables
exógenas. Sin embargo, podemos estimar (19) utilizando OLS sólo bajo la condi-
ción de que no exista covarianzas entre ecuaciones en la estructura de error del
sistema. En otras palabras, asumimos que :
 
σ11 σ12 . . . . . . σ1m
 σ21 . . . . . . . . . σ2m 
 . .. .. .. .. 
 
E(²²0 ) = Σ =  .. . . . . = (9.20)
 . . . . . 
 .. .. .. .. .. 
σm1 . . . . . . . . . σmm

 
σ11 0 0 0 0
 0 σ22 0 0 0 
 .. .. 
 
 0 0 . 0 .  = σi2 I
 . .. .. .. .. 
 .. . . . . 
0 0 0 0 σmm
No obstante, si existe una restricción entre ecuaciones entonces la estimación OLS
del sistema no es aplicable y debemos utilizar un FGLS. El estimador FGLS que
se utiliza en este caso se denomina Estimador de Ecuaciones Aparentemente NO
Relacionadas (SURE).

βbsure = [X 0 Σ
e −1 X]−1 X 0 Σ
e −1 y (9.21)

donde, como siempre, el FGLS requiere de una estimación de Σ (denotada por


el tilde ∼). Existe una variedad de métodos para hacer esto donde la mayoría
de ellos está basado en una estimación en dos etapas. En la primera etapa cada
ecuación se estima individualmente y se guardan los residuos. Cada elemento de
la matriz de varianzas-covarianzas es estimado en consecuencia a partir de los
residuos de la siguiente forma :
1 0
σ
bmn = Smn = (e en )
T m
[Ver Greene, Cap. 17 para mas detalles]

122
9.6. Sistemas Recursivos

Tal como lo dijimos en la clase anterior, la estimación por OLS de un sistema


entrega estimadores sesgados e inconsistentes debido a la covarianza existente
entre los errores del sistema y los regresores no es cero. No obstante, existe una
particular forma en un sistema donde no existe tal problema, el cual se denomina
sistema recursivo (o triangular).

Considere el siguiente sistema :

y1t = β10 + γ11 x1t + γ12 x2t + u1t (9.22)

y2t = β20 + β21 y1t + γ21 x1t + γ22 x2t + n2t (9.23)
y3t = β30 + β31 y1t + β32 y2t + γ31 x1t + γ32 x2t + u3t (9.24)
Asumiremos lo siguiente :

Cov(u1t , u2t ) = Cov(u1t , u3t ) = Cov(u2t , u3t ) = 0

Dado que (22) contiene sólo variables exógenas las cuales no están correlacionadas
con el término de error, el modelo está acorde con uno de regresión clásico y puede
ser estimado por OLS. Ahora bien, dado que (23) solo contiene a y1t y x vari-
ables, entonces también puede ser estimado por OLS si y solo sí Cov(y1t , u2t ) = 0
. Esto es de hecho verdadero ya yit que está correlacionado con u1t pero ( por
definición)u1t no está correlacionado con u2t . Así, podemos decir que y1t está
pre-determinado con respecto a y2t . En este caso, podemos también utilizar OLS.
La misma lógica se aplica a (24) pues podemos mostrar que y1t , y2t ambos están
pre-determinados con respecto a y3t .

El sistema recursivo es un sistema pero no uno simultáneo dado que ya que


no existen relaciones contemporáneas entre las variables endógenas ya que y1
determina a y2 pero y2 no retroalimenta a y1 .

9.7. Estimación

Una vez estudiado el tema de la identificación procederemos ahora al tema de


la estimación de un sistema de ecuaciones. Existen dos grandes formas de estimar
el sistema. La primera incluye la estimación de cada ecuación en forma separa-
da. Esta forma se conoce como Estimación con Información Limitada. La forma
alternativa sugiere la estimación de todas las ecuaciones del sistema en forma

123
simultánea, la que se conoce como Estimación con Información Completa.

Debería resultar claro que en general deberíamos tratar de estimar el sistema


con métodos con información completa , aunque en la práctica es difícil llevar a
cabo esta tarea por las siguiente razones :

(i) muchos modelos son extremadamente grandes. Por ejemplo, el modelo del
Banco Central Inglés (UK Treasury Model) tiene alrededor de 300 ecuaciones, así
la estimación del sistema completo es un poco compleja tanto del punto de vista
estadístico como también del computacional.

(ii) A menudo el foco de atención sólo está en un subconjunto de ecuaciones


y así es mas fácil re estimar sólo este sub conjunto.

(iii) Si una de las ecuaciones está mal especificada, el uso de métodos con in-
formación limitada no permite que este error se propague al resto de las estima-
ciones. Por el contrario, si se utilizan métodos con información completa, un error
de especificación en una ecuación se propagará a todo el sistema.

9.7.1. Métodos de Estimación con Información Limitada


(ILS y 2SLS)

Mínimos Cuadrados Indirectos (ILS)

Este método sólo se puede aplicar a modelos que están exactamente identifi-
cados. El método de ILS es muy simple y sigue la discusión del problema de la
identificación. Si una ecuación está exactamente identificada entonces podemos
encontrar los estimadores de la forma reducida los que son insesgados y luego
consistentes. A partir de ellos podremos obtener los parámetros estructurales los
que serán, sin embargo, segados pero consistenmtes. El procedimiento es como
sigue :

(i) Obtenga las ecuaciones de la forma reducida del modelo donde cada ecuación
para las variables endógenas son función solamente de las variables exógenas.

(ii) Estime las ecuaciones de la forma reducida por OLS en forma individual.
Dado que todas las variables independientes de la forma reducida son exógenas,
por definición plimcov(X, u) = 0, y así el estimador por ILS entregará estimadores
consistentes de los coeficientes de la forma reducida (asumiendo que otros prob-

124
lemas de especificación están ausentes).

(iii) Dado que las ecuaciones están exactamente identificadas, los coeficientes
estructurales pueden ser recuperados directamente de los coeficientes de la forma
reducida.

Considere el siguiente sistema de mercado :

Qt = α0 + α1 Pt + α2 Xt + u1t Demanda (9.25)


Qt = β0 + β1 Pt + u2t Of erta (9.26)

Note que M = 2 y K = 1. En este caso la función de oferta está completamente


identificada y la de demanda esta sub identificada ( pruébelo usted mismo!!).

Paso 1
Las ecuaciones de la forma reducida son las siguientes :

Pt = Π0 + Π1 Xt + ωt (9.27)

Qt = Π2 + Π3 Xt + vt (9.28)
donde :
β0 − α0 (α1 β0 − α0 β1 )
Π0 = Π2 =
(α1 − β1 ) (α1 − β1 )
−α2 −α2 β1
Π1 = Π3 = (9.29)
(α1 − β1 ) (α1 − β1 )
A partir de estos coeficientes podemos derivar los coeficientes de la función de
oferta donde :
Π3
β0 = Π2 − β1 Π0 β1 =
Π1
No obstante, no es posible derivar valores únicos para α0 , α1 , α2

Paso 2
A partir de (27) y (28) los parámetros de la forma reducida pueden ser estimados
como sigue :
P
b Xt Pt b0 = P − Π b 1X
Π1 = P 2 lo que implica −→ Π (9.30)
Xt
P
b 3 = PXt Qt
Π lo que implica −→ Π b2 = Q − Π b 3X (9.31)
Xt2
Estos coeficientes son consistentes los que pueden ser utilizados para derivar esti-
madores consistentes de los coeficientes estructurales (sólo de la función de oferta).

125
Es importante notar que a pesar de que los estimadores ILS son consistentes
ellos son sesgados. Veamos esto para el caso de βb1 . De (30) y (31) después de un
poco de algebra tenemos que :
b3 P
Π Qt X t
βb1 = = P (9.32)
b
Π1 Pt Xt

Podemos sustituir de (27) y (28)

b 1 Xt + (ωt − ω)
Pt = Π b 3 Xt + (vt − v)
Qt = Π

y sustituyendo estas expresiones en (33) tenemos que :

c3 P X 2 + P(vt − v)Xt
Π c3 + P(vt − v)Xt / P X 2
Π
βb1 = P
t
P ⇒ βb = P P
t
(9.33)
c1 Xt + (ωt − ω)Xt
Π 2 c1 + (ωt − ω)Xt / Xt2
Π

el cual es consistente pero sesgado (dado que X es estocástica).

Mínimos Cuadrados en Dos Etapas (2SLS)

Si las ecuaciones del sistema están sobre identificadas (recuerden que esto puede
ser bastante posible), ILS no puede ser usado dado que no existirá un único
método para derivar las ecuaciones estructurales. Obviamente OLS no puede ser
utilizado pues los estimadores serán inconsistentes. Un estimador alternativo es
el estimador mínimo cuadrático en dos etapas (2SLS) el cual es una versión de el
Estimador por Variables Instrumentales.

Considere el siguiente sistema :

y1t = β10 + β12 y2t + γ11 x1t + γ12 x2t + u1t (9.34)
y2t = β20 + β21 y1t + u2t (9.35)

Utilizando los métodos de identificación podemos notar que la primera ecuación


está sub-identificada y que la segunda ecuación está sobre-identificada.

Consideremos la segunda ecuación. No podemos utilizar aquí ni ILS ni tampoco


OLS dado que la variables y1t es estocástica (i.e. la covarianza entre y1t y u2t
no es cero). Este es exactamente el problema que la estimación por IV trata de
solucionar. En el caso de un sistema la solución del problema, i.e. la elección de
los instrumentos, es bastante directa : escoger simplemente las variables exógenas
y pre determinadas en el sistema. Así :

126
Paso 1
Para superar el problema de la correlación entre y1t y u2t regresionamos y1t so-
bre todas las variables exógenas y pre determinadas del sistema. Así corremos la
siguiente regresión :
y1t = Π0 + Π1 x1t + Π2 x2t + et (9.36)
Esto produce :
b0 + Π
yb1t = Π b 1 x1t + Π
b 2 x2t (9.37)
A partir de (36) y (37) tenemos que :

y1t = yb1t + et (9.38)

el cual expresa el regresor endógeno en (35) como la suma de dos términos. El


primero como una combinación lineal de dos regresores exógenos no estocás-
ticos (x1t , x2t ) y el segundo un término de error. Así, la regresión en (36) ha
"limpiado"y1t de su componente estocástico.

Paso 2
Ahora podemos sustituir el lado derecho de (38) en la ecuación original, sobre
identificada (35) de tal manera que tenemos lo siguiente :

y2t = β20 + β21 (b


y1t + et ) + u2t (9.39)

= β20 + β21 yb1t + (β21 et + u2t )


= β20 + β21 yb1t + e∗t
Así entonces, aunque y1t está correlacionada con u2t , su instrumento yb1t está
asintóticamente no correlacionado con el término de error e∗t . Una estimación
mínimo cuadrática de (39) entregará estimadores sesgados pero consistentes de
β20 y β21 . Note que el estimador OLS aplicado directamente a la forma reducida
entrega también valores sesgados pero inconsistentes.

Algunos Aspectos del Estimador 2SLS


La principal característica del estimador 2SLS es que entrega estimadores estruc-
turales consistentes de una manera directa (lineal) y de fácil aplicación pues al
ser ecuación-por-ecuación se puede trabajar en sistemas con un gran número de
ecuaciones (sobre identificadas). Eso sí presenta ciertos problemas.

Primero, a pesar de ser consistentes, los estimadores 2SLS son sesgados en mues-
tras finitas y en consecuencia, inferencia realizada a partir de ellos para sistemas
con pequeñas muestras puede ser problemático. Segundo, dado que los coeficientes

127
de la forma estructural son estimados directamente usando 2SLS, los errores es-
tándar de las ecuaciones estructurales son obtenidos de la misma forma. Sin
embargo, debe notarse que :

e∗t = (β21 et + u2t )

y en consecuencia,
V ar(e∗t ) 6= V ar(u2t )
Específicamente, a menos de que Cov(β21 , et ) sea cero, entonces la varianza del
error en el estimador por dos etapas será V ar(e∗t ) > V ar(u2t ) . Y así, la varianza
del estimador 2SLS es consistente pero asintóticamente ineficiente.

9.7.2. Método de Estimación con Información Competa


(3SLS y FIML)

Hasta el momento, la estimación ecuación-por-ecuación con información lim-


itada produce estimadores consistentes pero asintóticamente ineficientes. La ine-
ficiencia surge en parte por el hecho de que los métodos con información limitada
ignoran la correlación de los errores entre las ecuaciones. Consideraremos dos tipos
de estimadores - los que se denominan estimadores con Información Completa -
los que utilizan toda la información del sistema al mismo tiempo. La principal
consecuencia de ello es la obtención de varianzas asintóticas menores y con ello,
estimaciones mas eficientes de los parámetros estructurales. No obstante, como
se mencionó, con una de las ecuaciones que esté mal especificada, toda la esti-
mación estará mal especificada utilizando estos métodos. Así, existe claramente
un trade-off entre los estimadores con información competa y aquellos con infor-
mación limitada.

La estimación con información completa es significativamente mas compleja. De-


scribiremos cada método en forma general, no obstante un análisis en detalle
puede ser encontrado en el capítulo 20 del Greene .

Mínimos Cuadrados en Tres Etapas (3SLS)

El método de 3SLS es la contraparte sistémica del 2SLS. Consiste en aumen-


tar el método de ecuación-por-ecuación del 2SLS al calcular los vínculos entre
los errores en cada ecuación y en seguida utilizar estos errores calculados para re
-estimar el sistema como un todo. El método consiste en los siguientes pasos :

128
1. Calcular el estimador 2SLS para las ecuaciones identificadas en forma indi-
vidual.

2. Usar los estimadores 2SLS para estimar los errores de las ecuaciones es-
tructurales y luego utilizar estos errores para estimar la matriz de varianza-
covarianza de todos los errores de cada ecuación estructural. La matriz de
varianza-covarianza representa los errores entre ecuaciones (cruzados) del
sistema. La matriz de varianza-covarianza se calcula a partir de los errores
estimados para cada ecuación en forma separada utilizando las formulas de
calculo estándar.

3. Re estime las ecuaciones çombinadasçomo un sistema único donde el sis-


tema consiste en todas las ecuaciones identificadas y la matriz de varianza
covarianzas estimadas en la etapa anterior. Esta tercera etapa se realiza
utilizando la edstimación por mínimos cuadrados generalizados factibles.

La estimación por 3SLS producirá estimadores mas eficientes de lkos parámetros


del modelo estructural pues emplea información sobre los errores cruzados en-
tre ecuaciones del sistema. Notar de que si no existen errores cruzados entre las
ecuaciones entonces la matriz de varianzas-covarianzas no tendrá elementos no
cero fuera de la diagonal y será equivalente a estimar el sistema utilizando el 2SLS.

Estimación por Máxima Verosimilitud con Información Completa (Full


Information Maximum Likelihood -FIML)

Finalmente, hemos llegado a un método de estimación el cual es no lineal pero


entrega estimadores consistentes y asintóticamente eficientes. El método se basa
en la aplicación usual del principio de máxima verosimilitud para todas las ecua-
ciones estocásticas del sistema en forma simultánea. De esta manera, si tenemos
un sistema descrito de la siguiente forma:

Byt + Γxt = µt (9.40)

el cual tiene una matriz de varianza-covarianza igual a :Φ = E(µ0t µt )

El logaritmo de la función de verosimilitud para las T observaciones de yt condi-


cional en los valores de xt viene dado por :
T
−M T M 1X
logL = log(2π) − log|Π| + T log|B| − [(Byt − Γxt )0 Φ−1 (Byt − Γxt )]
2 2 2 t=1

el cual puede ser resuelto para los parámetros B,Γ,Φ .

129
9.8. Ecuaciones Simultáneas y Modelos de Vec-
tores Autoregresivos (VAR)

En modelos macroeconometricos basados en series de tiempo existe una forma


reducida de sistemas de ecuaciones dinámicos muy utilizados en la literatura
reciente. Ellos son los denominados Vectores Autoregresivos (VAR). Estos
son particularmente útiles cuando el acento no está puesto sobre la estimación
del sistema estructural sino mas bien sobre la respuesta última que puede tener
el vector de variables endógenas ante "shocks.al sistema. Estos "shocks"pueden
representar cambios en el valor de las variables exógenas (tales como variables de
política) como también innovaciones o cambios en el valor del término de error.
Examinaremos este tipo particular de sistemas al final del curso.

130
Capítulo 10

Introducción a Datos Cualitativos


en Microeconometría

10.1. Resumen
1. Datos Cualitativos en Economía : el uso de Variables Mudas (Dummy)
2. El Modelo Probabilístico Lineal
3. Modelos Bivariados : Logit y Probit

10.1.1. Referencias
Kmenta Capítulo 11
Gujarati Capítulos 15 y 16
Grenne Capítulo 19
Maddala Limited Dependent and Qualitative

10.2. Introducción

Muchos fenómenos económicos están relacionados con variables que son discre-
tas o cualitativas las cuales podemos contar pero no medir. Estas son comúnmente
referidas como variables binarias. Consideremos los siguientes ejemplos :

131
Diferencias por género : Masculino vs Femenino
Diferencias por región / país : América Latina vs Africa
Efectos por características : Tiene grado universitario o nó
Cambio de régimen : Tipo de cambio fijo vs variable
Participación fuerza de trabajo : empleado vs desempleado

Este tipo de variables tienen un uso extendido en econometría y pueden tener


implicaciones importantes para el modelamiento y estimación. Si estas variables
cualitativas son tratadas como variables independientes en un modelo econométri-
co, en general no existen problemas fundamentales con ello. Sin embargo, si la
variables dependiente es discreta tenemos que descartar la utilización del marco
de análisis del modelo de regresión clásico. En esta y las dos siguientes clases
examinaremos las implicaciones econométricas del modelamiento con variables
discretas.

10.2.1. Recapitulación sobre Variables Discretas Indepen-


dientes

Podemos representar características binarias mediante el uso de variables


dummy Di donde :
(
1 si la característica está presente,
Di =
0 si no lo está.

La magnitud de los valores (0,1) no es importante. Lo que importa es que sólo


existen dos valores posibles. En esta sección entregaremos una descripción intuiti-
va acerca del uso de variables dummies como variables independientes. Considere
la pregunta acerca de la determinación de las ganancias promedio de un grupo
de economistas jóvenes, yi , la cual estimaremos solamente en términos del sector
donde ellos trabajan. Imagine que existen sólo dos tipos posibles de trabajo para
estos economistas : academia (A) o en el sector financiero (F). Podríamos pensar
en estimar un modelo como el siguiente :

yi = aA DA + aF DF + ei (10.1)

Si el individuo es un académico, el modelo se reduciría a :

yi = aA + ei (10.2)

132
dado que DA = 1 y DF = 0. Por otra parte, se tiene que :

yi = aF + ei (10.3)

para un economista que trabaja en el mercado financiero. Notar que este mod-
elo no tiene constantes. Al incluir una constante en el modelo tendríamos una
situación de perfecta
P colinealidad dado que la constante tiene un valor de 1 y
sabemos que j Dj = 1. Asi es preferibles especificar la ecuación (1) de la sigu-
iente forma :
yi = b + aF DF + ei (10.4)
En este caso, el coeficiente b medirá las ganancias estimadas para la categoría
faltante, en este caso los académicos. Este sector se utiliza como marco de ref-
erencia y permite la interpretación ( y testeo) de los efectos de otra profesión
sobre las ganancias relativas al caso canónico ( o benchmark). Esta es una im-
portante característica de todos las aplicaciones con variables dummy. Si existen
G categorías (sectores productivos, género, etc) las que pueden ser cubiertas y
representadas mediante el uso de variable dummy, la regresión debería contener
G − 1 variables mudas. Así, en el caso de las ganancias, las ganancias estimadas
para los economistas en el sector financiero será de b + aF . Es claro que la especi-
ficación en (4) permite la prueba acerca de si aF = 0 ya sea en forma separada o
bien conjuntamente al utilizar una prueba de t student o F de Fisher (si existen
multiples variables dummy).

Suponga que estamos interesados en saber si existe un sesgo por género dentro
de los economistas. Una posibilidad sería estimar el modelo :

yi = b + aF DF + aM DM + ei (10.5)

donde DM es una variable dummy la que toma un valor de 1 si la economista es


mujer y 0 si no lo es. Así, las ganancias de una mujer economista que trabaja en
el sector financiero será igual a b + aF + aM .

Notar que en esta especificación, se asume que las diferencias en ganancias entre
un hombre y una mujer economista es una función aditiva del sector y género, i.e.
ser una economista del sector financiero y ser mujer. Esta especificación también
asume que las diferencias por género es constante entre todos los tipos de trabajo.
Una forma mas completa de especificar este modelo sería la siguiente :

yi = b + aF DF + aM DM + ag DF DM + ei (10.6)

donde el sector base es ahora las ganancias promedio de un economista hombre.


Así permitiríamos que el sesgo por género pueda ser distinto entre diferentes tra-
bajos de tal forma que estimar el efecto de ser una economista mujer que trabaja

133
en el sector financiero ( comparado con por ejemplo, una economista académica
mujer). Esta especificación con variables dummy se conoce como variables mudas
de interacción.

10.3. Combinando Variables Binarias Qualitativas


con Variables Cuantitativas

En general, no todos los regresores en un modelo son del tipo cualitativo. En


este sencillo ejemplo podemos pensar que las ganancias también están determi-
nadas por la experiencia (E). Así el modelo podría que dar de la siguiente forma
:
yi = b + aF DF + cE + ei (10.7)
donde ahora b son las ganancias de un economista académico sin ninguna expe-
riencia mientras que el valor de aF mide la diferencia (constante) de ganancias
entre los que trabajan como académico y aquellos que lo hacen en el sector fi-
nanciero condicional en un cierto nivel dado de experiencia. Si dibujáramos esta
función tendríamos simplemente diferentes interceptos donde la pendiente de la
función de ganancias es c. De nuevo, si creemos que la experiencia recompensa
de diferente manera entre sectores deberemos definir las variables dummy de tal
forma de que cada sector tenga un intercepto diferente y una pendiente diferente.

yi = b + aF DF + cE + dEC (DF E) + ei (10.8)

Así, las ganancias para un economista académico son :

yi = b + cE + ei (10.9)

y para aquellos que trabajan en el sector financiero :

yi = b + aF + (c + dEC )E + ei (10.10)

Una pregunta que surge naturalmente es : porqué no modelar los sectores ( A y


F) con regresiones separadas ? La respuesta depende en parte de la varianza del
término de error entre los diferentes grupos. Si E(²i |D = 1) = σ 2 = E(²i |D = 0)
Entonces es más eficiente juntar todos los datos. Si las varianzas no son las mismas
agrupar los datos generará un estimador de ambas variazas sub grupales las que
estarán sesgadas. Adicionalmente, si las varianzas son iguales entonces : (i) la
ecuación (8) ofrece una forma para testear restricciones sobre los parámetros y
(ii) si la restricción es válida entonces los parámetros resultantes de la regresión
restringida serán mas eficientes.

134
10.3.1. Regresión por Partes y la Función Spline

Suponga que tenemos una hipótesis en que los ingresos crecen con la edad
(denotada por t ) donde la edad tiene un efecto creciente a medida que se avejentan
y después desaparece. Podemos pensar esto de la siguiente manera :

yi = β1 + β2 t + ²i si t < 30
yi = β3 + β4 t + ²i si 30 6 t < 50
yi = β5 + β6 t + ²i si t > 50

Las edades de 30 y 50 años son referidas como los puntos ( o junturas) de la función
spline. Estas hipótesis pueden ser estimadas mediante el siguiente modelo :

yi = b1 + b2 t + g1 D1 + g2 (D1 t) + g3 D2 + g4 (D2 t) + ei (10.11)

donde D1 = 1 si t > t1 = 30 y D2 = 1 si t > t2 = 50.

Coma ya habíamos mencionado, podemos simplemente estimar estos tres sub


modelos separadamente sobre cada una de sus sub muestras. Una forma alterna-
tiva de hacerlo es estimar la función spline la cual es una regresión restringida la
cual fuerza que la los segmentos de recta estén unidos en las junturas. Para que
esto ocurra se requiere que :

b1 + b2 t1 = (b1 + g1 ) + (b2 + g2 )t1

y
b1 + g1 + (b2 + g2 )t2 = b1 + g1 + g3 + (b2 + g2 + g4 )t2
Reareglando los términos llegamos a las restricciones que g1 = −g2 t1 , g3 = −g4 t2 .
Así, el modelo restringido queda como sigue :

yi = b1 + b2 t + g2 (t − t1 ) + g4 (t − t2 ) + ei (10.12)

el cual finalmente puede ser simplificado a :

yi = bi + b2 x1 + b3 x2 + b4 x3 + ei (10.13)

donde x1 = t, x2 = t − 30 si t ≥ 30 y x3 t − 50 si t ≥ 50 o cero en otro caso.


Podemos probar la hipótesis de función spline al estudiar la significancia de b3 y
b4 en la ecuación (13).

135
y

nudos

30 50 Edad

Finalmente, otras aplicaciones de variables dummy en econometría son para elim-


inar observaciones outliers donde se agrega una variable dummy asociada a aque-
lla ( o aquellas) observaciones outliers estimándose de esta forma los parámetros
para todas las observaciones excepto aquella que ha sido considerada como outli-
er. Una aplicación similar se utiliza en el contexto de series de tiempo cuando se
desea estudiar el efecto estacional de algunas variables. Para ello se construyen
variables dummy estacionales para controlar por los efectos propios asociados al
período del año que se está estudiando. Por ejemplo dummy por trimestre (ver
Sven Hylleberg "Modelling Seasonability", Oxford University Press, 1992).

10.4. Variable Dependiente Discreta I : El Modelo


de Probabilidad Lineal

Discutimos anteriormente que las cosas cambian bastante una vez que con-
sideramos variables dependientes discretas. Consideremos los siguientes ejemplos
: (i) Qué determina que una persona escoja migrar a otra ciudad ? (ii) Qué de-
termina el tipo de asistencia médica (privada o pública) que una persona busca
? (iii) Qué determina que una firma adopte una nueva tecnología ?

Estas preguntas tienen una estructura en común. Agentes (individuos, hogares,


firmas, etc) hacen elecciones discretas dentro de un rango de alternativas (tanto

136
elecciones bivariadas o multivariadas) y creemos que estas pueden ser modeladas
como función de (i) factores de mercado tales como precios, ingresos etc, (ii)
características de los agentes como edad, género, educación, etc y (iii) factores
del entorno como ubicación geográfica, nivel de infraestructura local, etc. Resulta
obvio que esta es una especificación muy general y que la teoría nos puede ayudar
a tener un modelo mas específico. El punto clave, a lo menos desde el punto de
vista del econometrista, es que la variable dependiente es de tipo discreta.

El modelo más sencillo sobre elección discreta es el modelo de probabilidad lineal


(LPM)
yi = α + βxi + ²i (10.14)
donde yi = 1 si la acción (o característica ) es observada para el agente i ( por
ejemplo que la firma invirtió) y yi = 0 si no es así. xi puede ser pensado como un
vector de variables explicativas independientes (las que pueden ser continuas y/o
discretas) donde, por conveniencia, asumiremos que estas son o bien no estocás-
ticas o de serlo, que no están correlacionadas con el término de error. También
asumiremos que ²i ∼ N (0σ 2 ).

La ecuación (14) parece idéntica al modelo de regresión clásico y puede ser esti-
mado aparentemente por OLS. No obstante tiene marcadas diferencias con este
último las que pueden ser resumidas en cuatro resultados principales.

En primer lugar, Precordar que la esperanza de cualquier variable w viene da-


da por E(w) = i wi = µ. Dado que en el LPM, la variable y sólo puede tomar
dos valores: cero y uno, podemos escribir el valor esperado de esta variable como
sigue :
E(yi ) = 1f (1) + 0f (0) (10.15)
= f (1)
donde f (1) es la probabilidad de que un individuo con características xi adopte
la tecnología. De la ecuación (14) también sabemos que :
E(yi ) = α + βxi (10.16)
el cual puede ser interpretado como una medida de la proporción de individuos
con ciertas características los que han decidido adoptar la tecnología. Sabemos
que por definición, 0 ≤ f (1) ≤ 1 lo que significa :
0 ≤ α + βxi ≤ 1 (10.17)
Finalmente, recordando que de (14) podemos expresar el error como :
²i = yi − α − βxi (10.18)

137
y, dado que por definición y puede tomar sólo dos valores: cero o uno, entonces
para cualquier valor de las características x, el término de error ²i puede sólo
tomar dos valores :
²i = 1 − α − βxi (10.19)
o bien
²i = −α − βxi (10.20)
Resultado 1. La distribución de ²i no es normal, mas aun tiene una distribución
discreta. Esto se puede observar en la siguiente tabla la cual entrega todos los
valores posibles de ²i en su distribución.

Valores de ²i Distribucion de ²i
−α − βxi fi
1 − α − βi 1 − fi
Total 1

El problema de no-normalidad significa que los estimadores puntuales por OLS


son insesgados pero que la inferencia para muestras pequeñas no puede estar sus-
tentada en distribuciones basadas en la Normal, como lo son la distribución t, F ,
o bien χ2 .

Por definición, sabemos que E(²i ) = 0 y en consecuencia :

E(²i ) = (−α − βxi )f + (1 − α − βxi )(1 − f ) = 0 (10.21)

lo que implica que fi = 1 − α − βxi . Podemos utilizar este último resultado para
calcular la varianza del término de error como :

E(²2i ) = (−α − βxi )2 (1 − α − βxi ) + (1 − α − βxi )2 (α + βxi ) (10.22)

E(²2i ) = (α + βxi )(1 − α − βxi ) = E(yi )(1 − E(yi )) (10.23)


Resultado 2. La varianza del LPM es heteroscedastica ya que la varianza de ²i
es una función de yi .

El problema de heteroscedasticidad es simple de resolver en este caso dado que


conocemos la forma de la heteroscedasticidad a partir de (23). Como sabemos, la
heteroscedasticidad no sesga los estimadores pero existe una pérdida de eficien-
cia. Sin embargo, podemos calcular un estimador consistente de la ecuación de la
varianza como :
σ 2 = ybi (1 − ybi ) (10.24)

138
donde ybi es el estimador mínimo cuadrado (heteroscedastico) de y. Podemos uti-
lizar este resultado para escalar las variables dependientes e independientes del
LPM y re estimar el modelo para usando un estimador WLS (similar al proceso
para solucionar heteroscedasticidad visto anteriormente).

Resultado 3. El LPM puede generar predicciones sin sentido. La estimación


por LPM entrega valores de α b, βb . Lo anterior quiere decir que para ciertos val-
ores de xi , el valor de ybi puede exceder uno o ser menor que cero. Pero la teoría
restringe el valor de y a estar dentro del intervalo [0, 1]. No es posible excluir
aquellas observaciones de x para las cuales los valores de y pueden caer fuera del
rango [0, 1] dado que este rango es dependiente de parámetros desconocidos (ver
Figura).

y yi=alfa+beta·xi

-alfa/beta (1-alfa)/beta x

Resultado 4. Los coeficientes del LPM no son constantes. Los valores de α, β


dependerán de los valores de X. Por ejemplo:
Si xi ≤ −α − α/β tanto el intercepto como la pendiente son cero.
Si −α/β < xi < (1 − α)/β el intercepto es igual a α y la pendiente a β.
Si xi ≥ (1 − α)/β el intercepto es igual a uno y la pendiente cero.
Si la muestra incluye valores de xi fuera del rango [0, 1] entonces OLS entregará
estimadores sesgados e inconsistentes. Por las razones dadas en el resultado 3, no
es posible truncar la muestra de tal forma de estimar sólo sobre el rango cerrado
[0, 1] dado que el rango es una función de los parámetros no observados los que
deberán ser estimados en primer lugar (ver Figura anterior).

139
10.5. Variable Dependiente Discreta II : Modelos
Probit y Logit

10.5.1. Forma Funcional

Ya hemos discutidos tres problemas que tiene el Modelo Probabilístico Lineal


LPM, a saber, (i) parámetros no constantes, (ii) errores no normales y (iii) el
modelo puede producir predicciones sin sentido ya que no existe ningún mecan-
ismo que acote el valor de y al rango [0, 1].

Con respecto a este último punto sería deseable encontrar una especificación que
tenga las siguientes propiedades :

(i) Con respecto a su valor esperado :

E(yi ) = Pr (yi = 1) → 1 mientras α + βxi → ∞

y por su parte que :

E(yi ) = Pr (yi = 1) → 0 mientras α + βxi → −∞

En otras palabras la forma funcional es asintótica a P r = 1 y P r = 0, a


pesar de que ninguno de los ejes es alcanzado, permaneciendo el modelo en
forma estocástica.

(ii) La especificación es continua y suave (de tal manera que no existan quiebres
"falsos"en el modelo tal como ocure con el LPM)

Una especificación que entrega estas propiedades son curvas con una forma de S
como la siguiente :

140
E(yi)

E(yi)=F(alfa+beta·xi)

-infinito +infinito

De esta manera nuestro objetivo será especificar una forma funcional para la
expresión de la derecha del modelo :

E(yi ) = F (α + βxi ) (10.25)

la cual exhibe estas características. Cualquier distribución de probabilidades con-


tinua que sea definida sobre la línea de los reales tendrá estas propiedades. Sin
embargo, existen dos formas funcionales comunes que tiene estas propiedades de-
seables (forma de S) y las cuales son relativamente fácil de manipular. Debido
a ello gozan de una gran popularidad entre los economistas. Estas son la curva
logística la cual resulta en el modelo logístico y la distribución normal estándar
acumulada la que resulta en el modelo probit.

El Modelo Logit
En este caso, el valor esperado de yi se define de la siguiente manera :

1 e(α+βxi )
E(yi ) = = (10.26)
1 + e(−α−βxi ) 1 + e(α+βxi )
Dado que E(yi ) es la probabilidad de suceso (i.e. de que yi = 1) entonces 1−E(yi )
es la probabilidad de fracaso o falla. La razón entre estas dos probabilidades se
conoce como la razón de posibilidades odds ratio y con una pequeña manipu-
lación algebraica de (31) podemos notar que esta razón de posibilidades puede
ser expresada como :
E(yi )
= e(α+βxi ) (10.27)
1 − E(yi )

141
y de esta forma el logaritmo de la razón de posibilidades (log odds ratio) como :

E(yi )
log[ ] = α + βxi (10.28)
1 − E(yi )

De esta manera, para un modelo logit el logaritmo de la razón de posibilidades


es una función lineal simple de los parámetros.

El Modelo Probit El vaslor esperado en este caso viene dado por la sigu-
iente expresión :
Z (α+βxi )
E(yi ) = Φ(α + βxi ) = φ(z)dz (10.29)
−∞

donde : z = α + βxi y φ(z) y es la función de densidad normal estándar de z.


Obviamente, Φ() es la función de densidad normal acumulada. En ambos modelos
podemos notar de que E(yi ) = P r(yi = 1).

10.5.2. Algunos Aspectos Teóricos

Resulta natural preguntarse si estamos sacrificando aspectos teóricos con el fin


de encontrar una especificación econométrica que sirva. Existen variadas formas
mediante las cuales podemos ilustrar la relevancia del modelo para una amplia
gama de relaciones de comportamiento.

Variable Latente o Función Indice


Podemos pensar en una elección discreta como el reflejo de un proceso continuo
no observado. Por ejemplo, podemos pensar en agentes decidiendo si comprar
una máquina relativamente cara (un notebook). Ellos usarán un proceso contin-
uo de beneficio costo y comprarán el equipo si el beneficio neto es positivo. Así,
podemos pensar en el beneficio neto de comprar el notebook viene dado por la
siguiente expresión :
y ∗ = α + βx + ² (10.30)
donde y ∗ es un variable "latente"no observada y x es un vector de variables ex-
plicativas (las que pueden depender de la alternativa escogida o de quien decide).
Suponga que el individuo tiene una regla de decisión de tal forma de que comprará
el activo si el valor presente neto es positivo y no si no lo es. Así :

y = 1 si y ∗ > 0 (10.31)
y = 0 si y ∗ ≤ 0 (10.32)

142
De tal forma, podemos re expresar esto como sigue :

P r(yi = 1) = P r(y ∗ > 0) (10.33)


= P r(²i > −α − βxi ) (10.34)
= P r(²i < α + βxi ) (10.35)
= F (α + βxi ) (10.36)
(10.37)

lo úlimo debido a la simetría de la función f , la cual es exactamente la definiciónn


de una distribución acumulada.

Un Ejemplo. Podemos ilustrar este caso usando una versión del modelo de
migración/empleo de Harris-Todaro. Para un individuo i el ingreso esperado de
permanecer en un área rural puede ser descrito de la siguiente forma :

yr∗ = βxr + ²r (10.38)

y el ingreso esperado de una persona que se mudó a la ciudad es :

y ∗ u = γxu + ²u (10.39)

donde x es un vector de características que reflejan al individuo y las condiciones


del mercado laboral en ambos situaciones. Sin embargo, existen costos asociados
al traslado del sector rural a la ciudad los que pueden ser descritos como :

c∗ = αz + ²m (10.40)

De esta forma, el beneficio neto de la migración es :

M ∗ = yu∗ − yr∗ − c∗ = γxn − βxr − αz + ²u − ²r − ²m (10.41)


= δw + u (10.42)
(10.43)

Si yr∗ , yu∗ y c∗ fueran observables, entonces M ∗ también lo sería y un modelo


de regresión podría aplicarse directamente. Sin embargo, si (como generalmente
ocurre) estas variables son latentes, el investigador sólo observa de que M = 1 o
bien M = 0 donde M es la observación de que el individuo emigró a la ciudad
o nó. En este caso, este modelo corresponde directamente a la forma de elección
discreta.

143
10.5.3. Estimación e Interpretación de los Coeficientes

Dado que los modelos que hemos estando viendo no son lineales, los parámet-
ros del modelo Probit o Logit generalmente son estimados mediante ML. Cada
observación es tratada como una realización de una distribución binomial donde
la probabilidad de existo es: P (yi = 1) = F (α + βxi ) Si las observaciones son
independientes entonces su distribución de probabilidades conjunta (o likelihood)
viene dada por :
Y Y
P r(Y1 = y1 , Y2 = y2 , ...Yn = yn ) = (1 − F (α + βxi )) F (α + βxi ) (10.44)
yi =0 yi =1

notar que la variable aleatoria y puede tomar los valores 0 ó 1 y de esta forma
(36) puede ser re escrita de la siguiente manera :
n
Y
L= [F (α + βxi )]yi [1 − F (α + βxi )]1−yi (10.45)
i=1

la cual es simplemente la verosimilitud para una muestra de n observaciones.


Tomando logaritmo natural encontramos la forma de log-likelihood para un mod-
elo de elección binaria :
n
X
log L = [yi log F (α + βxi ) + (1 − yi ) log(1 − F (α + βxi ))] (10.46)
i=1

Utilizando la regla de la cadena : ∂ log(.)


∂β
= ∂ log L(.) ∂F (.)
∂F (.) ∂β
Las condiciones de primer
orden (mediante las cuales podemos obtener α, β ) vienen dadas como sigue :
n
∂ log L X yi fi (1 − yi )fi
= [ + ]xi = 0 (10.47)
∂β i=1
Fi (1 − Fi )
n
∂ log L X yi fi (1 − yi )fi
= [ + ]=0 (10.48)
∂α i=1
Fi (1 − Fi )
(10.49)

donde Fi es la derivada parcial de F () con respecto a (α + βxi ). Estas condiciones


de primer orden son aplicables a toda distribución continua F () Para el caso de
los dos modelos que estamos revisando, la derivación de las condiciones de primer
orden son mas simples, veamos :

Modelo Logit

144
Para el modelo Logit, al sustituir la ecuación (31) en (44) para F (α + βxi ) y sim-
plificando la expresión (usando la derivación del log odds ratio y notando de que
log[1/(1 + ex )] = − log(1 + ex ) el log-likelihood de la función puede re escribirse
como : n
X
log L = [yi (α + βxi ) − log(1 + e(α+βxi ) )] (10.50)
i=1

y las condiciones de primer orden serán :


n
∂ log L X
= [yi − Fi ]xi = 0 (10.51)
∂β i=1

n
∂ log L X
= [yi − Fi ] = 0
∂α i=1

donde Fi es el valor de la distribución logística (31) evaluada en los valor máximos


verosímiles para α, β .

Modelo Probit
Para el modelo Probit, el log-likelihood puede escribirse como :
n
X
log L = [yi log Φ(α + βxi ) + (1 − yi ) log(1 − Φ(α + βxi ))] (10.52)
i=1

y las condiciones de primer orden son :


n
∂ log L X yi φi (−φi )
= [ + (1 − yi ) ]xi = 0 (10.53)
∂β i=1
Φi (1 − Φ i )
n
∂ log L X yi φi (−φi )
= [ + (1 − yi ) ]=0 (10.54)
∂α i=1
Φi (1 − Φi )

donde φi = φ(α + βxi ) y Φi = Φ(α + βxi ). En ambos casos, las condiciones


de primer orden están bien definidas (dado de que las distribuciones están bien
definidas y las valores muestrales de xi son conocidos) y en consecuencia, pueden
ser resueltas las ecuaciones para los parámetros del modelo. La condiciones de
primer orden son, no obstante, no lineales y así una forma de optimización no
lineal debe ser aplicada para encontrar su solución.

Interpretando los Resultados : Los Efectos Marginales

Una vez que hemos encontrados los estimadores para los coeficientes (y los errores
estándar) necesitamos interpretar dichos resultados. Es importante notar de que

145
al contrario del modelo de probabilidad lineal, los parámetros del modelo (los
betas)logit y probit no miden directamente los efectos marginales. Para apreciar
esto podemos escribir el modelo en forma mas sencilla al absorber la constante
en el vector x de la siguiente manera :E(yi ) = F (βxi ) y en consecuencia, el efecto
marginal de un cambio unitario en xj es :

∂E(yi ) ∂F (βx)
= βj = f (βxi )βj (10.55)
∂xj ∂(βx)

Así el efecto marginal de un cambio en el valor de las variables explicativas de-


pende del valor de la variable explicativa y en consecuencia se debe hacer explícito
el valor de x para el cual el efecto marginal es calculado.

Volviendo a los dos modelos que estamos analizando podemos observar que el
efecto marginal viene determinado de la siguiente forma :

(i) Logit. Aquí, por conveniencia definiremos E(yi ) = πi . DE esta manera, el


efecto marginal viene dado por :

∂πi ∂πi ∂ log πi (1 − πi )


= (10.56)
∂xj ∂ log πi (1 − πi ) ∂xj

= βj πi (1 − πi ) (10.57)
donde πi es la probabilidad de que ocurra el evento.

(ii) Probit. Los efectos marginales en este caso viene dados por la siguiente
expresión:
∂E(yi )
= φ(βx)βj (10.58)
∂xj
donde φ(βx) es la densidad normal estándar evaluada en βx. En general,
se evalúa el efecto marginal en la media de los valores de los xi . Sin em-
bargo, esto no es obligatorio pudiendo ser evaluadas las x para diferentes
arqueotipos que sean interesantes de estudiar.

10.5.4. Medidas del Grado de Ajuste

La medición el grado de ajuste en modelos de elección discreta es sorprenden-


temente dificultoso. No existe una analogía directa con el R2 en modelos clásicos.

146
Una medida a considerar es la verosimilitud evaluada en los estimadores ML
del modelo log L(β) b . Esto puede ser utilizado para comparar entre diferentes
especificaciones del modelo para una muestra dada. Una medida de referencia
es el valor del likelihood cuando todos los coeficientes se han restringido a cero
log(β = 0) . Este último es el likelihood incluyendo sólo una constante.

Es posible usar estos dos valores para construir una prueba de likelihood ratio
LR de significancia conjunta de las variables xi :
b ∼ χs
LR = −2[log L(0) − log L(β)] (10.59)
k

donde los grados de libertar k vienen determninado por el número de variables


explicativas xi .

Una medida alternativa de ajuste viene dado por el índice de la razón de verosim-
itud
b
log L(β)
LRI = 1 − 0 ≤ LRI ≤ 1 (10.60)
log L(β = 0)
El LRI tiene la característica de que esta acotado por entre cero cuando todos
los coeficientes son iguales a cero. Ello pues cuando todos los coeficientes son cero
log L(β) = log L(β = 0)y la razón entre ambos es en consecuencia uno. Mientras
el poder explicativo del modelo aumenta, la función de verosimilitud tiende a la
unidad (i.e. cuando Fi = 1 cuando yi = 1 y Fi = 0 cuando yi = 0). Dado que el
logaritmo de uno es cero LRI tiende a uno.

Una medida alternativa es la Tabla de Aciertos y Fallos la cuales una tabla simple
de 2 x 2 la cual muestra la distribución de los valores actuales y predichos de y.
Veamos un ejemplo :

Predicha (F ∗ = 0,5)
y=1 y=0 Total
Actual y=1 471 16 487
y=0 183 20 203
Total 654 36 690

Necesitamos determinar qué constituye una predicción de que y = 1. Usualmente


definiremos el umbral por una regla como la siguiente :
½
yb = 1 si Fb = E(yi ) > F ∗
yb = 0 ∼

147
En otras palabras clasificamos el resultado de una estimación si su probabilidad
es mayor que un medio.

La mayoría de los investigadores definen F ∗ = 0, 5 lo que significa que si la


probabilidad predicha de un éxito (dado los valores de x) es mayor que 0.5 en-
tonces la tomamos como una predicción de éxito ( o que yi = 1). La lógica de
esto es que predecimos un éxito si el modelo dice que 1 es mas probable que 0.
Por su puesto, podemos definir una "predicción exitosaçon un umbral diferente,
como 0,75 o 0,4.

En la tabla anterior, hay 690 observaciones. El modelo predice correctamente


471 de un total de 487 ocurrencias de y = 1 y 20 de un total de 203 como y = 0.
Des esta manera, la tasa agregada de aciertos exitosos es (471+20)/690 = 71,2.
No obstante, esta es una forma muy débil de predicción del grado de ajuste del
modelo.

Comparando el modelo Logit con el Probit

Hasta el momento hemos sugerido que tanto el Probit y Logit son alternati-
vas válidas al LPM para modelar situaciones de elección discreta. Aun no hemos
dicho nada acerca de cómo escogeremos entre los dos aunque en la práctica la
mayoría de los investigadores reportan los resultados de los tres modelos. Ello
es así, pues no existe una clara definición en la profesión acerca de cuál modelo
es preferible (entre logit y probit obviamente pues sabemos de que el LPM tiene
severos problemas).

La siguiente figura ilustra las dos formas funcionales no lineales para un conjunto
de parámetros dado. Como se puede observar los dos curvas son muy similares en
el rango del medio pero la función logit tiene colas mas anchas - la logit se parece
mas a una distribución t student acumulada. De esta forma, si la proporción de
éxitos en la muestra está entre 0.3 y 0.7 los dos modelos entregan resultados simi-

148
E(yi)

1
logit

probit

-infinito +infinito
lares.
No obstante, los estimadores de β a partir de los dos modelos no son directamente
comparables. Ello se produce dado que en el modelo probit se asume que σ 2 = 1
mientras que la varianza en el logit es π 2 /3 . Existe una correción para hacerlos
comparables. Al multiplicar los coeficientes del logit por 0,625 se pueden hacer
entonces comparables con los coeficientes del probit. En forma análoga, al multi-
plicar los parámetros de logit por 0,25 se obtoiene los parámetros del logit.

En resumen :
βlpm ≈ 0,25βl ≈ 0, 4βp (10.61)
Esta regla es válida para todos los coeficientes excepto la constante en el modelo
LPM (recordar que en logit y probit la constante es absorvida en X), dando la
siguiente regla :
αlpm ≈ 0, 25αl + 0, 25 ≈ 0,4αp + 0, 25 (10.62)

149
Capítulo 11

Extensión del Modelo para Variable


Dependiente Cualitativa

11.1. Resumen
1. Test de Especificación en Modelos de Elección Binaria

2. Datos Agrupados

3. Modelos para Elecciones Múltiples

11.2. Referencias
Greene Capítulo 19

Maddala Limited Dependent and Qualitative Variables in Econometrics


(CUP, 1983) Capítulos 2, 6 y 7

11.3. Pruebas de Especificación en Modelos de Elec-


ción Binaria

Dos de los mas problemáticos errores en la especificación en datos microe-


conométricos están relacionados con la heteroscedasticidad y variable omitida.

150
Las consecuencias de ambos errores de especificación son mucho mas graves que
en el caso de modelo de regresión lineal. Dado que los modelos Probit y Logit son
no lineales en los parámetros estamos obligados a testear acerca de la ausencia
de problemas de variable omitida y heteroscedasticidad mediante el uso de los
métodos estándar de pruebas de hipótesis (LR, LM, Wald). Estos son derivados
en Davidson y MacKinnon (Journal of Econometrics, 1984) y los que también son
presentados en Greene 19.4

11.3.1. Variable Omitida

La hipótesis sobre variable omitida se prueba mediante el siguiente modelo :

H0 : y ∗ = β1 x1 + e1 (11.1)

HA : y ∗ = β1 x1 + β2 x1 + e1 (11.2)
Esto puede ser fácilmente probado utilizando cualquiera de los tres tests.

La prueba de Razón de Verosimilitud es el mas sencillo :


br − log L
LR = −2[log L bu ] ∼ χ2[k] (11.3)

donde k es el número de restricciones y donde r denota al modelo restringido (1)


y u al no restringido (2).

Por su parte, el test de Wald generalizado tiene la siguiente forma :

w = (Rβb − q)0 [R(V arAsint[β])R


b 0 ]− 1(Rβb − q) ∼ χ2
k (11.4)

donde Rβ = q representa un conjunto de restricciones sobre el modelo general.


Al implementar el test nos queda :

w = βb20 V2−1 βb2 ∼ χ2[k] (11.5)

donde V2 es la matriz de covarianza estimada para el modelo evaluada en los


valores restringidos de los parámetros estimada como βb2 .

Finalmente, la prueba del Multiplicador de Lagrange LM viene dada por la sigu-


iente expresión:
LM = g 0 V g ∼ χ2[k] (11.6)
donde g es la primera derivada de la función de verosimilitud evaluada bajo H0 ,
V es la matriz de covarianza asintótica del modelo estimada bajo las mismas

151
restricciones y k es el número de restricciones. Davidson y MacKinnon (1984)
proponen la siguiente versión de este test LM :
Xn Xn n
X
( gi xi )0 [ E[hi]xi x0i ]−1 ( g i xi ) (11.7)
i=1 i=1 i=1

2
donde hi = dd(βx
log Fi
i)
2 . El termino[]
−1
el cual es la matriz de covarianzas asintótica
estimada la que viene dada por el valor estimado del Hessiano (i.e. la matriz de
segundas derivadas de la función del log-likelihood).

11.3.2. Heteroscedasticidad

Considere el siguiente modelo Probit heteroscedastico :

y ∗ = β 0 x + ² con V ar[²] = [e(γ0z) ]2 (11.8)


donde y ∗ es una variable latente no observada y z es un vector de variables, el cual
tipicamente incluye varores de x. El log-likelihood para el modelo "ponderado"es
: n
X β 0 xi β 0 xi
logL = [yi − logF ( γ 0 zi ) + (1 − yi )log[1 − F ( γ 0 zi )]] (11.9)
i=1
e e
donde las condiciones de primer orden para este modelo vienen dadas por las
siguientes expresiones:
n
∂ log L X fi (yi − Fi ) (−γ 0 zi )
= [ ]² xi = 0 (11.10)
∂β i=1
Fi (1 − F i )

y
n
∂ log L X fi (yi − Fi ) (−γ 0 zi )
= [ ]² zi (β 0 xi ) = 0 (11.11)
∂γ i=1
F i (1 − F i )
Dado que es una función de verosimilitud difícil de maximizar, estimamos el
modelo bajo la restricción de que γ = 0 y usamos un test de Multiplicador de
Lagrange para probar la restricción. La prueba de LM viene dada por :

LM = g 0 V g ∼ χ2[k] (11.12)

donde g es la primera derivada del likelihood evaluada en los valores restringidos


de los coeficientes, en este caso γ = 0, V es la matriz de covarianzas asintótica
estimada del modelo obtenida bajo la misma restricción y k es el número de

152
restricciones. Notar que bajo la restricción de que γ = 0 , las condiciones de
primer orden del modelo restringido son simplemente :
n
∂ log L X fi (yi − Fi )
= [ ]xi = 0 (11.13)
∂β i=1
Fi (1 − F i )

y
n
∂ log L X fi (yi − Fi )
= [ ]zi (β 0 xi ) = 0 (11.14)
∂γ i=1
Fi (1 − F i )
Resulta ser que se hace muy difícil estimar este modelo utilizando una especifi-
cación Logit (por la especificación de la función score) y de esta forma las pruebas
de heteroscedasticidad son generalmente llevadas a cabo utilizando un Probit.

11.4. Datos Agrupados

Hasta el momento hemos estado trabajando con datos sobre respuestas indi-
viduales donde cada observación en los datos relaciona la respuesta u acción de
un individuo en particular con un vector de regresores. No obstante, generalmente
deseamos utilizar datos agrupados donde observamos la proporción de respuestas
positivas entre un grupo de individuos los que comparten un conjunto común de
regresores.

Por ejemplo, en las pruebas de fármacos, la proporción de personas responde


a un fármaco controlando por sus características (regresores) comunes. O, en el
caso de las elecciones, la proporción de personas que vota por un gobierno en
particular dado un conjunto común de circunstancias.

El trabajo con datos agrupados permite aminorar muchos de los problemas aso-
ciados con el LPM el cual a menudo es usado en estas circunstancias aunque una
especificación Logit sigue siendo la especificación mas popular. Ver Greene 19.4.6

11.5. Extensiones de los Modelos para Variable


Dependiente Cualitativa

Hasta ahora nos habíamos concentrado sólo con variables binarias o dicotómi-
cas. También existenm las llamadas variables categóricas, es decir, aquellas que no

153
son continuas pero que pueden ser clasificadas en diferentes categorías. General-
mente son referidas como variables policotómicas. Existen tres casos de interés :

Caso Ejemplo

No ordenadas Votación (PC, PS, PPD, DC, RN, UDI)


Modo de Transporte (caminar, auto, bus)

Ordenadas y=1 si gasto es menor que $10


y=2 si gasto mayor que $10 menor que $100
y=3 si gasto mayor que $100

x=1 si impacto bajo


x=2 si impacto moderado
x=3 si impacto medio
x=4 si impacto alto
x=5 si impacto muy alto

Secuencial y=1 si persona no terminó el colegio


y=2 si persona terminó colegio pero no universid.
y=3 si perosona termino U. pero no post grado

11.5.1. Variables (policotómicas) No Ordenadas

El modelo mas utilizado para este tipo de casos es el Multinomial Logit el


cual extiende la forma simple del modelo logit al permitir de que las probabili-
dades de elección dependan de las características de los individuos que deciden.
Estamos aquí interesados en estimar la probabilidad de que el individuo i escoja
la alternativa j. Asi definiremos Yij = 1 si el individuo i escoge la alternativa j;
conj = 1, 2, , , J.De no ser así, entonces Yij = 0.

Definiremos, en consecuencia, E[yi j = 1] = πij comoPla probabilidad de que


el individuo i escoja la alternativa j notando de que jj=1 πij = 1; esto es, el
individuo debe escoger algo. Aquí, de nuevo Xi es el vector de características in-
dividuales específicas del individuo i. El modelo multinomial logit se define como
sigue :
e(αj +βj xi )
E[yij = 1] = πij = PJ (11.15)
e (αk +βk xi )
k=1
Es una práctica común normalizar estas probabilidades al definir α1 = β1 = 0
Esta normalización se conoce como la Normalización de Theil y permite una

154
conveniente interpretación de los datos. Notando de que e0 = 1 entonces se tiene
:
1
E[yi1 ] = πi1 = PJ (11.16)
1 + k=2 e(αk +βk xi )
y
e(α2 +β2 xi )
E[yi2=2 ] = πi2 = PJ (11.17)
1 + k=2 e(αk +βk xi )
y así sucesivamente. Esta normalización nos permite expresar la probabilidad
relativa de observar el resultado j = 2 con respecto a j = 1, de la siguiente
manera :
πi2
= e(α2 +β2 xi ) (11.18)
πi1
Esto puede ser pensado como un "multinomial odds ratio". Explotando la con-
veniencia de la función logistica podemos expresar el logaritmo del multinomial
odds ratio como :
πi2
log( ) = α2 + β2 xi (11.19)
πi1

Las Características de la Alternativas


En el modelo logit multinomial se asume de que las elecciones están determinadas
solo por las características de los individuos que deciden. Las características de
las alternativas en sí no afectarían las elecciones de los agentes. Un modelo que
efectivamente incluye este último aspecto en la determinación de las decisiones
se conoce como el modelo logit condicional de McFadden el cual puede escribirse
como sigue :
eγzj
E[yij = 1] = πij = PJ (11.20)
γzj
k=1 e
el cual relaciona la probabilidad de que un individuo i escoja la opción j con las
características no sólo con las características del individuo i sino que también con
las características de la opción j. De esta manera la forma general de este modelo
es la siguiente :
e(αj +βj xi +γzj )
E[yij = 1] = πij = PJ (11.21)
e (αk +βk xi +γzj )
k=1
Efectos Marginales en un Modelo de Elección Policotómica
El efecto marginal del multinomial logit son :

XJ
∂πj
= πj [βl − πk βk ] = πj [βl − β] (11.22)
∂xl k=1

donde, como en el caso del modelo logit bivariado, πj es la probabilidad predicha


de observar escoger la opción j evaluada en el valor promedio del vector de

155
variables X. Notar que es posible que en un modelo multinomial logit el efec-
to marginal de un cambio unitario en la variable Xl no necesariamente tenga el
mismo signo que el coeficiente βl .

El efecto marginal en el modelo logit condicional de McFadden son :


∂πj e ∂πj
= πj (1 − πj )β; = −πj πk βe (11.23)
∂zj ∂zk
e el vector de coeficientes estimados en (19).
donde βes

La Independencia de Alternativa Irrelevantes


El modelo de logit multinomial enfrenta directamente el problema de la inde-
pendiencia de alternativas irrelevantes. El MLM asume que la decisión entre dos
alternativas cualesquiera (i.e. entre una alternativa y aquella base) es independi-
ente de las alternativas restantes. Específicamente, se asume que el término de
error en las ecuaciones de elección subyacentes son independientes entre sí. Esto
hace al modelo mas fácil para la estimación pero quizá no sea una descripción
válida de la realidad. Veamos un ejemplo para ilustrar este problema.

Suponga que estamos estudiando la elección entre tres diferentes medios de trans-
porte : auto, bus y una tercera opción. Considere primero que la tercera opción
es el metro. En este caso, una utilidad relativa mas alta de viajar en auto relativo
al bus no necesariamente implica que también sea mas preferible viajar en metro
con respecto al bus. Suponga ahora que la tercer alternativa es una auto azul y
que la primera alternativa es un auto rojo. El hecho de preferir (utilidad relativa
mas alta) el auto rojo con respecto al bus puede implicar una utilidad mas alta
también de viajar en auto azul con respecto al bus también. En otras palabras, la
probabilidad de que el auto rojo sea preferible al bus aumenta las probabilidades
de que el auto azul también sea preferible al bus. De esta manera los parámetros
de las alternativas no son independientes entre sí.

Este es un ejemplo trivial pero apunta a un problema esencial : en aquellas cir-


cunstancias donde las alternativas son sustitutos cercanos el multinomial logit
puede entregar estimadores de coeficientes sesgados.

Hausman y McFadden (Economterica 1984) proponen un test sobre consisten-


cia de parámetros en el caso de diferentes alternativas de elección. El test está
basado en la idea de todos los test de Hausman donde si la elección alternativa es
irrelevante entonces al omitirla del modelo los estimadores serán consistentes y as-
intóticamente eficientes. Bajo estas circunstancias la inclusión de una alternativa
irrelevante traerá como consecuencia estimadores consistentes pero ineficientes.

156
Si la alternativa no es irrelevante, entonces su exclusión de ella resultará en es-
timadores inconsistentes. Así, si determinamos como s los estimadores basados
en el subconjunto restringido de alternativas y f como el conjunto completo de
alternativas, entonces :

H0 : Elecciones alternativas βs es consistente y eficiente


son irrelevantes βf es consistente y ineficiente

H1 : Elecciones alternativas βs es inconsistente e ineficiente


son relevantes βf es consistente y eficiente

La prueba tiene la forma usual de las pruebas de Hausman :

R = (βbs − βbf )0 [Vbs − Vbf ]−1 (βbs − βbf ) ∼ χ2[k] (11.24)

Como solución al problema de la independencia de variables irrelevantes uno


podría estimar un modelo multinomial (no ordenado) probit o bien utilizar esti-
maciones semi yu no paramétricas. Sin embargo, estos aspectos están fuera del
alcance de este curso.

11.5.2. Variables Ordenadas

Los problemas con el probit multinomial con datos no ordenados desaparecen


en gran medida cuandos las alternativas de elección tienen un orden pre definido.
El modelo multinomial ordered probit (probit ordenado) está basado en la sigu-
iente regresión subyacente con variable latente :

yi∗ = α + β 0 xi + ²i (11.25)

donde yi∗ es una variable no observada, ²i ∼ N (0, 1) y donde observamos la


siguiente alternativas de elección ordenadas :

Yi = 1 si yi∗ < 0
Yi = 2 si 0 ≤ y∗i < A1
Yi = 3 si Ai ≤ y∗i ≤ A2
.
.
Yi si Aj−1 ≤ y∗i

157
El umbral Aj no puede ser observado pero puede ser estimado junto con α, β por
máxima verosimilitud si asumimos una forma funcional del modelo. Obviamente
el modelo probit multinomial asume de que la función tiene una distribución
normal estándar. Al normalizar como lo hicimos en el caso de la multinomial
logit, las probabilidades del modelo se derivan como sigue :

P rob(yi = 0) = Φ(−α − βxi ) [obien = 1 − Φ(α + βxi )]

P rob(yi = 1) = Φ(A1 − α − βxi ) − Φ(−α + βxi )


P rob(yi = 2) = Φ(A2 − α − βxi ) − Φ(A1 − α + βxi ) (11.26)
.
.
.
P rob(yi = 5) = 1 − Φ(A5−1 − α − βxi )
Ver figura siguiente donde existen tres categorías y por ende un solo umbral

P rob(yi = 0) = 1 − Φ(−α − βxi )

P rob(yi = 1) = Φ(A1 − α − βxi )

158
P rob(yi = 2) = 1 − Φ(A1 − α − βxi )

Efectos Marginales
Los efectos marginales de cambios en los regresores vienen dados por las siguientes
expresiones :
∂P r(Y = 0)
= −φ(β 0 x)βk
∂xk
∂P r(y = 1)
= [φ(−β 0 x) − φ(A1 − β 0 )]βk (11.27)
∂xk
∂P r(y = 2)
= φ(A1 − β 0 x)βk
∂xk

Mientras (asumiendo de que los coeficientes β son positivos) un aumento en X


reducirá la probabilidad de que y = 0 y aumentará la probabilidad de que y =
2 en forma inambigua. Las consecuencias sobre la probabilidad de que y = 1 es
ambigua. Esto puede ser generalizable para cuando existen mas categorías. Solo
el impacto sobre la primera y última categoría de un cambio en una variable X
es conocida (en términos de su signo).

159
Capítulo 12

Variable Dependiente Limitada

12.1. Resumen
1. Introducción a las Variables Dependientes Limitada
2. Revisión de Algunas Características de la Distribución Normal
3. Truncación
4. Censura
5. Sesgo de Selección y el Modelo Tobit
6. Problemas de Especificación en el Modelo Tobit

12.2. Referencias
Greene Capítulo 20
Maddala Limited Dependent and Qualitative Variables in Econometrics
(CUP, 1983) Capítulos 6 a 9

12.3. Introducción

Existen variados casos donde, debido a la manera en que los datos son recolec-
tados, tenemos información incompleta acerca de la conducta de ciertos elementos

160
de la muestra. Si esta información faltante es sistemática entonces los modelos
que ignoren este hecho, estarán cometiendo un problema de sesgo sistemático.
En esta sección examinaremos algunos casos especiales de estos fenómenos. Estos
son :

Truncamiento: cuando una muestra está sistemáticamente restringida a sólo


una parte de la población. Por ejemplo, una muestra que sólo incluya observa-
ciones de gente empleada, o gente sobre una cierta edad, etc. El que la trun-
camiento importe, obviamente dependerá de la pregunta que se quiera responder
con la investigación.

Censura: cuando la variable dependiente, pero no así las variables independi-


entes, son observadas en un rango restringido de tal forma que todas las obser-
vaciones en la variable dependiente que estén por debajo de un cierto umbral o
valor dado son tratadas como si estuvieran sobre el umbral o tomaran un valor
igual al umbral.

Sesgo de Selección (referido también como Truncamiento Incidental) : com-


bina aspectos de ambos y ocurre cuando el proceso por el cual la muestra está
truncada influencia los parámetros del modelo sobre la muestra restringida. Por
ejemplo, suponga que estamos interesados en la determinación de los salarios de
aquellas persona que emigraron. El problema está en que las potenciales ganan-
cias de los inmigrantes tendrán que ver con el hecho que hayan decidido emigrar
(i.e. con la probabilidad de pertenecer a la muestra). Esto es claramente una
forma de truncamiento (i.e. la muestra sólo incluye a inmigrantes) pero en una
donde los factores que determinan la truncamiento no son independientes del
comportamiento de la variable dependiente al interior de la muestra truncada.

12.3.1. Algunas Propiedades Importantes de la Distribu-


ción Normal

Recordemos la formula para una distribución Normal con media µ y varianza


igual a σ 2 :
1 (x−µ)
f (x) = √ e− 2σ2 (12.1)
2πσ 2
para una normal estándar z = (x − µ)/σ la cual tiene la siguiente función :
1 z2
φ(z) = √ e− 2 ∼ N [0, 1] (12.2)

161
donde φ(z) se usa como notación para la distribución normal estándar y Φ(z)
para la función normal acumulada. Existen un conjunto de propiedades de la
normal estándar que serán de gran utilidad en las secciones que siguen.

A1 φ(−z) = φ(z)
phi(z)
A2 . dz = −zφ(z)
1 1
A3 f (x) = φ[(x − µ)/σ] = φ(z)
σ Z σ a
A4 Φ(a) = P r(z < a) = φ(z)dz
−∞
A5 Φ(−a) = 1 − Φ(a) = P r(z > a)

A1 entrega la propiedad de simetria, A2 viene de (2) y A3 sale de comparar (1)


con (2)

12.4. Truncamiento

El truncamiento ocurre cuando la muestra es restringida sólo a una parte de


la población de tal manera que sólo observamos las variables X e Y dentro de ese
rango restringido.

12.4.1. Propiedades de la Distribución Truncada

La densidad de una variable aleatoria truncada viene dada por :

f (x)
f (x|x > a) = (12.3)
P r(x > a)

Esta definición asegura que la densidad truncada sume 1 sobre el rango restringi-
do. Ver el gráfico siguiente:

162
Muchas de las aplicaciones que veremos en adelante utilizan la distribución normal
truncada. Si X se distribuye normal con media µ y desviación estándar de σ
entonces de A5 se obtiene que :
(a − µ)
P r(x > a) = 1 − Φ[ ] = 1 − Φ(α) (12.4)
σ
donde α = ( a−µ
σ
). De esta forma usando A3 tenemos que:

f (x)
f (x|x > a) = (12.5)
[1 − Φ(α)]
1 x−µ
= φ(z)[1 − Φ(α)] con z = ( )
σ σ
De la figura anterior se puede notar que si la truncamiento es por debajo, la media
de la distribución truncada es mayor que la original y viceversa si la truncamiento

163
es por arriba. En forma similar, la varianza de la distribución truncada es menor
que la original.

La media de una distribución truncada viene dada por :

E(x|truncamiento) = µ + σλ(α) (12.6)

donde
λ(α) = φ(α)/[1 − Φ(α)]
si el truncamiento es de la forma x > a, y

λ(α) = −φ(α)/Φ(α)

si el truncamiento es de la forma x < a.

La función λ(α) se conoce como el Inverse Mills Ratio (o hazard rate). Es la


razón entre la densidad de probabilidad normal evaluada en α y uno menos la
función normal acumulada evaluada en el mismo valor, el cual puede ser inter-
pretado como una medida sobre la probabilidad de observar α condicional en que
α forma parte de la muestra truncada. En otras palabras mide el grado de ajuste
que se requiere realizar para la media de la distribución sin truncar.
La varianza de una distribución truncada viene dada por la siguiente expresión:

V ar(x|truncamiento) = σ 2 [1 − δ(α)] (12.7)

donde
λ(α)
δ(α) = 0 < δ(α) < 1 ∀α
[λ(α) − α]
lo que implica que la varianza de una distribución truncada es siempre menor que
la varianza de la distribución sin truncar.

A menudo nos referimos al truncamiento en términos del grado de truncamiento


el cual es simplemente la probabilidad de que X sea menor que a. A medida de
que a aumenta, el grado de truncamiento aumenta dado que la probabilidad de
que X sea menor que a (i.e. P r(x < a)) aumenta. Consecuentemente una may-
or parte de la distribución ha sido descartada y en consecuencia la media de la
distribución truncada también aumenta.

164
12.4.2. La Regresión Truncada

Habiendo dicho algo sobre la estructura de las distribuciones truncadas pode-


mos ahora estimar modelos usando muestras truncadas. Suponga que empezamos
con nuestro modelo genérico, utilizando notación matricial y absorbiendo la con-
stante dentro de la matriz X (mediante una columna de unos) tenemos :

yi = βxi + ²i ²i ∼ N (0, σ 2 ) (12.8)

Si nuestra muestra está truncada de alguna forma podemos utilizar los resultados
anteriores para legar a la siguiente expresión :
a − βxi
E(yi |yi > a) = βxi + σλi (αi ) αi = ( ) (12.9)
σ
Notar que a es el punto de truncamiento (y αi el valor estandarizado) y no la
constante del modelo, la cual se asume que está en X).

165
Así, se tiene que :

φ[(a − βxi )/σ]


E(yi |yi > a) = βxi + σ (12.10)
1 − Φ[(a − βxi )/σ]

el cual muestra de que la media condicional de la distribución truncada en una


función no lineal de x, β, σ y el punto de truncamiento a. De esta forma, a partir
de (7) podemos obtener la varianza de la variable truncada mediante la siguiente
expresión :
V ar[yi |yi > a] = σ 2 (1 − δ(αi )) (12.11)

Interpretando los coeficientes

Podemos expresar los efectos marginales de la ecuación (10) como sigue :

∂E[yi ]yi > a] ∂λi ∂αi


= βj + σ( )( )
∂xj ∂αi ∂xj
= βj + σ(λ2i − αi λi )(−βj /σ)
= βj (1 − λ2i + αi λi )
= βj (1 − δ(αi ))

El aspecto importante de este resultado es que dado que 0 < δ(α) < 1 para todo
α , entonces con una distribución truncada el efecto marginal de un cambio en el
valor de xj es menor que su correspondiente coeficiente.

Es importante recalcar que si el interés de la investigación está centrado sobre


realizar inferencias sobre la sub población entonces el parámetro relevante será
βj (1 − δ(α)) . Si nuestro interés fuera realizar inferencias sobre toda la muestra
entonces βj sería el parámetro relevante. Ver

166
Estimación

Suponga que corremos un modelo de mínimos cuadrados ordinarios de y sobre


x pero utilizando una muestra truncada. Si el verdadero modelo viene dado por
(8) entonces el modelo OLS tendría un problema de sesgo por variable omitida :
el efecto del truncamiento λi .

Mas aún, dado que el término de error en el modelo OLS está también trun-
cado ( i.e. como función de α ) entonces a partir de (8) podemos ver de que el
modelo tendrá un error heteroscedastico.

V ar(²i ) = σ 2 (1 − λ2i + λi αi ) (12.12)

167
el cual es una función de xi (dado que αi es función de xi ).

La alternativa natural a la estimación por OLS es Máxima Verosimilitud. Me-


diante (5) la función de densidad de yi viene dada por:
1
σ
φ((yi
− βxi )/σ)
f (yi |yi > a) = (12.13)
1 − Φ((a − βxi )/σ)
El log-likelihood es la suma de los logaritmos de estas densidades
n n
n 2 1 X 2
X a − βxi
log L = − (log(2π) + log σ ) − 2 (yi − βxi ) − log[1 − Φ( )]
2 2σ i=1 i=1
σ
(12.14)
Podemos entonces maximizar esta función con respecto al vector de parámetros
β, σ 2 . Las condiciones de primer orden (la función Score del modelo) viene dada
por :
n
∂ log L X (yi − βxi ) λi
= [ − ]xi = 0
∂β i=1
σ2 σ
n
∂ log L X 1 (yi − βxi )2 αi λi
= [− + − ]=0 (12.15)
∂σ 2 i=1
2σ 2 2σ 4 2σ 2

donde αi = (a−βx
σ
i) φ(αi )
y λi = [1−Φ(α i )]
. Estas pueden ser resueltas y asi entregar los
estimadores ML para los parámetros β, σ 2 y el inverse mills ratio λ(α).

12.5. Datos Censurados

Censura describe la situación donde a pesar de que observamos las variables


independientes x sobre todo el rango de la muestra / población, observamos la
variable y, la variable dependiente, solo en un subconjunto restringido de su dis-
tribución. Valores de y para ciertos rangos son todos reportados con un valor en
particular.

Algunos ejemplos pueden ayudar a entender esta situación :

1. Inversión.

2. Gasto de hogares en bienes durables.

3. Horas de trabajo (salario de reserva).

168
Debería resultar claro que el sesgo que surge a partir de la restricción sobre el
rango observable para y dependerá de la probabilidad de caer fuera del rango (i.e.
por debajo del nivel de umbral). Ver figura. Dado que sabemos que eliminar las
observaciones en que la variable dependiente cae por debajo del umbral resultará
en un problema de muestra truncada. Necesitamos en consecuencia algún método
que nos permita trabajar con esta situación de censura en la muestra sin tener
que eliminar información valiosa al reducir la muestra censurada a una truncada.

12.5.1. Distribución Normal Censurada

La distribución relevante para modelos que utilizan datos censurados es similar


que el caso cuando se utilizan datos truncados. Considere la variable donde :

y ∗ ∼ N (µ, σ 2 ) (12.16)

y = a si y ∗ ≤ a
y = y∗ en otro caso
Aquí, y ∗ es una variable (parcialmente) latente la cual es observable sólo para
valores sobre el umbral. Muchas veces se encontrará que el umbral se define
como cero, la cual es una normalización conveniente. La distribución total de
una variable censurada puede ser pensada como una combinación de dos partes :
la primera que corresponde a un componente discreto el cual toma todo el peso
del componente censurado de la distribución en un solo punto; y la segunda,
una componente continua para el rango de valores de Y para la cual existe una
distribución (truncada).

169
De esta forma, se tiene que :
E(y) = P r(y = a)E(y|y = a) + P r(y > a)E(y|y > a)
= P r(y ∗ ≤ a)a + P r(y ∗ > a)E(y|y > a)
= Φ(α)a + [1 − Φ(α)](µ + σλ(α))
a−µ
donde α = σ
y λ(α) como se definió en (6).

12.5.2. El Modelo Tobit

Los modelos de regresión que están basados en los aspectos discutidos en la


sección anterior se denominan modelos de regresión censurada (cuando el punto

170
de censura puede cambiar a través de las observaciones) o el Modelo Tobit (
cuando existe un punto de censura fijo). Por ahora nos concentraremos sólo en el
modelo tobit (su nombre se refiere al "Tobit Probit Model"). Asumiremos, por
conveniencia, que el punto de censura es normalizado a cero lo que nos permitirá
especificar el modelo de la sigueiente manera :

yi∗ = βxi + ²i ²i ∼ N (0, σ 2 ) (12.17)


(
0 si yi∗ ≤ 0
yi =
yi∗ si yi∗ > 0
Esto es simplemente un modelo en términos de una variable latente, y ∗ la cual es
parcialmente observada -específicamente cuando la variable latente es observada
por encima del valor umbral.

La media de una distribución censurada viene dada por (18) para el caso en
que el umbral a = 0

E(yi ) = P r(yi = 0)E(yi |yi = 0) + P r(yi > 0)E(yi |yi > 0) (12.18)

Con el punto de censura igualado en cero el primer término de la parte derecha


de la expresión es igual a cero y, usando el resultado de la regresión truncada
podemos re expresar los dos términos remanentes de (20) como sigue.

Primero, a partir de la ecuación de regresión truncada (9) se tiene que :

E(yi |yi > 0) = βxi + σλi (12.19)

donde :
φ( 0−βx
σ
i
)
λi =
[1 − Φ( 0−βx
σ
i
)]
φ( βxσ i )
λi = (12.20)
Φ( βxσ i )
Segundo, con respecto a el término P r(yi > 0) podemos notar que :

P r(yi > 0) = P r(βxi + ²i > 0)

Lo que implica que :

P r(yi > 0) = P r(²i > −βxi ) = P r(²i < βxi ) = Φ(βxi /σ) (12.21)

De esta forma, combinando (21),(22)y (23) obtenemos lo siguiente :

E(yi ) = P r(yi∗ > 0)E(yi |yi > 0) (12.22)

171
lo que implica que :
E(yi ) = Φ(βxi /σ)[βxi + σλi ] (12.23)
donde, al igual que antes :
φ( βxσ i )
λi =
Φ( βxσ i )

12.5.3. Interpretando los Efectos Marginales en el Modelo


Tobit

La interpretación de los efectos marginales en el modelo Tobit dependerá de lo


que estemos interesados en investigar. Podemos estar interesados en (i) la media
de la distribución censurada o bien (ii) los coeficientes del modelo latente. Por
ejemplo, suponga que tomammos el caso de los salarios reserva, la forma en que
calculemos los efectos marginales dependerá si estamos interesados en estudiar la
relación entre educación (llamemosla xj ) y las ganancias de mercado para aquel-
los que trabajan (la muestra censurada) o entre educación y ganacias (esperadas)
de mercado para toda la oferta de trabajo (la distribución completa).

Para el primer caso estaremos interesados en los efectos marginales calculados


a partir del modelo de regresión censurado los cuales vienen dado por :

∂E(yi |xi )
= βj Φ(βxi /σ) (12.24)
∂xj

Note que, como se esperaba, los efectos marginales son funciones no lineales de x
y σ.

Para el segundo caso, los efectos marginales vienen dados simplemente por :

∂E(yi∗ |xi )
= βj (12.25)
∂xj

Considere por un momento que pasaría si el valor de xj aumenta. Primero, afec-


tará la media condicional del valor de yi∗ en la parte positiva de la distribución.
El segundo efecto es que un aumento de xj aumentará la probabilidad de que
la observación caiga en la parte positiva de la distribución. La siguiente figura
ilustra la naturaleza del modelo Tobit.

172
12.5.4. Estimación del Modelo Tobit

La estimación sobre toda la muestra de datos bajo OLS entrega estimadores


inconsistentes y así los investigadores utilizan la forma de ML para realizar es-
timaciones consistentes de los parámetros. Para elmcaso del Tobit, la función de

173
verosimilitud en logaritmo (log-likelihood) viene dada por :
X 1 (yi − βxi )2 X
log L = [− log(2π) + log(σ 2 ) + 2
] + log[1 − Φ(βxi /σ)] (12.26)
y >0
2 σ y =0
i i

la cuales una mezcla de una función contínua para aquellas observaciones no cen-
suradas ( la primera sumatoria) y una distribución discreta para las observaciones
censuradas (el segundo término). Esta es una expresión compleja pero manejable
( la instrucción en STATA se denomina heckman), sin embargo la mayoría de los
trabajos empíricos también reportan las estimaciones por OLS con fines compar-
ativos.

Resultado (empírico)
Parece ser que los estimadores OLS son menores en valor absoluto que aquellos
estimados por MLE. Existe una regularidad empírica la cual sugiere que los es-
timadores MLE pueden ser aproximados al dividir los estimadores OLS por la
proporción de observaciones que caen fuera del rango de censura. La estimación
por OLS realizada solo sobre las observaciones censuradas entrega estimadores
sesgados e inconsistentes. Existe un método de facil aplicación para estimar el
modelo tobit mediante el uso OLS çorregido"propuesto por Heckman en 1979.
Dado que generalmente este método es utilizado para el problema de Sesgo de
Selección primero disctutiremos este problema en detalle y después nos abocare-
mos al procedimiento de Heckman.

12.6. Sesgo de Selección y el Método de Heckman


en dos Etapas

El sesgo de selección surge cuando los factores que causan la censura de la


muestra están correlacionados con aquellos factores que determinan el valor es-
perado de la variable dependiente sobre la muestra truncada. Pensando en el caso
de la participación femenina en el mercado del trabajo : el que una mujer par-
ticipe en el mercado del trabajo es una función de las ganancias esperadas en el
mercado ( y otros factores). Así, el examinar los determinantes de las ganancias
en una muestra de mujeres que efectivamente trabajan no será representativo
pues será una muestra de mujeres para las cuales la participación en el mercado
del trabajo es en sí rentable o deseable.

174
12.6.1. La Densidad Conjunta Truncada

Para examinar los aspectos asociados con el sesgo de selección, necesitamos


definir las características de una densidad conjunta truncada de z e y. Si y y z se
distribuyen normal conjunta estándar entonces :
σy
y|z ∼ N [(µy + ρ (z − µz , σy2 (1 − ρ2 )]
σz
donde ρ es el coeficiente de correlación. La densidad conjunta truncada de y y z :

f (y, z|z > a) = f (y, z)/P r(z > a)

Los momentos de esta distribución son :

E(y|z > a) = µy + ρσy λ(αz )

y
V ar(y|z > a) = σy2 (1 − ρ2 δ(αz ))
donde, como antes, µy y µz son las medias de y y z, σy , σz las desviaciones
estándar; αz = (a−µ
σz
z) φ(αz )
; λ(αz ) = 1−Φ(α z)
el IMR y con δ(αz ) = λ(αz )/(λ(αz ) − αz ).

12.6.2. La Estimación de Heckman en Dos Etapas

Heckman argumentaba de que el problema de sesgo de selección podía ser


pensado como un problema de variable omitida donde la variable omitida era λi ,
la Razón Inversa de Mills (IMR) la cual, como notamos anteriormente, es una
medida del grado de truncamiento de la muestra. Mas aún, dado que el punto de
truncamiento es endógeno podemos también modelar la verosimilitud de que una
observación aparecerá en la parte truncada de la muestra.

Podemos ver por qué esto es así de la siguiente manera. Suponga que tenemos un
modelo de regresión de la siguiente forma :

yi = βxi + ²i (12.27)

el cual puede representar una relación entre ganancias (y) y un vectorde otras
variables (x). Sin embargo, suponga de que observamos yi solo si zi = 1 donde :
(
1 si yi ∗ > 0
zi
0 en otro caso.

175
y
zi∗ = γWi + ui (12.28)
donde z ∗ es una variable latente no observable. La ecuación (30) represeta un
mecanismo de selección y la ecuación (29)puede ser re especificada como una
regresión truncada condicional en que zi = 1.

E[yi |zi = 1] = βxi + ρσ² λ(γWi ) (12.29)

La ecuación anterior no es lineal en los parámetros y en consecuencia, no puede


ser estimado usando nuestro modelo lineal estándar. El estimador eficiente, en
este caso es uno de ML. Una alternativa conveniente (parcialmente lineal) es el
procedimiento alternativo de Heckman en dos etapas. Este último entrega esti-
madores consistentes aunque no completamente eficientes y se implementa de la
siguiente manera :

Paso 1: Estime un modelo Probit para la regla de selección en (30) de tal forma
de producir un estimador máximo verosímil de γ. Utilizando este valor calcule
para cada observación de la muetra :

bi = φ(b
λ
γ Wi )
(se asume que γu = 1) (12.30)
Φ(b
γ Wi )

El vector de variables Wi contiene los determinantes de la participación (en el


mercado laboral) y generalmente contiene variables que también están en x. Sin
embargo, para poder identificar la segunda ecuación, el vector W debe contener
a lo menos una variable que no esté en X.

Paso 2: La ecuación de Heckman (deganacias en el mercado laboral ) corregida


por el sesgo de selección es simplemente :
bi + ²i
yi |zi ∗ > 0 = βxi + βλ λ (12.31)

donde βλ = ργ² . El coeficiente sobre el IMR estimado puede ser interpretado


como la covarianza entre ²i , ui ; en otras palabras la covarianza entre los errores
el modelo de participación y el modelo de ganancias. Convenientemente, la prueba
simple de t-student sobre la variable de sesgo de selección representa una prueba
simple y directa de la pesencia del sesgo de selección en la muestra.

176
12.7. Errores de Especificación en los Modelos To-
bit

Puede existir el caso en que las consecuencias (marginales) de un factor o


variable sobre la probabilidad de observar un resultado o fenómeno sea diferente
de la consecuencia (marginal) de ese factor sobre el nivel de una variable o ac-
tividad. Un ejemplo puede ilustrar mejor este punto. Conductores jóvenes tienen
mas probabilidad de tener un accidente de tránsito. De esta manera, la edad está
negativamente correlacionada con la probabilidad de solicitar un reembolso a la
aseguradora. Sin embargo, si los conductores jóvenes típicamente manejan autos
mas viejos y menos costosos, entonces la edad (del conductor) está positivamente
correlacionada con el valor del reembolso solicitado. Esto significa que la edad
tendría diferentes signos en las dos partes del modelo Tobit. Pero como se puede
ver en la ecuación (26), existe sólo un coeficiente para el valor de cualquier vari-
able explicativa en el caso del Tobit simple.

Para testear si existe un problema de especificación (entre unTobit simple y aquel


en dos etapas, denominado Tobit tipo II) deberemos especificar un modelo gen-
eral de las dos etapas del Tobit de la siguiente forma :

Modelo de Decisión : P r(yi∗ > 0) = Φ(γxi ) zi = 1 si yi ∗ > 0

Regresión parte no limitada : E[yi |zi ] = βxi + σλi

donde hemos permitido de que los coeficnites asociados a las variables puedan
difereir no solo en su valor sino también en su signo. Podemos entones testear
la restricción (del Tobit simple) de que γ = β usando una prueba de LR de la
siguiente forma :

Lr = −2[log Lt − (log Lp + log Ltr )] ∼ χ2k

donde Lt es la verosimilitud del Tobit; Lp la verosimilitid del Probit y Ltr la


verosimilitud de la regresión truncada.

12.7.1. Heteroscedasticidad

Recordemos el modelo de regresión lineal hetroscedastico estándar

yi = βxi + ²i = f (xi ) + ²i (12.32)

177
donde E(²i ) = 0, E(²2i ) = σ 2 g(zi ) Sabemos de que los estimadores de los
parámetros de la regresión (ie la media condicional) son insesgados pero inefi-
cientes. Esto tiene que ver con con la característica de de linealidad aditiva del
modelo de tal forma que es posible separar los parámetros que determinan la
expresión para la media condicionla (ie f (xi ) ) de aquellos que están detrás de la
determinación de la precisión de dichos estimadores, g(zi ).

Las cosas no son tan simples cuando tenemos heteroscedasticidad en un modelo


de variable dependiante limitada : de hecho ante la presencia de heteroscedasti-
cidad la estimación por MLE del modelo Tobit será sesgada e inconsistente. Ello
puede observarse a partir de la función de verosimilitud :
X 1 (yi − βxi )2 X
log L = − [log 2π + log σ 2 + 2
] + log[1 − Φ(βxi /σ)] (12.33)
y >0
2 σ y =0
i i

Puede resultar claro de que si la varianza del modelo es contante, entonces puede
sacarse de la función Φ() en el segundo término de la función de verosimilitud.

12.7.2. No Normalidad

Vimos anteriormente de que todos los resultados de inferencia a partir de


muestras truncadas dependen crucialmente sobre la estructurade los errores en
el modelo de variable latente. Típicamente cuando los errores no son normales
entonces los estimadores de parámetros ( de los coeficientes, varianza y IMR)
serán inconsistentes.

Existe un trabajo importante durante los últimos años acerca de estimadores


alternativos al Tobit cuando los errores del modelo latente no siguen una dis-
tribución normal. Existe dos formas de solución bien definidas (i) el estimador
de Least Absolute Deviations (LAD) propuesto por Powell y los métodos semi-
paramétricos los que asumen otras distribuciones para los errores. Este es un
tema complejo y avanzado el cual está cubierto relativamente bien en Amemiya
(1985) .Afvanced EconometricsÇapítulo 10 y en Pagan y Ullah "Non Parametric
EconometricsÇapítulos 7 y 9.

178
Capítulo 13

Modelos para Datos de Panel

13.1. Resumen
1. Introducción a Datos de Panel y modelos con heterogeneidad

2. Modelos de Efectos Fijos y Efectos Variables :Modelos de Una Componentes


y Modelos de Dos Componentes

3. Efectos Fijos versus Efectos Variables : Prueba de Especificación de Haus-


man

4. Extensiones

13.2. Referencias
Greenne, Capítulo 14

Hsiao, Analysis of Panel Data, Econometric Society Monograph Cambridge


University Press (1986.)

Baltagi, Econometric Analysis of Panel Data, John Wiley (1995).

179
13.3. Introducción

Un conjunto de datos de panel o longitudinales es aquel que sigue indi-


viduos (firmas o paises) a través del tiempo y en consecuencia entrega múltiples
observaciones para cada individuo. Así, datos de panel es la unión de datos en
serie de tiempo y de corte transversal. El análisis de la de conductas utilizando
datos de panel es una de las áreas más atractivas de la econometría. En esta y la
siguiente clase daremos una introducción a este tema.

13.3.1. ¿ Porqué usar Datos de Panel ?

Mas observaciones

Un panel contiene NT observaciones. Por convención, indexaremos la dimen-


sión temporal como t = 1 · · · T y la dimensión transversal como n = 1 · · · N . Típi-
camente T es relativamente pequeño mientras N es relativamente mayor. Notar
que incluso si T = 2 tendremos un panel que puede ser utilizado para realizar
estimaciones. El aumento en el número de observaciones aumentará el número
de grados de libertad, reducirá el grado de colinealidad muestral y aumentará la
eficiencia de cualquier estimador que se obtenga.

Discriminación entre hipótesis

Al utilizar el componente de series de tiempo de los datos puede ser posible


discriminar entre hipótesis aspecto que no es posible realizar al utilizar solo datso
de corte transversal

Ejemplo: Considere el efecto de la sindicalización sobre los salarios. Suponga que


observaciones de corte transversal sugieren que firmas donde existen sindicatos,
sus trabajadores tienen salarios mas altos. Esto es consistente con a lo menos dos
hipótesis. Primero, que los sindicatos hacen aumentar los salarios por encima de
la productividad marginal de la mano de obra. Segundo, que diferentes niveles
de sindicalización reflejan factores diferentes al poder del sindicato, como ser la
productividad de la mano de obra individual. Estas dos apreciaciones no pueden
ser distinguibles en el caso de que sólo contáramos con datos de corte transversal.
Sin embargo, si pudiéramos seguir a los trabajadores durante el tiempo entonces
podríamos determinar si el salario de un trabajador con una habilidad constante
sube o nó cuando pasa de no estar sindicalizado a estarlo.

180
Controlando por heterogeneidad individual no observable

Similar al caso anterior el que lo ilustraremos mediante un ejemplo. Suponga


que estamos estudiando la utilización (consumo) de bienes públicos entre países e
imagine que existe un factor que varía entre los países pero que no es fácilmente
medible : uno de estos factores puede ser actitudes políticas con respecto a la
provisión pública de servicios. Dado que en una política pro-estado (estado bene-
factor) es esperable que el consumo de bienes públicos aumente, en el caso de
estados benefactores como Suecia, uno esperaría encontrar una diferencia signi-
ficativa en la propensión al consumo de bienes públicos con respecto al promedio
del resto de los países. En una regresión de corte transversal, podríamos manejar
este problema al utilizar una variable dummy para Suecia. Esto, sin embargo, lo
que logra es sacar completamente a Suecia de la muestra lo que no es satisfacto-
rio. Este no será el caso para datos de panel, como veremos en seguida.

Considere el siguiente proceso de generación de datos (bivariado):

yit = αi + βi xit + uit i = 1....N t = 1, ....T (13.1)

donde, en principio, tanto αi como βi pueden variar entre individuos. Suponga


que agrupamos las NT observaciones y estimamos el modelo clásico de regresión
(con α y β fijos) :
yit = α + βxit + uit (13.2)
Esta especificación ignora la heterogeneidad entre individuos. ¿ Cuáles son las
implicancias de esto ?

(i) Interceptos heterogeneos (αi 6= α). Tanto los coeficientes de la pendiente


como de los interceptos estarán sesgados al ser estimados por OLS y el ses-
go no tendrá signo determinado. Datos de panel pueden ser útiles en este
caso. Ver Figura.

181
(ii) Pendientes e interceptos heterogéneos (αi 6= α y βi =
6 β ). Los estimadores
OLS de las pendientes e interceptos serán sesgados y sin sentido. También
se sigue de que modelos estándar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.

182
Controlando por variables omitidas (no observadas o mal medidas)

Datos de panel permiten al investigador usar los elementos tanto dinámicos


como de individualidad de los elementos de un set de datos para controlar por
los efectos de variables faltantes o inobservables. Esta es una de las principales
atracciones acerca del uso de datos de panel.

Considere el siguiente modelo :

yit = α∗ + β 0 xit + γ 0 zit + uit , µit ∼ N (0, σu2 ) (13.3)

Bajo los supuestos usuales, la estimación por OLS de (3) entregará estimadores
insesgados y consistentes del vector de parámetros β y γ . Suponga, sin em-
bargo, de que el vector de variables Z no es observable pero donde la matriz
de covarianza entre X y Z no es cero. En este caso, los estimadores OLS de β
estarán sesgados, dado que zit representaría el caso clásico de omisión de variable.

Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisión de variable.

183
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que sólo difieren entre individuos. Así, podemos
tomar las primeras diferencias de (1) con respecto al tiempo para obtener :
(yit − yit−1 ) = β 0 (xit − xit−1 ) + (µit − µit−1 ) (13.4)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal
manera que ahora se pueden obtener estimadores insesgados y consistentes
de β.
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviación de la observación de cada individuo sobre la media entre todos
los individuos (en cada período), de la siguiente forma :
yit − yt = β 0 (xit − xt ) + (µit − µt ) (13.5)
PN
donde yt = N1 i=1 yit representa la media grupal (el valor promedio de la
variable del grupo i = 1 · · · N en cada período t )

En ambos casos las transformaciones han "sacado"la variable-problema no


observada (o mal medida) Z. Como consecuencia, la estimación por OLS
de (4) o (5) entregará estimadores insesgados y consistentes de β los que
no podrían haber sido obtenidos mediante series de corte transversal o en
series de tiempo en forma aislada.

Modelamiento de la Dinámica de Ajuste

Datos de panel son particularmente útiles para el análisis de la duración de


situaciones económicas como desempleo o pobreza. Dependiendo del largo del
panel estos nos pueden dar luces sobre la velocidad de ajuste a shock exógenos.
Aunque estos deben ser modelados con largos datos de panel mediante técnicas
denominadas Datos de Panel Dinámicos (DPD), los que no veremos en estas
clases.

13.3.2. Algunos Problemas de los Datos de Panel

Costos de recolección de los datos

Algunos datos de panel son terriblemente costosos en su recolección y re-


quieren largos horizontes de investigación. Ellos presentan todos los problemas

184
clásicos de recolección de datos como cobertura, no respuesta, selección endógena
(i.e. truncamiento endógeno), etc.

Medición del Error Compuesto

En aquellas situaciones en que medir el término de error es un problema, esto


puede simplificarse o bien exacerbarse cuando se utilizan datos de panel.

Suponga que tenemos un ingreso (variable X) el cual es declarado en el tiem-


po t por el hogar i con cierto error :

x∗it = xit + ²it (13.6)

donde ²it es una medida del error con media cero y varianza seccional igual a ω.

Si asumimos de que Cov(x, ²) = 0 entonces V ar(x∗it ) = V ar(xit ) + ω. Ahora,


si vamos a utilizar estos datos para eliminar algunos efectos no observables (co-
mo en la ecuación (4)) entonces tenemos lo siguiente :

∆x∗it = ∆xit + ∆²it


V ar(∆x∗it ) = V ar(∆xit ) + 2ω 2 (1 − ρ) (13.7)

donde ρ es la correlación entre el error de medición de dos períodos. Ello puede


sugerir dos casos extremos:

Caso (i) Errores Independientes del Tiempo (autocorrelación perfecta) Suponga de


que un hogar comete el mismo error año tras año ( por ejemplo el hogar se
equivocan en ingresar el valor de su casa). En este caso ρ tenderá a uno y
en consecuencia :
∆x∗it → ∆xit
V ar(∆x∗it ) → V ar(∆xit ) (13.8)
De esta manera, datos de panel permiten que los errores de medición sean
"eliminados"de los datos y así los parámetros de interés sean estimados sin
sesgo.

Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo
( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza en el
error de medición será duplicada. Si la varianza del verdadero valor de X es
relativamente baja (e.g. existe una persistencia en el tiempo en X) entonces,

185
al diferenciar los datos significará que la "señal"es absorbido por el ruido".
En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá un efecto
desproporcionado sobre la varianza del error en la medición relativo a la
varianza propia de la variable en sí.

Sesgo de Respuesta Sistemática y Reducción Sistemática

El primer sesgo surge al tener que visitar en forma reiterada al mismo in-
dividuo y las respuestas pueden entonces ser endógenas; las personas tienden a
exagerar. El segundo sesgo está relacionado con el hecho de que las los hogares
o individuos entrevistados en el pasado pueden ya no serlo en el presente ya que
o bien murieron, quebraron, dejaron de ser pobres, etc, lo que puede introducir
un sesgo hacia atrás. Esto se puede corregir con los denominados pseudo-paneles,
tópico que está fuera del alcance de este curso.

13.4. Un Modelo Lineal General para Datos de


Panel

El modelo básico de datos de panel combina series de tiempo con datos en


corte transversal en un solo modelo el cual puede ser escrito de la siguiente forma
:
yit = α + Xit β + uit , i = 1....N, t = 1.....T (13.9)
donde i denota las unidades en corte transversal y t el tiempo. Los diferentes
modelos de datos de panel dependerán de los supuestos que se realicen sobre los
errores no observados uit . Existen principalmente dos alternativas :

El one-way error component model (modelo de error de componente en un


solo sentido) el cual asume de que la estructura del error se define como sigue

uit = µi + υit , υit ∼ iid(0, σµ2 ) (13.10)

donde µi denota efectos específicos al individuo que no son observables y υit son
los denominados efectos idiosincráticos. Los µi son invariantes en el tiempo y
dan cuenta de cualquier tipo de efecto individual no incluido en la regresión. Un
ejemplo estándar en ecuaciones de ganancia es la habilidad; en funciones de pro-
ducción agrícola uno de estos efectos puede ser la calidad (no observada) del suelo;
en macro paneles sobre crecimiento de países se pueden incluir normas culturales
(e.g. con respecto al ahorro o riesgo).

186
El two way error component model se asume de que la estructura del error
se define de la siguiente manera :
uit = µi + λt + υit , υit ∼ iid(0, σµ2 ) (13.11)
donde, nuevamente, µi denota efectos individuales específicos no observables y
donde λt denota efectos temporales no observables. Estos efectos se asumen que
son comunes entre individuos pero que varían en el tiempo. Ejemplos incluirían
variaciones en el clima o cambios en la política económica en general.

13.5. El One Way Error Component Model

Podemos re escribir (9) en forma vectorial de la siguiente forma :


Y = α1N T + Xβ + u = Zδ + u (13.12)
donde las dimensiones de las matrices son Y = [N T × 1], X = [N T × K],
Z = [1N T X] y δ 0 = [α0 β 0 ] en donde 1N T es un vector de unos de dimension
N T . De esta forma (10) puede ser expresado como sigue:
u = Zµ µ + υ (13.13)
donde u0 = (u11 , ...u1T , u21 , ...u2T , ....uN 1 , ...uN T ) y Zµ = IN ⊗ 1N T , con IN la ma-
triz identidad y ⊗ el producto Kronecker.

De esta manera Zµ es la matriz de selección la que está compuesta de ceros


y unos y que captura los efectos de µi . Usaremos estos resultados para calcular
dos matrices adicionales. La primera es :
P = Zµ (Zµ0 Zµ )−1 Zµ0
la cual es la matriz de proyección sobre Zµ ; matriz que promedia las observa-
ciones en el tiempo para cada individuo. La segunda matriz es :
Q = IN T − P
la cual permite obtener las desviaciones sobre las medias individuales.
PT uit
De esta forma P u, tiene el típico elemento ui = t=1 T y la matriz Qu tiene
este como elemento típico uit − ui

Estas relaciones se usan extensivamente para derivar los modelos de datos de


panel. Ahora consideraremos dos supuestos sobre los efectos individuales µi .

187
13.5.1. Modelo de Efectos Fijos

El modelo de efectos fijos asume que los efectos individuales µi son parámetros
determinísticos los que deberán ser estimados. Este sería el caso si N representa
la "población"tal como el conjunto de países o estados o firmas, y que nuestras
inferencias es solamente relacionada sobre las N observaciones que se dispone. Así
la inferencia es condicional sobre las N observaciones en particular : no estare-
mos utilizando los resultados para inferir aspectos relacionados a otro conjunto
de países/firmas/individuos.

Al sustituir (13) en (12) tenemos que:

y = α1N T + Xβ + Zµ µ + ν = Zδ + Zµ µ + ν (13.14)

Podemos usar OLS sobre (14) para generar estimadores de α y el vector de β y


µ al incluir (N − 1) variables dummy para los efectos fijos no observados. Esta
estimación generalmente se conoce con Estimador Minimo Cuadrático de
Variables Dummy (LSDV). Cada uno de los coeficientes sobre µi miden la
diferencia de los efectos individuales con respecto a un individuo base de com-
paración ( representado por α).

Sin embargo, si N es grande con respecto a N T existirán demasiados parámetros


a estimar (α, β y los N − 1 efectos individuales específicos) en (14). Comunmente,
el interés del investigador estará en saber los valores de α, β y en consecuencia,
desearemos simplemente controlar, y nó estimar, los efectos individuales los que,
después de todo, son una amalgama de diferentes aspectos de la heterogeneidad.

La alternativa mas común para estimar esta situación es el estimador de efec-


tos fijos. Primero, deberemos pre multiplicar el modelo (11) por la matriz de
selección Q la cual calcula las desviaciones con respecto a la media grupal (de
individuos). La observación representativa para el individuo i en el tiempo t es :

(yit − y i ) = (α − αi ) + (Xit − X i )β + (µi − µi ) + (vit − v i ) (13.15)


P
donde y i = T1 Tt=1 yit es la media del valor y para el individuo i sobre todo
el período de observaciones (t = 1 · · · T ). Notar de que por definición de que el
primer y tercer término de la parte derecha de (15) son cero. En una notación
vectorial mas conveniente queda de la siguiente forma :

Qy = QXβ + Qν (13.16)

donde hacemos uso del hecho de que Q − Zµ = Q1N T = 0 dado que el promedio
temporal del efecto invariante en el tiempo es simplemente el efecto en si mismo.

188
De esta forma, podemos estimar como sigue :

βeW = (X 0 QX)−1 X 0 Qy (13.17)

donde
V ar(βeW ) = σν2 (X 0 QX)−1 = σν2 (X e −1
e 0 X) (13.18)
y donde podemos recuperar el valor estimado de α como :

eW = y − X βeW
α

donde aquí, el promedio


P se calcula sobre todas las observaciones basados en la
restricción de que Ni=1 i = 0 el cual es un supuesto estándar para las variables
µ
dummy.

Resultados

Si (14) es el verdadero modelo, el estimador de efectos fijos es BLUE sólo


mientras vit tenga las características Gausianas estándar. A medida de que T
tiende a infinito, entonces el modelo es consistente para todos los parámetros del
modelo. Sin embargo, si T es fijo y N tiende a infinito, entonces el estimador FE
de β será consistente. El estimador FE de los efectos individuales (α + µi ) no
son consistentes dado que el número de parámetros aumenta a medida de que N
aumenta.

Pruebas de Efectos Fijos

Podemos testear para la existencia de efectos fijos al usar un test F estándar


donde la nula es que :

Ho = µ1 = µ2 = · · · µN −1 = 0 (13.19)

La suma de cuadrados de residuos restringidas viene dado por la suma de los


cuadrados de los residuos del modelo OLS sobre los datos agrupados y el modelo
sin restringir son la suma de los residuos al cuadrado del modelo de efectos fijos.
La prueba es la siguiente :
(rrss − urss)/(n − 1)
FF E = ∼ F[n−1,nt−n−k] (13.20)
urss/(nt − n − k)
Generalmente nos referiremos a esta como la restricción de agrupamiento sobre
la heterogeneidad no observable en el modelo.

189
13.5.2. Modelo de Efectos Aleatorios

Suponga ahora que los efectos individuales no son deterministicos sino que
cada uno de ellos son una variable aleatoria. Esto sería un supuesto mas razonable
en el caso de que nuestros datos fuera una muestra genuina utilizada con el fin de
realizar inferencias sobre la población como un todo. Estos efectos aleatorios no
observables pueden ser pensados a nivel de individuos como habilidades mientras
que a nivel de firma podemos pensar en términos de capacidad administrativa.
Asumiremos de que µi ∼ iid(0, σµ2 ) y que ambos, µi , vit son independientes de Xit
para todo i y t. Ahora, siendo los efectos individuales aleatorios la varianza del
término de error será :
V ar(uit ) = σµ2 + σν2 (13.21)
El aspecto clave de esta varianza es que a pesar de ser homosedastica, tiene
correlación serial al interior de cada unidad de corte transversal (dado que cada
"efecto individual"de cada persona persiste en el tiempo). En particular, sea :
Cov(uit , ujs ) = (µi + vit )(µj + vjs ) (13.22)
Así, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = σµ2 + σv2 . POr otro
lado, si i = j pero t 6= s entonces se tiene que la Cov(uit , ujs ) = σµ2 y cero en otro
caso. Por extensión, tenemos lo siguiente :
ρ = Corr(uit , ujs ) = 1 para i = j; t=s
σµ2
ρ = Corr(uit , ujs ) = para i = j; t 6= s
(σµ2 + σν2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la
matriz de varianzaas covarianzas para el modelo de datos de panel no será del
tipo "Gaussiano". Para proceder con la estimación necesitaremos analizar la es-
tructura de esta matriz.

Para examinar el estimador de efectos aleatorios necesitaremos introducir una


nueva matriz de selección. Sea JT una matriz de unos de dimensión T de tal
forma de que Zµ Z µ 0 = IN ⊗ JT .

De esta manera, a partir de (13) podemos calcular la matriz de varianza co-


varianza (la cual es ahora de N T × N T )
Ω = E(uu0 ) = Zµ E(µµ0 )Zµ0 + E(νν 0 ) (13.23)
la cual se puede simplificar en la siguiente expresión :
Ω = (T σµ2 + σν2 )(IN ⊗ J T ) + σν2 (IN ⊗ ET ) = σ12 P + σν2 (13.24)

190
donde J T = JT /T , ET = (IT − J T ) y σ12 = T σµ2 + σv2 .

Con esta definición podemos entonces aplicar a (14) el estimador GLS están-
dar para derivar los estimadores de los coeficientes de α, β bajo el supuesto de
efectos aleatorios:
δbGLS = [X 0 Ω−1 X]−1 [X 0 Ω−1 y] (13.25)
El único problema (y uno no trivial) es que Ω es de rango (N T × N T ) y la in-
versión de esta matriz es extremadamente difícil. Un sinnúmero de trucos se han
desarrollado para salvar esta traba.

La forma de resolución a este problema mas popular introduce los denomina-


dos estimadores Entre Grupos (BG) el cual regresiona un conjunto de observa-
ciones consistentes en el promedio a través del tiempo para cada una de las N
observaciones :
0
y i. = α + X i. β + ui i = 1, ...N (13.26)
donde :
T
1X
y i. = yit
T t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro
modelo básico en (14) :

P y = P α1N T + P Xβ + P (Zµ µ + ν) (13.27)

el cual entrega el siguiente estimador :

βeB = [X 0 (P − J N T )X]−1 [X 0 (P − J N T )y] (13.28)

Este estimador se denomina entre grupos pues ignora cualquier variación al in-
terior del grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un
resumen de la información de corte transversal simple sobre la variación entre los
grupos ( o individuos).

Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser ex-
presado como :

(X 0 QX) X 0 (P − J N T )X −1 (X 0 Qy) X 0 (P − J N T )y
βbGLS = [ + ] [ + ] (13.29)
σν2 σ12 σν2 σ12
Podemos simplificar la expresión anterior mediante la siguiente notación. Sea
WXX = X 0 QX, WXY = X 0 Qy, BXX = X 0 (P − J N T )X, BXY = X 0 (P − J N T ) y
2
finalmente, φ2 = σσν2 .
1

191
Usando estas definiciones podemos reexpresar (29) como :

βbGLS = [WXX + φ2 BXX ]−1 [WXY + φ2 BXY ] (13.30)

el cual es el estimador GLS de Maddala para el modelo de efectos aleatorios.

−1
Finalmente, notar de (17) de que WXX WXY es simplemente el estimador al in-
−1
terior del grupo (o intra grupo, WG) y de (28) de que BXX BXY es el estimador
entre grupos (BG) de tal forma que :

βbGLS = ΘβeW + (1 − Θ)βeB (13.31)

con Θ = [WXX + φ2 BXX ]−1 WXX . El estimador GLS en (31) es un promedio


ponderado entre los estimadores entre grupos e intra grupo. El parámetro clave
en la ponderación es Θ. Pueden existir tres casos diferentes:

(i) A medida de que T tienda a infinito, entonces φ2 tenderá a cero, y por tanto
Θ a la unidad. En este caso, el estimador GLS tenderá al estimador intra
grupo o el estimador LSDV.

(ii) Si φ2 tiende al infinito entonces Θ tenderá a cero y en consecuencia el


estimador GLS convergerá al estimador entre grupos.

(iii) Si σµ2 = 0 (i.e. los efectos individuales son determinísticos) entonces φ2 = 1


y así el estimador GLS tenderá al estimador OLS (el cual entrega igual
ponderación a la variación intra grupo y inter grupos).

Podemos pensar, en consecuencia, a los estimadores LSDV (FE) y el estimador


OLS con los datos agrupados como casos especiales del estimador GLS donde el
estimador LSDV trata a todos los efectos individuales como fijos y diferentes y
donde el estimador OLS asume de que todos son fijos pero idénticos. El estimador
GLS de efectos variables permite a los datos considerar una posición intermedia.

13.5.3. Estimación Factible del estimador GLS

Como en todos los casos de estimadores GLS, necesitamos un procedimiento


para estimar los componentes de la matriz de varianzas y covarianzas de tal man-
era de que la podamos utilizar para estimar los parámetros del GLS. Necesitamos,
en consecuencia, estimaciones de σµ2 y σν2 .

192
La primera opción es usar una estimación máxima verosímil interativa. Bajo los
supuestos de normalidad para σµ2 y νit podemos escribir la función de verosimili-
tud de la siguiente manera:
NT N 1
log L(α, β, φ2 , σν2 ) = constante − log σν2 + log φ2 − 2 u0 Σ−1 u (13.32)
2 2 2σν

y maximizarla en la forma usual, utilizando los estimadores entre grupos como


los valores iniciales de β.

Alternativamente 1 , valores consistentes de σν2 pueden ser derivados a partir de


los estimadores intra grupos ( ya que este estimador suprime los efectos entre
grupos) y los estimadores de σµ2 pueden ser obtenidos a partir de los estimadores
entre grupos ( ya que suprime el efecto intra grupo). Estos estimadores consis-
tentes pueden ser sustituidos en el estimador GLS.

Si el modelo de efectos aleatorios es correcto, entonces el estimdor GLS basa-


do en las componentes verdaderas de varianzasa es BLUE. Todos los estimadores
FGLS serán consistentes a medida de que N o T tiendan a infinito.

Resumen
El método de estimación a ser usado dependerá en si asumimos de que los efectos
individuales sean fijos o aleatorios. Resulta ser de que los valores para los parámet-
ros β pueden variar dramáticamente, en el caso mas común donde N es grande
y T pequeño, entre estimadores intra o entre grupos. Cuando sólo existen pocas
observaciones en el tiempo resulta mejor usar los elementos de corte transversal
de los datos para estimar aquella parte de la relación que contenga variables que
difieren entre un individuo al otro (el estimador entre grupos). Ello permite de
que la parte de serie de tiempo de los datos sea usada en forma eficiente de tal
manera de rescatar la parte común de dicha relación entre individuos.

13.5.4. Problemas de Especificación

Hasta el momento se ha asumido de que los efectos individuales son o bien


fijos (i.e. no estocásticos) o si estos eran aleatorios, la covarianza entre los efectos
no observables y las variables xi es cero. Esto puede no ser muy realista. Por ejem-
plo, en una función de producción las capacidades administrativas no observables
podrían estar correlacionadas con la elección de los insumos.
1
ver la rutina existente en STATA

193
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuan-
do los efectos µi son tratados como variables aleatorias pero la varianza entre
estos y las variables xi no son cero, el estimador de efectos aleatorios GLS será
segado e inconsistente. Dado que el estimador intra grupo "eliminaçompletamente
el efecto de los µi , entonces el estimador de efectos fijo intra grupo es insesgado
y consistente.

Un corolario del resultado anterior es el siguiente. Por una parte, si Cov(ui , xi ) 6= 0


entonces βW es BLUE y por lo tanto βGLS = ∆βB + (1 − ∆)βW estará sesgado.
Por otra parte, si Cov(ui , xi ) = 0 enonces se tiene que βGLS = ∆βb + (1 − ∆)βW
es BLUE y asintóticamente eficiente.

El test de especificación de Hausman puede ser también utilizado en este caso. De


no existir covarianza (i.,e. bajo la nula) entonces el estimador GLS será BLUE y
asintóticamente eficiente; pero bajo la alternativa de que existe covarianza entre
los efectos y las variables xi , el estimador GLS será sesgado. En contraste, el esti-
mador intra grupo (efecto fijo) será consistente y BLUE (pero nó asintóticamente
eficiente) bajo la alternativa y consistente bajo la nula. La prueba de Hausman
pregunta simplemente si existen diferencias significativas entre los estimadores
GLS y intra grupo y viene denotado de la siguiente forma :
m = (βbW − βbGLS )0 V ar(βbW − βbGLS )−1 (βbW − βbGLS ) ∼ χ2 [k] (13.33)
donde la hipótesis nula es que la covarianza es cero. Covarianza significativa entre
los efectos µi y las variables xi hará que el valor de m sea grande lo que rechazará
el test y deberá estimarse, entonces, utilizando el estimador de efectos fijos intra
grupo.

13.6. El Two Way Error Component Model

Suponga de que el término de error tienen dos efectos sistemáticos no observ-


ables de la siguiente manera :
uit = µi + λt + νit νit ∼ iid(0, σν2 ) (13.34)
Podemos re escribir esto en forma vectorial como :
u = Zµ µ + Zλ λ + ν (13.35)
donde Zµ fue anteriormente definido y Zλ = 1N ⊗ IT es la matriz de variables
dummies temporales que capturan el efecto λt si estos son parámetros fijos.

194
13.6.1. El Estimador de Efectos Fijos

Como fue definido anteriormente, si µi y λt son determinísticos (y vit es inde-


pendiente de los xit ) podemos utilizar el estimador LSDV el cual incluye N − 1
variables dummy para cada efecto individual y T − 1 variables dummy para los
efectos temporales. Esto, sin embargo, consume una gran cantidad de grados de
libertad los que pueden hacer inválida la estimación.

Podemos usar no obstante, una versión modificada del estimador intra grupo
mediante una transformación que "saque"los efectos de µi y λt . Re definiendo la
transformación Q tenemos :
Q = IN ⊗ IT − IN ⊗ J T − J N ⊗ IT + J N ⊗ J T (13.36)
Esta transformación significa que el típico elemento del vector y viene dado por :
ye = (yit − y i. − y .t + y) (13.37)
donde el segundo término de la expresión a la derecha promedia a través del
tiempo ( y en consecuencia saca el efecto temporal); el tercer término promedia
entre individuos para el mismo período ( asi sacando el efecto individual); mien-
tras que la última expresión promedia los efectos entre los individuos y entre los
períodos de tiempo (recuperando la variación no explicada de los efectos individ-
uales y temporales). Aplicando esta transformación al término de error tenemos
el siguiente resultado importante :
u
eit = (uit − ui. − u.t + u.. ) = (νit − ν i. − ν .t + ν .. ) (13.38)
Podemos entonces estimar los parámetros de interés como :
βe = (X 0 QX)−1 X 0 y (13.39)
con la estimación del intercepto común como sigue :
α e ..
e = y .. − βX (13.40)
(ver Baltagi pp.28 para una derivación completa )

Prueba de Efectos Fijos

Como en el caso del one way eror component model, podemos testear por la
presencia de efectos fijos usando la prueba F estándar sobre la nula :
Ho = µ1 = · · · µn−1 = λ1 · · · λT −1 = 0 (13.41)

195
13.6.2. Modelo de Efectos Aleatorios

Ahora suponga que ambos efectos individuales y temporales son no determin-


isticos, es decir podemos tratarlas como variables aleatorias estocásticas. Podemos
asumir de que µi ∼ iid(0, σu2 ), λt ∼ iid(0σλ2 ) independiente entre cada uno de
ellas y con νit , y que µi , λt , νit son independientes de xit para todo i y t. Ahora
siendo los efectos fijos aleatorios, la varianza del término de error será :
V ar(uit ) = σµ2 + σλ2 + σν2 (13.42)
El aspecto clave de esta varianza es que siendo de nuevo homoscedástica tendrá
dos tipos de correlación serial : entre cada unidad de corte transversal (un "efecto
fijo"individual que persiste en el tiempo) y uno a través del tiempo. Así :
Cov(uij , ujs ) = σµ2 si i = j, t 6= s
Cov(uij , ujs ) = σλ2 si i 6= j, t=s
El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el
caso del modelo de one way eror component, podemos utilizar el estimador pon-
derado de Maddala en el cual tenemos dos estimadores "entre". Así existirá e
tradicional estimador Intra Grupo (usando la ecuación (38)) derivado a partir de
la aplicación del la matriz de selección Q1 ; el estimador intergrupos individual el
cual es derivado de la regresión: (y i. − y .. ) sobre (xi. − x.. ) utilizando la matriz de
selección Q2 ; y el tercer estimador intergrupos temporal el cual se deriva de la
regresión entre(y .t − y .. ) sobre (x.t − x.. ) utilizando la matriz de selección Q3 .

Definiendo WXX = X 0 Q1 X; BXX = X 0 Q2 X; CXX = X 0 Q3 X, y en forma análoga


2 2
para WXY , BXY y CXY donde además se tiene que φ22 = σλv2 ; φ23 = σλv3 ; λ2 = T σµ2 +σν2
y λ3 = nσλ2 + σv2 , Maddala (Econometrica, 1971) demuestra de que el estimador
GLS puede ser expresado mediante un rearreglo de (29) como :
βbGLS = [WXX + φ22 BXX + φ23 CXX ]−1 [WXY + φ22 BXY + φ23 CXY ] (13.43)
−1
el cual puede ser simplificado un paso más al notar de que WXX WXY es simple-
−1
mente el estimador intragrupo y que BXX BXY es el estimador integrupo indi-
−1
vidual y que CXX CXY es el estimador intergrupo temporal. Así, se tiene que la
siguiente expresión :
βbGLS = Θ1 βeW + Θ2 βeB + Θ3 βbC (13.44)
donde :
Θ1 = [WXX + φ22 BXX + φ23 CXX ]−1 WXX
Θ2 = [WXX + φ22 BXX + φ23 CXX ]−1 (φ22 BXX )
Θ3 = [WXX + φ22 BXX + φ23 CXX ]−1 (φ23 CXX )

196
A partir de lo anterior, fFinalmente se tiene que :

Si σµ2 = σλ2 = 0 implica de que φ22 = φ23 = 1 y así el estimador GLS tenderá
al OLS.

Si T y N tienden al infinito entonces esto implica de que φ22 , φ23 tiendan a


cero y así el estimador GLS tienda al estimador intra grupo.

Si φ22 (φ23 ) tienden a infinito entonces el estimador GLS tenderá al estimador


intergrupo individual (intergrupo temporal).

13.7. Extensiones

El modelo básico puede ser extendido en varias direcciones. Estas son discu-
tidas en forma extensa en el Hsiao y en Baltagi y están fuera del alcance de este
curso. Entre las mas interesantes se tiene :

Tratar la Heteroscedasticidad y Correlación Serial en Datos de Panel.

Modelos de Sistemas con Datos de Panel.

Variables con variable Dependiente Discreta en datos de panel.

Modelos de Datos de Panel Dinámicos.

197
Capítulo 14

Macroeconometría: Series de
Tiempo.

14.1. Introducción

Uno de los principales aspectos de la economía está vinculado con la relación


entre variables en el tiempo como también en cualquier punto del tiempo. Por
ejemplo, podríamos estar interesados no sólo en la relación entre el nivel de inver-
sión y la tasa de interés hoy en día sino que también la manera de cómo la tasa
de interés hoy afecta el nivel de inversión mañana. El análisis de relaciones in-
tertemporales es central en nuestra comprensión de la conducta económica como
la optimización inter temporal, aprendizaje, la conducta ante costos de ajuste, por
nombrar algunos. También resulta ser un aspecto fundamental para formalizar las
nociones de equilibrio en un sistema dinámico y los ajustes hacia dicho equilibrio.

Desde un punto de vista estadístico, una consecuencia importante de la depen-


dencia inter temporal de los fenómenos económicos es que las observaciones en
series de tiempo en una muestra no son aleatorias dado que comparten un factor
común en su generación, el tiempo. Ello a menudo merma la utilidad de méto-
dos econométricos estándar y en consecuencia estamos forzados a buscar técnicas
novedosas para poder solucionarlos. Durante las clases que restan formalizaremos
el modelamiento de relaciones en series de tiempo. En esta primera clase nos con-
centraremos en la caracterización de las relaciones en series de tiempo mientras
que en las siguientes examinaremos aspectos relacionados con el modelamiento
de relaciones en series de tiempo.

198
14.2. Resumen
1. Definiciones y terminología
2. Definición de Estacionariedad
3. Características de serie estacionarias y no estacionarias
4. Orden de integración
5. Regresión espúrea y regresiones inconsistentes
6. Testeo del orden de integración : algunas pruebas estándar
7. Testeo del orden de integración : otras pruebas mas avanzadas

14.2.1. Referencias
Enders Capítulos 1-4
Grenne Capítulo 15,18-19
Hamilton Capítulos1-3,15
Hendry Capítulos 2 y 4

14.3. Definiciones y Terminología

Comenzaremos por recordar algunos conceptos básicos. Para ello considere la


siguiente ecuación dinámica :
yt = a + b1 yt−1 + b2 yt−2 + ... + bp yt−p (14.1)
Está ecuación describirá un trayectoria convergente o divergente para yt la que
dependerá de las raíces de la ecuación característica. Las raíces, las que denom-
inaresmos por z, se obtienen a partir de la solución la siguiente ecuación carac-
terística :
c(z) = 1 − b1 z − b2 z 2 − ... − bp z p = 0 (14.2)
Si las raíces que resulten de resolver la ecuación anterior son mayores que la unidad
en valor absoluto, entonces se dice que la ecuación e estable (i.e. convergente). El
ejemplo mas sencillo es el proceso AR(1) donde la ecuación característica es :
c(z) = 1 − bz = 0 (14.3)

199
la que entrega una sola raíz igual a z = 1/b la cual es mayor que la unidad si
|b| < 1.

Considere ahora un proceso AR(2) particular, el que tiene las siguiente estructura:

yt = 0, 6yt−1 + 0, 3yt−2 + ct (14.4)

La expresión en términos del polinomial rezagado es c(L) = 1 − 0, 6L − 0, 3L2


cuya ecuación característica es :

c(z) = 1 − 0, 6z − 0, 3z 2 = 0 (14.5)

Resolviendo para las raíces z, encontramos que éstas son iguales a 1.0816 y -
3.0816 ambas mayores que uno en valor absoluto lo que significa que la serie es
convergente.

Suponga que los valores de los parámetros b1 y b2 fueran 0.5 y 0.7 respectiva-
mente, entonces las raíces serían 0.8903 y -1.6046. Ya que una de estas raíces es
menor que uno en valor absoluto entonces la ecuación sería explosiva.

En general, para procesos simples como AR(1) ó AR(2) la estacionariedad puede


ser fácilmente inferida. Por ejemplo, en un proceso AR(1) simplemente se re-
querirá de que |b| < 1( ya que la raíz es z = 1/|b| ) mientras que para un proceso
AR(2) se necesitará la condición de que

|b2 | < 1, |b1 + b2 | < 1, b2 − b 1 < 1

para que la serie sea estacionaria. Para procesos mas complejos, no podemos decir
tan fácilmente si la series será convergente o explosiva.

Una característica importante de las series de tiempo es que puede también ser
visto ya sea como una regresión sobre valores pasados con un término de error
aditivo (el AR) o como la agregación de errores pasados (el MA). Para ver esto
podemos re expresar el proceso AR(1) como :

yt = µ + γyt−1 + ²t

donde µ es la constante y ²t el término de error. Al aplicar el operador rezago L,


la ecuación anterior puede ser escrita de la siguiente forma :

yt (1 − γL) = µ + ²t (14.6)

de esta forma, al dividir la expresión anterior por (1 − γL) y notando de que si


|γ| < 1 entonces 1/(1 − γL) = (1 + γ + γ 2 + γ 3 ....γ i ). En consecuencia, el p‘roceso

200
AR(1) puede ser reexpresado de la siguiente forma :
X n
µ
yt = + γ i ²t−1 (14.7)
(1 − γ) i=o
Esto último expresa la evolución de la variable y en términos de una constante y
la historia de "innovaciones". 1

La evolución de yt claramente depende de la historia de innovaciones y en conse-


cuencia, del valor de la secuencia de γ. Si el valor de γ es menor que la unidad
entonces para progresivas potencias mas altas (i.e. rezagos mayores) el efecto de
las innovaciones va desapareciendo. Nos referiremos a este tipo de casos como
series con memoria corta.

No obstante, si el valor de γ es alto, entonces innovaciones pasadas tendrán un


mayor peso en la determinación del valor actual de yt . Nos referiremos a estos
casos como series de memoria larga. En el límite cuando γ = 1 entonces (por
conveniencia asumiendo de que µ = 0 ) podemos re expresar el proceso AR(1)
como :
yt = yt−1 + ²t (14.8)
o, a partir de (8) como :
n
X
yt = ²t−i (14.9)
i=0
de tal manera de que shocks antiguos tienen una ponderación igual en la deter-
minación del valor actual de yt . Una serie que cumple con estas características
se conoce como un paseo aleatorio (random walk). Debería resultar evidente de
que el cambio en el valor del paseo aleatorio es una serie con memoria corta :
∆yt = ²t (14.10)
Esta distinción entre series de memoria corta y series con memoria larga está
directamente relacionado con el valor de γ en el proceso AR ( i.e. con la raíz).
Esta es la principal distinción entre estacionariedad, no estacionariedad y orden
de integración.

14.4. Estacionariedad y No estacionariedad

Definición 1
Se dice que una serie es estacionaria si los momentos de la serie ( como la media
1
Notar que dado que γ es una constante, el operador rezago en el primer término desaparece.

201
y la varianza) son independientes del tiempo. No obstante, en la práctica nos con-
centraremos en los casos de estacionariedad débil, de segundo orden y covarianza.

Definición 2
Se dice de que una serie es estacionaria en covarianza si :

E(yt ) = µ ∀ t
V ar(yt ) = γ0 ∀ t (14.11)
Cov(ys , yt ) = γk

esto es, que el valor esperado de la serie no depende de t como así también su vari-
anza. Por otra parte, γk está en función de t−s pero no de t o s en forma separada.

Un caso especial de estacionariedad es el proceso de ruido blanco (white noise)


donde :
E(yt ) = 0
V ar(yt ) = σ 2 (14.12)
Cov(yt , ys ) = 0
Retornando ahora al proceso ARMA que habíamos discutido, se puede demostrar
de que un proceso ARMA es estacionario si las raíces del polinomio de rezago AR
:
(1 − γ1 L − γ2 L2 − .... − γp Lp )

caen fuera del círculo unitario. Esto es equivalente a decir de que el polinomio es
invertible. Para ver esto, el proceso ARMA (p,q) puede ser expresado como :
X X
yt = γi yt−i + θj ²t−j con θo = 1 (14.13)
i j

el cual podemos re escribir como :

γ(L)yt = θ(L)²e

donde X X
γ(L) = 1 − γi Li y θ(L) = 1 + θj Lj (14.14)
i j

los cuales son los polinomios en los componentes AR y MA respectivamente. Las


raíces del polinomio AR son simplemente el (los) valor (es) de zi que resuelven la
ecuación característica : X
c(z) = 1 − γi z i = 0 (14.15)
i

202
y, si el valor absoluto de estas raíces son cada una de ellas en forma separada
mayores que uno entonces se dice de que el polinomio es invertible y que el pro-
ceso ARMA es en consecuencia estacionario. De no cumplirse estas condiciones,
entonces la serie es no estacionaria.

14.5. Las Características de las Series Estacionar-


ias y No Estacionarias

Resulta entonces conveniente concentrarnos en la formulación AR(1) de una


serie de tiempo la cual puede ser utilizada para describir las propiedades de un
sinnúmero de series de interés para los econometristas. Veamos,

yt = αyt−1 + µt y0 ≡ 0 (14.16)

La serie será estacionaria si |α| < 1. Como se dijo, series estacionarias tienen una
varianza finita, sufren de innovaciones transitorias en torno a la media y poseen
una tendencia a volver a su valor medio. Por otra parte, como se vió, el valor de
la media es independiente del tiempo.

Una serie es no estacionaria si |α| ≥ 1 lo que implica de que tiene a lo menos una
raíz unitaria. Series no estacionarias tienen una varianza que es asintóticamente
infinita, la serie raramente cruza su valor medio ( en muestras finitas) y las inno-
vaciones en la serie son permanentes.

Un caso especial en la clase de series no estacionarias es aquel donde α = 1


Este es el paseo aleatorio el cual puede ser expresado como :

yt = yt−1 + ²t ∆yt = ²t (14.17)

Podemos resumir las principales diferencias entre las series estacionarios y no


estacionarias en la siguiente tabla.

CARACTERISTICAS ESTACIONARIA NO ESTACIONARIA


Valor de α |α| < 1 |α| ≥ 1
Promedio Serie Constante Dependiente del tiempo
Varianza Finita =σ²2 /(1 − α2 ) Infinita(asintoticamente)=tσ²2
Imnovaciones Transitorias Permanentes
Dibujo Retorna a su valor medio Se aleja de su valor medio
Orden de integracion I(0) I(1)o mayor

203
14.6. Orden de Integración

Resulta común hoy en día referirse a la estructura de una serie de tiempo en


términos de su orden de integración el cual entrega una relación directa con la
estacionariedad de una serie de tiempo.

Definición 3
Se dice que una serie está integrada de orden d si tiene una representación esta-
cionaria invertible ARMA (p,q) después de haber diferenciado la serie d veces la
cual no es estacionaria después de haber diferenciado la serie d − 1 veces. Este
tipo de series se denota xt ∼ I(d) donde d es el orden de integración.

Definición 4
Una serie integrada de orden d puede ser descrita como teniendo una repre-
sentación ARIMA (p, d, q).

Por ejemplo, una serie estacionaria se denota como una serie I(0), un paseo
aleatorio es I(1). Al diferenciar una serie I(1) se obtiene una serie que es I(0)
o estacionaria mientras que una serie que es I(2) deberá ser diferenciada dos ve-
ces para que resulte ser estacionaria. No obstante, la diferenciación de una serie
I(0) dará otra serie I(0).

Muchos datos macroeconómicos en países en desarrollo son no estacionarios. En


general, se encuentra de que ingreso real y consumo son series I(1), los precios a
menudo I(2) lo que significa de que la inflación que es la primera diferencia de la
serie de precios, es I(1). Por otra parte, tasas de interés nominales generalmente
son I(0).

14.7. Porqué importa todo esto ? : regresión es-


púrea, regresiones inconsistentes y no esta-
cionariedad

Porqué la no estacionariedad es un problema ? Fundamentalmente el proble-


ma radica en el hecho de que una serie no estacionaria, no tiene asintóticamente
varianza finita, lo que implica de que muchos de los teoremas estándar de análisis
asintóticos son inválidos ante esta situación.

204
Pero lo anterior levanta la pregunta acerca de si se extiende este problema también
para pequeñas muestras (sobre las que generalmente trabajamos). La respuesta
es si, y puede ser ilustrado con dos ejemplos. El primero de ellos es lo que se
denomina regresión espúrea y el segundo ejemplo es el problema de la regresión
inconsistente.

El problema de la regresión espúrea (discutido por Yule en 1926) surge cuando


series sin relación alguna aparecen como estando relacionadas debido al hecho de
que comparten una tendencia temporal común. Este problema puede ser ilustra-
do mediante el siguiente ejemplo producido a partir de un generador de datos
artificial.

Suponga dos series x e y, para las que se sabe que son paseos aleatorios sin
correlación alguna :
yt = yt−1 + µt µt ∼ iid(0, σµ2 ) (14.18)
xt = xt−1 + νt νt ∼ iid(0, σu2 ) (14.19)
E(µt , vs ) = 0 ∀t, s; E(µt , µt−k ) = E(vt , vt−k ) = 0 ∀k (14.20)
Este modelo asegura de que x e y son paseos aleatorios (random walks) no correla-
cionados. Consecuentemente, esperaríamos de que el coeficiente β en el modelo
de regresión :
yt = βo + β1 xt + ²t (14.21)
tienda a cero y el R2 también tienda a cero. Sin embargo esto no ocurre debido
a la raíz unitaria presente en x y en y.

Podemos ilustrar esto utilizando un experimento de Monte Carlo bajo el cual


artificialmente generamos (20) y (21) y realizamos la regresión (23). Los resulta-
dos de dicha regresión se presentan en la siguiente tabla.

Ecuacion (21)
Variable Dependiente : yt
Estimación por OLS
Muestra:1950(1)-1974(4)

VARIABLE COEFICIENTE ERROR ESTANDAR VALOR t


xt -0.4778 1.2964 -3.68
Constante 9.4917 0.4665 20.34
R2 = 0,1217 σ = 3,1429 F (1, 98) = 13, 59(0,0004) DW = 0,128

205
Es importante notar de que este problema no está relacionado con la muestra,
mas aún al aumentar el tamaño de la muestra la correlación espúrea empeora
(existe mas correlación). Problemas similares estarán reflejados en el estadístico
F el cual progresivamente rechaza la nula H0 = βo = β1 = 0.

Sin embargo, una forma para detectar la presencia de correlación espúrea es me-
diante el uso de estadísticas de autocorrelación, en particular el DW. Si no existe
ninguna relación entre las series entonces el DW tendería a converger a cero a
medida de que la muestra tienda a infinito. Cuando exista una correlación gen-
uina, entonces este estadístico tenderá a converger a un valor finito. Existe una
buena regla de aproximación para detectar correlación espúrea y es al comparar
el valor relativo entre R2 y DW . Si R2 > DW existirá una probabilidad creciente
de que exista correlación espúrea.

Por otra parte, el problema de la regresión inconsistente es un corolario direc-


to del problema anterior. Considere la regresión de una serie estacionaria sobre
una no estacionaria. Debido a que la serie no estacionaria tendrá una media de-
pendiente del tiempo entonces el valor del coeficiente de la regresión no puede ser
una constante. Considere la siguiente regresión :

yt = α0 + β1 zt + ²t (14.22)

donde y ∼ I(1), z ∼ I(0) . La siguiente tabla compara los valores de los coefi-
cientes para la regresión sobre la muestra completa y también al particionar la
muestra en dos grupos.

COEFICIENTE 1950-1960 1960-1974 1950-1974


αo 7.21 9.35 8.35
β1 -0.62 -0.21 -0.34

Las grandes diferencias en los valores de los coeficientes sobre diferentes sub mues-
tras es característico de una regresión inconsistente y es causada principalmente
por el hecho de que la variable dependiente y la variable independiente tienen
diferentes orden de integración. Claramente si se desea de que la inferencia sea
válida y no dependiente del tiempo, entonces todas las variables en el modelo
deberán tener el mismo orden de integración. Lo que nos queda, eso sí, es deter-
minar la manera de cómo se realizan estas pruebas del orden de integración de
una serie de tiempo.

206
14.8. Pruebas para el Orden de Integración de una
serie : Algunos tests estándar

Considere el siguiente DGP el cual tiene la siguiente forma :

yt = αyt−1 + µt ut ∼ (0, σ 2 ) yo ≡ 0 (14.23)

La prueba del orden de integración de una serie es simplemente probar el valor del
coeficiente α en la ecuación (23). Si este resulta ser menor que la unidad entonces
la serie es estacionaria; si es igual o mayor que uno se dice entonces que y tiene
(al menos) una raíz unitaria y es en consecuencia no estacionaria.

Esto puede ser testeado al construir una prueba de t-student contra la nula de que
H0 : α = 1. Sin embargo, cuando estamos testeando contra esta hipótesis nula
la distribución límite de esta prueba no es una distribución t-student estándar.
En la práctica la distribución es sesgada hacia la izquierda con la mayoría de su
masa menor que cero y de esta forma rechazaremos la nula demasiado a menudo.

14.8.1. La Prueba t de Dickey-Fuller para la presencia de


raíz unitaria

Dickey y Fuller (1976) reescriben la prueba en una forma de prueba t de la


siguiente manera :
∆yt = ρyt−1 + ²t (14.24)
donde ahora testeamos por la significancia de ρ contra la nula H0 : ρ = 0. Se
observa de que ρ = (α − 1) asi que la nula H0 : α = 1 es equivalente a ρ = 0. El
rechazo de la nula en favor de que ρ < 0 implica de que α < 1 lo que significa
que la serie es estacionaria. Si la nula no puede ser rechazada entonces existe
evidencia de a lo menos una raíz unitaria en la serie yt .

Suponga que no podemos rechazar la nula concluyendo de que la serie tiene


una raíz unitaria. Sin embargo, es posible de que la serie tenga mas de una raíz
unitaria. Con el fin de testear si la serie yt es exactamente I(1) en vez de I(2) o
mayor la serie yt deberá ser diferenciada una vez para sacar la raiz unitaria.

La prueba en (24) es aplicada ahora sobre ∆yt−1 y en vez que sobre yt−1 . El
rechazo de la nula confirmaría de que lo que implica de que yt ∼ I(1), en otras
palabras la serie contiene sólo una raíz unitaria. El proceso de diferenciación y

207
prueba continua hasta que la nula (revisada) sea rechazada. El número de difer-
enciaciones sobre yt requeridas para llegar a una representación estacionaria es
igual al orden de integración de la serie.

Una aspecto importante de la prueba de DF es que es una prueba no- similar lo


que significa que los valores críticos de la prueba son dependientes de la forma
del modelo bajo la nula. En particular, se consideran tres forma alternativas de
especificación :

∆yt = ρyt−1 + ²t H0 : paseo aleatorio


∆yt = µ + ρyt−1 + ²t H0 : paseo aleatorio con drift
∆yt = µ + βt + ρyt−1 + ²t H0 : paseo aleatorio con drift y tendencia determinística

Esta clase de test para la existencia de raíces unitarias se denominan test de


Dickey-Fuller. Notar de que los valores de tρ que son menores que el valor crítico
implican el rechazo de la nula de no estacionariedad. De esta forma con un tamaño
de muestra de 25 y un modelo que incluya una constante, un valor de prueba de
-3,5 representa el rechazo de la nula a un nivel de 5 por ciento (95 por ciento
de confianza) implicando de que la series es estacionaria mientras de que un
valor de -2,5 implica de que la nula no puede ser rechazada y que la serie es en
consecuencia no estacionaria conteniendo al menos una raíz unitaria. Los valores
críticos se entregan en la siguiente tabla.

208
14.8.2. Prueba de Dickey-Fuller aumentado

Una de las deficiencias del test de DF es que necesariamente asume de que el


DGP es un proceso AR(1) bajo la nula. De no ser así, entonces la autocorrelación
en el término de error sesgará el test. Con el fin de salir al paso de este problema
se puede utilizar la prueba t de Dickey-Fuller Aumentado. El ADF es idéntico al
DF estándar pero se construye en el contexto de una regresión del siguiente tipo
:
j
X
∆yt = ρyt−1 + γj ∆yt−j + ut (14.25)
j=1

La selección del largo del rezago j debe asegurar de que el término de error se
distribuye como ruido blanco. El criterio de Información de Akaike (o la prueba
de Schwartz) puede considerarse para estimar el largo óptimo del rezago en (28).

14.8.3. La Prueba F de Dickey-Fuller

La prueba t de DF se concentra sólo sobre el valor de ρ bajo la especificaciones


alternativas del modelo bajo la nula (i.e. ecuaciones (25), (26) y (27)). Es posible

209
también testear el orden de integración de una serie formalmente contra las nulas
usando una prueba F . Para ello considere los siguientes tres modelos alternativos :

Hipostesis Nula Hipotesis Alternativa Nombre Test


P P
∆yt = Jj=1 γj ∆yt−j + µt ∆yt = µ + ρyt−1 + Jj=1 γj ∆yt−j + µt Φ1
P P
∆yt = Jj=1 γj ∆yt−j + µt ∆yt = µ + δt + ρyt−1 + Jj=1 γj ∆yt−j + µt Φ2
P P
∆yt = µ + Jj=1 γj ∆yt−j + µt ∆yt = µ + δt + ρyt−1 + Jj=1 γj ∆yt−j + µt Φ3

Estas pruebas son implementadas como pruebas F restringidas estándar de la for-


ma :
(rssr − rssur )/T
Φi = ∼ FDF (r, T − k) (14.26)
(rssur /(T − k))
donde r es el número de restricciones.

La hipótesis nulas relevantes son :

Φ1 = (µ, ρ) = (0, 0) Random Walk with Drift


Φ2 = (µ, δ, ρ) = (0, 0, 0) Random Walk sin Drift y sin Tendencia
Φ3 = (µ, δ, ρ) = (µ, 0, 0) Random Walk con drift sin tendencia

Sin embargo, la prueba no se distribuyen como F estándar. Los valores críticos al


1 y al 5 por ciento se entregan en la siguiente tabla.

210
14.9. Pruebas Adicionales del Orden de Integración
de una Serie.

La prueba ADF da cuenta de la potencial no normalidad del término de error


en (23) al re especificar la regresión estimada. Una forma alternativa para probar
la presencia de raíz unitaria en una serie es al çorregir"la prueba simple t de DF
sin tener que agregar parámetros adicionales al modelo. Los mas conocidos son las
pruebas de Phillips-Perron (PP); Kwiatowski, Phillips, Schmidt, Shin (KPSS) y
la prueba de "Prueba de Razón de Varianzas"de Cochrane ( la cual no veremos).

14.9.1. Prueba No Paramétrica de Phillips Perron

La prueba de ADF trata la potencial no normalidad del error en (23) al re


especificar la ecuación de regresión estimada. Phillips y Perron (Biometrika, 1988)
proponen solucionar este problema al ajustar la prueba t básica de DF el que
considere la correlación serial y la hetroscedasticidad en los errores. Son conocida
como una corrección "no paramétrica". El caso mas sencillo es el siguiente :
yt = α + ρyt−1 + ut (14.27)
pero donde el verdadero proceso es descrito por la siguiente ecuación :
yt − yt−1 = µt = ψ(L)et (14.28)
donde ψ(L) es un polinomio estacionario y et es Gaussiano. El método de PP se
aplica de la siguiente forma :

Paso 1: Estimar α y ρ en (30) por OLS estándar, asi como también el error
estándar ρ de que se denota σp , y por OLS el error estándar de la regresión s.

Paso 2: Se deben calcular estimadores consistentes de la varianza de la me-


dia poblacional (λ2 ) y de las covarianzas poblacionales (γj ) a partir del término
de error en (30) mediante la siguiente fórmula :
T
X
−1
γ
bj = T µ
bt µ
bt−j (14.29)
t=j+1

para el caso de la auto covarianzas, y :


q
X j
b2 = γ
λ bo + 2 [1 − ]b
γj (14.30)
j>1
(q + 1)

211
para el caso de la media, usando el estimador consistente de Newey-West para la
varianza de la media muestral.

Paso 3: Estas correcciones son utilizadas posteriormente para ajustar el estadís-


tico t de DF obtenido por OLS de la siguiente forma :
1 b2
γ
bo 1/2 bo )(T σρ2 /s)
(λ − γ
Zt = ( ) t−[2 ] (14.31)
b2
λ b
λ
Este estadístico tiene ahora la misma distribución que el estadístico t de DF bajo
el caso de que el modelo estimado no tenga drift (intercepto). Los valores críticos
relevantes para el caso de que el modelo auma un drift y una tendencia temporal
son los valores críticos DF correspondientes.

212
14.9.2. La prueba de Kwiatowski, Phillips, Schmidt y Shin
(KPSS)

Hasta el momento nos hemos concentrado en pruebas donde la nula es sobre


la no estacionariedad en series de tiempo univariadas. Sin embargo, pruebas es-
tándar de raíz unitaria tienen en general poco poder contra la nula de que la serie
tiene una raíz unitaria. De esta manera, tendemos a concluir (incorrectamente)
de que la mayoría de las series de tiempo macroeconómicas aparecen teniendo
raíz unitaria.

Kwiatowski et al (Journal of Econometrics, 1992) invierten la hipótesis nula con-


siderando de que se debe rechazar a favor de que es no estacionaria. Su prueba
es muy simple.

Consideran una serie de tiempo la que consiste de tres partes fundamentales,


una tendencia determinística, una paseo aleatorio y un componente estacionario
:
yt = αt + γt + ²t ²t ∼ niid(0, σt2 ) (14.32)
donde
γt = γt−1 + νt νt ∼ niid(0, σν2 ) (14.33)
La hipótesis nula de estacionariedad es representada por la restricción de que la
varianza del paseo aleatorio es cero.
Ho = σν2 = 0 (14.34)
Bajo la nula, el proceso es estrictamente estacionario en tendencia. Mas aún, al
imponer la restricción de que α = 0 la prueba es especificada en contra de la nula
de que el proceso es estacionario en niveles.

En el caso de que la nula sea definida como estacionaria en tendencia, el es-


tadístico de prueba es calculado directamente de los residuos de la regresión deyt
sobre una constante y una tendencia :
et = yt − α b
b − βt (14.35)
donde el estadístico es definido como :
T
X
ηT = σ²2 )
(s2t /b (14.36)
t=1

donde st es la suma acumulada de los residuos.

213
En el caso donde la nula es definida como estacionaria en niveles, los residu-
os et son derivados de la regresión de yt sobre una constante solamente. El es-
tadístico de prueba es idéntico pero se denota como yµ . El estadístico de prueba
tiene los siguientes valores críticos (obtenidos de Kwiatowski et al 1992, tabla 1).

214
Capítulo 15

Introducción a la Cointegración

15.1. Introducción

En la clase anterior examinamos las características principales de datos en


serie de tiempo y consideramos los problemas que están asociados con la regresión
espúrea y el análisis de series que tienen diferentes orden de integración. En esta
clase y la siguiente consideraremos la econometría de un caso especial de series
integradas cuyas características dinámicas reflejan una relación sistemática (i.e.
no espúrea) entre las variables. Este es el caso de la cointegración.

15.2. Resumen
1. Marco general de la teoría de cointegración

2. Relaciones entre series integradas

3. La definición de cointegración : el caso bivariado

4. Pruebas de cointegración

5. Modelamiento de variables cointegradas : el modelo de correción de errores

6. Métodos para ecuaciones simples


Estimación I : proceso en dos etapas de Engle-Granger
Estimación II: relaciones de cointegración de modelos dinámicos
Estimación III : modelo de correción de errores en uniecuacional

215
7. Cointegración multivariada en modelos uniecuacionales

15.2.1. Referencias

Este material es bastante mas complejo y no está bien cubierto en los textos
clásicos. Aquí se entregan algunas referencias.

Aspectos Básicos:

R. Harris Using Cointegration Analysis in Econometric Modelling (Prentice


Hall, 1995)

A. Banerjee, J. Dolado, J. Galbraith and D.F. Hendry Cointegration, Error-


Correction, and the Econometric Analysis of Non Stationary Data (Oxford
University Press, 1993)

R. Engle and C. Granger Long-Run Economics Relationships (Oxford Uni-


versity Press, 1989)

Cointegración de sistemas

Maddala y Kim Unit Roots, Cointegration and Structural Change (Cam-


bridge University Press 1998)

Johansen (1995) reimpreso en Engle y Granger (eds)


Johansen Likelihood Based Inference in Cointegrated Vector Auto-Regresive
Models (Oxford University Press, 1995)

15.3. Marco General de la Teoría de Cointegración

El reciente énfasis en la literatura teorética sobre especificaciones dinámi-


cas ha enfatizado a la cointegración como una la forma apropiada de modelar
dinámicas macroeconómicas en series de tiempo. La teoría de cointegración tienen
propiedades atractivas tanto económicas como estadísticas. A pesar de que el prin-
cipio de la cointegración es bastante simple, sus implicancias son muy poderosas.

Primero, desde un punto de vista económico, sabemos que existen pares de datos

216
que tienden a moverse sistemáticamente parecidos en el tiempo ( por ejemplo,
consumo e ingreso, inflación y tasas de interés nominal) a pesar de que en forma
individual estas series son en su mayoría no estacionarias. La teoría económica
entrega explicaciones sobre estas equilibrios regulares (funciones de consumo, el
efecto Fisher, etc). La cointegración representa una caracterización estadística de
tales relaciones de equilibrio.

Segundo, los métodos de cointegración nos permiten capturar las relaciones de


equilibrio entre series no estacionarias (si es que dichas relaciones de equilibrio
existen) dentro de un modelo estacionario (y en consecuencia, dentro de un marco
çlásico"). Es de esta forma, un método que evita los problemas de regresión es-
púrea e inconsistente los que de otra forma ocurrirían en un modelo de regresión
con variables no estacionarias.

Tercero, a pesar de que la teoría económica tiene mucho que decir acerca de
este equilibrio, generalmente no es muy claro al explicar variaciones de corto pla-
zo con respecto a las relaciones de largo plazo. Sin embargo, es claro dado la
naturaleza de las ciencias sociales que los datos que observamos de una economía
representan constante desequilibrio - aunque asumimos de que se está movien-
do hacia un equilibrio - y que en el corto plazo, existe considerable variación en
la mayoría de los datos en series de tiempo (especialmente en aquellos para los
cuales existe mucha frecuencia, p.ej precios de acciones).

La cointegración entrega una herramienta para particionar o separar la evolución


de una serie de tiempo en dos componentes (i.e. las características del equilibrio
de largo plazo y la dinámica de los desequilibrios de corto plazo) mediante el uso
de la relación entre cointegración y los denominados modelos de corrección de
errores (o corrección de equilibrio). De esta forma esto permite la combinación
de información de corto y largo plazo en el mismo modelo, y así se resuelve parte
de los problemas y críticas asociadas con la pérdida de información que ocurre
en los intentos simples para atacar la no estacionariedad de las series de tiempo
al diferenciar las series ( como en los modelos con tasa de crecimiento).

El que la contribución de la cointegración sea importante dependerá de la nat-


uraleza de la series de tiempo macroeconomicas. Para la gran parte del período
post guerra en las economías OECD los datos parecen (en forma general) esta-
cionarios en cuyo caso las violaciones asociadas a la no estacionariedad no eran
tan serias y así las preocupaciones que ataca la cointegración tampoco eran tan
serias. Sin embargo, desde los comienzos de los 70s ha quedado en claro de que la
mayoría de los datos macroeconómicos sean probablemente no estacionarios. Esto
es particularmente cierto para los países en desarrollo. Será entonces claramente

217
ineficiente simplemente ignorar series de datos no estacionarias en la estimación
econométrica y de esta forma se hace necesario desarrollar técnicas las que cap-
turen eficientemente la información de datos no estacionarios sin sacrificar la
validez estadística del modelo.

15.4. Relaciones entre Series Integradas

Podemos pensar en una regresión bivariada como una çombinación lineal"de


dos variables. Por ejemplo, considere el modelo de regresión :

yt = α + βxt + ²t (15.1)

Los residuos de esta ecuación viene dados por :

b
²t = yt − ybt = (yt − α b t)
b − βx (15.2)

y podemos denominar esta serie b ²t como la combinación lineal de x e y. Por


conveniencia, redefiniremos la combinación lineal como zt . Existe un conjunto de
observaciones que podemos realizar con respecto al orden de integración de esta
combinación lineal.

La combinación lineal de una serie I(0) con otra series I(0) es también I(0). La
combinación lineal de dos series I(1) es también I(1). No obstante, series con un
orden superior de integración dominarán y así la combinación lineal de una serie
I(1) con una I(0) entregará una serie I(1). En términos del análisis de regresión,
la regresión de una serie I(0) con una I(1) (i.e. su combinación lineal) será no
estacionaria y en consecuencia estadísticamente inconsistente.

Podemos formalizar esta relación con la siguiente condición la que se desprende


de la definición del orden de integración de una series vista en la clase pasada

Condición 1: Series Integradas


Si yt ∼ I(d) y xt ∼ I(c) donde d y c son ordenes de integración arbitrarios, en-
tonces la combinación lineal de las dos series denominada zt = yt − a − bxt será
integrada de orden I(Max(d,c)).

218
15.5. Definición de Cointegración : el caso Bivari-
ado

Existe, sin embargo, una excepción a la regla general y este caso especial es
el de la cointegración, en el cual la combinación lineal de dos series I(1) es I(0).

Condición 2: Series Cointegradas


Si yt ∼ I(d) y xt ∼ I(c) pero si zt = (yt − α b t ) ∼ I(d − c) Entonces se dice de
b − βx
que las series xt e yt están cointegradas o cointegran. En general tratamos casos
de series I(1). Así, si la combinación lineal (i.e. los residuos de la regresión entre
y sobre x) es I(0) entonces tenemos cointegración.

La intuición informal de cointegración es bien sencilla. Si dos series no esta-


cionarias se mueven juntas en el tiempo entonces la distancia que las separa entre
ellas tendrá características estacionaras y sólo reflejará la naturaleza estocástica
del desequilibrio de los datos. Mas específicamente, esperaremos que la media de
zt sea cero y que la varianza sea constante e independiente del tiempo. Esto es
exactamente lo que deberíamos esperar si dos series se mueven conjuntamente
en una relación de equilibrio. Puesto simplemente : donde sea que x vaya en el
tiempo, y siempre la va a seguir.

15.6. Pruebas de Cointegración

La definición de cointegración sugiere inmediatamente la forma en que pode-


mos testear por ella entre dos variables : si la regresión entre dos variables I(1)
produce residuos que son estacionarios entonces ambas series cointegran.

Pruebas de cointegración son análogos directos de la prueba de Dickey y Fuller


y Sargan Bhargava Durbin Watson (SBDW) desarrolladas para el análisis de
raíces unitarias en serie de tiempo simples con la excepción que ahora las pruebas
son aplicadas a los residuos de la regresión de cointegración"de y sobre x (i.e.
zt = yt − a − bxt ). Recordando de que si y y x son I(1) entonces los residuos de
la regresión de estas series podrían ser también I(1), a menos de que las series
estuvieran cointegradas. De esta forma, si los residuos se distribuyen I(1) acepta-
mos la nula de no cointegración pero si los residuos son I(0) entonces se rechaza
la nula y acepta de que y y x cointegran. Dado que el proceso de regresión, por
definición, minimiza la variación de los residuos en torno a la media de cero, los
residuos estimados serán sesgados hacia la estacionariedad.

219
Los valore críticos de los estadísticos DF y SBDW usados para testear la coin-
tegración deberán ser entonces mayores en valor absoluto que aquellos utilizados
para testear el orden de integración de una serie univariada. Mas aún, dado de
que la regresión crea un término de error con media cero la prueba de DF de la
ecuación necesariamente asume de que no hay constante (drift).

De esta forma, deseamos que en la prueba de cointegración testeamos si la serie


zt - los residuos estimados de la regresión de cointegración se distribuyen I(1) o
I(0). Esto es equivalente a probar si ρ ≥ 1 en la ecuación :

zt = ρzt−1 + ²t Ho : ρ ≥ 1 Ha : ρ < 1 (15.3)

La prueba de Dickey-Fuller para cointegración se realiza al probar el valor de


β = (ρ − 1) en la regresión:

∆zt = βzt−1 + ²t Ho : β ≥ 0 Ha : β < 0 (15.4)

La prueba de Dickey-Fuller Aumentado es un test sobre β en la regresión :


X
∆zt = βzt−1 + γi ∆zt−i +²t i : 1....n Ho : β ≥ 0 Ha : β < 0 (15.5)

La prueba de SBDW se realiza en forma similar la que se aplica sobre los residuos
de la regresión de cointegración. La prueba tiene la siguiente forma :
P
zt − zbt−1 )2
(b
Q(bz) = P ∼ SBDW Ho : ρ ≥ 1 Ha : ρ < 1 (15.6)
zt − z)2
(b

Para la prueba SBDW valores mayores que el valor crítico reportado en las tablas
representa el rechazo de la nula. Nota : si zt es ruido blanco, el SBDW tendrá un
valor de 2.

Los valores críticos para los estadísticos se presentan en la siguiente tabla. Notar
de que la nula en todos estos test es de no cointegración (no estacionariedad en
la serie de residuos de la regresión de cointegración).

220
15.7. El Modelamiento de Relaciones de Cointe-
gración: Modelo de Corrección de Errores

El modelo de corrección de errores, el cual es una de los modelos mas poderosos,


es aplicado muy a menudo en los últimos trabajos con series de tiempo. A pesar de
que su popularidad surge del establecimiento del Teorema de Representación de
Engle-Granger, es importante mostrar de que el modelo de corrección de errores
puede ser derivado de una simple restricción sobre el coeficiente del modelo están-
dar de rezagos distribuido autoregresivo (ADL). Para ello, considere el siguiente
modelo ADL(1,1) :

yt = α0 + α1 yt−1 + β0 xt + β1 xt−1 + ²t (15.7)

Podemos restar yt−1 de ambos lados de la ecuación y agregar y restar β0 xt−1 en


la pare derecha de la ecuación. Al hacerlo, nos queda :

∆yt = α0 + (α1 − 1)yt−1 + β0 ∆xt + (β1 + β0 )xt−1 + ²t (15.8)

el cual con un poco de álgebra toma la siguiente forma :

∆yt = α0 + β0 ∆xt + (α1 − 1)(yt−1 − Kxt−1 ) + ²t (15.9)

donde K = (β0 + β1 )/(1 − α1 ). Notar que K es exactamente lo que surgiría si


elegimos resolver la relación de largo plazo entre y y x en la ecuación (7). K

221
entonces es la solución de largo plazo, o de equilibrio, en el modelo dinámico.

El modelo anterior captura tres componentes de la relación entre y y x, a saber:

(i) El impacto de corto plazo de x sobre y a través de β0

(ii) El efecto de largo plazo, o de equilibrio, a través de K

(iii) El feedback, o error de corrección del valor actual de y hacia el nivel de


equilibrio (condicional en el valor de x y K) a través de (α1 − 1) el cual es
negativo si α1 < 1.

Considere ahora las propiedades estadísticas de este modelo. Si y y x son I(1) y


si además cointegran de tal manera de que :

zt = (y − kx)t = (y − kx)t−1 ∼ I(0)

entonces podemos observar de que el modelo de corrección de errores es consis-


tente ya que :

si yt ∼ I(1) entonces ∆yt ∼ I(0)

si xt ∼ I(1) entonces ∆xt ∼ I(0) (15.10)


si y, x cointegran entonces z ∼ I(0)
Así, todos los términos en la ecuación (9) tienen el mismo orden de integración
(y este orden es cero) y en consecuencia este modelo puede estimarse utilizando
el marco clásico de regresión.

El poder del ECM yace del hecho que combina una rica intuición económica
en su forma funcional con las propiedades estadísticas deseables cuando los datos
no son estacionarios (como la mayoría de los datos macro) sin perder ningún tipo
de información valiosa de largo plazo contenida en la relación de equilibrio.

Lo anterior ha sido formalizado al interior de la teoría de cointegración por lo


que se denomina el teorema de representación de Engle-Granger

Teorema 1
Si dos series cointegran entonces será mas eficiente representarlas mediante un
modelo de corrección de errores. Mas aún, si las series cointegran y el modelo de
corrección de errores es validado, entonces está abarcará cualquier otra especifi-
cación dinámica - como el mecanismo de ajuste parcial.

222
Resulta útil notar dos elementos aquí (los que serán discutidos en detalle mas
adelante). El primero es que en comparación con un modelo de ajuste parcial,
el ECM no exhibirá el mismo nivel de multicolinealidad entre los regresores del
modelo : mientras xt y yt−1 pueden ser altamente colineales, no es esperable que
eso ocurra entre ∆xt y (yt−1 − Kxt−1 ).

El segundo es que el ECM no sufre de distorsiones al estimar el rezago promedio


como ocurre en el modelo de ajuste parcial cuando los datos no son estacionarios.
El rezago promedio en el ECM se define como (1 − β0 )/α, mientras que en el
modelo PA es α1 /(1 − α1 ) . Cuando α1 es cercano a la unidad entonces el rezago
promedio en un modelo de PA tiende al infinito sugiriendo un ajuste mucho mas
lento de lo que efectivamente ocurre en la realidad.

El modelo ECM no es nuevo habiendo existido como especificación dinámica


por largos años (Sargan 1964 fue el primero en utilizarlo). El teorema de repre-
sentación de Engle-Granger le ha entregado un poco mas de importancia a esta
representación y hoy es una especificación estándar en cualquier modelo macroe-
conómico en de series de tiempo.

15.8. La Estimación de Relaciones de Cointegración

A continuación se describen tres formas de estimar la relación de cointegración


entre dos variables.

1. El Procedimiento en Dos Etapas de Engle-Granger

Las ideas que subyacen la teoría de cointegración deben mucho al traba-


jo de Clive Granger y Rob Engle. Su ahora famoso trabajo (Çointegration
and Error Correction : Representation, Estimation and Testing", Econo-
metrica 1987) establece un proceso en dos etapas para modelar variables
cointegradas. Sin embargo, existe un sinnúmero de problemas con respecto
a esta forma - especialmente en muestras pequeñas - y será aquí explica-
do principalmente para ilustrar la esencia de la cointegración. En secciones
posteriores veremos formas alternativas para estimar las relaciones de coin-
tegración. Comenzaremos con el caso bivariado.

Paso 1: Estimar la regresión estática de cointegración utilizando OLS


yt = α + βxt + ²t (15.11)

223
y testear la presencia de cointegración. Si la cointegración es aceptada en-
tonces (11) se dice que representa la relación de largo plazo entre y y x y
el vector de parámetros (α, β) es referido como el vector de cointegración el
que contiene las relaciones de largo plazo o las elasticidades de equilibrio de
largo plazo. El vector de parámetros es único y super consistente (aspecto
que discutiremos mas adelante).

Paso 2: Calcular la combinación lineal (rezagada) a partir de (11) definida


como :
zt−1 = (yt−1 − α b t−1 )
b − βx (15.12)
la cual es una representación estacionaria de la relación del equilibrio de
largo plazo, o de cointegración, e incluya esta variable en el modelo de
corrección de error estacionario de la forma siguiente :
A(L)∆yt = B(L)∆xt + czt−1 + ut (15.13)
donde A(L) y B(L) son polinomios de rezago generales y c se conoce como
el coeficiente de corrección de error ( o corrección de equilibrio).
2. Solución de Largo Plazo para Modelos Dinámicos

A pesar de su beneficio intuitivo existen problemas con el análisis de coin-


tegración de Engle-Granger especialmente para investigadores que trabajan
con muestra pequeñas. Ello pues el vector de cointegración estimado a par-
tir de (11) es super consistente (en el sentido de que converge hacia el valor
poblacional verdadero mas rápido de que si y y x fueran I(0)) el sesgo en
muestras pequeñas puede ser muy significativo especialmente si ²t está au-
tocorrelacionado.

Un forma alternativa para atacar este problema de estimar el vector de


cointegración es mediante el uso de la solución de largo plazo de la versión
dinámica equivalente de (11)
A(L)yt = α + B(L)xt + ²t (15.14)
donde el polinomio de rezago es definido lo suficientemente largo para ase-
gurar de que ²t ∼ (0, σ 2 ). La solución de largo plazo para esta ecuación se
obtiene al definir cada valor de L en el polinomio de rezagos igual a 1 y
luego resolviendo para los valores :
α∗ = α/[A(1)] y K = [B(1)]/[A(1)] (15.15)
donde A(1) 6= 0 y A(1) y B(1) son los polinomios A(L) y B(L) evaluados
en t = 1 para todos los rezagos. El vector (α∗ , k) representa un estimador

224
alternativo del vector de cointegración.

Evidencia por simulaciones de Monte Carlo indican que este es un esti-


mador menos sesgados del verdadero vector de cointegración en muestras
pequeñas que el de Engle-Granger.

Este vector puede ser utilizado para construir una combinación lineal (reza-
gada) definida como :
0
zt−1 = (yt−1 − α∗ − Kxt−1 ) (15.16)

la cual es la representación estacionaria de una relación de cointegración.


Esta puede ser posteriormente incluida en el modelo de corrección de errores
(13) reemplazando a zt−1 .

3. El Modelo de Corrección de Errores Uniecuacional


Suponga que hemos aceptado de que yt , xt están cointegrados. Podemos
entonces escribir el modelo de corrección de errores de la siguiente forma :

∆yt = α0 + α1 ∆xt + α2 [yt−1 − α3 − α4 xt−1 ] + ²t (15.17)

Este modelo es lineal en sus variables pero no en sus parámetros dado que
la ecuación a estimar es :

∆yt = α0 + α1 ∆xt + α2 yt−1 − π1 − π2 xt−1 + ²t (15.18)

donde
π1 = α2 α3 , π2 = α2 α4
Sin embargo, existe un problema de identificación con este modelo. Sólo si
imponemos la restricción de que o bien α0 = 0 , lo que implica de que no
hay drift en la evolución de yt , o bien que α3 = 0, lo que implica de que no
existe una constante en la relación de largo plazo, podremos recuperar los

225
estimadores de la relación de largo plazo de la regresión de cointegración
al dividir los parámetros estimados π1 , π2 por α2 . Notar de que estamos
tomando ventaja de la normalización de la relación de largo plazo sobre
yt−1 .

15.9. Cointegración Multivariada

Hasta el momento nos hemos concentrado en el caso de un modelo de cointe-


gración bivariado. Sin embargo, muchas relaciones de equilibrio son multivariadas.
Por ejemplo, mientras que una función de demanda simple por importaciones del
tipo Keynesiana sugiere que M = m (Y), una especificación neoclásica sugiere
que dicha relación es del tipo M = m (y, RER). En otras palabras, es posible
que para varias variables determinen conjuntamente la evolución del equilibrio
de largo plazo de la variable dependiente. De esta manera resulta util extender el
análisis de cointegración para incorporar el caso multivariado.

No obstante, esta es una extensión no trivial dado que para un conjunto de n


variables pueden existir hasta n − 1 combinaciones lineales diferentes e indepen-
dientes que determinen conjuntamente la evolución de un conjunto de variables
en el tiempo. En el caso del modelo bivariado, n = 2 y en consecuencia si existe
cointegración entonces la relación será única.

Cuando n > 2 entonces pueden existir hasta n − 1 vectores de cointegración


entre las n variables. Si existen r vectores de cointegración linealmente indepen-
dientes, donde r < n − 1 entonces estos pueden ser representados por una matriz
π la cual es referida como la matriz de cointegración. El rango de esta matriz π
es r, denotado como el rango de cointegración.

A menudo encontramos que los investigadores asumen de que existe sólo un vec-
tor de cointegración multivariado entre las n variables. Este supuesto puede ser
derivado de la teoría. Si este supuesto es válido, entonces la relación puede ser
estimada, testeada y representada por un modelo de corrección de errores uniecua-
cional de forma similar al caso bivariado pero con mas variables. Discutiremos
esto luego; no obstante, teniendo en cuenta de que pueden existir mas de un vec-
tor de cointegración que relacione a las variables, necesitamos en consecuencia un
mecanismo que nos permita determinar el número de vectores de cointegración y
la forma de modelarlos.

226
15.10. Relaciones de Cointegración Multivariada
Uniecuacional

El método en dos etapas de Granger-Engle, el método de ADL dinámico y el


método de SEECM pueden ser generalizadios a partir del caso bivariado al multi-
variado en que el vector xt consiste en mas de un regresor I(1). Conceptualmente
no tiene nada de nuevo esta generalización, aunque como veremos, los estadísticos
de prueba tienen distribuciones diferentes. Ilustraremos este caso con el método
de Granger-Engle pero ello puede ser igualmente aplicado para los otros métodos.

El método se aplica como sigue :

(i) Evalúe individialmente las variables de interés y y los n elemento de X re-


specto a su orden de integración. Pruebe las series en niveles y en diferencias
contra la nula de no estacionariedad.

(ii) Asumiendo de que todas las variables son I(1) [o están transformadas de
I(2) a I(1)] regresione la siguiente ecuación estática :

(1) yt = α0 + α0 Xt + ²t

donde
(2) α = (α1 , α2 ...αn )
Si α define el vector de cointegración entonces α será superconsistente -
i.e. convergerán mas rápido en T que el método de OLS. Notar de que es
posible que ciertos elementos de α pueden ser cero.

(iii) Pruebe la estacionariedad de los residuos derivados de la regresión (1) uti-


lizando el conjunto estádar de tests para cointegración (SBDW, DF, ADF).
Estos tests tienen diferentes valores críticos dependiendo del número de
variables incluidas n en el vector X en la modelo de regresión estático y
también del tamaño de muestra utilizado. En la siguente tabla se presentan
dichos valores a partir del caso bivariado (n = 2) hasta n = 5.

227
No obstante, y como ya se adelantó, en el caso de regesiones multivari-
adas, el vector de cointegración no debe ser necesariamnente único dado
que pueden existir otras combinaciones lineales de las variables en el vec-
tor α0 que determinen la evolución de las variables en el vector X. De este
modo, necesitaremos alguna metodología para determinar el número de vec-
tores de cointegración. Ello lo estudiaremos en un contexto de cointregación
sistémica o de sistemas.

228
Capítulo 16

Cointegración Sistemica

16.1. Introducción

Hasta el momento nos hemos concentrado en la estimación de modelos de


corrección de errores uniecuacionales. El tema que queremos discutir en esta sec-
ción es acerca de la cointegración sistémica, es decir, aquella en que mas de dos
variables pueden estar involucradas simultáneamente.

Suponga que xt es un vector de n variables y que xt ∼ I(1). De acuerdo a lo


anteriormente discutido se tiene lo siguiente:

1. Si existe sólo un vector de cointegración entonces los modelos de cointe-


gración uniecuacionales, ya vistos como el Engle-Granger, pueden ser uti-
lizados, solamente que se deben agregar más variables a la ecuación de la
siguiente manera :

Para n=1 tenemos :

∆yt = α0 + α1 ∆xt + α2 [yt−1 − α3 − α4 xt−1 ] + ²t

con n=2

∆yt = α0 + α11 ∆xt + α12 ∆zt + α2 [yt−1 − α3 − α4 xt−1 − α5 zt−1 ] + ²t

y así sucesivamente si existen mas variables exógenas pero con la condición


de que exista solo un vector de cointegración entre las variables.

229
2. Si existen vectores de cointegarción multiples necesitamos de un método
para la estimación por sistemas y el sistema es modelado como un Vector
Error Correction Model (V ECM ). Cabe señalar que la cointegarción
de sistemas a su vez entrega un método para probar el número de vectores
de cointegarción entre los elementos de xt

Consideremos un ejemplo de tipo macroeconómico. En un modelo de Solder-


Swan, el que relaciona el Tipo de cambio nominal (e), con la Oferta de dinero
nominal (M s ) y un vector de elementos exógenos como la ayuda internacional y
los salarios reales.

De esta manera podemos tener que existe una función g que representa el equi-
librio interno de la economía la cual asocia e con M s y los salarios reales ( pwn , pwt )
el cual puede generar un vector de cointegración.

Por otra parte está el balance externo el que puede asociar las mismas variables
anteriores mas la ayuda internacional (especialmente en un país menos desarrol-
lado). Esta segunda ecuación puede generar otro vector de cointegración.

De esta manera, la dinámica de e y M s dependerá de los desequilibrios con re-


specto a las condiciones de equilibrio.
Formalmente, estas relaciones se pueden escribir de la siguiente manera :

∆et = γ1 (∆e(L), ∆H(L), ..) + µ1 (CIV − BalInt)t−1 + µ2 (CIV − BalExt)t−1 + υ1t


∆Ht = γ2 (∆e(L), ∆H(L), ...) + δ1 (CIV − BalInt)t−1 + δ2 (CIV − BalExt)t−1 + υ2t

donde L representa el operador rezago. Aquí se asume que xt ∼ I(1) con xt =


(x1t , ......xnt )0

Dado que xt es un vector de datos en series de tiempo, puede ser representa-


do como un V AR no estacionario de la siguiente forma:

V AR{I(1)} xt = π1 xt−1 + ...... + πk xt−k + ²t

Este puede ser transformado como en el caso bivariado en un V ECM estacionario


k−1
X
V ECM{I(0)} ∆xt = Γi ∆xt−i + πxt−k + ²t
i=1

P
donde k−1i=1 Γi ∆xt−i es I(0) y πxt−k es I(0) si π contiene las relaciones de coin-
tegración.

230
Por otra parte se tiene que Γi = −(I − π1 − ... − πi ) representa la dinámica
de corto plazo y π = (I − π1 − π2 − ...... − πk ) es la matriz reducida de los
parámetros de largo plazo, en donde:

π = αβ 0

Aquí, α es el vector de parámetros de corrección de errores (es decir el ajuste) y


β 0 es el vector de cointregación hasta n-1. Además π tiene rango reducido lo que
podemos expresar por
0≤r ≤n−1
esto nos entrega el número de vectores de cointegración.

16.2. El Método de Johansen

Este método es comúnmente utilizado en el caso de cointegración sistémica y


está descrito en Johansen (1985), Johansen y Juselius (1990) y también en Baner-
jee et al (1993). Esta metodología entrega la forma de determinar el número de
vectores de cointegración, su identificación y la forma de su inclusión en una esti-
mación general. No obstante, la metodología es en si muy compleja y en las líneas
que siguen se describe someramente su aplicación.

Paso 1. Examinar la forma (rango) de Π aquella que contiene información acerca


de la relación de largo plazo en niveles entre las variables. Claramente existen tres
casos posibles :

Caso 1 Si r = 0 es decir la matriz Π tiene rango cero entonces esta no contiene


vectores de cointegración β. Lo anterior implica que todas las variables son
individualmente I(1) y que no existe una relación de largo plazo entre ellas.
La única forma entonces que el proceso puede ser modelado es como un
VAR en primeras diferencias ∆xt sin relaciones de equilibrio de largo plazo.

Caso 2 Si r = n es decir que la matriz Π tiene rango completo. Lo anterior significa


que efectivamente todas las variables que componen el sistema son de hecho
I(0) y en consecuencia, el modelo es estacionario en niveles.

Caso 3 Si 0 < r ≤ n − 1 tenemos una matriz de rango reducido donde existen r


vectores de cointegración entre las n variables del sistema.

231
Paso 2 Una vez identificada la forma de la matriz Π se especifica el modelo
general de VECM, de la siguiente manera:
k X
X n
∆x1t = Γ1ij ∆xjt−1 + α11 β10 xt−k + α12 β20 xt−k + ... + α1r βr0 + ²1t
i=0 j=1
k X
X n
∆x2t = Γ2ij ∆xjt−1 + α21 β10 xt−k + α22 β20 xt−k + ... + α2r βr0 + ²2t
i=0 j=1
. =.
. =.
. =.
k X
X n
∆xnt = Γnij ∆xjt−1 + αn1 β10 xt−k + αn2 β20 xt−k + ... + αnr βr0 + ²nt
i=0 j=1

con β1 ...βr vectores de cointegracíon y α1 .....αn vectores de feedback

Paso 3 Elección del Número de vectores de cointegración. El numero de vec-


tores de cointegración es determinado por el número de valores característi-
cos(eigenvalues) significativos en le vector de variables no estacionarias.Esto de-
termina el rango de π = αβ 0 . El estadístico de máximo valor característico
εr = −T log(1 − λr ) r = 1.....n
en donde λr es el valor característico de xt .

Para ello se deberá primero ordenar de mayor a menor los εr . Así, partiendo
por el valor característico mayor, testear por el número de valores caracteristicos
de la siguiente manera:

r εr Nula Alternativa

1 ε1 H0 : r = 0 HA : r ≥ 1
2 ε2 H0 : r = 2 HA : r ≥ 2

.
.
.
n εn H0 : r = n − 1 HA : r = n

232
El número de valores característicos significativos (es decir el número de vectores
de cointegración) es determinado por la hipotesis nula más alta aceptada por los
datos.

Una vez que existen que existen r eigenvalues significativos, estos son usados
para calcular los r vectores de cointegración.

Así, si r = 2 mediante el método de Johansen tenemos que λ1 → β10 con


β11 x1t + .... + β1n xnt ∼ I(0) y λ2 → β 0 con β21 x1t + .... + β2n xnt ∼ I(0). Todas
las otras combinaciones lineales de las variables x son I(1), es decir, no cointegran.

Ahora para el caso de los feedback vector tenemos:

Ecuación Primer Segundo


CIV CIV

∆x1t α11 α21


∆x1t α12 α22
.
.
.
∆xnt α1n α2n

16.3. Ejemplo de Oferta de Dinero, Ingreso, In-


flación y Tasa de Interés

Considere el vector de variables Xt = (m, y, π, r) donde m es la cantidad de


dinero (en logs), y es el ingreso real (en logs), π es la tasa de inflación y R es
la tasa de interés. En este caso nos interesa saber la posibilidad de cointegración
entre las variables de X.

La siguiente tabla entre los valores característicos (eingelvalues) y sus estadís-


ticas asociadas.

233
r λt -Tln(1-λt 5cv. -TΣln(1-λt ) 5cv.
1 0.4186 45,01∗ 28.167 77,20∗ 53.347
2 0.2662 25,70∗ 21.894 32.19 35.068
3 0.0716 6.17 15.752 6.48 20.168
4 0.0038 0.32 9.094 0.32 9.094

Fuente : Hendry y Mizon (1990).

Leyendo la tabla desde la primera fila partimos con la nula de que la matriz
de Π tiene rango cero (H0 : r = 0) contra la alternativa de que r ≥ 1. Notamos
que el valor del estadístico es mayor que el valor crítico rechazándose la nula de
que no existen vectores de cointegración en favor de que existe a lo menos uno.

Se sigue en forma análoga hasta que ya la hipótesis nula no puede ser rechaz-
ada determinándose en consecuencia el número de vectores de cointegración. En
este caso, siguiendo el estadístico de valor crítico máximo, la tabla anterior sugiere
que hay dos vectores. Si se usa, por otra parte, el estadístico de traza se sugiere
que hay solo uno. Si bien los dos estadísticos generalmente apuntan al mismo
resultado, en este caso se favorece el que denote mas vectores.1 .

Enseguida se determinan los β y α del VECM. Los resultados de la estimación


de dichos valores para todos los valores críticos utilizando la metodología de Jo-
hansen se presentan en la siguiente tabla (normalizados sobre la diagonal).

Ecuación m−p π r y

1 1.00 5.94 0.966 -0.648


2 0.001 1.00 0.003 -0.283
3 -3.43 -25.30 1.000 1.140
4 -0.48 -0.90 -0.005 1.000

Y los vectores de feedback α son los siguientes:

1
El resultado anterior denota que el segundo vector es estacionario con un ρ cercano a 1 (i.e.
0.95)

234
Ecuación m−p π r y

1 -0.102 0.017 0.008 -0.013


2 0.025 -0.540 -0.001 -0.002
3 -0.016 -3.010 -0.098 0.089
4 0.017 0.390 -0.002 -0.029

Dado que encontramos que sólo hay dos relaciones significativas entonces nos de-
beremos focalizar en las dos primeras filas de β en la tabla anterior y en las dos
primeras columnas de α en la última tabla. En otras palabras, las dos últimas
filas y columnas respectivamente pueden ser eliminadas sin pérdida de informa-
ción relevante.

16.3.1. Identificación e interpretación de los vectores

Los vectores propios en β pueden ser interpretados como las soluciones de


largo plazo entre las variables del modelo. Los vectores son automáticamente nor-
malizados en la diagonal principal pero ello no es necesario dado que se pueden
reacomodar los términos en forma de entenderlos mejor.

De esta manera podemos interpretar el primer vector como la demanda de dinero


de la forma :
(m − p) = 0,648y − 5,94π − 0,966r + trend
Esta ecuación tiene un feedback aproximado de un 10 por ciento por período
en la demanda de dinero y virtualemnte un efecto insignificante sobre las demás
variables.

El segundo vector de cointegración puede ser interpretado como un proceso cuasi


estacionario para la inflación el cual es influenciado por desviaciones del producto
sobre la tendencia temporal (i.e. una relación del tipo Phillips).

πt = 0,283(yt − trend)

Sus efectos de feedback son un poco mas difíciles de interpretar ya que dado que
r y π no cointegran existen un feedback significativo de la relación de inflación
sobre la tasa de interés.

235
Así el V ECM queda expresado de la siguiente forma(asumiendo que el Var cor-
respondiente es xt = π1 xt−1 + µt )

∆(m − p)t = α1 + γ11 ∆πt−1 + γ12 ∆rt−1 + γ13 ∆yt−1


−0,102[(m − p)t − 0,648yt−1 + 5,94πt−1 + 0,9406rt−1 − cte11 ]
0,017[πt−1 − 0,283yt−1 − cte12 ]

∆πt = α2 + γ21 ∆(m − p)t−1 + γ22 ∆rt−1 + γ23 ∆yt−1


0,025[(m − p)t−1 − 0,648yt−1 + 5,94πt−1 + 0,946rt−1 − cte21 ]
−,540[πt−1 − 0,283yt−1 − cte22 ] + ²2t

∆rt = α3 + γ31 ∆πt−1 + γ32 ∆(m − p)t−1 + γ33 ∆yt−1


−0,016[(m − p)t−1 − 0,648yt−1 + 5,94πt−1 + 0,946rt−1 + cte31 ]
−3,010[πt−1 − 0,283yt−1 − cte32 ] + ²3t

∆yt = α4 + γ4 ∆πt−1 + γ42 ∆(m − p)t−1 + γ43 ∆rt−1


0,017[(m − p)t−1 − 0,648yt−1 + 5,94πt−1 + 0,946rt−1 − cte41 ]
0,390[πt−1 − 0,283yt−1 − cte42 ] + ²4t

236

Você também pode gostar