Escolar Documentos
Profissional Documentos
Cultura Documentos
Notas de Clases
10 de marzo de 2008
Introducción al Curso
1.1. Resumen
1. Conceptos y Metodología en Econometría
1.1.1. Referencias
D.F. Hendry Dynamic Econometrics (1995) Capítulo 1.
1
1.2. Conceptos y Metodología en Econometría
1.2.1. Objetivos
2
ser la conducta de un grupo diferente de agentes económicos o para los mis-
mos agentes pero sobre un período distinto. No obstante, la aplicación mas
común es la predicción de conductas futuras.
Una Nota de Precaución : Teoría y datos están íntimamente ligados ; los he-
chos no existen en el vacío, estos son distinguidos e interpretados por la teoría.
Los "hechos"en este caso son representados por los datos que podemos recolec-
tar. La manera en que los recolectamos, cómo medimos el fenómeno económico
inevitablemente está condicionado o guiado por la teoría, aquella que utilizamos
para especificar los modelos econométricos.
Esto produce una gran tensión dentro de la econometría dado que uno de
los objetivos es el uso de modelos econométricos y los datos para evaluar teoría
rivales como si los datos fueran independientes de la teoría. La pregunta que
continuamente los investigadores se hacen es: ¿cuál es el rol que tiene los datos en
el proceso de la comprensión económica?, ¿cómo podemos mantener el balance
entre ser fieles a la a la teoría y usar datos para “calibrar” el modelo teórico, por
una parte, y por la otra, mantenerse agnóstico acerca de la teoría y usar los datos
para refinar (o incluso definir) nuestra visión teórica del mundo?. Está tensión
está en el centro del debate metodológico en esta rama científica y aún no ha sido
resuelto.
Background. Los primeros años de la econometría (entre los 30s y los 50s)
estuvieron concentrados principalmente en asuntos relacionados con la obtención
de los estimadores, lo que , antes de la llegada de los computadores personales,
era una tarea monumental. De tal forma, la metodología econométrica de ese en-
tonces trabajaba bajo el supuesto que el modelo a estimar era conocido y además
3
era el correcto. La pobre performance de estos modelos sumado al hecho de la
fragilidad de los estimadores econométricos y las inferencias obtenidas de ellos,
representó un desafío significativo a la econometría y proveyó un estímulo para
la re-examinación de la metodología econométrica. Ya a los comienzos de los 70s
se observa un creciente cuestionamiento acerca de la metodología utilizada en la
econometría.
La filosofía subyacente a los acercamientos contemporáneos de la econometría
comienzan por revisar los cuestionamientos acerca de la “computación” al notar
que, en general, la estimación del modelo es fácil, pero que la especificación y
evaluación del modelo es difícil. De esta manera, la econometría es mas bien un
proceso de descubrimiento mas que uno de estimación y el debate econométrico
consiste en el desarrollo de un proceso eficiente de descubrimiento, diseño y eval-
uación.
Para formalizar un poco mas esta metodología distinguiremos cuatro niveles de
información disponible al investigador (Hendry, 1995, Capítulo 1)
Nivel B Teoría de Estimación donde la forma general del DGP es conocida pero
su calibración (i.e. valores de los parámetros) es desconocida. Aquí, la verosimil-
itud de todos los posibles eventos puede ser sólo inferida a partir de las observa-
ciones empíricas (datos) con la ayuda de la teoría desarrollada en el Nivel A.
4
3. simplificación del modelo sobreparametrizado
4. testeo e identificación de modelos “congruentes”
5. anidamiento de modelos rivales
5
problema analizado por el investigador). Por ejemplo, λ1 podría incluir la
propensión marginal a consumir.
El modelo ha ser estimado, que contiene sólo los parámetros de interés λ1 ,
que son un subconjunto de Θ, es obtenido mediante un proceso de factor-
ización de la distribución conjunta.
Cabe señalar que para cualquier par de variables aleatorias m y n, su dis-
tribución de probabilidades conjunta D(m,n) puede ser factorizada como:
DV (Vt |Vt−1 , Θ) = DX|W (Xt |wt , Vt−1 , φ1 )DW (wt |Vt−1 , φ2 ) (1.4)
DX (yt , zt |Xt−1 , φ) = Dy|z (yt |zt , Xt−1 , λ1 )Dz (zt |Xt−1 , λ2 ) (1.5)
6
3. Simplificación. Claramente, los procesos de marginalización y condicionamien-
to no son únicos. Estos dependerán del problema que se analice y de la
elección por parte del investigador acerca de la descomposición progresiva
del DGP hacia el modelo de condicional final. Ello, obviamente levanta la
pregunta acerca la arbitrariedad del proceso de modelamiento. La respues-
ta a esta pregunta es no, dado que cualquier arbitrariedad es controlada
de tres formas diferentes. La primera, es obviamente la teoría económica:
econometría es una herramienta para informar o probar una teoría. No im-
porta cuan “buena” pueda ser nuestra representación estadística, siempre
estaremos forzados a evaluar los modelos en términos de teoría económica.
Teoría y evidencia no son sustitutos. El segundo control viene en....
7
Recapitulando : modelamiento econométrico es un proceso iterativo donde las
primeras tres reglas de oro son “Test, Test and Test” (Hendry, 1995).
Para finalizar estas notas llegamos a lo que probablemente sea la lección mas
importante en econometría, la que puede ser resumida por la siguiente frase: “...
una diferencia puede ser importante sin que necesariamente sea significante, y
una diferencia puede ser significante sin que sea necesariamente importante ...”.
McCloskey y Ziliak (1996) resaltan lo que ellos denominan la “hipótesis alarmante”
de que “ordinariamente en economía, la significancia estadística se considera como
similar a la significancia económica”.
Consideremos el siguiente ejemplo derivado de la teoría de tasas de cambio, en
forma particular, la condición de paridad de poder de compra (PPP):
P P P : P = α + β(EP ∗ ) + ² (1.6)
donde H0 : β = 1.
Suponga que derivamos una estimación puntual de 0.95 para β. Bajo que condi-
ciones podemos rechazar / no rechazar la hipótesis nula?. La respuesta es simple
ya que disponemos de metodologías estandarizadas para construir intervalos de
confianza. Sin embargo, que significa decir que β = 0.95 no es diferente de la
unidad si T = 100 pero lo contrario si T = 1000?. Es realmente diferente de la
unidad?
Pruebas de significancia tratan solamente con errores muestrales (i.e. la precisión
de una estimación) pero altas o bajas significancias estadísticas no necesariamente
determinan cuan importante es la variable. Un valor de β = 0.95 puede ser “sufi-
cientemente cercano” para un economista que investiga, por ejemplo, índices de
estándar de vida entre países. Es claramente diferente de uno para un trader en
los mercados internacionales de divisas.
8
Capítulo 2
2.1. Resumen
1. Estimación: Conceptos Básicos
2.1.1. Referencias
Gujarati: Parte 1
Greene: Capítulos 3 y 4
Kennedy: Capítulo 2
Mukherjee:Capítulo 2
9
2.2. Introducción
Estos dos componentes serán revisados a la luz del modelo clásico de regresión
lineal, piedra angular en la econometría moderna.
2.3. Estimación
Supongamos que el parámetro de interés es Θ (el que puede ser la media, varianza,
skewness u otro momento mayor), nos referiremos al estimador como Θ̂. Cada
observación individual se denomina como una estimación de dicho estimador.
10
era, el sesgo de un estimador viene dado por:
Sesgo = [E(Θ̂) − Θ]
Convergencia en Probabilidad
Una variable aleatoria x converge en probabilidad si:
lı́m x = plimx = x∗
n→∞
11
donde x∗ es un valor arbitrario dado, el que se lee “el valor límite en proba-
bilidad es x estrella”. La probabilidad en el límite puede ser reescrita como
sigue:
lı́m P r(x∗ − ² ≤ x ≤ x∗ + ²) = 1
n→∞
El Teorema de Slutsky
Si g(x) es una función continua de x entonces:
plim g(x) = g(plim(X))
El límite de la función es la función en el límite. Notar que esta no es una
propiedad general de las funciones (p.e. Desigualdad de Jensen)1 .
El teorema de Slutsky aplicado a vectores (matrices) aleatorias como tam-
bién a escalares aleatorios es como sigue.
Si plim Wn = Ω, entonces, plim Wn−1 = Ω−1 .
d d
Si xn −→ x y plimyn = c entonces xn yn −→ cx
d d
Si xn −→ x y g(x) es cóncava entonces g(xn ) −→ g(x)
12
donde f(z) es una función límite bien definida. Lo anterior, nos permite
introducir nuestra siguiente propiedad para un estimador:
plim(θ̂) = θ
Distribución Asintótica.
Distribuciones límites son de poco uso directo cuando estamos preocupados
por las propiedades de los estimadores derivadas a partir de muestras finitas
de observaciones. En tales circunstancias haremos uso de aproximaciones a
la verdadera (pero desconocida o no computable) distribución mediante el
análisis de la distribución del estadístico a medida en que el tamaño de la
muestra tiende a infinito.
a
xn −→ f (x, n)
lı́m E(θ̂) = θ
n→∞
Teorema 1
13
Si x1 , .., xn son una muestra aleatoria y sabiendo que estas variales son idéntica e
independientemente distribuidas cada una teniendo la misma media µ y varianza
σ 2 , entonces cualquiera que sea la forma de la distribución de X , la distribución
muestral de la variable aleatoria X̄ tendrá una media igual a la media poblacional
2
µ pero con una varianza igual a σn .
sabemos que en el caso de una función lineal, el valor esperado de una suma es
igual a la suma de los valores esperados. Dado que la media de cada Xi es µ,
entonces:
1 1 nµ
E(X̄) = [E(X1 ) + ... + E(Xn )] = [µ + ... + µ] =
n n n
así, la media de la distribución muestral es igual a la media poblacional. POr otra
parte, la varianza de la media muestral es:
à n ! n
1 X 1 X
2
σX̄ = V ar(X̄) = V ar Xi = 2 V ar[ Xi ]
n i=1 n i=1
dadoPque las P
variables son independientes, sus covarianzas son cero, entonces,
V ar[ Xi ] = V ar(Xi ).
2 1 σ2
σX̄ = [V ar(X1 ) + ... + V ar(Xn )] =
n2 n
2
En resumen: si X ∼ (µ, σ 2 ) entonces X̄ ∼ (µ, σn ).
14
la que dice que la distribución límite de la media muestral es una Normal.
Existen variadas representaciones de esta última expresión. Por ejemplo, si es-
tandarizamos la variable aleatoria, la distribución límite viene dada por:
√
n(X̄ − µ) d
−→ N (0, 1)
σ
Si cada variable aleatoria tienen una media en común µ pero con varianzas difer-
entes σi2 , entonces la distribución límite viene dada por:
√
n(X̄ − µ) −→ N (0, σ¯2 )
d
el que dice que la distribución límite de la media muestral es una Normal (mul-
tivariada).
Los teoremas central del límite nos entregan una indicación acerca de las propiedades
de la distribución límite de la media muestral. Existe un último teorema funda-
mental:
15
σ2
y una varianza n
(la que tiende a cero a medida que la muestra crece infinita-
mente).
El teorema central del límite es una piedra angular en la econometría pues nos
permite basar nuestras inferencias acerca de las propiedades de la muestra bajo
el supuesto que su distribución puede ser aproximada por una Normal indepen-
dientemente de la distribución de la población. Ya que la gran mayoría de los
estimadores que se usan en econometría están basados en el TLC, observarán
estas expresiones asintóticas a menudo.
16
A5. La variable independiente X es no estocástica. X No estocástica
²i ∼ n.i.i.d(0, σ 2 )
Notar que si E(²i ) = 0 entonces se sigue que V ar(²i ) = E(²2i ) y que Cov(²i , ²j ) =
E(²i ²j ) (demostrar ).
Una característica central de estos cuatro primeros supuestos consiste en que el er-
ror es una secuencia de eventos independientes e individualmente insignificantes.
El término de error no contiene información sistemática sobre Y.
y su límite, a medida que n tiende a infinito es finito. Ello implica de que (i)
los valores de X en la muestra no puede ser iguales y que no pueden aumentar
o decrecer sin límite a medida de que la muestra crece. De ser así, entonces su
varianza no podría ser definida (£por qué? ).
17
Capítulo 3
3.1. Resumen
1. Estimación de los parámetros en el modelo CLR
2. Inferencia en el CLR
3.1.1. Referencias
Gujarati. Parte 1
Kmenta. Capítulo 6
Greene. Capítulos 4 y 5
18
3.2. Estimación del modelo Clásico de Regresión
Lineal (CLR)
Yi = α + βXi + ²i (3.1)
para la media y:
Dados los supuestos sobre los errores en el CLR, existen sólo tres parámetros
de interés : los parámetros que describen la media condicional de Y - en este
caso α y β - y los parámetros del término de error. Dado, que por definición,
² ∼ n.i.i.d(0, σ 2 ) el único parámetros desconocido es σ 2 . De esta forma, deseamos
estimar estos tres parámetros a partir de la información muestral. Examinaremos
sólo dos métodos de estimación en detalle : máxima verosimilitud (MLE) y mín-
imos cuadrados ordinarios (OLS). El tercer método de estimación, el método de
los momentos (MM), será revisado brevemente pero lo veremos mas en detalle al
final del curso.
19
posibles acerca de la estructura de este DGP.
Esta distribución de probabilidad conjunta asume que los parámetros son conoci-
dos y que los datos son variables aleatorias. Suponga que notamos que para una
muestra dada, los valores x1 son conocidos y los parámetros desconocidos. La
distribución conjunta dada la muestra puede ser expresada en términos de los
parámetros desconocidos dado los datos, de la siguiente forma:
En la función de verosimilitud, los valores de X son fijos - ellos son los que se ob-
serva en la muestra. El método de ML consiste simplemente en escoger los valores
20
de los parámetros que maximizan su valor. En otras palabras, el investigador se
pregunta “que valores de los parámetros para esta (clase de ) distribución puede
ser la mas probable de haber generado esta muestra de datos?”
Ejemplo
La muestra de observaciones X1 , X2 , ..., X10 pudo haber sido creada por cualquier
distribución de probabilidades dado que el rango se extiende desde −∞ a +∞.
Sin embargo, la probabilidad de que X1 , X2 , ..., X10 haya sido generada por la
distribución A o la distribución C es muy baja. Por otra parte, la probabilidad
de que las observaciones hayan sido generadas por la distribución B es muy alta.
Decimos que B es la distribución de máxima verosimilitud (aquella mas proba-
ble) para esta muestra de datos y que los parámetros estimados (de los momentos
) de B son los estimadores máximo verosímiles.
A B
C
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
21
dades de Z viene dada por:
¯ ¯
¯ dX ¯
¯
f (Z) = ¯ ¯ f (X), dX 6= 0
dZ ¯ dZ
¯ ¯
donde ¯ dX
dZ
¯ es el valor absoluto de la derivada de X con respecto a Z.
Por otra parte, dado que cada yi es normalmente distribuido con media α + βXi
y varianza σ 2 entonces podemos expresar cada f (yi ) (en logaritmos) como:
· ¸2
1 2 1 yi − α − βXi
logf (yi ) = − log(2πσ ) − (3.10)
2 2 σ
22
el cual es la función de verosimilitud en logaritmos para el modelo clásico de regre-
sión. A partir de aquí es sólo necesario diferenciar la función, igualar las derivadas
a cero y resolver los estimadores de ML de los parámetros. Las condiciones de
primer orden son:
n
∂log(L) 1 X
=− 2(yi − α̂ − β̂Xi )(−1) = 0 (3.12)
∂α 2σˆ2 i=1
n
∂log(L) 1 X
=− 2(yi − α̂ − β̂Xi )(−Xi ) = 0 (3.13)
∂β 2σˆ2 i=1
n
∂log(L) n 1 X
=− + (yi − α̂ − β̂Xi )2 = 0 (3.14)
∂σ 2 ˆ
2σ 2 ˆ4
2σ i=1
Resolviendo estas tres condiciones de primer orden encontramos los estimadores
máximo verosímil de los parámetros para el caso de una distribución normal
conjunta. Específicamente, de (12) y (13) podemos obtener:
n
X n
X
yi = nα̂ + β̂ Xi (3.15)
i=1 i=1
n
X n
X n
X
Xi yi = α̂ Xi + β̂ Xi2 (3.16)
i=1 i=1 i=1
Como veremos mas abajo, estos son precisamente los mismos estimadores que los
obtenidos por OLS para el CLR.
23
el que dice que la estimación MLE de la varianza es igual a la varianza muestral.
Notar que la varianza estimada por el método ML será asintóticamente insesgada
pero será sesgada para muestras pequeñas dado que la varianza muestral es de
hecho un estimador sesgado de la verdadera varianza poblacional (el estimador
insesgado de la varianza es:
n
1 X 2
σˆ2 = (ˆ
²i ) (3.20)
n − 2 i=1
y también por:
n n
∂S X ∂(yi − α − βXi )2 X
= = 2(yi − α − βXi )(−Xi ) = 0 (3.23)
∂β i=1
∂β i=1
las que son exactamente iguales a las condiciones de primer orden de los esti-
madores ML. No obstante, esto no es un resultado general : es una característica
24
del CLR. Mas tarde veremos casos donde los estimadores OLS no son los mismos
que aquellos MLE.
25
enfoque es el denominado Método General de los Momentos (GMM).
Algunas aplicaciones donde este estimador es muy útil son las siguientes:
Estos modelos los revisaremos en la segunda mitad del curso. Mientras tanto,
una introducción a nivel intuitivo. Primero, algo de notación. En general, nos
referiremos al k-ésimo momento de una variable aleatoria como:
n
1X k
mk = X
n i=1 i
E(yi ) = µ (3.25)
E(yi − µ) = 0 (3.26)
Así, µmm
ˆ es aquel valor que satisface la ecuación (27) es el estimador por mo-
mentos de µ.
26
Considere ahora el caso de CLR/OLS. Podemos imponer una condición de mo-
mentos, por ejemplo que E(Xi ²i ) = 0. El equivalente muestral es:
n n
1X 1X ˆ )=0
Xi ²i = Xi (yi − Xi0 βmm (3.28)
n i=1 n i=1
Una característica general del método de los momentos es que deben existir a
lo menos el mismo número de condiciones (independientes) de momentos (i.e.
ecuaciones) como el número de parámetros desconocidos a estimar. Suponga que
tenemos mas ecuaciones de momentos que el número de parámetros a estimar.
Si es ese el caso requeriremos un método que combine eficientemente las condi-
ciones de momentos. Este es el llamado Estimador General de Momentos
(estimador GMM) que los discutiremos en detalle mas adelante.
2. Dado que los estimadores son insesgados, entonces la media del estimador
es igual al verdadero valor del parámetro.
Características de la Varianza de α y β
27
1. La varianza aumenta con σ 2 . Mientras mayor la varianza de Y, dado los
valores de X, la estimación de los parámetros es menos precisa.
2. La varianza de α y β decrece con aumentos en la variación de X. En otra
palabras, mientras mayor variación exista en “el lado derecho” ceteris paribus
mas precisa será la estimación de los parámetros α y β. En el límite, si todos
los valores de X toman el mismo valor, la varianza será infinita.
3. La covarianza entre α y β, la cual mide la relación entre los errores mues-
trales de los dos estimadores, viene dada por la siguiente expresión:
µ 2 ¶
2 σ
Cov(α̂, β̂) = E(α̂ − α)(β̂ − β) = −X̄E(β̂ − β) = −X̄ P 2 (3.31)
xi
Un resultado clave de la relación anterior es el hecho que si la media de X
es positiva, entonces los errores muestrales de α y β están correlacionados
negativamente.
β̂ − β
β̂ ∼ N [β, σβ2 ] ⇒ ∼ N (0, 1) (3.32)
σβ
lo que dice simplemente que el estimador de β se distribuye normal, lo que im-
plica que puede ser expresado como una normal estándar. Pero ello asume que
la varianza de β es conocida....pero esto no es así y necesita en consecuencia ser
estimada. Procederemos de la siguiente forma:
28
donde S denota la desviación estándar estimada para β.
Esta regla también se aplica para la construcción de un intervalo de confianza
para el intercepto. De esta manera, el intervalo de confianza para β puede ser
escrito de la siguiente manera:
(n − 2)S 2
∼ χ2n−2 (3.36)
σ2
y de esta forma un intervalo de confianza puede ser construido a partir de la
distribución Chi-cuadrado notando que existen en este caso v = n − 2 grados de
libertad.
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
predicción media de Y
media de X Xi
29
Del gráfico podemos observar que para una observación en particular Yi = Ŷi + ²i
y (Yi − Ȳ ) = (Ŷi − Ȳ ) + ²i .
Si sumamos sobre el cuadrado de esta expresión para todas las observaciones (el
elevar al cuadrado considera en forma análoga tanto los errores positivos como
los negativos), tendremos que:
n
X n
X n
X n
X n
X
2 2 2 2
(Yi − Ȳ ) = ([Ŷi − Ȳ ]+²i ) = (Ŷi − Ȳ ) + ²i +2 (Ŷi − Ȳ )²i (3.37)
i=1 i=1 i=1 i=1 i=1
Ahora bien, dado que el tercer término puede ser expresado como:
n
X n
X n
X n
X n
X
(Ŷi − Ȳ )²i = (α̂ + β̂ X̄ − Ȳ )²i = α̂ ²i + β̂ Xi ²i − Ȳ ²i = 0 (3.38)
i=1 i=1 i=1 i=1 i=1
entonces: n n n
X X X
(Yi − Ȳ )2 = (Ŷi − Ȳ )2 + ²2i (3.39)
i=1 i=1 i=1
el que sugiere que la Suma de Cuadrados Totales (TSS) es la suma de los Suma de
los Cuadrados Explicados (ESS) mas la Suma de los Cuadrados de los Residuos
(RSS).
Finalmente, notar que:
n
X n
X n
X
2 2
ESS = (Yi − Ȳ ) = (α̂ + β̂Xi − Ȳ ) = [(Ȳ − β̂ X̄) + β̂Xi − Ȳ ]2 (3.40)
i=1 i=1 i=1
n
X n
X
2 2
ESS = [β̂(Xi − X̄)] = β̂ x2i (3.41)
i=1 i=1
De esta derivación, fácilmente se puede obtener una expresión para el coeficiente
de determinación: P
2 ESS β 2 ni=1 x2i
R = = Pn 2 (3.42)
T SS i=1 yi
donde 0 ≤ R2 ≤ 1.
30
Bajo la nula Ho: β = 0, entonces E (ESS) = σ 2 . También sabemos que E[RSS/(n−
2)] = E(S 2 ) = σ 2 .
ESS/1
Si la nula es correcta entonces el ratio RSS/(n−2)
convergerá a la unidad a medida
que n tienda a infinito.
RSS/1
∼ F1,n−2 (3.45)
ESS/(n − 2)
De esta manera podemos llevar a cabo inferencias acerca del grado de ajuste del
modelo. Esto puede ser resumido en una tabla ANOVA.
31
3.5. Teoría sobre Pruebas Econométricas
Todas las formas de pruebas o testeo que se verán en el resto del curso
pueden ser pensadas como una aplicación especial del siguiente marco de máxima
verosimilitud.
Todo test puede ser pensado como una restricción sobre los valores de los parámet-
ros. Las pruebas significan simplemente examinar si al imponer la restricción (θR )
implica una “significativa pérdida de verosimilitud” relativa al valor del parámetro
bajo la situación “no restrictiva” θM L . Del diagrama es claro que puede ser medido
de tres forma diferentes.
L(theta)
L(theta ML)
L(theta R)
C(theta)
LM
Wald
32
realizar una prueba sobre un valor restringido de uno ( o un conjunto) de parámetro
(s) , el que simplemente mide la distancia entre L(θM L ) y L(θR ). La razón de
verosimilitud se define como:
L(θˆR )
λ=
L(θMˆ L)
LR = −2log(λ) −→ χ2R (3.47)
Prueba de Wald.
Esta prueba es similar a la prueba LM y explota la característica de continuidad
de la función de verosimilitud. Supongamos que existe una función C(θ) continua,
monotónica en θ y definida de tal manera de que tenga un valor igual a cero para
los valores restringidos de los parámetros. Esta función tendrá un valor distinto
de cero para cualquier otro valor de los parámetros incluidos aquellos máximo
verosímiles sin restricción. Entonces el test de Wald se define de la siguiente
manera:
W = C(θM L )0 [V (R(θM L ))]−1 C(θM L ) → χ2R (3.49)
Donde V (R(θM L )) es una estimación consistente de la covarianza de θ evaluada
en los valores máximo verosímiles sin restringir.
Notar que:
33
2. Existen circunstancias en que la construcción de uno de estos test puede
resultar ser mas fácil comparado con los demás y ello motive su preferencia
en los casos prácticos.
3. Todas las pruebas que veremos mas adelante están basados en alguno de
estos tres tests.
34
Capítulo 4
4.1. Resumen
1. Modelos Lineales versus no-lineales
3. Multicolinealidad
35
4.1.1. Referencias
Gujarati. Secciones 6.2, 8.9 y 10
1. Modelos polinomiales
36
2. Modelos con Términos de Interacción. Suponga que el cambio en el valor
esperado de Y en respuesta a cambios en X2 es una función de X3 . Por
ejemplo, podemos pensar en Y como ganancias, X2 como el nivel de edu-
cación y X3 como la edad.
Entonces:
E(Yi ) = f (X2i , X3i )
donde:
∂E(Yi )
= g(X3i )
∂X2i
y:
∂E(Yi )
= h(X2i )
∂X3i
Esto puede ser manejado usando una variable de interacción no lineal:
∂E(Yi )
= β1 + β3 X3i
∂X2i
y:
∂E(Yi )
= β2 + β3 X2i
∂X3i
La ecuación (2) es no lineal pero puede ser redefinida como lineal si Z =
X2i X3i . Notar que al contestar la pregunta “cuál es la consecuencia de un
cambio en Y como resultado de un cambio en X2 ?” puede ser sólo respondida
al escoger explícitamente un valor de X3 (a menudo en su media a en un
valor interesante en particular).
Y ∗ = A + β 1 Z1 + β 2 Z2 + ² (4.5)
37
donde: Y ∗ = log(Y ) y A = log(α). Por otra parte, si ² ∼ N (0, σ 2 ) entonces
e² se distribuye lognormal. Entonces, si estamos interesados en estimar una
función de producción tipo Cobb-Douglas como en (4) al estimar una versión
log-lineal, estamos asumiendo que la distribución de los resultados para un
conjunto de insumos dados es log-normal !!.
log(Y ) = α + βX + ² (4.6)
Y = α + βlog(X) + ² (4.7)
Notar que la semi-elasticidad de Y con respecto a X es β(X) en la ecuación
(6) y β(1/Y ) para la ecuación (7). A diferencia del modelo log-lineal, la
semi-elasticidad no es constante.
5. Modelo Recíproco.
Y = α + β(1/X) + ² (4.8)
donde la elasticidad es :
β
− (4.9)
XY
38
Modelos Multiplicativos con errores aditivos
Modelos intrínsicamente no lineales son aquellos que no pueden ser trans-
formados en un modelo lineal en los parámetros. El modelo mas común y
básico en esta clase son aquellos en que el término de error en (3) es aditivo.
es claro que esta puede ser resuelta para los cuatro parámetros del problema,
a saber α, β1 , β2 y σ 2 . Dado que (11) es no lineal, la solución puede ser sólo
derivada al usar un algoritmo maximizador lo que no trae problemas
computacionales de magnitud.
el cual sigue siendo no lineal pero puede ser estimado (asumiendo que K y
L son no-estocásticos o si son estocásticos, son independientes de ε) usando
métodos de ML para estimar A, δ, ρ, ν, σ 2 .
39
A menudo, sin embargo, podemos hacer nuestra tarea mas fácil aún al
aproximar (13) usando una expansión de Taylor de segundo orden de Q
alrededor del valor de ρ = 0. Esto queda como sigue:
1
log(Q) = log(A)+νδlog(K)+ν(1−δ)log(L)− ρνδ(1−δ)[log(K)−log(L)]2 +ε
2
(4.14)
Esta ecuación es ahora intrínsicamente lineal la cual puede ser re escrita
como sigue:
donde:
β1
A = eβ0 , δ= , ν = (β1 + β2 )
(β1 + β2 )
y:
2β4 (β1 + β2 )
ρ=−
β1 β2
La ecuación (15) puede ser generalizada un paso mas al expandir el com-
ponente cuadrático y dar finalmente lo siguiente:
Pruebas de Linealidad
40
anidadas” propuesta por Mackinnon et al (Journal of Econometrics, 1983).
Comenzaremos por los dos modelos alternativos:
H0 : Y = α + βX + ²1 (4.17)
41
modelo lineal contra la alternativa de ser no lineal. Sin embargo, puede
resultar de mucha utilidad definir una base mas general para testear la lin-
ealidad de una forma funcional. Esto puede ser realizado al utilizar una
Transformación de Box-Cox la cual especifica un modelo de regresión
entre Y y X de la siguiente forma:
µ λ ¶ µ µ ¶
Yi − 1 Xi − 1
=α+β + εi (4.22)
λ µ
Esta es una forma muy general, pero todas las formas particulares discutidas
anteriormente pueden ser derivadas de (22) dependiendo de los valores de
λ y µ.
a) Caso en que λ = µ = 0
Pareciera como si las expresiones en Y y X fueran cero bajo esta re-
stricción, pero al usar la regla de L’Hopital tenemos que:
µ λ ¶ µ ¶
Yi − 1 d(Yiλ − 1)/dλ
lı́m = lı́m = lı́m Yiλ log(Yi ) = log(Yi )
λ→0 λ λ→0 1 λ→0
b) Caso donde λ = µ = 1
En este caso (22) colapsa en la siguiente expresión:
Debería ser claro ahora la forma en que opera este procedimiento. Por ex-
tensión tenemos que:
λ = 1 y µ = 0 genera un modelo semi logarítmico: Y = α + βlog(X) + ²
λ = 0 y µ = 1 genera un modelo semi logarítmico: log(Y ) = α + βX + ²
λ = 1 y µ = −1 genera un modelo recíproco.
Cómo podemos determinar los valores de λ y µ? La respuesta es simple-
mente estimar estos parámetros junto con los demás parámetros del mod-
elo en (22) mediante el uso de MLE y testear el valor de los parámetros
utilizando pruebas del tipo LM discutidas anteriormente (ver Davidson y
Maclinnon, 1993 capítulo 14).
42
4.3. Inclusión de Variables Irrelevantes / Omisión
de Variables Relevantes
El Valor Esperado de β2 .
Si (26) fuera correcto, entonces los estimadores de β1 y β2 serían insesgados y
eficientes. Ahora consideremos que el modelo (26) es el incorrecto y que el correcto
es (25). De (26) podemos estimar β2 (y también β1 ) como:
·Pn ¸
(X − X̄ )(Y − Ȳ )
E(βˆ2 ) = E i=1 i2 2 i
Pn 2
(4.27)
i=1 (Xi2 − X̄2 )
con: Pn
i=1 (Xi2 − X̄2 )(Xi3 − X̄3 )
d32 = Pn 2
i=1 (Xi2 − X̄2 )
el cual sugiere que si el segundo término β3 d32 es cero, entonces el estimador
obtenido en (26) sería insesgado. El mismo método se puede aplicar para el esti-
mador del intercepto β1 . Así :
43
con:
d31 = X̄3 + d32 X̄2
Notar que las expresiones d31 y d32 son, de hecho, los coeficientes mínimo cuadráti-
cos en la regresión de Xi3 (la variable omitida) sobre la variable incluida Xi2 .
Xi3 = d31 + d32 Xi2 + µi (4.31)
La varianza de β2 . (ver Kmenta p444)
La verdadera varianza de β2 viene dada por la fórmula estándar:
σ2
V ar(βˆ2 ) = E(βˆ2 − β2 ) = Pn 2
(4.32)
i=1 (Xi2 − X̄2 )
Implicaciones:
44
2. Si d32 no desaparece a medida que el tamaño de la muestra aumenta, el
estimador de β2 será también inconsistente.
3. Por extensión, la varianza estimada para β2 a partir del modelo restringido
también será un estimador sesgado e inconsistente de la verdadera varianza
de β2 .
4. Si β3 y d32 tienen el mismo signo, entonces el sesgo es positivo. De otra
forma será negativo.
La siguiente tabla resumen todos los casos posibles.
Cuadro 2: Sesgo
β3 d32 sesgo
+ + +
+ - -
- - +
- + -
45
2
Dado que 0 ≤ r23 ≤ 1 se sigue que la varianza del modelo sobreparametrizado
es mayor que aquella del modelo verdadero. La implicancia de estos es que los
parámetros estimados a partir del modelo sobreparametrizado serán estimados
con menor precisión.
4.4. Multicolinealidad
46
A partir de la estimación de los coeficientes de (33) por OLS sabemos que:
σ2 σ2
V ar(βk ) = 2
Pn = 2
(4.38)
(1 − rjk ) i=1 (Xik − X̄k )2 (1 − rjk )Skk
donde, para e caso de dos variables independientes (I.e. k = 2), r12 es la coeficiente
de correlación entre X1 y X2 , y Skk es la suma de las desviaciones al cuadrado
para la variable Xk .
2
Si la colinealidad entre X1 y X2 es perfecta, entonces r12 = 1 y la varianza de βk
es infinita. De esta manera, el modelo no puede ser interpretable dado que una
varianza infinita significa que no podemos rechazar ninguna hipótesis acerca del
verdadero valor de βk . Este es un problema en la especificación del modelo.
2
Si tenemos colinealidad alta, pero no perfecta (tal que r12 < 1), el modelo de
regresión mantiene todas las propiedades asumidas (i.e. los estimadores serán
BLUE) pero existirán serios problemas de inferencia. Esto se puede observar a
2
partir de (34) dado que r12 Será un valor alto y en consecuencia, la varianza
estimada de los parámetros del modelo será también alta y entonces la precisión
en la estimación de los parámetros se verá reducida ( a pesar de seguir siendo
BLUE). Esto es un problema de la muestra de datos.
Síntomas de la Multicolinealidad
2. Los coeficientes pueden tener grandes errores estándar (i.e. valores t pe-
queños) a pesar que la significancia conjunta de todos ellos sea alta (i.e.
ajuste por R2 ).
47
donde M2 es la matriz de residuos de la regresión de los xk sobre todos los demás
regresores en el modelo, X2 .
48
2. Transformar el modelo. Esta es a menudo, la solución en modelos de serie
de tiempo. Por ejemplo, considere el siguiente modelo:
Y = α + βX + γZ + e
∆Y = β∆X + γ∆Z + e
br = [X 0 X + rD]−1 X 0 y
La cual es menor que la varianza del estimador OLS ante la presencia de multi-
colinealidad. La elección de r dependerá si el estimador de Ridge tendrá un Error
Cuadrático Medio (MSE)menore que el de OLS.
49
Capítulo 5
1. Normalidad [ Clase 5 ]
2. Homoscedasticidad [ Clase 6 ]
50
entonces, que la distribución de las pruebas estadísticas son condicionales en el
supuesto de que la nula es que el modelo es CLR. Esto típicamente no es el caso
en problemas de la vida real donde generalmente los problemas con los supuestos
están presentes al mismo tiempo.
Parte I No-Normalidad
5.1. Resumen
1. Las consecuencias de que e 6∼ N.i.i.d para la estimación e inferencias
3. Soluciones al problema
5.1.1. Referencias
Kmenta Capítulo 8
Greene Capítulo 10
5.2. No Normalidad
51
5.2.1. Consecuencias y Aplicaciones
5.2.2. Detección
52
En consecuencia, si la variable x se distribuye normal, se debería cumplir que:
Media : E(X) = µ Primer momento
Varianza : E(X − µ)2 = σ 2 Segundo momento
E(ε3 ) = E(X − µ)3 Tercer momento (simetría)
E(ε4 ) = E(X − µ)4 Cuarto momento (kurtosis)
53
de normalidad en los errores por lo menos en muestras grandes, ya que los esti-
madores serán insesgados y consistentes. Pero si queremos correctamente carac-
terizar la distribución, tendríamos que realizar tareas adicionales.
Algunos ejemplos
Suponga que el error tiene un exceso de kurtosis positivo, teniendo “colas an-
chas”. En el caso del estimador OLS, éste dará demasiado peso en las colas de la
distribución. En otras palabras, este estimador le da demasiado peso a los eventos
que ocurren con baja probabilidad. Ello debido a que el OLS está basado en la
suma de las desviaciones al cuadrado de la regresión. Es por ello que este esti-
mador es ineficiente bajo situaciones de no normalidad.
Estimadores Robustos
54
el que entregue diferentes métodos de estimación dependiendo de la estructura
del término de error. Esta es la noción de estimador robusto. Este tipo de
estimador puede ser descrito de la siguiente forma :
n
X
mı́n µ = Θ(Y − Xβ) (5.6)
β
i=1
Regresión Cuantil
55
consideración es bueno hacer una pausa y definir de mejor manera tres conceptos
que nos pueden ayudar en el análisis del problema con los datos en un modelo de
regresión :
Comenzaremos con una medida del leverage para la observación i . Esta puede
ser definida como :
1 (Xi − X̄)2
hi = + Pn
n i=1 (Xi − X̄)
2
Para identificar un outlier podríamos ordenar los residuos por sus errores es-
tándar en el modelo (εi /S). Sin embargo, si existe un outlier este incrementará s
y en consecuencia, la desviación de ε de S se verá reducida. Para salvar este prob-
lema podemos utilizar un residuo “studientizado” el cual se define de la siguiente
manera :
εˆ
ti = pi ∼ t1
S(i) (1 − hi )
56
Donde hi es igual como se definió anteriormente y S(i) es la ecuación para el error
estándar al borrar la observación i-ésima.
bj − bj (i)
DF βji =
Se(bj )(i)
57
5.4. Apéndice
Identificación de No normalidad mediante el
uso de Estadísticas de series ordenadas
El análisis basado en orden puede ser sólo posible si los datos pueden ser re
ordenados, por ejemplo en términos creciente de acuerdo al tamaño. Esto es posi-
ble en el caso de datos de corte transversal pero no así en series de tiempo. En
estos casos podemos utilizar medidas “resistentes” como la mediana.
Outliers
Outliers como vimos, pueden afectar aquellas estadísticas que están basadas en la
media pero no así necesariamente en aquellos estadísticos mas resistentes. Existen
variadas formas de definir un outliers, pero en general podemos clasificarlas como
sigue :
Y0 es un outlier si : Y0 < Ql − 1,5IQR o bien Y0 > QU + 1,5IQR
Y0 es un outlier extremo si : Y0 < Ql − 3,0IQR o bien Y0 > QU + 3,0IQR
58
de Bowley:
bS = (QU + Ql − 2M d)/IQR
con −1 ≤ bS ≤ 1.
Tanto el IQR como la desviación estándar miden el grado de tendencia central
en una distribución. Si una variable está normalmente distribuida entonces el
IQR = 1,35σ.
Sp = IQR/1,35
con s (la desviación estándar de la serie). Pueden ocurrir entonces, tres posibili-
dades :
Sp < S Distribución mas ancha que las colas normales
Sp ≈ S Distribución normal
Sp > S Distribución mas angosta que colas normales
59
Capítulo 6
6.1. Resumen
Errores no esféricos y el Modelo de Regresion Generalizado
Heterocedasticidad-Consecuencias
Heterocedasticidad-Detección
Heterocedasticidad-Soluciones
6.1.1. Referencias
Gujarati Capítulo 11
Grenne Capítulos 14
60
6.2. Errores No Esféricos y el Modelo de Regre-
sión Generalizado
Cuando Ω 6= σ 2 I los errores del modelo general se dice que son no esféricos.
Las dos dimensiones que nos concentraremos en esta y las siguientes clases son el
de la Heterocedasticidad donde:
σ12 0 . . . 0
0 σ2 0 . . .
2
Ω= . (6.3)
0 . . . . . . ..
0 . . . . . . σn2
61
donde, a pesar de que la varianza es constante para cada valor de i la covari-
anza entre observaciones secesivas no es cero.
P 0 P = Ω−1
P Y = P Xβ + P ² (6.5)
Esta transformación asegura que (5) satisface todos los supuestos del modelo
clásico. En particular, el estimador GLS viene dado por:
βbGLS = (X 0 P 0 P X)−1 (X 0 P 0 P Y )
62
βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 Y (6.7)
Ahora es un asunto trivial demostrar que este estimador GLS es insesgado:
E(βbGLS − β)(βbGLS − β)0 = E(X 0 Ω−1 X)−1 X 0 Ω−1 ²²0 Ω−10 X(X 0 Ω−1 X)−1
GLS Factible
Si el verdadero valor o estructura de Ω es conocida (como suele suceder en la
practica), debemos entonces estimarla. Tipicamente podemos estimar la matriz
de varianza-covarianzas como una funcion de un pequeño conjunto de parametros
b y en
b = Ω(θ)
Ω = Ω(θ) Con el fin de hacer el GLS factible, nesecitamos de que Ω
consecuencia, el Estimador GLS Factible (o admisible) viene dado por:
βbGLS = (X 0 Ω
b −1 X)−1 X 0 Ω−1Y
b (6.10)
6.3. Heterocedasticidad
V ar(²2i ) = σ 2 ∀i
Dado que la medida de ²i es cero, esto implica que E(²2i ) = σ 2 para todos los i.
Violaciones de este supuesto se denominan Heterocedasticidad, y es un problema
muy recurrente en datos de corte transversal (cross-section data).
63
6.3.1. Consecuencias
Yi = α + βXi + ²i (6.11)
Sesgo
Si el termino de error en la regresión es Heterocedástico tenemos que:
=β
Resultado 1.El estimador mínimo cuadrático para β (α también) son insesgados
aún en presencia de Heterocedasticidad en término de error. BLUE
Podemos transformar la ecuacion de Heterocedasticidad (10) en una homoscedás-
tica al dividir la regresión por σi para obtener la siguiente estructura:
Yi 1 Xi ²i
= α( ) + β( ) + ( ) (6.15)
σi σi σi σi
la cual puede ser re escrita como:
Se sigue que E(²∗i ) = E(²i )/σi = 0 ; V ar(²∗i ) = V ar(²i )/σ 2 = 1 el cual es ahora
constante (i.e homoscedastico).
La ecuación (16) ahora satisface todas las propiedades del modelo de regresión
clásico. Si definimos wi = 1/σi2 entonces podemos definir los estimadores BLUE
como: Pn e i − Ye )
wi (Xi − X)(Y
e
β = i=1 Pn y e = Ye − βeX
α e (6.17)
e 2
wi (Xi − X)
i=1
64
donde: Pn Pn
i=1 (wi Xi )
e= P i=1 (wi Yi )
X n ∧ Ye = P n
i=1 wi i=1 wi
En el caso de la regresión heteroscedastica, esta formula entrega los estimadores
BLUE. En consecuencia, el estimador OLS no puede ser BLUE dado que bajo la
estimacion OLS, wi = 1 en vez de 1/σi2 .
Resultado 2.
El estimador OLS es una regresión heteroscedastica no es BLUE. Dado que los
estimadores son lineales e insesgados, se sigue que los estimadores OLS son ine-
ficientes. Los estimadores BLUE para el caso de las regresiones heteroscedasticas
son aquellos presentados en la ecuación (16) los que se conocen como estimadores
mínimos cuadráticos ponderados (WLS). Algo de intuición
OLS, por definicion entrega cada error al cuadrado una misma ponderacion (lo
cual es correcto en un mundo homoscedastico). Si existe heteroscedasticidad, el
estimador OLS entre u otorga "demasiado"peso a los errores grandes. [Sabemos
de lo anterior que el peso verdadero que deberá otorgársele a cada error es 1/wi y
a medida de que σi2 aumenta de valor 1/wi deberia disminuir. Pero OLS entrega
a todos los errores el mismo peso]. Para corregir por este problema deberiamos
darle mayor importancia a los errores menores. El estimador WLS usa informa-
cion muestral para definir estos pesos. Propiedades Asintóticas
Para probar de que los estimadores son consistentes frente al problema de la
heteroscedasticidad, necesitamos solo que chequear que la varianza del OLS de-
saparece a medida de que la muestra crece. La varianza del estimador OLS se
define como sigue:
Pn e
b = E(β − β)
V ar(β) b = E( Pi=1 Xi ²i )2
2
(6.18)
n
Xe2
i=1 i
Dado que E(²2i ) = σi2 ∧ E(²i ²j ) = 0 entonces (15) puede ser re escrito como:
Pn e 2 2
V ar(β)b = Pi=1 Xi σi (6.19)
e 2)
( ni=1 X i
65
P e2
Si tomamos el límite de (20) notamos que el límite de Xi /n es finito y que el
numerador de ambos componentes de (20) desaparecen. De esta forma, la varianza
del estimador OLS converge efectivamente a cero. Sin embargo, debe estar claro
que la varianza del estimador es, para todo tamaño de muestra, mayor que la
verdadera varianza y en consecuencia, es asintóticamente ineficiente (ver Kmenta
273-275 para prueba detallada en sobre este punto). Resultado 3.
El estimador OLS es consistente, pero es asintóticamente ineficiente.
La varianza del estimador mínimo cuadrático viene dada por la siguiente ex-
presion:
S2
Sβ2b = P (6.21)
e2
X i
Estas dos expresiones son claramente diferentes. De hecho, el sesgo (de la varianza
estimada) puede ser calculada como sigue:
P e2 P e2 P e2
b = Xi θi X i θi (u − 1) Xi θi
E(Sβ2b) − V ar(β) P e2 2 − P e2 2 = P e2 2 (6.24)
(u − 2)( Xi ) ( Xi ) (u − 2)( Xi )
66
Resultado 4.
La varianza estimada para los estimadores OLS está sesgada. Si los errores het-
eroscedasticos están positivamente correlacionados con las variables entonces el
sesgo será hacia abajo implicando un falso sentido de precisión en el modelo.
De la discusión anterior debería resultar claro que con el fin de probar que la
varianza del término de error es constante requeriremos que la hipótesis nula sea:
2
Ho : σ12 = σ22 = .......σm (m ≤ n)
Existe una variada gama de tests, cada uno con diferentes fortalezas dependiendo
de las circuntancias.
Test de Goldfeld-Quandt
Esta prueba puede ser usada solamente con datos de corte transversal. La intu-
ición detras de esta prueba es si pudiéramos ordenar todos los datos en orden
creciente dependiendo de la varianza de sus errores asociados y escogiéramos sub
muestras de diferentes partes de esta muestra, entonces las varianzas al interi-
or de cada submuestras debería ser diferente solamente en fluctuaciones bajo la
nula. Sin embargo, si la muestra es heteroscedastica entonces las varianzas entre
submuestras deberian ser significativamente diferentes.
El test de GQ se define de la siguiente manera:
S22
GQ = ∼ Fn2 −2,n1 −2 (6.25)
S12
donde Pn1
b1 − βb1 Xi )2
i=1 (Yi
−α
S12 = ∀i = 1, .....n1
n1 − 2
Pn1 +p+n2
2
b1 − βb1 Xi )2
i=n1 +p (Yi − α
S2 = ∀n1 + p + 1.....n1 + p + n2 (6.26)
n2 − 2
67
1. p es un conjunto arbitrario de los datos y puede ser escogidos por el inves-
tigador. Evidencia experimental sugiere que el 15 por ciento del medio de
la muestra debe ser desechado.
Prueba de Breush-Pagan
La prueba de BP es una aplicacion directa de la clase de test de Multiplicadores
de Lagrange introducidas en la clase 4. Aplicando la logica del LM test, si la
hipótesis nula (la restrictiva) es valida entonces la derivada de L no será signi-
ficativamente diferente de cero.
donde g es una función continua y donde las variables Z son no estocásticas, típi-
camente las variables explicaivas del modelo.
²2i
= γ0 + γ1 z1i + γ2 z2i + ....γγ zpi + vi (6.27)
b2
σ
donde ²i son los residuos de la regresión mínimo cuadrática de Y sobre X y donde
además u
X epsilon2i
b2 =
σ
i=1
n
Si definimos ESSBP como la suma de cuadrados explicada de la regresión auxiliar
entonces si la nula es válida ESSBP será pequeña y en consecuencia:
ESSBP e2
BP = ∼X[p] (6.28)
2
Debería ser claro que si la regresión auxiliar explica la evolución de ²2i (lo que
implica que los residuos no son constantes) entonces ESS será alta y BP no se
distribuirá como chi-cuadrado y en consecuencia rechazaremos la hipótesis nula
de homocedasticidad.
68
Prueba de White
La prueba de White es conceptualmente similar a la prueba de BP (y es la prueba
principal ofrecida en la mayoría de los softwares). La prueba de White define la
hipótesis nula igual que el resto de las pruebas y donde la alternativa es:
donde las variables Xi son aquellas del modelo original de Y regresionado sobre
X. Notar que la prueba de White incluye los X individualmente, el cuadrado de
cada Xi , y el producto conjunto de todas las variables Xi Xj entre sí.
Hemos visto que los Mínimos Cuadrado Ponderados (WLS) son BLUE dado
que escalamos todas las variables por la ecuación conocida del error estándar.
Sin embargo, WLS como se ha presentado, asume que el verdadero valor de σi
para todos los i, es conocido. En general esto no es conocido. Es necesario, en
69
consecuencia, estimar el valor σi a partir de la muestra de datos disponible.
Heteroscedasticididad Multiplicativa
Yi = α + βXi + ²i
²i = N (0, σi2 ) (6.31)
σi2 = σ 2 Ziδ (σ > 0, Z > 0)
Esto reduce el número de parámetros del modelo a ser estimados lo que lo hace
un estimador factible. En el caso especial en que δ = 2 y Zi = Xi , el modelo se
reduce a:
σi2 = σ 2 Xi2 (6.32)
La ecuación de regresión se hace homoscedástica al dividir el modelo por Xi lo
que resulta en la siguiente especificación:
Yi 1 ²i
( ) = α( ) + β + ( ) (6.33)
Xi Xi Xi
70
Heteroscedasticidad Aditiva
donde los ²2i son los residuos cuadrados de la regresion original (pero heteroscedas-
tica) entre Y y X y en consecuencia, vi = ²2i − σi2 . Esto nos entrega la "primera
ronda"de estimación de a,b y c.
σ a + bbXi + b
bi2 = b cXi2 (6.36)
Estos estimadores no son, sin embargo, eficientes dado que vi son heteroscedas-
ticos. En consecuencia, nesecitamos re estimar a,b y c al ajustar (35) por los
estimadores consistentes pero ineficientes de σi2 .
²2i 1 Xi Xi2
( 2
) = a( 2
) + b( 2
) + c( 2
) + vi∗ (6.37)
σ
bi σ
b1 σ
bi σ
bi
71
Podemos aplicar una versión modificada del WLS al estimar el siguiente modelo:
Yi 1 Xi
( ) = α( ) + β( ) + ²∗i (6.41)
Ybi Ybi Ybi
En todos los casos anteriores, dado que σi2 no es conocido y debe por tanto ser
estimado, existe una pérdida en la eficiencia en los estimadores. Estos estimadores
todos tienen propiedades asintóticamente deseables y a pesar de que estos esti-
madores son insesgados en muestras pequeñas, estamos menos seguros acerca de
la pérdida de eficiencia en tamaños de muestras pequeños.
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
72
Si la regresión es heteroscedastica las lineas de percentiles no serán paralelas y si
la heteroscedasticidad está relacionada con el valor de X entonces las líneas de
percentil divergirán (o convergerán) a medida que nos alejemos de la medida del
valor de X.
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
predicción media de Y
media de X Xi
En este caso, en vez de ajustar una línea (i.e. estimar una regresión) utilizando
todos los datos, podemos ajustar línes a percentiles diferentes.
el cual es igual a:
n
X
Qq = [q − f (y ≤ x0i β)] − (yi − x0i β) (6.44)
i=1
73
donde q denota el cuantil de interés y la función f (z) toma el valor de 1 si z es
verdarero, y un valor de 0 si z es falso.
Este método es discutido extensivamente en los manuales STATA. Ver la función
qreg y las diferencias que allí se citan.
74
Capítulo 7
7.1. Resumen
1. Consecuencias del supuesto de independencia
2. Autocorrelación - Detección
3. Autocorrelación - Soluciones
7.1.1. Referencias
Gujarati Capítulo 12
J. Kmenta Capítulo 8
Grenne Capítulo 15
75
E[²] = 0 E[²²0 ]² = Ω
donde Ω es una matriz cuadrada nxn positiva definida. El caso de autocorrelación
aparece cuando :
σ2 cov(²1 ²2 ) ··· ··· cov(²2 ²1 )
cov(²1 ²n ) σ2 ··· ··· cov(²2 ²n )
.. ..
0
E[²² ] = Ω = . ··· ··· ··· . = (7.2)
.. .. .. ..
. . . ··· .
cov(²2 ²1 ) ··· ··· ··· σ2
1 ρ1 ρ2 . . . ρn−1
..
ρ1 1 ... ... .
2 ..
σ ρ2 ... 1 ... .
. .. .. ..
.. . . ... .
ρn−1 ... ... ... 1
La forma de la autocorrelación será determinada por el número de elementos no
cero fuera de la diagonal en la matriz. En el caso de autocorrelación de primer
orden (la cual domina la literatura) la matriz de varianza-covarianzas tiene la
siguiente forma :
1 ρ1 0 . . . 0
.
ρ1 1 . . . . . . ..
..
Ω = σ2 0 . . . 1 . . . .
(7.3)
. .. .. .
.. . . . . . ..
0 ... ... ... 1
Como ya se había mencionado en la clase anterior, si la verdadera forma de Ω es
conocida, entonces el estimador de Mínimos Cuadrados Generallizados (GLS) es
aquel de estimador lineal insesgado de mínima varianza y tiene la siguiente forma
:
βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 y (7.4)
Si el verdadero valor de Ω es desconocido será necesario estimarlo en función de
un reducido conjunto de parámetros Ω = Ω(θ) . Con el fin de hacer GLS un
estimador factible requeriremos que Ω b , y en consecuencia, el estimador
b = Ω(θ)
GLS factible será el siguiente :
βbF GLS = (X 0 Ω
b −1 X)−1 X 0 Ω
b −1 y (7.5)
76
el cual es insesgado, consistente y asintóticamente eficiente, no obstante, no efi-
ciente en muestras finitas. Una vez mas, está falta de eficiencia proviene del hecho
que no podemos utilizar toda la información disponible para estimar Ω.
²t = ρ²t−1 + µt (7.6)
donde µ ∼ N (0, σ 2 ) . El proceso mas general de orden p de una serie puede ser
representado por la siguiente expresión [AR(p)] :
²t = µt − θµt−1 (7.8)
donde, de nuevo, µ ∼ N (0, σ 2 ). Por extensión, el proceso de medias móviles mas
general, denotado como MA(q) tiene la siguiente estructura :
En los análisis de series de tiempo nos referiremos a los términos de error como
innovaciones con el fin de reflejar el hecho de que la única información nueva
que entra al proceso está contenida en los shocks estocásticos µt que ocurren en
cada período.
77
Moviles y Autoregresivo (Auto Regressive Moving Average) denotados como mod-
elos ARMA (p,q) el cual tiene la siguiente estructura :
²t = ρ²t−1 + µt
²t = ρ(ρ²t−1 + µt−1 ) + µt
²t = ρ2 ²t−2 + ρµt + µt
.. .
. = ..
²t = ρs ²t−s + ρs−1 µt−s+1 + .........ρµt−1 + µt (7.11)
78
cada vez mayor para determinar el valor actual de ²t . Nos referiremos a estas
series como aquellas de larga memoria. En el límite cuando podemos expresar
el AR(1) como :
²t = ²t−1 + µt (7.13)
o, utilizando (12), como :
∞
X
²t = µt−i (7.14)
i=0
de tal manera que shocks antiguos tiene un peso igual a los mas nuevos en la
determinación del valor actual de ²t . Una serie de este tipo se conoce como paseo
aleatorio o random walk.
Debería quedar claro que la distinción entre series de memoria corta o larga está
directamente relacionado con el valor de ρ en el proceso AR. Esta es la principal
distinción entre una serie estacionaria de una no estacionaria, conceptos que
discutiremos en un par de clases.
yt = α + βxt + ²t (7.15)
donde
²t = ρ²t−1 + µt
y
E(µt , µs ) = 0; E(µt , ²t−1 ) = 0; con µt ∼ N (0, σµ2 )
POr otra parte, la varianza viene dada por :
var(²t ) = var(µt ) + ρ2 var(µt−1 ) + ρ4 var(µt−2 ) + ......... + ρ2n var(µt−n )
σµ2
var(²t ) =
(1 − ρ2 )
la cual, notando que (1 + ρ2 + ρ4 ...) es una serie convergente cuando ρ < 1, define
la verdadera varianza del proceso AR(1) como :
σµ2
σ²2 = (7.16)
(1 − ρ2 )
Finalmente, respecto a la covarianzas, sabemos que :
cov(²t , ²t−1 ) = E(µt + ρµt−1 + ....)(µt−1 + ρµt−1 + ...) (7.17)
= ρσµ2 + ρ3 σµ2 + ρ5 σµ2 = ρσ²2
79
Se sigue entonces dado que :
cov(²t , ²t−1 ) = ρσ 2
y, en consecuencia, PT
b =β+ t=1 xt E(²t )
E(β) PT 2
t=1 xt
Resultado 2: Dado que los estimadores OLS son insesgados para todos tipo
de tamaño de muestra finita, sabemos que el estimador será consistente.
80
7.4.2. Eficiencia
donde x∗t = (xt − xt−1 ) y x∗t−1 = (xt−1 − xt−1 ). El punto central acerca de este
estimador es que es función de ρ . Dado que el estimador OLS no es función de
este parámetro, podemos deducir fácilmente que este último, ante la presencia de
autocorrelación no es eficiente.
81
7.4.3. La varianza del estimador OLS
Finalmente, dado que sabemos que la varianza calculada del estimador OLS es:
σ2
E(Sβ2b) = PT
t=1 x2t
Entonces podemos derivar una expresión para el sesgo de la varianza del estimador
OLS como sigue :
" T T
#
σ2 2σ 2 X X
s = PT b =− P
− V ar(β) ρ xt xt−1 + ρ2 xt xt−2 + .....
2 T 2 2
x
t=1 t ( x
t=1 t ) t=2 t=3
(7.24)
Resumen
Las consecuencias para la estimación bajo OLS ante la presencia de autocor-
relaciónn en los errores son las mismas que en la situación de heteroscedasticidad.
Es, de hecho, un resultado general de tener errores no esféricos : el estimador OLS
es insesgado y consistente pero son ineficientes y asintóticamente ineficientes. Mas
aún, la varianza del estimador es sesgada y puede inducir precisión espurea en
los parámetros estimados.
82
7.5. Pruebas de Autocorrelación
donde la nula :
H0 : α1 = α2 = ..... = αp = 0
La prueba LM se calcula al regresionar los residuos de la ecuación original sobre
sus propios valores rezagados hasta un orden p (con p < n). El estadístico deriva-
do del R2 de la regresión auxiliar se distribuye chi-cuadrado bajo la nula de la
siguiente forma :
Esta es una prueba general de autocorrelación y puede ser usada como una prue-
ba diagnóstica también. Su uso se recomienda pues se puede estudiar la presencia
de autocorrelación de cualquier orden.
83
7.5.2. La prueba de Box-Pierce Q (o de Portmanteau)
PT
b
²tb
²t−k
rbk = t=k+1
Pn 2 ; k = 1, ....m (7.27)
t=1 b
²t
Al construir el estadístico Q podemos encontrar que también este tiene una dis-
tribución chi-cuadrado bajo la nula ( autocorrelación de orden m) :
Xm
Q=n rbk2 ∼ χ2m (7.28)
k=1
Bajo la nula, a medida que rho tiende a cero, el valor de d tiende a dos. En
muestras finitas, sin embargo, el DW tiene una distribución compleja la cual se
ilustra en la siguiente figura.
84
El estadístico DW entrega los valores, dependientes de la muestra, dl y dr los
cuales se ilustran en el gráfico.
Si Ll ≤ d ≤ Lu o 4 − Lu ≤ d ≤ 4 − Ll resultado inconcluso.
y donde
²t = ρ²t−1 + µt
En este caso la prueba de DW (d) no es aplicable pero sí una variante de esta
denominada la prueba h la cual ajusta la prueba d ante la presencia de variable
dependiente rezagada. El test h de Durbin tiene la siguiente estructura :
s
d n
h = (1 − ) ∼ N (0, 1)
2 1 − nSγb2
Resumen
La pruebas anteriores todas tienen propiedades asintóticas bien definidas. Sin
85
embargo, sus propiedades en muestras pequeñas o finitas no son tan buenas. En
particular, la prueba de DW tiene relativamente bajo poder mientras que la prue-
ba de LM puede ser ineficiente en muestras pequeñas. No obstante, en general la
prueba del tipo LM es preferible dado que el DW es una prueba sólo aplicable a
situaciones en que los errores tiene una autocorelación de primer orden.
βbF GLS = (X 0 Ω
b −1 X)−1 X 0 Ω
b −1 y
La forma mas común de FGLS para el caso de autocorrelación son los esti-
madores mínimo cuadrático autoregresico iterativos donde el mas cono-
cido entre ellos es el Método de Cochrane Orcutt.
Suponga que el término error está autocorrelacionado (de primer orden) en-
tonces podremos estimar consistentemente la correlación de la siguiente manera
:
PT
t=1 b
²t b
²t−1
ρb = P T
t ²2t−1
b
86
con este estimador en la mano podemos usarlo para construir la transformación
de Cochrane Orcutt ya vista :
yt = α + βxt + ²t
donde :
²t = ρ²t−1 + µt
con µt ∼ N (0, σµ2 ), E(µt , µs ) = 0, E(µt , ²) = 0
Suponga que estimamos el modelo utilizando el método de CO el que tiene la
siguiente forma :
b∗ + βx
yt∗ = α b ∗+µ b∗t
t
87
donde L es el operador rezago, entonces podremos re escribir (38) de la siguiente
manera :
(1 − ρbL)yt = α b − ρbL)xt + µ
b∗ + β(1 b∗
o bien
yt − ρbyt−1 = α b t − βbρbxt−1 + µ
b∗ + βx b∗t
El aspecto clave acerca de esta relación dinámica es que impone la restricción de
que la relación (autoregresiva) condicional entre yt y yt−1 es idéntica a la relación
(autoregresiva) condicional entre xt y xt−1 y esa relación está definida por la
relación autoregresiva entre ²t y ²t−1 . Esto es conocido como la restricción de
factor común.
Debería ser obvio que esta es una restricción muy fuerte. Pero debería también
quedar claro que es una condición que puede ser testeable. Para ver esto último
mas en detalle podemos re escribir el modelo en (40) en forma mas general de la
siguiente manera :
yt = α0 + α1 + β1 yt−1 + β0 xt + β1 xt−1 + µt
88
3. Si la restricción de factor común no es rechazada entonces re estime el
modelo (sin los valores rezagados de Y y X ) usando ALS. En otras palabras,
estime la ecuación (39).
89
Capítulo 8
Regresores Estocásticos,
Exogeneidad y Estimación por
Variables Instrumentales
8.1. Resumen
1. Violación del supuesto de regresores no estocásticos
8.1.1. Referencias
Kmenta Capítulo 8, Capítulo 9.1, 13.4
Hendry Capítulo 5
90
8.2. Introducción
El último supuesto del modelo de regresión lineal clásico asume que las vari-
ables independientes en el modelo son no estocásticas, es decir que tienen valores
fijos en muestras repetidas y las que satisfacen la condición de que :
n
1X
(xi − x)
n i=1
En la práctica, con datos reales, estos dos últimos requerimientos no son par-
ticularmente interesantes. El primero no puede ser evaluado dado que rara vez
tenemos muestras repetidas mientras que el segundo simplemente requiere que
los Xs no sean todos iguales.
Nota : generalmente asumimos que una ( y sólo una) de las Xs toma el mis-
mo valor a través de la muestra. Este es el caso de la constante.
yt = α + βxt + ²t (8.2)
91
y el valor esperado viene dado por :
T
X
b =β+ xt
E(β) E( PT
)E(²t ) (8.4)
x2t
t=1 t=1
Notar que dado que ahora xt es estocástica, no es posible sacar esta variable fuera
del valor esperado como una constante. Sin embargo, dado que asumimos inde-
pendencia entre xt e ² sabemos que E(xt ²t ) = E(xt )E(²t ) Dado que E(²t ) = 0
entonces el valor esperado del estimador es el verdadero valor del parámetro (i.e.
es insesgado).
92
" #
b = σ2E P 1
V ar(β) T
t=1 x2t
Dado que xt y ²t son independientes
PT entonces la covarianza entre ellos será cero, y
2
al cancelar el término t=1 xt del numerador y denominador nos quedamos con
la formula conocida para la varianza del estimador.
Para ilustrar este caso, considere un modelo autoregresivo, es decir uno con vari-
able dependiente rezagada.
yt = α + βyt−1 + ²t (8.10)
En este caso asumimos que la variable xt es yt−1 . Si asumimos que |β| < 1
entonces podemos sustituir reiteradamente para el valor rezagado de yt y llegar
a una expresión como la siguiente :
Como vimos en la clase pasada, esto es un modelo de media móvil con rezago
infinito el cual fue derivado de un modelo autoregresivo finito.
93
que de (11) yt−1 es una función de y0 , ²0 , ²1 , .....²t−1 pero no de ²t . Considere el
estimador mínimo cuadrático de β.
PT
b yt−1 ²t
β = β + Pt=1 T 2
(8.13)
t=1 y t−2
94
Así, el estimador es sesgado para muestras finitas. Mas aún, dado que la covari-
anza poblacional entre xt y ²t no es cero ( por definición) entonces se sigue que
: PT
plim xt ²t /T
plimβb = β + Pt=2
T
6= β (8.17)
plim t=2 x2t /T
Resultado 3 Cuando la covarianza entre xt y ²t no es cero entonces el estimador
OLS no es insesgado ni consistente. Asi la estimación uniecuacional por OLS no
es válida.
En este caso, las implicaciones para el modelamiento son que para obtener una
estimación consistente y eficiente ante este problema, se requiere de un estimador
alternativo. Los dos métodos de estimación más comunes son la Estimación por
Variables Instrumentales (vea sección 4 de estas notas) y Estimación por
Sistemas de Ecuaciones (tales como Mínimos Cuadrados en Dos Etapas, MC
en Tres Etapas, Maxima Verosimilitud con Información Completa FIML). Estos
últimos estimadores serán revisados mas adelante.
8.4. Exogeneidad
Todos los modelos econométricos son modelos condicionales del tipo de (18).
El aspecto de exogeneidad simplemente concierne a la pregunta de si la simplifi-
cación en el proceso de modelamiento logrado mediante la marginalización de la
variables no modeladas es válido. Específicamente, la esencia de la exogeneidad
95
radica en que si existe alguna pérdida de información cuando se explica yt por xt
sin necesariamente explicar xt al mismo tiempo. Si ocurre una pérdida de infor-
mación, entonces es inválido definir un modelo que condiciona en Xt ; y así xt no
es exógeno para los parámetros λ1 .
En las tres últimas clases hemos examinado casos en los cuales el término de
eror contiene "información.acerca de la evolución de yt . Cuando la fuente de esta
"información"surge de la covarianza entre xt y ²t nos referiremos a esta situación
como violación de la exogeneidad. Dependiendo del tipo de análisis condi-
cional que ha sido llevado a cabo, pueden existir tres tipos de exogeneidad.
Definición.
xt es debilmente exógena para los parámetros si yt |xt es función solamente de
λ1 y donde λ1 y λ2 son libres de variación. Exogeneidad débil es una condi-
ción necesaria para la estimación válida y eficiente de los valores desconocidos
de los parámetros en el modelo condicional. Exogeneidad débil es entonces una
condición necesaria para la econometría de ecuaciones simples o modelos uniecua-
cioinales, y la falla en establecer exogeneidad débil requiere que el investigador
utilice otros métodos para la estimación ya sea por variables instrumentales o
bien por sistemas de ecuaciones simultaneas.
96
Definición.
La no causalidad según Granger existe si y solo si :
8.4.3. Superexogeneidad
Si los parámetros del modelo condicional son invariantes ante cualquier cambio
en la distribución marginal de xt y si además xt es exógena débil para λ1 ,entonces
se dice que xt es super-exógena.
Definición
La superexogeneidad requiere que los parámetros estimados del modelo condi-
cional sean independientes de las variaciones en el proceso marginal que produce
xt , así:
∂λ1
=0 (8.19)
∂D(xt |Xt−1 ; λ2 )
Considere, por ejemplo, un modelo donde la demanda por activos reales está
condicionada por el nivel de precios. Suponga que los precios están determinados
por el control que tiene el gobierno sobre la oferta monetaria, y bajo un cambio en
97
las autoridades, la autoridad monetaria a cambiado su política (i.e. el nuevo go-
bierno instituye los regímenes de crédito del FMI) y en consecuencia la conducta
de los agentes cambia como resultado de este cambio en el régimen político: Así,
los precios en este modelo no son superexógenos para los parámetros del modelo
condicional.
98
de Granger es una prueba F para la significancia de agregar la historia de yt a xt .
Y = Xβ + ² (8.21)
99
Bajo la condición de que X 0 ² es la matriz nula, llegamos a la formula estándar
de OLS.
βOLS = (X 0 X)−1 X 0 Y (8.24)
Sin embargo, si X 0 ² no es cero el βOLS será sesgado (por un monto (X 0 X)−1 X 0 ²).
Este es exactamente el problema donde los regresores del modelo son estocásticos
(y no independientes). Suponga, sin embargo, que existe una variable la cual tiene
las siguientes propiedades :
100
Resultado 4 Cuando Cov(X, ²) 6= 0 y el estimador OLS es sesgado e inconsis-
tente, un estimador IV será consistente pero no eficiente.
Notar que si pensamos el modelo en (21) como una regresión múltiple donde
el supuesto de Cov(X, ²) = 0 se mantiene para alguna de las variables, entonces
esos elementos de X no necesitarán instrumentos. Ellos son sus propios instru-
mentos.
La mayoría de los datos son medidos con algún grado de error tanto en corte
transversal como en series de tiempo. Por ejemplo :
(i) datos sobre consumo y ahorro son medidos típicamente como residuos de
datos de ingreso nacional y en consecuencia, contiene errores en la medida
de otros componentes.
(ii) En datos sobre balanza de pagos, los flujos de capital son usualmente me-
didos parcialmente pero también incluye errores en la medidas de cuentas
de comercio (las que son producto, por ejemplo, de declaraciones mal real-
izadas) .
(iii) En datos de corte transversal, la gente a menudo reporta sólo parte de su
ingreso (por miedo a impuestos adicionales) o bien pueden sistemáticamente
sub o sobre reportar el consumo de ciertos bienes.
(iv) En encuestas las firmas pueden sub reportar ganancias y sobre exagerara
impuestos pagados respondiendo de manera de satisfacer al encuestador.
Adicionalmente, ellos a menudo responderán en una forma que ellos piensen
que puedan influir en reformas a la política económica en forma beneficiosa
para ellos.
101
Todos estos factores sugieren que el tema del error en la medida de variables es
un aspecto muy común en los trabajos prácticos.
Y = βX ∗ + ² + ν (8.33)
E(²) = E(ν) = 0
Cov(x∗i , ²i ) = 0
Cov(x∗i , νi ) = 0
Cov(²i , νi ) = 0
102
donde x∗ representa desviaciones de la media.
103
y por tanto
β
plimβb = h 2
σµ
i
1+ σx2
Dado que hemos supuesto de que a medida de que n tiende a infinito, no existe
correlación entre los términos de error ² y µ y entre ² y µ y el verdadero valor de
X, es decir X ∗ . Si σµ2 > 0 entonces βb es inconsistente y el sesgo es hacia abajo.
W = α + βE + ² (8.43)
Sin embargo, suponga que la relación entre educación y escolaridad puede ser
descrita como sigue :
E =S+µ (8.44)
así, la ecuación estimada será :
W = α + βS + υ (8.45)
donde υ = [² − βµ]
104
El aspecto importante de este modelo es que a pesar de que µ tenga media cero,
varianza constante, serialmente independiente y no correlacionado con el error
compuesto υ, este error no es independiente de S. Para ver esto, asumiendo de
que E(υ) = 0 podemos examinar la covarianza entre υ y S:
donde ² = ρ²t−1 + νt
Estos modelos entregan estimadores sesgados e inconsistentes dado que yt−1 está
estocásticamente relacionada con el término de error ya que :Cov(yt−1 , ²t−1 ) 6= 0
La estimación IV puede entregar estimadores que aunque sesgados son consis-
tentes. En este caso particular, existe una elección obvia de instrumento: el valor
rezagado del regresor exógeno (i.e. no estocástico) en el modelo,xt−1 .
105
8.6.4. Los Parámetros de un Sistema de Ecuaciones Si-
multáneas
q d = α1 p + α2 y + ²d (8.48)
q S = β1 p + ²s
qd = qs = q
Se asume que :
E(²dt ) = E(²st ) = 0
E(²2dt ) = σd2
E(²2st ) = σs2
E(²st , ²dt ) = 0
E(²st , yt ) = E(²dt , yt ) = 0 (8.49)
Cov(p, ²d ) = 0
106
sesgados para los parámetros de p en la ecuación estructural con el fin de estimar
la elasticidad precio de la demanda a partir de una ecuación de q regresionada
sobre p y y. Mas aún, el estimador OLS es también inconsistente de tal manera
que el problema no puede ser solucionado al aumentar el tamaño de la muestra.
Bajo la nula tanto βbOLS como βbIV son insesgados y consistentes, pero el estimador
OLS es eficiente (y BLUE en el caso del modelo lineal) mientras que el estimador
IV es ineficiente (ver (29)). Bajo la hipótesis alternativa, sólo βbIV es consistente.
Así, resulta relativamente simple construir una prueba en torno a este hecho.
En consecuencia, deseamos probar la nula de que :
H = plim[βbOLS − βbIV ] = 0 (8.53)
107
de la nula.
donde W es una prueba del tipo Wald la que se distribuye chi-cuadrado con k
grados de libertad donde k es el número de parámetros que han sido estimados.
Notar de que para realizar esta prueba necesitamos ambos estimadores, el OLS
y el IV.
Sobreidentificación
Si hay menos instrumentos que variables explicativas endógenas entonces el mod-
elo está sub-identificado (i.e. el estimador IV no existe). Si existe el mismo
número de instrumentos que las variables problema, el modelo está identifica-
do exactamente. Si hay mas instrumentos que los necesarios, el modelo está
sobre-identificado. Esta última situación es muy atractiva. Sobre identificación
entregará generalmente un mayor grado de precisión en los estimadores pero
también entrega la oportunidad de llevar adelante pruebas sobre la validez de los
instrumentos.
108
Multiples Instrumentos
Si Z es un instrumento válido y W también es un instrumento válido entonces
una combinación lineal entre Z y W también será un instrumento válido. Dado
que, a partir de (29) la varianza del estimador IV es menor mientras mayor es el
grado de correlación entre el instrumento y la variable que se está instrumentan-
do, entonces debería resultar claro de que deberíamos elegir aquella combinación
lineal que tenga la mas alta correlación con X. Este instrumento es simplemente
el valor ajustado de X regresionado sobre Z y W
Pruebas de Sobre-identificación
Suponga que tenemos Z (n x k’) instrumentos donde X es una matriz (n x k) con
k’>k. Si definimos la matriz de proyección como :
Pz = Z(Z 0 Z)−1 Z 0
Entonces el estimador IV es :
109
Si la nula es rechazada ello implica que los instrumentos juegan un rol directo so-
bre Y , en vez de simplemente a través de su rol de predecir X y en consecuencia,
deberían ser regresores en el modelo en vez de ser tratados simplemente como
instrumentos.
110
Capítulo 9
Sistemas de Ecuaciones:
Endogeneidad y Modelos de
Sistemas de Ecuaciones
9.1. Resumen
1. Introducción a los Sistemas de Ecuaciones
2. El Problema de la Identificación
3. Sistemas Especiales:
Modelo de Regresión Aparentemente no Relacionadas (SUR)
Sistemas Recursivos
4. Estimación
Métodos de Estimación con Información Limitada (ILS y 2SLS)
Métodos de Estimación con Información Completa (3SLS y FIML)
9.1.1. Referencias
Kmenta Capítulo 13
Bernt Capítulo 10
Gujarati Capítulo 17
Grenne Capítulo 20
111
9.2. Introducción
112
9.3. Introducción a los Sistemas de Ecuaciones
La segunda forma bajo la cual el sistema en (1) puede ser expresado es referi-
da como la forma reducida la cual expresa la variables endógenas del modelo
solamente en función de las variables exógenas y el término de error. La forma
reducida se deriva al premultiplicar (2) por B −1 y al rearreglar obtenemos :
yt = −B −1 Γxt + B −1 ²t
yt = Πxt + υt (9.3)
La parámetros de la forma reducida corresponden a multiplicadores asociados con
el modelo. En otras palabras, ellos miden las consecuencias últimas en la variables
endógenas del modelo de una perturbación en las variables exógenas del modelo,
una vez que todos los efectos simultáneos de feed back entre las variables han
operado en el sistema.
113
la cual es la matriz de varianzas-covarianzas de la forma reducida del
sistema en (1).
1. ¿Cuáles estimadores son válidos para estimar un sistema con una estructura
como la definida en (3) ?
2. Habiendo estimado los parámetros de la forma reducida del modelo, (i.e. la
ecuación (3)), ¿es posible recuperar los parámetros de las ecuaciones en el
modelo estructural ?.
Existen a lo menos tres situaciones que podemos encontrar con respecto al sistema
que estamos estimando. Una ecuación puede estar :
114
La identificación es el problema análogo en estadística. Es importante notar que
el concepto de identificación se aplica ecuación por ecuación y así se puede en-
contrar el caso de que una ecuación esté completamente identificada y que otras
ecuaciones del mismo sistema no lo estén.
qd = α0 + α1 p + ²d (9.5)
qs = β0 + β1 p + ²s
p = π0 + υt (9.6)
q = π1 + ω t
(β0 −α0 ) (²s −²d ) (α1 β0 −α0 β1 ) (α1 ²s −β1 ²d )
donde π0 = (α1 −β1 )
, υt = (α1 −β1 )
, π1 = (α1 −β1 )
y ωt = (α1 −β1 )
qd = α0 + α1 p + α2 y + ²d
qs = β0 + β1 p + ²s (9.7)
p = π0 + π1 y + υt
q = π2 + π3 y + ω t (9.8)
(β0 −α0 ) α2 (α1 β0 −α0 β1 ) α2 β1
donde π0 = (α1 −β1 )
, π1 = (α1 −β1 )
, π2 = (α1 −β1 )
, π3 = (α1 −β1 )
,
(²s −²d ) (α1 ²t −β1 ²d )
υt = (α1 −β1 )
, y ωt = (α1 −β1 )
115
Las ecuaciones estructurales en (7) tienen 5 coeficientes estructurales (α0 , α1 , α2 , β0 , β1
) pero sólo cuatro coeficientes existen el la forma reducida (π0 , π1 , π2 , π3 ). Sin em-
bargo, es posible identificar exactamente la función de oferta dado que podemos
obtener a partir de los coeficientes de la forma reducida lo siguiente :
β0 = π2 − β1 π0 β1 = ππ13
p = π0 + π1 y + π2 pt−1 + υt (9.10)
q = π3 + π4 y + π5 pt−1 + ωt
Donde ahora existen 6 coeficientes estructurales y 6 coeficientes reducidos. Ahora
ambas ecuaciones pueden ser identificadas (demostrarlo)
116
No obstante, podemos formalizar el proceso de identificación para sistemas de
ecuaciones de cualquier dimensión. Existen dos condiciones para identificación,
la condición de orden, la cual es una condición necesaria, y la condición de
rango, la cual es una condición suficiente. La razón de porqué no sólo tratamos
la condición de rango es que es generalmente fácil chequear la condición de orden
pero es mas tedioso chequear la de rango).
Caso A : K = 0
Caso B K = 1
117
Caso C K = 2
Caso D K = 3
Así en un sistema con sólo dos variables endógenas, una ecuación estará identifi-
cada si dicha ecuación excluye una o mas variables las cuales están presentes en
otra parte en el modelo. La condición de orden es, no obstante, una condición
necesaria pero puede que no sea suficiente. Lo anterior pues las variables pre-
determinadas excluidas de la ecuación en análisis pero presente en otra aparte
del sistema puede que no sea independiente. Una forma de chequear esto es me-
diante el uso de la condición de rango.
Ejemplo
y1t − β10 − β12 y2t − β13 y3t − γ11 x1t = µ1t (9.13)
y2t − β20 − β23 y3t − γ21 x1t − γ22 x2t = υ2t (9.14)
y3t − β30 − β31 y3t − γ31 x1t − γx2t = υ3t (9.15)
yt4 − β40 − β41 y1t − β42 y2t − γ43 x3t = υ4t (9.16)
118
No es tan obvio al solo mirar el sistema si las cada una de las ecuaciones están
identificadas o nó. Veamos la condición de orden. Notar que M=4 y K=3.
Ecuación 1 y1 y2 y3 y4 x1 x2 x3
(13) −β10 1 −β12 −β13 0 −γ11 0 0
(14) −β20 0 1 −β23 0 −γ21 −γ22 0
(15) −β30 −β31 0 1 0 −γ31 −γ32 0
(16) −β40 −β41 −β42 0 1 0 0 −γ43
El determinante de esta matriz es cero lo que implica que la ecuación (13) no está
identificada. El rango de la matriz de coeficientes excluidos determina el número
de variables independientes excluidas de la ecuación en cuestión pero incluidas
en el resto del sistema. Debería quedar claro cómo esto está relacionado con la
condición de orden. Las condiciones de orden determinan el número de variables
explicativas excluidas de la ecuación mientras que la condición de rango determi-
na si estas son variables independientes.
119
Continuando con el chequeo de la condición de rango podemos notar que (14)
y (15) también fallan el la prueba de rango (pruébelo usted mismo) pero (16)
tiene rango completo. Así, (16) excluye y3 , x1 y x3 y en consecuencia, la matriz
de coeficientes de variables excluidas correspondiente es :
−β13 −γ11 0
A = −β23 −γ12 −γ22 (9.18)
1 −γ31 −γ32
La cual tiene rango 3 que es igual a M-1. Entonces (16) está exactamente identi-
ficada.
Suponga que una ecuación no está identificada. Qué deberíamos hacer ?. Ex-
iste una variada gama de posibilidades las que son a menudo utilizadas. La prin-
cipales son las siguientes :
120
efectos de la tecnología de aquellos efectos derivados de los retornos a la
escala. Una solución adoptada es imponer retornos constantes a la escala
en la función de producción para poder así identificar los efectos de la
tecnología.
Es claro de que pueden existir una gran variedad de restricciones que pueden
ser empleadas para identificar un modelo. La elección acerca de la restricción
para la identificación impuesta sobre la forma reducida es arbitraria pero gen-
eralmente basada en aspectos teóricos (o por la desesperación!). Sin embargo, las
consecuencias ( en un sentido estadístico ) al imponer una condición en particu-
lar pueden ser testeadas usando una prueba de Razón de Verosimilitud (LR test).
121
. (9.19)
.
ytm + γ1m xt1 + .......γkm xtk = ²tm
donde los valores del vector X varía a través de los m miembros. El aspecto clave
de este sistema es que pareciera que fuese un conjunto apilado de modelos de
regresión clásicos dado que en cada ecuación y es una función sólo de variables
exógenas. Sin embargo, podemos estimar (19) utilizando OLS sólo bajo la condi-
ción de que no exista covarianzas entre ecuaciones en la estructura de error del
sistema. En otras palabras, asumimos que :
σ11 σ12 . . . . . . σ1m
σ21 . . . . . . . . . σ2m
. .. .. .. ..
E(²²0 ) = Σ = .. . . . . = (9.20)
. . . . .
.. .. .. .. ..
σm1 . . . . . . . . . σmm
σ11 0 0 0 0
0 σ22 0 0 0
.. ..
0 0 . 0 . = σi2 I
. .. .. .. ..
.. . . . .
0 0 0 0 σmm
No obstante, si existe una restricción entre ecuaciones entonces la estimación OLS
del sistema no es aplicable y debemos utilizar un FGLS. El estimador FGLS que
se utiliza en este caso se denomina Estimador de Ecuaciones Aparentemente NO
Relacionadas (SURE).
βbsure = [X 0 Σ
e −1 X]−1 X 0 Σ
e −1 y (9.21)
122
9.6. Sistemas Recursivos
y2t = β20 + β21 y1t + γ21 x1t + γ22 x2t + n2t (9.23)
y3t = β30 + β31 y1t + β32 y2t + γ31 x1t + γ32 x2t + u3t (9.24)
Asumiremos lo siguiente :
Dado que (22) contiene sólo variables exógenas las cuales no están correlacionadas
con el término de error, el modelo está acorde con uno de regresión clásico y puede
ser estimado por OLS. Ahora bien, dado que (23) solo contiene a y1t y x vari-
ables, entonces también puede ser estimado por OLS si y solo sí Cov(y1t , u2t ) = 0
. Esto es de hecho verdadero ya yit que está correlacionado con u1t pero ( por
definición)u1t no está correlacionado con u2t . Así, podemos decir que y1t está
pre-determinado con respecto a y2t . En este caso, podemos también utilizar OLS.
La misma lógica se aplica a (24) pues podemos mostrar que y1t , y2t ambos están
pre-determinados con respecto a y3t .
9.7. Estimación
123
simultánea, la que se conoce como Estimación con Información Completa.
(i) muchos modelos son extremadamente grandes. Por ejemplo, el modelo del
Banco Central Inglés (UK Treasury Model) tiene alrededor de 300 ecuaciones, así
la estimación del sistema completo es un poco compleja tanto del punto de vista
estadístico como también del computacional.
(iii) Si una de las ecuaciones está mal especificada, el uso de métodos con in-
formación limitada no permite que este error se propague al resto de las estima-
ciones. Por el contrario, si se utilizan métodos con información completa, un error
de especificación en una ecuación se propagará a todo el sistema.
Este método sólo se puede aplicar a modelos que están exactamente identifi-
cados. El método de ILS es muy simple y sigue la discusión del problema de la
identificación. Si una ecuación está exactamente identificada entonces podemos
encontrar los estimadores de la forma reducida los que son insesgados y luego
consistentes. A partir de ellos podremos obtener los parámetros estructurales los
que serán, sin embargo, segados pero consistenmtes. El procedimiento es como
sigue :
(i) Obtenga las ecuaciones de la forma reducida del modelo donde cada ecuación
para las variables endógenas son función solamente de las variables exógenas.
(ii) Estime las ecuaciones de la forma reducida por OLS en forma individual.
Dado que todas las variables independientes de la forma reducida son exógenas,
por definición plimcov(X, u) = 0, y así el estimador por ILS entregará estimadores
consistentes de los coeficientes de la forma reducida (asumiendo que otros prob-
124
lemas de especificación están ausentes).
(iii) Dado que las ecuaciones están exactamente identificadas, los coeficientes
estructurales pueden ser recuperados directamente de los coeficientes de la forma
reducida.
Paso 1
Las ecuaciones de la forma reducida son las siguientes :
Pt = Π0 + Π1 Xt + ωt (9.27)
Qt = Π2 + Π3 Xt + vt (9.28)
donde :
β0 − α0 (α1 β0 − α0 β1 )
Π0 = Π2 =
(α1 − β1 ) (α1 − β1 )
−α2 −α2 β1
Π1 = Π3 = (9.29)
(α1 − β1 ) (α1 − β1 )
A partir de estos coeficientes podemos derivar los coeficientes de la función de
oferta donde :
Π3
β0 = Π2 − β1 Π0 β1 =
Π1
No obstante, no es posible derivar valores únicos para α0 , α1 , α2
Paso 2
A partir de (27) y (28) los parámetros de la forma reducida pueden ser estimados
como sigue :
P
b Xt Pt b0 = P − Π b 1X
Π1 = P 2 lo que implica −→ Π (9.30)
Xt
P
b 3 = PXt Qt
Π lo que implica −→ Π b2 = Q − Π b 3X (9.31)
Xt2
Estos coeficientes son consistentes los que pueden ser utilizados para derivar esti-
madores consistentes de los coeficientes estructurales (sólo de la función de oferta).
125
Es importante notar que a pesar de que los estimadores ILS son consistentes
ellos son sesgados. Veamos esto para el caso de βb1 . De (30) y (31) después de un
poco de algebra tenemos que :
b3 P
Π Qt X t
βb1 = = P (9.32)
b
Π1 Pt Xt
b 1 Xt + (ωt − ω)
Pt = Π b 3 Xt + (vt − v)
Qt = Π
c3 P X 2 + P(vt − v)Xt
Π c3 + P(vt − v)Xt / P X 2
Π
βb1 = P
t
P ⇒ βb = P P
t
(9.33)
c1 Xt + (ωt − ω)Xt
Π 2 c1 + (ωt − ω)Xt / Xt2
Π
Si las ecuaciones del sistema están sobre identificadas (recuerden que esto puede
ser bastante posible), ILS no puede ser usado dado que no existirá un único
método para derivar las ecuaciones estructurales. Obviamente OLS no puede ser
utilizado pues los estimadores serán inconsistentes. Un estimador alternativo es
el estimador mínimo cuadrático en dos etapas (2SLS) el cual es una versión de el
Estimador por Variables Instrumentales.
y1t = β10 + β12 y2t + γ11 x1t + γ12 x2t + u1t (9.34)
y2t = β20 + β21 y1t + u2t (9.35)
126
Paso 1
Para superar el problema de la correlación entre y1t y u2t regresionamos y1t so-
bre todas las variables exógenas y pre determinadas del sistema. Así corremos la
siguiente regresión :
y1t = Π0 + Π1 x1t + Π2 x2t + et (9.36)
Esto produce :
b0 + Π
yb1t = Π b 1 x1t + Π
b 2 x2t (9.37)
A partir de (36) y (37) tenemos que :
Paso 2
Ahora podemos sustituir el lado derecho de (38) en la ecuación original, sobre
identificada (35) de tal manera que tenemos lo siguiente :
Primero, a pesar de ser consistentes, los estimadores 2SLS son sesgados en mues-
tras finitas y en consecuencia, inferencia realizada a partir de ellos para sistemas
con pequeñas muestras puede ser problemático. Segundo, dado que los coeficientes
127
de la forma estructural son estimados directamente usando 2SLS, los errores es-
tándar de las ecuaciones estructurales son obtenidos de la misma forma. Sin
embargo, debe notarse que :
y en consecuencia,
V ar(e∗t ) 6= V ar(u2t )
Específicamente, a menos de que Cov(β21 , et ) sea cero, entonces la varianza del
error en el estimador por dos etapas será V ar(e∗t ) > V ar(u2t ) . Y así, la varianza
del estimador 2SLS es consistente pero asintóticamente ineficiente.
128
1. Calcular el estimador 2SLS para las ecuaciones identificadas en forma indi-
vidual.
2. Usar los estimadores 2SLS para estimar los errores de las ecuaciones es-
tructurales y luego utilizar estos errores para estimar la matriz de varianza-
covarianza de todos los errores de cada ecuación estructural. La matriz de
varianza-covarianza representa los errores entre ecuaciones (cruzados) del
sistema. La matriz de varianza-covarianza se calcula a partir de los errores
estimados para cada ecuación en forma separada utilizando las formulas de
calculo estándar.
129
9.8. Ecuaciones Simultáneas y Modelos de Vec-
tores Autoregresivos (VAR)
130
Capítulo 10
10.1. Resumen
1. Datos Cualitativos en Economía : el uso de Variables Mudas (Dummy)
2. El Modelo Probabilístico Lineal
3. Modelos Bivariados : Logit y Probit
10.1.1. Referencias
Kmenta Capítulo 11
Gujarati Capítulos 15 y 16
Grenne Capítulo 19
Maddala Limited Dependent and Qualitative
10.2. Introducción
Muchos fenómenos económicos están relacionados con variables que son discre-
tas o cualitativas las cuales podemos contar pero no medir. Estas son comúnmente
referidas como variables binarias. Consideremos los siguientes ejemplos :
131
Diferencias por género : Masculino vs Femenino
Diferencias por región / país : América Latina vs Africa
Efectos por características : Tiene grado universitario o nó
Cambio de régimen : Tipo de cambio fijo vs variable
Participación fuerza de trabajo : empleado vs desempleado
yi = aA DA + aF DF + ei (10.1)
yi = aA + ei (10.2)
132
dado que DA = 1 y DF = 0. Por otra parte, se tiene que :
yi = aF + ei (10.3)
para un economista que trabaja en el mercado financiero. Notar que este mod-
elo no tiene constantes. Al incluir una constante en el modelo tendríamos una
situación de perfecta
P colinealidad dado que la constante tiene un valor de 1 y
sabemos que j Dj = 1. Asi es preferibles especificar la ecuación (1) de la sigu-
iente forma :
yi = b + aF DF + ei (10.4)
En este caso, el coeficiente b medirá las ganancias estimadas para la categoría
faltante, en este caso los académicos. Este sector se utiliza como marco de ref-
erencia y permite la interpretación ( y testeo) de los efectos de otra profesión
sobre las ganancias relativas al caso canónico ( o benchmark). Esta es una im-
portante característica de todos las aplicaciones con variables dummy. Si existen
G categorías (sectores productivos, género, etc) las que pueden ser cubiertas y
representadas mediante el uso de variable dummy, la regresión debería contener
G − 1 variables mudas. Así, en el caso de las ganancias, las ganancias estimadas
para los economistas en el sector financiero será de b + aF . Es claro que la especi-
ficación en (4) permite la prueba acerca de si aF = 0 ya sea en forma separada o
bien conjuntamente al utilizar una prueba de t student o F de Fisher (si existen
multiples variables dummy).
Suponga que estamos interesados en saber si existe un sesgo por género dentro
de los economistas. Una posibilidad sería estimar el modelo :
yi = b + aF DF + aM DM + ei (10.5)
Notar que en esta especificación, se asume que las diferencias en ganancias entre
un hombre y una mujer economista es una función aditiva del sector y género, i.e.
ser una economista del sector financiero y ser mujer. Esta especificación también
asume que las diferencias por género es constante entre todos los tipos de trabajo.
Una forma mas completa de especificar este modelo sería la siguiente :
yi = b + aF DF + aM DM + ag DF DM + ei (10.6)
133
en el sector financiero ( comparado con por ejemplo, una economista académica
mujer). Esta especificación con variables dummy se conoce como variables mudas
de interacción.
yi = b + cE + ei (10.9)
yi = b + aF + (c + dEC )E + ei (10.10)
134
10.3.1. Regresión por Partes y la Función Spline
Suponga que tenemos una hipótesis en que los ingresos crecen con la edad
(denotada por t ) donde la edad tiene un efecto creciente a medida que se avejentan
y después desaparece. Podemos pensar esto de la siguiente manera :
yi = β1 + β2 t + ²i si t < 30
yi = β3 + β4 t + ²i si 30 6 t < 50
yi = β5 + β6 t + ²i si t > 50
Las edades de 30 y 50 años son referidas como los puntos ( o junturas) de la función
spline. Estas hipótesis pueden ser estimadas mediante el siguiente modelo :
y
b1 + g1 + (b2 + g2 )t2 = b1 + g1 + g3 + (b2 + g2 + g4 )t2
Reareglando los términos llegamos a las restricciones que g1 = −g2 t1 , g3 = −g4 t2 .
Así, el modelo restringido queda como sigue :
yi = b1 + b2 t + g2 (t − t1 ) + g4 (t − t2 ) + ei (10.12)
yi = bi + b2 x1 + b3 x2 + b4 x3 + ei (10.13)
135
y
nudos
30 50 Edad
Discutimos anteriormente que las cosas cambian bastante una vez que con-
sideramos variables dependientes discretas. Consideremos los siguientes ejemplos
: (i) Qué determina que una persona escoja migrar a otra ciudad ? (ii) Qué de-
termina el tipo de asistencia médica (privada o pública) que una persona busca
? (iii) Qué determina que una firma adopte una nueva tecnología ?
136
elecciones bivariadas o multivariadas) y creemos que estas pueden ser modeladas
como función de (i) factores de mercado tales como precios, ingresos etc, (ii)
características de los agentes como edad, género, educación, etc y (iii) factores
del entorno como ubicación geográfica, nivel de infraestructura local, etc. Resulta
obvio que esta es una especificación muy general y que la teoría nos puede ayudar
a tener un modelo mas específico. El punto clave, a lo menos desde el punto de
vista del econometrista, es que la variable dependiente es de tipo discreta.
La ecuación (14) parece idéntica al modelo de regresión clásico y puede ser esti-
mado aparentemente por OLS. No obstante tiene marcadas diferencias con este
último las que pueden ser resumidas en cuatro resultados principales.
137
y, dado que por definición y puede tomar sólo dos valores: cero o uno, entonces
para cualquier valor de las características x, el término de error ²i puede sólo
tomar dos valores :
²i = 1 − α − βxi (10.19)
o bien
²i = −α − βxi (10.20)
Resultado 1. La distribución de ²i no es normal, mas aun tiene una distribución
discreta. Esto se puede observar en la siguiente tabla la cual entrega todos los
valores posibles de ²i en su distribución.
Valores de ²i Distribucion de ²i
−α − βxi fi
1 − α − βi 1 − fi
Total 1
lo que implica que fi = 1 − α − βxi . Podemos utilizar este último resultado para
calcular la varianza del término de error como :
138
donde ybi es el estimador mínimo cuadrado (heteroscedastico) de y. Podemos uti-
lizar este resultado para escalar las variables dependientes e independientes del
LPM y re estimar el modelo para usando un estimador WLS (similar al proceso
para solucionar heteroscedasticidad visto anteriormente).
y yi=alfa+beta·xi
-alfa/beta (1-alfa)/beta x
139
10.5. Variable Dependiente Discreta II : Modelos
Probit y Logit
Con respecto a este último punto sería deseable encontrar una especificación que
tenga las siguientes propiedades :
(ii) La especificación es continua y suave (de tal manera que no existan quiebres
"falsos"en el modelo tal como ocure con el LPM)
Una especificación que entrega estas propiedades son curvas con una forma de S
como la siguiente :
140
E(yi)
E(yi)=F(alfa+beta·xi)
-infinito +infinito
De esta manera nuestro objetivo será especificar una forma funcional para la
expresión de la derecha del modelo :
El Modelo Logit
En este caso, el valor esperado de yi se define de la siguiente manera :
1 e(α+βxi )
E(yi ) = = (10.26)
1 + e(−α−βxi ) 1 + e(α+βxi )
Dado que E(yi ) es la probabilidad de suceso (i.e. de que yi = 1) entonces 1−E(yi )
es la probabilidad de fracaso o falla. La razón entre estas dos probabilidades se
conoce como la razón de posibilidades odds ratio y con una pequeña manipu-
lación algebraica de (31) podemos notar que esta razón de posibilidades puede
ser expresada como :
E(yi )
= e(α+βxi ) (10.27)
1 − E(yi )
141
y de esta forma el logaritmo de la razón de posibilidades (log odds ratio) como :
E(yi )
log[ ] = α + βxi (10.28)
1 − E(yi )
El Modelo Probit El vaslor esperado en este caso viene dado por la sigu-
iente expresión :
Z (α+βxi )
E(yi ) = Φ(α + βxi ) = φ(z)dz (10.29)
−∞
y = 1 si y ∗ > 0 (10.31)
y = 0 si y ∗ ≤ 0 (10.32)
142
De tal forma, podemos re expresar esto como sigue :
Un Ejemplo. Podemos ilustrar este caso usando una versión del modelo de
migración/empleo de Harris-Todaro. Para un individuo i el ingreso esperado de
permanecer en un área rural puede ser descrito de la siguiente forma :
y ∗ u = γxu + ²u (10.39)
c∗ = αz + ²m (10.40)
143
10.5.3. Estimación e Interpretación de los Coeficientes
Dado que los modelos que hemos estando viendo no son lineales, los parámet-
ros del modelo Probit o Logit generalmente son estimados mediante ML. Cada
observación es tratada como una realización de una distribución binomial donde
la probabilidad de existo es: P (yi = 1) = F (α + βxi ) Si las observaciones son
independientes entonces su distribución de probabilidades conjunta (o likelihood)
viene dada por :
Y Y
P r(Y1 = y1 , Y2 = y2 , ...Yn = yn ) = (1 − F (α + βxi )) F (α + βxi ) (10.44)
yi =0 yi =1
notar que la variable aleatoria y puede tomar los valores 0 ó 1 y de esta forma
(36) puede ser re escrita de la siguiente manera :
n
Y
L= [F (α + βxi )]yi [1 − F (α + βxi )]1−yi (10.45)
i=1
Modelo Logit
144
Para el modelo Logit, al sustituir la ecuación (31) en (44) para F (α + βxi ) y sim-
plificando la expresión (usando la derivación del log odds ratio y notando de que
log[1/(1 + ex )] = − log(1 + ex ) el log-likelihood de la función puede re escribirse
como : n
X
log L = [yi (α + βxi ) − log(1 + e(α+βxi ) )] (10.50)
i=1
n
∂ log L X
= [yi − Fi ] = 0
∂α i=1
Modelo Probit
Para el modelo Probit, el log-likelihood puede escribirse como :
n
X
log L = [yi log Φ(α + βxi ) + (1 − yi ) log(1 − Φ(α + βxi ))] (10.52)
i=1
Una vez que hemos encontrados los estimadores para los coeficientes (y los errores
estándar) necesitamos interpretar dichos resultados. Es importante notar de que
145
al contrario del modelo de probabilidad lineal, los parámetros del modelo (los
betas)logit y probit no miden directamente los efectos marginales. Para apreciar
esto podemos escribir el modelo en forma mas sencilla al absorber la constante
en el vector x de la siguiente manera :E(yi ) = F (βxi ) y en consecuencia, el efecto
marginal de un cambio unitario en xj es :
∂E(yi ) ∂F (βx)
= βj = f (βxi )βj (10.55)
∂xj ∂(βx)
Volviendo a los dos modelos que estamos analizando podemos observar que el
efecto marginal viene determinado de la siguiente forma :
= βj πi (1 − πi ) (10.57)
donde πi es la probabilidad de que ocurra el evento.
(ii) Probit. Los efectos marginales en este caso viene dados por la siguiente
expresión:
∂E(yi )
= φ(βx)βj (10.58)
∂xj
donde φ(βx) es la densidad normal estándar evaluada en βx. En general,
se evalúa el efecto marginal en la media de los valores de los xi . Sin em-
bargo, esto no es obligatorio pudiendo ser evaluadas las x para diferentes
arqueotipos que sean interesantes de estudiar.
146
Una medida a considerar es la verosimilitud evaluada en los estimadores ML
del modelo log L(β) b . Esto puede ser utilizado para comparar entre diferentes
especificaciones del modelo para una muestra dada. Una medida de referencia
es el valor del likelihood cuando todos los coeficientes se han restringido a cero
log(β = 0) . Este último es el likelihood incluyendo sólo una constante.
Es posible usar estos dos valores para construir una prueba de likelihood ratio
LR de significancia conjunta de las variables xi :
b ∼ χs
LR = −2[log L(0) − log L(β)] (10.59)
k
Una medida alternativa de ajuste viene dado por el índice de la razón de verosim-
itud
b
log L(β)
LRI = 1 − 0 ≤ LRI ≤ 1 (10.60)
log L(β = 0)
El LRI tiene la característica de que esta acotado por entre cero cuando todos
los coeficientes son iguales a cero. Ello pues cuando todos los coeficientes son cero
log L(β) = log L(β = 0)y la razón entre ambos es en consecuencia uno. Mientras
el poder explicativo del modelo aumenta, la función de verosimilitud tiende a la
unidad (i.e. cuando Fi = 1 cuando yi = 1 y Fi = 0 cuando yi = 0). Dado que el
logaritmo de uno es cero LRI tiende a uno.
Una medida alternativa es la Tabla de Aciertos y Fallos la cuales una tabla simple
de 2 x 2 la cual muestra la distribución de los valores actuales y predichos de y.
Veamos un ejemplo :
Predicha (F ∗ = 0,5)
y=1 y=0 Total
Actual y=1 471 16 487
y=0 183 20 203
Total 654 36 690
147
En otras palabras clasificamos el resultado de una estimación si su probabilidad
es mayor que un medio.
Hasta el momento hemos sugerido que tanto el Probit y Logit son alternati-
vas válidas al LPM para modelar situaciones de elección discreta. Aun no hemos
dicho nada acerca de cómo escogeremos entre los dos aunque en la práctica la
mayoría de los investigadores reportan los resultados de los tres modelos. Ello
es así, pues no existe una clara definición en la profesión acerca de cuál modelo
es preferible (entre logit y probit obviamente pues sabemos de que el LPM tiene
severos problemas).
La siguiente figura ilustra las dos formas funcionales no lineales para un conjunto
de parámetros dado. Como se puede observar los dos curvas son muy similares en
el rango del medio pero la función logit tiene colas mas anchas - la logit se parece
mas a una distribución t student acumulada. De esta forma, si la proporción de
éxitos en la muestra está entre 0.3 y 0.7 los dos modelos entregan resultados simi-
148
E(yi)
1
logit
probit
-infinito +infinito
lares.
No obstante, los estimadores de β a partir de los dos modelos no son directamente
comparables. Ello se produce dado que en el modelo probit se asume que σ 2 = 1
mientras que la varianza en el logit es π 2 /3 . Existe una correción para hacerlos
comparables. Al multiplicar los coeficientes del logit por 0,625 se pueden hacer
entonces comparables con los coeficientes del probit. En forma análoga, al multi-
plicar los parámetros de logit por 0,25 se obtoiene los parámetros del logit.
En resumen :
βlpm ≈ 0,25βl ≈ 0, 4βp (10.61)
Esta regla es válida para todos los coeficientes excepto la constante en el modelo
LPM (recordar que en logit y probit la constante es absorvida en X), dando la
siguiente regla :
αlpm ≈ 0, 25αl + 0, 25 ≈ 0,4αp + 0, 25 (10.62)
149
Capítulo 11
11.1. Resumen
1. Test de Especificación en Modelos de Elección Binaria
2. Datos Agrupados
11.2. Referencias
Greene Capítulo 19
150
Las consecuencias de ambos errores de especificación son mucho mas graves que
en el caso de modelo de regresión lineal. Dado que los modelos Probit y Logit son
no lineales en los parámetros estamos obligados a testear acerca de la ausencia
de problemas de variable omitida y heteroscedasticidad mediante el uso de los
métodos estándar de pruebas de hipótesis (LR, LM, Wald). Estos son derivados
en Davidson y MacKinnon (Journal of Econometrics, 1984) y los que también son
presentados en Greene 19.4
H0 : y ∗ = β1 x1 + e1 (11.1)
HA : y ∗ = β1 x1 + β2 x1 + e1 (11.2)
Esto puede ser fácilmente probado utilizando cualquiera de los tres tests.
151
restricciones y k es el número de restricciones. Davidson y MacKinnon (1984)
proponen la siguiente versión de este test LM :
Xn Xn n
X
( gi xi )0 [ E[hi]xi x0i ]−1 ( g i xi ) (11.7)
i=1 i=1 i=1
2
donde hi = dd(βx
log Fi
i)
2 . El termino[]
−1
el cual es la matriz de covarianzas asintótica
estimada la que viene dada por el valor estimado del Hessiano (i.e. la matriz de
segundas derivadas de la función del log-likelihood).
11.3.2. Heteroscedasticidad
y
n
∂ log L X fi (yi − Fi ) (−γ 0 zi )
= [ ]² zi (β 0 xi ) = 0 (11.11)
∂γ i=1
F i (1 − F i )
Dado que es una función de verosimilitud difícil de maximizar, estimamos el
modelo bajo la restricción de que γ = 0 y usamos un test de Multiplicador de
Lagrange para probar la restricción. La prueba de LM viene dada por :
LM = g 0 V g ∼ χ2[k] (11.12)
152
restricciones. Notar que bajo la restricción de que γ = 0 , las condiciones de
primer orden del modelo restringido son simplemente :
n
∂ log L X fi (yi − Fi )
= [ ]xi = 0 (11.13)
∂β i=1
Fi (1 − F i )
y
n
∂ log L X fi (yi − Fi )
= [ ]zi (β 0 xi ) = 0 (11.14)
∂γ i=1
Fi (1 − F i )
Resulta ser que se hace muy difícil estimar este modelo utilizando una especifi-
cación Logit (por la especificación de la función score) y de esta forma las pruebas
de heteroscedasticidad son generalmente llevadas a cabo utilizando un Probit.
Hasta el momento hemos estado trabajando con datos sobre respuestas indi-
viduales donde cada observación en los datos relaciona la respuesta u acción de
un individuo en particular con un vector de regresores. No obstante, generalmente
deseamos utilizar datos agrupados donde observamos la proporción de respuestas
positivas entre un grupo de individuos los que comparten un conjunto común de
regresores.
El trabajo con datos agrupados permite aminorar muchos de los problemas aso-
ciados con el LPM el cual a menudo es usado en estas circunstancias aunque una
especificación Logit sigue siendo la especificación mas popular. Ver Greene 19.4.6
Hasta ahora nos habíamos concentrado sólo con variables binarias o dicotómi-
cas. También existenm las llamadas variables categóricas, es decir, aquellas que no
153
son continuas pero que pueden ser clasificadas en diferentes categorías. General-
mente son referidas como variables policotómicas. Existen tres casos de interés :
Caso Ejemplo
154
conveniente interpretación de los datos. Notando de que e0 = 1 entonces se tiene
:
1
E[yi1 ] = πi1 = PJ (11.16)
1 + k=2 e(αk +βk xi )
y
e(α2 +β2 xi )
E[yi2=2 ] = πi2 = PJ (11.17)
1 + k=2 e(αk +βk xi )
y así sucesivamente. Esta normalización nos permite expresar la probabilidad
relativa de observar el resultado j = 2 con respecto a j = 1, de la siguiente
manera :
πi2
= e(α2 +β2 xi ) (11.18)
πi1
Esto puede ser pensado como un "multinomial odds ratio". Explotando la con-
veniencia de la función logistica podemos expresar el logaritmo del multinomial
odds ratio como :
πi2
log( ) = α2 + β2 xi (11.19)
πi1
XJ
∂πj
= πj [βl − πk βk ] = πj [βl − β] (11.22)
∂xl k=1
155
variables X. Notar que es posible que en un modelo multinomial logit el efec-
to marginal de un cambio unitario en la variable Xl no necesariamente tenga el
mismo signo que el coeficiente βl .
Suponga que estamos estudiando la elección entre tres diferentes medios de trans-
porte : auto, bus y una tercera opción. Considere primero que la tercera opción
es el metro. En este caso, una utilidad relativa mas alta de viajar en auto relativo
al bus no necesariamente implica que también sea mas preferible viajar en metro
con respecto al bus. Suponga ahora que la tercer alternativa es una auto azul y
que la primera alternativa es un auto rojo. El hecho de preferir (utilidad relativa
mas alta) el auto rojo con respecto al bus puede implicar una utilidad mas alta
también de viajar en auto azul con respecto al bus también. En otras palabras, la
probabilidad de que el auto rojo sea preferible al bus aumenta las probabilidades
de que el auto azul también sea preferible al bus. De esta manera los parámetros
de las alternativas no son independientes entre sí.
156
Si la alternativa no es irrelevante, entonces su exclusión de ella resultará en es-
timadores inconsistentes. Así, si determinamos como s los estimadores basados
en el subconjunto restringido de alternativas y f como el conjunto completo de
alternativas, entonces :
yi∗ = α + β 0 xi + ²i (11.25)
Yi = 1 si yi∗ < 0
Yi = 2 si 0 ≤ y∗i < A1
Yi = 3 si Ai ≤ y∗i ≤ A2
.
.
Yi si Aj−1 ≤ y∗i
157
El umbral Aj no puede ser observado pero puede ser estimado junto con α, β por
máxima verosimilitud si asumimos una forma funcional del modelo. Obviamente
el modelo probit multinomial asume de que la función tiene una distribución
normal estándar. Al normalizar como lo hicimos en el caso de la multinomial
logit, las probabilidades del modelo se derivan como sigue :
158
P rob(yi = 2) = 1 − Φ(A1 − α − βxi )
Efectos Marginales
Los efectos marginales de cambios en los regresores vienen dados por las siguientes
expresiones :
∂P r(Y = 0)
= −φ(β 0 x)βk
∂xk
∂P r(y = 1)
= [φ(−β 0 x) − φ(A1 − β 0 )]βk (11.27)
∂xk
∂P r(y = 2)
= φ(A1 − β 0 x)βk
∂xk
159
Capítulo 12
12.1. Resumen
1. Introducción a las Variables Dependientes Limitada
2. Revisión de Algunas Características de la Distribución Normal
3. Truncación
4. Censura
5. Sesgo de Selección y el Modelo Tobit
6. Problemas de Especificación en el Modelo Tobit
12.2. Referencias
Greene Capítulo 20
Maddala Limited Dependent and Qualitative Variables in Econometrics
(CUP, 1983) Capítulos 6 a 9
12.3. Introducción
Existen variados casos donde, debido a la manera en que los datos son recolec-
tados, tenemos información incompleta acerca de la conducta de ciertos elementos
160
de la muestra. Si esta información faltante es sistemática entonces los modelos
que ignoren este hecho, estarán cometiendo un problema de sesgo sistemático.
En esta sección examinaremos algunos casos especiales de estos fenómenos. Estos
son :
161
donde φ(z) se usa como notación para la distribución normal estándar y Φ(z)
para la función normal acumulada. Existen un conjunto de propiedades de la
normal estándar que serán de gran utilidad en las secciones que siguen.
A1 φ(−z) = φ(z)
phi(z)
A2 . dz = −zφ(z)
1 1
A3 f (x) = φ[(x − µ)/σ] = φ(z)
σ Z σ a
A4 Φ(a) = P r(z < a) = φ(z)dz
−∞
A5 Φ(−a) = 1 − Φ(a) = P r(z > a)
12.4. Truncamiento
f (x)
f (x|x > a) = (12.3)
P r(x > a)
Esta definición asegura que la densidad truncada sume 1 sobre el rango restringi-
do. Ver el gráfico siguiente:
162
Muchas de las aplicaciones que veremos en adelante utilizan la distribución normal
truncada. Si X se distribuye normal con media µ y desviación estándar de σ
entonces de A5 se obtiene que :
(a − µ)
P r(x > a) = 1 − Φ[ ] = 1 − Φ(α) (12.4)
σ
donde α = ( a−µ
σ
). De esta forma usando A3 tenemos que:
f (x)
f (x|x > a) = (12.5)
[1 − Φ(α)]
1 x−µ
= φ(z)[1 − Φ(α)] con z = ( )
σ σ
De la figura anterior se puede notar que si la truncamiento es por debajo, la media
de la distribución truncada es mayor que la original y viceversa si la truncamiento
163
es por arriba. En forma similar, la varianza de la distribución truncada es menor
que la original.
donde
λ(α) = φ(α)/[1 − Φ(α)]
si el truncamiento es de la forma x > a, y
λ(α) = −φ(α)/Φ(α)
donde
λ(α)
δ(α) = 0 < δ(α) < 1 ∀α
[λ(α) − α]
lo que implica que la varianza de una distribución truncada es siempre menor que
la varianza de la distribución sin truncar.
164
12.4.2. La Regresión Truncada
Si nuestra muestra está truncada de alguna forma podemos utilizar los resultados
anteriores para legar a la siguiente expresión :
a − βxi
E(yi |yi > a) = βxi + σλi (αi ) αi = ( ) (12.9)
σ
Notar que a es el punto de truncamiento (y αi el valor estandarizado) y no la
constante del modelo, la cual se asume que está en X).
165
Así, se tiene que :
El aspecto importante de este resultado es que dado que 0 < δ(α) < 1 para todo
α , entonces con una distribución truncada el efecto marginal de un cambio en el
valor de xj es menor que su correspondiente coeficiente.
166
Estimación
Mas aún, dado que el término de error en el modelo OLS está también trun-
cado ( i.e. como función de α ) entonces a partir de (8) podemos ver de que el
modelo tendrá un error heteroscedastico.
167
el cual es una función de xi (dado que αi es función de xi ).
donde αi = (a−βx
σ
i) φ(αi )
y λi = [1−Φ(α i )]
. Estas pueden ser resueltas y asi entregar los
estimadores ML para los parámetros β, σ 2 y el inverse mills ratio λ(α).
1. Inversión.
168
Debería resultar claro que el sesgo que surge a partir de la restricción sobre el
rango observable para y dependerá de la probabilidad de caer fuera del rango (i.e.
por debajo del nivel de umbral). Ver figura. Dado que sabemos que eliminar las
observaciones en que la variable dependiente cae por debajo del umbral resultará
en un problema de muestra truncada. Necesitamos en consecuencia algún método
que nos permita trabajar con esta situación de censura en la muestra sin tener
que eliminar información valiosa al reducir la muestra censurada a una truncada.
y ∗ ∼ N (µ, σ 2 ) (12.16)
y = a si y ∗ ≤ a
y = y∗ en otro caso
Aquí, y ∗ es una variable (parcialmente) latente la cual es observable sólo para
valores sobre el umbral. Muchas veces se encontrará que el umbral se define
como cero, la cual es una normalización conveniente. La distribución total de
una variable censurada puede ser pensada como una combinación de dos partes :
la primera que corresponde a un componente discreto el cual toma todo el peso
del componente censurado de la distribución en un solo punto; y la segunda,
una componente continua para el rango de valores de Y para la cual existe una
distribución (truncada).
169
De esta forma, se tiene que :
E(y) = P r(y = a)E(y|y = a) + P r(y > a)E(y|y > a)
= P r(y ∗ ≤ a)a + P r(y ∗ > a)E(y|y > a)
= Φ(α)a + [1 − Φ(α)](µ + σλ(α))
a−µ
donde α = σ
y λ(α) como se definió en (6).
170
de censura puede cambiar a través de las observaciones) o el Modelo Tobit (
cuando existe un punto de censura fijo). Por ahora nos concentraremos sólo en el
modelo tobit (su nombre se refiere al "Tobit Probit Model"). Asumiremos, por
conveniencia, que el punto de censura es normalizado a cero lo que nos permitirá
especificar el modelo de la sigueiente manera :
La media de una distribución censurada viene dada por (18) para el caso en
que el umbral a = 0
E(yi ) = P r(yi = 0)E(yi |yi = 0) + P r(yi > 0)E(yi |yi > 0) (12.18)
donde :
φ( 0−βx
σ
i
)
λi =
[1 − Φ( 0−βx
σ
i
)]
φ( βxσ i )
λi = (12.20)
Φ( βxσ i )
Segundo, con respecto a el término P r(yi > 0) podemos notar que :
P r(yi > 0) = P r(²i > −βxi ) = P r(²i < βxi ) = Φ(βxi /σ) (12.21)
171
lo que implica que :
E(yi ) = Φ(βxi /σ)[βxi + σλi ] (12.23)
donde, al igual que antes :
φ( βxσ i )
λi =
Φ( βxσ i )
∂E(yi |xi )
= βj Φ(βxi /σ) (12.24)
∂xj
Note que, como se esperaba, los efectos marginales son funciones no lineales de x
y σ.
Para el segundo caso, los efectos marginales vienen dados simplemente por :
∂E(yi∗ |xi )
= βj (12.25)
∂xj
172
12.5.4. Estimación del Modelo Tobit
173
verosimilitud en logaritmo (log-likelihood) viene dada por :
X 1 (yi − βxi )2 X
log L = [− log(2π) + log(σ 2 ) + 2
] + log[1 − Φ(βxi /σ)] (12.26)
y >0
2 σ y =0
i i
la cuales una mezcla de una función contínua para aquellas observaciones no cen-
suradas ( la primera sumatoria) y una distribución discreta para las observaciones
censuradas (el segundo término). Esta es una expresión compleja pero manejable
( la instrucción en STATA se denomina heckman), sin embargo la mayoría de los
trabajos empíricos también reportan las estimaciones por OLS con fines compar-
ativos.
Resultado (empírico)
Parece ser que los estimadores OLS son menores en valor absoluto que aquellos
estimados por MLE. Existe una regularidad empírica la cual sugiere que los es-
timadores MLE pueden ser aproximados al dividir los estimadores OLS por la
proporción de observaciones que caen fuera del rango de censura. La estimación
por OLS realizada solo sobre las observaciones censuradas entrega estimadores
sesgados e inconsistentes. Existe un método de facil aplicación para estimar el
modelo tobit mediante el uso OLS çorregido"propuesto por Heckman en 1979.
Dado que generalmente este método es utilizado para el problema de Sesgo de
Selección primero disctutiremos este problema en detalle y después nos abocare-
mos al procedimiento de Heckman.
174
12.6.1. La Densidad Conjunta Truncada
y
V ar(y|z > a) = σy2 (1 − ρ2 δ(αz ))
donde, como antes, µy y µz son las medias de y y z, σy , σz las desviaciones
estándar; αz = (a−µ
σz
z) φ(αz )
; λ(αz ) = 1−Φ(α z)
el IMR y con δ(αz ) = λ(αz )/(λ(αz ) − αz ).
Podemos ver por qué esto es así de la siguiente manera. Suponga que tenemos un
modelo de regresión de la siguiente forma :
yi = βxi + ²i (12.27)
el cual puede representar una relación entre ganancias (y) y un vectorde otras
variables (x). Sin embargo, suponga de que observamos yi solo si zi = 1 donde :
(
1 si yi ∗ > 0
zi
0 en otro caso.
175
y
zi∗ = γWi + ui (12.28)
donde z ∗ es una variable latente no observable. La ecuación (30) represeta un
mecanismo de selección y la ecuación (29)puede ser re especificada como una
regresión truncada condicional en que zi = 1.
Paso 1: Estime un modelo Probit para la regla de selección en (30) de tal forma
de producir un estimador máximo verosímil de γ. Utilizando este valor calcule
para cada observación de la muetra :
bi = φ(b
λ
γ Wi )
(se asume que γu = 1) (12.30)
Φ(b
γ Wi )
176
12.7. Errores de Especificación en los Modelos To-
bit
donde hemos permitido de que los coeficnites asociados a las variables puedan
difereir no solo en su valor sino también en su signo. Podemos entones testear
la restricción (del Tobit simple) de que γ = β usando una prueba de LR de la
siguiente forma :
12.7.1. Heteroscedasticidad
177
donde E(²i ) = 0, E(²2i ) = σ 2 g(zi ) Sabemos de que los estimadores de los
parámetros de la regresión (ie la media condicional) son insesgados pero inefi-
cientes. Esto tiene que ver con con la característica de de linealidad aditiva del
modelo de tal forma que es posible separar los parámetros que determinan la
expresión para la media condicionla (ie f (xi ) ) de aquellos que están detrás de la
determinación de la precisión de dichos estimadores, g(zi ).
Puede resultar claro de que si la varianza del modelo es contante, entonces puede
sacarse de la función Φ() en el segundo término de la función de verosimilitud.
12.7.2. No Normalidad
178
Capítulo 13
13.1. Resumen
1. Introducción a Datos de Panel y modelos con heterogeneidad
4. Extensiones
13.2. Referencias
Greenne, Capítulo 14
179
13.3. Introducción
Mas observaciones
180
Controlando por heterogeneidad individual no observable
181
(ii) Pendientes e interceptos heterogéneos (αi 6= α y βi =
6 β ). Los estimadores
OLS de las pendientes e interceptos serán sesgados y sin sentido. También
se sigue de que modelos estándar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.
182
Controlando por variables omitidas (no observadas o mal medidas)
Bajo los supuestos usuales, la estimación por OLS de (3) entregará estimadores
insesgados y consistentes del vector de parámetros β y γ . Suponga, sin em-
bargo, de que el vector de variables Z no es observable pero donde la matriz
de covarianza entre X y Z no es cero. En este caso, los estimadores OLS de β
estarán sesgados, dado que zit representaría el caso clásico de omisión de variable.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisión de variable.
183
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que sólo difieren entre individuos. Así, podemos
tomar las primeras diferencias de (1) con respecto al tiempo para obtener :
(yit − yit−1 ) = β 0 (xit − xit−1 ) + (µit − µit−1 ) (13.4)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal
manera que ahora se pueden obtener estimadores insesgados y consistentes
de β.
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviación de la observación de cada individuo sobre la media entre todos
los individuos (en cada período), de la siguiente forma :
yit − yt = β 0 (xit − xt ) + (µit − µt ) (13.5)
PN
donde yt = N1 i=1 yit representa la media grupal (el valor promedio de la
variable del grupo i = 1 · · · N en cada período t )
184
clásicos de recolección de datos como cobertura, no respuesta, selección endógena
(i.e. truncamiento endógeno), etc.
donde ²it es una medida del error con media cero y varianza seccional igual a ω.
Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo
( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza en el
error de medición será duplicada. Si la varianza del verdadero valor de X es
relativamente baja (e.g. existe una persistencia en el tiempo en X) entonces,
185
al diferenciar los datos significará que la "señal"es absorbido por el ruido".
En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá un efecto
desproporcionado sobre la varianza del error en la medición relativo a la
varianza propia de la variable en sí.
El primer sesgo surge al tener que visitar en forma reiterada al mismo in-
dividuo y las respuestas pueden entonces ser endógenas; las personas tienden a
exagerar. El segundo sesgo está relacionado con el hecho de que las los hogares
o individuos entrevistados en el pasado pueden ya no serlo en el presente ya que
o bien murieron, quebraron, dejaron de ser pobres, etc, lo que puede introducir
un sesgo hacia atrás. Esto se puede corregir con los denominados pseudo-paneles,
tópico que está fuera del alcance de este curso.
donde µi denota efectos específicos al individuo que no son observables y υit son
los denominados efectos idiosincráticos. Los µi son invariantes en el tiempo y
dan cuenta de cualquier tipo de efecto individual no incluido en la regresión. Un
ejemplo estándar en ecuaciones de ganancia es la habilidad; en funciones de pro-
ducción agrícola uno de estos efectos puede ser la calidad (no observada) del suelo;
en macro paneles sobre crecimiento de países se pueden incluir normas culturales
(e.g. con respecto al ahorro o riesgo).
186
El two way error component model se asume de que la estructura del error
se define de la siguiente manera :
uit = µi + λt + υit , υit ∼ iid(0, σµ2 ) (13.11)
donde, nuevamente, µi denota efectos individuales específicos no observables y
donde λt denota efectos temporales no observables. Estos efectos se asumen que
son comunes entre individuos pero que varían en el tiempo. Ejemplos incluirían
variaciones en el clima o cambios en la política económica en general.
187
13.5.1. Modelo de Efectos Fijos
El modelo de efectos fijos asume que los efectos individuales µi son parámetros
determinísticos los que deberán ser estimados. Este sería el caso si N representa
la "población"tal como el conjunto de países o estados o firmas, y que nuestras
inferencias es solamente relacionada sobre las N observaciones que se dispone. Así
la inferencia es condicional sobre las N observaciones en particular : no estare-
mos utilizando los resultados para inferir aspectos relacionados a otro conjunto
de países/firmas/individuos.
y = α1N T + Xβ + Zµ µ + ν = Zδ + Zµ µ + ν (13.14)
Qy = QXβ + Qν (13.16)
donde hacemos uso del hecho de que Q − Zµ = Q1N T = 0 dado que el promedio
temporal del efecto invariante en el tiempo es simplemente el efecto en si mismo.
188
De esta forma, podemos estimar como sigue :
donde
V ar(βeW ) = σν2 (X 0 QX)−1 = σν2 (X e −1
e 0 X) (13.18)
y donde podemos recuperar el valor estimado de α como :
eW = y − X βeW
α
Resultados
Ho = µ1 = µ2 = · · · µN −1 = 0 (13.19)
189
13.5.2. Modelo de Efectos Aleatorios
Suponga ahora que los efectos individuales no son deterministicos sino que
cada uno de ellos son una variable aleatoria. Esto sería un supuesto mas razonable
en el caso de que nuestros datos fuera una muestra genuina utilizada con el fin de
realizar inferencias sobre la población como un todo. Estos efectos aleatorios no
observables pueden ser pensados a nivel de individuos como habilidades mientras
que a nivel de firma podemos pensar en términos de capacidad administrativa.
Asumiremos de que µi ∼ iid(0, σµ2 ) y que ambos, µi , vit son independientes de Xit
para todo i y t. Ahora, siendo los efectos individuales aleatorios la varianza del
término de error será :
V ar(uit ) = σµ2 + σν2 (13.21)
El aspecto clave de esta varianza es que a pesar de ser homosedastica, tiene
correlación serial al interior de cada unidad de corte transversal (dado que cada
"efecto individual"de cada persona persiste en el tiempo). En particular, sea :
Cov(uit , ujs ) = (µi + vit )(µj + vjs ) (13.22)
Así, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = σµ2 + σv2 . POr otro
lado, si i = j pero t 6= s entonces se tiene que la Cov(uit , ujs ) = σµ2 y cero en otro
caso. Por extensión, tenemos lo siguiente :
ρ = Corr(uit , ujs ) = 1 para i = j; t=s
σµ2
ρ = Corr(uit , ujs ) = para i = j; t 6= s
(σµ2 + σν2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la
matriz de varianzaas covarianzas para el modelo de datos de panel no será del
tipo "Gaussiano". Para proceder con la estimación necesitaremos analizar la es-
tructura de esta matriz.
190
donde J T = JT /T , ET = (IT − J T ) y σ12 = T σµ2 + σv2 .
Con esta definición podemos entonces aplicar a (14) el estimador GLS están-
dar para derivar los estimadores de los coeficientes de α, β bajo el supuesto de
efectos aleatorios:
δbGLS = [X 0 Ω−1 X]−1 [X 0 Ω−1 y] (13.25)
El único problema (y uno no trivial) es que Ω es de rango (N T × N T ) y la in-
versión de esta matriz es extremadamente difícil. Un sinnúmero de trucos se han
desarrollado para salvar esta traba.
Este estimador se denomina entre grupos pues ignora cualquier variación al in-
terior del grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un
resumen de la información de corte transversal simple sobre la variación entre los
grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser ex-
presado como :
(X 0 QX) X 0 (P − J N T )X −1 (X 0 Qy) X 0 (P − J N T )y
βbGLS = [ + ] [ + ] (13.29)
σν2 σ12 σν2 σ12
Podemos simplificar la expresión anterior mediante la siguiente notación. Sea
WXX = X 0 QX, WXY = X 0 Qy, BXX = X 0 (P − J N T )X, BXY = X 0 (P − J N T ) y
2
finalmente, φ2 = σσν2 .
1
191
Usando estas definiciones podemos reexpresar (29) como :
−1
Finalmente, notar de (17) de que WXX WXY es simplemente el estimador al in-
−1
terior del grupo (o intra grupo, WG) y de (28) de que BXX BXY es el estimador
entre grupos (BG) de tal forma que :
(i) A medida de que T tienda a infinito, entonces φ2 tenderá a cero, y por tanto
Θ a la unidad. En este caso, el estimador GLS tenderá al estimador intra
grupo o el estimador LSDV.
192
La primera opción es usar una estimación máxima verosímil interativa. Bajo los
supuestos de normalidad para σµ2 y νit podemos escribir la función de verosimili-
tud de la siguiente manera:
NT N 1
log L(α, β, φ2 , σν2 ) = constante − log σν2 + log φ2 − 2 u0 Σ−1 u (13.32)
2 2 2σν
Resumen
El método de estimación a ser usado dependerá en si asumimos de que los efectos
individuales sean fijos o aleatorios. Resulta ser de que los valores para los parámet-
ros β pueden variar dramáticamente, en el caso mas común donde N es grande
y T pequeño, entre estimadores intra o entre grupos. Cuando sólo existen pocas
observaciones en el tiempo resulta mejor usar los elementos de corte transversal
de los datos para estimar aquella parte de la relación que contenga variables que
difieren entre un individuo al otro (el estimador entre grupos). Ello permite de
que la parte de serie de tiempo de los datos sea usada en forma eficiente de tal
manera de rescatar la parte común de dicha relación entre individuos.
193
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuan-
do los efectos µi son tratados como variables aleatorias pero la varianza entre
estos y las variables xi no son cero, el estimador de efectos aleatorios GLS será
segado e inconsistente. Dado que el estimador intra grupo "eliminaçompletamente
el efecto de los µi , entonces el estimador de efectos fijo intra grupo es insesgado
y consistente.
194
13.6.1. El Estimador de Efectos Fijos
Podemos usar no obstante, una versión modificada del estimador intra grupo
mediante una transformación que "saque"los efectos de µi y λt . Re definiendo la
transformación Q tenemos :
Q = IN ⊗ IT − IN ⊗ J T − J N ⊗ IT + J N ⊗ J T (13.36)
Esta transformación significa que el típico elemento del vector y viene dado por :
ye = (yit − y i. − y .t + y) (13.37)
donde el segundo término de la expresión a la derecha promedia a través del
tiempo ( y en consecuencia saca el efecto temporal); el tercer término promedia
entre individuos para el mismo período ( asi sacando el efecto individual); mien-
tras que la última expresión promedia los efectos entre los individuos y entre los
períodos de tiempo (recuperando la variación no explicada de los efectos individ-
uales y temporales). Aplicando esta transformación al término de error tenemos
el siguiente resultado importante :
u
eit = (uit − ui. − u.t + u.. ) = (νit − ν i. − ν .t + ν .. ) (13.38)
Podemos entonces estimar los parámetros de interés como :
βe = (X 0 QX)−1 X 0 y (13.39)
con la estimación del intercepto común como sigue :
α e ..
e = y .. − βX (13.40)
(ver Baltagi pp.28 para una derivación completa )
Como en el caso del one way eror component model, podemos testear por la
presencia de efectos fijos usando la prueba F estándar sobre la nula :
Ho = µ1 = · · · µn−1 = λ1 · · · λT −1 = 0 (13.41)
195
13.6.2. Modelo de Efectos Aleatorios
196
A partir de lo anterior, fFinalmente se tiene que :
Si σµ2 = σλ2 = 0 implica de que φ22 = φ23 = 1 y así el estimador GLS tenderá
al OLS.
13.7. Extensiones
El modelo básico puede ser extendido en varias direcciones. Estas son discu-
tidas en forma extensa en el Hsiao y en Baltagi y están fuera del alcance de este
curso. Entre las mas interesantes se tiene :
197
Capítulo 14
Macroeconometría: Series de
Tiempo.
14.1. Introducción
198
14.2. Resumen
1. Definiciones y terminología
2. Definición de Estacionariedad
3. Características de serie estacionarias y no estacionarias
4. Orden de integración
5. Regresión espúrea y regresiones inconsistentes
6. Testeo del orden de integración : algunas pruebas estándar
7. Testeo del orden de integración : otras pruebas mas avanzadas
14.2.1. Referencias
Enders Capítulos 1-4
Grenne Capítulo 15,18-19
Hamilton Capítulos1-3,15
Hendry Capítulos 2 y 4
199
la que entrega una sola raíz igual a z = 1/b la cual es mayor que la unidad si
|b| < 1.
Considere ahora un proceso AR(2) particular, el que tiene las siguiente estructura:
c(z) = 1 − 0, 6z − 0, 3z 2 = 0 (14.5)
Resolviendo para las raíces z, encontramos que éstas son iguales a 1.0816 y -
3.0816 ambas mayores que uno en valor absoluto lo que significa que la serie es
convergente.
Suponga que los valores de los parámetros b1 y b2 fueran 0.5 y 0.7 respectiva-
mente, entonces las raíces serían 0.8903 y -1.6046. Ya que una de estas raíces es
menor que uno en valor absoluto entonces la ecuación sería explosiva.
para que la serie sea estacionaria. Para procesos mas complejos, no podemos decir
tan fácilmente si la series será convergente o explosiva.
Una característica importante de las series de tiempo es que puede también ser
visto ya sea como una regresión sobre valores pasados con un término de error
aditivo (el AR) o como la agregación de errores pasados (el MA). Para ver esto
podemos re expresar el proceso AR(1) como :
yt = µ + γyt−1 + ²t
yt (1 − γL) = µ + ²t (14.6)
200
AR(1) puede ser reexpresado de la siguiente forma :
X n
µ
yt = + γ i ²t−1 (14.7)
(1 − γ) i=o
Esto último expresa la evolución de la variable y en términos de una constante y
la historia de "innovaciones". 1
Definición 1
Se dice que una serie es estacionaria si los momentos de la serie ( como la media
1
Notar que dado que γ es una constante, el operador rezago en el primer término desaparece.
201
y la varianza) son independientes del tiempo. No obstante, en la práctica nos con-
centraremos en los casos de estacionariedad débil, de segundo orden y covarianza.
Definición 2
Se dice de que una serie es estacionaria en covarianza si :
E(yt ) = µ ∀ t
V ar(yt ) = γ0 ∀ t (14.11)
Cov(ys , yt ) = γk
esto es, que el valor esperado de la serie no depende de t como así también su vari-
anza. Por otra parte, γk está en función de t−s pero no de t o s en forma separada.
caen fuera del círculo unitario. Esto es equivalente a decir de que el polinomio es
invertible. Para ver esto, el proceso ARMA (p,q) puede ser expresado como :
X X
yt = γi yt−i + θj ²t−j con θo = 1 (14.13)
i j
γ(L)yt = θ(L)²e
donde X X
γ(L) = 1 − γi Li y θ(L) = 1 + θj Lj (14.14)
i j
202
y, si el valor absoluto de estas raíces son cada una de ellas en forma separada
mayores que uno entonces se dice de que el polinomio es invertible y que el pro-
ceso ARMA es en consecuencia estacionario. De no cumplirse estas condiciones,
entonces la serie es no estacionaria.
yt = αyt−1 + µt y0 ≡ 0 (14.16)
La serie será estacionaria si |α| < 1. Como se dijo, series estacionarias tienen una
varianza finita, sufren de innovaciones transitorias en torno a la media y poseen
una tendencia a volver a su valor medio. Por otra parte, como se vió, el valor de
la media es independiente del tiempo.
Una serie es no estacionaria si |α| ≥ 1 lo que implica de que tiene a lo menos una
raíz unitaria. Series no estacionarias tienen una varianza que es asintóticamente
infinita, la serie raramente cruza su valor medio ( en muestras finitas) y las inno-
vaciones en la serie son permanentes.
203
14.6. Orden de Integración
Definición 3
Se dice que una serie está integrada de orden d si tiene una representación esta-
cionaria invertible ARMA (p,q) después de haber diferenciado la serie d veces la
cual no es estacionaria después de haber diferenciado la serie d − 1 veces. Este
tipo de series se denota xt ∼ I(d) donde d es el orden de integración.
Definición 4
Una serie integrada de orden d puede ser descrita como teniendo una repre-
sentación ARIMA (p, d, q).
Por ejemplo, una serie estacionaria se denota como una serie I(0), un paseo
aleatorio es I(1). Al diferenciar una serie I(1) se obtiene una serie que es I(0)
o estacionaria mientras que una serie que es I(2) deberá ser diferenciada dos ve-
ces para que resulte ser estacionaria. No obstante, la diferenciación de una serie
I(0) dará otra serie I(0).
204
Pero lo anterior levanta la pregunta acerca de si se extiende este problema también
para pequeñas muestras (sobre las que generalmente trabajamos). La respuesta
es si, y puede ser ilustrado con dos ejemplos. El primero de ellos es lo que se
denomina regresión espúrea y el segundo ejemplo es el problema de la regresión
inconsistente.
Suponga dos series x e y, para las que se sabe que son paseos aleatorios sin
correlación alguna :
yt = yt−1 + µt µt ∼ iid(0, σµ2 ) (14.18)
xt = xt−1 + νt νt ∼ iid(0, σu2 ) (14.19)
E(µt , vs ) = 0 ∀t, s; E(µt , µt−k ) = E(vt , vt−k ) = 0 ∀k (14.20)
Este modelo asegura de que x e y son paseos aleatorios (random walks) no correla-
cionados. Consecuentemente, esperaríamos de que el coeficiente β en el modelo
de regresión :
yt = βo + β1 xt + ²t (14.21)
tienda a cero y el R2 también tienda a cero. Sin embargo esto no ocurre debido
a la raíz unitaria presente en x y en y.
Ecuacion (21)
Variable Dependiente : yt
Estimación por OLS
Muestra:1950(1)-1974(4)
205
Es importante notar de que este problema no está relacionado con la muestra,
mas aún al aumentar el tamaño de la muestra la correlación espúrea empeora
(existe mas correlación). Problemas similares estarán reflejados en el estadístico
F el cual progresivamente rechaza la nula H0 = βo = β1 = 0.
Sin embargo, una forma para detectar la presencia de correlación espúrea es me-
diante el uso de estadísticas de autocorrelación, en particular el DW. Si no existe
ninguna relación entre las series entonces el DW tendería a converger a cero a
medida de que la muestra tienda a infinito. Cuando exista una correlación gen-
uina, entonces este estadístico tenderá a converger a un valor finito. Existe una
buena regla de aproximación para detectar correlación espúrea y es al comparar
el valor relativo entre R2 y DW . Si R2 > DW existirá una probabilidad creciente
de que exista correlación espúrea.
yt = α0 + β1 zt + ²t (14.22)
donde y ∼ I(1), z ∼ I(0) . La siguiente tabla compara los valores de los coefi-
cientes para la regresión sobre la muestra completa y también al particionar la
muestra en dos grupos.
Las grandes diferencias en los valores de los coeficientes sobre diferentes sub mues-
tras es característico de una regresión inconsistente y es causada principalmente
por el hecho de que la variable dependiente y la variable independiente tienen
diferentes orden de integración. Claramente si se desea de que la inferencia sea
válida y no dependiente del tiempo, entonces todas las variables en el modelo
deberán tener el mismo orden de integración. Lo que nos queda, eso sí, es deter-
minar la manera de cómo se realizan estas pruebas del orden de integración de
una serie de tiempo.
206
14.8. Pruebas para el Orden de Integración de una
serie : Algunos tests estándar
La prueba del orden de integración de una serie es simplemente probar el valor del
coeficiente α en la ecuación (23). Si este resulta ser menor que la unidad entonces
la serie es estacionaria; si es igual o mayor que uno se dice entonces que y tiene
(al menos) una raíz unitaria y es en consecuencia no estacionaria.
Esto puede ser testeado al construir una prueba de t-student contra la nula de que
H0 : α = 1. Sin embargo, cuando estamos testeando contra esta hipótesis nula
la distribución límite de esta prueba no es una distribución t-student estándar.
En la práctica la distribución es sesgada hacia la izquierda con la mayoría de su
masa menor que cero y de esta forma rechazaremos la nula demasiado a menudo.
La prueba en (24) es aplicada ahora sobre ∆yt−1 y en vez que sobre yt−1 . El
rechazo de la nula confirmaría de que lo que implica de que yt ∼ I(1), en otras
palabras la serie contiene sólo una raíz unitaria. El proceso de diferenciación y
207
prueba continua hasta que la nula (revisada) sea rechazada. El número de difer-
enciaciones sobre yt requeridas para llegar a una representación estacionaria es
igual al orden de integración de la serie.
208
14.8.2. Prueba de Dickey-Fuller aumentado
La selección del largo del rezago j debe asegurar de que el término de error se
distribuye como ruido blanco. El criterio de Información de Akaike (o la prueba
de Schwartz) puede considerarse para estimar el largo óptimo del rezago en (28).
209
también testear el orden de integración de una serie formalmente contra las nulas
usando una prueba F . Para ello considere los siguientes tres modelos alternativos :
210
14.9. Pruebas Adicionales del Orden de Integración
de una Serie.
Paso 1: Estimar α y ρ en (30) por OLS estándar, asi como también el error
estándar ρ de que se denota σp , y por OLS el error estándar de la regresión s.
211
para el caso de la media, usando el estimador consistente de Newey-West para la
varianza de la media muestral.
212
14.9.2. La prueba de Kwiatowski, Phillips, Schmidt y Shin
(KPSS)
213
En el caso donde la nula es definida como estacionaria en niveles, los residu-
os et son derivados de la regresión de yt sobre una constante solamente. El es-
tadístico de prueba es idéntico pero se denota como yµ . El estadístico de prueba
tiene los siguientes valores críticos (obtenidos de Kwiatowski et al 1992, tabla 1).
214
Capítulo 15
Introducción a la Cointegración
15.1. Introducción
15.2. Resumen
1. Marco general de la teoría de cointegración
4. Pruebas de cointegración
215
7. Cointegración multivariada en modelos uniecuacionales
15.2.1. Referencias
Este material es bastante mas complejo y no está bien cubierto en los textos
clásicos. Aquí se entregan algunas referencias.
Aspectos Básicos:
Cointegración de sistemas
Primero, desde un punto de vista económico, sabemos que existen pares de datos
216
que tienden a moverse sistemáticamente parecidos en el tiempo ( por ejemplo,
consumo e ingreso, inflación y tasas de interés nominal) a pesar de que en forma
individual estas series son en su mayoría no estacionarias. La teoría económica
entrega explicaciones sobre estas equilibrios regulares (funciones de consumo, el
efecto Fisher, etc). La cointegración representa una caracterización estadística de
tales relaciones de equilibrio.
Tercero, a pesar de que la teoría económica tiene mucho que decir acerca de
este equilibrio, generalmente no es muy claro al explicar variaciones de corto pla-
zo con respecto a las relaciones de largo plazo. Sin embargo, es claro dado la
naturaleza de las ciencias sociales que los datos que observamos de una economía
representan constante desequilibrio - aunque asumimos de que se está movien-
do hacia un equilibrio - y que en el corto plazo, existe considerable variación en
la mayoría de los datos en series de tiempo (especialmente en aquellos para los
cuales existe mucha frecuencia, p.ej precios de acciones).
217
ineficiente simplemente ignorar series de datos no estacionarias en la estimación
econométrica y de esta forma se hace necesario desarrollar técnicas las que cap-
turen eficientemente la información de datos no estacionarios sin sacrificar la
validez estadística del modelo.
yt = α + βxt + ²t (15.1)
b
²t = yt − ybt = (yt − α b t)
b − βx (15.2)
La combinación lineal de una serie I(0) con otra series I(0) es también I(0). La
combinación lineal de dos series I(1) es también I(1). No obstante, series con un
orden superior de integración dominarán y así la combinación lineal de una serie
I(1) con una I(0) entregará una serie I(1). En términos del análisis de regresión,
la regresión de una serie I(0) con una I(1) (i.e. su combinación lineal) será no
estacionaria y en consecuencia estadísticamente inconsistente.
218
15.5. Definición de Cointegración : el caso Bivari-
ado
Existe, sin embargo, una excepción a la regla general y este caso especial es
el de la cointegración, en el cual la combinación lineal de dos series I(1) es I(0).
219
Los valore críticos de los estadísticos DF y SBDW usados para testear la coin-
tegración deberán ser entonces mayores en valor absoluto que aquellos utilizados
para testear el orden de integración de una serie univariada. Mas aún, dado de
que la regresión crea un término de error con media cero la prueba de DF de la
ecuación necesariamente asume de que no hay constante (drift).
La prueba de SBDW se realiza en forma similar la que se aplica sobre los residuos
de la regresión de cointegración. La prueba tiene la siguiente forma :
P
zt − zbt−1 )2
(b
Q(bz) = P ∼ SBDW Ho : ρ ≥ 1 Ha : ρ < 1 (15.6)
zt − z)2
(b
Para la prueba SBDW valores mayores que el valor crítico reportado en las tablas
representa el rechazo de la nula. Nota : si zt es ruido blanco, el SBDW tendrá un
valor de 2.
Los valores críticos para los estadísticos se presentan en la siguiente tabla. Notar
de que la nula en todos estos test es de no cointegración (no estacionariedad en
la serie de residuos de la regresión de cointegración).
220
15.7. El Modelamiento de Relaciones de Cointe-
gración: Modelo de Corrección de Errores
221
entonces es la solución de largo plazo, o de equilibrio, en el modelo dinámico.
El poder del ECM yace del hecho que combina una rica intuición económica
en su forma funcional con las propiedades estadísticas deseables cuando los datos
no son estacionarios (como la mayoría de los datos macro) sin perder ningún tipo
de información valiosa de largo plazo contenida en la relación de equilibrio.
Teorema 1
Si dos series cointegran entonces será mas eficiente representarlas mediante un
modelo de corrección de errores. Mas aún, si las series cointegran y el modelo de
corrección de errores es validado, entonces está abarcará cualquier otra especifi-
cación dinámica - como el mecanismo de ajuste parcial.
222
Resulta útil notar dos elementos aquí (los que serán discutidos en detalle mas
adelante). El primero es que en comparación con un modelo de ajuste parcial,
el ECM no exhibirá el mismo nivel de multicolinealidad entre los regresores del
modelo : mientras xt y yt−1 pueden ser altamente colineales, no es esperable que
eso ocurra entre ∆xt y (yt−1 − Kxt−1 ).
223
y testear la presencia de cointegración. Si la cointegración es aceptada en-
tonces (11) se dice que representa la relación de largo plazo entre y y x y
el vector de parámetros (α, β) es referido como el vector de cointegración el
que contiene las relaciones de largo plazo o las elasticidades de equilibrio de
largo plazo. El vector de parámetros es único y super consistente (aspecto
que discutiremos mas adelante).
224
alternativo del vector de cointegración.
Este vector puede ser utilizado para construir una combinación lineal (reza-
gada) definida como :
0
zt−1 = (yt−1 − α∗ − Kxt−1 ) (15.16)
Este modelo es lineal en sus variables pero no en sus parámetros dado que
la ecuación a estimar es :
donde
π1 = α2 α3 , π2 = α2 α4
Sin embargo, existe un problema de identificación con este modelo. Sólo si
imponemos la restricción de que o bien α0 = 0 , lo que implica de que no
hay drift en la evolución de yt , o bien que α3 = 0, lo que implica de que no
existe una constante en la relación de largo plazo, podremos recuperar los
225
estimadores de la relación de largo plazo de la regresión de cointegración
al dividir los parámetros estimados π1 , π2 por α2 . Notar de que estamos
tomando ventaja de la normalización de la relación de largo plazo sobre
yt−1 .
A menudo encontramos que los investigadores asumen de que existe sólo un vec-
tor de cointegración multivariado entre las n variables. Este supuesto puede ser
derivado de la teoría. Si este supuesto es válido, entonces la relación puede ser
estimada, testeada y representada por un modelo de corrección de errores uniecua-
cional de forma similar al caso bivariado pero con mas variables. Discutiremos
esto luego; no obstante, teniendo en cuenta de que pueden existir mas de un vec-
tor de cointegración que relacione a las variables, necesitamos en consecuencia un
mecanismo que nos permita determinar el número de vectores de cointegración y
la forma de modelarlos.
226
15.10. Relaciones de Cointegración Multivariada
Uniecuacional
(ii) Asumiendo de que todas las variables son I(1) [o están transformadas de
I(2) a I(1)] regresione la siguiente ecuación estática :
(1) yt = α0 + α0 Xt + ²t
donde
(2) α = (α1 , α2 ...αn )
Si α define el vector de cointegración entonces α será superconsistente -
i.e. convergerán mas rápido en T que el método de OLS. Notar de que es
posible que ciertos elementos de α pueden ser cero.
227
No obstante, y como ya se adelantó, en el caso de regesiones multivari-
adas, el vector de cointegración no debe ser necesariamnente único dado
que pueden existir otras combinaciones lineales de las variables en el vec-
tor α0 que determinen la evolución de las variables en el vector X. De este
modo, necesitaremos alguna metodología para determinar el número de vec-
tores de cointegración. Ello lo estudiaremos en un contexto de cointregación
sistémica o de sistemas.
228
Capítulo 16
Cointegración Sistemica
16.1. Introducción
con n=2
229
2. Si existen vectores de cointegarción multiples necesitamos de un método
para la estimación por sistemas y el sistema es modelado como un Vector
Error Correction Model (V ECM ). Cabe señalar que la cointegarción
de sistemas a su vez entrega un método para probar el número de vectores
de cointegarción entre los elementos de xt
De esta manera podemos tener que existe una función g que representa el equi-
librio interno de la economía la cual asocia e con M s y los salarios reales ( pwn , pwt )
el cual puede generar un vector de cointegración.
Por otra parte está el balance externo el que puede asociar las mismas variables
anteriores mas la ayuda internacional (especialmente en un país menos desarrol-
lado). Esta segunda ecuación puede generar otro vector de cointegración.
P
donde k−1i=1 Γi ∆xt−i es I(0) y πxt−k es I(0) si π contiene las relaciones de coin-
tegración.
230
Por otra parte se tiene que Γi = −(I − π1 − ... − πi ) representa la dinámica
de corto plazo y π = (I − π1 − π2 − ...... − πk ) es la matriz reducida de los
parámetros de largo plazo, en donde:
π = αβ 0
231
Paso 2 Una vez identificada la forma de la matriz Π se especifica el modelo
general de VECM, de la siguiente manera:
k X
X n
∆x1t = Γ1ij ∆xjt−1 + α11 β10 xt−k + α12 β20 xt−k + ... + α1r βr0 + ²1t
i=0 j=1
k X
X n
∆x2t = Γ2ij ∆xjt−1 + α21 β10 xt−k + α22 β20 xt−k + ... + α2r βr0 + ²2t
i=0 j=1
. =.
. =.
. =.
k X
X n
∆xnt = Γnij ∆xjt−1 + αn1 β10 xt−k + αn2 β20 xt−k + ... + αnr βr0 + ²nt
i=0 j=1
Para ello se deberá primero ordenar de mayor a menor los εr . Así, partiendo
por el valor característico mayor, testear por el número de valores caracteristicos
de la siguiente manera:
r εr Nula Alternativa
1 ε1 H0 : r = 0 HA : r ≥ 1
2 ε2 H0 : r = 2 HA : r ≥ 2
.
.
.
n εn H0 : r = n − 1 HA : r = n
232
El número de valores característicos significativos (es decir el número de vectores
de cointegración) es determinado por la hipotesis nula más alta aceptada por los
datos.
Una vez que existen que existen r eigenvalues significativos, estos son usados
para calcular los r vectores de cointegración.
233
r λt -Tln(1-λt 5cv. -TΣln(1-λt ) 5cv.
1 0.4186 45,01∗ 28.167 77,20∗ 53.347
2 0.2662 25,70∗ 21.894 32.19 35.068
3 0.0716 6.17 15.752 6.48 20.168
4 0.0038 0.32 9.094 0.32 9.094
Leyendo la tabla desde la primera fila partimos con la nula de que la matriz
de Π tiene rango cero (H0 : r = 0) contra la alternativa de que r ≥ 1. Notamos
que el valor del estadístico es mayor que el valor crítico rechazándose la nula de
que no existen vectores de cointegración en favor de que existe a lo menos uno.
Se sigue en forma análoga hasta que ya la hipótesis nula no puede ser rechaz-
ada determinándose en consecuencia el número de vectores de cointegración. En
este caso, siguiendo el estadístico de valor crítico máximo, la tabla anterior sugiere
que hay dos vectores. Si se usa, por otra parte, el estadístico de traza se sugiere
que hay solo uno. Si bien los dos estadísticos generalmente apuntan al mismo
resultado, en este caso se favorece el que denote mas vectores.1 .
Ecuación m−p π r y
1
El resultado anterior denota que el segundo vector es estacionario con un ρ cercano a 1 (i.e.
0.95)
234
Ecuación m−p π r y
Dado que encontramos que sólo hay dos relaciones significativas entonces nos de-
beremos focalizar en las dos primeras filas de β en la tabla anterior y en las dos
primeras columnas de α en la última tabla. En otras palabras, las dos últimas
filas y columnas respectivamente pueden ser eliminadas sin pérdida de informa-
ción relevante.
πt = 0,283(yt − trend)
Sus efectos de feedback son un poco mas difíciles de interpretar ya que dado que
r y π no cointegran existen un feedback significativo de la relación de inflación
sobre la tasa de interés.
235
Así el V ECM queda expresado de la siguiente forma(asumiendo que el Var cor-
respondiente es xt = π1 xt−1 + µt )
236