Você está na página 1de 107

Apunte Econometra Aplicada EAE-3520

Rodrigo Troncoso O.
Ponticia Universidad Catlica de Chile
September 1, 2010
1 Series de Tiempo
Una serie de tiempo es un conjunto de observaciones de una misma variable a lo largo del
tiempo. Muchas series en economa son series de tiempo: el PIB, IPC, precios de acciones,
etc...
Tambin se llama a una muestra (j
1
, j
2
, ..., j
T
) o j
t

T
t=1
una serie de tiempo. Con
frecuencia uno puede imaginar que es posible obtener observaciones anteriores (..., j
1
, j
0
)
u observaciones posteriores (j
T+1
, j
T+2
, ...). As, la muestra puede ser vista como un
segmento de una serie innita j
t

1
t=1
.
Lo que hace interesante a las series de tiempo es que sus elementos no son independi-
entes. Por ejemplo, el PIB en Chile sufri un shock negativo el ao 98 que persisti por
varios aos. Sera conveniente usar un enfoque no paramtrico y obtener histogramas para
la densidad conjunta de ..., j
t1
, j
t
, j
t+1
, ..., sin embargo, el tiempo pasa solo una vez. Y
an haciendo algunos supuestos, se requeriran, al menos, unos miles de aos ms de datos.
Es por esto que las series de tiempo intentan describir la densidad conjunta de j
t

1
t=1
mediante el uso de modelos paramtricos. Estos modelos imponen cierta estructura que
hay que vericar que represente las principales caractersticas de los datos. El problema
de estimacin se reduce ahora a encontrar valores para unos pocos parmetros que denen
el modelo.
A continacin vamos a ver los modelos ARMA para describir series de tiempo.
1.1 Procesos ARMA
Antes de empezar vamos a introducir algunos conceptos:
Esperanza
En una muestra se tiene una realizacin particular del proceso estocstico que genera
a la serie j
t

1
t=1
. En teora se podran generar varias realizaciones de estos datos. As,
si se generan 1 series con el mismo proceso se va a tener una muestra de tamao 1 en cada
fecha t para la variable aleatoria j
t
:
1
_
j
(1)
t
, j
(2)
t
, ..., j
(1)
t
_
Esta variable aleatoria va a tener una densidad incondicional ) (j
t
). La esperanza (in-
condicional) de la observacin t se reere a la media de esta distribucin de probabilidades
(se denota j
t
):
1 (j
t
) =
_
1
1
j
t
) (j
t
) dj
t
Por ejemplo, para el proceso j
t
= j -
t
, la media es: 1 (j
t
) = j 1 (-
t
) = j
Analogamente se dene la varianza de la variable aleatoria j
t
(se denota
0t
):

0t
= 1 (j
t
j
t
)
2
=
_
1
1
(j
t
j
t
)
2
) (j
t
) dj
t
Siguiendo con el ejemplo anterior,
0t
= 1 (j
t
j)
2
= 1
_
-
2
t
_
= o
2
Autocovarianza
En forma anloga a como se deni una funcin de densidad para j
t
tambin puede
denirse una funcin de densidad conjunta para un vector de valores j
t
, j
t1
, ..., j
t)
.
Con esta distribucin se puede calcular la ,-sima autocovarianza de j
t
(se denota
)t
):

)t
=
_
1
1
_
1
1
...
_
1
1
(j
t
j
t
)
_
j
t)
j
t)
_
)
jt,j
t1
,...,j
tj
(j
t
, j
t1
, ..., j
t)
)dj
t
dj
t1
...dj
t)
= 1 (j
t
j
t
)
_
j
t)
j
t)
_
Esto corresponde a la covarianza entre j
t
e j
t)
. La autocovarianza
0t
corresponde a
la varianza de j
t
.
En el ejemplo,
)t
= 0 para , ,= 0.
Estacionariedad
Cuando la media j
t
y las autocovarianzas
)t
no dependen de la fecha t, se dice que el
proceso de j
t
es estacionario en covarianzas o dbilmente estacionario:
1 (j
t
) = j \t
1 (j
t
j) (j
t)
j) =
)
\t, ,
Por ejemplo, el proceso j
t
= j -
t
es estacionario en covarianzas, mientras que el
proceso j
t
= ,t -
t
no es estacionario en covarianzas, puesto que su media es funcin del
tiempo.
2
Ntese que en un proceso dbilmente estacionario la covarianza entre j
t
e j
t)
depende
del tiempo que las separa ,, y no de la ubicacin de las observaciones t.
Cuando todos los momentos de las distribuciones conjuntas de cualquier sub-conjunto
de variables aleatorias de la serie j
t

1
t=1
dependen slo del tiempo que las separa se dice
que el proceso es estrictamente estacionario.
El trmino estacionariedad, normalmente se reere a estacionariedad en covarianzas.
Autocorrelacin
La ,-sima autocorrelacin de un proceso estacionario en covarianza (se denota j
)
) se
dene como:
j
)
=

)

0
1.1.1 Procesos Media Mvil (MA)
Un proceso de media mvil de orden o '() tiene la forma:
j
t
= j -
t
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
donde -
t
es una secuencia de ruido blanco que cumple con:
1 (-
t
) = 0
1
_
-
2
t
_
= o
2
1 (-
t
-
t
) = 0 para t ,= t
En el caso de un proceso '(1) se tiene:
j
t
= j -
t
0-
t1
La esperanza de este '(1) es:
1 (j
t
) = j
y sus autocovarianzas son:

0
= 1 (j
t
j)
2
= 1 (-
t
0-
t1
)
2
=
_
1 0
2
_
o
2

1
= 1 (j
t
j) (j
t1
j) = 1 (-
t
0-
t1
) (-
t1
0-
t2
)
= 1
_
-
t
-
t1
0-
t
-
t2
0-
2
t1
0
2
-
t1
-
t2
_
= 0o
2

)
= 1 (j
t
j) (j
t)
j) = 0 para , 1
Un proceso '() es el que resulta cuando :
3
j
t
= j
1

)=0
c
)
-
t)
Este proceso es estacionario si:
1

)=0
c
2
)
<
Esta condicion se conoce como square summability. Otra condicin usada con frecuencia
y que implica square summability es absolute summability:
1

)=0

c
)

<
1.1.2 Procesos Autoregresivos (AR)
Un proceso autoregresivo de orden j o 1(j) tiene la forma:
j
t
= c c
1
j
t1
c
2
j
t2
... c
j
j
tj
-
t
Un caso particular es el 1(1):
j
t
= c cj
t1
-
t
(1)
Este no puede ser estacionario si [c[ _ 1. Esto porque los shocks se van a ir acumulando
en el tiempo en lugar de desaparecer.
Note que en el perodo anterior j
t1
= c cj
t2
-
t1
. Esto se puede reemplazar en
1 y se obtiene:
j
t
= c c(c cj
t2
-
t1
) -
t
= (c -
t
) c(c -
t1
) c
2
j
t2
Si se siguen haciendo reemplazos sucesivos se llega a:
j
t
= (c -
t
) c(c -
t1
) c
2
(c -
t2
) c
3
(c -
t3
) ...
= [c, (1 c)[ -
t
c-
t1
c
2
-
t2
c
3
-
t3
...
Este es un proceso '().
La media del proceso es:
1 (j
t
) = c, (1 c)
La varianza es:
4

0
= 1 (j
t
j)
2
= 1
_
-
t
c-
t1
c
2
-
t2
c
3
-
t3
...
_
2
=
_
1 c
2
c
4
c
6
...
_
o
2
= o
2
,
_
1 c
2
_
Las autocovarianzas son:

)
=
_
c
)
,
_
1 c
2
_
o
2
Las autocorrelaciones son:
j
)
=
)
,
0
= c
)
1.1.3 Procesos ARMA
Un proceso 1'(j, ) combina un proceso 1 con uno ':
j
t
= c c
1
j
t1
c
2
j
t2
... c
j
j
tj
-
t
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
(2)
Este proceso es estacionario si su parte 1 es estacionaria.
1.1.4 Operadores de Rezago
Una forma conveniente de trabajar con procesos 1' es usando el operador de rezago.
Un operador de series de tiempo transforma a una serie en otra nueva. Se entrega como
insumo una serie r
t

1
t=1
y da como resultado una nueva secuencia j
t

1
t=1
. Un ejemplo
de operador de series de tiempo es el de multiplicacin:
j
t
= ,r
t
Otro puede ser la suma:
j
t
= r
t
n
t
El operador de rezagos sera:
j
t
= r
t1
La operacin se describe con el smbolo 1:
1r
t
= r
t1
5
Algunas propiedades del operador de rezagos son:
1
I
r
t
= r
tI
Donde 1
I
indica que el operador se ha aplicado / veces.
Es conmutativo con la multiplicacin:
1(,r
t
) = ,1r
t
Es distributivo con la suma:
1(r
t
n
t
) = 1r
t
1n
t
Como sigue las mismas reglas algebricas que la multiplicacin, se suele decir que una
serie se "multiplica" por 1.
Al aplicar el operador de rezago sobre una serie que es constante, se obtiene la misma
serie: 1c = c.
Ejemplo del uso de operadores de rezago:
(1 `
1
1) (1 `
2
1) r
t
=
_
1 `
1
1 `
2
1 `
1
`
2
1
2
_
r
t
= r
t
(`
1
`
2
) r
t1
(`
1
`
2
) r
t2
Veamos ahora el caso de un 1(1):
j
t
= cj
t1
n
t
Usando el operador de rezagos se puede escribir:
j
t
c1j
t
= n
t
(1 c1) j
t
= n
t
(3)
Ahora, multiplicando ambos lados de 3 por el siguiente operador:
_
1 c1 c
2
1
2
... c
I
1
I
_
Se obtiene:
_
1 c1 c
2
1
2
... c
I
1
I
_
(1 c1) j
t
=
_
1 c1 c
2
1
2
... c
I
1
I
_
n
t
(4)
Desarrollando el lado izquierdo de 4:
6
_
1 c1 c
2
1
2
... c
I
1
I
_
(1 c1) j
t
=
__
1 c1 c
2
1
2
... c
I
1
I
_

_
1 c1 c
2
1
2
... c
I
1
I
_
c1
_
j
t
=
__
1 c1 c
2
1
2
... c
I
1
I
_

_
c1 c
2
1
2
c
3
1
3
... c
I+1
1
I+1
__
j
t
=
_
1 c
I+1
1
I+1
_
j
t
Si [c[ < 1 entonces cuando / sea grande
_
1 c
I+1
1
I+1
_
j
t
j
t
. Esto se puede aprox-
imar tan bien como se desee usando / sucientemente grande. Llamenos al inverso del
operador (1 c1):
(1 c1)
1
= lim
I!1
_
1 c1 c
2
1 ... c
I
1
I
_
Este operador tiene la propiedad:
(1 c1)
1
(1 c1) = 1
Donde "1" denota al operador identidad: j
t
= 1j
t
Entonces, el proceso 1(1) se puede escribir como un '():
j
t
= (1 c1)
1
n
t
j
t
= n
t
cn
t1
c
2
n
t2
...
Tarea: encuentre la representacin '() para un proceso 1(1) con media distinta
de cero (intercepto).
Caso 1(2):
Considere el proceso:
j
t
= c
1
j
t1
c
2
j
t2
n
t
Usando el operador de rezagos:
_
1 c
1
1 c
2
1
2
_
j
t
= n
t
Suponga que se quiere factorizar el polinomio de rezagos del lado izquierdo:
_
1 c
1
1 c
2
1
2
_
= (1 `
1
1) (1 `
2
1) (5)
El objetivo es que ambos lados de 5 representen el mismo operador. Esto va a ocurrir
cuando la siguiente expresin represente la misma funcin de .:
7
_
1 c
1
. c
2
.
2
_
= (1 `
1
.) (1 `
2
.)
La ventaja de esta representacin es que ahora podemos preguntarnos para qu valores
de . es el lado derecho igual a cero? la respuesta es . = `
1
1
o . = `
1
2
. As, resolviendo
la ecuacin de segundo grado:
_
1 c
1
. c
2
.
2
_
= 0 (6)
Se obtienen los valores inversos de los `
0
: que buscamos. Alternativamente, se puede
resolver la ecuacin:
_
`
2
c
1
` c
2
_
= 0 (7)
Para obtener directamente los valores de los `
0
:.
Cuando las raices de 7 yacen dentro del crculo unitario (o alternativamente, las raices
de 6 yacen fuera del circulo unitario) Entonces las inversas:
(1 `
1
1)
1
= 1 `
1
1
1 `
2
1
1
2
`
3
1
1
3
...
(1 `
2
1)
1
= 1 `
1
2
1 `
2
2
1
2
`
3
2
1
3
...
estn bien denidas. Entonces el proceso 1(2) se puede escribir de la siguiente forma:
j
t
= (1 `
1
1)
1
(1 `
2
1)
1
n
t
Notese que esta forma equivale a un proceso '().
Para un proceso 1(j) se procede en forma anloga. Se encuentran los valore `
0
: tales
que:
_
1 c
1
1 c
2
1
2
... c
j
1
j
_
= (1 `
1
1) (1 `
2
1) ... (1 `
j
1)
Usando esta notacin podemos volver a los procesos 1'(j, )
j
t
= c c
1
j
t1
c
2
j
t2
... c
j
j
tj
-
t
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
_
1 c
1
1 c
2
1
2
... c
j
1
j
_
j
t
= c
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
-
t
Como ya vimos, si las races de:
1 c
1
. c
2
.
2
... c
j
.
j
= 0
yacen fuera del crculo unitario, podemos invertir la parte 1(j):
8
j
t
=
c
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
-
t
_
1 c
1
1 c
2
1
2
... c
j
1
j
_
j
t
= j c (1) -
t
(8)
donde
c (1) =
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
_
1 c
1
1 c
2
1
2
... c
j
1
j
_
1

)=0

c
)

<
j = c,
_
1 c
1
c
2
... c
j
_
c (1) es una notacin usada con frecuencia para escribir en forma corta operadores de
la siguiente forma:
c (1) = 1 c
1
1 c
2
1
2
c
3
1
3
...
Ntese que 8 es un proceso '().
1.1.5 Invertibilidad
Veamos el caso de un proceso '(1):
j
t
j = (1 01) -
t
Multiplicando ambos lados por (1 01)
1
:
_
1 01 0
2
1
2
0
3
1
3
...
_
(j
t
j) = -
t
(9)
La expresin 9 corresponde a un proceso 1(). Si un proceso ' puede ser escrito
como una representacin 1(), se dice que el proceso es invertible. En el caso del '(1)
la invertibilidad requiere que [0[ < 1.
En el caso de un proceso '():
j
t
j =
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
-
t
(10)
Si las races de
_
1 0
1
. 0
2
.
2
... 0
q
.
q
_
= 0
9
yacen fuera del crculo unitario, entonces el proceso es invertible, simplemente aplicando
el operador inverso sobre 10:
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
1
1.1.6 Teorema de Descomposicin de Wold
Ya vimos que todos los procesos 1', estacionarios en covarianzas pueden ser escritos
de la forma:
j
t
= j
1

)=0
c
)
-
t)
donde

1
)=0
c
2
)
< y c
0
= 1.
El teorema de Wold (1938) nos dice que esta representacin es an mas general:
Cualquier proceso j
t
estacionario en covarianzas, con media cero puede ser representado
de la forma:
j
t
=
1

)=0
c
)
-
t)
i
t
,
donde c
0
= 1 y

1
)=0
c
2
)
< . El trmino -
t
es ruido blanco y representa el error
hecho en predecir j
t
sobre la base de proyecciones lineales de valores rezagados de j:
-
t
= j
t


1 (j
t
[j
t1
, j
t2
, ...)
El valor de i
t
no est correlacionado con el de -
t)
para cualquier ,, sin embargo, i
t
se puede predecir arbitrariamente bien con una funcin lineal de los valores pasados de j:
i
t
=

1 (i
t
[j
t1
, j
t2
, ...) .
El trmino i
t
es conocido como el componente linealmente determinstico de j
t
, mien-
tras que

1
)=0
c
)
-
t)
es llamado el componenete linealmente indeterminstico.
El inconveniente con este teorema es que implica estimar un nmero innito de parmet-
ros en c(1). As, que en la prctica se hace el supuesto adicional de que c(1) se puede
expresar como el ratio de dos polinomios nitos:
c(1) =
1 0
1
1 0
2
1
2
... 0
q
1
q
1 c
1
1 c
2
1
2
... c
j
1
j
es decir, que cualquier serie estacionaria en covarianzas se puede representar como un
proceso 1' nito.
10
1.1.7 Estimacin Mximo Verosimil de Procesos ARMA
AR(p) Con Errores Gaussianos
j
t
= c c
1
j
t1
c
2
j
t2
... c
j
j
tj
-
t
con -
t
~
_
0, o
2
_
. El vector de parmetros poblacionales a estimar es =
_
c, c
1
, c
2
, ..., c
j
, o
2
_
.
Condicional en las t 1 observaciones anteriores, la observacin t es gaussiana con
media
c c
1
j
t1
c
2
j
t2
... c
j
j
tj
y con varianza o
2
. Note que slo las ltimas j observaciones importan para esta dis-
tribucin, as, la densidad para la observacin t es:
)
jtjj
t1
,j
t2
,...,j
tp
(j
t
[j
t1
, j
t2
, ..., j
tj
; )
=
1
_
2o
2
oxp
_

_
j
t
c c
1
j
t1
c
2
j
t2
... c
j
j
tj
_
2
2o
2
_
La funcin de mxima verosimilitud para la muestra de tamao T, condicional en las
j primeras observaciones es entonces:
)
j
T
,j
T1
,...,j
p+1
jjp,...,j
1
(j
T
, j
T1
, ..., j
j+1
[j
j
, ..., j
1
; )
=
T

t=j+1
)
jtjj
t1
,j
t2
,...,j
tp
(j
t
[j
t1
, j
t2
, ..., j
tj
; )
El logaritmo de la funcin de verosimilitud condicional sera
/() = log
_
)
j
T
,j
T1
,...,j
p+1
jjp,...,j
1
(j
T
, j
T1
, ..., j
j+1
[j
j
, ..., j
1
; )
_
=
T j
2
log (2)
T j
2
log
_
o
2
_

t=j+1
_
j
t
c c
1
j
t1
c
2
j
t2
... c
j
j
tj
_
2
2o
2
Los valores de c, c
1
, c
2
, ..., c
j
que maximizan esa funcin son los mismos que minimizan
T

t=j+1
_
j
t
c c
1
j
t1
c
2
j
t2
... c
j
j
tj
_
2
11
Es decir, los estimadores de Mnimos Cuadrados Ordinarios. El estimador mximo
verosimil de o
2
es:
o
2
=
1
T j
T

t=j+1
_
j
t
c

c
1
j
t1

c
2
j
t2
...

c
j
j
tj
_
2
Tambin se pueden estimar los parmetros de usando la funcin de verosimilitud
exacta, pero, es ms complicado numericamente.
MA(q) Con Errores Gaussianos Para estimar el proceso '(),
j
t
= j -
t
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
,
se suele condicionar en que los primeros valores de - fueron todos cero:
-
0
= -
1
= ... = -
q+1
= 0
de estos valores iniciales, se calcula
-
t
= j
t
j 0
1
-
t1
0
2
-
t2
... 0
q
-
tq
para t = 1, 2, ..., T. El logaritmo de la funcin de verosimilitud condicional es entonces:
/() = log
_
)
j
T
,j
T1
,...,j
1
j.
0
....
q+1
=0
(j
T
, j
T1
, ..., j
1
[-
0
...-
q+1
= 0; )
_
=
T
2
log (2)
T
2
log
_
o
2
_

t=1
-
2
t
2o
2
donde =
_
j, 0
1
, ..., 0
q
, o
2
_
. Esta expresin es vlida cuando las raices de
1 0
1
. 0
2
.
2
... 0
q
.
q
= 0
yacen todas fuera del crculo unitario.
Para hacer el cculo numrico se debe iterar sobre los valores de 0
1
, ..., 0
q
hasta maxi-
mizar /(0).
Tarea: Cul es el estimador de o
2
?
Estimacin de Procesos ARMA(p,q) Estos procesos tienen la forma de 2
j
t
= c c
1
j
t1
c
2
j
t2
... c
j
j
tj
-
t
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
donde -
t
~ i.i.d.
_
0, o
2
_
. Ahora hay que estimar el vector de parmetros poblacionales
. En el caso de los procesos 1 se condicionaba en los valores iniciales de j
0
:, en el caso
12
de los ' se condicionaba en los valores iniciales de los -
0
:. En el caso de los 1' se
condiciona tanto en los j
0
: como en los -
0
:.
Tomando los valores iniciales y
0
= (j
0
, j
1
, ..., j
j+1
) y "
0
= (-
0
, -
1
, ..., -
q+1
) como
dados, se puede calcular la secuencia -
1
, -
2
, ..., -
T
a partir de j
1
, j
2
, ..., j
T
con
-
t
= j
t
c c
1
j
t1
c
2
j
t2
... c
j
j
tj
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
para t = 1, 2, ..., T. El logaritmo de la funcin de verosimilitud es entonces
/() = log
_
)
j
T
,j
T1
,...,j
1
jy
0
,"
0
=0
(j
T
, j
T1
, ..., j
1
[y
0
, "
0
= 0; )
_
=
T
2
log (2)
T
2
log
_
o
2
_

t=1
-
2
t
2o
2
(11)
Para los valores iniciales "
0
se usa su valor esperado, es decir, cero. Para los val-
ores iniciales y
0
una alternativa es suponerlos todos iguales a su valor esperado 1 (j
t
) =
c,
_
1 c
1
c
2
... c
j
_
. Box y Jenkins (1976, p. 211) recomiendan usar los valores
observados de las primeras j observaciones. Note que en este ltimo caso la muestra sera
de tamao T j.
Se usan mtodos numricos para obtener los valores de 0
0
: y c
0
: que maximizan 11.
De nuevo, la estimacin es vlida si las raices de
1 0
1
. 0
2
.
2
... 0
q
.
q
= 0
yacen fuera del crculo unitario.
1.1.8 Inferencia
Con T sucientemente grande, los estimadores mximos verosmiles distribuyen aproxi-
madamente:
^
-
_

0
, T
1
1
1
_
donde
0
denota los parmetros verdaderos e 1 es la matriz de informacin que se puede
estimar con el estimador de segunda derivadas:

1
21
= T
1
0
2
/()
00
0
[
0=
^
0
Y la matriz de varianzas y covarianzas de
^
se puede aproximar con
1
_

0 0
0
__

0 0
0
_
0
~
=
_

0
2
/()
00
0
[
0=
^
0
_
1
13
Para hacer tests de hiptesis se puede usar el test de ratio de verosimilitud
2
_
/
_
^

_
/
_

_
_
-
2
(:)
donde : es en nmero de restricciones impuestas.
1.1.9 Prediccin
En el caso de los procesos 1 la prediccin es simple:
1
t+)1
(j
t+)
) = c c
1
j
t+)1
c
2
j
t+)2
... c
j
j
t+)j
para los valores pasados de j se pueden usar los observados (prediccin esttica) o
los predichos por el modelo (prediccin dinmica). En la medida que , ambas
predicciones van a converger a la media incondicional de j, c,
_
1 c
1
c
2
... c
j
_
.
La prediccin con modelos ' es similar, pero se usan los valores ajustados de - para
las observaciones anteriores a T y cero para las posteriores a T. Si la prediccin es por ms
de perodos adelante, esta va a corresponder a la media incondicional j del proceso.
Para hacer los intervalos de conanza de las predicciones anteriores es necesario com-
putar la varianza del error de prediccin. Pueden hacerlo como tarea para los casos de un
'() y de un 1(1). Ms adelante vamos a ver una forma conveniente de computar las
varianzas del error de prediccin para cualquier proceso 1'.
1.1.10 Funciones de Impulso Respuesta
Muchas veces es interesante preguntarse cul es el efecto sobre j de un shock hoy. Es
decir
0j
t+j
0.t
. Recordemos que cualquier proceso 1' estacionario en covarianzas puede
escribirse como un proceso '()
j
t
= j -
t
0
1
-
t1
0
2
-
t2
...
De esta representacin es fcil ver que
0j
t+)
0-
t
= 0
)
Ahora vamos a ver una forma fcil de obtener una representacin '() para cualquier
proceso 1'. Primero, cualquier proceso 1' puede escribirse fcilmente en forma
vectorial como un 1(1). Por ejemplo, considere el caso de un proceso 1'(2, 1):
j
t
= c
1
j
t1
c
2
j
t2
0
1
-
t1
-
t
(12)
Tambin podemos escribir 12 de la siguiente forma:
14
_
_
j
t
j
t1
-
t
_
_
=
_
_
c
1
c
2
0
1
1 0 0
0 0 0
_
_

_
_
j
t1
j
t2
-
t1
_
_

_
_
1
0
1
_
_
-
t
o alternativamente,
1
t
= 11
t1
Cn
t
Note que si se dene,
C =
_
_
o
0
o
_
_
y n
t
=
-
t
o
se obtiene un error con matriz de varianzas y covarianzas igual a la matriz identidad.
Para obtener la representacin '() se hacen reemplazos sucesivos, igual que antes,
slo que ahora con las matrices:
1
t
= (1 1)
1
Cn
t
1Cn
t1
1
2
Cn
t2
...
A la representacin '() tambin se le conoce como funcin impulso-respuesta
porque describe el comportamiento que sigue j en el tiempo luego de un shock.
1.1.11 Prediccin con la Representacin AR(1)
Usando la representacin 1(1) de un proceso 1'(j, ) se pueden hacer predicciones
condicionales en t para / perodos adelante usando:
1
t
(j
t+I
) =
_
1 1 1
2
... 1
I1
_
1
I
j
t
Condicional en t, el perodo siguiente tendremos que
j
t+1
= 1j
t
Cn
t+1
Para dos perodos adelante
j
t+2
= 11
2
j
t
1Cn
t+1
Cn
t+2
Para / perodos adelante
j
t+I
=
_
1 1 1
2
... 1
I1
_
1
I
j
t
1
I1
Cn
t+1
1
I2
Cn
t+2
... 1Cn
t+I1
Cn
t+I
15
El error de prediccin es, entonces
j
t+I
1
t
(j
t+I
) = 1
I1
Cn
t+1
1
I2
Cn
t+2
... 1Cn
t+I1
Cn
t+I
Luego, la varianza condicional del error de prediccin corresponde a
ar
t
(j
t+I
) =
I1

)=0
1
)
CC
0
1
)0
Recuerde que se puede denir C de tal forma que 1 (n
t
n
0
t
) = 1. Adems, si r es un
vector de variables aletorias y 1 una matriz, entonces ar (1r) = 1ar(r)1
0
.
1.1.12 Correlogramas
Al momento de estimar un proceso 1' se tiene el problema que no se conocen j y
. Una forma de encontrar una especicacin para la ecuacin a estimar es estudiando las
autocorrelaciones y las autocorrelaciones parciales de la serie. La representacin de estas
correlaciones se conoce como correlograma.
Ya vimos que las autocorrelaciones son j
)
=

j

0
, donde
)
es la ,-sima autocovarianza.
Suponga que j
1
,= 0, es decir, hay correlacin entre una variable y la que la precede. Ahora
consideremos tres observaciones j
t
, j
t1
, j
t2
como j
t
est correlacionada con j
t1
y a su
vez j
t1
con j
t2
, se puede inducir correlacin entre j
t
e j
t2
. La autocorrelacin parcial
corrige por este efecto. Mide la correlacin entre j
t
e j
t),
neta de la correlacin entre j
t
e
j
t1
, j
t2
, ..., j
t)+1
. La ,-sima autocorrelacin parcial se calcula haciendo regresiones de
MCO
j
t
= c a
1
j
t1
a
2
j
t2
... a
)
j
t)
-
t
El estimador MCO a
)
corresponde a la ,-sima autocorrelacin parcial.
Tanto a los estimadores de la autocorrelacin como a los de la autocorrelacin parcial se
les construyen intervalos de conanza aproximados para un 5% de signicancia alrededor
del cero
2
p
T
.
Correlograma de un proceso MA(q) Para el proceso
j
t
= j -
t
0
1
-
t1
0
2
-
t2
... 0
q
-
tq
las autocovarianzas son

0
=
_
1 0
2
1
0
2
2
... 0
2
q
_
o
2

)
=
(0
)
0
)+1
0
1
0
)+2
0
2
... 0
q
0
q)
) o
2
para , = 1, 2, ...,
0 para ,
16
a
j
1 2
j
. . .
3 4 5 6

j
. . .
1 2 q-1 q q+1 q+2
j
Autocorrelaciones Autocorrelaciones Parciales
las autocorrelaciones van a ser distintas de cero hasta la -sima, en adelante van a ser
todas cero.
Un proceso '() estacionario en covarianzas se puede escribir como un proceso
1():
j
t
= c c
1
j
t1
c
2
j
t2
...
Si se hacen regresiones de j
t
en j
t1
, j
t2
, ..., j
t)
los coecientes estimados deberan
ser todos distintos de cero y decrecientes para cumplir con la condicin de absolute sum-
mability.
Luego, en los procesos '() las autocorrelaciones son distintas de cero hasta la -
sima y, en adelante, son todas cero, mientras que las autocorrelaciones parciales van a ir
decreciendo como se muestra en la gura 1.1.12.
Correlograma de un proceso AR(p) Anteriormente vimos que un proceso 1(j)
puede ser escrito como un '(). Como las autocorrelaciones en un proceso '() son
distintas de cero hasta , en el caso de un '() estas van a ser todas distintas de cero
y decrecientes por la condicin de absolute summability.
Recordemos que, en general, si se excluyen variables en un modelo de regresin lineal,
los coecientes estimados van a estar sesgados, pero, si se incluyen variables irrelevantes
no va a haber sesgo. As, en el modelo
j
t
= c a
1
j
t1
a
2
j
t2
... a
j
j
tj
-
t
si se corre la regresin
j
t
= c a
1
j
t1
-
t
esperaramos obtener un valor de a
1
distinto de cero y con un sesgo que depende de su
covarianza con als variables omitidas. En cambio, si se corre la regresin
17

j
1 2
j
. . .
3 4 5 6
a
j
. . .
1 2 p-1 p p+1 p+2
j
Autocorrelaciones Autocorrelaciones Parciales
j
t
= c a
1
j
t1
a
2
j
t2
... a
j
j
tj
a
j+1
j
tj1
-
t
El valor de c
j+1
va a ser cercano a cero, dado que el estimador es insesgado 1 ( a
j+1
) = 0.
Es decir, las autocorrelaciones parciales en un proceso 1(j) van a ser distintas de cero
hasta la j-sima, en adelante van a ser todas cercanas a cero. La gura 1.1.12 muestra
cmo se vera el correlograma para un proceso 1(j).
As, con un anlisis visual de los correlogramas se puede ser de utilidad al momento de
identicar la forma de proceso.
Cmo se vera el correlograma de un proceso 1'(j, )?
1.2 Modelos de Ecuaciones Simultneas
A modo de ilustracin, considere el caso en que se quiere estimar la demanda por el bien
que se presume que tiene la siguiente forma

o
t
= ,j
t
-
o
t
(13)
donde , < 0, y -
o
son factores distintos del precio que afectan a demanda.
Sin embargo, el precio tambin afecta a la oferta del bien segun una ecuacin como:

c
t
= j
t
-
c
t
En el equilibrio
,j
t
-
o
t
= j
t
-
c
t
Resolviendo el sistema se tiene
j
t
=
-
o
t
-
c
t
,

t
=

,
-
o
t

,
,
-
c
t
18
Si se estima la ecuacin 13 con MCO se obtiene el estimador:
/
T
=
(1,T)

T
t=1
j
t

t
(1,T)

T
t=1
j
2
t
Es fcil ver que este estimador es inconsistente
/
T
j

o
2
o
,o
2
c
o
2
o
o
2
c
Este problema ocurre siempre que algunas de las variables explicativas sean endgenas,
es decir, estn correlacionadas con el error.
1.2.1 Mnimos Cuadrados en Dos Etapas
Una forma de estimar cuando hay variables endgenas en el modelo es con los Mnimos
Cuadrados en Dos Etapas (MC2E). Suponga que se quiere estimar el modelo
1 = A, n
donde A es una matriz de T / y , el vector de parmetros de dimensin / 1.
Suponga que de las variables que componene A, hay : _ / variables endgenas y / :
variables predeterminadas o exgenas (que no estn correlacionadas con el error). Para
estimar , es necesario contar con instrumentos. Estas son variables adicionales que estn
correlacionadas con las variables endgenas de As , pero, que no estn correlacionadas
con el error. Llamemos 7 la matriz que contiene a estos instrumentos (al menos :) y a las
variables exgenas de A.
Ahora, en vez de usar las variables endgenas para hacer la regresin, vamos a usar
una proyeccin de estas sobre el hiperplano denido por los instrumentos, llamemos a esta
proyeccin

A

A = 7
_
7
0
7
_
1
7
0
A = 1
Z
A
Donde 1
Z
se conoce como matriz de proyeccin.
Luego, el estimador de MC2E es

,
AC21
=
_

A
0
A
_
1
_

A
0
1
_
=
_

A
0

A
_
1
_

A
0
1
_
La ltima igualdad se deriva del hecho que 1
Z
es idempotente.
19

,
AC21
=
_

A
0
A
_
1
_

A
0
1
_
=
_

A
0
A
_
1
_

A
0
A,

A
0
n
_
=
_

A
0
A
_
1
_

A
0
A
_
,
_

A
0
A
_
1
_

A
0
n
_
= ,
_

A
0
A
_
1
_

A
0
n
_
Los instrumentos deben cumplir
j lim
_

A
0

A
T
_
1
= \
j lim
_

A
0
n
T
_
= 0
donde \ es una matriz nita.
Luego se tiene que los estimadores de MC2E son consistentes
j lim
_

,
AC21
_
= , j lim
_

A
0
A
T
_
1
j lim
_

A
0
n
T
_
= ,
1.3 Autoregresiones de Vectores
En economa el tema de la endogeneidad es muy delicado. Es dicil encontrar variables
realmente exgenas para la economa, como la temperatura, los terremotos o los das de sol.
Casi todas las variables en economa podran considerarse endgenas hasta cierto punto.
Sin embargo, prima un criterio de relevancia. As. si bien es cierto que un comerciante, al
jar el precio de las empanadas est afectando la inacin, parece razonable suponer que
la inacin es exgena al precio de las empanadas de este comerciante.
Hay que tener mucho cuidado al hacer este tipo de supuestos cuando se estn haciendo
estimaciones con datos macroeconmicos. Ya que las variables macro no son insignicantes
para el resto, en general. Por ejemplo, en la gura 1.3 se hace un grco entre la inacin
y la tasa de inters. La teora nos dice que la inacin debe bajar al subir la tasa, pero,
en el grco se observa una relacin positiva entre estas variables. Esto, porque la tasa es
endgena. El Banco Central observa la inacin antes de decidir que tasa de inters jar
como objetivo.
20
Tasas vs Inflacin (1998 - 2000)
0.00
0.50
1.00
1.50
2.00
2.50
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00
variacin IPC 12 meses
t
a
s
a

i
n
t
e
r
b
a
n
c
a
r
i
a
Una forma de tratar con este problema es mediante las autoregresiones de vectores o
\ 1s. En este tipo de modelos se empieza tratando a todas las variables como endgenas.
El objetivo principal de los \ 1s es estudiar funciones impulso-respuesta en sistemas
que involucren a varias variables. Por ejemplo, cmo un shock (exgeno) en la cantidad de
dinero afecta a los precios y a la actividad por los prximos 5 aos.
Esto es muy similar a lo visto en el caso de los procesos 1(j), pero con varias variables.
As un \ 1(j) se escribe:
j
t
= c 1
1
j
t1
1
2
j
t2
... 1
j
j
tj
-
t
(14)
donde j
t
es un vector de tamao : 1, c es un vector : 1 de constantes, 1
)
son
matrices : : de coecientes y -
t
es un vector : 1 de errores que son ruido blanco:
1 (-
t
) = 0
1
_
-
t
-
0
t
_
=
_
\ si t = t
0 si no
donde \ es una matriz : : simtrica positiva denida.
1.3.1 Estimacin
Se quiere formular la funcin de densidad conjunta para la muestra de vectores j
t
(de :1)
que sigue el proceso descrito por 14. Suponga que la muestra es de T j perodos. Al
igual que antes, vamos a utilizar la funcin de verosimilitid condicional en las primeras j
observaciones
21
)
j
T
,j
T1
,...,j
1
jj
0
,j
1
,...,j
p+1
(j
T
, j
T1
, ..., j
1
[j
0
, j
1
, ..., j
j+1
; )
donde es el vector de parmetros (c, 1
1
, 1
2
, ..., 1
j
, \).
El valor de j
t
condicional en las observaciones pasadas es
c 1
1
j
t1
1
2
j
t2
... 1
j
j
tj
(15)
ms un vector : 1 de variables (0, \). Entonces,
j
t
[j
t1
, j
t2,
..., j
j+1
~ ((c 1
1
j
t1
1
2
j
t2
... 1
j
j
tj
) , \) (16)
Para simplicar notacin denamos
r
t
=
_

_
1
j
t1
j
t2
.
.
.
j
tj
_

_
(17)
Note que r
t
es un vector de dimensin (:j 1) 1. Ahora denamos
H
0
= [c 1
1
1
2
1
j
[ (18)
Luego, la media condicional 15 puede escribirse como H
0
r
t
y la distribucin condicional
de j
t
de la ecuacin 16
j
t
[j
t1
, j
t2,
..., j
j+1
~
_
H
0
r
t
, \
_
Con esta notacin, la densidad condicional de la t-sima observacin es (recuerde que
en cada perodo se genera un vector de observaciones)
)
jtjj
t1
,j
t2
,...,j
tp+1
(j
t
[j
t1
, j
t2
, ..., j
tj+1
; )
= (2)
a2

\
1

12
oxp
_
(1,2)
_
j
t
H
0
r
t
_
0
\
1
_
j
t
H
0
r
t
_
_
La funcin de densidad condicional conjunta para toda la muestra es
)
j
T
,j
T1
,...,j
1
jj
0
,j
1
,...,j
p+1
(j
T
, j
T1
, ..., j
1
[j
0
, j
1
, ..., j
j+1
; )
=
T

t=1
)
jtjj
t1
,j
t2
,...,j
tp+1
(j
t
[j
t1
, j
t2
, ..., j
tj+1
; )
Sacando logaritmos se obtiene
22
/() =
T

t=1
log
_
)
jtjj
t1
,j
t2
,...,j
tp+1
(j
t
[j
t1
, j
t2
, ..., j
tj+1
; )
_
= (T:,2) log (2) (T,2) log

\
1

(1,2)
T

t=1
_
_
j
t
H
0
r
t
_
0
\
1
_
j
t
H
0
r
t
_
_
El estimador mximo verosimil de H es (para demostracin ver Hamilton p. 293)

H
0
[aa(aj+1)]
=
_
T

t=1
j
t
r
0
t
__
T

t=1
r
t
r
0
t
_
1
La ,-sima la de esta matriz (los coecientes estimados de la ,-sima ecuacin del
\ 1) es

0
)
1a(aj+1)
=
_
T

t=1
j
)t
r
0
t
__
T

t=1
r
t
r
0
t
_
1
Esto corresponde a hacer una regresin de MCO entre j
)t
en una constante y j rezagos
de todas las otras variables del sistema.
Para encontrar el estimador mximo verosimil de \ se evala la funcin de verosimilitud
en

H y luego se maximiza
/
_
\,

H
_
= (T:,2) log (2) (T,2) log

\
1

(1,2)
T

t=1
-
0
t
\
1
-
t
Sabemos que la matriz \ es simtrica y positiva denida. Sin embargo, vamos a en-
contrar los valores de \ no restringidos que maximicen la funcin de verosimilitud. Esto
se logra derivando respecto a \
1
e igualando a cero.
0/
_
\,

H
_
0\
1
= (T,2)
0 log

\
1

0\
1
(1,2)
T

t=1
0-
0
t
\
1
-
t
0\
1
= (T,2) \
0
(1,2)
T

t=1
-
t
-
0
t
= 0
=

\ = (1,T)
T

t=1
-
t
-
0
t
23
Note que sin restringir la matriz \ se tiene que el estimador mximo verosimil es una
matriz simtrica denida positiva.
El elemento de la la i, columna i de

\ est dado por
o
2
i
= (1,T)
T

t=1
-
2
it
El elemento de la la i, columna , de

\ corresponde a
o
i)
= (1,T)
T

t=1
-
it
-
)t
Note estas expresiones corresponden a las varianzas y covarianzas muestrales de los
residuos de regresiones MCO de las ecuaciones individuales del \ 1.
1.3.2 Inferencia
Para determinar el nmero ptimo de rezagos de un \ 1 se puede realizar un test de
razn de verosimilitud. La funcin de verosimilitud evaluada en los estimadores es
/
_

\,

H
_
= (T:,2) log (2) (T,2) log

\
1

(1,2)
T

t=1
-
0
t

\
1
-
t
Pero, el ltimo trmino puede escribirse como
(1,2)
T

t=1
-
0
t

\
1
-
t
= (1,2) tra.a
_
T

t=1
-
0
t

\
1
-
t
_
= (1,2) tra.a
_
T

t=1

\
1
-
t
-
0
t
_
= (1,2) tra.a
_

\
1
_
T

\
__
= (1,2) tra.a (T.1
a
) = T:,2
Para hacer el test, la hiptesis nula es que el las variables fueron generadas por un
\ 1 con j
0
rezagos y la hiptesis alternativa es que fueron j
1
rezagos, con j
1
j
0
. Bajo
H
0
, el mximo valor de la funcin de verosimilitud es
/

0
= (T:,2) log (2) (T,2) log

\
1
0

(T:,2)
donde

\
0
= (1,T)

T
t=1
-
t
(j
0
) [-
t
(j
0
)[
0
24
Bajo H
1
el mximo valor que alcanza la funcin de verosimilitud es
/

1
= (T:,2) log (2) (T,2) log

\
1
1

(T:,2)
Luego se usa el estadgrafo con distribucin
2
2 (/

1
/

0
) = T
_
log

\
0

log

\
1

_
~
2
a
2
(j
1
j
0
)
Recuerde que

= 1, [[. Los grados de libertad corresponden al nmero de re-


stricciones. En este caso, hay : ecuaciones, y en cada ecuacin se imponen :(j
1
j
0
)
restricciones.
Para corregir el sesgo por muestra pequea, Sims(1980) sugiere usar el siguiente estad-
grafo
(T /)
_
log

\
0

log

\
1

_
donde / = 1 :j
1
es el nmero de parmetros estimados en cada ecuacin.
1.3.3 Modelos Estructurales y VARs
Los \ 1s describen relaciones dinmicas entre : variables, pero, sin una teora detrs.
Considere un ejemplo sencillo de un modelo de oferta y demanda por un bien. La oferta
es del tipo modelo de la telaraa, es decir, se ve afectada por el precio pasado del bien.
Supongamos que la demanda tambin tiene dinmica, ya sea por costos de ajuste, infor-
macin incompleta o persistencia de hbitos.
oferta :
t
= c
1
c
2
j
t
c
3
j
t1
-
c
t
demanda :
t
= ,
1
,
2
j
t
,
3

t1
-
o
t
Sabemos que no podemos estimar estas ecuaciones por separado por el problema de
endogeneidad. Sin embargo, se pueden estimar las formas reducidas:
j
t
=
,
1
c
1
c
2
,
2

c
3
c
2
,
2
j
t1

,
3
c
2
,
2

t1

-
o
t
-
c
t
c
2
,
2

t
=
c
2
,
1
c
1
,
2
c
2
,
2

c
3
,
2
c
2
,
2
j
t1

c
2
,
3
c
2
,
2

t1

c
2
-
o
t
,
2
-
c
t
c
2
,
2
Matricialmente, podemos escribir el sistema original de la siguiente forma
_
c
2
1
,
2
1
_ _
j
t

t
_
=
_
c
1
,
1
_

_
c
3
0
0 ,
3
_ _
j
t1

t1
_

_
-
c
t
-
o
t
_
25
o, alternativamente
1j
t
= c 1j
t1
-
t
premultiplicando el sistema por 1
1
se obtienen las formas reducidas
j
t
= 1
1
c 1
1
1j
t1
1
1
-
t
redeniendo matrices
j
t
= w
0
w
1
j
t1

t
(19)
Ya sabemos que los estimadores mximos verosmiles corresponden a los de MCO para
obtener

w
0
y

w
1
. En la literatura estndar se hacen supuestos y se buscan variables
instrumentales para identicar el sistema y rescatar los valores de (1, c, 1). Con los \ 1s
estructurales no nos interesa conocer los valores de los coecientes. De hecho, note que al
incluir varios rezagos de una misma variable se va a tener una alta colinealidad y va a ser
normal encontrar coecientes individuales poco signicativos. La pregunta que tratan de
responder los \ 1s es cmo evoluciona el sistema luego de un shock. En el ejemplo, se
podra ver cmo evolucionan las cantidades y los precios luego de un shock en la oferta, o
luego de un shock en la demanda.
La ecuacin 19 puede escribirse como una representacin '(), al igual que en el
caso univariado
j
t
= O
0

t
O
1

t1
O
2

t2
...
donde O
0
= (1 w
1
)
1
w
0
y O
i
= w
i
1
para i ,= 0.
Esto no es ms que la funcin de impulso-respuesta que vimos anteriormente. El prob-
lema es que cada elemento de
t
es una combinacin lineal de todos los shocks. Ahora no
se quieren identicar los parmetros del modelo, se quieren identicar los shocks.
1.3.4 Ortogonalizacin
Para identicar los shocks es necesario hacer una serie de supuestos. En primer lugar, se
supone que los shocks originales no estn correlacionados, 1 (-
t
-
0
t
) = 1o
2
. Sin este supuesto
no tendra sentido preguntarse cul es el efecto de un shock de oferta, dado que no hubo
shock de demanda. Muchas veces resulta conveniente trabajar con shocks normalizados
para que tengan varianzas iguales a uno
1
_
-
t
-
0
t
_
= 1
Los errores de la forma reducida son
t
= 1
1
-
t
. Para ver el efecto de un shock de un
elemento de -
t
es necesario conocer 1
1
.
La matriz de varianzas y covarianzas de la forma reducida es
26
= 1
_

0
t
_
= 1
_
1
1
-
t
-
0
t
1
10
_
=
_
1
0
1
_
1
Una vez estimado el modelo 19 se pueden rescatar los residuos y estimar esta matriz
de varianzas y covarianzas 1
_

0
t
_
= .
Ahora se puede encontrar 1
1
a partir de . El problema es que hay ms de una
matriz raz cuadrada que cumpla = 1
1
1
10
, por ejemplo C
1
= 1
1
1, con 11
0
= 1.
Sims (1980) propone usar una descomposicn triangular inferior, es decir, que 1
1
tenga la forma
1
1
=
_
/
11
0
/
21
/
22
_
Esto signica que la primera variable de j
t
slo se ve afectada en forma contempornea
por los shocks propios (primer elemento de -
t
). La segunda variable de j
t
se ve afectada
contemporneamente por los dos primeros shocks en -
t
, y as sucesivamente para sistemas
con ms de dos ecuaciones. Para encontrar 1
1
se hace una descomposicin de Cholesky
de .
Ntese que el orden de las ecuaciones es arbitrario. Distintos ordenamientos van a
llevar a distintos resultados. En este sentido, se puede recurrir a la teora para ver qu
ordenamiento es ms razonable. O tambin puede ser que los resultados no sean muy
sensibles al orden de las ecuaciones.
1.3.5 Representacin VAR(1) de un VAR(p)
Para efectos de computar la funcin de impulso-respuesta (o representacin '()) de
un \ 1 resulta conveniente reescribir el \ 1(j) como un proceso \ 1(1). Se procede en
forma anloga a lo visto para el caso univariado. Suponga que se tiene el siguiente proceso
multivariado
j
t
= 1
0
1
1
j
t1
1
2
j
t2
... 1
j
j
tj

t
(20)
Esto se puede ordenar de la siguiente forma para obtener una forma \ 1(1)
_

_
j
t
j
t1
j
t2
.
.
.
j
tj+1
_

_
=
_

_
1
0
0
0
.
.
.
0
_

_
1
1
1
2
1
3
1
j
1 0 0 0
0 1 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 1 0
_

_
_

_
j
t1
j
t2
j
t3
.
.
.
j
tj
_

t
0
0
.
.
.
0
_

_
o alternativamente
1
t
= C 1
t1
c
t
(21)
27
1.3.6 Funciones de Impulso-Respuesta
Ya dijimos que con los \ 1s el inters no son los coecientes, sino las funciones de impulso-
respuesta. As que en vez de hacer tests de signicancia sobre los parmetros, se van a
construir bandas de conanza para las funciones de impulso-respuesta, y su interpretacin
va a ser la usual.
Para computar la funcin de impulso-respuesta en un \ 1 se puede usar la repre-
sentacin \ 1(1) 21, luego obtener la representacin '()
1
t
= (1 )
1
C c
t
c
t1

2
c
t2
... (22)
Para obtener las respuestas a los shocks originales (que se supone son ortogonales entre
ellos y de varianza unitaria) se descompone
t
= 1
1
-
t
, donde 1
1
1
10
= 1
_

0
t
_
.
Luego, si se quiere obtener la respuesta del sistema a un shock a la ecuacin i se hace
-
0
t
= [0 0 1 0 0[, donde el 1 va en la i-sima posicin. Despus del shock, la respuesta
del sistema en los perodos siguientes va a ser:
t 0 1 2 8 ...
1
t
c
0
c
0

2
c
0

3
c
0
...
Recuerde que las variables del sistema van a estar en las primeras : las del vector 1
t
.
Ahora falta construir los intervalos de conanza para la funcin impulso-respuesta us-
ando simulaciones de Monte Carlo. Usando la misma notacin introducida en 17 y 18,
necesitamos la distribucin de los parmetros estimados

H
aaj+1
. Sea = cc
_

H
_
el vector
:(:j 1) 1 que ordena las columnas de

H una debajo de la otra. Por ejemplo,
cc
_
a /
c d
_
=
_

_
a
c
/
d
_

_
Entonces, se puede demostrar que
-
_
_
, \
_
T

t=1
r
t
r
0
t
_
1
_
_
donde denota al producto de Kronecker.
Para hacer las simulaciones de Monte Carlo, se generan realizaciones de una distribucin

_
,

\
_

T
t=1
r
t
r
0
t
_
1
_
, y para cada una se genera una funcin de impulso-respuesta.
Suponga que se generan 10.000 simulaciones, para cada perodo t y para cada variable i
del sistema se encuentra un valor j
i,t
tal que 250 de las simulaciones le pasen por arriba y
un valor y

i,t
tal que 250 de las simulaciones le pasen por abajo.
28
1.3.7 Descomposicin de la Varianza
Considere la representacin '() de un proceso multivariado ortogonalizado,
j
t
= O
0
-
t
O
1
-
t1
O
2
-
t2
O
3
-
t3
...
1
_
-
t
-
0
t
_
= 1
El error de prediccin 1 perodo en el futuro es
j
t+1
1
t
(j
t+1
) = O
0
-
t+1
y su varianza es
ar
t
(j
t+1
) = O
0
ar (-
t
) O
0
0
Supongamos que el proceso tiene 2 ecuaciones, entonces
ar
t
(j
t+1
) =
_
0
11
0
12
0
21
0
22
_ _
o
2
1
0
0 o
2
2
_ _
0
11
0
21
0
12
0
22
_
=
_
o
2
1
0
2
11
o
2
2
0
2
12
o
2
1
0
11
0
21
o
2
2
0
12
0
22
o
2
1
0
11
0
21
o
2
2
0
12
0
22
o
2
1
0
2
21
o
2
2
0
2
22
_
La varianza de la primera variable corresponde a o
2
1
0
2
11
o
2
2
0
2
12
de esta varianza, 0
2
11
proviene del shock 1 y 0
2
12
del shock 2 (recuerde que normalizamos o
2
1
= o
2
2
= 1). As, la
varianza de cada variable de j
t
se puede descomponer de acuerdo al shock que la genera.
Usualmente se normaliza para expresarla como porcentajes: 0
2
11
,
_
0
2
11
0
2
12
_
proviene del
shock 1 y 0
2
12
,
_
0
2
11
0
2
12
_
del shock 2. Ms formalmente, se pueden denir las matrices
cuadradas 1
t
que tienen un uno en la posicin t de la diagonal principal y ceros en el resto
de las celdas. En este caso,
1
1
=
_
1 0
0 0
_
; 1
2
=
_
0 0
0 1
_
Usando esta notacin, la varianza un perodo adelante a causa del shock t corresponde
a

1,t
= O
0
1
t
O
0
0
En forma similar se procede para / perodos adelante. El error de prediccin / perodos
en el futuro es
1
t+I
1
t
(1
t+I
) = O
0
-
t+I
O
1
-
t+I1
... O
I1
-
t+1
29
La varianza del error de prediccin es
ar
t
(1
t+I
) = O
0
O
0
0
O
1
O
0
1
... O
I1
O
0
I1
Y la varianza producida por el shock t, / perodos adelante, corresponde a

I,t
=
I1

)=0
O
)
1
t
O
0
)
Ya vimos que cualquier proceso \ 1(j) puede ser representado como un \ 1(1). As,
podemos obtener las representaciones '() y.descomponer la varianza usando las ex-
presiones anteriores. En la representacin 21 se puede descomponer el error de la siguiente
forma
1
t
= C 1
t1
1
1
-

t
donde,
1
1
=
_
1
1
0
0 0
_
-

t
=
_
-
t
0
_
Reemplazando esto en la representacin '() de 22
1
t
= (1 )
1
C 1
1
-

t
1
1
-

t1

2
1
1
-

t2
...
1
t
= (1 )
1
C O
0
-

t
O
1
-

t1
O
2
-

t2
...
1
t
= C

O(1) -

t
Usando esta representacin, el error de prediccin / perodos en el futuro es
1
t+I
1
t
(1
t+I
) = O
0
-

t+I
O
1
-

t+I1
... O
I1
-

t+1
La varianza del error de prediccin es
ar
t
(1
t+I
) = O
0
O
0
0
O
1
O
0
1
... O
I1
O
0
I1
Para el caso / = 1, la varianza del error de prediccin es O
0
O
0
0
. Sea 1
t
la matriz con un
1 en la t-sima posicin de la diagonal principal y ceros en el resto de las celdas. Entonces,
O
0
1
t
O
0
0
es la varianza debida slo al t-simo shock. La matriz 1
t
"desactiva" al resto de
los shocks. La varianza total se puede descomponer de la siguiente forma
30
ar
t
(1
t+1
) =
a

i=1
O
0
1
i
O
0
0
Llamando 0
i
1,1
al elemento (1, 1) de la matriz O
0
1
i
O
0
0
. El porcentaje de la variacin
total de la primera variable del vector j
t
debido a los shocks de la i-sima ecuacin es
0
i
1,1

a
)=1
0
i
1,1
En forma similar, para / perodos adelante, la cantidad de varianza proveniente del
t-simo shock corresponde a

I,t
=
I1

)=0
O
)
1
t
O
0
)
Note que
I,t
es una matriz de (: :) en realidad de (:j :j), pero slo nos interesan
sus primeros : elementos el elemento (i, i) corresponde a la parte de la varianza de la i-
sima variable j
t
originada por el shock t. De nuevo, estas descomposiciones se pueden
normalizar para que sumen 1.
Otra forma simple de computar la varianza proveniente de cada shock es a partir de
la funcin impulso-respuesta. Si la funcin impulso-respuesta de la variable i del proceso
causada por el shock t es
t 0 1 2
j
i,t
t
a
0
a
1
a
2

Entonces, la cantidad de varianza en la variable i proveniente del shock t para / perodos
adelante corresponde a
_
a
2
0
a
2
1
... a
2
I
_
.
1.4 Mtodo de Momentos Generalizado
La idea es calcular los parmetros de una distribucin a partir de los momentos muestrales.
Supongamos que son los parmetros que caracterizan la densidad de la variable observada.
Supongamos que a distintos momentos pueden ser calculados en funcin de
1
_
j
i
t
_
= j
i
() para i = i
1
, i
2
, ..., i
o
El mtodo clsico de momentos obtiene el estimador
^
con el cual el momento pobla-
cional se iguala al momento muestral:
j
i
_
^

_
= (1,T)
T

t=1
j
i
t
para i = i
1
, i
2
, ..., i
o
31
Por ejemplo, suponga que se tiene una muestra j
1
, j
2
, ..., j
T
que provino de una
distribucin normal con parmetros
_
j, o
2
_
. Sabemos que el primer momento de la normal
existe y es la media. El estimador de momentos sera,
j = (1,T)
T

t=1
j
t
(23)
Sabemos tambin que el segundo momento (no centrado) de la normal es 1
_
j
2
t
_
=
o
2
j
2
, luego, el estimador de momentos es,
o
2
= (1,T)
T

t=1
j
2
t
j
2
(24)
Con esto se obtienen estimaciones consistentes de los parmetros de la distribucin.
Sin embargo, an es posible obtener ms estimadores de momentos, por ejemplo, se sabe
que en el caso de la normal
1
_
j
3
t
_
= 8jo
2
j
3
Luego, el estimador de momentos sera
(1,T)
T

t=1
j
3
t
= 8 j o
2
j
3
(25)
Esta expresin se puede juntar con 23 o 24 para obtener el estimador del parmetro
faltante. El problema es que si se obtienen ( o, j) mediante 23 y 24, se llega a un resultado
distinto a que si se usan por ejemplo 23 y 25. El mtodo generalizado de momentos resuelve
este problema encontrando ( o, j) a partir de las tres ecuaciones, en este caso, a pesar de
que no exista un par ( o, j) que las satisfaga al simultneamente.
El mtodo generalizado de momentos minimiza una funcin "criterio" como
Q(; j
T
, j
T1
, ..., j
1
) = q
0
\q
donde, en el ejemplo anterior,
q =
_

_
(1,T)

T
t=1
j
t
j
(1,T)

T
t=1
j
2
t
j
2
o
2
(1,T)

T
t=1
j
3
t
8 j o
2
j
3
_

_
mientras que \ es una matriz de 8 8 positiva denida que pondera los momentos.
Por ejemplo, si \ = 1 entonces todos los momentos son ponderados de igual forma. La
caracterizacin ms general de este mtodo de estimacin fue hecha por Hansen (1982),
quien le di el nombre de "mtodo de momentos.generalizado".
32
A continuacin una breve descripcin del problema de estimacin. Sea n
t
un vector
(/ 1) de variables observadas el perodo t, sea 0 el vector (a 1) de parmetros descono-
cidos y sea h(0, n
t
) una funcin en R
v
, h :
_
R
o
rR
I
_
R
v
. Como n
t
es aleatoria, h(0, n
t
)
tambin lo es. Llamando 0
0
al vector de parmetros verdaderos, suponga que
1 h(0
0
, n
t
) = 0 (26)
Las r condiciones de 26 tambin se conocen como condiciones de ortogonalidad. Sea
1
T
=
_
n
0
T
, n
0
T1
, ..., n
0
1
_
0
el vector (T/ 1) que contiene las T observaciones de cada una
de las / variables. Sea g (0; 1
T
) la contraparte muestral de 26
g (0; 1
T
) = (1,T)
T

t=1
h(0, n
t
)
Note que g : R
o
R
v
. La idea de mtodo de momentos generalizados es buscar el
0 que haga el momento muestral g (0; 1
T
) tan cercano como sea posible a la contraparte
poblacional que es cero. El estimador

0
T
es el que minimiza el escalar
Q(0; 1
T
) = [g (0; 1
T
)[
0
\
T
[g (0; 1
T
)[
donde \
T
es la matriz que pondera las condiciones. Si las variables n
t
son estacionarias
y h() es continua, entonces los estimadores del MMG son consistentes.
Se puede demostrar que la matriz ponderadora ptima es la inversa de la matriz de
varianzas y covarianzas de g (0; 1
T
). La intuicin de este resultado es que se da mayor
ponderacin a los momentos que tengan menores varianzas, es decir, a los ms precisos.
Note que h(0
0
, n
t
)
1
t=1
es una serie de tiempo vectorial. Se asume que esta serie es
estrictamente estacionaria con media cero y -sima matriz de autocovarianzas
I

= 1
_
[h(0
0
, n
t
)[ [h(0
0
, n
t
)[
0
_
Ahora denamos
o =
1

=1
I

Recuerde que g (0
0
; 1
T
) es la media muestral de h(0
0
; n
t
). Se puede demostrar que
la matriz o es asintticamente, T veces la matriz de varianzas y covarianzas de la media
muestral de h(0
0
; n
t
):
o = lim
T!1
T 1
_
[g (0
0
; 1
T
)[ [g (0
0
; 1
T
)[
0
_
Luego, el estimador MMG de 0 es el que minimiza
Q(0; 1
T
) = [g (0; 1
T
)[
0
o
1
[g (0; 1
T
)[ (27)
33
Si el proceso h(0
0
, n
t
)
1
t=1
no est serialmente correlacionado, un estimador consis-
tente de o es
o

T
= (1,T)
T

t=1
[h(0
0
, n
t
)[ [h(0
0
, n
t
)[
0
Si el proceso h(0
0
, n
t
)
1
t=1
estcorrelacionado serialmente, un estimador consistente
de o es el sugerido por Newey y West (1987)

o
T
=

I
0,T

q

=1
1 [, ( 1)[
_

I
,T


I
0
,T
_
donde

I
,T
= (1,T)
T

t=+1
_
h
_

0, n
t
__ _
h
_

0, n
t
__
0
Note que para obtener los estimadores

0 es necesario minimizar 27, pero, para computar
o es necesario tener estimadores de 0. Por eso, se resuelve iterativamente. Primero se
minimiza 27 usando o = 1, esto arroja estimadores consistentes de 0. Luego se computa
el estimador de o y se vuelve a minimizar 27 y obtener nuevos estimadores de 0. Esto se
puede respetir varias veces, hasta que los estimadores dejen de cambiar.
Este mtodo de estimacin slo sirve para series estacionarias. Se tienen series no
estacionarias, es necesario hacerlas estacionarias antes de estimar. Por ejemplo, sacando
promeras diferencias, como veremos ms adelante.
1.5 Modelos de Series de Tiempo No Estacionarias
Hay ciertas caractersticas de las series estacionarias que no parecen ser buenos supuestos
para describir ciertas series econmicas. Por ejemplo, en una serie estacionaria 1 (j
t
) = j
y las predicciones convergen a la media incondicional, lim
c!1
j
t+cjt
= j. Sin embargo, el
PIB, IPC y M2 parecen ir creciendo en el tiempo.
Existen dos formas populares de describir este comportamiento. El primero es incluir
una tendencia determinstica:
j
t
= c ct c (1) -
t
(28)
Ahora la media es una funcin lineal del tiempo. Este proceso tambin de conoce como
estacionario alrededor de la tendencia (trend-stationary), porque si se le resta la tendencia
queda un proceso estacionario.
La otra alternativa es un proceso con raz unitaria,
(1 1) j
t
= c c (1) -
t
34
con

1
t=0

c
)

< . El operador (1 1) saca primeras diferencias. Otra notacin


utilizada para este operador es la letra griega ^. Para ver un poco lo que est detrs de
un proceso con raz unitaria, considere la siguiente especicacin
j
t
= c ct n
t
(29)
donde n
t
sigue un proceso 1'(j, )
_
1 c
1
1 c
2
1
2
... c
j
1
j
_
n
t
=
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
-
t
(30)
ya habamos visto que si las raices de 1 c
1
. c
2
.
2
... c
j
.
j
= 0 yacen fuera del
crculo unitario el proceso n
t
puede expresarse como
n
t
=
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
(1 `
1
1) (1 `
2
1) ... (1 `
j
1)
-
t
Supongamos ahora que una de estas raices es justamente igual a uno, por ejemplo
`
1
= 1. En este caso, el polinomio
_
1 c
1
1 c
2
1
2
... c
j
1
j
_
se puede factorizar
como (1 1) (1 `
2
1) ... (1 `
j
1). Sin embargo, el operador inverso de (1 1) no existe.
Podemos escribir,
(1 1) n
t
=
_
1 0
1
1 0
2
1
2
... 0
q
1
q
_
(1 `
2
1) (1 `
3
1) ... (1 `
j
1)
-
t
= c (1) -
t
donde c (1) es un proceso estacionario. Sacando primeras diferencias de 29
(1 1) j
t
= (1 1) c (1 1) ct (1 1) n
t
= ct c (t 1) c (1) -
t
= c c (1) -
t
El origen del trmino raz unitaria se debe a que en estos procesos una de las raices de
la parte 1 de n
t
es igual a uno. A estos procesos tambin se les conocen como integrados
de orden uno. Se escribe j
t
~ 1 (1). Se llaman integrados porque al sacar diferencias se
obtiene un proceso estacionario ^j
t
= r
t
. En este caso, j
t
es la integral de r
t
respecto al
tiempo. En tiempo continuo queda ms claro: dj (t) ,dt = r(t), luego j es la integral de
r. Si se hubiesen encontrado dos raices iguales a uno en 1 c
1
. c
2
.
2
... c
j
.
j
= 0,
entonces se dice que el proceso es integrado de orden 2, o j ~ 1 (2).
Los procesos como 30 se denominan 11'(j, d, ). Donde j determina el largo de
la parte 1 (sin incluir las races unitarias), d el orden de integracin, y el largo de la
parte '.
35
1.5.1 Comparacin Entre Procesos Estacionarios Alrededor de una Tendencia
y Procesos Integrados
El pronstico para un proceso estacionario con tendencia como 28, : perodos adelante,
condicional en t es
j
t+cjt
= c c (t :) c
c
-
t
c
c+1
-
t1
c
c+2
-
t2
...
La condicin de absolute summability implica que
1
_
j
t+cjt
c c (t :)

2
0 cuando :
Para pronosticar un proceso con raz unitaria, considere que el valor que va a alcanzar
una variable j, : perodos adelante, partiendo de j
t
es
j
t+c
= ^j
t+c
^j
t+c1
... ^j
t+1
j
t
Recuerde que ^j
t
= j
t
j
t1
sigue un proceso estacionario que puede ser pronosticado
usando
^ j
t+cjt
=

1 [j
t+c
j
t+c1
[j
t
, j
t1
, ...[ = c c
c
-
t
c
c+1
-
t1
c
c+2
-
t2
...
Luego, el pronstico de j
t+cjt
sera
j
t+cjt
= ^ j
t+cjt
^ j
t+c1jt
... ^ j
t+1jt
j
t
=
_
c c
c
-
t
c
c+1
-
t1
c
c+2
-
t2
...
_

_
c c
c1
-
t
c
c
-
t1
c
c+1
-
t2
...
_
... c c
1
-
t
c
2
-
t1
c
3
-
t2
... j
t
= :c j
t

_
c
c
c
c1
... c
1
_
-
t

_
c
c+1
c
c
... c
2
_
-
t1
...
El error de prediccin para el modelo estacionario con tendencia es
j
t+c
j
t+cjt
= c c (t :) -
t+c
c
1
-
t+c1
c
2
-
t+c2
...
c
c1
-
t+1
c
c
-
t
c
c+1
-
t1
...
c c (t :) c
c
-
t
c
c+1
-
t1
c
c+2
-
t2
...
= -
t+c
c
1
-
t+c1
c
2
-
t+c2
... c
c1
-
t+1
El error cuadrtico medio (ECM) de la prediccin es
36
1
_
j
t+c
j
t+cjt

2
=
_
1 c
2
1
c
2
2
... c
2
c1
_
o
2
El ECM de la prediccin crece con el horizonte :, pero converge a la varianza incondi-
cional de la parte estacionaria del proceso c (1) -
t
lim
c!1
1
_
j
t+c
j
t+cjt

2
=
_
1 c
2
1
c
2
2
c
2
3
...
_
o
2
En el proceso con raz unitaria, el error de pronstico es
j
t+c
j
t+cjt
= ^j
t+c
^j
t+c1
... ^j
t+1
j
t

_
^ j
t+cjt
^ j
t+c1jt
... ^ j
t+1jt
j
t
_
=
_
-
t+c
c
1
-
t+c1
... c
c1
-
t+1
_

_
-
t+c1
c
1
-
t+c2
... c
c2
-
t+1
_
... -
t+1

= -
t+c
1 c
1
-
t+c1
1 c
1
c
2
-
t+c2
...

_
1 c
1
c
2
... c
c1
_
-
t+1
y el ECM
1
_
j
t+c
j
t+cjt

2
= 1 (1 c
1
)
2
(1 c
1
c
2
)
2
...

_
1 c
1
c
2
... c
c1
_
2
o
2
En este caso, el ECM se incrementa con el horizonte de prediccin.
Otra diferencia importante entre ambos procesos es el impacto que tiene una innovacin
-
t
sobre j
t+c
. En el caso de un proceso estacionario alrededor de una tendencia se tiene
0j
t+c
0-
t
= c
c
Como c (1) -
t
es estacionario, el efecto de un shock tiende a desaparecer en el futuro
lim
c!1
0j
t+c
0-
t
= 0
En un proceso con raz unitaria, el efecto de un shock sobre j
t+c
es
0j
t+c
0-
t
=
0j
t
0-
t
c
c
c
c1
... c
1
= 1 c
1
c
2
... c
c
Ahora, una innovacin -
t
tiene un efecto permanente en el futuro nivel de j
lim
c!1
0j
t+c
0-
t
= 1 c
1
c
2
... = c (1)
37
1.5.2 Tests de Races Unitarias
Considere el siguiente modelo con raz unitaria, conocido como caminata aleatoria
j
t
= jj
t1
n
t
(31)
El estimador MCO de j es
j =

T
t=1
j
t
j
t1

T
t=1
j
2
t1
A primera vista pareciera sencillo testear si la serie tiene raz unitaria, haciendo un test
t con H
0
: j = 1 y H
1
: j < 1. El problema es que el estadgrafo ( j 1) , o
^ j
no tiene
distribucin t, ni converge a una distribucin normal a medida que se agranda la muestra
cuando efectivamente j = 1 (s lo hace si j < 1). La verdadera distribucin es sesgada
hacia abajo.
Test de Dickey-Fuller Dickey y Fuller (DF) sugieren ciertas especicaciones y encuen-
tran las distribuciones correctas de los estadgrafos para hacer el test de raz unitaria.
Considere la caminata aleatoria 31, restando j
t1
a ambos lados se obtiene
^j
t
= (j 1) j
t1
n
t
^j
t
= j
t1
n
t
(32)
Corriendo una regresin MCO del modelo 32 se obtiene . Ahora, si hay una raz
unitaria = 0. Esta es la hiptesis nula del test DF. El estadgrafo de DF se calcula igual
que el estadgrafo t = ,o
^
. La diferencia con el test t tradicional, es que el DF no tiene
distribucin t, sino una distribucin no estndar que no puede ser evaluada analticamente.
Para encontrar los valores crticos del test se usan simulaciones de Monte Carlo. Otras
especicaciones consideradas por DF son
^j
t
= a
0
j
t1
n
t
^j
t
= a
0
j
t1
a
2
t n
t
La distribucin del estadgrafo DF es sensible al tamao de la muestra y a la especi-
cacin del modelo.
Test de Dickey-Fuller Aumentado No todas las series de tiempo pueden ser bien
representadas por un proceso 1(1). El test de Dickey-Fuller Aumentado (ADF) permite
especicar procesos autorregresivos de orden mayor
38
j
t
= a
0
a
1
j
t1
a
2
j
t2
... a
j2
j
tj+2
a
j1
j
tj+1
a
j
j
tj
n
t
Si al proceso 1(j) se le suma y resta a
j
j
tj+1
se obtiene
j
t
= a
0
a
1
j
t1
a
2
j
t2
... a
j2
j
tj+2
(a
j1
a
j
) j
tj+1
a
j
^j
tj+1
n
t
Ahora, se suma y se resta (a
j1
a
j
) j
tj+2
j
t
= a
0
a
1
j
t1
a
2
j
t2
...
(a
j2
a
j1
a
j
) j
tj+2
(a
j1
a
j
) ^j
tj+1
a
j
^j
tj+1
n
t
Siguiendo de esta forma se obtiene
^j
t
= a
0
j
t1

j

i=2
,
i
^j
ti+1
n
t
(33)
donde = (1

j
i=1
a
i
) y ,
i
=

j
)=i
a
)
.
La hiptesis nula del test ADF es = 0, es decir,

j
i=1
a
i
= 1. Note que en la ecuacin
en diferencias
j
t
= a
0
a
1
j
t1
a
2
j
t2
... a
j2
j
tj+2
a
j1
j
tj+1
a
j
j
tj
La ecuacin caracterstica es
`
j
a
1
`
j1
a
2
`
j2
... a
j1
` a
j
= 0
si

j
i=1
a
i
= 1, entonces, al menos una de las races de la solucin homognea es igual
a uno. Basta ver que en este caso, ` = 1 es solucin de la ecuacin caracterstica.
Para hacer el test ADF se hace una regresin MCO de 33 y se computa el estadgrafo
t = ,o
^
. Al igual que antes este estadgrafo tiene una distribucin no estndar y los
valores crticos del test se obtienen haciendo simulaciones de Monte Carlo. En el test
tambin se puede incluir una tendencia lineal en 33.
1.6 Cointegracin
Se dice que un vector de series de tiempo j
t
cointegra si cada una de las series del vector
es 1 (1), pero, existe alguna combinacin lineal de las series a
0
j
t
que es 1 (0). Donde a es
un vector no nulo de (: 1).
Por ejemplo, considere el siguiente sistema
39
j
1t
= j
2t
n
1t
j
2t
= j
2t1
n
2t
ambos procesos son 1 (1), pero, el proceso (j
1t
j
2t
) es estacionario. En este caso,
j
t
= (j
1t
, j
2t
)
0
es cointegrado, con a
0
= (1, ).
Si a es un vector de cointegracin, entonces tambin lo es /a, donde / es un escalar.
As que hay innitos vectores de cointegracin. Para resolver este problema se suele nor-
malizar el vector de cointegracin haciendo que su promer elemento sea uno. Adems, si se
tienen : series, entonces es posible que existan / _ : vectores de cointegracin linealmente
independientes.
1.6.1 Correlacin Esprea
Considere los siguientes dos procesos 1 (1)
j
1t
= j
1t1
n
1t
j
2t
= j
2t1
n
2t
Estas caminatas aleatrias son absolutamente independientes una de la otra. La trayec-
toria que siga una no afecta el recorrido de la otra. En este caso, no existe ningn vector
de cointegracin a tal que a
0
j ~ 1 (0). Suponga, ahora, que se estima el siguiente modelo
usando MCO
j
1t
= ,
0
,
1
j
2t
-
t
Debido a la independencia de las series, se debera esperar un 1
2
bajo y tests t y 1
no signicativos. Sin embargo, ocurre lo contrario, el 1
2
tiende a ser alto y los test t y 1
signicativos. Cuando se hace una regresin con series que no cointegran, se obtiene un
error 1 (1), los estadgrafos van a diverger, as la regresin va a parecer "buena", es decir,
hay correlacin esprea.
1.6.2 Test de Cointegracin de Engel y Granger
Suponga que se tiene un vector de : series 1 (1), j
t
= (j
1t
, j
2t
, ..., j
at
) y se quiere encontrar
un vector de cointegracin a = (a
1
, a
2
, ..., a
a
). Para encontrar un vector de cointegracin
Engle y Granger sugieren hacer una regresin de MCO de la ecuacin
j
1t
= ,
2
j
2t
,
3
j
3t
... ,
a
j
at
-
t
(34)
Si la serie
40
a
0
j
t
=
_
1 ,
2
,
3
,
a

_
j
1t
j
2t
.
.
.
j
at
_

_
= -
t
es 1 (0) entonces a es un vector de cointegracin. Una de las caractersticas de una serie
1 (0) es que tiene varianza nita. Con MCO se est encontrandojustamente, el vector
que minimiza la varianza de la serie a
0
j
t
. Con cualquier otro vector a

que no sea de
cointegracin, la serie a
0
j
t
va a tener varianza innita.
Para testear si efectivamente el vector de cointegracin encontrado a es de cointegracin,
basta con testear si la serie -
t
= a
0
j
t
es 1 (1). Si se rechaza la nula de que -
t
~ 1 (1) entonces
las series de j
t
son cointegradas. Para esto se puede hacer un test ADF sobre -
t
.
El problema es que en realidad no se cuenta con la serie -
t
sino que con la serie estimada
-
t
. Esto hace que la varianza del estadgrafo sea an mayor que la del test ADF. Es decir,
los valores crticos para rechazar la nula (de no cointegracin) van a ser ms estrictos que
los del test ADF. Mackinnon (1991) tiene tablas con los valores crticos de este test.
Al correr una regresin de MCO para estimar un modelo como 34, y las variables
son efectivamente cointegradas, entonces los estimadores que se obtienen son superconsis-
tentes. Esto signica que convergen a los valores poblacionale a tasas ms rpidas que los
estimadores MCO de series estacionarias.
1.7 Modelo de Correccin de Errores
Considere un vector de : procesos integrados j
t
~ 1 (1). Sacando primeras diferencias ^j
t
se obtiene un proceso estacionario, con c = 1 (^j
t
). Luego, la representacin Wold del
proceso
n
t
= ^j
t
c (35)
corresponde a,
n
t
= -
t
w
1
-
t1
w
2
-
t2
... = w(1) -
t
donde 1 (-
t
) = 0, 1 (-
t
-
0
t
) = \ y 1 (-
t
-
t
) = 0, para t ,= t. Sea w(1) el polinomio de
matrices w(.) evaluado en . = 1
w(1) = 1
a
w
1
w
2
w
3
...
Ya dijimos que pueden haber ms de un vector de cointegracin. Sea
0
la matriz
(/ :) que contiene los / vectores de cointegracin
41

0
=
_

_
a
0
1
a
0
2
.
.
.
a
0
I
_

_
Se puede demostrar que si
0
j
t
es estacionario, entonces

0
w(1) = 0

0
c = 0
Suponga que j
t
sigue el siguiente proceso
1(1) j
t
= c -
t
(36)
donde 1 = 1
a
1
1
1 1
2
1
2
... 1
j
1
j
.
La representacin 35 del proceso ^j
t
se puede escribir como
(1 1) j
t
= c w(1) -
t
Premultiplicando por 1(1) se obtiene
(1 1) 1(1) j
t
= 1(1) c 1(1) w(1) -
t
Reemplazando 36 en esta ltima expresin
(1 1) -
t
= 1(1) c 1(1) w(1) -
t
(37)
ya que (1 1) c = 0. La igualdad de 37 debe mantenerse para cualquier realizacin de
-
t
, esto implica que
1(1) c = 0
Entonces, tanto (1 1) 1
a
como 1(1) w(1) repressentan idnticos polinomios de 1.
Esto signica que (1 .) 1
a
= 1(.) w(.), para cualquier valor de ., en particular para
. = 1, as,
1(1) w(1) = 0
Pero, en ese caso, cada la de 1(1) debe ser un vector de cointegracin. Todo vector de
cointegracin puede obtenerse como una combinacin lineal de los vectores de cointegracin
contenidos en la matriz
0
de (/ :). Entonces, debe existir una matriz 1 tal que
1(1) = 1
0
42
Veamos ahora una forma de representar un proceso cointegrado como
j
t
= c 1
1
j
t1
1
2
j
t2
... 1
j
j
tj
-
t
donde los 1s son matrices de (: :) y, c y -
t
son vectores (: 1). Procediendo igual
que con 33, cuando derivamos la ecuacin a estimar para el test ADF, podemos escribir
equivalentemente
j
t
=
1
^j
t1

2
^j
t2
...
j1
^j
tj+1
c jj
t1
-
t
donde j = 1
1
1
2
... 1
j
y
c
= [1
c+1
1
c+2
... 1
j
[ para : = 1, 2, ..., j 1.
Restando j
t1
a ambos lados produce
^j
t
=
1
^j
t1

2
^j
t2
...
j1
^j
tj+1
c
0
j
t1
-
t
donde
0
= j 1
a
= (1
a
1
1
1
2
... 1
j
) = 1(1). Pero ya vimos que 1(1) =
1
0
entonces se puede escribir
^j
t
=
1
^j
t1

2
^j
t2
...
j1
^j
tj+1
c 1
0
j
t1
-
t
Esta representacin se conoce como de correccin de errores. Por un lado tiene la
relacin de cointegracin, o de largo plazo entre las variables en niveles, y por otro un
polinomio de rezagos de las variables en diferencias que describen la evolucin de corto
plazo de ^j
t
.
1.8 Estacionalidad
Una serie es estacional cuando su valor esperado no es constante, pero vara con una pauta
cclica:
1 (.
t
) = 1 (.
t+c
)
se dice que la serie tiene estacionalidad de perodo :. As, para series mensuales, : = 12 y
para datos trimestrales : = 4. Una forma sencilla de modelar un proceso con estacionalidad
es suponiendo que el proceso resultante es la suma de dos componentes:
.
t
= o
(c)
t
j
t
donde o
(c)
t
es el componente estacional de perodo :, y j
t
es un proceso estacionario
con media incondicional j. La serie no es estacionaria:
1 (.
t
) = j 1
_
o
(c)
_
Como la media no es constante, el proceso no es estacionario.
43
Pueden hacerse varios supuestos respecto del comportamiento del componente esta-
cional. El ms sencillo es que o
(c)
t
sea un proceso determinista, una funcin constante para
el mismo mes en cada ao:
o
(c)
t
= o
(c)
t+Ic
/ = 1, 2, ...
Tpicamente se ocupan senos y cosenos (procesos sinusoidales).
o
(c)
t
= 1sin(nt 0)
donde n = 2,:, 1 es la amplitud del ciclo y 0 se conoce como ngulo de desfase.
Otra forma de modelar la estacionalidad es suponer que su evolucin es estacionaria,
es decir, el factor estacional no es constante, pero, su evolucin es estacionaria al rededor
de algn valor medio:
o
(c)
t
= j
(c)

t
donde j
(c)
es constante y depende del mes y
t
es un proceso estacionario con media
cero.
Una tercera forma es permitir que el valor cambie en el tiempo, pero, sin ningn valor
medio jo. Es decir, que la estacionalidad sea no estacionaria:
o
(c)
t
= o
(c)
tc

t
donde
t
es un proceso estacionario con media cero.
En cualquiera de estos tres casos se puede convertir a la serie estacional en estacionaria
aplicando una "diferencia estacional". Sea el operador de diferencia estacional de perodo
::
^
c
= 1 1
c
Aplicando este operador sobre una serie con estacionalidad se obtiene:
^
c
.
t
= ^
c
o
(c)
t
^
c
j
t
Ahora hay que comprobar que ^
c
.
t
es una serie estacionaria:
1.- Si el componente de o
(c)
t
es determinista:
^
c
o
(c)
t
= o
(c)
t
o
(c)
tc
= 0
por lo que:
^
c
.
t
= ^
c
j
t
44
A diferenciar el proceso estacionario ^
c
j
t
se obtiene otro estacionario, as la diferencia
^
c
transforma a .
t
en una serie estacionaria.
2.- Si o
(c)
t
sigue un proceso estacionario, al tomar diferencias estacionales se obtiene:
^
c
o
(c)
t
= ^
c
j
(c)
^
c

t
= ^
c

t
Al igual que antes, ^
c

t
sigue siendo estacionario, por lo que al diferenciar estacional-
mente .
t
se obtiene:
^
c
.
t
= ^
c

t
^
c
j
t
que corresponde a la suma de dos procesos estacionarios.
3.- Si el componente o
(c)
t
es no estacionario, se tiene:
^.
t
=
t
^j
t
que tambin corresponde a un proceso estacionario.
1.8.1 El Modelo ARIMA Estacional
Ya vimos que se pueden transformar series integradas en estacionales usando diferencias
regulares (entre perodos consecutivos). Ahora vimos que se puede eliminar la estacional-
idad mediante el uso de diferencias estacionales. Uniendo ambos resultados, podemos
convertir una serie integrada con estacionalidad en estacionaria mediante:
n
t
= ^
1
c
^
o
.
t
donde .
t
es una serie 1 (d) con estacionalidad, y n
t
es una serie estacionaria. Note que
la diferenciacin estacional se podra aplicar 1 veces, aunque en la prctica se tiene que
1 = 1 si la serie es estacional, y 1 = 0 si la serie no presenta estacionalidad.
El enfoque de Box y Jenkins (1976) sugiere trabajar la dependencia regular y estacional
en forma separada para reducir el nmero de parmetros del modelo. Este modelo se conoce
como ARIMA estacional multiplicativo, que tiene la forma:
1
1
(1
c
) c(1) ^
1
c
^
o
.
t
= 0
q
(1) O
Q
(1
c
) -
t
donde
1
1
(1
c
) =
_
1 1
1
1
c
... 1
1
1
c1
_
es el operador AR estacional de orden 1,
c
j
(1) =
_
1 c
1
1 ... c
j
1
j
_
45
es el operador AR regular de orden j
^
1
c
= (1 1
c
)
1
representa las diferencias estacionales,
^
o
= (1 1)
o
son las diferencias regulares,
O
Q
(1
c
) =
_
1 O
1
1
c
... O
Q
1
cQ
_
es el operador media movil estacional de orden Q,
0
q
(1) = (1 0
1
1 ... 0
q
1
q
)
es el operador de media movil regular de orden , y -
t
es ruido blanco. Un proceso con
estas caractersticas se denota como 11'(1, 1, Q) (j, d, ).
1.8.2 Uso de Dummies Estacionales
Otra alternativa sencilla de modelar la estacionalidad es mediante el uso de variables di-
cotmicas. Cuando el patron estacional o
(c)
t
es determinstico, otra forma sencilla de
modelarlo es mediante el uso de variables dummies:
.
t
=
c

)=1
n
)
1
)
t
j
t
donde 1
)
t
= 1 si t = , : y cero en otro caso.
1.9 Modelos de Series de Tiempo de Heteroscedasticidad
Hasta ahora nos hemos enfocado en la prediccin de medias condicionales de series de
tiempo, asumiendo que la varianza del error es constante. Sin embargo, a veces resulta de
gran inters poder hacer predicciones de las varianzas, en especial en el sector nanciero,
para la evalucin de riesgos (como Value at Risk) o valoracin de instrumentos derivados.
Considere el siguiente modelo
j
t
= r
0
t
, n
t
(38)
donde r
t
es un vector de variables explicativas predeterminadas, que pueden ser rezagos
de j
t
u otras variables exgenas. Una forma de modelar la volatilidad del error n
t
es
suponiendo que este sigue el siguiente proceso
n
t
=
_
/
t

t
(39)
46
donde
t
es una secuencia i.i.d. y 1 (
t
) = 0 y 1
_

2
t
_
= 1
si /
t
evoluciona de acuerdo con
/
t
= c
1
n
2
t1
c
2
n
2
t2
... c
n
n
2
tn
entonces, la varianza condicional de n
t
es
1
_
n
2
t
[n
t1
, n
t2
, ...
_
= c
1
n
2
t1
c
2
n
2
t2
... c
n
n
2
tn
En proceso n
t
se conoce como proceso de heteroscedasticidad condicional autorregresiva
de orden :, y se escribe n
t
~ 1CH (:). Esto procesos fueron introducidos por Engle
(1982).
1.9.1 Estimacin
Considere el modelo 38, cuyo error sigue un proceso 1CH (:) descrito por 39 donde

t
~ i.i.d. (0, 1). Para la estimacin se va a condicionar en las primeras : observaciones
y se van a usar T observaciones para la estimacin. Por notacin, llamemos
t
al vector
con todas las observaciones hasta t

t
=
_
j
t
, j
t1
, ..., j
n+1
, r
0
t
, r
0
t1
, ..., r
0
n+1
_
0
Si
t
es independiente de r
t
e
t
, La distribucin condicional de j
t
es normal, con media
r
0
t
, y varianza /
t
:
) (j
t
[r
t
,
t1
) =
1
_
2/
t
oxp
_
(j
t
r
0
t
,)
2
2/
t
_
donde
/
t
= c
1
_
j
t1
r
0
t1
,
_
2
c
2
_
j
t2
r
0
t2
,
_
2
... c
n
_
j
tn
r
0
tn
,
_
2
= [.
t
(,)[
0
c
para
c = (, c
1
, c
2
, ..., c
n
)
0
[.
t
(,)[
0
=
_
1,
_
j
t1
r
0
t1
,
_
2
,
_
j
t2
r
0
t2
,
_
2
, ...,
_
j
tn
r
0
tn
,
_
2
_
El logaritmo de la funcin de verosimilitud para toda la muestra, condicional en las :
primeras observaciones es
47
/() =
T

t=1
log ) (j
t
[r
t
,
t1
; )
= (T,2) log (2) (1,2)
T

t=1
log (/
t
) (1,2)
T

t=1
_
j
t
r
0
t
,
_
2
,/
t
donde =
_
,
0
, c
0
_
0
es el vector que contiene todos los parmetros del modelo. Se pueden
encontrar los que maximicen /() usando mtodos numricos.
Bollerslev (1986) propuso una versin generalizada de los procesos con heteroscedasti-
cidad condicional que se conoce como G1CH. En este representacin generalizada, /
t
sigue un proceso 1'
/
t
= i c
1
/
t1
c
2
/
t2
... c
v
/
tv
c
1
n
2
t1
c
2
n
2
t2
... c
n
n
2
tn
se dice que n
t
sigue un proceso G1CH (r, :), o n
t
~ G1CH (r, :)
1.10 Simulaciones de Monte Carlo
A veces es dicil o imposible describir analticamente las propiedades de ciertos estimadores.
Debido al bajo costo computacional de hoy en da, las simulaciones de Monte Carlo son
una alternativa atractiva para describir las distribuciones de ciertos estimadores. La idea
consiste en suponer que se conoce el modelo generador de datos, y a partir de este, simular
realizaciones de las variables observadas con algoritmos que producen variables pseudo-
aleatorias (no son realmente aleatorias porque son generadas por un algoritmo).
Por ejemplo, supongamos que se quiere hacer un test DF de raz unitaria en una muestra
de 51 observaciones. Para esto se corre la regresin MCO
j
t
= jj
t1
n
t
y se computa el estadgrafo t = ( j 1) , o
^ j
que tiene una distribucin desconocida. Sin
embargo, haciendo simulaciones de Monte Carlo se pueden estimar los valores crticos de
rechazo de la hiptesis H
0
: j = 1 versus H
1
: j < 1. Suponga que efectivamente el modelo
que gener los datos tena una raz unitaria, en concreto
j
t
= j
t1
n
t
n
t
~ i.i.d. (0, 1)
j
0
= 0
48
El valor inicial de j
0
no afecta las propiedades estadsticas de los estimadores, pero,
es necesario para poder generar una serie. Con esta informacin se le puede pedir al
comutador generar unas 10.000 series j
t

50
t=0
y calcular el estadgrafo t.para cada una.
Luego se busca el valor que sea mayor al // de los t calculados en las simulaciones.
El siguiente programa sirve para calcular estos valores en Matlab, siguiendo los pasos
descritos anteriormente.
%valores crticos test DF. Caso sin constante y sin tendencia
clear;
randn(seed,123456);
N = 50;
T = 10000;
y = zeros(N+1,1);
e = zeros(N,1);
t = zeros(T,1);
b = zeros(T,1);
for i = 1:T
for j = 1:N
y(j+1,1) = y(j,1) + 4*randn(1,1);
end
b(i,1) = inv(y(1:N,1)*y(1:N,1))*y(1:N,1)*y(2:N+1,1);
e = y(2:N+1,1) - y(1:N,1)*b(i,1);
s = inv(y(1:N,1)*y(1:N,1))*(e*e)/N;
t(i,1) = (b(i,1)-1)/sqrt(s);
end
t = sort(t);
disp(valores criticos test DF sin constante sin tendencia);
disp([ 1% 5% 10%]);
disp([t(T*(1/100)) t(T*(5/100)) t(T*(1/10))]);
1.11 Modelos de Regresiones Aparentemente no Relacionadas
Suponga que se quiere estimar un sistema con ' ecuaciones del tipo
j
i
= A
i
,
i
-
i
, i = 1, ..., '
Se supone que cada ecuacin tiene T observaciones y 1
i
regresores a estimar. Dos o ms
ecuaciones pueden tener la misma variable explicativa dentro de A
i
. No se tiene el problema
de endogeneidad, por eso se conocen como regresiones aparentemente no relacionadas. Sin
embargo, los errores entre distintas ecuaciones pueden estar correlacionados. As, usando
MCG sobre todo el sistema se pueden obtener ganancias de eciencia respecto de MCO de
cada ecuacin por separado.
49
Sea
- =
_
-
0
1
, -
0
2
, ..., -
0
A

0
y
1 [-[ = 0
1
_
--
0

= \
adems
1 [-
it
-
)c
[ =
_
o
i)
0
si t = :
si no
Luego,
1
_
-
i
-
0
)

= o
i)
1
T
y
1
_
--
0

=
_

_
o
11
1 o
12
1 o
1A
1
o
21
1 o
22
1 o
2A
1
.
.
.
.
.
.
.
.
.
.
.
.
o
A1
1 o
A2
1 o
AA
1
_

_
= 1
donde
=
_

_
o
11
o
12
o
1A
o
21
o
22
o
2A
.
.
.
.
.
.
.
.
.
.
.
.
o
A1
o
A2
o
AA
_

_
La estimacin por MCG se hace sobre el sistema agrupado verticalmente
_

_
j
1
j
2
.
.
.
j
A
_

_
=
_

_
A
1
0 0
0 A
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
0 0 A
A
_

_
_

_
,
1
,
2
.
.
.
,
A
_

_
-
1
-
2
.
.
.
-
A
_

_
= A, -
El estimador de MCG es
50

, =
_
A
0
\
1
A
_
1
A
0
\
1
j
donde
\
1
=
1
1
Para estimar con Mnimos Cuadrados Generalizados Factibles se puede utilizar
o
i)
=
-
0
i
-
)
T
donde -
i
son los residuos de una estimacin preliminar por MCO de la ecuacin i.
Tambin se puede corregir por grados de libertad con una de las siguientes alternativas
o

i)
=
-
0
i
-
)
[(T 1
i
) (T 1
)
)[
12
o

i)
=
-
0
i
-
)
T max (1
i
, 1
)
)
El primero es insesgado slo si i = ,, mientras que el segundo es insesgado slo si i = ,
1
i
= 1
)
.
En forma general se puede decir, que las ganancias de eciencia de usar MCG en lugar
de MCO son mayores mientras: (i) mayor sea la correlacin entre los errores de distintas
ecuaciones; y (ii) Mientras menor sea la correlacin entre las matrices A.
51
2 Corte Transversal
2.1 Modelos con Variable Dependiente Discreta
En muchas situaciones la variable de inters slo toma valores discretos: 0, 1, 2, ... Puede
que estos nmeros tengan sentido por s mismos, por ejemplo si representan el nmero de
hijos. Pero, en la mayora de los casos van a ser variables nominales, es decir, un cdigo,
por ejemplo, 0 representa la alternativa A, 1 la B, y as. Para estos casos no se usa el
anlisis de regresin clsico, aun que s es posible racionalizarlos como una serie de factores
que llevan a una determinada decisin. Vamos a analizar este tipo de variables con modelos
de probabilidad:
Ii (elige j) = Ii (1 = ,)
= 1 (variables explicativas; parmetros)
Vamos a ver los casos de eleccin binaria (modelo binomial) y de eleccin mltiple
(modelo multinomial).
2.1.1 Modelos de Eleccin Binaria
Pueden haber distintas formas de interpretar los datos que representan las decisiones de
los individuos. A continuacin vamos a ver dos formas que plantea Green:
Modelos de Funcin ndice: La eleccin observada (discreta) proviene de un proceso de
decisin no observable que se puede representar como un modelo de regresin. En concreto,
la variable j

representa el benecio marginal de una decisin, de forma que j

= ,
0
r -,
con 1 (-[r) = 0. No se observa el benecio marginal de la decisin, slo el resultado j, de
forma que j = 1 si j

0, e j = 0 si j

_ 0. En esta formalacin, ,
0
r recibe el nombre de
funcin ndice. Si llamamos 1 () a la funcin de densidad de -, la probabilidad de observar
j = 1 es
Ii (j

0) = Ii
_
,
0
r - 0
_
= Ii
_
- ,
0
r
_
si la distribucin es simtrica, como en el caso de la normal o la logstica
Ii (j

0) = Ii
_
- < ,
0
r
_
= 1
_
,
0
r
_
Modelos de Utilidad Aleatoria: El individuo elige entre dos alternativas, 0 y 1, las cuales
le reportan utilidades l
0
y l
1
respectivamente, luego, se observa j = 0 si l
0
_ l
1
y se
observa j = 1 si l
0
< l
1
. Una formulacin habitual de estas utilidades es
52
l
i
= ,
0
i
r -
i
, i = 0, 1
Luego, la probabilidad de observar j = 1 es
Ii (j = 1[r) = Ii
_
l
1
l
0
_
= Ii
_
,
0
1
r -
1
,
0
0
r -
0
_
= Ii
_
(,
1
,
0
)
0
r -
1
-
0
0
_
= Ii
_
,
0
r - 0
_
Al igual que antes, si la distribucin de - es simtrica
Ii (j = 1[r) = Ii
_
- < ,
0
r
_
= 1
_
,
0
r
_
Especicaciones para F() Las dos especicaciones ms usadas para la funcin de
ditribucin 1
_
,
0
r
_
son la normal y la logstica.
Probit: 1
_
,
0
r
_
= 1
_
,
0
r
_
, donde 1() es de funcin de densidad acumulada de una
variable aleatoria normal estndar. Es decir, se supone que - ~ (0, 1). Suponer que la
varianza de - sea igual a uno no es un supuesto restrictivo, sino, slo una normalizacin.
Suponga que, en realidad el error tuviese la distribucin -

~
_
0, o
2
_
, entonces, la
probabilidad de observar j = 1 es
Ii (j = 1[r) = Ii
_
-

< ,
0
r
_
= Ii
_
-

o
<
,
0
o
r
_
= 1
_
,
0
r
_
donde , = ,

,o
2
.
Logit: 1
_
,
0
r
_
= A
_
,
0
r
_
, donde A() es la funcin de densidad acumulada de una
variable aleatoria logstica
A
_
,
0
r
_
=
oxp
_
,
0
r
_
1 oxp
_
,
0
r
_
Efectos marginales
Este es el efecto que tienen los cambio en r sobre el valor esperado de la variable
observada j. En primer lugar note que
1 (j[r) = Ii (j = 0[r) 0 Ii (j = 1[r) 1 = 1
_
,
0
r
_
53
Luego, los efectos marginales son
01 (j[r)
0r
=
01
_
,
0
r
_
0
_
,
0
r
_
0
_
,
0
r
_
0r
= )
_
,
0
r
_
,
donde ) () es la funcin de densidad de -.
Para el caso del probit
01 (j[r)
0r
= c
_
,
0
r
_
,
donde c() es la densidad de una variable aleatoria con distribucin normal estndar.
En el logit, los efectos marginales son
01 (j[r)
0r
= A
_
,
0
r
_ _
1 A
_
,
0
r
__
,
Note que los efectos marginales dependen de r.
Estimacin La probabilidad conjunta de haber visto la muestra, suponiendo que los -
son i.i.d. es
Ii (1
1
= j
1
, 1
2
= j
2
, ..., 1
a
= j
a
) =

j
i
=0
_
1 1
_
,
0
r
i
__

j
i
=1
1
_
,
0
r
i
_
Los valores que toma j normalmente son arbitrarios, ya que suelen denir categoras.
Sin embargo, si las categoras se denen como j = 0, 1, entonces resulta prctico escribir
la funcin de verosimilitud de la siguiente forma
1 =
a

i=1
_
1
_
,
0
r
i
_
j
i
_
1 1
_
,
0
r
i
_
1j
i
donde : es el nmero de observaciones. Sacando logaritmo se obtiene
ln1 =
a

i=1
_
j
i
ln1
_
,
0
r
i
_
(1 j
i
) ln
_
1 1
_
,
0
r
i
__
Las condiciones de primer orden son
0 ln1
0,
=
a

i=1
_
j
i
)
_
,
0
r
i
_
1
_
,
0
r
i
_ (1 j
i
)
)
_
,
0
r
i
_
_
1 1
_
,
0
r
i
__
_
r
i
= 0
Para hacer inferencia, sobre los valores de , necesitamos la matriz de varianzas y
covarianzas de

,. Sabemos que la varianza asinttica de los estimadores mximo verosmiles
es
_
1
_
0
2
ln 1
0000
0
__
1
= [1 (0)[
1
. Un estimador de esto es
54
:j.\ ar
_

,
_
=

H
1
donde

H es el hessiano evaluado en los estimadores mximo verosmiles

,

H =
_
0
2
ln1
0,0,
0
_
^
o
Para hacer inferencia sobre los , se pueden usar cualquiera de los tres tests usualmente
usado al estimar con mxima verosimilitud: razn de verosimilitud, Wald o mltiplicador
de Lagrange. Sin embargo, puede ser interesante hacer inferencia sobre las probabilidades
predichas 1
_

,
0
r
_
=

1 o sobre los efectos marginales )
_

,
0
r
_
, =

)

,. Para esto se usa


el mtodo Delta, para encontrar la matriz de varianzas y covarianzas de una funcin (dos
veces diferenciable) de los parmetros. Para las probabilidades previstas
:j.\ ar
_

1
_
=
_
0

1,0

,
_
0
\
_
0

1,0

,
_
(40)
donde
\ = :j.\ ar
_

,
_
Sea . = r
0

,, entonces se puede escribir


0

1,0

, =
_
0

1,0.
_ _
0.,0

,
_
=

)r (41)
Reemplazando 41 en 40 se obtiene
:j.\ ar
_

1
_
=

)
2
r
0
\ r
Para los efectos marginales procedemos en rma similar
:j.\ ar
_

,
_
=
_
0

)

,
0

,
0
_
\
_
0

)

,
0

,
0
_
0
estas derivadas corresponden a
0

)

,
0

,
0
=

)
_
0

,
0

,
0
_


,
_
d

)
d.
__
0.
0

,
0
_
=

) 1
_
d

)
d.
_

,r
0
En el modelo probit
d

),d. = .c
_

,
0
r
_
mientras que para el modelo logit
55
d

),d. =
_
1 2A
_

,
0
r
__
A
_

,
0
r
__
1 A
_

,
0
r
__
Medidas de Bondad de Ajuste Existe una medida anloga al 1
2
de los modelos de
regresin clsico, aunque tiene distinta interpretacin. La medida se conoce como ndice
de Razn de Verosimilitud (111 por sus siglas en ingls)
111 = 1
ln1
ln1
0
donde 1 es el valor de la funcin de verosimilitud evaluada en

, y 1
0
es el valor de la
funcin de verosimilutud para el modelo estimado con slo una constante.
Otra medida de bondad de ajuste es una tabla de aciertos y errores. Se elige un valor
crtico 1

y se predice j = 1 si

1 1

y 0 en caso contrario, luego se cuenta el nmero


de aciertos y errores respecto a los verdaderos valores de j en la muestra. Normalmente se
usa 1

= 0. como umbral.
2.1.2 Modelos de Elecciones Mltiples
Suponga ahora que un individuo i debe elegir entre J distintas alternativas codicadas
como 1, 2, ..., J. La utilidad de elegir la alternativa , es
l
i)
= ,
0
.
i)
-
i)
Si el consumidor elige la opcin , signica que l
i)
max
I6=)
l
iI
. Luego el modelo
estadstico se construye de la siguiente forma
Ii (1
i
= ,) = Ii
_
l
i)
max
I6=)
l
iI

_
Eligiendo una forma especca para la distribucin de los errores, se obtiene una for-
mulacin explcita del modelo. La distribucin ms popular para los errores es la de valor
extremo (tambin llamada log-Weibull), esta es
1 (-
i)
) = oxp (oxp(-
i)
))
En este caso McFadden (1973) demuestra que si las J perturbaciones son i.i.d. entonces
Ii (1
i
= ,) =
oxp
_
,
0
.
i)
_

J
)=1
oxp
_
,
0
.
i)
_
El resultado se debe a que (i) la resta entre dos variables con distribucin valor ex-
tremo es logit; y (ii) el mximo de varias variables con distribucin valor extremo, tambin
distribuye valor extremo.
56
Modelo Logit Multinomial La caracterstica de estos modelos es que la eleccin del
individuo depende de sus caractersticas individuales r
i
y no de los atributos de cada una
de las alternativas. En este caso hay un vector ,
)
distinto para cada alternativa, pero,
igual para todos los individuos:
Ii (1
i
= ,) =
oxp
_
,
0
)
r
i
_

J
I=1
oxp
_
,
0
I
r
i
_
El problema con esta formulacin es que exite una indeterminacin, ya que se dene
,

)
= ,
)
, para cualquier vector , las probabilidades son las mismas que con ,
)
oxp
__
,
0
)

0
_
r
i
_

J
I=1
oxp
__
,
0
I

0
_
r
i
_ =
oxp(
0
r
i
) oxp
_
,
0
)
r
i
_
oxp(
0
r
i
)

J
I=1
oxp
_
,
0
I
r
i
_ =
oxp
_
,
0
)
r
i
_

J
I=1
oxp
_
,
0
I
r
i
_
Para resolver este problema se normaliza ,
1
= 0, as, las probabilidadse resultantes son
Ii (1
i
= ,) =
oxp
_
,
0
)
r
i
_
1

J
I=2
oxp
_
,
0
)
r
i
_
Ii (1
i
= 1) =
1
1

J
I=2
oxp
_
,
0
)
r
i
_
Para la estimacin del modelo se dene el ndice d
i)
, que toma el valor 1 si el individuo
i toma la alternativa , y 0 si no. Usando este ndice se puede escribir el logaritmo de la
funcin de verosimilitud como
ln1 =
a

i=1
J

)=1
d
i)
lnIi (1
i
= ,)
Maximizando esta expresin se obtiene el estimador de , = [0, ,
0
2
, ,
0
3
, ..., ,
0
J
[
0
.
2.1.3 Modelo Logit Condicional
En este caso, se tienen datos sobre los atributos de las caractersticas y no sobre las carac-
tersticas individuales de las personas. El modelo es
Ii (1
i
= ,) =
oxp
_
,
0
.
i)
_

J
I=1
oxp
_
,
0
.
iI
_
El ndice i en el vector de caractersticas .
i)
se pone porque puede que esa caracterstica
sea percibida en forma distinta por cada individuo.
Para estimar el modelo se siguen los mismos pasos que en el caso del logit multinomial.
57
Hay que tener cuidado al momento de interpretar los resultados, debido a que en los
casos de elecciones mltiples los efectos marginales no tienen necesariamente el mismo signo
que los parmetros estimados. Para ms detalles revise el Green captulo 19.
2.2 Muestras Truncadas/Censuradas
Cuando las muestras no son aleatorias, los mtodos tradicionales de estimacin van a
entregar estimadores sesgados e inconsistentes. A continuacin se denen algunos conceptos
respecto a muestras con distorciones.
Distribucin truncada: El rango de valores que toma la varaible aleatoria que sigue
esta distribucin est truncado. Slo quedan los valores por encima, o por debajo de cierto
valor
Variable aleatoria censurada: No se puede distinguir entre las observaciones por encima
o por debajo de cierto valor. Por ejemplo, si se pregunta los salarios a los que ganan ms
de 300.000 al mes y al resto se les agrupa en la categora menos de 300.000.
Truncamiento selectivo: Este es un concepto bivariado. Se observa una variable aleatria
slo si otra cumple con cierto requisito. Por ejemplo, se observa j slo si . a.
La principal diferencia entre una muestra truncada y otra censurada es que en el caso
de tener datos truncados, no se tiene ninguna informacin respecto de los datos truncados.
En cambio en una muestra censurada, si bien no se observa la variable truncada, se tiene
informacin sobre las caractersticas de esas personas.
2.2.1 Distribuciones Truncadas
Densidad de una variable aleatoria truncada Si la funcin de densidad de una
variable aleatoria continua r es ) (r) y a una constante,
) (r[r a) =
) (r)
Ii (r a)
=
) (r)
_
1
o
) (r) dr
(42)
Es decir, al truncar, se aplica un factor de escala, para que la densidad integre uno
sobre el nuevo soporte.
La densidad de una distribucin normal truncada con media j y varianza o
2
) (r[r a) =
1
o
c
_
aj
o
_
1 1
_
oj
o
_
En el caso de una distribucin normal estndar
c(r[r a) =
c(r)
1 1(a)
58
Momentos de distribuciones truncadas Se calculan igual que siempre, pero, usando
la funcin de densidad truncada ) (r[r a)
En el caso de una distribucin normal, r ~
_
j, o
2
_
1 [r[r a[ = j o
c
_
oj
o
_
1 1
_
oj
o
_
\ ar[r[r a[ = o
2
_
1
_
c
_
oj
o
_
1 1
_
oj
o
_
__
c
_
oj
o
_
1 1
_
oj
o
_
a j
o
__
Si el truncamiento es hacia el otro lado, entonces
1 [r[r < a[ = j o
c
_
oj
o
_
1
_
oj
o
_
\ ar[r[r < a[ = o
2
_
1
_
c
_
oj
o
_
1
_
oj
o
_
__
c
_
oj
o
_
1
_
oj
o
_
a j
o
__
o alternativamente,
1 [r[truncamiento[ = j o`(c) (43)
\ ar [r[truncamiento[ = o
2
[1 c (c)[
donde, c = (a j) ,o, c (c) = `(a) (`(a) c) y `(c) = c(c) , (1 1(c)) para el
caso en que r a y `(c) = c(c) ,1(c) si el truncamiento es r < a.
Un resultado importante es que,
1 < c (c) < 0
para cualquier c.
2.2.2 Modelo de Regresin Truncada
Considere el modelo de regresin clsico
j
i
= ,
0
r
i
-
i
(44)
-
i
~
_
0, o
2
_
por lo que
j
i
[r
i
~
_
,
0
r
i
, o
2

59
Sin embargo, si la variable j est truncada, usando 43
1 [j
i
[j
i
a, r
i
[ = ,
0
r
i
o
c
_
oo
0
a
i
o
_
1 1
_
oo
0
a
i
o
_
= ,
0
r
i
o`(c
i
)
donde c
i
=
_
a ,
0
r
i
_
,o. Note que en este caso la media condicional es no lineal ni en
r ni en ,. El error de esta regresin es n
i
= [j
i
[j
i
a, r
i
[ 1 [j
i
[j
i
a, r
i
[. Usando 43, se
puede ver que el error n
i
es heteroscedstico. En este modelo, los efectos marginales en la
subpoblacin son
01 [j
i
[j
i
a, r
i
[
0r
i
= , o
_
d`(c
i
)
dc
i
_
0c
i
0r
i
= , o
_
`(c
i
)
2
c
i
`(c
i
)
_
_
,
o
_
= ,
_
1 `(c
i
)
2
c
i
`(c
i
)
_
= , (1 c (c
i
))
y la varianza es
\ ar [j
i
[j
i
a[ = o
2
[1 c (c
i
)[
Note, que tanto los efectos marginales como la varianza disminuyen respecto al modelo
sin truncamiento.
Si se estima 44 por MCO haciendo una regresin de j en r, se estara omitiendo el
trmino o`(c
i
) que es funcin de las rs. Esto, sabemos, produce sesgo e inconsistencia
en

,.
Sin embargo, es posible estimar este modelo consistentemente por mxima verosimili-
tud, usando 42. La funcin de densidad sera
) (j
i
) =
1
o
c
_
j
i
o
0
a
i
o
_
1 1
_
oo
0
a
i
o
_
y el logaritmo de la funcin de verosimilitud,
ln1 =
:
2
_
ln(2) ln
_
o
2
_

1
2o
2
a

i=1
_
j
i
,
0
r
i
_
2

i=1
ln
_
1 1
_
a ,
0
r
i
o
__
A partir de esto se obtienen los estimadore y se hace inferencia en forma estndar.
60
2.2.3 Modelo de Regresin Censurada
Momentos de la variable aleatoria censurada Sea j

~
_
j, o
2
_
; denimos j = a
si j

_ a, j = j

en caso contrario, entonces


1 (j) = 1(c) a (1 1(c)) (j o `(c)) (45)
\ ar (j) = o
2
(1 1(c))
_
(1 c (c)) (c `(c))
2
1(c)
_
donde c = (a j) ,o, `(c) = c(c) , (1 1(c)) y c (c) = `(c)
2
`(c) c
Anlisis Tobit El nombre de este tipo de modelos se debe a que fue Tobin (1958) quien
sigiri este modelo. La formulacin es la siguiente
j

i
= ,
0
r
i
-
i
j
i
= 0 si j

i
_ 0
j
i
= j

i
si j

i
0
Usando 45 obtenemos una expresin para la esperanza condicional
1 [j
i
[r
i
[ = 1
_
,
0
r
i
o
_
_
,
0
r
i
o`
i
_
donde
`
i
=
c
_
o
0
a
i
o
_
1
_
o
0
a
i
o
_
Al igual que en el caso de la regresin truncada, la estimacin por MCO sera sesgada
e inconsistente. Los efectos marginales para j e j

son
01 [j
i
[r
i
[
0r
i
= ,1
_
,
0
r
i
o
_
01 [j

i
[r
i
[
0r
i
= ,
El efecto de inters depender del estudio. Por ejemplo, la demanda por entradas de un
estadio es una variable censurada, ya que si se demandan ms entradas que las disponibles,
slo se observa que el estadio se llen. Si el inters fuese ver cmo cambiara la demanda al
cambiar una variable se calcula el efecto marginal sobre j

. Si el inters, en cambio, fuera


estimar el efecto sobre las entradas vendidas, se usaran los efectos marginales sobre j.
61
Estimacin La funcin de verosimilitud logartmica es
ln1 =

j
i
0

1
2
_
ln(2) lno
2

_
j
i
,
0
r
i
_
2
o
2
_


j
i
=0
ln
_
1 1
_
,
0
r
i
o
__
A partir de esta expresin se procede en forma estndar con la estimacin mximo
verosimil.
2.2.4 Truncamiento Selectivo
La densidad conjunta de j y . truncada es
) (j, .[. a) =
) (j, .)
Ii (. a)
Si j, . siguen una distribucin normal bivariada con medias j
j
, j
:
, desviaciones estn-
dar o
j
, o
:
y correlacin j, los momentos de esta distribucin con truncamiento selectivo
son
1 [j[. a[ = j
j
jo
j
`(c
:
) (46)
\ ar [j[. a[ = o
2
j
_
1 j
2
c (c
:
)

donde, c
:
= (a j
:
) ,o
:
, `(c
:
) = c(c
:
) , [1 1(c
:
)[, y c (c
:
) = `(c
:
) [`(c
:
) c
:
[
Si el truncamiento fuese . < a, entonces `(c
:
) = c(c
:
) ,1(c
:
).
Considere el siguiente ejemplo:
Un modelo de oferta laboral que consta de dos ecuaciones: (i) una ecuacin de partic-
ipacin, que determina el salario que obtiene la persona, as como su salario de reserva,
en funcin de sus caractersticas; y (ii) una ecuacin de nmero de horas ofrecidas, que
tambin dependen de las caractersticas del individuo, aunque no necesariamente de las
mismas que en la ecuacin de participacin.
En trminos ms generales, considere el siguiente modelo. Una ecuacin que determina
la seleccin muestral
.

i
=
0
n
i
n
i
y otra ecuacin de inters primordial
j
i
= ,
0
r
i
-
i
donde - y n siguen una distribucin normal bivariante con correlacin j. La regla
muestral es que j
i
es observada slo cuando .

i
0. La esperanza condicional es
62
1 [j
i
[j
i
es observada[ = 1 [j
i
[.

i
0[
= 1
_
j
i
[n
i

0
n
i

= ,
0
r
i
1
_
-
i
[n
i

0
n
i

= ,
0
r
i
jo
.
`
i
(c
&
)
= ,
0
r
i
,
A
`
i
(c
&
)
donde c
&
=
0
n
i
,o
&
, `
i
(c
&
) = c(
0
n
i
,o
&
) ,1(
0
n
i
,o
&
) y ,
A
= jo
.
.
Luego, el modelo de regresin sera
j
i
[.

i
0 = 1 [j
i
[.

i
0[
i
= ,
0
r
i
,
A
`
i
(c
i
)
i
(47)
De nuevo, correr una regresin MCO omitiendo la variable `
i
dara estimadores incon-
sistentes. Si se conociera `
i
podra estimarse [,, ,
A
[ en forma consistente con MCO. Sin
embargo, este estimador no sera eciente porque el error
i
es heteroscedstico, como se
observa en 46.
El principal problema de esta especicacin es que en la mayora de los casos la variable
.

no se observa. Por ejemplo, se observa si una persona elige trabajar o no, pero no la
magnitud de .

. Por eso, es conveniente plantear el modelo en otros trminos. Denamos


la variable de seleccin como
.
i
= 1 si .

i
0
.
i
= 0 en caso contrario
Adems Ii (.
i
= 1) = 1(
0
n
i
) y Ii (.
i
= 0) = 1 1(
0
n
i
)
Mientras que el modelo de regresin es, al igual que antes
j
i
= ,
0
r
i
-
i
observada slo si .
i
= 1
(n
i
, -
i
) ~ normal bivariada [0, 0, 1, o
.
, j[
La normalizacin de que o
&
= 1 sirve para identicar los parmetros.
Estimacin Este modelo se puede estimar por mxima verosimilitud, en forma similar
a los casos anteriores. Otra alternativa es usar el mtodo en dos etapas propuesto por
Heckman (1979):
63
Etapa 1: Se obtienen estimadores de con un modelo probit. Luego se construye la
variable

`
i
= c( n
i
) ,1( n
i
) y

c
i
=

`
i
_

`
i
n
i
_
.
Etapa 2: Correr la ecuacin 47 por MCO usando

` en lugar de `, para obtener esti-
madores de , y ,
A
= j o
.
.
Identicacin de los Parmetros del Modelo Por 46 sabemos que las perturbaciones

i
tienen varianza
ar (
i
) = o
2
i
= o
2
.
_
1 j
2
c
i
_
La varianza media de la muestra
0
,: converge a
plim
1
:
a

i=1
o
2
i
= o
2
.
_
1 j
2

c
_
Por otro lado, por el teorema de slutzky,
plim

,
2
A
= j
2
o
2
.
Es posible estimar

c usando los

c obtenidos del probit
plim
1
:
a

i=1

c
i
=

c
Por lo tanto, un estimador consistente de o
2
.
es
o
2
.
=
1
:

0
i

i


c

,
2
A
y un estimador de j
2
sera
j
2
=

,
2
A
o
2
.
Con esto se obtendran todos los parmetros del modelo. Recuerde que para identicar
los parmetros del probit es necesario suponer que la varianza de n
i
es igual a uno.
Como el error es heteroscedstico, es necesario hacer una correccin para estimar la
matriz de varianzas y covarianzas de los parmetros

,

=
_

,,

,
A
_
. Adems, se tiene que
hacer otra correccin porque en la regresin no se us la variable `
i
, sino una estimacin
de esta,

`
i
.
Si se hubiesen usado los verdaderos `
i
entonces la varianza de

,

sera
\ ar
_

_
= o
2
.
_
A
0
A

1
_
A
0
_
1 j
2
^
_
A

_
A
0
A

1
(48)
64
donde A

= [A, `[, siendo A la matriz con todos las observaciones r


i
y ` el vector con
todos los `
i
;
_
1 j
2
^
_
es la matriz de varianzas y covarianzas de los
i
. Esta matriz tiene
como i-simo elemento de su diagonal
_
1 j
2
c
i
_
. Esta no es ms que la tpica matriz de
varianzas y covarianzas para el caso de errores heteroscedsticos.
Ahora hay que hacer una correccin por usar

` y

c en lugar de los verdaderos valores.
Heckman ha demostrado que se puede obtener una aproximacin correcta a la matriz
de varianzas y covarianzas de los estimadores si se suma el siguiente trmino dentro del
parntesis del medio de 48
Q = j
2
_
A
0

^\
_
:j.\ ar ( )
_
\
0

^A

_
= j1

\ 1
0
donde

\ = :j.\ ar ( ) es un estimador consistente de la matriz de varianzas y covari-
anzas de los coecientes del probit; y \ es la matriz con las observaciones n
i
. Finalmente,
un estimador de la matriz de varianzas y covarianzas de

,

es
\ ar
_

_
= o
2
.
_
A
0
A

1
_
A
0
_
1 j
2

^
_
A

Q
_
_
A
0
A

1
2.3 Modelos Para Datos de Recuento
El nmero de recesiones que sufre un pas en una dcada o las idas de una familia a un
parque durante un ao, son fenmenos en los que es preferible usar modelos de datos de
recuento, en lugar del modelo de regresin clsico. Los datos son de naturaleza discreta y
no contnua, como se asume en la regresin clsica. Adems, con frecuencia hay abundancia
de ceros y valores bajos para la variable dependiente.
2.3.1 El Modelo de Regresin Poisson
La distribucin Poisson se usa para describir el nmero de eventos que ocurre durante un
lapso determinado. La densidad de la Piosson es:
Ii (1
i
= j
i
) =
c
A
i
`
j
i
i
j
i
!
, j
i=0,1,2,...
En el estudio de datos de datos de recuento se trata de relacionar la variable estudiada
con una serie de variables explicativas, al igual que en anlisis de regresin lineal clsico.
La formulacin ms habitual de `
i
es la logartmica lineal
ln`
i
= ,
0
r
i
As,
1 (j
i
[r
i
) = \ ar (j
i
[r
i
) = `
i
= oxp
_
,
0
r
i
_
y
65
01 (j
i
[r
i
)
0r
i
= `
i
,
El logaritmo de la funcin de verosimilitud es
ln1 =
a

i=1
_
`
i
j
i
,
0
r
i
lnj
i
!

Las condiciones de primer orden son


0 ln1
0,
=
a

i=1
(j
i
`
i
) r
i
= 0
El hessiano es
0
2
ln1
0,0,
0
=
a

i=1
`
i
r
i
r
0
i
Un estimador de la matriz de varianzas y covarianzas de los estimadores es menos la
inversa del hessiano evaluado en los estimadores mximo verosmiles
\
ar
_

,
_
=
_
a

i=1
`
i
r
i
r
0
i
_
1
Una vez obtenidos los estimadores, la prediccin de la i-sima observacin es

`
i
= oxp
_

,r
i
_
La varianza estimada de la prediccin es
ar
_

`
i
_
=

`
2
i
r
0
i
\ r
i
donde \ es el estimador de la matriz de varianzas y covarianzas de

,
Para hacer inferencia respecto a los parmetros se pueden usar los tests estndar: Wald,
Lagrange o Razn de Verosimilitud.
En este modelo no existe una medida de bondad de ajuste equivalente al 1
2
. Una
medida muy usada por los programas estadsticos es el ndice de Razn de Verosimilitud:
111 = 1
ln1
1
ln1
0
Donde ln1
1
es el logaritmo de la funcin de verosimilitud evaluada en los estimadores
mximo verosmiles, mientras que ln1
0
es el logaritmo de la verosimilitud del modelo que
slo tiene constante.
66
2.3.2 El Modelo de Regresin Binomial Negativo
En el modelo de regresin Poisson la varianza condicional es igual a la esperanza condi-
cional. Sin embargo, esto no tiene por qu ser cierto. De hecho, en la mayor parte de
los datos, se encuentra que la varianza tiende a ser mayor que la esperanza. La regresin
Binomial Negativa es similar a la regresin Poisson, pero, deja la exibilidad para que
la varianza sea distinta a la esperanza. Hay varias especicaciones de la Binomial Nega-
tiva, una muy usada en paquetes estadsticos es la que Cameron y Trivedi (1986) llamaron
NegBin II. La funcin de densidad es
) (j
i
[r
i
) =
I(0 j
i
)
I(j
i
1) I(0)
r
j
i
i
(1 r
i
)
0
donde
r
i
=
`
i
`
i
0
log `
i
= ,
0
r
i
y
I(.) =
_
1
0
t
:1
c
t
dt
es la funcin gamma.
La esperanza condicional es
1 (j
i
[r
i
) = `
i
y la varianza condicional es
ar (j
i
[r
i
) = `
i
_
1
_
1
0
_
`
i
_
Note que si 1,0 = 0, entonces se tiene la distribucin Poisson. Justamente, un test
utilizado para ver la validez del modelo Poisson es H
0
: c = 1,0 = 0. Este se puede hacer
con Wald, Lagrange o Razn de Verosimilitud.
2.3.3 Modelo de Regresin Exponencial
La distribucin exponencial es usada para estudiar el tiempo que transcurre entre un evento
y otro. La funcin de densidad exponencial es:
) (r) = `oxp(`r) para r 0
67
Adems:
1 (r) =
1
`
\ ar (r) =
1
`
2
Note que en este caso la variable dependiente es el tiempo, que es de naturaleza contnua.
La especicacin ms usada para la media condicional es:
1 (j
i
[r
i
) = :(r
i
, ,) = oxp
_
,
0
r
i
_
La funcin de cuasi-verosimilitud usada es
1(,) =
a

i=1
_
j
i
oxp
_
,
0
r
i
_ ,
0
r
i
_
Si la media condicional est correctamente especicada. Los estimadores de cuasi-
mxima verosimilitud son consistentes an cuando la verdadera distribucin no sea expo-
nencial.
En el modelo de regresin exponencial, se asume que la varianza condicional es
ar (j
i
[r
i
) = o
2
1 (j
i
[r
i
)
2
Cuando o
2
= 1 se tiene la misma relacin media-varianza que en la distribucin ex-
ponencial. Un estimador consistente de la matriz varianza-covarianza de los estimadores
es
\
ar
_

,
_
= o
2
_

_
a

i=1
_
0n(a
i
,o)
0o
[
^
o
__
0n(a
i
,o)
0o
[
^
o
_
0
:
_
r
i
,

,
_
2
_

_
1
donde
o
2
=
1
:
a

i=1
_
_
n
i
:
_
r
i
,

,
_
_
_
2
n
i
= j
i
:
_
r
i
,

,
_
68
2.4 Evaluacin de Programas
El problema central en la evaluacin de programas (o tratamientos) es la construccin de
un contrafactual. En la mayora de los casos no se cuenta con datos experimentales, as
que es necesario usar tcnicas para estimar el efecto del tratamiento.
Suponga que una persona puede estar un uno de dos estados mutuamente excluyentes:
0 si no recibi tratamiento, 1 si lo recibi. Cada estado tiene asociado un resultado, por
ejemplo, el salario que obtiene un individuo despus de haber recibido una capacitacin,
versus el salario sin capacitacin. Estos resultados se pueden expresar como una funcin de
variables A. Sean 1
0
e 1
1
los resultados correspondientes sin y con programa. La ganancia
que obtiene un individuo por participar en el programa es
^ = 1
1
1
0
El problema, es que no se pueden observar 1
1
e 1
0
a la vez para el mismo individuo. Si
bien no, se puede calcular ^ para cada individuo, se pueden calcular ciertos aspectos sobre
la distribucin de ^, como, por ejemplo, su media para una determinada poblacin. Hay
que tener cuidado con la heterogeneidad entre individuos y a la existencia de variables no
observables. Suponga que el resultado en cada estado puede escribirse como
1
)
= ,
0
)
A l
)
, , = 0, 1 (49)
donde A es un vector de caractersticas observables para cada individuo y l
)
es el
error que ocntiene las caractersticas no observables. Cuando la eleccin de participar
en el programa es voluntaria se tiene el problema de que es esperable que las personas
que eligieron participar (1 = 1), tengan caractersticas no observables distintas a las que
decidieron no participar (1 = 0). Es decir, a pesar que
1 (l
1
[A) = 1 (l
2
[A) = 0
Lo ms probable es que
1 (l
1
l
0
[A, 1 = 1) ,= 0
De hecho, es esperable que este ltimo valor sea positivo. Es decir, las personas que
eligen participar esperan obtener un mayor benecio del programa que aquellas que deciden
no participar.
Hay dos medidas de inters sobre el efecto de un programa: (i) El efecto promedio del
tratamiento (T1), y (ii) El efecto medio del tratamiento en los tratados (TT). Formal-
mente,
T1 = 1 (1
1
1
0
[A) = 1 (^[A)
TT = 1 (1
1
1
0
[A, 1 = 1) = 1 (^[A, 1 = 1)
69
La mayor parte del trabajo emprico se centra en la estimacin del TT:
Para medir el T1 se puedu usar el modelo de regresin. Sea 1
i
el resultado de la
persona i, entonces
1
i
= 1
i
1
1i
(1 1
i
) 1
0
i
Usando las formas funcionales de 49, tenemos,
1
i
= 1
i
_
,
0
1
A
i
l
1i
_
(1 1
i
)
_
,
0
0
A
i
l
0i
_
(50)
= ,
0
0
A
i
(,
1
,
0
)
0
A
i
1
i
[l
0i
1
i
(l
1i
l
ci
)[
Los trminos entre parntesis cuadrados son el error y el trmino que acompaa a 1
i
es el T1
1 (^[A) = 1
_
(,
1
,
0
)
0
A l
1
l
0
[A

= (,
1
,
0
)
0
A 1 (l
1
l
0
[A)
= (,
1
,
0
)
0
A
Note que para que este sea un correcto estimador del T1, es necesario hacer el
supuesto 1 (l
1
[A) = 1 (l
0
[A) = 0.
Sin embargo, la mayora de los estudios intentan estimar el TT. Sumando y restando
1 1 (l
1
l
0
[A, 1 = 1) al modelo 50
1
i
= ,
0
0
A
i

_
(,
1
,
0
)
0
A
i
1 (l
1i
l
0i
[A
i
, 1
i
= 1)

1
i
l
0i
1
i
[(l
1i
l
ci
) 1 (l
1i
l
0i
[A
i
, 1
i
= 1)[
El trmino que acompaa a 1
i
corresponde al TT = 1 (^[A, 1 = 1). Este trmino
contiene la media de variables no observables, 1 (l
1i
l
0i
[A
i
, 1
i
= 1).
A continuacin vamos a ver tres estimadores del TT ampliamente utilizados. Estos in-
tentan construir el contrafactual 1 (1
0
[A, 1 = 1), ya que 1 (1
1
[A, 1 = 1) se puede estimar
directamente de la muestra.
2.4.1 Estimador Antes-Despus
Este estimador requiere que se tenga acceso a datos sobre los participantes, antes y despus
de haber recibido el tratamiento. Sea, 1
1t
las ganancias post-programa de la persona que
particip en el momento t; 1
0t
0 la ganancia de esa persona antes del tratamiento en t
0
. Se
asume que el tratamiento ocurre en el momento /, con t / t
0
. El estimador antes-
despus usa 1
0t
0 como aproximacin de la ganancia que tendra en t esa misma persona, si
no hubiese recibido el tratamiento, 1
0t
. Formalmente, se asume que
70
1 (1
0t
1
0t
0 [1 = 1) = 0
Si este supuesto es vlido, el estimador antes-despus es
1 =
1
:

i:1=1
_
1
i
1t
1
i
0t
0
_
=
_

1
1t


1
0t
0
_
1
Es decir, de las personas que tomaron el tratamiento (1 = 1) se promedian sus ganan-
cias antes y despus del tratamiento y se restan. El subndice 1 indica que el promedio se
calcul entre las personas que tomaron el tratamiento. Este estimador se puede computar,
an si no se tienen datos para las mismas personas antes y despus del tratamiento (panel),
pero, se tienen datos de corte transversal repetidos, antes y despus de /.
2.4.2 Estimador de Diferencia en Diferencias
Se necesitan datos de (i) panel, o (ii) corte transversal repetido para no participantes en t
y t
0
. El estimador de diferencia en diferencias supone que
1 (1
0t
1
0t
0 [1 = 1) = 1 (1
0t
1
0t
0 [1 = 0) (51)
El estimador est dado por
11 =
_

1
1t


1
0t
0
_
1

1
0t


1
0t
0
_
0
Este es un estimador de 1 (^
t
[1 = 1), ^
t
= 1
1t
1
0t
, porque
1
__

1
1t


1
0t
0
_
1

1
0t


1
0t
0
_
0

= 1 (^
t
[1 = 1)
Para ver esto, reemplazamos el supuesto 51 en esta ltima ecuacin para obtener
1
__

1
1t


1
0t
0
_
1

1
0t


1
0t
0
_
0

= 1
_

1
1t


1
0t
0
_
1
1
_

1
0t


1
0t
0
_
1
= 1
_

1
1t


1
0t
[1 = 1
_
2.4.3 Estimador de Corte Transversal
El supuesto clave de esta estiamador es
1 (1
0t
[1 = 1) = 1 (1
0t
[1 = 0) (52)
Es decir, en promedio, dos personas que no participan tienen las mismas ganancias,
an cuando una de ellas hubiese elegido participar y la otra no. El estimador es,
CT =
_

1
1t
_
1

1
0t
0
_
0
71
En este caso puede ser que t = t
0
. Note que bajo el supuesto 52
1
__

1
1t
_
1

1
0t
0
_
0
_
= 1 (^
t
[1 = 1)
2.4.4 El Mtodo de Apareamiento (Matching)
Cuando la participacin en un programa es voluntaria, se pueden construir las distribu-
ciones de resultados para los participantes 1 (1
1
[A, 1 = 1) y para no participantes 1 (1
0
[A, 1 = 0).
Si se usa 1 (1
0
[A, 1 = 0) para aproximar 1 (1
0
[A, 1 = 1), se corre el riesgo de sesgo de
seleccin. El sesgo est dado por
1(A) = 1 (1
0
[A, 1 = 1) 1 (1
0
[A, 1 = 0)
El mtodo de matching supone que se tiene acceso a un set de variables, A, tales que
condicionando por ellas, la distribucin del contrafactual 1
0
[1 = 1, es la misma que de las
personas que no participaron 1
0
[1 = 0, es decir
(1
0
, 1
1
) l 1[A (53)
Esto implica sobre las distribuciones de resultados que
1 (1
0
[1 = 1, A) = 1 (1
0
[1 = 0, A) = 1 (1
0
[A)
1 (1
1
[1 = 1, A) = 1 (1
1
[1 = 0, A) = 1 (1
1
[A)
Con este supuesto se pueden usar a los no participantes del programa para medir cuanto
hubiesen ganado los participantes de no haber participado, condicionando en las variables
A. Para efectos prcticos, tambien es necesario asumir que para cada valor de A hay
participantes y no participantes, ms formalmente
0 < Ii (1 = 1[A) < 1 (54)
Las condiciones 53 y 54 implican que
1 (1
0
[A, 1 = 1) = 1 (1
0
[A, 1 = 0)
1 (1
1
[A, 1 = 1) = 1 (1
1
[A, 1 = 0)
Para estimar el TT se busca, para cada persona tratada a una no tratada, pero, con
caractersticas A similares. Para esto, se construye un vecindad C (A
i
), donde A
i
es el
vector de caractersticas de la persona i. Las parejas de la personatratada i son las no
tratadas que tengan caractersticas A
)
tales que A
)
C (A
i
). Este set de personas se
puede denir como
72

i
= ,[A
)
C (A
i
)
Llamemos
c
el nmero de personas en la muestra de comparacin y
t
el nmero de
personas en la muestra de tratados. Sea \ (i, ,) la ponderacin que se le da a la observacin
, al formar la comparacin con la onservacin i y suponga que
.c

)=1
\ (i, ,) = 1
0 _ \ (i, ,) _ 1
Entonces el promedio de comparacin para la persona i es

1
c
i
=
.c

)=1
\ (i, ,) 1
c
)
y el efecto del tratamiento estimado para la persona i sera 1
i


1
c
i
. En Heckman,
Ichimura y Todd (1997), se revisan varias formas de matching propuestas por la literatura.
Vecino Ms Cercano Este estimador dene

i
=
_
,[ min
)2f1,...,.cg
|A
i
A
)
|
_
donde || es alguna mtrica para el espacio de caractersticas A. Una mtrica usada
para el estimador de matching de vecino ms cercano es la de Mahalanobis
|A
i
A
)
| = (A
i
A
)
)
0

1
c
(A
i
A
)
)
donde
c
es la matriz de varianzas y covarianzas de las As en la muestra de compara-
cin. Los ponderadores se denen como
\ (i, ,) =
1 si ,
)
0 si no
Una versin del vecino ms cercano es el llamado "caliper" matching (Cochran y Rubin
1973). En este, se dene

i
= ,[ |A
i
A
)
| < -
donde - es una tolerancia pre-especicada.
73
Kernel Matching En este se usa toda la muestra de comparacin, as que

i
= 1, 2, ...,
c

y cada elemento de
i
se pondera de acuerdo a
\ (i, ,) =
1 (A
)
A
i
)

.c
)=1
1 (A
)
A
i
)
donde 1 () es un kernel.
El TT se calcula tomando el promedio de los efectos estimados del tratamiento para
cada individuo dentro de la muestra de tratados
TT =
1

t
.t

i=1
_
1
t
i


1
c
i
_
=
1

t
.t

i=1
_
_
1
t
i

.c

)=1
\ (i, ,) 1
c
)
_
_
Propensity Scores A veces, el vector de caractersticas A puede tener demasiados ele-
mentos, lo que hace dicil encontrar una pareja para hacer la comparacin. En estos casos
se puede usar lo que se conoce como "propensity score"
1 (A) = Ii (1 = 1[A)
Rosenbaum y Rubin (1983) demostraron que si se cumplen los supuestos 53 y 54,
entonces
(1
1
, 1
0
) l 1[1 (A)
Asi, el apareamiento se puede hacer sobre la base de una sola variable. Estas propen-
siones se pueden estimar usando un probit o un logit como los vistos anteriormente.
2.5 Estimacin No Paramtrica
El anlisis de regresin consiste en estimar la media condicional de la variable de inters
j como funcin de variables explicativas r, 1 (j[r) = :(r). En el anlisis paramtrico se
supone que es posible describir esta relacin con un conjunto nito de parmetros. Se da
una forma funcional explcita a esta funcin, por ejemplo :(r) = c ,r, en este caso c
y , son los parmetros. En este enfoque, el inters est en obtener buenas estimaciones de
los parmetros. Un enfoque alternativo es el no paramtrico, donde :(r) tiene una forma
funcional exible.
Al igual que en el caso paramtrico se busca aproximar la curva de respuesta media en
la regresin
1
i
= :(A
i
) -
i
74
Si hubiese un nmero repetido de observaciones para cada valor de r entonces esta
media podra calcularse simplemente promediando los valores de j para cada valor de r.
Sin embargo, en la mayora de los casos esto no es posible. Lo ms comn es obtener un
slo valor de j para cada valor de r que se tiene. Note que r puede ser una variable o un
vector con variables, por simplicidad vamos a referirnos al caso univariado.
Si bien no se tienen observaciones repetidas para cierto valor de r = A, se pueden
promediar los j de las observaciones con rs cercanas a A. Mientras ms lejano sea el
valor de r respecto de A ms lejano ser el valor medio de j. El procedimiento dene la
estimacin de la media condicional como
:(r) =
1
:
a

i=1
\
ai
(r) 1
i
donde \
ai
(r)
a
i=1
es una secuencia de ponderadores que depende de A
i

a
i=1
2.5.1 Funciones Kernel
Una forma simple de representar la secuencia \
ai
(r)
a
i=1
es describir cada ponderador
\
ai
(r) por una funcin de densidad con un parmetro de escala que ajuste el tamao y la
forma de los ponderadores cerca de r. Este tipo de funciones se conoce como kernel. Un
kernel es una funcin real 1, continua , acotada y simtrica, que integra 1
_
1 (n) dn = 1
La secuencia de ponderadores para un kernel es
\
ai
(r) =
1
I
(r A
i
)

)
I
(r)
donde

)
I
(r) =
1
:
a

i=1
1
I
(r A
i
)
y
1
I
(n) =
1
/
1 (n,/)
es un kernel con factor de escala / (este factor tambin puede depender del tamao de
la muestra, /
a
). El estimador de la media condicional sera, entonces,
:
I
(r) =
:
1

a
i=1
1
I
(r A
i
) 1
i
:
1

a
i=1
1
I
(r A
i
)
75
1 0.5 0 -0.5 -1
0.75
0.625
0.5
0.375
0.25
0.125
0
x
y
x
y
La forma de las ponderaciones est dado por la funcin 1, mientras que el tamao de
las ponderaciones est dado por /, tambin conocido como ancho de banda. Con un mayor
ancho de banda, se estaran considerando ms las observaciones lejanas a r, esto reducira
la varianza de la estimacin, pero aumentara el sesgo (se toman ms observaciones, pero,
se corre el riesgo de que estas observaciones tengan una media distinta a la que se quiere
estimar).
Un funcin kernel ampliamente utilizada es la Epanechnikov
1 (n) = 0.7
_
1 n
2
_
1 ([n[ _ 1)
donde 1 ([n[ _ 1) es una funcin indicadora que toma el valor de 1 si [n[ _ 1 y 0 si no.
La gura 2.5.1 muestra la forma de este kernel
2.5.2 Estimador de / Vecinos Ms Cercanos
En el caso del estimador de kernel de :
I
(r) se calculaba un promedio ponderado de
j usando las observaciones que se encuentran en una vecindad ja al rededor de r. El
estimador de / vecinos ms cercanos (/ ) estima un promedio ponderado en una
vecindad variable, pero, con un nmero / jo de observaciones, que tengan los valores A
ms cercanos a r usando la distancia Euclidiana como mtrica.
El estimador de / se dene como
:
I
(r) =
1
:
a

i=1
\
Ii
(r) 1
i
donde \
Ii
(r)
a
i=1
es la secuencia de ponderadores que se denea traves del set
J
a
= i : A
i
es uno de los / vecinos ms cercanos a r
Con este set de observaciones se pueden denir los ponderadores. El caso ms sencillo
es hacer un promedio simple con los / vecinos ms cercanos:
76
\
Ii
(r) =
:,/ si i J
a
0 si no
Por ejemplo, sea (A
i
, 1
i
)
5
i=1
= (1, ) , (7, 2) , (8, 1) , (2, 0) , (, 4) para calcular el es-
timador / , :
I
(r) para r = 4 y / = 8, se dene J
a
= J
4
= 8, 4, , es decir, las
ltimas 8 observaciones son los 8 vecinos ms cercanos. Luego,
\
I1
(4) = 0, \
I2
(4) = 0, \
I3
(4) = 1,8
\
I4
(4) = 1,8, \
I5
(4) = 1,8
y :
3
(4) = (1 0 4) ,8 = ,8.
2.6 Bootstraping
En el mismo espritu de las simulaciones de Monte Carlo, los mtodos de bootstraping
sirven para encontrar, en forma numrica, las desviaciones estndar de un estimador. El
bootstraping no paramtrico consiste en obtener varias submuestras a partir de la muestra
inicial de forma de obtener varias realizaciones del estimador. Con estas realizaciones se
puede calcular la varianza o el valor-p.
Sea 0 el vector de parmetros de inters, y

0 un estimador. Suponga que se tiene una
muestra de tamao :, (r
1
, r
2
, ..., r
a
). De esta muestra se generan 1 submuestras de la
siguiente forma: se generan aleatoriamente : nmero enteros del set 1, 2, ..., :, cada uno
con probabilidad (1,:) de ser elegido en un muestreo con reposicin. Lo ms probable es
que hayan nmeros repetidos en cada muestreo. Luego, se toman los rs indexados por los
nmeros generados. Con cada muestra / generada, se computa el estimador

0
b
. Luego, la
varianza de este estimador se calcula con
1
1 1
1

b=1
_

0
b

0
_

0
b

0
_
0
donde

0 = (1,1)

1
b=1

0
b
Un intervalo de conanza se puede construir buscando los percentiles 2.5 y 97.5 en la
lista de

0s generados. El valor-p de un estadgrafo se puede calcular como el porcentaje
de veces que los estadgrafos calculados en el bootstraping exceden al estadgrafo calculado
con la muestra original.
2.6.1 Ejemplo: Intervalo de Conanza Para el Coeciente de Gini
El coeciente de Gini es una medida de desigualdad de ingresos (tambin se usa para
medir desigualdad de riqueza). El ndice toma el valor 0 cuando hay perfecta igualdad de
77
ingresos y toma el valor 1 con perfecta desigualdad (una persona tiene todo el ingreso). Si
la muestra de individuos est ordenada en forma creciente respecto al ingreso, el ndice se
calcula de la siguiente forma
G =

a
i=1
(2i : 1) r
i
:
2
r
donde r
i
es el ingreso de la persona i, y r es el ingreso promedio. Para obtener un
estimador insesgado se debe multiplicar por :, (: 1).
El programa que est a continuacin calcula un intervalo de conanza para el coeciente
de Gini usando bootstraping
%Intervalo de confianza para el coeficiente de Gini usando bootstraping
%La variable x contiene los ingresos de las personas en la muestra
%Como ilustracion, se genera una variable x artificial
clear;
randn(seed,12345);
x = zeros(1000,1);
for i = 1:1000
y = 0;
while y < 1;
y = rand + rand;
end
x(i,1) = y;
end
x = sort(x)*1000;
n = size(x,1);
gini = (n/(n-1))*sum([2*[1:n] - ones(n,1)*(n + 1)].*x)/(sum(x)*n);
%Bootstraping
B = 1000;
for i = 1:B
for j = 1:n
b(j,1) = ceil(rand*1000);
end
xb = sort(x(b));
G(i,1) = (n/(n-1))*sum([2*[1:n] - ones(n,1)*(n + 1)].*xb)/(sum(xb)*n);
end
G = sort(G);
disp([Coeficiente de Gini]);
disp([gini]);
disp([intervalo de confianza al 95%]);
disp([G(B*(2.5/100)) G(B*(97.5/100))]);
78
3 Datos de Panel
3.1 Modelo de Regresin con Componente del Error Tipo One-Way
Cuando se tienen observaciones de individuos en el tiempo se habla de datos de panel. La
formulacin de los modelos de regresin con datos de panel es similar a la que se hace con
series de tiempo o corte transversal, la diferencia es que ahora se usa un subndice doble
j
it
= c A
0
it
, n
it
i = 1, ..., ; t = 1, ..., T
donde i indexa por individuos y t por tiempo. Adems, c es una costante, , es un
vector / 1 de coecientes, y A
it
es la it-sima observacin de / varaibles explicativas. El
modelo de regresin con componente del error tipo one-way supone
n
it
= j
i

it
(55)
donde j
i
es un efecto individual inobservable, y
it
es ruido blanco. En forma vectorial,
el modelo se puede escribir como
j = ci
.T
A, n = 7c n
donde j es T 1, A es T /, 7 = [i
.T
, A[, c
0
=
_
c
0
, ,
0
_
, y i
.T
es un vector de
unos de tamao T. El error 55 puede escribirse como
n = 7
j
j
donde n
0
= (n
11
, ..., n
1T
, n
21
, ..., n
2T
, ..., n
.1
, ..., n
.T
), j = (j
1
, ..., j
.
),
0
= (
11
, ...,
1T
,
21
, ...,
2T
, ...,
.1
, ...,
.T
)
7
j
= 1
.
i
T
, 1
.
es una matriz identidad de dimensin , i
T
es un vector de unos de largo
T y denota al producto de Kronecker. Note que los datos estan ordenados de forma que
el ndice de tiempo corre rpido y el de individuos corre lento. La matriz 7
j
no es ms que
dummies individuales.
7
j
=
_

_
1 0 0
.
.
.
.
.
.
.
.
.
1 0 0
0 1 0
.
.
.
.
.
.
.
.
.
0 1 0
.
.
.
.
.
.
.
.
.
0 0 1
.
.
.
.
.
.
.
.
.
0 0 1
_

_
79
con estas dummies se puede estimar j si se asume que los j
i
son parmetros jos.
Denamos ahora la matriz de proyeccin sobre 7
j
1 = 7
j
_
7
0
j
7
j
_
1
7
0
j
Esta expresin se puede simplicar a 1 = 1
.


J
T
, donde

J
T
= J
T
,T, y J
T
es una
matriz de unos de T T. La matriz 1 saca medias a travs del tiempo para cada individuo.
En forma anloga se dene la matriz
Q = 1
.T
1
que saca desviaciones de las medias individuales. Por ejemplo, 1n tiene como elemento
tpico n
i.
=

T
t=1
n
it
,T repetido T veces para cada individuo mientras que Qn tiene como
elemento tpico (n
it
n
i.
).
Las matrices 1 y Q son: (i) simtricas e idempotentes, es decir, 1
0
= 1 y 1
2
= 1.
Adems, el rango de una matriz idempotente es igual a su traza, as que ra:qo(1) =
tr(1) = y ra:qo(Q) = tr(Q) = (T 1); (ii) 1 y Q son ortogonales, 1Q = 0; y (iii)
suman la identidad, 1 Q = 1
.T
.
3.1.1 El Modelo de Efectos Fijos
En este caso se supone que los j son parmetros jos y
it
~ iid
_
0, o
2

_
. La estimacin es
simple, se corren MCO sobre
j = ci
.T
A, 7
j
j = 7c 7
j
j (56)
con esto se obtienen estimadores de c, , y j.
Sin embargo, existen dos complicaciones. La primera es que el modelo tiene una con-
stante y un set completo de variables dummies, por lo tanto no se podrn identicar c y
j. De hecho, no se puede correr el modelo 56 por el problema de colinealidad perfecta.
Esto se suele solucionar suponiendo que

.
i=1
j
i
= 0. La segunda complicacin es que
normalmente en el datos de panel es grande, lo que implica que van a haber muchas
dummies por estimar. Como los parmetros de inters son c y ,, se pueden obtener los
estimadore de LSDV (least squares dummy variables) de 56 sin necesidad de estimar j si
se multiplica el modelo por Q y luego se corre la regresin MCO del modelo transformado
Qj = QA, Q
j =

A, (57)
ya que Q7
j
= Qi
.T
= 0. Es decir, la matriz Q saca los efectos individuales. Ahora hay
que invertir una matriz de (1 1) y no de ( 1) ( 1) como antes. El estimador
es
80

, =
_
A
0
QA
_
1
A
0
Qj
y, igual que siempre, ar
_

,
_
= o
2
u
(A
0
QA)
1
. Esta regresin tambin se conoce como
regresin Within. Para ver qu hace la matriz Q considere el modelo
j
it
= c ,r
it
j
i

it
tomando promedios sobre el tiempo se obtiene
j
i.
= c , r
i.
j
i

i.
restando estas expresiones se obtiene el modelo sin dummies e intercepto
j
it
j
i.
= , (r
it
r
i.
) (
it

i.
)
Para obtener el estimador de c se puede sacar el promedio de todas las observaciones
j
..
= c , r
..

..
El estimador es
c = j
..

, r
..
En forma similar se puede recuperar los j
i
asumiendo que

.
i=1
j
i
= 0
j
i
= j
i.
c

, r
i.
3.1.2 Test de Efectos Fijos
Una forma de ver si este modelo es una representacin razonable de los datos, se puede
hacer un test de signicancia conjunta de j: H
0
: j
1
= j
2
= ... = j
.1
= 0, usando un
test 1. As, el modelo restringido es aquel que no incluye las dummies y el libre s las
incluye. Note que el modelo libre es el mismo modelo transformado 57. Luego se calcula
la suma de residuos al cuadrado restringida (SRCR) y libre (SRCL). Si es grande se
pueden usar los residuos de 57 para calcular la SRCL. El estadgrfo es
1 =
(o1C1 o1C1) , ( 1)
o1C1, (T 1)
~ 1
.1,.(T1)1
Note que si se usa el el modelo 57 para obtener la SRCL se estara computando
0
Q
en lugar de
0
.
81
3.1.3 El Modelo de Efectos Aleatorios
El modelo de efectos jos tiene una gran cantidad de parmetros y por lo tanto se pierden
muchos grados de libertad. La otra alternativa es asumir que j
i
es aleatorio. En este caso,
j
i
~ iid
_
0, o
2
j
_
y
it
~ iid
_
0, o
2
u
_
y los j
i
son independientes de los
it
para todo i y t.
La matriz de varianzas y covarianzas del residuo n
it
= j
i

it
es
\ = 1
_
nn
0
_
= 7
j
1
_
jj
0
_
7
0
j
1
_

0
_
= o
2
j
(1
.
J
T
) o
2
u
(1
.
1
T
) (58)
Ya que 7
j
7
0
j
= (1
.
J
T
). Note que el error es homoscedstico, pero, tiene autocor-
relacin. La matriz \ es diagonal en bloques
co (n
it
, n
)c
) =
_
_
_
o
2
j
o
2
u
o
2
j
0
para i = ,, t = :
para i = ,, t ,= :
otro caso
Para obtener los estimadores GLS es necesario calcular \
1
. Sin embargo, la matriz
\ es de dimensin T T, muy grande para ser invertida con precisin. Para invertir
\ se usa un truco sugerido por Wansbeek y Kapteyn (1982b, 1983) para encontrar \
1
y
\
12
. En la ecuacin 58 se reemplaza J
T
por T

J
T
e 1
T
por
_
1
T


J
T
_
, donde 1
T
es, por
denicin
_
1
T


J
T
_
\ = To
2
j
_
1
.


J
T
_
o
2
u
(1
.
1
T
) o
2
u
_
1
.


J
T
_
reordenando se obtiene
\ =
_
To
2
j
o
2
u
_ _
1
.


J
T
_
o
2
u
(1
.
1
T
) = o
2
1
1 o
2
u
Q
donde o
2
1
= To
2
j
o
2
u
. Es fcil comprobar que
\
1
=
1
o
2
1
1
1
o
2
u
Q
y
\
12
=
1
o
1
1
1
o
u
Q
Premultiplicando el modelo por \
12
y corriendo una regresin de MCO sobre el
modelo transformado se obtienen los estimadores de GLS. Para obtener estimadores de
o
2
1
y o
2
u
, note que 1n ~
_
0, o
2
1
1
_
y Qn ~
_
0, o
2
u
Q
_
, los mejores estimadores cuadrticos
insesgados son
82
o
2
1
=
n
0
1n
tr (1)
y
o
2
u
=
n
0
Qn
tr (Q)
Para poder computar estos estimadores se necesitan estimadores consistentes de los
errores n. Para esto existen varias alternativas. Wallace y Hussain (1969) sugieren usar los
residuos de la regresin MCO, ya que, a pesar de la autocorrelacin, los estimadores siguen
siendo consistentes. Amemiya (1971) muestra que usando los estimadores sugeridos por
Wallace y Hussain, la distribucin asinttica de o
2
1
y o
2
u
, no es la misma que cuando se usan
los verdaderos errores. Amemiya sugiere usar los residuos de la regresin Within en lugar
de los residuos MCO, estos son n = j ci
.T
A

,. Con estos residuos, las distribuciones


asintticas de o
2
1
y o
2
u
son las mismas que usando los verdaderos errores.
_ _
T
_
o
2
u
o
2
u
_
_

_
o
2
j
o
2
j
_
_
~
_
0,
_
2o
4
u
0
0 2o
4
j
__
donde o
2
j
=
_
o
2
1
o
2
u
_
,T.
Swamy y Arora (1972) sugieren correr dos regresiones. Usar los residuos de la regresin
Within para el estimador de o
2
u
. Mientras que para obtener el estimador de o
2
1
se transforma
el modelo premultiplicando por 1 en lugar de Q
1j = 1ci
.T
1A, 1n = 17c 1n
Se corre una regresin MCO y se obtienen los residuos. Esta regresin se conoce como
Between. As los estimadores nalmente quedaran

o
2
u
=
_
j
0
Qj j
0
QA
_
A
0
QA
_
1
A
0
Qj
_
, [ (T 1) 1[

o
2
1
=
_
j
0
1j j
0
17
_
7
0
17
_
1
7
0
1j
_
, [ 1 1[
3.2 Modelo de Regresin con Componente del Error Tipo Two-Way
Es similar al modelo one-way, pero, tambin incluye un componente temporal
n
it
= j
i
`
t

it
i = 1, ..., ; t = 1, ..., T
donde j
i
denota un efecto individual no observable, `
t
es un efecto temporal no observ-
able y
it
es el efecto estocstico restante. En trminos vectoriales, el error puede escribirse
como
83
n = 7
j
j 7
A
`
donde 7
A
= i
.
1
T
es la matriz de variables dummies temporales, y `
0
= (`
1
, ..., `
T
).
La matriz de proyeccin sobre 7
A
es 1
A
= 7
A
(7
0
A
7
A
)
1
7
0
A
=

J
.
1
T
. Esta matriz
saca promedios sorbe individuos. Por ejemplo
_

J
.
1
T
_
n tiene como elemento tpico
n
.t
=

.
i=1
n
it
,.
3.2.1 El Modelo de Efectos Fijos
En este modelo j
i
y `
t
se asumen como parmetros jos, y
it
~ iid
_
0, o
2
u
_
, adems,
A
it
se asume independiente de
it
para todo i y t. Al incluir las dummies temporales,
se incluyen (T 1) nuevos parmetros a estimar, haciendo dicil invertir la matriz de
variables explicativas en la regresin por MCO. Wallace y Hussain (1969) sugieren una
transformacin Within usando la siguiente matriz Q
Q = 1
.
1
T
= 1
.
1
T
1
.


J
T


J
.
1
T


J
.


J
T
Esta matriz barre los eectos de j
i
y de `
t
. Llamando 1
j
= 7
j
_
7
0
j
7
j
_
1
7
0
j
, Q
j
=
(1
.T
1
j
) y Q
A
= (1
.T
1
A
), se puede demostrar que Q = Q
A
Q
j
= Q
j
Q
A
. Es decir,
que esta transformacin Within es equivalente a dos transformaciones Within y el orden
de la transformacin no importa.
Los estimadores Within son, al igual que antes

, =
_
A
0
QA
_
1
A
0
Qj
Para identicar las dummies y la constante se usan las restricciones

i
j
i
y

t
`
t
. Los
estimadores del intercepto y las dummies son
c = j
..

, r
..
j
i
= ( j
i.
j
..
)

, ( r
i.
r
..
)
`
t
= ( j
.t
j
..
)

, ( r
.t
r
..
)
3.2.2 Test de Efectos Fijos
Al igual que en el caso del modelo one-way, se puede hacer un test de efectos jos con la
hiptesis nula
H
0
: j
1
= ... = j
.1
= 0 y `
1
= ... = `
T1
= 0
Los residuos restringidos corresponden a la regresin MCO del modelo sin transformar
y sin las dummies mientras que los residuos del modelo libre se rescatan de la regresin
Within. El estadgrafo es
84
1
1
=
(o1C1 o1C1) , ( T 2)
o1C1, (( 1) (T 1) 1)
~ 1
(.+T2),(.1)(T1)1
Tambin se puede tetear si slo la dummies individuales son signicativas o si slo las
dummies temporales son signicativas.
H
2
: j
1
= ... = j
.1
= 0 dado que `
t
,= 0 para t = 1, ..., T 1
Los residuos restringidos se obtienen de la regresin Within usando Q
A
. El estadgrafo
1
2
~ 1
(.1),(.1)(T1)1
. Por ltimo,
H
3
: `
1
= ... = `
T1
= 0 dado que j
i
,= 0 para i = 1, ..., 1
Los residuos restringidos se obtienen transformando el modelo con Q
j
. En ambos casos
los residuos libres se obtienen de la regresin Within usando Q. El estadgrafo distribuye
1
3
~ 1
(T1),(.1)(T1)1
.
3.2.3 El Modelo de Efectos Aleatorios
En este modelo se asume que j
i
~ iid
_
0, o
2
j
_
, `
t
~ iid
_
0, o
2
A
_
y
it
~ iid
_
0, o
2
u
_
inde-
pendientes entre ellos e independientes de A
it
para todo i y t. La matriz de varianzas y
covarianzas de los errores es
\ = 1
_
nn
0
_
= 7
j
1
_
jj
0
_
7
0
j
7
A
1
_
``
0
_
7
0
A
o
2
u
1
.T
= o
2
j
(1
.
J
T
) o
2
A
(J
.
1
T
) o
2
u
(1
.
1
T
) (59)
Los errores son homoscedsticos, pero, presentan autocorrelacin
co (n
it
, n
)c
) =
_

_
o
2
j
o
2
A
o
2
u
o
2
j
o
2
A
0
i = ,, t = :
i = ,, t ,= :
i ,= ,, t = :
i ,= ,, t ,= :
Para poder calcular \
1
se reemplaza J
.
por J
.
, 1
.
por 1
.


J
.
, J
T
por T

J
T
e 1
T
por 1
T


J
T
y se ordenan los escalares que acompaen matrices iguales. De esto se obtiene
\ =
4

i=1
`
i
Q
i
donde `
1
= o
2
u
, `
2
= To
2
j
o
2
u
, `
3
= o
2
A
o
2
u
y `
4
= To
2
j
o
2
A
o
2
u
. Mientras
que Q
1
= 1
.
1
T
, Q
2
= 1
.


J
T
, Q
3
=

J
.
1
T
y Q
4
=

J
.


J
T
. La ventaja de esta
descomposicin es que se puede escribir
85
\
v
=
4

i=1
`
v
i
Q
i
Como Q
i
n ~ (0, `
i
Q
i
), los mejores estimadores cuadrticos insesgados de `
i
son

`
i
=
n
0
Q
i
n
tr (Q
i
)
para i = 1, 2, 8. El estimador de `
4
se escribe en funcinde los otros 3 estimadores. Para
poder obtener estos estimadores, al igual del caso one-way, se pueden usar los residuos de
la regresin MCO (Wallace y Hussain (1969)), o los residuos de la regresin Within usando
Q (Amemiya (1971)). Los estimadores que sugieren Swamy y Arora (1972) transforman el
modelo usando Q
i
para obtener los residuos usados para calcular

`
i

`
1
=
_
j
0
Q
1
j j
0
Q
1
A
_
A
0
Q
1
A
_
1
A
0
Q
1
j
_
, [( 1) (T 1) 1[

`
2
=
_
j
0
Q
2
j j
0
Q
2
A
_
A
0
Q
2
A
_
1
A
0
Q
2
j
_
, [( 1) 1[

`
3
=
_
j
0
Q
3
j j
0
Q
3
A
_
A
0
Q
3
A
_
1
A
0
Q
3
j
_
, [(T 1) 1[
adems,

o
2
u
=

`
1
,

o
2
j
=
_

`
2

o
2
u
_
,T y

o
2
A
=
_

`
3

o
2
u
_
,.
Luego, con este estimador de \
1
se corre la regresin GLS.
3.3 Tests de Hiptesis
3.3.1 Test de Agregacin
Quizs el modelo subyacente para cada individuo es distinto, por lo que constituira un
error de especicacin juntar a todos los individuos en un panel. El modelo no restringido
deja libertad para que los parmetros sean distintos para cada individuo, as, el modelo
individual sera
j
i
= 7
i
c
i
n
i
para i = 1, ...,
donde j
0
i
= (j
i1
, ..., j
iT
) , 7
i
= [i
T
, A
i
[, y A
i
es de T 1, c
i
es (1 1) 1 y n
i
es
T 1. Lo importante de la especicacin es que c
i
es distinto para cada individuo. Se
quiere testear la hiptesis H
0
: c
i
= c para todo i. As, bajo la nula se puede escribir el
modelo
j = 7c n
86
donde 7 = (7
0
1
, ..., 7
0
.
) y n
0
= (n
0
1
, ..., n
0
.
). El modelo no restringido tambin puede
escribirse como
j =
_

_
7
1
0 0
0 7
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 7
.
_

_
_

_
c
1
c
2
.
.
.
c
.
_

_
n = 7

n
Test Bajo n ~
_
0, o
2
1
.T
_
En este caso los estimadores MCO son los mejores esti-
adores lineales e insesgados. Para testear por agregacin, basta hacer un test 1 estndar.
Sean
' =
_
1
.T
7
_
7
0
7
_
1
7
0
_
'

=
_
1
.T
7

_
7
0
7

_
1
7
0
_
Luego, los residuos de las resgresiones restringida y libre se pueden escribir respectiva-
mente como c = 'j y c

= '

j. El estadgrafo es,
1 =
(c
0
c c
0
c

) , (tr (') tr ('

))
c
0
c

,tr ('

)
~ 1
(.1)(1+1),.(T11)
Test Bajo el Caso General n ~ (0, \) Si se conociera una matriz proporcional a
\, por ejemplo \ = o
2
, es posible transformar el modelo premultiplicandolo por
12
y obtener un modelo homoscedstico y sin autocorrelacin. Sea el modelo restringido
transformado

12
j =
12
7c
12
n
` j =
`
7c ` n
donde 1 ( ` n ` n
0
) =
12
1 (nn
0
)
120
= o
2
1
.T
. En forma similar, se puede transformar
el modelo libre

12
j =
12
7


12
n
` j =
`
7

` n
con 1 ( ` n ` n
0
) = o
2
1
.T
.
Con estos modelo transformados se puede usar el mismo test de Chow descrito anteri-
ormente.
87
3.3.2 Test de Breusch-Pagan (1980)
Se usa un test de multiplicador de Lagrange para testear si H
0
: o
2
j
= o
2
A
= 0 en el modelo
two-way de efectos aleatorios. Bajo normalidad en los errores, la funcin de verosimilitud
es
1(c, 0) = co::ta:tc
1
2
log [\[
1
2
n
0
\
1
n
donde 0 =
_
o
2
j
, o
2
A
, o
2
u
_
y \ est dado por la expresin 59. El estadgrafo es
1' =

1
0

J
1

1
donde

1 = (01,00) [
~
0
mle
y

J es el estimador de la matriz de informacin
J (0) = 1
_

0
2
1
0000
0
_
Se puede demostrar que, en este caso
1' = 1'
1
1'
2
1
0
~
2
2
donde
1'
1
=
T
2 (T 1)
_
1
n
0
(1
.
J
T
) n
n
0
n
_
2
1'
2
=
T
2 ( 1)
_
1
n
0
(J
.
1
T
) n
n
0
n
_
2
Para computar este test slo se necesitan los residuos MCO n
0
. Adems, si se quiere
testear slo H
0
: o
2
j
= 0, el estadgrafo corresponde a 1'
1
que, bajo la nula, distribuye
asintticamente
2
1
. Anlogamente, si se quiere testear H
0
: o
2
A
= 0, el estadgrafo es 1'
2
y distribuye
2
1
bajo la nula.
3.3.3 Test de Especicacin de Hausman
Un supuesto crtico en los modelos de errores compuestos es que 1 (n
it
[A
it
) = 0. Esto es
importante debido a que los errores tienen un componente no observable j
i
que no vara
en el tiempo y que lo ms probable es que est correlacionado con A
it
. Por ejemplo, en un
modelo de salarios, j
i
va a incluir la habilidad de la persona, que va a estar correlacionada
con el nivel de educacin. En este caso, 1 (n
it
[A
it
) ,= 0 y la estimacin GLS del modelo
de efectos aleatorios

,
G1S
va a ser sesgada e inconsistente. Sin embargo, el estimador
Within remueve el efecto de j
i
y por lo tanto el estimador

,
WitIia
sigue siendo insesgado
y consistente. Para testear H
0
: 1 (n
it
[A
it
) = 0, Hausman (1978) sugiere comparar

,
G1S
88
con

,
WitIia
. Ambos estimadores son consistentes bajo la nula (de hecho

,
G1S
es el mejor
estimador lineal insesgado, en este caso), pero, si la nula no es verdadera, entonces

,
G1S
ya no es consistente.
El test de Hausman est basado en
1
=

,
G1S

,
WitIia
. Como

,
G1S
, = (A
0
\A)
1
A
0
\n
y

,
WitIia
, = (A
0
QA)
1
A
0
Qn. Se tiene que
1 (
1
) = 0
co
_

,
G1S
,
1
_
= ar
_

,
G1S
_
co
_

,
G1S
,

,
WitIia
_
=
_
A
0
\
1
A
_
1

_
A
0
\
1
A
_
1
A
0
\
1
1
_
nn
0
_
QA
_
A
0
QA
_
1
=
_
A
0
\
1
A
_
1

_
A
0
\
1
A
_
1
= 0
Como

,
WitIia
=

,
G1S

1
, se tiene que
ar
_

,
WitIia
_
= ar
_

,
G1S
_
ar (
1
)
luego,
ar (
1
) = ar
_

,
WitIia
_
ar
_

,
G1S
_
= o
2
u
_
A
0
QA
_
1

_
A
0
\
1
A
_
1
El estadgrafo de Hausman es
:
1
=
0
1
[ar (
1
)[
1

1
Bajo la nula, :
1
tiene distribucin asinttica
2
1
donde 1 es la dimensin del vector
de pendientes ,. En lugar de \ se puede usar un estimador consistente

\.
Note que este test sirve para decidir si usar un modelo de efectos jos o un modelo de
efectos aleatorios. Por eso se le llama test de especicacin.
Para extender este test para el caso del modelo two-way ver Kang (1985).
3.4 Heteroscedasticidad
Suponga que los efectos individuales son heteroscedsticos, mientras que la perturbacin
restante es homoscedstica. Es decir, j
i
~
_
0, n
2
i
_
i = 1, ..., , mientras que
it
~
_
0, o
2
u
_
.
En forma vectorial
j ~ (0,
j
)
~
_
0, o
2
u
1
.T
_
89
donde
j
= diaq
_
n
2
i

es una matriz diagonal de . As, la matriz de varianzas y


covarianzas del error es
\ = 1
_
nn
0
_
= 7
j

j
7
0
j
o
2
u
1
.T
esto se puede escribir como
\ = diaq
_
n
2
i

J
T
diaq
_
o
2
u

1
T
donde diaq
_
o
2
u

tambin es de dimensin . Usando el truco de Wansbeek y


Kapsteyn descrito anteriormente, se obtiene
\ = diaq
_
Tn
2
i
o
2
u


J
T
diaq
_
o
2
u

1
T
por lo tanto
\
v
= diaq
__
t
2
i
_
v


J
T
diaq
__
o
2
u
_
v

1
T
donde t
2
i
= Tn
2
i
o
2
u
y r es un escalar arbitrario. Para obtener un estimador consistente
de o
2
u
se pueden usar los residuos de la regresin Within
o
2
u
=
n
0
Q n
tr (Q)
Note adems que
ar (n
it
) = 1 (n
it
)
2
= n
2
i
o
2
u
= o
2
i
para i = 1, ...,
Por lo que se puede estimar
o
2
i
=
1
T 1
T

t=1
_
n
it
n
i.
_
2
para i = 1, ...,
donde n corresponden a los residuos de la regresin MCO. Luego se obtiene
n
2
i
= o
2
i
o
2
u
para i = 1, ...,
Alternativamente, se pudo haber supuesto que los j
i
son homoscedsticos, mientras que
los
it
son heteriscedsticos: j
i
~ iid
_
0, o
2
j
_
y
it
~
_
0, n
2
i
_
. Ahora la matriz de varianzas
y covarianzas es
\ = 1
_
nn
0
_
= diaq
_
o
2
j

J
T
diaq
_
n
2
i

1
T
Reemplazando J
T
por T

J
T
e 1
T
pro 1
T


J
T
se obtiene
\ = diaq
_
To
2
j
n
2
i


J
T
diaq
_
n
2
i

1
T
90
y
\
v
= diaq
__
t
2
i
_
v


J
T
diaq
__
n
2
i
_
v

1
T
donde t
2
i
= To
2
j
n
2
i
. Ahora, 1
_
n
2
it
_
= o
2
i
= o
2
j
n
2
i
para i = 1, ..., . Usando los
residuos MCO se obtiene
o
2
i
=
1
T 1
T

t=1
_
n
it
n
i.
_
2
Adems, usando los residuos Within se puede computar
n
2
i
=
1
T 1
T

t=1
_
n
it
n
i.
_
A partir de estos estimadores, se pueden obtener estimadores de o
2
j
, por lo que un
estimador consistente de o
2
j
es
o
2
j
=
1

i=1
_
o
2
i
n
2
i
_
Luego se computan los t
2
i
= T o
2
j
n
2
i
y se corre la regresin GLS.
3.5 Correlacin Serial
En el modelo one-way visto anteriormente existe autocorrelacin, corrc| (n
it
, n
ic
) = o
2
j
,
_
o
2
j
o
2
u
_
para t ,= :. Sin embargo, esta no depende de la distacia entre t y :. Este puede ser un
supuesto restrictivo en economa. A veces parece razonable que un shock tenga efecto por
algunos perodos posteriores. Suponga que la parte residual del error sigue un proceso
1(1), mientras que j
i
~ iid
_
0, o
2
j
_

it
= j
i,t1
c
it
[j[ < 1, c
it
~ iid
_
0, o
2
c
_
y los j
i
son independientes de
it
. Para cada individuo
1 (
i

0
i
) = o
2
c
(C
0
C)
1
donde
i
es el vector T 1 de errores del individuo 1. La matriz C
es la matriz de transformacin de Prais-Winsten
C =
_

_
_
1 j
2
_
12
0 0 0
j 1 0 0
0 j 1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
0 0 j 1
_

_
91
Ahora el modelo se transforma premultiplicndolo por (1
.
C). De esta forma el
modelo queda con un error no correlacionado serialmente
n

= (1
.
C) n = (1
.
Ci
T
) j (1
.
C)
La matriz de varianzas y covarianzas del error transformado es
\

= 1
_
n

n
0
_
= (1
.
Ci
T
) 1
_
jj
0
_ _
1
.
i
0
T
C
0
_
(1
.
C)
0
(1
.
C)
= o
2
j
_
1
.
(Ci
T
) (Ci
T
)
0
_
o
2
c
(1
.
1
T
)
= o
2
j
_
1
.
i

T
i
0
T
_
o
2
c
(1
.
1
T
)
donde i

T
= Ci
T
es un vector de T 1. Deniendo J

T
= i

T
i
0
T
y

J

T
= J

T
, (i
0
T
i

T
)
se puede aplicar el truco de Wansbeek y Kapsteyn reemplazando 1
T
por 1

T


J

T
donde
1

T
= 1
T


J

T
y juntando trminos asociados a matrices iguales
\

=
__
i
0
T
i

T
_
o
2
j
o
2
c
_ _
1
.


J

T
_
o
2
c
(1
.
1

T
)
= o
2

_
1
.


J

T
_
o
2
c
(1
.
1

T
)
donde o
2

= (i
0
T
i

T
) o
2
j
o
2
c
. Al igual que antes,
(\

)
v
=
_
o
2

_
v
_
1
.


J

T
_

_
o
2
c
_
v
(1
.
1

T
)
Para obtener una estimacin de C en este caso, es necesario obtener una estimacin de
j. Una alternativa es usar los residuos de la regresin Within y computar
j =

.
i=1

T
t=1

it

i,t1

.
i=1

T
t=2

2
i,t1
Como
_
1
.


J

T
_
n

~
_
0, o
2

_
1
.


J

T
__
y (1
.
1

T
) n

~ (0, o
c
) Los mejores esti-
madores cuadrticos insesgados de o
2

y de o
2
.
son
o
2
c
=
n
0
(1
.
1

T
) n

(T 1)
o
2

=
n
0
_
1
.


J

T
_
n

para computar estos estimadores se usan los residuos de la regresin MCO del modelo
transformado premultiplicando por (1
.
C).
92
3.6 Estimacin con Variables Endgenas
En el test de especicacin de Hausman visto anteriormente, rechazar la hiptesis nula
sugiere utilizar los estimadores consistentes Within en lugar de la estimacin MCG de
efectos aleatorios, por la presencia de variables endgenas. SIn embargo, an existen otras
alternativas de estimacin ms ecientes. Hausman y Taylor (1981) consideran un modelo
donde slo algunas de las variables explicativas estn correlacionadas con el j
i
. El modelo
que ellos consideran es
j
it
= A
it
, 7
i
j
i

it
donde 7
i
son variables de corte transversal que no cambian en el tiempo. Las variables
As y 7s se pueden dividir en dos sets:
A = [A
1
; A
2
[
7 = [7
1
; 7
2
[
donde A
1
es T /
1
, A
2
es T /
2
, 7
1
es T q
1
y 7
2
es T q
2
. A
1
y 7
1
son
exgenas, en el sentido que no estn correlacionadas con j
i
ni
it
. Mientras que A
2
y 7
2
estn correlacionadas con j
i
pero no con
it
.
La transformacin Within elimina a j
i
de la estimacin y as se evita el sesgo por
endogeneidad. Sin embargo, tambin remueve a 7
i
y no entrega un estimador de . Para
resolver este problema, Hausman y Taylor sugieren premultiplicar el modelo por \
12
y
usar instrumentos para la estimacin. Breusch, Mizon y Schmidt (1989) dan una versin
estimable de los instrumentos sugeridos por Hausman y Taylor:

1T
= [QA
1
; QA
2
; 1A
1
; 7
1
[
La condicin de identicacin es que /
1
_ q
2
.
Para obtener el estimador de \ Hausman y Taylor sugieren
1) obtener los residuos de la regresin Within (recuerde que se remueve 7
i
)
Qj = QA, Q
2) Promediar a travs del tiempo los residuos de esta regresin.

d
i
= j
i.


A
0
i.

,
W
3) Obtener estimadores de de la siguiente regresin

AC21
=
_
7
0
1

7
_
1
7
0
1


d
donde = [A
1
; 7
1
[ es el set de instrumentos, 1

= (
0
)
1

0
93
4) Los estimadores de los componentes de la varianza se obtienen de
o
2

=

0

(T 1)
o
2
1
=
_
j A

,
W
7
AC21
_
0
1
_
j A

,
W
7
AC21
_

3.7 Regresiones Aparentemente No Relacionadas


Las regresiones aparentemente no relacionadas se usa cuando tiene que estimarse un set de
ecuaciones. Este modelo no es exclusivo de los modelos para datos en panel. Este mtodo
considera la correlacin de los errores entre distintas ecuaciones. Considere un conjunto de
' ecuaciones
j
)
= 7
)
c
)
n
)
, = 1, ..., '
donde j
)
es T 1, 7
)
es T /
0
)
, c
0
)
=
_
c
)
, ,
)
_
, ,
)
es de /
)
1 y /
0
)
= /
)
1, adems,
n
)
= 7
j
j
)

)
, = 1, ..., '
donde 7
j
= (1
.
i
T
) y j
0
)
=
_
j
1)
, j
2)
, ..., j
.)
_
y
0
)
= (
11
,, ...,
1T)
, ...,
1.1)
, ...,
.T)
)
son vectores de variables aleatorias con covarianzas
1
_
j
)

)
_
_
j
0
|

0
|

=
_
o
2
j)|
1
.
0
0 o
2
u)|
1
.T
_
para ,, | = 1, 2, ..., '. Deniendo j
0
= (j
0
1
, j
0
2
, ..., j
0
A
),
0
= (
0
1
,
0
2
, ...,
0
A
), entonces
las distribuciones de los componentes del error son
j ~ (0,
j
1
.
)
~ (0,
u
1
.T
)
donde
j
tiene o
2
j)|
y
u
tiene o
2
u)|
en la posicin (,, |), ,, | = 1, 2, ..., '. Cada compo-
nente del error sigue los supuestos que Zellner (1962) impuso a su clsico modelo SUR.
La matriz de varianzas y covarianzas entre dos errores de ecuaciones distintas es
\
)|
= 1
_
n
)
n
0
|
_
= o
2
j)|
(1
.
J
T
) o
2
u)|
(1
.
1
T
)
Esta tiene la misma forma del caso en que se estimaba slo una ecuacin, solo que ahora
hay una distinta para cada par de ecuaciones. La matriz de varianzas y covarianzas de los
errores de todas la ecuaciones es
94
1
_
nn
0
_
=
j
(1
.
J
T
)
u
(1
.
1
T
)
donde n
0
= (n
0
1
, n
0
2
, ..., n
0
A
) es un vector de 1 'T. Reemplazando J
T
por T

J
T
e 1
T
por 1
T


J
T
y reordenando
\ = (T
j

u
)
_
1
.


J
T
_

u
(1
.
1
T
)
=
1
1
u
Q
donde
1
= T
j

u
. Al igual que antes,
\
v
=
v
1
1
v
u
Q
Se pueden estimar
u
y
1
con

u
=
l
0
Ql
(T 1)

1
=
l
0
1l
0

donde l = (n
1
, ..., n
A
) es la matriz T ' de perturbaciones de las ' ecuaciones.
Para obtener los estimadores de Mnimos Cuadrados Generalizados Factibles se puede
seguir a Baltagi (1980) que, al igual que Amemiya (1971) usa los residuos Within de las
estimaciones independientes de cada ecuacin.
3.8 Paneles Dinmicos
Muchas relaciones en economa son de naturaleza dinmica. Los paneles son tiles para un
mejor entendimiento de la dinmica del ajuste. Estas relaciones dinamicas se caracterizan
por la presencia de rezagos de la variable dependiente entre los regresores
j
it
= cj
i,t1
r
0
it
, n
it
i = 1, ..., ; t = 1, ..., T (60)
donde c es un escalar, r
0
it
es 1 1 y , es 1 1. Considere el modelo con componente
de error one-way
n
it
= j
i

it
(61)
donde j
i
~ iid
_
0, o
2
j
_
y
it
~ iid
_
0, o
2
u
_
independientes uno del otro. Este modelo
se caracteriza por dos fuentes de persistencia en el tiempo: (i) la presencia de la variable
dependiente rezagada y (ii) la de los efectos individuales que caracterizan la heterogeneidad
entre individuos.
95
La inclusin de rezagos de la variable dependiente lleva a la existencia de endogeneidad.
Es evidente que la variable explicativa j
i,t1
est correlacionada con j
i
. Los estimadores
OLS seran sesgados e inconsistentes, al igual que el GLS. Por otro lado, el modelo Within
elimina el efecto de j
i
, sin embargo, la nueva variable explicativa (j
i,t1
j
i.1
) va a
seguir estando correlacionada con el nuevo error (
it

i.
), porque
i.
contiene a
i,t1
que obviamente est correlacionado con j
i,t1
. Para tener estimadores consistentes va a
ser necesario conseguir instrumentos. Una alternativa es la sugerida por Anderson y Hsiao
(1981). Ellos sugieren sacar primeras diferencias al modelo para eliminar j
i
j
it
j
i,t1
= c (j
i,t1
j
i,t2
) (r
it
r
i,t1
)
0
, (
it

i,t1
)
^j
it
= c (^j
i,t1
) ^r
0
it
, ^
it
(62)
y luego usar ^j
i,t2
= (j
i,t2
j
i,t3
) o simplemente j
i,t2
como instrumento para
^j
i,t1
. Estos instrumentos no van a estar correlacionados con ^
it
en la medida que
it
no presente correlacin serial.
3.8.1 Estudio de Arellano y Bond (1991)
Diferenciando el modelo descrito por 60 y 61, se obtiene 62, que tiene un error que sigue
un proceso '(1). Primero, considere el caso de un modelo sin otras varibles explicativas
a parte del rezago. Para t = 8 se tiene
j
i3
j
i2
= c (j
i2
j
i1
) (
i3

i2
)
Note que j
i1
est altamente correlacionada con (j
i2
j
i1
) y no tiene correlacin con
(
i3

i2
), por lo que es un instrumento vlido. Note ahora lo que pasa con t = 4
j
i4
j
i3
= c (j
i3
j
i2
) (
i4

i3
)
Ahora, tanto j
i2
como j
i1
son instrumentos vlidos para (j
i3
j
i2
), ya que ninguno
est correlacionado con (
i4

i3
). As, para el perodo T el set de instrumentos vlidos
se vuelve (j
i1
, j
i2
, ..., j
i,T2
).
Para obtener un estimador eciente, es necesario tomar tambin en cuenta que el tr-
mino de error no es esfrico, de hecho
1
_
^^
0
_
= o
2
u
(1
.
G)
donde ^
0
= (^
0
1
, ^
0
2
, ..., ^
0
.
), ^
0
i
= (
i3

i2
, ...,
iT

i,T1
) y
96
G =
_

_
2 1 0 0
1 2 1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
. 0
.
.
.
.
.
. 1 2 1
0 0 1 2
_

_
es (T 2) (T 2). Recuerde que al incluir un rezago como variable explicativa, se
pierde una observacion y al sacar primeras diferencias se pierde otra, as quedan (T 2)
datos por individuo. Adems note que
1
_
^
i
^
0
i
_
= o
2
u
G
Deniendo
\
i
=
_

_
[j
i1
[ 0
[j
i1
, j
i2
[
.
.
.
0 [j
i1
, ..., j
i,T2
[
_

_
(63)
La matriz de instrumentos es
\ =
_
\
0
1
, ..., \
0
.

0
y las condiciones de ortogonalidad (momentos) son
1
_
\
0
i
^
i
_
= 0
Premultiplicando el modelo por \
0
se obtiene
\
0
^j = \
0
(^j
1
) c \
0
^
Corriendo GLS sobre el modelo trasformado, se obtienen los estimadores preliminares
de Arellano y Bond (1991)

c
1
=
_
(^j
1
)
0
\
_
\
0
(1
.
G) \
_
1
\
0
(^j
1
)
_
1

_
(^j
1
)
0
\
_
\
0
(1
.
G) \
_
1
\
0
(^j)
_
Estos corresponden a los estimadores GMM de Hansen (1982), donde la matriz de
varainzas y covarianzas de los momentos utilizada es (\
0
(1
.
G) \) o
2
u
. Con estos es-
timadores consistentes, se puede realizar una segunda etapa, rescatando los residuos y
calculando el siguiente estimador de la matriz de varianzas y covarianzas de los momentos
97

\
.
=
.

i=1
\
0
i
(^
i
) (^
i
)
0
\
i
El estimador de segunda etapa de Arellano y Bond es

c
2
=
_
(^j
1
)
0
\

\
1
.
\
0
(^j
1
)
_
1
_
(^j
1
)
0
\

\
1
.
\
0
(^j)
_
Un estimador consistente de la varianza del estimador es
ar
_

c
2
_
=
_
(^j
1
)
0
\

\
1
.
\
0
(^j
1
)
_
1
3.8.2 Modelos con Variables Exgenas
Considere ahora el modelo 62 que incluye otras variables explicativas. Si todas las r
it
son
extrictamente exgenas, es decir, 1 (r
it

ic
) = 0 para todo t, : = 1, 2, ..., T, pero, todas estn
correlacionadas con j
i
, entonces, todas las r
it
son instrumentos vlidos para la ecuacin
en diferencias 62. Luego, se puede agregar [r
0
i1
, r
0
i2
, ..., r
0
iT
[ a cada elemento de la diagonal
de 63
\
i
=
_

_
[j
i1
, r
0
i1
, r
0
i2
, ..., r
0
iT
[ 0
.
.
.
0 [j
i1
, ..., j
i,T2
, r
0
i1
, r
0
i2
, ..., r
0
iT
[
_

_
Ahora, el modelo a estimar por GLS es
\
0
^j = \
0
(^j
1
) c \
0
(^A) , \
0
^
donde ^A es la matriz de observaciones en diferencias ^r
it
de (T 2) 1. Los
estimadores de primera y segunda etapa se obtienen de
_

c

,
_
=
_
[^j
1
, ^A[
0
\

\
1
.
\
0
[^j
1
, ^A[
_
1
_
[^j
1
, ^A[
0
\

\
1
.
\
0
^j
_
(64)
Si r
it
fuesen variables predeterminadas en lugar de estrictamente exgenas, con 1 (r
it

ic
) ,=
0 si : < t y 0 si no, entonces slo
_
r
0
i1
, r
0
i2
, ..., r
0
i,c1
_
son instrumentos vlidos. Ahora, la
matriz de instrumentos es
\
i
=
_

_
[j
i1
, r
0
i1
, r
0
i2
[ 0
[j
i1
, j
i2
, r
0
i1
, r
0
i2
, r
0
i3
[
.
.
.
0
_
j
i1
, ..., j
i,T2
, r
0
i1
, ..., r
0
i,T1
_
_

_
(65)
98
Los estimadores de Arellano y Bond son los mismos que en 64 usando la nueva \
i
.
Tambin es posible tener algunas variables estrictamente exgenas y otras predetermi-
nadas, dentro de las As, en ese cas habr que denir la matriz \ en la forma correspon-
diente. Adems, puede ser que no todas las variables As estn correlacionadas con j
i
.
Separando
r
it
= [r
1it
, r
2it
[
donde r
1it
no est correlacionada con j
i
, mientras que r
2it
s se encuentra correlacionada
con j
i
. En este caso, Arellano y Bond (1991) cuentan T restricciones adicionales para la
ecuacin en niveles
1 (n
i2
r
1i1
) = 0
y
1 (n
it
r
1it
) = 0 para t = 2, ..., T
Todas las restricciones adicionales del modelo en niveles son redundantes, dadas las
restricciones ya impuestas por el modelo en primeras diferencias. Sean
n
i
= (n
i2
, ..., n
iT
)
0

+
i
=
_
^
0
i
, n
0
i
_
0

+
=
_

0+
1
, ...,
0+
.
_
0
y en forma anloga, j
+
, j
+
1
y A
+
. Es decir, se concatena primero el modelo en difer-
encias del perodo t = 8 al t = T y abajo el modelo en niveles desde t = 2 hasta t = T.
As,

+
= j
+
j
+
1
c A
+
,
La matriz ptima de instrumentos es ahora
\
+
i
=
_

_
\
i
0
[r
0
1i1
, r
0
1i2
[
r
0
1i3
.
.
.
0 r
0
1iT
_

_
donde \
i
corresponde a la expresin 65. El estimador de dos etapas es el mismo de 64
pero usando j
+
, j
+
1
, A
+
y \
+
en lugar de ^j, ^j
1
, ^A y \, respectivamente.
99
Si r
1it
es estrictamente exgeno, las observaciones de todos los perodos son instrumen-
tos vlidos, sin embargo, dadas las restricciones explotadas con el modelo en diferencias,
slo se agregan T restricciones adicionales, que Arellano y Bond expresan como
1
_
T

c=1
r
1it
n
ic
,T
_
= 0 para t = 1, ..., T
Luego, el estimador de dos etapas simplemente combina las T 2 ecuaciones en primeras
diferencias y los promedios de las ecuaciones en niveles.
Arellano y Bond (1991) tambin proponen un test para ver que no exista correlacin
serial de segundo orden. Esto es importante porque de haber correlacin serial de segundo
orden los estimadores anteriores seran inconsistentes.
3.9 Paneles Desbalanceados
Muchas veces, no se tiene el mismo nmero de observaciones para cada individuo en la
muestra. Por ejemplo, al estudiar rmas, algunas nuevas emergen mientras otras desapare-
cen durante el perodo bajo estudio. El modelo de regresin desbalanceado es
j
it
= c A
0
it
, n
it
i = 1, ..., ; t = 1, ..., T
i
n
it
= j
i

it
donde j
i
~ iid
_
0, o
2
j
_
y
it
~ iid
_
0, o
2
u
_
. El modelo es desbalanceado en el sentido que
hay individuos observados por intervalos de distintos largos, T
i
para el individuo i. En
forma vectorial se tiene
j = ci
a
A, n = 7c n
n = 7
j
j
donde j y 7 son de dimensiones :1 y :(1 1) respectivamente, 7 = [i
a
, A[, c
0
=
_
c, ,
0

, : =

.
i=1
T
i
, 7
j
= diaq (i
T
i
), i
T
i
es un vector de unos de largo T
i
, j = (j
1
, ..., j
.
)
0
y = (
11
, ...,
1T
1
, ...,
.1
, ...,
.T
N
)
0
El estimador MCO corresponde a

c
ACO
=
_
7
0
7
_
1
7
0
j
Este es el mejor estimador lineal e insesgado cuando o
2
j
= 0, ya que los errores seran
esfricos. Sin embargo, an, cuando o
2
j
0, los estimadores MCO son insesgados y
consistentes. Los residuos MCO son
n
ACO
= j 7

c
ACO
100
El estimador Within se puede obtener al igual que antes, premultiplicando el modelo
por la matriz
Q = diaq (1
T
i
)
donde 1
T
i
= 1
T
i


J
T
i
. Luego se corre la regresin

, =
_
A
0
QA
_
1
A
0
Qj =
_

A
0

A
_
1

A
0
j
y el estimador del intercepto se obtiene de c =
_
j
..


A
..

,
_
y los residuos Within
corresponden a
n = j ci
a
A

,
El estimador Between se obtiene de

c
1ct&cca
=
_
7
0
17
_
1
7
0
1j
donde 1 = diaq
_

J
T
i
_
. Los residuos Between son
n
b
= j 7

c
1ct&cca
El estimador GLS es

c
G1S
=
_
7
0
\
1
7
_
1
7
0
\
1
j
donde \ = 1 (nn
0
). Para poder calcular la inversa de esta matriz se usa el mismo truco
de Wansbeek y Kapteyn, pero, por bloques
\ = o
2
j
_
7
j
7
0
j
_
o
2
u
1
a
= o
2
j
diaq (J
T
i
) o
2
u
diaq (1
T
i
)
esta es una matriz diagonal en bloques de la forma
\ =
_

_
\
1
0 0
0 \
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
0 0 \
.
_

_
donde \
i
es de dimensin T
i
T
i
con elementos o
2
j
o
2
u
en la diagonal principal y o
2
j
en el resto de las celdas. Para invertir una matriz diagonal en bloques se debe invertir cada
uno de los bloques
101
\
1
=
_

_
\
1
1
0 0
0 \
1
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 0
0 0 \
1
.
_

_
El bloque i es de la forma
\
i
= o
2
j
J
T
i
o
2
u
1
T
i
Reemplazando T

J
T
i
por J
T
i
y 1
T
i


J
T
i
por 1
T
i
se obtiene
\
i
=
_
To
2
j
o
2
u
_

J
T
i
o
2
u
1
T
i
y al igual que antes
\
v
i
=
_
To
2
j
o
2
u
_
v

J
T
i

_
o
2
u
_
v
1
T
i
Con para obtener los estimadores de GLS se puede premultiplicar el modelo por \
12
y luego correr MCO sobre el modelo transformado.
Para obtener estimadores de o
2
j
y de o
2
u
se procede en forma similar al caso de paneles
balanceados, existiendo tres alternativas de estimadores de los residuos: MCO (Wallace y
Hussain), Within (Amemiya) Within y Between.(Swamy y Arora). Sin embargo, ahora
la derivacin de los estimadores es un poco ms compleja que en el caso balanceado. Los
estimadores tipo Amemiya seran
o
2
u
= nQ n, (: 1)
o
2
j
=
n1 n
_
1 tr
_
(A
0
QA)
1
A
0
1A
_
tr
_
(A
0
QA)
1
A
0

J
a
A
__
o
2
u
:

.
i=1
T
2
i
,:
Usando la sugerencia de Swamy y Arora, se obtiene el mismo estimador de o
2
u
anterior
(ambos usan los residuos Within), pero ahora
o
2
j
=
n
b0
1 n
b
( 1 1) o
2
u
: tr
_
(7
0
17)
1
7
0
7
j
7
0
j
7
_
Otra alternativa es el mtodo III de Henderson (1953). Sean
102
1(j) = j
0
7
j
_
7
0
j
7
j
_
1
7
0
j
j
1(c) = j
0
7
_
7
0
7
_
1
7
0
j
1(c[j) = j
0

A
_

A
0

A
_
1

A
0
j
1(j[c) = 1(c[j) 1(j) 1(c)
Los estimadores son
o
2
u
=
j
0
j 1(c[j) 1(j)
: 1
o
2
j
=
1(j[c) ( 1) o
2
u
: tr
_
7
0
j
7 (7
0
7)
1
7
0
7
j
_
Con cualquiera de estos estimadores se pueden obtener los estimadores de Mnimos
Cuadrados Generalizados Factibles.
3.10 Paneles No Estacionarios
Inters relativamente reciente debido a los paneles usados en estudios macroeconmicos
con un T relativamente grande, a diferencia de los paneles microeconmicos que tienen un
T pequeo en relacin a . Algunos de los resultado ms interesantes de esta literatura
es que con paneles se encuentran distribuciones asintticas normales en varios estadgrafos
de inters, y a diferencia de las regresiones esprias de series de tiempo, con paneles se
encuentran estimadores consistentes de los verdaderos valores de los parmetros, gracias a
la informacin adicional que proporciona la varianza entre individuos.
3.10.1 Test de Raz Unitaria en Paneles
Test de Levin y Lin Considere el modelo:
j
it
= j
i
j
i,t1
.
0
it
n
it
i = 1, ..., ; t = 1, ..., T
donde .
it
es un componente determinstico que puede ser:
.
it
= 0
.
it
= 1 (una constante)
.
it
= j
i
(efecto jo)
.
it
= (j
i
, t)
0
103
mientras que n
it
es un proceso estacionario.
Levin y Lin (LL) consideran el caso en que n
it
~ iid
_
0, o
2
&
_
, y j
i
= j para todo i.
La hiptesis nula del test es: H
0
: j = 1, mientras que la alternativa es H
1
: j < 1.
Sea j el estimador MCO de j, deniendo .
t
= (.
1t
, .
2t
, ..., .
.t
)
0
, /(t, :) = .
0
t
_

T
t=1
.
t
.
0
t
_
1
.
c
,
n
it
= n
it

T
c=1
/(t, :) n
it
y j
it
= j
it

T
c=1
/(t, :) j
ic
, entonces se tiene:
_
T ( j 1) =
1
p
.

.
i=1
1
T

T
t=1
j
it
n
it
1
.

.
i=1
1
T
2

T
t=1
j
2
it
y el estadgrafo t bajo la nula est dado por:
t
j
=
( j 1)
_

.
i=1

T
t=1
j
2
i,t1
:
c
donde :
2
c
= (1,T)

.
i=1

T
t=1
n
2
it
Levin y Lin (1992) encuentran la siguiente distribucin asinttica para este estadgrafo
dependiendo del valor de .
it
:
.
it
Distribucin
0 t
j
(0, 1)
1 t
j
(0, 1)
j
i
_
1.2t
j

_
1.87 (0, 1)
(j
i
, t)
0
_
448
277
_
t
j

_
8.7
_
(0, 1)
Estas distribuciones son vlidas cuando y T .
Test de Im, Pesaran y Shin (1997) Este test permite que el valor de j
i
sea heterogeneo
entre grupos. IPS sugieren sacar promedios de tests ADF por grupo. El modelo considerado
es uno con autocorrelacin:
j
it
= j
i
j
i,t1

j
i

)=1
c
i)
^j
i,t)
.
0
it
-
it
La hiptesis nula H
0
: j
i
= 1 para todo i, y la alternativa H
1
: j
i
< 1 para al menos
algn i. El estadgrafo de IPS es el promedio de los estadgrafos ADF:

t =
1

i=1
t
j
i
donde t
j
i
es el estadgrafo t de la hiptesis H
0
: j
i
= 1 para cada i. Se sabe que t
j
i
converge a:
104
t
j
i

_
1
0
\
iZ
d\
iZ
_
_
1
0
\
2
iZ
_
12
= t
iT
Luego se construye el siguiente estadgrafo con distribucin normal estndar bajo la
nula y con y T :
t
11S
=
_

t
1
.

.
i=1
1 (t
iT
[j
i
= 1)
_
_
1
.

.
i=1
ar (t
iT
[j
i
= 1)
(0, 1)
Los valores de 1 (t
iT
[j
i
= 1) y de ar (t
iT
[j
i
= 1) estn tabulados por IPS, usando
simulaciones de montecarlo, para distintos valores de T y de j
0
i
:.
3.10.2 Regresiones Espreas con Datos de Panel
Suponga que j
t
y A
t
son variables no estacionarias con la siguiente matriz de varianzas y
covarianzas:
\ =
_
\
jj
\
ja
\
aj
\
aa
_
Luego, , = \
ja
\
1
aa
puede interpretarse como los coeciente que relaciona en el largo
plazo a las variables no estacionarias j
t
y A
t
. An cuando las variables no cointegren,
, es una medida de la correlacin de largo plazo entre j
t
y A
t
. Phillips y Moon (1999)
extienden este concepto al caso de los paneles. La heterogeneidad entre individuos, ahora
se interpreta como hetarogeneidad en las matrices de varianza y covarianza de largo plazo
\
i
. Luego, \
i
se obtiene aleatoriamente de una poblacin con media 1 (\
i
) = \. En este
caso:
, = 1 (\
j
i
a
i
) 1 (\
a
i
a
i
)
1
= \
ja
\
1
aa
es el coeciente que corresponde a la matriz de correlacin de largo plazo promedio.
Phillips y Moon estudian los siguiente casos: (i) Regresin esprea en panel, donde no
hay cointegracin en series de tiempo; (ii) Cointegracin heterognea en panel, donde cada
individuo tiene su propio vector de cointegracin; (iii) Cointegracin homognea en panel,
donde todos los individuos tienen la misma relacin de cointegracin; y (iv) Cointegracin
casi-homognea, donde los individuos tienen relaciones de cointegracin un poco distintas
determinadas por el valor de un parmetro de localizacin.
En los cuatro casos, Phillips y Moon encuentran que el estimador de MCO de , es
consistente y tiene una distribucin asinttica normal.
105
3.10.3 Test de Cointegracin en Paneles
Test de Kao (1999) Considere el siguiente modelo de regresin en paneles:
j
it
= r
0
it
, .
0
it
c
it
donde r
it
= r
i,t1
-
it
y c
it
es 1 (1). Ellos sugieren dos tipos de test, uno tipo DF y
otro tipo ADF. El test tipo DF se puede calcular a partir de los residuos:
c
it
= j c
i,t1

it
donde c
it
= j
it
r
0
it

,. La hiptesis nula es H
0
: j = 1. El estimador MCO de j y el
estadgrafo t estn dados por:
j =

.
i=1

T
t=1
c
it
c
i,t1

.
i=1

T
t=1
c
2
it
y
t
j
=
( j 1)
_

.
i=1

T
t=1
c
i,t1
:
c
donde :
2
c
= (1,T)

.
i=1

T
t=1
( c
it
j c
i,t1
)
2
. Kao propone los siguientes cuatro test
tipo DF suponiendo que .
it
= j
i
:
11
j
=
_
T ( j 1) 8
_

_
10.2
11
t
=
_
1.2t
j

_
1.87
11

j
=
_
T ( j 1)
3
p
.^ o
2
v
^ o
2
0v
_
8
36^ o
4
v
5^ o
4
0v
11

t
=
t
j

p
6.^ ov
2^ o
0v
_
^ o
2
0v
2^ o
2
v

3^ o
2
v
10^ o
2
0v
donde o
2

&

&.

1
.
y o
2
0
=

\
&


\
&.

\
1
.
. Los estadgrafos 11
j
y 11
t
suponen
exogeneidad fuerte, mientras que 11

j
y 11

t
estn basados en cointegracin con una
relacin endgena entre los regresores y el error.
Para el test tipo ADF, se corre la siguiente regresin:
106
c
it
= j c
i,t1

j

)=1
0
)
^ c
i,t)

it
El estadgrafo ADF es:
11 =
t
11

p
6.^ ov
2^ o
0v
_
^ o
2
0v
2^ o
2
v

3^ o
2
v
10^ o
2
0v
donde t
11
es el estadgrafo ADF tradicional de la regresin anterior. La distribucin
asinttica de estos 5 estadgrafos, bajo la nula de no cointegracin convergen a una normal
estndar.
107

Você também pode gostar