Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Agradezco
ndice general
1. Introduccin
1.1.
1.2.
1.3.
El Ideal de lo Experimental
1.4.
. . . . . . . . . . . . . . . . . . . . .
11
1.3.1.
El Problema de Seleccin . . . . . . . . . . . . . . . . . . .
11
1.3.2.
13
1.3.3.
. . . . . . . . . .
13
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.4.1.
Corte Transversal . . . . . . . . . . . . . . . . . . . . . . .
14
1.4.2.
Series de tiempo
. . . . . . . . . . . . . . . . . . . . . . .
15
1.4.3.
15
Tipos de datos
18
Anlisis de Regresin . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.1.1.
Qu es una regresin? . . . . . . . . . . . . . . . . . . . .
18
2.1.2.
21
2.1.3.
21
2.1.4.
22
2.2.
2.2.2.
2.3.
. . . . . . . . . . . . . . .
. . . . . . . . . .
28
2.2.3.
30
2.2.4.
Propiedades de un Estimador
. . . . . . . . . . . . . . . .
33
36
2.3.1.
36
2.3.2.
39
2.3.3.
40
2.3.4.
2.3.5.
2.5.
. . . . . . . . . . . . .
44
. . . . . . .
45
. . . . . . . . . . . . . . . .
47
2.4.1.
47
2.4.2.
48
50
2.5.1.
51
2.5.2.
Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . .
51
27
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.
25
53
53
3.1.1.
54
3.1.2.
Anlisis de Varianza
55
3.1.3.
Bondad de Ajuste:
R2
. . . . . . . . . . . . . . . . . . . . .
y
2
R
. . . . . . . . . . . . . . . . .
56
3.2.
3.3.
Inferencia
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.2.1.
61
3.2.2.
. . . . . . . . . . .
70
3.2.3.
Intervalos de Conanza . . . . . . . . . . . . . . . . . . . .
70
3.2.4.
72
73
78
4.1.
80
4.2.
83
4.3.
Multicolinealidad
. . . . . . . . . . . . . . . . . . . . . . . . . . .
83
4.4.
86
4.5.
100
4.6.
Heterocedasticidad
. . . . . . . . . . . . . . . . . . . . . . . . . .
102
4.7.
Seleccin de Modelos . . . . . . . . . . . . . . . . . . . . . . . . .
106
4.7.1.
. . . . . . . . . . . . . .
106
4.7.2.
108
111
5.1.
Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
111
5.2.
Simultaneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
5.3.
Error de Medicin . . . . . . . . . . . . . . . . . . . . . . . . . . .
114
5.4.
115
5.4.1.
5.5.
. . . . . . . . . . . . . . .
117
5.5.1.
5.5.2.
Using Geographic Variation in College Proximity to Estimate the Return to Schooling, Card (1993) . . . . . . . . .
5.5.3.
118
5.6.
117
. . . . . . . . . . .
119
120
126
6.1.
127
6.2.
Estimacin MV . . . . . . . . . . . . . . . . . . . . . . . . . . . .
128
6.3.
Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . .
132
6.3.1.
132
6.3.2.
133
6.3.3.
133
137
6.4.
139
7.1.
140
7.2.
144
7.3.
. . . . . . . . . . . . . . . . . . . .
145
7.4.
Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
146
7.5.
151
7.6.
Aplicacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
156
162
. . . . . . . . . . . . .
162
8.2.
Modelos Multinomiales . . . . . . . . . . . . . . . . . . . . . . . .
169
8.2.1.
Conditional Logit . . . . . . . . . . . . . . . . . . . . . . .
170
8.2.2.
Multinomial Logit
. . . . . . . . . . . . . . . . . . . . . .
175
8.2.3.
Mixed Logit . . . . . . . . . . . . . . . . . . . . . . . . . .
177
8.2.4.
180
8.2.5.
182
8.2.6.
Multinomial Probit . . . . . . . . . . . . . . . . . . . . . .
186
188
9.1.
Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
188
9.2.
189
9.3.
9.4.
. . . . . . . . . . . . . . . . . .
9.2.1.
. . . . . . . . . . .
193
9.2.2.
Modelo Tobit
. . . . . . . . . . . . . . . . . . . . . . . . .
194
9.2.3.
9.2.4.
Efectos Marginales
9.2.5.
9.2.6.
. . . . . . . . . .
195
. . . . . . . . . . . . . . . . . . . . . .
197
. . . . . . . . . .
204
Modelos de Seleccin . . . . . . . . . . . . . . . . . . . . . . . . .
208
9.3.1.
208
9.3.2.
209
9.3.3.
210
9.3.4.
Identicacin
211
9.3.5.
Efectos Marginales
. . . . . . . . . . . . . . . . . . . . . .
211
9.3.6.
212
215
. . . . . . . . . . . . . . . . . . . . . . . . .
10.Datos de Panel
220
221
. . . . . . . . . . . . . . . . . . . . . . . .
221
221
. . . . . . . . .
222
. . . . . . . . . . . . . . . . . . .
222
. . . . . . . . . . . . . . . . . . . . . . . . .
222
223
. . . . . . . . . . . .
223
. . . . . . . . . . . . .
224
225
225
226
226
227
. . . . . . . . . . . . . . . . . . .
237
. . . . . . . . . . .
238
244
245
246
251
252
. . . . . . . . .
256
256
260
14.Evaluacin de Tratamiento
263
. . . . . . . . . . . . . . . . .
264
. . . . . . . . . . . . .
265
266
. . . . . . . . . . . . . . . . . .
275
. . . . . . . . . . . . . . . . . . . .
277
15.Modelos de Duracin
284
15.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
284
285
Captulo 1
Introduccin
En este curso estudiaremos diferentes tcnicas economtricas aplicadas a datos a
nivel micro (o individual) que nos permitirn responder a preguntas econmicas
y de polticas pblicas de inters.
Primero comencemos por denir qu se entiende por Econometra, pero esta denicin no es nica:
1.1.
Las decisiones en el gobierno y mundo privado (negocios) dependen del correcto entendimiento de la relacin entre las variables claves que afectan estas
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
decisiones, de esta forma se puede decir que estas decisiones requieren de respuestas cuantitativas a preguntas cuantitativas.
Algunos ejemplos de preguntas que podemos responder son los siguientes:
Cada una de estas preguntas requiere una respuesta cuantitativa, por ejemplo,
necesitamos determinar en cuantos puntos porcentuales se reduce la tasa de participacin previsional por un incremento en 30 mil pesos en la pensin no contributiva, este nmero debe ser determinado de manera emprica mediante los datos
disponibles. De esta forma, al utilizar una base de datos para responder nuestras
preguntas de manera cuantitativa siempre existir incertidumbre en nuestra respuesta, por lo cual no basta con encontrar la respuesta cuantitativa a la pregunta
sino que adems determinar la precisin de esta.
Una herramienta matemtica que nos permite responder esta pregunta es el anlisis de regresin, el que mide numricamente cuanto cambia una variable (variable
de inters) al cambiar otra variable, manteniendo todo lo dems constante.
1.2.
Preguntas sobre
Preguntas
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
Relacin de inters
El experimento ideal
La estrategia de identicacin
EL modo de hacer inferencia
As, para comenzar deberamos preguntarnos Cul es la relacin causal que nos
interesa?, a pesar de que la investigacin puramente descriptiva tiene un rol importante que jugar, la investigacin ms interesante en ciencias sociales tiene que
ver con causa y efecto, como por ejemplo el efecto del tamao de la clase sobre
el rendimiento de los alumnos. Una relacin causal es til para hacer predicciones sobre las consecuencias de hacer cambios o polticas, nos dice que pasara en
un mundo alternativo (o contrafactual). Por ejemplo, como parte de la agenda
que investiga la productividad de la capacidad humana o capital humano se ha
investigado el efecto causal de escolaridad sobre salarios. El efecto causal de escolaridad sobre salarios es el incremento en salarios que un individuo recibira al
incrementar su escolaridad.
La segunda pregunta tiene que ver con el experimento que idealmente nos permitira capturar el efecto causal de inters. Por ejemplo, en el caso que nos interesa
el efecto causal de escolaridad sobre ingresos podramos pensar en ofrecer una
compensacin a las personas que dejan el colegio para que no lo hagan y ver cuales son las consecuencias. Los experimentos ideales generalmente son hipotticos.
La tercera y cuarta pregunta tienen que ver con los elementos para generar un
estudio especco. Angrist y Krueger (1999) utilizan el trmino estrategia de
identicacin para describir la forma en que los investigadores utilizan los datos
observados (no experimental) para aproximar un experimento real. Con respecto a la cuarta FAQs tiene que ver con la mejor forma de hacer inferencia en el
contexto de los datos utilizados, as el modelo de hacer inferencia depender de
la poblacin bajo estudio, los datos disponibles, y los supuestos utilizados para
obtener los errores estndar.
10
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
1.3.
El Ideal de lo Experimental
Las investigaciones con un diseo experimental han sido las ms crebles e inuyentes. Un ejemplo es el Proyecto Perry Preschool, donde se intervinieron de
manera aleatoria 123 nios pre-escolares de raza negra en Ypsilanti (Michigan)
en el ao 1962. El grupo de tratamiento de este programa fue seleccionado de
manera aleatoria para recibir una intervencin intensiva que incluye educacin
pre-escolar y visitas a la casa. Este programa fue de gran impacto en los estudios
realizados, ya que sigui a los nios hasta la edad de 27 aos, adems este programa dio el pie de partida para un programa pre-escolar masivo.
Otro ejemplo es el programa PROGRESA en Mxico....
Los hospitales hacen a las personas ms saludables? , para algunos esta pregunta puede parecer metafrica, pero es la clase de pregunta que le interesa a los
economistas en el rea de la salud, para hacerla ms realista imagine que estamos
estudiando a la poblacin de adultos mayores pobres (que no tienen seguro de
salud) que usan las atenciones de urgencia como cuidados primarios de salud,
y algunos de estos pacientes son hospitalizados recibiendo los cuidados de salud
que necesitan. Esta manera de obtener los cuidados de salud es costosa, satura
las instalaciones de urgencia de los hospitales, y probablemente no es eciente.
Adems de que esta poblacin vulnerable se expone a otro tipo de enfermedades
al ingresar al hospital mediante esta va.
Luego, podramos comparar el estatus de las personas que ingresan al hospital
con el estatus de las personas que no ingresan al hospital, la encuesta National Health Interview Survey (NHIS) de Estados Unidos contiene la informacin
necesaria para hacer esta comparacin. Especcamente, contiene las preguntas:
11
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
Tabla 1.1
Estatus de salud promedio hospitalizados y no hospitalizados
manera literal sugiere que los hospitales enferman a las personas. Sin embargo,
es fcil notar que esta comparacin no puede ser tomada de manera literal, ya
que las personas que van a los hospitales probablemente son menos saludables
desde un principio.
Para ver este problema de manera ms precisa, pensemos la variable de hacer
asistido a un hospital como un tratamiento binario
Di = {0, 1}.
La variable de
Yi .
La pregunta es como
Yi
esta pregunta, debemos imaginarnos que hubiera pasado con el estado de salud
de una persona que fue al hospital si no hubiera ido y viceversa. As, para cada
uno de los individuos existen dos potenciales variables:
Resultado P otencial =
Es decir,
Y0i
Y1i ,
Y0i ,
Y1i
si
Di = 1
Di = 0
de no haber ido al hospital
si
de la siguiente manera:
Y1i , si Di = 1
Y0i , si Di = 0
= Y0i + (Y1i Y0i )Di
Yi =
(1.1)
Esta notacin es til ya que
(Y1i Y0i )
Y1i
Y0i ,
diferentes personas, el problema es que nunca observamos ambos resultados potenciales para una misma persona, por lo cual debemos obtener el efecto de la
12
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
observada
tratamiento
sobre
tratados
de
seleccin
Di
Di
Notemos que:
Y0i
Di ,
= Y1i Y0i .
Yi = |{z}
+ Di +
|{z}
E[Y0i ]
(Y1i Y0i )
13
i
|{z}
Y0i E[Y0i ]
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
|{z}
ef ecto
tratamiento
Sesgo
de
y el regresor
seleccin
Di ,
y dado que:
1.4.
Tipos de datos
Los datos que disponemos para trabajar pueden tener tres formatos: corte
transversal, Series de Tiempo, y Datos de Panel (o Longitudinales).
14
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
Figura 1.1
Datos de tipo Corte Transversal
15
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
Figura 1.2
Datos de tipo Series de Tiempo
16
Microeconometra Aplicada
Centro de Microdatos
Capitulo 1: Introduccin
Figura 1.3
Datos de tipo Longitudinal
17
Captulo 2
Modelo de Regresin Lineal
2.1.
Anlisis de Regresin
18
Microeconometra Aplicada
Centro de Microdatos
por profesor) en 2. Luego queremos encontrar una relacin entre Simce y TamaoCurso, donde signica cambio. Lo que queremos determinar es cunto cambia
el puntaje de Simce en relacin a cuanto est cambiando el tamao del curso,
vale decir:
Simce
Tamao
Curso
mide cuanto cambia el puntaje del Simce por cada cambio en tamao de curso,
Simce = Tamao
= 5,7 1
Notemos que
Curso
Simce = 0 + 1 Tamao
donde
es el intercepto de la recta, y
Curso
la pendiente.
determinar el valor del intercepto de esta recta as como de su pendiente, podramos predecir cul es el rendimiento promedio esperado de un curso dependiente
de la cantidad de alumnos que tenga por profesor.
19
Microeconometra Aplicada
Centro de Microdatos
Figura 2.1
Relacin entre rendimiento y tamao de curso
Figura 2.2
Recta de regresin entre rendimiento y tamao de curso
20
Microeconometra Aplicada
Centro de Microdatos
variables aleatorias,
relaciones como la ley de gravedad de Newton , las que son exactas (no tienen
naturaleza aleatoria).
no puede por s misma implicar en forma lgica una causalidad. El que podamos
o no determinar y estimar una relacin causal va a depender de si estamos o no
utilizando una correcta estrategia de identicacin en nuestro modelo.
1 La
ley de gravedad de Newton plantea que toda partcula en el universo atrae a cualquier
otra partcula con una fuerza directamente proporcional al producto de sus masas e inversamente
2
), donde F=fuerza, m1 y m2
proporcional al cuadrado de la distancia entre ellas: F=k( mr1 m
2
son la masa de las dos partculas, r es la distancia y k una constante de proporcionalidad. Esta
es una relacin determinstica, ya que para valores de masas, distancia y constante sabemos
exactamente a la fuerza que se atraen estas partculas. Si alguna de las variables estuviera
medida con error, la ley de Newton pasa a ser una relacin estadstica, y F se convierte en una
variable aleatoria.
21
Microeconometra Aplicada
Centro de Microdatos
yx =
= 2 2
x y
var(x)var(y)
con
X=
1
n
n
i=1
yx
][
]
n [
x
X
y
Y
i
i
= [i=1
]2 n [
]2
n
x
X
y
Y
i
i
i=1
i=1
xi
Y =
1
n
n
i=1
yi .
De ahora en adelante denotaremos con un a los estimadores de un estadstico obtenidos a partir de informacin muestral.
Algunas precauciones con el coeciente de correlacin:
22
Microeconometra Aplicada
Centro de Microdatos
A continuacin las guras 2.3, 2.4, 2.5 y 2.6 muestran algunos ejemplos de correlaciones entre variables.
Figura 2.3
Portales de Internet, correlacin entre nmero de visitas y valor de la empresa
23
Microeconometra Aplicada
Centro de Microdatos
Figura 2.4
Correlacin entre Empleo y Producto (serie de tiempo)
Figura 2.5
Correlacin entre Producto per-capita y ranking ftbol
24
Microeconometra Aplicada
Centro de Microdatos
Figura 2.6
Correlacin entre temperatura media del da y estudiantes ausentes a clases
2.2.
Para esta seccin asumiremos que existe una variable dependiente (Y) que es
explicada por slo una variable (X).
Consideremos el siguiente ejemplo. En la Tabla 2.1 se presentan datos de salarios
y nivel de educacin para una poblacin de 60 individuos
E(Y|X)
16000
32868
50000
80000
100000
150000
219120
300000
547800
166199
18260
36520
54780
82170
109560
170000
273900
365200
730400
204532
10
15000
40000
58000
90000
120000
182600
280000
380000
913000
230956
11
15000
40000
60000
90000
120000
188973
328680
434120
821700
233164
12
20000
50000
73040
100000
140000
219120
365200
500000
1064558
281324
13
20000
54780
80000
100500
160000
257880
400000
550000
1460800
342662
14
21912
60000
89000
120000
200000
300000
500000
650000
1500000
382324
15
35000
73040
100000
140000
230000
400000
600000
883085
1826000
476347
16
40000
90000
105000
180000
280000
434686
730400
1000000
2487041
594125
17
60000
120000
165784
250000
365200
600000
1095600
1643400
4000000
922220
La poblacin tiene 10 niveles distintos de educacin, que van desde 8 a 17. Para
cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de
la variabilidad en los salarios para cada nivel educacional considerado, en promedio el salario se incrementa a medida que los aos de educacin aumentan. Esto
ltimo se puede vericar al calcular el promedio para cada nivel de educacin, lo
2 Una
Microeconometra Aplicada
Centro de Microdatos
valores
Denicin:
trico de las medias condicionales de la variable dependiente para los valores jos
de la(s) variable(s) explicativa(s).
En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma
simtrica en torno al valor promedio para cada valor X, desde ahora asumiremos
que esto
salario
2000000
3000000
4000000
1000000
Recta de regesin
poblacional (RRP)
x
8
x
10
14
12
16
Escolaridad
Figura 2: Distribucin de los salarios para distintos niveles de educacin.
26
18
Microeconometra Aplicada
Centro de Microdatos
Figura 2.8
Recta de regresin entre consumo e ingreso
donde f() es una funcin cualquiera, en el ejemplo anterior era una funcin lineal.
La ecuacin (2.1) se denomina
Regresin Poblacional.
Que forma tiene f() es una pregunta emprica, aunque muchas veces la teora
nos puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario esta relacionado linealmente con la educacin, as podemos suponer que la
funcin de regresin poblacional E(Y|Xi ) es una funcin lineal de Xi , es decir:
(2.2)
E(Y |Xi ) = 0 + 1 Xi
27
Microeconometra Aplicada
Centro de Microdatos
donde
a partir de datos de X e Y.
ui = Yi E(Y |Xi )
o
Yi = E(Y |Xi ) + ui
(2.3)
donde
ui
gativos. Este trmino surge pues no se puede esperar que todas las observaciones
Yi
Xi .
Xi ,
Yi .
Lo que no pode-
ui ,
ui
Componente Determinstico
Componente Aleatorio
28
Microeconometra Aplicada
Centro de Microdatos
Figura 2.9
Trmino de error estocstico
(2.4)
Yi = E(Y |Xi ) + ui
= 0 + 1 X i + u i
(2.5)
Debido a que
(2.6)
implica que:
E(ui |Xi ) = 0
As, el supuesto de que la recta de regresin pasa a travs de las medias condicionales de Y, implica que la media condicional de
29
ui
es cero.
Microeconometra Aplicada
Centro de Microdatos
corresponden a unos valores jos de X. En este caso tenemos que estimar la funcin de regresin poblacional en base a informacin muestral.
Los datos poblacionales asociados a la Figura 2.8 son los siguientes:
240
137
145
155
165
175
189
161
260
150
152
175
178
180
185
191
173
Microeconometra Aplicada
Centro de Microdatos
Al gracar los datos de las Tablas 2.3 y 2.4 obtenemos los diagramas de dispersion en la Figura 2.10. En este diagrama se han trazado dos
rectas de regresin
gunda. Como vemos, no es posible asegurar cual de las dos rectas muestrales
representa mejor la recta de regresin poblacional.
Entonces es importante tener en mente que las rectas de regresin muestral representan la recta de regresin poblacional, pero debido a uctuaciones muestrales
pueden ser consideradas slo como una aproximacin.
Como contraparte muestral la
como:
Yi = 0 + 1 Xi
(2.7)
donde
de
Yi
es el estimador de E(Y|Xi ),
es el estimador de
es el estimador
2 .
Figura 2.10
Funcin de regresin muestral
FRM2
FRM1
Regresin basada
en la primera
muestra
ingreso semanal
Figura 4: Rectas de Regresin basadas en dos muestras distintas
Denicin: Un estimador
31
Microeconometra Aplicada
Centro de Microdatos
Yi = 0 + 1 Xi + ui
Yi = 0 + 1 Xi + ui
Yi = 0 + 1 Xi + ui
Figura 2.11
Funcin de regresin muestral y poblacional
Yi = Yi + ui
32
Yi
Microeconometra Aplicada
Centro de Microdatos
Yi = E(Y |Xi ) + ui
(2.12)
En la Figura 2.11 podemos notar que para todo Xi a la derecha del punto A,
Yi
sobreestima
de A,
Yi
.
E()
= .
E()
su verdadero valor:
insesgado si
es
un estimador
2. El estimador es eciente o de mnima varianza si no hay ningn otro estimador insesgado que tenga una varianza menor que
. En general se trata de
se dene
como:
= E[( )2 ]
ECM ()
Lo que se puede expresar equivalentemente de la siguiente manera:
= V ar()
+ [Sesgo()]
2
ECM ()
4. La ltima propiedad de un estimador es la consistencia. El estimador
33
Microeconometra Aplicada
Centro de Microdatos
X1 , X2 ,...,Xn
converge en
> 0,
Esto se denota
plim
(X )
Y
lm P r[|Xn X| < ] = 1
plim Xn = X .
plimX
plimY
Figura 2.12
Convergencia asinttica
yi =
Si
ui N (0, u2 ),
c
|{z}
componente
f ijo
ui
|{z}
componente
aleatorio
entonces:
= E(yi ) = c
V (yi ) = E[(yi E(yi ))2 ] = E[u2i ] = u2
34
Microeconometra Aplicada
Centro de Microdatos
yi ,
la media mues-
tral:
1
1
= Y = (y1 + y2 + ... + yn ) =
yi
n
n i=1
n
Insesgamiento: E() =
( )
E(
) = E Y
(
)
1
= E
(y1 + y2 + ... + yn )
n
1
(E(y1 ) + E(y2 ) + ... + E(yn ))
=
n
dado que
E(
) = c =
yi:
=Y
1 = yi
E(Y ) = c V ar(Y )= nu
E(yi ) = c V ar(yi ) = u2
1 ,
Como
es un estimador insesgado de
al
1 .
1 .
35
Microeconometra Aplicada
Centro de Microdatos
2.3.
ui = Yi Yi
= Yi 1 2 Xi
(2.13)
es decir, los residuos son simplemente la diferencia entre los valores verdaderos y
estimados de Y.
Si queremos que la funcin de regresin muestral sea lo ms cercana posible
a la poblacional, debemos tratar de escoger los coecientes de regresin (los
's)
de forma tal que los errores sean lo ms pequeos posible. De acuerdo a esto
un criterio para escoger la funcin de regresin muestral podra ser minimizar la
suma de los los errores:
ui =
(Yi Yi ),
(2.14)
u2i =
=
(Yi Yi )2
(Yi 0 1 Xi )2
36
Microeconometra Aplicada
Centro de Microdatos
Figura 2.13
Funcin de regresin muestral
El
mn
(2.15)
0 ,1
(Yi 0 1 Xi )2
(2.16)
(2.17)
u2i
= 2
(Yi 0 1 Xi ) = 2
ui = 0
0
u2i
= 2
(Yi 0 1 Xi )Xi = 2
ui Xi = 0
1
ecuaciones normales:
Yi = n0 + 1
Xi
Yi Xi = 0
Xi + 1
Xi2
37
de
Microeconometra Aplicada
Centro de Microdatos
0 :
0 =
(2.20)
Yi 1
n
Xi
(2.21)
(
Yi Xi =
Yi 1
n
Xi
Xi + 1
Xi2
1 es:
Y
X
X
Y
i
i
2
i 2 i
1 =
n Xi ( Xi )
(2.22)
x i yi
1 = 2
xi
(2.23)
donde
xi = Xi X
yi = Yi Y ,
con
X=
1
n
n
i=1
Xi
Y =
1
n
n
i=1
Yi
(2.24)
(2.25)
Xi2 Yi Xi Xi Yi
=
n Xi2 ( Xi )2
= Y 1 X
Los resultados (2.23) y (2.25) podran haber sido obtenidos de igual forma, expresando inicialmente el modelo de regresin en desviaciones con respecto a la media.
El modelo de regresin original es:
Yi = 0 + 1 Xi + ui
si le restamos el promedio de esta:
(2.26)
Y = 0 + 1 X + ui
(Yi Y ) = 1 (Xi X) + ui
yi = 1 xi + ui
38
Microeconometra Aplicada
Centro de Microdatos
mn
1
(yi 1 xi )2
u2i
= 2
(yi 1 xi )xi = 0
1 ,
encontrado en (2.23), y
se obtiene
0 = Y 1 X
que corresponde a lo mismo en la ecuacin (2.25).
Una vez estimados los coecientes de regresin mediante MCO y utilizando la
i
informacin muestral, la recta de regresin muestral (Y
= 0 + 1 Xi )
puede ser
obtenida fcilmente.
regress
estimacin el modelo de regresin lineal por MCO. El Cuadro 2.1 muestra los resultados, obteniendo que cada 100 gramos adicionales de peso de menor al nacer,
el puntaje Tepsi estandarizado aumenta en 0.067 puntos.
39
Microeconometra Aplicada
Centro de Microdatos
Figura 2.14
20
Puntaje Tepsi
40
60
80
20
40
Peso al nacer en 100 grs
60
80
Cuadro 2.1
Estimacin MCO Puntaje Tepsi y Peso al Nacer
40
2 .
Microeconometra Aplicada
Centro de Microdatos
Yi
de la verdadera E(Y|Xi ). La Funcin de regresin poblacional: Yi = 1 +2 Xi +ui ,
nos muestra que Yi depende de Xi y ui . As, los supuestos hechos para estas dos
variables son fundamentales para lograr una interpretacin vlida de los valores
estimados de la regresin. Mientras no se especique la forma como se generan
Xi
ui ,
Yi
ni sobre
2 .
Yi = 1 + 2 Xi + ui
Supuesto 2: Los valores de X son jos, X se supone no estocstica. Esto implica que el anlisis de regresin es un anlisis de regresin condicional,
condicionado a los valores dados del regresor X.
ui
ui
es cero:
E(ui |Xi ) = 0
Lo que nos dice este supuesto es que los factores que no estn considerados
en el modelo y que estn representados a travs de
ui ,
no afectan sistem-
ui
ui .
se
Figura 2.15
41
ui
Microeconometra Aplicada
Centro de Microdatos
ui
ui .
Dado el valor de
ui
es la misma.
Figura 2.16
Figura 8: Homocedasticidad
Xi , en este
Xi crece.
Figura 2.17
Figura 9: Heterocedasticidad
Heterocedasticidad
var(ui |Xi ) = i2
42
Microeconometra Aplicada
Centro de Microdatos
de X,
Xj ,
ui
uj
es cero:
uj .
el efecto sistemtico de
Xi
sobre
Yi
Xi
u's.
es cero E(ui Xi ) = 0:
individuales sobre Y.
Este supuesto se cumple automticamente si X es no estocstica y el supuesto 3 se cumple.
Supuesto 7: El nmero de observaciones n debe ser mayor que el nmero de parmetros por estimar. El nmero de observaciones tiene
que ser mayor que el nmero de variables explicativas, de otra forma no se
puede resolver el sistema de ecuaciones. Supongamos que tenemos una sola
observacin para nuestra variable dependiente y nuestra variable explicativa
(Y1 y
X1 ),
Y1 = 1 + 2 X1 + u1
el estimador MCO de
es :
xi yi
2 = 2
xi
donde
e
1 .
43
Microeconometra Aplicada
Centro de Microdatos
Xi = X ,
de esta forma ni
ni
pueden ser
estimados.
dependen de
los datos muestrales, sin embargo, los datos cambian de una muestra a otra y
as los valores estimados tambin, por eso es necesario tener una medida que nos
permita decir que tan cercano son los valores estimados a los valores poblacionales de los parmetros.
La medida que utilizaremos para medir la precisin del estimador es el
error es-
2 :
x i yi
2 = 2
xi
donde
xi (2 xi + ui )
2
2 =
x
2 i
x
ui xi
= 2 i2 + 2
x
xi
i
ui xi
= 2 + 2
xi
44
Microeconometra Aplicada
Centro de Microdatos
(2.28)
(
)
u
x
i
i
E(2 ) = 2 + E 2
xi
(
)
E(ui )xi
2
= 2 +
por
xi
= 2 por supuesto 3
supuesto 2
es
igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como
insesgamiento.
2 :
= E
[ x2i ]2
Por supuesto 4
E(u2i ) = 2
y por supuesto 6
E(ui uj ) = 0,
2
var(2 ) = 2
xi
(2.29)
n
2
i=1
u2i
pareciera ser un estimador razonable. Pero los errores de MCO, estn estimados
imperfectamente si los comparamos con los errores poblacionales, ya que dependen de una estimacin de
2 .
yi = 2 xi + (ui u)
45
Microeconometra Aplicada
Centro de Microdatos
ui = yi 2 xi
(2.31)
ui = 2 xi + (ui u) 2 xi
Elevando al cuadrado la expresin anterior, aplicando sumatoria y tomando valor
esperado:
u2i
= E(2 2 )2
x2i + E
|
]
[
]
(ui u)2 2 E (2 2 )
xi (ui u)
|
{z
}
{z
}
(i)
(ii)
[
]
x
u
i
i
2
xi (ui u)
= var(2 )
xi + (n 1)var(ui ) 2E 2
xi
= 2 + (n 1) 2 2 2
= (n 2) 2
(i) E
(ui u)
=
=
=
=
=
=
2ui u + u )
]
ui + nu2
E
u2i 2u
[
]
n
E
u2i 2u
ui + nu2
n
[
]
2
E
ui 2nu2 + nu2
[
]
E
u2i nu2
[
( )2 ]
ui
E
u2i n
n
n
n 2 2
n
(n 1) 2
= E
=
(u2i
[
]
[
]
(ii) E (2 2 )
xi (ui u) = E (2 2 )
xi (ui u)
[
]
xi ui
= E 2
xi (ui u)
xi
]
[
( xi ui )2
xi ui xi
2 u
2
= E
xi
xi
2
=
46
Microeconometra Aplicada
Centro de Microdatos
e2 =
(2.32)
e2
como:
u2i
n2
es un estimador insesgado de
2:
( )
1
E
u2i = 2
n2
e2 =
2.4.
e2
Ahora abandonemos la simplicacin de solo usar dos variables, de ahora en adelante generalizaremos el modelo de regresin lineal para que pueda tener hasta k
variables explicativas.
Aclaracin: haremos un cambio de notacin, cada observacin i de la variable
dependiente ser denotada por
va, por ejemplo
X1 ,
yi
x1i .
i = 1, ..., n
xj ,
x21
1
y1
x22
y2 1
.. = .. 1 +
.
.
. .
.
x2n
1
yn
xk1
x31
xk2
x32
2 +
.
. 3 + ... +
.
.
.
.
xkn
x3n
u1
u2
k + ..
.
un
Donde las variables explicativas se pueden agrupar en una sola matriz de dimensin nk, que denotaremos simplemente como X, de esta manera el modelo se
47
Microeconometra Aplicada
Centro de Microdatos
y1
1 x21 x31 xk1
y2 1 x22 x32 xk2
(2.33)
.. = ..
.
.
.
..
.
.
.
. .
.
.
.
.
yn
1 x2n x3n xkn
donde
1
u1
2 u2
.. + .. Y = X + u
. .
k
un
de dimensin nk y
mensin n1.
E(u1 )
E(u2 )
E(u) =
= 0
.
.
n1
.
E(un )
E(uu ) =
.
.
.
..
.
.
.
.
.
.
.
E(un u1 ) E(un u2 ) E(u2n )
2 0 0
0 2 0
= ..
.
.
..
.
.
.
.
.
.
2
0 0
= 2 I
nn
(
(2.34)
n1
)
2
, I
nn
=
SE ()
u2i = u u
i=1
48
Microeconometra Aplicada
Centro de Microdatos
donde
u = Y X .
[
]
= mn (Y X )
(Y X )
mn SE ()
[
]
= mn Y Y 2 X Y + X X
SE ()
= 2X Y + 2X X = 0
= (X X)1 X Y
(2.35)
De (2.35) tenemos:
= 0 X u = 0
X (Y X )
(2.36)
se obtiene de resolver el
X X = X Y
1
1
1
x2,1 x2,2 x2,3
x3,1 x3,2 x3,3
.
.
.
.
.
.
.
.
.
..
1
x2,n
x3,n
.
.
.
xk,n
1 x2,1 x3,1
1 x2,2 x3,2
1 x2,3 x3,3
.
.
.
.
.
.
.
.
.
..
xk,1
xk,2
xk,3
.
.
.
1 x2,n x3,n
xk,n
1
1
1
x2,1 x2,2 x2,3
x3,1 x3,2 x3,3
1
x2,n
x3,n
.
.
.
.
.
.
.
.
.
..
n
n
n
i=1 x3,i
i=1 x2,i
n
n
2
n x2,i
i=1 x2,i x3,i
i=1 x2,i
i=1
n
2
n x3,i n x3,i x2,i
i=1
i=1 x3,i
i=1
.
.
.
.
.
.
.
.
n .
n
n
i=1 xk,i x3,i
i=1 xk,i x2,i
i=1 xk,i
..
.
.
.
1
2
3
.
.
.
k
y1
y2
y3
.
.
.
xk,n
yn
n
n i=1 xk,i
ni=1 x2,i xk,i
i=1 x3,i xk,i
1
2
3
.
..
k
.
.
.
i=1
x2k,i
n
n i=1 yi
ni=1 yi x2,i
i=1 yi x3,i
n
i=1
Es importante recordar que el estimador MCO esta denido solo cuando la matriz
(X'X) es invertible, lo que ocurre siempre y cuando:
49
.
.
.
yi xk,i
Microeconometra Aplicada
Centro de Microdatos
k .(Supuesto
7)
Pongamos atencin en el segundo supuesto, cuando n=k la matriz X tiene dimensin kk, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de
1
esta forma (X X)
= X 1 (X )1 y por lo tanto:
(2.37)
= (X X)1 X Y = X 1 (X )1 X Y = X 1 Y
el vector de residuos
u = Y X = Y X(X 1 Y ) = Y Y = 0n ,
de esta forma
el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual
forma toma el mnimo valor posible, cero.
Sin embargo, esta no es una caracterstica deseable, el ajuste perfecto ocurre
porque tenemos una muestra muy reducida. Esto trae como consecuencia poco
robustez e imprecisin en las estimaciones. Si escogemos una nueva muestra, del
mismo tamao que la anterior, obtendremos otro estimador
con
suma residual
2.5.
errores:
(2.38)
La esperanza de
=
E()
50
Microeconometra Aplicada
Centro de Microdatos
ecuacin (2.28).
De (2.38) podemos denir el error de estimacin o sesgo como:
Ahora calculemos la
= (X X)1 X u
:
varianza de
=
var()
=
=
=
=
=
(2.40)
( E())
]
E[( E())
E[( ) ( ) ]
E[(X X)1 X uu X(X X)1 ]
(X X)1 X E(uu )X(X X)1
(X X)1 X ( 2 In )X(X X)1
2 (X X)1
necesitamos reemplazar 2
de
en (2.40) por su
estimador insesgado:
e2 =
u u
nk
si se cumple
lo siguiente:
1. El
variable
2. Es
en el modelo de regresin.
insesgado,
valor,
,
E()
es igual a el verdadero
estimador eciente.
51
Microeconometra Aplicada
Centro de Microdatos
Demostracin:
kn. Denotemos
e un estimador lineal de ,
e = Ay
e (X X)1 X , de modo que:
A=A
Sea
donde
e
A
es una matriz
e = [A + (X X)1 X ]Y
= [A + (X X)1 X ](X + u)
= AX + + [A + (X X)1 X ]u
Aplicando esperanza a la expresin anterior:
e = AX + + [A + (X X)1 X ]E(u)
E()
= AX +
El estimador
forma:
e = + [A + (X X)1 X ]u
y su matriz de covarianza ser:
e = E[(e )(e ) ]
cov()
= E{([A + (X X)1 X ]u)([A + (X X)1 X ]u) }
= 2 AA + 2 (X X)1
| {z }
cov()
52
Captulo 3
Modelo de Regresin Lineal:
Inferencia y Bondad de Ajuste
3.1.
El objetivo de esta seccin es introducir un criterio de ajuste de nuestra regresin, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo a
la muestra.
En principio, podramos pensar que la suma de los residuos cuadrados, es decir, nuestro criterio original de ajuste, es una buena opcin: a menor sea ste,
mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puede
ser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el factor de escala deseado, lo cual invalida su uso como criterio de ajuste.
Por ello, se ha desarrollado un criterio que elimine el problema anterior. Dicho estadstico ya no se basar en la magnitud de un valor (como la suma de los
cuadrados de los residuos), sino que intentar preguntarse si la variacin de las variables independientes (X) explica la variacin de la variable independiente, como
veremos ms adelante. Para ello analizaremos con un poco ms de profundidad
el modelo de regresin lineal en desvos con respecto a la media y presentaremos
la llamada descomposicin de varianza (o anlisis de varianza), ambos, insumos
fundamentales para obtener nuestro estadstico de bondad de ajuste.
53
Microeconometra Aplicada
Centro de Microdatos
(3.1)
donde
i = 1...n
(3.2)
Luego, si sumamos para todas las observaciones y dividimos a ambos lados por
el tamao muestral n, tenemos:
Y = 1 + 2 x2 + 3 x3 + + k xk
(3.3)
por lo cual:
1 = Y 2 x2 + 3 x3 + + k xk
(3.4)
la cual es una expresin similar a (3.2), excepto por dos importantes diferencias.
Primero, el modelo no posee constante y segundo, las variables se encuentran
expresadas en desvos con respecto a la media. A pesar de ello, note que los coecientes y los residuos son los mismos en ambos modelos.
De lo anterior surge un importante corolario respecto del trmino constante de
nuestro modelo. En general, el inters del investigador se centra en el impacto de
los regresores sobre la variable dependiente, por lo cual, el trmino constante no
es ms que una correccin que garantiza que los promedios muestrales de ambos
miembros del modelo economtrico coincidan.
Para transformar en desvos con respecto a la media un modelo en trminos matriciales, introduciremos una matriz fundamental para el anlisis de esta seccin.
0
Denotaremos por M una matriz de n n, denida como:
1 n1 n1 n1
1 0 0
1 1 1
1
1 n1 n1
ii
0 1 0 1 1 1 1
M 0 = I = .. .. . . .. .. .. . . .. = .. n
.
.
..
.
.
nn
n
.
. .
.
.
.
. n .
.
.
.
.
1
1
0 0 1
1 1 1
n
n 1 n1
54
Microeconometra Aplicada
Centro de Microdatos
yi
y1
i=1
n
1
y2 1 i=1 yi
M 0 Y = Y ii Y = ..
.
.
n
. n
n.
yn
i=1 yi
y1 Y
y2 Y
=
.
.
yn Y
Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en trminos de desvo con respecto a la media como:
M 0 Y = M 0 X + M 0 u
(3.6)
Y = X + u
donde Y corresponde a una vector
n 1,
n 1.
nk
y u corresponde
T SS =
(Yi Y )2
(3.7)
i=1
Para encontrar entonces una expresin para (2.48), de la ecuacin (2.47) tenemos
que nuestro modelo estimado en desvos con respecto a la media es:
M 0 Y = M 0 X + M 0 u
con lo cual, al particionar nuestra matriz X en X
parmetros en = [1
2 ] y considerando que
= [i X2 ], nuestro vector de
M 0 i = 0 y que M 0 u = u,
tenemos que:
M 0Y
(3.8)
= M 0 i1 + M 0 X2 2 + M 0 u
= M 0 X2 2 + u
1 Note
que para dicha denicin utilizamos los cuadrados de la desviaciones, ya que la suma
de las desviaciones es siempre cero.
55
Microeconometra Aplicada
Centro de Microdatos
Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadrados de las desviaciones de Y con respecto a su media), de la ecuacin (2.48),
multiplicamos por Y' la ecuacin (2.49):
Y M 0Y
=
=
=
Y M 0Y =
T SS =
(3.9)
(3.10)
Y (M 0 X2 2 + u)
(X + u) (M 0 X2 2 + u)
X M 0 X2 2 + X u + u M 0 X2 2 + u u
2 X M 0 X2 2 + u u
2
ESS + RSS
donde el segundo y el tercer trmino desaparecen gracias a que los residuos estimados son, por construccin, ortogonales a las variables explicativas
anterior es conocida como la
descomposicin de varianza.
2 . La igualdad
El trmino de la
R2 =
(3.11)
ESS
T SS
R2 = 1
(3.12)
RSS
T SS
Note que:
1. El coeciente de determinacin es siempre menor a 1. Ello porque
1.
T SS y por lo tanto RSS
T SS
2 Ya
= X Y X Y = 0.
que X u = X (Y X )
56
RSS
Microeconometra Aplicada
Centro de Microdatos
R2
tante o aumentar)
4. No es claro cuan bueno sea como predictor de ajuste.
Para ver este ltimo punto, suponga que usted posee el siguiente modelo poblacional:
Y = 1 + 2 X + u
donde X es un vector (n
1).
Y X = 1 + X + u
Si
2 1,
R2
1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos
son matemticamente equivalentes. A pesar de lo anterior, en trabajos aplicados,
2
el R es ampliamente utilizado, por lo cual se recomienda su publicacin.
Retrocedamos ahora al punto tres. El nos dice que el coeciente de determinacin
probablemente crecer al incluir regresores. Ello plantea incentivos a incluir regresores no relevantes para nuestro modelo, con el n de obtener un mejor ajuste.
Porqu sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece
(o en el mejor de los casos se mantiene), mientras que la TSS permanece constante.
Por esta razn se cre el coeciente de determinacin ajustado, el cual corri2
ge el R original por los grados de libertad del numerador y el denominador.
2
2 ) como:
Entonces, denimos el R ajustado (R
(3.13)
2 = 1 u u/(n k)
R
Y M Y /(n 1)
o equivalentemente:
(3.14)
2 = 1 (1 R2 ) (n 1)
R
(n k)
57
3.2.
Microeconometra Aplicada
Centro de Microdatos
Inferencia
Una vez que hemos estimado nuestra regresin muestral, es necesario preguntarse
cuan buena aproximacin es dicha regresin de la poblacional. Para que la aproximacin sea cercana, es condicin necesaria que los parmetros incluidos en la
regresin muestral sea estadsticamente distintos de cero (en caso contrario, no
pertenecen a la regresin poblacional). As, uno de nuestros objetivos puede ser
el testear la signicancia individual de los parmetros.
Pero lo anterior es slo una de las preguntas que como investigadores podemos
estar interesados en responder. Por ejemplo, en la estimacin de la funcin de
u
produccin de una rma, que asumimos Cobb Douglas (Y = AK L e o en logaritmo
+ > o 1.
Y = X + u
donde X es una matriz de (n
(k
1).
k ),u
e Y son vectores (n
1)
es vector de
1.
58
Microeconometra Aplicada
Centro de Microdatos
2.
3.
H0 : i = i0 Plantea
por i0 sobre Y.
H0 : i + j =1
que el regresor
Xi
Xi
Xj
poseen un
Xj
sobre Y.
5.
H0 : i =0
i=2. . . k
H0 : l =0
ha sido particionado
(kp 1) respectivamente, tal
donde el vector
mensiones
(kl 1)
en dos (l y
que
R = r
donde R es una matriz de (q k ) constantes conocidas (ceros o unos), cuyo objetivo ser seleccionar los parmetros a testear, cuyo nmero de las, q, representa
el nmero de restricciones. A su vez, r es un vector de dimensin q y contiene el
real al cual es restringido cada parmetro. Veamos como sern las matrices
Ik1 ];
Iki ];
5. R =[ q1
6. R =[ ki kj
r= ; q=k
r= ; q=ki
59
Microeconometra Aplicada
Centro de Microdatos
H0 : R = r
(3.15)
con lo cual, slo nos resta derivar el test que nos permita rechazar o no rechazar
nuestra nula. La construccin del estadgrafo es como sigue. Dado que MCO
(bajo los supuestos relevantes) es insesgado, tenemos que
= R ,
E(R)
= , por lo tanto,
E()
corresponde a
= E[R( )( ) R ]
V [R]
= RV ar()R
= 2 R(X X)1 R
Necesitamos an un supuesto ms para determinar la distribucin muestral de
es funcin de u y u N (0, 2 ), entonces N (, 2 (X X)1 )
nuestra nula. Dado que
N (r, 2 R(X X)1 R ), entonces:
y por lo tanto R
N [, 2 (X X)1 ]
(3.16)
y
(3.17)
y si la nula
R = r
es cierta:
(3.18)
(3.19)
(R r)
2 R(X X)1 R
N [0, 1]
3
u u
2(nk)
2
(3.20)
(R r) [ 2 R(X X)1 R ]1 (R r) 2q
(3.21)
3 Basta
cual
e idempotente es su traza.
4 Basta con recorder que
x 1 x 2n .
60
x N (0, ), entonces,
Microeconometra Aplicada
Centro de Microdatos
luego, combinando los dos resultados anteriores, se puede demostrar que (hacer-
lo) :
(3.22)
El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test
es de utilidad para testear cualquier hiptesis de la forma expuesta en (2.56). A
continuacin veremos subcasos de dicho test general.
]1 (R r)] F(q,nk)
[(R r) [RVd
ar()R
y haciendo el reemplazo respectivo de R y r correspondientes a las hiptesis 1 o
2 (H0 :
i = 0 = i0 ),
llegaremos a:
F =
(3.23)
Recordando que
t2
( i0 )2
F (1, n k)
Vd
ar(i )
i0
t=
tnk
Vd
ar(i )
(3.24)
t=
test t
i +j =1),
el estadgrafo corresponder a:
(3.25)
i + j 1
tnk
t=
d
d
d
V ar(i ) + 2Cov(i , j ) + V ar(j )
5 Slo
un poquito de lgebra y recordar como se construye una distribucin F(q, n-k) a partir
de la divisin de dos 2 con grados de libertad q en el numerador y n-k en el denominador.
61
Microeconometra Aplicada
Centro de Microdatos
grandes, sin embargo, la t posee colas ms gruesas que la normal (lo cual es ms
pronunciado en muestras pequeas: n30). La siguiente gura expone la relacin
entre la distribucin t y la normal:
Figura 3.1
Distribucin Normal versus Distribucin t-student
Probabilidad
Distribucin Normal
Distribucin t
Nota precautoria:
Toda la derivacin anterior se basa en el estricto supuesto de normalidad de
los errores. En caso de que los mismos no distribuyan normal, la distribucin
del test F (y por lo tanto el del t) es desconocida en muestras nitas. Sin ema
bargo, es posible demostrar que t N (0, 1), es decir, que el test t distribuye
asintticamente normal. Luego, los valores crticos de t y
(normal estndar)
62
Microeconometra Aplicada
Centro de Microdatos
valor calculado ), resta calcular el valor crtico o el valor que nos indica la tabla t.
Dicho valor crtico nos dir si nuestra nula es falsa o si no podemos armar que lo
es. La eleccin de dicho valor crtico se toma desde la tabla de distribucin t y el
H0 : i = io
H1 : i > io
donde
6 Por
qu en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de signicancia, nos indica hasta donde puedo tolerar un valor mayor a io , por lo cual, carecera de
sentido que la zona de rechazo se encuentre en la cola izquierda de la distribucin. Por ejemplo,
si io =0, la distribucin de nuestro estadgrafo se centra en cero (vea la frmula), por lo cual la
hiptesis alternativa correspondera a que el parmetro es positivo. el punto es cun positivo
puedo aceptar que sea?.
63
Microeconometra Aplicada
Centro de Microdatos
Figura 3.2
Zona de rechazo test de una cola
Probabilidad
Se Rechaza (5%)
No se Rechaza
io ,
si el valor cal-
io ,
H1
sea que
la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor
que el valor crtico de la tabla t.
H0 : i = io
H1 : i = io
En este caso estamos repartiendo uniformemente la probabilidad de rechazo en
ambas colas de la distribucin como lo muestra la siguiente gura (al 95 % de
conanza):
64
Microeconometra Aplicada
Centro de Microdatos
Figura 3.3
Zona de rechazo test de dos colas
Probabilidad
Se Rechaza (2,5%))
Se Rechaza (2,5%)
No se Rechaza
1.
4.
65
Microeconometra Aplicada
Centro de Microdatos
P-value
Otra forma alternativa al valor crtico de tabla para rechazar o no rechazar nuestra nula, corresponde al uso de los llamados p-values, los cuales son reportados
en cualquier paquete estadstico. El p-value (p) se dene como:
(3.26)
Ejemplo:
Suponga el siguiente Modelo de Regresin Lineal Simple:
Yi = 1 + 2 Xi + ui
para i = 1, ..., N
10
18
20
1 y 2 es el siguiente:
] [
]1 [
] [
]
4 48
20
2,1935
1
=
=
48 824
298
0,2338
2
El estimador MCO de
es:
=
V ()
u2 (X X)1
[
]1 [
]
0,436 4 48
0,180866 0,010536
=
=
48 824
0,010536 0,000878
2
66
Microeconometra Aplicada
Centro de Microdatos
R
R
4
u2
RSS
0,436
= 1
= 1 4 i=1 i
= 0,969
=1
2
T SS
14
i=1 (Yi Y )
4
u2 /2
RSS/2
= 1
= 1 4 i=1 i
= 0,953
2
T SS/3
i=1 (Yi Y ) /3
Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el
2
modelo incluye constante, el R se puede interpretar como la proporcin de la
variabilidad de la variable independiente que es explicada por la variabilidad de
la variable dependiente, la que en este caso alcanza un 97 %.
Ahora veamos si estos parmetros estimados son signicativos a un 95 % de conanza, para lo cual realizaremos un test
1.
Test de signicancia de
1 :
H0 : 1 = 0
H1 : 1 = 0
t=
1
V ar(1 )
t2
es:
2,193548387
tc =
= 5,157850523
0,180866
El valor de tabla del estadstico
de libertad es 4,303.
67
Microeconometra Aplicada
Centro de Microdatos
Figura 3.4
Inferencia Estadstica
Probabilidad
No se
Rechaza
Se
Rechaza
(2,5%))
Se
Rechaza
(2,5%)
t(2)=4,303
t(2)=4,303
tc=5,158
1 =0,
y por lo tanto el
2.
Test de signicancia de
2 :
H0 : 2 = 0
H1 : 2 = 0
t=
2
V ar(2 )
t2
es:
0,233870968
tc =
= 7,892762865
0,000878
El valor de tabla del estadstico
de libertad es 4,303.
68
Microeconometra Aplicada
Centro de Microdatos
Figura 3.5
Inferencia Estadstica
Probabilidad
No se
Rechaza
Se
Rechaza
(2,5%))
Se
Rechaza
(2,5%)
t(2)=4,303
t(2)=4,303
tc=7,893
2 =0,
y por lo tanto el
3.
H0 : 1 2 = 2
H1 : 1 2 = 2
69
Microeconometra Aplicada
Centro de Microdatos
F =
(3.27)
ESS/(k 1)
F(k1,nk)
RSS/(n k)
F =
(3.28)
R2 :
R2 /(k 1)
F(k1,nk)
(1 R2 )/(n k)
En este
F =
(3.29)
donde
(
u u u u)/k2
F (k2 , n k)
u u/(n k)
k2
representa el
rango de
valores admisibles del coeciente que se estima. Los niveles de conanza gene-
70
Microeconometra Aplicada
Centro de Microdatos
i0
i
tnk
V ar(i )
entonces, si deseamos un IC del (1-) % de conanza (es decir, de
cancia) para el parmetro
i ,
de signi-
correspondiente, es decir:
1 = P r Z/2
i i0
Z1/2
V ar(i )
i i0
= P r Z1/2
Z1/2
V ar(i )
]
[
i0
/2.
Note adems que dicho intervalo est construido slo en base a constantes conocidas. Una vez construido, se puede contrastar la nula (H0 :
de signicancia
sencillamente observando si
i0
i = i0 )
al nivel
la nula) . Nuevamente, la validez de dicho intervalo de conanza depende crticamente del supuesto de distribucin de los errores. En el caso que el valor
7 Intuitivamente, ya que a
Microeconometra Aplicada
Centro de Microdatos
u u
2nk
2
(n k)
2
2nk
2
(3.30)
[
(3.31)
(n k)
2
(n k)
2
2
2nk,
2nk,1
, tenemos
]
= (1 )
2nk,1
2nk, ,
ya que
E(u3 )
S=
3
( 2 ) 2
K=
E(u4 )
( 2 )2
72
Microeconometra Aplicada
Centro de Microdatos
3)2
S (K
+
JB = n
6
24
]
a
2(2)
Donde los estimadores muestrales del coeciente de asimetra y kurtosis se obtienen al considerar que un estimador natural de:
r = E[
ur ]
corresponde a:
1 r
mr =
u
n i=1 i
n
Note que el estadgrafo est denido en trminos del exceso de kurtosis, por
lo cual, a menor sea el valor, menor es la probabilidad de rechazar la nula de
normalidad. Note adems que el estadstico es esencialmente no constructivo, en
trminos de que no nos indica que camino seguir en caso de rechazar la nula,
adems de que no rechazar normalidad no implica conrmar su existencia. Sin
embargo, en la prctica corresponde al test ms utilizado.
3.3.
t=
0,0675061
= 2,71
0,0249291
La comparar el valor calculado para el estadstico con la informacin de la estimacin (2.71) con el valor crtico de una distribucin
73
que acumula un 5 % en
Microeconometra Aplicada
Centro de Microdatos
Cuadro 3.1
Estimacin MCO Puntaje Tepsi y Peso al Nacer
Inferencia al 95 %
74
Microeconometra Aplicada
Centro de Microdatos
Cuadro 3.2
Estimacin MCO Puntaje Tepsi y Peso al Nacer
Inferencia al 99 %
Cuadro 3.3
Estimacin MCO Puntaje Tepsi y Peso al Nacer
Inferencia al 95 %, incluyendo ms controles
Una vez estimado el modelo es posible testear si los errores cumplen con el supuesto de normalidad, para esto primero debemos obtener los errores predichos
del modelo a travs del siguiente comando:
75
Microeconometra Aplicada
Centro de Microdatos
Cuadro 3.4
Coeciente de asimetra y kurtosis errores del modelo
Cuadro 3.5
Test de Normalidad de los errores del modelo
Como los errores del modelo no cumplen con el supuesto de normalidad de los
errores, se puede utilizar el mtodo de simulacin de Bootstrap para obtener los
intervalos de conanza de cada uno de los coecientes, el comando para esto es:
76
Microeconometra Aplicada
Centro de Microdatos
Cuadro 3.6
Intervalos de conanza mediante Bootstrap
77
Captulo 4
Modelo de Regresin Lineal:
Especicacin y Problemas
En el captulo anterior se revis el estimador de Mnimos Cuadrados Ordinarios
(MCO) en el contexto de un modelo de regresin simple (solo una variable explicativa) y un modelo de regresin mltiple (ms de una variable explicativa). Si
los supuestos del estimador MCO se cumplen, este es el mejor estimador lineal
insesgado. Tambin se abordaron los test de hiptesis lineal simple y conjunto, y
los intervalos de conanza tanto de los parmetros. En ambos casos, tanto para
realizar inferencias como para computar los intervalos de conanza, el supuesto
de normalidad del trmino de error es fundamental. Si este supuesto no se cumple, la inferencia realizada no es vlida. En este caso, se deben utilizar mtodos
de simulaciones para obtener los intervalos de conanza correctos y realizar la
inferencia en forma apropiada.
Para que el estimador MCO sea el mejor estimador lineal insesgado se requieren de los siguientes supuestos:
78
Microeconometra Aplicada
Centro de Microdatos
El primer supuesto habla de que la relacin estimada entre la variable dependiente y la variable explicativas ser lineal, sin embargo, para capturar relaciones no
lineales entre la variable dependiente y las variables explicativas se pueden utilizar
como variables explicativas transformaciones no lineales, por ejemplo, potencias,
logaritmo, etc.
Los supuestos 2, 3 y 4 se traducen en que:
iid
ui (0, 2 )
Los errores del modelo son independiente e idnticamente distribuidos con media
cero y varianza constante. El supuesto de homocedasticidad del trmino de error,
es un supuesto que raramente se cumple cuando se trabaja con datos de corte
transversal. La ruptura de este supuesto no genera problema de sesgo, pero si de
ineciencia. Veremos cmo detectar y abordar el problema de heterocedasticidad
(varianza del error no es constante).
El supuesto 5 es clave para la identicacin del modelo, si las variables explicativas son endgenas, es decir, estn correlacionadas con el error, el efecto marginal
de la variable explicativa sobre la variable dependiente se estima de manera sesgada.
El ltimo supuesto enunciado habla de que el modelo debe estar especicado
de manera correcta, esto signica que debemos hacer todos los esfuerzos (considerando la disponibilidad de datos) para incorporar todas las variables relevantes
para explicar el comportamiento de la variable de inters (variable dependiente), y de la mejor forma posible. Algunas de las variables claves para explicar el
comportamiento de la variable dependiente pueden ser discretas, no continuas;
estas generalmente son variables de carcter cualitativo: gnero, zona geogrca,
estatus laboral, etc. Es importante incorporar la informacin que aportan estas
variables en forma correcta en la especicacin para obtener una estimacin adecuada de los impactos. En el caso de no tener acceso a algunas variables, las
variables quedaran como variables relevantes omitidas, cuando una variable es
omitida esta forma parte del trmino de error. Si la variable omitida tiene correlacin con una o ms de las variables explicativas del modelo, la estimacin
MCO ser sesgada ya que se rompe el supuesto de exogeneidad de las variables
explicativas.
Por otra parte, con el objetivo de evitar el problema de omisin de variables,
79
Microeconometra Aplicada
Centro de Microdatos
4.1.
lnyphi = 0 + 1 esci + ui
es decir, se ha omitido la variable correspondiente a la experiencia laboral (exp),
por lo cual el error del modelo estimado es el siguiente:
ui = vi + 2 expi
Entonces, en el modelo estimado se genera un problema de endogeneidad entre
la variable explicativa (esc) y el error (u) siempre que la variable correspondiente
a los aos de escolaridad esta correlacionada con la variable relevante omitida,
80
Microeconometra Aplicada
Centro de Microdatos
experiencia.
Este problema de endogeneidad hace que el coeciente estimado por MCO para
la variable escolaridad sea sesgado e inconsistente:
E[1 |esc] = 1 +
cov(esc, exp)
2
V (esc)
|
{z
}
sesgo
As, podemos notar que el sesgo por omisin de variable relevantes ser distinto
de cero en la medida que la variable omitida este correlacionada con las variables incluidas en el modelo. El signo de sesgo depende de la correlacin entre la
variable omitida e incluida, y el signo esperado para el coeciente de la variable
omitida en el modelo.
Veamos el siguiente ejemplo, el Cuadro 4.1 muestra la estimacin de un modelo
para el logaritmo de salario por hora (lyph) en funcin de los aos de escolaridad
y la experiencia laboral a partir una muestra de 4,740 personas entrevistadas en
la Encuesta de Proteccin Social (EPS), que en el ao 2004 tenan entre 18 y
41 aos y se encontraban trabajando. Se tomo este universo de personas ya que
en la encuesta se pregunta por la historia laboral de las personas desde 1980. De
esta forma, las personas mayores de 41 aos en el ao 2004 reportan una historia
laboral censurada, la cual no nos permite obtener una medida apropiada de los
aos trabajados.
Cuadro 4.1
Estimacin Logaritmo Salarios
Ahora suponga que por error la variable experiencia es omitida del modelo, el
Cuadro 4.2 muestra la estimacin del modelo con la variable omitida.
81
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.2
Estimacin Logaritmo Salarios omitiendo experiencia
Cuadro 4.3
Correlacin entre escolaridad y experiencia
En resumen, el problema de omisin de variables relevantes genera sesgo en la estimacin MCO pero no problemas de eciencia, por el contrario el error estndar
es menor dado que se estn estimando menos coecientes en el modelo. No existe
un test para detectar la omisin de variables relevantes, es algo que el investigador debe tener presente de acuerdo a su conocimiento sobre la especicacin del
modelo.
82
4.2.
Microeconometra Aplicada
Centro de Microdatos
Con el objetivo de eliminar el potencial problema de omisin de variables relevantes, siempre existe la tentacin de incluir la mayor cantidad de variables
explicativas posibles. Esto nos puede llevar a incluir variables irrelevantes.
La inclusin de variables irrelevantes no genera problemas de sesgo en la estimacin, ya que el error sigue teniendo media cero y no est correlacionado con
las variables explicativas del modelo. Sin embargo, incluir variables irrelevantes
genera un problema de ineciencia, la varianza del estimador ser mayor, provocando que la estimacin sean menos precisa.
4.3.
Multicolinealidad
La multicolinealidad, al igual que la inclusin de variables relevantes, genera problemas de eciencia. La estimacin MCO en presencia de variables colineales es
imprecisa o ineciente, pero sigue siendo insesgada.
El problema de multicolinealidad es fcil de detectar, pero no tiene ms solucin que eliminar la variable que no esta aportando informacin distinta de las
otras.
Sntomas de la estimacin en presencia de multicolinealidad:
2
1. El modelo tiene un ajuste bueno (R alto), pero los parmetros resultan ser
estadsticamente no signicativos.
83
Microeconometra Aplicada
Centro de Microdatos
estat vif
rianza (VIF) de cada variable explicativa del modelo, y el promedio del modelo.
Este factor mide el grado en que la varianza del coeciente estimado para la variable ha sido inada, como producto de que esta variable no es ortogonal (no es
independiente) de las restantes variables del modelo.
V IFk =
1
1 Rk2
2
representa el coeciente de determinacin (R ) de la regresin de la
2
variable explicativa k sobre las restantes variables explicativas del modelo. Si Rk
es grande signica que el comportamiento de la variable independiente k se pue-
donde
Rk2
estat vif
luego de la estimacin
del modelo se muestran en el Cuadro 4.5. Podemos notar que las variables explicativas incorporadas al modelo tienen problema de multicolinealidad, lo que es
natural ya que el ndice de masa corporal es calculado en funcin de las variables
peso y estatura.
84
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.4
Estimacin Logaritmo Salarios
Cuadro 4.5
Factor de Inacin de la Varianza
De los anterior se concluye que a pesar de que las variables resultan ser medianamente signicativas (al 10 %), estn no pueden ser incluidas en forma conjunta en
la especicacin, ya que generan multicolinealidad. La escolaridad y experiencia,
no tienen problema de colinealidad, un muy bajo porcentaje de su comportamiento se explica por el de las restantes variables explicativas, un 6 % aproximadamente. Luego, la nica solucin es eliminar alguna(s) de la(s) variable(s) que generan
multicolinealidad, a continuacin se estiman diferentes versiones del modelo y en
el Cuadro 4.6 se muestra la comparacin de ellos:
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.6
Comparacin de Modelos
4.4.
En gran parte de los modelos de regresin lineal las variables cualitativas son
fundamentales para una correcta especicacin. Hasta ahora hemos visto la incorporacin de una o ms variables explicativas, esencialmente cuantitativas y
86
Microeconometra Aplicada
Centro de Microdatos
continuas.
Las variables cualitativas indican la presencia o ausencia de cierta cualidad, pueden tener dos o ms categoras. Para la incorporacin de variables cualitativas en
el modelo de regresin esto siempre se debe hacer en forma de variable Dummy.
Las variables Dummies (cticias, dicotmicas, etc.) toman slo valores 1 y 0, donde 1 indica la presencia de cierta caracterstica y 0 que la caracterstica no esta
presente.
Por ejemplo, en la base de datos contamos con la variable gnero:
Cuadro 4.7
Variable Categrica Gnero
ser incluidas en el modelo, una de ellas debe ser excluida la cul es denominada
categora base.
Siguiendo con el ejemplo de la variable gnero podemos denir una dummy de la
siguiente forma:
87
Microeconometra Aplicada
Centro de Microdatos
g sexo=1 if genero==1
replace sexo=0 if genero==2
Pero podra haber denido de la variable de esta otra forma:
g sexo_2=1 if genero==2
replace sexo_2=0 if genero==1
Supongamos que el modelo del logaritmo del salario por hora adems de incorporar los aos de escolaridad y experiencia, queremos incorporar la cualidad gnero
en la regresin. Como la cualidad gnero puede tomar dos valores posibles, slo
una dummy (correspondiente a una de estas cualidades) debe ser incorporada en
el modelo. Suponga que estimamos el siguiente modelo:
88
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.8
Estimacin Logaritmo Salario por Hora incluyendo dummy Hombre
Cuadro 4.9
Estimacin Logaritmo Salario por Hora incluyendo dummy Mujer
89
Microeconometra Aplicada
Centro de Microdatos
Grco 4.1
Relacin entre escolaridad y valor predicho del salario por hora
5.5
6.5
7.5
10
esc04
15
pred_hombre
20
pred_mujer
Supongamos otro ejemplo donde el logaritmo del salario por hora se estima en
funcin de los aos de escolaridad, experiencia, y se quiere introducir la categora
ocupacional del trabajador, para esto se dispone de una variable con tres categoras: independiente, dependiente sin contrato, y dependiente con contrato. Como
la variable tiene tres categoras, se deben denir dos variables dummies que sern
introducidas en el modelo las cuales se interpretaran en funcin de la categora
base. Se pueden denir las siguientes dummies:
{
DC =
1
0
{
DSC =
90
1
0
Microeconometra Aplicada
Centro de Microdatos
De esta forma, la categora base son los cuenta propia. As, el modelo estimado
sera el siguiente:
salario por hora entre los dependientes con contrato y los trabajadores por cuenta
propia, y el coeciente
trabajadores por cuenta propia, esto se puede notar al tomar valor esperado del
modelo condicional en las tres categoras de la variable explicativa:
Por otra parte, las variables dummies tambin pueden ser interactuadas con
variables continuas, esta interaccin permite estimar un efecto marginal de la
variable explicativa continua sobre la variable dependiente diferente para la categoras de la variable dummy. Por ejemplo, podramos estimar el siguiente modelo
para obtener una estimacin del retorno a la educacin diferenciado entre hombres
y mujeres:
Microeconometra Aplicada
Centro de Microdatos
corresponde a la
g sexo_esc=sexo*esc04
Cuadro 4.10
Estimacin Retorno a la Educacin diferenciado por gnero
La estimacin del modelo nos muestra que el retorno a la educacin de las mujeres es 12.9 % y el de los hombres 2.13 % menor. A partir del modelo estimado
podemos gracar la relacin entre logaritmo del salario por hora y escolaridad
manteniendo constante el nivel de experiencia y separando por gnero:
g pred_hombre2=_b[_cons]+(_b[esc04]+_b[sexo_esc])*esc04+_b[experiencia]*mexp+_b[sexo]
g pred_mujer2=_b[_cons]+_b[esc04]*esc04+_b[experiencia]*mexp
twoway (connected pred_hombre2 esc04 if sexo==1, msize(small)),
title(Relacin entre escolaridad y valor predicho del salario por hora)
subtitle(Diferencias por gnero)
|| (connected pred_mujer2 esc04 if sexo==0, msize(small))
92
Microeconometra Aplicada
Centro de Microdatos
Grco 4.2
Relacin entre escolaridad y valor predicho del salario por hora
10
esc04
pred_hombre2
15
20
pred_mujer2
Es importante aclarar que al incluir una variable continua interactuada con una
variable dummy se deben incluir siempre las variables involucradas sin interactuar.
EL Cuadro 4.11 muestra la comparacin del modelo de retornos a la educacin
sin controlar poe gnero, el modelo controlando por un efecto nivel en gnero, y
el modelo controlando por un efecto nivel y retorno a la educacin diferenciado
por gnero. Este cuadro se obtiene a travs de los siguientes comandos:
93
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.11
Estimacin Retorno a la Educacin diferenciado por gnero
Las variables dummies tambin nos permiten estimar efectos umbrales, por ejemplo, en el caso de educacin puede ser ms interesantes ver el efecto sobre salarios
de completar cada nivel educacional que un efecto promedio por cada ao de
escolaridad adicional. Para esto primero denamos una variable categrica con el
nivel educacional logrado por cada persona:
g nivel=1 if esc04<8
replace nivel=2 if esc04>=8 & esc04<12
replace nivel=3 if esc04>=12 & esc04<17
replace nivel=4 if esc04>=17
label define nivellbl 1 ``Ninguna'' 2 ``Bsica Completa''
3 ``Media Completa'' 4 ``Universitaria Completa''
label values nivel nivellbl
La variable
nivel
cul a partir de ella se pueden generar 4 variables dummies, una para cada nivel
educacional pero una de ellas debe ser excluida del modelo la que ser la categora
base y la interpretacin de los coecientes que acompaan a las dummies inclui-
tabulate de
generate generan automticamente las variables dummies:
94
Microeconometra Aplicada
Centro de Microdatos
DE _1 =
{
DE _3 =
1
0
1
0
si nivel=ninguna
sino
{
DE _2 =
{
si nivel=Media
DE _4 =
sino
1
0
1
0
si nivel=Bsica
sino
si nivel=Universitaria
sino
As, para estimar el efecto umbral sobre salarios se debe estimar el siguiente
modelo:
corresponde
Cuadro 4.12
Estimacin Efectos Umbrales Educacin sobre Salarios
Esta misma estimacin se puede utilizar a travs del siguiente comando que crea
automticamente las variables dummies en la regresin:
95
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.13
Estimacin Efectos Umbrales Educacin sobre Salarios
Una vez estimado el modelo podemos gracar la relacin entre escolaridad y salarios de acuerdo al modelo estimado, para esto debemos generar las siguientes
variables con la prediccin del modelo:
96
Microeconometra Aplicada
Centro de Microdatos
El Grco 4.3 muestra el resultado para los hombres y el grco 4.4 para las
mujeres.
Grco 4.3
Relacin entre escolaridad y valor predicho del salario por hora
6.5
7.5
10
esc04
pred_ningunaH
pred_mediaH
15
20
pred_basicaH
pred_univH
Grco 4.4
Relacin entre escolaridad y valor predicho del salario por hora
6.5
7.5
10
esc04
pred_ningunaM
pred_mediaM
15
20
pred_basicaM
pred_univM
El modelo anterior tiene como hiptesis que slo entrega retorno, en trminos de
salario por hora, completar los diferentes niveles educacionales, pero que al inte-
97
Microeconometra Aplicada
Centro de Microdatos
g DE2_esc=DE_2*esc04
g DE3_esc=DE_3*esc04
g DE4_esc=DE_4*esc04
El Cuadro 4.14 muestra la estimacin de este modelo, y el Grco 4.5 la relacin estimada entre aos de escolaridad y logaritmo del salario por hora para
los hombres.
Cuadro 4.14
Estimacin retorno a la educacin diferenciado por nivel educacional
La estimacin del modelo nos muestra que el retorno a los aos de escolaridad
para las personas con un nivel educacin inferior a bsica completa es 3.6 %, el retorno a la educacin para las personas con educacin bsica completa pero media
incompleta es un 10 % (3.6 % +6.4 %), el retorno a la educacin para las personas
con educacin media completa pero sin educacin superior completa es 18.4 %
98
Microeconometra Aplicada
Centro de Microdatos
(3.6 %+14.8 %), y el retorno a la educacin de las personas de las personas con
educacin universitaria completa es 19.5 % (3.6 %+15.9 %).
Para obtener el grco con la relacin entre escolaridad y logaritmo del salario por hora estimada segn el modelo se deben ejecutar los siguientes comandos:
g pred_ningunaH_esc=_b[_cons]+_b[experiencia]*mexp+_b[sexo]+_b[esc]
g pred_basicaH_esc=_b[_cons]+_b[experiencia]*mexp+_b[sexo]+_b[esc04]*esc04
+_b[DE_2]+_b[DE2_esc]*esc04
g pred_mediaH_esc=_b[_cons]+_b[experiencia]*mexp+_b[sexo]+_b[esc04]*esc04
+_b[DE_3]+_b[DE3_esc]*esc04
g pred_univH_esc=_b[_cons]+_b[experiencia]*mexp+_b[sexo]+_b[esc04]*esc04
+_b[DE_4]+_b[DE4_esc]*esc04
twoway (connected pred_ningunaH_esc esc04 if sexo==1 & nivel==1, msize(small)),
title(Relacin entre escolaridad y valor predicho del salario por hora)
subtitle(Efectos Umbrales Hombres) ||
(connected pred_basicaH_esc esc04 if sexo==1 & nivel==2, msize(small)) ||
(connected pred_mediaH_esc esc04 if sexo==1 & nivel==3, msize(small)) ||
(connected pred_univH_esc esc04 if sexo==1 & nivel==4, msize(small))
Grco 4.5
Relacin entre escolaridad y valor predicho del salario por hora
10
esc04
pred_ningunaH_esc
pred_mediaH_esc
99
15
pred_basicaH_esc
pred_univH_esc
20
4.5.
Microeconometra Aplicada
Centro de Microdatos
estat ovtest
100
Cuadro 4.15
Test de No Linealidades Omitidas
101
Microeconometra Aplicada
Centro de Microdatos
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.16
Test de No Linealidades Omitidas
4.6.
Heterocedasticidad
En datos de corte transversal el problema de heterocedasticidad es bastante comn. La heterocedasticidad se produce cuando la varianza del error diere para
distintos valores de la(s) variable(s) explicativa(s). Por ejemplo, para niveles bajos de escolaridad la varianza en el logaritmo del salario por hora es ms baja que
para niveles de escolaridad ms elevados.
La presencia de heterocedasticidad no genera problemas de sesgo en el estimador MCO, es decir, se sigue cumpliendo la propiedad de insesgamiento de este
estimador:
=
E[]
102
Microeconometra Aplicada
Centro de Microdatos
Grco 4.6
10
10
Aos de escolaridad
lyph
15
20
Fitted values
103
Microeconometra Aplicada
Centro de Microdatos
y1 x11
xk1
,
,...,
1 1
1
y2 x12
xk2
,
,...,
2 2
2
.
.
.
xkN
yN x1N
,
,...,
N N
N
estat hettest
Cuadro 4.17
Test de Heterocedasticidad
104
Microeconometra Aplicada
Centro de Microdatos
robust
al comando regress.
A continuacin vemos las diferencias entre la estimacin del modelo de retorno
a la educacin sin corregir por heterocedasticidad y utilizando la opcin robust
que estima la matriz correcta de varianzas y covarianzas del estimador MCO en
presencia de heterocedasticidad:
105
Microeconometra Aplicada
Centro de Microdatos
que los test estadsticos son correctos y as las conclusiones sobre la signicancia
de los parmetros. Si es que no hay Heterocedasticidad, obtendr exactamente
el mismo resultado que sin ocupar esta opcin, ya que sin Heterocedasticidad la
matriz de varianzas y covarianzas robusta (o de White), en este caso, sera la
misma que la del estimador MCO.
Cuadro 4.18
Estimacin Retorno a la Educacin Robusta
4.7.
Seleccin de Modelos
106
Microeconometra Aplicada
Centro de Microdatos
Volvamos al modelo de retornos a la educacin diferenciados por nivel educacional, y suponga que queremos ver si este modelo es mejor que uno exactamente
igual pero incluyendo la variable estatura que en especicaciones anteriores haba resultado estadsticamente signicativa. El modelo ms grande (en cuanto a
variables incluidas) es el siguiente:
Cuadro 4.19
Estimacin Retorno a la Educacin por Nivel
estimates stats
luego de es-
107
Microeconometra Aplicada
Centro de Microdatos
el otro, el criterio nos va indicar que escojamos el modelo con menos variables.
Los criterios de informacin son medidas de seleccin de modelos ms consisten2
2
tes que el R y R ajustado, y entre los dos criterios el Bayesiando (BIC) es ms
consistente.
Cuadro 4.20
Estimacin Retorno a la Educacin por Nivel
Microeconometra Aplicada
Centro de Microdatos
Cmo escogemos entre el modelo (1), que estima un retorno a la educacin diferenciado por sexo pero igual para todos los niveles educacionales, y el modelo
(2) que estima un retorno diferenciado por nivel educacional?
Davidson y MacKinnon (1981) propusieron el test J para poder seleccionar entre
modelos no anidados. Este test consiste denir uno de los modelos como aquel bajo la hiptesis nula y el otro como bajo la alternativa, se estiman ambos modelos
y se obtiene el valor predicho de la variable dependiente, luego el valor predicho
con el modelo de la hiptesis alternativa se incluye como variable explicativa del
modelo bajo la hiptesis nula, y se testea la signicancia estadstica de esta nueva
variable, si es estadsticamente signicativa se rechaza el modelo de la hiptesis
nula. Luego se invierten los modelos denidos bajo la hiptesis nula y se repite
el procedimiento. Se pueden dar cuatro soluciones:
Slo en los primeros dos casos el test J nos permite concluir sobre el modelo que
debemos preferir.
El comando para realizar este test no viene en STATA pero puede ser instalado ejecutando el siguiente comando:
La ejecucin de este
comando sobre los dos modelos anteriores se debe realizar de la siguiente forma:
reg lyph experiencia sexo esc DE_2-DE_4 DE2_esc- DE4_esc estatura [pw=factor]
nnest lyph esc04 experiencia estatura sexo sexo_esc
El comando nos entrega dos resultados, el del tes J de Davidson y MacKinnon y
el del test de Cox-Pearsan, que esa bastante similar. El resultado se presenta a
continuacin:
109
Microeconometra Aplicada
Centro de Microdatos
Cuadro 4.21
Test J de modelos no anidados
En este caso el test no nos permite concluir sobre ninguno de los modelos.
110
Captulo 5
Estimador de Variables
Instrumentales
5.1.
Introduccin
Uno de los supuestos claves para que el estimador MCO sea insesgado es que
el trmino de error no debe estar correlacionado con las variables explicativas o
regresores del modelo:
cov(ui , Xi ) = 0
Existen tres situaciones en la que se puede invalidar este supuesto:
A pesar de que estos problemas son generados por diferentes razones, el problema es el mismo: endogeneidad; y la solucin se llama
Instrumentales (IV).
Estimador de Variables
y = x + u
111
Microeconometra Aplicada
Centro de Microdatos
mide el ingreso,
representa
u,
Recordemos que el trmino de error captura todas las otras variables (no observables) que afectan los ingresos, en este ejemplo, una de estas variables es la
habilidad. Entonces, en la medida que exista correlacin entre habilidad ya aos
de escolaridad, el error del modelo no ser exgeno a la variable explicativa.
z.
de estar muy relacionada con la variable endgena (x), pero no est correlacionada
con el error.
112
Microeconometra Aplicada
Centro de Microdatos
Para entender cmo funciona el estimador IV, pensemos que una de las variables
explicativas est compuesta por una parte que esta correlacionada con el error
(por cualquiera de las tres razones antes mencionadas), y otra parte que no est
correlacionada con el error. Si se tiene informacin suciente para aislar la segunda parte de la variable, luego nos podemos enfocar en como la variacin en
esta parte de la variable explicativa afecta la variacin de la variable dependiente. De esta forma, se elimina el sesgo en la estimacin MCO considerando slo
la parte de la variable explicativa que no est correlacionada con el error. Esto
es exactamente lo que hace el estimador de variables instrumentales. La informacin sobre los movimientos de la variable explicativa que no estn correlacionados
con el trmino de error se captura a travs de una o ms variables instrumentales.
En resumen, la regresin por variables instrumentales usa estas variables como
herramientas o instrumentos para aislar del comportamiento de la variable explicativa la parte no correlacionada con el trmino de error, lo que permite una
estimacin consistente de los coecientes de regresin.
5.2.
Simultaneidad
113
Microeconometra Aplicada
Centro de Microdatos
profesor, es endgena.
Yi = Xi + ui
Xi = Yi + vi
Veamos que sucede cuando hay simultaneidad de la variable explicativa. Supongamos que para un individuo cualquiera el trmino de error es negativo, es decir,
el valor puntual de la variable dependiente est por debajo del valor estimado, es
decir, un valor negativo de
si
ui
disminuye el valor de
Yi .
En la segunda ecuacin
Yi
mayor es
ui
Xi , con lo
Xi .De esta
5.3.
Error de Medicin
Xi = Xi + i
donde
es el error de medicin.
Yi = Xi + vi
Sin embargo, se estima el siguiente modelo:
Yi = Xi + ui
114
Microeconometra Aplicada
Centro de Microdatos
donde
ui = vi i .
El modelo estimado no cumple con los supuestos MCO, ya que existe correlacin distinta de cero entre el trmino de error compuesto ui y la variable medida
5.4.
lnyphi = 0 + 1 esci + ui
Si la correlacin entre el trmino de error y la variable aos de escolaridad es distinta de cero (por cualquiera de las tres razones antes mencionada), la estimacin
del retorno a la educacin ser sesgada e inconsistente.
La idea del estimador IV es buscar una variable
z,
denominada instrumento,
que permita aislar o separar la parte de los aos de escolaridad que esta correlacionada con el error de la que no est correlacionada con el error. Y luego utilizar
slo la parte de los aos de escolaridad no correlacionada con el error para estimar
correctamente el parmetro de inters a travs de MCO.
El instrumento debe satisfacer dos condiciones para que sea un instrumento vlido:
Condicin de relevancia:
cov(esci , zi ) = 0
Condicin de exogeneidad:
cov(ui , zi ) = 0
Si el instrumento es relevante, entonces la variacin del instrumento est relacionada con la variacin en la variable aos de escolaridad. Adicionalmente, si el
instrumento es exgeno, la parte de aos de escolaridad que est siendo capturada por el instrumento es justamente la parte exgena (o no correlacionada con
el error) de aos de escolaridad. De esta forma, un instrumento que es relevante
115
Microeconometra Aplicada
Centro de Microdatos
y exgeno puede capturar el comportamiento de aos de escolaridad que es exgeno, y esto puede ser utilizando para estimar consistentemente el retorno a la
educacin.
En el modelo de regresin simple (una variable explicativa) con un instrumento,
se dice que el modelo est exactamente identicado, y el estimador de variables
instrumentales es:
V I
zi xi
=
zi yi
E[zu] = 0
en trminos muestrales:
zi (yi xi ) = 0
i=1
Notemos que el estimador de variables instrumentales puede ser escrito de la
siguiente manera:
V I
2
yz
zi xi
z
=
i2 =
zi y i
zi
xz
escolaridad y en $300 el salario por hora, luego el estimador de variables instrumentales para el efecto de un ao ms de escolaridad sobre ingresos es $1500.
Primera etapa:
esci = 0 + 1 zi + i
116
Microeconometra Aplicada
Centro de Microdatos
zi ,
lnyphi = 0 + 1 esc
i + ui
5.5.
117
Microeconometra Aplicada
Centro de Microdatos
118
Microeconometra Aplicada
Centro de Microdatos
instrumental que permita descomponer la escolaridad en la parte correlacionada con el trmino de error (endgena), y la parte no correlacionada con el error
(exgena). Este artculo utiliza como variable instrumental en la estimacin de
retornos a la educacin una variable la presencia de una universidad en el rea de
residencia de la persona. Los estudiantes que crecieron en reas donde no existen
universidades presentan mayores costos de educacin, ya que no tienen la posibilidad de seguir viviendo en sus casas. De esta forma, se espera que estos costos
reduzcan la inversin en educacin, al menos en las familias de menores ingresos.
En este artculo se estima la siguiente ecuacin de salarios por hora:
Xk
5.5.3. Estimating the payo to schooling using the Vietnamera Daft lottery, Angrist y Krueger (1992)
Estos autores, nuevamente con el objetivo de estimar el retorno a la educacin en
forma correcta eliminando el problema de endogeneidad utilizan la metodologa
de variables instrumentales. Entre 1970 y 1973 la prioridad para servicio militar
fue seleccionada aleatoriamente mediante una lotera. Muchos de los hombres que
estimaban que podan ser seleccionados para el servicio militar se matricularon en
los colegios para evadir el servicio militar, generando un mayor nivel educacional.
Este artculo ocupa esta lotera como experimento natural para estimar el retorno
a la educacin.
El modelo estimado tiene como variable dependiente el logaritmo del salario por
hora y como variable explicativa la escolaridad ms un conjunto de regresores
como estatus de veterano, raza, cuidad metropolitana, estado civil, dummies de
ao de nacimiento, y dummies de regiones. La estimacin MCO de este modelo
entrega un valor estimado del retorno a la educacin de 5.9 %. Luego para solucionar el problema de endogeneidad de los aos de escolaridad, se estima primero
119
Microeconometra Aplicada
Centro de Microdatos
5.6.
Para esta aplicacin se utilizarn los datos de Medical Expenditure Panel Survey
(MEPS), esta encuesta se realiza a individuos de 65 aos o ms. En particular se
estimar un modelo de regresin que tiene como variable dependiente el logaritmo
del gasto en medicinas recetadas (ldrugexp), y las variables explicativas son: una
variable binaria que toma valor 1 si el individuo tiene seguro mdico del empleador o sindicato (hi_empunion), nmero de enfermedades crnicas (totchr), edad
Cuadro 5.1
Estadsticas Descriptivas Gastos Mdicos
120
Microeconometra Aplicada
Centro de Microdatos
Cuadro 5.2
Estimador MCO Gastos Mdicos
Sin embargo, es probable que la variable explicativa que indica si la persona tiene
seguro de salud sea endgena ya que personas con mayor gasto esperado en salud
tienen mayor probabilidad de tomar un seguro.
En la base de datos existen cuatro potenciales instrumentos:
ssiratio:
lowincome:
ingresos.
firmsz:
multc:
EL Cuadro 5.3 muestra la matriz de correlaciones con la variable explicativa endgena, los dos primeros instrumentos estn correlacionados de manera negativa
con tener seguro mdico, y los dos ltimos de manera positiva.
121
Microeconometra Aplicada
Centro de Microdatos
Cuadro 5.3
Correlacin Variable Endgena e Instrumentos
El Cuadro 5.4 muestra el estimador de variables instrumentales (MCO2E) utilizando como nico instrumento para la nica variable endgena el ratio de ingresos (ssiratio), es decir, un modelo exactamente identicado. Se encuentra un
coeciente negativo y estadsticamente signicativo de la variable de seguro complementario de salud, indicando que las personas con seguro complementario tienen un gasto promedio en medicamentos 90 % menor a los que no tienen seguro
complementario en salud. El Cuadro 5.5 muestra la estimacin del modelo pero
adicionando el instrumento
multlc.
122
Microeconometra Aplicada
Centro de Microdatos
Cuadro 5.4
Estimador de Variables Instrumentales
Instrumento: ssiratio
123
Microeconometra Aplicada
Centro de Microdatos
Cuadro 5.5
Estimador de Variables Instrumentales
Instrumento: ssiratio, multlc
estat overid.
Cuadro 5.6
Test de Exogeneidad
124
Microeconometra Aplicada
Centro de Microdatos
Cuadro 5.7
Estadsticos Primera Etapa Variables Instrumentales
Cuadro 5.8
Test de Endogeneidad
La hiptesis nula es que la variable es exgena, por lo cual sera mejor el estimador
de MCO, en este caso se rechaza la hiptesis nula validando la utilizacin del
estimador de variables instrumentales por sobre el estimador MCO.
125
Captulo 6
Estimador Mximo Verosmil
Hasta el momento hemos adoptado el criterio de estimacin consistente con es,
coger los valores de los parmetros (
2 ) de modo de minimizar la suma de los
residuos al cuadrado. A continuacin, expondremos otra forma de obtener los
parmetros de inters, el cual, a diferencia de MCO, descansa en un determinado
supuesto respecto de la distribucin del trmino de error, teniendo por objetivo,
como veremos ms adelante, determinar los parmetros que maximicen la proba-
y2 , . . ., yn ]
un vector
n1
f (y; )
k 1 '
= [1 ,
2 , . . ., k ].
Sea
L(; y)
L():
f (y; )
Note que hemos invertido la notacin entre L y la densidad. Ello porque la densidad describe los valores probables de
dado un vector
determinado, sin
M V ),
(
L(; Y )
respecto de
observada, es decir:
M V = max L(; Y )
126
Microeconometra Aplicada
Centro de Microdatos
o equivalentemente
2:
n
n
l(; Y ) = ln( Li (; yi )) =
li (; yi )
i=1
i=1
6.1.
M V
Score, s = (; Y ), por
1.
Consistencia:
plim(M V ) =
es decir, asintticamente, el parmetro estimado corresponde al parmetro
poblacional.
2.
3.
Normalidad Asinttica:
M V a N (, I()1 )
1 En
= L1 L
de parmetros que maximize l ser el que a su vez maximize L, ya que:
127
Microeconometra Aplicada
Centro de Microdatos
]
[ 2 ]
l l
l
I() = E
= E
Invarianza: Si es el estimador ML de
de
6.2.
k k.
entonces
g()
es el estimador ML de
y g()
g().
Estimacin MV
Y = X + u
donde las matrices poseen los tamaos usuales y
iid
u N (0, 2 I).
Entonces:
f (ui )
i=1
y asumiendo una distribucin normal para los errores, tenemos que la funcin de
verosimilitud corresponde a:
u2
1
i
exp 22
2 2
i=1
1
u u2
=
n exp 2
(2 2 ) 2
f (u1 , u2 , . . . , un ; I) =
L = f (y1 , y2 , . . . , yn ; X, 2 , ) =
con lo cual, nuestros estimadores
regla expuesta en (2.74):
(Y X) (Y X)
1
2 2
n exp
(2 2 ) 2
M V = [M V
M
V]
se obtienen siguiendo la
)
(Y X) (Y X)
1
2 2
ma2x ln(L) = ma2x ln
n exp
,
,
(2 2 ) 2
(
)
n
n
(Y X) (Y X)
2
= ma2x ln(2) ln( )
,
2
2
2 2
(
128
Microeconometra Aplicada
Centro de Microdatos
1
lnL
=0
= 2 X (Y X )
= M V = (X X)1 X Y
lnL
n
1
(Y X )
=0
= 2 + 4 (Y X )
(Y X M V ) (Y X M V )
2
= M V =
n
Entonces, bajo normalidad de los errores, el estimador
M V
es equivalente al es-
timador MCO. Sin embargo, note que el estimador de la varianza de los errores
(
M V
Nos queda entonces derivar la varianza de los estimadores MV. Vimos que la
matriz de varianzas corresponda al inverso de la matriz de informacin (I( )).
Por facilidad de clculo, generalmente se utiliza la segunda denicin de
I(),
2l
X X
=
]
2l
X X
E
=
2
2l
X u
=
2
4
]
2l
=0
E
2
[
2l
n
u u
=
( 2 )2
2 4
6
]
2l
n
E
=
( 2 )2
2 4
129
es
Microeconometra Aplicada
Centro de Microdatos
E(u u) = n 2 .
Entonces, la
( XX
I(, ) =
n
2 4
I(, )
( 1 2
(X X)
=
0
0
2 4
n
Note que el hecho que la matriz de informacin (y por lo tanto su inversa) sea
una matriz diagonal, reeja que X y u se distribuyen independientemente (de otra
ey (y)x
x!
y 0,
0
.
x:
)
eyi (yi )xi
li (|yi , xi ) = ln
xi !
= ln yi + xi (ln + ln yi ) ln(xi !)
De esta forma, aplicando sumatoria a la ecuacin anterior obtengo la verosimilitud
conjunta:
L(|y, x) = n ln
i=1
yi + ln
i=1
130
xi +
i=1
xi ln yi
i=1
ln(xi !)
Microeconometra Aplicada
Centro de Microdatos
obtenemos el estimador M-
ximo Verosmil:
n
n
xi
L
n
yi + i=1
=
= 0
i=1
n
n
n
yi +
xi = 0
i=1
i=1
n + ni=1 xi
n
=
i=1 yi
= 1+x
10
18
20
= 1+x
y
1 + 13
= 2,8
=
5
131
es:
y:
Microeconometra Aplicada
Centro de Microdatos
6.3.
Inferencia en el contexto MV
L(,
2 ), corresponde al valor de la verosi-
del modelo. Suponiendo entonces que nuestro inters se centra en una serie de restricciones lineales del tipo
restringida
El valor de la verosimilitud restringida no puede ser superior al de la no restringida, sin embargo, podra esperarse que si las restricciones impuestas son correctas,
el valor de la primera est cerca del de la segunda. Entonces, denimos la razn
de verosimilitud () como:
2 )
L(,
L(,
2)
2 )] a 2 (q)
LR = 2 ln = 2[ln L(,
2 ) ln L(,
donde q corresponde al nmero de restricciones impuestas (es decir, el nmero de
las de R).
Intuitivamente, el valor del estadgrafo crecer a mayor sea la discrepancia entre
los valores de la verosimilitud restringida y la no restringida, lo cual nos aleja de
la posibilidad que las restricciones impuestas sea vlidas (no rechazo de la nula).
En el caso que los errores distribuyan normal, es posible derivar una versin
M V y 2 M V en
alternativa del estadgrafo utilizando los residuos. Reemplazando
l es posible demostrar:
(
n
2
2 ) = (2e)
L(,
Luego, si denimos como
uN R
n
(2 ) 2
2e
n
) n2
(
u u) 2
LR = n(ln uR uR ln uN R uN R )
132
uR ,
Microeconometra Aplicada
Centro de Microdatos
un vector
(R r)
la hiptesis nula.
Siguiendo la misma lgica de la demostracin del test F, si:
a
(, I()1 )
entonces, bajo la hiptesis nula:
(R r) (0, RI()1 R )
a
a
(R r) [RI()1 R ]1 (R r) 2q
donde q es el nmero de las de R y por lo tanto, el nmero de restricciones
(segn la denimos en la seccin 2.8). Luego, como los estimadores MV distribuyen asintticamente normales, entonces la matriz de informacin expuesta en
la ecuacin (2.88) es vlida en muestras grandes, tenemos que el estadstico de
W =
(R r) [R(X X)1 R ]1 (R r) a 2
q
Una nota: Dijimos que el test era vlido asintticamente, donde hemos utilizado
el resultado de normalidad asinttica de MV. En caso de que los errores efectivamente distribuyan normal en muestra nita, el test (lgicamente) mantiene su
distribucin.
3 Note
Microeconometra Aplicada
Centro de Microdatos
de la funcin de Verosimilitud:
ln L
l
=
s() =
vector diferente de cero, sin embargo, si la nula no se puede rechazar, esperaramos obtener un vector cercano a cero.
Se puede demostrar que el score posee media cero y varianza igual a la matriz de
informacin (I()). Por lo tanto, tenemos que la forma cuadrtica:
s ()I()1 s() 2
a
)
1 s()
a 2
LM = s ()I(
q
Note que contraposicin al test de Wald, slo necesitamos calcular el estimador
restringido. De hecho, su popularidad reside en que muchas veces es ms fcil
calcular el estimador restringido que el no restringido.
Dada la normalidad asinttica de los estimadores MV, podemos reducir el estadgrafo a una forma mucho ms simple. Para ver lo anterior, considere una
notacin matricial del score:
s() =
l
2
[
=
1
X u
2
u u
2n2 + 2
4
u = Y X
y por lo tanto:
2 =
con lo cual:
[
=
s()
u u
n
1
X u
0
134
Microeconometra Aplicada
Centro de Microdatos
I()1
LM =
=
=
=
donde el
R2
2 (X X)1
0
0
u X(X X)1 X u
u X(X X)1 X u
n
u u
nR2 a 2q
1
uX
][
1
uX
2
4
n
y X.
Resumiendo, el test se implementa en tres simples pasos:
R2
3. Construir el estadstico
ln L()]
a 2 (q)
LR = 2[ln L()
Primero debemos evaluar el logaritmo de la verosimilitud en el parmetro
no restringido (estimado):
y, x) = n ln
L(|
yi + ln
i=1
xi +
i=1
xi ln yi
i=1
ln(xi !)
i=1
y, x) = n ln
L(|
yi + ln
i=1
i=1
= 5):
bajo la hiptesis nula (
xi +
i=1
xi ln yi
i=1
ln(xi !)
Microeconometra Aplicada
Centro de Microdatos
ln L()]
LR = 2[ln L()
= 2[5,317999436 + 16,8481637] = 23,06032853
Finalmente, debemos comparar el valor de este estadstico con el valor de
2
tabla de una con 1 grado de libertad (slo estamos testeando una hip2
tesis). El valor de la con un grado de libertad a un 5 % de signicancia
es de 3.84, por lo tanto se rechaza la hiptesis nula de que
(ii)
sea igual a 5.
Test de Wald: para poder realizar este test primero necesitamos computar la
matriz de varianzas y covarianzas del estimador, el inverso de la matriz de
informacin. Recordemos la forma de esta matriz:
]
[ 2 ]
l l
l
I() = E
= E
lnL
n
=
yi +
i=1
n
n
i=1
xi
n
lnL2
n
i=1 xi
=
2 2
2
(n + ni=1 xi )
lnL
=
2
Como la variable
I() =
(n +
n
i=1
2
xi )
(4 + 52)
2
56
I() =
2
I() =
5) I()(
5) 2
W = (
1
136
Microeconometra Aplicada
Centro de Microdatos
Reemplazando
por 2.8:
(
W
= (2,8 5)
56
(2,8)2
)
(2,8 5)
W c = 34,6
Como el valor calculado del estadstico de Wald resulta ser mayor al valor
2
de tabla de una con un grado de libertad, se rechaza la hiptesis nula de
que
(iii)
= 5.
Test de multiplicador de Lagrange: para construir este estadstico necesitamos evaluar el score y la matriz de informacin en el estimador restringuido
e = n
s()
yi +
e
i=1
e =
I()
i=1
4
52
20 +
= 8,8
5
5
56
= 2,24
(5)2
Reemplazando en el estadstico:
e I()
e 1 s()
e
LM = s()
LM = (8,8)(2,24)1 (8,8) = 34,6
Con lo cual se rechaza la hiptesis nula de que
6.4.
= 5.
1. La seccin 2.10.2 asume que la distribucin de los errores sigue una distribucin normal. Sin embargo, suponer errores normales es slo uno de los
posibles supuestos respecto a la distribucin de los errores. Existe una gran
cantidad de posibilidades al respecto, utilizndose otras como la distribucin
logstica y la exponencial, muy regularmente en otros tpicos economtricos.
Lo anterior es una ventaja de la estimacin MV, dado que sus propiedades
asintticas se mantienen independientemente de la distribucin utilizada.
2. Otra ventaja corresponde a la posibilidad de utilizar modelos no lineales.
MCO (tal y como lo hemos estudiado) slo permite estimar modelos lineales en parmetros, mientras que MV permite no linealidades (aunque ello
137
Microeconometra Aplicada
Centro de Microdatos
W LR LM
4 Un
Captulo 7
Variable Dependiente Discreta
En los problemas empricos es bastante comn encontrarse con anlisis donde
la variable de inters no es continua, por ejemplo, si estamos interesados en estudiar los factores que determinan que una mujer casada trabaje o no, esta variable
es binaria:
T rabaja =
1
0
trabaja;
no trabaja.
139
Microeconometra Aplicada
Centro de Microdatos
7.1.
1, 2, ..., N.),
x2 ,
familias (i
y la variable dependiente
{
yi =
1
0
si el hogar
si el hogar
i
i
posee auto;
no posee auto.
yi = 1 + 2 xi2 + ui
o de manera equivalente y ms general:
yi = xi + ui
xi = (1, xi2 ) . Bajo los supuestos estndar de que la
donde
del
esperanza condicional
binaria implica que x es una probabilidad, y por lo tanto debera estar entre 0
y 1, lo cual se cumplir acotando los valores que pueden tomar
Adicionalmente, el trmino de error del modelo no tendr una distribucin normal y tendr heterocedasticidad, esto se debe a que como la variable
tomar dos valores, el trmino de error (dado un valor de
x)
slo puede
140
Microeconometra Aplicada
Centro de Microdatos
V [ui |xi ] =
=
=
=
As, podemos notar que la varianza del error no es constante sino que depende
de los valores de
xi
y adems depende de
materna afecta los niveles de obesidad en nios entre 2 y 5 aos de edad , para
cual adems de considerar la variable correspondiente a la cantidad de meses que
el nio fue alimentado con leche materna se incorporar las variables aos de escolaridad de la madre, la que usualmente es utilizada como educacin en salud de
la madre, una dummy que indica si la madre sufri de diabetes gestacional, y una
dummy que indica si la madre tuvo algn trastorno psicolgico (depresin, fobia,
pnico, etc.) durante el embarazo. El siguiente cuadro muestra la estimacin por
MCO de este modelo, donde la variable dependiente es binaria y toma valor 1 si
el menor es obeso (su ndice de masa corporal est por sobre el percentil 95 de
los nios de su mismo sexo y edad) y cero si el nio no es obeso.
Cuadro 7.1
Modelo de Regresin Lineal: Variable Dependiente Obeso
La estimacin anterior nos muestra que la cantidad de meses que el menor fue
alimentado con leche materna tiene un efecto negativo sobre la probabilidad de
1 Datos
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.2
Prediccin Obesidad segn Modelo de Regresin Lineal
[0, 1],
sin em-
142
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.3
Prediccin Lineal Obesidad y Lactancia Materna
Grco 7.1
.2
.26
10
20
30
Meses de lactancia materna
143
40
50
Microeconometra Aplicada
Centro de Microdatos
7.2.
yi = 1
G()
F () = () =
{
}
1
1 2
exp t dt
2
2
F () = () =
e
1 + e
P r[y = 1]
xk
corresponde a:
F (xi )
P r[yi = 1]
=
k
xik
xik
= f (xi )k
donde
f ()
144
Microeconometra Aplicada
Centro de Microdatos
explicativas en el promedio:
P r[yi = 1]
= f (x )k
xik
xi =x
F (xi )
xk
xk =x,xk =1
F (xi )
xk =x,xk =0
Esto es, la probabilidad evaluada en el promedio para todas las variables explicativas excepto para la variable binaria para la cual estamos calculando el efecto
marginal, la cual se evala en 1 y se le resta la evaluada en 0.
En el caso del modelo Logit:
exi
P r[yi = 1|xi ] =
1 + exi
Denotando
P r[yi = 1|xi ]
por
pi ,
guiente manera:
pi
= exi
1 pi ]
[
]
pi
ln
= xi
1 pi
donde el lado izquierdo de esta ecuacin corresponde al logaritmo natural del odds
ratio, este se dene como el ratio de las posibilidades, por ejemplo un odd ratio de
y = 0.
y=1
7.3.
xk
y = 0.
Es posible (pero no necesario) derivar el modelo de eleccin discreta de un modelo de comportamiento, lo que lleva a una representacin del modelo mediante
145
Microeconometra Aplicada
Centro de Microdatos
una variable latente. Por ejemplo, suponga que nuestra variable de inters es si
una mujer casada trabaja o no trabaja condicional en ciertas caractersticas, la
variable dependiente en este caso es binaria y toma valor 1 si la mujer trabaja y
0 sino trabaja. Sin embargo, la decisin de trabajar o no de la mujer fue tomada
en funcin de evaluar la utilidad de trabajar versus la utilidad de no trabajar,
esta diferencia en las utilidades depende del salario que reciba, algunas caractersticas de la mujer, educacin, si tiene hijos pequeos o no, entre otras variables.
As, para cada persona i se puede escribir la diferencia de utilidades de tener
yi = xi + ui
dado que en realidad
yi
y=
y
1
0
yi > 0
yi 0
P r[yi > 0]
P r[xi + ui > 0]
P r[ui xi ]
F (xi )
P r[yi = 1] =
=
=
=
ui
7.4.
Estimacin
yi
1yi
L() = N
i=1 P [yi = 1|xi , ] P [yi = 0|xi , ]
Tomando logaritmo de la funcin de verosimilitud, se tiene que la log-likelihood
de este modelo es:
lnL() =
i=1
yi lnF (xi )
i=1
146
(1 yi )ln[1 F (xi )]
Microeconometra Aplicada
Centro de Microdatos
donde
F ()
logstica.
Tomando la derivada de log-likelihood con respecto a
e igualando a cero se
]
N [
lnL()
yi F (xi )
=
f (xi ) xi = 0
{
i =
f (xi )
F (xi )
f (xi )
1F (xi )
si
yi = 1
si
yi = 0
La condicin de primer orden nos indica que los residuos generalizados son ortogonales a las variables explicativas del modelo, similar a la condicin de primer
orden de MCO.
La condicin de primer orden de este problema no tiene una solucin cerrada
para
una interpretacin de efectos marginales en este tipo de modelos. Para poder interpretar los efectos marginales de las variables explicativas sobre la probabilidad
de obesidad del menor, debemos computar los efectos marginales. El Cuadro 7.5
muestra el clculo de los efectos marginales para el modelo probit estimado evaluados en el promedio de las variables explicativas.
Los resultados encontrados son bastante similares a la estimacin por MCO, un
aumento en un mes de lactancia materna reduce la probabilidad de obesidad del
nio en 0.12 puntos porcentuales, un ao ms de escolaridad de la madre reduce
la probabilidad de obesidad del nio en 0.48 puntos porcentuales, si la madre tuvo
diabetes gestacional la probabilidad de obesidad es 6 puntos porcentuales mayor
que en nios con madres sin diabetes gestacional, y los trastornos psicolgicos no
tienen efectos signicativos sobre la probabilidad de obesidad.
147
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.4
Estimacin Probit Probabilidad de Obesidad
Cuadro 7.5
Efectos Marginales Probit sobre Probabilidad de Obesidad
148
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.6
Efectos Marginales Probabilidad de Obesidad
Comparacin MCO, Probit y Logit
Cuadro 7.7
Efectos Marginales Probabilidad de Obesidad
Comparacin MCO, Probit y Logit
outreg2 [lineal probit logit] using javiera, replace word excel mfx
Generando archivos excel y word con la tabla de comparacin de los tres modelos.
149
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.8
Probabilidad de Obesidad y Lactancia Materna
150
Microeconometra Aplicada
Centro de Microdatos
Grco 7.2
.2
.26
10
20
30
Meses de lactancia materna
Lineal
Logit
7.5.
40
50
Probit
lnL1
valor), y sea
lnL0
y la diferencia entre las dos funciones es mayor mientras mayor sea el valor de
las variables explicativas del modelo en explicar la variable dependiente. De es2
ta manera, se puede utilizar la siguiente medida, denominada pseudo R para
estudiar el ajuste del modelo:
pseudo R2 = 1
1
1 + 2(lnL1 lnL0 )/N
151
Microeconometra Aplicada
Centro de Microdatos
donde
M cF addenR2 = 1
lnL1
lnL0
Se podra pensar que una manera razonable de estudiar el ajuste del modelo es
comparar el valor promedio de las probabilidades predichas:
N
1
pi
N i=1
con el promedio de la variable binaria observada
observaciones con valor de
y,
o la frecuencia muestral de
que por supuesto de estimacin (condicin de primer orden) la igualdad de estos dos indicadores es impuesta. De esta forma, Hosmer-Lemeshow sugieren un
test que consiste en comparar la frecuencia muestral (y ) con el promedio de las
probabilidades predichas por el modelo en subgrupos de observaciones, donde la
hiptesis nula del test es que los dos grupos son iguales. La cantidad de grupos
es denida de manera arbitraria por el investigador. Sea
probabilidades predichas del grupo
yg
pg
el promedio de las
g,
el
(
pg y g )
y (1 y g )
g=1 g
los grupos se basan en los cuantiles de las probabilidades predichas. Bajo la hi2
ptesis nula el estadstico se distribuye (G2) .
El Cuadro 7.9 muestra este test para la estimacin probit del modelo de probabilidad de obesidad. En este caso no se puede rechazar la hiptesis nula de que
el promedio de las probabilidades estimadas son iguales a las frecuencias muestrales para todos los grupos cuando utilizamos 5 grupos, se rechaza al 10 % cuando
utilizamos 6 grupos.
152
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.9
Test Hosmer-Lemeshow
Justamente uno de los problemas de este test es que es muy sensible al nmero
de grupos que se utilicen.
Otra forma de estudiar la bondad de ajuste del modelo es comparar los resultados
predichos con los resultados efectivos. Para obtener los resultados predichos por
el modelo primero debemos computar la probabilidad predicha por el modelo, y
luego denimos la variable de resultado predicha de la siguiente manera:
{
y =
Luego al comparar
y con y
1
0
si
si
p 0,5
p < 0,5
estat classification,
el cua-
153
Microeconometra Aplicada
Centro de Microdatos
Cuadro 7.10
Observaciones predichas correctamente
154
lsens
Microeconometra Aplicada
Centro de Microdatos
0.00
Sensitivity/Specificity
0.25
0.50
0.75
1.00
0.00
0.25
0.50
Probability cutoff
Sensitivity
155
0.75
Specificity
1.00
Microeconometra Aplicada
Centro de Microdatos
7.6.
Aplicacin
se utilizar la encuesta CASEN 2009 para estudiar los determinantes de que una
persona realice o no una capacitacin laboral. En esta encuesta se pregunta a
las personas han asistido a algn curso de capacitacin laboral en el ltimo ao.
Plantearemos un modelo simple para analizar la relacin entre la realizacin de
capacitacin laboral y un conjunto de variables demogrcas y caractersticas del
empleo de los ocupados, por lo cual slo se tomar como muestra de anlisis los
ocupados como asalariados. Segn los datos de la Encuesta CASEN 2009, un
47,1 % de los mayores de 15 aos (poblacin en edad de trabajar) se encuentran
ocupados. Del total de personas ocupadas, un 70.6 % trabaja como asalariado, y
de los asalariados un 19.6 % ha realizado algn curso de capacitacin en el ltimo ao. Las caractersticas individuales que se utilizarn en la estimacin son:
gnero, edad, escolaridad, estado civil, y condicin de jefe de hogar. Adems se
utilizarn algunas caractersticas del empleo como: ingreso laboral por hora, tamao de la empresa y rama de actividad econmica.
A travs de los siguientes comandos se construyen las variables necesarias para la estimacin:
g ocupado=1 if o1==1
replace ocupado=0 if o1==2
replace ocupado=1 if o2==1
replace ocupado=1 if o3==1
g asalariado=1 if o23>=3 & o23<=5 & o23!=.
replace asalariado=0 if asalariado==. & ocupado==1
g capacitado=1 if o33>=1 & o33<=7
replace capacitado=0 if o33==8
replace capacitado=. if asalariado==0
replace capacitado=. if ocupado==0
g casado=1 if ecivil==1 | ecivil==2
replace casado=0 if casado==.
replace casado=. if ecivil==.
g jefe=1 if pco1==1
replace jefe=0 if pco1!=1
156
Microeconometra Aplicada
Centro de Microdatos
157
Microeconometra Aplicada
Centro de Microdatos
pseudoR2
158
Microeconometra Aplicada
Centro de Microdatos
159
Microeconometra Aplicada
Centro de Microdatos
160
Microeconometra Aplicada
Centro de Microdatos
Con respectos a los sectores econmicas (todos evaluados versus el sector agricultura) se concluye que: minera aumenta la probabilidad en 13.5
puntos porcentuales, industria aumenta la probabilidad en 3.2 puntos porcentuales, electricidad la aumenta en 9 puntos porcentuales, construccin
disminuye la probabilidad en 1.9 puntos porcentuales, comercio aumenta
la probabilidad en 1.6 puntos porcentuales, transporte aumenta la probabilidad en 2.2 puntos porcentuales, servicios nancieros aumenta la probabilidad en 4.2 puntos porcentuales, y servicios comunales aumenta la
probabilidad en 7.6 puntos porcentuales.
161
Captulo 8
Modelos de Respuesta Mltiple
Existen diversas aplicaciones donde la variable dependiente es categrica, es decir,
la variable de inters slo toma valores discretos. En el captulo anterior revisamos
el caso cuando la variable dependiente es binaria, en este captulo nos centraremos
en el caso que la variable dependiente puede tomar ms de dos valores discretos.
Por ejemplo, nuestra variable de inters podra ser la jornada de trabajo de una
persona (tiempo completo, medio tiempo o no trabaja), o la eleccin de donde
invertir de una empresa (Europa, Asia, Estados Unidos o Amrica Latina), etc.
Tambin tendremos que utilizar estos modelos cuando a pesar de que la variable
de inters es continua, por ejemplo ingreso, la manera en que se reporta la informacin es discreta, por ejemplo en algunas encuestas las personas responden en
que tramo de ingresos se ubica su salario.
Los modelos de eleccin mltiple tienen como objetivo explicar la probabilidad
de cada una de las alternativas como funcin de caractersticas de las propias
alternativas o como funcin de caractersticas de el individuo que esta escogiendo entre las diversas alternativas. Una distincin metodolgica importante surge
dependiendo si la variable categrica es ordenada o no ordenada.
8.1.
Consideremos que nuestra variable dependiente es categrica y representa el resultado de una eleccin entre
alternativas, numeradas de 1 a
M.
Si existe un
orden lgico entre estas alternativas (por ejemplo, no tiene auto, tiene 1 auto, tiene 2 autos, y tiene ms de 2 autos), el modelo se denomina Modelo de Respuesta
162
Microeconometra Aplicada
Centro de Microdatos
yi
yi
yi = xi + ui
yi = j si j1 < yi j
Los parmetros
0 =
M = +.
P r[yi = 1|xi ] =
=
=
P r[yi = 2|xi ] =
=
.
.
.
P r[ < x + ui 1 ]
F (1 x ) F ( x )
F (1 x )
P r[1 < x + ui 2 ]
F (2 x ) F (1 x )
.
= ..
P r[yi = M |xi ] = P r[M 1 < x + ui +]
= F (+ x ) F (M 1 x )
= 1 F (M 1 x )
De esta forma, la log-likelihood de este modelo es:
lnL(, ) =
ln [F (j x ) F (j1 x )]
j=1 Yi =j
la que debe ser maximizada con respecto a
estimados
no representan los efectos marginales de las variables explicativas sobre la probabilidad de elegir la alternativa
j,
163
Microeconometra Aplicada
Centro de Microdatos
P r[yi = j]
= [f (j1 xi ) f (j xi )] k
xik
Para ejemplicar la estimacin de un modelo de eleccin mltiple ordenado utilizaremos la Encuesta Casen 2009, especcamente la variable que pregunta sobre
la cantidad de personas que trabajan en la empresa de la persona entrevistada.
El Cuadro 8.1 muestra la distribucin de frecuencia de esta variable, un 24.9 %
de las personas trabajan por cuenta propia (1 persona), y un 18.4 % trabaja en
empresas grandes.
Cuadro 8.1
Distribucin de Frecuencia Tamao de Empresa
y su desviacin estndar, los que son llamados por el programa como \cut_1\cut_5. Para poder interpretar los resultados del modelo debemos calcular los
efectos marginales con el comando mfx pero a diferencia del modelo de eleccin
binaria donde se estimaba una sola probabilidad, en este caso debemos indicar
adems sobre que probabilidad queremos calcular el efecto marginal.
164
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.2
Probit Ordenado Tamao de Empresa
165
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.3
Efectos Marginales Probit Ordenado Tamao de Empresa
Pr[Tamao empresa=1]
Cuadro 8.4
Efectos Marginales Probit Ordenado Tamao de Empresa
Pr[Tamao empresa=200 y ms]
El modelo puede ser estimado tambin bajo el supuesto de distribucin logstica del error utilizando el comando
ologit,
oprobit
ologit
en el Cuadro 8.5:
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.5
Efectos Marginales Probit Ordenado Tamao de Empresa
Pr[Tamao empresa=1]
Comparacin oprobit y ologit
Una vez estimado el modelo podemos utilizar el comando predict para obtener la
probabilidad predicha de cada una de las alternativas de la variable dependiente
condicional en las caractersticas del individuo:
167
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.6
Prediccin Probit Ordenado Tamao de Empresa
Ahora si queremos gracar la relacin entre la probabilidad de trabajar en empresa grande (segn el modelo) y la edad de la persona, debemos realizar lo siguiente:
Grco 8.1
20
40
60
Edad
168
80
100
Microeconometra Aplicada
Centro de Microdatos
8.2.
Modelos Multinomiales
j = 1, ..., M ,
pero no existe un
es
Uij ,
Sin embargo,
y la alternativa
Uij
para
j = 1, ..., M
de la alterna-
si esta le entrega
i de la alternativa j
y de factores no observables:
es:
uij
uij
es:
{
}
F (t) = exp et
As, bajo estos supuestos se tiene que la probabilidad de cada alternativa:
exp(xij j )
pj = P r[yi = j] =
exp(xi1 1 ) + ... + exp(xiM M )
Una vez denida la probabilidad de cada una de las alternativas se puede estimar
el modelo por Mxima Verosimilitud, para esto denamos
169
yij
de la siguiente
Microeconometra Aplicada
Centro de Microdatos
manera:
{
yij =
1
0
y=j
y = j
si
si
L=
N
M
pijij
i=1 j=1
o la funcin log-likelihood:
lnL =
N
M
yij ln(pij )
i=1 j=1
Maximizando esta funcin con respecto a
smil de los coecientes del modelo, sin embargo, estos coecientes no representan
los efectos marginales de las variables explicativas sobre la probabilidad de escoger la alternativa
j.
En el modelo planteado podemos notar que tanto las variables explicativas como
los coecientes varan con las alternativas, sin embargo, en la prctica un modelo
as planteado no esta identicado y no se puede estimar. Cuando el modelo es
tal que los regresores varan entre alternativas, por lo tanto los coecientes son
constantes para todas las alternativas, el modelo es denominado Conditional Logit. Por el contrario, cuando los regresores no varan entre alternativas pero si los
coecientes, el modelo se denomina Multinomial Logit. Los dos modelos pueden
ser combinados en un modelo denominado Mixed Logit, donde un conjunto de variables explicativas varan entre alternativas y las restantes variables explicativas
no varan entre alternativas.
exp(xij )
pij = M
k=1 exp(xik )
Denidas estas probabilidades se puede construir la funcin de verosimilitud y
estimar
Microeconometra Aplicada
Centro de Microdatos
marginales:
pij
= pij (ijl pil )
xil
donde
ijl
j = l y 0 cuando j = l.
Consideremos el siguiente ejemplo de Herriges y Kling (1999) donde se analizan los distintos modos de pesca en funcin de algunas caractersticas de los
individuos como el ingreso y otras caractersticas especcas de las alternativas
como precio y tasa de captura. En el Cuadro 8.7 se muestra la descripcin de las
variables contenidas en la base de datos.
Cuadro 8.7
Descripcin Base de Datos Modos de Pesca
El Cuadro 8.8 muestra la distribucin de frecuencia de la variable de inters, modelo de pesca, un 11.3 % de las personas escogen pescar en la playa, un 15.1 % en
un muelle, un 35.4 % en un bote privado, y un 38.2 % en un bote compartido.
En el modelos Conditional Logit slo se pueden utilizar variables que varan entre
alternativas, en este ejemplo seran el precio y tasa de captura. En el Cuadro 8.9
podemos notar que el formato de la base de datos es wide, para poder estimar
el modelo primero necesitamos cambiar el formato de la base de datos a formato
long.
171
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.8
Distribucin de Frecuencia Modo de Pesca
Cuadro 8.9
Datos Modo de Pesca
para la alternativa
172
j.
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.10
Cambio Formato Base de Datos
Cuadro 8.11
Datos Modo de Pesca en Formato Long
El Cuadro 8.12 muestra la estimacin del modelo Conditional Logit para la eleccin de modo de pesca en funcin del precio de cada alternativa y de la tasa de
captura de cada alternativa, el modelo muestra un ajuste medido a travs del
2
pseudo-R de 0.20. Sin embargo, la informacin presentada en este cuadro corresponde a la estimacin de los coecientes, los que en este tipo de modelo no
tienen interpretacin como efectos marginales de las variables explicativas sobre
la probabilidad de elegir cada una de las alternativas de modos de pesca.
173
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.12
Conditional Logit Modo de Pesca
estat mfx,
este comando entrega como resultado los efectos marginales de los precios de
cada alternativa y tasa de captura de cada alternativa sobre las probabilidades
de escoger cada una de las alternativas, el Cuadro 8.13 muestra parte del resultado
de este comando, el que corresponde a los efectos marginales sobre la probabilidad
de escoger la alternativa barco privado.
Cuadro 8.13
Efectos Marginales Conditional Logit
Probabilidad escoger barco privado
174
Microeconometra Aplicada
Centro de Microdatos
Los resultados nos muestra que cada dlar adicional de costo de la alternativa playa aumenta en 0.06 puntos porcentuales la probabilidad de escoger barco privado,
cada dlar adicional de costo de la alternativa barco compartido aumenta en 0.47
puntos porcentuales la probabilidad de escoger la alternativa barco privado, cada
dlar adicional de la alternativa muelle aumenta en 0.075 puntos porcentuales
la probabilidad de escoger barco privado, y cada dlar adicional de costo de la
alternativa barco privado disminuye en 0.6 puntos porcentuales la probabilidad
de escoger este alternativa. Por otra parte, un aumento en un punto en la tasa
de captura en la alternativa playa disminuye en 0.0086 puntos porcentuales la
probabilidad de escoger la alternativa barco privado, un aumento en un punto en
la tasa de captura de barco compartido disminuye en 0.072 puntos porcentuales
la probabilidad de escoger barco privado, un aumento en un punto en la tasa
de captura de la alternativa muelle disminuye en 0.011 puntos porcentuales la
probabilidad de escoger barco privado, y un aumento en un punto en la tasa de
captura de la alternativa barco privado aumenta en 0.092 puntos porcentuales la
probabilidad de escoger esta alternativa.
exp(xi j )
pij = M
l=1 exp(xi l )
La estimacin de este tipo de modelos requiere que los coecientes de una de las
alternativas (usualmente la primera) sean normalizados a cero, es decir,
Notemos que con esta normalizacin, la probabilidad de la alternativa
cional en que se escoge la alternativa 1 (normalizada) o la alternativa
P r[yi = j|yi = j
o yi = 1] =
1 = 0 .
j condi-
es:
exp(xi j )
1 + exp(xi j )
contra la alter-
175
Microeconometra Aplicada
Centro de Microdatos
efectos marginales, los que se pueden computar una vez estimado el modelo de la
siguiente forma:
pij
= pij (j i )
xi
donde
i =
pil l .
El Cuadro 8.14 muestra la estimacin del modelo Multinomial Logit utilizando el comando
mlogit,
Cuadro 8.14
Multinomial Logit Modo de Pesca
Sin embargo, el cuadro anterior no nos entrega informacin interesante para interpretar los resultados, analizar el modelo debemos computar los efectos marginales
lo que se hace con el comando
Por ejemplo, el
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.15
Efectos Marginales Multinomial Logit
Probabilidad escoger barco privado
es:
exp(xij + zi j )
pij = M
l=1
donde
xij
exp(xil + zi l )
zi
son las
177
j,
los
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.16
Efectos Marginales Multinomial Logit
Probabilidad escoger barco privado
El comando
asclogit
rica no ordinal cuando hay variables explicativas que varan entre alternativas y
otras que no varan entre alternativas, la base de datos debe estar en formato
long:
estat mfx
podemos obtener los efectos marginales para cada una de las alter-
nativas, el Cuadro 8.18 muestra parte del resultado de este comando, lo que
corresponde a los efectos marginales sobre la alternativa barco privado.
178
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.17
Mixed Logit Modo de Pesca
Cuadro 8.18
Efectos Marginales Mixed Logit Modo de Pesca
Probabilidad de escoger barco privado
179
Microeconometra Aplicada
Centro de Microdatos
hausman
para testear la hiptesis nula de que los coecientes de los dos modelos son iguales, si no se puede rechazar la hiptesis nula la metodologa Multinomial Logit
es validada. El Cuadro 8.19 muestra el resultado del test de hausman para la categora 1 (playa), el resultado nos muestra que no se puede rechazar la hiptesis
nula de que los coeciente son iguales, en este caso se cumple el supuesto de IIA.
El test se debe realizar para cada una de las alternativas.
180
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.19
Test de Hausman: Alternativa Playa
Existe el comando
mlogtest, hausman
Cuadro 8.20
Test de Hausman
181
Microeconometra Aplicada
Centro de Microdatos
Figura 8.1
Decisin Anidada de Modo de Pesca
Modo
Orilla
Playa
Muelle
Barco
Pblico
Privado
j y
las del segundo nivel por k . As, en este modelo la utilidad de la alternativa (j, k)
Denotaremos el conjunto de alternativas en el primer nivel por el subndice
es:
Microeconometra Aplicada
Centro de Microdatos
donde
zj
xjk
alternativas del primer nivel y segundo nivel. El Modelo Nested Logit asume
que
es:
pjk = pj pk|j
exp(xjk j /j )
exp(zj + j Ij )
Kj
= J
m=1 exp(zm + m Im )
l=1 exp(xjl j /j )
[
]
Kj
exp(x
/
)
. El parmetro j es llamado dissimilarity padonde Ij = ln
j
j
jl
l=1
rameter, para que el modelo sea consistente se requiere que 0 j 1, si este
parmetro es igual a 1 el modelo converge a un Conditional Logit.
El comando para estimar este tipo de modelos es
nlogit,
de utilizar este comando se debe construir una variable que especique la estructura del rbol de decisiones con el comando
nlogitgen.
nlogitgen:
Cuadro 8.21
Denicin rbol de Decisiones Modo de Pesca
nlogittree, tal
como muestra el Cuadro 8.22. El primer nivel quedo denido como shore (orilla)
o boat (barco), de la opcin shore del primer nivel se desprenden dos alternativas
beach (playa) o muelle (pier), y de la opcin boat las alternativas private (privado)
o charter (compartido). En la columna
183
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.22
rbol de Decisiones Modo de Pesca
margeff
mfx
nlogit
muestra el test de
= 1
o de que
1. Obtener las probabilidades predichas segn el modelo para todas las observaciones
2. Cambiar uno de los regresores en un valor pequeo (delta)
3. Volver a obtener las probabilidades predichas por el modelo con este cambio
en uno de los regresores
4. Restar los dos valores predichos y dividir delta.
5. El efecto marginal promedio corresponde al promedio de lo calculado en el
paso anterior.
184
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.23
Estimacin Nested Logit Modo de Pesca
Para obtener los efectos marginales promedios del modelo estimado debemos ejecutar los siguientes comandos:
185
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.24
Efectos Marginales Nested Logit Modo de Pesca
es:
de escoger la alternativa
(m 1).
car cuando las variables explicativas no varan entre alternativas. El Cuadro 8.25
nos muestra la estimacin del modelo de eleccin de modo de pesca en funcin
del ingreso, que es una variable que no vara entre alternativas. Para poder interpretar el modelo debemos computar los efectos marginales, en el Cuadro 8.26 se
presentan los efectos marginales para las alternativas beach y charter, en el caso
de la alternativa beach el ingreso no tiene un efecto signicativa sobre la probabilidad de escoger esta alternativa, y en el caso de charter se estima que 1000
dlares ms de ingreso disminuyen en 1.3 puntos porcentuales la probabilidad de
escoger esta alternativa.
186
Microeconometra Aplicada
Centro de Microdatos
Cuadro 8.25
Multinomial Probit Modo de Pesca
Cuadro 8.26
Efectos Marginales Multinomial Probit Modo de Pesca
187
Captulo 9
Variable Dependiente Limitada
9.1.
Introduccin
Por eso se dice que la variable dependiente es limitada. En este caso, an cuando
se cumplan todos los supuestos que requiere el estimador MCO para ser insesgado
y consistente, MCO ser inconsistente porque la muestra que se est utilizando
para la estimacin no es representativa de la poblacin. De esta forma, se requerir de una metodologa alternativa de estimacin, con supuestos de distribucin
mucho ms fuerte, para obtener coecientes estimados de manera consistente.
El primer caso de variable dependiente limitada, donde se observa una muestra incompleta, se puede dar debido al problema de censura o truncamiento. Una
muestra esta truncada cuando no existen datos para algunas observaciones de
la variable dependiente y variables explicativas, por ejemplo, si el ingreso es la
variable dependiente y slo se han includo en la muestra a las personas de bajos
ingresos (bajo cierto umbral). Por otra parte, una muestra esta censurada cuando no existen datos de la variable dependiente para ciertas observaciones pero si
existen datos para las variables explicativas, por ejemplo, se incluye a personas
188
Microeconometra Aplicada
Centro de Microdatos
de todos los niveles de ingresos en la muestra, pero las personas de altos ingresos
son todas codicadas en cierto nivel.
Para los modelos truncados y censurados Tobin (1958) propone un mtodo de
estimacin consistente de los coecientes en el contexto de un modelo de regresin lineal con errores normales, conocido como el Modelo Tobit.
El segundo caso de variable dependiente limitada es conocido como Modelo de Seleccin (Sample Selection Models), estos modelos son utilizados cuando la muestra
no es aleatoria sino que de manera intencional o no intencional esta basada slo
en una parte de los valores que puede tomar la variable dependiente, los parmetros sern inconsistentes a menos que se corrija la estimacin. Por ejemplo, se ha
observado que el rendimiento de los alumnos en la PSU ha ido empeorando en el
tiempo, ya que es menor el porcentaje de alumnos que postulan a una carrera,
menor el porcentaje de alumnos seleccionados, y el porcentaje de alumnos bajo
500 puntos (media) en lenguaje y matemticas se ha incrementado, pero se ha
visto que la cantidad de estudiantes que rinden la PSU se ha incrementando en un
63 % desde el ao 2003 al 2010, por cual este resultado se puede deber a un incremento en los alumnos de bajo rendimiento que rinden la PSU. En estos modelos
la seleccin puede venir de una auto-seleccin, la variable de inters dependen de
una decisin previa que tomo el individuo de participar o no en cierta actividad
de inters, o puede ser resultado de una seleccin muestral donde los individuos
que participan en esta actividad estn sobre muestreados o en un caso extremos
slo incluye a los individuos que participan.
9.2.
Sea
y = y
si
y > 0
189
y 0
Microeconometra Aplicada
Centro de Microdatos
y < 0
pero se observa
y = y
y=0
y = 0,
si
si
es decir:
y > 0
y 0
Dado que los valores negativos son reemplazados por cero, la media de la varia
ble observada censurada ser mayor a la media de la variable y . As, podemos
notar claramente que las medias muestrales truncadas y censuradas no pueden
ser utilizadas sin ningn tipo de ajuste para estimar la media poblacional.
Consideremos la siguiente ilustracin, suponga que las horas trabajadas se determinan segn la siguiente relacin con el salario por hora:
y = 25 + 10 lnw + u
u N (0, 102 )
lnw N (2,75, 0,62 )
Luego, podemos generar 200 observaciones articiales de la variable latente
y:
190
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.1
Diferencia en medias variable latente, truncada y censurada
Cuadro 9.2
Diferencia en efectos marginales variable latente, truncada y censurada
191
Microeconometra Aplicada
Centro de Microdatos
twoway (scatter ystar lnw) (lfit ystar lnw) (lfit ycens lnw)
(lfit ytrunc lnw), legend(order(1 ``lnw observado''
2 ``Media no censurada'' 3 ``Media censurada'' 4 ``Media truncada''))
Grco 9.1
Diferencia en efectos marginales e intercepto variable latente, truncada y
40
20
20
40
censurada
3
lnw
ystar
Fitted values
Fitted values
Fitted values
cumple con:
{
y=
y
L
si
si
y > L
y L
{
y=
y
U
si
si
y < U
y U
192
Microeconometra Aplicada
Centro de Microdatos
Por otra parte, cuando la variable de inters se encuentra truncada por abajo se
observa
tal que:
y = y
y > L
si
y = y
y < U
si
es conocida
o asumida, los parmetros pueden ser estimados de manera eciente y consistente por Mxima Verosimilitud, a travs de la funcin de distribucin condicional
truncada y censurada de la variable observada
y.
f (y|x) =
Notemos que cuando
que
y=L
y:
f (y |x)
F (L|x)
si
si
y>L
y=L
y L.
es una mezcla
d=
1
0
si
si
y>L
y=L
lnL() =
i=1
193
Microeconometra Aplicada
Centro de Microdatos
L,
la funcin de densidad
es:
lnL() =
i=1
y = x + u con u N (0, 2 )
De esta forma,
Sin embargo,
no es observada sino
{
y=
y varianza
2.
y:
si
si
y > 0
y 0
Esto indica que no se observa la variable cuando toma valores negativos, cuando
realmente slo hay observaciones positivas es porque la muestra est truncada,
cuando observamos ceros la muestra esta censurada.
Entonces, bajo estos supuestos:
(y x )2
exp
f (y) =
2 2
2 2
194
Microeconometra Aplicada
Centro de Microdatos
F (0) = P r[y 0]
= P r[x + u 0]
( )
x
=
( )
x
= 1
donde
()
(y x )2
f (y) =
exp
2 2
2 2
1
}]d [
(
1
)]1d
)
(
( ))}
N { (
x
1
1
1
2
2
lnL(, ) =
di ln2 ln 2 (yi xi ) + (1 di )ln 1
2
2
2
i=1
2
( )}
N {
xi
1
1
1
2
2
lnL(, ) =
ln2 ln 2 (yi xi ) ln
2
2
2
i=1
2
E[y|x]
195
Microeconometra Aplicada
Centro de Microdatos
Si la variable est
E[y] =
=
=
=
E[y |y > 0]
E[x + u|x + u > 0]
E[x |x + u > 0] + E[u|x + u > 0]
x + E[u|u > x ]
|
{z
}
>0
de esta forma
manera
E[y] =
=
=
=
=
Ed [Ey|d [y|d]]
P r[d = 0] E[y|d = 0] + P r[d = 1] E[y|d = 1]
P r[y 0] 0 + P r[y > 0] E[y |y > 0]
P r[y > 0] E[y |y > 0]
P r[u > x ] E[y |y > 0]
|
{z
}
truncada
E[y |x] = x
E[y|x, y > 0] = x + E[u|u > x ]
E[y|x] = P r[u > x ][x + E[u|u > x ]]
Bajo el supuesto de normalidad del error se tiene que la media truncada del error
es de la forma:
E[u|u > x ] =
=
=
=
=
[
]
u u
x
>
E
( )
x
( )]
[
1 x
( )
x
( x )
( )
x
(z)
196
Microeconometra Aplicada
Centro de Microdatos
donde
E[y |x] = x
E[y|x, y > 0] = x + (z)
E[y|x] = (z)x + (z)
E[y |x]
=
x
E[y|x,y>0]
= [1
x
E[y|x]
= (z)
x
z(z) (z)2 ]
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.3
Estadsticas Descriptivas Muestra Censurada
198
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.4
Estadsticas Descriptivas Muestra Truncada
Cuadro 9.5
Estimacin MCO Muestra Censurada
Recordemos que la estimacin MCO de los coecientes es una estimacin inconsistente, esto porque la media condicional debe ser corregida para representar
199
Microeconometra Aplicada
Centro de Microdatos
una media condicional de una muestra censurada y estimar los coecientes bajo
el modelo apropiado que ser no lineal en
ll(#)
ul(#)
corresponde
Cuadro 9.6
Estimacin Tobit Muestra Censurada
200
Microeconometra Aplicada
Centro de Microdatos
Existen otros efectos marginales de inters que pueden ser obtenidos a travs
de la opcin postestimacin
mfx.
Cuadro 9.7
Efecto Marginal sobre Media Truncada
E[y|x] debemos
calcule E(y) donde
1 Note
ystar(0,.),
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.8
Efecto Marginal sobre Media Censurada
Finalmente, podemos calcular tambin los efectos marginales sobre la probabilidad de estar censurado:
Cuadro 9.9
Efecto Marginal sobre Probabilidad de estar Censurado
Cada hijo menor de dos aos aumenta en 17.3 puntos porcentuales la probabilidad
de no trabajar, los hijos entre 2 y 6 aos la aumentan en 9.1 puntos porcentuales,
y los hijos entre 6 y 18 aos aumentan en 1.8 puntos porcentuales la probabilidad
de que la mujer casada no trabaje. Cada ao de edad aumenta en 0.95 puntos
porcentuales de que la mujer casada no trabaje, y cada ao de escolaridad disminuye en 2.9 puntos porcentuales la probabilidad de que la mujer casada no trabaje.
Ahora estimaremos el modelo para la muestra truncada, el comando en STATA para hacer una regresin truncada es:
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.10
Estimacin Muestra Truncada
Cuadro 9.11
Efectos Marginales Variable Truncada
203
Microeconometra Aplicada
Centro de Microdatos
i =
yi xi
L,
Expresin
E[i |di = 0]
E[2i |di = 0]
E[3i |di = 0]
E[4i |di = 0]
i
1 zi i
(2 + zi2 )i
3 (3zi + zi3 )i
donde
i =
El comando
bctobit
(xi /)
1(xi /)
zi =
Lxi
Modelo Tobit es vlido, es decir, cumple con los supuestos de normalidad y homocedasticidad:
204
Microeconometra Aplicada
Centro de Microdatos
En este caso, el Modelo Tobit es rechazado fuertemente. Se pueden utilizar alternativas no paramtricas o semi-paramtricas para la estimacin.
El Test de Normalidad puede ser realizado de manera independiente a travs
de los siguientes comandos:
1- Se estima el modelo tobit:
g dy=1 if o16_horas>0
replace dy=0 if o16_horas<=0
replace dy=. if o16_horas==.
3- Con el modelo tobit estimado se obtiene la prediccin lineal
x :
predict xb, xb
4- Se rescata el vector de coecientes estimados:
matrix btobit=e(b)
Notemos la estructura de esta matriz:
5- Con el nombre
scalar sigma=btobit[1,e(df_m)+2]
205
Microeconometra Aplicada
Centro de Microdatos
scalar gamma=0
y se estandariza con la media y desviacin estndar:
generate threshold=(gamma-xb)/sigma
7- Se genera el inverso de mills (i ):
generate lambda=normalden(threshold)/normal(threshold)
8- Se calculan los residuos normalizados para las observaciones no censuradas:
generate gres2=uifdyeq1^2-1
replace gres2=-threshold*lambda if dy==0
11- El tercer momento de los residuos normalizados ser:
generate gres3=uifdyeq1^3
replace gres3=-(2+threshold^2)*lambda if dy==0
12- Y el cuarto momento de los residuos normalizados es:
generate gres4=uifdyeq1^4-3
replace gres4=-(3*threshold+threshold^3)*lambda if dy==0
13- Para aplicar el test de normalidad se debe hacer una regresin de unos como
variable dependiente contra los scores (primera derivada de la funcin de verosimilitud) de cada uno de los parmetros del modelo. En este modelo los score
206
Microeconometra Aplicada
Centro de Microdatos
corresponde a
i xi ,
R2
207
Microeconometra Aplicada
Centro de Microdatos
9.3.
Modelos de Seleccin
y2
pensar en y1 como la variable que determina que la mujer casada trabaje o no,
porque ser iguales ya que hay factores o variables que son relevantes para explicar
la decisin de participar o no, pero que una vez que la mujer est trabajando no
son relevantes para explicar la cantidad de horas que decide trabajar.
La ecuacin de participacin en el Modelo Tobit Tipo II es:
{
y1 =
1
0
si
si
y1 > 0
y1 0
208
Microeconometra Aplicada
Centro de Microdatos
y2 =
y2
y1 > 0
y1 0
si
si
Luego, cada una de las variables latentes es funcin lineal de las variables explicativas y de un trmino de error:
y1 = x1 1 + u1
y2 = x2 2 + u2
El problema consiste en estimar
y2 ,
2 .
El modelo puede ser estimado de manera consistente realizando supuestos adicionales sobre la distribucin conjunta de los errores, en particular el Modelo Tobit
Tipo II o Heckman asume que los errores son homocedsticos y se distribuyen
conjuntamente normal:
u1
u2
[[
N
0
0
] [
]]
1 12
,
12 22
y2
f (y2 ) =
es:
si
si
y1 > 0
y1 0
L=
i=1
> 0,
y2
Microeconometra Aplicada
Centro de Microdatos
E[u2 ] = 0,
y la estimacin por MCO del modelo de inters nos lleva a una esti-
u2 = 12 u1 +
donde
es independiente de
u1 .
y2
se obtiene de la siguiente
manera:
y1
sobre
x1 ,
(x1 1 )
(x1 1 ) =
(x1 1 )
As, usando slo los valores positivos de
y2
MCO:
Microeconometra Aplicada
Centro de Microdatos
Notemos que
12
Mill, luego se puede testear si este coeciente es cero, en caso de no poder rechazar la hiptesis nula no es necesaria la correccin por seleccin, ya que los errores
no estn correlacionados entre ellos.
Esta estimacin ser consistente pero menos eciente que la estimacin por Mxima Verosimilitud.
9.3.4. Identicacin
Dado que el inverso de Mill es una funcin casi lineal del argumento si se
ocupan exactamente las mismas variables en
x2
x1
se genera un problema de
multicolinealidad, es por eso que la estimacin del Modelo Tobit Tipo II requiere
de una variable de exclusin, es decir, de una variable que este en la ecuacin de
y x2 1 como x 2 , donde 1 tiene ceros para las variables x2 y 2 tiene ceros para
las variables
x1 .
2 .
E[y2 |x, y1 = 1]
= 2 12 (x 1 )[x 1 + (x 1 )]1
x
211
Microeconometra Aplicada
Centro de Microdatos
Microeconometra Aplicada
Centro de Microdatos
g lyph=ln(yph)
El comando en STATA que nos permite estimar un Modelo Tobit Tipo II es:
mfx,
lo mismo si queremos
213
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.12
Modelo Heckman por Mxima Verosimilitud
El Cuadro 9.13 muestra los efectos marginales de las variables explicativas sobre
la probabilidad de participacin o seleccin. Cada ao de escolaridad aumenta
en 3 puntos porcentuales la probabilidad de que una mujer trabaje, cada ao de
edad disminuye en 0.5 puntos porcentuales la probabilidad, por cada hijo entre
0 y 2 aos se reduce la probabilidad de que una mujer participe en 20.8 puntos
porcentuales, cada hijo entre 2 y 6 aos la reduce en 9.6 puntos porcentuales,
y cada hijo entre 6 y 18 aos la reduce en 0.7 puntos porcentuales. Finalmente,
estar casada reduce en 8.3 puntos porcentuales la probabilidad de que una mujer
trabaje.
214
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.13
Efectos Marginales sobre Probabilidad de Participacin
El Cuadro 9.14 muestra los efectos marginales sobre la media condicional truncada
si es que este anlisis fuese de inters:
Cuadro 9.14
Efectos Marginales sobre Media Condicional Truncada
9.4.
Tambin es posible estimar modelos donde la variable dependiente de inters es binaria y existe seleccin en la muestra, conocidos como Modelos Probit
Bivariados con Seleccin. Este caso es bastante similar al Modelo Tobit Tipo II,
slo observamos
y1
si es que
y2 = 1,
la diferencia es que
y1
ria. Existen tres posibles resultados observados en la muestra con sus respectivas
215
Microeconometra Aplicada
Centro de Microdatos
probabilidades:
y1 = 0
P r(y1 = 0) = (x 1 )
y1 = 1, y2 = 0 P r(y1 = 1, y2 = 0) = (x 1 ) 2 (x 1 , x 2 , )
y1 = 1, y2 = 1 P r(y1 = 1, y2 = 0) = 2 (x 1 , x 2 , )
Por lo cual la funcin de verosimilitud en este contexto es:
lnL =
i=1
216
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.15
Estimacin Probit Bivariado con Seleccin
217
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.16
Efectos Marginales sobre Probabilidad Incondicional
Cuadro 9.17
Efectos Marginales sobre Probabilidad Condicional (Truncada)
218
Microeconometra Aplicada
Centro de Microdatos
Cuadro 9.18
Efectos Marginales sobre Probabilidad de Seleccin
219
Captulo 10
Datos de Panel
Los Datos de Panel consisten en observaciones repetidas del mismo corte transversal, tpicamente individuos, empresas, colegios, etc. Otra forma de llamar estos
tipos de datos es Datos Longitudinales. En estudios a nivel microeconmico generalmente los paneles son cortos, es decir, el corte transversal de individuos es
observados un nmero reducido de periodos.
La mayor ventaja de los Datos de Panel es incrementar la precisin de las estimaciones, debido al incremento en el nmero de observaciones al combinar (pooling) varios periodos de tiempo para cada individuo. Sin embargo, hay que tener
presente para la realizacin de inferencia estadstica que en estos datos existir
correlacin en los errores en el tiempo para los mismos individuos, y esta correlacin debe ser considerada al momento de computar los errores estndar, si esto no
es considerado los errores estndar sern subestimados y los estadsticos
t inados.
220
Microeconometra Aplicada
Centro de Microdatos
10.1.
i = 1, ..., N. t = 1, ..., T.
Sin embargo, este modelo no es estimable ya que posee mayor cantidad de parmetros que observaciones, se requieren hacer supuestos adicionales para estimar
este modelo, lo que deriva a los diferentes modelos de datos de panel.
yit =
i=1
j dj,it +
s=2
N dummies individuales dj,it que toman valor 1 si i=j y cero en otro caso, y
(T 1) dummies de tiempo ds,it que toman valor 1 si t = s y cero en otro caso.
El modelo no incluye intercepto. El problema es cuando N es muy grande.
con
221
Microeconometra Aplicada
Centro de Microdatos
yit = i + xit + it
donde
it
t.
xit ,
efectos individuales son parmetros a estimar. La segunda variante de este modelo asume que los efectos individuales son variables aleatorias no correlacionadas
con las restantes variables del modelo, es llamado modelo de efectos aleatorios.
10.2.
xit ,
xi
y variantes en el
0,
tantes) sea el correcto. Sin embargo, las varianza del estimador MCO no sern
apropiadas ya que los errores estn correlacionados, estos deben ser calculados de
manera robusta. Si el modelo correcto es el de efecto jo, este estimador no ser
consistente:
yit = + xit + (i + it )
ya que los efectos jos (i ) estn correlacionados con las variables explicativas,
por lo cul el error del modelo donde se omiten los efectos individuales
222
(i +it )
Microeconometra Aplicada
Centro de Microdatos
yit = i + xit + it
se toma el promedio de las
i:
y i = + xi + (i + i ) i = 1, ..., N.
T
donde
yi =
t=1
yit
T
,
i =
t=1 it
T
, y
xi =
t=1
xit
estimar
y
xi .
(i + i ).
xi
yit = i + xit + it
Se toman los promedios individuales a travs del tiempo:
y i = i + xi + i
223
Microeconometra Aplicada
Centro de Microdatos
yit y i = (xit xi ) + it
El estimador Within consiste en estimar por MCO el modelo anterior, y se obtiene un estimador consistente de
yit = i + xit + it
y tomando restando el primer rezago del modelo:
yit = xit + it
El estimador de primeras diferencias consiste en estimar por MCO el modelo
anterior, el que entrega una estimacin consistente de
si el modelo de efecto
jo es el correcto pero al igual que el estimador Within los coecientes de los
regresores que no varan en el tiempo no estn identicados. Este estimador es
menos eciente que el estimador Within para
224
T > 2.
Microeconometra Aplicada
Centro de Microdatos
yit = i + xit + it
el estimador de efectos aleatorios asume que
donde
= (1 )
+ (xit x
i ) + it
yit y
i
i + (it
i ) es asintticamente iid,
it = (1 )
es la estimacin
consistente de:
=1
2 + T 2
Si el modelo de efectos aleatorios es el correcto este estimador es consistente y
eciente, sin embargo, si el estimador de efectos jos es el correcto el estimador
es inconsistente.
10.3.
Test de Hausman
225
Microeconometra Aplicada
Centro de Microdatos
10.4.
Para esta seccin se utilizar una muestra de 595 individuos del Panel Study
of Income Dynamics (PSID) observada durante 7 aos 1976-1982 para estudiar
los determinantes de los salarios.
Cuadro 10.1
Orden Base de Datos Panel
xt,
226
xtset:
Microeconometra Aplicada
Centro de Microdatos
Cuadro 10.2
Formato Datos de Panel STATA
varianza para cada una de las variables que nos interese en la base de datos, tal
como se muestra en el Cuadro 10.3
Las variables explicativas que no varan en el tiempo tienen 0 variacin Within, como la variable
id
(identicador individual) y
ed
(aos de educacin), y
las variables que no varan entre individuos tienen 0 varianza Between como por
ejemplo
227
wks
Microeconometra Aplicada
Centro de Microdatos
Cuadro 10.3
Summarize Within y Between en STATA
El comando
Cuadro 10.4
Tabulate Within y Between en STATA
228
Microeconometra Aplicada
Centro de Microdatos
La tabulacin Overall indica que un 71 % de las 4165 observaciones (aoindividuo) tienen la variable south=0, y el restante 29 % tienen south=1. La
parte Between de la tabla nos indica que un 72 % de los 595 individuos tiene
south igual a 0 al menos una vez y un 31 % tiene south igual a 1 al menos una vez,
el porcentaje total de esta tabla es 102.52 % ya que un 2.52 % de los individuos
(15 individuos) vivieron un tiempo en el sur y un tiempo no en el sur, por lo cual
estn contabilizados dos veces. Finalmente, la parte within de la tabla indica
que un 95 % de los individuos siempre vivieron en el sur, y un 99 % nunca vivi
en el sur, en el periodo de tiempo considerado. La variable south casi no tiene
variacin en el tiempo.
Cuadro 10.5
Estimacin Pooled-MCO
Los resultados nos muestran que el salario se incrementa con la experiencia hasta
los 31 aos
229
Microeconometra Aplicada
Centro de Microdatos
Este estimador ser consistente si el modelo verdadero es de coecientes constantes o de efectos aleatorios, pero inconsistente si el modelo es de efectos jos.
Estimacin Within
El estimador Within se obtiene a travs del comando
El default del modelo asume que los errores
opcin
vce(robust)
it
Cuadro 10.6
Estimacin Within
Microeconometra Aplicada
Centro de Microdatos
individuales
sigma_e
it .
En este caso, la
1 , 2 ,...,N
en el modelo de efectos
i = y i xi . En paneles
Ti
Cuadro 10.7
Estimacin de Variables Dummies
231
Microeconometra Aplicada
Centro de Microdatos
El Cuadro 10.7 nos muestra la estimacin del modelo de variables dummies. Los
coecientes obtenidos son exactamente iguales, pero las desviaciones estndar
levemente superior.
Estimacin Between
El estimador Between slo utiliza la variacin entre individuos para estimar
los coecientes que acompaan a las variables explicativas, por lo cual los coecientes de las variables que son comunes a los individuos y slo varan en el
tiempo no estarn identicados.
Esta estimacin se obtiene aplicando el comando
xtreg
con la opcin
be,
la
cual no posee una opcin para obtener los errores estndar robustos, pero se
puede utilizar bootstrap
vce(bootstrap).
R2
:
i = 1
2
+ 2
Ti 2
232
Microeconometra Aplicada
Centro de Microdatos
de manera de transformar los errores resultantes en errores sin problema de heterocedasticidad y autocorrelacin.
Cuadro 10.8
Estimacin Between
=0
y Within cuando
= 1.
El estimador de efectos aleatorios se obtiene mediante el comando
la opcin
re.
xtreg
con
Microeconometra Aplicada
Centro de Microdatos
Cuadro 10.9
Estimacin por Efectos Aleatorios
Podemos notar que existen algunas diferencias en los coecientes estimados, dado
que el estimador de efecto jo siempre es
234
Microeconometra Aplicada
Centro de Microdatos
Cuadro 10.10
Comparacin Efectos Aleatorios y Efectos Fijos
Test de Hausman
A travs del comando
hausman
estimates store,
235
Microeconometra Aplicada
Centro de Microdatos
Cuadro 10.11
Test de Hausman
236
Captulo 11
Regresin de Mediana y Cuantiles
Cuando estimamos la relacin entre una variable de inters, la que hemos llamado
variable dependiente, y una o ms variables explicativas, por el mtodo de MCO,
lo que estamos estimando es la media condicional de la variable dependiente:
\
E[Y
+ xi
i |Xi ] =
Sin embargo, en muchos casos puede que nuestro inters no sea solamente la
media de la variable dependiente, sino por ejemplo la mediana o cuantiles de la
misma.
En MCO la funcin que se minimiza es la suma de los errores al cuadrado. En la
regresin de mediana:
\
M ed[Y
med + xi med
i |Xi ] =
se minimiza es la suma de los valores absolutos del error:
mn
,
i=1
|ui | mn |Yi xi |
,
En la regresin de cuantiles:
q\
[Yi |Xi ] =
+ xi
se minimiza la siguiente funcin objetivo:
mn
i:Yi +xi
|Yi xi | +
(1 )|Yi xi |
Microeconometra Aplicada
Centro de Microdatos
es 0.5.
11.1.
Para la aplicacin de los modelos de regresin de cuantiles se utilizarn datos del logaritmo del gasto mdicos y el logaritmo de gastos totales del hogar,
los datos fueron obtenidos de la encuesta Vietnam Living Standards del Banco
Mundial (1997), y consiste en una muestra de 5.006 hogares.
Cuando realizamos la estimacin por mnimos cuadrados ordinarios de un modelo
de regresin simple entre el logaritmo del gasto mdico y el logaritmo del gasto
total del hogar, obtenemos el siguiente resultado:
Cuadro 11.1
Estimacin MCO
Podemos apreciar que la estimacin MCO de este modelo entrega una elasticidad
del gasto mdico con respecto al gasto total del hogar de un 0.57. Es decir, un
aumento de un 1 % en el gasto total del hogar aumenta en un 0.57 % el gasto en
medicamentos del hogar. Esta estimacin anterior no considera la heterogeneidad
238
Microeconometra Aplicada
Centro de Microdatos
qreg
por ejemplo, a travs del siguiente comando podemos estimar una regresin de
mediana:
Cuadro 11.2
Estimacin de Mediana
239
Microeconometra Aplicada
Centro de Microdatos
Cuadro 11.3
Bootstrap Estimacin de Mediana
Tambin podemos obtener la elasticidad de los gastos mdicos al gasto total del
hogar para el percentil 25:
Cuadro 11.4
Estimacin de Percentil 25
240
Microeconometra Aplicada
Centro de Microdatos
Cuadro 11.5
Estimacin de Percentil 90
241
Microeconometra Aplicada
Centro de Microdatos
Grco 11.1
Estimacin de Mediana y Cuantiles
10
15
8
10
Log household total expenditure
mediana
q90
12
mco
q25
Se podra estimar una elasticidad del gasto mdico al gasto total para cada cuantil:
matrix Q=J(99,2,0)
local i=0.01
while `i'<1{
qui qreg lnmed lntotal, quantile(`i')
matrix Q[`i'*100,1]=e(q)
matrix Q[`i'*100,2]=_b[lntotal]
local i=`i'+0.01
}
svmat Q, name(quantile)
rename quantile1 quantile
rename quantile2 beta
242
Microeconometra Aplicada
Centro de Microdatos
Grco 11.2
Elasticidad para cada Cuantil
.2
.4
beta
.6
.8
.2
.4
.6
.8
quantile
Podemos apreciar que mientras menor es el nivel de gasto en mdico del hogar
(cuantiles ms bajos), menor es la elasticidad del gasto en mdico con respecto
al gasto total del hogar. La lnea roja del grco representa la estimacin MCO
del coeciente de inters.
243
Captulo 12
Modelos de Datos de Conteo
En muchos contextos econmicos la variable dependiente toma slo valores enteros positivos, es decir, corresponde a una cuanta o conteo de algo y esto es lo
que queremos explicar en funcin de algunas variables explicativas. Cuando la
variable dependiente tiene estas caractersticas no es apropiado utilizar el modelo
de regresin lineal (MCO), este tipo de modelo, al igual que los modelos probit y
logit, son no lineales, por lo cual la forma correcta de estimar este tipo de modelos
es por Mxima Verosimilitud.
Algunos ejemplos de modelo de conteo son:
244
Microeconometra Aplicada
Centro de Microdatos
12.1.
P r[Y = y] =
es lo que
V [Y ] = , es decir,
donde
e y
y!
y = 0, 1, 2, ...
E[Y ] =
lnL =
i=1
Los coecientes estimados de este modelo no representan los efectos marginales
de las variables explicativas sobre la media condicional de la variable dependiente,
los efectos marginales se obtienen de la siguiente manera:
E[yi |xi ]
= exp(xi )k
xk
El modelo de regresin poisson usualmente ser muy restrictivo para los datos de
conteo, el problema fundamental es que la distribucin es parametrizada en trminos de un slo parmetro
Microeconometra Aplicada
Centro de Microdatos
donde
generalmente se asume
que
es un parmetro desconocido y
g() =
= 0.
Para aplicar este test se estima el modelo poisson, se construye el valor estimado de la media
i = exp(xi , y se realiza la siguiente regresin auxiliar (sin
constante):
g(
i )
(yi
i )2 yi
=
+ ui
i
ui es un trmino de error. Luego se realiza un test t sobre la hiptesis nula
que = 0.
donde
de
12.2.
vce(robust).
Para esta aplicacin se utiliza la base de datos del RAND Experimento de Seguros de Salud (RAND Health Insurance Experiment) utilizada por Deb y Trivendi
(2002). El experimento conducido por la Coporacin RAND entre los aos 1974
y 1982, ha sido el experimento social controlado ms grande en el rea de la investigacin en seguros de salud. El objetivo principal del experimento era evaluar
como el uso de los servicios de salud por parte de los pacientes se ve afectado por
los tipos de seguros medicos, los cuales fueron asignados aleatoriamente. En el
experimento los datos fueron recolectados para cerca de 8.000 personas en 2.823
familias. Cada familia fue suscrita a uno de los 14 diferentes planes de salud por
3 o 5 aos. Los planes van desde servicio libre hasta 95 % de cobertura bajo cierto
nivel de gasto (con un tope).
El siguiente grco muestra un histograma con el nmero de visitas al mdico, podemos ver que poco ms del 30 % realiza cero visitas al ao al mdico, y
cerca de un 18 % realiza una visita al ao.
246
Microeconometra Aplicada
Centro de Microdatos
Grco 12.1
Distribucin Nmero de Visitas
10
Percent
20
30
20
40
number facetofact md visits
Fuente: RAND Health Insurance Experiment Data
60
80
La siguiente tabla muestra las principales estadsticas de cada una de las variables
que sern utilizadas como factores determinantes en la cantidad de visitas al
mdico realizadas al ao. La variable BLACK toma valor 1 si el jefe de hogar es
de raza negra, la variable AGE corresponde a la edad en aos, FEMALE toma
valor 1 si la persona es mujer, EDUCDEC representa los aos de educacin del
jefe de hogar, MDU es la variable que queremos explicar (variable dependiente)
que mide el nmero de visitas ambulatorias a un mdico, NDISEASE es el nmero
de enfermedades crnicas, PHYSLIM toma valor 1 si la persona tiene limitaciones
fsicas, CHILD toma valor 1 si la persona tiene menos de 18 aos, FEMCHILD
corresponde a la interaccin de la Dummy FEMALE y la Dummy CHILD, LFAM
es el logaritmo del tamao familiar, LPI es el logaritmo del pago anual de incentivo
por participacin, IDP si el plan tiene deducible, LC es el logaritmo del copago,
FMDE es el logaritmo del tope de cobertura sobre 0.01 el copago, HLTHG es 1
si declara que su estado de salud es bueno, HLTHF es 1 si declara su estado de
salud regular, HLTHP si declara estado de salud malo, y LINC es el logaritmo
del ingreso familiar.
247
Microeconometra Aplicada
Centro de Microdatos
Cuadro 12.1
Estadsticas Descriptivas Variables Explicativas
El siguiente cuadro muestra el resultado de estimar un modelo poisson para explicar el nmero de veces que la persona va al medico al ao en funcin de las
caractersticas de los planes de salud y caractersticas familiares.
Los coecientes estimados no representan los efectos marginales, estos deben ser
computados con el comando
mfx.
248
Microeconometra Aplicada
Centro de Microdatos
Cuadro 12.2
Estimacin Modelo Poisson
predict mugorro, n
Luego generamos la variable dependiente de la regresin auxiliar:
g yaux=((MDU-mugorro)^2-MDU)/mugorro
y se hace una regresin de esta variable contra
i . Los resultados
se presentan en
249
Microeconometra Aplicada
Centro de Microdatos
Cuadro 12.3
Efectos Marginales
Cuadro 12.4
Test de sobredispersin
Una vez estimado el modelo este puede ser utilizado para comprar las frecuencias
muestrales con las frecuencias ajustadas para los valores de la variable dependiente (discreta). Las frecuencias ajustadas se obtienen promediando las probabilidades predichas segn el modelo de que cada individuo tenga un valor de la varia-
countfit (descargar
http://www.indiana.edu/~jslsoc/stata/spost9_ado/,
250
Microeconometra Aplicada
Centro de Microdatos
Cuadro 12.5
Comparacin Frecuencia Observada y Predicha
12.3.
y una
:
exp()y
f (y|) =
y!
poisson.
La media y la varianza de la distribucin binomial negativa son:
E[y|, ] =
V [y|, ] = (1 + )
251
Microeconometra Aplicada
Centro de Microdatos
12.4.
>0
> 0.
mfx
Cuadro 12.6
Modelo Binomial Negativo: visitas mdico
252
Microeconometra Aplicada
Centro de Microdatos
El Cuadro 12.7 muestra los efectos marginales sobre el nmero de visitas al mdico
estimados mediante el modelo binomial negativo, se encuentra que un incremento
de un 1 % en el copago disminuye en 0.13 las visitas promedio al ao, si el plan
tiene deducible disminuye en 0.36 las visitas promedio al ao, un incremento de
un 1 % en el ingreso familiar aumenta en 0.21 las visitas promedio al ao, las
mujeres en promedio van 0.93 veces ms el mdico que los hombres, al igual que
las personas menores de 18 aos de edad. Las personas de raza negra van en
promedio al mdico 1.8 veces menos.
Cuadro 12.7
Efectos Marginales Binomial Negativo: visitas mdico
253
Microeconometra Aplicada
Centro de Microdatos
254
Microeconometra Aplicada
Centro de Microdatos
Cuadro 12.8
Comparacin Frecuencia Observada y Predicha
255
Captulo 13
Mtodos No Paramtricos y
Semi-paramtricos
En esta seccin presentaremos mtodos para el anlisis de datos que buscan realizar la menor cantidad de supuestos sobre el proceso que genera los datos. Los
primeros son los mtodos no paramtricos, los que nos permitirn estimar la densidad de una variable. Tambin se ver la regresin no paramtrica, la que slo
se puede realizar en funcin de una variable explicativa, aunque tericamente
la regresin no paramtrica se puede realizar en funcin de ms de una variable
explicativa, en la prctica esto no es factible. Es por esta razn que surgen los mtodos semi-paramtricos, en los que por ejemplo no se supone una forma funcional
especica para la relacin entre la variable dependiente y explicativa (media, mediana, etc) sino que se deja que los datos revelen esta funcin, estimando los
parmetros beta que forman parte del argumento de esta relacin.
13.1.
256
Microeconometra Aplicada
Centro de Microdatos
Grco 13.1
Histograma
.5
Density
1.5
10
12
14
16
lny
1
f(x0 ) =
K
N h i=1
N
Donde
K()
xi x0
h
h,
257
Microeconometra Aplicada
Centro de Microdatos
kdensity:
Grco 13.2
Kernel Gaussiano
.2
Density
.4
.6
.8
10
12
14
16
lny
kernel = gaussian, bandwidth = 0.0477
La opcin generate, genera dos variables estim que contiene los puntos de estimacin de la densidad kernel y den que contiene la densidad estimada para cada
uno de estos puntos. En esta estimacin se ha utilizado el bandwidth ptimo, que
corresponde al default de STATA.
El siguiente grco muestra la estimacin kernel utilizando la funcin gaussiana
y epanechnikov, en ambas utilizando el bandwidth ptimo que mnimo el error
cuadrtico medio integrado.
Microeconometra Aplicada
Centro de Microdatos
Grco 13.3
Kernel Gaussiano y Epanechnicov
.5
kdensity lny
1.5
10
12
14
16
x
Gaussian
Epanechnikov
259
Microeconometra Aplicada
Centro de Microdatos
Grco 13.4
.5
kdensity lny
1.5
Kernel Epanechnicov
10
12
14
16
x
h ptimo
h=0.5
h=1
h=0.05
13.2.
x.
sobre la variable
yi = m(xi ) + i
i iid(0, 2 )
Donde la forma funcional
m()
i = 1, ..., N.
no ha sido especicada.
260
Microeconometra Aplicada
Centro de Microdatos
El mtodo general denominado Local Weighted Average Estimator toma la siguiente forma:
m(x
0) =
i0,h yi
i=1
donde
i0,h = (xi , x0 , h)
i0,h = 1.
i=1
x0
xi
x0 .
mn
m0
i=1
(
K
xi x0
h
)
(yi m0 )2
lowess,
el Gr-
Grco 13.5
Estimacin Lowess
10
12
14
16
10
escolaridad
observado
mco
15
lowess estimator
261
20
Microeconometra Aplicada
Centro de Microdatos
262
Captulo 14
Evaluacin de Tratamiento
La Evaluacin de Tratamiento consiste en medir el impacto de intervenciones o
tratamientos en variables de resultados de inters. Alguno ejemplos de tratamientos en el contexto econmico son:
263
Microeconometra Aplicada
Centro de Microdatos
14.1.
La siguiente ecuacin presenta el problema bsico que surge de comparar la variable de resultado
Yi = Xi + Ti + ui
donde
Ti
es una variable dummy que toma valor 1 para aquellos que participan
Xi
Y.
Y,
nalmente
co-
El problema en estimar
sido asignado de manera aleatoria, de esta forma puede ser el caso en que los
no observables estn relacionados con la probabilidad de recibir el tratamiento,
generando un problema de endogeneidad en la ecuacin antes planteada.
De manera alternativa, podemos denir la variable de resultado para los tratados
como
AT T
Luego, los objetivos para poder estimar de manera apropiada el Efecto Promedio
del Tratamiento es tratar de eliminar
este sesgo.
264
Microeconometra Aplicada
Centro de Microdatos
X)
es indepen-
diente de los resultados que ellos obtienen, lo que se conoce como el supuesto de
independencia condicional:
14.2.
Existen diversas metodologas para abordar el problema de no existencia de contrafactual. Cada una de estas metodologas hace diferentes supuestos sobre la
naturaleza del problema de sesgo de seleccin en la participacin en el programa.
Estas metodologas son:
265
Microeconometra Aplicada
Centro de Microdatos
Figura 14.1
Soporte Comn
266
Microeconometra Aplicada
Centro de Microdatos
Figura 14.2
Soporte Comn Dbil
Diferentes metodologas pueden ser utilizadas para hacer el matching entre tratados y no tratados de acuerdo al propensity score: vecino ms cercano, matching de
radio, matching estraticado o intervalo, y Kernel Matching. Pero la estimacin
del modelo usando tratados y no tratados ponderando de acuerdo al propensity
score permite obtener estimaciones ms ecientes.
Las condiciones de independencia condicional y soporte comn requieren supuestos menos fuerte cuando se calcula el ATT, razn por la cul la mayora de las
investigaciones que utilizan esta metodologa se concentran en el clculo de este
indicador para evaluar el impacto del programa.
Utilizando datos de corte transversal, y dentro del soporte comn, el efecto tratamiento sobre los tratados se puede obtener de la siguiente manera:
AT TP SM
donde
NT
[
]
1
=
YiT
(i, j)YjC
NT iT
jC
(i, j) son los ponderadores
i a cada uno de los individuos j .
267
Microeconometra Aplicada
Centro de Microdatos
P (X|T = 1) = P (X),
se deben incluir
todas las variables que se piensen puedan tener alguna relacin con el tratamiento,
2
no es necesario jarse en los estadsticos t y R ya que no se esta buscando
un modelo causal, sino una herramienta estadstica para buscar similitud entre
grupos de personas. Idealmente se debe trabajar con la misma base de datos que
contenta participantes y no participantes.
268
Microeconometra Aplicada
Centro de Microdatos
(
(i, j)K =
K
kC
Pj Pi
h
(P
k Pi
Dehejia (1997) plantea la siguiente manera alternativa de obtener el efecto tratamiento promedio y sobre los tratados:
]
N [
1
(D
(x
))y
i
i
i
AT E =
N i=1 p(xi )(1 p(xi ))
(
)1 N [
N
AT T =
Di
N i=1
N (1 p(xi ))
i=1
Hirano, Imbens, y Ridder (2003) proponen utilizar el propensity score para estimar el efecto del tratamiento de manera eciente utilizando el enfoque de regresin
lineal. Es decir, se debe estimar la siguiente regresin lineal:
Yi = + Ti + Xi + ui
Para obtener el ATT las observaciones de los no participantes deben ser ponderadas por
p(x)/(1 p(x))
1/(1 p(x))
1/
p(x)
pscore:
269
Microeconometra Aplicada
Centro de Microdatos
Cuadro 14.1
Variables y Estadsticas
pscore TREAT AGE AGESQ EDUC EDUCSQ NODEGREE BLACK HISP MARR RE74 RE75
RE74SQ RE75SQ U74BLACK, pscore(propensity) blockid(estratos)
logit comsup numblo(8)
Luego de ejecutar el comando se genera una variable llamada propensity que
contiene el propensity score estimado, otra variable estratos que contiene el nmero de bloques en que se ha divido la muestra segn el propensity score, el
nmero de bloques por default es 5 en este caso hemos solicitado que fueran 8.
La opcin comsup es para que se genere una variable que indique si se cumple la
condicin de soporte comn que requiere el matching. El output de este comando
es el siguiente:
270
Microeconometra Aplicada
Centro de Microdatos
Cuadro 14.2
Estimacin Propensity Score
271
Microeconometra Aplicada
Centro de Microdatos
Cuadro 14.3
272
Microeconometra Aplicada
Centro de Microdatos
AT E =
s (RE78s,T =1 RE78s,T =0 )
s=1
La informacin para construir este estimador se obtiene de las tablas en los Cuadros 12.4 y 12.5.
Cuadro 14.4
Nmero de Observaciones por Estrato y Grupo
Cuadro 14.5
Promedio Variable Resultado por Estrato y Grupo
273
Microeconometra Aplicada
Centro de Microdatos
[
]
1
AT T =
Y1,i
(i, j)Y0,j
NT iT
jC
Notar la diferencia importante con el estimador ATE el que al evaluar los efectos
sobre el total de la poblacin, utiliza directamente el grupo de control para la obtencin del efecto causal, mediante el propensity score lo que hace es considerar
la heterogeneidad en el efecto causal y agrupar tratamiento y control en estratos
similares segn el vector de variables X. Sin embargo, el estimador ATT slo se
concentra en los efectos sobre los tratados, pero como los tratados no pueden a
la vez no recibir el tratamiento busca un contrafactual en el grupo de control, es
decir, busca su clon en el grupo de control. Esto se hace mediante las tcnicas
de matching. Existen distintos tipos de matching: vecino ms cercano, kernel, y
usando la metodologa de radios.
El Cuadro 12.6 muestra la estimacin del ATT mediante Kernel:
Cuadro 14.6
ATT con Kernel Matching
274
Microeconometra Aplicada
Centro de Microdatos
Cuadro 14.7
ATT con vecino ms cercano
Microeconometra Aplicada
Centro de Microdatos
DDP SM
]
[
N
1
T
C
C
T
Yj,1
)
=
)
(i, j)(Yj,2
(Yi,2
Yi,1
N i=1
jC
DDP SM
N
1
=
N i=1
[{
T
Yi,2
}
T
(i, j)T1 Yi,1
jT1
C
(i, j)C2 Yi,2
jC2
}]
C
(i, j)C1 Yi,1
jC1
Tambin se puede utilizar la metodologa de Hirano, Imbens, y Ridder (2003) mediante Mnimos Cuadrados Ponderados para obtener una estimacin ms eciente
del estimador de diferencias en diferencias:
p(x)/(1 p(x)).
El estimador de DD se puede obtener mediante una regresin MCO o una estimador de efectos jos. Por ejemplo, utilizando los datos de la Encuesta de
Proteccin Social 2006-2009 se intenta medir el impacto en horas trabajadas de
la poblacin adulta mayor luego de la introduccin de la Pensin Bsica Solidaria
(PBS). El Cuadro 12.8 muestra la estimacin por MCO, se estima un impacto de
la PBS en las horas trabajadas de los adultos mayores de 6.9 horas semanales.
276
Microeconometra Aplicada
Centro de Microdatos
Cuadro 14.8
Estimador MCO Diferencias en Diferencias
existe el lmite a ambos lados del umbral s , el impacto estimado para un valor
277
Microeconometra Aplicada
Centro de Microdatos
arbitrario y pequeo de
>0
E[Yi |s ] E[Yi |s + ]
donde
Yi = Si + i .
Figura 14.3
Regresin Discontinua
se puede identicar
de la
siguiente manera:
YY+
S S+
Lo anterior asume que la regla de decisin es Sharp, es decir, depende directamente de la variable
S.
determine la
Si s
278
Microeconometra Aplicada
Centro de Microdatos
Figura 14.4
Sharp versus Fuzzy
hhland<50.
use hh_98.dta
gen lexptot=ln(1+exptot)
gen lnland=ln(1+hhland/100)
El siguiente programa nos permite estimar el efecto de participar en el programa
de microcrditos sobre el gasto del hogar basado en la metodologa de regresin
discontinua Sharp:
Microeconometra Aplicada
Centro de Microdatos
version 8.2
args outcome
confirm var `outcome'
tempname outrd1 outrd0 outcome1 outcome0
locpoly `outcome' lnland if hhland<50, gen(`outrd1')
at(lnland) nogr tri w(3) d(1)
locpoly `outcome' lnland if hhland>=50, gen(`outrd0')
at(lnland) nogr tri w(3) d(1)
sum `outrd1' if hhland>=45 & hhland<50, meanonly
scalar `outcome1'=r(mean)
sum `outrd0' if hhland>=50 & hhland<55, meanonly
scalar `outcome0'=r(mean)
return scalar diff_outcome=`outcome1'-`outcome0'
end
Con esta serie de comandos hemos creado un comando en STATA llamado
rd_sharp
outcome
umbral.
Luego aplicamos el comando para obtener el efecto tratamiento estimado, y su
intervalo de conanza:
280
Microeconometra Aplicada
Centro de Microdatos
Cuadro 14.9
Resultado Estimacin RD Sharp
Microeconometra Aplicada
Centro de Microdatos
scalar `treat0'=r(mean)
sum `outrd1' if hhland>=45 & hhland<=55, meanonly
scalar `outcome1'=r(mean)
sum `outrd0' if hhland>=45 & hhland<=55, meanonly
scalar `outcome0'=r(mean)
return scalar impact=(`outcome1'-`outcome0')/(`treat1'-`treat0')
end
Es bastante similar al procedimiento que denimos para la estimacin Sharp,
pero en este caso tambin debemos estimar los modelos no paramtricos sobre la
variable de tratamiento. A continuacin se obtiene la estimacin Fuzzy, mostrando los resultados en los Cuadros 12.10 y 12.11
***Male participation
set seed 12345
bootstrap ``rd_fuzzy dmmfd lexptot'' impact_fuzzy_m=r(impact), reps(100) nowarn
gen t_impact_fuzzy_m=_b[impact_fuzzy_m]/_se[impact_fuzzy_m]
sum t_impact_fuzzy_m
Cuadro 14.10
Resultado Estimacin RD Fuzzy (Hombres)
282
Microeconometra Aplicada
Centro de Microdatos
***Female participation
set seed 123
bootstrap ``rd_fuzzy dfmfd lexptot'' impact_fuzzy_f=r(impact), reps(100) nowarn
gen t_impact_fuzzy_f=_b[impact_fuzzy_f]/_se[impact_fuzzy_f]
sum t_impact_fuzzy_f
Cuadro 14.11
Resultado Estimacin RD Fuzzy (Mujeres)
283
Captulo 15
Modelos de Duracin
15.1.
Introduccin
Cuando una persona esta desempleada, o cuando los trabajadores de una empresa
estn en huelga, podramos esperar que mientras ms tiempo se ha permanecido
en ese estado mayor es la probabilidad de que la persona encuentre un trabajo
o de que la huelga termine en las prximas semanas. Pero tambin podramos
pensar que mientras ms tiempo ha durado este estado las caractersticas que
provocaron este estado son ms fuertes y por lo tanto es poco probable salir de
este estado. En este tipo de problemas no slo interesa el tiempo transcurrido en
cierto estado, sino adems interesa la probabilidad de transicin a otro estado.
En la clase de hoy se estudiarn los
Modelos de duracin,
en estos mode-
estado como
transicin
284
Microeconometra Aplicada
Centro de Microdatos
15.2.
Modelos de Duracin
La variable de inters en los modelos de duracin corresponde al tiempo transcurrido entre el inicio de cierto estado hasta que termina o hasta cuando la medicin fue realizada. Los datos que debemos poseer para hacer una anlisis de
duracin consiste en tiempos de duracin de un estado:
285
t1 , t2 ,,tN .