Escolar Documentos
Profissional Documentos
Cultura Documentos
0 para economistas
Humberto Ortiz Ruiz
Índice
1
El capítulo 1 está basado en el material elaborado por Milenka Moshela “Stata 9.0 para economistas”.
1
Stata 10.0 para economistas
Humberto Ortiz Ruiz
2
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Review Aquí aparecen los comandos que han sido utilizados durante la
sesión. Solo los resultados más recientes son visibles en esta
pantalla.
Command Sirve para utilizar Stata de forma interactiva, es decir se emplea
para crear las líneas de comandos y llevar a cabo las aplicaciones
disponibles en el software.
Variables Nos informa sobre las variables que están disponibles en nuestra
base de datos para realizar las diversas aplicaciones
Results Esta nos permite visualizar los resultados (outputs) de los
estadísticos que pedimos calcular o de los modelos que
solicitamos estimar.
El tamaño y posición de las ventanas puede ser ajustado según las preferencias del usuario y las
cuales pueden ser guardadas utilizando Prefs \Save Windowing Preferences.
También podemos modificar el color de fondo o las fuentes de la ventana Stata Results eligiendo
la siguiente opción del menú principal: Prefs \General Preferences
Otras ventanas importantes son:
Stata Editor permite navegar y modificar los datos como si fuese una hoja de Excel.
Stata Viewer permite acceder a información en línea y también a la ayuda del
programa.
3
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota : Si alguna ventana esta cerrada podemos abrirla desde el menú Window.
Dese la versión 8 del Stata, todos los comandos (excepto los de programación) han sido
implementados con cuadros de diálogo y se pueden acceder a ellos desde el menú principal, el
cual está organizado por tópicos:
Seleccionamos una opción desde los menús Data, Graphics o Statistics y llenamos la caja o
cuadro de diálogo correspondiente:
Por ejemplo, para acceder al cuadro de diálogo siguiente, utilizamos la ruta que presentamos a
continuación, la cual se encuentra en los menús desplegables:
4
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI
(Graphic User Interface), lo cual es una mejora de la versión 8 respecto de las anteriores. Si
bien desde la versión 8 el Stata permite trabajar de manera interactiva, sigue siendo un
programa manejado por comandos (al igual que RATS 6), debido a que cada ventana se
encuentra asociada a un comando (a diferencia de Eviews 5.0, en donde las ventanas
desplegables están orientadas a objetos), por lo que aprender a manejar Stata 10 mediante
comandos será de mucha utilidad, sobre todo si lo que se desea es programar en este lenguaje.
5
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Además, Stata presenta una barra de herramientas que permite realizar operaciones usuales
como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular. En la versión 10.0
se ha modificado ligeramente la barra de herramientas con respecto a la versión 9.
Sirve para grabar en disco la base de datos que está siendo utilizada.
Inicia, cierra, suspende o resume un log (que se guarda bajo la extensión *.smcl o *.log). El
log es un comando que nos permite guardar seciones de Stata.
Muestra una ventana Stata Viewer. Permite mostrar distints ventanas Viewer de forma
simultánea.
Abre un nuevo Do-File Editor o muestra la ventana de Do-File Editor que esté oculta
(equivale a ctrl+8).
Abre Stata Editor o muestra la ventana de Stata Editor que esté oculta (equivale a edit).
Abre Stata Browser o muestra la ventana de Stata Browser que esté oculta (equivale a
browse).
Entre las aplicaciones y modificaciones realizadas en Stata 10.0 con respecto a la versión 9.0
cabe resaltar:
6
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Las bases de datos pueden variar de tamaño. Por defecto Stata únicamente lee archivos hasta
de 10mb (máximo espacio de los datos) de hasta 5000 variables. Si se intenta leer un archivo
más grande sale el siguiente mensaje de error.
Se puede utilizar el comando memory2 para asignar suficiente memoria para el archivo. Por
ejemplo si tenemos un archivo de 18 mb por lo menos debemos de asignar 18 mb (debemos de
tomar en cuenta la creación de nuevas variables).
2
El comando set memory sólo se puede utilizar en las versiones estándar (Stata/IC), estándar + base de datos
extensas (Stata/SE) y en la versión Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versión para
estudiantes de pregrado (Small Stata). En la versión Stata/SE el límite de variables independientes es 11,000
(matsize)mientras que el límite de la memoria es igual al del sistema operativo.
7
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Adicionalmente el comando matsize permite establecer el número de variables que pueden ser
incluídos en las estimaciones realizadas por Stata. El uso de este comando puede ser útil en
ciertas aplicaciones.
Por ejemplo, si al estimar una regresión anova, aparece un error “matsize too small”. Este
problema se puede superar mediante el comando set matsize. La mayor configuración es de
800.
Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en
C:\DATA\ salvo que dicha configuración de archivos haya sido cambiada. Para conocer con que
directorio está trabajando Stata se utiliza el comando pwd
pwd
Con el comando sysdir se pueden visualizar los directorios que STATA emplea para guardar el
programa y la información.
sysdir
STATA: C:\STATA\
UPDATES: C:\STATA\ado\updates\
BASE: C:\STATA\ado\base\
SITE: C:\STATA\ado\site\
PLUS: c:\ado\plus\
PERSONAL: c:\ado\personal\
OLDPLACE: c:\ado\
Con el comando cd podemos cambiar de directorio donde se guardan los datos, aunque estos
cambios solo serán validos por la sesión en uso.
cd C:\
mkdir sesion21012006
dir
dir *.dta
En la ventana de resultados se muestran los resultados más recientes que se hayan generado.
Sin embargo los resultados previos no se van a poder visualizar3. Para guardar una sesión de
Stata, se debe de crear un archivo *.log utilizando el comando log.
STATA permite guardar un registro de los comandos y los resultados. Para crear un archivo de
bitácora se usa el comando log using:
Por defecto se guarda en el directorio en uso y en formato SMCL (que es el que usa STATA)
para presentar los resultados.
3
Otra solución podría ser “agrandar” la ventana de resultados de forma tal que pueda guardar mayor cantidad de
output. Por ejemplo, si queremos que la ventana de resultados contenga hasta 300,000 bytes, se puede utilizar el
comando scrollbufsize de la siguiente manera
set scrollbufsize 300000
(set scrollbufsize will take effect the next time you launch Stata)
Como indica el mensaje, la configuración tendrá efecto recien en la siguiente sesión de Stata. Sin embargo, esta
configuración será recordada cada vez que se inicie una sesión.
Sin embargo esta opción se utiliza muy poco en la medida que requiere mayor uso de recursos informáticos
(memoria).
9
Stata 10.0 para economistas
Humberto Ortiz Ruiz
log on
Si lo único que se desea es guardar los comandos debe emplearse cmdlog. Esta opción es
especialmente útil cuando lo que se busca es crear un archivo do.
El manejo de datos es tal vez la parte más importante a la hora de trabajar en Stata. El manejo
de datos consiste en introducir los datos en un formato en el cual se puedan realizar los análisis
de manera adecuada. La mayoría de los errores se deben en gran medida a un manejo de
datos deficiente en lugar de un análisis deficiente.
La forma como STATA carga los datos a la memoria es similar a la de un procesador de textos
o a la de una hoja de cálculo. No se realizan los cambios hasta que el usuario explícitamente
los guarda.
Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador. Para
guardar los datos se debe emplear el comando save. Es recomendable no sobrescribir los
datos y trabajar en un directorio diferente del donde se encuentran los datos originales.
use "C:\auto.dta"
Para ingresar los datos directamente al editor debe abrir el editor e ingresar los datos pulsando
las flechas del teclado, el enter o el Tab. Para cambiar el nombre de las variables pulse dos
10
Stata 10.0 para economistas
Humberto Ortiz Ruiz
veces sobre el nombre de estas y aparece un cuadro de diálogo en el cual puede cambiar el
nombre, la etiqueta y el formato de la variable.
Supongamos que deseamos ingresar los datos de la tabla de MSExcel. Para ello abra el editor
y pegue los datos. Si los datos estaban en columnas, y tenían un encabezado con el nombre de
la variable, STATA nombrará las variables al pegarlas.
Hay varias formas en que podemos introducir datos en Stata es posible introducir datos a mano
utilizando el comando edit, el cual abre una hoja de calculo. También los datos pueden ser
introducidos cortándolos desde Excel y pegándolos en la hoja de cálculo de Stata.
Sexo: H = 1 M = 0
Profesión: Estudiante Economista Estudiante =1 Economista =0
Edad: 29
¿Los Alumnos del Infopucp tienen hábitos de fumar?
Si =1
Algunas veces =2
NO =3
11
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota : Tener en cuenta que el Editor para definir una variable va a requerir que exista al menos
una observación de esta variable.
Los datos pueden ser cargados al programa utilizando el comando use seguido por la ruta en
donde se encuentra la base de datos.
12
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ejemplo
Si existen datos en la memoria cualquiera de esta opciones será rechazada a menos que se
use la opción clear.
Podemos continuar realizando selecciones como por ejemplo de los 10 primeros datos, para
ello bastará con indicar la opción:
expand 10
save "C:\auto2.dta"
Nota: Stata no guarda en el disco los cambios en las bases de datos a menos que ejecutemos
el comando save (en eso se parece a MSExcel), por lo que si se apaga o cuelga la máquina
perdemos los cambios.
Nota : En Stata hay compatibilidad hacia adelante, es decir, los comandos y bases de datos de
Stata7 sirven en Stata8 pero lo inverso no siempre es posible. Por ello si trabajamos con una
base de datos en Stata8 y luego la vamos a abrir en Stata7 deberemos grabarla con formato de
Stata7 desde el Stata8.
13
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El comando insheet es muy útil a la hora de leer datos de provenientes de una hoja de cálculo.
Existen algunos requerimientos antes de poder utilizar este comando:
1. La primera línea debe de tener los nombres de las variables (en versiones anteriores a
Stata 6.0 menores a ocho caracteres). Los nombres no deben de empezar con
caracteres especiales o números.
3. Los casos en que se la data contenga un valor perdido deben de ser guardados con una
celda vacía. A menudo se emplea 0, 9 ,99 para codificar los casos perdidos; este
procedimiento es correcto siempre y cuando no se utilicen valores válidos para la
variable.
4. Las comas en los números o el texto resultan problemáticas debido a que Stata piensa
que se trata de un carácter delimitante y no leerá los datos de manera apropiada. Es
recomendable remover las comas a la hora de guardar los datos.
5. Algunas hojas de cálculo al crear un archivo de extensión “csv” no pone comas al final
de la fila debido a que las celdas están vacías. Esto puede confundir al programa que
está diseñado de tal manera que cuenta con las comas para ubicar los valores. Se
puede evitar este problema aumentando una columna de comas de unos (1, o de
cualquier otro carácter) a la hoja de cálculo. Se puede eliminar esta variable una vez que
Stata ya ha leído el archivo.
8. una vez que se han completado los cambios y estamos trabajando en Stata, hay que dar
al programa la siguiente orden:
14
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Para que Stata pueda leer el archivo. Si sale el siguiente mensaje de error "wrong number of
values," ha habido un problema en la especificación de las comas en el archivo y hay que
revisar como se ha guardado el archivo csv.
15
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ejemplo
datos_tab.txt
VW Rabbit 4697 25 1930 3.78
Olds 98 8814 21 4060 2.41
Chev. Monza 3667 2750 2.73
AMC Concord 4099 22 2930 3.58
Datsun 510 5079 24 2280 3.54
5189 20 3280 2.93
Datsun 810 8129 21 2750 3.55
clear
set mem 10m
set more off
cd "C:\cursos\Stata9\Sesion02"
16
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Permite importar datos que no están en formato de STATA pero que están en un formato fijo.
Este comando es mucho más potente que insheet pues permite el uso de condicionales y de
diccionarios.
Ejemplo
persons.raw
........329193402male..32......42000¶
........472921002male..32......50000¶
........329193100male..45¶
........399938271female30......43000¶
........484873982female33......48000¶
123456789012345678901234567890123456789
persons_infix.dct
infix dictionary using persons.raw {
1 lines
1:
long idnumb 7-17
str6 sex 18-23
int age 24-25
float income 32-36
}
clear
set mem 10m
set more off
cd "C:\cursos\Stata9\Sesion02"
17
Stata 10.0 para economistas
Humberto Ortiz Ruiz
En esencia, “insheet” asume que las variables están separadas por comas. Por otro lado, “infile”
asume que los espacios en blanco separan a las variables. Por ejemplo, supongamos que se
tiene un archivo de datos de extensión raw llamado mydata.raw que contiene los siguientes
campos:
1 55 4.5
2 23 3.2
3 34 3.4
4 52 7.1
5 41 2.9
donde varlist es la lista de variables y filename es el nombre del archivo que contiene la data
raw.
Por ejemplo
donde caseid, age y score son los nombres de las variables y mydata.raw es el archivo que
contiene la data. Sin embargo, puede ser más sencillo exportar el archivo a una hoja de Excel,
guardarlo con una extensión csv, y después utilizar el comando insheet.
También se puede utilizar el archivo Infile para leer datos que contengan muchas variables o
múltiples registros por observación, ó más generalmente, cuando se necesita leer datos que
han sido guardados en formatos particulares. En estos casos, es a menudo más sencillo (y a
veces necesario) leer la data utilizando un archivo dictionary como se describe a continuación.
18
Stata 10.0 para economistas
Humberto Ortiz Ruiz
19
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Genera una nueva variable definida en base a una expresión numérica la cual puede contener
otras variables. Por su flexibilidad, este es uno de los comandos más importantes de Stata, ya
que se pueden utilizar un gran número de operaciones lógicas, aritméticas y matemáticas.
Ejemplo.
Al final de este proceso vemos que ha aparecido una nueva variable (wtsq) y que el comando
empleado en su creación ha aparecido en la ventana de Results y en la ventana Review.
Nota: En Stata los comandos deben ir siempre en minúsculas, Para los nombres de las
variables Stata tomará en cuenta si empleamos minúsculas o mayúsculas, no son la misma
variable Curso, curso, CURSO, ni por ejemplo CurSo.
20
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota : los caracteres válidos son dígitos (0-9), caracteres (a-z y A-Z) y el guión bajo (_), Stata
recomienda que las variables comiencen con mayúsculas (para evitar confusiones con los
comandos que siempre van en minúsculas)
Ejemplo
21
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Si la variable ya existe usaremos el comando replace, Otras funciones para usar con
generate:
22
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El comando egen Es una extensión del comando generate. Este comando me va a permitir
calcular expresiones mas complejas, tales como: medias, desviaciones estándar, promedios
móviles, variables estandarizadas, etc.
Ejemplo
Generemos una serie que sea igual al valor máximo de la variable educ
Ahora hacemos lo mismo pero mediante la barra de menús la ruta es Data\Create or change
variables\Create new variable(extended)
Ejemplo
Esta orden nos cambia el nombre de wtsq por peso2 en nuestros datos.
Ejemplo
Ejemplo
sort mpg
Nota : los valores missing se interpretan como mayores que cualquier número y por lo tanto
aparecen al final”
23
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Si tenemos una variable Xstr su conversión a variable numérica Xnum puede ser obtenida de la
siguiente forma:
24
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Si quisiéramos ver la asignación de los números entonces digitamos los siguientes comandos:
Podemos generar una nueva variable que contenga algún subconjunto de los nombres de las
características generadas por alguna variable anterior.
estamos generando una variable string de nombre a2 que contiene como características los
caracteres 2 a 4 de la variable make:
En este primer ejercicio lo que decimos es que si year es menor a 80 entonces que la variable
educ tenga un punto:
Ejemplo: Ahora le pido al Stata que me haga un resumen estadístico de la variable meduc
cuando la variable year es igual a 78
25
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ejemplo : Con esta orden le estoy pidiendo al Stata que haga una lista de variables siempre y
cuando year sea igual a 80 y la educ menor o igual a 10
list year educ meduc feduc age if year==80 & educ <=10
Ejemplo 4: Con esta orden le pido a Stata que me busque las observaciones que cumplan esa
condición:
26
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota : las expresiones lógicas pueden ser verdaderas o falsas un valor de “0” indicaría que la
condición no se cumple y un valor de “1” podría indicar el cumplimiento de la misma”
27
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Comando keep
Con esta orden le pido a Stata que me mantenga las observaciones que cumplan con la
condición.
Con esta orden seleccionamos aquellas observaciones que coincidan con rep78 ==3
keep in 1\10
Esta opción me permite observar solo las primeras 10 observaciones suprimiendo las restantes.
Comando drop
Esta opción lo que hace es borrar todas aquellas observaciones en las cuales se cumpla alguna
condición.
drop if mpg<19
Nota : Las observaciones borradas podemos observarlas nuevamente usando el comando use
este nos permite volver a cargar la información”
1.3.6. Muestras
sample 10
Con la siguiente orden estoy obteniendo una muestra simple de exactamente 20 observaciones
sample 57 , count
En STATA es posible agregar etiquetas a los datos para mejorar la legibilidad de la información.
label data
label variable
label define
label dir
label list
label drop
Ejemplo
28
Stata 10.0 para economistas
Humberto Ortiz Ruiz
*ETIQUETANDO UN ARCHIVO
label data "Este es un ejmplo adaptado de la ayuda del comando infile"
describe
label data
describe
*label data remueve la etiqueta del conjunto de datos
Una manera rápida de cambiar el formato de una variable es seguir la siguiente ruta en el menú
principal:
Formatos Numéricos
29
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Formato de Fechas
30
Stata 10.0 para economistas
Humberto Ortiz Ruiz
1.4. Gráficos
A continuación veremos como introducir algunos comandos básicos en Stata 10, incluyendo
histogramas , gráficos de caja y bigote, ploteos y matrices de ploteos.
histogram mpg
.1
.08
.06
Density
.04
.02
0
10 20 30 40
Mileage (mpg)
Se puede realizar un ploteo de dos dimensiones para ilustrar la relación entre mpg y
weight. Como esperamos, existe una relación negativa entre estas dos variables.
31
Stata 10.0 para economistas
Humberto Ortiz Ruiz
32
Stata 10.0 para economistas
Humberto Ortiz Ruiz
33
Stata 10.0 para economistas
Humberto Ortiz Ruiz
34
Stata 10.0 para economistas
Humberto Ortiz Ruiz
A continuación combinamos dos posibilidades: obtener dos gráficos, uno para los carros
nacionales y otro para los carros extranjeros; y bandas de confianza alrededor de los
valores predichos utilizando la opciòn lfitci en lugar de lfit, Observamos que la opciòn
by se encuentra al final de la línea de comandos.
35
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Se puede estimar una matriz de ploteos con el commando graph matriz. A continuación
examinamos la relaciòn entre mpg, weight, y precio.
36
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Comando Graph
comando descripción
------------------------------------------------------------------
graph twoway scatterplots, line plots, etc.
graph matrix scatterplot matrices
graph bar bar charts
graph dot dot charts
graph box box and whisker plots
graph pie pie charts
other more commands to draw statistical graphs
------------------------------------------------------------------
plottype description
----------------------------------------------------------------------
scatter scatterplot
line line plot
connected connected-line plot
scatteri scatter with immediate arguments
37
Stata 10.0 para economistas
Humberto Ortiz Ruiz
38
Stata 10.0 para economistas
Humberto Ortiz Ruiz
80
70
60
50
40
30
20 20
15
10
5
0 0
1900 1920 1940 1960 1980 2000
Year
Life expectancy, w hite males Life expectancy, black males
Difference Fitted values
Source: National Vital Statistics, Vol 50, No. 6
(1918 dip caused by 1918 Inf luenza Pandemic)
39
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Opción Combine
En la misma área de gráficos, combina 2 o más gráficos (pueden ser de diferentes tipos.
80
70
70
Life expectancy, females
Life expectancy, males
60
60
50
50
40
40
1900 1920 1940 1960 1980 2000 1900 1920 1940 1960 1980 2000
Year Year
0 55 60 65 70 75 80
Life expectancy at birth
40
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Opciones de marcador
Modifica los marcadores y/o sus etiquetas para ajustarse a las preferencias del usuario.
Canada
United States
Life expectancy at birth(years)
75
Jamaica Chile
Panama Uruguay
Venezuela Trinidad Argentina
Mexico
Dominican Republic
70
Guatemala
Boliv ia
60 55
Haiti
.5 5 10 15 20 25 30
GNP per capita (thousands of dollars)
Data source: World bank, 1998
División
Domestic Foreign
40
30
20
Mileage (mpg)
10
Total
40
30
20
10
41
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Gráfico de Picos
twoway rspike y1var y2var xvar [if exp] [in range] [, rspike_options
scatter_options ]
S&P 5000
1400
Price -- High, Low; Close
1100 1200 1300
Volume(millions)
10 15 20
Gráfico de Matriz
42
Stata 10.0 para economistas
Humberto Ortiz Ruiz
50 60 70 80 20 40 60 80 100
3
A vg. 2
annual 1
%
grow th 0
-1
80
70 Life
expectancy
60 at birth
50
12
10
lgnppc
8
6
100
80
60 saf ew ater
40
20
-1 0 1 2 3 6 8 10 12
43
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Gráficos de pie
44
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Development
Sales
Research
Marketing
45
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Gráficos de barras
0 .5 1 1.5 2 2.5
Public Private
Source: OECD, Education at a Glance 2002
46
Stata 10.0 para economistas
Humberto Ortiz Ruiz
47
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Gráfico de puntos
0 2 4 6 8 10
mean of w age
Source: 1988 data f rom NLS, U.S. Dept of Labor, Bureau of labor Statistics
48
Stata 10.0 para economistas
Humberto Ortiz Ruiz
S.A. Total
.3
.2
.1
0
50 60 70 80 50 60 70 80
Life expectancy at birth
Graphs by Region
49
Stata 10.0 para economistas
Humberto Ortiz Ruiz
55 60 65 70 75 80
Life expectancy at birth/x
Density kdensity lexp
1.5. El do-file
A través de una ventana similar a la de un editor de textos es posible crear una secuencia de
comandos de STATA, los cuales se almacenan a través de los llamados “do-files”. La ventaja
de estos archivos (de extensión *.do) es que permiten replicar un conjunto de instrucciones
previamente almacenadas. Esto ayuda a ir corrigiendo posibles errores en la ejecución de los
comandos, además de permitir guardar la rutina de comandos ejecutados para sesiones
posteriores.
Recordemos que para abrir la ventana del Do-file Editor pulsamos el botón correspondiente o
las teclas {ctrl+8} o desde el menú principal: Windows/Do-file Editor. Como ejemplo
abriremos el archivo coment.do. Para ejecutar unas líneas las iluminamos y luego pulsamos el
penúltimo botón de dicha ventana. Para ejecutarlo todo pulsamos el último botón o empleamos
el comando do del siguiente modo:
50
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El comando help es uno de los comandos más importantes de Stata, pues presenta la sintaxis
de los comandos así como ejemplos de cómo se usan. Para pedirle ayuda a Stata sobre un
comando se escribe en la ventana de comandos help (o hel o he) seguido del nombre del
comando que queramos conocer.
help summarize
Observemos que el comando y sus opciones están en letra blanca mientras que la mayor parte
del resto de la sintaxis va en letra verde4. En el nombre del comando se observa que las dos
primeras letras están subrayadas, lo que indica que podemos en lugar de escribir el comando
como summarize podemos escribir su (o cualquier forma intermedia).
Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los comandos
primero se ponen las variables, luego el peso, los condicionales (if) preceden a los rangos (in) y
les siguen las opciones después de un coma:
4
La letra celeste se reserva para los hipervínculos.
51
Stata 10.0 para economistas
Humberto Ortiz Ruiz
[by lista de var:] comando lista de var [if expresion] [in rango][ponderadores]
[using nombre del archivo], [opciones]
Otra información clave es la forma en que podemos obtener ayuda. Todos los comandos Stata
tienen información acerca de la manera en que deben utilizarse (sintaxis y opciones); para
acceder a ella es solo cuestión de escribir la palabra help seguida por el nombre del comando
en la ventana de comandos de Stata. Si no conoce el nombre del comando que realiza la tarea
que tiene en mente, escriba la palabra findit seguida por una palabra que este relacionada con
dicha tarea. Este comando busca en toda la documentación tanto interna como aquella que se
encuentra en la pagina red de Stata.
Stata se actualiza casi continuamente, los usuarios pueden escribir programas y mandarlos al
archivo de SSC (Statistical Software Components), por lo tanto es necesario hacer
actualizaciones de forma regular. El comando update query le indicará si es necesario hacer
actualizaciones.
Para poder trabajar con una base de datos de extensión distinta a la de Stata (.dta) hay dos
maneras. La primera de ellas se consiste en el tedioso proceso de introducir uno a uno los
datos en Stata editor. La segunda es una manera mucho más sencilla y conveniente de
hacerlo, y se refiere al uso del Statransfer. Este último proceso permite introducir archivos
desde casi cualquier otro programa a Stata.
5
Ver http://www.stattransfer.com/
52
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Luego de completar los campos, dar clic en Transfer y el software iniciará la importación.
Para ejecutar la conversión, se hace click sobre el botón Transfer y una vez realizada
se presiona Reset.
Nota 25: Basta tener a la base de datos disponible en formato Stata6, para poder disponer de
ella en las versiones posteriores de Stata, si recordamos de la sesión anterior existe
compatibilidad hacia adelante. Recordemos que en Stata6 los nombres de las variables sólo
pueden ser de hasta 8 dígitos.
Nota 26: La lista de programas desde la cual se pueden recoger los datos se encuentra
especificada en el cuadro de diálogo del Stat\Transfer, a esta lista se tiene acceso haciendo
click sobre el ratio botton ubicado en el extremo derecho de la primera celda Input File Type.
Nota : Del mismo modo ocurre al especificar el formato de destino. Este programa no solo
transforma las bases de datos a formato Stata sino que hay más posibilidades.
Por ejemplo, para importar el archivo de datos ‘Probit99.sav’ del formato Spss al Stata 6.0 la
ventana debe tener la siguiente apariencia:
53
Stata 10.0 para economistas
Humberto Ortiz Ruiz
También podemos convertir la base de datos existente en formato Stata a formato SPSS.
54
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Como hemos visto anteiormenten para abrir una base de datos desde el menú principal,
seguimos la siguiente ruta: File/Open. En el cuadro de diálogo que aparece a continuación se
elige el archivo deseado, que en este caso tiene la extensión de los archivos de datos nativos
de Stata, dta.
Este archivo contiene una base de datos de autos: 74 observaciones y 12 variables definidas a
continuación:
Nota: Al ejecutar los comandos mediante estos menús además se registra en la ventana Stata
Review el comando equivalente para la ventana Stata Command. Esta característica es muy
útil cuando se aprende Stata porque es posible ejecutar un comando mediante la GUI y luego
repetirlo empleando comandos.
55
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Para ver una descripción rápida de los datos ingresamos describe. Para copiar a MSWord lo
que acaba de aparecer en la ventana de resultados iluminamos dicho resultado y lo copiamos
como texto o como tabla, luego de pegarlo le aplicamos formato indicando el tipo tamaño 9 y
fuente Courier New.
. describe
56
Stata 10.0 para economistas
Humberto Ortiz Ruiz
57
Stata 10.0 para economistas
Humberto Ortiz Ruiz
-------------------------------------------------------------------------------
make Make and Model
-------------------------------------------------------------------------------
-------------------------------------------------------------------------------
mpg Mileage (mpg)
-------------------------------------------------------------------------------
mean: 21.2973
std. dev: 5.7855
-------------------------------------------------------------------------------
rep78 Repair Record 1978
-------------------------------------------------------------------------------
-------------------------------------------------------------------------------
58
Stata 10.0 para economistas
Humberto Ortiz Ruiz
mean: 3019.46
std. dev: 777.194
59
Stata 10.0 para economistas
Humberto Ortiz Ruiz
+---------------------+
| make mpg |
|---------------------|
1. | AMC Concord 22 |
2. | AMC Pacer 17 |
3. | AMC Spirit 22 |
4. | Buick Century 20 |
5. | Buick Electra 15 |
|---------------------|
6. | Buick LeSabre 18 |
7. | Buick Opel 26 |
8. | Buick Regal 20 |
9. | Buick Riviera 16 |
10. | Buick Skylark 19 |
+---------------------+
. sort mpg
+-------------------------+
| make mpg |
|-------------------------|
1. | Linc. Continental 12 |
2. | Linc. Mark V 12 |
3. | Linc. Versailles 14 |
4. | Merc. XR-7 14 |
5. | Cad. Deville 14 |
+-------------------------+
¿Cuáles son los cinco autos con mayor millaje por galón?
+----------------------+
| make mpg |
|----------------------|
70. | Toyota Corolla 31 |
71. | Plym. Champ 34 |
72. | Subaru 35 |
73. | Datsun 210 35 |
60
Stata 10.0 para economistas
Humberto Ortiz Ruiz
74. | VW Diesel 41 |
+----------------------+
61
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota : Cuando las ventanas Browser y Edit se encuentran abiertas es imposible ingresar
comandos, puesto que la barra Stata Command desaparece.
Stata por defecto le asigna formato float a una variable de datos nueva.
Intercooled Stata9.0 soporta cadenas de hasta 80 caracteres de largo.
Estadísticas descriptivas
¿Como no estoy familiarizado con los precios de 1978, cuál es el precio promedio de los carros
en esta base de datos?
. summarize price
summarize funciona como list, pero sin argumentos, nos da un resumen de toda la data:
. summarize
62
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota: la variable make tiene 0 observaciones debido a que es una variable de cadena
(string) , calcular una media bajo este comando está indefinido pero no es un error
hacerlo. La variable rep78 sólo tiene 69 observaciones porque no tiene registro para 5
carros.
¿Cuál es el precio promedio de los carros que se encuentran por encima y por debajo de la
media de mpg?
Mileage (mpg)
-------------------------------------------------------------
Percentiles Smallest
1% 12 12
5% 14 12
10% 14 14 Obs 74
25% 18 14 Sum of Wgt. 74
Respuesta: 20.
63
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nuestra base de datos contiene la variable foreign que esta codificada de la siguiente manera:
0 si el carro ha sido fabricado los Estados Unidos o Canada, y 1 si el carros ha sido fabricado
en otra parte.
Para saberlo tenemos que estimar las estadísticas de resumen para las variables price y MPG
en los dos casos se recoge la variable foreign.
. sort foreign
------------------------------------------------------------------------------
-> foreign = Domestic
------------------------------------------------------------------------------
-> foreign = Foreign
Parece que el MPG promedio de los carros “domésticos” extranjeros es diferente. Lo que
queremos ahora es saber si son "estadísticamente" diferente. Para ello haremos un contraste
de hipótesis para verificar si las medias de ambos grupos son iguales.
64
Stata 10.0 para economistas
Humberto Ortiz Ruiz
A partir de esta prueba hemos establecido que los carros domésticos en 1978 tenían un menor
millaje de gasolina que los carros extranjeros.
Tablas
. tabulate foreign
La base de datos contiene la variable rep78 que a registrar la frecuencia de mantenimiento para
cada caso (1 = mala, ..., 5 = excelente). ¿Cómo ha sido el mantenimiento de los carros de la
muestra?
. tabulate rep78
Repair |
Record 1978 | Freq. Percent Cum.
------------+-----------------------------------
1| 2 2.90 2.90
2| 8 11.59 14.49
3| 30 43.48 57.97
4| 18 26.09 84.06
5| 11 15.94 100.00
------------+-----------------------------------
Total | 69 100.00
Tenemos 74 carros, sólo 69 tienen registrada la variable rep78 . Queremos conocer los carros
para los cuales esta información no existe.
65
Stata 10.0 para economistas
Humberto Ortiz Ruiz
+---------------+
| make |
|---------------|
14. | Plym. Sapporo |
17. | Buick Opel |
23. | Pont. Phoenix |
27. | AMC Spirit |
72. | Peugeot 604 |
+---------------+
Repair |
Record | Car type
1978 | Domestic Foreign | Total
-----------+----------------------+----------
1| 2 0| 2
2| 8 0| 8
3| 27 3| 30
4| 9 9| 18
5| 2 9| 11
-----------+----------------------+----------
Total | 48 21 | 69
Parece que los carros domésticos tienen una menor frecuencia de mantenimiento. A
continuación, queremos determinar si esta diferencia es estadísticamente significativa. Para ello
realizaremos un test chi2 (a pesar de que no se cumple la condición de que debe haber como
mínimo cinco observaciones en cada celda de la tabla).
Repair |
Record | Car type
1978 | Domestic Foreign | Total
-----------+----------------------+----------
1| 2 0| 2
2| 8 0| 8
3| 27 3| 30
4| 9 9| 18
5| 2 9| 11
-----------+----------------------+----------
66
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Total | 48 21 | 69
Matrices de correlacion
| mpg weight
-------------+------------------
mpg | 1.0000
weight | -0.8072 1.0000
| mpg weight
-------------+------------------
mpg | 1.0000
weight | -0.8759 1.0000
| mpg weight
-------------+------------------
mpg | 1.0000
weight | -0.6829 1.0000
Nota: Podemos haber obtenido ningún resultado tipeando by foreign: correlate mpg
weight.
67
Stata 10.0 para economistas
Humberto Ortiz Ruiz
-------------+---------------------------------------------
mpg | 1.0000
weight | -0.8072 1.0000
price | -0.4686 0.5386 1.0000
length | -0.7958 0.9460 0.4318 1.0000
displacement | -0.7056 0.8949 0.4949 0.8351 1.0000
Sabemos que el millaje promedio entre los carros domésticos y extranjeros es diferente. Hemos
visto también que el origen de fabricación explica otras diferencias, tales como la frecuencia de
reparación. Por otro lado, hemos encontrado una correlación negativa entre MPG y el peso del
carro (como era de esperarse) pero esta correlación parece ser más fuerte cuando analizamos
carros domésticos. A continuación examinaremos, con la intención de más adelante modelar, la
relación entre MPG y el peso. Comenzaremos graficando un ploteo simple
scatter y x dibuja un gráfico de y contra x. Notamos que la relación a primera vista no es lineal.
68
Stata 10.0 para economistas
Humberto Ortiz Ruiz
A continuación, realizaremos dos gráficos separados para los carros domésticos y extranjeros.
. sort foreign
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000
Weight (lbs.)
Graphs by Car type
La relación no es únicamente no lineal, sino que también parece diferir para los carros
domésticos y extranjeros.
69
Stata 10.0 para economistas
Humberto Ortiz Ruiz
70
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Una herramienta básica en la programación en STATA es el uso de las macros que permiten
realizar el trabajo de forma más eficiente. Se puede ver una macro en STATA como un “alias”
que tiene un nombre y un valor. Cuando el nombre de una macro es referenciado se puede
obtener su valor.
Existen dos tipos de macros en STATA definidas como local y global. El contenido de las
macros global es definido mediante el comando global mientras que en el caso de las macros
local es definido con el comando local.
Las macros local existen sólo en el programa (ado) o el do-file definido. Es decir, si se abre otro
programa o do- file las macros local utilizadas con anterioridad no estarán disponibles. La macro
local es un contenido que puede mantener un objeto (como un nombre de una variable o un
número) o un conjunto de objetos.
Ejemplo
Las macros global existen para la duración de un programa o una sesión de STATA. Otra
diferencia con respecto a las macros local es que la forma como se referencian.
Ejemplo
Las macros global son utilizadas frecuentemente para guardar los ítems paramétricos de un
programa, como puede ser un carácter string que contenga el nombre del directorio “defult” en
donde las bases de datos o los do-files serán accesados. A menos que sea necesario, se
recomienda utilizar macros local.
Las macros de STATA son útiles para construir listas, contadores o índices de enlace (loop
indices). Su uso puede ser extendido para retomar valores de los comandos de STATA (ver
return).
Se pueden utilizar una serie de funciones macro que pueden ser útiles para extraer etiquetas de
una variable, extraer el número de columnas o filas de una matriz, entre otros.
Ejemplo
71
Stata 10.0 para economistas
Humberto Ortiz Ruiz
cd "…"
use auto
local x1: type labor
STATA permite utilizar un solo comando en vez de distintos comandos para realizar
modificaciones a los valores de una variable y enlazar variables que tienen un contenido similar.
Las herramientas más potentes son los comandos forvalues y foreach.
Ejemplo
forvalues i=1(1)5 {
display `i'
}
Se define la macro local i como un índice de enlace, siendo el rango 1(1)5. Se ejecutará el
comando entre corchetes para cada valor en el rango. Asimismo, el rango se puede definir de
distintas maneras.
Ejemplo
forvalues i=1/5 {
display `i'
}
Ejemplo
local n 5
forvalues i=1/`n' {
display `i'
}
forvalues i=1/4 {
generate double lnx`i'=log(x`i')
summarize lnx`i'
72
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El comando forvalues suele utilizarse para enlazar variables que tienen un componente
numérico (entero) común consecutivo. En otros casos se suele utilizar el comando foreach.
El comando foreach repite un conjunto de macros local a cada elemento de la lista (que
incluyen macros local y global) y ejecuta los comandos que se colocan entre corchetes. Como
en el caso de forvalues una macro local es definida como un índice de enlace. El loop es
ejecutado 0 o más veces, ejecutándose desde 0 si es que la lista está vacía. En vez de realizar
el ciclo de acciones sobre un conjunto de valores numéricos foreach especifica que el indice
loop itera a través de los elementos de la macro local o global, de los nombres de la variables
especificadas (varlist) o de los elementos explícito de elementos (numlist).
Ejemplo
El comando foreach puede trabajar con una lista de variables específicas varlist, un newvarlist
de las variables que crea y un listado explícito de elementos numlist.
foreach z of varlist x* {
summarize ln`z'
}
2.3.1. Escalares
STATA utiliza escalares y matrices. Los escalares pueden contener valores string (hasta 244
car5.1.2.acteres6) o un único valor numérico. Los comandos de análisis (describe, summ, entre
otros) de STATA dan los resultados como escalares numéricos (ver return). Adicionalmente, los
escalares pueden ser utilizados para guardar resultados numéricos.
Ejemplo
scalar root2=sqrt(2)
En el cálculo numérico es más fácil utilizar escalares. Si una macro contiene valores numéricos
estos deben ser convertidos previamente, mientras que en el caso de los escalares no se
requiere de ninguna transformación. Un escalar opera como una expresión. Es decir, no se
puede especificar un escalar como parte de un rango, in range, en la medida que ningún valor
será extraído. Se debe utilizar if exp desde que contiene una expresión numérica.
6
La extensión de una macro en la versión Intercooled es 67.789 mientras que en la versión SE es más de 1 millón.
73
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Los comandos de estimación de STATA (reg, xtreg, entre otros) crean tanto escalares como
matrices. Por ejemplo, con el comando reg se crea la matriz e(b) que contiene los estimadores
de los parámetros, e(V) que contiene la matriz de varianzas y covarianzas de los estimadores.
2.3.2. Matrices
Con los comandos matrix tradicionales el tamaño de las matrices es limitado según las distintas
versiones del STATA. Asimismo STATA posee de comandos especializados como matrix
accum que calcula productos cruzados de matrices de cualquier número de observaciones.
Hay también otras variaciones de dicho comando como matrix glsaccum, matrix vecaccum y
matrix opaccum.
Las matrices en STATA son útiles para guardar los resultados. También son una forma de
presentar la información de manera organizada.
Muchas operaciones no pueden ser realizadas con los comandos matrix tradicionales. Por
ejemplo si bien el comando matrix mkmat permite crear una matriz a partir de una lista de
variables el número de observaciones de la matriz es limitado. Por otro lado, los comandos
clásicos y los del lenguaje MATA y en general cualquier lenguaje matricial tiene limitaciones a la
hora de trabajar con expresiones matriciales complejas (panel, SUR, entre otros) sobretodo si
se consideran la memoria disponible en la PC. En estos casos es preferible trabajar con enlaces
que permitan simplificar el cálculo matricial. Por ejemplo en vez de realizar el cálculo matricial
para estimar un SUR se puede generar un loop en donde se regresiones distintas ecuaciones,
los dos procedimientos dan el mismo resultado pero el último no requiere de tantos recursos
informáticos.
Los principales comandos de análisis de STATA, incluidos los nuevos comandos que el propio
usuario define, pueden ser clasificados en las siguientes clases:
• r-class: comandos diversos (excluidos los de estimación) tales como table, sumaries,
entre otros.
• e-class: comandos de estimación como regress, xtreg, entre otros que estiman modelos
estadísticos.
Cada clase de comando determina si los resultados son guardados en r() o e(). Existen otras
clases s-class, n-class y c-class que se utilizan con menor frecuencia (véase h return).
74
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Con el comando return (ereturn) list se pueden ver los elementos guardados en r() ( e())
correspondiente a los comandos de clase r (e).
Ejemplos
cd "..."
use auto
des
return list
La ejecución consecutiva de comandos r-class reemplazarán la lista return con los respectivos
valores de return. Si se quiere trabajar con dichos item estos se tienen que guardar como
macros local o como escalares.
summ mpg
return list
di "La media estandariza es `r(mean)'/`r(sd)'"
75
Stata 10.0 para economistas
Humberto Ortiz Ruiz
3.1. Introducción
E ( y / x1 , x2 ,..., xk ) = β1 x1 + β 2 x2 + ... + β k xk
El modelo de regresión lineal predice los valores promeido de y para distintos valores de
x1 , x2 ,..., xk . Los parámetros (de la población) β1 , β 2 ,..., β k no son conocidos. Sin embargo,
utilizando la información muestral se pueden obtener estimadores de los parámetros (o
coeficientes).
Por ejemplo, se puede suponer que el valor medio de los precios de casas de una sola familia
condional al ratio entre estudiantes
50000
precio promedio de casa unifamiliar
40000
30000
20000
10000
0
12 14 16 18 20 22
promedio de ratio estudiante/profesor
median housing price, $ Fitted values
76
Stata 10.0 para economistas
Humberto Ortiz Ruiz
- determinar como los estimados cambian si se tiene otra muestra de la misma población,
Para obtener estimadores de los parámetros de interés se deben realizar algunos supuestos
sobre el proceso generador de los datos. El modelo de regresión lineal clásico para unidad de
corte transversal “i”, es:
yi = β1 + β 2 xi ,2 + ... + β k xi , k + ui
y = Xβ + u
E (u/x) = 0
E (x ' u ) = 0
−1
β = [ E (x'x)] E (x'y )
77
Stata 10.0 para economistas
Humberto Ortiz Ruiz
−1
N N
∑ xi'xi ∑ x'y −1
βˆ = i i = ( X ' X ) X'y
N N
ˆ ´
uˆ = y − βX
78
Stata 10.0 para economistas
Humberto Ortiz Ruiz
1. Usted puede usar la sintaxis de Stata para especificar la muestra de estimación sin tener
que crear una base de datos especial.
2. Usted puede revisar en cualquier momento las últimas estimaciones escribiendo el comando
de estimación.
3. Todos los comandos de estimación muestran los intervalos de confianza para los
coeficientes y permite que la opción level ( ) indique el tamaño del intervalo. Por defecto es
level (95), que significa intervalos de confianza al 95%. Usted puede reajustar el intervalo de
confianza con set level. Vea level en help.
4. Usted puede utilizar mfx para mostrar los resultados del modelo en términos de los efectos
marginales (dy/dx o incluso df(y)/ d(x)), que se pueden exhibir como derivadas o
elasticidades. Vea mfx en help.
7. Usted puede obtener predicciones, residuos, y similares, tanto para los datos que acaba de
estimar como para otros datos, usando predict. Vea en help predict.
8. Usted puede obtener predicciones no lineales, sus errores estándar, estadísticas del
Contraste de Wald, niveles de significancia e intervalos de confianza, tanto para los datos
que acaba de estimar como para otros datos, usando predictnl; vea predictnl en ayuda para
mas información. Una característica útil de predictnl es que usted puede obtener los errores
estándar para más predicciones disponibles vía predict, y puede también obtener errores
estándar de funciones y combinaciones de esas predicciones.
9. Usted puede referir a los coeficientes y a los errores estándar en expresiones (tales como
generate); vea [U] 16.5 Accessing coeficientes and Standard errors.
10. Usted puede realizar pruebas en los parámetros estimados usando test (Contraste de Wald
para hipótesis lineales), testnl (Contraste de Wald para hipótesis no lineales), lrtest
(Contraste del ratio de verosimilitud), hausman (Prueba de especificación de Hausman), y
suest (generalización de la prueba de Hausman, y más). Usted también puede obtener
puntos estimados e intervalos de confianza para combinaciones lineales de parámetros
estimados usando lincom, o para combinaciones no lineales usando nlcom.
11. Usted puede almacenar los resultados de la estimación usando estimates store. Estos
resultados pueden ser restaurados, reutilizados, los coeficientes de una estimación o más
79
Stata 10.0 para economistas
Humberto Ortiz Ruiz
pueden ser combinados en una tabla, etc. Ver estimates en help. También se proporciona
otra herramienta que maneja los resultados de la estimación almacenados; ver _estimates
en help.
Además,
2. Muchos comandos de estimación pueden ser usados con el prefijo sw para realizar
stepwise estimation, ver sw en help.
80
Stata 10.0 para economistas
Humberto Ortiz Ruiz
3.2. Aplicación
La base de datos hprice2a.dta contiene información sobre el precio de casas ubicadas en 506
localidades de Boston. El objetivo es analizar que factores afectan a al logaritmo de precio
promedio de casas unifamiliares. Para ello se cuenta con información de factores relacionados
directamente al stock de casas como el número promedio de cuartos por casa (room) y
factores que impactan de manera indirecta (factores externos) al precio de las casas como la
contaminación del aire (medido por lnox), la distancia de una localidad a los centros laborales
(ldist), el ratio promedio de estudiantes/profesores en las escuelas locales (stratio).
Para realizar una estimación MCO tradicional en STATA se utiliza el comando regress. La
sintaxis del comando es:
regress depvar [varlist] [weight] [if exp] [in range] [, level(#) beta robust cluster(varname)
score(newvar) hc2 hc3 hascons noconstant tsscons noheader eform(string)
depname(varname)mse1 plus ]
Para efectuar cualquiera de los métodos de estimación posibles en Stata 10.0 utilizando las
ventanas emergentes debemos partir del menú Statistics. Además de los múltiples métodos de
estimación disponibles, podemos definir nuestros propios comandos desde el menú User, tal
como veremos en una sesión subsiguiente.
Para el caso de la estimación por MCO, desde el menú principal: Statistics/Linear regression
and related/linear regresión. En el cuadro de diálogo respectivo ingresamos la variable
dependiente lprice y las explicativas, que en este caso son: lnox, ldist, rooms, stratio
81
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Nota : Una forma alternativa de incluir las variables del modelo de regresión en el cuadro de
diálogo es haciendo clic sobre ellas.
Nota : En general todos los métodos de estimación en Stata 10 son similares, por lo que si
conocemos teóricamente un método de estimación la implementación mediante estos cuadros
de diálogo es muy simple. Además los procesos estadísticos luego de la estimación (intervalos
de confianza, prueba de hipótesis, etc) son similares en todas las metodologías. Stata puede
estimar varios tipos modelos, incluyendo la regresión logística, la regresión de Cox para riesgos
proporcionales, etc.
82
Stata 10.0 para economistas
Humberto Ortiz Ruiz
En la regresión hay dos fuentes de varianza, model y residual. En la tabla ANOVA se presentan
la suma de los cuadrados, los grados de libertad y la media esperada al cuadrado (división de
los dos anteriores).
Entre los estadísticos de bondad de ajuste más utilizados están R2, el R2 ajustado, y criterios de
información como Akaike y el Bayesiano o Schwarz. Las tres últimas medidas toman en cuenta
la bondad de ajsute del modelo y su parsimonía.
En el output se reporta los estimadores, sus errores estándar, los t estadísticos, el p-value
ahocicado a la hipótesis de βi = 0 y los intervalos de confianza a un nivel de confianza de 95%
(establecido por default). Se puede cambiar los niveles de confianza con la opción level().
STATA tiene la opción de reportar los “coeficientes beta”, tulizados en algunas disciplinas
sociales, que son definidos como ∂y * / ∂x * con y* = ( y − y ) / s y y x* = ( x − x ) / sx .
El comando reg es del tipo e-class. Se pueden recuperar distintos resultados del modelo
estimado:
83
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Con el comando estat se puede ver varios resultados luego de cualquier comando de
estimación como la matriz de varianzas y covarianzas, los estadísticos de información, entre
otros.
Los resultados del modelo estimado se pueden guardar utilizando el comando estimates store.
Adicionalmente se pueden organizar distintas ecuaciones estimadas a través del comando
estimates table.
84
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Hay grados de colinealidad entre las variables explicativas. Si al menos una variable es
perfectamente colineal con el resto de variables explicativas la matriz X’X será singular y no se
podrá relizar la estimación. STATA reconoce la colinealidad perfecta pero es difícil analizar
colinealidad cercana.
En el caso que exista colinealidad perfecta STATA elimina las variables hasta que la matriz X’X
sea numéricamente invertible. La colinealidad cercana se da cuando las correlaciones parciales
son altas o hay presencia de dependencias cercamente lineales en la matriz X. El no
cumplimiento del rango completo de X es un problema de la muestra. En el caso de colinealidad
cercana pequeños cambios en la matriz X generan cambios importantes en los coeficientes
estimados. El ajuste del modelo será bueno pero los coeficientes tendrán errores estándar
elevados, coeficientes con magnitudes elevadas o con signos incorrectos.
Para analizar la colinealidad se suele utlizar distintos diagnósticos entre ellos el VIF o variante
inflator factor el cual se define como (1 − Rk2 ) −1 .
Para detectar colinealidad cercana en una regresión se puede utilizar la condición de numero de
X’X que mide la sensibilidad de los estimadores ante variaciones en X. Una condición de
número elevada indica que pequeños cambios en X puenden generar importantes cambios en
los estimadores. Besley propone que una condición de número superio a 20 es indicio de
colinealidad cercana. Por otro lado, no hay un test estadístico que permita analizar si la
condición de rango se cumple.
Si el análisis VIF indica que hay colinealidad se debe ver si esta afecta o no a los estimadores.
Debemos tomar en cuenta que muchas variables macroeconómicas están intecorrelacionadas.
Si la colinealidad afecta adversamente a la ecuación de regresión se pueden seguir dos
caminos: (i) especificar nuevamente el modelo de forma tal de reducir la dependencia lineal de
las explicativas o (ii) adquirir una muestra más grande y mejor.
85
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Se pueden realizar una serie de pruebas de hipótesis a los estimadores del modelo de
regresión. Los test mñas populares en eocnometria son el test de Wald, multiplicadores de
Lagrange (LM) y el test rario verosimilitud (LR). Un conjunto de purebas de hipótesis se pueden
formular mediante la comparación del modelo irrestricto y del modelo restricto. El test de wald
compara el modelo restricto y del irrestricto con el objetivo de analizar si hay evidencia de que
las restricciones planetadas no se cumplen. El test LM evalúa si los estimadores puntuales
restrictos pueden reproducir los estimadote irrestricstos. El test LR ebvalúa la función objetivo
del modelo restricto y del irrestricto.
STATA tiene tres comandos útiles para probar una serie de hipótesis para restricciones lineales
luego de una regresión: test, testparm y lincom.
Para realizar una serie de pruebas de hipótesis individuales utilizando el test de Wald:
86
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Las test antes desarrollados involucran restricciones lineales a los parámetros que son objeto
de estudio. Sin embargo, en algunas situaciones es necesario probar hipótesis que involucran
restricciones no lineales. STATA tiene dos comandos para evaluar hipótesis con restricciones
no lineales testnl y nlcom. Ambos comandos usan el método delta para construir test de tipo
Wald. Estos test son sensibles a la escala de las variables consideradas en el modelo de
regresión.
En algunos casos es necesario comparar modelos que no están anidados. Es decir se quiere
realizar la siguiente prueba de hipótesis:
H 0 : y = xβ + ε 0
H1 : y = zγ + ε1
El test incorpora dicha hipótesis. Dicho test fue porpuesto por Davidson y MacKinnon (1981). El
test J se basa en la siguiente idea: si el modelo 0 tiene mejor poder explicativo que 1 el modelo
0 es superior y viceversa. Un test similar es el propuesto por Cox-Pesaran-Deaton el cual se
basa en un test ratio verosimilitud.
87
Stata 10.0 para economistas
Humberto Ortiz Ruiz
3.5. Predicción
Luego de estimar la regresión se pueden calcular los residuos o los valores predichos. Los
residuos de cada observación permiten evaluar si el modelo de regresión explica los valores de
la variable de respuesta para cada observación. Adicionalmente se pueden obtener
predicciones dentro de la muestra y fuera de esta. Si el modelo está bien especificado debería
generar predicciones razonables para cualquier muestra de la población.
La regresión estimada solo estará disponible para predict hasta que el próximo comando de
estimación sea utilizado.
88
Stata 10.0 para economistas
Humberto Ortiz Ruiz
E ( y / x 0 ) = x 0β = y0
Mientras que dado un valor x0 para un valor y0 el error de predicción será (forecast error):
eˆ0 = y0 − yˆ 0
Se pueden obtener intervalos de confianza tanto para el valor predicho como para el pronóstico.
11
Log price actual y predicho
10 9.5 10.5
89
Stata 10.0 para economistas
Humberto Ortiz Ruiz
90
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Comando Predict
91
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El comando mfx calcula los efectos marginales luego de una estimación puntual o por
intervalos:
Con el commando mfx se pueden calcular los efectos marginales, las elasticidades y
semielasticidades, medidas de interés en el análisis económico. Los efectos son calculados en
el valor medio de las variables por default.
Se puede realizar una serie de estudios con los resultados del comando mfx. Por ejemplo se
puede analizar como varía la elasticidad para distintos valores de las variables explicativas
como se muestra en el gráfico siguiente.
92
Stata 10.0 para economistas
Humberto Ortiz Ruiz
2000022000240002600028000
-1.5
12 14 16 18 20 22
Ratio estudiante/profesor (percentiles 1 10 25 50 75 90 99) ...
Elasticidad IC 95%
Precio promedio predicho
93
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Uno de los supuestos realizados en el apartado 4.2. tiene que ver con la forma funcional. Se
asumió que la forma funcional fue correctamente especificada. Al respecto si el supuesto:
E (u / x1 ,..., xk ) = 0
No se cumple luego los estimadores serán inconsistentes. Hay tres problemas que generan el
no cumplimiento del supuesto:
La especificación de un modelo tiene que ver con los regresores incluídos en el modelo de
regresión y la forma funcional especificada. La consistencia de los estimadores requiere que la
función muestral especificada corresponda con la función de regresión poblacional. Al respecto
la teoría económica muchas veces indican algunas guías de cómo debe ser la forma funcional
pero no precisa explícitamente como se deben especificar las variables o como deben entrar al
modelo los elementos estocásticos.
Una primera aproximación para ver la relación funcional de las variables es con el análisis
gráfico. En el caso de un modelo multivariado, el ploteo bivariado puede ser útil.
94
Stata 10.0 para economistas
Humberto Ortiz Ruiz
1.5 2 2.5 4 6 8
11
10
log(price)
9
8
2.5
2
log(nox)
1.5
3
2
log(dist)
1
0
8
avg
number of
6 rooms per
house
4
20
average
student-teacher 15
ratio
10
8 9 10 11 0 1 2 3 10 15 20
Otra herramienta útil son los ploteos de variable añadida. Este tipo de ploteos identifican
variables importantes en una relación a través de la descomposición de una relación
multivariada en ploteos de dos dimensiones.
El ploteo de variable añadida se basa en dos residuos. Un residuo (e1) de la regresión entre xg
y el resto de variables explicativas y otro residuo (e2) de la regresión de y con respecto a todos
los regresores excepto xg. Si la la pendiente de la relación lineal entre los residuos es
significativamente distinta a cero luego xg dará una contribución importante al modelo en adición
al resto de variables. Con el comando avplot se puede realizar este análisis.
95
Stata 10.0 para economistas
Humberto Ortiz Ruiz
-1 -.5 0 .5 1 1.5
-1 -.5 0 .5 1 1.5
e( lprice | X )
e( lprice | X )
-.2 -.1 0 .1 .2 .3 -1 -.5 0 .5 1
e( lnox | X ) e( ldist | X )
coef = -.66156942, se = .12016057, t = -5.51 coef = -.09508697, se = .04214348, t = -2.26
-1 -.5 0 .5 1 1.5
-1 -.5 0 .5 1 1.5
e( lprice | X )
-1 -.5 0 .5 1 1.5
e( lprice | X )
e( lprice | X )
-5 0 5 -1 -.5 0 .5
e( stratio | X ) e( lproptax | X )
coef = -.03629279, se = .00606988, t = -5.98 coef = -.22111248, se = .04102017, t = -5.39
En la medida que hay asimetrías en los errores de especificación una estrategia adecuada sería
empezar con una especificación general y refinar el modelo imponiendo restricciones
adecuadas. La estrategia de simplificación recursiva es preferible.
96
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Otra forma de analizar si la especificación es adecuada es utilizar los ploteos de los residuos. Si
los residuos muestran un patrón puede ser signo de error en la especificación.
1.5
1 .5
Residuals
0 -.5
-1
9.5 10 10.5 11
Fitted values
97
Stata 10.0 para economistas
Humberto Ortiz Ruiz
1.5
1 .5
Residuals
0 -.5
-1
0 .5 1 1.5 2 2.5
log(dist)
98
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Para analizar la especificación del modelo se debe considerar evidencia con respecto a la
robustes del modelo ante la presencia de datos influyentes (influencial data). Los coeficientes
estimados pueden estar fuertemente afectados por unos pocos datos o inestabilidad estructural
en submuestras.
Hay una amplia variedad de estadísticos que analizan los datos influyentes y su relación con los
datos y el modelo predicho. Se suele denominar un outlier a una observación con un valor
inusual el cual está asociado a un residuo alto y un pobre ajuste del modelo en dicho valor7. Se
dice que una observación tiene un gran efecto “palanca” si su inclusión en la muestra altera a
los estimadores en una magnitud considerable. Observaciones con residuos elevados tendrán
un gran efecto “palanca”. Las medidas de influencia y de la identificación de las observaciones
influyentes consideran el efecto “palanca”.
Un estadístico que toma en cuenta tanto el efecto palanca como los residuos es DFITs. Un alto
valor de los residuos y un alto efecto palanca incrementan el estadístico DFIT. Dicho estadístico
evalúa el resultado de la regresión incluyendo y excluyendo cada observación. Se asume que si
DFITj > 2 k / N indica que la observación es altamente influyente.
7
Sin embargo se debe tomar en cuenta que un valor inusualmente elevado puede estar asociado a un residuo bajo en
la medida que MCO se basa en dismunir los errores al cuadrado.
99
Stata 10.0 para economistas
Humberto Ortiz Ruiz
100
Stata 10.0 para economistas
Humberto Ortiz Ruiz
101
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Si los términos de perturbación no son iid, los estimadores MCO siguen siendo consistentes
pero el estimador matriz de varianza y covarianzas de los estimadores no será consistente
(¿cuál es el efecto sobre el modelo de regresión?). Se sigue asumiendo que la esperanza
condicional del error es igual a cero.
Hay dos posibles casos en donde no se cumple el supuesto iid. Cuando la varianza condicional
de los errores cambian entre observaciones, problema conocido como heterocedasticidad, el
supuesto iid no se cumple. Asimismo, cuando los errores están correlaciondos unos con otros
no estarán independientemente distribuídos, situación que se suele denominar autocorrelación.
σ 12 0 ... 0
0 σ 22 ... 0
Σu =
...
0 0 ... σ N2
El segundo caso se da cuando las observaciones se pueden separar por grupos o clusters,
existiendo correlación de los errores en cada uno de los grupos pero no entre grupos.
Σ1 0 ... 0
0 Σm ... 0
Σu =
...
0 0 ... Σ M
1 ρ1 ... ρ N −1
2
ρ1 1 ... ρ 2 N −3
Σu = σ u
...
ρ N −1 ρ 2 N −3 ... 1
3.8.2. Heterocedasticidad
8
Cuando z=x, es decir cuando en la regresión auxiliar aparecen todas las variables explicativas del modelo. El test de
white es otro tipo de test que es igual a N*R2 de la regresión auxiliar pero involucra muchas explicativas en la
regresión auxiliar. Una forma alternativa del test de White es utilizar los valores predichos y sus cuadrados.
Disponible con el comando whitetst de ssc.
103
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Existe correlación serial cuando el término de perturbación está correlacionado con sus rezagos
a través del tiempo. A diferencia de los datos de corte transversal, los datos de series de tiempo
104
Stata 10.0 para economistas
Humberto Ortiz Ruiz
tienen por la naturaleza misma de su proceso generador de datos dinámica que si no es bien
captada en el modelo ocasiona que se presente correlación serial.
Esto causa que la matriz de varianza-covarianzas de las observaciones no sea la que se asume
en MRLC, por lo que se recomienda es aplicar MCG, pero si no se conoce a ciencia cierta la
forma de esta matriz (que es el caso más común) se aplica MCGF.
Hay una serie de estadísticos que evalúan si si los errores presentan autocorrelación, es decir si
se cumple:
cov(u i , u j ) = 0
donde i ≠ j
∑ (e − e
t=2
t t −1 )2
e12 + eT2
d= T
= 2(1 − r ) − T
∑ et2
t =1
∑e
t =1
2
t
e12 + eT2
d = 2(1 − r ) − T
∑e
t =1
t
2
d = 2(1 − r )
0 dL dU 4-dU 4 - dL 4
105
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Se busca en las tablas los valores correspondientes a dL y dU, necesitándose para ello el
número de observaciones y el número de regresores sin la constante.
Godfrey y Breusch (1978) proponen una generalización al test de Durbin Watson donde la
hipótesis alternativa es que existe correlación serial de orden p. LM se distribuye
asintóticamente como una chi cuadrado con grados de libertad igual al número de variables
independientes. Este test sirve para detectar la presencia de correlación serial. La hipótesis nula
es que los errores no presentan autocorrelación.
Una variante del test de G-B es el test Q de Box y Pierce (1970) que se basa en la estimaciñon
de las primeras pautocorrelaciones muestrales de los residuos.Desde que dicho test está
basado en las correlaciones simples de los residuos antes que en las correlaciones parciales es
menos potente que el test GB9.
4.8.3.1. Aplicación
Para analizar la autocorrelación serial utilizaremos una base de datos de series de tiempo. La
base de datos ukrates.dta contiene una serie de tasas de interés de corto plazo (rs) y largo
plazo (rs20) de activos del gobierno del Reino Unido de frecuencia mensual para el periodo
1952m3-1995m12.
9
Es menos potente para rechar una H0 falsa.
106
Stata 10.0 para economistas
Humberto Ortiz Ruiz
0.15 0.10
Autocorrelations of eps
-0.05 0.00 0.05
-0.10
0 10 20 30 40
Lag
Bartlett's formula for MA(q) 95% confidence bands
4.8.3.2.Corrección
107
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Y = Xβ + u ,donde u t = ρu t −1 + ε t
108
Stata 10.0 para economistas
Humberto Ortiz Ruiz
E (u / x1 ,..., xk ) = 0
Dicho supuesto no se cumple en los siguientes casos: (i) endogeneidad10, (ii) sesgo de
variables omitidas y (iii) errores en las variables. En todos los casos se utiliza la misma
herramienta econométrica, el estimador de variables instrumentales (VI).
y = Xβ + u
Sea la matriz Z que contiene las variables instrumentales (VI) válidas, en el caso que el modelo
este exactamente identificado luego
−1
βˆ VI = ( Z ' X ) Z ' y
Un estimador de VI muy utilizado es MCO 2 etapas (2SLS). Sea Znxl con l>k, el estimador 2SLS
se define como:
−1
βˆ 2 SLS = ( X ' Pz X ) X ' Pz y
−1
Con Pz = Z ( Z ' Z ) Z ' . El estimador 2SLS puede ser calculado por el comando ivregress.
3.9.1. Identificación
Los parámetros de una ecuación se dicen que están identificados cuando hay los suficientes
instrumentos válidos tales que el procedimiento 2SLS produce un único estimador. Una
ecuación estará identificada si lo están los parámetros de la misma.
El estimador 2SLS será único si se cumple la condición de rango que indica que
Rango( Z ' X )=k, siendo una condición necesaria l ≥ k. Se dice que la ecuación estará
exactamente identificada si Rango( Z ' X )=k y sobreidentificada si Rango( Z ' X )>k.
10
Determinación simulatánea de los regresores y la variable de respuesta.
109
Stata 10.0 para economistas
Humberto Ortiz Ruiz
A la hora de definir la versión simple del estimador VI y el estimador 2SLS se asumió que
los errrores eran iid. Sin embargo hay otro estimador general basado en el método
generalizado de momentos que producen estimadores consistentes y eficientes en
presencia de errores no iid.
y = Xβ + u
Con E (uu '/ X) = Ω . La matriz X contiene los regresores {x1 x 2 } donde los k1 regresores
x1 son considerados endógenos y el resto exógenos.
Los instrumentos z exógenos, tales que E(zu)=0, generan los siguientes momentos:
gi ( β ) = Zi ' ui = Zi '( yi − xi β )
N N
1 1 1
g (β ) =
N
∑ gi ( β ) =
i =1 N
∑z
i =1
i '( yi − xi β ) =
N
Z 'u
−1
βˆGMM = ( X'ZWZ'X ) X'ZWZ'y
S = E (Z'uu'Z) = E (Z'ΩZ)
Obteniéndose
−1
βˆEGMM = ( X'ZS -1Z'X ) X'ZS -1Z'y
110
Stata 10.0 para economistas
Humberto Ortiz Ruiz
−1
(
βˆFEGMM = X'ZSˆ -1Z'X ) X'ZSˆ -1Z'y
Se pueden utilizar los test planetados por Sargan (1958) y Bassman (1960) para el caso de
la estimación 2SLS. Mientras que en el caso del procedimiento GMM se puyede utilizar el
test J planteado por Hansen (1982).
Una manera de realizar un test de endogeneidad es comparando los estimadores MCO con
los de VI mediante el test de Durbin-Wu-Hausman. En su forma general el test tiene la
siguiente forma:
Donde D = Var ( βˆC ) − Var ( βˆe ) donde Var ( βˆ ) denota el estimador consistente de la
varianza asintótica de βˆ .
111
Stata 10.0 para economistas
Humberto Ortiz Ruiz
3.9.5. Aplicación
La base de datos a utilizar contiene una serie de variables que se utilizaron en el estudio de
los salarios de mujeres jóvenes. La función de salarios se modela como un función de las
siguientes variables: s (años de escolaridad), exp. (experiencia), tenure (ocupación laboral),
rns (número indice que indica si radica en la zona sur), smsa (indicador de urbano versus
rural) y un conjunto de dummies de años. La variable explicativa endógena es iq
(calificación IQ del trabajador) que es considerada una proxy de habilidad con errores de
medida. La variable iq es instrumentazada por 4 variables (o instrumentos): med (nivel de
educación de la madre), kww (puntuación de otro test estándar), age (años del trabajador) y
mrt (indicador del estado civil).
2SLS
112
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Test de sobreindentificación
113
Stata 10.0 para economistas
Humberto Ortiz Ruiz
114
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Test de sobreindentificación
115
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Test de endogeneidad
116
Stata 10.0 para economistas
Humberto Ortiz Ruiz
En el manejo de bases de datos que involucran tanto unidades de corte transversal como de
series de tiempo se pueden dar una serie de situaciones: (i) combinar bases de datos de corte
transversal o (ii) crear una base de datos con características de serie de tiempo y corte
transversal.
STATA diferencia dos tipos de formatos en bases de datos: wide format y long format. Las
bases de datos denominadas wide format son aquellas donde la misma variable en diferentes
puntos aparece como variables separadas.
En las bases de datos long format la información aparece apilada, es decir la información de
una variable en distintos puntos aparece como una sola variable.
117
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El comando reshape permite transformar una base de datos de formato wide a formato long (y
viserversa).
Une los datos en formato STATA guardados en el disco al final de la base carga en la memoria.
El nombre de la base de datos, cuyos registros serán añadidos, con using. La base de datos
creada es del tipo long.
Ejemplo
cd "..."
use phila, clear
summ
use kcity, clear
summ
118
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Une a las observaciones del archivo cargado en la memoria las observaciones de otro que está
en el disco, cuyo nombre se señala con using11.
Cuando se fusionan bases de datos con el comando merge se están agregando variables a un
registro, por lo cual es crucial saber si un registro está en la base master (la que está cargada
en la memoria) o en la bases using.
El comando merge automáticamente genera una variable _merge que toma distintos valores
dependiendo si un registro sólo esta presente en una de las dos bases o está presente en las
dos12.
Ejemplo
Ahora trabajemos con nuestra base mensual del PBI por sectores económicos. Utilizamos el
comando describe o con el comando browse, con el cual podemos verlo como una hoja de
Excel.
Esta será nuestra base de datos master. Como se muestra las variables están ordenadas por
meses.
Debemos de generar la base de datos using para hacer el correspondiente merge. La variable
que nos permitirá hacer la adecuada correspondencia entre las bases de datos será mes. En
primer lugar, las 2 bases deberán estar ordenadas por la correspondiente variable que permitirá
la asociación.
use pibmensual
sort mes
save, replace
use labels
sort mes
save, replace
clear
Luego cargamos nuestra base de datos master. Y utilizamos el comando merge para realizar la
asociación de las bases de datos:
use pibmensual
merge mes using labels
save pbi, replace
Ejercicio
11
Se utiliza ara realizar uniones 1 a 1 o de macthing (1 a muchos). Se diferencia de append ya que dicho comando
sólo incluye las observaciones de forma vertical, mientras que merge de forma horizontal.
12
_merge=1 para observaciones sólo de la base maestra, _merge=2 para observaciones sólo de la base esclava (en
memoria), _merge=3 para observaciones que están en ambas bases
119
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Suponga que usted debe consolidar la información de las siguientes bases de datos para
generar un reporte. Como parte del trabajo del investigador es acopiar y consolidar la
información, este problema es muy común.
Base1.dta base3.dta
nombre sexo micro macro nombre Sexo econometria mate
Juan 1 15 12 Juan 1 14 15
Rosa 2 14 13 Rosa 2 12 17
Ricardo 1 14 17
Base2.dta base4.dta
nombre sexo micro macro nombre sexo econometria
Helena 2 18 16 helena 2 13
Jorge 1 11 14 Jorge 1 16
Paola 2 15 Paola 2 19
Alexis 2 10 16 Alexis 2 11
El comando collapse convierte una base de datos en la memoria en una base de medias,
sumas, medianas, entre otros.
Ejemplo
A partir de la base de datos mensuales del pbi se quiere obtener el pbi trimestral para los
distintos años.
120
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ejercicio
Suponga que tiene la siguiente información sobre los hogares, pero se necesita obtener para
cada individuo el ingreso familiar y la edad del jefe de familia (codperso igual a 1).
base7.dta
codperso codhogar edad ingreso
1 172 35 1500
2 172 29 1200
1 185 48 450
2 185 45 800
3 185 24 500
4 185 19 0
1 190 25 2200
2 190 24 1500
3 190 2
El resultado es:
121
Stata 10.0 para economistas
Humberto Ortiz Ruiz
El objetivo de este apartado es hacer una introducción de algunos comandos de STATA útiles
para analizar datos de encuestas que utilizan distintas formas de muestreo (o diseños
muestrales).
A la hora de realizar encuestas muy rara vez se utiliza la técnica de muestreo aleatorio simple
en la medida que muchas veces es imposible de realizarla y no es tan eficiente, en térmninos
financieros y estadísticos, que otros métodos de muestreo.
Las características comunes entre los distintos diseños muestrales son: pesos o
pondereaciones, las unidades primarias de muestreo (PSU), estratos (STRATA) y corrección de
población finita (FPC). El diseño muestral tiene como elementos los pesos, PSUs, strata y
pesos replicados (si aplica).
122
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Aplicación ENAHO
Inicio: 1995. Ha sido llevada a cabo trimestralmente hasta el cuarto trimestre del año 2002. En
mayo del 2003 empezó a realizarse en forma continua.
Objetivos:
Diseño muestral:
• Tipo de muestreo:
Probabilística, de áreas, estratificado, multietápico e independiente en cada departamento
de estudio.
123
Stata 10.0 para economistas
Humberto Ortiz Ruiz
En cada trimestre la ENAHO suele abarcar un tema particular, los cuales son presentados a
continuación:
Inferencia, Solo se puede hacer inferencia a partir de los datos a nivel departamental. A nivel
provincial solo se pude hacer inferencia en Lima Metropolitana y en la Provincia Constitucional
del Callao.
Nota: En la siguiente dirección se pueden hacer todo tipo de preguntas acerca de la ENAHO y
serán respondida por el INEI: http://www.inei.gob.pe/ineibpr/enahobpr.htm.
124
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Una de las ventajas que ofrece el Stata para el análisis de Encuestas como la ENAHO, con
Diseño muestral complejo, es que permite calcular los estimadores teniendo en cuenta el diseño
muestral de la misma (diferente al muestreo aleatorio simple). Además, Stata proporciona
estadísticos con los cuales se puede evaluar la confiabilidad del resultado en forma
simultánea a su estimación. De esta manera el usuario está en la capacidad de interpretar y
utilizar adecuadamente cada estimación proveniente de la encuesta.
Los principales elementos que se deben tener en cuenta en el trabajo con datos de encuestas
por muestreo son:
125
Stata 10.0 para economistas
Humberto Ortiz Ruiz
svydes
. svydes
pweight: factor
Strata: estrato
PSU: conglome
#Obs per PSU
Strata ----------------------------
estrato #PSUs #Obs min mean max
-------- -------- -------- -------- -------- --------
1 147 3045 2 20.7 42
2 39 779 6 20.0 32
3 25 478 7 19.1 27
4 40 738 4 18.4 32
5 88 1630 4 18.5 31
-------- -------- -------- -------- -------- --------
5 339 6670 2 19.7 42
126
Stata 10.0 para economistas
Humberto Ortiz Ruiz
--------------------------------------------------------------
| Linearized
| Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
p209 | 3.713544 .0329931 3.648644 3.778445
--------------------------------------------------------------
.
. svy: mean p510 if(p207==1)
(running mean on estimation sample)
--------------------------------------------------------------
| Linearized
| Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
p510 | 3.573739 .0536138 3.468216 3.679262
--------------------------------------------------------------
.
. svymean p510, by (p209)
------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Deff
---------------+--------------------------------------------------------------
p510 |
convivie | 3.559847 .0903714 3.382023 3.73767 1.422119
127
Stata 10.0 para economistas
Humberto Ortiz Ruiz
.
. svymean p510, by (estrato) ci obs
------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Obs
---------------+--------------------------------------------------------------
p510 |
ciudades | 3.514729 .0664502 3.383976 3.645483 838
grandes_ | 3.036716 .1306384 2.77966 3.293773 209
ccpp_de_ | 3.257252 .258756 2.748098 3.766405 130
ccpp_de_ | 3.336897 .2070024 2.929579 3.744215 130
area_rur | 3.552544 .1029107 3.350047 3.755041 225
------------------------------------------------------------------------------
128
Stata 10.0 para economistas
Humberto Ortiz Ruiz
. svyprop p207
------------------------------------------------------------------------------
pweight: factor Number of obs = 10085
Strata: estrato Number of strata = 5
PSU: conglome Number of PSUs = 339
Population size = 26697712
------------------------------------------------------------------------------
+----------------------------------------+
| p207 Obs Est. Prop. Std. Err. |
|----------------------------------------|
| hombre 5064 0.504905 0.005293 |
| mujer 5021 0.495095 0.005293 |
+----------------------------------------+
.
. svyprop p209 if (p207==1)
------------------------------------------------------------------------------
pweight: factor Number of obs = 3578
Strata: estrato Number of strata = 5
PSU: conglome Number of PSUs = 339
Population size = 9628006
------------------------------------------------------------------------------
+------------------------------------------+
| p209 Obs Est. Prop. Std. Err. |
|------------------------------------------|
| convivie 653 0.168261 0.009034 |
| casado ( 1133 0.317648 0.010693 |
| viudo (a 85 0.021831 0.002934 |
| divorcia 5 0.000593 0.000299 |
| separado 78 0.020051 0.002876 |
|------------------------------------------|
| soltero 1624 0.471616 0.010434 |
+------------------------------------------+
129
Stata 10.0 para economistas
Humberto Ortiz Ruiz
------------------------------------------------------------------------------
pweight: factor Number of obs = 7283
Strata: estrato Number of strata = 5
PSU: conglome Number of PSUs = 339
Population size = 19469826
------------------------------------------------------------------------------
-> p207=hombre
+------------------------------------------+
| p209 Obs Est. Prop. Std. Err. |
|------------------------------------------|
| convivie 653 0.168261 0.009034 |
| casado ( 1133 0.317648 0.010693 |
| viudo (a 85 0.021831 0.002934 |
| divorcia 5 0.000593 0.000299 |
| separado 78 0.020051 0.002876 |
|------------------------------------------|
| soltero 1624 0.471616 0.010434 |
+------------------------------------------+
-> p207=mujer
+------------------------------------------+
| p209 Obs Est. Prop. Std. Err. |
|------------------------------------------|
| convivie 662 0.167090 0.009397 |
| casado ( 1123 0.309550 0.009331 |
| viudo (a 259 0.074677 0.005631 |
| divorcia 15 0.002292 0.000926 |
| separado 274 0.070115 0.005477 |
|------------------------------------------|
| soltero 1372 0.376277 0.008808 |
+------------------------------------------+
130
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Produce una tabla de dos entradas con la proporción de la muestra que pertenece a
cada celda (cruce da variables), respecto al total de la muestra.
Para modificar el contenido de la tabla se deben especificar los estadísticos después de
una coma
En caso de que se desee estimar las proporciones respecto a filas o columnas, basta
con indicar row o column después de la coma.
Se puede utilizar la opción if
--------------------------------------------------------------------------------
estrato |
geogr fic | estado civil
o | convivie casado ( viudo (a divorcia separado soltero Total
----------+---------------------------------------------------------------------
ciudades | .076 .1586 .0224 .0013 .0261 .2272 .5116
grandes | .0149 .0324 .005 1.4e-04 .0059 .053 .1113
ccpp de | .0063 .0148 .0022 6.4e-06 .0026 .0182 .0441
ccpp de | .0248 .0356 .0069 0 .0042 .042 .1134
area rur | .0456 .0721 .0121 0 .0066 .0831 .2196
|
Total | .1677 .3136 .0485 .0015 .0454 .4234 1
--------------------------------------------------------------------------------
Key: cell proportions
Pearson:
Uncorrected chi2(20) = 95.6171
Design-based F(8.90, 2972.66)= 2.2077 P = 0.0195
131
Stata 10.0 para economistas
Humberto Ortiz Ruiz
. svytab,se ci deff
--------------------------------------------------------------------------------------
estrato |
geogr fic | estado civil
o | convivie casado ( viudo (a divorcia
----------+---------------------------------------------------------------------------
ciudades | .076 .1586 .0224 .0013
| (.007) (.0093) (.0023) (5.1e-04)
| [.0634,.0909] [.1412,.1778] [.0183,.0275] [6.0e-04,.0028]
| 5.039 4.714 1.792 1.469
|
grandes | .0149 .0324 .005 1.4e-04
| (.0032) (.0057) (9.5e-04) (8.1e-05)
| [.0098,.0226] [.0229,.0456] [.0035,.0073] [4.4e-05,4.4e-04]
| 4.951 7.442 1.316 .3445
|
ccpp de | .0063 .0148 .0022 6.4e-06
| (.0013) (.0037) (6.4e-04) (6.4e-06)
| [.0042,.0095] [.009,.0242] [.0012,.0039] [8.9e-07,4.6e-05]
| 2.021 6.924 1.394 .0467
|
ccpp de | .0248 .0356 .0069 0
| (.0033) (.0048) (.0017) (0)
| [.0191,.0322] [.0273,.0464] [.0042,.0111]
| 3.257 4.941 3.011
|
area rur | .0456 .0721 .0121 0
| (.0049) (.0062) (.0023) (0)
| [.0369,.0562] [.0609,.0852] [.0084,.0175]
| 3.948 4.134 3.106
|
Total | .1677 .3136 .0485 .0015
| (.009) (.0092) (.0033) (5.2e-04)
| [.1507,.1861] [.2958,.3319] [.0424,.0555] [7.2e-04,.0029]
| 4.221 2.856 1.717 1.362
--------------------------------------------------------------------------------------
132
Stata 10.0 para economistas
Humberto Ortiz Ruiz
-------------------------------------------------------------------
estrato |
geogr fic | estado civil
o | separado soltero Total
----------+--------------------------------------------------------
ciudades | .0261 .2272 .5116
| (.0026) (.0111) (.0198)
| [.0214,.0317] [.2061,.2497] [.4726,.5504]
| 1.94 5.109 11.44
|
grandes | .0059 .053 .1113
| (.0013) (.01) (.018)
| [.0038,.0092] [.0364,.0765] [.0805,.1521]
| 2.185 14.61 23.97
|
ccpp de | .0026 .0182 .0441
| (5.6e-04) (.0042) (.0095)
| [.0017,.004] [.0115,.0287] [.0288,.0671]
| .8885 7.358 15.62
|
ccpp de | .0042 .042 .1134
| (.0012) (.006) (.0121)
| [.0024,.0073] [.0317,.0554] [.0918,.1394]
| 2.531 6.447 10.54
|
area rur | .0066 .0831 .2196
| (.0012) (.0065) (.0147)
| [.0046,.0094] [.0712,.0969] [.1921,.2498]
| 1.6 4.075 9.149
|
Total | .0454 .4234 1
| (.0032) (.0073)
| [.0394,.0522] [.4092,.4377]
| 1.762 1.569
-------------------------------------------------------------------
Key: cell proportions
(standard errors of cell proportions)
[95% confidence intervals for cell proportions]
deff for variances of cell proportions
Pearson:
Uncorrected chi2(20) = 95.6171
Design-based F(8.90, 2972.66)= 2.2077 P = 0.0195
133
Stata 10.0 para economistas
Humberto Ortiz Ruiz
. svytab, row
--------------------------------------------------------------------------------
estrato |
geogr fic | estado civil
o | convivie casado ( viudo (a divorcia separado soltero Total
----------+---------------------------------------------------------------------
ciudades | .1486 .31 .0438 .0026 .051 .444 1
grandes | .1337 .2909 .0452 .0013 .0531 .4758 1
ccpp de | .1436 .3355 .0489 1.4e-04 .0593 .4126 1
ccpp de | .2188 .3141 .0604 0 .0368 .3699 1
area rur | .2077 .3285 .0551 0 .03 .3787 1
|
Total | .1677 .3136 .0485 .0015 .0454 .4234 1
--------------------------------------------------------------------------------
Key: row proportions
Pearson:
Uncorrected chi2(20) = 95.6171
Design-based F(8.90, 2972.66)= 2.2077 P = 0.0195
134
Stata 10.0 para economistas
Humberto Ortiz Ruiz
5.1. Introducción
Los métodos de estimación expuestos hasta el momento (MCO, VI, GMM) tienen como
requisito que la variable dependiente sea observada en una escala continua o irrestricta (por
ejemplo PBI, ingreso, consumo, etc.) Sin embargo, es muy común que dicha condición no se
cumpla. Hay casos en los cuales la variable dependiente es una variable discreta o es una
variable dependiente limitada.
a. Cualitativas
b. Trucadas o censuradas (variables condicionadas)
c. Que toman valores enteros
o Binarias. Son variables que tienen dos categorías. Usualmente indican la ocurrencia de
un evento o la presencia de una característica. Ejm. ¿es más probable que un
consumidor compre una marca a otra?, ¿se respondió a alguna pregunta específica de
una encuesta?
o Ordinales. Son variables en donde sus categorías pueden ser ordenadas o rankeadas.
Ejm. preguntas que buscan medir el grado de aprobación de algo, la frecuencia de la
ocurrencia de algún evento, de orientación política, entre otros.
o Censuradas. Son variables limitadas. Este tipo de variables se generan cuando sus
valores no son conocidos para un cierto rango de la variable. Ejm. gasto en bienes
durables, medición de salarios por hora, entre otros.
La censura se puede dar por razones metodológicas. Ejm. en el censo de 1990 todos los
salarios por encima de 140,000 fueron registrados en 140,000 por motivos de
confidencialidad.
o De conteo. Indican el número de veces que ocurre un evento. Toman valores enteros
no negativos. Se utilizan las regresiones de Poisson para modelar este tipo de variables.
Ejm. número de veces que una persona a visitado al doctor el último año, número de
artículos que un científico a publicado, entre otros.
135
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Supongamos que un investigador está interesado en analizar la PEA, diferenciando entre PEA
ocupada y no ocupada, es decir:
1 si PEA ocupada
yi =
0 si PEA no ocupada
Una alternativa es regresionar el siguiente modelo vía MCO, que se conoce como modelo de
probabilidad lineal:
yi = x i β + ui
136
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Para resolver estos problemas se asume usualmente una variable latente, no observable, Yi*,
que determina el valor de la variable dicótomica que observamos.
El modelo estructural es
y* = xβ + e
1 si yi* = xi β + vi > 0
yi =
0 en otro caso
La variable que observamos sólo se dará si para cada observación de la muestra se cumple
que ei > − xi β . La probabilidad que tal situación ocurra es:
P( yi = 1) = P (ei > − xi β )
P( yi = 1) = 1 − G (− xi β ) = G ( xi β )
137
Stata 10.0 para economistas
Humberto Ortiz Ruiz
De forma similar:
P( yi = 0) = G (− xi β ) = 1 − G ( xi β )
La forma de G(.) dependerá del supuesto que se formule para vi (que puede ser normal,
logística, etc.).
5.2.2. Estimación
Se pueden estimar los parámetros del modelo utilizando el método máxima verosimilitud. Sea la
función de densidad condicional
y 1− y
f ( y / x; β) = [G (xi β) ] [1 − G (xi β)]
La función máximo verosimil para toda la muestra, dado que las observaciones son iid, está
dada por:
n
l ( β ) = ∑ yi log(1 − G (− xi β )) + (1 − yi ) log(G (− xi β ))
i =0
Donde las condiciones de primer orden son no lineales obteniéndose las estimaciones de los
parámetros vía iteración.
Amemiya (1985) indica las condiciones bajo las cuales dicha función es globalmente cóncava,
lo que asegura la unicidad de los estimadores MV. Dichos estimadores son consistentes,
asintóticamente normales y eficientes.
Notemos que el valor esperado de yi viene dado simplemente por la probabilidad de que yi=1,
es decir:
E ( yi = 1 X i , β ) = 1* P( y ) + 0* P( yi = 1 xi , β ) = P( yi = 1 xi , β )
Así, se puede describir el modelo bivariado como un modelo de regresión tal que:
yi = E ( yi X i , β ) + ei
Yi = 1 − G (− X i β ) + ei
donde
138
Stata 10.0 para economistas
Humberto Ortiz Ruiz
E (ei xi , β ) = 0
Var (ei X i , β ) = G (− xi β )(1 − G (− xi β ))
El modelo Probit asume que la distribución del error es una normal estándar de forma tal que:
P( yi = 1 xi , β ) = 1 − Φ (− xi β ) = Φ ( xi β )
Mientras que el modelo Logit asume que el error sigue una distribución logística, es decir:
e− xi β e xi β
P( yi = 1 xi , β ) = 1 − − xi β = xi β
1− e 1− e
5.2.5. Interpretación
a. Rango de probabilidades
( y = 1 / x ) = G( x β )
P i i i
El rango para cada explicativa se determina tomando los valores extremos de dicha
probabilidad.
En el caso de los modelos Logit y Probit la interpretación de los coefientes estimados (los betas)
es complicada, desde que estos no pueden ser interpretados como los efectos marginales de
las explicativas sobre la variable dependiente. En el caso de modelos bivariados el efecto
marginal de xj sobre la probabilidad condicionada está dado por:
139
Stata 10.0 para economistas
Humberto Ortiz Ruiz
∂E ( yi xi , β )
= g (−xi β ) β j
∂x j
∆P( yi = 1/ x i )
= P( yi = 1/ xi , xi + δ ) − P ( yi = 1/ xi , xi )
∆xi
Así se pueden definir distintos tipos de efecos discretos dependiendo del valor que tome δ o la
variable explicativa xi .
Se define a
P( y = 1/ x)
Ω(x) =
1 − P( y = 1/ x)
Como el ratio odds del evento dado x. Para el caso del modelo logit se puede demostra que
ln Ω(x) = xβ . Se suelen utilizar las siguientes medidas:
∂ ln Ω( x)
= βk
∂xk
Ω(x, xk + δ )
= exp( β k δ )
Ω(x, xk )
5.2.6. Pruebas de hipótesis
Los estimadores MV tienen una distribución asintótica normal. Las hipótesis individuales se
pueden probar con test z que se distribuyen como normal en el caso de muestras grandes.
Las hipótesis múltiples se pueden probar con distintos test siendo los más utilizados Wald, ratio
verosimilitud y multiplicadores de Lagrange.
140
Stata 10.0 para economistas
Humberto Ortiz Ruiz
a. Residuos
yi − πˆi
ri =
πˆi (1 − πˆi )
ri
ri S =
1 − hii
b. Influencia
∆ i βˆk
DFBETAik =
ˆ βˆk )
var(
5.2.7.2. Globales
a. Pseudo R2 de
Hay distintas medidas de Pseudo R2 las cuales se basan en las distintas definiciones de R2 de
un modelo lineal, entre ellas el R2 de McFadden.
141
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Una forma estándar de formar los ratios de predicción es tomando cada probabilidad
pronosticada, p̂ , para cada observación y compararlas con un punto de corte, usualmente 0.5,
así si p̂ >0.5 la observación se pronostica que será 1 (es decir se pronostica que Y=1) y
viceversa. La fracción de observaciones donde el pronóstico es igual al valor observado se
denomina ratio “correcto” de predicción.
5.2.8. Aplicación
El ejemplo se basará del estudio realizado por Mroz (1987) sobre la participación de la fuerza
laboral de las mujeres. Se tiene una muestra de 753 mujeres blancas casadas con edades que
fluctúan entre 30 y 60 años. La variable dependiente es lfp que es una variable binaria que toma
1 si la mujer está empleada ny 0 en otro caso.
Se estima el modelo asumiendo que el error se distribuye como una normal o como una
distribución logística
142
Stata 10.0 para economistas
Humberto Ortiz Ruiz
143
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ho: hc=wc=0
Ho: hc=wc
144
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Residuos de Pearson
4
Residuo Estandarizado de Pearson
-2 0
-4 2
145
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Estadístico de Cook
.3
752
142
Estadistico de Cook
.2
309
108
214 345 382
.1
407 721
73
686 743
43 396 750
217 257 317 400
384 507 555
548 638 716747
722
394408 480511 630653 739
48 276 401 622
2337
21
114 163 185
239
260 291
297 389
426 528550 637 674693 712733
11 42 213 250 263 305 348 430 475 534551 711
701 731
725
723
738
744
10 136 156182 249 312
306 419
424 453
456
457
462482506 522
519 547564
558 587
580
563 591 610
613628 707735
697
691 741
35618
19 45 80 125 159 202 283
272
258278
284304 326
318 347
335 369388 442
448
439
438
429 451470 504
509532 568
566585
597
583603 625640
643662
666
665684 709
8 46
38 65
60 78 101
95
97
88 129
134 158
147166
150
161 189204225
210 242
244 286
269
275 311
310327344
333 356 417
414
428 476 520
503
517
515
524
512 544
533
529
536 594611
608 632650
639 687
677
681696
682
689706
699 728
718 742
734
745
740
47 26
16 32
31
27
22 39
34
3549
47
44 61
66
57
56
5871
67
64
72 86
87
82
84
83 116
110
107
105
94
96
89
93 128
119138
124
121
111130 153
148
144
133
137
122 164
168
162
169
160176
178193
183199
190
181
186208
200
194 229
222
216
206
201
205 245
228
227 248
241
238
226 265
267
254
252
247
251
243262279
274
280
268 295
296
281
282
271 300
294 328
313
319
314 337
340
323
322
308
302 355
341
338 367
360
352370
361
374
368
353
354 395418
409
397
399
405 436
425
422
420
410 454
458
444
446
450
441
427
433 469
461
467
468
455
472
466 498
501
487
497
496
488
489
493510527
521542
541
539562
571592
581
575
572
579
577
586
570
557
573588
598
590
576 599618
605
607
620
609623
615
612 644
631
645
636
627
624642
641
629 661
659
649
660
646
655
651
656
648
634654670
663 690
676
667
669
679
683702
714730
729
720
726
717
719
708
710
694 749
737
753
14
13
1212
9 25
2029
24
15
17 33
36
28
3040
4151
52
54
50
5363
55
597081
75
77
74
76
69
62
68 90
91
85
79 104
92112
100
98
102117
106126
115
113
109
103
99 140
132
131
118
120
123143
127 151
145
135
146 173
167
152
154
139 171
157
172191
175
177
170
179
165
155
149
141 209
203
198
192
196
197
180
187
184
195
188
174 218
223
221
212
224
215 240
234
237
235
231
230
219
233
220
207
211 236
232 256
246 273
261
266
253
259
255270288
277
264285
292
289
287
290307
299
303
301
293
298 325
316
315330
332
321 346
336
331
320 349
339
324
334 366
357
342
329
343 372
373
376
363
351
358
362
359
350 390
387
377
383
378
381
386
375
385
371
364
365 402
403
391
398
406
404
393
392
379
380 421
411
415
416
413
412 437
431
423
432452
443
440
447
434
445
435 463
460477
464
449
459 484
490
481
478491
479
483
471
473
465 500
485
486
474 508
499
492
502 523
526
516
513
518
514
505
494
495 525543
535
540
538
530
537
531 560
553
554
552
556
549
545 574
559578
565
567
561
546 584602
589
593
595
582
569 601
596 619
621
604
606
600 626
616635
633
617
614 647664
652
657 680
668
673
675
658 692
678698
685
672
671 715
704
713
700
688
705
703
695 732
724 751
746
736
727 748
0
146
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Comparando modelos
147
Stata 10.0 para economistas
Humberto Ortiz Ruiz
0 .25 .5 .75 1
Probit: Pr(lfp)
Predicciones individuales.
Tipo 1
148
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Tipo 2
Tipo 3
149
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ploteo de probabilidades
1 .75
Pr(Fuerz Laboral)
.25 .5
0
0 20 40 60 80 100
Ingreso
Age 30 Age 40
Age 50 Age 60
Cambio en la probabilidad
150
Stata 10.0 para economistas
Humberto Ortiz Ruiz
151
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Una variable es ordinal cuando sus categorías pueden ser ordenadas de mayor a menor.
Ejm. Rating de bonos, encuestas de opinión (de acuerdo o descuerdo), empleo, entre otros.
Donde τ 0 = −∞ y τ J = +∞
El error del modelo estructural se puede distribuir como una normal (probit) o como una logística
(logit).
P( y = m / x) = P(τ m −1 ≤ y*<τ m / x)
5.3.2. Estimación
P( y = m / τ, β, x) = G (τ m − β 0 − β1 x) - G (τ m−1 − β 0 − β1 x) con β 0 = 0
J
i ( τ, β) = ∑1[ y = m ] log P ( y = m / ...)
m =1
Lo usual es estimar
152
Stata 10.0 para economistas
Humberto Ortiz Ruiz
∑ ( τ , β)
i=1
i
5.3.3. Interpretación
a. Probabilidad predicha
De forma similar al caso de los modelos binarios se pueden realizar una serie de analisis entre
los cuales están: media de probabilidades y rango de probabilidades, ploteo de probabilidades y
tablas de predicción.
Se define como
∂P ( y = m / x)
= β k [ g (τ m − xβ) − g (τ m −1 − xβ) ]
∂xk
c. Cambio discreto
Se define como
∆P ( y = m / x )
= P ( y = m / x , xk = x E ) − P ( y = m / x , xk = x s )
∆xk
d. Ratios odds
El modelo logit ordenado se puede interpretar en términos de los ratios odds. La probabilidad
acumulada de un evento “m” está dado por:
m
P ( y ≤ m / x ) = ∑ P ( y = j / x)
j =1
P ( y ≤ m / x) P( y ≤ m / x)
Ω≤ m / > m (x) = = = exp(τ m − xβ)
P ( y > m / x) 1 − P ( y ≤ m / x)
153
Stata 10.0 para economistas
Humberto Ortiz Ruiz
a. Test score
Bajo la hipótesis nula se distribuye como una chi cuadrado de K(J-2) grados de libertad.
b. Wald
I −I ... 0
I ... ... 0
Con D =
... ... ... ...
I 0 ... ...
′ −1
( )
W = Dβˆ * DVar
ˆ (βˆ *)D
( Dβˆ *)
Bajo la hipótesis nula se distribuye como una chi cuadrado de K(J-2) grados de libertad.
Para evaluar el supuesto de la regresión paralela con respecto a la variable xk, es decir la
ˆ (βˆ *) .
hipótesis β k 1 = ... = β kJ −1 se selecciona los valores correspondientes de D , βˆ * ´, Var
154
Stata 10.0 para economistas
Humberto Ortiz Ruiz
5.3.5. Aplicación
El ejemplo se basa en una datos de una encuesta realiza en los EE.UU. en los años 1977 y
1989. Los entrevistados respondieron a la pregunta ¿las madres que trabajan pueden
establecer lazos afectivos con sus hijos de igual manera que las madres que no trabajan?. Las
respuestas fueron codificadas de la siguiente manera: 1 = desacuerdo total, 2 = desacuerdo, 3
= de acuerdo y 4 = total acuerdo.
155
Stata 10.0 para economistas
Humberto Ortiz Ruiz
156
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Hipótesis individuales
Hipótesis múltiples
157
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Medidas de ajuste
Test de Brant
158
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ratios odds
159
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Una variable es nominal es aquella donde sus categorías no se pueden ordenar. Ejemplos,
modos de transporte, ocupaciones, estado civil, preferencias por marcas, entre otros.
exp( xβm )
P ( y = m / x) = J
∑ exp(xβ
j =1
j )
Como en el caso de los modelos logit binomiales resulta adecuado presentar los ratios odds. El
odd de la categoría m con respecto a la n es igual
P ( y = m / x) exp(xβm )
Ω m / n ( x) = = = exp( x(βm − β n )) = exp( xβ m/n )
P( y = n / x) exp(xβ n )
∂ ln Ω m / n (x)
= β km − β kn
∂xk
5.4.2. Estimación
J
dij
i = ∏ Pi
j =1
N
L(.) = ∏ i
i =1
N J
ln L = ∑ ∑d ij ln( Pij )
i =1 j =1
Se suele estimar MNL tomando una categoría como referencia o base. Tenemos
ln Ω m / b (x) = x(β m − βb ) = xβ m/b
160
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Una prueba de hipótesis usual para analizar la significancia del efecto de xk sobre la
probabilidad es H 0 : β k 1 = ... = β k J = 0 . Dicha hipótesis se puede evaluar con un test LR o
b b
Wald.
Test de significancia de dos categorías. En el caso que ninguna de las variables explicativas
afecte significativamente al odds de dos categorías (m y n) se dice que dichas categorías son
“indistinguibles” con respecto a las variables del modelo. La hipótesis de indistinguibilidad se
puede plantear como H 0 : β1 m = ... = β K m = 0 . Dicha hipótesis se puede evaluar con un test
n n
Wald.
exp(xβm / b )
P ( y = m / x) = J
∑ exp(xβ
j =1
j /b )
∂P ( y = m / x) J
= P( y = m / x) β km − ∑ β kj P( y = j / x)
∂xk j =1
El efecto marginal de todas las explicativas viene dado por la siguiente expresión vectorial
∂P( y = m / x) J
= P ( y = m / x) β m − ∑ P( y = j / x)β j
∂x j =1
∆P ( y = m / x )
= P ( y = m / x, xk = xE ) − P( y = m / x, xk = xs )
∆xk
161
Stata 10.0 para economistas
Humberto Ortiz Ruiz
5.4.5. Aplicación
162
Stata 10.0 para economistas
Humberto Ortiz Ruiz
163
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Wald
164
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Probabilidades predichas
165
Stata 10.0 para economistas
Humberto Ortiz Ruiz
En el caso de la censura:
y * si y* > t
y=
t y si y* ≤ t
t −u
P ( y* > t ) = 1 − Φ = Φ (α )
σ
t −u
P ( y* ≤ t ) = P ( y = t y ) = Φ
σ
La ecuación de medida es
y* si y*>t
y=
t y si y* ≤ t
166
Stata 10.0 para economistas
Humberto Ortiz Ruiz
5.5.1.1. Estimación
En el caso del modelo presentado la función de densidad de la variable censurada viene dado
por
1− di di
t − xβ 1 y − xβ
f ( y / x) = Φ σ 2 φ σ
σ
t − xβ 1 1 y − xβ
2
i (β, σ ) = ln f (.) = (1 − di ) Φ
2 2
+ di − ln 2πσ −
σ 2 2 σ
5.5.1.2. Interpretación
∂E ( y / y* > t , x)
= β k 1 − λ (δ ) − δλ (δ )
2
∂xk
E ( y / x) = P( y* ≤ t ) E ( y / y = t y , x) + P( y* > t ) E ( y / y* > t , x)
= Φ ( −δ )t y + Φ (δ )xβ + σλ (δ )
167
Stata 10.0 para economistas
Humberto Ortiz Ruiz
∂E ( y / x) β
= β k Φ (δ ) + (t − t y )φ (δ ) k
∂xk σ
McDonald y Moffit sugiere la siguiente descomposición:
∂E ( y / x) ∂E ( y / y* > t , x) ∂P ( y* > t )
= P( y* > t ) + E ( y / y* > t , x) − t y
∂xk ∂xk ∂xk
Aplicable cuando ty = 0
5.5.1.3. Aplicación
168
Stata 10.0 para economistas
Humberto Ortiz Ruiz
MCO
Tobit
169
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Efectos marginales
170
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Debido a la naturaleza de los datos muchas veces no se cuenta con una muestra aleatoria
de la población.
y1 = x1β1 + u1
y2 = 1 [ xδ 2 + v2 > 0]
Supuestos:
(iii) v2 ∼ N (0,1)
E ( y1 / x, y2 ) = x1β1 + γ 1h( x, y2 )
5.5.2.2. Estimación
171
Stata 10.0 para economistas
Humberto Ortiz Ruiz
b. Máxima verosimilitud
P ( y2 = 0 / x) = 1 − Φ ( xδ 2 )
xδ + ( y − x β )σ σ −2
P ( y2 = 1/ y1 , x) = Φ 2 1 1 1 12 1
2 −2
1 − σ 12 σ 1
φ ( ( y1 − x1β1 ) / σ 1 )
f ( y1 / x) = φ ( y1 , x1β1 , σ 12 ) =
σ1
ρ = σ 12 / σ 1
Cuando y2 = 1 se observa y1 y se tiene información para estimar β1 .
2 1 1+ ρ
Stata estima ln σ , atanhρ = ln para que exista estabilidad durante la optimización.
2 1− ρ
172
Stata 10.0 para economistas
Humberto Ortiz Ruiz
5.5.2.3. Aplicación
Sample selection
173
Stata 10.0 para economistas
Humberto Ortiz Ruiz
MCO
Dos etapas
Etapa 1.
174
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Etapa 2.
175
Stata 10.0 para economistas
Humberto Ortiz Ruiz
MV
176
Stata 10.0 para economistas
Humberto Ortiz Ruiz
En un panel tenemos observaciones de k variables explicativas durante T periodos para cada uno de los
N individuos de la muestra.
Nota 1: Varios cortes transversales no necesariamente forman un panel data, es necesario que los
mismos individuos estén en todos los cortes transversales.
Nota 2: Por lo general, N es muchísimo más grande que T pues, como las observaciones deben ser de
los mismos individuos, no suelen tenerse muchos períodos.
Por ejemplo: N=10 000 , T=5 N>T. Excepción: datos macro.
En principio, todas las técnicas econométricas de corte transversal y series de tiempo son aplicables a los
datos de panel, pero el hecho de que se disponga de pocos períodos limita la aplicación de las técnicas
de series de tiempo.
Donde i= 1,2,….,N y t = 1,…..T. El vector Xit tiene K elementos (variables explicativas sin
considerar el intercepto). Este modelo se puede estimar por MCO si los siguientes supuestos se
cumplen:
Sin embargo, con datos de panel se puede aprovechar la información disponible y construir
modelos de comportamiento más complejos. Se podría capturar efectos que no son detectados
en un modelo corte transveral o de serie de tiempo.
13
Tomando de las notas de clase del docente José Carlos Tello.
177
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Por otro lado, se pueden considerar efectos individuales (αi) específicos para cada unidad de
sección cruzada pero que son constantes a lo largo del tiempo. En el caso que los αi sean
iguales para todas las unidades o ecuaciones de cross-section entonces los estimadores de α y
β por MCO serán consistentes y eficientes (Pooled estimation).
Este efecto individual puede interpretarse como la habilidad del individuo que no es observada
pero que si afecta la variable dependiente. Este modelo de efectos individuales es estimado
según los supuestos establecidos sobre la correlación del error con los regresores. De esta
manera sigue dos tratamientos distintos: el enfoque de efectos fijos y el de efectos aleatorios.
Ventajas:
• Controlar la heterogeneidad individual.
• Provee más información, más variabilidad de los regresores, menos colinealidad, más
grados de libertad y eficiencia del estimador MCO.
• Es posible estudiar la dinámica del ajuste con mayor precisión.
• Identificar y medir los efectos que no son detectados en cross section y series de
tiempo.
• Elaboración de modelos de comportamiento más complejos.
• Elimina el sesgo de la agregación sobre las firmas o individuos.
Desventajas:
• Problemas en el diseño y en la recolección de los datos.
• Distorsiones originadas por errores de medición.
• Problemas de selección: auto selección, no respuesta; y
• Baja frecuencia temporal.
Un manera de captar las diferencias entre unidades (o individuos) es considerando una variable
dummy Di que indica la unidad i.
En este modelo se asume que los componentes no observados (habilidad por ejemplo) están
correlacionados con algunos regresores (educación) y por tanto no se cumple el supuesto de
ortogonalidad (a). Este tipo de problema también es llamado sesgo de heterogeneidad no
observada. Esta dificultad se presenta cuando entidades de naturaleza no observada diferentes
son agrupadas para la estimación. Por ejemplo, individuos muy hábiles y los poco hábiles.
14
Tomado de Baltagi, B
adi “Econometric Analysis of Panel Data”. Wiley Ed. 1995.
178
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Más hábiles
Menos hábiles
Este problema se plantea usualmente como un modelo de efecto fijos. La utilidad se da por dos
razones. Primero se ataca el problema de inconsistencia que es más serio que el de
ineficiencia. Segundo, la solución en modelos lineales es directa, pues un modelo con efectos
fijos es equivalente a incluir variables dummy para cada entidad. Además, si se tienen T
observaciones para cada entidad, se pueden sustraer los promedios de cada entidad y obtener:
βˆ FE = ( X ' MX ) −1 X ' My
179
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Ordenándolo matricialmente:
Y1 i 0 0 φ1 X1 η1
Y 0 i φ X
η2
2 = 2
+ 2 βkx1 +
YN NTx1 0 0 i NTxN φN Nx1 X N NTxk η N
NTx1
φ1
φ
Y = [d1 d 2 d N ] 2 + Xβ + η
φ N
Y = Dφ + Xβ + η
φ
Y = [D X ] + η Es un caso de regresión particionada.
β
∧
β = ( X ´MX ) −1 ( X ´My )
∧
β dummies = ( X ´MX ) −1 ( X ´My ) con P = D(D´ D )−1 D´ y M = I − P
Pero las matrices P y M son las matrices asociadas al estimador Between y Within respectivamente.
PX = X Al premultiplicar por P una matriz, las observaciones son reemplazadas por los
promedios por individuos.
Sabemos que el estimador Within resulta de aplicar MCO a las variables transformadas:
180
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Y~ = Y − Y
X~ = X − X
∧
β w = ( X~´ X~ ) (X~´ ~y )
−1
= ( X ´M ´MX ) ( X ´M ´My )
−1
como M es simétrica M = M´
= ( X ´MMX ) ( X ´MMy )
−1
como M es idempotente
= ( X ´MX ) ( X ´MY )
−1
∧ ∧
Por lo tanto β w = β dummies
∧
Si procedemos igualmente con β b obtendríamos:
∧
β b = ( X ´PX ) −1 ( X ´Py )
El enfoque de efectos fijos parece apropiado si creemos que dichos efectos corresponden
únicamente a las unidades analizadas y que no pueden establecerse para unidades adicionales
fuera de ella.
¿Cuál es la solución si las unidades de la sección cruzada son extracciones muestrales de una
población? La respuesta es tratar esos efectos individuales como un proceso estocástico que
forma parte del término µit. Además se asume que dichos componentes no están
correlacionados con los regresores (la principal diferencia con los efectos fijos).
ω it = µi + εit
Nota: no consideramos los efectos temporales dado que las observaciones de panel se
caracterizan por tener una pequeña amplitud en el tiempo.
E(µi )= E(εit) = 0
E(µi2) = σµ2
E(εit2) = σε2
E(ωit2) = σµ2 + σε2
E(ωitωis) = σµ2 , t ≠ s
181
Stata 10.0 para economistas
Humberto Ortiz Ruiz
σ ε2 + σ µ2 σ µ2 σ µ2
σ µ2 σ ε2 + σ µ2 σ µ2 = σ 2 I + σ 2 ii '
Ω = ε µ
σ µ2 σ µ2 σ ε2 + σ µ2
Ω 0 0
0 Ω 0
Γ=
0 0 Ω
La estimación por MCG implica el uso de ponderadores que transforman las variables
involucradas en la estimación. Dicho ponderador es el siguiente: Γ −1 / 2 = I ⊗ Ω −1 / 2 . Siendo
θ
Ω −1 / 2 = I − ii ' .
T
Nótese las similitudes de este procedimiento con los cálculos en el modelo de efectos fijos,
donde θ = 1. Se puede demostrar que el estimador de MCG, como el estimador de MCO, es
una media ponderada matricial de los estimadores intra y entre grupos.
6.1.3. Aplicación
La base de datos paneldata2.dta contiene información del nivel de gasto per cápita de los
distintos estados de EEUU (spend) y de variables sociodemográficas para el periodo 1950-
1989. Se quiere analizar el efecto de variables sociodemográficas como el ingreso personal per
cápita en niveles (persinc) y al cuadrado (persinc2), porcentaje de la población entre 5 a 17
años (aper5_17) y de 67 años a más (aper65), el porcentaje de demócratas (dem1), entre otras
sobre el gasto estatal.
182
Stata 10.0 para economistas
Humberto Ortiz Ruiz
183
Stata 10.0 para economistas
Humberto Ortiz Ruiz
184
Stata 10.0 para economistas
Humberto Ortiz Ruiz
A diferencia del modelo de efectos fijos, el término no observado pero que indica la diferencia
entre individuos no estaría correlacionado con los regresores. Existen pruebas estadísticas para
contrastar esta sospecha como el contraste de Hausman y el de Breusch – Pagan.
i(variables), tiene como finalidad especificar que variable indica las observaciones por individuo,
en el caso que no se especifique con el comando xtset (o iis).
sa, indica que el método a utilizarse es el de Swamy –Arora (SWAR) para paneles
desbalanceados15.
15
Ver Baltagui y Chang (1994). Incomplete Panels: A comparative study of altenative estimators for the unbalanced
one-way error component regression model. Journal of Econometrics 62: 67 – 89.
185
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Test F
( Ru2 − R p2 ) /( n − 1)
F= ~ F (n-1, nT – n – k)
(1 − Ru2 ) /( nT − n − k )
Predicción
predict pre_xb, xb
186
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Otras opciones
El comando xt guarda por defecto varios escalares y matrices. La finalidad de estas variables
guardadas es construir nuevas pruebas que no están disponibles en el Stata.
Escalares
e(N) número de observaciones
e(N_g) número de grupos
e(mss) suma de cuadrados de la regresión
e(tss) suma de cuadrados totales
e(df_m) grados de libertad del modelo
e(rss) suma de cuadrados de los residuos
e(r2) R2
e(r2_a) R2 ajustado
e(F) estadístico F
e(rmse) raíz cuadrada del error cuadrático medio
e(ll) valor de función verosimilitud en logaritmos
e(ll_0) valor de fn. verosimilitud, solo la constante
e(g_max) tamaño del grupo más grande
e(g_min) tamaño del grupo más pequeño
e(g_avg) tamaño del grupo promedio
e(rho) ρ
e(corr) correlación entre µ i , Xb
e(F_f) F para µ i = 0
Matrices
e(b) Vector coeficientes
e(V) matriz de covarianzas de los estimadores
Contraste de Hausman
Consiste en probar la ortogonalidad de los efectos aleatorios y los regresores. Bajo la hipótesis
de no correlación, los estimadores de MCO en el modelo de efectos fijos y el estimador de MCG
son consistentes pero el de MCO es ineficiente. Por lo tanto, bajo la hipótesis nula la diferencia
no debería ser sistemática.
H = ( βˆ RE − βˆ FE )' (V FE − V RE ) −1 ( βˆ RE − βˆ FE ) ~ χ k2
187
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Con una probabilidad menor a 0.06 no existe evidencia para aceptar la hipótesis nula. Por lo
tanto, existe una diferencia sistemática entre el estimador de MCO (efectos fijos) y el de MCG
(efectos aleatorios). Siendo el estimador de efectos aleatorios inconsistente.
188
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Este tipo de estmación suele ser aplicable cuando la variable dependiente (la que queremos
explicar) presenta inercia en el tiempo en un contexto de datos de paneles apropiado aplicar
panel dinámico. Ejemplo de estas variables son la participación de mercado de un banco en el
mercado local, pues es razonable que si una firma controló el 40% del mercado en 2003 tenga
una participación parecida en 2004. El número de trabajadores en una firma también presenta
esta inercia pues los cambios tecnológicos ni los cambios en la escala suelen ser bruscos si no
que se reparten en un período más de tiempo largo.
Para modelar esta inercia se agregan rezagos de la variable dependiente, pero ello haría que
tengamos variables dependientes al lado derecho de la ecuación, lo que causaría un problema
de endogeneidad (y por ello los parámetros serían sesgados e inconsistentes). Para que ello
no ocurra debemos emplear instrumentos.
Para tratar el tema de la exogeneidad de las variables del lado derecho de la ecuación, estas se
clasificaran en endógenas, exógenas y predeterminadas.
189
Stata 10.0 para economistas
Humberto Ortiz Ruiz
yi = X iδ + viιi + ε i
E [Ψ ( w,θ )] = 0
w : vector aleatorio
Ψ : vector de funciones rx1 (# de instrumentos)
θ : vector de parámetros kx1
r≥k : al menos tantas funciones como parámetros.
MGM minimiza una forma cuadrática que es la medida de distancia de bn (c) a cero.
1 1
θˆ = arg min ( ∑ Ψ ( wi , c)) '
n
An (
n
∑ Ψ (wi , c)) r ×1
c∈θ i 1× r r × r
yit = α1 yi , t −1 + α 2 yi , t − 2 + xit β + vi + ε it
190
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Tenemos dos rezagos (por lo que perdemos dos observaciones por individuo), con la
diferenciación se pierde una observación más por lo que el número de filas es de T-p-1.
Como las xit contienen regresores estrictamente exógenos ∆xit van a servir como sus propios
instrumentos, por lo que tenemos k1 columnas al final de la matriz. Asumiendo que las ε it no
están autocorrelacionadas, para cada período podemos emplear los rezagos de la dependiente
como instrumentos: en t=4 podemos emplear y1 , y 2 , para t=5 podemos emplear y1 , y 2 , y 3 ,
hasta que para t= T podemos emplear y1 , y 2 , y 3 ... yT −3 , yT − 2 .
T −2
Finalmente tenemos ∑m + k
m= p
1 columnas:
Las variables endógenas se tratan del mismo modo que las variables dependientes rezagadas
(siendo los rezagos de orden p o mayores instrumentos válidos, mientras que para las
predeterminadas los rezagos p-1 o mayores son instrumentos válidos.
Para el caso de paneles incompletos se eliminan las filas donde no hay datos y se reemplazan
con ceros las columnas donde no se requieran datos.
y yi 3 0 0 0 0 0 0 ∆X i 5
i2
0 0 yi1 yi 2 yi 3 0 0 0 ∆X i 6
Zi =
0 0 0 0 0 yi 2 yi ,T − 2 ∆X iT
191
Stata 10.0 para economistas
Humberto Ortiz Ruiz
ε iTi − ε iTi −1
2 −1 0 0 0
−1 2 −1 0 0
H i = E[ε i*ε i* ] =
'
0 0 0 2 − 1
0 − 1 2
0 0
Finalmente el vector de coeficientes es:
n ' n
−1 ' *
δˆ1 = Q1 ( ∑ X i * Z i ) A1 ( ∑ Z i yi )
i =1 i =1
n ' n
' *
Q1 = ( ∑ X i * Z i ) A1 ( ∑ Z i X i )
i =1 i =1
n
'
A1 = ∑ Z i H i Z i
i =1
192
Stata 10.0 para economistas
Humberto Ortiz Ruiz
6.2.2. Aplicación
1era etapa
n
L1. .7080866 .1456767 4.86 0.000 .4225654 .9936077
L2. -.0886343 .0448856 -1.97 0.048 -.1766084 -.0006602
w
--. -.605526 .0661685 -9.15 0.000 -.7352138 -.4758382
L1. .4096717 .1082166 3.79 0.000 .197571 .6217723
k
--. .3556407 .037385 9.51 0.000 .2823674 .428914
L1. -.0599314 .0566394 -1.06 0.290 -.1709425 .0510797
L2. -.0211709 .0418278 -0.51 0.613 -.1031519 .0608101
ys
--. .6264699 .1349141 4.64 0.000 .3620432 .8908967
L1. -.7231751 .1846245 -3.92 0.000 -1.085033 -.3613177
L2. .1179079 .1441364 0.82 0.413 -.1645943 .4004101
yr1980 .0113066 .0140743 0.80 0.422 -.0162786 .0388917
yr1981 -.0212183 .0206732 -1.03 0.305 -.0617371 .0193005
yr1982 -.034952 .0221406 -1.58 0.114 -.0783467 .0084427
yr1983 -.0287094 .0251748 -1.14 0.254 -.078051 .0206323
yr1984 -.014862 .0284833 -0.52 0.602 -.0706883 .0409642
_cons 1.03792 .6221795 1.67 0.095 -.1815295 2.257369
Test de Sargan
De acuerdo al test de Sargan existe evidencia para rechazar la hipótesis nula que la
sobreidentificación es válida. Cabe mencionar que dicho test tiende a sobre-rechazar en
presencia de Heterocedasticidad. A continuación estimaremos el mismo modelo pero con los
estimadores robustos.
193
Stata 10.0 para economistas
Humberto Ortiz Ruiz
Tanto como en el primer modelo que asume homocedasticidad como el actual rechazan la
hipótesis nula de carencia de autocorrelación de primer orden en los residuos diferenciados.
Pero no implica que los estimadores sean inconsistentes, si existiera correlación de segundo
orden en los residuos diferenciados eso implicaría que los estimadores son inconsistentes que
de acuerdo los test no puede afirmarse la inconsistencia.
194
Stata 10.0 para economistas
Humberto Ortiz Ruiz
2 etapas
Arellano-Bond dynamic panel-data estimation Number of obs = 6 11
Group variable: id Number of groups = 1 40
Time variable: year
Obs per group: min = 4
avg = 4.3642 86
max = 6
n
L1. .65596 67 . 090028 7. 29 0. 000 .479 515 .83241 84
L2. - .07299 92 .0 270121 -2. 70 0. 007 -.1259 419 -.02005 66
w
--. - .51320 88 .0 537642 -9. 55 0. 000 -.6185 847 -.40783 29
L1. .32896 85 .0 961446 3. 42 0. 001 .1405 285 .51740 85
k
--. .26943 84 .0 438193 6. 15 0. 000 .1835 541 .35532 26
L1. .02164 93 . 050406 0. 43 0. 668 -.0771 447 .12044 32
L2. - .04090 21 .0 258317 -1. 58 0. 113 -.0915 314 .00972 71
ys
--. .59174 29 .1 152412 5. 13 0. 000 .3658 743 .81761 15
L1. -.5720 21 .1 396141 -4. 10 0. 000 -.8456 596 -.29838 25
L2. .11726 42 .1 136713 1. 03 0. 302 -.1055 273 .34005 58
yr1980 .00926 21 .0 107871 0. 86 0. 391 -.0118 802 .03040 44
yr1981 - .03470 86 .0 198697 -1. 75 0. 081 -.0736 524 .00423 52
yr1982 - .04328 07 .0 210895 -2. 05 0. 040 -.0846 155 -.0019 46
yr1983 - .02776 04 .0 214655 -1. 29 0. 196 -.069 832 .01431 12
yr1984 - .03356 13 .0 224111 -1. 50 0. 134 -.0774 862 .01036 36
_cons .49399 61 .4 692208 1. 05 0. 292 -.4256 597 1.4136 52
195
Stata 10.0 para economistas
Humberto Ortiz Ruiz
A pesar que Arellano y Bond recomiendan no usar este modelo para hacer inferencia es una
aproximación sobre el Test de Sargan bajo homocedasticidad. Existe evidencia para aceptar la
hipótesis nula de validez de los instrumentos.
196