Manual Stata10

Stata 10.
0 para economistas
Humberto Ortiz Ruiz
Curso de STATA 10.01
Índice
1. Introducción al Stata 10.0 ........................................................................................................ 3

1.1. El entorno de Stata 10.0 .............................................................................................. 3
1.1.1. Menú de comandos ................................................................................................... 4
1.1.2. La barra de herramientas........................................................................................... 6
1.2. Novedades de Stata 10.0 ................................................................................................. 6
1.3. Manejo básico de bases de datos..................................................................................... 7
1.3.1. Memoria y bases de datos ......................................................................................... 7
1.3.2. Manejo de directorios................................................................................................. 8
1.3.3. Guardar una sesión de Stata ..................................................................................... 9
1.3.4. Abrir y guardar una base de datos. .......................................................................... 10
1.3.5. Transformación de variables.................................................................................... 20
1.3.6. Muestras.................................................................................................................. 28
1.3.7. Agregando etiquetas a los datos.............................................................................. 28
1.4. Gráficos .......................................................................................................................... 31
1.5. El do-file ......................................................................................................................... 50
1.6. Uso del menu Help ......................................................................................................... 51
1.7. Uso del Stat\transfer ....................................................................................................... 52
1.8. Ejemplo de sesión en Stata 10 ....................................................................................... 55
2. Introducción a la programación: algunas herramientas y comandos útiles ............................ 71
2.1. Macros local y global ................................................................................................. 71
2.2. Enlazando variables: forvalues y foreach................................................................... 72
2.3. Escalares y matrices.................................................................................................. 73
2.4. Comandos return y ereturn ........................................................................................ 74
3. Modelo de regresión lineal clásico......................................................................................... 76
3.1. Introducción ............................................................................................................... 76
3.2. Aplicación .................................................................................................................. 81
3.3. Colinealidad y análisis VIF ......................................................................................... 85
3.4. Pruebas de hipótesis ................................................................................................. 86
3.5. Predicción .................................................................................................................. 88
3.6. Efectos marginales .................................................................................................... 92
3.7. Especificación de la forma funcional .......................................................................... 94
3.8. Perturbaciones no esféricas..................................................................................... 102
3.9. Variables instrumentales.......................................................................................... 109
4. Introducción al análisis de bases de datos con maestreo aleatorio complejo ...................... 117
4.1. Algunos comandos útiles en el manejo de bases de datos ...................................... 117
4.2. Análisis de bases de datos con diseño muestral complejo....................................... 122
5. Modelos para variables categóricas y limitadas................................................................... 135
5.1. Introducción.................................................................................................................. 135
5.1.1. Modelo de probabilidad lineal ................................................................................ 136
5.2. Modelos binarios: logit y probit ..................................................................................... 137
5.2.1. Modelo de la variable latente ................................................................................. 137
5.2.2. Estimación ............................................................................................................. 138
5.2.3. Esperanza condicional........................................................................................... 138
1
El capítulo 1 está basado en el material elaborado por Milenka Moshela “Stata 9.0 para economistas”.
1
Stata 10.0 para economistas
Humberto Ortiz Ruiz
5.2.4. Modelos Logit y Probit ........................................................................................... 139

5.2.5. Interpretación......................................................................................................... 139
5.2.6. Pruebas de hipótesis ............................................................................................. 140
5.2.7. Medidas de ajuste.................................................................................................. 141
5.2.8. Aplicación .............................................................................................................. 142
5.3. Modelos ordenados ...................................................................................................... 152
5.3.1. Modelo latente ....................................................................................................... 152
5.3.2. Estimación ............................................................................................................. 152
5.3.3. Interpretación......................................................................................................... 153
5.3.4. Pruebas de hipótesis ............................................................................................. 154
5.3.5. Aplicación .............................................................................................................. 155
5.4. Modelo logit multinomial ............................................................................................... 160
5.5. Modelos para datos censurados y truncados................................................................ 166
5.5.1. Modelo Tobit .......................................................................................................... 166
5.5.2. Sesgo de selección................................................................................................ 171
6. Modelos para datos de panel .............................................................................................. 177
6.1. Modelos para datos en panel estático .......................................................................... 177
6.1.1. Modelo de Efectos Fijos......................................................................................... 178
6.1.2. Modelo de Efectos Aleatorios ................................................................................ 181
6.1.3. Aplicación .............................................................................................................. 182
6.2. Panel Data Dinámico .................................................................................................... 189
6.2.1. Estimador Arellano Bond ....................................................................................... 189
6.2.2. Aplicación .............................................................................................................. 193
2
Humberto Ortiz Ruiz
1. Introducción al Stata 10.0
1.1. El entorno de Stata 10.0
El despliegue de Stata presenta cuatro ventanas diferentes:
Review Aquí aparecen los comandos que han sido utilizados durante la
sesión. Solo los resultados más recientes son visibles en esta
pantalla.
Command Sirve para utilizar Stata de forma interactiva, es decir se emplea
para crear las líneas de comandos y llevar a cabo las aplicaciones
disponibles en el software.
Variables Nos informa sobre las variables que están disponibles en nuestra
base de datos para realizar las diversas aplicaciones
Results Esta nos permite visualizar los resultados (outputs) de los
estadísticos que pedimos calcular o de los modelos que
solicitamos estimar.
El tamaño y posición de las ventanas puede ser ajustado según las preferencias del usuario y las
cuales pueden ser guardadas utilizando Prefs \Save Windowing Preferences.
También podemos modificar el color de fondo o las fuentes de la ventana Stata Results eligiendo
la siguiente opción del menú principal: Prefs \General Preferences
Otras ventanas importantes son:
Stata Editor permite navegar y modificar los datos como si fuese una hoja de Excel.
Stata Viewer permite acceder a información en línea y también a la ayuda del
programa.
3
Humberto Ortiz Ruiz
Stata Graphs presenta el último gráfico realizado.

Stata Do-file Editor es una ventana separada en Windows y funciona como un editor de textos
que permite ejecutar una lista de comandos.
Stata Browser permite visualizar los datos, mas no modificarlos.
Nota : Si alguna ventana esta cerrada podemos abrirla desde el menú Window.
1.1.1. Menú de comandos
Dese la versión 8 del Stata, todos los comandos (excepto los de programación) han sido
implementados con cuadros de diálogo y se pueden acceder a ellos desde el menú principal, el
cual está organizado por tópicos:
Seleccionamos una opción desde los menús Data, Graphics o Statistics y llenamos la caja o
cuadro de diálogo correspondiente:
Por ejemplo, para acceder al cuadro de diálogo siguiente, utilizamos la ruta que presentamos a
continuación, la cual se encuentra en los menús desplegables:
Statistics/Linear Regression and Related/ Linear regression
4
Humberto Ortiz Ruiz
Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI
(Graphic User Interface), lo cual es una mejora de la versión 8 respecto de las anteriores. Si
bien desde la versión 8 el Stata permite trabajar de manera interactiva, sigue siendo un
programa manejado por comandos (al igual que RATS 6), debido a que cada ventana se
encuentra asociada a un comando (a diferencia de Eviews 5.0, en donde las ventanas
desplegables están orientadas a objetos), por lo que aprender a manejar Stata 10 mediante
comandos será de mucha utilidad, sobre todo si lo que se desea es programar en este lenguaje.
5
Humberto Ortiz Ruiz
1.1.2. La barra de herramientas
Además, Stata presenta una barra de herramientas que permite realizar operaciones usuales
como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular. En la versión 10.0
se ha modificado ligeramente la barra de herramientas con respecto a la versión 9.
Sirve para abrir una base de datos de Stata (*.dta)
Sirve para grabar en disco la base de datos que está siendo utilizada.
Imprime los gráficos o el contenido de la ventana Stata Viewer.
Inicia, cierra, suspende o resume un log (que se guarda bajo la extensión *.smcl o *.log). El
log es un comando que nos permite guardar seciones de Stata.
Muestra una ventana Stata Viewer. Permite mostrar distints ventanas Viewer de forma
simultánea.
Icono que indica la creación de un gráfico o la apertura del editor de gráficos.
Abre un nuevo Do-File Editor o muestra la ventana de Do-File Editor que esté oculta
(equivale a ctrl+8).
Abre Stata Editor o muestra la ventana de Stata Editor que esté oculta (equivale a edit).
Abre Stata Browser o muestra la ventana de Stata Browser que esté oculta (equivale a
browse).
Le dice a Stata que continúe la ejecución de un comando que ha sido detenido.
Detiene Stata (equivale a la tecla q).
1.2. Novedades de Stata 10.0
Entre las aplicaciones y modificaciones realizadas en Stata 10.0 con respecto a la versión 9.0
cabe resaltar:
- Modificaciones y rediseño de las ventanas Review, Variables, Viewer y Graph.

- Posibilidad de abrir múltiples do-files de manera simultánea.
- Editor de Gráficos. El editor permite, de manera más sencila, añadir textos, lineas, títulos
fuera del área de gráfico y mover ejes, títulos, leyendas, cambiar de colores, tamaños,
cambiar tipos de gráficos (por ejemplo de ploteos a lineas o barras), entre otros.
6
Humberto Ortiz Ruiz
- Se incluyen más estimadores para modelos de datos de panel dinámico. Se incluye

Arellano-Bover/Blundell-Bond system que es una extensión del estimador GMM
Arellano-Bond para paneles dinámicos.
- Se cuenta con nuevos estimadores para modelos con variables categóricas y ordenadas
como asclogit y asroprobit.
- Se ha ampliado el número de modelos y estadísticos que consideran la estructura de los
datos con muestreo aleatorio complejo.
1.3. Manejo básico de bases de datos
1.3.1. Memoria y bases de datos
Las bases de datos pueden variar de tamaño. Por defecto Stata únicamente lee archivos hasta
de 10mb (máximo espacio de los datos) de hasta 5000 variables. Si se intenta leer un archivo
más grande sale el siguiente mensaje de error.
no room to add more observations

r(901);
Se puede utilizar el comando memory2 para asignar suficiente memoria para el archivo. Por
ejemplo si tenemos un archivo de 18 mb por lo menos debemos de asignar 18 mb (debemos de
tomar en cuenta la creación de nuevas variables).
set memory 20m

(20480k)
2
El comando set memory sólo se puede utilizar en las versiones estándar (Stata/IC), estándar + base de datos
extensas (Stata/SE) y en la versión Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versión para
estudiantes de pregrado (Small Stata). En la versión Stata/SE el límite de variables independientes es 11,000
(matsize)mientras que el límite de la memoria es igual al del sistema operativo.
7
Humberto Ortiz Ruiz
Se puede hacer permanente esta configuración de la siguiente manera:
set memory 20m, permanent
Adicionalmente el comando matsize permite establecer el número de variables que pueden ser
incluídos en las estimaciones realizadas por Stata. El uso de este comando puede ser útil en
ciertas aplicaciones.
Por ejemplo, si al estimar una regresión anova, aparece un error “matsize too small”. Este
problema se puede superar mediante el comando set matsize. La mayor configuración es de
800.
set matsize 800
Se puede hacer este cambio permanente de la siguiente manera:
set matsize 800, permanent
1.3.2. Manejo de directorios
Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en
C:\DATA\ salvo que dicha configuración de archivos haya sido cambiada. Para conocer con que
directorio está trabajando Stata se utiliza el comando pwd
pwd
Con el comando sysdir se pueden visualizar los directorios que STATA emplea para guardar el
programa y la información.
sysdir
STATA: C:\STATA\
UPDATES: C:\STATA\ado\updates\
BASE: C:\STATA\ado\base\
SITE: C:\STATA\ado\site\
PLUS: c:\ado\plus\
PERSONAL: c:\ado\personal\
OLDPLACE: c:\ado\
Con el comando cd podemos cambiar de directorio donde se guardan los datos, aunque estos
cambios solo serán validos por la sesión en uso.
cd C:\
Para crear un nuevo directorio se emplea el comando mkdir:
mkdir sesion21012006
Para obtener un listado de todos los archivos del directorio en uso:

8
Humberto Ortiz Ruiz
dir
Para restringir el listado a los datos:
dir *.dta
Es posible también copiar los datos de un archivo:
copy auto.dta auto.bak
También es posible borrar archivos:

erase auto.bak
1.3.3. Guardar una sesión de Stata
En la ventana de resultados se muestran los resultados más recientes que se hayan generado.
Sin embargo los resultados previos no se van a poder visualizar3. Para guardar una sesión de
Stata, se debe de crear un archivo *.log utilizando el comando log.
STATA permite guardar un registro de los comandos y los resultados. Para crear un archivo de
bitácora se usa el comando log using:
log using bitacora
Por defecto se guarda en el directorio en uso y en formato SMCL (que es el que usa STATA)
para presentar los resultados.
use "C:\cursos\Stata9\Sesion01\auto.dta”, clear

describe
Para parar momentáneamente el registro de la bitácora:

log off
Este comando no será registrado:

summ
Para reanudar el registro de la bitácora:
3
Otra solución podría ser “agrandar” la ventana de resultados de forma tal que pueda guardar mayor cantidad de
output. Por ejemplo, si queremos que la ventana de resultados contenga hasta 300,000 bytes, se puede utilizar el
comando scrollbufsize de la siguiente manera
set scrollbufsize 300000
(set scrollbufsize will take effect the next time you launch Stata)
Como indica el mensaje, la configuración tendrá efecto recien en la siguiente sesión de Stata. Sin embargo, esta
configuración será recordada cada vez que se inicie una sesión.
Sin embargo esta opción se utiliza muy poco en la medida que requiere mayor uso de recursos informáticos
(memoria).
9
Humberto Ortiz Ruiz
log on
Este comando si será registrado:

tab rep78
Para detener la bitácora:

log close
Para reanudar una bitácora:

log using bitácora, append
Para sobrescribir una bitácora:

log using bitacora, replace
Para ver una bitácora:

type bitacora.smcl
Si lo único que se desea es guardar los comandos debe emplearse cmdlog. Esta opción es
especialmente útil cuando lo que se busca es crear un archivo do.
cmdlog using C:\cursos\Stata9\Sesion01\comusados

help log
Los archivos log guardan lo que aparece en la ventana de resultados o en la barra de

comandos. Es decir, no guardan los gráficos. Hay algunas maneras de guardar los gráficos,
pero la más comun es la de copiarlos y pegarlos en Microsoft Word.
1.3.4. Abrir y guardar una base de datos.
El manejo de datos es tal vez la parte más importante a la hora de trabajar en Stata. El manejo
de datos consiste en introducir los datos en un formato en el cual se puedan realizar los análisis
de manera adecuada. La mayoría de los errores se deben en gran medida a un manejo de
datos deficiente en lugar de un análisis deficiente.
La forma como STATA carga los datos a la memoria es similar a la de un procesador de textos
o a la de una hoja de cálculo. No se realizan los cambios hasta que el usuario explícitamente
los guarda.
Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador. Para
guardar los datos se debe emplear el comando save. Es recomendable no sobrescribir los
datos y trabajar en un directorio diferente del donde se encuentran los datos originales.
use "C:\auto.dta"
1.3.4.1. Ingresando datos con el editor
Para ingresar los datos directamente al editor debe abrir el editor e ingresar los datos pulsando
las flechas del teclado, el enter o el Tab. Para cambiar el nombre de las variables pulse dos
10
Humberto Ortiz Ruiz
veces sobre el nombre de estas y aparece un cuadro de diálogo en el cual puede cambiar el
nombre, la etiqueta y el formato de la variable.
Supongamos que deseamos ingresar los datos de la tabla de MSExcel. Para ello abra el editor
y pegue los datos. Si los datos estaban en columnas, y tenían un encabezado con el nombre de
la variable, STATA nombrará las variables al pegarlas.
Hay varias formas en que podemos introducir datos en Stata es posible introducir datos a mano
utilizando el comando edit, el cual abre una hoja de calculo. También los datos pueden ser
introducidos cortándolos desde Excel y pegándolos en la hoja de cálculo de Stata.
Ejemplo: tenemos la siguiente encuesta:
Sexo: H = 1 M = 0
Profesión: Estudiante Economista Estudiante =1 Economista =0
Edad: 29
¿Los Alumnos del Infopucp tienen hábitos de fumar?
Si =1
Algunas veces =2
NO =3
Ahora cargamos esta información en el editor de stata:
11
Humberto Ortiz Ruiz
Nota : Tener en cuenta que el Editor para definir una variable va a requerir que exista al menos
una observación de esta variable.
1.3.4.2. Comandos use y save
Los datos pueden ser cargados al programa utilizando el comando use seguido por la ruta en
donde se encuentra la base de datos.
12
Humberto Ortiz Ruiz
Ejemplo
use “C:\auto.dta”, clear
Una segunda opción es siguiendo la ruta: File\Open
Una tercera opción es mediante la combinación: ctrl + O
Si existen datos en la memoria cualquiera de esta opciones será rechazada a menos que se
use la opción clear.
Si deseamos información solo de algunas variables podemos usar la opcion:
use “C:\auto.dta” if mpg>15
Podemos continuar realizando selecciones como por ejemplo de los 10 primeros datos, para
ello bastará con indicar la opción:
use “C:\auto.dta” in 1\10
Para trabajar con algunas variables usamos la opción :
use mpg weight price using “C:\auto.dta”
Si queremos modificar, las observaciones tenemos el comando expand me permite incrementar

el número de observaciones
expand 10
Notamos que el número de observaciones ahora se ha multiplicado por 10.
Para guardar las modificaciones se utiliza el comando save.
save "C:\auto2.dta"
Nota: Stata no guarda en el disco los cambios en las bases de datos a menos que ejecutemos
el comando save (en eso se parece a MSExcel), por lo que si se apaga o cuelga la máquina
perdemos los cambios.
Nota : En Stata hay compatibilidad hacia adelante, es decir, los comandos y bases de datos de
Stata7 sirven en Stata8 pero lo inverso no siempre es posible. Por ello si trabajamos con una
base de datos en Stata8 y luego la vamos a abrir en Stata7 deberemos grabarla con formato de
Stata7 desde el Stata8.
13
Humberto Ortiz Ruiz
1.3.4.3. Comando insheet
El comando insheet es muy útil a la hora de leer datos de provenientes de una hoja de cálculo.
Existen algunos requerimientos antes de poder utilizar este comando:
1. La primera línea debe de tener los nombres de las variables (en versiones anteriores a
Stata 6.0 menores a ocho caracteres). Los nombres no deben de empezar con
caracteres especiales o números.
2. En la segunda fila se introducen los datos.
3. Los casos en que se la data contenga un valor perdido deben de ser guardados con una
celda vacía. A menudo se emplea 0, 9 ,99 para codificar los casos perdidos; este
procedimiento es correcto siempre y cuando no se utilicen valores válidos para la
variable.
4. Las comas en los números o el texto resultan problemáticas debido a que Stata piensa
que se trata de un carácter delimitante y no leerá los datos de manera apropiada. Es
recomendable remover las comas a la hora de guardar los datos.
5. Algunas hojas de cálculo al crear un archivo de extensión “csv” no pone comas al final
de la fila debido a que las celdas están vacías. Esto puede confundir al programa que
está diseñado de tal manera que cuenta con las comas para ubicar los valores. Se
puede evitar este problema aumentando una columna de comas de unos (1, o de
cualquier otro carácter) a la hoja de cálculo. Se puede eliminar esta variable una vez que
Stata ya ha leído el archivo.
6. El archivo debe ser guardado específicamente como un archivo “csv” (Comma

Separated Values). El procedimiento para esto es el siguiente: Seleccionamos el menú
File\Save As… , y luego escogemos el formato "comma separated values".
7. Cambiar la extensión del archivo a “csv” no es suficiente. Cuando se cierra la sesión de

la hoja de cálculo y Excel pregunta si se quieren guardar los cambios hay que
seleccionar “No”. Parece contradictorio pero los cambios a los que se refiere la hoja de
cálculo son los que necesita para volver el archivo al formato de una hoja de cálculo
nuevamente.
8. una vez que se han completado los cambios y estamos trabajando en Stata, hay que dar
al programa la siguiente orden:
. insheet using filename.csv
14
Humberto Ortiz Ruiz
Una vez transformados los datos se verían así en la hoja de cálculo:
Para que Stata pueda leer el archivo. Si sale el siguiente mensaje de error "wrong number of
values," ha habido un problema en la especificación de las comas en el archivo y hay que
revisar como se ha guardado el archivo csv.
15
Humberto Ortiz Ruiz
Ejemplo
Veamos como son las bases

Abrimos el archivo
datos_tab.txt
VW Rabbit 4697 25 1930 3.78
Olds 98 8814 21 4060 2.41
Chev. Monza 3667 2750 2.73
AMC Concord 4099 22 2930 3.58
Datsun 510 5079 24 2280 3.54
5189 20 3280 2.93
Datsun 810 8129 21 2750 3.55
Ahora en la línea de comandos escribimos las siguientes ordenes:
clear
set mem 10m
set more off
cd "C:\cursos\Stata9\Sesion02"
insheet using datos_tab.txt, clear

insheet make price mpg weight gear_ratio using datos_tab.txt,clear
16
Humberto Ortiz Ruiz
1.3.4.4. Comando infix
Permite importar datos que no están en formato de STATA pero que están en un formato fijo.
Este comando es mucho más potente que insheet pues permite el uso de condicionales y de
diccionarios.
Ejemplo
persons.raw
........329193402male..32......42000¶
........472921002male..32......50000¶
........329193100male..45¶
........399938271female30......43000¶
........484873982female33......48000¶
123456789012345678901234567890123456789
El siguiente es un ejemplo del diccionario de datos persons_infix.dct empleado para leer el

archivo persons.raw.
persons_infix.dct
infix dictionary using persons.raw {
1 lines
1:
long idnumb 7-17
str6 sex 18-23
int age 24-25
float income 32-36
}
Escribamos las siguientes ordenes en la lìnea de comando:
clear
set mem 10m
set more off
cd "C:\cursos\Stata9\Sesion02"
infix idnumb 7-17 using persons, clear

infix long idnumb 7-17 using persons, clear
infix long idnumb 7-17 int age 24-25 using persons if age<=30, clear
infix long idnumb 7-17 int age 24-25 using persons if age>=30, clear
infix long idnumb 7-17 str6 sex 18-23 int age 24-25 float income 32-36 using persons, clear
infix using persons_infix.dct, clear
17
Humberto Ortiz Ruiz
1.3.4.5. Comando infile
El comando “infile” se utiliza cuando se ha descargado un archivo de datos de la web y cumple

con las siguientes especificaciones:
1. El archivo NO debe de tener nombres de las variables en la primera línea.

2. Las variables alfanuméricas que incluyan espacios (P ej. : los nombres) deben de estar
encerrados entre comillas.
3. Los números pueden incluir comas y signos negativos, pero símbolos de dólar o
porcentuales.
4. El comando Infile, asume que las variables tienen espacios entre ellas y que no existen
espacios en blanco donde debería de haber data (se debe representar con algún código
los valores perdidos).
La línea de comandos para el leer un archivo con el comando infile es el siguiente:
infile var1 var2 var3 using mydata.raw
En esencia, “insheet” asume que las variables están separadas por comas. Por otro lado, “infile”
asume que los espacios en blanco separan a las variables. Por ejemplo, supongamos que se
tiene un archivo de datos de extensión raw llamado mydata.raw que contiene los siguientes
campos:
1 55 4.5
2 23 3.2
3 34 3.4
4 52 7.1
5 41 2.9
Se puede utilizar el siguiente comando de Stata para leer este archivo:
infile [varlist] using [filename]
donde varlist es la lista de variables y filename es el nombre del archivo que contiene la data
raw.
Por ejemplo
infile caseid age score using mydata.raw
donde caseid, age y score son los nombres de las variables y mydata.raw es el archivo que
contiene la data. Sin embargo, puede ser más sencillo exportar el archivo a una hoja de Excel,
guardarlo con una extensión csv, y después utilizar el comando insheet.
También se puede utilizar el archivo Infile para leer datos que contengan muchas variables o
múltiples registros por observación, ó más generalmente, cuando se necesita leer datos que
han sido guardados en formatos particulares. En estos casos, es a menudo más sencillo (y a
veces necesario) leer la data utilizando un archivo dictionary como se describe a continuación.
18
Humberto Ortiz Ruiz
19
Humberto Ortiz Ruiz
1.3.5. Transformación de variables
1.3.5.1. Comando generate y egen
Genera una nueva variable definida en base a una expresión numérica la cual puede contener
otras variables. Por su flexibilidad, este es uno de los comandos más importantes de Stata, ya
que se pueden utilizar un gran número de operaciones lógicas, aritméticas y matemáticas.
Desde el menú principal utilizamos la siguiente ruta: Data/Create or change variables/Create

new variable y aparece un cuadro de diálogo en el cual debemos ingresar el nombre de la
variable y su regla de creación.
Ejemplo.
En la casilla Generate variable escribimos wtsq, pulsamos el botón Create, elegimos la

variable weight con un click en la ventana de variables usamos la calculadora para elevar esta
variable al cuadrado finalmente pulsamos el botón OK en los dos cuadros de diálogo.
Al final de este proceso vemos que ha aparecido una nueva variable (wtsq) y que el comando
empleado en su creación ha aparecido en la ventana de Results y en la ventana Review.
Nota: En Stata los comandos deben ir siempre en minúsculas, Para los nombres de las
variables Stata tomará en cuenta si empleamos minúsculas o mayúsculas, no son la misma
variable Curso, curso, CURSO, ni por ejemplo CurSo.
Observemos que por defecto a la nueva variable se le ha asignado el tipo float.
Nota: Para reejecutar los comandos pulsamos el comando en la ventana Review o lo

escogemos con las teclas avanzar página y/o retroceder página.
20
Humberto Ortiz Ruiz
A continuación se indican los procesos para la Creación de variables
generate newvar=expcrea una variable nueva

replace oldvar=exp reemplaza una variable (Stata no sobrescribe variables, este comando no
se puede abreviar)
drop borra una variable

keep borra las variables no nombradas
Nota : los caracteres válidos son dígitos (0-9), caracteres (a-z y A-Z) y el guión bajo (_), Stata
recomienda que las variables comiencen con mayúsculas (para evitar confusiones con los
comandos que siempre van en minúsculas)
Obtenemos la misma variable con los siguientes comandos:
gen wtsq = weight^2
Ejemplo
Si queremos generar el logaritmo de la variable educ
gen logprice =ln(price)
21
Humberto Ortiz Ruiz
Si la variable ya existe usaremos el comando replace, Otras funciones para usar con
generate:
generate y=abs(x) valor absoluto|x|

x
gen y=exp(x) exponencial, e
gen y=ln(x) logaritmo natural
gen y=log10(x) logaritmo de base 10
gen y=sqrt(x) raíz cuadrada
gen y=int(x) parte entera de
gen y=round(x) redondeo de x al entero mas cercano
gen y=round(x, 0.25) redondeo de x al 0.25º mas cercano
gen y=mod(x1,x2) el residuo de dividir x1 por x2
gen y=max(x1,...xn) máximo valor del argumento
gen y=min(x1,...xn) mínimo valor del argumento
gen y=sum(x) suma acumulativa de observaciones
gen y=_n es la observación número n
gen y=_N es el número de observaciones en el set de datos
22
Humberto Ortiz Ruiz
El comando egen Es una extensión del comando generate. Este comando me va a permitir
calcular expresiones mas complejas, tales como: medias, desviaciones estándar, promedios
móviles, variables estandarizadas, etc.
Ejemplo
Generemos una serie que sea igual al valor máximo de la variable educ
egen max_X =max(price)
Ahora hacemos lo mismo pero mediante la barra de menús la ruta es Data\Create or change
variables\Create new variable(extended)
1.3.5.2. Recodificación de variables: rename
Se usa para renombrar una variable sin cambiar su contenido.
Ejemplo
ren wtsq peso2
Esta orden nos cambia el nombre de wtsq por peso2 en nuestros datos.
1.3.5.3. Comando recode
Sirve para cambiar los valores de una variable
Ejemplo
list peso2 if peso2 == 3097600
Ahora cambiemos estas observaciones por un punto:
recode peso2 (3097600=.)
1.3.5.4. Comando sort
Organiza las observaciones de las variables en orden ascendente.
Ejemplo
sort mpg
Nota : los valores missing se interpretan como mayores que cualquier número y por lo tanto
aparecen al final”
23
Humberto Ortiz Ruiz
1.3.5.5. Conversión de variables
De una variable string a variables numérica
Para hacer este ejercicio generaremos la siguiente variable string
generate str1 Cumple = "1" if year==80
Si tenemos una variable Xstr su conversión a variable numérica Xnum puede ser obtenida de la
siguiente forma:
generate double Cumplenum = real(Cumple)
A la derecha podemos visualizar nuestra variable string convertida ya en numérica.
24
Humberto Ortiz Ruiz
De una variable string no- numérica a una numérica
Para ello usamos las siguientes secuencias de comandos:
sysuse auto, clear
encode make, generate(numero)
Si quisiéramos ver la asignación de los números entonces digitamos los siguientes comandos:
label list numero
Podemos generar una nueva variable que contenga algún subconjunto de los nombres de las
características generadas por alguna variable anterior.
generate str4 a2 = substr( make,2,4)
estamos generando una variable string de nombre a2 que contiene como características los
caracteres 2 a 4 de la variable make:
1.3.5.6. Operadores Relacionales y Lógicos
Ejemplo: replace educ =. if year<80
En este primer ejercicio lo que decimos es que si year es menor a 80 entonces que la variable
educ tenga un punto:
Ejemplo: Ahora le pido al Stata que me haga un resumen estadístico de la variable meduc
cuando la variable year es igual a 78
25
Humberto Ortiz Ruiz
summarize meduc if year==78
Ejemplo : Con esta orden le estoy pidiendo al Stata que haga una lista de variables siempre y
cuando year sea igual a 80 y la educ menor o igual a 10
list year educ meduc feduc age if year==80 & educ <=10
Ejemplo 4: Con esta orden le pido a Stata que me busque las observaciones que cumplan esa
condición:
keep if year==80 | educ <=10
26
Humberto Ortiz Ruiz
Nota : las expresiones lógicas pueden ser verdaderas o falsas un valor de “0” indicaría que la
condición no se cumple y un valor de “1” podría indicar el cumplimiento de la misma”
27
Humberto Ortiz Ruiz
1.3.5.6. Selección de Observaciones
Comando keep
Con esta orden le pido a Stata que me mantenga las observaciones que cumplan con la
condición.
keep if rep78 ==3
Con esta orden seleccionamos aquellas observaciones que coincidan con rep78 ==3
keep in 1\10
Esta opción me permite observar solo las primeras 10 observaciones suprimiendo las restantes.
Comando drop
Esta opción lo que hace es borrar todas aquellas observaciones en las cuales se cumpla alguna
condición.
drop if mpg<19
Nota : Las observaciones borradas podemos observarlas nuevamente usando el comando use
este nos permite volver a cargar la información”
1.3.6. Muestras
sample 10
Con la siguiente orden estoy obteniendo una muestra simple de exactamente 20 observaciones
sample 57 , count
1.3.7. Agregando etiquetas a los datos
En STATA es posible agregar etiquetas a los datos para mejorar la legibilidad de la información.
Los comandos son:
label data
label variable
label define
label dir
label list
label drop
Ejemplo
28
Humberto Ortiz Ruiz
*ETIQUETANDO UN ARCHIVO
label data "Este es un ejmplo adaptado de la ayuda del comando infile"
describe
label data
describe
*label data remueve la etiqueta del conjunto de datos
*ETIQUETANDO UNA SERIE

label variable idnumb "Indicador de individuo"
label variable sex "Sexo"
label variable age "Edad"
label variable income "Ingreso"
describe
*RECODIFICANDO UNA VARIABLE

generate sexo=1 if sex=="male"
replace sexo=0 if sex=="female"
count if sexo>=.
drop sex
label variable sexo "Sexo del encuestado"
*ETIQUETANDO LOS VALORES DE LAS VARIABLES

label define codsexo 1 "hombre"
label define codsexo 0 "mujer", add
label list
label dir
describe
label values sexo codsexo
describe
*CREAR UN LIBRO DE CODIGOS DE LAS ETIQUETAS DE LAS VARIABLES

labelbook codsexo
*BORRANDO LAS ETIQUETAS DE LAS VARIABLES

label drop codsexo
label define codsexo 1 "hombre"

label define codsexo 0 "mujer", add
1.3.8. Agregando formato a los datos
Una manera rápida de cambiar el formato de una variable es seguir la siguiente ruta en el menú
principal:
data\variable utilities\ Set variable display format
Formatos Numéricos
29
Humberto Ortiz Ruiz
Primer tipo % indica el inicio del formato

luego, tipo
opcional - si se quiere buscar el resultado alineado a la izquierda
luego, tipo
opcional 0 si se quiere conservar los "ceros principales"
luego tipo un número w indica el tamaño del resultado
luego tipo .
luego tipo un número d indica el número de dígitos después del punto décimal
luego tipo
cualquiera E para notación científica; e.g., 1.00e+03
ó F para formato fijo; e.g.; 1000.0
para formato general; Stata elige de acuerdo al
ó G número mostrado
luego, tipo indica el formato de "coma" (no se permite con la
opcional C opción e)
Formato de Fechas

luego, tipo
luego tipo D
luego, tipo otros
opcional carácteres indica cómo la fecha puede ser mostrada
Formatos de Series de Tiempo

luego, tipo
luego tipo t
luego tipo un carácter para indicar cómo está codificada la fecha
tipo d if 0=01jan1960, igual a %d format
o tipo w if 0=1960w1
o tipo m if 0=1960m1
o tipo q if 0=1960q1
o tipo h if 0=1960h1
o tipo y if 1960=1960 (indica un año específico)
luego, tipo otros
opcional caracteres indica cómo la fecha debe ser mostrada
Formatos por defecto
0 es mostrado 2,000 es mostrado

Formato Defecto como: como:
%td %tdDlCY 01jan1960 23jun1965
30
Humberto Ortiz Ruiz
%tw %twCY!ww 1960w1 1998w25

%tm %tmCY!mn 1960m1 2126m9
%tq %tqCY!qq 1960q1 2460q1
%th %thCY!hh 1960h1 2960h1
%ty %tyCY . 2000
%tg %9.0g 0 2000
1.4. Gráficos
A continuación veremos como introducir algunos comandos básicos en Stata 10, incluyendo
histogramas , gráficos de caja y bigote, ploteos y matrices de ploteos.
Utilizaremos la base de datos auto.dta en los siguientes ejemplos:
use auto.dta, clear
Podemos utilizar el comando histogram para generar un histograma de la variable mpg
histogram mpg
.1
.08
.06
Density
.04
.02
0
10 20 30 40
Mileage (mpg)
Se puede realizar un ploteo de dos dimensiones para ilustrar la relación entre mpg y
weight. Como esperamos, existe una relación negativa entre estas dos variables.
31
Humberto Ortiz Ruiz
graph twoway scatter mpg weight

40 30
Mileage (mpg)
20
10
2,000 3,000 4,000 5,000

Weight (lbs.)
Obtendríamos el mismo gráfico si escribimos la siguiente línea:
twoway scatter mpg weight
32
Humberto Ortiz Ruiz
Podemos mostrar la línea de regresión prediciendo mpg de weight de la siguiente

manera:
twoway lfit mpg weight
Podemos obtener el mismo gráfico con la siguiente línea de comandos:
twoway (scatter mpg weight) (lfit mpg weight)
33
Humberto Ortiz Ruiz
Podemos aumentar etiquetas a los valores mediante el comando make como se

muestra a continuación.
Nota: mlabel es una opción del comando scatter
twoway (scatter mpg weight, mlabel(make) ) (lfit mpg weight)
34
Humberto Ortiz Ruiz
A continuación combinamos dos posibilidades: obtener dos gráficos, uno para los carros
nacionales y otro para los carros extranjeros; y bandas de confianza alrededor de los
valores predichos utilizando la opciòn lfitci en lugar de lfit, Observamos que la opciòn
by se encuentra al final de la línea de comandos.
twoway (scatter mpg weight) (lfitci mpg weight), by(foreign)
35
Humberto Ortiz Ruiz
Se puede estimar una matriz de ploteos con el commando graph matriz. A continuación
examinamos la relaciòn entre mpg, weight, y precio.
graph matrix mpg weight price
36
Humberto Ortiz Ruiz
Comando Graph
Los comandos que generan gráficos son:
comando descripción
------------------------------------------------------------------
graph twoway scatterplots, line plots, etc.
graph matrix scatterplot matrices
graph bar bar charts
graph dot dot charts
graph box box and whisker plots
graph pie pie charts
other more commands to draw statistical graphs
------------------------------------------------------------------
Comando Graph Twoway
Los miembros de la familia de los gráficos twoway son llamados “plottypes”
[graph] twoway plot [if exp] [in range] [, twoway_options]
where plot is defined
[(] plottype varlist ..., options [)] [||]
plottype description
----------------------------------------------------------------------
scatter scatterplot
line line plot
connected connected-line plot
scatteri scatter with immediate arguments
area line plot with shading

bar bar plot
spike spike plot
dropline dropline plot
dot dot plot
rarea range plot with area shading

rbar range plot with bars
rspike range plot with spikes
rcap range plot with capped spikes
rcapsym range plot with spikes capped with symbols
rscatter range plot with markers
rline range plot with lines
rconnected range plot with lines and markers
mband median-band line plot

mspline spline line plot
lowess LOWESS line plot
37
Humberto Ortiz Ruiz
lfit linear prediction plot

qfit quadratic prediction plot
fpfit fractional polynomial plot
lfitci linear prediction plot with CIs
qfitci quadratic prediction plot with CIs
fpfitci fractional polynomial plot with CIs
function line plot of function

histogram histogram plot
kdensity kernel density plot
----------------------------------------------------------------------
38
Humberto Ortiz Ruiz
Gráfico Twoway Scatter
[twoway] scatter varlist [weight] [if exp] [in range] [,

marker_options
marker_placement_option
marker_label_options
connect_options
axis_selection_options
composite_style_option
twoway_options ]
Gráfico Twowat Line
[twoway] line varlist [if exp] [in range] [, line_options ]
White and black life expectancy

USA, 1900-1999
1918
Life expectancy at birth (years)
80
70
60
50
40
30
20 20
15
10
5
0 0
1900 1920 1940 1960 1980 2000
Year
Life expectancy, w hite males Life expectancy, black males
Difference Fitted values
Source: National Vital Statistics, Vol 50, No. 6
(1918 dip caused by 1918 Inf luenza Pandemic)
39
Humberto Ortiz Ruiz
Opción Combine
En la misma área de gráficos, combina 2 o más gráficos (pueden ser de diferentes tipos.
graph combine name [name ...] [, combine_options ]

80
80
70
70
Life expectancy, females
Life expectancy, males
60
60
50
50
40
40
1900 1920 1940 1960 1980 2000 1900 1920 1940 1960 1980 2000
Year Year
Life expectancy at birth vs. GNP per capita

Fraction Log base 10 of GNP per capita
.3 .2 .1 0 2.5 3 3.5 4 4.5
55 60 65 70 75 80
0 55 60 65 70 75 80
Life expectancy at birth

.05
Fraction
.15
.2 .1
2.5 3 3.5 4 4.5

Log base 10 of GNP per capita
Source: 1998 data f rom The World Bank Group
40
Humberto Ortiz Ruiz
Opciones de marcador
Modifica los marcadores y/o sus etiquetas para ajustarse a las preferencias del usuario.
marker label option
Life expectancy vs. GNP per capita

North, Central, and South America
80
Canada
United States
Life expectancy at birth(years)
75
Jamaica Chile
Panama Uruguay
Venezuela Trinidad Argentina
Mexico
Dominican Republic
70
Ecuador Para Colombia

Honduras El Salv ador Peru
Nicaragua
Brazil
65
Guatemala
Boliv ia
60 55
Haiti
.5 5 10 15 20 25 30
GNP per capita (thousands of dollars)
Data source: World bank, 1998
División
Permite crear gráficos múltiples a partir de submuestras.
by_option is by( varlist (, suboptions ) )
Domestic Foreign
40
30
20
Mileage (mpg)
10
2,000 3,000 4,000 5,000
Total
40
30
20
10
2,000 3,000 4,000 5,000

Weight (lbs.)
Graphs by Car ty pe
41
Humberto Ortiz Ruiz
Gráfico de Picos
Se trabaja con este tipo de gráficos cuando se grafican datos bursátiles.
twoway rspike y1var y2var xvar [if exp] [in range] [, rspike_options
scatter_options ]
S&P 5000
1400
Price -- High, Low; Close
1100 1200 1300
Volume(millions)
10 15 20
05jan2001 25jan2001 14feb2001 06mar2001 26mar2001

Date...
Source: Y ahoo!Finance and Commodity Sy stems, Inc.
Gráfico de Matriz
Ordena los gráficos de manera matricial.
graph matrix varlist [weight] [if exp] [in range] [, matrix_options]
42
Humberto Ortiz Ruiz
50 60 70 80 20 40 60 80 100
3
A vg. 2
annual 1
%
grow th 0
-1
80
70 Life
expectancy
60 at birth
50
12
10
lgnppc
8
6
100
80
60 saf ew ater
40
20
-1 0 1 2 3 6 8 10 12
43
Humberto Ortiz Ruiz
Gráfico de caja y bigote
Ordena los gráficos de manera matricial.
graph hbox yvars [weight] [if exp] [in range] [, options ]
Response to Treatment, by Sex

(120 Preoperative Patients)
180
Systolic blood pressure
140 120160
Before After Before After

Male Female
Source: Fictional Drug Trial, Stata Corporation, 2003
Gráficos de pie
Se utilizan cuando nos interesa analizar proporciones.
graph pie yvars [weight] [if exp] [in range] [, options ]
44
Humberto Ortiz Ruiz
Expenditures, XYZ Corp.

2002
Development
Sales
Research
Marketing
Source: 2002 Financial Report (f ictional data)
45
Humberto Ortiz Ruiz
Gráficos de barras
Se pueden realizar gráficos con barras verticales y horizontales.
graph bar yvars [weight] [if exp] [in range] [, options ]
graph hbar yvars [weight] [if exp] [in range] [, options ]
Average Hourly Wage, 1988, Women Aged 34-46

by College Graduation, Marital Status, and SMSA residence
15
10
5
0
single married single married

not college grad college grad
nonSMSA SMSA
Source: 1988 data f rom NLS, U.S. dept of Labor, Bureau of Labor Statistics
Spending on tertiary education as % of GDP, 1999

Canada
United States
Sw eden
Denmark
Netherlands
Ireland
Australia
France
Germany
Britain
0 .5 1 1.5 2 2.5
Public Private
Source: OECD, Education at a Glance 2002
46
Humberto Ortiz Ruiz
47
Humberto Ortiz Ruiz
Gráfico de puntos
graph dot yvars [weight] [if exp] [in range] [, options ]
Average hourly wage, 1988, women aged 34-46

Farm laborers
Transport
Laborers
Operatives
Service
Household w orkers
Craftsmen
Sales
Farmers
Clerical/unskilled
Other
Professional/technical
Managers/admin
0 2 4 6 8 10
mean of w age
Source: 1988 data f rom NLS, U.S. Dept of Labor, Bureau of labor Statistics
Gráfico Twoway HIstogram
twoway histogram varname [weight] [if exp] [in range]

[, [discrete_options|continuous_options] common_options ]
48
Humberto Ortiz Ruiz
Eur & C.Asia N.A.

.3
.2
.1
0
Density
S.A. Total
.3
.2
.1
0
50 60 70 80 50 60 70 80
Graphs by Region
49
Humberto Ortiz Ruiz
Gráfico Twoway Kdensity
twoway kdensity varname [if exp] [in range]

[, kdensity_options line_options]
.1 .08
Density/kdensity lexp
.04 .06
.02
0
55 60 65 70 75 80
Life expectancy at birth/x
Density kdensity lexp
1.5. El do-file
A través de una ventana similar a la de un editor de textos es posible crear una secuencia de
comandos de STATA, los cuales se almacenan a través de los llamados “do-files”. La ventaja
de estos archivos (de extensión *.do) es que permiten replicar un conjunto de instrucciones
previamente almacenadas. Esto ayuda a ir corrigiendo posibles errores en la ejecución de los
comandos, además de permitir guardar la rutina de comandos ejecutados para sesiones
posteriores.
Los dofiles permiten
1. Mantener un registro de todo lo que se ha hecho en la sesión y poder replicarlo.

2. Correr una gran cantidad de comandos.
Se pueden considerar como un mecanismo de seguridad por permitir facilmente regresar a la

data original sin importar cuantas transformaciones se hayan realizado.
Recordemos que para abrir la ventana del Do-file Editor pulsamos el botón correspondiente o
las teclas {ctrl+8} o desde el menú principal: Windows/Do-file Editor. Como ejemplo
abriremos el archivo coment.do. Para ejecutar unas líneas las iluminamos y luego pulsamos el
penúltimo botón de dicha ventana. Para ejecutarlo todo pulsamos el último botón o empleamos
el comando do del siguiente modo:
50
Humberto Ortiz Ruiz
1.6. Uso del menu Help
El comando help es uno de los comandos más importantes de Stata, pues presenta la sintaxis
de los comandos así como ejemplos de cómo se usan. Para pedirle ayuda a Stata sobre un
comando se escribe en la ventana de comandos help (o hel o he) seguido del nombre del
comando que queramos conocer.
Abramos el archivo auto.dta y luego escribamos:
help summarize
Observemos que el comando y sus opciones están en letra blanca mientras que la mayor parte
del resto de la sintaxis va en letra verde4. En el nombre del comando se observa que las dos
primeras letras están subrayadas, lo que indica que podemos en lugar de escribir el comando
como summarize podemos escribir su (o cualquier forma intermedia).
Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los comandos
primero se ponen las variables, luego el peso, los condicionales (if) preceden a los rangos (in) y
les siguen las opciones después de un coma:
[varlist] es la lista de variables.

[weight] son los pesos o ponderaciones.
[if exp] permite seleccionar la muestra donde exp es una expresión lógica.
[in range] permite seleccionar la muestra donde range es un rango de los datos.
4
La letra celeste se reserva para los hipervínculos.
51
Humberto Ortiz Ruiz
La sintaxis de los comandos Stata tienen un formato comun:
[by lista de var:] comando lista de var [if expresion] [in rango][ponderadores]
[using nombre del archivo], [opciones]
Sin embargo usaremos una version mucho más simple como:
[by lista de var:] comandolista de var [if expresion], [opciones]
El prefijo by permite aplicar el mismo comando separando la base de datos en subgrupos de

nidos por lista de var. Posteriormente viene el comando seguido por una segunda lista de var a
las cuales se les aplicara el comando elegido.
Los datos utilizados para evaluar el comando pueden ser limitados con las opciones if e in. Las
opciones especificas al comando tienen que ser precedidas por una coma.
Otra información clave es la forma en que podemos obtener ayuda. Todos los comandos Stata
tienen información acerca de la manera en que deben utilizarse (sintaxis y opciones); para
acceder a ella es solo cuestión de escribir la palabra help seguida por el nombre del comando
en la ventana de comandos de Stata. Si no conoce el nombre del comando que realiza la tarea
que tiene en mente, escriba la palabra findit seguida por una palabra que este relacionada con
dicha tarea. Este comando busca en toda la documentación tanto interna como aquella que se
encuentra en la pagina red de Stata.
Stata se actualiza casi continuamente, los usuarios pueden escribir programas y mandarlos al
archivo de SSC (Statistical Software Components), por lo tanto es necesario hacer
actualizaciones de forma regular. El comando update query le indicará si es necesario hacer
actualizaciones.
1.7. Uso del Stat\transfer
Para poder trabajar con una base de datos de extensión distinta a la de Stata (.dta) hay dos
maneras. La primera de ellas se consiste en el tedioso proceso de introducir uno a uno los
datos en Stata editor. La segunda es una manera mucho más sencilla y conveniente de
hacerlo, y se refiere al uso del Statransfer. Este último proceso permite introducir archivos
desde casi cualquier otro programa a Stata.
Stat\Transfer5 es un software que permite guardar archivos en diversos formatos, haciendo

fácil el paso de datos entre softwares estadísticos, bases de datos y hojas de cálculo.
Para ingresar al Stat\Transfer basta con dar un clic sobre el icono:
Inmediatamente aparecerá un ventana con 4 listas desplegables donde se debe

seleccionar la siguiente información:
1. Input File Type: Es el formato original en el que se encuentran los datos.
5
Ver http://www.stattransfer.com/
52
Humberto Ortiz Ruiz
2. File Specification: Es la ruta y nombre del archivo de datos que se importará.
3. Output File Type: Es el formato nuevo en el que se guardará el archivo.
4. File Specification: Es la ruta y nombre del archivo que se creará
Para cambiar el formato de un archivo, debemos primero especificar su programa y ruta

de origen en las celdas Input file type y File specification (la que se encuentra en la
primera mitad de la ventana) respectivamente.
Luego debemos especificar, en la celda Output file type, el formato en el que

deseamos este disponible la base de datos, en este caso el de Stata. Finalmente, en la
última celda (File specification) indicamos la dirección en la que deseamos esté
disponible el archivo.
Como ejemplo, abriremos el archivo de Excel con el nombre: enaho01-2003-700 y lo

guardamos en el escritorio. Sin olvidar cerrar el archivo de Excel para poder utilizarlo,
ingresamos en el cuadro de diálogo del Stat\transfer los siguientes datos:
Luego de completar los campos, dar clic en Transfer y el software iniciará la importación.
Para ejecutar la conversión, se hace click sobre el botón Transfer y una vez realizada
se presiona Reset.
Nota 25: Basta tener a la base de datos disponible en formato Stata6, para poder disponer de
ella en las versiones posteriores de Stata, si recordamos de la sesión anterior existe
compatibilidad hacia adelante. Recordemos que en Stata6 los nombres de las variables sólo
pueden ser de hasta 8 dígitos.
Nota 26: La lista de programas desde la cual se pueden recoger los datos se encuentra
especificada en el cuadro de diálogo del Stat\Transfer, a esta lista se tiene acceso haciendo
click sobre el ratio botton ubicado en el extremo derecho de la primera celda Input File Type.
Nota : Del mismo modo ocurre al especificar el formato de destino. Este programa no solo
transforma las bases de datos a formato Stata sino que hay más posibilidades.
Por ejemplo, para importar el archivo de datos ‘Probit99.sav’ del formato Spss al Stata 6.0 la
ventana debe tener la siguiente apariencia:
53
Humberto Ortiz Ruiz
También podemos convertir la base de datos existente en formato Stata a formato SPSS.
54
Humberto Ortiz Ruiz
1.8. Ejemplo de sesión en Stata 10
A continuación, veremos en qué consiste una sesión de trabajo en Stata 10 y exploraremos

algunos comandos. Al mismo tiempo conoceremos la forma interactiva de trabajo con Stata
utilizando la Barra de Menús y los GUI para realizar paralelamente algunas tareas.
Como hemos visto anteiormenten para abrir una base de datos desde el menú principal,
seguimos la siguiente ruta: File/Open. En el cuadro de diálogo que aparece a continuación se
elige el archivo deseado, que en este caso tiene la extensión de los archivos de datos nativos
de Stata, dta.
Como ejemplo de sesión abriremos el archivo auto.dta:
Este archivo contiene una base de datos de autos: 74 observaciones y 12 variables definidas a
continuación:
make = Make and Model

price = Price
mpg = Mileage (mpg)
rep78 = Repair Record 1978
headroom = Headroom (in.)
trunk = Trunk space (cu. ft.)
weight = Weight (lbs.)
length = Length (in.)
turn = Turn Circle (ft.)
displacement = Displacement (cu. in.)
gear_ratio = Gear Ratio
foreign = Car type.
Observemos que se han suscitado cambios en las siguientes ventanas:
Review: use "C:\DATA\auto.dta", clear

Variables: aparece la lista con las variables del archivo auto.dta
Stata Results: use "C:\DATA\auto.dta", clear
Nota: Al ejecutar los comandos mediante estos menús además se registra en la ventana Stata
Review el comando equivalente para la ventana Stata Command. Esta característica es muy
útil cuando se aprende Stata porque es posible ejecutar un comando mediante la GUI y luego
repetirlo empleando comandos.
Cuando cargamos en la memoria el archivo auto.dta mediante el menú Stata, éste ha

incorporado en la ventana de resultados los comandos equivalentes que se hubiesen tenido que
poner en Stata Command para obtener el mismo resultado. Los comandos se han almacenado
en la ventana Review del mismo modo que sucedería si hubiésemos digitado los comandos en
dicha ventana. Si bien trabajar con la barra de herramientas y con los menús desplegables es
más intuitivo, para el usuario experto es más rápido y sencillo potente trabajar directamente con
los comandos (lo cual le permite emplear los archivos de ejecución y la programación
avanzada)
55
Humberto Ortiz Ruiz
Inspección de los datos
Para ver una descripción rápida de los datos ingresamos describe. Para copiar a MSWord lo
que acaba de aparecer en la ventana de resultados iluminamos dicho resultado y lo copiamos
como texto o como tabla, luego de pegarlo le aplicamos formato indicando el tipo tamaño 9 y
fuente Courier New.
use "C:\Program Files\Stata9\auto"

(1978 Automobile Data)
The data that we loaded contain
. describe
Contains data from http://www.stata-press.com/data/r9/auto.dta

obs: 74 1978 Automobile Data
vars: 12 13 Apr 2005 17:45
size: 3,478 (99.9% of memory free) (_dta has notes)
------------------------------------------------------------------------------
storage display value
variable name type format label variable label
------------------------------------------------------------------------------
make str18 %-18s Make and Model
price int %8.0gc Price
mpg int %8.0g Mileage (mpg)
rep78 int %8.0g Repair Record 1978
headroom float %6.1f Headroom (in.)
trunk int %8.0g Trunk space (cu. ft.)
weight int %8.0gc Weight (lbs.)
length int %8.0g Length (in.)
turn int %8.0g Turn Circle (ft.)
displacement int %8.0g Displacement (cu. in.)
gear_ratio float %6.2f Gear Ratio
foreign byte %8.0g origin Car type
------------------------------------------------------------------------------
Sorted by: foreign
------------------------------------------------------------------------------
. ds /*lista las variables en forma compacta*/

make rep78 weight displacement
price headroom length gear_ratio
mpg trunk turn foreign
56
Humberto Ortiz Ruiz
57
Humberto Ortiz Ruiz
. codebook make mpg rep78 weight
-------------------------------------------------------------------------------
make Make and Model
-------------------------------------------------------------------------------
type: string (str18), but longest is str17
unique values: 74 missing "": 0/74
examples: "Cad. Deville"

"Dodge Magnum"
"Merc. XR-7"
"Pont. Catalina"
warning: variable has embedded blanks
-------------------------------------------------------------------------------
mpg Mileage (mpg)
-------------------------------------------------------------------------------
type: numeric (int)
range: [12,41] units: 1

unique values: 21 missing .: 0/74
mean: 21.2973
std. dev: 5.7855
percentiles: 10% 25% 50% 75% 90%

14 18 20 25 29
-------------------------------------------------------------------------------
rep78 Repair Record 1978
-------------------------------------------------------------------------------
type: numeric (int)
range: [1,5] units: 1

tabulation: Freq. Value

2 1
8 2
30 3
18 4
11 5
5 .
-------------------------------------------------------------------------------
58
Humberto Ortiz Ruiz
weight Weight (lbs.)

-------------------------------------------------------------------------------
type: numeric (int)
range: [1760,4840] units: 10

mean: 3019.46
std. dev: 777.194
percentiles: 10% 25% 50% 75% 90%

2020 2240 3190 3600 4060
59
Humberto Ortiz Ruiz
Hacer listados puede ser informativo
A continuación se muestra una parte de nuestra data:
. list make mpg in 1/10
+---------------------+
| make mpg |
|---------------------|
1. | AMC Concord 22 |
2. | AMC Pacer 17 |
3. | AMC Spirit 22 |
4. | Buick Century 20 |
5. | Buick Electra 15 |
|---------------------|
6. | Buick LeSabre 18 |
7. | Buick Opel 26 |
8. | Buick Regal 20 |
9. | Buick Riviera 16 |
10. | Buick Skylark 19 |
+---------------------+
¿Qué carros tienen el menor millaje por galón?
. sort mpg
. list make mpg in 1/5
+-------------------------+
| make mpg |
|-------------------------|
1. | Linc. Continental 12 |
2. | Linc. Mark V 12 |
3. | Linc. Versailles 14 |
4. | Merc. XR-7 14 |
5. | Cad. Deville 14 |
+-------------------------+
¿Cuáles son los cinco autos con mayor millaje por galón?
. list make mpg in -5/-1
+----------------------+
| make mpg |
|----------------------|
70. | Toyota Corolla 31 |
71. | Plym. Champ 34 |
72. | Subaru 35 |
73. | Datsun 210 35 |
60
Humberto Ortiz Ruiz
74. | VW Diesel 41 |
+----------------------+
61
Humberto Ortiz Ruiz
Nota : Cuando las ventanas Browser y Edit se encuentran abiertas es imposible ingresar
comandos, puesto que la barra Stata Command desaparece.
En cuanto a los Tipos de variables, Stata tiene 5 tipos de variables de datos:
float números reales en formato 8,5 (8 cifras enteras, cinco decimales)

double números reales en formato 16,5
byte enteros entre –127 y 100
int enteros entre –32767 y 32740
long enteros entre –3147483647 y 2147483620
Stata por defecto le asigna formato float a una variable de datos nueva.
Intercooled Stata9.0 soporta cadenas de hasta 80 caracteres de largo.
str1 cadenas de 1 carácter

str80 cadenas de 80 caracteres
Estadísticas descriptivas
¿Como no estoy familiarizado con los precios de 1978, cuál es el precio promedio de los carros
en esta base de datos?
. summarize price
Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------
price | 74 6165.257 2949.496 3291 15906
summarize funciona como list, pero sin argumentos, nos da un resumen de toda la data:
. summarize

-------------+--------------------------------------------------------
make | 0
price | 74 6165.257 2949.496 3291 15906
mpg | 74 21.2973 5.785503 12 41
rep78 | 69 3.405797 .9899323 1 5
headroom | 74 2.993243 .8459948 1.5 5
-------------+--------------------------------------------------------
trunk | 74 13.75676 4.277404 5 23
weight | 74 3019.459 777.1936 1760 4840
length | 74 187.9324 22.26634 142 233
turn | 74 39.64865 4.399354 31 51
displacement | 74 197.2973 91.83722 79 425
-------------+--------------------------------------------------------
gear_ratio | 74 3.014865 .4562871 2.19 3.89
foreign | 74 .2972973 .4601885 0 1
62
Humberto Ortiz Ruiz
Nota: la variable make tiene 0 observaciones debido a que es una variable de cadena
(string) , calcular una media bajo este comando está indefinido pero no es un error
hacerlo. La variable rep78 sólo tiene 69 observaciones porque no tiene registro para 5
carros.
¿Cuál es el precio promedio de los carros que se encuentran por encima y por debajo de la
media de mpg?
. summarize price if mpg<21.3

-------------+--------------------------------------------------------
price | 43 7091.86 3425.019 3291 15906
. summarize price if mpg>=21.3

-------------+--------------------------------------------------------
price | 31 4879.968 1344.659 3299 9735
¿Cuál es la mediana de mpg?
. summarize mpg, detail
Mileage (mpg)
-------------------------------------------------------------
Percentiles Smallest
1% 12 12
5% 14 12
10% 14 14 Obs 74
25% 18 14 Sum of Wgt. 74
50% 20 Mean 21.2973

Largest Std. Dev. 5.785503
75% 25 34
90% 29 35 Variance 33.47205
95% 34 35 Skewness .9487176
99% 41 41 Kurtosis 3.975005
Respuesta: 20.
63
Humberto Ortiz Ruiz
Nuestra base de datos contiene la variable foreign que esta codificada de la siguiente manera:
0 si el carro ha sido fabricado los Estados Unidos o Canada, y 1 si el carros ha sido fabricado
en otra parte.
¿Existen diferencias de precio o millaje explicadas por el origen de fabricación?
Para saberlo tenemos que estimar las estadísticas de resumen para las variables price y MPG
en los dos casos se recoge la variable foreign.
Existen dos soluciones para este problema:
1. Tipeando los comandos
summarize price mpg if foreign==0

summarize price mpg if foreign==1
2. O, introduciendo las siguientes líneas de comandos:
. sort foreign
. by foreign: summarize price mpg
------------------------------------------------------------------------------
-> foreign = Domestic

-------------+--------------------------------------------------------
price | 52 6072.423 3097.104 3291 15906
mpg | 52 19.82692 4.743297 12 34
------------------------------------------------------------------------------
-> foreign = Foreign

-------------+--------------------------------------------------------
price | 22 6384.682 2621.915 3748 12990
mpg | 22 24.77273 6.611187 14 41
Parece que el MPG promedio de los carros “domésticos” extranjeros es diferente. Lo que
queremos ahora es saber si son "estadísticamente" diferente. Para ello haremos un contraste
de hipótesis para verificar si las medias de ambos grupos son iguales.
. ttest mpg, by(foreign)
Two-sample t test with equal variances

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Domestic | 52 19.82692 .657777 4.743297 18.50638 21.14747
64
Humberto Ortiz Ruiz
Foreign | 22 24.77273 1.40951 6.611187 21.84149 27.70396

---------+--------------------------------------------------------------------
combined | 74 21.2973 .6725511 5.785503 19.9569 22.63769
---------+--------------------------------------------------------------------
diff | -4.945804 1.362162 -7.661225 -2.230384
------------------------------------------------------------------------------
diff = mean(Domestic) - mean(Foreign) t = -3.6308
Ho: diff = 0 degrees of freedom = 72
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

Pr(T < t) = 0.0003 Pr(|T| > |t|) = 0.0005 Pr(T > t) = 0.9997
A partir de esta prueba hemos establecido que los carros domésticos en 1978 tenían un menor
millaje de gasolina que los carros extranjeros.
Tablas
Ahora, lo que queremos es saber el número de carros domésticos y extranjeros.
. tabulate foreign
Car type | Freq. Percent Cum.

------------+-----------------------------------
Domestic | 52 70.27 70.27
Foreign | 22 29.73 100.00
------------+-----------------------------------
Total | 74 100.00
La base de datos contiene la variable rep78 que a registrar la frecuencia de mantenimiento para
cada caso (1 = mala, ..., 5 = excelente). ¿Cómo ha sido el mantenimiento de los carros de la
muestra?
. tabulate rep78
Repair |
Record 1978 | Freq. Percent Cum.
------------+-----------------------------------
1| 2 2.90 2.90
2| 8 11.59 14.49
3| 30 43.48 57.97
4| 18 26.09 84.06
5| 11 15.94 100.00
------------+-----------------------------------
Total | 69 100.00
Tenemos 74 carros, sólo 69 tienen registrada la variable rep78 . Queremos conocer los carros
para los cuales esta información no existe.
65
Humberto Ortiz Ruiz
. list make if rep78>=.
+---------------+
| make |
|---------------|
14. | Plym. Sapporo |
17. | Buick Opel |
23. | Pont. Phoenix |
27. | AMC Spirit |
72. | Peugeot 604 |
+---------------+
Nota: list make if rep78>=. es equivalente a list make if missing(rep78)
Queremos saber si existen también diferencias entre las frecuencia de mantenimiento

explicadas por el origen de fabricación. Comparemos los registros para los carros domésticos y
extranjeros, es decir, hagamos una tabla en la que comparemos dos variables rep78 y foreign.
. tabulate rep78 foreign
Repair |
Record | Car type
1978 | Domestic Foreign | Total
-----------+----------------------+----------
1| 2 0| 2
2| 8 0| 8
3| 27 3| 30
4| 9 9| 18
5| 2 9| 11
-----------+----------------------+----------
Total | 48 21 | 69
Parece que los carros domésticos tienen una menor frecuencia de mantenimiento. A
continuación, queremos determinar si esta diferencia es estadísticamente significativa. Para ello
realizaremos un test chi2 (a pesar de que no se cumple la condición de que debe haber como
mínimo cinco observaciones en cada celda de la tabla).
. tabulate rep78 foreign, chi2
Repair |
Record | Car type
1978 | Domestic Foreign | Total
-----------+----------------------+----------
1| 2 0| 2
2| 8 0| 8
3| 27 3| 30
4| 9 9| 18
5| 2 9| 11
-----------+----------------------+----------
66
Humberto Ortiz Ruiz
Total | 48 21 | 69
Pearson chi2(4) = 27.2640 Pr = 0.000
Hemos encontrado que la frecuencia de mantenimiento es diferente de por el origen de

fabricación. Podemos inferir que los carros domésticos tenían un menor nivel de mantenimiento
en 1978.
Matrices de correlacion
¿Cuál es la correlación entre MPG y el peso de un carro?
. correlate mpg weight

(obs=74)
| mpg weight
-------------+------------------
mpg | 1.0000
weight | -0.8072 1.0000
Comparemos esta correlación para los carros domésticos y extranjeros:
. correlate mpg weight if foreign==0

(obs=52)
| mpg weight
-------------+------------------
mpg | 1.0000
weight | -0.8759 1.0000
. correlate mpg weight if foreign==1

(obs=22)
| mpg weight
-------------+------------------
mpg | 1.0000
weight | -0.6829 1.0000
Nota: Podemos haber obtenido ningún resultado tipeando by foreign: correlate mpg
weight.
Podemos estimar matrices de correlación con tantas variables como querramos.
. correlate mpg weight price length displacement

(obs=74)
| mpg weight price length displa~t
67
Humberto Ortiz Ruiz
-------------+---------------------------------------------
mpg | 1.0000
weight | -0.8072 1.0000
price | -0.4686 0.5386 1.0000
length | -0.7958 0.9460 0.4318 1.0000
displacement | -0.7056 0.8949 0.4949 0.8351 1.0000
Sabemos que el millaje promedio entre los carros domésticos y extranjeros es diferente. Hemos
visto también que el origen de fabricación explica otras diferencias, tales como la frecuencia de
reparación. Por otro lado, hemos encontrado una correlación negativa entre MPG y el peso del
carro (como era de esperarse) pero esta correlación parece ser más fuerte cuando analizamos
carros domésticos. A continuación examinaremos, con la intención de más adelante modelar, la
relación entre MPG y el peso. Comenzaremos graficando un ploteo simple
Para crear gráficos seguimos un procedimiento similar. Desde el menú principal:

Graphics/Easy graphs/Scatter plot, y en el cuadro de diálogo, con el cursor en la casilla X
variable pulsamos mpg y en la casilla Y variable pulsamos weight. Luego de pulsar el botón
OK, nos mostrará la siguiente pantalla.
40 30
Mileage (mpg)
20
10
2,000 3,000 4,000 5,000

Weight (lbs.)
Tambíen podemos tipear la siguiente orden:
. scatter mpg weight
scatter y x dibuja un gráfico de y contra x. Notamos que la relación a primera vista no es lineal.
68
Humberto Ortiz Ruiz
A continuación, realizaremos dos gráficos separados para los carros domésticos y extranjeros.
. sort foreign
. scatter mpg weight, by(foreign, total row(1))
Domestic Foreign Total

40
30
Mileage (mpg)
20
10
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000
Weight (lbs.)
Graphs by Car type
La relación no es únicamente no lineal, sino que también parece diferir para los carros
domésticos y extranjeros.
69
Humberto Ortiz Ruiz
70
Humberto Ortiz Ruiz
2. Introducción a la programación: algunas herramientas y comandos útiles
2.1. Macros local y global
Una herramienta básica en la programación en STATA es el uso de las macros que permiten
realizar el trabajo de forma más eficiente. Se puede ver una macro en STATA como un “alias”
que tiene un nombre y un valor. Cuando el nombre de una macro es referenciado se puede
obtener su valor.
Una macro puede contener cualquier combinación de caracteres alfanuméricos y puede

contener hasta 8000 caracteres. El valor de una macro puede ser modificado por otro comando.
Existen dos tipos de macros en STATA definidas como local y global. El contenido de las
macros global es definido mediante el comando global mientras que en el caso de las macros
local es definido con el comando local.
Las macros local existen sólo en el programa (ado) o el do-file definido. Es decir, si se abre otro
programa o do- file las macros local utilizadas con anterioridad no estarán disponibles. La macro
local es un contenido que puede mantener un objeto (como un nombre de una variable o un
número) o un conjunto de objetos.
Ejemplo
local paises PER ARG PAR MEX

di "`paises'"
Las macros global existen para la duración de un programa o una sesión de STATA. Otra
diferencia con respecto a las macros local es que la forma como se referencian.
Ejemplo
local paises PER ARG PAR MEX

di "$paises"
Las macros global son utilizadas frecuentemente para guardar los ítems paramétricos de un
programa, como puede ser un carácter string que contenga el nombre del directorio “defult” en
donde las bases de datos o los do-files serán accesados. A menos que sea necesario, se
recomienda utilizar macros local.
Las macros de STATA son útiles para construir listas, contadores o índices de enlace (loop
indices). Su uso puede ser extendido para retomar valores de los comandos de STATA (ver
return).
Se pueden utilizar una serie de funciones macro que pueden ser útiles para extraer etiquetas de
una variable, extraer el número de columnas o filas de una matriz, entre otros.
Ejemplo
71
Humberto Ortiz Ruiz
cd "…"
use auto
local x1: type labor
2.2. Enlazando variables: forvalues y foreach
STATA permite utilizar un solo comando en vez de distintos comandos para realizar
modificaciones a los valores de una variable y enlazar variables que tienen un contenido similar.
Las herramientas más potentes son los comandos forvalues y foreach.
La sintaxis de estos comandos es muy familiar para usuarios de C y otros lenguajes de

programación modernos. No se suele utilizar en mayor medida otros comandos como for (en
desuso) o while (que requiere especificar un contador como una macro local).
El comando forvalues permite enlazar valores consecutivos, repitiendo un conjunto de macros

local a cada elemento definido en el “rango” y ejecuta los comandos que se colocan entre
corchetes.
Ejemplo
forvalues i=1(1)5 {
display ì'
}
Se define la macro local i como un índice de enlace, siendo el rango 1(1)5. Se ejecutará el
comando entre corchetes para cada valor en el rango. Asimismo, el rango se puede definir de
distintas maneras.
Ejemplo
forvalues i=1/5 {
display ì'
}
El límite del rango se puede establecer mediante una macro.
Ejemplo
local n 5
forvalues i=1/`n' {
display ì'
}
Ejemplo. Si se tienen 4 variables x1, x2, x3 y x4
forvalues i=1/4 {
generate double lnxì'=log(xì')
summarize lnxì'
72
Humberto Ortiz Ruiz
El comando forvalues suele utilizarse para enlazar variables que tienen un componente
numérico (entero) común consecutivo. En otros casos se suele utilizar el comando foreach.
El comando foreach repite un conjunto de macros local a cada elemento de la lista (que
incluyen macros local y global) y ejecuta los comandos que se colocan entre corchetes. Como
en el caso de forvalues una macro local es definida como un índice de enlace. El loop es
ejecutado 0 o más veces, ejecutándose desde 0 si es que la lista está vacía. En vez de realizar
el ciclo de acciones sobre un conjunto de valores numéricos foreach especifica que el indice
loop itera a través de los elementos de la macro local o global, de los nombres de la variables
especificadas (varlist) o de los elementos explícito de elementos (numlist).
Ejemplo
foreach z in PER ARG PAR MEX {

generate double lnx`z'=log(x`z')
summarize lnx`z'
}
El comando foreach puede trabajar con una lista de variables específicas varlist, un newvarlist
de las variables que crea y un listado explícito de elementos numlist.
foreach z of varlist x* {
summarize ln`z'
}
2.3. Escalares y matrices
2.3.1. Escalares
STATA utiliza escalares y matrices. Los escalares pueden contener valores string (hasta 244
car5.1.2.acteres6) o un único valor numérico. Los comandos de análisis (describe, summ, entre
otros) de STATA dan los resultados como escalares numéricos (ver return). Adicionalmente, los
escalares pueden ser utilizados para guardar resultados numéricos.
Ejemplo
scalar root2=sqrt(2)
En el cálculo numérico es más fácil utilizar escalares. Si una macro contiene valores numéricos
estos deben ser convertidos previamente, mientras que en el caso de los escalares no se
requiere de ninguna transformación. Un escalar opera como una expresión. Es decir, no se
puede especificar un escalar como parte de un rango, in range, en la medida que ningún valor
será extraído. Se debe utilizar if exp desde que contiene una expresión numérica.
6
La extensión de una macro en la versión Intercooled es 67.789 mientras que en la versión SE es más de 1 millón.
73
Humberto Ortiz Ruiz
Los comandos de estimación de STATA (reg, xtreg, entre otros) crean tanto escalares como
matrices. Por ejemplo, con el comando reg se crea la matriz e(b) que contiene los estimadores
de los parámetros, e(V) que contiene la matriz de varianzas y covarianzas de los estimadores.
2.3.2. Matrices
STATA ha desarrollado un lenguaje matricial que soporta un amplio rango de operaciones

matriciales. Adicionalmente desde la version 9 STATA provee un lenguaje matricial que opera
en un ambiente separado, MATA.
Con los comandos matrix tradicionales el tamaño de las matrices es limitado según las distintas
versiones del STATA. Asimismo STATA posee de comandos especializados como matrix
accum que calcula productos cruzados de matrices de cualquier número de observaciones.
Hay también otras variaciones de dicho comando como matrix glsaccum, matrix vecaccum y
matrix opaccum.
matrix accum A = price weight mpg

matrix list A
Las matrices en STATA son útiles para guardar los resultados. También son una forma de
presentar la información de manera organizada.
Muchas operaciones no pueden ser realizadas con los comandos matrix tradicionales. Por
ejemplo si bien el comando matrix mkmat permite crear una matriz a partir de una lista de
variables el número de observaciones de la matriz es limitado. Por otro lado, los comandos
clásicos y los del lenguaje MATA y en general cualquier lenguaje matricial tiene limitaciones a la
hora de trabajar con expresiones matriciales complejas (panel, SUR, entre otros) sobretodo si
se consideran la memoria disponible en la PC. En estos casos es preferible trabajar con enlaces
que permitan simplificar el cálculo matricial. Por ejemplo en vez de realizar el cálculo matricial
para estimar un SUR se puede generar un loop en donde se regresiones distintas ecuaciones,
los dos procedimientos dan el mismo resultado pero el último no requiere de tantos recursos
informáticos.
2.4. Comandos return y ereturn
Los principales comandos de análisis de STATA, incluidos los nuevos comandos que el propio
usuario define, pueden ser clasificados en las siguientes clases:
• r-class: comandos diversos (excluidos los de estimación) tales como table, sumaries,
entre otros.
• e-class: comandos de estimación como regress, xtreg, entre otros que estiman modelos
estadísticos.
Cada clase de comando determina si los resultados son guardados en r() o e(). Existen otras
clases s-class, n-class y c-class que se utilizan con menor frecuencia (véase h return).
74
Humberto Ortiz Ruiz
Con el comando return (ereturn) list se pueden ver los elementos guardados en r() ( e())
correspondiente a los comandos de clase r (e).
Ejemplos
cd "..."
use auto
des
return list
La ejecución consecutiva de comandos r-class reemplazarán la lista return con los respectivos
valores de return. Si se quiere trabajar con dichos item estos se tienen que guardar como
macros local o como escalares.
summ mpg
return list
di "La media estandariza es `r(mean)'/`r(sd)'"
La mayoría de comandos e-class retornan cuatro tipos de objetos de STATA: escalares,

macros, matrices y una función de STATA e(sample) que asigna 1 a cada observación incluida
en la estimación y 0 en otro caso.
reg mpg weight foreign

ereturn list
75
Humberto Ortiz Ruiz
3. Modelo de regresión lineal clásico
3.1. Introducción
El modelo de regresión lineal especifica la media condicional de una variable respuesta

(endógena) como una función lineal de k variables independientes
E ( y / x1 , x2 ,..., xk ) = β1 x1 + β 2 x2 + ... + β k xk
El modelo de regresión lineal predice los valores promeido de y para distintos valores de
x1 , x2 ,..., xk . Los parámetros (de la población) β1 , β 2 ,..., β k no son conocidos. Sin embargo,
utilizando la información muestral se pueden obtener estimadores de los parámetros (o
coeficientes).
Por ejemplo, se puede suponer que el valor medio de los precios de casas de una sola familia
condional al ratio entre estudiantes
50000
precio promedio de casa unifamiliar
40000
30000
20000
10000
0
12 14 16 18 20 22
promedio de ratio estudiante/profesor
median housing price, $ Fitted values
Utilizando la información muestral se debe obtener:
76
Humberto Ortiz Ruiz
- buenos estimadores de los coeficientes,
- determinar como los estimados cambian si se tiene otra muestra de la misma población,
- analizar si hay suficiente evidencia no tomar algunos valores de los coeficientes
- utilizar los estimadores para interretar el modelo.
Para obtener estimadores de los parámetros de interés se deben realizar algunos supuestos
sobre el proceso generador de los datos. El modelo de regresión lineal clásico para unidad de
corte transversal “i”, es:
yi = β1 + β 2 xi ,2 + ... + β k xi , k + ui
Donde i=1,..N y ui es una perturbación aleatoria con varianza ( σ u2 ) desconocida. Se puede

reescribir en forma matricial:
y = Xβ + u
Un supuesto que se suele plantear es:
E (u/x) = 0
Lo que implica que
E (x ' u ) = 0
Luego se tiene que
−1
β = [ E (x'x)] E (x'y )
77
Humberto Ortiz Ruiz
Utilizando el principio de analogía, tenemos:
−1
 N   N 
 ∑ xi'xi   ∑ x'y  −1
βˆ =  i   i  = ( X ' X ) X'y
 N   N 
   
¿Qué supuesto se está planteando?
Los residuos se pueden calcular como
ˆ ´
uˆ = y − βX
Luego se puede plantear un estimador s2 para la varianza del término de perturbación.
En muestras pequeñas (o muestras finitas) se consideran propiedades deseables de los

estimadores la insesgadez y la eficiencia. Mientras que en muestras grandes (teoría asintótica),
se prefieren los estimadores que son consistentes.
Al momento de derivar la distribución muestral del estimador MCO β̂ se suele realizar un

supuesto adicional, que los ui son iid con varianza finita σ u2 . En muestras grandes se puede
demostrar que bajo los supuestos antes mencionados el estimador MCO β̂ tiene una
distribución normal (se distribuye asintóticamente como normal) con media β y varianza
σ u2Q −1 . Un estimador consistente para σ u2Q −1 es s 2 (X'X)−1 . Por otro lado, bajo iid se mantiene
el teorema Gauss-Markov.
78
Humberto Ortiz Ruiz
Comandos de estimación en STATA
En lo que se refiere a procesamiento de información STATA ofrece una amplia gama de

posibilidades. Lo más importante es que los comandos para las diferentes técnicas de
estimación comparten las siguientes características:
1. Usted puede usar la sintaxis de Stata para especificar la muestra de estimación sin tener
que crear una base de datos especial.
2. Usted puede revisar en cualquier momento las últimas estimaciones escribiendo el comando
de estimación.
3. Todos los comandos de estimación muestran los intervalos de confianza para los
coeficientes y permite que la opción level ( ) indique el tamaño del intervalo. Por defecto es
level (95), que significa intervalos de confianza al 95%. Usted puede reajustar el intervalo de
confianza con set level. Vea level en help.
4. Usted puede utilizar mfx para mostrar los resultados del modelo en términos de los efectos
marginales (dy/dx o incluso df(y)/ d(x)), que se pueden exhibir como derivadas o
elasticidades. Vea mfx en help.
5. Usted puede obtener tablas de medias ajustadas; vea adjust en help.
6. Usted puede obtener la matriz de varianza-covarianza de los estimadores (VCE) presentado

como matriz de correlación o covarianza usando vce en cualquier momento después de la
estimación. Vea vce en help. (Usted puede obtener también los coeficientes estimados y la
matriz de covarianza haciendo referencia al e (b) y e (V)).
7. Usted puede obtener predicciones, residuos, y similares, tanto para los datos que acaba de
estimar como para otros datos, usando predict. Vea en help predict.
8. Usted puede obtener predicciones no lineales, sus errores estándar, estadísticas del
Contraste de Wald, niveles de significancia e intervalos de confianza, tanto para los datos
que acaba de estimar como para otros datos, usando predictnl; vea predictnl en ayuda para
mas información. Una característica útil de predictnl es que usted puede obtener los errores
estándar para más predicciones disponibles vía predict, y puede también obtener errores
estándar de funciones y combinaciones de esas predicciones.
9. Usted puede referir a los coeficientes y a los errores estándar en expresiones (tales como
generate); vea [U] 16.5 Accessing coeficientes and Standard errors.
10. Usted puede realizar pruebas en los parámetros estimados usando test (Contraste de Wald
para hipótesis lineales), testnl (Contraste de Wald para hipótesis no lineales), lrtest
(Contraste del ratio de verosimilitud), hausman (Prueba de especificación de Hausman), y
suest (generalización de la prueba de Hausman, y más). Usted también puede obtener
puntos estimados e intervalos de confianza para combinaciones lineales de parámetros
estimados usando lincom, o para combinaciones no lineales usando nlcom.
11. Usted puede almacenar los resultados de la estimación usando estimates store. Estos
resultados pueden ser restaurados, reutilizados, los coeficientes de una estimación o más
79
Humberto Ortiz Ruiz
pueden ser combinados en una tabla, etc. Ver estimates en help. También se proporciona
otra herramienta que maneja los resultados de la estimación almacenados; ver _estimates
en help.
Además,
1. Muchos comandos de estimación tienen una opción robust que proporciona el

Huber/White/Sandwich estimador o varianza. Los comandos de estimación que
proporcionan esto también proporcionan una opción cluster() que relaja el supuesto de
independencia. Ver [U] 23.14 Obtaining robust variance estimates.
2. Muchos comandos de estimación pueden ser usados con el prefijo sw para realizar
stepwise estimation, ver sw en help.
80
Humberto Ortiz Ruiz
3.2. Aplicación
La base de datos hprice2a.dta contiene información sobre el precio de casas ubicadas en 506
localidades de Boston. El objetivo es analizar que factores afectan a al logaritmo de precio
promedio de casas unifamiliares. Para ello se cuenta con información de factores relacionados
directamente al stock de casas como el número promedio de cuartos por casa (room) y
factores que impactan de manera indirecta (factores externos) al precio de las casas como la
contaminación del aire (medido por lnox), la distancia de una localidad a los centros laborales
(ldist), el ratio promedio de estudiantes/profesores en las escuelas locales (stratio).
Para realizar una estimación MCO tradicional en STATA se utiliza el comando regress. La
sintaxis del comando es:
regress depvar [varlist] [weight] [if exp] [in range] [, level(#) beta robust cluster(varname)
score(newvar) hc2 hc3 hascons noconstant tsscons noheader eform(string)
depname(varname)mse1 plus ]
La estimación se puede realizar de varias formas: utilizando las ventanas emergentes o

digitando en la barra de comando.
Para efectuar cualquiera de los métodos de estimación posibles en Stata 10.0 utilizando las
ventanas emergentes debemos partir del menú Statistics. Además de los múltiples métodos de
estimación disponibles, podemos definir nuestros propios comandos desde el menú User, tal
como veremos en una sesión subsiguiente.
Para el caso de la estimación por MCO, desde el menú principal: Statistics/Linear regression
and related/linear regresión. En el cuadro de diálogo respectivo ingresamos la variable
dependiente lprice y las explicativas, que en este caso son: lnox, ldist, rooms, stratio
81
Humberto Ortiz Ruiz
Nota : Una forma alternativa de incluir las variables del modelo de regresión en el cuadro de
diálogo es haciendo clic sobre ellas.
Para estimar por MCO podemos ingresar directamente el comando:
Nota : En general todos los métodos de estimación en Stata 10 son similares, por lo que si
conocemos teóricamente un método de estimación la implementación mediante estos cuadros
de diálogo es muy simple. Además los procesos estadísticos luego de la estimación (intervalos
de confianza, prueba de hipótesis, etc) son similares en todas las metodologías. Stata puede
estimar varios tipos modelos, incluyendo la regresión logística, la regresión de Cox para riesgos
proporcionales, etc.
82
Humberto Ortiz Ruiz
Al aplicar el comando reg aparece en la ventana de resultados la tabla ANOVA (análisis de la

varianza), estadísticos de bondad de ajuste, la estimación del modelo y los test de hipótesis.
En la regresión hay dos fuentes de varianza, model y residual. En la tabla ANOVA se presentan
la suma de los cuadrados, los grados de libertad y la media esperada al cuadrado (división de
los dos anteriores).
Entre los estadísticos de bondad de ajuste más utilizados están R2, el R2 ajustado, y criterios de
información como Akaike y el Bayesiano o Schwarz. Las tres últimas medidas toman en cuenta
la bondad de ajsute del modelo y su parsimonía.
En el output se reporta los estimadores, sus errores estándar, los t estadísticos, el p-value
ahocicado a la hipótesis de βi = 0 y los intervalos de confianza a un nivel de confianza de 95%
(establecido por default). Se puede cambiar los niveles de confianza con la opción level().
STATA tiene la opción de reportar los “coeficientes beta”, tulizados en algunas disciplinas
sociales, que son definidos como ∂y * / ∂x * con y* = ( y − y ) / s y y x* = ( x − x ) / sx .
El comando reg es del tipo e-class. Se pueden recuperar distintos resultados del modelo
estimado:
83
Humberto Ortiz Ruiz
Con el comando estat se puede ver varios resultados luego de cualquier comando de
estimación como la matriz de varianzas y covarianzas, los estadísticos de información, entre
otros.
Los resultados del modelo estimado se pueden guardar utilizando el comando estimates store.
Adicionalmente se pueden organizar distintas ecuaciones estimadas a través del comando
estimates table.
84
Humberto Ortiz Ruiz
3.3. Colinealidad y análisis VIF
Hay grados de colinealidad entre las variables explicativas. Si al menos una variable es
perfectamente colineal con el resto de variables explicativas la matriz X’X será singular y no se
podrá relizar la estimación. STATA reconoce la colinealidad perfecta pero es difícil analizar
colinealidad cercana.
En el caso que exista colinealidad perfecta STATA elimina las variables hasta que la matriz X’X
sea numéricamente invertible. La colinealidad cercana se da cuando las correlaciones parciales
son altas o hay presencia de dependencias cercamente lineales en la matriz X. El no
cumplimiento del rango completo de X es un problema de la muestra. En el caso de colinealidad
cercana pequeños cambios en la matriz X generan cambios importantes en los coeficientes
estimados. El ajuste del modelo será bueno pero los coeficientes tendrán errores estándar
elevados, coeficientes con magnitudes elevadas o con signos incorrectos.
Para analizar la colinealidad se suele utlizar distintos diagnósticos entre ellos el VIF o variante
inflator factor el cual se define como (1 − Rk2 ) −1 .
Para detectar colinealidad cercana en una regresión se puede utilizar la condición de numero de
X’X que mide la sensibilidad de los estimadores ante variaciones en X. Una condición de
número elevada indica que pequeños cambios en X puenden generar importantes cambios en
los estimadores. Besley propone que una condición de número superio a 20 es indicio de
colinealidad cercana. Por otro lado, no hay un test estadístico que permita analizar si la
condición de rango se cumple.
Si el análisis VIF indica que hay colinealidad se debe ver si esta afecta o no a los estimadores.
Debemos tomar en cuenta que muchas variables macroeconómicas están intecorrelacionadas.
Si la colinealidad afecta adversamente a la ecuación de regresión se pueden seguir dos
caminos: (i) especificar nuevamente el modelo de forma tal de reducir la dependencia lineal de
las explicativas o (ii) adquirir una muestra más grande y mejor.
85
Humberto Ortiz Ruiz
3.4. Pruebas de hipótesis
Se pueden realizar una serie de pruebas de hipótesis a los estimadores del modelo de
regresión. Los test mñas populares en eocnometria son el test de Wald, multiplicadores de
Lagrange (LM) y el test rario verosimilitud (LR). Un conjunto de purebas de hipótesis se pueden
formular mediante la comparación del modelo irrestricto y del modelo restricto. El test de wald
compara el modelo restricto y del irrestricto con el objetivo de analizar si hay evidencia de que
las restricciones planetadas no se cumplen. El test LM evalúa si los estimadores puntuales
restrictos pueden reproducir los estimadote irrestricstos. El test LR ebvalúa la función objetivo
del modelo restricto y del irrestricto.
STATA tiene tres comandos útiles para probar una serie de hipótesis para restricciones lineales
luego de una regresión: test, testparm y lincom.
Para realizar una serie de pruebas de hipótesis individuales utilizando el test de Wald:
Hipótesis que involucran combinaciones lineales
Y también hipótesis conjuntas:
En STATA es relativamente sencillo estimar un modelo con restricciones lineales.
86
Humberto Ortiz Ruiz
Las test antes desarrollados involucran restricciones lineales a los parámetros que son objeto
de estudio. Sin embargo, en algunas situaciones es necesario probar hipótesis que involucran
restricciones no lineales. STATA tiene dos comandos para evaluar hipótesis con restricciones
no lineales testnl y nlcom. Ambos comandos usan el método delta para construir test de tipo
Wald. Estos test son sensibles a la escala de las variables consideradas en el modelo de
regresión.
En algunos casos es necesario comparar modelos que no están anidados. Es decir se quiere
realizar la siguiente prueba de hipótesis:
H 0 : y = xβ + ε 0
H1 : y = zγ + ε1
El test incorpora dicha hipótesis. Dicho test fue porpuesto por Davidson y MacKinnon (1981). El
test J se basa en la siguiente idea: si el modelo 0 tiene mejor poder explicativo que 1 el modelo
0 es superior y viceversa. Un test similar es el propuesto por Cox-Pesaran-Deaton el cual se
basa en un test ratio verosimilitud.
87
Humberto Ortiz Ruiz
3.5. Predicción
Luego de estimar la regresión se pueden calcular los residuos o los valores predichos. Los
residuos de cada observación permiten evaluar si el modelo de regresión explica los valores de
la variable de respuesta para cada observación. Adicionalmente se pueden obtener
predicciones dentro de la muestra y fuera de esta. Si el modelo está bien especificado debería
generar predicciones razonables para cualquier muestra de la población.
El comando para calcular los residuos o los valores predichos es predict,
predict [type] newvar [if] [in] [, single_options]
La regresión estimada solo estará disponible para predict hasta que el próximo comando de
estimación sea utilizado.
Una forma de evaluar la calidad de la estimación es gráficamente. En una regresión con

multiples regresores, un ploteo de los valores actuales de y versus los valores predichos ŷ
11
Prediccion del log precio promedio
9 9.5 8.5 10 10.5
8.5 9 9.5 10 10.5 11

Log de precio promedio
88
Humberto Ortiz Ruiz
Se puede calcular intervalos de confianza para la predicción (o intervalos de predicción). Se

suelen utilizar dos definiciones de predicción: el valor predicho y el pronóstico o error de
predicción.
Dado un valor x0 el valor predicho será igual a:
E ( y / x 0 ) = x 0β = y0
Con una varianza igual a:
Vˆp = s 2 x 0 (X'X)-1 x 0'
Mientras que dado un valor x0 para un valor y0 el error de predicción será (forecast error):
eˆ0 = y0 − yˆ 0
Con una varianza igual a
Vˆp = s 2 x 0 (X'X)-1 x 0' + s 2
Se pueden obtener intervalos de confianza tanto para el valor predicho como para el pronóstico.
11
Log price actual y predicho
10 9.5 10.5
1.4 1.5 1.6 1.7

log(nox)
log(price) Pred intervalo de predicción 95%
89
Humberto Ortiz Ruiz
El objetivo de algunos estudios es obtener predicciones fuera de la muestra para la variable

dependiente. En este caso se podría utilizar los intervalos de confianza del pronóstico (forecast)
para evaluar la prediccion fuera de la muestra y probar si ha sido generado por el proceso que
generó el modelo estimado.
90
Humberto Ortiz Ruiz
Comando Predict
Predict calcula predicciones, residuos y otros estadísticos posteriores a la estimación. Lo que

predict puede hacer exactamente es determinado por previos comandos de estimación; las
opciones de comandos específicos son documentados por cada comando de estimación. Sin
importar las opciones de comando específicos, las acciones de predict comparten ciertas
similitudes entre los comandos de estimación:
1) Tipeando predict “newvarname” crea newvarname conteniendo “los valores predichos” –

números relacionados con el E (yj/xj). Por ejemplo, después de la regresión lineal,
predict newvarname crea xjb y, después de probit, crea la probabilidad Φ (xjb).
2) Predict newvarname, xb crea newvarname que contiene xj b.
3) Predict newvarname, stdp crea newvarname conteniendo los errores estándar de la
predicción lineal Xjb.
4) Predict newvarname, other_options podrá crear newvarname conteniendo otras
cantidades útiles; ver help o el manual de referencia del comando de estimación
particular para encontrar otras posibles opciones.
5) En general, predict calcula el estadístico requerido para todas las posibles
observaciones, si estos fueron usados en calcular el modelo o no. predict hace esto para
opciones estándar (1) hasta (3), y generalmente hace esto para opciones de
estimadores específicos (4).
6) Para restringir la predicción de la submuestra estimada, tipear :
Predict newvarname if e(simple),…
a. Algunos estadísticos tienen sentido solo con respecto a la submuestra estimada.
En tales casos, el cálculo es automáticamente restringido para la submuestra
estimada, y la documentación para la opción específica indica esto. Aún así,
usted puede especificar if e(simple) si tiene dudas.
7) La habilidad del comando predict para hacer predicciones fuera de la muestra se
extiende incluso a otra base de datos. En particular, usted puede:
. use ds1
. (calcule un modelo)
. use two /*otra base de datos */
. predict, hat…. /*complete las predicciones */
91
Humberto Ortiz Ruiz
3.6. Efectos marginales
El comando mfx calcula los efectos marginales luego de una estimación puntual o por
intervalos:
mfx [if] [in] [, options]
Con el commando mfx se pueden calcular los efectos marginales, las elasticidades y
semielasticidades, medidas de interés en el análisis económico. Los efectos son calculados en
el valor medio de las variables por default.
Si estimamos la version del modelo en niveles
Se tienen las siguientes elasticidades
Se puede realizar una serie de estudios con los resultados del comando mfx. Por ejemplo se
puede analizar como varía la elasticidad para distintos valores de las variables explicativas
como se muestra en el gráfico siguiente.
92
Humberto Ortiz Ruiz
Elasticidad de precio vs ratio estudante / profesor

-.5
Precio promedio predicho

-1
2000022000240002600028000
-1.5
12 14 16 18 20 22
Ratio estudiante/profesor (percentiles 1 10 25 50 75 90 99) ...
Elasticidad IC 95%
Precio promedio predicho
93
Humberto Ortiz Ruiz
3.7. Especificación de la forma funcional
Uno de los supuestos realizados en el apartado 4.2. tiene que ver con la forma funcional. Se
asumió que la forma funcional fue correctamente especificada. Al respecto si el supuesto:
E (u / x1 ,..., xk ) = 0
No se cumple luego los estimadores serán inconsistentes. Hay tres problemas que generan el
no cumplimiento del supuesto:
- Especificación no adecuada del modelo.

- Endogeneidad de uno o más regresores.
- Errores de medida de uno o más regresores.
La especificación de un modelo tiene que ver con los regresores incluídos en el modelo de
regresión y la forma funcional especificada. La consistencia de los estimadores requiere que la
función muestral especificada corresponda con la función de regresión poblacional. Al respecto
la teoría económica muchas veces indican algunas guías de cómo debe ser la forma funcional
pero no precisa explícitamente como se deben especificar las variables o como deben entrar al
modelo los elementos estocásticos.
Se asume que la especificación empírica debe diferir de la función de regresión poblacional en

una de las siguientes formas: la omisión de variables en el modelo y la inclusión de variables
irrelevantes al mismo. En el caso de variables omitidas tenemos que los estimadores serán
inconsistentes. Mientras que en el caso de variables redundantes no afecta la consistencia.
4.7.1. Análisis gráfico y ploteo añadido
Una primera aproximación para ver la relación funcional de las variables es con el análisis
gráfico. En el caso de un modelo multivariado, el ploteo bivariado puede ser útil.
94
Humberto Ortiz Ruiz
1.5 2 2.5 4 6 8
11
10
log(price)
9
8
2.5
2
log(nox)
1.5
3
2
log(dist)
1
0
8
avg
number of
6 rooms per
house
4
20
average
student-teacher 15
ratio
10
8 9 10 11 0 1 2 3 10 15 20
Otra herramienta útil son los ploteos de variable añadida. Este tipo de ploteos identifican
variables importantes en una relación a través de la descomposición de una relación
multivariada en ploteos de dos dimensiones.
El ploteo de variable añadida se basa en dos residuos. Un residuo (e1) de la regresión entre xg
y el resto de variables explicativas y otro residuo (e2) de la regresión de y con respecto a todos
los regresores excepto xg. Si la la pendiente de la relación lineal entre los residuos es
significativamente distinta a cero luego xg dará una contribución importante al modelo en adición
al resto de variables. Con el comando avplot se puede realizar este análisis.
95
Humberto Ortiz Ruiz
-1 -.5 0 .5 1 1.5
-1 -.5 0 .5 1 1.5
e( lprice | X )
e( lprice | X )
-.2 -.1 0 .1 .2 .3 -1 -.5 0 .5 1
e( lnox | X ) e( ldist | X )
coef = -.66156942, se = .12016057, t = -5.51 coef = -.09508697, se = .04214348, t = -2.26
-1 -.5 0 .5 1 1.5
-1 -.5 0 .5 1 1.5
e( lprice | X )
-.6 -.4 -.2 0 .2 e( lprice | X ) -2 0 2 4 6 8

e( rooms | X ) e( rooms2 | X )
coef = -.56256622, se = .1610315, t = -3.49 coef = .06343469, se = .01246208, t = 5.09
-1 -.5 0 .5 1 1.5
-1 -.5 0 .5 1 1.5
e( lprice | X )
e( lprice | X )
-5 0 5 -1 -.5 0 .5
e( stratio | X ) e( lproptax | X )
coef = -.03629279, se = .00606988, t = -5.98 coef = -.22111248, se = .04102017, t = -5.39
En la medida que hay asimetrías en los errores de especificación una estrategia adecuada sería
empezar con una especificación general y refinar el modelo imponiendo restricciones
adecuadas. La estrategia de simplificación recursiva es preferible.
4.7.2. Error de especificación en la forma funcional
Un modelo que incluya variables explicativas adecuadas puede estar erróneamente

especificado (misspecified) si el modelo no representa la forma algebraica de la relación entre
las variables endógenas y explicativas.
En el contexto descrito, se puede analizar el error de especificación a través de un test de

variables omitdas como el de Ramsey.
El test de Ramsey parte de la idea de que si la forma funcional de la relación entre y, x es no

lineal luego una función lineal trabajará razonablemente para algunos x´s pero eventualmente
puede no funcionar. STATA calcula dicho test.
96
Humberto Ortiz Ruiz
Si especificamos nuevamente el modelo, incluyendo las variables rooms2 y lproptax tenemos
4.7.3. Ploeto de residuales
Otra forma de analizar si la especificación es adecuada es utilizar los ploteos de los residuos. Si
los residuos muestran un patrón puede ser signo de error en la especificación.
1.5
1 .5
Residuals
0 -.5
-1
9.5 10 10.5 11
Fitted values
97
Humberto Ortiz Ruiz
1.5
1 .5
Residuals
0 -.5
-1
0 .5 1 1.5 2 2.5
log(dist)
4.7.4. Términos de interacción
Otra forma de error de especificación está asociada a la presencia o no de términos de

interacción. El modelo puede estar captando de manera inadecuada el impacto de una
explicativa en la variable dependiente (efecto marginal). Si los términos de interacción no son
relevantes no serán significativamente distintos de 0.
98
Humberto Ortiz Ruiz
4.7.5. Datos influyentes
Para analizar la especificación del modelo se debe considerar evidencia con respecto a la
robustes del modelo ante la presencia de datos influyentes (influencial data). Los coeficientes
estimados pueden estar fuertemente afectados por unos pocos datos o inestabilidad estructural
en submuestras.
Hay una amplia variedad de estadísticos que analizan los datos influyentes y su relación con los
datos y el modelo predicho. Se suele denominar un outlier a una observación con un valor
inusual el cual está asociado a un residuo alto y un pobre ajuste del modelo en dicho valor7. Se
dice que una observación tiene un gran efecto “palanca” si su inclusión en la muestra altera a
los estimadores en una magnitud considerable. Observaciones con residuos elevados tendrán
un gran efecto “palanca”. Las medidas de influencia y de la identificación de las observaciones
influyentes consideran el efecto “palanca”.
Un estadístico que toma en cuenta tanto el efecto palanca como los residuos es DFITs. Un alto
valor de los residuos y un alto efecto palanca incrementan el estadístico DFIT. Dicho estadístico
evalúa el resultado de la regresión incluyendo y excluyendo cada observación. Se asume que si
DFITj > 2 k / N indica que la observación es altamente influyente.
7
Sin embargo se debe tomar en cuenta que un valor inusualmente elevado puede estar asociado a un residuo bajo en
la medida que MCO se basa en dismunir los errores al cuadrado.
99
Humberto Ortiz Ruiz
Si se desea analizar el efecto de las observaciones sobre el coeficiente estimado de un regresor

(l) se puede utilizar la medida DFBETA. Se considera como punto de corte DFBETA j > 2 / N
100
Humberto Ortiz Ruiz
101
Humberto Ortiz Ruiz
3.8. Perturbaciones no esféricas
Si los términos de perturbación no son iid, los estimadores MCO siguen siendo consistentes
pero el estimador matriz de varianza y covarianzas de los estimadores no será consistente
(¿cuál es el efecto sobre el modelo de regresión?). Se sigue asumiendo que la esperanza
condicional del error es igual a cero.
Hay dos posibles casos en donde no se cumple el supuesto iid. Cuando la varianza condicional
de los errores cambian entre observaciones, problema conocido como heterocedasticidad, el
supuesto iid no se cumple. Asimismo, cuando los errores están correlaciondos unos con otros
no estarán independientemente distribuídos, situación que se suele denominar autocorrelación.
3.8.1. Casos típicos de errores no iid
Hay tres casos especiales. El primero se suele denominar heterocedasticidad pura. Si

E (uu'/X) = Σu , la heterocedasticidad pura se da si:
 σ 12 0 ... 0 
 
0 σ 22 ... 0 
Σu = 
 ... 
 
 0 0 ... σ N2 
El segundo caso se da cuando las observaciones se pueden separar por grupos o clusters,
existiendo correlación de los errores en cada uno de los grupos pero no entre grupos.
 Σ1 0 ... 0 
 
0 Σm ... 0 
Σu = 
 ... 
 
0 0 ... Σ M 
El tercer caso es el de correlación serial y se da sobretodo en modelos de series de tiempo, en

donde los errores están relacionados con sus errores predecesores y sucesores.
 1 ρ1 ... ρ N −1 
 
2
ρ1 1 ... ρ 2 N −3 
Σu = σ u
 ... 
 
 ρ N −1 ρ 2 N −3 ... 1 
3.8.2. Heterocedasticidad
Hay tres posbiles fuentes de heterocedasticidad. En bases de datos de corte transversal de

individuos, firmas y hogares la varianza del término de perturbación está relacionada a alguna
medida de escala.
102
Humberto Ortiz Ruiz
Otra posibilidad es que exista heterocedasticidad entre grupos de observaciones pero

homocedasticidad dentro de cada grupo. Y una causa de posibilidad se da cuando se utliza
datos agrupados, en donde cada observación es un promeido de los datos micro.
Puede existir heterocedasticidad en datos de series de tiempo. Dicha heterocedasticidad es

tomada en cuenta en los modelos ARCH y GARCH.
3.8.2.1. Test de heterocedasticidad
En algunos contextos es razonable suponer que la varianza de la perturbación está relacionada

a la escala de medida de las observaciones individuales (heterocedasticidad por escala). En
este contexto la hipótesis se puede planear es: σ i2α ziα , donde z es laguna escala de medida
relacianda a la observación i. En este caso la varianza es proporcional a la escala de medida. Si
se puede definir la naturaleza de la proprocionalidad α , zi se podría modelar la
heterocedasticidad en un esquema eficiente como el de FGLS.
Un test muy utilizado para analizar la presencia de heterocedasticidad es el planetado por

Breush y Pagan (1979). Este es un test LM que involucra la siguiente regresión
uˆï2 = d1 + d 2 zi 2 + ... + dl zil + vi
Bajo la hipótesis nula de homocedasticidad el test se distribuye como X2 (l).
¿en qué caso el test de BP es equivalente al test White?8
No rechazar la hipótesis nula significa que no hay presencia de heterocedasticidad de la forma

especificada.
8
Cuando z=x, es decir cuando en la regresión auxiliar aparecen todas las variables explicativas del modelo. El test de
white es otro tipo de test que es igual a N*R2 de la regresión auxiliar pero involucra muchas explicativas en la
regresión auxiliar. Una forma alternativa del test de White es utilizar los valores predichos y sus cuadrados.
Disponible con el comando whitetst de ssc.
103
Humberto Ortiz Ruiz
Si hay presencia de hetrocedasticidad en los errores se puede utilizar el enfoque robusto,

considerando el estimador Huber-White-sandwich de la matriz de varianzas y covarianzas de
los estimadores. Si el supuesto de homocedasticidad es válido luego el estimador robusto de la
matriz var-cov será menos eficiente que el estimador s 2 (X'X) −1 .
4.8.3. Correlación serial
Es el caso de perturbaciones distribuidas de forma no independiente. También se puede dar en

el caso de corte transversal cuando los términos de perturbación de observaciones distintan se
relacionan entre sí (caso de correlación de clases). Cuando las correlaciones se presentan en
un esquema de series de tiempo se denomina correlación serial.
Existe correlación serial cuando el término de perturbación está correlacionado con sus rezagos
a través del tiempo. A diferencia de los datos de corte transversal, los datos de series de tiempo
104
Humberto Ortiz Ruiz
tienen por la naturaleza misma de su proceso generador de datos dinámica que si no es bien
captada en el modelo ocasiona que se presente correlación serial.
Esto causa que la matriz de varianza-covarianzas de las observaciones no sea la que se asume
en MRLC, por lo que se recomienda es aplicar MCG, pero si no se conoce a ciencia cierta la
forma de esta matriz (que es el caso más común) se aplica MCGF.
Hay una serie de estadísticos que evalúan si si los errores presentan autocorrelación, es decir si
se cumple:
cov(u i , u j ) = 0
donde i ≠ j
Uno de ellos es el estadístico DW se encuentra en un rango entre 0 y 4. Como regla práctica

podemos decir que si el DW es aproximadamente 2 los errores no están correlacionados entre
si, si es cercano a cero hay evidencia de autocorrelación positiva y si es cercano a 4 de
autocorrelación negativa.
∑ (e − e
t=2
t t −1 )2
e12 + eT2
d= T
= 2(1 − r ) − T
∑ et2
t =1
∑e
t =1
2
t
e12 + eT2
d = 2(1 − r ) − T
∑e
t =1
t
2
Donde r es la autocorrelación muestral, por lo cual si la muestra es grande:
d = 2(1 − r )
Para el contraste de Durbin-Watson se emplea el siguiente diagrama en el cual se determinan

cinco intervalos:
0 dL dU 4-dU 4 - dL 4
desde 0 hasta dL Autocorrelación positiva

desde dL hasta dU Zona de indeterminación
105
Humberto Ortiz Ruiz
desde dU hasta 4 – dU No autocorrelación

desde 4 – dU hasta 4 - dL Zona de indeterminación
desde 4 – dL hasta 4 Autocorrelación negativa
Se busca en las tablas los valores correspondientes a dL y dU, necesitándose para ello el
número de observaciones y el número de regresores sin la constante.
Godfrey y Breusch (1978) proponen una generalización al test de Durbin Watson donde la
hipótesis alternativa es que existe correlación serial de orden p. LM se distribuye
asintóticamente como una chi cuadrado con grados de libertad igual al número de variables
independientes. Este test sirve para detectar la presencia de correlación serial. La hipótesis nula
es que los errores no presentan autocorrelación.
Una variante del test de G-B es el test Q de Box y Pierce (1970) que se basa en la estimaciñon
de las primeras pautocorrelaciones muestrales de los residuos.Desde que dicho test está
basado en las correlaciones simples de los residuos antes que en las correlaciones parciales es
menos potente que el test GB9.
4.8.3.1. Aplicación
Para analizar la autocorrelación serial utilizaremos una base de datos de series de tiempo. La
base de datos ukrates.dta contiene una serie de tasas de interés de corto plazo (rs) y largo
plazo (rs20) de activos del gobierno del Reino Unido de frecuencia mensual para el periodo
1952m3-1995m12.
9
Es menos potente para rechar una H0 falsa.
106
Humberto Ortiz Ruiz
0.15 0.10
Autocorrelations of eps
-0.05 0.00 0.05
-0.10
0 10 20 30 40
Lag
Bartlett's formula for MA(q) 95% confidence bands
4.8.3.2.Corrección
a. Por Newey West
107
Humberto Ortiz Ruiz
b. Por Prais-Winsten (1954)
Para efectuar la corrección de autocorrelación de primer orden podemos simplemente insertar

un regresor AR(1) en la ecuación original. Otra manera es estimar ρ es reestimar el modelo
incorporando esta información.
Y = Xβ + u ,donde u t = ρu t −1 + ε t
108
Humberto Ortiz Ruiz
3.9. Variables instrumentales
Uno de los supuestos del modelo clásico es que
E (u / x1 ,..., xk ) = 0
Dicho supuesto no se cumple en los siguientes casos: (i) endogeneidad10, (ii) sesgo de
variables omitidas y (iii) errores en las variables. En todos los casos se utiliza la misma
herramienta econométrica, el estimador de variables instrumentales (VI).
En el modelo de regresión lineal clásico se tiene que:
y = Xβ + u
Sea la matriz Z que contiene las variables instrumentales (VI) válidas, en el caso que el modelo
este exactamente identificado luego
Z ' y = Z ' Xβ + Z ' u
El estimador VI se define como
−1
βˆ VI = ( Z ' X ) Z ' y
Un estimador de VI muy utilizado es MCO 2 etapas (2SLS). Sea Znxl con l>k, el estimador 2SLS
se define como:
−1
βˆ 2 SLS = ( X ' Pz X ) X ' Pz y
−1
Con Pz = Z ( Z ' Z ) Z ' . El estimador 2SLS puede ser calculado por el comando ivregress.
3.9.1. Identificación
Los parámetros de una ecuación se dicen que están identificados cuando hay los suficientes
instrumentos válidos tales que el procedimiento 2SLS produce un único estimador. Una
ecuación estará identificada si lo están los parámetros de la misma.
El estimador 2SLS será único si se cumple la condición de rango que indica que
Rango( Z ' X )=k, siendo una condición necesaria l ≥ k. Se dice que la ecuación estará
exactamente identificada si Rango( Z ' X )=k y sobreidentificada si Rango( Z ' X )>k.
10
Determinación simulatánea de los regresores y la variable de respuesta.
109
Humberto Ortiz Ruiz
3.9.2. Estimación por el método generalizado de momentos (GMM)
A la hora de definir la versión simple del estimador VI y el estimador 2SLS se asumió que
los errrores eran iid. Sin embargo hay otro estimador general basado en el método
generalizado de momentos que producen estimadores consistentes y eficientes en
presencia de errores no iid.
Se parte de la siguiente ecuación:
y = Xβ + u
Con E (uu '/ X) = Ω . La matriz X contiene los regresores {x1 x 2 } donde los k1 regresores
x1 son considerados endógenos y el resto exógenos.
Los instrumentos z exógenos, tales que E(zu)=0, generan los siguientes momentos:
gi ( β ) = Zi ' ui = Zi '( yi − xi β )
Los momentos muestrales serían
N N
1 1 1
g (β ) =
N
∑ gi ( β ) =
i =1 N
∑z
i =1
i '( yi − xi β ) =
N
Z 'u
El estimador GMM elegirdo será aquel que minimice:
J ( βˆGMM ) = Ng ( βˆGMM ) ' Wg ( βˆGMM )
Donde W es una matriz lxl de podenraciones.
El estimador GMM será:
−1
βˆGMM = ( X'ZWZ'X ) X'ZWZ'y
La matriz de ponderaciones óptima será W = S −1 , donde S es igual a
S = E (Z'uu'Z) = E (Z'ΩZ)
Obteniéndose
−1
βÊGMM = ( X'ZS -1Z'X ) X'ZS -1Z'y
110
Humberto Ortiz Ruiz
Sea Ŝ un estimador consistente de S, se tiene que:
−1
(
βˆFEGMM = X'ZSˆ -1Z'X ) X'ZSˆ -1Z'y
3.9.3. Test de restricciones de sobreidentificación
Una propiedad importante de las variables instrumentales es la no correlación con el

término de perturbación. Se puede evaluar si un instrumento es relevante o adecuado en un
contexto de sobreidentificación con un test de restricciones de sobreidentificación.
Se pueden utilizar los test planetados por Sargan (1958) y Bassman (1960) para el caso de
la estimación 2SLS. Mientras que en el caso del procedimiento GMM se puyede utilizar el
test J planteado por Hansen (1982).
3.9.4. Test de endogeneidad
Una manera de realizar un test de endogeneidad es comparando los estimadores MCO con
los de VI mediante el test de Durbin-Wu-Hausman. En su forma general el test tiene la
siguiente forma:
H = ( βˆC − βê ) ' D − ( βˆC − βê )
Donde D = Var ( βˆC ) − Var ( βê ) donde Var ( βˆ ) denota el estimador consistente de la
varianza asintótica de βˆ .
El test de endogeneidad para la regresión IV es elaborado eligiendo MCO como un

estimador eficiente βˆC y a VI como un estimador ineficiente pero consistente βê . El test se
distribuye como un X2 con grados de libertad igual al número de regresores bajo test de
endogeneidad.
111
Humberto Ortiz Ruiz
3.9.5. Aplicación
La base de datos a utilizar contiene una serie de variables que se utilizaron en el estudio de
los salarios de mujeres jóvenes. La función de salarios se modela como un función de las
siguientes variables: s (años de escolaridad), exp. (experiencia), tenure (ocupación laboral),
rns (número indice que indica si radica en la zona sur), smsa (indicador de urbano versus
rural) y un conjunto de dummies de años. La variable explicativa endógena es iq
(calificación IQ del trabajador) que es considerada una proxy de habilidad con errores de
medida. La variable iq es instrumentazada por 4 variables (o instrumentos): med (nivel de
educación de la madre), kww (puntuación de otro test estándar), age (años del trabajador) y
mrt (indicador del estado civil).
2SLS
112
Humberto Ortiz Ruiz
Test de sobreindentificación
113
Humberto Ortiz Ruiz
114
Humberto Ortiz Ruiz
GMM, robusto ante heterocedasticidad
Test de sobreindentificación
115
Humberto Ortiz Ruiz
Test de endogeneidad
116
Humberto Ortiz Ruiz
4. Introducción al análisis de bases de datos con maestreo aleatorio complejo
4.1. Algunos comandos útiles en el manejo de bases de datos
4.1.1. Comando reshape
En el manejo de bases de datos que involucran tanto unidades de corte transversal como de
series de tiempo se pueden dar una serie de situaciones: (i) combinar bases de datos de corte
transversal o (ii) crear una base de datos con características de serie de tiempo y corte
transversal.
STATA diferencia dos tipos de formatos en bases de datos: wide format y long format. Las
bases de datos denominadas wide format son aquellas donde la misma variable en diferentes
puntos aparece como variables separadas.
state pop1970 pop1980 pop1990 pop2000 area
1. CT .1369841 .6184582 .4241557 .2648021 .871691

2. MA .6432207 .0610638 .8983462 .9477426 .4611429
3. ME .5578017 .5552388 .5219247 .2769154 .4216726
4. NH .6047949 .8714491 .8414094 .1180158 .8944746
5. RI .684176 .2551499 .2110077 .4079702 .0580662
6. VT .1086679 .0445188 .5644092 .7219492 .6759487
En las bases de datos long format la información aparece apilada, es decir la información de
una variable en distintos puntos aparece como una sola variable.
117
Humberto Ortiz Ruiz
El comando reshape permite transformar una base de datos de formato wide a formato long (y
viserversa).
4.1.2. Combinación de bases de datos
4.1.2.1. Commando append
append using filename [, nolabel keep(varlist) ]
Une los datos en formato STATA guardados en el disco al final de la base carga en la memoria.
El nombre de la base de datos, cuyos registros serán añadidos, con using. La base de datos
creada es del tipo long.
Ejemplo
cd "..."
use phila, clear
summ
use kcity, clear
summ
use phila, clear

append using kcity
save voto2ciudades, replace
118
Humberto Ortiz Ruiz
4.1.2.2. Commando merge
merge [varlist] using filename [, keep(varlist) unique uniqmaster

uniqusing nolabel update replace nokeep _merge(varname) ]
Une a las observaciones del archivo cargado en la memoria las observaciones de otro que está
en el disco, cuyo nombre se señala con using11.
Cuando se fusionan bases de datos con el comando merge se están agregando variables a un
registro, por lo cual es crucial saber si un registro está en la base master (la que está cargada
en la memoria) o en la bases using.
El comando merge automáticamente genera una variable _merge que toma distintos valores
dependiendo si un registro sólo esta presente en una de las dos bases o está presente en las
dos12.
Ejemplo
Ahora trabajemos con nuestra base mensual del PBI por sectores económicos. Utilizamos el
comando describe o con el comando browse, con el cual podemos verlo como una hoja de
Excel.
Esta será nuestra base de datos master. Como se muestra las variables están ordenadas por
meses.
Debemos de generar la base de datos using para hacer el correspondiente merge. La variable
que nos permitirá hacer la adecuada correspondencia entre las bases de datos será mes. En
primer lugar, las 2 bases deberán estar ordenadas por la correspondiente variable que permitirá
la asociación.
use pibmensual
sort mes
save, replace
use labels
sort mes
save, replace
clear
Luego cargamos nuestra base de datos master. Y utilizamos el comando merge para realizar la
asociación de las bases de datos:
use pibmensual
merge mes using labels
save pbi, replace
Ejercicio
11
Se utiliza ara realizar uniones 1 a 1 o de macthing (1 a muchos). Se diferencia de append ya que dicho comando
sólo incluye las observaciones de forma vertical, mientras que merge de forma horizontal.
12
_merge=1 para observaciones sólo de la base maestra, _merge=2 para observaciones sólo de la base esclava (en
memoria), _merge=3 para observaciones que están en ambas bases
119
Humberto Ortiz Ruiz
Suponga que usted debe consolidar la información de las siguientes bases de datos para
generar un reporte. Como parte del trabajo del investigador es acopiar y consolidar la
información, este problema es muy común.
Base1.dta base3.dta
nombre sexo micro macro nombre Sexo econometria mate
Juan 1 15 12 Juan 1 14 15
Rosa 2 14 13 Rosa 2 12 17
Ricardo 1 14 17
Base2.dta base4.dta
nombre sexo micro macro nombre sexo econometria
Helena 2 18 16 helena 2 13
Jorge 1 11 14 Jorge 1 16
Paola 2 15 Paola 2 19
Alexis 2 10 16 Alexis 2 11
La base, una vez finalizada es:
nombre sexo micro macro econom~a mate _merge

1 Alexis 2 10 16 11 . 3
2 Helena 2 18 16 13 . 3
3 Jorge 1 11 14 16 . 3
4 Juan 1 15 12 14 15 3
5 Paola 2 . 15 19 . 3
6 Ricardo 1 14 17 . . 1
7 Rosa 2 14 13 12 17 3
4.1.3. Comando collapse
collapse clist [weight] [if exp] [in range] [, by(varlist) cw fast]
El comando collapse convierte una base de datos en la memoria en una base de medias,
sumas, medianas, entre otros.
Ejemplo
A partir de la base de datos mensuales del pbi se quiere obtener el pbi trimestral para los
distintos años.
use pbi, clear

collapse (sum) pib , by(trimestre ano)
sort ano trimestre
list in 1/10
120
Humberto Ortiz Ruiz
Ejercicio
Suponga que tiene la siguiente información sobre los hogares, pero se necesita obtener para
cada individuo el ingreso familiar y la edad del jefe de familia (codperso igual a 1).
base7.dta
codperso codhogar edad ingreso
1 172 35 1500
2 172 29 1200
1 185 48 450
2 185 45 800
3 185 24 500
4 185 19 0
1 190 25 2200
2 190 24 1500
3 190 2
El resultado es:
codperso codhogar edad ingreso ingresofam edadjefe

1 1 172 35 1500 2700 35
2 2 172 29 1200 2700 35
3 1 185 48 450 1750 48
4 2 185 45 800 1750 48
5 3 185 24 500 1750 48
6 4 185 19 0 1750 48
7 1 190 25 2200 3700 25
8 2 190 24 1500 3700 25
9 3 190 2 . 3700 25
121
Humberto Ortiz Ruiz
4.2. Análisis de bases de datos con diseño muestral complejo
El objetivo de este apartado es hacer una introducción de algunos comandos de STATA útiles
para analizar datos de encuestas que utilizan distintas formas de muestreo (o diseños
muestrales).
A la hora de realizar encuestas muy rara vez se utiliza la técnica de muestreo aleatorio simple
en la medida que muchas veces es imposible de realizarla y no es tan eficiente, en térmninos
financieros y estadísticos, que otros métodos de muestreo.
En el caso de muestreos distintos al aleatorio simple se requiere de un software que tome en

cuenta la estructura del método de muestreo en la media que el cálculo de los errores estándar
de los estimadores es afectado por el diseño muestral. Si no se especifica de forma correcta el
diseño muestral luego se obtendrán estimadores inadecuados y errores estándar incorrectos
subestimados.
Las características comunes entre los distintos diseños muestrales son: pesos o
pondereaciones, las unidades primarias de muestreo (PSU), estratos (STRATA) y corrección de
población finita (FPC). El diseño muestral tiene como elementos los pesos, PSUs, strata y
pesos replicados (si aplica).
122
Humberto Ortiz Ruiz
Aplicación ENAHO
Inicio: 1995. Ha sido llevada a cabo trimestralmente hasta el cuarto trimestre del año 2002. En
mayo del 2003 empezó a realizarse en forma continua.
Objetivos:
• Generar indicadores relacionados al empleo y al ingreso con el objetivo de conocer las

condiciones de vida de los hogares (bienestar y pobreza) y su evolución.
• Medir el alcance de los programas sociales provistos por el Estado.
Cobertura: La encuesta se realiza tomando en cuenta el ámbito nacional, en el área urbana y

rural, en los 24 departamentos y la Provincia Constitucional del Callao.
Diseño muestral:
• Tipo de muestreo:
Probabilística, de áreas, estratificado, multietápico e independiente en cada departamento
de estudio.
• Tamaño de la muestra (a partir de ENAHO 2003): Total: la encuesta se realiza a 20084

viviendas particulares. Por otro lado, existe una parte de la muestra que es encuestada
siempre. Este panel consta de 6146 viviendas particulares.
Método de recolección de datos: Se encuesta directamente a todas las personas de catorce

años o más.
123
Humberto Ortiz Ruiz
En cada trimestre la ENAHO suele abarcar un tema particular, los cuales son presentados a
continuación:
Inferencia, Solo se puede hacer inferencia a partir de los datos a nivel departamental. A nivel
provincial solo se pude hacer inferencia en Lima Metropolitana y en la Provincia Constitucional
del Callao.
Nota: En la siguiente dirección se pueden hacer todo tipo de preguntas acerca de la ENAHO y
serán respondida por el INEI: http://www.inei.gob.pe/ineibpr/enahobpr.htm.
124
Humberto Ortiz Ruiz
Aplicación: ENAHO 2000-II.
Una de las ventajas que ofrece el Stata para el análisis de Encuestas como la ENAHO, con
Diseño muestral complejo, es que permite calcular los estimadores teniendo en cuenta el diseño
muestral de la misma (diferente al muestreo aleatorio simple). Además, Stata proporciona
estadísticos con los cuales se puede evaluar la confiabilidad del resultado en forma
simultánea a su estimación. De esta manera el usuario está en la capacidad de interpretar y
utilizar adecuadamente cada estimación proveniente de la encuesta.
Los principales elementos que se deben tener en cuenta en el trabajo con datos de encuestas
por muestreo son:
Ponderación: En las encuestas por muestreo, las observaciones son seleccionadas

mediante un proceso aleatorio, donde cada observación puede tener una probabilidad
de selección diferente. La ponderación (o peso) de una observación (hogar, por ejemplo)
es igual a la inversa de la probabilidad de pertenecer a la muestra. Es usual que luego
del trabajo de campo se realicen ajustes sobre esta ponderación, debido, por ejemplo,
al efecto de la “No-Respuesta”. Un peso wj de una observación j significa que la
observación j representa a wj elementos de la población. Si no se toman en cuenta las
ponderaciones, las estimaciones que se obtengan estarán sesgadas.
Conglomerados o cluster: Algunas veces se utiliza el muestreo por conglomerados, es

decir las observaciones son muestreadas en grupos o “clusters”, por ejemplo, provincias
dentro de departamentos, distritos dentro de provincias y finalmente viviendas dentro de
los distritos seleccionados, que son el objetivo final del muestreo. Todas las
observaciones de un mismo cluster no son independientes entre si, si no se toma en
cuenta este hecho, los errores estándar que se obtengan serán menores a los
verdaderos.
Estratos: En algunos casos, también se emplea el muestreo estratificado, donde

diferentes grupos de observaciones o estratos, son muestreados en forma
independiente. Al igual que el caso anterior, si no se toma en cuenta este hecho, se
obtendrán sub estimaciones de los errores estándar verdaderos.
125
Humberto Ortiz Ruiz
Stata permite incorporar el DISEÑO MUESTRAL (ponderaciones, conglomerados y estratos)

antes de ejecutar las estimaciones. Es decir, Stata utiliza las fórmulas de estimación de
estadísticos propias de cada tipo de muestreo. Todos los comandos para el análisis de datos
provenientes de encuestas comienzan con las letras svy
Especificación del Diseño Muestral: SVYSET
En el caso de la Enaho es necesario especificar las variables que contienen las

ponderaciones, los conglomerados y los estratos, antes de obtener cualquier
estimación.
svyset [pweight=factor], strata(estrato) psu(conglome)
svydes
. svydes
pweight: factor
Strata: estrato
PSU: conglome
#Obs per PSU
Strata ----------------------------
estrato #PSUs #Obs min mean max
-------- -------- -------- -------- -------- --------
1 147 3045 2 20.7 42
2 39 779 6 20.0 32
3 25 478 7 19.1 27
4 40 738 4 18.4 32
5 88 1630 4 18.5 31
-------- -------- -------- -------- -------- --------
5 339 6670 2 19.7 42
126
Humberto Ortiz Ruiz
Estimación de Promedios: SVYMEAN
Se utiliza para calcular promedio de variables cuantitativas

Por defecto presenta el promedio estimado, el error estándar, el intervalo de 95% de
confianza y el efecto de diseño de esta estimación
Se pueden utilizar las opciones if y by.
. svy: mean p209

(running mean on estimation sample)
Survey: Mean estimation
Number of strata = 5 Number of obs = 7283

Number of PSUs = 339 Population size = 1.9e+07
Design df = 334
--------------------------------------------------------------
| Linearized
| Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
p209 | 3.713544 .0329931 3.648644 3.778445
--------------------------------------------------------------
.
. svy: mean p510 if(p207==1)
(running mean on estimation sample)
Survey: Mean estimation
Number of strata = 5 Number of obs = 1009

Number of PSUs = 294 Population size = 2.8e+06
Design df = 289
--------------------------------------------------------------
| Linearized
| Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
p510 | 3.573739 .0536138 3.468216 3.679262
--------------------------------------------------------------
.
. svymean p510, by (p209)
Survey mean estimation
pweight: factor Number of obs = 1532

Strata: estrato Number of strata = 5
PSU: conglome Number of PSUs = 313
Population size = 4255250.8
------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Deff
---------------+--------------------------------------------------------------
p510 |
convivie | 3.559847 .0903714 3.382023 3.73767 1.422119
127
Humberto Ortiz Ruiz
casado_( | 3.114694 .0907382 2.936149 3.29324 2.210921

viudo_(a | 3.642542 .1959168 3.257037 4.028047 .7739832
divorcia | 1.659782 .2359803 1.195444 2.124119 .7584101
separado | 3.379248 .1862155 3.012833 3.745664 1.696307
soltero | 3.648546 .0636715 3.52326 3.773832 2.071847
------------------------------------------------------------------------------
.
. svymean p510, by (estrato) ci obs
Survey mean estimation

Population size = 4255250.8
------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Obs
---------------+--------------------------------------------------------------
p510 |
ciudades | 3.514729 .0664502 3.383976 3.645483 838
grandes_ | 3.036716 .1306384 2.77966 3.293773 209
ccpp_de_ | 3.257252 .258756 2.748098 3.766405 130
ccpp_de_ | 3.336897 .2070024 2.929579 3.744215 130
area_rur | 3.552544 .1029107 3.350047 3.755041 225
------------------------------------------------------------------------------
128
Humberto Ortiz Ruiz
Estimación de Proporciones: SVYPROP
Presenta el número de observaciones, la proporción estimada y el error estándar de esta

estimación de los casos de la muestra respecto a las categorías de una variable dada
Se pueden utilizar las opciones if y by.
. svyprop p207
------------------------------------------------------------------------------
Population size = 26697712
------------------------------------------------------------------------------
Survey proportions estimation
+----------------------------------------+
| p207 Obs Est. Prop. Std. Err. |
|----------------------------------------|
| hombre 5064 0.504905 0.005293 |
| mujer 5021 0.495095 0.005293 |
+----------------------------------------+
.
. svyprop p209 if (p207==1)
------------------------------------------------------------------------------
------------------------------------------------------------------------------
+------------------------------------------+
|------------------------------------------|
| convivie 653 0.168261 0.009034 |
| casado ( 1133 0.317648 0.010693 |
| viudo (a 85 0.021831 0.002934 |
| divorcia 5 0.000593 0.000299 |
| separado 78 0.020051 0.002876 |
|------------------------------------------|
| soltero 1624 0.471616 0.010434 |
+------------------------------------------+
129
Humberto Ortiz Ruiz
. svyprop p209, by (p207)
------------------------------------------------------------------------------
------------------------------------------------------------------------------
-> p207=hombre
+------------------------------------------+
|------------------------------------------|
| convivie 653 0.168261 0.009034 |
| casado ( 1133 0.317648 0.010693 |
| viudo (a 85 0.021831 0.002934 |
| divorcia 5 0.000593 0.000299 |
| separado 78 0.020051 0.002876 |
|------------------------------------------|
| soltero 1624 0.471616 0.010434 |
+------------------------------------------+
-> p207=mujer
+------------------------------------------+
|------------------------------------------|
| convivie 662 0.167090 0.009397 |
| casado ( 1123 0.309550 0.009331 |
| viudo (a 259 0.074677 0.005631 |
| divorcia 15 0.002292 0.000926 |
| separado 274 0.070115 0.005477 |
|------------------------------------------|
| soltero 1372 0.376277 0.008808 |
+------------------------------------------+
130
Humberto Ortiz Ruiz
Cruce de dos variables : SVYTAB
Produce una tabla de dos entradas con la proporción de la muestra que pertenece a
cada celda (cruce da variables), respecto al total de la muestra.
Para modificar el contenido de la tabla se deben especificar los estadísticos después de
una coma
En caso de que se desee estimar las proporciones respecto a filas o columnas, basta
con indicar row o column después de la coma.
Se puede utilizar la opción if
. svytab estrato p209

--------------------------------------------------------------------------------
estrato |
geogr fic | estado civil
o | convivie casado ( viudo (a divorcia separado soltero Total
----------+---------------------------------------------------------------------
ciudades | .076 .1586 .0224 .0013 .0261 .2272 .5116
grandes | .0149 .0324 .005 1.4e-04 .0059 .053 .1113
ccpp de | .0063 .0148 .0022 6.4e-06 .0026 .0182 .0441
ccpp de | .0248 .0356 .0069 0 .0042 .042 .1134
area rur | .0456 .0721 .0121 0 .0066 .0831 .2196
|
Total | .1677 .3136 .0485 .0015 .0454 .4234 1
--------------------------------------------------------------------------------
Key: cell proportions
Pearson:
Uncorrected chi2(20) = 95.6171
Design-based F(8.90, 2972.66)= 2.2077 P = 0.0195
131
Humberto Ortiz Ruiz
. svytab,se ci deff

--------------------------------------------------------------------------------------
estrato |
o | convivie casado ( viudo (a divorcia
----------+---------------------------------------------------------------------------
ciudades | .076 .1586 .0224 .0013
| (.007) (.0093) (.0023) (5.1e-04)
| [.0634,.0909] [.1412,.1778] [.0183,.0275] [6.0e-04,.0028]
| 5.039 4.714 1.792 1.469
|
grandes | .0149 .0324 .005 1.4e-04
| (.0032) (.0057) (9.5e-04) (8.1e-05)
| [.0098,.0226] [.0229,.0456] [.0035,.0073] [4.4e-05,4.4e-04]
| 4.951 7.442 1.316 .3445
|
ccpp de | .0063 .0148 .0022 6.4e-06
| (.0013) (.0037) (6.4e-04) (6.4e-06)
| [.0042,.0095] [.009,.0242] [.0012,.0039] [8.9e-07,4.6e-05]
| 2.021 6.924 1.394 .0467
|
ccpp de | .0248 .0356 .0069 0
| (.0033) (.0048) (.0017) (0)
| [.0191,.0322] [.0273,.0464] [.0042,.0111]
| 3.257 4.941 3.011
|
area rur | .0456 .0721 .0121 0
| (.0049) (.0062) (.0023) (0)
| [.0369,.0562] [.0609,.0852] [.0084,.0175]
| 3.948 4.134 3.106
|
Total | .1677 .3136 .0485 .0015
| (.009) (.0092) (.0033) (5.2e-04)
| [.1507,.1861] [.2958,.3319] [.0424,.0555] [7.2e-04,.0029]
| 4.221 2.856 1.717 1.362
--------------------------------------------------------------------------------------
132
Humberto Ortiz Ruiz
-------------------------------------------------------------------
estrato |
o | separado soltero Total
----------+--------------------------------------------------------
ciudades | .0261 .2272 .5116
| (.0026) (.0111) (.0198)
| [.0214,.0317] [.2061,.2497] [.4726,.5504]
| 1.94 5.109 11.44
|
grandes | .0059 .053 .1113
| (.0013) (.01) (.018)
| [.0038,.0092] [.0364,.0765] [.0805,.1521]
| 2.185 14.61 23.97
|
ccpp de | .0026 .0182 .0441
| (5.6e-04) (.0042) (.0095)
| [.0017,.004] [.0115,.0287] [.0288,.0671]
| .8885 7.358 15.62
|
ccpp de | .0042 .042 .1134
| (.0012) (.006) (.0121)
| [.0024,.0073] [.0317,.0554] [.0918,.1394]
| 2.531 6.447 10.54
|
area rur | .0066 .0831 .2196
| (.0012) (.0065) (.0147)
| [.0046,.0094] [.0712,.0969] [.1921,.2498]
| 1.6 4.075 9.149
|
Total | .0454 .4234 1
| (.0032) (.0073)
| [.0394,.0522] [.4092,.4377]
| 1.762 1.569
-------------------------------------------------------------------
Key: cell proportions
(standard errors of cell proportions)
[95% confidence intervals for cell proportions]
deff for variances of cell proportions
Pearson:
Design-based F(8.90, 2972.66)= 2.2077 P = 0.0195
Mean generalized deff = 1.7276

CV of generalized deffs = 0.9001
133
Humberto Ortiz Ruiz
. svytab, row

--------------------------------------------------------------------------------
estrato |
o | convivie casado ( viudo (a divorcia separado soltero Total
----------+---------------------------------------------------------------------
ciudades | .1486 .31 .0438 .0026 .051 .444 1
grandes | .1337 .2909 .0452 .0013 .0531 .4758 1
ccpp de | .1436 .3355 .0489 1.4e-04 .0593 .4126 1
ccpp de | .2188 .3141 .0604 0 .0368 .3699 1
area rur | .2077 .3285 .0551 0 .03 .3787 1
|
Total | .1677 .3136 .0485 .0015 .0454 .4234 1
--------------------------------------------------------------------------------
Key: row proportions
Pearson:
Design-based F(8.90, 2972.66)= 2.2077 P = 0.0195
134
Humberto Ortiz Ruiz
5. Modelos para variables categóricas y limitadas
5.1. Introducción
Los métodos de estimación expuestos hasta el momento (MCO, VI, GMM) tienen como
requisito que la variable dependiente sea observada en una escala continua o irrestricta (por
ejemplo PBI, ingreso, consumo, etc.) Sin embargo, es muy común que dicha condición no se
cumpla. Hay casos en los cuales la variable dependiente es una variable discreta o es una
variable dependiente limitada.
Asimismo, la mayoría de variables económicas se encuentran limitadas de algún grado. Por

ejemplo frecuentemente son positivas. Sin embargo no necesitan de un tratamiento especial.
Cuando la variable dependiente es discreta y toma pocos valores carece de sentido tratarla
como una variable continua.
A grandes rasgos se pueden distinguir tres tipos de variables:
a. Cualitativas
b. Trucadas o censuradas (variables condicionadas)
c. Que toman valores enteros
Algunos ejemplos de variables categóricas y limitadas:
o Binarias. Son variables que tienen dos categorías. Usualmente indican la ocurrencia de
un evento o la presencia de una característica. Ejm. ¿es más probable que un
consumidor compre una marca a otra?, ¿se respondió a alguna pregunta específica de
una encuesta?
o Ordinales. Son variables en donde sus categorías pueden ser ordenadas o rankeadas.
Ejm. preguntas que buscan medir el grado de aprobación de algo, la frecuencia de la
ocurrencia de algún evento, de orientación política, entre otros.
o Nominales. Son variables que tienen múltiples categorías o resultados y que no se

pueden ordenar. Ejm. ocupaciones, estado civil, preferencias por marcas, entre otros.
o Censuradas. Son variables limitadas. Este tipo de variables se generan cuando sus
valores no son conocidos para un cierto rango de la variable. Ejm. gasto en bienes
durables, medición de salarios por hora, entre otros.
La censura se puede dar por razones metodológicas. Ejm. en el censo de 1990 todos los
salarios por encima de 140,000 fueron registrados en 140,000 por motivos de
confidencialidad.
o De conteo. Indican el número de veces que ocurre un evento. Toman valores enteros
no negativos. Se utilizan las regresiones de Poisson para modelar este tipo de variables.
Ejm. número de veces que una persona a visitado al doctor el último año, número de
artículos que un científico a publicado, entre otros.
135
Humberto Ortiz Ruiz
5.1.1. Modelo de probabilidad lineal
Supongamos que un investigador está interesado en analizar la PEA, diferenciando entre PEA
ocupada y no ocupada, es decir:
1 si PEA ocupada
yi = 
0 si PEA no ocupada
Una alternativa es regresionar el siguiente modelo vía MCO, que se conoce como modelo de
probabilidad lineal:
yi = x i β + ui
Sin embargo la estimación presenta los siguientes problemas:
i. El valor predicho (pronosticado, yˆ i ) no está en el rango (0,1)
ii. La perturbación aleatoria puede no seguir una distribución normal.
iii. Hay problemas de heterocedasticidad.
iv. Forma funcional incorrecta
136
Humberto Ortiz Ruiz
5.2. Modelos binarios: logit y probit
5.2.1. Modelo de la variable latente
Para resolver estos problemas se asume usualmente una variable latente, no observable, Yi*,
que determina el valor de la variable dicótomica que observamos.
El modelo estructural es
y* = xβ + e
1 si yi* = xi β + vi > 0
yi = 
0 en otro caso
El término de perturbación se puede distribuir de distintas formas. Si e se distribuye como una

normal (estándar)
Función de densidad (pdf) Función acumulada (cdf)

2 e
1 e 1 t2
φ (e) =
2π
exp(− )
2
Φ ( e) = ∫
−∞ 2π
exp(− )dt
2
Otra posibilidad es que e se distribuya como una logística estándar
Función de densidad (pdf) Función acumulada (cdf)

exp(e) exp(e)
λ (e) = 2
Λ (e) =
[1 + exp(e)] 1 + exp(e)
La variable que observamos sólo se dará si para cada observación de la muestra se cumple
que ei > − xi β . La probabilidad que tal situación ocurra es:
P( yi = 1) = P (ei > − xi β )
Si se define la función de densidad acumulada de los errores ( vi ) como F(.), luego
P( yi = 1) = 1 − G (− xi β ) = G ( xi β )
137
Humberto Ortiz Ruiz
De forma similar:
P( yi = 0) = G (− xi β ) = 1 − G ( xi β )
La forma de G(.) dependerá del supuesto que se formule para vi (que puede ser normal,
logística, etc.).
5.2.2. Estimación
Se pueden estimar los parámetros del modelo utilizando el método máxima verosimilitud. Sea la
función de densidad condicional
y 1− y
f ( y / x; β) = [G (xi β) ] [1 − G (xi β)]
La función máximo verosimil para toda la muestra, dado que las observaciones son iid, está
dada por:
n
l ( β ) = ∑ yi log(1 − G (− xi β )) + (1 − yi ) log(G (− xi β ))
i =0
Donde las condiciones de primer orden son no lineales obteniéndose las estimaciones de los
parámetros vía iteración.
Amemiya (1985) indica las condiciones bajo las cuales dicha función es globalmente cóncava,
lo que asegura la unicidad de los estimadores MV. Dichos estimadores son consistentes,
asintóticamente normales y eficientes.
5.2.3. Esperanza condicional
Notemos que el valor esperado de yi viene dado simplemente por la probabilidad de que yi=1,
es decir:
E ( yi = 1 X i , β ) = 1* P( y ) + 0* P( yi = 1 xi , β ) = P( yi = 1 xi , β )
Así, se puede describir el modelo bivariado como un modelo de regresión tal que:
yi = E ( yi X i , β ) + ei
Yi = 1 − G (− X i β ) + ei
donde
138
Humberto Ortiz Ruiz
E (ei xi , β ) = 0
Var (ei X i , β ) = G (− xi β )(1 − G (− xi β ))
5.2.4. Modelos Logit y Probit
El modelo Probit asume que la distribución del error es una normal estándar de forma tal que:
P( yi = 1 xi , β ) = 1 − Φ (− xi β ) = Φ ( xi β )
Donde Φ ( X i β ) es la distribución acumulativa de una distribución normal estándar
Mientras que el modelo Logit asume que el error sigue una distribución logística, es decir:
 e− xi β  e xi β
P( yi = 1 xi , β ) = 1 −  − xi β  = xi β
 1− e  1− e
5.2.5. Interpretación
5.2.5.1. Predicciones de probabilidades
a. Rango de probabilidades
La probabilidad predicha se define como:
( y = 1 / x ) = G( x β )
P i i i
El rango para cada explicativa se determina tomando los valores extremos de dicha
probabilidad.
b. Ploteo de las probabilidades
En algunas ocasiones es útil analizar el efecto de dos variables en la probabilidad manteniendo

el resto constante. Por ejemplo, mediante el ploteo de probabilidades se puede analizar si la
relación de una variable explicativa con la probbilidad es aproximadamente lineal o no.
5.2.5.2. Efectos marginales o parciales
En el caso de los modelos Logit y Probit la interpretación de los coefientes estimados (los betas)
es complicada, desde que estos no pueden ser interpretados como los efectos marginales de
las explicativas sobre la variable dependiente. En el caso de modelos bivariados el efecto
marginal de xj sobre la probabilidad condicionada está dado por:
139
Humberto Ortiz Ruiz
∂E ( yi xi , β )
= g (−xi β ) β j
∂x j
Donde g ( x ) es la función de densidad correspondiente a G ( x) . Notemos dicha expresión

depende de los valores de todos los valores de x. La dirección del efecto dependerá sólo del
signo de β j .
5.2.5.3. Efectos discretos
El efectos discreto de una variable sobre la probabilidad se define como
∆P( yi = 1/ x i )
= P( yi = 1/ xi , xi + δ ) − P ( yi = 1/ xi , xi )
∆xi
Así se pueden definir distintos tipos de efecos discretos dependiendo del valor que tome δ o la
variable explicativa xi .
5.2.5.4. Ratios odds
Se define a
P( y = 1/ x)
Ω(x) =
1 − P( y = 1/ x)
Como el ratio odds del evento dado x. Para el caso del modelo logit se puede demostra que
ln Ω(x) = xβ . Se suelen utilizar las siguientes medidas:
∂ ln Ω( x)
= βk
∂xk
Ω(x, xk + δ )
= exp( β k δ )
Ω(x, xk )
5.2.6. Pruebas de hipótesis
Los estimadores MV tienen una distribución asintótica normal. Las hipótesis individuales se
pueden probar con test z que se distribuyen como normal en el caso de muestras grandes.
Las hipótesis múltiples se pueden probar con distintos test siendo los más utilizados Wald, ratio
verosimilitud y multiplicadores de Lagrange.
140
Humberto Ortiz Ruiz
5.2.7. Medidas de ajuste
5.2.7.1. Para cada observación
a. Residuos
Los residuos estandarizados del modelo binario son:
yi − πî
ri =
πî (1 − πî )
Otra medida es la estadística de Pearson estandarizada que es igual a:
ri
ri S =
1 − hii
b. Influencia
Indica el efecto de una observación sobre las estimaciones.
∆ i βˆk
DFBETAik =
ˆ βˆk )
var(
5.2.7.2. Globales
a. Pseudo R2 de
Hay distintas medidas de Pseudo R2 las cuales se basan en las distintas definiciones de R2 de
un modelo lineal, entre ellas el R2 de McFadden.
El R2 de McFadden es equivalente al R2 utilizado en el modelo de regresión lineal simple. R2 de

McFadden (o pseudo R2) se le denomina Indice de Razón Verosimilitud (Likelihood Ratio
Index). A medida que dicho estadístico tiende a 1 se dirá que el modelo estimado explica una
parte importante de la varianza del modelo.
b. Ratios de predicción (o tablas de clasificación de predicción)
141
Humberto Ortiz Ruiz
Una forma estándar de formar los ratios de predicción es tomando cada probabilidad
pronosticada, p̂ , para cada observación y compararlas con un punto de corte, usualmente 0.5,
así si p̂ >0.5 la observación se pronostica que será 1 (es decir se pronostica que Y=1) y
viceversa. La fracción de observaciones donde el pronóstico es igual al valor observado se
denomina ratio “correcto” de predicción.
5.2.8. Aplicación
El ejemplo se basará del estudio realizado por Mroz (1987) sobre la participación de la fuerza
laboral de las mujeres. Se tiene una muestra de 753 mujeres blancas casadas con edades que
fluctúan entre 30 y 60 años. La variable dependiente es lfp que es una variable binaria que toma
1 si la mujer está empleada ny 0 en otro caso.
Se estima el modelo asumiendo que el error se distribuye como una normal o como una
distribución logística
142
Humberto Ortiz Ruiz
Los resultados se resumen en la siguiente tabla:
143
Humberto Ortiz Ruiz
Se realizan los siguientes test de hipótesis individual en el modelo logit
Y test de hipótesis múltiple
Ho: hc=wc=0
Ho: hc=wc
Ho: coeficientes (excepto intercepto) son iguales a 0
144
Humberto Ortiz Ruiz
Una vez realizada la estimación se analiza el ajuste del modelo.
Residuos de Pearson
4
Residuo Estandarizado de Pearson
-2 0
-4 2
0 200 400 600 800

Numero de observacion
145
Humberto Ortiz Ruiz
Estadístico de Cook
.3
752
142
Estadistico de Cook
.2
309
108
214 345 382
.1
407 721
73
686 743
43 396 750
217 257 317 400
384 507 555
548 638 716747
722
394408 480511 630653 739
48 276 401 622
2337
21
114 163 185
239
260 291
297 389
426 528550 637 674693 712733
11 42 213 250 263 305 348 430 475 534551 711
701 731
725
723
738
744
10 136 156182 249 312
306 419
424 453
456
457
462482506 522
519 547564
558 587
580
563 591 610
613628 707735
697
691 741
35618
19 45 80 125 159 202 283
272
258278
284304 326
318 347
335 369388 442
448
439
438
429 451470 504
509532 568
566585
597
583603 625640
643662
666
665684 709
8 46
38 65
60 78 101
95
97
88 129
134 158
147166
150
161 189204225
210 242
244 286
269
275 311
310327344
333 356 417
414
428 476 520
503
517
515
524
512 544
533
529
536 594611
608 632650
639 687
677
681696
682
689706
699 728
718 742
734
745
740
47 26
16 32
31
27
22 39
34
3549
47
44 61
66
57
56
5871
67
64
72 86
87
82
84
83 116
110
107
105
94
96
89
93 128
119138
124
121
111130 153
148
144
133
137
122 164
168
162
169
160176
178193
183199
190
181
186208
200
194 229
222
216
206
201
205 245
228
227 248
241
238
226 265
267
254
252
247
251
243262279
274
280
268 295
296
281
282
271 300
294 328
313
319
314 337
340
323
322
308
302 355
341
338 367
360
352370
361
374
368
353
354 395418
409
397
399
405 436
425
422
420
410 454
458
444
446
450
441
427
433 469
461
467
468
455
472
466 498
501
487
497
496
488
489
493510527
521542
541
539562
571592
581
575
572
579
577
586
570
557
573588
598
590
576 599618
605
607
620
609623
615
612 644
631
645
636
627
624642
641
629 661
659
649
660
646
655
651
656
648
634654670
663 690
676
667
669
679
683702
714730
729
720
726
717
719
708
710
694 749
737
753
14
13
1212
9 25
2029
24
15
17 33
36
28
3040
4151
52
54
50
5363
55
597081
75
77
74
76
69
62
68 90
91
85
79 104
92112
100
98
102117
106126
115
113
109
103
99 140
132
131
118
120
123143
127 151
145
135
146 173
167
152
154
139 171
157
172191
175
177
170
179
165
155
149
141 209
203
198
192
196
197
180
187
184
195
188
174 218
223
221
212
224
215 240
234
237
235
231
230
219
233
220
207
211 236
232 256
246 273
261
266
253
259
255270288
277
264285
292
289
287
290307
299
303
301
293
298 325
316
315330
332
321 346
336
331
320 349
339
324
334 366
357
342
329
343 372
373
376
363
351
358
362
359
350 390
387
377
383
378
381
386
375
385
371
364
365 402
403
391
398
406
404
393
392
379
380 421
411
415
416
413
412 437
431
423
432452
443
440
447
434
445
435 463
460477
464
449
459 484
490
481
478491
479
483
471
473
465 500
485
486
474 508
499
492
502 523
526
516
513
518
514
505
494
495 525543
535
540
538
530
537
531 560
553
554
552
556
549
545 574
559578
565
567
561
546 584602
589
593
595
582
569 601
596 619
621
604
606
600 626
616635
633
617
614 647664
652
657 680
668
673
675
658 692
678698
685
672
671 715
704
713
700
688
705
703
695 732
724 751
746
736
727 748
0
0 200 400 600 800

Numero de observacion
146
Humberto Ortiz Ruiz
Comparando modelos
Interpretación del modelo utilizando los valores predichos
147
Humberto Ortiz Ruiz
Comparando las predicciones de logit y probit

1
.75
Logit: Pr(lfp)
.5
.25
0
0 .25 .5 .75 1
Probit: Pr(lfp)
Predicciones individuales.
Tipo 1
148
Humberto Ortiz Ruiz
Tipo 2
Tipo 3
149
Humberto Ortiz Ruiz
Ploteo de probabilidades
1 .75
Pr(Fuerz Laboral)
.25 .5
0
0 20 40 60 80 100
Ingreso
Age 30 Age 40
Age 50 Age 60
Cambio en la probabilidad
150
Humberto Ortiz Ruiz
151
Humberto Ortiz Ruiz
5.3. Modelos ordenados
Una variable es ordinal cuando sus categorías pueden ser ordenadas de mayor a menor.
Ejm. Rating de bonos, encuestas de opinión (de acuerdo o descuerdo), empleo, entre otros.
5.3.1. Modelo latente
Sea el modelo estructural. y * = xβ + e , donde −∞ < y * < +∞ es una variable no observable y*

continua. y es una variable observable (que toma J valores o categorías) que se relaciona con
y * a través de la siguiente ecuación:
y = m si τ m−1 ≤ y*<τ m con m = 1,..., J
Donde τ 0 = −∞ y τ J = +∞
El error del modelo estructural se puede distribuir como una normal (probit) o como una logística
(logit).
La probabilidad de que se observe la categoría m corresponde al área del error de distribución
entre los puntos de corte

τ m −1 y τ m .
P( y = m / x) = P(τ m −1 ≤ y*<τ m / x)
5.3.2. Estimación
Se suele suponer que β0 = 0 (o τ 1 = 0 ). El modelo a estimar es el basado en la

probabilidades
P( y = m / τ, β, x) = G (τ m − β 0 − β1 x) - G (τ m−1 − β 0 − β1 x) con β 0 = 0
La función de densidad será:
J
i ( τ, β) = ∑1[ y = m ] log P ( y = m / ...)
m =1
Lo usual es estimar
152
Humberto Ortiz Ruiz
∑ ( τ , β)
i=1
i
La función verosimiltud es bien comportada. Se puede maximizar con métodos numéricos.
5.3.3. Interpretación
a. Probabilidad predicha
Pˆ ( y = m / x) = G (τˆm − xβˆ ) - G (τˆm −1 − xβˆ )
De forma similar al caso de los modelos binarios se pueden realizar una serie de analisis entre
los cuales están: media de probabilidades y rango de probabilidades, ploteo de probabilidades y
tablas de predicción.
b. Cambio marginal o parcial
Se define como
∂P ( y = m / x)
= β k [ g (τ m − xβ) − g (τ m −1 − xβ) ]
∂xk
c. Cambio discreto
Se define como
∆P ( y = m / x )
= P ( y = m / x , xk = x E ) − P ( y = m / x , xk = x s )
∆xk
d. Ratios odds
El modelo logit ordenado se puede interpretar en términos de los ratios odds. La probabilidad
acumulada de un evento “m” está dado por:
m
P ( y ≤ m / x ) = ∑ P ( y = j / x)
j =1
El ratio odds es:
P ( y ≤ m / x) P( y ≤ m / x)
Ω≤ m / > m (x) = = = exp(τ m − xβ)
P ( y > m / x) 1 − P ( y ≤ m / x)
153
Humberto Ortiz Ruiz
a. Test score
La hipótesis es β1 = ... = β J −1 . El modelo restricto sería P ( y ≤ m / x) = G (τ m − xβ)
Bajo la hipótesis nula se distribuye como una chi cuadrado de K(J-2) grados de libertad.
b. Wald
La hipótesis β1 = ... = β J −1 se puede plantear de la siguiente manera Dβ* = 0
 I −I ... 0 
 I ... ... 0 
 
Con D = 
... ... ... ...
 
I 0 ... ...
′ −1
( )
W = Dβˆ *  DVar
ˆ (βˆ *)D
 ( Dβˆ *)
Bajo la hipótesis nula se distribuye como una chi cuadrado de K(J-2) grados de libertad.
Para evaluar el supuesto de la regresión paralela con respecto a la variable xk, es decir la
ˆ (βˆ *) .
hipótesis β k 1 = ... = β kJ −1 se selecciona los valores correspondientes de D , βˆ * ´, Var
154
Humberto Ortiz Ruiz
5.3.5. Aplicación
El ejemplo se basa en una datos de una encuesta realiza en los EE.UU. en los años 1977 y
1989. Los entrevistados respondieron a la pregunta ¿las madres que trabajan pueden
establecer lazos afectivos con sus hijos de igual manera que las madres que no trabajan?. Las
respuestas fueron codificadas de la siguiente manera: 1 = desacuerdo total, 2 = desacuerdo, 3
= de acuerdo y 4 = total acuerdo.
Se estima el modelo con logit y probit ordenado
155
Humberto Ortiz Ruiz
156
Humberto Ortiz Ruiz
Resumiendo los resultados
Pruebas de hipótesis en el modelo logit
Hipótesis individuales
Hipótesis múltiples
157
Humberto Ortiz Ruiz
Medidas de ajuste
Test de Brant
158
Humberto Ortiz Ruiz
Efectos marginales y discretos
Ratios odds
Probabilidades predichas para un individuo “tipo”
159
Humberto Ortiz Ruiz
5.4. Modelo logit multinomial
Una variable es nominal es aquella donde sus categorías no se pueden ordenar. Ejemplos,
modos de transporte, ocupaciones, estado civil, preferencias por marcas, entre otros.
5.4.1. El modelo logit multinomial (MNL)
Sea Y la variable dependiente con J categorías no ordenadas. La probabilidad que ocurra el

evento m viene dada por:
exp( xβm )
P ( y = m / x) = J
∑ exp(xβ
j =1
j )
Como en el caso de los modelos logit binomiales resulta adecuado presentar los ratios odds. El
odd de la categoría m con respecto a la n es igual
P ( y = m / x) exp(xβm )
Ω m / n ( x) = = = exp( x(βm − β n )) = exp( xβ m/n )
P( y = n / x) exp(xβ n )
Donde ln Ω m / n (x) es lineal en parámetros.
∂ ln Ω m / n (x)
= β km − β kn
∂xk
5.4.2. Estimación
La función verosimilitud para cada observación será:
J
dij
i = ∏ Pi
j =1
N
L(.) = ∏ i
i =1
N J
ln L = ∑ ∑d ij ln( Pij )
i =1 j =1
Se suele estimar MNL tomando una categoría como referencia o base. Tenemos
ln Ω m / b (x) = x(β m − βb ) = xβ m/b
160
Humberto Ortiz Ruiz
Donde β m/b se denomina contraste
Se busca estimar el número mínimo de contrastes. Se puede calcular los estimadores de

modelos que utilicen otra comparación distinta al de la categoría base.
Una prueba de hipótesis usual para analizar la significancia del efecto de xk sobre la
probabilidad es H 0 : β k 1 = ... = β k J = 0 . Dicha hipótesis se puede evaluar con un test LR o
b b
Wald.
Test de significancia de dos categorías. En el caso que ninguna de las variables explicativas
afecte significativamente al odds de dos categorías (m y n) se dice que dichas categorías son
“indistinguibles” con respecto a las variables del modelo. La hipótesis de indistinguibilidad se
puede plantear como H 0 : β1 m = ... = β K m = 0 . Dicha hipótesis se puede evaluar con un test
n n
Wald.
5.4.4. Probabilidades predichas y cambio marginal (discreto)
La probabilidad de la probabilidad m se puede calcular en función de los “contrastes”
exp(xβm / b )
P ( y = m / x) = J
∑ exp(xβ
j =1
j /b )
El efecto marginal de xk sobre la probabilidad del evento m viene dado por:
∂P ( y = m / x)  J 
= P( y = m / x)  β km − ∑ β kj P( y = j / x) 
∂xk  j =1 
El efecto marginal de todas las explicativas viene dado por la siguiente expresión vectorial
∂P( y = m / x)  J 
= P ( y = m / x) β m − ∑ P( y = j / x)β j 
∂x  j =1 
El cambio discreto es igual a
∆P ( y = m / x )
= P ( y = m / x, xk = xE ) − P( y = m / x, xk = xs )
∆xk
161
Humberto Ortiz Ruiz
5.4.5. Aplicación
162
Humberto Ortiz Ruiz
Calculando los coeficientes asociados a “White” para cada comparación de categorías
163
Humberto Ortiz Ruiz
Prueba de hipótesis para cada explicativa

LR
Wald
Prueba de hipótesis si las categorías son distinguibles (categorías combinables)
164
Humberto Ortiz Ruiz
Probabilidades predichas
Current (White=1) / Saved (White=0)
Cambio marginal y discreto
165
Humberto Ortiz Ruiz
5.5. Modelos para datos censurados y truncados
La censura se da cuando hay observaciones limitadas para la variable dependiente y se cuenta

con observaciones de las variables independientes para toda la muestra. El truncamiento limita
los datos de manera más severa.
En el caso de la censura:
 y * si y* > t
y=
t y si y* ≤ t
 t −u 
P ( y* > t ) = 1 − Φ   = Φ (α )
 σ 
 t −u 
P ( y* ≤ t ) = P ( y = t y ) = Φ  
 σ 
5.5.1. Modelo Tobit
Sea el siguiente modelo estructural

y* = xβ + e
Donde e sigue una distribución N (0, σ 2 )
La ecuación de medida es
 y* si y*>t
y=
t y si y* ≤ t
En los modelos de solución de esquina ty = t = 0 .
La probabilidad de que una variable sea censurada es P ( y* ≤ t ) mientras que la
probabilidad de no censura viene dado por P ( y* > t ) .
166
Humberto Ortiz Ruiz
5.5.1.1. Estimación
En el caso del modelo presentado la función de densidad de la variable censurada viene dado
por
1− di di
  t − xβ    1  y − xβ  
f ( y / x) =  Φ   σ 2 φ  σ 
  σ    
  t − xβ    1 1  y − xβ  
2
i (β, σ ) = ln f (.) = (1 − di ) Φ 
2 2
  + di  − ln 2πσ −   
  σ   2 2  σ  
5.5.1.2. Interpretación
Hay tres momentos se interés según lo que se busque en el análisis: E ( y * / x)

E ( y / y* > t , x) y E ( y / x) .
En el caso de E ( y / y* > t , x) tenemos

 xβ − t 
φ
 σ 
E ( y / y* > t , x) = xβ + σ = u + σλ (δ )
 xβ − t 
Φ 
 σ 
xβ − t
Con δ=
σ
El cambio marginal de y / y* > t viene dado por
∂E ( y / y* > t , x)
= β k 1 − λ (δ ) − δλ (δ ) 
2
∂xk  
Mientras que el valor esperado, E ( y / x) , de la variable censurada viene dado por
E ( y / x) = P( y* ≤ t ) E ( y / y = t y , x) + P( y* > t ) E ( y / y* > t , x)
= Φ ( −δ )t y + Φ (δ )xβ + σλ (δ )
El cambio marginal de y viene dado por:
167
Humberto Ortiz Ruiz
∂E ( y / x) β
= β k Φ (δ ) + (t − t y )φ (δ ) k
∂xk σ
McDonald y Moffit sugiere la siguiente descomposición:
∂E ( y / x) ∂E ( y / y* > t , x) ∂P ( y* > t )
= P( y* > t ) +  E ( y / y* > t , x) − t y 
∂xk ∂xk ∂xk
Aplicable cuando ty = 0
168
Humberto Ortiz Ruiz
MCO
Tobit
169
Humberto Ortiz Ruiz
Efectos marginales
170
Humberto Ortiz Ruiz
5.5.2. Sesgo de selección
Debido a la naturaleza de los datos muchas veces no se cuenta con una muestra aleatoria
de la población.
“Sample selection” o selección de muestra es un término genérico que describe una

muestra no aleatoria. Hay distintos mecanismos de selección: (i) diseño muestral y (ii)
comportamiento de las unidades.
5.5.2.1. Ecuación de selección probit (modelo de selección de muestra bivariado)
y1 = x1β1 + u1
y2 = 1 [ xδ 2 + v2 > 0]
Supuestos:
(i) x, y2 son siempre observados. y1 se observa cuando y2 = 1

(ii) u1 , v2 son independientes de x y tienen media 0.
(iii) v2 ∼ N (0,1)
(iv) E (u1 / v2 ) = γ 1v2

Se puede demostrar que
E ( y1 / x, y2 ) = x1β1 + γ 1h( x, y2 )
Heckman (1979) indica como obtener un estimador consistente de β1 .
5.5.2.2. Estimación
a. Dos etapas (Heckman o Heckit)
En la primera etapa se obtiene un estimador consistente de δ2 para calcular λ (xδˆ2 ) . Luego

en la segundo etapa se regresiona y1 con respecto a x1 , λ (xδˆ2 ) . Se obtienen estimadores
consistentes para β1 , γ 1 .
171
Humberto Ortiz Ruiz
b. Máxima verosimilitud
Se asume que u1 , v2 se distribuyen como una normal divariada con media 0,

2
V ar(u1 ) = σ ,Var (v2 ) = 1, Cov (u1 , v2 ) = σ 12
Se puede demostrar que el logaritmo de la función verosimilitud (parcial) será:
i (β1 , σ 12 , ρ , δ 2 ) = (1 − y2 ) log P ( y2 = 0 / x) + y2 log ( P( y2 = 1/ y1 , x) f ( y1 / x) )
P ( y2 = 0 / x) = 1 − Φ ( xδ 2 )
 xδ + ( y − x β )σ σ −2 
P ( y2 = 1/ y1 , x) = Φ  2 1 1 1 12 1

2 −2
 1 − σ 12 σ 1 
φ ( ( y1 − x1β1 ) / σ 1 )
f ( y1 / x) = φ ( y1 , x1β1 , σ 12 ) =
σ1
ρ = σ 12 / σ 1
Cuando y2 = 1 se observa y1 y se tiene información para estimar β1 .
2 1 1+ ρ 
Stata estima ln σ , atanhρ = ln   para que exista estabilidad durante la optimización.
2  1− ρ 
172
Humberto Ortiz Ruiz
Sample selection
173
Humberto Ortiz Ruiz
MCO
Dos etapas
Etapa 1.
174
Humberto Ortiz Ruiz
Etapa 2.
Por comando Heckman
175
Humberto Ortiz Ruiz
MV
176
Humberto Ortiz Ruiz
6. Modelos para datos de panel
En un panel tenemos observaciones de k variables explicativas durante T periodos para cada uno de los
N individuos de la muestra.
En corte transversal N individuos

K explicativas (aparte de la constante)
En series de tiempo T períodos

En datos de panel N individuos

T períodos
Nota 1: Varios cortes transversales no necesariamente forman un panel data, es necesario que los
mismos individuos estén en todos los cortes transversales.
Nota 2: Por lo general, N es muchísimo más grande que T pues, como las observaciones deben ser de
los mismos individuos, no suelen tenerse muchos períodos.
Por ejemplo: N=10 000 , T=5 N>T. Excepción: datos macro.
En principio, todas las técnicas econométricas de corte transversal y series de tiempo son aplicables a los
datos de panel, pero el hecho de que se disponga de pocos períodos limita la aplicación de las técnicas
de series de tiempo.
6.1. Modelos para datos en panel estático13
El modelo básico es:

yit =α + x|it β + µi + ε it
Donde i= 1,2,….,N y t = 1,…..T. El vector Xit tiene K elementos (variables explicativas sin
considerar el intercepto). Este modelo se puede estimar por MCO si los siguientes supuestos se
cumplen:
a) Ortogonalidad entre los errores y regresores: E[xit ,εit] = 0

b) Homocedasticidad: var(εit) = σε2, para todo i
c) No hay correlación entre los errores: Cov (εit, εis) = 0, para s ≠ t
d) La matriz X = [Xit] tiene rango completo = K (no hay multicolinealidad)
Sin embargo, con datos de panel se puede aprovechar la información disponible y construir
modelos de comportamiento más complejos. Se podría capturar efectos que no son detectados
en un modelo corte transveral o de serie de tiempo.
13
Tomando de las notas de clase del docente José Carlos Tello.
177
Humberto Ortiz Ruiz
Por otro lado, se pueden considerar efectos individuales (αi) específicos para cada unidad de
sección cruzada pero que son constantes a lo largo del tiempo. En el caso que los αi sean
iguales para todas las unidades o ecuaciones de cross-section entonces los estimadores de α y
β por MCO serán consistentes y eficientes (Pooled estimation).
Este efecto individual puede interpretarse como la habilidad del individuo que no es observada
pero que si afecta la variable dependiente. Este modelo de efectos individuales es estimado
según los supuestos establecidos sobre la correlación del error con los regresores. De esta
manera sigue dos tratamientos distintos: el enfoque de efectos fijos y el de efectos aleatorios.
Ventajas y desventajas del modelo de Datos de Panel14
Ventajas:
• Controlar la heterogeneidad individual.
• Provee más información, más variabilidad de los regresores, menos colinealidad, más
grados de libertad y eficiencia del estimador MCO.
• Es posible estudiar la dinámica del ajuste con mayor precisión.
• Identificar y medir los efectos que no son detectados en cross section y series de
tiempo.
• Elaboración de modelos de comportamiento más complejos.
• Elimina el sesgo de la agregación sobre las firmas o individuos.
Desventajas:
• Problemas en el diseño y en la recolección de los datos.
• Distorsiones originadas por errores de medición.
• Problemas de selección: auto selección, no respuesta; y
• Baja frecuencia temporal.
6.1.1. Modelo de Efectos Fijos
Un manera de captar las diferencias entre unidades (o individuos) es considerando una variable
dummy Di que indica la unidad i.
En este modelo se asume que los componentes no observados (habilidad por ejemplo) están
correlacionados con algunos regresores (educación) y por tanto no se cumple el supuesto de
ortogonalidad (a). Este tipo de problema también es llamado sesgo de heterogeneidad no
observada. Esta dificultad se presenta cuando entidades de naturaleza no observada diferentes
son agrupadas para la estimación. Por ejemplo, individuos muy hábiles y los poco hábiles.
14
Tomado de Baltagi, B
adi “Econometric Analysis of Panel Data”. Wiley Ed. 1995.
178
Humberto Ortiz Ruiz
Más hábiles
Menos hábiles
Este problema se plantea usualmente como un modelo de efecto fijos. La utilidad se da por dos
razones. Primero se ataca el problema de inconsistencia que es más serio que el de
ineficiencia. Segundo, la solución en modelos lineales es directa, pues un modelo con efectos
fijos es equivalente a incluir variables dummy para cada entidad. Además, si se tienen T
observaciones para cada entidad, se pueden sustraer los promedios de cada entidad y obtener:
yit − yi • = β ' ( xit − xi • ) + µ it − µi •
O el modelo de efectos fijos puede verse desde un enfoque matricial:
My = MXβ + Mµ ; donde M = I − D ( D ' D ) −1 D '
βˆ FE = ( X ' MX ) −1 X ' My
Donde y i • es el promedio de la i-ésima unidad o individuo. De esta forma, se eliminan los

componentes no observados que generaban inconsistencia. El estimador de efectos fijos,
también es llamado within estimator o estimador intra-grupos pues solo toma en cuenta las
variaciones al interior de la unidad o individuo y no las variaciones entre entidades diferentes.
Este procedimiento es equivalente al incluir una dummy para cada entidad en la regresión por lo
que también es conocido como el Estimador de Mínimos Cuadrados con Variables Dummy
(LSDV).
Estimador WITHIN se puede hallar incorporando dummies individuales invariantes en el tiempo.

Planteamos el modelo modificando la notación a que ahora β es de tamaño k y X it no incluye al
intercepto común C.
Yit = C + αi + X it β + ηit X it no incluye al intercepto
179
Humberto Ortiz Ruiz
Yit = φi + X itβ + ηit En forma vectorial φi incluye a C y a αi .
i es un vector de unos de tamaño T

Yi = iφi + X iβ + ηi
Ordenándolo matricialmente:
 Y1  i 0 0   φ1   X1   η1 
Y  0 i  φ  X   
 η2 
 2 =    2
+ 2  βkx1 + 
        
         
YN  NTx1 0 0 i  NTxN φN  Nx1  X N  NTxk η N 
  NTx1
 φ1 
φ 
Y = [d1 d 2 d N ] 2  + Xβ + η
 
 
φ N 
Y = Dφ + Xβ + η
φ
Y = [D X ]  + η Es un caso de regresión particionada.
β
∧
β = ( X ´MX ) −1 ( X ´My )
Tanto P como M son simétricas e idempotentes.
Por ello el estimador de dummies es:
∧
β dummies = ( X ´MX ) −1 ( X ´My ) con P = D(D´ D )−1 D´ y M = I − P
Pero las matrices P y M son las matrices asociadas al estimador Between y Within respectivamente.
PX = X Al premultiplicar por P una matriz, las observaciones son reemplazadas por los
promedios por individuos.
MX = X − X Al premultiplicar por M una matriz, las observaciones se transforman a sus desvíos

MX = X~ respecto de la media por los individuos.
Sabemos que el estimador Within resulta de aplicar MCO a las variables transformadas:
180
Humberto Ortiz Ruiz
Y~ = Y − Y
X~ = X − X
∧
β w = ( X~´ X~ ) (X~´ ~y )
−1
= ((MX )´(MX )) ((MX )´(MY ))

−1
= ( X ´M ´MX ) ( X ´M ´My )
−1
como M es simétrica M = M´
= ( X ´MMX ) ( X ´MMy )
−1
como M es idempotente
= ( X ´MX ) ( X ´MY )
−1
∧ ∧
Por lo tanto β w = β dummies
∧
Si procedemos igualmente con β b obtendríamos:
∧
β b = ( X ´PX ) −1 ( X ´Py )
6.1.2. Modelo de Efectos Aleatorios
El enfoque de efectos fijos parece apropiado si creemos que dichos efectos corresponden
únicamente a las unidades analizadas y que no pueden establecerse para unidades adicionales
fuera de ella.
¿Cuál es la solución si las unidades de la sección cruzada son extracciones muestrales de una
población? La respuesta es tratar esos efectos individuales como un proceso estocástico que
forma parte del término µit. Además se asume que dichos componentes no están
correlacionados con los regresores (la principal diferencia con los efectos fijos).
ω it = µi + εit
Nota: no consideramos los efectos temporales dado que las observaciones de panel se
caracterizan por tener una pequeña amplitud en el tiempo.
E(µi )= E(εit) = 0
E(µi2) = σµ2
E(εit2) = σε2
E(ωit2) = σµ2 + σε2
E(ωitωis) = σµ2 , t ≠ s
La matriz de covarianzas de los errores para la i-ésima unidad es:
181
Humberto Ortiz Ruiz
σ ε2 + σ µ2 σ µ2 σ µ2 
 
 σ µ2 σ ε2 + σ µ2 σ µ2  = σ 2 I + σ 2 ii '
Ω =  ε µ

 
 σ µ2 σ µ2 σ ε2 + σ µ2 
Finalmente la matriz de covarianzas de los errores será:
Ω 0 0 
0 Ω 0
Γ= 
 
 
 0 0 Ω
Bajo el supuesto de ortogonalidad, el estimador de MCG es el más eficiente pues incorpora la

información existente en la matriz de varianza de los errores. Este estimador se construye como
bMCG = (X’Γ-1X)-1X’Γ-1y . Empíricamente, esto implica construir la matriz estimada a partir de las
varianzas de los componentes del error. A manera de resumen, el uso de datos de panel
permite ganar en eficiencia al explotar la información contenida en los componentes no
observados (efecto individual).
La estimación por MCG implica el uso de ponderadores que transforman las variables
involucradas en la estimación. Dicho ponderador es el siguiente: Γ −1 / 2 = I ⊗ Ω −1 / 2 . Siendo
θ
Ω −1 / 2 = I − ii ' .
T
Nótese las similitudes de este procedimiento con los cálculos en el modelo de efectos fijos,
donde θ = 1. Se puede demostrar que el estimador de MCG, como el estimador de MCO, es
una media ponderada matricial de los estimadores intra y entre grupos.
6.1.3. Aplicación
La base de datos paneldata2.dta contiene información del nivel de gasto per cápita de los
distintos estados de EEUU (spend) y de variables sociodemográficas para el periodo 1950-
1989. Se quiere analizar el efecto de variables sociodemográficas como el ingreso personal per
cápita en niveles (persinc) y al cuadrado (persinc2), porcentaje de la población entre 5 a 17
años (aper5_17) y de 67 años a más (aper65), el porcentaje de demócratas (dem1), entre otras
sobre el gasto estatal.
Especificamos la base de panel
182
Humberto Ortiz Ruiz
183
Humberto Ortiz Ruiz
Regresión Pooled (MCO)
Regresión de efectos aleatorios
184
Humberto Ortiz Ruiz
A diferencia del modelo de efectos fijos, el término no observado pero que indica la diferencia
entre individuos no estaría correlacionado con los regresores. Existen pruebas estadísticas para
contrastar esta sospecha como el contraste de Hausman y el de Breusch – Pagan.
Contraste de efectos aleatorios (Breush – Pagan)
Contraste del multiplicador de Lagrange para el modelo de efectos aleatorios. El análisis se

basa en los residuos de MCO.
Ho : σν2 = 0
H1: σν2 ≠ 0
2
 n T 
2

 ∑ ∑ eit  
nT  i =1  t =1 
LM = −1 ~ X2 (1)
2(T − 1)  n T 2 
 ∑∑ eit 
 1=1 i =1 
Otras opciones disponibles para xtreg, re son:
i(variables), tiene como finalidad especificar que variable indica las observaciones por individuo,
en el caso que no se especifique con el comando xtset (o iis).
sa, indica que el método a utilizarse es el de Swamy –Arora (SWAR) para paneles
desbalanceados15.
theta, indica que en el cuadro de resultados se muestre el parámetro θ estimado.
level(#), sirve para especificar el nivel de confianza, por defecto es de 95%.
15
Ver Baltagui y Chang (1994). Incomplete Panels: A comparative study of altenative estimators for the unbalanced
one-way error component regression model. Journal of Econometrics 62: 67 – 89.
185
Humberto Ortiz Ruiz
Regresión del modelo con efectos fijos
Test F
( Ru2 − R p2 ) /( n − 1)
F= ~ F (n-1, nT – n – k)
(1 − Ru2 ) /( nT − n − k )
Predicción
La predicción de la variable dependiente se realiza con la siguiente sintaxis.
predict pre_xb, xb
Otros estadísticos son:
stdp error estándar de los valores estimados

ue los residuos combinados, µ i + ε it
xbu la predicción αˆ + βˆ ' xit + µ i
u el componente fijo µ i
e el error de libre movimiento ε it
186
Humberto Ortiz Ruiz
Otras opciones
El comando xt guarda por defecto varios escalares y matrices. La finalidad de estas variables
guardadas es construir nuevas pruebas que no están disponibles en el Stata.
Escalares
e(N) número de observaciones
e(N_g) número de grupos
e(mss) suma de cuadrados de la regresión
e(tss) suma de cuadrados totales
e(df_m) grados de libertad del modelo
e(rss) suma de cuadrados de los residuos
e(r2) R2
e(r2_a) R2 ajustado
e(F) estadístico F
e(rmse) raíz cuadrada del error cuadrático medio
e(ll) valor de función verosimilitud en logaritmos
e(ll_0) valor de fn. verosimilitud, solo la constante
e(g_max) tamaño del grupo más grande
e(g_min) tamaño del grupo más pequeño
e(g_avg) tamaño del grupo promedio
e(rho) ρ
e(corr) correlación entre µ i , Xb
e(F_f) F para µ i = 0
Matrices
e(b) Vector coeficientes
e(V) matriz de covarianzas de los estimadores
Contraste de Hausman
Consiste en probar la ortogonalidad de los efectos aleatorios y los regresores. Bajo la hipótesis
de no correlación, los estimadores de MCO en el modelo de efectos fijos y el estimador de MCG
son consistentes pero el de MCO es ineficiente. Por lo tanto, bajo la hipótesis nula la diferencia
no debería ser sistemática.
H = ( βˆ RE − βˆ FE )' (V FE − V RE ) −1 ( βˆ RE − βˆ FE ) ~ χ k2
187
Humberto Ortiz Ruiz
Con una probabilidad menor a 0.06 no existe evidencia para aceptar la hipótesis nula. Por lo
tanto, existe una diferencia sistemática entre el estimador de MCO (efectos fijos) y el de MCG
(efectos aleatorios). Siendo el estimador de efectos aleatorios inconsistente.
188
Humberto Ortiz Ruiz
6.2. Panel Data Dinámico
Este tipo de estmación suele ser aplicable cuando la variable dependiente (la que queremos
explicar) presenta inercia en el tiempo en un contexto de datos de paneles apropiado aplicar
panel dinámico. Ejemplo de estas variables son la participación de mercado de un banco en el
mercado local, pues es razonable que si una firma controló el 40% del mercado en 2003 tenga
una participación parecida en 2004. El número de trabajadores en una firma también presenta
esta inercia pues los cambios tecnológicos ni los cambios en la escala suelen ser bruscos si no
que se reparten en un período más de tiempo largo.
Para modelar esta inercia se agregan rezagos de la variable dependiente, pero ello haría que
tengamos variables dependientes al lado derecho de la ecuación, lo que causaría un problema
de endogeneidad (y por ello los parámetros serían sesgados e inconsistentes). Para que ello
no ocurra debemos emplear instrumentos.
Para tratar el tema de la exogeneidad de las variables del lado derecho de la ecuación, estas se
clasificaran en endógenas, exógenas y predeterminadas.
Pero el empleo de instrumentos se realiza mediante las condiciones de ortogonalidad del

Método Generalizado de Momentos.
6.2.1. Estimador Arellano Bond
El modelo básico de datos de panel dinámico es:

p
yit = ∑ α j yi , t − j + xit β1 + wit β 2 + vi + ε it
j =1
xit es un vector 1xk1 de variables estrictamente exógenas.

β1 Es un vector k1 × 1 de parámetros estimados
wit es un vector 1 × k2 de variables predeterminadas.
β 2 es un vector k2 × 1 de parámetros estimados.
vi Son los efectos aleatorios que son independientes e idénticamente distribuidos (i.i.d.) con
2
varianza σv .
2
ε it son i.i.d sobre toda la muestra con varianza σε .
donde
yit es variable dependiente para el individuo i en el tiempo t .
El modelo puede sintetizarse en:
189
Humberto Ortiz Ruiz
yi = X iδ + viιi + ε i
Método Generalizado de Momentos
Planteamos las condiciones de ortogonalidad poblacionales:
E [Ψ ( w,θ )] = 0
w : vector aleatorio
Ψ : vector de funciones rx1 (# de instrumentos)
θ : vector de parámetros kx1
r≥k : al menos tantas funciones como parámetros.
w1 ,..., wn : muestra de N observaciones de la población.
MGM minimiza una forma cuadrática que es la medida de distancia de bn (c) a cero.
1 1
θˆ = arg min ( ∑ Ψ ( wi , c)) '
n
An (
n
∑ Ψ (wi , c)) r ×1
c∈θ i 1× r r × r
An := matriz de ponderaciones de los momentos. (Se empleará la inversa de la matriz de var-

cov de las condiciones de ortogonalidad, por lo general)
En la metodología de Arellano-Bond primero se diferencian el modelo, supongamos que el

modelo es:
yit = α1 yi , t −1 + α 2 yi , t − 2 + xit β + vi + ε it
Lo que se obtiene es:
∆yit = ∆α1 yi , t −1 + ∆α 2 yi , t − 2 + ∆xit β + ∆ε it
 y i,t − y i,t io+ p 

 io +1+ p 
y − y i,t io+1+ p 
∆y i =  i,t io+2+ p 
 
 
 y iTi − y iTi −1 
190
Humberto Ortiz Ruiz
 X i,t − X i,t io+ p 

 io +1+ p 
X − X i,t io+1+ p 
∆X i =  i,t io+2+ p 
 
 
 X iTi − X iTi −1 
 ε i,t − ε i,t io+ p 

 io+1+ p 
ε − ε i,t io+1+ p 
∆ε i =  i,t io+2+ p 
 
 
 ε iTi − ε iTi −1 
La matriz de instrumentos se forma del siguiente modo:
Tenemos dos rezagos (por lo que perdemos dos observaciones por individuo), con la
diferenciación se pierde una observación más por lo que el número de filas es de T-p-1.
Como las xit contienen regresores estrictamente exógenos ∆xit van a servir como sus propios
instrumentos, por lo que tenemos k1 columnas al final de la matriz. Asumiendo que las ε it no
están autocorrelacionadas, para cada período podemos emplear los rezagos de la dependiente
como instrumentos: en t=4 podemos emplear y1 , y 2 , para t=5 podemos emplear y1 , y 2 , y 3 ,
hasta que para t= T podemos emplear y1 , y 2 , y 3 ... yT −3 , yT − 2 .
T −2
Finalmente tenemos ∑m + k
m= p
1 columnas:
Las variables endógenas se tratan del mismo modo que las variables dependientes rezagadas
(siendo los rezagos de orden p o mayores instrumentos válidos, mientras que para las
predeterminadas los rezagos p-1 o mayores son instrumentos válidos.
Para el caso de paneles incompletos se eliminan las filas donde no hay datos y se reemplazan
con ceros las columnas donde no se requieran datos.
Para el modelo anterior:
y yi 3 0 0 0 0 0 0 ∆X i 5 
 i2 
 0 0 yi1 yi 2 yi 3 0 0 0 ∆X i 6 
Zi =  
 
 
 0 0 0 0 0 yi 2 yi ,T − 2 ∆X iT 

191
Humberto Ortiz Ruiz
 ε i,t − ε i,t io+ p 

 io+1+ p 
ε − ε i,t io+1+ p 
La matriz de covarianzas de ∆ε i =  io+2+ p  es:
i,t
 
 
 ε iTi − ε iTi −1 
 2 −1 0 0  0
 
−1 2 −1 0  0
H i = E[ε i*ε i* ] =  
'

 
0 0 0 2 − 1
0 − 1 2 
 0 0
Finalmente el vector de coeficientes es:
n ' n
−1 ' *
δˆ1 = Q1 ( ∑ X i * Z i ) A1 ( ∑ Z i yi )
i =1 i =1
n ' n
' *
Q1 = ( ∑ X i * Z i ) A1 ( ∑ Z i X i )
i =1 i =1
n
'
A1 = ∑ Z i H i Z i
i =1
192
Humberto Ortiz Ruiz
6.2.2. Aplicación
1era etapa
Arellano-Bond dynamic panel-data estimation Number of obs = 611

Group variable: id Number of groups = 140
Time variable: year
Obs per group: min = 4
avg = 4.364286
max = 6
Number of instruments = 41 Wald chi2(1

15) = 1624.40
Prob > chi2 = 0.0000
One-step results
n Coef. Std. Err. z P>|z| [95% Conf. Interval]
n
L1. .7080866 .1456767 4.86 0.000 .4225654 .9936077
L2. -.0886343 .0448856 -1.97 0.048 -.1766084 -.0006602
w
--. -.605526 .0661685 -9.15 0.000 -.7352138 -.4758382
L1. .4096717 .1082166 3.79 0.000 .197571 .6217723
k
--. .3556407 .037385 9.51 0.000 .2823674 .428914
L1. -.0599314 .0566394 -1.06 0.290 -.1709425 .0510797
L2. -.0211709 .0418278 -0.51 0.613 -.1031519 .0608101
ys
--. .6264699 .1349141 4.64 0.000 .3620432 .8908967
L1. -.7231751 .1846245 -3.92 0.000 -1.085033 -.3613177
L2. .1179079 .1441364 0.82 0.413 -.1645943 .4004101
yr1980 .0113066 .0140743 0.80 0.422 -.0162786 .0388917
yr1981 -.0212183 .0206732 -1.03 0.305 -.0617371 .0193005
yr1982 -.034952 .0221406 -1.58 0.114 -.0783467 .0084427
yr1983 -.0287094 .0251748 -1.14 0.254 -.078051 .0206323
yr1984 -.014862 .0284833 -0.52 0.602 -.0706883 .0409642
_cons 1.03792 .6221795 1.67 0.095 -.1815295 2.257369
Instruments for differenced equation

GMM-type: L(2/.).n
Standard: D.w LD.w D.k LD.k L2D.k D.ys LD.ys L2D.ys D.yr1980 D.yr1981 D.yr1982 D.yr1983 D.yr1984
Instruments for level equation
Standard: _cons
Test de Sargan
De acuerdo al test de Sargan existe evidencia para rechazar la hipótesis nula que la
sobreidentificación es válida. Cabe mencionar que dicho test tiende a sobre-rechazar en
presencia de Heterocedasticidad. A continuación estimaremos el mismo modelo pero con los
estimadores robustos.
193
Humberto Ortiz Ruiz
Tanto como en el primer modelo que asume homocedasticidad como el actual rechazan la
hipótesis nula de carencia de autocorrelación de primer orden en los residuos diferenciados.
Pero no implica que los estimadores sean inconsistentes, si existiera correlación de segundo
orden en los residuos diferenciados eso implicaría que los estimadores son inconsistentes que
de acuerdo los test no puede afirmarse la inconsistencia.
194
Humberto Ortiz Ruiz
2 etapas
Arellano-Bond dynamic panel-data estimation Number of obs = 6 11
Group variable: id Number of groups = 1 40
Time variable: year
Obs per group: min = 4
avg = 4.3642 86
max = 6
Number of instruments = 41 Wald chi2(1

1 5) = 2282. 22
Prob > chi2 = 0.00 00
Two-step results
n Coef. Std. Err. z P>|z| [95% Conf. Interval]
n
L1. .65596 67 . 090028 7. 29 0. 000 .479 515 .83241 84
L2. - .07299 92 .0 270121 -2. 70 0. 007 -.1259 419 -.02005 66
w
--. - .51320 88 .0 537642 -9. 55 0. 000 -.6185 847 -.40783 29
L1. .32896 85 .0 961446 3. 42 0. 001 .1405 285 .51740 85
k
--. .26943 84 .0 438193 6. 15 0. 000 .1835 541 .35532 26
L1. .02164 93 . 050406 0. 43 0. 668 -.0771 447 .12044 32
L2. - .04090 21 .0 258317 -1. 58 0. 113 -.0915 314 .00972 71
ys
--. .59174 29 .1 152412 5. 13 0. 000 .3658 743 .81761 15
L1. -.5720 21 .1 396141 -4. 10 0. 000 -.8456 596 -.29838 25
L2. .11726 42 .1 136713 1. 03 0. 302 -.1055 273 .34005 58
yr1980 .00926 21 .0 107871 0. 86 0. 391 -.0118 802 .03040 44
yr1981 - .03470 86 .0 198697 -1. 75 0. 081 -.0736 524 .00423 52
yr1982 - .04328 07 .0 210895 -2. 05 0. 040 -.0846 155 -.0019 46
yr1983 - .02776 04 .0 214655 -1. 29 0. 196 -.069 832 .01431 12
yr1984 - .03356 13 .0 224111 -1. 50 0. 134 -.0774 862 .01036 36
_cons .49399 61 .4 692208 1. 05 0. 292 -.4256 597 1.4136 52
Warning: gmm two-step standard errors are biased; robust standard

errors are recommended.
Instruments for differenced equation
GMM-type: L(2/.).n
Standard: D.w LD.w D.k LD.k L2D.k D.ys LD.ys L2D.ys D.yr1980 D.yr1981 D.yr1982 D.yr1983 D.yr1984
Instruments for level equation
Standard: _cons
195
Humberto Ortiz Ruiz
xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984, lags(2) twostep
A pesar que Arellano y Bond recomiendan no usar este modelo para hacer inferencia es una
aproximación sobre el Test de Sargan bajo homocedasticidad. Existe evidencia para aceptar la
hipótesis nula de validez de los instrumentos.
196

Manual Stata10

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Manual Stata10

Enviado por

Direitos autorais:

Formatos disponíveis

Stata 10.

Curso de STATA 10.01

1. Introducción al Stata 10.0 ........................................................................................................ 3

5.2.4. Modelos Logit y Probit ........................................................................................... 139

1. Introducción al Stata 10.0

1.1. El entorno de Stata 10.0

El despliegue de Stata presenta cuatro ventanas diferentes:

Stata Graphs presenta el último gráfico realizado.

1.1.1. Menú de comandos

Statistics/Linear Regression and Related/ Linear regression

1.1.2. La barra de herramientas

Sirve para abrir una base de datos de Stata (*.dta)

Imprime los gráficos o el contenido de la ventana Stata Viewer.

Icono que indica la creación de un gráfico o la apertura del editor de gráficos.

Le dice a Stata que continúe la ejecución de un comando que ha sido detenido.

Detiene Stata (equivale a la tecla q).

1.2. Novedades de Stata 10.0

- Modificaciones y rediseño de las ventanas Review, Variables, Viewer y Graph.

- Se incluyen más estimadores para modelos de datos de panel dinámico. Se incluye

1.3. Manejo básico de bases de datos

1.3.1. Memoria y bases de datos

no room to add more observations

set memory 20m

Se puede hacer permanente esta configuración de la siguiente manera:

set memory 20m, permanent

set matsize 800

Se puede hacer este cambio permanente de la siguiente manera:

set matsize 800, permanent

1.3.2. Manejo de directorios

Para crear un nuevo directorio se emplea el comando mkdir:

Para obtener un listado de todos los archivos del directorio en uso:

Para restringir el listado a los datos:

Es posible también copiar los datos de un archivo:

copy auto.dta auto.bak

También es posible borrar archivos:

1.3.3. Guardar una sesión de Stata

log using bitacora

use "C:\cursos\Stata9\Sesion01\auto.dta”, clear

Para parar momentáneamente el registro de la bitácora:

Este comando no será registrado:

Para reanudar el registro de la bitácora:

Este comando si será registrado:

Para detener la bitácora:

Para reanudar una bitácora:

Para sobrescribir una bitácora:

Para ver una bitácora:

cmdlog using C:\cursos\Stata9\Sesion01\comusados

Los archivos log guardan lo que aparece en la ventana de resultados o en la barra de

1.3.4. Abrir y guardar una base de datos.

1.3.4.1. Ingresando datos con el editor

Ejemplo: tenemos la siguiente encuesta:

Ahora cargamos esta información en el editor de stata:

1.3.4.2. Comandos use y save

use “C:\auto.dta”, clear

Una segunda opción es siguiendo la ruta: File\Open

Una tercera opción es mediante la combinación: ctrl + O

Si deseamos información solo de algunas variables podemos usar la opcion:

use “C:\auto.dta” if mpg>15

use “C:\auto.dta” in 1\10

Para trabajar con algunas variables usamos la opción :

use mpg weight price using “C:\auto.dta”

Si queremos modificar, las observaciones tenemos el comando expand me permite incrementar

Notamos que el número de observaciones ahora se ha multiplicado por 10.

Para guardar las modificaciones se utiliza el comando save.