Você está na página 1de 6

UNIVERSIDAD DE CHILE Facultad de economı́a & Negocios

1. Regresiones en STATA

1.1. Descripción general del comando REGRESS

El comando regress de STATA, se descompone de la siguiente forma:

regress depvar [indepvars] [if] [in] [weight] [, options]

Donde

depvar: Representa la variable dependiente.


indepvars: Corresponde a las variables independientes.
if : Representa una regresión condicional, donde la condición debe tener carácter discreto, por
ejemplo:

• regress salario esc edad if sexo==1


• regress salario esc edad if sexo==1 & edad>=15
• regress salario esc edad sexo if region != 12

in: Define la cantidad e información que será utilizada para hacer la regresión. Por ejemplo.

• regress salario esc edad in 1/50


• regress salario esc edad in 25/75

Ambas regresiones se realizan sobre la misma cantidad de datos (50 observaciones), sin embargo,
la primera se realizará con los datos desde la posición 1 a la 50, mientras que la segunda se
realizará con los datos del 25 al 75.

weight: Condiciona los datos a un posible peso relativo o participación a nivel muestral o pobla-
cional. La mayorı́a de los comandos de Stata pueden ocuparse de datos que contengan algún tipo
de peso relativo. Stata permite cuatro clases de pesos:

• fweights: Los fweights indican la frecuencia de los datos replegados. El weight indica cuántas
datos representa cada observación realmente. los fweights permiten que los datos sean almace-
nados más parsimoniosamente. Esta variable contiene números enteros positivos. El resultado
del comando es igual como si duplicaras cada observación, sin embargo, puede utilizar el co-
mando unweighted.
• pweights: Los pweights del muestreo indican lo contrario de la probabilidad de que la ob-
servación fue muestreada. Comandos que permiten pweights proporcionar tı́picamente una
opción del cluster(). Éstos se pueden combinar para producir estimaciones para cluster mues-
trales no estratificados. Por lo tanto, se debe preocupar por las aplicaciones de la estratifi-
cación.
• aweights: o distribución analı́tica, son los pesos son inversamente proporcional a la varainza
de las observaciones, es decir, la varianza de las observación j ésima se asume como σ 2 /wj ,
donde wj es el peso de esta obsrvación. Tipicamente los pormedios de las observaciones
poseen cierta cantidad, la cual corresponde al peso de la observación. Para la mayorı́a de
los comandos en STATA, la escala registrada de aweights es inaplicable, por lo que se hace
necesario muchas veces reescalar en función del número de datos.

1
UNIVERSIDAD DE CHILE Facultad de economı́a & Negocios

• iweights: o la importancia del peso de la observación, es los pesos que indican la importancia
de la observación posee un cierto sentido vago. Los iweights no tienen ninguna definición es-
tadı́stica formal; cualquier comando que apoye iweights definirá exactamente cómo se tratan.
En la mayorı́a de los casos, se piensan para uso de los programadores que desean producir
cierto tipo de cómputo.

options: Las opciones que pueden ser utilizadas en tres categorias, que son condiciones sobre el
modelo, sobre la robustez y sobre algunos reportes menores.

1. Modelo.
• noconst: Suprime la contante del modelo, por lo tanto, los etimadores obtenidos son sin
considerar la constante.
• hascons: Indica una constante definida por el usario o su equivalente está especificado
entre las variables independientes en varlist. Se recomienda cierta precaución cuando
se especifica esta opción, ya que las estimaciones resultantes puede no ser tan exactas
como puede resultar de otra manera. El uso de esta opción requiere considerar al final
la constante, ası́ que la matriz de momentos se debe acumular en valor absoluto, ya que
conformará la forma de las desviaciones. Esta opción se puede especificar con seguridad
cuando las medias de la variable dependiente y de la independiente son todas razonables
y no hay cantidades grandes de colinealidad entre las variables independientes. El mejor
procedimiento es ver hascons como opción de estimación con y sin hascons y verifica que
los coeficientes y los errores estándar de las variables no vean afectados por este cambio
de condiciones.
• tsscons: Fuerza a la suma total de cuadrados para ser calculada como si el modelo
tuviera una constante, es decir, como el promedio de las desviaciones de la variable
dependiente. Ésta es una opción raramente usada que tiene un efecto solamente cuando
está especificado el modelo con noconstant.
2. Robustez
• robust, cluster(varname): determina opciones de estimación. cluster() puede ser usado
con el comando pweights para obtener estimaciones para datos agrupados muestrales no
estratificados, pero utilice svy: regress, el cual es un comando especialmente diseñado par
el manejo de los datos.
• mse1: Este comando se utiliza solamente en la programación de STATA y su emplea en
otros modelos que utilizar an regrsiones lineales. mse1 fija el error cuadrático medio a
1, forzando la matriz de varainza−covarianza de los estimadores para ser (X 0 DX)−1 y
afectar los errores estándar calculados. Los grados de libertad para la estimación de t se
calculacon como n en vez de n − k.
• hc2 ó hc3: Especifican una corrección diagonal alterna para el cálculo de la robustez de
la varianza. hc2 y hc3 no pueden ser especificadas con cluster(). En el caso de no exitir un
n
cluster(), σj2 = n−k ε̂2j como estimación de la varianza de la j ésima observación, donde ε̂j
n
es el error estimado y n−k se incluye para mejorar la estimación en muestras pequeñas.
2
hc2 utiliza ε̂j /(1 − hjj ) como la estimación de la variación de la observación j ésima,
donde h − jj es el elemento j ésimo de la diagonal de la matriz de proyecciones. Esto es
insesgado si el modelo realmente es homocedastico. hc2 tiende a producir intervalos de
confianza sutilmente más conservadores.
hc3 utiliza ε̂2j /(1−hjj )2 según lo sugerido por Davidson y MacKinnon, quienes indican que
éste tiende a producir mejores resultados cuando el modelo realmente es heterocedastico.
hc3 produce intervalos de confianza que tienden a ser aún más conservadores.
Da lo mismo si se escribe hc2 robust o solamente se escribe hc2. Ocurre lo mismo con
hc3.
• vce(vcetype): Estimadores alternativos de varianza.

2
UNIVERSIDAD DE CHILE Facultad de economı́a & Negocios

◦ vce(omi): Corresponde al vcetype por defecto (no especificado). El omi se funda-


menta en la matriz de informción de las observaciones, que es el inverso negativos de
la segunda deridava de los parámetros esperado.
◦ vce(robust): Es lo mismo que utilizar robust.
◦ vce(opg): Utiliza la suma del producto cruz de los vectores del gradiente.
◦ vce(bootstrap): Utiliza un bootstrap no paramétrico. Una ve utilizado este proced-
imiento se debe (post-estimación) obtener la base de percentiles o los intervalos de
confianza con el sesgo corregido.
◦ vce(jackknife): Utiliza estimaciones robustas de la varianza según el método definido
por Jackknife
3. Reportes.
• level(#): Nivel de confianza a considerar en la regresión, por defecto se utiliza el 95 %
de confianza.
• beta: Reporta los valores de estimación de los parámetros estandarizados.
• eform(string): Se utiliza en la programación de STATA (archivo .ado), el cual se utiliza
para especificar una forma exponencial del modelo.
• noheader: Suprime la exhibición de la tabla de ANOVA y de la estadı́stica sumaria en
la tapa de la salida; solamente el coeficiente se exhibe la tabla. Esta opción es de uso
frecuente en programas (archivo .ado).
• plus: Especifica que la tabla la salida esté hecha en forma extensible. Esta opción es de
uso frecuente en programas de STATA.
• depname(varname): Sólo se utiliza en programación en STATA.

1.2. Regrersión Condicional

Es muy frecuente querer hacer una regresión en forma condicional, por ejemplo determinar una regresión
para cada grupo socio económico, si fuera el caso, entonces, se deberı́a ordenar la variable grupo socio
economico (sort gse) y ejecutar la siguiente combinación de comandos.

sort gse
by gse: regress salario esc sexo

Pero si queremos realizar una regresión a un grupo especifico, como por ejemplo: sólo a las mujeres
mayores de 35 años o; sólo a los hombres menores de 30 o mayores de 45 años, deberı́amos escribir la
siguiente combinación de sentencias.

regress salario esc if sexo==2 & edad>35


regress salario esc if sexo==1 & (edad<30 | edad>45)

Tengase presente que la correr la regresi[on es no indicara con claridad a cual correspondı́a, por ello
es su deber mantener un cierto nivel de orden para recordar cada una las regresiones que se desea ejecutar.

1.3. Resultados post Estimación


Después que se ha hecho una estimación, es posible extraer un poco más información con respecto a
preguntas especificas sobre el modelo.

3
UNIVERSIDAD DE CHILE Facultad de economı́a & Negocios

1. test T, sobre los betas.

Supongamos que realizamos el siguiente conjunto de comandos sobre la base de datos Base Ayudantia2.dta

regress yhetero calif sexo


test calif = sexo
test calif + sexo = 1

De lo cual obtendremos los siguientes resultados.

Figura 1: Resultados para el test T

2. Test de heterocedasticidad.

La hipótesis nula en esta caso es que los errores son homocedastico. Por lo que se realiza de la
siguiente forma

regress yhetero calif sexo


estat hettest

Con lo cual se obtiene el siguiente resultado

4
UNIVERSIDAD DE CHILE Facultad de economı́a & Negocios

Figura 2: Resultados para el test de heterocedasticidad

3. Otros elementos post estimación.

Realicemos los siguientes comandos en STATA

regress yhetero calif sexo


estat ic
estat sumarize
estat ve

Los resultados corresponden a:

5
UNIVERSIDAD DE CHILE Facultad de economı́a & Negocios

Figura 3: Información post estimación

Você também pode gostar