Você está na página 1de 7

REFERENCIA RPIDA PARA INSTRUCCIN EN STATA Descripcin y anlisis de datos en Stata

Este documento se puede usar como referencia durante y despus del entrenamiento en Stata, particularmente para los vdeos sobre descripcin y anlisis de datos. Se presentarn algunos ejemplos para esclarecer ciertos comandos. Varios comandos pueden ser especificados con abreviaciones (por ejemplo, tanto tabulate como tab son apropiados para indicar tabulate), presentndose a continuacin varios ejemplos. El texto en courier new rojo se refiere a un comando a ser digitado en la ventana de comandos del programa Stata. El texto en courier new rojo itlico se refiere a informacin a ser digitada que vara con el banco de datos/archivo del usuario. En la mayora de los casos, hay opciones adicionales que pueden seguir comandos iniciales para funciones y operaciones ms especficas/detalladas. Slo algunos ejemplos de lneas de comandos aparecen en este documento. I. Descripcin de datos I.1. Describir datos1 Describir el banco datos en la memoria (formato, leyendas, etc.): describe o des o Describir una variable (formato, leyendas, etc.): describe variable o des variable de

I.2. Resumir datos Reportar promedio, desviacin estndar, errores, etc., de variables: su var1 var2 var3, detail

detail adiciona otras estadsticas

I.3. Tabla de sentido nico Reportar cada valor nico y su frecuencia, porcentaje, y porcentaje acumulado en formato de tabla: tabulate var1 [in][if][options] o tab var1 o tab1 var1 Con expresin condicional: tab var1 if var1==3 & var2!=1 Reportar por grupo: bysort grupo: tab var2 o by grupo sort: tab var2 Ejemplo: bysort comunidad: tab ingresos Con datos estadsticos: tabstat var1 , stat(count mean sd p10 p50 p90) o tabstat var1 if var2==1, stat(count min max sd cv sk) Con sumas/promedios de variables por grupo: table grupo, contents (mean var3 var4 var7) o table grupo, contents (sum var3 var4 var7) Reportar el promedio, desviacin estndar y frecuencia de las observaciones por grupo en var1. tab var1, su(var2)
1

variable = variable de inters var# = cada variable de inters grupo = variable categrica
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

I.4. Tabla de sentido doble Tabla bsica: tab2 var1 var2 La primera variable ser presentada en lneas, la segunda en columnas Producir tres tablas de sentido doble con cada combinacin: tab2 var1 var2 var3 Separar las tablas en grupos: bysort grupo: tab2 var2 var3 Ejemplo: bysort comunidad: tab2 ingresos_agric ingresos_bosque I.5. Histogramas Histograma de la distribucin de valores de una variable: histogram variable [in][if][options] Exhibir la frecuencia de cada observacin en cada columna: histogram variable, frequency Especificar nmero de columnas (i.e. 15): histogram variable, bin(15) frequency Exhibir las porcentajes de los valores: histogram variable, percent Exhibir la curva normal en el mismo grfico: histogram variable, normal percent Ejemplo: histogram ingresos, normal percent I.6. Diagrama de caja y bigotes (Box and whisker plot) graph box var1 [in][if][options] Ejemplo: graph box educacion in 1/100 I.7. Diagrama de tallo y hojas (Stem and leaf plot) stem var1 [in][if][options] Ejemplo: stem educacion if genero==1, lines(5) digits(3)

lines = exhibir hasta # lneas

digits = exhibir hasta # dgitos

II. Anlisis de datos II.1. Evaluacin de sesgo y curtosis Prueba de normalidad Shapiro Wilk: swilk variable o by grupo, sort: swilk var1 Prueba de sesgo/curtosis de Stata (parecido con prueba Shapiro Wilk): sktest variable II.2. Correlacin Correlaciones entre variables normalmente distribuidas: correlate var1 var2 var3 [in][if][options] o corr var1 var2 var3 o corr var1 var2 var3, covariance Todas las correlaciones entre cada par de variables: pwcorr var1 var2 var3 [in][if][options] pwcorr var1 var2 var3 displ, sig obs pwcorr var1 var2 var3 displ, print(.05) star(.01) bon sig obs = mostrar nivel de significancia para cada observacin star = exhibir nivel de significancia con una estrella bon = correccin Bonferroni
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.3. Prueba de Chi^2 tabulate var1 var2, chi2 Ejemplo: tabulate genero alfabetizacion, chi2 II.4. Prueba de igualdad de varianza sdtest variable, by (grupo) *vlido slo cuando se comparan dos grupos Ejemplo: sdtest educacion, by(comunidad) II.5. Prueba T1 Comparar promedio de 1 muestra con un valor (#) especificado ttest var1 = # Ejemplo: ttest crecimiento = 0 Comparar promedio de 2 muestras (no-pareado o pareado) ttest var1 = var2 o ttest var1 = var2, unpaired Ejemplo: ttest ingresos_grupo1 = ingresos_grupo2, unpaired Comparar promedio de 2 muestras exhibiendo p-valor de .05: ttest var1 = var2, level(95) Comparar promedio de 2 grupos (presupuesto de varianza igual o desigual) ttest var1, by(grupo) o ttest var1, by(grupo) unequal II.6. Prueba de Mann-Whitney U (Wilcoxon Rank Sum) Comparar 2 muestras que no tienen distribuciones normales: ranksum var1, by(grupo) Ejemplo: ranksum ingresos, by(comunidad)

Presupuestos claves de la Prueba t: Las poblaciones siguen una distribucin normal. Las muestras son independientes.
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.7. Regresin Regresin lineal: regress vardepend varindep o reg vardepend varindep1 Ejemplo: reg ingreso_total ingreso_bosque Regresin computando un estimador de varianza robusto: reg vardepend varindep, vce(robust) Regresin lineal realizada para cada grupo: by grupo, sort: reg vardepend varindep Ejemplo: by comunidad, sort: ingreso_total ingreso_bosque Regresin mltiple con expresin condicional: reg var1 var3 var4 if var2 !="x Ejemplo: reg ingreso_total ingreso_bosque ingreso_gobierno if comunidad != 3 Regresin logstica (mismas opciones que para la regresin): logit var1 var2 var3 [options] Regresin por pasos conservando slo las variables predictoras estadsticamente significativas al nivel .05): stepwise, pr(.05): regress var1 var2 var3 var4 var5 [options] Regresin por pasos (conservando slo las variables predictoras estadsticamente significativas al nivel .05, fijando var1): stepwise, pr(.05) lockterm1: regress var1 var2 var3 var4 var5 [options] Regresin por pasos (incluyendo variables predictoras que son significativas al nivel .10): stepwise, pr(.10): regress var1 var2 var3 var4 (var5 var6 var7) var5 var6 y var7 son incluidas o excluidas como un conjunto Regresin robusta rreg var1 var2 var3 var4 Regresin cuantlica qreg var1 var2 var3 var4 o bsqreg var1 var2 var3 var4, rep(#)
bsqreg aplica el mtodo bootstrap (data resampling) para estimar errores estndar. rep(#) controle el nmero de repeticiones

II.8. Grficos en regresin: Grfico de dispersin de sentido doble, con prediccin linear: twoway scatter var1 var2 || lfit var1 var2 Ejemplo: twoway scatter ingreso_total ingreso_bosque || lfit ingreso_total ingreso_bosque Grfico de dispersin de sentido doble, con prediccin cuadrtica: twoway scatter var1 var2 || qfit var1 var2 Ejemplo: twoway scatter ingreso_total ingreso_bosque || qfit ingreso_total ingreso_bosque Grficos de dispersin para cada grupo o para cada grupo junto con muestra total: scatter var1 var2, by (grupo) o scatter var1 var2, by (grupo, total) Ejemplo: scatter ingresototal ingresobosque, by(comunidad, total)
1

vardepend = variable dependiente (y)

varindep = variable independiente (x)


Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.9. Diagnsticos realizados a continuacin de la regresin1 Predecir residuos: predict resid, residuals Predecir residuos conforme distribucin estndar o distribucin students t: predict stdres, rstandard o predict studres, rstudent Predecir influencia (leverage) de cada observacin: predict lev, leverage Ordenar residuos estndar: sort stdres Tabular residuos estndar: tabulate stdres Resumir residuos estndar: su stdres Evaluar sesgo/curtosis de residuos: sktest resid En caso de no cumplirse el criterio de normalidad, hay que transformar los datos Exhibir cuantiles de variable contra cuantiles de la distribucin normal: qnorm resid Mientras ms cercanos los puntos a la lnea, mejor Exportar grfico qnorm: graph export caminho\graf_normresid.tif, replace Evaluar homocedasticidad/heterocedasticidad (test Cook-Weisburg (1983)): hettest Grfico de influencia-versus-residuos al cuadrado (leverage versus squared residuals) lvr2plot Valores extremos con mucha influencia aparecen en el cuadro noreste Estimacin por estimadores tipo ncleo (kernels) de una funcin de densidad univariada: kdensity r, normal Grfico de resduos versus fitted: rvfplot Calcular factores centrados o descentrados de inflacin de la varianza (FIVs) para los regresores especificados en el modelo de regresin linear: estat vif Este comando tiene que seguir la regresin. El FIV mayor no debera ser >10. Para excluir muliticolinearidad, el FIV promedio no deberia ser >1 Computar varas medidas de colinearidad entre variables (i.e. VIF, tolerancia, valores eigen, etc.) : collin var1 var2 Si collin no funciona, escriba findit collin en la ventana de comandos y instalar el archivo para usarlo.

Valores de standard residuals con valor absoluto > 3.5 o valores de leverage entre 1/n y 1 pueden representar valores atpicos y merecen ms atencin Presupuestos claves de regresin: La muestra debe representar la poblacin para realizar una previsin de inferencia. Las variables independientes deben ser linealmente independientes (ausencia de multicolinearidad). Los errores no estn correlacionados. La varianza de error es constante para todas las observaciones (homocedasticidad).

Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

Ejemplo de secuencia potencial de diagnsticos a continuacin de la regresin:


predict resid, residuals predict stdres, rstandard predict lev, leverage sort stdres tabulate stdres su stdres sktest resid qnorm resid graph export camino/graf_normresid.tif, replace estat hettest lvr2plot kdensity r, normal rvfplot vif collin var1 var2

II.10. ANOVA1 Sentido nico:


anova vardepend varindep Ejemplo: anova ingresos educacion

One-way incluyendo tabla con pruebas de comparacin mltipleSidak, Scheffe, y Bonferroni :


anova vardepend varindep, tabulate sidak scheffe bonferroni *cualquier comparacin o combinacin de las tres puede ser especificada

Sentido nico grande (ofrece opciones adicionales que oneway no ofrece)


loneway vardepend varindep

Sentido doble:
anova vardepend varindep1 varindep2 Ejemplo: anova ingresos educacion comunidad

Sentido doble con interaccin:


anova vardepend varindep1 varindep2 varindep1*varindep2 Ejemplo: anova ingresos comunidad distancia_estrada comunidad*distancia_estrada

Anidado (Nested):
anova vardepend varindep2 / varindep1|varindep2 / Ejemplo: anova ingresos comunidad / municipalidad|comunidad /

Medidas Repetidas (Repeated measures): anova vardepend varindep1 varindep2, repeated(varindep2) Ejemplo: anova resultado individuo tratamiento, repeated(tratamiento)

vardepend=variable dependiente (y) varindep=variable independiente (x) Presupuestos claves de ANOVA: Las poblaciones siguen una distribucin normal. Las muestras son independientes. Las distribuciones de los residuos son normales. Las varianzas son iguales (homocedasticidad). Los grupos tienen el mismo tamao de la muestra.
Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

II.11. Kruskal Wallace (alternativa no-parametrica al ANOVA) kwallis variable, by(grupo)

III. Consejos adicionales III.1. Transformaciones de datos no-normales: Mostrar la distribucin que resulta despus de transformaciones comunes: gladder var1 o gladder, frequency o gladder, percent Visualizar Chi2 y nivel de significancia de transformaciones comunes: ladder variable III.2. Creacin de nuevas variables basado en transformaciones comunes: Para normalizar distribucin con sesgo positivo (tipo Poisson), generar la raz cuadrada de la variable: gen sqrt_var1 = sqrt(var1) Para normalizar distribucin con sesgo negativo, generar el cuadrado de la variable: gen var1_sq = (var1)^2 Para normalizar distribucin exponencial, generar el log o recproco de la variable: gen log_var1 = log(var1) o gen recip_var = (1/var1) Otras transformaciones: (variable)^3 1/(variable)^2 1/(variable)^3 1/sqrt(variable)

Traducido y adaptado de ayuda de Stata y dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta, Carolina de Souza Costa y Pablo Prado

Você também pode gostar