Você está na página 1de 7

REFERNCIA RPIDA PARA TRENAMENTO EM STATA Descrio e anlises de dados em Stata

Este documento pode ser usado como referncia durante e aps o treinamento em Stata, particularmente para os vdeos que tratam de descrio e anlises de dados. Vrios comandos podem ser especificados com abreviaes (por exemplo, tanto tablate quanto tab so apropriados para indicar tabulate), e exemplos sero apresentados para esclarecer alguns comandos. Texto em courier new vermelho refere-se a um comando a ser digitado na janela de comandos do programa Stata. Texto em courier new vermelho itlico refere-se informao a ser digitado que varia com o banco de dados/arquivo do usurio. Na maioria dos casos, opes adicionais podem seguir comandos iniciais para funes e operaes mais especficos/detalhados. Apenas os comandos chaves aparecem neste documento.

I. Descrio de dados I.1. Descrever dados1 Descrever o banco de dados na memria (formato, etiquetas, etc.): describe ou des ou Descrever uma varivel (formato, etiquetas, etc.): describe varivel ou des varivel I.2. Resumir dados Listar mdia, desvio padro, erros, etc. de variveis: su var1 var2 var3, detail de

detail adiciona mediana, outras estatsticas

I.3. Tabela de sentido nico Listar cada valor nico e sua frequncia, porcentagem, e porcentagem cumulativa em formato de tabela: tabulate var1 [in][if][options] ou tab var1 ou tab1 var1 Com expresso condicional: tab var1 if var1==3 & var2!=1 Listar por grupo: bysort grupo: tab var2 ou by grupo sort: tab var2 Exemplo: bysort comunidade: tab renda_total Com dados estadsticos: tabstat var1 , stat(count mean sd p10 p50 p90) ou tabstat var1 if var2==1, stat(count min max sd cv sk) Com somas/mdias de variveis por grupo: table grupo, contents (mean var3 var 4 var7) ou table grupo, contents (sum var3 var 4 var7) Listar a mdia, desvio padro e frequncia de observaces por grupo em var1. tab var1, su(var2)
1

variable = varivel de interesse var# = cada varivel de interesse grupo = varivel categrica
Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa

I.4. Tabela de sentido duplo Tabela bsica: tab2 var1 var2 A primeira varivel ser apresentada em linhas, a segunda em colunas Produzir trs tabelas sentido duplo com cada combinao: tab2 var1 var2 var3 Separar as tabelas em grupos: bysort grupo: tab2 var2 var3 Exemplo: bysort comunidade: tab2 renda_agric renda_floresta I.5. Histogramas Histograma da distribuio de valores de uma varivel: histogram varivel [in][if][options] Exibir a frequncia de cada observao em cada caixa: histogram varivel, frequency Especificar o nmero de caixas (i.e. 15): histogram varivel, bin(15) frequency Exibir as porcentagens dos valores: histogram varivel, percent Exibir a curva normal no mesmo grfico: histogram varivel, normal percent Exemplo: histogram renda_total, normal percent I.6. Grfico caixa e diagrama (box e whisker plot) graph box var1 [in][if][options] Exemplo: graph box escolaridade in 1/100 I.7. Grfico caule e folhas (stem and leaf plot) stem var1 [in][if][options] Exemplo: stem escolaridade if genero==1, lines(5) digits(3)

lines = exibir at # linhas

digits = exibir at # digitos

II. Anlise de dados II.1. Avaliao de sesgo e kurtosis Teste de normalidade Shapiro Wilk: swilk varivel ou by grupo, sort: swilk varivel Teste de sesgo/kurtosis de Stata (parecido com Shapiro Wilk): sktest varivel II.2. Correlao Correlaes entre variveis normalmente distribudas: correlate var1 var2 var3 [in][if][options] ou corr var1 var2 var3 ou corr var1 var2 var3, covariance Todas as correlaes entre cada par de variveis: pwcorr var1 var2 var3 [in][if][options] pwcorr var1 var2 var3 displ, sig obs pwcorr var1 var2 var3 displ, print(.05) star(.01) bon sig obs = mostrar nivel de significncia para cada observao star = mostrar nvel de significncia com estrela bon = correo Bonferroni
Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa

II.3. Teste de Qui-quadrado (Chi^2) tabulate var1 var2, chi2 Exemplo: tabulate genero alfabetizacao, chi2 II.4. Test de igualdade de varincia sdtest varivel, by (grupo) *vlido apenas quando comparando dois grupos Exemplo: sdtest escolaridade, by(comunidade) II.5. Teste T1 Comparar mdia de 1 amostra com um valor (#) especificado ttest var1 = # Exemplo: ttest crescimento = 0 Comparar mdia de 2 amostras (no-pareado ou pareado) ttest var1 = var2 ou ttest var1 = var2, unpaired Exemplo: ttest renda_grupo1 = renda_grupo2, unpaired Comparar mdia de 2 amostras exhibindo p-valor de .05: ttest var1 = var2, level(95) Comparar mdia de 2 grupos (pressuposto de varincia igual ou desigual) ttest var1, by(grupo) o ttest var1, by(grupo) unequal II.6. Teste Mann-Whitney U (Wilcoxon Rank Sum) Comparar 2 amostras que no tem distribuies normais: ranksum var1, by(grupo) Exemplo: ranksum renda_total, by(comunidade)

Pressupostos chaves de teste t: As populaes seguem uma distribuio normal. As amostras so independentes.
Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa

II.7. Regresso Regresso linear: regress vardepend varindep ou reg vardepend varindep1 Exemplo: reg renda_total renda_floresta Regresso computando um estimador de varincia robusto: reg vardepend varindep, vce(robust) Regresso linear realizada para cada grupo: by grupo, sort: reg vardepend varindep Exemplo: by comunidade, sort: renda_total renda_floresta Regresso mltipla com expresso condicional: reg var1 var3 var4 if var2 !="x Exemplo: reg renda_total renda _floresta renda _governo if comunidade != 3 Regresso logistica (mesmas opoes que a regresso): logit var1 var2 var3 [options] Regresso por passos (stepwise) (conservando apenas as variveis preditores estatisticamente significativas ao nvel .05): stepwise, pr(.05): regress var1 var2 var3 var4 var5 [options] Regresso por passos (stepwise) (conservando apenas as variveis preditores estatisticamente significativas ao nvel.05, fixando var1): stepwise, pr(.05) lockterm1: regress var1 var2 var3 var4 var5 [options] Regresso por passos (stepwise) (incluindo as varivies preditores que son significativas ao nvel .10): stepwise, pr(.10): regress var1 var2 var3 var4 (var5 var6 var7) var5 var6 e var7 so incluidas ou excluidas como un conjunto Regresso robusta rreg var1 var2 var3 var4 Regresso quantlica qreg var1 var2 var3 var4 ou bsqreg var1 var2 var3 var4, rep(#)
bsqreg aplica o mtodo bootstrap (data resampling) para estimar erros padro. rep(#) controle o nmero de repeties

II.8. Grficos em regresso: Grfico de disperso de sentido duplo, com linha de tendncia: twoway scatter var1 var2 || lfit var1 var2 Exemplo: twoway scatter renda_total renda_floresta || lfit renda_total renda_floresta Grfico de disperso de sentido duplo, com linha de tendncia cuadrtica: twoway scatter var1 var2 || qfit var1 var2 Exemplo: twoway scatter renda_total renda_floresta || qfit renda_total renda_floresta Grficos de de disperso para cada grupo ou para cada grupo junto com amostra total: scatter var1 var2, by (grupo) ou scatter var1 var2, by (grupo, total) Exemplo: scatter renda_total renda_floresta, by(comunidade)
1

vardepend = varivel dependente (y)

varindep = varivel independente (x)


Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa

II.9. Diagnsticos realizados aps a regresso1 Predizer resduos: predict resid, residuals Predizer resduos conforme distribuio standard ou distribuio students t: predict stdres, rstandard ou predict studres, rstudent Predizer influncia (leverage) de cada observao: predict lev, leverage Sortear resduos padro: sort stdres Tabular resduos padro: tabulate stdres Sumarisar resduos padro: su stdres Avaliar sesgo/kurtosis de resduos: sktest resid Caso normalidade seja violada, se necesita transformar os dados Desenhar quantis de varivel contra quantis da distribuio normal: qnorm resid O mais perto os pontos ficam linha, melhor Exportar grfico qnorm: graph export caminho\graf_normresid.tif, replace Avaliar homoscedasticidade/heteroscedasticidade (teste Cook-Weisburg (1983)): hettest Grfico de influncia-versus-resduos cuadrados (leverage versus squared residuals) lvr2plot Valores extremos com muita influncia aparecem no cuadro norleste Estimao por kernels de uma funo de densidade univariada: kdensity r, normal Grfico de resduos versus fitted: rvfplot Calcular centered or uncentered factores de inflacin de la varincia (FIVs) para los regressores especificados en el modelo de regresin linear: estat vif Este comando tem que seguir a regresso. O vif maior no deve ser >10. Para excluir muliticollinearidade, o vif mdio no deve ser >1 Computar vrias medidas de collinearidade entre vriaveis (i.e. VIF, tolerncia, valores eigen, etc.): collin var1 var2 Se collin funciona, digitar findit collin na janela de comandos e instalar arquivo para poder us-lo.

Valores de standard resduos com valor absoluto > 3.5 ou valores de leverage entre 1/n e 1 podem representar outliers e merecem mais ateno Pressupostos chaves de regresso: A amostra deve representar a populao para realisar uma previso de inference. As variveis independentes devem ser linearmente independentes (falta de multicollinearidade). Os erros no esto correlacionados. A varincia de erro constante across observations (homoscedasticidade).

Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa

Exemplo de uma sequncia potencial de diagnsticos aps a regresso:


predict resid, residuals predict stdres, rstandard predict lev, leverage sort stdres tabulate stdres su stdres sktest resid qnorm resid graph export caminho/graf_normresid.tif, replace estat hettest lvr2plot kdensity r, normal rvfplot vif collin var1 var2

II.10. ANOVA1 Sentido nico:


anova vardepend varindep Exemplo: anova renda_total escolaridade

Sentido nico incluindo tabela com testes de comparao multipla Sidak, Scheffe, e Bonferroni:
anova vardepend varindep, tabulate sidak scheffe bonferroni *qualquer uma ou combinao das trs comparaes pode ser especificada

Sentido nico grande (oferece opes adicionais que oneway no oferece)


loneway vardepend varindep

Sentido duplo:
anova vardepend varindep1 varindep2 Exemplo: anova renda_total educacion comunidade

Sentido duplo com interao:


anova vardepend varindep1 varindep2 varindep1*varindep2 Exemplo: anova renda_total comunidade distancia_estrada comunidad*distancia_estrada

Aninhado (Nested):
anova vardepend varindep2 varindep1 | varindep2 Exemplo: anova renda_total comunidade / municipalidade|comunidade /

Medidas Repetidas (Repeated measures):


anova vardepend varindep1 varindep2, repeated(varindep2) Exemplo: anova resultado indivduo tratamento, repeated (tratamento)

vardepend = varivel dependente varindep = varivel independente Pressupostos chaves de ANOVA: As populaes seguem uma distribuio normal. As amostras so independentes. As distribuies dos resduos so normais. As varincias so iguais (homoscedasticidade). Os grupos tem o mesmo tamanho amostral.
Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa

II.11. Kruskal Wallace (alternativa no-parametrica ao ANOVA) kwallis varivel, by(grupo)

III. Dicas adicionais III.1. Transformaes de dados no-normais: Mostrar distribuio aps transformaes comuns: gladder varivel ou gladder, frequency ou gladder, percent Visualisar chi2 e nivel de significncia de transformaes comuns: ladder varivel III.2. Criar novas variveis baseadas em transformaes comuns: Para normalisar distribuio con sesgo positivo (tipo Poisson), gerar o raz quadrado da varivel: gen sqrt_var1 = sqrt(var1) Para normalisar distribuio con sesgo negativo, gerar o quadrado da varivel: gen var1_sq = (var1)^2 Para normalisar distribuio exponencial, gerar o log ou recproco da varivel: gen log_var1 = log(var1) ou gen recip_var1 = (1/var1) Outras transformaes: (varivel)^3 1/(varivel)^2 1/(varivel)^3

1/sqrt(varivel)

Traduzido e adaptado de ajuda Stata e dataninja.wordpress.com Contribuidores: Ronnie Babigumira, Jamie Cotta e Carolina de Souza Costa