Escolar Documentos
Profissional Documentos
Cultura Documentos
Stata Apostila PDF
Stata Apostila PDF
Stata - Bsico
Os autores.
Pgina
2- Manipulao de dados 16
2.1 - Expresses
2.2 - Observaes ndice e conjunto de valores
2.3 - Gerando variveis
2.4 - Mudando a forma de apresentao dos dados
2.5 - Unir bancos de dados
3- Descrio de dados 24
3.1 - Grficos
3.2 - Tabelas e resumo dos dados
5- Anlise de sobrevida 39
5.1 - Apresentao dos dados
5.2 - Curvas Kaplan-Meier
5.3 - Modelo de Cox
6- Comandos gerais 43
6.1 - Stata como calculadora
6.2 - Breve introduo a arquivo *.do
7- Exerccio 1 50
8- Exerccio 2 55
9- Bibliografia 58
Cada comando est associado a um arquivo-help que pode ser acessado durante a
utilizao do programa.
Informaes sobre o Stata, bem como atualizaes, realizao de cursos via Inter-
net e lista das dvidas mais freqentes podem ser obtidas no site:
http://www.stata.com.
Quando o programa aberto, abre-se uma tela contendo janelas menores, com ca-
bealhos.
Review
Results
Variables Commands
Logo que for iniciado o trabalho no Stata, aconselhvel abrir um arquivo log, que
armazenar todos os comandos e seus resultados (com exceo de grficos).
Pode-se utilizar o Transfer ou outro pacote que realize converso de bancos de da-
dos.
Abrir modo de edio clicando sobre o cone Data editor (10 cone do menu com
desenho de uma planilha) e digitar os dados dos demais registros. Usar Tab para
entrada horizontal e Enter para entrada vertical. Para digitar letras no data editor
no mais necessrio utilizar aspas. Quando terminar, pressionar Preserve segui-
do de Close no menu do Stata editor (ou pressionar a cruz do lado direito da tela).
Preserve Fechar
H dois tipos de variveis no Stata: string (caracteres, letras) e numrica. Estas va-
riveis so armazenadas de formas diferentes que requerem tamanhos diferentes
nos registros de memria: byte, int, long e float para variveis numricas e str1 at
str80 para variveis string de tamanhos diferentes. Alm disto, cada varivel pode
ter um nome associado a ela (rtulo, label) e tem um formato de apresentao
Variveis numricas
O cdigo de valores missing (.) pode ser convertido em valores, como -99:
mvencode x, mv(-99)
mvencode _all, mv(-99)
Ex:
label define s 1 "masculino" 2 "feminino"
label values sexo s
tab sexo
tab sexo, nolabel
STATA Bsico HEP/FSP/USP, VI Programa de Vero/2004 13
OBS: Quando o label for igual para vrias variveis possvel direcionar um nico
label para todas estas.
Recodificao de variveis:
recode marital 1 2 =2 4=3 ou
recode marital 1/2=2 4=3
Ex:
recode sexo 1=0 2=1
Variveis string
Variveis data
O Stata l variveis data como tempo decorrido (elapsed dates) ou %d, que o
nmero de dias contados a partir de 01 de janeiro de 1960. Assim,
0 corresponde a 01jan1960
1 corresponde a 02jan1960
. .
. .
. .
15000 corresponde a 25jan2001
Variveis datas devem ser definidas como variveis string e depois convertidas
para %d.
datanasc
12/04/1955
14/03/1960
15/07/1954
12/06/1969
5/10/1970
20/03/1967
21/09/1971
31/03/1958
25/08/1972
26/01/1970"
end
gen dianiver=date(datanasc,"dmy")
list datanasc dianiver
desc
format dianiver %d
list datanasc dianiver
gen idade=(date("28/01/2004", "dmy")-dianiver)/365.25
list datanasc dianiver idade
2.1 - Expresses
Existem expresses lgicas, string e algbricas, no Stata.
Expresses lgicas atribuem 1 (verdadeiro) ou 0 (falso) e utiliza os operadores:
Operador Significado
< menor que
<= menor ou igual a
> maior que
>= maior ou igual a
== igual a
~= != diferente de
~ no
& e
| ou
Cada observao est associada a um ndice. Por exemplo, o terceiro valor da vari-
vel x pode ser especificado como x[3]. O macro _n assume um valor para cada
observao e _N igual ao nmero total de observaes. Pode-se referir penlti-
ma observao da varivel x escrevendo-se x[_N-1].
Uma varivel indexada deve ficar do lado direito de uma assero. Por exemplo,
para substituir a terceira observao da varivel x pelo valor 2 escreve-se:
replace droga=2 if _n==3
egen famsal=mean(salario),by(familia)
Cria uma nova varivel e calcula a mdia da varivel salario para o conjunto
de valores iguais de familia.
mean trabalha na coluna da varivel.
Uma varivel existente pode ser retirada do banco de dados com o comando drop.
drop salario
Pode-se utilizar, tambm, o comando keep varlist, onde varlist a lista de vari-
veis que devem permanecer no banco de dados.
Supor a situao na qual, para um mesmo indivduo, so obtidas duas ou mais in-
formaes, apresentadas no banco de dados c:\cursosta\calorias.dta.
A forma de apresentao dos dados pode ser mudada para o formato long, utili-
zando o comando
reshape long cal, i(id) j(consulta)
list
id consulta cal sexo
1. 1 1 2300 1
2. 1 2 2500 1
3. 2 1 2400 1
4. 2 2 3200 1
5. 3 1 2400 1
6. 3 2 3600 1
7. 4 1 3200 2
8. 4 2 3500 2
9. 5 1 3000 2
10. 5 2 3200 2
11. 6 1 3000 2
12. 6 2 3500 2
. . . . .
. . . . .
39. 20 1 2980 2
40. 20 2 2851 2
Objetivo 2: unir lado a lado dois bancos de dados que contenham infor-
maes correspondentes mesma unidade de observao (indivduo,
famlia, animal, etc...). necessrio que os bancos tenham uma varivel de
identificao (com a mesma sintaxe) e que esteja ordenado por esta varivel.
3.1 - Grficos
A sintaxe bsica para a elaborao de grficos :
graph varlist, options
Em options deve-se especificar o tipo de grfico desejado.
Boxplot
graph idade, box
Produz um boxplot da varivel idade
Diagrama de disperso
graph idade pesoin, xlabel ylabel t1(diagrama de disperso)
Fornece um diagrama de disperso de idade e pesoin
As opes xlabel e ylabel fazem com que os eixos X e Y sejam rotulados utilizan-
do valores redondos das varaveis idade e pesoin (sem estas opes sero apresen-
tados somente os valores mnimo e mximo).
Histograma
graph idade
Desenha um histograma da varivel idade.
graph idade, bin(10)
Desenha um histograma da varivel idade em 10 intervalos de classe. O
nmero de intervalos pode variar, de acordo com os dados.
graph idade, bin(10) norm
Desenha um histograma da varivel idade com 10 intervalos de classe e so-
brepe uma curva normal com a mdia e o desvio padro observados.
graph idade, bin(10) xlabel (20, 25, 30, 35, 40, 45, 50, 55, 60, 65,
70, 75) ylabel t1(distribuio da idade) freq
Desenha um histograma da varivel x com 10 intervalos de classe, apresenta
os rtulos dos eixos, o ttulo (no topo do grfico) e no eixo y, o nmero de indiv-
duos ao invs do percentual.
Pizza
graph droga1 droga2 droga3 droga4, pie
A varivel droga j deve estar j categorizada em grupos.
Para mudar as caractersticas dos grficos, com o mouse selecionar Prefs na barra
de menu e em seguida Graph Preferences.
Para levar um grfico para o Word, com o mouse selecionar Edit na barra de menu
e em seguida Copy Graph. No Word, colar o grfico.
Os dados que sero utilizados nesta sesso constituem uma amostra de 118 pacien-
tes psiquitricos, do sexo feminino e esto disponveis em D.J. Hand et al. A
Handbook of Small Data Sets. Chapman &Hall, London, 1994. As variveis es-
tudadas foram:
age: idade em anos
iq: escore de inteligncia (-99 = ignorado)
anxiety: ansiedade (1=nenhuma, 2=leve, 3=moderada, 4=severa)
depress: depresso (1=nenhuma, 2=leve, 3=moderada, 4=severa)
sleep: voc pode dormir normalmente? (1=sim, 2=no)
sex: voc perdeu interesse em sexo? (1=no, 2=sim)
life: voc tem pensado recentemente em acabar com sua vida? (1=no, 2=sim)
weight: mudana no peso durante os ltimos 6 meses (em libras)
* -99 igual valor faltante.
Objetivo Comandos
Abrir o banco de dados use c:\cursosta\fem.dta
criar rtulo para a varivel life label variable life voce pesnsou em termi-
nar sua life recentemente?
fazer o grfico qq-plot para verificar qnorm weight, gap(5) xlab ylab t1(qq plot
normalidade da distribuio da vari- para normalidade)
vel weight
onde,
gap(5) usado para diminuir o espao entre
o eixo vertical e o ttulo do eixo
Comparao de mdias:
Para comparar as variveis quantitativas entre grupos pode-se utilizar o teste t de
"Student" que assume que as observaes nos dois grupos so independentes; as
amostras foram retiradas de populaes com distribuio normal, com mesma vari-
ncia. Um teste alternativo, no paramtrico, que no necessita destas pressuposi-
es, o teste U de Man-Whitney. Para mais de dois grupos independentes, utiliza-
se a analise de varincia (ANOVA) oneway; a anlise correspondente na estatstica
no paramtrica o teste de Kruskal-Wallis.
Coeficiente de correlao:
possvel calcular correlaes entre variveis contnuas. Se se quiser testar se o
coeficiente de correlao de Pearson estatisticamente diferente de zero, o Stata
apresenta um teste que pressupe que as variveis so normais bivariadas. Se esta
pressuposio no for feita, pode-se utilizar a correlao de postos de Spearman.
Se as variveis forem categricas possvel utilizar a estatstica de Kendall como
medida de associao.
Intervalo de 95% de confiana para uma dada amostra, mdia e desvio padro
cii 100 2 2.5
Amostra=100; Mdia observada=2; Desvio padro populacional=2,5
bitest life=0.5
ou
bitesti 117 65 0.5
Teste qui-quadrado
tab life depress, col row chi2
Calcular a correlao
corr weight iq age
ou
pwcorr weight iq age,sig
Nesta sesso ser utilizado o banco de dados originrio de um ensaio clnico onde
pacientes com cncer de pulmo foram alocados aleatoriamente para receber dois
tipos diferentes de quimioterapia (terapia seqencial e alternada). A varivel res-
posta foi classificada em 4 categorias: doena progressiva, sem mudana, remisso
parcial e remisso completa. Os dados foram publicados por Holtbrugge e Schu-
macher (1991). A anlise principal ser avaliar as duas terapias.
use c:\cursosta\tumor.dta
browse
gen resultado=resposta
--------------------------------------------------------------------------
terapia | cases controls odds [95% Conf. Interval]
------------+-------------------------------------------------------------
seq | 89 62 1.43548 1.03798 1.98521
alt | 104 44 2.36364 1.66150 3.36249
--------------------------------------------------------------------------
Test of homogeneity (equal odds): chi2(1) = 4.18
Pr>chi2 = 0.0409
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
1.646578 4.18 0.0409 1.015699 2.669314
----------------------------------------------------------------
Proportion
| Exposed Unexposed | Total Exposed
-----------------+------------------------+----------------------
Cases | 104 89 | 193 0.5389
Controls | 44 62 | 106 0.4151
-----------------+------------------------+----------------------
Total | 148 151 | 299 0.4950
| |
| Point estimate | [95% Conf. Interval]
|------------------------+----------------------
Odds ratio | 1.646578 | .9925137 2.737841 (exact)
Attr. frac. ex. | .3926799 | -.0075428 .6347487 (exact)
Attr. frac. pop | .2115995 |
+-----------------------------------------------
chi2(1) = 4.19 Pr>chi2 = 0.0406
------------------------------------------------------------------------------
resultado | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
terapia | .4986993 .2443508 2.04 0.041 .0197805 .977618
_cons | .361502 .1654236 2.19 0.029 .0372777 .6857263
------------------------------------------------------------------------------
------------------------------------------------------------------------------
resultado | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
terapia | 1.646578 .4023427 2.04 0.041 1.019977 2.658117
------------------------------------------------------------------------------
------------------------------------------------------------------------------
resultado | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
terapia | 1.652355 .4059667 2.04 0.041 1.020873 2.674452
sexo | 1.923819 .7146486 1.76 0.078 .928892 3.984405
------------------------------------------------------------------------------
------------------------------------------------------------------------------
weight | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
depress | .102739 .4396238 0.23 0.816 -.769462 .9749401
_cons | 1.295717 .8878258 1.46 0.148 -.4657039 3.057138
------------------------------------------------------------------------------
------------------------------------------------------------------------------
weight | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
depress2 | -.5209678 .6612327 -0.79 0.433 -1.832997 .7910612
depress3 | .38125 .8877096 0.43 0.669 -1.380158 2.142658
_cons | 1.75 .5614368 3.12 0.002 .6359875 2.864012
------------------------------------------------------------------------------
------------------------------------------------------------------------------
weight | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | .233029 .0497642 4.68 0.000 .1343559 .3317022
_cons | -7.158987 1.882679 -3.80 0.000 -10.89199 -3.425981
------------------------------------------------------------------------------
predict weight2
Cria uma nova varivel que o valor do incremento de peso ajustado pela idade.
8.3
weight
-4.9
29 46
age
-----------------------------------------------------------------------------
238 total obs.
0 exclusions
-----------------------------------------------------------------------------
238 obs. remaining, representing
150 failures in single record/single failure data
95812 total analysis time at risk, at risk from t = 0
earliest observed entry t = 0
last observed exit t = 1076
stsum, by(clinic)
failure _d: status
analysis time _t: time
.8
CLNICA 2
.6
.5
.4
.2
Realizando o teste para igualdade das funes de sobrevida:
CLNICA 1
0
0 200 400 600 800 1000 1200
dias em tratamento
| Events
clinic | observed expected
-------+-------------------------
1 | 122 90.91
2 | 28 59.09
-------+-------------------------
Total | 150 150.00
chi2(1) = 27.89
Pr>chi2 = 0.000
stcox clinic
failure _d: status
analysis time _t: time
----------------------------------------------------------------------------------------
_t |
_d | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+--------------------------------------------------------------------------
clinic | .3416238 .0726424 -5.05 0.000 .2251904 .5182585
-----------------------------------------------------------------------------------------
------------------------------------------------------------------------------
_t |
_d | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
dose | .9654655 .0062418 -5.436 0.000 .953309 .977777
prison | 1.475192 .2491827 2.302 0.021 1.059418 2.054138
------------------------------------------------------------------------------
Stratified by clinic
-1.38907
1.94591 6.98101
ln(analysis time)
0.75
0.50
0.25
0.00
2 1076
analysis time
1- iniciar o Stata
2- abrir um arquivo exerc1.log no sub-diretrio c:\cursosta
3- abrir banco de dados existente em C:\cursosta\fem2.dta
4- estudar as variveis existentes utilizando o comando describe
5- alterar o banco de dados utilizando o Editor
paciente 2 age =43 anxiety =3
paciente 10 sleep=1 life= 1
quando terminar, salve as alteraes (utilizando a opo preserve) e volte para a
janela de comandos.
6- listar age
7- renomear o nome da varivel depress para depressao
8- formatar a varivel weight para 2 casas aps a virgula
9- salvar o banco de dados como c:\cursosta\femcorr.dta (utilizando a opo Sa-
ve As do menu)
10- fechar o arquivo de dados utilizando o comando clear
11- verificar se o arquivo .log continua aberto, utilizando o quarto cone (perga-
minho) e visualizando-o.
12-fechar (suspender definitivamente) o arquivo .log
13-abrir arquivo de dados c:\cursosta\breast.dta
14- abrir arquivo exerc1.log como continuao (append) do arquivo
15- visualizar variveis do banco utilizando o comando describe
16- listar os dados utilizando o comando list
17- fechar o arquivo de dados utilizando o comando clear
18- fechar o arquivo exerc1.log
19- abrir arquivo c:\cursosta\rim.dta
20- abrir um arquivo .log (rim.log)
21- substituir os valores codificados como -99 para valores faltantes (.)
22- recodificar a varivel sexo, sendo 1=0 e 0=1
STATA Bsico HEP/FSP/USP, VI Programa de Vero/2004 50
23- rotular as variveis: id "identificacao"; dias "tempo ate ocorrer o obito";
censura "condicao do paciente no fim do estudo"; tratam "tratamento";
doador "tipo de doador". Verifique se os labels foram criados corretamente
atravs do comando describe
24- definir rtulos para as categorias das variveis
varivel codificao
Sexo 0 masculino 1 feminino
Tratam 0 sem imunossupressor 1 com imunossupressor
Doador 0 vivo 1 cadver
25- verificar os rtulos gerados utilizando o comando tab <nome da varivel> (u-
ma de cada vez)
26- pedir um resumo das variveis utilizando o comando summarize ou sum
27- gerar uma nova varivel idade_30 centrada na mdia utilizando o comando
gen idade_30 = idade 30
28- listar as variveis idade e idade_30; verificar se a nova varivel foi criada cor-
retamente
29- gerar uma nova varivel (catidad) que categorize a idade em:
Faixa etria Cdigo
10 |-- 21 1
21 |-- 31 2
31 |-- 41 3
41 4
Cuidado: valores missing sero categorizados na ultima categoria se no houver
uma linha de comando especfica para esta situao!!!
30- definir rtulos para as categorias de catidad
31- tabular a varivel catidad
32- retirar a varivel idade_30
* Arquivo fem.dta
1. Faa o resumo da varivel weight segundo nvel de depresso (varivel de-
press);
2. Faa a tabela que contm somente o peso mdio e o desvio padro da varivel
perda de peso (weight) para os nveis da varivel depress;
.2
.15
.1
.05
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9
w eight
-1
-2
1 2 3
Hamilton LC. Statistics with Stata 5. Duxbury Press, Belmont, CA, 1998.
Hand DJ et al. A Handbook of Samall Data Sets. Chapmen e Hall, London, 1994.