Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostilastatamee PDF
Apostilastatamee PDF
O que o Stata
O Stata um programa estatstico potente, capaz de resolver tarefas simples como
calcular mdia, desvio padro, testes de hiptese para mdias e propores,
intervalos de confiana, at estatsticas mais complexas como regresso linear
mltipla, anlise de varincia, regresso logstica, anlise de sobrevivncia, regresso
de Cox etc. Tem recursos potentes de tabulao de variveis e comandos para clculo
das medidas de associao usadas em epidemiologia, como razo de incidncias (rate
ratio), risco relativo (risk ratio), razo de chances (odds ratio) e risco atribuvel.
Possui recursos poderosos para manipulao de variveis, porm as ferramentas para
entrada de dados com verificao de erros de digitao so pobres. Usualmente,
melhor criar um programa para entrada de dados no EPIINFO, digitar os dados usando
os recursos CHECK e VALIDATE, e depois exportar o arquivo para o STATA usando o
STAT TRANSFER. Ou, se forem poucos dados, criar uma planilha Excel e depois
cortar e colar os dados no Stata.
Quando se carrega o programa na memria, aparece a sua tela, como na figura abaixo:
Apostila Stata
Apostila Stata
O primeiro passo abrir o arquivo. Para tanto preciso usar o comando File / Open /
e em seguida localizar o diretrio Stata onde o arquivo dnma est localizado. Em seguida
clique em cima do arquivo dnma e escolha a opo Abrir. Observe que o comando use
c:\Arquivos de Programas\Stata10\dnma.dta foi copiado para a janela Review e que agora
os nomes de variveis aparecem na janela Variables.
Se o arquivo no abrir, possvel que tenha aparecido uma mensagem de erro no
room to add more observations (no h espao na memria para carregar o arquivo, numa
traduo livre). Se acontecer isto, voc precisa aumentar o tamanho da memria disponvel
para carregar o arquivo, pois o arquivo dnma muito grande. Digite:
set memory 50m
Apostila Stata
use dnma.dta
use dnma
[ENTER]
[ENTER]
ou
(voc pode omitir a extenso .dta).
. use dnma
O Stata est pronto para aceitar um comando quando o ponto . aparece na janela de
resultados.
Apostila Stata
Observe que surgem na tela os dois primeiros registros. Veja tambm que alguns
nomes de variveis grandes so abreviados e que algumas letras so substitudas por ~,
sendo que o Stata preserva a ltima letra. Por exemplo, a varivel codmunnasc se
transformou em codmun~c. Observe tambm que, para continuar a rolar a tela e olhar os
prximos registros, necessrio apertar qualquer tecla ou clicar com o mouse em cima de
more- .
Como este arquivo armazena dados de 123.635 nascidos vivos, levaramos muito
tempo visualizando todos eles. Desta forma, localize o X vermelho na barra de ferramentas
e clique em cima dele para interromper a listagem. Aps interromper a listagem, pressione
seta para cima e seta para baixo ou [Page Up] e [Page Down] para rolar a tela na janela de
resultados.
Data
Editor
(Edit)
Variables
Manager
Interromper
Data
Editor
(Browse)
Apostila Stata
list parto
Vamos abrir agora o arquivo log para verificar que os comandos digitados e os
resultados obtidos esto sendo gravados no arquivo dnma.smcl. Identifique o cone Log Begin
/ Close / Suspend / Resume e clique nele com o mouse. Na caixa de dilogo selecione a
opo View Snapshot of log file e clique em OK.
Outra forma de visualizar o contedo das variveis usar o cone Data Editor
(Browse) para visualizar o contedo em forma de planilha. Observe que as variveis so
colocadas nas colunas e as observaes nas linhas. Enquanto voc estiver no modo Browse
voc no poder executar outro comando. Para isso ter que fechar a janela do Browse e
retornar para a janela principal do Stata.
Se voc quiser repetir um comando no precisa digit-lo de novo. Basta localizar o
comando na janela Review e selecion-lo, clicando em cima dele. Esta ao copiar o comando
para a janela Command. A basta voc teclar [ENTER] para rodar o comando novamente. Ou
voc tambm pode rodar o comando novamente clicando duas vezes em cima do comando na
janela Review. Ou, ainda, usando as teclas Page Up e Page Down para recuperar na janela
Command os ltimos comandos digitados.
Apostila Stata
Apostila Stata
storage display
value
variable name
type
format
label
variable label
---------------------------------------------------------------------tiparto
float %9.0g
Tipo de parto
Vamos usar agora o recurso de rotular valores de variveis numricas. Por exemplo,
vamos dizer que, no caso da varivel tiparto, 1 significa parto vaginal e 2 parto
cesreo, usando os comandos label define e label values. No primeiro comando, label
define, os rtulos so definidos como 1 para parto vaginal e 2 para parto cesreo. No
segundo comando, os valores do rtulo tipo so colocados na varivel tiparto.
label define tipo 1 vaginal 2 cesareo
label values tiparto tipo
Agora, ao pedir uma tabulao observe que o valor 1 substitudo por vaginal e o
valor 2 por cesreo.
tab tiparto
Tipo de |
parto |
Freq.
Percent
Cum.
------------+----------------------------------vaginal |
82,964
67.24
67.24
cesareo |
40,416
32.76
100.00
------------+----------------------------------Total |
123,380
100.00
Apostila Stata
Use agora o comando describe para observar o resultado e verificar que agora a
varivel tiparto tem um rtulo chamado tipo:
describe tiparto
storage display
value
variable name
type
format
label
variable label
---------------------------------------------------------------------tiparto
float %9.0g
tipo
Tipo de parto
Entretanto, o valor da varivel no arquivo no foi modificado. Para observar isto pea
uma tabulao omitindo o rtulo, usando a opo nolabel.
tab tiparto, nolabel
Tipo de |
parto |
Freq.
Percent
Cum.
------------+----------------------------------1 |
82,964
67.24
67.24
2 |
40,416
32.76
100.00
------------+----------------------------------Total |
123,380
100.00
Se voc quiser, voc pode pedir uma lista dos rtulos e dos seus contedos:
label list
. label list
tipo:
1 vaginal
2 cesareo
Todas as opes de mudar o nome da varivel (rename), colocar um rtulo na varivel
(label variable), criar rtulos para categorias (label define) e colocar rtulos nas categorias
das variveis (label values) esto tambm disponveis no cone Variables Manager na barra
de cones.
Apostila Stata
10
Exerccios
No se esquea de anotar os comandos utilizados para obter os resultados. Descarte
os valores ignorados se os percentuais forem baixos (inferiores a 2%).
1)
2)
3)
4)
5)
6)
Apostila Stata
11
pesonasc
tiparto
2350
1500
3430
2920
3100
idgest
1
2
1
1
2
idmae
40
33
41
38
39
sexo
30
22
19
33
25
1
1
1
2
2
e tecle [ENTER]
file rn.dta saved (arquivo rn.dta salvo)
Aqui voc pode observar que o Stata usa .dta como terminao de arquivo. Utilize
agora o comando describe para observar os tipos de variveis criadas pelo Stata.
describe
Apostila Stata
e tecle [ENTER]
12
1.
2.
3.
4.
5.
var1
2350
1500
3430
2920
3100
var2
1
2
1
1
2
var3
40
33
41
38
39
var4
30
22
19
33
25
var5
1
1
1
2
2
Estatstica descritiva
E agora pea uma estatstica descritiva destes campos.
summarize
Variable |
Obs
Mean
Std. Dev.
Min
Max
---------+----------------------------------------------------var1 |
5
2660
757.5949
1500
3430
var2 |
5
1.4
.5477226
1
2
var3 |
5
38.2
3.114482
33
41
var4 |
5
25.8
5.718391
19
33
var5 |
5
1.4
.5477226
1
2
Apostila Stata
13
O Stata mostra o nmero de observaes, a mdia (mean), o desvio padro (Std. Dev.),
o valor mnimo e o valor mximo. Note que no caso das variveis tiparto e sexo, a mdia
no tem valor algum, pois estas variveis esto codificadas. No caso de tiparto
(1=parto vaginal; 2=parto cesreo) e no caso de sexo (1=masculino; 2=feminino).
var1
var2
var3
var4
var4
pesonasc
tiparto
idgest
idmae
sexo
variable
variable
variable
variable
variable
Apostila Stata
14
save, replace (salva, grava por cima do arquivo antigo com o mesmo nome rn)
Vamos usar agora o recurso de rotular valores de variveis numricas. Por exemplo,
vamos dizer que no caso da varivel tiparto 1 significa parto vaginal e 2 parto cesreo,
usando os comandos label define e label values.
label define tipo 1 vaginal 2 cesareo
label values tiparto tipo
Apostila Stata
15
premat
|
Freq.
Percent
Cum.
------------+----------------------------------0 |
4
80.00
80.00
1 |
1
20.00
100.00
------------+----------------------------------Total |
5
100.00
Apostila Stata
igual a
diferente de
maior do que
menor do que
maior ou igual
menor ou igual
16
Tabelas 2 x 2 - tabulate
Pea agora uma tabela de peso com idade gestacional, com a opo row (para o clculo
dos percentuais das linhas)
tabulate premat peso, row
| peso
premat |
0
1 |
Total
-----------+----------------------+---------0 |
3
1 |
4
|
75.00
25.00 |
100.00
-----------+----------------------+---------1 |
0
1 |
1
|
0.00
100.00 |
100.00
-----------+----------------------+---------Total |
3
2 |
5
|
60.00
40.00 |
100.00
Observe que a taxa de baixo peso nesta populao de 40%. Dentre os prematuros
(codificados como 1), 100% tm baixo peso e que dentre os no prematuros
(codificados como 0), 25% tm baixo peso.
Vamos pedir agora a tabela diferente, isto , peso e prematuridade, com os
percentuais das colunas, colocando a varivel resposta (peso ao nascer) nas linhas e a
exposio (idade gestacional) nas colunas.
tabulate peso premat, col
| premat
peso |
0
1 |
Total
-----------+----------------------+---------0 |
3
0 |
3
|
75.00
0.00 |
60.00
-----------+----------------------+---------1 |
1
1 |
2
|
25.00
100.00 |
40.00
-----------+----------------------+---------Total |
4
1 |
5
|
100.00
100.00 |
100.00
Operadores lgicos:
&
|
!
Apostila Stata
e
ou
no
17
Apostila Stata
18
Apostila Stata
19
generate peso=0
Apostila Stata
20
Apostila Stata
21
Apostila Stata
22
Apostila Stata
23
age
sbp
sbp10
dbp
chol
frw
cig
yrs_chd
yrs_dth
death
cause
Apostila Stata
1=masculino 0=feminino
diagnstico de doena coronariana
0=no tem
1= doena coronariana
presente ao primeiro exame (casos prevalentes) 2-10 = nmero do exame em
que foi feito o diagnstico (casos incidentes).
idade em anos ao exame inicial (45-62 anos)
presso arterial sistlica em mmHg no primeiro exame (90-300 mmHg)
presso arterial sistlica em mmHg no dcimo exame (94-264 mmHg). Em 635
casos a informao est prejudicada.
presso arterial diastlica em mmHg no primeiro exame (50-160 mmHg)
colesterol srico em mg/100 ml no primeiro exame (96-430 mg/100ml)
peso relativo em percentual no primeiro exame (11 casos prejudicados 52222). O peso relativo foi calculado a partir da razo entre o peso da pessoa em
relao ao peso mediano para o seu grupo de sexo/altura.
nmero de cigarros fumados por dia
0=no fumante (1-60, 1 dado
prejudicado)
pessoas-ano de observao at ocorrer perda ou o primeiro evento de doena
coronariana (43 pessoas j tinham doena coronariana ao primeiro exame e,
portanto, no estavam mais sob risco, varia de 0 a 18 anos)
pessoas-ano de observao para mortalidade (varia de 1 a 18 anos)
0=vivo 2-10 = nmero do exame em que j estava morto
causa do bito (19 casos prejudicados)
0 vivo ao primeiro exame
1 doena coronariana (sbita)
2 doena coronariana (no sbita)
3 acidente vascular enceflico
4 outra doena cardiovascular
5 cncer
6 outro
24
colesterol |
em mg/100ml |
Freq.
Percent
Cum.
------------+----------------------------------<220 |
531
37.77
37.77
220a259 |
478
34.00
71.76
260+ |
397
28.24
100.00
------------+----------------------------------Total |
1406
100.00
Voc tambm pode usar ao invs de replace o comando recode. Veja abaixo:
generate col2=chol
recode col2 96/219=0 220/259=1 260/430=2
label variable col2 colesterol em mg/100ml
label values col2 colest
tabulate col2
Vamos recodificar a presso arterial sistlica em 0 (risco basal pA menor que 165
mmHg) e 1 (risco, pA igual ou maior que 165 mmHg).
generate pas=.
replace pas=1 if sbp>=165
replace pas=0 if sbp<165
label variable pas "pA sistolica - mmHg"
label define pressao 0 "<165" 1 "165+"
label values pas pressao
tabulate pas
Apostila Stata
25
pA sistolica|
- mmHg
|
Freq.
Percent
Cum.
------------+----------------------------------<165 |
313
22.26
22.26
165+ |
1093
77.74
100.00
------------+----------------------------------Total |
1406
100.00
Vamos recodificar nmero de cigarros fumados em 0 (no fumante) e 1 (fumante),
excluindo 1 caso prejudicado (cig=99):
generate fumo=0
replace fumo=1 if cig!=0
replace fumo=. if cig==99
label define cigarro 0 "nao" 1 "sim"
label values fumo cigarro
tabulate fumo
( !=
diferente de)
fumo
|
Freq.
Percent
Cum.
------------+----------------------------------nao |
772
54.95
54.95
sim |
633
45.05
100.00
------------+----------------------------------Total |
1405
100.00
Qual o percentual de fumantes nesta populao ?
Vamos agora recodificar chd, considerando 0 como no tendo doena coronariana e de 2
a 10 como casos de doena coronariana, excluindo 1 (casos prevalentes, isto , pessoas
que j tinham doena coronariana ao primeiro exame. Observe que transformamos 1 em .
(missing prejudicado). Desta forma o programa no processar mais estes registros
nas sadas posteriores.
generate dc=chd
recode dc 0=0 1=. 2/10=1
label variable dc doenca coronariana
label define doenca 0 nao" 1 sim
label values dc doenca
tabulate dc
doenca
|
coronariana |
Freq.
Percent
Cum.
------------+----------------------------------nao |
1095
80.34
80.34
sim |
268
19.66
100.00
------------+----------------------------------Total |
1363
100.00
Qual a incidncia de doena coronariana nesta populao ?
Apostila Stata
26
Vamos pedir agora uma tabulao de colesterol e doena coronria, para verificar se o
colesterol um fator de risco para doena coronariana, pedindo percentuais de linha e o
clculo do Qui-quadrado.
tabulate col dc, row chi2
colesterol | doenca coronariana
em mg/100ml|
nao
sim |
Total
-----------+----------------------+---------<220 |
423
96 |
519
|
81.50
18.50 |
100.00
-----------+----------------------+---------220a259 |
377
81 |
458
|
82.31
17.69 |
100.00
-----------+----------------------+---------260+ |
295
91 |
386
|
76.42
23.58 |
100.00
-----------+----------------------+---------Total |
1095
268 |
1363
|
80.34
19.66 |
100.00
Pearson chi2(2) =
5.3202
Pr = 0.070
Apostila Stata
36.9959
Pr = 0.000
27
Observe a diferena nas taxas de incidncia de doena coronariana entre aqueles com
pA sistlica abaixo de 165 mmHg (16,2%) comparados com aqueles com pA sistlica
muito elevada (32,1%). O valor de p para o Qui-quadrado foi de 0.000, portanto
considera-se a diferena amostral observada estatisticamente significante. Desse
modo, a pA muito elevada considerada um fator de risco para doena coronariana.
tabulate fumo dc, row chi2
| doenca coronariana
fumo |
nao
sim |
Total
-----------+----------------------+---------nao |
614
134 |
748
|
82.09
17.91 |
100.00
-----------+----------------------+---------sim |
480
134 |
614
|
78.18
21.82 |
100.00
-----------+----------------------+---------Total |
1094
268 |
1362
|
80.32
19.68 |
100.00
Pearson chi2(1) =
3.2612
Pr = 0.071
Apostila Stata
28
10)
11)
12)
13)
idade
linha.
14)
Quais os percentuais de baixo peso ao nascer de acordo com as categorias de
idde materna?
15)
Pea uma tabela com o qui-quadrado e verifique se h associao entre idade
materna e baixo peso ao nascer.
Apostila Stata
29