Bio-2009 - Apostila STATA v3

Objetivo geral do curso
Esta apostila apresenta comandos bsicos para manipulao de bases de dados

com a utilizao do aplicativo STATA 8.0 e introduz alguns conceitos bsicos de
estatstica referentes aos comandos utilizados.
O leitor interessado em conhecer mais sobre este programa ou aprender teoria
estatstica mais detalhada deve procurar referncias especializadas.
Introduo ao STATA 9.0

O STATA possui amplo potencial de utilizao e trabalha com bases de dados que
ficam armazenadas inteiramente na memria RAM do microcomputador. Por esta
razo fornece processamentos de maneira muito rpida.
Em geral, os comandos do STATA tem a forma:
comando nomevar(s) if....in...., options
O STATA diferencia letras maisculas das minsculas. Use sempre letras minsculas
quando digitar comandos, e recomendamos que voc tambm use letras minsculas
para os nomes de suas variveis. O STATA aceita abreviaes para comandos e
nomes de variveis, desde que estas abreviaes no sejam ambguas.
Iniciando o STATA
O programa STATA, iniciado clicando duas vezes no cone localizado no desktop
do Windows.
Janelas do STATA
Quatro janelas so apresentadas quando o STATA iniciado. So elas:
Review: janela onde so armazenados os comandos
Variables: janela que apresenta a lista das variveis do banco de dados ativo
Stata Results: janela que mostra os resultados
Stata Command: janela onde os comandos do STATA devem ser digitados
Clicando com o boto direito do mouse , na janela Review, ativa-se a opo para
salvar os comandos.
1
10 11 12
O menu est disponvel na primeira linha e possui os recursos:

File
Edit
Prefs
Data
Graphics
Statistics
Window
Help
Por exemplo, o menu "HELP SEARCH" utilizado para procurar ajuda sobre comandos do STATA.
Na segunda linha encontra-se a Barra de Ferramentas com os cones:
(1) Open (use): Carrega ou abre um banco de dados no formato do STATA (dta).
(2) Save: Salva um arquivo no formato do STATA (dta).
(3) Print Results: Imprime a janela de resultados.
(4) Begin Log: Carrega, abre ou cria um arquivo do tipo ".log" ou ".smcl".
(5) Start Viewer: Exibe a tela de ajuda (Help) em primeiro plano.
(6) Bring Results Window to Front: Exibe a tela dos resultados em primeiro plano.
(7) Bring Graph Window to Front: Exibe a tela com o grfico em primeiro plano.
(8) Do-file Editor: Edita um arquivo de comandos (arquivo tipo ".do").
(9) Data Editor: Edita o arquivo de dados que est sendo utilizado.
(10) Data Browser: Visualiza o arquivo de dados que est sendo utilizado.
(11) Clear: prossegue a execuo do comando.
(12) Break: Interrompe a execuo de uma tarefa ou comando.
Tipos de arquivos do STATA

.ado
.dct
.do
.dta
.gph
.log ou .smcl
.out
.raw
.sum
arquivos
arquivos
do-file
arquivos
arquivos
arquivos
arquivos
arquivos
arquivos
programa "do-files"
ASCII , arquivo dicionrio
de dados formato do STATA
grficos
textos com os resultados
para impresso
ASCII arquivos de dados
controle de rede
Onde esto os arquivos utilizados no curso ?

Em cada microcomputador foi criado o diretrio
C:\Stata bsico\
com todos os
bancos de dados que sero utilizados neste curso. aconselhvel que voc salve os
arquivos neste diretrio. Se voc no tem familiaridade com a linguagem de informtica
e/ou com o Windows, procure um dos monitores para outros esclarecimentos.
Preparando o STATA para anlise

Em primeiro lugar, voc deve escolher o banco de dados que ir trabalhar e
abrir/carrega-lo no STATA. Note que o STATA s abre bancos de dados no formato
.dta. Por isso, caso seu banco de dados no esteja neste formato, antes de iniciar o
STATA voc deve convert-lo utilizando o programa STAT/TRANSFER que um
programa muito til e fcil de ser usado.
Para ilustrar, vamos trabalhar com o arquivo motocobr.dta que refere-se a um estudo
de prevalncia de transtornos mentais comuns (depresso e/ou ansiedade) em
motoristas e cobradores de nibus da cidade de So Paulo (Souza, 1996).
Abra o banco de dados clicando no cone (1)Open e, ento, selecione o caminho
(pasta) onde est o arquivo motocobr.dta. Note o que mudou nas janelas do STATA!!
Agora, vamos abrir tambm um arquivo do tipo
log onde ficaro armazenados
todos os resultados gerados a partir da tela de comandos. Isto pode ser feito clicando o
3
cone (4)Begin Log e, ento, selecionando o tipo de arquivo=log, o caminho e o nome

para o arquivo.
Comandos bsicos do STATA :

describe
descreve o arquivo de dados em uso
display
calculadora de mo
drop
elimina variveis ou observaes
edit
edita e lista dados
generate
cria ou muda contedos de variveis
graph
cria grficos
list
lista os valores das variveis por registro
memory
muda o tamanho da memria a ser utilizada
obs
aumenta o nmero de observaes no banco de dados
recode
recodificar, agrupar cdigos
sort
ordena os dados
summarize
calcula medidas de tendncia central
tabulate
produz tabelas simples e cruzadas
Utilize o help do STATA para obter mais informaes sobre estes e outros comandos.
Salvando os comandos
Todos os comandos digitados na janela STATA Command so enviados para a janela
Review. Estes comandos podem ser guardados em um arquivo especial (arquivos tipo
"do") para, posteriormente, ser editado e utilizado em uma nova anlise.
Para criar um arquivo do tipo "do" utilize o boto direito do mouse na janela
Review.
Anlise descritiva
Aps a coleta de dados e a digitao dos mesmos em um banco de dados apropriado,
o prximo passo a anlise descritiva. Esta etapa fundamental, pois uma anlise
descritiva detalhada fornece ao pesquisador toda a informao contida no conjunto de
dados. Neste enfoque, procura-se obter a maior quantidade possvel de informao,
buscando responder s questes que esto sendo pesquisadas.
As variveis podem ser classificadas em contnuas ou categricas. Por varivel
contnua (ou quantitativa) entende-se as variveis que podem assumir todos os
valores possveis dentro de um limite especificado.
Varivel categrica (ou
qualitativa) aquela que pode ser classificada em categorias separadas e que no

assumem valores intermedirios, como por exemplo, sexo e estado civil.
Em geral, uma anlise descritiva dos dados feita com base em medidas de posio e
variabilidade. Para variveis contnuas, as medidas comumente utilizadas so as
medidas de tendncia central, enquanto as variveis categricas so sumarizadas por
meio de medidas de freqncia.
Medidas de tendncia central:

mdia aritmtica: a soma de todas as observaes dividida pelo nmero de
observaes.
mediana: valor central de uma distribuio. Para se obter a mediana, ordena-se as
observaes em ordem crescente. Se o nmero de observaes for par, a mediana
ser a mdia aritmtica dos dois valores centrais (n/2 e [(n/2)+1], onde n o nmero de
observaes total da amostra. Se o nmero de observaes for mpar, a mediana ser
o valor na posio (n + 1)/2.
moda: o valor com a maior freqncia entre todas as observaes.
freqncia: o nmero de vezes em que um valor ocorre.
A seguir so apresentados alguns comandos bsicos para fazer uma anlise descritiva
dos dados:
Aplicao prtica-1 - Digitando os comandos na janela Command

Digite describe ou desc e pressione ENTER, deve aparecer na janela Stata Results o
seguinte resultado:
Contains data from C:\Motocobr.dta
obs:
800
vars:
18
22 Aug 2000 15:44
size:
35,200 (96.3% of memory free)
------------------------------------------------------------------------------1. id
long
%12.0g
id
2. idade
byte
%8.0g
idade
3. pausas
byte
%8.0g
numero de pausas dia
4. escola
long
%19.0g
escola
escola
5. nasc
byte
%8.0g
nasc
procedencia
6. tsp
int
%11.0g
tsp
tempo em SP
7. emp
int
%8.0g
emp
tipo de empresa
8. fun
int
%9.0g
fun
funcao
9. esc
int
%13.0g
esc
escala da linha do onibus
10. fol
int
%8.0g
fol
escala de folga
11. jorn
int
%11.0g
jorn
jornada de trabalho diaria
12. temp
int
%9.0g
temp
tempo de trabalho na empresa
13. trans
long
%12.0g
trans
transito diario
14. banco
long
%12.0g
banco
possibilidade ajuste do assento
15. fal
int
%8.0g
fal
falta ao trabalho no ultimo mes
16. sono
int
%10.0g
sono
sono diario
17. tmc
int
%8.0g
srq
transtorno mental comum
18. sal
byte
%8.0g
sal
salario mensal
------------------------------------------------------------------------------Sorted by:
Digite
list in 1
e pressione ENTER
Observation 1
id
27
escola primario com
emp
privada
fol
muda
trans
intenso
sono
>= 6 horas
idade
nasc
fun
jorn
banco
tmc
35
nordeste
motorista
> 9
sim
nao
pausas
2
tsp
11-20 anos
esc linha altern
temp
< 4 anos
fal
nao
sal
> 6 sm
Para mudar o nome de uma varivel, como por exemplo, id para

identif, digite
rename id identif
e pressione ENTER
Para observar a mudana.
Digite
desc
6
Os comandos tabulate , tab

ou cruzadas.
tab
ou
tab1
produzem tabelas simples
escola
escola |
Freq.
Percent
Cum.
--------------------+----------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
primario incompleto |
162
20.25
100.00
--------------------+----------------------------------Total |
800
100.00
tab
escola,
nolabel
escola |
Freq.
Percent
Cum.
------------+----------------------------------0 |
84
10.50
10.50
1 |
554
69.25
79.75
2 |
162
20.25
100.00
------------+----------------------------------Total |
800
100.00
Agora digite:
tab1
escola
fun
emp
Deve aparecer na tela os seguintes resultados:

-> tabulation of escola
escola |
Freq.
Percent
Cum.
--------------------+----------------------------------ginasio completo |
84
10.50
10.50
primario completo |
554
69.25
79.75
primario incompleto |
162
20.25
100.00
--------------------+----------------------------------Total |
800
100.00
-> tabulation of fun
funcao |
Freq.
Percent
Cum.
------------+----------------------------------motorista |
423
52.88
52.88
cobrador |
377
47.12
100.00
------------+----------------------------------Total |
800
100.00
-> tabulation of emp
tipo de |
empresa |
Freq.
Percent
Cum.
------------+----------------------------------publica |
286
35.75
35.75
privada |
514
64.25
100.00
------------+----------------------------------Total |
800
100.00
Para criar a varivel nasc2, recodificar e inserir um rtulo

(label), utilize os comandos:
tab nasc
(tabela de freqncia)
gen nasc2=nasc
(criar varivel nasc2)
recode nasc2 0=0 1=0 2=1 3=1
(recodifica varivel nasc2)
label
var
nasc2
Grupos de Procedncia
(insere var-label)
tab nasc2
label define cod_proc 0 sudeste 1 outros (insere value-label)
label val
tab nasc2
nasc2
cod_proc
Seus resultados devem ter sido:

tab nasc
procedencia |
Freq.
Percent
Cum.
------------+----------------------------------SP |
281
35.12
35.12
RJ/MG/ES |
135
16.88
52.00
outros |
48
6.00
58.00
nordeste |
336
42.00
100.00
------------+----------------------------------Total |
800
100.00
tab nasc2
Grupos de |
Procedncia |
Freq.
Percent
Cum.
------------+----------------------------------0 |
416
52.00
52.00
1 |
384
48.00
100.00
------------+----------------------------------Total |
800
100.00
tab nasc2
Grupos de |
Procedncia |
Freq.
Percent
Cum.
------------+----------------------------------sudeste |
416
52.00
52.00
outros |
384
48.00
100.00
------------+----------------------------------Total |
800
100.00
O comando
summarize
ou
sum
utilizado para calcular
mdia, desvio padro, mnimo, mximo, etc.
summarize idade
Variable |
Obs
Mean
Std. Dev.
Min
Max
---------+----------------------------------------------------idade |
800
37.69
10.52532
17
67
sum
idade,
detail
idade
------------------------------------------------------------Percentiles
Smallest
1%
21
17
5%
22
19
10%
24
19
Obs
800
25%
30
19
Sum of Wgt.
800
50%
75%
90%
95%
99%
37
45
53
58
63
Largest
65
66
66
67
Mean
Std. Dev.
37.69
10.52532
Variance
Skewness
Kurtosis
110.7824
.440607
2.555018
Aplicao prtica-2 - Utilizando os menus:
Data e Statistics
2.1 - Para descrever o arquivo e suas variveis, clique no menu Data, opo: Data
describe e explore todas as opes.
2.2 Para editar o banco de dados, clique no menu Data, opo: Data editor .
2.3 Para produzir tabelas simples, clique no menu Statistics, opo: Summaries,
tables & tests Tables .
Explore as opes do Summaries.
2.4 Criar a varivel nasc3 a partir da var NASC. Clique no menu Data, opo:
Create or change variables Create new variable
Acrescente label para a var nasc3 e label para os valores da var nasc3
(menu Data, opo: Label & notes)
2.5
Calcular a mdia, mediana, desvio padro, ... Clique no menu Data, opo
Describe data Summary statistics
ou
menu Stastistics, opo:
Summaries, tables & tests Summary statistics.
9
10
Aplicao prtica-3
3.1 Ler/abrir o arquivo : motocobr.dta Clique no menu File, opo open
Abrir arquivo(log) para armazenar os resultados: Clique no boto: Begin log
Digite motcob em nome do arquivo e clique e no boto SALVAR.
3.2 Produzir tabela de freqncia simples para as variveis IDADE e FUN.
Comandos :
tab1 idade fun

tab1 idade fun , nolabel
3.3 Criar nova var IDADER, idade recodificada(agrupada) nas faixas:

ate 30 ; 31 a 40 ; 41 a 50 ; 51 e mais
Comandos:
generate
idader= idade
recode
idader
17/30=1
31/40=2
41/50=3
51/67=4
ou
recode idader
outra maneira :
recode idade
min/30=1 31/40=2 41/50=3
17/30=1 31/40=2
41/50=3
51/max=4
51/67=4,
gen(idade1)
ou
egen
idade2 = cut(idade), at (17, 31, 41, 51, 68)
3.4 - Inserir labels para a varivel IDADER

Comandos:
label
var idader
"idade agrupada"
label define cod_idade

50"
1 " ate 30"
2 "31 - 40"
3 "41 -
4 "51 e mais"
label val idader cod_idade
3.5 - Produzir tabelas:

Comandos:
tab idader
tab idader fun
tab idader fun , row col cel chi
11
3.6 - Salvando os arquivos:

(1) arquivo de dados(dta) : menu File, opo Save as ... e digite motcob
em
nome do arquivo.
(2) arquivo de resultados(log) : clique no boto : Close/suspend Log e escolha

a opo close log file e clique no boto OK para salvar.
Abra o arquivo motcob.log no Word e observe os resultados.
(3) arquivo de comandos(do) : clique na da janela Review com o boto

direito do mouse , e escolha a opo
motcob em
Save Review Contents ... e
digite
nome do arquivo.
Visualizando o arquivo do : clique no boto Do-file Editor para abrir o

arquivo motcob.do.
Correndo(Run) o arquivo
do:
digite o comando abaixo na janela
Command para correr(processar) os comandos do arquivo do :
do c:\stata bsico\motcob.do
12
Grficos
O comando graph do STATA possui vrias opes. Em geral, grficos de barra so
usados para mostrar a distribuio de variveis categricas, enquanto histogramas e
box-plots so usados para mostrar a distribuio das variveis quantitativas.
Para obter um grfico de barras da varivel escola , utilize:
graph7 escola
ou
gr7
escola
Voc pode usar tambm a opo ylabel

graph7 escola, ylabel
Ou ainda, obter o mesmo grfico para cada estrato da varivel funo
sort fun
graph7 escola, ylabel
by(fun)
motorista
cobrador
.8
.6
.4
Fraction
.2
0
ginasio
primario
ginasio
primario
escola
Histograms by funcao
A cada novo grfico que o Stata gerar, o anterior ser "perdido", por isso, s vezes
desejvel salvar um grfico antes de gerar outro. Um grfico pode ser salvo de duas
maneiras diferentes: a primeira copiar cada grfico e colar em um outro arquivo "fora"
13
do STATA, por exemplo, um arquivo do Word. Uma outra maneira salvar a janela com
o grfico como uma figura, utilizando o menu: File Save graph .
Para obter um histograma da varivel IDADE, digite:

graph7
idade, hist
ou
histogram
idade
ou
hist idade
Para melhorar a apresentao visual do histograma, utilize o opo xlabel e

ylabel. O nmero de retngulos do histograma pode ser modificado pela opo
bin(x). Para sobrepor ao seu histograma uma curva normal com mdia e desvio
padro, adicione a opo normal.
gr7
idade,
hist
xlabel
ylabel
bin(10)
normal
freq
.45
.4
Fraction
.3
.2
.1
10
20
45
idade
80
Um grfico do tipo boxplot para a varivel IDADE pode ser obtido com o comando
gr7
idade,
box
Voc pode ainda, construir este mesmo grfico segundo FUN

sort fun
gr7 idade, box
gr7 idade, box
by(fun)
by(fun) ylabel(15,25,34,40,46,66)
14
idade
66
46
40
34
25
15
motorista
cobrador
Criando um arquivo do para obter grfico de barras. Clique no boto Do-file Editor,
digite as linhas abaixo e salve com o nome graf1.do .
clear
input cobradores motoristas
45.24 54.76 "g.c."
54.15 45.85 "p.c."
52.47 47.53 "p.i."
end
sort esc
gr bar cobradores moto, over(esc)
str12 esc
Para correr(run) do arquivo do , digite o comando abaixo na janela Command

do graf1
15
Testes de hipteses
Testes de hipteses consistem em testar a significncia estatstica e quantificar o grau
em que a variabilidade da amostra pode ser responsvel pelos resultados observados
no estudo. Para isto, define-se uma hiptese nula (H 0) e uma hiptese alternativa (H a),
que podem representar, por exemplo:
H0 : no existe diferena entre exposio e doena
Ha: existe diferena entre exposio e doena.
Manipulao de variveis categricas

A seguir so ilustradas algumas maneiras de relacionar duas ou mais variveis
categricas.
Relacionando duas variveis categricas

Suponha que voc queira investigar se os trabalhadores que tm mais transtorno
mental comum (TMC) faltam mais ao trabalho, ou seja, se existe uma associao entre
TMC e a falta ao trabalho. Para isto, voc pode construir uma tabela 2X2 usando o
comando tabulate
tab
tmc
ou, de forma abreviada, tab
fal
Somente esta tabulao no mostra com clareza se as duas variveis analisadas esto
associadas.
O que podemos fazer?
Uma opo simples analisar as porcentagens destas variveis em relao aos totais
observados. Os subcomandos row, col e cel fornecem, respectivamente, as
porcentagens das linhas, colunas e do total:
tab
tab
tab
tmc
tmc
tmc
fal,
fal,
fal,
col
row
cel
16
Uma outra maneira de avaliar a associao utilizando um teste de associao.
Avaliando a associao de duas variveis com o teste Qui-quadrado

de Pearson
Ainda com o objetivo de estudar a associao entre funo do empregado e presena
de falta no ltimo ms, vamos usar o teste Qui-quadrado de Pearson para testar a
significncia da associao. Para isto, utilize a opo chi.
tab
tmc
fal,
row
chi
transtorno | falta ao trabalho no

mental |
ultimo mes
comum |
nao
sim |
Total
-----------+----------------------+---------nao |
485
160 |
645
|
75.19
24.81 |
100.00
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
Pearson chi2(1) =
7.2500
Pr = 0.007
Consideraes a respeito da validade do teste Qui-quadrado de Pearson
O teste Qui-quadrado de Pearson segue, aproximadamente, um distribuio chamada

Qui-quadrado ( 2 ). Para amostras grandes esta suposio razovel. No entanto, as
seguintes regras podem ser usadas para garantir a validade do uso do teste:
para tabelas 2 x 2, o teste 2 pode ser usado :
- se o tamanho total da amostra (N) maior do que 40,
- se N est entre 20 e 40 e o menor valor esperado maior ou igual a 5
para tabelas de dimenses maiores :
- o teste 2 vlido se no mais do que 20% dos valores esperados forem
menores do que 5 e nenhum for menor do que 1.
Caso o teste 2 no seja adequado, uma opo utilizar o teste exato de Fisher obtido
com o subcomando exact.
17
tab
tmc
fal,
row
exact

mental |
ultimo mes
comum |
nao
sim |
Total
-----------+----------------------+---------nao |
485
160 |
645
|
75.19
24.81 |
100.00
-----------+----------------------+---------sim |
100
55 |
155
|
64.52
35.48 |
100.00
-----------+----------------------+---------Total |
585
215 |
800
|
73.13
26.88 |
100.00
Fisher's exact =
1-sided Fisher's exact =
0.009
0.005
O que voc conclui da associao acima?
Relacionando trs variveis categricas

Utilize os comandos if, by ou tabulate, como mostrado a seguir:
tab
tmc
fal
if
fun= =1,
row
chi

mental |
ultimo mes
comum |
nao
sim |
Total
-----------+----------------------+---------nao |
203
76 |
279
|
72.76
27.24 |
100.00
-----------+----------------------+---------sim |
62
36 |
98
|
63.27
36.73 |
100.00
-----------+----------------------+---------Total |
265
112 |
377
|
70.29
29.71 |
100.00
Pearson chi2(1) =
3.1308
Pr = 0.077
18
tab
tmc
fal
if
fun= =0,
row
chi
. tab tmc fal if fun==0, row chi

mental |
ultimo mes
comum |
nao
sim |
Total
-----------+----------------------+---------nao |
282
84 |
366
|
77.05
22.95 |
100.00
-----------+----------------------+---------sim |
38
19 |
57
|
66.67
33.33 |
100.00
-----------+----------------------+---------Total |
320
103 |
423
|
75.65
24.35 |
100.00
Pearson chi2(1) =
2.8861
Pr = 0.089
E agora? Qual a sua concluso sobre a associao entre TMC e falta ao trabalho?
Manipulao de variveis contnuas
Construo de intervalos de confiana para a mdia

A mdia uma medida pontual e no fornece nenhuma informao a respeito da
variabilidade dos dados. Este procedimento no permite julgar qual a possvel
magnitude do erro que estamos cometendo. Da surge a idia de construir o intervalo
de confiana, que definido como o intervalo dentro do qual se encontra a verdadeira
magnitude do efeito com um certo grau de certeza.
O comando abaixo ilustra a construo do intervalo de confiana (IC) para a mdia da
varivel idade.
ci
idade
Variable |
Obs
Mean
Std. Err.
[95% Conf. Interval]
-------------+------------------------------------------------------------idade |
800
37.69
.3721263
36.95954
38.42046
Com base na amostra deste estudo, podemos dizer, com 95% de confiana, que o
verdadeiro valor para a idade mdia dos motoristas e cobradores est entre 37,0 e 38,4
anos.
19
Note que, quando no especificamos um determinado nvel de confiana, o programa

assume = 95% para o clculo do intervalo. No entanto, possvel mudar este valor
usando a opo level.
No exemplo abaixo, o IC foi construdo com confiana de 90%.
ci
idade,
level(90)
Variable |
Obs
Mean
Std. Err.
-------------+------------------------------------------------------------idade |
800
37.69
.3721263
37.0772
38.3028
O IC tambm pode ser utilizado para testar se a mdia de interesse estatisticamente

igual, com um certo coeficiente de confiana, a um determinado valor de interesse.
De maneira anloga, podemos fazer um teste de hiptese para avaliar a mesma
questo: Ser que a idade mdia dos motoristas e cobradores estatisticamente
diferente de 35 anos?
Para isto, podemos usar o teste t de Student :
ttest
idade = 35
One-sample t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------idade |
800
37.69
.3721263
10.52532
36.95954
38.42046
-----------------------------------------------------------------------------Degrees of freedom: 799
Ho: mean(idade) = 35
Ha: mean < 35
t =
7.2287
P < t =
1.0000
Ha: mean ~= 35
t =
7.2287
P > |t| =
0.0000
Ha: mean > 35

t =
7.2287
P > t =
0.0000
Comparao entre mdias de duas amostras independentes

Suponha agora que voc queira avaliar se a idade mdia difere segundo a funo do
trabalhador. Neste caso, utiliza a opo by(fun):
20
ttest
idade,
by(fun)
Two-sample t test with equal variances

-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
---------+-------------------------------------------------------------------diff |
6.482081
.7097834
5.088818
7.875344
-----------------------------------------------------------------------------Degrees of freedom: 798
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0
t =
9.1325
P < t =
1.0000
Ha: diff ~= 0
t =
9.1325
P > |t| =
0.0000
Ha: diff > 0

t =
9.1325
P > t =
0.0000
Consideraes a respeito da validade do teste t de Student

O teste t assume que a distribuio da varivel resposta aproximadamente normal e
o desvio padro o mesmo em cada grupo a ser comparado.
Ento, no caso acima, estamos assumindo que o desvio padro da varivel IDADE
(varivel resposta) o mesmo para motoristas e cobradores. Esta suposio precisa
ser verificada, o que pode ser feito com o comando:
sdtest
idade,
by(fun)
Variance ratio test

-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
-----------------------------------------------------------------------------Ho: sd(motorist) = sd(cobrador)
F(422,376) observed
= F_obs
=
F(422,376) lower tail = F_L
= F_obs
=
F(422,376) upper tail = F_U
= 1/F_obs =
Ha: sd(1) < sd(2)
P < F_obs = 0.0000
Ha: sd(1) ~= sd(2)

P < F_L + P > F_U = 0.0000
0.589
0.589
1.697
Ha: sd(1) > sd(2)
P > F_obs = 1.0000
Quando o teste acima (teste de homocedasticidade) indicar que as varincias no so

iguais nos dois grupos, devemos usar um teste que considere esta desigualdade. Isto
pode ser feito com o uso da opo unequal:
21
ttest
idade,
by(fun)
unequal
Two-sample t test with unequal variances

-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------motorist |
423
40.74468
.4227253
8.694175
39.91377
41.57559
cobrador |
377
34.2626
.5833693
11.32698
33.11552
35.40967
---------+-------------------------------------------------------------------combined |
800
37.69
.3721263
10.52532
36.95954
38.42046
---------+-------------------------------------------------------------------diff |
6.482081
.7204279
5.06763
7.896533
-----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 702.063
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0
t =
8.9975
P < t =
1.0000
Ha: diff ~= 0
t =
8.9975
P > |t| =
0.0000
Ha: diff > 0

t =
8.9975
P > t =
0.0000
No exemplo acima, qual dos testes voc julga ser o mais correto? Por qu?
As idades mdias dos motoristas e dos cobrados estatisticamente igual?
Comparao entre mdias de duas amostras dependentes

Quando as amostras no so independentes dizemos que as observaes so
correlacionadas e neste caso, o teste t-pareado mais indicado pois leva em conta a
correlao existente entre as observaes.
Um exemplo de amostras dependentes o estudo onde dois observadores diferentes
fizeram medies da prega cutnea de 15 indivduos distintos. As medidas so
observadas no mesmo indivduo, portanto, dizemos que as amostras dos 2
observadores so dependentes.
O banco de dados do estudo descrito anteriormente chama-se
Prega.dta. Neste
arquivo, os valores foram cadastrados de modo que cada indivduo tem seus dados
representados em uma linha diferente. As variveis so descritas a seguir:
id = identificao do indivduo
observA = medida da prega cutnea segundo o observador A
observB = medida da prega cutnea segundo o observador B
22
Para realizar o teste t-pareado basta digitar

ttest
observa=observb
Paired t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
---------+-------------------------------------------------------------------observa |
15
23.84667
2.041145
7.905321
19.46885
28.22449
observb |
15
21.56667
1.842221
7.134891
17.6155
25.51784
---------+-------------------------------------------------------------------diff |
15
2.28
.5819672
2.253949
1.031805
3.528196
-----------------------------------------------------------------------------Ho: mean(observa - observb) = mean(diff) = 0
Ha: mean(diff) < 0
t =
3.9177
P < t =
0.9992
Ha: mean(diff) ~= 0
t =
3.9177
P > |t| =
0.0015
Ha: mean(diff) > 0

t =
3.9177
P > t =
0.0008
Observando o resultado acima, o que voc conclui?
Converso de banco de dados - programa Stata/Transfer
Como foi comentado anteriormente, o STATA trabalha apenas com bancos de dados no
formato
"dta". O banco de dados que iremos utilizar agora (Plasma.xls) est no
formato EXCEL e, portanto, deve ser convertido para o formato de um banco de dados
do STATA. A converso deve ser feita por meio do STATA/TRANSFER, que um
programa de converso muito til e fcil de ser usado. Antes de inicializar o STATA,
utilize-o para converter o arquivo Plasma.xls em Plasma.dta.
Clique duas vezes no cone
Stat Transfer na rea de trabalho
Na opo transfer, h as seguintes alternativas:

Input file type: das vrias opes, escolha Excel
File specification: clique em Browse para achar o seu arquivo.
23
Note que, em seguida, o nmero de variveis que foram automaticamente

selecionadas exibido.
Output file type: das vrias opes, escolha STATA
File specification: automaticamente, o programa nomeia o arquivo com o mesmo
nome do banco de dados original, porm com a extenso dta.
Clique em Transfer. Quando o programa terminar clique em EXIT.
Pronto! Seu banco pode ser utilizado no programa STATA!
Relao entre duas variveis contnuas

1. Correlao linear de Pearson
Em muitas situaes, de interesse quantificar a fora da relao linear entre duas
variveis contnuas, sem designar uma como resposta e outra como explicativa.
O grau desta associao pode ser medido com o uso do coeficiente de correlao
linear de Pearson (r), que leva este nome pois foi descrito por Pearson. A correlao
entre duas variveis positiva se valores mais altos de uma varivel esto associados
a valores mais altos da outra, e negativa se os valores de uma varivel crescem
enquanto os da outra diminuem. O coeficiente de correlao prximo do zero significa
que no existe uma relao linear entre as duas variveis.
O coeficiente de correlao varia de 1 a +1, sendo:
+1: associao positiva perfeita
0: ausncia de associao
-1: associao negativa perfeita
24
Aplicao prtica:
Utilizando o banco de dados plasma.dta vamos verificar se existe uma relao linear
entre as variveis volume plasmtico e peso.
A melhor forma de iniciar o estudo da possvel relao entre estas duas variveis
contnuas construir um grfico de disperso, utilizando os comandos:
graph7
volume
peso
O grfico obtido foi:
volume
3.51
2.62
55
93
peso
Observando o grfico acima, voc acha que existe uma correlao linar entre o volume
plasmtico e o peso dos vinte homens includos neste banco de dados?
Podemos melhorar o visual deste grfico, por exemplo, acrescentando um ttulo ou
exibindo os valores das variveis de acordo com uma escala.
graph7
volume
peso,
3.0, 3.2, 3.4, 3.6)
xlab(50,60,70,80,90,100)
t1(Volume plasmtico (l)
ylab(2.6, 2.8,
e
peso (kg) de
vinte homens saudveis)

25
Volume plasmtico (l) e peso (kg) em vinte homens saudveis

3.6
volum e
3.4
3.2
2.8
2.6
50
60
70
peso
80
90
100
Para obter o valor do coeficiente de correlao de Pearson podemos utilizar o comando

correlate (que pode ser abreviado como corr):
corr
. corr
peso
volume
peso volume
(obs=20)
|
peso
volume
-------------+-----------------peso |
1.0000
volume |
0.7803
1.0000
A sada apresenta o nmero de sujeitos utilizados para o clculo (obs = 20) e o

coeficiente de correlao linear entre as variveis peso e volume, isto , r = 0,78.
possvel obter os coeficientes de correlao linear entre muitas variveis contnuas
do mesmo banco. Para isto, basta digitar os nomes das variveis aps o comando corr
(por exemplo, corr var1 var2 var3).
Pode ser usado tambm o comando pwcorr (pairwise correlation), que produz o
mesmo resultado e permite o uso da opo sig que apresenta o nvel de significncia
do coeficiente de correlao apresentado.
26
pwcorr volume peso, sig

. pwcorr volume peso, sig
|
volume
peso
-------------+-----------------volume |
1.0000
|
|
peso |
0.7803
1.0000
|
0.0000
|
A sada acima apresenta, abaixo do coeficiente de correlao (r = 0,78), o nvel de

significncia (p = 0,0000).
2. Regresso linear
A regresso linear apresenta a equao da reta que melhor descreve como a varivel y
aumenta (ou diminui) com um aumento na varivel x. A escolha de qual ser a varivel
a ser chamada de y importante porque, diferentemente da correlao, as duas
alternativas no fornecem o mesmo resultado. A varivel y comumente denominada
varivel dependente, e x a varivel independente ou explicativa. A tcnica de
regresso linear permite:
-
estudar a forma da relao entre x e y, e
obter o valor esperado de y quando conhecemos apenas o valor de x.
A equao da reta de regresso :

y = a + bx
onde a o intercepto e b a inclinao da reta.
27
a (intercepto): o ponto onde a reta cruza o eixo y e mostra o valor de y para x=0.
b (inclinao): mostra o aumento em y correspondente ao incremento de uma unidade
em x.
y
y = a + bx
b
1
a
Aplicao prtica:
Utilizando os dados de nosso arquivo plasma.dta vamos utilizar a tcnica de regresso
linear para obter a reta que melhor exprime a relao linear entre o peso e o volume
plasmtico dos indivduos includos no banco de dados. Nossa varivel independente
(x) ser o peso e a varivel dependente (ou resposta) ser o volume plasmtico (y).
Para fazer a regresso linear no STATA utilizaremos o comando regress. Para
executarmos este comando, a varivel dependente aparece em primeiro lugar, seguida
da varivel explicativa:
regress
volume
peso
Source |
SS
df
MS
-------------+-----------------------------Model | .967837779
1 .967837779
Residual | .621562203
18 .034531234
-------------+-----------------------------Total | 1.58939998
19 .083652631
Number of obs
F( 1,
18)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
20
28.03
0.0000
0.6089
0.5872
.18583
-----------------------------------------------------------------------------volume |
Coef.
Std. Err.
t
P>|t|
-------------+---------------------------------------------------------------peso |
.0204617
.003865
5.29
0.000
.0123417
.0285817
_cons |
1.552716
.2858553
5.43
0.000
.9521564
2.153276
------------------------------------------------------------------------------
28
O resultado deste comando consiste em duas partes. Na primeira h uma tabela que
fornece a quantidade de variao da varivel volume explicada pelo modelo de
regresso linear.
A segunda parte do resultado mostra os valores estimados para os parmetros. O valor
estimado para o parmetro correspondente ao intercepto a chamado _cons
(constante). O valor estimado do parmetro b o coeficiente para o peso. Na maioria
das vezes este o parmetro de maior interesse e pode ser chamado de coeficiente de
regresso do volume plasmtico com o peso.
Na sada apresentada acima, o valor estimado de a (_cons) 1,55 e o valor estimado
de b (peso) 0,02.
A partir da equao geral y = a + bx, podemos escrever a equao de regresso
utilizando as estimativas obtidas:
volume = 1,55 + 0,02(peso)
Prximo s estimativas dos parmetros esto os erros padro (EP) e os

correspondentes testes t e valores de p, que nos ajudam a decidir se cada parmetro
significantemente diferente de zero. O teste para o coeficiente de regresso o teste
da hiptese nula, ou seja, de no existir relao linear. Finalmente, temos os intervalos
de confiana (IC95%) dos valores dos parmetros estimados.
Observando a sada acima, quais so os EP dos parmetros estimados e quo forte
a evidncia de que existe uma associao linear entre estas duas variveis?
Depois de ajustar a reta de regresso, possvel calcular o volume plasmtico previsto
pelo modelo, dado o peso de cada indivduo, utilizando o seguinte comando:
predict Y
O comando acima gera uma nova varivel (de nome Y) onde ficam guardados os
valores previstos dos volumes plasmticos para cada peso observado. Para obter uma
lista das 10 primeiras observaes digite:
list
1.
2.
3.
4.
5.
peso
Y
2.739494
2.985034
2.892956
3.066881
2.852033
in
1/10
peso
58
70
65.5
74
63.5
29
6.
7.
8.
9.
10.
2.821341
2.995265
3.005496
2.944111
3.29196
62
70.5
71
68
85
Uma maneira descritiva de estudar a adequao do modelo adotado desenhar um

diagrama de disperso dos valores previstos versus os valores observados:
graph
volume
Y,
xlabel
ylabel
O grfico obtido foi:
volume
3.5
2.5
2.5
3
Fitted values
3.5
Finalmente, para construirmos o grfico de disperso mostrando os dados e a reta de

regresso ajustada do modelo construdo acima vamos utilizar o comando:
30
graph
volume
peso,
c(.l)
s(oi)
volume
Fitted values
volume
3.51
2.62
55
peso
93
c(.l) significa no conecte volume e conecte Y (valores previstos do volume).

s(oi) significa use pequenos crculos para volume e use um smbolo invisvel para Y.
Estratificao e regresso logstica

Controle de varivel de confuso
O conceito de varivel de confuso central na epidemiologia moderna. De uma
maneira simplificada, podemos dizer que confuso uma "mistura de efeitos", ocorre
quando a estimativa do efeito do fator de exposio estudado est misturado com o
efeito de outro fator.
A varivel de confuso est associada com a doena e a exposio em estudo, mas
no deve estar no caminho causal da exposio para o desenvolvimento da doena.
31
Estratificao
Uma varivel de confuso no deve ser identificada apenas atravs de mtodos
estatsticos, mas sim com base nos conhecimentos do pesquisador em relao ao
problema estudado. No entanto, algumas tcnicas, como estratificao e anlise
multivariada, podem auxiliar na identificao de uma varivel de confuso.
recomendvel que a estratificao seja feita em primeiro lugar, pois mais simples
de compreender do que a anlise multivariada.
Por exemplo, utilize o banco de dados motocobr.dta (pesquisa sobre transtornos
mentais comuns TMC- entre motoristas e cobradores de nibus na cidade de So
Paulo).
Avalie a associao entre transtorno mental comum, faixa etria e funo.
Quem tem maior prevalncia de TMC:
- motoristas ou cobradores?
- pessoas mais velhas ou mais novas?
Existe efeito de confundimento? O que voc acha?
A varivel de confuso est associada com a exposio em estudo e com o desfecho?
Para responder estas questes precisamos avaliar a associao entre faixa etria e
funo, entre faixa etria e TMC, e ainda, entre TMC e funo nas diferentes faixas
etrias.
32
tab
faet
fun , col
row
chi
|
funcao
faet | motorista
cobrador |
Total
-----------+----------------------+--------->29 anos |
387
214 |
601
|
64.39
35.61 |
100.00
|
91.49
56.76 |
75.13
-----------+----------------------+---------< 30 anos |
36
163 |
199
|
18.09
81.91 |
100.00
|
8.51
43.24 |
24.88
-----------+----------------------+---------Total |
423
377 |
800
|
52.88
47.13 |
100.00
|
100.00
100.00 |
100.00
Pearson chi2(1) = 128.6292
Pr = 0.000
Para fazer a anlise estratificada no STATA utilize o comando mhodds

mhodds (varivel dependente) (varivel de exposio) (varivel de controle)
mhodds
tmc
faet
Maximum likelihood estimate of the odds ratio

Comparing faet==2 vs. faet==1
---------------------------------------------------------------Odds Ratio chi2(1)
P>chi2
---------------------------------------------------------------1.985731
13.01
0.0003
1.357883 2.903880
---------------------------------------------------------------mhodds
tmc
fun
Maximum likelihood estimate of the odds ratio

Comparing fun==1 vs. fun==0
---------------------------------------------------------------Odds Ratio chi2(1)
P>chi2
---------------------------------------------------------------2.255424
19.98
0.0000
1.563236 3.254105
----------------------------------------------------------------
33
Anlise estratificada
mhodds
tmc
fun
faet
Mantel-Haenszel estimate of the odds ratio

Comparing fun==1 vs. fun==0, controlling for faet
---------------------------------------------------------------Odds Ratio
chi2(1)
P>chi2
---------------------------------------------------------------1.910025
11.40
0.0007
1.303355
2.799080
----------------------------------------------------------------
mhodds
tmc
faet
fun
Mantel-Haenszel estimate of the odds ratio

Comparing faet==2 vs. faet==1, controlling for fun
---------------------------------------------------------------Odds Ratio
chi2(1)
P>chi2
---------------------------------------------------------------1.461327
3.55
0.0595
0.982582
2.173331
----------------------------------------------------------------
Anlise Multivariada (modelo de regresso logstica)

possvel examinar associaes de diversas exposies com controle simultneo de
confuso
Para fazer uma regresso logstica no Stata utilizamos o comando logistic.
logistic (varivel dependente) (varivel de exposio) (varivel de controle)
logistic
tmc
fun
faet
Logit estimates
Log likelihood = -381.49553
Number of obs
LR chi2(2)
Prob > chi2
Pseudo R2
=
=
=
=
800
23.59
0.0000
0.0300
-----------------------------------------------------------------------------tmc | Odds Ratio

Std. Err.
z
P>|z|
-------------+---------------------------------------------------------------fun |
1.957635
.3925782
3.35
0.001
1.321401
2.900208
faet |
1.483997
.3112098
1.88
0.060
.9838463
2.238407
------------------------------------------------------------------------------
34
Quando utilizar o comando xi? Quando a varivel independente tem mais de duas
categorias.
Em nosso exemplo:
. xi: logistic
i.sal
tmc
fun
faet
_Isal_0-2
Logit estimates
Log likelihood = -381.30495
i.sal
(naturally coded; _Isal_0 omitted)

Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
=
=
=
=
800
23.97
0.0001
0.0305
-----------------------------------------------------------------------------tmc | Odds Ratio

Std. Err.
z
P>|z|
-------------+---------------------------------------------------------------fun |
1.875565
.4445464
2.65
0.008
1.178638
2.984584
faet |
1.45576
.3089633
1.77
0.077
.960362
2.206706
_Isal_1 |
1.151009
.2961827
0.55
0.585
.6950947
1.90596
_Isal_2 |
1.161853
.3202408
0.54
0.586
.676916
1.994193
------------------------------------------------------------------------------
Como voc interpreta os resultados?
Anlise de sobrevivncia
Em situaes especiais o foco de interesse do estudo o tempo at ocorrncia do
evento.
A partir da amostra possvel estimar a probabilidade de um novo indivduo sobreviver
at um tempo determinado.
Para esta anlise vamos utilizar o banco de dados de trabalhadores eletricitrios e
avaliar a probabilidade de morrer ao longo do tempo de trabalho e fatores
intervenientes.
Dentro do diretrio do curso utilize o banco coorte1.dta
Comece examinando as variveis o banco, utilize o comando describe
describe
35
Defina as datas de entrada e sada do estudo, e o desfecho, com o comando stset.

stset
(datasaid)
(obito),
id(id)
id: id
failure event: obito ~= 0 & obito ~= .
obs. time interval: (datasaid[_n-1], datasaid]
exit on or before: failure
----------------------------------------------------------------------------10017 total obs.
0 exclusions
----------------------------------------------------------------------------10017 obs. remaining, representing
10017 subjects
498 failures in single failure-per-subject data
1.26e+08 total analysis time at risk, at risk from t =
0
earliest observed entry t =
0
last observed exit t =
12783
Veja como o STATA produz os tempos de observao

stdes
failure _d: obito
analysis time _t: datasaid
id: id
|-------------- per subject --------------|
Category
total
mean
min
median
max
-----------------------------------------------------------------------------no. of subjects
10017
no. of records
10017
1
1
1
1
(first) entry time
(final) exit time
subjects with gap
time on gap if gap
time at risk
0
0
1.261e+08
0
12587.51
0
6940
0
12783
0
12783
.
12587.51
.
6940
.
12783
.
12783
failures
498
.0497155
0
0
1
------------------------------------------------------------------------------
Calcule a taxa de mortalidade e interprete o resultado.

strate
failure _d:
analysis time _t:
id:
obito
datasaid
id
Estimated rates and lower/upper bounds of 95% confidence intervals

(10017 records included in the analysis)
_D
_Y
_Rate
_Lower
_Upper
36
498
126089094.000
0.0000039
0.0000036
0.0000043
possvel visualizar graficamente a curva de sobrevivncia da coorte.

Pode-se tambm obter a curva inversa, de incidncia (mortalidade).
Tente interpretar as curvas obtidas.
sts
Kaplan-Meier survival estimate
1.00
0.75
0.50
0.25
0.00
0
5000
analysis time
10000
15000
Agora verifique se a mortalidade diferente segundo categoria ocupacional.

sts graph, na by (category)
37
Nelson-Aalen cumulative hazard estimates, by categori

0.08
0.06
categori 3
0.04
categori 2
0.02
categori 1
0.00
6000
8000
10000
analysis time
12000
14000
38
sts test
categori, logrank
failure _d:
analysis time _t:
id:
obito
datasaid
id
Log-rank test for equality of survivor functions

|
Events
Events
categori | observed
expected
---------+------------------------1
|
118
161.94
2
|
191
214.51
3
|
189
121.55
---------+------------------------Total
|
498
498.00
chi2(2) =
Pr>chi2 =
51.93
0.0000
Outros recursos do STATA
O STATA apresenta vrios recursos de ajuda ao usurio. Alm do manual impresso

(composto por 7 volumes), outros recursos disponveis so:
Comando HELP (exibido na tela de apresentao do STATA):
Clicando no item help aparecer uma caixa com vrios comandos: o comando
search permite que ao digitarmos um tpico sobre o qual necessitamos de informao
sejam localizados todos os comandos do STATA relacionados ao tema.
Suponha que voc deseja saber como calcular intervalos de confiana (confidence
intervals) utilizando o STATA. Clique em HELP, em seguida SEARCH e, na caixa de
dilogo que surgir digite confidence interval. O STATA exibir a seguinte tela:
Chapter 23 . . . . . . . . . . Estimation and post-estimation commands
(help est, postest)
[R]
bitest . . . . . . . . . . . . . . . . . . . Binomial probability test

(help bitest)
[R]
centile . . . . . . . . . . .
(help centile)
Report centile and confidence interval
39
[R]
ci . . . . . . Confidence intervals for means, proportions, and counts

(help ci)
[R]
epitab . . . . . . . . . . . . . . . . . .
(help epitab)
[R]
level . . . . . . . . . . . . . . . . .
(help level)
[R]
lincom . . . . . . . . . . . . . . . Linear combinations of estimators

(help lincom)
[R]
ltable . . . . . . . . . . . . . . . . . Life tables for survival data

(help ltable)
Tables for epidemiologists
Set default confidence level
Estes so alguns comandos em que so utilizados ou calculados intervalos de

confiana. Observe que abaixo do comando aparece entre parnteses help nome do
comando. Este o link para a ajuda de cada comando listado. Experimente clicar
sobre um deles.
Em outras situaes, conhecemos o nome do programa, mas temos dvidas sobre
como utiliz-lo ou sobre as opes que ele permite. Suponha que voc sabe que o
comando para calcular intervalos de confiana o comando ci, mas voc tem dvidas
sobre ele. Clique em HELP, em seguida STATA COMMAND. Na caixa de dilogo que
aparecer digite: ci. O STATA exibir a tela:
help for ci, cii
(manual: [R] ci)
--------------------------------------------------------------------------------Confidence intervals for means, proportions, and counts
ci
[varlist] [weight] [if exp] [in range] [, level(#) binomial

poisson exposure(varname) total ]
(normal)
cii #obs
#mean #sd [, level(#) ]
(binomial)
cii #obs
#succ
(Poisson)
cii #exposure #events
[, level(#) ]
, poisson [ level(#) ]
by ... : may be used with ci (but not with cii); see help by.
aweights and fweights are allowed; see help weights.
Description
ci computes standard errors and confidence intervals for each of the variables in
varlist. cii is the immediate form of ci; see help immed.
Options
level(#) specifies the confidence level, in percent, for confidence intervals;
see help level.
40
binomial tells ci that the variables are 0/1 binomial variables; exact binomial
confidence intervals are calculated. (cii produces binomial confidence
intervals when only two numbers are specified.)
poisson specifies that the variables (or numbers in the case of cii) are
Poisson-distributed counts; exact confidence intervals will be calculated.
exposure(varname) is used only with poisson. It is not necessary to specify
poisson if exposure() is specified. varname contains the total exposure
(typically a time or an area) during which the number of events recorded in
varlist were observed.
total is for use with the by ... : prefix; it requests that, in addition to ouput
for each by-group, output be added for all groups combined.
Examples
. ci mpg
. ci mpg price, level(90)
. ci promoted, binomial
. ci count, poisson
. ci deaths, exposure(pyears)
. cii 166 19509 4379
(166 obs, mean=19509, sd=4379)
. cii 166 19509 4379, level(90)
. cii 10 1
(10 binomial events, 1 observed success)
. cii 1 27, poisson
(27 Poisson events observed)
Also see
Manual: [R] ci
On-line: help for bitest, centile, immed, means, pctile, summarize, ttest
A tela de ajuda de comando apresenta a descrio, as opes, exemplos de utilizao

e outros comandos relacionados.
O HELP tambm oferece links para o site oficial do STATA. Uma das ferramentas mais
teis para os usurios que esto se familiarizando com o STATA so as FREQUENTLY
ASKED QUESTIONS (dvidas mais freqentes). Para utilizar este recurso, clique em
HELP, em seguida STATA WEB SITE e em seguida FREQUENTLY ASKED
QUESTIONS (FAQ) (este recurso s pode ser utilizado se voc estiver conectado
internet). H um recurso de busca na pgina de FAQs e tambm so exibidos os temas
j abordados, agrupados por assunto (estatstica, grficos etc).
O site do STATA (que pode ser acessado a partir do HELP ou diretamente atravs do
endereo: http://www.stata.com oferece outros recursos de suporte ao usurio, tais
como informaes sobre cursos on-line, livros, publicaes e atualizaes do
programa.
41
Leitura recomendada
Altman, D. E. (1991). Practical Statistics for Medical Research. London, Chapman &
Hall.
Berqu, E. S.; Souza, J. M. P.; Gotlieb, S. L. D. (1981). Bioestatstica. So Paulo,
Editora Pedaggica Universitria.
Hosmer D.W. e Lemeshow S. (1989). Applied logistic regression. John Wiey & Sons.
Kirkwood, B. R. (1988). Essentials of Medical Statistics. Oxford, Blackwell Science
Publications.
Kleinbaum, D. G. (1996). Survival Analysis. Springer-Verlag, New York.
Souza, M.F.M. (1996). Um estudo sobre o risco de distrbios psiquitricos
menores entre motoristas e cobradores do sistema de nibus urbano na
cidade de So Paulo. Tese de mestrado. Faculdade de Medicina - USP.
42

Bio-2009 - Apostila STATA v3

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bio-2009 - Apostila STATA v3

Enviado por

Direitos autorais:

Formatos disponíveis

Objetivo geral do curso

Esta apostila apresenta comandos bsicos para manipulao de bases de dados

Introduo ao STATA 9.0

O menu est disponvel na primeira linha e possui os recursos:

Tipos de arquivos do STATA

Onde esto os arquivos utilizados no curso ?

Preparando o STATA para anlise

log onde ficaro armazenados

cone (4)Begin Log e, ento, selecionando o tipo de arquivo=log, o caminho e o nome

Comandos bsicos do STATA :

descreve o arquivo de dados em uso

elimina variveis ou observaes

edita e lista dados

cria ou muda contedos de variveis

lista os valores das variveis por registro

muda o tamanho da memria a ser utilizada

aumenta o nmero de observaes no banco de dados

recodificar, agrupar cdigos

calcula medidas de tendncia central

produz tabelas simples e cruzadas

Varivel categrica (ou

qualitativa) aquela que pode ser classificada em categorias separadas e que no

Medidas de tendncia central:

Aplicao prtica-1 - Digitando os comandos na janela Command

Para mudar o nome de uma varivel, como por exemplo, id para

Os comandos tabulate , tab

produzem tabelas simples

Deve aparecer na tela os seguintes resultados:

Para criar a varivel nasc2, recodificar e inserir um rtulo

Seus resultados devem ter sido:

Aplicao prtica-2 - Utilizando os menus:

tab1 idade fun

3.3 Criar nova var IDADER, idade recodificada(agrupada) nas faixas:

min/30=1 31/40=2 41/50=3

idade2 = cut(idade), at (17, 31, 41, 51, 68)

3.4 - Inserir labels para a varivel IDADER

label define cod_idade

1 " ate 30"

3.5 - Produzir tabelas:

3.6 - Salvando os arquivos:

(2) arquivo de resultados(log) : clique no boto : Close/suspend Log e escolha

Abra o arquivo motcob.log no Word e observe os resultados.

(3) arquivo de comandos(do) : clique na da janela Review com o boto

Save Review Contents ... e

Visualizando o arquivo do : clique no boto Do-file Editor para abrir o

digite o comando abaixo na janela

Command para correr(processar) os comandos do arquivo do :

Voc pode usar tambm a opo ylabel

Para obter um histograma da varivel IDADE, digite:

Para melhorar a apresentao visual do histograma, utilize o opo xlabel e

Voc pode ainda, construir este mesmo grfico segundo FUN

Para correr(run) do arquivo do , digite o comando abaixo na janela Command

Manipulao de variveis categricas

Relacionando duas variveis categricas

ou, de forma abreviada, tab

Uma outra maneira de avaliar a associao utilizando um teste de associao.

Avaliando a associao de duas variveis com o teste Qui-quadrado

transtorno | falta ao trabalho no

Consideraes a respeito da validade do teste Qui-quadrado de Pearson

O teste Qui-quadrado de Pearson segue, aproximadamente, um distribuio chamada

transtorno | falta ao trabalho no

O que voc conclui da associao acima?

Relacionando trs variveis categricas