Você está na página 1de 42

Objetivo geral do curso

Esta apostila apresenta comandos bsicos para manipulao de bases de dados com a utilizao do aplicativo STATA 8.0 e introduz alguns conceitos bsicos de estatstica referentes aos comandos utilizados. O leitor interessado em conhecer mais sobre este programa ou aprender teoria estatstica mais detalhada deve procurar referncias especializadas.

Introduo ao STATA 9.0


O STATA possui amplo potencial de utilizao e trabalha com bases de dados que ficam armazenadas inteiramente na memria RAM do microcomputador. Por esta razo fornece processamentos de maneira muito rpida. Em geral, os comandos do STATA tem a forma: comando nomevar(s) if....in...., options O STATA diferencia letras maisculas das minsculas. Use sempre letras minsculas quando digitar comandos, e recomendamos que voc tambm use letras minsculas para os nomes de suas variveis. O STATA aceita abreviaes para comandos e nomes de variveis, desde que estas abreviaes no sejam ambguas.

Iniciando o STATA
O programa STATA, iniciado clicando duas vezes no cone localizado no desktop do Windows.

Janelas do STATA
Quatro janelas so apresentadas quando o STATA iniciado. So elas: Review: janela onde so armazenados os comandos Variables: janela que apresenta a lista das variveis do banco de dados ativo Stata Results: janela que mostra os resultados Stata Command: janela onde os comandos do STATA devem ser digitados

Clicando com o boto direito do mouse , na janela Review, ativa-se a opo para salvar os comandos.
1 2 3 4 5 6 7 8 9 10 11 12

O menu est disponvel na primeira linha e possui os recursos: File Edit Prefs Data Graphics Statistics Window e Help

Por exemplo, o menu "HELP SEARCH" utilizado para procurar ajuda sobre comandos do STATA. Na segunda linha encontra-se a Barra de Ferramentas com os cones: (1) Open (use): Carrega ou abre um banco de dados no formato do STATA (dta). (2) Save: Salva um arquivo no formato do STATA (dta). (3) Print Results: Imprime a janela de resultados. (4) Begin Log: Carrega, abre ou cria um arquivo do tipo ".log" ou ".smcl". (5) Start Viewer: Exibe a tela de ajuda (Help) em primeiro plano. (6) Bring Results Window to Front: Exibe a tela dos resultados em primeiro plano. (7) Bring Graph Window to Front: Exibe a tela com o grfico em primeiro plano. (8) Do-file Editor: Edita um arquivo de comandos (arquivo tipo ".do"). (9) Data Editor: Edita o arquivo de dados que est sendo utilizado. (10) Data Browser: Visualiza o arquivo de dados que est sendo utilizado. (11) Clear: prossegue a execuo do comando. (12) Break: Interrompe a execuo de uma tarefa ou comando.

Tipos de arquivos do STATA


.ado .dct .do .dta .gph .log ou .smcl .out .raw .sum arquivos arquivos do-file arquivos arquivos arquivos arquivos arquivos arquivos programa "do-files" ASCII , arquivo dicionrio de dados formato do STATA grficos textos com os resultados para impresso ASCII arquivos de dados controle de rede

Onde esto os arquivos utilizados no curso ? Em cada microcomputador foi criado o diretrio C:\Stata bsico\ com todos os

bancos de dados que sero utilizados neste curso. aconselhvel que voc salve os arquivos neste diretrio. Se voc no tem familiaridade com a linguagem de informtica e/ou com o Windows, procure um dos monitores para outros esclarecimentos.

Preparando o STATA para anlise


Em primeiro lugar, voc deve escolher o banco de dados que ir trabalhar e abrir/carrega-lo no STATA. Note que o STATA s abre bancos de dados no formato .dta. Por isso, caso seu banco de dados no esteja neste formato, antes de iniciar o STATA voc deve convert-lo utilizando o programa STAT/TRANSFER que um programa muito til e fcil de ser usado. Para ilustrar, vamos trabalhar com o arquivo motocobr.dta que refere-se a um estudo de prevalncia de transtornos mentais comuns (depresso e/ou ansiedade) em motoristas e cobradores de nibus da cidade de So Paulo (Souza, 1996). Abra o banco de dados clicando no cone (1)Open e, ento, selecione o caminho (pasta) onde est o arquivo motocobr.dta. Note o que mudou nas janelas do STATA!! Agora, vamos abrir tambm um arquivo do tipo log onde ficaro armazenados 3

todos os resultados gerados a partir da tela de comandos. Isto pode ser feito clicando o

cone (4)Begin Log e, ento, selecionando o tipo de arquivo= log, o caminho e o nome para o arquivo.

Comandos bsicos do STATA :


describe display drop edit generate graph list memory obs recode sort summarize tabulate descreve o arquivo de dados em uso calculadora de mo elimina variveis ou observaes edita e lista dados cria ou muda contedos de variveis cria grficos lista os valores das variveis por registro muda o tamanho da memria a ser utilizada aumenta o nmero de observaes no banco de dados recodificar, agrupar cdigos ordena os dados calcula medidas de tendncia central produz tabelas simples e cruzadas

Utilize o help do STATA para obter mais informaes sobre estes e outros comandos.

Salvando os comandos
Todos os comandos digitados na janela STATA Command so enviados para a janela Review. Estes comandos podem ser guardados em um arquivo especial (arquivos tipo "do") para, posteriormente, ser editado e utilizado em uma nova anlise. Para criar um arquivo do tipo "do" utilize o boto direito do mouse na janela Review.

Anlise descritiva
Aps a coleta de dados e a digitao dos mesmos em um banco de dados apropriado, o prximo passo a anlise descritiva. Esta etapa fundamental, pois uma anlise descritiva detalhada fornece ao pesquisador toda a informao contida no conjunto de dados. Neste enfoque, procura-se obter a maior quantidade possvel de informao, buscando responder s questes que esto sendo pesquisadas. As variveis podem ser classificadas em contnuas ou categricas. Por varivel contnua (ou quantitativa) entende-se as variveis que podem assumir todos os valores possveis dentro de um limite especificado. Varivel categrica (ou qualitativa) aquela que pode ser classificada em categorias separadas e que no assumem valores intermedirios, como por exemplo, sexo e estado civil. Em geral, uma anlise descritiva dos dados feita com base em medidas de posio e variabilidade. Para variveis contnuas, as medidas comumente utilizadas so as medidas de tendncia central, enquanto as variveis categricas so sumarizadas por meio de medidas de freqncia.

Medidas de tendncia central:


mdia aritmtica: a soma de todas as observaes dividida pelo nmero de observaes. mediana: valor central de uma distribuio. Para se obter a mediana, ordena-se as observaes em ordem crescente. Se o nmero de observaes for par, a mediana ser a mdia aritmtica dos dois valores centrais (n/2 e [(n/2)+1], onde n o nmero de observaes total da amostra. Se o nmero de observaes for mpar, a mediana ser o valor na posio (n + 1)/2. moda: o valor com a maior freqncia entre todas as observaes. freqncia: o nmero de vezes em que um valor ocorre.

A seguir so apresentados alguns comandos bsicos para fazer uma anlise descritiva dos dados:

Aplicao prtica-1 - Digitando os comandos na janela Command Digite describe ou desc e pressione ENTER, deve aparecer na janela Stata Results o seguinte resultado:
Contains data from C:\Motocobr.dta obs: 800 vars: 18 22 Aug 2000 15:44 size: 35,200 (96.3% of memory free) ------------------------------------------------------------------------------1. id long %12.0g id 2. idade byte %8.0g idade 3. pausas byte %8.0g numero de pausas dia 4. escola long %19.0g escola escola 5. nasc byte %8.0g nasc procedencia 6. tsp int %11.0g tsp tempo em SP 7. emp int %8.0g emp tipo de empresa 8. fun int %9.0g fun funcao 9. esc int %13.0g esc escala da linha do onibus 10. fol int %8.0g fol escala de folga 11. jorn int %11.0g jorn jornada de trabalho diaria 12. temp int %9.0g temp tempo de trabalho na empresa 13. trans long %12.0g trans transito diario 14. banco long %12.0g banco possibilidade ajuste do assento 15. fal int %8.0g fal falta ao trabalho no ultimo mes 16. sono int %10.0g sono sono diario 17. tmc int %8.0g srq transtorno mental comum 18. sal byte %8.0g sal salario mensal ------------------------------------------------------------------------------Sorted by:

Digite

list in 1

e pressione ENTER

Observation 1 id 27 escola primario com emp privada fol muda trans intenso sono >= 6 horas idade nasc fun jorn banco tmc 35 nordeste motorista > 9 sim nao pausas 2 tsp 11-20 anos esc linha altern temp < 4 anos fal nao sal > 6 sm

Para mudar o nome de uma varivel, como por exemplo, id para identif, digite rename id identif e pressione ENTER Para observar a mudana. Digite desc 6

Os comandos tabulate , tab ou cruzadas. tab escola

ou

tab1

produzem tabelas simples

escola | Freq. Percent Cum. --------------------+----------------------------------ginasio completo | 84 10.50 10.50 primario completo | 554 69.25 79.75 primario incompleto | 162 20.25 100.00 --------------------+----------------------------------Total | 800 100.00

tab

escola,

nolabel

escola | Freq. Percent Cum. ------------+----------------------------------0 | 84 10.50 10.50 1 | 554 69.25 79.75 2 | 162 20.25 100.00 ------------+----------------------------------Total | 800 100.00

Agora digite:

tab1

escola

fun

emp

Deve aparecer na tela os seguintes resultados:


-> tabulation of escola escola | Freq. Percent Cum. --------------------+----------------------------------ginasio completo | 84 10.50 10.50 primario completo | 554 69.25 79.75 primario incompleto | 162 20.25 100.00 --------------------+----------------------------------Total | 800 100.00 -> tabulation of fun funcao | Freq. Percent Cum. ------------+----------------------------------motorista | 423 52.88 52.88 cobrador | 377 47.12 100.00 ------------+----------------------------------Total | 800 100.00 -> tabulation of emp tipo de | empresa | Freq. Percent Cum. ------------+----------------------------------publica | 286 35.75 35.75 privada | 514 64.25 100.00 ------------+----------------------------------Total | 800 100.00

Para criar a varivel nasc2, recodificar e inserir um rtulo (label), utilize os comandos: tab nasc (tabela de freqncia) gen nasc2=nasc (criar varivel nasc2) recode nasc2 0=0 1=0 2=1 3=1 (recodifica varivel nasc2) label var nasc2 Grupos de Procedncia (insere var-label)

tab nasc2 label define cod_proc 0 sudeste 1 outros (insere value-label) label val tab nasc2 nasc2 cod_proc

Seus resultados devem ter sido:


tab nasc procedencia | Freq. Percent Cum. ------------+----------------------------------SP | 281 35.12 35.12 RJ/MG/ES | 135 16.88 52.00 outros | 48 6.00 58.00 nordeste | 336 42.00 100.00 ------------+----------------------------------Total | 800 100.00 tab nasc2 Grupos de | Procedncia | Freq. Percent Cum. ------------+----------------------------------0 | 416 52.00 52.00 1 | 384 48.00 100.00 ------------+----------------------------------Total | 800 100.00 tab nasc2 Grupos de | Procedncia | Freq. Percent Cum. ------------+----------------------------------sudeste | 416 52.00 52.00 outros | 384 48.00 100.00 ------------+----------------------------------Total | 800 100.00

O comando summarize ou sum utilizado para calcular mdia, desvio padro, mnimo, mximo, etc. summarize idade
Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------------------------idade | 800 37.69 10.52532 17 67

sum

idade,

detail

idade ------------------------------------------------------------Percentiles Smallest 1% 21 17 5% 22 19 10% 24 19 Obs 800 25% 30 19 Sum of Wgt. 800 50% 75% 90% 95% 99% 37 45 53 58 63 Largest 65 66 66 67 Mean Std. Dev. Variance Skewness Kurtosis 37.69 10.52532 110.7824 .440607 2.555018

Aplicao prtica-2 - Utilizando os menus:

Data e Statistics

2.1 - Para descrever o arquivo e suas variveis, clique no menu Data, opo: Data describe e explore todas as opes.

2.2 Para editar o banco de dados, clique no menu Data, opo: Data editor .

2.3 Para produzir tabelas simples, clique no menu Statistics, opo: Summaries, tables & tests Tables . Explore as opes do Summaries.

2.4 Criar a varivel nasc3 a partir da var NASC. Clique no menu Data, opo: Create or change variables Create new variable Acrescente label para a var nasc3 e label para os valores da var nasc3 (menu Data, opo: Label & notes)

2.5

Calcular a mdia, mediana, desvio padro, ... Clique no menu Data, opo Describe data Summary statistics ou menu Stastistics, opo: Summaries, tables & tests Summary statistics. 9

10

Aplicao prtica-3 3.1 Ler/abrir o arquivo : motocobr.dta Clique no menu File, opo open Abrir arquivo(log) para armazenar os resultados: Clique no boto: Begin log Digite motcob em nome do arquivo e clique e no boto SALVAR. 3.2 Produzir tabela de freqncia simples para as variveis IDADE e FUN. Comandos : tab1 idade fun tab1 idade fun , nolabel 3.3 Criar nova var IDADER, idade recodificada(agrupada) nas faixas: ate 30 ; 31 a 40 ; 41 a 50 ; 51 e mais Comandos:
ou recode idader min/30=1 31/40=2 41/50=3 51/max=4 generate idader= idade idader 17/30=1 31/40=2 41/50=3 51/67=4

recode

outra maneira :
gen(idade1) ou

recode idade

17/30=1 31/40=2

41/50=3

51/67=4,

egen

idade2 = cut(idade), at (17, 31, 41, 51, 68)

3.4 - Inserir labels para a varivel IDADER


Comandos: label var idader "idade agrupada" 1 " ate 30" 2 "31 - 40" 3 "41 -

label define cod_idade 50" 4 "51 e mais"

label val idader cod_idade

3.5 - Produzir tabelas: Comandos: tab idader tab idader fun tab idader fun , row col cel chi

11

3.6 - Salvando os arquivos: (1) arquivo de dados(dta) : menu File, opo Save as ... e digite motcob nome do arquivo. em

(2) arquivo de resultados(log) : clique no boto : Close/suspend Log e escolha a opo close log file e clique no boto OK para salvar.

Abra o arquivo motcob.log no Word e observe os resultados.

(3) arquivo de comandos(do) : clique na da janela Review com o boto direito do mouse , e escolha a opo motcob em nome do arquivo. Save Review Contents ... e digite

Visualizando o arquivo do : clique no boto Do-file Editor para abrir o arquivo motcob.do.

Correndo(Run) o arquivo

do:

digite o comando abaixo na janela

Command para correr(processar) os comandos do arquivo do :

do c:\stata bsico\motcob.do

12

Grficos
O comando graph do STATA possui vrias opes. Em geral, grficos de barra so usados para mostrar a distribuio de variveis categricas, enquanto histogramas e box-plots so usados para mostrar a distribuio das variveis quantitativas. Para obter um grfico de barras da varivel escola , utilize: graph7 escola ou gr7 escola

Voc pode usar tambm a opo ylabel graph7 escola, ylabel Ou ainda, obter o mesmo grfico para cada estrato da varivel funo sort fun graph7 escola, ylabel
motorista .8 .6 .4 .2

by(fun)
cobrador

Fraction

0 ginasio

primario

ginasio

primario

Histograms by funcao
A cada novo grfico que o Stata gerar, o anterior ser "perdido", por isso, s vezes desejvel salvar um grfico antes de gerar outro. Um grfico pode ser salvo de duas maneiras diferentes: a primeira copiar cada grfico e colar em um outro arquivo "fora" 13

escola

do STATA, por exemplo, um arquivo do Word. Uma outra maneira salvar a janela com o grfico como uma figura, utilizando o menu: File Save graph .

Para obter um histograma da varivel IDADE, digite: graph7 idade, hist ou histogram idade ou hist idade

Para melhorar a apresentao visual do histograma, utilize o opo xlabel e ylabel. O nmero de retngulos do histograma pode ser modificado pela opo bin(x). Para sobrepor ao seu histograma uma curva normal com mdia e desvio padro, adicione a opo normal. gr7 idade, hist xlabel ylabel bin(10) normal freq

.45 .4

.3 Fraction

.2

.1

10

20

45 idade

80

Um grfico do tipo boxplot para a varivel IDADE pode ser obtido com o comando gr7 idade, box

Voc pode ainda, construir este mesmo grfico segundo FUN sort fun gr7 idade, box gr7 idade, box

by(fun) by(fun) ylabel(15,25,34,40,46,66) 14

idade 66

46 40 34

25

15 motorista cobrador

Criando um arquivo do para obter grfico de barras. Clique no boto Do-file Editor, digite as linhas abaixo e salve com o nome graf1.do . clear input cobradores motoristas 45.24 54.76 "g.c." 54.15 45.85 "p.c." 52.47 47.53 "p.i." end sort esc gr bar cobradores moto, over(esc)

str12 esc

Para correr(run) do arquivo do , digite o comando abaixo na janela Command do graf1

15

Testes de hipteses
Testes de hipteses consistem em testar a significncia estatstica e quantificar o grau em que a variabilidade da amostra pode ser responsvel pelos resultados observados no estudo. Para isto, define-se uma hiptese nula (H 0) e uma hiptese alternativa (H a), que podem representar, por exemplo: H0 : no existe diferena entre exposio e doena Ha: existe diferena entre exposio e doena.

Manipulao de variveis categricas


A seguir so ilustradas algumas maneiras de relacionar duas ou mais variveis categricas.

Relacionando duas variveis categricas


Suponha que voc queira investigar se os trabalhadores que tm mais transtorno mental comum (TMC) faltam mais ao trabalho, ou seja, se existe uma associao entre TMC e a falta ao trabalho. Para isto, voc pode construir uma tabela 2X2 usando o comando tabulate tab tmc fal ou, de forma abreviada, tab

Somente esta tabulao no mostra com clareza se as duas variveis analisadas esto associadas. O que podemos fazer? Uma opo simples analisar as porcentagens destas variveis em relao aos totais observados. Os subcomandos row, col e cel fornecem, respectivamente, as porcentagens das linhas, colunas e do total: tab tab tab tmc tmc tmc fal, fal, fal, col row cel 16

Uma outra maneira de avaliar a associao utilizando um teste de associao.

Avaliando a associao de duas variveis com o teste Qui-quadrado de Pearson


Ainda com o objetivo de estudar a associao entre funo do empregado e presena de falta no ltimo ms, vamos usar o teste Qui-quadrado de Pearson para testar a significncia da associao. Para isto, utilize a opo chi. tab tmc fal, row chi

transtorno | falta ao trabalho no mental | ultimo mes comum | nao sim | Total -----------+----------------------+---------nao | 485 160 | 645 | 75.19 24.81 | 100.00 -----------+----------------------+---------sim | 100 55 | 155 | 64.52 35.48 | 100.00 -----------+----------------------+---------Total | 585 215 | 800 | 73.13 26.88 | 100.00 Pearson chi2(1) = 7.2500 Pr = 0.007

Consideraes a respeito da validade do teste Qui-quadrado de Pearson

O teste Qui-quadrado de Pearson segue, aproximadamente, um distribuio chamada Qui-quadrado ( 2 ). Para amostras grandes esta suposio razovel. No entanto, as seguintes regras podem ser usadas para garantir a validade do uso do teste: para tabelas 2 x 2, o teste 2 pode ser usado : - se o tamanho total da amostra (N) maior do que 40, - se N est entre 20 e 40 e o menor valor esperado maior ou igual a 5 para tabelas de dimenses maiores : - o teste 2 vlido se no mais do que 20% dos valores esperados forem menores do que 5 e nenhum for menor do que 1. Caso o teste 2 no seja adequado, uma opo utilizar o teste exato de Fisher obtido com o subcomando exact.

17

tab

tmc

fal,

row

exact

transtorno | falta ao trabalho no mental | ultimo mes comum | nao sim | Total -----------+----------------------+---------nao | 485 160 | 645 | 75.19 24.81 | 100.00 -----------+----------------------+---------sim | 100 55 | 155 | 64.52 35.48 | 100.00 -----------+----------------------+---------Total | 585 215 | 800 | 73.13 26.88 | 100.00 Fisher's exact = 1-sided Fisher's exact = 0.009 0.005

O que voc conclui da associao acima?

Relacionando trs variveis categricas


Utilize os comandos if, by ou tabulate, como mostrado a seguir:

tab

tmc

fal

if

fun= =1,

row

chi

transtorno | falta ao trabalho no mental | ultimo mes comum | nao sim | Total -----------+----------------------+---------nao | 203 76 | 279 | 72.76 27.24 | 100.00 -----------+----------------------+---------sim | 62 36 | 98 | 63.27 36.73 | 100.00 -----------+----------------------+---------Total | 265 112 | 377 | 70.29 29.71 | 100.00 Pearson chi2(1) = 3.1308 Pr = 0.077

18

tab

tmc

fal

if

fun= =0,

row

chi

. tab tmc fal if fun==0, row chi transtorno | falta ao trabalho no mental | ultimo mes comum | nao sim | Total -----------+----------------------+---------nao | 282 84 | 366 | 77.05 22.95 | 100.00 -----------+----------------------+---------sim | 38 19 | 57 | 66.67 33.33 | 100.00 -----------+----------------------+---------Total | 320 103 | 423 | 75.65 24.35 | 100.00 Pearson chi2(1) = 2.8861 Pr = 0.089

E agora? Qual a sua concluso sobre a associao entre TMC e falta ao trabalho?

Manipulao de variveis contnuas

Construo de intervalos de confiana para a mdia


A mdia uma medida pontual e no fornece nenhuma informao a respeito da variabilidade dos dados. Este procedimento no permite julgar qual a possvel magnitude do erro que estamos cometendo. Da surge a idia de construir o intervalo de confiana, que definido como o intervalo dentro do qual se encontra a verdadeira magnitude do efeito com um certo grau de certeza. O comando abaixo ilustra a construo do intervalo de confiana (IC) para a mdia da varivel idade. ci idade

Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------idade | 800 37.69 .3721263 36.95954 38.42046

Com base na amostra deste estudo, podemos dizer, com 95% de confiana, que o verdadeiro valor para a idade mdia dos motoristas e cobradores est entre 37,0 e 38,4 anos. 19

Note que, quando no especificamos um determinado nvel de confiana, o programa assume = 95% para o clculo do intervalo. No entanto, possvel mudar este valor usando a opo level. No exemplo abaixo, o IC foi construdo com confiana de 90%. ci idade, level(90)

Variable | Obs Mean Std. Err. [90% Conf. Interval] -------------+------------------------------------------------------------idade | 800 37.69 .3721263 37.0772 38.3028

O IC tambm pode ser utilizado para testar se a mdia de interesse estatisticamente igual, com um certo coeficiente de confiana, a um determinado valor de interesse. De maneira anloga, podemos fazer um teste de hiptese para avaliar a mesma questo: Ser que a idade mdia dos motoristas e cobradores estatisticamente diferente de 35 anos? Para isto, podemos usar o teste t de Student :

ttest

idade = 35

One-sample t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------idade | 800 37.69 .3721263 10.52532 36.95954 38.42046 -----------------------------------------------------------------------------Degrees of freedom: 799 Ho: mean(idade) = 35 Ha: mean < 35 t = 7.2287 P < t = 1.0000 Ha: mean ~= 35 t = 7.2287 P > |t| = 0.0000 Ha: mean > 35 t = 7.2287 P > t = 0.0000

Comparao entre mdias de duas amostras independentes


Suponha agora que voc queira avaliar se a idade mdia difere segundo a funo do trabalhador. Neste caso, utiliza a opo by(fun):

20

ttest

idade,

by(fun)

Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559 cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967 ---------+-------------------------------------------------------------------combined | 800 37.69 .3721263 10.52532 36.95954 38.42046 ---------+-------------------------------------------------------------------diff | 6.482081 .7097834 5.088818 7.875344 -----------------------------------------------------------------------------Degrees of freedom: 798 Ho: mean(motorist) - mean(cobrador) = diff = 0 Ha: diff < 0 t = 9.1325 P < t = 1.0000 Ha: diff ~= 0 t = 9.1325 P > |t| = 0.0000 Ha: diff > 0 t = 9.1325 P > t = 0.0000

Consideraes a respeito da validade do teste t de Student O teste t assume que a distribuio da varivel resposta aproximadamente normal e o desvio padro o mesmo em cada grupo a ser comparado. Ento, no caso acima, estamos assumindo que o desvio padro da varivel IDADE (varivel resposta) o mesmo para motoristas e cobradores. Esta suposio precisa ser verificada, o que pode ser feito com o comando: sdtest idade, by(fun)

Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559 cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967 ---------+-------------------------------------------------------------------combined | 800 37.69 .3721263 10.52532 36.95954 38.42046 -----------------------------------------------------------------------------Ho: sd(motorist) = sd(cobrador) F(422,376) observed = F_obs = F(422,376) lower tail = F_L = F_obs = F(422,376) upper tail = F_U = 1/F_obs = Ha: sd(1) < sd(2) P < F_obs = 0.0000 Ha: sd(1) ~= sd(2) P < F_L + P > F_U = 0.0000 0.589 0.589 1.697 Ha: sd(1) > sd(2) P > F_obs = 1.0000

Quando o teste acima (teste de homocedasticidade) indicar que as varincias no so iguais nos dois grupos, devemos usar um teste que considere esta desigualdade. Isto pode ser feito com o uso da opo unequal: 21

ttest

idade,

by(fun)

unequal

Two-sample t test with unequal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559 cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967 ---------+-------------------------------------------------------------------combined | 800 37.69 .3721263 10.52532 36.95954 38.42046 ---------+-------------------------------------------------------------------diff | 6.482081 .7204279 5.06763 7.896533 -----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 702.063 Ho: mean(motorist) - mean(cobrador) = diff = 0 Ha: diff < 0 t = 8.9975 P < t = 1.0000 Ha: diff ~= 0 t = 8.9975 P > |t| = 0.0000 Ha: diff > 0 t = 8.9975 P > t = 0.0000

No exemplo acima, qual dos testes voc julga ser o mais correto? Por qu? As idades mdias dos motoristas e dos cobrados estatisticamente igual?

Comparao entre mdias de duas amostras dependentes


Quando as amostras no so independentes dizemos que as observaes so correlacionadas e neste caso, o teste t-pareado mais indicado pois leva em conta a correlao existente entre as observaes. Um exemplo de amostras dependentes o estudo onde dois observadores diferentes fizeram medies da prega cutnea de 15 indivduos distintos. As medidas so observadas no mesmo indivduo, portanto, dizemos que as amostras dos 2 observadores so dependentes. O banco de dados do estudo descrito anteriormente chama-se Prega.dta. Neste

arquivo, os valores foram cadastrados de modo que cada indivduo tem seus dados representados em uma linha diferente. As variveis so descritas a seguir: id = identificao do indivduo observA = medida da prega cutnea segundo o observador A observB = medida da prega cutnea segundo o observador B

22

Para realizar o teste t-pareado basta digitar ttest observa=observb

Paired t test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------observa | 15 23.84667 2.041145 7.905321 19.46885 28.22449 observb | 15 21.56667 1.842221 7.134891 17.6155 25.51784 ---------+-------------------------------------------------------------------diff | 15 2.28 .5819672 2.253949 1.031805 3.528196 -----------------------------------------------------------------------------Ho: mean(observa - observb) = mean(diff) = 0 Ha: mean(diff) < 0 t = 3.9177 P < t = 0.9992 Ha: mean(diff) ~= 0 t = 3.9177 P > |t| = 0.0015 Ha: mean(diff) > 0 t = 3.9177 P > t = 0.0008

Observando o resultado acima, o que voc conclui?

Converso de banco de dados - programa Stata/Transfer

Como foi comentado anteriormente, o STATA trabalha apenas com bancos de dados no formato "dta". O banco de dados que iremos utilizar agora (Plasma.xls) est no formato EXCEL e, portanto, deve ser convertido para o formato de um banco de dados do STATA. A converso deve ser feita por meio do STATA/TRANSFER, que um programa de converso muito til e fcil de ser usado. Antes de inicializar o STATA, utilize-o para converter o arquivo Plasma.xls em Plasma.dta. Clique duas vezes no cone Stat Transfer na rea de trabalho

Na opo transfer, h as seguintes alternativas: Input file type: das vrias opes, escolha Excel File specification: clique em Browse para achar o seu arquivo.

23

Note que, em seguida, o nmero de variveis que foram automaticamente selecionadas exibido. Output file type: das vrias opes, escolha STATA File specification: automaticamente, o programa nomeia o arquivo com o mesmo nome do banco de dados original, porm com a extenso dta. Clique em Transfer. Quando o programa terminar clique em EXIT. Pronto! Seu banco pode ser utilizado no programa STATA!

Relao entre duas variveis contnuas


1. Correlao linear de Pearson
Em muitas situaes, de interesse quantificar a fora da relao linear entre duas variveis contnuas, sem designar uma como resposta e outra como explicativa. O grau desta associao pode ser medido com o uso do coeficiente de correlao linear de Pearson (r), que leva este nome pois foi descrito por Pearson. A correlao entre duas variveis positiva se valores mais altos de uma varivel esto associados a valores mais altos da outra, e negativa se os valores de uma varivel crescem enquanto os da outra diminuem. O coeficiente de correlao prximo do zero significa que no existe uma relao linear entre as duas variveis. O coeficiente de correlao varia de 1 a +1, sendo: +1: associao positiva perfeita 0: ausncia de associao -1: associao negativa perfeita

24

Aplicao prtica: Utilizando o banco de dados plasma.dta vamos verificar se existe uma relao linear entre as variveis volume plasmtico e peso. A melhor forma de iniciar o estudo da possvel relao entre estas duas variveis contnuas construir um grfico de disperso, utilizando os comandos:

graph7

volume

peso

O grfico obtido foi:


3.51

volume

2.62 55 peso 93

Observando o grfico acima, voc acha que existe uma correlao linar entre o volume plasmtico e o peso dos vinte homens includos neste banco de dados? Podemos melhorar o visual deste grfico, por exemplo, acrescentando um ttulo ou exibindo os valores das variveis de acordo com uma escala. graph7 volume peso, xlab(50,60,70,80,90,100) t1(Volume plasmtico (l) e ylab(2.6, 2.8, peso (kg) de

3.0, 3.2, 3.4, 3.6)

vinte homens saudveis) 25

Volume plasmtico (l) e peso (kg) em vinte homens saudveis 3.6

3.4

volume

3.2

2.8

2.6 50 60 70 peso 80 90 100

Para obter o valor do coeficiente de correlao de Pearson podemos utilizar o comando correlate (que pode ser abreviado como corr):

corr . corr

peso

volume

peso volume

(obs=20) | peso volume -------------+-----------------peso | 1.0000 volume | 0.7803 1.0000

A sada apresenta o nmero de sujeitos utilizados para o clculo (obs = 20) e o coeficiente de correlao linear entre as variveis peso e volume, isto , r = 0,78. possvel obter os coeficientes de correlao linear entre muitas variveis contnuas do mesmo banco. Para isto, basta digitar os nomes das variveis aps o comando corr (por exemplo, corr var1 var2 var3). Pode ser usado tambm o comando pwcorr (pairwise correlation), que produz o mesmo resultado e permite o uso da opo sig que apresenta o nvel de significncia do coeficiente de correlao apresentado.

26

pwcorr volume peso, sig


. pwcorr volume peso, sig | volume peso -------------+-----------------volume | 1.0000 | | peso | 0.7803 1.0000 | 0.0000 |

A sada acima apresenta, abaixo do coeficiente de correlao ( r = 0,78), o nvel de significncia (p = 0,0000).

2. Regresso linear

A regresso linear apresenta a equao da reta que melhor descreve como a varivel y aumenta (ou diminui) com um aumento na varivel x. A escolha de qual ser a varivel a ser chamada de y importante porque, diferentemente da correlao, as duas alternativas no fornecem o mesmo resultado. A varivel y comumente denominada varivel dependente, e x a varivel independente ou explicativa. A tcnica de regresso linear permite: estudar a forma da relao entre x e y, e obter o valor esperado de y quando conhecemos apenas o valor de x.

A equao da reta de regresso : y = a + bx onde a o intercepto e b a inclinao da reta. 27

a (intercepto): o ponto onde a reta cruza o eixo y e mostra o valor de y para x=0. b (inclinao): mostra o aumento em y correspondente ao incremento de uma unidade em x. y y = a + bx b 1 a

Aplicao prtica: Utilizando os dados de nosso arquivo plasma.dta vamos utilizar a tcnica de regresso linear para obter a reta que melhor exprime a relao linear entre o peso e o volume plasmtico dos indivduos includos no banco de dados. Nossa varivel independente (x) ser o peso e a varivel dependente (ou resposta) ser o volume plasmtico ( y). Para fazer a regresso linear no STATA utilizaremos o comando regress. Para executarmos este comando, a varivel dependente aparece em primeiro lugar, seguida da varivel explicativa: regress volume peso
Number of obs F( 1, 18) Prob > F R-squared Adj R-squared Root MSE = = = = = = 20 28.03 0.0000 0.6089 0.5872 .18583

Source | SS df MS -------------+-----------------------------Model | .967837779 1 .967837779 Residual | .621562203 18 .034531234 -------------+-----------------------------Total | 1.58939998 19 .083652631

-----------------------------------------------------------------------------volume | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------peso | .0204617 .003865 5.29 0.000 .0123417 .0285817 _cons | 1.552716 .2858553 5.43 0.000 .9521564 2.153276 ------------------------------------------------------------------------------

28

O resultado deste comando consiste em duas partes. Na primeira h uma tabela que fornece a quantidade de variao da varivel volume explicada pelo modelo de regresso linear. A segunda parte do resultado mostra os valores estimados para os parmetros. O valor estimado para o parmetro correspondente ao intercepto a chamado _cons (constante). O valor estimado do parmetro b o coeficiente para o peso. Na maioria das vezes este o parmetro de maior interesse e pode ser chamado de coeficiente de regresso do volume plasmtico com o peso. Na sada apresentada acima, o valor estimado de a ( _cons) 1,55 e o valor estimado de b (peso) 0,02. A partir da equao geral y = a + bx, podemos escrever a equao de regresso utilizando as estimativas obtidas: volume = 1,55 + 0,02(peso)

Prximo s estimativas dos parmetros esto os erros padro (EP) e os correspondentes testes t e valores de p, que nos ajudam a decidir se cada parmetro significantemente diferente de zero. O teste para o coeficiente de regresso o teste da hiptese nula, ou seja, de no existir relao linear. Finalmente, temos os intervalos de confiana (IC95%) dos valores dos parmetros estimados. Observando a sada acima, quais so os EP dos parmetros estimados e quo forte a evidncia de que existe uma associao linear entre estas duas variveis? Depois de ajustar a reta de regresso, possvel calcular o volume plasmtico previsto pelo modelo, dado o peso de cada indivduo, utilizando o seguinte comando: predict Y O comando acima gera uma nova varivel (de nome Y) onde ficam guardados os valores previstos dos volumes plasmticos para cada peso observado. Para obter uma lista das 10 primeiras observaes digite: list
1. 2. 3. 4. 5.

peso

in

1/10
peso 58 70 65.5 74 63.5

Y 2.739494 2.985034 2.892956 3.066881 2.852033

29

6. 7. 8. 9. 10.

2.821341 2.995265 3.005496 2.944111 3.29196

62 70.5 71 68 85

Uma maneira descritiva de estudar a adequao do modelo adotado desenhar um diagrama de disperso dos valores previstos versus os valores observados:

graph

volume

Y,

xlabel

ylabel

O grfico obtido foi:


3.5

volume

2.5 2.5 3 Fitted values 3.5

Finalmente, para construirmos o grfico de disperso mostrando os dados e a reta de regresso ajustada do modelo construdo acima vamos utilizar o comando:

30

graph

volume

peso,
volume

c(.l)

s(oi)
Fitted values

3.51

volume

2.62 55 peso 93

c(.l) significa no conecte volume e conecte Y (valores previstos do volume). s(oi) significa use pequenos crculos para volume e use um smbolo invisvel para Y.

Estratificao e regresso logstica


Controle de varivel de confuso
O conceito de varivel de confuso central na epidemiologia moderna. De uma maneira simplificada, podemos dizer que confuso uma "mistura de efeitos", ocorre quando a estimativa do efeito do fator de exposio estudado est misturado com o efeito de outro fator. A varivel de confuso est associada com a doena e a exposio em estudo, mas no deve estar no caminho causal da exposio para o desenvolvimento da doena.

31

Estratificao
Uma varivel de confuso no deve ser identificada apenas atravs de mtodos estatsticos, mas sim com base nos conhecimentos do pesquisador em relao ao problema estudado. No entanto, algumas tcnicas, como estratificao e anlise multivariada, podem auxiliar na identificao de uma varivel de confuso. recomendvel que a estratificao seja feita em primeiro lugar, pois mais simples de compreender do que a anlise multivariada. Por exemplo, utilize o banco de dados motocobr.dta (pesquisa sobre transtornos mentais comuns TMC- entre motoristas e cobradores de nibus na cidade de So Paulo). Avalie a associao entre transtorno mental comum, faixa etria e funo. Quem tem maior prevalncia de TMC: - motoristas ou cobradores? - pessoas mais velhas ou mais novas? Existe efeito de confundimento? O que voc acha? A varivel de confuso est associada com a exposio em estudo e com o desfecho? Para responder estas questes precisamos avaliar a associao entre faixa etria e funo, entre faixa etria e TMC, e ainda, entre TMC e funo nas diferentes faixas etrias.

32

tab

faet

fun , col

row

chi

| funcao faet | motorista cobrador | Total -----------+----------------------+--------->29 anos | 387 214 | 601 | 64.39 35.61 | 100.00 | 91.49 56.76 | 75.13 -----------+----------------------+---------< 30 anos | 36 163 | 199 | 18.09 81.91 | 100.00 | 8.51 43.24 | 24.88 -----------+----------------------+---------Total | 423 377 | 800 | 52.88 47.13 | 100.00 | 100.00 100.00 | 100.00 Pearson chi2(1) = 128.6292 Pr = 0.000

Para fazer a anlise estratificada no STATA utilize o comando mhodds mhodds (varivel dependente) (varivel de exposio) (varivel de controle) mhodds tmc faet

Maximum likelihood estimate of the odds ratio Comparing faet==2 vs. faet==1 ---------------------------------------------------------------Odds Ratio chi2(1) P>chi2 [95% Conf. Interval] ---------------------------------------------------------------1.985731 13.01 0.0003 1.357883 2.903880 ---------------------------------------------------------------mhodds tmc fun

Maximum likelihood estimate of the odds ratio Comparing fun==1 vs. fun==0 ---------------------------------------------------------------Odds Ratio chi2(1) P>chi2 [95% Conf. Interval] ---------------------------------------------------------------2.255424 19.98 0.0000 1.563236 3.254105 ----------------------------------------------------------------

33

Anlise estratificada
mhodds tmc fun faet

Mantel-Haenszel estimate of the odds ratio Comparing fun==1 vs. fun==0, controlling for faet ---------------------------------------------------------------Odds Ratio chi2(1) P>chi2 [95% Conf. Interval] ---------------------------------------------------------------1.910025 11.40 0.0007 1.303355 2.799080 ----------------------------------------------------------------

mhodds

tmc

faet

fun

Mantel-Haenszel estimate of the odds ratio Comparing faet==2 vs. faet==1, controlling for fun ---------------------------------------------------------------Odds Ratio chi2(1) P>chi2 [95% Conf. Interval] ---------------------------------------------------------------1.461327 3.55 0.0595 0.982582 2.173331 ----------------------------------------------------------------

Anlise Multivariada (modelo de regresso logstica)


possvel examinar associaes de diversas exposies com controle simultneo de confuso Para fazer uma regresso logstica no Stata utilizamos o comando logistic. logistic (varivel dependente) (varivel de exposio) (varivel de controle) logistic tmc fun faet
Number of obs LR chi2(2) Prob > chi2 Pseudo R2 = = = = 800 23.59 0.0000 0.0300

Logit estimates Log likelihood = -381.49553

-----------------------------------------------------------------------------tmc | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------fun | 1.957635 .3925782 3.35 0.001 1.321401 2.900208 faet | 1.483997 .3112098 1.88 0.060 .9838463 2.238407 ------------------------------------------------------------------------------

34

Quando utilizar o comando xi? Quando a varivel independente tem mais de duas categorias. Em nosso exemplo: . xi: logistic
i.sal Logit estimates Log likelihood = -381.30495

tmc

fun

faet

i.sal

_Isal_0-2

(naturally coded; _Isal_0 omitted) Number of obs LR chi2(4) Prob > chi2 Pseudo R2 = = = = 800 23.97 0.0001 0.0305

-----------------------------------------------------------------------------tmc | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------fun | 1.875565 .4445464 2.65 0.008 1.178638 2.984584 faet | 1.45576 .3089633 1.77 0.077 .960362 2.206706 _Isal_1 | 1.151009 .2961827 0.55 0.585 .6950947 1.90596 _Isal_2 | 1.161853 .3202408 0.54 0.586 .676916 1.994193 ------------------------------------------------------------------------------

Como voc interpreta os resultados?

Anlise de sobrevivncia
Em situaes especiais o foco de interesse do estudo o tempo at ocorrncia do evento. A partir da amostra possvel estimar a probabilidade de um novo indivduo sobreviver at um tempo determinado. Para esta anlise vamos utilizar o banco de dados de trabalhadores eletricitrios e avaliar a probabilidade de morrer ao longo do tempo de trabalho e fatores intervenientes. Dentro do diretrio do curso utilize o banco coorte1.dta Comece examinando as variveis o banco, utilize o comando describe describe

35

Defina as datas de entrada e sada do estudo, e o desfecho, com o comando stset. stset (datasaid) (obito), id(id)

id: id failure event: obito ~= 0 & obito ~= . obs. time interval: (datasaid[_n-1], datasaid] exit on or before: failure ----------------------------------------------------------------------------10017 total obs. 0 exclusions ----------------------------------------------------------------------------10017 obs. remaining, representing 10017 subjects 498 failures in single failure-per-subject data 1.26e+08 total analysis time at risk, at risk from t = 0 earliest observed entry t = 0 last observed exit t = 12783

Veja como o STATA produz os tempos de observao stdes


failure _d: obito analysis time _t: datasaid id: id
|-------------- per subject --------------| Category total mean min median max -----------------------------------------------------------------------------no. of subjects 10017 no. of records 10017 1 1 1 1 (first) entry time (final) exit time subjects with gap time on gap if gap time at risk 0 0 1.261e+08 0 12587.51 . 12587.51 0 6940 . 6940 0 12783 . 12783 0 12783 . 12783

failures 498 .0497155 0 0 1 ------------------------------------------------------------------------------

Calcule a taxa de mortalidade e interprete o resultado. strate


failure _d: analysis time _t: id: obito datasaid id

Estimated rates and lower/upper bounds of 95% confidence intervals (10017 records included in the analysis) _D _Y _Rate _Lower _Upper

36

498

126089094.000

0.0000039

0.0000036

0.0000043

possvel visualizar graficamente a curva de sobrevivncia da coorte. Pode-se tambm obter a curva inversa, de incidncia (mortalidade). Tente interpretar as curvas obtidas. sts
Kaplan-Meier survival estimate 1.00

0.75

0.50

0.25

0.00 0 5000 analysis time 10000 15000

Agora verifique se a mortalidade diferente segundo categoria ocupacional. sts graph, na by (category)

37

Nelson-Aalen cumulative hazard estimates, by categori 0.08

0.06
categori 3

0.04

0.02

categori 2

0.00 6000 8000

categori 1

10000 analysis time

12000

14000

38

sts test

categori, logrank
obito datasaid id

failure _d: analysis time _t: id:

Log-rank test for equality of survivor functions | Events Events categori | observed expected ---------+------------------------1 | 118 161.94 2 | 191 214.51 3 | 189 121.55 ---------+------------------------Total | 498 498.00 chi2(2) = Pr>chi2 = 51.93 0.0000

Outros recursos do STATA

O STATA apresenta vrios recursos de ajuda ao usurio. Alm do manual impresso (composto por 7 volumes), outros recursos disponveis so: Comando HELP (exibido na tela de apresentao do STATA): Clicando no item help aparecer uma caixa com vrios comandos: o comando search permite que ao digitarmos um tpico sobre o qual necessitamos de informao sejam localizados todos os comandos do STATA relacionados ao tema. Suponha que voc deseja saber como calcular intervalos de confiana ( confidence intervals) utilizando o STATA. Clique em HELP, em seguida SEARCH e, na caixa de dilogo que surgir digite confidence interval. O STATA exibir a seguinte tela:
Chapter 23 . . . . . . . . . . Estimation and post-estimation commands (help est, postest) [R] bitest . . . . . . . . . . . . . . . . . . . Binomial probability test (help bitest) centile . . . . . . . . . . . (help centile) Report centile and confidence interval

[R]

39

[R]

ci . . . . . . Confidence intervals for means, proportions, and counts (help ci) epitab . . . . . . . . . . . . . . . . . . (help epitab) level . . . . . . . . . . . . . . . . . (help level) Tables for epidemiologists

[R]

[R]

Set default confidence level

[R]

lincom . . . . . . . . . . . . . . . Linear combinations of estimators (help lincom) ltable . . . . . . . . . . . . . . . . . Life tables for survival data (help ltable)

[R]

Estes so alguns comandos em que so utilizados ou calculados intervalos de confiana. Observe que abaixo do comando aparece entre parnteses help nome do comando. Este o link para a ajuda de cada comando listado. Experimente clicar sobre um deles. Em outras situaes, conhecemos o nome do programa, mas temos dvidas sobre como utiliz-lo ou sobre as opes que ele permite. Suponha que voc sabe que o comando para calcular intervalos de confiana o comando ci, mas voc tem dvidas sobre ele. Clique em HELP, em seguida STATA COMMAND. Na caixa de dilogo que aparecer digite: ci. O STATA exibir a tela:
help for ci, cii (manual: [R] ci) --------------------------------------------------------------------------------Confidence intervals for means, proportions, and counts ci (normal) (binomial) (Poisson) [varlist] [weight] [if exp] [in range] [, level(#) binomial poisson exposure(varname) total ] #mean #sd [, level(#) ] #succ [, level(#) ] , poisson [ level(#) ]

cii #obs cii #obs

cii #exposure #events

by ... : may be used with ci (but not with cii); see help by. aweights and fweights are allowed; see help weights. Description ci computes standard errors and confidence intervals for each of the variables in varlist. cii is the immediate form of ci; see help immed. Options level(#) specifies the confidence level, in percent, for confidence intervals; see help level.

40

binomial tells ci that the variables are 0/1 binomial variables; exact binomial confidence intervals are calculated. (cii produces binomial confidence intervals when only two numbers are specified.) poisson specifies that the variables (or numbers in the case of cii) are Poisson-distributed counts; exact confidence intervals will be calculated. exposure(varname) is used only with poisson. It is not necessary to specify poisson if exposure() is specified. varname contains the total exposure (typically a time or an area) during which the number of events recorded in varlist were observed. total is for use with the by ... : prefix; it requests that, in addition to ouput for each by-group, output be added for all groups combined. Examples . ci mpg . ci mpg price, level(90) . ci promoted, binomial . ci count, poisson . ci deaths, exposure(pyears) . cii 166 19509 4379 (166 obs, mean=19509, sd=4379) . cii 166 19509 4379, level(90) . cii 10 1 (10 binomial events, 1 observed success) . cii 1 27, poisson (27 Poisson events observed) Also see Manual: [R] ci On-line: help for bitest, centile, immed, means, pctile, summarize, ttest

A tela de ajuda de comando apresenta a descrio, as opes, exemplos de utilizao e outros comandos relacionados. O HELP tambm oferece links para o site oficial do STATA. Uma das ferramentas mais teis para os usurios que esto se familiarizando com o STATA so as FREQUENTLY ASKED QUESTIONS (dvidas mais freqentes). Para utilizar este recurso, clique em HELP, em seguida STATA WEB SITE e em seguida FREQUENTLY ASKED QUESTIONS (FAQ) (este recurso s pode ser utilizado se voc estiver conectado internet). H um recurso de busca na pgina de FAQs e tambm so exibidos os temas j abordados, agrupados por assunto (estatstica, grficos etc). O site do STATA (que pode ser acessado a partir do HELP ou diretamente atravs do endereo: http://www.stata.com oferece outros recursos de suporte ao usurio, tais como informaes sobre cursos on-line, livros, publicaes e atualizaes do programa.

41

Leitura recomendada

Altman, D. E. (1991). Practical Statistics for Medical Research . London, Chapman & Hall. Berqu, E. S.; Souza, J. M. P.; Gotlieb, S. L. D. (1981). Bioestatstica. So Paulo, Editora Pedaggica Universitria. Hosmer D.W. e Lemeshow S. (1989). Applied logistic regression. John Wiey & Sons. Kirkwood, B. R. (1988). Essentials of Medical Statistics . Oxford, Blackwell Science Publications. Kleinbaum, D. G. (1996). Survival Analysis. Springer-Verlag, New York. Souza, M.F.M. (1996). Um estudo sobre o risco de distrbios psiquitricos menores entre motoristas e cobradores do sistema de nibus urbano na cidade de So Paulo. Tese de mestrado. Faculdade de Medicina - USP.

42