Você está na página 1de 129

Sum

ario
1 Defini
c
oes e Conceitos
1.1 Introduc
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 BioEstatstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Os Conceitos da Bioestatstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Experimenta
c
ao Biom
etrica
2.1 Introduc
ao . . . . . . . . . . . . . . . . . . . .
2.2 O Raciocnio Indutivo da Biometria . . . . .
2.3 Delineamentos Experimentais . . . . . . . . .
2.3.1 Etapa de um levantamento estatstico
2.4 Aspectos Estatsticos dos Estudos Etiologicos
2.4.1 Estudo de Caso-Controle . . . . . . .
2.4.2 Estudo de Coorte . . . . . . . . . . . .
2.4.3 Ensaios Clnicos Aleatorizados . . . .
2.4.4 Estudos Descritivos . . . . . . . . . .

1
1
1
2

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

7
7
7
7
8
11
11
13
16
17

3 Estatstica Descritiva
3.1 Organizac
ao de Dados Estatsticos . . . . . . . . . . .
3.1.1 Normas para a Apresentacao Tabular de Dados
3.2 Distribuic
ao de Frequencias . . . . . . . . . . . . . . .
3.3 Gracos . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Diagramas . . . . . . . . . . . . . . . . . . . . .
3.4 Medidas Descritivas . . . . . . . . . . . . . . . . . . .
3.4.1 Medidas de Tendencia Central ou de Posicao .
3.4.2 Medida de Variabilidade ou de Dispersao . . .
3.4.3 Medidas Separatrizes . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

20
20
20
21
23
24
29
29
32
35

4 No
c
oes de Probabilidade
4.1 Introduc
ao . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Espaco Amostral e Eventos . . . . . . . . . . . . . . . . .
4.3 Denic
ao Axiomatica de Probabilidade . . . . . . . . . . .
4.4 Propriedades Fundamentais . . . . . . . . . . . . . . . . .
4.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . .
4.6 Independencia Estatstica . . . . . . . . . . . . . . . . . .
4.7 Vari
avel Aleatoria Discreta e Contnua . . . . . . . . . . .
4.7.1 Esperanca Matematica de uma Variavel Aleatoria
4.7.2 Variabilidade de uma Vari
avel Aleatoria . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

41
41
41
42
43
44
46
46
47
48

5 Distribui
co
es de Probabilidade
5.1 Distribuic
ao Binomial . . . .
5.2 Distribuic
ao de Poisson . . .
5.3 Distribuic
ao Normal . . . . .
5.4 Distribuic
ao Exponencial . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

49
49
50
50
52

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

6 Infer
encia Estatstica
6.1 Introduc
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Nocoes de Amostragem . . . . . . . . . . . . . . . . . . . .
6.2.1 Plano de Amostragem . . . . . . . . . . . . . . . . .
6.2.2 Amostragem Aleatoria Simples (AAS) . . . . . . . .
6.2.3 Amostragem Aleatoria Simples Sistematica (AASist)
6.2.4 Amostragem Aleatoria por Conglomerados (AAC) .
6.2.5 Amostragem Aleatoria Estraticada (AAE) . . . . .
6.3 Distribuic
ao Amostral . . . . . . . . . . . . . . . . . . . . .
6.3.1 Distribuic
ao Amostral da Media . . . . . . . . . . .
6.3.2 Distribuic
ao Amostral da Diferenca de Medias . . .
6.3.3 Distribuic
ao Amostral da Proporcao . . . . . . . . .
6.4 Intervalo de Conanca . . . . . . . . . . . . . . . . . . . . .
6.4.1 Intervalo de Conanca para Media . . . . . . . . . .
6.4.2 Intervalo de Conanca para Diferenca de Medias . .
6.4.3 Intervalo de Conanca para Proporcao . . . . . . . .
6.5 Tamanho da Amostra . . . . . . . . . . . . . . . . . . . . .
6.5.1 Metodo Simples . . . . . . . . . . . . . . . . . . . .
6.5.2 Metodo Inferencial . . . . . . . . . . . . . . . . . . .
6.6 Testes de Hipoteses . . . . . . . . . . . . . . . . . . . . . . .
6.6.1 Construc
ao de um Teste de Hipotese . . . . . . . . .
6.6.2 O p-valor . . . . . . . . . . . . . . . . . . . . . . . .
6.6.3 Teste de Hipotese para Media . . . . . . . . . . . . .
6.6.4 Teste de Hipotese para Proporcao . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

53
53
54
54
55
56
56
57
59
59
62
63
64
64
65
65
66
66
67
71
71
72
73
76

7 An
alise em Tabelas 2x2 e LxC
7.1 Tabelas de Contingencia . . . . . . . . . . . .
7.2 Teste de Independencia e de Homogeneidade
7.3 Analise de Resduos em Tabelas 2L . . . . .
7.4 Medidas do Efeito em Tabelas 22 . . . . . .
7.4.1 Risco Relativo (RR) . . . . . . . . . .
7.4.2 Odds-Ratio (OR) . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

78
78
78
83
85
85
87

8 Compara
c
oes Entre Grupos
8.1 Introduc
ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Normalidade dos Dados . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Faixas de Referencia (Metodo de Gauss) . . . . . . . . . . . .
8.3 Resposta Dicotomica: Amostras Independentes . . . . . . . . . . . .
8.3.1 Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . .
8.3.2 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . .
8.3.3 Teste z para Comparac
ao de Proporcoes . . . . . . . . . . . .
8.4 Resposta Dicotomica: Amostras Pareadas . . . . . . . . . . . . . . .
8.4.1 Teste McNemar . . . . . . . . . . . . . . . . . . . . . . . . . .
8.5 Resposta Contnua - Teste de Medias para Amostras Independentes
8.5.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.5.2 Teste z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.6 Resposta Contnua - Teste de Medias para Amostras Pareadas . . .
8.6.1 Teste t-pareado . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7 Testes Nao-Parametricos . . . . . . . . . . . . . . . . . . . . . . . . .
8.7.1 Teste Mann-Whitney para Amostras Independentes . . . . .
8.7.2 Teste Kruskal-Wallis para k Amostras Independentes . . . . .
8.7.3 Teste de Wilcoxon para Amostras Pareadas . . . . . . . . . .
8.7.4 Teste Friedman para k Amostras Pareadas . . . . . . . . . .
8.7.5 Outros Testes Nao-Parametricos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

90
90
90
91
92
92
93
95
96
96
98
98
99
100
100
102
102
103
105
107
108

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

9 An
alise de Vari
ancia
9.1 ANOVA para Experimentos ao Acaso .
9.2 Teste de Comparac
oes M
ultiplas . . . .
9.2.1 N
umero Igual de Repetic
oes . . .
9.2.2 N
umero Diferente de Repeticoes

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

111
111
114
114
116

Refer
encias Bibliogr
aficas

120

Formul
arios

122

Fundacao Universidade Estadual de Maringa - UEM


Centro de Ciencias Exatas
Departamento de Estatstica - DES

Bioestatstica
Centro de Ciencias da Sa
ude
Programa de P
os-Graduac
ao - Mestrado em Enfermagem

Prof. Dr. Robson Marcelo Rossi


www.des.uem.br/docentes/robson

Captulo 1

Definic
oes e Conceitos
1.1

Introduc
ao

O objetivo deste captulo e ilustrar o papel que conceitos e tecnicas estatsticas tem na formacao do
especialista na area biometrica, na sua pratica prossional e de modo especial no avanco do conhecimento
nesta area especca.
Este objetivo sera alcancado principalmente atraves da apresentacao e discussao dos resultados de estudos relevantes. Atraves destes exemplos, argumenta-se que conceitos estatsticos tem importante papel a
desempenhar, tanto no estudo da sa
ude de populacoes, como nos tratamentos individuais.

1.2

BioEstatstica

A ma utilizac
ao de dados nas areas das ciencias, com interpretacoes erroneas ou mal intencionadas, tem
produzido um grande ceticismo em relac
ao `a estatstica. Podemos encontrar muitos professores, clnicos ou
mesmo prossionais de ciencias basicas, que acham que bom senso e suciente para tratar desses dados,
que qualquer coisa que exija prova estatstica nao pode ter valor pratico ou que procurarao um matematico
se tiverem algum problema estatstico em seu trabalho.
importante compreender, no entanto, que cada vez que se toma a media de duas leituras de pipeta,
E
por exemplo, ou o n
umero medio de dias de internacao no hospital de pacientes com determinada doenca,
se esta usando um metodo estatstico. Do mesmo modo, usamos metodos estatsticos para concluir que a
pressao arterial do paciente esta normal ou que um tratamento cir
urgico e melhor que outro.
Convencionou-ser chamar de Bioestatstica o conjunto de conceitos e metodos cientcos usados no tratamento da variabilidade nas ciencias da sa
ude, biologicas e farmaceuticas. A Bioestatstica fornece metodos
para se tomar decisoes otimas na presenca de incerteza, estabelecendo faixas de conanca para a ecacia dos
tratamentos e vericando a inuencia de fatores de risco no aparecimento de doencas.
A enfase crescente do papel dos metodos quantitativos torna imperativo que o prossional tenha algum
conhecimento de estatstica.
O estudante aprende na escola o melhor metodo de diagnose e terapeutica; depois de formado dependera
necessariamente de trabalhos apresentados em reunioes, jornais e revistas medicas, para aprender novos
metodos de terapia, assim como os progressos em diagnose e tecnica cir
urgica. Portanto, devera estar apto
a avaliar por si proprio os resultados de outros pesquisadores, devera decidir quando uma nova tecnica
ou metodo pode substituir os antigos. Devera estar apto a responder `a pergunta da mae que o consulta
sobre a vacina mais recente e, com a mesma seguranca, aconselha-la em relacao `a vacina antipolio ou antisarampo. Dever
a estar apto a dar `a famlia do paciente seguranca quanto ao diagnostico, o que pode depender
de sua capacidade de avaliar adequadamente os resultados de exames laboratoriais, como tambem de seu
conhecimento sobre a relac
ao da idade, sexo e outras condicoes do paciente a uma determinada doenca. Os
novos conhecimentos virao atraves do trabalho de pesquisa realizado por ele proprio ou por outros. Deve,
portanto, ser capaz de selecionar, da massa de informacoes, aquelas que forem validas e que resistirem a
testes cientcos rgidos. Deve desenvolver um ceticismo sadio em relacao a tudo que le.
Uma noc
ao basica em planejamentos experimentais referentes `a pesquisa medica, e o reconhecimento de
que os indivduos diferem nao apenas uns dos outros, mas tambem em relacao a si proprios, de dia para
1

1.3

Os Conceitos da Bioestatstica

ROSSI, Robson M. 2

dia ou mesmo de hora para hora. Uma certa quantidade de variacao e normal, mas a questao que desaa o
medico e determinar quando uma variac
ao especca se torna patologica (referente `a doenca). Para isso, o
estudante deve aprender como medir a variacao em indivduos normais e denir qual e o limite de variacao
altamente
normal. Deve aprender que ha algum erro aleatorio presente em cada medida ou contagem feita. E
improvavel que duas contagens sucessivas de globulos, feitas na mesma amostra de sangue, sejam identicas.
Quando, porem, uma diferenca se torna maior que o erro de mensuracao? Para tratar seu paciente
do melhor modo possvel, o medico deve saber responder `a questoes como essa. Para cada medida ou
determinacao fornecida pelo laboratorio, o medico deve conhecer a variacao que e parte do proprio metodo,
para saber quando uma dada variac
ao representa uma mudanca real no paciente.
Sempre que novos metodos de terapia sao introduzidos, e necessario saber se sao realmente superiores,
isto e, mais ecientes aos velhos metodos. Sera necessario fazer-se a avaliacao crtica do estudo experimental,
vericando principalmente se as medidas foram realizadas de modo a produzir resultados dedignos, se o fator
em prova foi o u
nico fator de diferenca entre o grupo experimental e o grupo controle, se a diferenca entre os
resultados obtidos nos dois grupos foi maior que aquela que poderia ser atribuda ao acaso. Apenas depois
da avaliacao, atraves de tecnicas estatsticas adequadas, da dedignidade dos resultados, comparabilidade
dos grupos experiencia e controle e, signicancia da diferenca encontrada e que podemos tirar as conclusoes
relativas ao novo metodo.
O n
umero de falhas encontradas em publicacoes medicas enfatiza a necessidade de uma avaliacao crtica
da literatura. Para ajudar o estudante a desenvolver tal atitude sao necessarios certos conceitos estatsticos
basicos e uma certa familiaridade com a terminologia mais usada.
Metodos estatsticos sao essenciais no estudo de situacoes em que as variaveis de interesse estao sujeitas,
inerentemente, a utuac
oes aleatorias. Este e o caso da area da sa
ude. Mesmo tomando-se um grupo
de pacientes homogeneos, observa-se grande variabilidade, por exemplo, no tempo de sobrevida apos um
tratamento adequado. Dosagens de caractersticas hematologicas utuam nao so entre indivduos, como
tambem no mesmo indivduo em ocasioes diferentes. Na realidade, ha variacoes entre diferentes pacientes
para qualquer vari
avel de interesse clnico. Portanto, para se estudar problemas clnicos, e necessaria uma
metodologia capaz de tratar a variabilidade de forma adequada.
Deve-se notar, entretanto, que ao tratar um paciente, o medico se vale da experiencia de eventos anteriores, vivenciada pessoalmente ou transmitida por outros atraves de livros e artigos. Assim, a Estatstica
pode ser vista como ferramenta de organizacao e validacao do conhecimento medico.
Nas areas da sa
ude e biologica coletam-se dados de pessoas, de animais experimentais e de fenomenos
fsicos e qumicos. Interessam aos pesquisadores dessas areas dados sobre mortalidade infantil, eciencia de
medicamentos, incidencia de doencas, causas de morte etc. Os dados referem-se a vari
aveis, classicadas
como qualitativas, ordinais e quantitativas.
O dado qualitativo esta fortemente presente nas ciencias da sa
ude. Caractersticas de pessoas, raca,
doencas, etc, sao frequentemente medidas como variaveis categoricas. No entanto, merce de sua tradicao
escolastica, as ciencias da sa
ude ainda mostram preferencia pelas medidas contnuas de alta precisao: medir
em miligramas, milmetros etc. Engajado no conhecimento do biologo, o cientista da sa
ude tende a isentar-se
de reexao sobre a importancia das estrategias de mensuracao e analise providas por outras ciencias, como
a estatstica.

1.3

Os Conceitos da Bioestatstica

Para que serve a Estatstica?


Imagine um medico e um farmaceutico querendo saber se um remedio em desenvolvimento e bom ou
ruim. Para testar o remedio, e preciso PLANEJAR muito bem o experimento, COLETAR corretamente
os dados, ANALISAR com muito cuidado e rigor os resultados para poder DIVULGAR de forma honesta
e com conanca no que esta dizendo. Imagine o perigo de uma pesquisa mal feita num assunto tao importante!
Bom, para nao colocar a vida de ninguem em risco, e preciso tomar muitos cuidados. Dentro do planejamento
saber claramente a respeito de algumas questoes:
O remedio ser
a testado em quem? Homens? Jovens? Mulheres? Obesos? Idosos? Criancas?...
Quantas pessoas ser
ao necess
arias para testar? Basta testar em uma ou duas pessoas? ou sera melhor
testar em 10 pessoas? 30? 50? 2.000? como saber?
H
a dinheiro para testar em tantas pessoas?

1.3

Os Conceitos da Bioestatstica

ROSSI, Robson M. 3

E se houver dois grupos de pessoas? Para o grupo de voluntario da-se o remedio a ser testado; para
o outro grupo, da-se um remedio de mentirinha, chamado placebo, mas nao se conta a verdade para
ninguem. Sera que ha diferenca nos resultados de um grupo para outro? Mas se o remedio foi testado so
com um grupo de pessoas, em geral voluntarios, como e que depois pode-se armar que este remedio vai ser
certeza absoluta?
bom para todo mundo? E
A estatstica pode ser utilizada simplesmente para descrever conjuntos de dados, mostrando sua distribuicao, media, dispersoes, etc. Mas, pode ir alem, pode estar presente nas diversas etapas de uma pesquisa,
desde o seu planejamento, ate na interpretacao de seus resultados, podendo ainda, inuenciar na conducao
do processo da pesquisa.
Defini
c
ao: Estatstica e um conjunto de conceitos e metodos cientficos para a coleta, a organizac
ao, a
descric
ao, a an
alise e a interpretac
ao de dados experimentais, que permitem conclus
oes v
alidas e tomadas
de decis
oes razo
aveis.
Classifica
c
ao: Usualmente, a estatstica e dividida em tres grandes areas que atuam em conjunto:
Planejamentos de Experimentos e Amostragem, Estatstica Descritiva e, Estatstica Inferencial.
a parte que tem por objetivo planejar a pesquisa e se
Amostragem e Planejamento de Experimentos: E
preocupa com o mecanismo da coleta de dados.
a parte que tem por objetivo organizar, apresentar e sintetizar dados observados
Estatstica Descritiva: E
de determinada populac
ao, sem pretenc
oes de tirar conclusoes de carater extensivo.
a parte que, baseando-se em estudos realizados sobre os dados de
Estatstica Inferencial ou Indutiva: E
uma amostra, procura inferir, induzir ou vericar leis de comportamento da populacao da qual a amostra foi
retirada. A estatstica inferencial tem sua estrutura fundamentada na teoria matematica das probabilidades.
tambem denida como um conjunto de metodos para a tomada de decisoes.
E,

Figura 1.1: Processo Cientfico na An


alise Estatstica.

1.3

Os Conceitos da Bioestatstica

ROSSI, Robson M. 4

A Estatstica esta presente em diversas areas e em diversas abordagens. Podemos citar alguns exemplos
de suas aplicacoes:
1. Eleic
oes: An
uncio previo, em termos percentuais, de que o candidato A e o provavel vencedor. (A
previsao pode ser feita apos a contagem de 2% dos votos);
2. Marketing: Ajudar a decidir que tipo de modelo de carro deve ser lancado no mercado; ou perfume,
bolacha, sorvete, roupas, etc. Onde deve ser lancado; Avaliacao de campanhas publicitarias, etc;
3. Ind
ustria: Teste de lampadas ash para maquinas fotogracas. O fabricante deve saber com antecedencia se o lote fabricado pode ser colocado no mercado ou nao (Ele pode estar sujeito a riscos !
O Recall e um exemplo, onde ocorre a retirada ou troca de produtos devido a uma falha em algum
estagio de fabricac
ao nao detectado pelo controle de qualidade);
4. Meteorologia: Informa que a chance de chuva para hoje e de 30% (utilizacao de metodos estatsticos
de previsao);
5. Economia: Decisao na compra ou venda de acoes Risco; Desenvolver um produto bancario que de
mais lucro para o banco; Prever a arrecadacao de impostos municipais, etc;
6. Instituic
oes banc
arias/credito: Analise de credito; Desenvolvimento de modelos matematicos para
seguro de Vida e/ou de automoveis; Mineracao de dados e busca de potenciais clientes, etc;
7. IBGE/ndices: Censo; Taxa de desemprego; Inacao; Custo de vida; Valor do salario mnimo, cesta
basica, ndices de precos-INPC; Taxa de mortalidade/Natalidade; Indices de analfabetismo, desenvolvimento de modelos matematicos para prever se uma populacao vai aumentar ou diminuir; fornecer
informac
oes que ajudam no planejamento urbano;
8. Farm
acia/Medicina/sa
ude p
ublica: Analisar a entrada de um novo medicamento, vericando a sua
ecacia; Ajudando a estabelecer nveis e padroes para testes clnicos; planejar e realizar experimentos
com grupos de controle, para avaliacao de tratamentos; desenvolvimento de estudos sobre a distribuicao
e incidencia de doencas; Analisar o comportamento de epidemias, doencas, caries, seus tratamentos
e controles, desnutric
ao; Estabelecer padroes/curvas que servirao como parametros de comparacao
(idade vs altura, por exemplo);
9. Pesquisas biol
ogicas: Estudo sobre habitos migratorios de certo animal; Estimacao do tamanho populacional de certas especies;
10. Experimentac
ao agrcola: Estudos de uma nova variedade de semente (modicacao genetica) ou de
fertilizantes;
11. Telecomunicac
oes: A utilizac
ao da Internet gera informacoes preciosas de clientes; Controle de trafego
telefonico, chamadas e consumo, forcam a utilizacao de modelos estatsticos complexos; Analisar desempenho de diversos programas de televisao, radio, jornais, revistas, etc;
12. Esportes: Comparar o aproveitamento dos atletas, acompanhar o desempenho progressivo, etc;
13. Artes: Analisar estilos literarios, de pintura, escultura; Atribuicao de obra ao autor; Lexologia, etc;
14. Experimentac
ao zootecnica: Estudo do desenvolvimento de um animal e analise de fatores que inuenciam neste desenvolvimento tais como, alimentacao, cativeiro e outros; Melhoramento genetico;
Pesquisas com vacinas animais entre outros;
oes de Pesquisas: O docente/pesquisador desenvolve novas metodologias de
15. Universidades e Instituic
analise estatstica para mais variados problemas praticos e teoricos; Assessoria em pesquisas de outras
areas, dando suporte tecnocientco para tomada de decisoes dentro da variabilidade instrnseca de
cada problema auxiliando desde o planejamento ate a publicacao de resultados.
A revista SUPER INTERESSANTE, da Editora Abril, trouxe na edicao 271 de novembro de 2009
(pg. 84) a reportagem 6 raz
oes para Acreditar que Estatstica
e a Profiss
ao do Futuro,
classicando-a como a profiss
ao dos sonhos, com base na declaracao do economista Chefe da
Google, Dr. Hal Varian, de que a estatstica ser
a a profiss
ao de destaque dos pr
oximos 10
anos.

1.3

Os Conceitos da Bioestatstica

ROSSI, Robson M. 5

A amostragem e naturalmente usada na vida diaria. Por exemplo, para vericar o tempero de um
alimento em preparac
ao, pode-se provar (observar) uma pequena porcao deste alimento. Desta forma, esta
se fazendo uma amostragem, ou seja, extraindo do todo (populacao) uma parte (amostra), com o proposito
de avaliar (inferir) sobre a qualidade de tempero de todo o alimento.
Nas pesquisas cientcas em que se quer conhecer algumas caractersticas de uma populacao, tambem e
muito comum se observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra,
obter valores aproximados, ou estimativas, para as caractersticas populacionais de interesse. Este tipo de
pesquisa e usualmente chamado de levantamento por amostragem.
Num levantamento por amostragem, a selecao dos elementos que serao observados, deve ser feita sob
uma metodologia adequada, de tal forma que os resultados da amostra sejam informativos para avaliar
caractersticas de toda a populac
ao.
A populac
ao pode ser formada por pessoas da famlia, indivduos de uma certa especie, estabelecimentos
industriais, ou qualquer outro tipo de elementos, cujas variaveis que se pretende estudar sejam passveis de
serem mensuradas.
Os elementos de uma populac
ao diferem entre si com respeito a fatores tais como: sexo, idade, medidas
fsicas, cor, susceptibilidade a doenca, agressividade, etc. Desta forma o padrao de comportamento no qual
o pesquisador esta interessado pode ser muito complicado pela grande variabilidade existente. Por estas
razoes, muitos trabalhos nas ciencias em geral tendem a ser de natureza comparativa, procurando lidar com
as variacoes inerentes.
Popula
c
ao
qualquer conjunto de elementos, tendo pelo menos uma variavel em comum (Pode ser nita ou innita).
E
Censo
Pesquisas utilizando todos os elementos da populacao.
Obs. Desvantagem quando a populac
ao e muito grande Ex.: A populacao brasileira estimada em 2011:
196.655.014 (Fonte: IBGE - http://www.ibge.gov.br/paisesat).
Amostra
qualquer subconjunto da populac
E
ao. Pesquisas utilizando amostras da populacao denominam-se pesquisas por amostragem.
Par
ametros
Sao certas caractersticas populacionais especcas que se deseja descrever.
Estimativas dos Par
ametros ou Estatstica
Sao os valores calculados a partir dos dados da amostra, com o objetivo de avaliar parametros desconhecidos, por exemplo, media amostral.
Unidade de Amostragem
a unidade a ser selecionada para se chegar aos elementos da populacao. Pode ser os proprios elementos
E
da populacao, ou, outras unidades faceis de serem selecionadas e que, de alguma forma, estejam associadas
aos elementos da populac
ao.
Vari
aveis
Sao as caractersticas medidas. As variaveis apresentam variabilidade dentro da populacao. Podem ser
qualitativas ou quantitativas.
Vari
aveis Qualitativas
Quando seus valores forem expressos por atributos (nao-numericos).
Nominal quando tem nome (ex.: Cor dos olhos, sexo, raca, consumo de alcool (sim, nao), gostar de
estudar ... etc).
Ordinal quando tem ordem (ex.: classe social, grau de instrucao, consumo de alcool (pouco, medio,
muito) ... etc).
Vari
aveis Quantitativas
Quando seus valores podem ser descritos numericamente.
Discreta quando seus valores resultam de contagem (ex.: n
umero de lhos, n
umero de reprovacoes,
n
umero de copos de alcool consumidos... etc).
Contnua quando seus valores resultam de medicoes e podem assumir qualquer valor em um intervalo
da reta (ex.: estatura, nota na prova, imc, quantidade de alcool consumido ... etc)

1.3

Os Conceitos da Bioestatstica

ROSSI, Robson M. 6

Exemplo 1.1. Com o objetivo de levantar conhecimento sobre algumas caractersticas de homens com
doencas cardacas de uma clnica especializada de Maring
a, no Paran
a, decidiu-se pesquisar os pacientes
com idade entre 40 e 70 anos. As caractersticas de interesse eram:
1 Nvel de instruc
ao;
2 Peso;
3 Altura;
4 Idade;
5 Tabagismo;
6 Atividade fsica;
7 Taxa de glicose;
8 Taxa de colesterol serico;
9 Pressao sangunea diastolica/sist
olica;
10 Uso de medicamentos de controle.

Captulo 2

Experimentac
ao Biom
etrica
2.1

Introduc
ao

Na medicina como em outros campos da ciencia aplicada, o efeito geral da estatstica e tornar um
observador mais crtico e mais consciente quando, por falta de informacao segura, ele tem de agir com base
em impressoes ou opiniao. Esta e a atitude cientca, e o melhor modo de comecar a adquir-la e procurar
evidencias, e provar. Alguns princpios dessa procura de evidencias serao estudadas neste captulo.

2.2

O Raciocnio Indutivo da Biometria

Quando realizamos um experimento, a observacao resultante e vista nao como um resultado a esmo e
irreprodutvel, mas como um resultado que poderia vir a ser obtido outras vezes, sempre que o experimento
fosse repetido nas mesmas condic
oes. De fato, a generalizacao e feita sob a hipotese de que o resultado
obtido e tpico de uma classe de experimentos similares e, se consegussemos repetir, exatemente, um experimento, uma u
nica observac
ao constitui-se-ia em base suciente para fazermos armacoes gerais. Na pratica,
obviamente, nunca podemos garantir que dois experimentos sejam exatamente iguais em cada min
ucia de
suas circunstancias, de tal sorte que nunca podemos garantir resultados identicamente reprodutveis. As
observacoes vao, de fato, variar em maior ou menor grau - aquilo que chamamos de erro experimental estara
presente - e, em lugar de um u
nico resultado que se repete exatamente, teremos numerosos resultados que
variam entre si, de acordo com o tamanho do erro experimental. As nossas generalizacoes nao podem ser
absolutamente precisas: devem levar em consideracao o erro experimental e conter, em si, um elemento
de incerteza. Essa incerteza e caracterstica do raciocnio indutivo, e o grande problema no raciocnio do
particular ao geral e levar em devida conta essa incerteza.
Em Biologia, o problema da incerteza e muito serio, pois organismos vivos e suas partes sao coisas
altamente vari
aveis. Eles estao inuenciados por uma riqueza de fatores - geneticos, ambientais e de desenvolvimento - de tal modo que nenhuma situacao do sistema pode ser reproduzida exatamente; em geral
elas nao podem ser reproduzidas nem com muita aproximacao. Poucas (se e que algumas) circunstancias
de um experimento podem ser supostas triviais em seus efeitos sobre os resultados e raramente conseguimos identicar um ou dois fatores cujos controles reduziriam o erro experimental a proporcoes desprezveis.
Efetivamente, com muita freq
uencia o nosso problema e tentar distinguir um efeito que seja pouco maior
do que o de outros fatores que provocam a variacao do sistema; devemos entao enfrentar o problema: Qual
deve ser a dedignidade da mensurac
ao? Ou mesmo: Sera o efeito observado atribuvel ao fator em que
estamos interessados, ou sera conseq
uencia de alguma outra causa de variacao que nao pudemos reconhecer
e certamente nao pudemos controlar?

2.3

Delineamentos Experimentais

Muitos trabalhos em pesquisas medicas sao acometidos de varios erros devido ao procedimento na coleta
e no tratamento de dados. Um dos fenomenos mais comuns e a ocorrencia de diferencas entre homens e
mulheres, entre criancas e adultos, entre as estaturas, pesos, cor dos olhos e comportamento de pessoas

2.3

Delineamentos Experimentais

ROSSI, Robson M. 8

da mesma raca, sexo e idade, entre diferentes amostras da mesma substancia qumica pura. Todas essa
diferencas sao coletivamente chamadas variac
ao e a estatstica pode ser descrita como ciencia de tratar a
variac
ao.
Os seres humanos sao tao innitamente variaveis interna quanto o sao externamente, mas algumas
materias basicas do curso medico, como a Anatomia, parecem nao reconhecer tal fato, deixando de destacar esse profundo sentido da variac
ao humana. A pseudoprecisao anatomica, criando um conceito articial
do corpo humano no incio da carreira do estudante, parece que largamente partilham essa responsabilidade;
e mesmo se todos os professores enfatizassem a importancia da variacao, nao iria ajudar muito, a nao ser
que o estudante adquirisse pratica em enfrentar problemas que surgem da variacao - especialmente, pratica
na procura de evidencias e uma atitude crtica em face dos assuntos que le, ouve ou discute.

2.3.1

Etapa de um levantamento estatstico

a realizada:
A. Planejamento experimental. Consiste no planejamento da pesquisa que ser
Mainland, D. (1952) em Elementary medical statistics - The principles of quantitative medicine, sugere
nove questoes que constituem um roteiro valioso para desenvolvimento dessa atitude:
1. Quem?...(relativa ao pesquisador)
2. Para que?...(relativa ao objetivo da pesquisa)
3. O que?...(refere-se a pessoas, coisas ou fatos estudados)
4. Onde?...(refere-se ao local e ambiente)
5. Quando?...(refere-se ao tempo)
6. Como?...(relativa aos metodos)
7. Quanto?...(relativa `as medidas)
ao)
8. Quantos?...(relativa `a enumerac
9. Por que?...(referente `a interpretac
ao causal)
Tomadas as devidas precauc
oes, alguns aspectos estatsticos deverao ser analisados e o tipo de estudo
adequado dever
a ser abordado.
Exemplo 2.1. Considere a seguinte hip
otese: Associa
c
ao entre incid
encia de luz solar e c
ancer de
mama. Comparac
oes regionais, na antiga Uni
ao sovietica, mostraram correlac
ao negativa entre incidencia
de luz solar e de c
ancer do seio: em locais de baixa luminosidade solar, foi encontrada alta incidencia deste
tipo de neoplasia, e vice-versa. Em muitos pases, semelhante associac
ao tambem foi detectada. A evidencia
sugere, segundo os autores, que a vitamina D possa ter papel de relevo na reduc
ao do risco de c
ancer de
mama, e estudos adicionais devem ser feitos para esclarecer a materia. (GOHAM et al, 1990).
Os principais delineamentos experimentais para a realizacao destas pesquisas serao:
1. Quem? GOHAM et al.
2. Para qu
e? Vericar a associac
ao entre a taxa de incidencia de luz solar sobre indivduos em diferentes
lugares com luminosidades desiguais e a incidencia de cancer de mama.
3. O qu
e? N
umero de mulheres com cancer de mama e incidencia de luminosidade no local destas onde
habitam estas mulheres. Pelo fato de quanto maior a luminosidade maior a sntese de vitamina D pela
pele, ha evidencias que a vitamina D possa ter elevo na reducao do risco de cancer de mama.
4. Onde? Regi
oes diferentes que apresentam tambem diferentes incidencias de luminosidade na antiga
Uniao Sovietica.
5. Quando? 1990.

2.3

Delineamentos Experimentais

ROSSI, Robson M. 9

6. Como? (Metodologia): considerando que o cancer de mama e o que mais mata nas mulheres, porem
em relac
ao `a populac
ao de mulheres e uma doenca pouco prevalente, como, por exemplo, Transtorno
Pre-Menstrual. Assim, um estudo de caso-controle em mulheres com cancer de mama ja diagnosticado
exposto `a luminosidade solar por um perodo de tempo predeterminado devendo ser razoavelmente
grande, mas nao saberia dizer quanto sem revisao bibliograca. Na entrevista retrospectiva perguntaria
as mulheres ha quanto tempo residiam naquela regiao, e se tivessem dentro do tempo predeterminado
entrariam no estudo. Faria tambem um grupo controle de mulheres daquela regiao para comparacao dos
dados. Repetindo este mesmo estudo em mulheres de diferentes regioes com diferentes luminosidades, e
comparando-se as taxas de fatores de riscos, poder-se-ia chegar a conclusao de associacao e em seguida
calcular o Odds Ratio, isto e, a razao de chances.
7. Quanto? As medidas seriam o n
umero de mulheres diagnosticadas com cancer de mama comparadas
a um n
umero semelhantes de mulheres sem o cancer (controles) separadas apos serem examinadas por
medicos. Ja a luminosidade colheria as informacoes com as centrais de meteriologicas locais ou algum
centro de referencia deste assunto para o estudo.
8. Quantos? A amostra tentaria ser a maior possvel para melhorar a conabilidade dos resultados, ja que
a doenca e pouco prevalente. Procuraria os centros de sa
udes locais (hospitais, clnicas especializadas,
etc) das respectivas regioes a serem estudadas. Se o n
umero de centros for muito grande e for muito
difcil aborda-los, sortearia os centros para amostragem.
9. Por qu
e? Alguns cuidados tem que serem relevados como o vcio da selecao, de informacao e confundimento. Por exemplo, a ingestao de alimentos ricos em precursores e da propria vitamina D bem
como uso de suplementos alimentares com vitamina D (plulas), poderia inuenciar os resultados dos
estudos.
Observa
c
ao: Outros tipos de estudos e delineamentos podem ser utilizados nesta pesquisa.
Avaliacao de informac
oes existentes. Inicialmente, deve-se realizar um levantamento bibliograco sobre
o assunto para obter subsdios que podem representar valiosa colaboracao para o estudo e, tambem, serem
aproveitados nas discussoes posteriores.
B. Formula
c
ao de hip
oteses. Com excecao das pesquisas meramente descritivas, todas as pesquisas
estatsticas comportam a formulac
ao de hipoteses. Com base nos dados observados, a hipotese sera
rejeitada ou nao.
C. Verifica
c
ao das hip
oteses. A vericacao das hipoteses sera realizada no decorrer da pesquisa.
D. Delineamento da pesquisa. Compreende o estudo (planejamento) detalhado da coleta de dados, da
realizacao do trabalho e da analise dos dados.
Os dados podem ser retirados diretamente da fonte ou aproveitados de bancos de dados retirados por
outros indivduos.
Para o caso de dados retirados diretamente da fonte, existem 3 procedimentos: a observac
ao direta, o
question
ario ou interrogat
orio e a entrevista.
Observa
c
ao: e a observac
ao direta dos fenomenos em laboratorios ou na natureza.
Question
ario: e uma seq
uencia de perguntas previamente preparadas. O questionario e aplicado por
meio de entrevista ou remetido pelo correio. Os valores observados podem ser complementados por observacao.
Execu
c
ao da pesquisa. Coleta dos dados e realizacao da analise estatstica.
An
alise e apresenta
c
ao dos resultados. Os dados coletados devem ser apresentados na forma de:
gracos e/ou de tabelas. A analise dos dados deve ser realizada pelo pesquisador, com a ajuda de um
estatstico, aplicando os recursos estatsticos necessarios para refutar ou nao as hipoteses previamente formuladas.
Exemplo 2.2. Objetivo geral: conhecer o perfil dos homens portadores de doencas cardacas em Honolulu,
Hava. Para dar seq
uencia a esta pesquisa, e preciso especificar melhor o que se quer conhecer da populaca
o
de portadores de doencas cardacas, ou seja, os objetivos especficos. Exemplos de alguns desses objetivos.
ao do grau de instrucao dos portadores de doencas cardacas.
(a) conhecer a distribuic

2.3

Delineamentos Experimentais

ROSSI, Robson M. 10

(b) Conhecer a idade e o peso medio dos portadores de doencas cardacas.


(c) Conhecer os habitos dos portadores de doencas cardacas.
(d) Avaliar a condic
ao de sa
ude dos portadores de doencas cardacas.
Exemplo 2.3. Delineamento da pesquisa: um levantamento de dados a partir do levantamento das informac
oes contidas em uma amostra dos prontu
arios dos pacientes. Dados observados: resultados de diversos
atributos e medidas relativas aos pacientes selecionados para participarem da amostra. Esquematicamente:
Populao: Todos os
portadores de
doenas cardacas de
Honolulu.
Levantamento
de dados.

Plano de
amostragem.
Amostra:
Parte dos
portadores
de doenas
cardacas de
Honolulu.
Dados
observados.

Figura 2.1: Esquema 1.


Exemplo 2.4. Objetivo geral: Comparar a eficiencia de dois metodos para detectar o bacilo causador de
tuberculose. Em outras palavras, quer-se avaliar se os meios utilizados s
ao equivalentes ou se um e mais
eficiente que o outro. Delineamento da pesquisa: s
ao formados dois grupos de pacientes com tuberculose e
amostras de saliva destes pacientes foram colocadas em duas culturas (A e B). Dados observados: a detecc
ao
ou n
ao do bacilo foi registrada para cada amostra, resultando em dois conjuntos, relativos a cada metodo.
Esquematicamente:

Meio A.

Grupo 1 de
pacientes.
Amostra 1 de
respostas
Sim ou No.

Meio B.

Grupo 1 de
pacientes.
Amostra 2 de
respostas
Sim ou No.

Figura 2.2: Esquema 2.


Este e um delineamento de pesquisa experimental, onde o pesquisador exerce controle sobre o metodo
utilizado.

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

2.4

ROSSI, Robson M. 11

Aspectos Estatsticos dos Estudos Etiol


ogicos

O objetivo central da pesquisa etiologica (parte da medicina que trata das causas das doencas) e determinar se o fato de uma pessoa contrair uma dada doenca esta associado com um dado fator, o qual pode ser,
por exemplo uma caracterstica pessoal, alguma especicidade do ambiente onde viveu ou uma experiencia
pela qual passou. Discutiremos maneiras de se organizar um estudo etiologico, metodos estatsticos para se
determinar quais fatores estao associados com o contrair da doenca e meios de se quanticar esta associacao.
A pesquisa etiologica e baseada em dados coletados em pacientes convenientemente escolhidos. O pesquisador nao controla quem sera exposto ou nao ao fator em questao, mas tem liberdade de determinar quem
entrara ou nao no estudo. Para que os resultados tenham validade, a pesquisa tem de ser planejada segundo
modelos bem denidos. Os principais tipos de planejamento para estudos etiologicos receberam os nomes
de estudos tipo Caso-Controle, estudos tipo Coorte, Ensaios Clnicos Aleatorizados, Estudos Descritivos e
Seccionais ou Tranversais.

2.4.1

Estudo de Caso-Controle

Um estudo tipo caso-controle pode ser denido como um estudo no qual a determinacao da associacao da
doenca com um fator e baseada na observacao de freq
uencias muito altas ou muito pequenas do fator entre
as pessoas doentes. Para isto um grupo de indivduos afetados pela doenca em questao e comparado com
um grupo controle de indivduos nao afetados. Como as informacoes sao obtidas de maneira retrospectiva,
freq
uentemente, este tipo de planejamento recebe o nome de Estudo Retrospectivo.
Um estudo retrospectivo comeca com um grupo de indivduos, a serem chamados de casos, que tenham
contrados a doenca em questao. O pesquisador escolhe como padrao de comparacao, um grupo controle
constitudo de pacientes que nao estao sofrendo da doenca. A seguir obtem a historia clnica de todos os
pacientes selecionados a m de averiguar a presenca ou ausencia do fator de risco que esta sendo estudado. A
questao e saber se o fator de risco esta presente mais freq
uentemente ou em nvel mais elevados entre os casos
do que entre os controles. Se a evidencia for suciente o pesquisador concluira que existe uma associacao
entre o fator de risco e a doenca.
Idealmente, os casos devem ser todos os que ocorreram durante um perodo de tempo em uma populacao
nita. Os controles devem ser pessoas comparaveis aos casos, mas sem a doenca, ou seja, pessoas que, se
desenvolvessem a doenca, seriam escolhidas como casos.
Os grupos de casos e de controles podem ser formados de forma emparelhada ou de forma independente.
No primeiro esquema, para cada caso ou mais controles semelhantes sao escolhidos. Ja na formacao de grupos
de forma independente, os controles nao escolhidos de forma associada a um caso especco. Preocupa-se
apenas em garantir que o grupo de casos seja, na sua totalidade, parecido com o grupo de controles.
O caso particular do emparelhamento em que ha apenas um controle para cada caso e denominado
pareamento.
Os estudos de caso-controle sao uma forma de pesquisa simples e eciente, por isso muito utilizada.
Atraves dela, ja se vericaram ou se conrmaram associacoes entre fatores de risco e varios tipos de cancer.
Nao ha diculdades eticas para sua implementacao e, portanto, os dados usados sao os de seres humanos. Isto
livra o pesquisador de difceis generalizac
oes inerentes aos estudos desenvolvidos em animais. O tempo gasto
e os custos associados sao relativamente pequenos, ja que, normalmente, sao utilizados dados preexistentes.
Sao particularmente adequados ao estudo de doencas raras, porque o pesquisador comeca com um grupo de
pessoas que comprovadamente tem a doenca.
Sua grande limitac
ao e a suscetibilidade aos vcios de informacao e de selecao. Outra e que obtemos
apenas informac
ao sobre associac
ao entre fatores e doenca e nao sobre causas da doenca. O resultado de
tais estudos deve ser considerado um elo a mais em uma cadeia de evidencias que levara ao veredito de
causalidade.
Descreveremos abaixo alguns tipos de tendenciosidade aos quais os estudos caso-controle estao sujeitos. O
leitor deve, antes de se envolver no planejamento de um tal estudo, conhecer mais profundamente a literatura
medica da area. Esta experiencia e fundamental pois lhe dara conhecimento das formas especcas pelas
quais estas tendenciosidades aparecem.
Embora nao existindo associac
ao entre o fator e a doenca em questao, existem varias maneiras pelas quais
uma associac
ao pode aparecer em um estudo caso-controle. Uma delas e chamada Vcio da Sele
c
ao. Ocorre
quando os casos ou os controles sao includos no estudo por causa de alguma caracterstica que possuam e
que esta relacionada com o fator de risco sendo considerado. Chamamos de Vcio de Informa
c
ao `aquele

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 12

introduzido pelos pesquisadores que, ja desconando da associacao a ser constatada, sao mais cuidadosos ao
levantar a historia clnica dos casos que dos controles. Dizemos que houve Vcio de Confundimento se a
associacao observada e produto nao do fator considerado mas de outros fatores nao controlados no estudo.
O grupo controle e usualmente constitudo de pacientes de hospitais, onde estao sendo tratados os pacientes do grupo de casos. Deve-se escolher para o grupo controle pacientes de uma grande variedade de
doencas. Isto protege os resultados de uma forma de vcio da selecao; o estudo nao detecta uma associacao
porque a doenca dos pacientes-controle e a doenca sendo estudada estao ambas associadas com o fator de
risco. Quando existe facilidade na coleta de dados o n
umero de pacientes do grupo controle pode ser ate 4
vezes maior que o n
umero de pacientes do grupo de casos. O metodo de selecao dos indivduos do grupo
controle e quase que inteiramente dependente das circunstancias especcas do estudo. Aqui tambem e fundamental o conhecimento da literatura medica da area, ja que e usual apresentar-se uma descricao detalhada
dos controles utilizados.
Exemplo 2.5. Fatores de risco em c
ancer de mama.
Gomes (1992), em tese de doutorado na Faculdade de Medicina da UFMG, realizou estudo caso-controle
com o objetivo de avaliar a inuencia de fatores de risco no cancer de mama, utilizando dados de nosso meio.
Como casos foram escolhidas pacientes portadoras de cancer de mama registradas no Hospital das Clnicas
da UFMG, que satiszeram os seguintes criterios de inclusao: idade na epoca do diagnostico entre 25 e 75
anos, diagnostico feito entre 1978-1987 e conrmado por exame anatomo-patologico, tumor originario do
tecido epitelial e ter sido submetida a algum tipo de cirurgia na mama.
Como controles foram escolhidas pacientes com idade igual `a do caso (mais ou menos dois anos),
data de admissao ao hospital igual `a data de conrmacao do diagnostico do caso (mais ou menos seis
meses) e exame clnico da mama sem indicacao de patologias mamarias. De acordo com esses criterios,
foram selecionados, atraves de emparelhamento, dois controles para cada caso. O primeiro foi selecionado
no ambulatorio de ginecologia e o segundo no registro geral do hospital. A analise estatstica, entre varias
outras conclusoes, mostrou que a presenca na paciente de historia familiar (retrospectivamente) de cancer
de mama aumenta o risco desta patologia em 8,84 vezes.
a

EXPOSTOS

NO-EXPOSTOS

DOENTES
(GRUPOS
DE
CASOS)

xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx

AMOSTRA
DE
CASOS

ANLISE
DE
DADOS

EXPOSTOS

AMOSTRA
DE
CONTROLES

xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx

POPULAO
DE CASOS
E DE
CONTROLES

NO-DOENTES
(GRUPO
DE
CONTROLES)
NO-EXPOSTOS

a, b, c, d : os quatro possveis resultados


(note o carter retrospectivo)

MENSURAO
DA EXPOSIO

FORMAO DOS GRUPOS


POR OBSERVAO
DA EXPOSIO

Figura 2.3: Esquema de Estudo Caso-Controle.

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 13

Vantagens do Estudo de Caso-Controle


Baixo custo relativo;
Alto potencial analtico;
Adequado para estudar doencas raras.
Desvantagens do Estudo de Caso-Controle
Incapaz de estimar risco (reduzido poder descritivo);
Vulner
avel a in
umeros biases (selec
ao, etc.)
Complexidade analtica.

2.4.2

Estudo de Coorte

Em contraste com um estudo retrospectivo, um estudo prospectivo avanca no tempo e coloca enfase no
fator de risco. O Estudo de Coorte e uma forma de pesquisa que visa vericar se indivduos, selecionados
porque foram expostos ao fator de risco, desenvolvem a doenca em questao, em maior ou menor proporcao
do que um grupo de indivduos, comparaveis, mas nao expostos ao fator de risco.
Identicam-se um grupo exposto ao fator e o grupo controle, constitudo de pessoas que nao foram
expostas a ele. Os dois grupos sao acompanhados por um perodo de tempo e as taxas de incidencia da
doenca calculadas. Se essas taxas sao signicativamente diferentes nos dois grupos, o pesquisador conclui
que ha associac
ao signicativa entre a doenca e o fator.
Os epidemiologistas preferem o termo Estudo Tipo Coorte para este tipo de estudo, entretanto Estudo
Prospectivo e a nomenclatura mais utilizada.
Os Estudos de Coorte possuem varias vantagens. O pesquisador tem a possibilidade de usar criterios
uniformes, tanto na identicac
ao da presenca ou nao do fator de risco ao incio do estudo, quanto na vericacao da ocorrencia da doenca nos varios exames de acompanhamento. Nos dois grupos a comparabilidade
pode ser vericada no incio do estudo e identicadas as variaveis para as quais sao necessarios ajustamentos
na analise dos dados.
Em um estudo prospectivo, o pesquisador tem muito mais liberdade sobre o que medir e como medir, ja
que nao se restringira ao uso de dados ja coletados. Uma outra vantagem, que so podera ser completamente
apreciada ao se estudar a metodologia de analise de dados, e que os estudos de coorte nos permitem obter
diretamente uma estimativa da magnitude do risco relativo. Isto signica que e possvel quanticar o risco
de desenvolver a doenca comparando-se o grupo de expostos ao fator de risco com o grupo de nao expostos.
Estudos de Coorte sao grandes, longos e normalmente caros. Quanto mais rara a doenca em questao,
maior o n
umero de pacientes que precisam ser examinados, portanto nao indicado para doencas raras.
Embora, do ponto de vista teorico, os Estudos de Coorte sejam melhores que os Estudos Caso-Controle,
estes u
ltimos sao mais comuns.

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 14

Sele
c
ao das Coortes
Grupos de pessoas sao selecionadas para o Estudo de Coorte por uma variedade de razoes. Apresentamos
a seguir dois exemplos:
Exemplo 2.6. Fumo e c
ancer de pulm
ao.
O classico estudo de Doll & Hill (1964) sobre associacao entre cancer no pulmao e fumo ilustra a escolha
da coorte pelo fato de o grupo possuir caractersticas que facilitam a obtencao dos dados sobre a exposicao
ao fator e o seguimento dos pacientes. Foram acompanhados medicos da Inglaterra desde o m dos anos
20, um grupo facil de contactar e no qual todas as mortes sao rotineiramente bem documentadas. Estas
pesquisas iniciaram-se devido ao grande aumento da mortalidade causada por este cancer.
No primeiro estudo, publicado em 1950, compararam-se dois grupos de pacientes. O primeiro, constitudo
de todos os casos de cancer de pulmao de um conjunto de hospitais londrinos. Assistentes sociais, especialmente treinadas para o estudo, entrevistaram todos os pacientes internados com diagnostico de cancer de
pulmao, levantando sua historia clnica e seus habitos tabagistas. O segundo grupo, chamado de controle,
foi constitudo por pacientes dos mesmos hospitais, sem diagnostico de cancer, na mesma faixa etaria, do
mesmo sexo e da mesma regiao de residencia que os casos anteriores. A Tabela 2.1 mostra os resultados
obtidos. A associac
ao e clara e forte.
Tabela 2.1: N
umero de fumantes e n
ao fumantes entre pacientes do sexo masculino com diagn
ostico de
c
ancer pulmonar e controles.
Grupo
Fumantes
Nao-Fumantes
Total
C
ancer pulmonar
647
2
650
Controle
622
27
649
Total
1269
29
1299
` epoca, esta metodologia
A forma de organizac
ao deste estudo e chamada de Estudo Caso-Controle. A
era muito criticada, pois, com facilidade, podia produzir associacoes esp
urias. Por isso, a evidencia, embora
clara e forte, nao foi convincente o suciente.
Assim, os mesmos autores iniciaram um segundo estudo, cuja caracterstica basica e o fato de que o
acompanhamento dos pacientes foi prospectivo. Este tipo de planejamento e chamado de Estudo de Coorte.
Em outubro de 1951, os pesquisadores enviaram um questionario simples a todos os medicos da Inglaterra,
aproximadamente 60.000 indivduos. O questionario perguntava se o respondente ja havia fumado ou nao.
Em caso armativo, pedia informac
oes sobre o que e quanto. Mais de dois tercos dos medicos responderam
com detalhe suciente para que seus dados pudessem ser includos no estudo.
As respostas possibilitaram aos pesquisadores classicar cada respondente como fumante ou nao fumante.
A denicao de nao-fumante usada foi: um n
ao fumante e uma pessoa que fumou ate no m
aximo um cigarro
di
ario, em media, por um perodo inferior a um ano.
Atraves de complexo sistema de acompanhamento, observaram-se nos primeiros 10 anos, 136 mortes
associadas ao cancer pulmonar entre os medicos includos no estudo. Destas, apenas 3 eram de nao-fumantes.
Para equalizar os perodos de acompanhamento nos varios grupos, trabalhou-se com a taxa de incidencia
por 1.000 pessoas-ano de exposic
ao. Os valores desta taxa estao na Tabela 2.2. O risco de morte por cancer
pulmonar das pessoas que fumam mais de 25 cigarros diarios e quase 32 vezes maior do que o mesmo risco
para quem nao fuma.
Tabela 2.2: Taxa de mortalidade por 1.000 pessoas-ano devida a c
ancer pulmonar (n
umero de mortes entre
parenteses) para n
ao fumantes e fumantes.
Nao-Fumantes
Cigarros diarios (Fumantes)
1-14
5-24
25+
0,07(3)
0,57(22) 1,39(54) 2,27(57)
Estes dois planejamentos, estudo Caso-Controle e Estudo de Coorte, sao as formas usuais de organizacao
da pesquisa etiologica. Muitos outros estudos como os descritos anteriormente foram feitos em populacoes
variadas para se vericar o possvel papel do fumo. Em todos, a evidencia foi clara. Hoje, o papel de agente

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 15

causador do cancer de pulmao e amplamente reconhecido e justica a militancia cada vez mais organizada
contra o fumo.
Em muitos Estudos de Coorte os grupos de comparacao sao obtidos apos o incio do estudo, de acordo
com o nvel de exposic
ao ao fator. As coortes do estudo de Framingham sobre doencas coranarias (Kannel
et al., 1972), foram construdas dividindo-se o grupo acompanhado de acordo com habitos de fumo, nveis
de colesterol, etc. Nestes casos nao ha necessidade de um grupo externo de comparacao.
Exemplo 2.7. Personalidade e desenvolvimento de doenca coronariana.
Um Estudo de Coorte com o objetivo de avaliar o possvel efeito da personalidade no risco de desenvolvimento de doenca coronariana foi conduzido entre 3.154 trabalhadores do sexo masculino com idade de 30
a 59 anos (Brand et al., 1976). Os indivduos entraram no estudo entre 1960-61 e foram acompanhados por
um perodo medio de 8 anos e meio. Atraves de entrevista no incio do estudo, foram classicados em dois
tipos de personalidade, A e B, sendo os primeiros mais agressivos, competitivos e ansiosos.
Os resultados da Tabela 2.3 indicam que nas duas faixas etarias consideradas os percentuais de indivduos
do tipo A que desenvolveram doenca coronariana sao aproximadamente o dobro dos encontrados no outro
grupo.
Em outras situac
oes, particularmente quando um grupo submetido a uma exposicao pouco comum e
estudado, e importante comparar o resultado observado com aquele esperado, caso os indivduos nao tivessem
sido submetidos ao fator de risco. Usa-se a experiencia da populacao em geral, ao tempo em que a coorte e
formada, como padrao de comparac
ao.
Tabela 2.3: Percentual de indivduos que desenvolveram doenca coronariana segundo faixa et
aria e tipo de
personalidade.
Faixa etaria Personalidade
A
B
39-49
8,9
4,2
50-59
15,9
7,6
Finalmente, usa-se tambem como base de comparacoes outra coorte formada por pessoas nao expostas,
parecidas nas caractersticas demogracas com o grupo exposto. Por exemplo, considerando uma coorte
de radiologistas, Seltser e Sartwell (1965) usaram como padrao de comparacao dados de oftalmologistas e
otorrinolaringologistas.
DOENTES

POPULAO
EXPOSTOS
ou
grupo-experimental

NO-DOENTES

xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx
xxxxxxxxxxxxxxx

AMOSTRA
PARA
ESTUDO

ANLISE
DE
DADOS

DOENTES

NO-EXPOSTOS
ou
grupo-controle
FORMAO DOS GRUPOS
POR OBSERVAO
DA EXPOSIO

NO-DOENTES

MEDIO
DOS EFEITOS
a, b, c, d : os quatro possveis resultados

Figura 2.4: Esquema de Estudo Coorte.

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 16

Vantagens do Estudo de Coorte


Produz medidas diretas de risco;
Alto poder analtico;
Facilidade de analise.
Desvantagens do Estudo de Coorte
Estudos de Coorte sao grandes, longos e normalmente caros. Quanto mais rara a doenca em questao,
maior o n
umero de pacientes que precisam ser examinados. Portanto este estudo e inadequado para
doencas de baixa frequencia;
Vulner
avel a perdas (biases).

2.4.3

Ensaios Clnicos Aleatorizados

O Ensaio Clnico Aleatorizado e um experimento medico, realizado com o objetivo de vericar, entre dois
ou mais tratamentos, qual e o mais efetivo.
Sao usados quando e incerto o valor de uma nova terapia ou os meritos da terapia existente estao em
a metodologia apropriada para a comparacao de tratamentos.
disputa. E
Apos um criterio de admissao ter sido denido, os pacientes sao, `a medida que entram no experimento,
alocados de maneira aleatoria ao grupo controle, que recebe a terapeutica padrao, ou ao grupo tratamento,
que recebe a terapeutica sendo testada. Todo esforco deve ser feito para oferecer os mesmos cuidados aos
dois grupos. Terminado o experimento, tecnicas estatsticas sao usadas para se decidir se ha ou nao diferenca
na ecacia das terapias envolvidas.
Esta e uma forma experimental de pesquisa, isto e, o pesquisador interfere deliberadamente no curso
natural dos acontecimentos, em contraposicao aos estudos observacionais, em que o pesquisador se restringe
`a coleta de dados, sem alterar a dinamica do processo em consideracao. Por isto esta sujeita a costrangimentos
eticos, disciplinados pela convenc
ao de Helsinque.
O conhecimento pelo paciente ou pelo medico do tratamento a ser administrado pode inuir na evolucao
o efeito
da doenca, nao atraves de fatores extrnsecos, mas diretamente pelo processo de auto-sugestao. E
placebo, que traz vcios ao estudo clnico.
A u
nica maneira de eliminar o efeito placebo nos grupos comparados e realizar, sempre que possvel,
experimentos cegos, nos quais o paciente ou o medico nao conhece o tratamento, ou duplo-cego, no qual
ambas as parte desconhecem o tratamento. Este ideal, entretanto, nem sempre e factvel.
Exemplo 2.8. Tamoxifeno e c
ancer de mama.
Muitos avancos no tratamento do cancer de mama tem sido estabelecidos atraves de estudos realizados
pelo National Surgical Adjuvant Breast and Bowel Project (NSABP). Em 1985, discutia-se a necessidade de
se submeter `a quimioterapia ou hormonioterapia, pacientes de bom prognostico, logo apos a cirurgia. Em
particular, havia evidencias de varias origens de que o tamoxifeno poderia melhorar ainda mais o prognostico
dessas pacientes. Naquela epoca, o tamoxifeno ja era usado largamente no tratamento de pacientes com
cancer de mama. Diante disto, o NSABP iniciou o protocolo B-14 para determinar a ecacia do tamoxifeno
em pacientes consideradas de bom prognostico, isto e, aquelas com tumores com receptor de estrogeno
positivo (>10 fmol ), idade inferior a 70 anos, com cancer de mama operavel e linfonodos axilares negativos
ao exame histologico. Foram criados dois grupos de pacientes atraves de aleatorizacao feita dentro de estratos
denidos por idade e tamanho do tumor na analise clnica, tipo de cirurgia e concentracao de receptor de
estrogeno. Um grupo recebeu tamoxifeno (10 mg por dia, via oral, duas vezes ao dia) e o outro, placebo,
indistinguvel do tamoxifeno na aparencia e gosto. Alem disto, o ensaio foi organizado na forma duplo-cego.
Apos acompanhamento das pacientes por um perodo de ate 4 anos, constatou-se uma diferenca signicativa em termos de tempo livre de doenca em favor das pacientes que receberam o tamoxifeno. No grupo
tratamento, 83% estavam livres da doenca aos quatro anos apos a cirurgia, enquanto que no grupo placebo
esta porcentagem era de 73%. Este estudo, publicado por Fisher et al. (1989), contribuiu decisivamente para
a adocao do tamoxifeno como quimioterapia adjuvante logo apos a cirurgia em pacientes de bom prognostico.

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 17

EFEITO: PRESENTE
POPULAO

EXPOSTOS
INTERVENO
ou
grupo-experimental

EFEITO: AUSENTE

xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxx

AMOSTRA
PARA
ESTUDO

ANLISE
DE
DADOS

EFEITO: PRESENTE
NO-EXPOSTOS
INTERVENO
ou
grupo-controle
FORMAO DOS GRUPOS
POR ALEATORIZAO E
APLICAO DOS TRATAMENTOS

EFEITO: AUSENTE

MEDIO
DOS EFEITOS
a, b, c, d : os quatro possveis resultados

Figura 2.5: Esquema de um Ensaio Clnico Aleatorizado.

2.4.4

Estudos Descritivos

As investigac
oes de cunho descritivo, tem o objetivo de informar sobre a distribuicao de um evento, na
populacao, em termos quantitativos.
Elas podem ser de incidencia ou de prevalencia. Nelas, nao ha formacao de grupo-controle para a
comparacao dos resultados, ao menos na forma como e feita nos estudos analticos - da serem considerados
estudos n
ao-controlados.
Exemplos de temas de estudos descritivos
A incidencia de infecc
ao chag
asica em habitantes rurais;
A prevalencia da hepatite B entre os voluntarios `a doacao de sangue;
As caractersticas demogracas e socioeconomicas dos pacientes que sofrem de artrite reumatoide ou
das pessoas que fumam;
As principais causas de obito da populacao residente em um dado municpio;
O estado imunit
ario de pre-escolares, de um municpio, frente `a poliomielite;
Os padroes de crescimento e desenvolvimento de criancas normais ou daquelas acometidas por uma
determinada doenca;
A variac
ao regional na utilizac
ao de servicos de sa
ude.
ltimos anos.
A tendencia do coeciente de mortalidade por tuberculose, de uma cidade, nos u
Estudo de Caso
Trata-se de observar um ou poucos indivduos com uma mesma doenca ou evento e, a partir de descricao
dos respectivos casos, tracar um perl das suas principais caractersticas.
Muitas revistas cientcas apresentam uma secao de relato ou apresentacao de casos, para difundir
os resultados destes estudos.
O estudo de casos e empregado para enfocar grupos especcos da populacao ou um particular aspecto
de interesse, nao devidamente investigados em pesquisas quantitativas ou que simplesmente necessitem de
suplementac
ao de informac
oes, com maior riqueza de detalhes.
Vantagens do Estudo de Casos
Em geral, o estudo de caso e relativamente facil de ser realizado e de baixo custo.

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 18

O relato pode restringir-se a uma simples descricao ou ir mais alem, de modo a sugerir explicacoes
sobre elementos pouco conhecidos, tais como os fatores implicados na etiologia ou no curso de uma
doenca, sob vigencia ou nao de terapeutica.
Em clnica, e possvel acompanhar pacientes durante anos, e mesmo decadas, chegando-se a um quadro
repleto de detalhes sobre aspectos evolutivos de uma dada condicao.
O estudo de casos constitui-se em um verdadeiro inventario do que acontece genericamente, `a luz da
observac
ao de poucos indivduos.
um enfoque qualitativo e exploratorio, embora muitas facetas possam ser quanticadas. Um aspecto
E
positivo, convem realcar, e a possibilidade de observacao intensiva de cada caso.
Desvantagens do Estudo de Casos
` vezes, a observacao restringe-se a
Os indivduos observados costumam ser altamente selecionados. As
situacoes incomuns de enfermos graves, outras vezes, aos casos de evolucao atpica, de reacao inusitada
ou de resultado terapeutico inesperado; muito raramente, abrange pacientes em todas as faces de
manifestac
ao da doenca.
A falta de indivduos-controle, para comparar resultados, pode fazer com que simples coincidencias
sejam difceis de interpretar: por exemplo, em investigacao de um surto de diarreia, se os casos beberam
agua de um certo poco a evidencia e ainda fragil para incriminar a agua do poco na etiologia da doenca.
Seria conveniente saber se os sadios tambem beberam ou nao agua do mesmo poco.
Em sntese, apesar das vantagens referentes `a facilidade de realizacao e baixo custo, duas limitacoes
principais estao presentes no estudo de casos:
a falta de controle - eles serviriam para contornar problemas de afericao e comparacao acima mencionados;
o n
umero pequeno de indivduos includos para observacao - o que aponta para a prudencia na interpretac
ao dos resultados de estudos de casos, especialmente, na generalizacao, como ele tem sido
atualmente empregado na area clnica, e u
til para levantar problemas, muitos dos quais sao complementarmente investigados com o auxlio de outros metodos.
Seccionais ou Transversais
Investigac
oes que produzem instant
aneos da situacao de sa
ude de uma populacao ou comunidade,
com base na avaliac
ao individual do estado de sa
ude de cada um dos membros do grupo, e da produzindo
indicadores globais de sa
ude para o grupo investigado, sao chamadas de estudos seccionais ou de cortetransversal-seccional.
O Estudo Seccional tambem e conhecido como Estudo Transversal ou da Prevalencia.
Vantagens do Estudo Seccional
Simplicidade e baixo custo;
Rapidez;
Nao ha necessidade de seguimento das pessoas;
Alto potencial descritivo (subsdio ao planejamento);
Boa opc
ao para descrever as caractersticas dos eventos na populacao, para identicar casos na comunidade e para detectar grupos de alto risco, aos quais pode ser oferecida atencao especial.
Desvantagens do Estudo Seccional
Vulnerabilidade a biases ou vcios (especialmente de selecao);

2.4

Aspectos Estatsticos dos Estudos Etiol


ogicos

ROSSI, Robson M. 19

POPULAO

AMOSTRA PARA
ESTUDO

xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx

FORMAO DOS GRUPOS POR


OBSERVAO SIMULTNEA DE
EXPOSIO E DOENA

EXPOSTOS
E
DOENTES
a

EXPOSTOS
E
NO-DOENTES

NO-EXPOSTOS
E
DOENTES

NO-EXPOSTOS
E
NO-DOENTES

ANLISE DOS DADOS

Figura 2.6: Esquema de um Estudo Seccional.


Baixo poder analtico (inadequado para testar hipoteses causais);
Condicoes de baixa prevalencia exigem amostra de grande
tamanho, logo tem diculdades operacionais;
Nao determina risco absoluto (ou seja, a incidencia);
A associac
ao entre exposic
ao e doenca, se detectada, refere-se `a epoca de realizacao do estudo e pode
nao ser a mesma da epoca de aparecimento da doenca.

Captulo 3

Estatstica Descritiva
3.1
3.1.1

Organizac
ao de Dados Estatsticos
Normas para a Apresenta
c
ao Tabular de Dados

A representac
ao tabular e uma apresentacao numerica dos dados. Consiste em dispor os dados em linhas
e colunas, distribudas de modo ordenado, segundo algumas regras praticas adotadas pelos diversos sistemas
estatsticos. As regras que prevalecem no Brasil foram xadas pelo Conselho Nacional de Estatstica.
Uma tabela estatstica compoe-se de elementos essenciais e elementos complementares.
1. Elementos essenciais
a. Ttulo:
a indicac
E
ao da natureza do fato estatstico observado, fazendo referencia ao local e ao tempo
em que foi observado.
b. Cabe
calho:
Sao as indicac
oes que especicam o conte
udo das colunas.
c. Coluna indicadora:
Sao as indicac
oes que especicam o conte
udo das linhas.
2. Elementos complementares
a. Fonte
a entidade responsavel pelos dados contidos na tabela.
E
b. Nota
Sao informac
oes que esclarecem criterios usados na confeccao da tabela.
c. Chamada
a informac
E
ao de natureza especca, que serve para complementar determinado dado usado na
confecc
ao da tabela.

20

3.2

Distribui
c
ao de Frequ
encias

ROSSI, Robson M. 21

Tabela 3.1: Populac


ao brasileira por faixa et
aria.
Idades (Anos)
1980 (%)
1991 (%)
0 `a 9
27, 9
23, 6
10 `a 19
20, 6
18, 3
20 `a 59
45, 0
50, 9
60
6, 5
7, 2
Fonte: IBGE

3.2

Distribuic
ao de Frequ
encias

Geralmente apos a coleta de dados, estes sao apresentados de forma desorganizada e de difcil manipulacao, logo faz-se necessario organiza-los. Para organizar os dados provenientes de uma variavel qualitativa,
e usual fazer uma Tabela de frequ
encias.
Tabela 3.2: Total de alunos matriculados na UEM em 2002.
Sexo
Frequencia
Feminino
7.545
Masculino
5.905
Total
13.450
Fonte: UEM/2002.
Quando a vari
avel em estudo e do tipo contnua e assume muitos valores distintos, o agrupamento dos
dados em classes sera sempre necessario na construcao das tabelas de frequencias.
Em publicac
oes mais antigas sobre construcao de tabelas de frequencias, ha formulas para determinacao
do n
umero de classes de acordo com o n
umero de dados. Essas formulas eram u
teis, pois a construcao
dos gracos era muito custosa sem o auxlio do computador. Esse procedimento e aconselhavel como uma
primeira visualizac
ao da distribuic
ao de frequencias de uma variavel. A seguir e apresentado um roteiro para
construcao de distribuic
oes de frequencia.
Exemplo 3.1. Considere uma amostra de 25 crianca, das quais foram obtidas medidas de intoxicac
ao
alimentar por uma subst
ancia desconhecida ( g).
0, 77
0, 85
0, 85

0, 75
0, 61
0, 90

0, 80
0, 78
0, 96

Dados brutos
0, 78 0, 75 0, 65 1, 05
0, 58 0, 52 0, 78 1, 02
0, 79 0, 55
Fonte: Dados hipoteticos

1, 10
0, 99

0, 75
0, 65

0, 75
0, 55

Os dados, como apresentados acima, sao chamados brutos, pois nao foram ainda submetidos a nenhum
tipo de tratamento. Inicialmente, os dados devem ser colocados em ordem crescente:
0, 52
0, 75
0, 96

0, 55
0, 77
0, 99

0, 55
0, 78
1, 02

Dados em ordem crescente


0, 58 0, 61 0, 65 0, 65 0, 75
0, 78 0, 78 0, 79 0, 80 0, 85
1, 05 1, 10
Fonte: Dados hipoteticos

0, 75
0, 85

0, 75
0, 90

Pode-se observar, agora, que das 25 observacoes o menor valor e xmn = 0, 55 e o maior e xmax = 1, 10.
Amplitude (AT): e a diferenca entre o maior e o menor valor do conjunto de dados observados.
AT = xmax xmn

3.2

Distribui
c
ao de Frequ
encias

ROSSI, Robson M. 22

Para os dados acima: AT = 1, 10 0, 52 = 0, 58


Observe que esse exemplo contem um n
umero pequeno de observacoes (n = 25), quando ha um grande
n
umero de dados observados o processo de ordenacao e trabalhoso e a listagem nal pouco representara.
Nesses casos, pode-se simplicar o processo agrupando os dados em certo n
umero de classes, cujos limites
serao denominados limite inferior e limite superior. A quantidade de classes e a amplitude destas devem
ser obtidas observando as seguintes normas:
i) as classes devem cobrir a amplitude total;
ii) o extremo superior de uma classe e o extremo inferior da classe seguinte;
iii) cada valor observado deve enquadrar-se em apenas uma classe;
iv) o n
umero total de classes nao deve ser inferior a 5 e nem superior a 25;
O n
umero de classes (k), pode ser obtido de uma das formulas seguintes:
i) k =

n ;

ii) k = 1 + 3, 22 log n , (formula de Sturges).

Para o exemplo 2.1: k = 25 = 5 ou k = 1 + 3, 22log(25) 5, 50. Dividindo a amplitude total (AT ) por
k = 5 chega-se ao tamanho ou amplitude de cada uma das classes:
h=

AT
0, 58
=
= 0, 12
k
5

Obs.: quando os valores observados sao n


umeros inteiros, os limites das classes tambem devem ser
AT
em
n
umeros inteiros. Para isso, aconselha-se escolher o n
umero mais proximo de AT que resulte h =
k
um n
umero inteiro.
Agora, utilizando esse valor pode-se obter os limites inferiores e superiores das classes:
i) o limite inferior da primeira classe pode ser o menor valor da serie, neste caso : 0,52.
ii) os demais limites serao obtidos somando aos limites inferiores o valor de h. Isto e,
0, 52
0, 64
0, 76
0, 88
1, 00

(0, 52 + h = 0, 52 + 0, 12) = 0, 64
(0, 64 + h) = 0, 76
(0, 76 + h) = 0, 88
(0, 88 + h) = 1, 00
(1, 00 + h) = 1, 12.

Lembrando que a notac


ao () signica que se esta incluindo os valores iguais ao limite inferior e excluindo
os valores iguais ou superiores ao limite superior. A partir da listagem ordenada das classes, pode-se construir
os chamados quadros (ou tabelas) de frequencia ou distribuicoes de frequencia, que permitem uma melhor
visualizacao dos dados.
Frequ
encia: e o n
umero de valores que aparecem no domnio de uma classe.
Um quadro de frequencias completo deve conter as seguintes informacoes:
i) xi e o ponto medio da i-esima classe; representa a media dos pontos limites da classe;
xi =

li + Li
; li : limite inferior e Li : limite superior da classe i.
2

ii) n e o tamanho da amostra;


iv) Fi e a frequencia absoluta da i-esima classe;

3.3

Gr
aficos

ROSSI, Robson M. 23

v) fi e a frequencia relativa da i-esima classe, fi =

Fi
;
n

vi) Faci e a frequencia acumulada da i-esima classe;


vii) faci e a frequencia relativa acumulada da i-esima classe, faci =

Faci
.
n

Assim, no caso da amostra de 25 crianca intoxicadas, a distribuicao de frequencia pode ser da seguinte
forma:

Tabela 3.3: Distribuic


ao do nvel de intoxicac
ao.
Classes
xi
Fi
fi
Fac
0, 52 0, 64
0, 58
5
0, 20
5
0, 64 0, 76
0, 70
6
0, 24
11
0, 76 0, 88
0, 82
8
0, 32
19
0, 88 1, 00
0, 94
3
0, 12
22
1, 00 1, 12
1, 06
3
0, 12
25
Total
25
1
Fonte: Dados hipoteticos

fac
0, 20
0, 44
0, 76
0, 88
1, 00
-

Outras informa
c
oes:
Nenhuma cela ( casa ) deve car em branco;
Hfen ( - ), indica que o valor numerico e nulo;
Reticencia ( ... ), indica que nao se dispoe do dado;
Interrogac
ao ( ? ), indica d
uvida quanto a exatidao do valor numerico;
Zeros ( 0 ; 0,0 ; 0,00 ), indica valor muito pequeno em relacao a unidade utilizada.

3.3

Gr
aficos

Os gracos sao representac


oes pictoricas, de grande valia na compreensao e visualizacao dos dados.
Os principais gracos utilizados na representacao estatstica sao:
1. Diagramas;
(a) Por Pontos;
(b) Por Linhas;
i. Poligonais;
ii. Curvas;
(c) Por Superfcies;
i.
ii.
iii.
iv.
v.

em
em
em
em
em

Colunas;
Barras;
Histogramas;
Box;
Setores;

2. Cartogramas;
3. Estereogramas.

3.3

Gr
aficos

3.3.1

ROSSI, Robson M. 24

Diagramas

Sao representac
oes gracas de series estatsticas por intermedio de linhas e superfcies. As linhas utilizadas
sao as poligonais e as curvas, e as superfcies sao retangulos, crculos e quadrados. Para suas construcoes
pode-se utilizar a proporcionalidade entre serie de n
umeros ou do sistema retilnio ortogonal. Este sistema
estabelece uma correspondencia biunvoca entre os pares de n
umeros reais e os pontos de um plano. Assim,
de modo geral, num sistema retilneo ortogonal, um ponto P do plano esta determinado pelos n
umeros reais
X e Y, tomados sobre dois eixos divididos em segmentos unitarios.
Diagramas por Pontos (Diagramas de Dispers
ao):
a representac
E
ao graca dos dados de forma bruta e geral, o que pode fornecer uma ideia da variabilidade
dos dados, pontos extremos etc.

Figura 3.1: Diagrama de dispers


ao e de relac
ao entre X e Y.

Diagramas por Linha Poligonal:


a representac
um dos mais imporE
ao graca de uma serie estatstica por meio de uma linha poligonal. E
tantes gracos; representa observac
oes feitas ao longo do tempo, em intervalos iguais ou nao. Tais conjuntos
de dados constituem as chamadas series hist
oricas ou series temporais. Traduzem o comportamento de um
fenomeno em certo intervalo de tempo.

Figura 3.2: Gr
afico para series temporais.

3.3

Gr
aficos

ROSSI, Robson M. 25

0.3
0.2
0.1
0.0

Probabilidade

O polgono de frequencia e um graco que se obtem unindo por uma poligonal os pontos correspondentes
a`s frequencias das diversas classes, centradas nos respectivos pontos medios. Para obter as intersecc
oes do
polgono com o eixo, cria-se em cada extremo do histograma uma classe com frequencia nula.
Obs.: Suavizando a linha poligonal que dene o polgono obtem-se uma curva que visualiza a tendencia
de variacao dos dados.

Amostra

Figura 3.3: Suavizac


ao do polgono de frequencia.

Ogiva
A Ogiva ou Polgono de Frequencia Acumulada, consiste de uma linha poligonal das Fac ou das fac .

Figura 3.4: Gr
afico da Ogiva.

3.3

Gr
aficos

ROSSI, Robson M. 26

Diagramas por Linha Curva:


a representac
E
ao de uma serie estatstica por meio de uma linha curva. Pode ser utilizada para representar uma tendencia do tipo linear ou nao-linear.

Figura 3.5: Gr
afico para modelos lineares n
ao-lineares.

Diagrama por Superfcie em Barras ou Colunas:


a representac
E
ao de uma serie estatstica por intermedio de retangulos em posicoes verticais. Este tipo
de graco proporciona comparar grandezas.
Os valores da vari
avel dependente, dados pela serie estatstica ou suas diferencas, devem ser proporcionais
`as areas dos retangulos a serem tracados. Para tanto pode-se utilizar o sistema retilnio ortogonal marcandose os pontos de forma ja indicada, e a partir do eixo dos x, construir retangulos de bases iguais e que tenham
respectivamente, por meio de cada base, os valores da vari
avel independente e os pontos marcados.

Figura 3.6: Gr
afico Gr
afico em Barras ou Colunas.

3.3

Gr
aficos

ROSSI, Robson M. 27

Diagrama por Superfcie em Histogramas:


O Histograma e um conjunto de retangulos com bases sobre um eixo dividido de acordo com os tamanhos
de classe, centrados nos pontos medios das classes e areas proporcionais `as frequencias.

Figura 3.7: Gr
afico do Histograma.

3.3

Gr
aficos

ROSSI, Robson M. 28

Diagrama por Superfcie em Caixas (BoxPlot):


O BoxPlot e uma representac
ao da forma de distribuicao dos dados que visa apresentar a massa de
dados assim como identicar valores extremos e/ou outliers.

Figura 3.8: Gr
afico BoxPlot.

Diagrama por Superfcie em Setores (Pizza):


a representac
E
ao graca de uma serie estatstica por intermedio de superfcies setoriais.
utilizado quando se pretende comparar os valores de uma serie com a sua soma total. A representacao e
E
feita tomando como gura basica um crculo que e dividido em setores. O quociente entre a soma dos valores
da serie e a area do crculo deve ser o mesmo que entre cada valor da variavel dependente e a respectiva area
do setor representativo. Porem em virtude da proporcionalidade das areas dos setores de um crculo com
seus angulos centrais, podem-se dividir os valores considerados na serie proporcionalmente a estes angulos.

Figura 3.9: Diagrama por Superfcie em Setores (Pizza).

3.4

Medidas Descritivas

3.4
3.4.1

ROSSI, Robson M. 29

Medidas Descritivas
Medidas de Tend
encia Central ou de Posi
c
ao

Sao medidas que objetivam representar o ponto central de equilbrio de uma distribuicao de dados. Essas
medidas representam quantitativamente os dados, sendo as mais utilizadas em analise:
M
edia
Representa o ponto de equilbrio de um conjunto de dados. Seja (x1 , . . . , xn ) um conjunto de dados. A
media sera dada por:
N

xi
= i=1
( dados populacionais ), para dados nao-agrupados em tabelas de frequencias.
N
n

xi
i=1
x=
( dados amostrais ), para dados nao-agrupados em tabelas de frequencias.
n
k

x=

xi Fi

i=1

( dados amostrais ), quando os dados agrupados em tabelas de frequencias, com k classes.


n
Quando os dados sao agrupados em intervalos de classes, xi corresponde ao ponto medio do intervalo.
avel nvel
Exemplo 3.2. Considere do Exemplo anterior, o conjunto de dados da amostra retirada da vari
de intoxicac
ao, dado no incio desta parte. A media ser
a dada por:
25

xA =

xB =

Observe que x
A x
B .

xi Fi

i=1

xi

i=1

19, 53
= 0, 7812, para os dados brutos, ou
25

19, 66
= 0, 7864, para os dados agrupados (Tabela 3.3).
25

3.4

Medidas Descritivas

ROSSI, Robson M. 30

Propriedades da M
edia:
1 - A soma algebrica dos desvios tomados em relacao a media e nula. Isto e,
k
i=1

di =

pela propriedade:

i=1 (xi

x) = 0 ,

i = 1, 2, . . . , n

X = {2, 3, 7} x = 4,
k
i=1 di = (2 4) + (3 4) + (7 4) = 0.

2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma variavel, a media do conjunto
ca aumentada ou diminuda dessa constante.
yi = xi k

y =xk

Para k = +2, tem-se: Y = {4, 5, 9} y = 6,


pela propriedade: y = x + 2 = 4 + 2 = 6.
3 - Multiplicando-se ou dividindo-se todos os valores de uma variavel por uma constante k, a media do
conjunto ca multiplicada ou dividida por essa constante.
yi = k xi

y =kx

yi =

xi
k

y=

x
; .k = 0.
k

Para k = +5, tem-se Y = {10, 15, 35} y = 20,


pela propriedade: y = 5.x = 5.4 = 20.
Vantagens e desvantagens da M
edia:
uma medida que, por uniformizar os dados, nao representa bem os conjuntos que revelam tendencias
1- E
extremas, uma vez que a mesma sera grandemente inuenciada pelos valores discrepantes.
Suponha por exemplo, que durante um ano letivo, um aluno tenha as seguintes notas em uma disciplina:
30, 35, 25, 30, 25 35, 35, 95, 90, 100.
500
Um calculo rapido nos mostra que sua media nal foi x =
= 50. Como a media deve traduzir o
10
aproveitamento do aluno durante o ano e a media 50 so foi conseguida `a custa das tres u
ltimas notas,
conclumos que 50 e um valor falho para medir o aproveitamento do aluno.
2 - A media nem sempre tem existencia real, isto e, ela nem sempre faz parte do conjunto de dados
(x
/ X).
a medida de posic
3- E
ao mais conhecida e de maior emprego.
facilmente calculada.
4- E
5 - Serve para compararmos conjuntos semelhantes.
6 - Depende de todos os valores do conjunto de dados.
7 - em geral nao ocupa a posic
ao central do conjunto (ocupa a posi
c
ao do centro de equilbrio).
Moda
A Moda (Mo ) e o valor que ocorre com maior frequencia em uma serie de dados. Existem series de dados
em que nenhum valor aparece mais vezes que outros. Neste caso nao apresenta moda. Sao series amodais.
Em outros casos, pode aparecer dois ou mais valores de concentracao. Diz-se entao, que a serie tem duas ou
mais modas (bimodal, trimodal ou multimodal).
X : {2, 2, 2, 2, 5, 5, 5, 6, 6, 7, 8} Mo = 2 (unimodal).

3.4

Medidas Descritivas

ROSSI, Robson M. 31

Quando os dados se apresentam agrupados em tabelas de frequencias e necessario utilizar a expressao de


Czuber (a mais precisa), dada a seguir, para calcular o valor que representa a moda: ( onde i e a ordem
da classe de maior frequencia).
Czuber: Mo = li +

h(Fi Fi1 )
.
(Fi Fi1 ) + (Fi Fi+1 )

Outras modas:
Pearson: Mo = 3.Md 2.x
e
King: Mo = li +

h.Fi+1
.
Fi1 + Fi+1

Gracamente, A equec
ao de Czuber de da quando, em um conjunto de dados qualquer, identica-se a
classe modal como aquela que apresenta o retangulo de maior altura (frequencia). A interseccao das retas
que unem os pontos AD e os pontos BC, determina o ponto P que, projetado perpendicularmente no eixo
da variavel, correspondera ao valor da moda M o.

Figura 3.10: Projec


ao de Czuber para Moda.
Exemplo 3.3. Calcular a moda de Czuber, para os dados agrupados da amostra dada na Tabela 3.3.
i = 3 (Classe de maior frequencia)
h = 0, 12
l3 = 0, 76
Fi = F3 = 8
Fi1 = F2 = 6
Fi+1 = F4 = 3
Mo = 0, 76 +

0, 12(8 6)
0, 794
(8 6) + (8 3)

Isto signica que o nvel de toxicidade mais frequente e de 0,794 g.

3.4

Medidas Descritivas

ROSSI, Robson M. 32

Mediana
A mediana (Md ) de um conjunto de valores ordenados segundo uma ordem de grandeza, e o valor situado
de tal forma no conjunto que o separa em dois subconjuntos de mesmo n
umero de elementos (
e o valor
que est
a no meio !).
Quando o conjunto de observac
oes tem um n
umero mpar de valores, nao-agrupados em classes, entao
n+1
a mediana e dada pela expressao: Md = xp , onde p =
.
2
x1
3

x2
5

x3
5

x4
6

x5
Md = 5.
7

Quando o conjunto de observac


oes tem um n
umero par de valores, nao-agrupados em classes, entao a
xp + xp+1
mediana sera, a media aritmetica dos dois n
umeros que ocuparem o meio da serie: Md =
, onde
2
n
p= .
2
x1
3

x2
5

x3
5

x4
6

x5
7

5+6
x6
Md =
= 5, 5.
7
2

Quando o conjunto de observac


oes se apresenta agrupados em classes em uma tabela de frequencias,
entao a mediana e dada pela expressao abaixo, onde onde i representa a classe mediana, isto e, a classe onde
n
estara presente o valor de p = .
2
h(p Fac1 )
Md = li +
Fi
Exemplo 3.4. Calcular a mediana para os dados agrupados da amostra da Tabela 3.3.
n = 25(
)
n
i = 3 p = = 12, 5 esta na terceira linha olhar em Fac
2
h = 0, 12
Fi = 8
Fac1 = 11 (frequencia acumulada da classe anterior)
l3 = 0, 76
0, 12(12, 5 11)
Md = 0, 76 +
0, 783
8
Isto signica que o 50% das criancas apresenta nvel de toxicidade acima de 0,783 g.

3.4.2

Medida de Variabilidade ou de Dispers


ao

Sao medidas estatsticas que indicam o grau de dispersao, ou variabilidade do conjunto de observacoes
.
pesquisados, em relac
ao a uma medida de tendencia central, por exemplo, x
Uma u
nica medida nao e suciente para descrever de modo satisfatorio um conjunto de observacoes. Por
exemplo, dois conjuntos de dados podem ter a mesma media aritmetica e, no entanto, a dispersao de um
pode ser muito maior que a dispersao do outro.
As principais medidas de dispersao sao: amplitude total (AT), variancia ( 2 ou s2 ), desvio-padrao (
ou s) e coeciente de variac
ao (CV).
Amplitude total
Amplitude total ou AT e a diferenca entre o maior e o menor valor observado
AT = xmax xmn

3.4

Medidas Descritivas

ROSSI, Robson M. 33

Desvio absoluto m
edio
Desvio absoluto m
edio ou Dm e a media aritmetica dos valores absolutos dos desvios tomados em
relacao a uma das seguintes medidas de tendencia central: media ou mediana.
Desvio medio em relac
ao `
a media para dados n
ao tabulados:
n

Dm =

|xi x
|

i=1

Desvio medio em relac


ao `
a media para dados tabulados:
n

Dm =

|xi x
| Fi

i=1

Vari
ancia
Vari
ancia ou Var(X) e a medida que fornece o grau de dispersao, ou variabilidade dos valores do
conjunto de observac
oes em torno da media. Ela e calculada somando os quadrados dos desvios em relacao
`a media:

D. Brutos

D. Agrupados

Amostral
n

2
(xi x
)
s2 = i=1
n1
k

2
(xi x
) Fi
i=1
s2 =
n1

Populacional
N

(
ou s2 =

1
n1

) k
2
xi Fi
i=1

)2
xi Fi

i=1

i=1

2 =

i=1

(xi )2
N

(xi )2 Fi
N

Desvio-padr
ao
Desvio-padr
ao ou DP(X) - Como a variancia calculada a partir do quadrados dos desvios, sua unidade
e quadrada em relac
ao `a vari
avel estudada, o que, sob o ponto de vista pratico e um inconveniente. Por isso
mesmo, imaginou-se uma nova medida que tem utilidade e interpretacao pratica, denominada desvio padrao,
denida como a raiz quadrada da vari
ancia e representada por:
Amostral

s = s2

Populacional

= 2

Propriedades da Vari
ancia e do Desvio-Padr
ao
1 - V ar(X) 0 = DP (X) 0.
2 - Somando-se ou subtraindo-se uma constante k, a todos os valores de uma variavel, a variancia e o
desvio-padrao do novo conjunto permanecem inalterados:
Y =X k

V ar(Y ) = V ar(X) + 0

Y =X k

DP (Y ) = DP (X) + 0

X: Variavel Aleatoria e k: constante real.


3 - Multiplicando-se ou dividindo-se todos os valores de uma variavel por uma constante, k, a variancia e
o desvio-padrao do novo conjunto sao alterados da seguinte forma:
Y = kX

V ar(Y ) = k 2 V ar(X)

Y = kX

DP (Y ) = |k|DP (X)

3.4

Medidas Descritivas

ROSSI, Robson M. 34

e para k = 0,
Y =

X
k

V ar(Y ) =

V ar(X)
k2

Y =

X
k

DP (Y ) =

DP (X)
|k|

4 - Sejam X e W vari
aveis aleatorias independentes, a e b constantes reais, tal que Y = aX bW, tem-se:
Y = aX bW

V ar(Y ) = V ar(aX bW ) = a2 V ar(X) + b2 V ar(W ).

Vari
ancia Relativa
A variancia relativa de uma serie X e indicada por VR(X) e denida por:
V R(X) =

s2
2

(
x)

(amostral)

Note que o coeciente de variac


ao, como e uma divisao de elementos de mesma unidade, e um n
umero puro.
Portanto, pode ser expresso em percentual.
Coeficiente de varia
c
ao
Coeficiente de varia
c
ao ou CV e uma medida relativa da dispersao ou variabilidade dos dados:
CV(x) =

(amostral) ou CV(x) = (populacional).


x

Criterios para interpretac


ao: Quanto menor for o coeciente de variacao (CV 25%), mais representativa dos dados sera a media.
ancia, o desvio-padr
ao e o coeficiente de variac
ao para o conjunto de dados
Exemplo 3.5. Calcular a vari
da amostra X: {2, 3, 5, 7}.
Sabemos que x = 4, 25 4, 3, ent
ao:
n

2
(xi x
)
2
2
2
2
(2 4, 3) + (3 4, 3) + (5 4, 3) + (7 4, 3)
i=1
2
s =
=
4, 92
3
n1
s = 4, 92 2, 12, assim:
2, 12
CV =
0, 522 (sendo CV = 52,2% > 25%, ha indicativo de que a media n
ao e representativa).
4, 25
Exemplo 3.6. Calcular a vari
ancia, o desvio-padr
ao e o coeficiente de variac
ao para o conjunto de dados
amostrais apresentados na tabela abaixo.
Tabela 3.4: Exemplo de Tabela de Frequencia.
xi
Fi
1
2
4
3
5
2
Total 8
3

sendo x =

xi Fi

i=1

1 2 + 3 4 + 5 .2
= 3, temos
8

3.4

Medidas Descritivas
k

ROSSI, Robson M. 35

(xi x
) Fi

(1 3) 2 + (3 3) 4 + (5 3) 2
2, 29, ou
n 1
7
( k
)2

(
) k
xi Fi
1
2

i=1
F

x
s2 =

= s2
i
n 1 i=1 i
n

s2 =

i=1

]
)[
2
1
(24)
16
=
88
=
2, 29
81
8
7

logo, s = 2, 29 1, 51, assim:


1, 51
cv =
0, 50 (ha indicativo de que a media nao e representativa).
3
(

3.4.3

Medidas Separatrizes

Quartis, Decis e Percentis


As medidas de posic
ao denominadas Separatrizes para valores agrupados sao calculadas atraves da
expressao:
Sk = li +

h(p Fac1 )
Fi

onde
SK : e a medida de posic
ao separatriz desejada (Md : M ediana, Qk : Quartil, Dk : Decil ou Pk :
P ercentil de ordem k);
k : e a ordem da medida;
w : e o divisor;
Sk
Md
Q
D
P

k
1
1, 2, 3
1, 2, ...,9
1, 2, ...,99

w
2
4
10
100

p : e a posic
ao da observac
ao, dado por:
p=

n.k
w

Exemplo 3.7. Calcule o Q1 , Q2 , Q3 , D7 , P10 e P90 para os dados da Tabela 3.3.

Tabela 3.5: Distribuic


ao do nvel de intoxicac
ao (g) em 25 criancas.
Classes
xi
Fi
fi
Fac
fac
0,52 0,64
0,58
5
0,20
5
0,20
0,64 0,76
0,70
6
0,24
11
0,44
0,76 0,88
0,82
8
0,32
19
0,76
0,88 1,00
0,94
3
0,12
22
0,88
1,06
3
0,12
25
1,00
1,00 1,12
Total
25
1
Fonte: Dados hipoteticos

3.4

Medidas Descritivas

ROSSI, Robson M. 36

Solu
c
ao:
Calculo de Q1 : {k = 1; w = 4; }
25 1
p=
= 6, 25 (i = 2 : olhar em Fac )
4
h = 0, 12
Fi = F2 = 6
li = 0, 64
Fac1 = 5
0, 12(6, 25 5)
Q1 = 0, 64 +
= 0, 64 + 0, 025 = 0, 665
6
Obs.: O valor Q1 = 0, 665 representa o nvel de intoxicacao que deixa 25% dos demais valores abaixo dele.
Calculo de Q2 : {k = 2; w = 4; }
25 2
p=
= 12, 5 (i = 3)
4
h = 0, 12
Fi = 8
li = 0, 76
Fac1 = 11
0, 12(12, 5 11)
Q2 = 0, 76 +
0, 783 = Md
8
Obs.: O valor Q2 0, 783 representa o o nvel de intoxicacao que deixa 50% dos demais valores abaixo dele,
isto e, e o valor mediano.
Calculo de Q3 : {k = 3; w = 4; }
25 3
p=
= 18, 75 (i = 3)
4
h = 0, 12
Fi = 8
li = 0, 76
Fac1 = 11
0, 12(18, 75 11)
Q3 = 0, 76 +
0, 876
8
Obs.: O valor Q3 0, 876 representa o nvel de intoxicacao que deixa 75% dos demais valores abaixo dele.
Calculo de D7 : {k = 7; w = 10; }
25 7
p=
= 17, 5 (i = 3)
10
h = 0, 12
Fi = 8
li = 0, 76
Fac1 = 11
0, 12(17, 5 11)
D7 = 0, 76 +
0, 858
8
Obs.: O valor D7 0, 858 representa o o nvel de intoxicacao que deixa 70% dos demais valores abaixo dele.
Calculo de P10 : {k = 10; w = 100; }
25 10
p=
= 2, 5 (i = 1)
100
h = 0, 12
Fi = 5
li = 0, 52
Fac1 = 0
0, 12(2, 5 0)
P10 = 0, 52 +
= 0, 58
5
Obs.: O valor P10 = 0, 58 representa o o nvel de intoxicacao que deixa 10% dos demais valores abaixo dele.
Calculo de P90 : {k = 90; w = 100; }
25 90
p=
= 22, 5 (i = 1)
100
h = 0, 12
Fi = 3

3.4

Medidas Descritivas

ROSSI, Robson M. 37

li = 1, 00
Fac1 = 22

0, 12(22, 5 22)
= 1, 02
3
Obs.: O valor P90 = 1, 02 representa o o nvel de intoxicacao que deixa 90% dos demais valores abaixo dele
ou 10% acima dele.
P90 = 1 +

Medidas de Assimetria
Tem por objetivo basico medir o quanto a distribuicao de frequencias do conjunto de valores observados
se afasta da condic
ao de simetria.
(A) Distribui
c
ao Assim
etrica negativa. Quando a media e menor que a mediana que e menor que a
moda.
(B) Distribui
c
ao Sim
etrica. Quando a media, moda e mediana sao iguais, ou muito proximas.
(C) Distribui
c
ao Assim
etrica positiva. Quando a media e maior que a mediana que e maior que a
moda.

3.4

Medidas Descritivas

ROSSI, Robson M. 38

Gr
afico das distribuic
oes quanto `
a assimetria

Figura 3.11: (A) Assimetrica Negativa (


x < M d < Mo )

Figura 3.12: (B) Simetrica (


x = Md = Mo )

Figura 3.13: (C) Assimetrica Positiva (Mo < Md < x


)
Uma das medidas para quanticar a assimetria de uma distribuicao pode ser dada pelo primeiro coeficiente de assimetria de Pearson (Ap ) :
Ap =

x
Mo
3 (
x Md )
ou Ap =
s
s

Outra e atraves do coeficiente quartiltico de Bowley (Ab ) :


Ab =

Q3 + Q1 2Md
Q3 Q1

Em ambos temos:
Se A < 0 a distribuic
ao e assimetrica negativa.
Se A = 0 a distribuic
ao e distribuic
ao simetrica.
Se A > 0 a distribuic
ao e assimetrica positiva.
Obs.: 0, 15 < |A| < 1 a assimetria e considerada moderada e se |A| > 1, forte.
Exemplo 3.8. Considerando o conjunto de dados da Tabela 3.3, obter Ap .
sabemos que: x = 0, 7864; s = 0, 153 e Mo 0, 794, assim:
x
Mo
0, 786 0, 794
Ap =
=
0, 04967 (Ap < 0 : assimetrica negativa).
s
0, 153

3.4

Medidas Descritivas

ROSSI, Robson M. 39

Medidas de Curtose
A curtose ou achatamento mede a concentracao ou dispersao dos valores de um conjunto de valores
em relacao `as medidas de tendencia central em uma distribuicao de frequencias conhecida (a distribuicao
Normal).
(A) Distribui
c
ao Leptoc
urtica. Quando a distribuicao apresenta uma curva de frequencia mais fechada que a da distribuic
ao Normal.
(B) Distribui
c
ao Mesoc
urtica. Quando a distribuicao apresenta uma curva de frequencia parecida
a da distribuic
ao Normal.
(C) Distribui
c
ao Platic
urtica. Quando a distribuicao apresenta uma curva de frequencia mais aberta
que a da distribuic
ao Normal.
Gr
afico das distribuic
oes quanto `
a curtose

Figura 3.14: Leptoc


urtica

Figura 3.15: Mesoc


urtica

Figura 3.16: Platic


urtica
As medidas de curtose podem ser calculadas atraves da expressao:
k=

(Q3 Q1 )
2(P90 P10 )

3.4

Medidas Descritivas

ROSSI, Robson M. 40

Obs.1 : k : coeciente de curtose


Obs.2 : DQ: Q3 Q1 e denominado Desvio interquartiltico.
Relativamente `a curva da distribuic
ao Normal, temos:
Se k < 0, 263 ( leptoc
urtica );
Se k = 0, 263 ( mesoc
urtica );
Se k > 0, 263 ( platic
urtica ).
Podemos utilizar tambem, o coeciente de curtose baseado nos momentos centrados (k4 ), para dados
tabelados:

(xi x
)4 Fi

Fi
k4 =
3
4

Lembrando que
( )2
= 2 =

( )2
s = s2 =
4

(xi x
)2 Fi
N

)2
(populacional).

(
)2
(xi x
)2 Fi
(amostral).
n1

Analogamente, temos:
Se k4 > 0 a distribuic
ao e leptoc
urtica;
Se k4 = 0 a distribuic
ao e mesoc
urtica;
Se k4 < 0 a distribuic
ao e platic
urtica.
Exemplo 3.9. Considerando o conjunto de dados da Tabela 3.3, obter k, o coeficiente de curtose interquartiltico.
Sabemos que Q1 = 0, 665, Q3 = 0, 876, P10 = 0, 58 e P90 = 1, 02 , entao:
(Q3 Q1 )
(0, 876 0, 665)
k=
=
= 0, 2398 (k < 0, 263 : leptoc
urtica).
2(P90 P10 )
2(1, 02 0, 58)
Do exemplo ??, tem-se a Figura 3.17:

Figura 3.17: Histograma do nvel de intoxicac


ao (g).

Captulo 4

No
c
oes de Probabilidade
4.1

Introduc
ao

Uma das ferramentas fundamentais da Inferencia Estatstica e a Probabilidade, a qual teve seu incio
formal com jogos de azar no seculo XVII.
Muitas decisoes precisam ser tomadas na presenca da incerteza. Os precos e modelos de novos carros
devem ser selecionados com base na previsao instavel do consumidor, na tendencia da economia nacional
e nas acoes competitivas. A locac
ao e o quadro de funcionarios de um hospital devem ser decididos com
informacao limitada na quantidade de pacientes. O estoque de um produto deve ser feito em face da incerteza
sobre a demanda. Probabilidade e a linguagem da incerteza. Assim sendo, probabilidade sera estudada como
o mecanismo de fazer inferencias.
Independente de qual seja a aplicac
ao em particular, a utilizacao da teoria de probabilidade indica que
existe um elemento de acaso, ou de incerteza, quanto a ocorrencia ou nao de um acontecimento futuro.
Assim e que, em muitos casos, pode ser virtualmente impossvel armar por antecipacao o que ocorrera;
mas e possvel dizer o que pode ocorrer. Por exemplo, se uma moeda for jogada para o ar, de modo
geral nao se pode armar se vai dar cara ou coroa. Entretanto, e reconhecido que embora o resultado
sabido que se a moeda e ideal (balanceada,
seja incerto, existe um resultado previsvel a longo prazo. E
simetrica) cerca de metade das provas resultarao em caras. Alem disso, mediante determinada combinacao
de julgamento, experiencia passada e dados historicos, em geral e possvel dizer quao provavel e a ocorrencia
de determinado acontecimento futuro. Neste longo prazo, a regularidade previsvel possibilitam que as casas
de jogos se empenhem no negocio.

4.2

Espaco Amostral e Eventos

Suponha que um experimento seja realizado sob certas condicoes xas. Seja o conjunto de resultados
possveis, onde por resultado possvel entende-se resultado elementar e indivisvel do experimento. sera
chamado espa
co amostral do experimento.
claro que = {1, 2,
Exemplo 4.1. Lancar um dado equilibrado e observar o n
umero da face superior. E
3, 4, 5, 6}, pois esses 6 resultados s
ao os u
nicos possveis.
` vezes, o conjunto de resultados possveis nao e tao facil de ser denido, veja o exemplo:
As
Exemplo 4.2. Selecionar ao acaso um habitante de Maring
a e medir sua altura em metros. Quais os resultados possveis deste experimento? N
umeros reais entre 0 e ? Supondo que n
ao exista uma altura m
axima,
talvez seja razo
avel fazer = (0, ). Mas e evidente que esse conjunto contem resultados impossveis.
Outros candidatos para seriam, por exemplo, os intervalos limitados (0, 3) e [1/10, 3]. Os dois intervalos contem, aparentemente, todos os resultados possveis do experimento. Esta propriedade j
a e suficiente
para os prop
ositos aqui estudados, e qualquer desses intervalos (incluindo (0, )) pode ser escolhido para
ser espaco amostral. De fato, a pr
opria reta R, embora contenha muitssimos resultados impossveis, pode
representar uma escolha muito conveniente para .

41

4.3

Defini
c
ao Axiom
atica de Probabilidade

ROSSI, Robson M. 42

O importante, ent
ao, e que contenha todo resultado possvel; por isso suponha que a todo resultado
possvel corresponda um, e somente um, ponto ; e resultados distintos correspondem a pontos distintos
em , i. e., nao pode representar mais de um resultado.
Para uma terminologia uniforme os resultados dos experimentos serao denominados eventos.
Quando se realiza um experimento ha certos eventos que ocorrem ou nao. Por exemplo, no primeiro
exemplo alguns eventos sao:
A = observa-se um n
umero par
B = observa-se o n
umero 2
C = observa-se um n
umero > 3.
Note que cada um desses eventos pode ser identicado a um subconjunto de , a saber: A = {2, 4, 6},
B = {2} e C = {4, 5, 6}. Esta identicac
ao costuma ser realizavel no caso de um experimento qualquer.
Defini
c
ao: Seja o espaco amostral do experimento. Todo subconjunto A sera chamado evento.
e o evento certo, o evento impossvel. Se , o evento {} e dito evento elementar (ou
simples).
Notacoes de conjuntos e eventos:
A B e o evento A ou B;
A B e o evento A e B;
Ac e o evento nao A ou A (isto e, ocorre o evento Ac se, e so se, nao ocorre A);
A B signica: a ocorrencia do evento A implica a ocorrencia do evento B;
A B = signica: A e B sao eventos mutuamente exclusivos ou incompatveis.
Defini
c
ao de Probabilidade
A esta altura pode-se perguntar: a que sera atribudo probabilidade?
Seja A um evento, i. e., A . Desta forma pode-se atribuir probabilidade a A:
P (A) =

#A
#

#A : n
umero de resultados favor
aveis a A;
# : n
umero de resultados possveis.
Outro metodo de denir probabilidade e o da frequencia relativa: pode-se denir P (A) como o limite da
frequencia relativa da ocorrencia de A em n repeticoes independentes do experimento, com n tendendo ao
innito, isto e:
#A
n
em que #A e o n
umero de ocorrencias de A em n ensaios independentes do experimento.
Essa e a denic
ao frequentista de probabilidade. Baseia-se na experiencia, comum a todos, da estabilidade da frequencia relativa de ocorrencia de eventos, quando e realizado muitas repeticoes do experimento.
Essa denicao foi utilizada por Von Mises na construcao de uma teoria de probabilidade.
Observa
c
ao: Embora nenhuma destas denicoes - classica e frequencial - seja completamente rigorosa,
sendo, portanto, ambas insatisfatorias do ponto de vista teorico, elas servem para que se avance bastante no
conhecimento das principais ideias da Teoria das Probabilidades.
P (A) = lim

4.3

Definic
ao Axiom
atica de Probabilidade

Suponha agora que existam as probabilidades em uma certa famlia A de eventos, chamados eventos
aleatorios. Suponha tambem que a todo A seja associado um n
umero real P (A), chamado probabilidade de
A, de modo que os itens a seguir sejam satisfeitos:
1. 0 P (A) 1;
2. P () = 1.

4.4

Propriedades Fundamentais

4.4

ROSSI, Robson M. 43

Propriedades Fundamentais

Seja P uma probabilidade em uma famlia de eventos A. Entao e as propriedades a seguir sao consequencias dos axiomas:
Se e o conjunto vazio, ent
ao P () = 0;
Se Ac for o evento complementar de A, entao P (A) = 1 P (Ac ) ja que P () = P (A) + P (Ac );
ao dois eventos quaisquer e A B e o complemento de A em relacao a B, entao
Se A e B s
P (A B) = P (A) P (A B).
Prova. Pelo diagrama de Venn podemos notar que A = (A B) (A B) e que A B e A B sao
disjuntos, logo:
P (A) = P ((A B) (A B)) P (A) = P (A B) + P (A B) P (A B) = P (A) P (A B);
Se A e B forem dois eventos quaisquer, entao, P (A B) = P (A) + P (B) P (A B).
Prova. Pelo diagrama de Venn podemos notar que A B = B (A B). Uma vez que, B e A B sao
mutuamente exclusivos, segue que:
P (A B) = P (B (A B)) P (A B) = P (B) + P (A B) P (A B) = P (A) + P (B) P (A B).
Se A, B e C forem tres eventos quaisquer, entao:
P (A B C) = P (A) + P (B) + P (C) P (A B P (A C) P (B C) P (A B C).
Exemplo 4.3. Se A e B s
ao eventos de A mutuamente exclusivos, e e conhecido que P(A)=0,20 enquanto
P(B)=0,30, pode-se avaliar varias probabilidades:
a. P (Ac ) = 1 P (A) = 0, 80
b. P (B c ) = 1 P (B) = 0, 70
c. P (A B) = P (A) + P (B) = 0, 2 + 0, 3 = 0, 5
d. P (B A) = 0
e. P (Ac B c ) = P ((A B)c ), pela Lei de Morgan = 1 P (A B) = 1 (P (A) + P (B)) = 0, 5
Exerccio 4.1. Suponha que os eventos A e B n
ao sejam mutuamente exclusivos e que P (A) = 0, 20,
P (B) = 0, 30 e P (B A) = 0, 10. Ent
ao, calcule as mesmas probabilidades do exemplo anterior.
Exerccio 4.2. Entre os 1.820 indivduos em um estudo, 30 sofriam de tuberculose e 1.790 n
ao. Raios X
do t
orax foram administrados para todos; 73 tiveram raio X positivo o que implica evidencia significante
de doenca inflamat
oria enquanto os resultados dos outros 1.747 foram negativos. Os dados pra esse estudo
s
ao apresentados a seguir:
Raio X Tuberculose Total
Nao
Sim
Negativo 1.739 8
1.747
Positivo
51
22
73
Total
1.790 30
1.820
Escolhido um individuo ao acaso, qual a probabilidade:
a) de ter raio X negativo? b) de ter tuberculose e o raio X positivo?

4.5

4.5

Probabilidade Condicional

ROSSI, Robson M. 44

Probabilidade Condicional

Defini
c
ao: Se A e B sao eventos tal que P (B) > 0, a probabilidade condicional de A dado B e denida
por:
P (A B)
.
P (B)
Do diagrama de Venn se A e B sao desenhados de modo que areas de A, B e A B sejam proporcionais
a`s suas probabilidades, ent
ao P (A|B) e a proporcao do evento B ocupada pelo evento A.
P (A|B) =

Note que P (A|B), e realmente uma probabilidade. Consequentemente as propriedade de probabilidade


sao mantidas, por exemplo: P (Ac |B) = 1 P (A|B).
Decorre da denic
ao que:
P (A B) = P (B)P (A|B) ou P (A B) = P (A)P (B|A).
Esta igualdade se generaliza: sendo A, B e C eventos aleatorios, tem-se
P (A B C) = P (A)P (B|A)P (C|A B).
Isto pode ser visto pelo diagrama, pensando nas probabilidades de todos os eventos como proporcionais
`as suas areas:
P (A B C) = P (A B)P (C|A B) = P (A)P (B|A)P (C|A B).

Exerccio 4.3. Para os dados do exerccio anterior, escolhido um indivduo ao acaso, qual a probabilidade:
a) de ter raio X negativo e ser tuberculo?
b) de ter tuberculose, dado que o resultado do raio X foi negativo?
c) de ter raio X positivo, dado que n
ao e tuberculoso?
Teorema da Probabilidade Total: Se a sequencia (nita ou enumeravel) de eventos aleatorios B e A1 ,
A2 , ... formar uma partic
ao de , i.e., se sao eventos aleatorios mutuamente exclusivos e exaustivos,
os Ai sao disjuntos (2 a 2) ent
ao Ai = , entao:

P (B) =
P (Ai )P (B|Ai ).
i

4.5

Probabilidade Condicional

ROSSI, Robson M. 45

Teorema de Bayes:
Considerando o Teorema da Probabilidade Total, segue que:
P (B|Ai )P (Ai )
P (Ai |B) =
.
n
P (B|Ai )P (Ai )
i=1

ao retiradas simultaneamente
Exemplo 4.4. Uma caixa contem 5 bolas brancas e 3 bolas pretas. Duas bolas s
ao acaso e substitudas por 3 bolas azuis. Em seguida, duas novas bolas s
ao retiradas ao acaso da caixa.
a) calcular a probabilidade de que essas duas u
ltimas bolas sejam da mesma cor;
b) se as duas ultimas bolas retiradas forem uma branca e uma preta, calcular a probabilidade de que, na
primeira extrac
ao, tenham sido duas bolas brancas.
Solu
c
ao:
a) Uso do teorema da probabilidade total .
Para a primeira retirada de duas bolas, os eventos
E1 : sarem duas bolas brancas
E2 : sair uma bola branca e uma preta
E3 : sarem duas bolas pretas
formam uma participac
ao de , isto e, sao mutuamente exclusivos e exaustivos tal que:
5 4
10
P (E1 ) = =
8 7
28
5 3
15
P (E2 ) = P (BP ) + P (P B) = 2 =
8 7
28
3 2
3
P (E3 ) = =
8 7
28
Observe que P (E1 ) + P (E2 ) + P (E3 ) = 1
Agora sendo F : duas u
ltimas bolas da mesma cor, podemos calcular as P (F |Ei ), cada uma sendo
calculada, em cada caso, pela soma das probabilidades de sarem duas brancas, duas pretas ou duas azuis.
Para isso basta analisar a nova composicao da caixa condicionada `a ocorrencia de cada um dos eventos
da famlia Ei . Teremos:
9
3 2 3 2 3 2
P (F |E1 ) = P (BB|E1 ) + P (P P |E1 ) + P (AA|E1 ) = + + =
9 8 9 8 9 8
36
10
4 3 2 1 3 2
P (F |E2 ) = P (BB|E2 ) + P (P P |E2 ) + P (AA|E2 ) = + + =
9 8 9 8 9 8
36
13
5 4 1 0 3 2
P (F |E3 ) = P (BB|E3 ) + P (P P |E3 ) + P (AA|E3 ) = + + =
9 8 9 8 9 8
36
Finalmente, utilizando a equac
ao da probabilidade total, temos que:
10
9
15 10
3
13
579
P (F ) = P (E1 )P (F |E1 ) + P (E2)P (F |E2 ) + P (E3 )P (F |E3 ) =

28 36 28 36 28 36
1008
0, 5744.
b) A soluc
ao desta parte e dada pelo teorema de Bayes. Seja G : as duas u
ltimas bolas retiradas serem
uma preta e uma branca, temos que:

4.6

Independ
encia Estatstica

ROSSI, Robson M. 46

3 3 3 3
9
+ =
9 8 9 8
36
4 2 4 2
8
P (G|E2 ) = P (P B|E2 ) + P (BP |E2 ) = + =
9 8 9 8
36
5 1 5 1
5
P (G|E3 ) = P (BP |E3 ) + P (P B|E3 ) = + =
9 8 9 8
36
O denominador da formula de Bayes e a probabilidade do evento que ocorreu dado pelo teorema da
probabilidade total. No caso
3

10
9
15
8
3
5
225
P (G) =
P (Ei )P (G|Ei ) =

=
28 36 28 36 28 36
1008
i=1
Logo pela formula de Bayes
10 9

P (Ei )P (G|Ei )
P (E G)
90
=
= 2822536 =
= 0, 4.
P (E1 |G) =
P (G)
P (G)
225
1008
3

Exerccio 4.4. Encontrar P (E2 |G), P (E3 |G) e somas


P (Ei |G).
P (G|E1 ) = P (P B|E1 ) + P (BP |E1 ) =

i=1

Exemplo 4.5. Experimento de duas etapas (experimento composto). Supor que uma caixa contenha tres
moedas: duas honestas e uma de duas caras. Retirar uma moeda ao acaso e jog
a-la. Pergunta: qual a
probabilidade condicional da moeda ter sido a de duas caras, dado que o resultado final foi cara?
Solu
c
ao: Nesse experimento, deseja-se calcular a probabilidade de um evento determinado pela primeira
etapa dado um evento determinado pela segunda etapa. Sejam, entao A1 = moeda retirada e honesta,
A2 = moeda retirada e a de duas caras e B = resultado nal e cara.
Aplicando a formula de Bayes, tem-se:
1
1
P (B|A2 )P (A2 )
1
3
P (A2 |B) =
=
= .
1 1 2
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 )
2
1 +
3 3 3
Esse resultado pode ser interpretado em termos de freq
uencia relativa: se o experimento fosse repetido
independentemente um grande n
umero de vezes, entao a moeda de duas caras seria a escolhida na primeira
etapa de aproximadamente metade dos experimentos em que o resultado nal fosse cara.

4.6

Independ
encia Estatstica

Defini
c
ao: Os eventos aleatorios A e B sao independentes se P (A B) = P (A)P (B).
Obs.: Eventos de probabilidade 0 (zero) ou 1 sao independentes de qualquer outro:
se P (A) = 0, ent
ao P (A B) = 0 e A e B sao independentes;
se P (B) = 1, ent
ao P (A B) = P (A) P (A B c ) e, como A B c B c implica P (A B c ) P (B c ) = 0,
tem-se que P (A B c ) = 0 e P (A B) = P (A) = P (A)P (B). Logo A e B sao independentes.
Exemplo 4.6. No experimento em que os eventos A: observa-se um n
umero par e Ac : observa-se um
n
umero mpar em que : {1, 2, 3, 4} n
ao s
ao independentes. Intuitivamente, porque n
ao s
ao compatveis,
1
e formalmente, porque P (A Ac ) = P () = 0 = = P (A)P (Ac ).
4

4.7

Vari
avel Aleat
oria Discreta e Contnua

Sao provenientes de Experimentos Aleat


orios (todos as possibilidades sao equiprovaveis, isto e, tem
a mesma chance de ocorrencia). As v.as. geralmente sao representadas por letras mai
usculas A, X, Y ou W,
que podem assumir qualquer um dos conjuntos de valores que lhe sao atribudos.
Exemplo 4.7. Em um experimento de lancar uma moeda e observar a sua face, existem duas possibilidades:Cara ou Coroa. Considerando uma v.a. discreta X: n
umero de caras em dois lancamentos,
temos:
{
Cara: c
possibilidades {cc,ck,kc,kk}:
X : {0, 1, 2}.Muitos experimentos produzem resultados n
aoCoroa: k
numericos. Antes de analis
a-los, e conveniente transformar seus resultados em n
umeros, o que e feito atraves

4.7

Vari
avel Aleat
oria Discreta e Contnua

ROSSI, Robson M. 47

da vari
avel aleat
oria (v.a.), que e uma regra de associac
ao de um valor numerico a cada ponto do espaco
amostral.
As variaveis aleatorias podem ser discretas, contnuas ou mistas. No caso discreto, a distribuicao de probabilidade pode ser caracterizada por uma funcao de probabilidade, que indica diretamente as probabilidades
associadas a cada valor.
O passo fundamental para se entender uma v.a. e associar a cada valor a sua probabilidade, obtendo
o que se chama uma distribuic
ao de probabilidades, que ca caracterizada pelos valores da v.a. X e pela
funcao que associa a cada valor uma probabilidade. Esta funcao e chamada funcao de probabilidade.
No caso discreto, a func
ao p(xi ) que associa a cada valor xi (de uma variavel aleatoria discreta X) sua
probabilidade de ocorrencia, isto e:
p(xi) = P (Xi = xi ) = p.
Para que uma func
ao p(x) seja uma distribuicao de probabilidade, e necessario que:
1. p(x) 0;

2.
p(x) = 1 (somatorio para todos os valores de x do domnio de X);
3. P (X = x) = p(x).
No caso contnuo, a distribuic
ao de probabilidade e caracterizada pela funcao de densidade de probabilidade, que e uma func
ao contnua gozando das seguintes propriedades:
1. f (x) 0;
2.

f (x)dx = P (a x b) (area sobre a curva f (x) entre os pontos a e b e a probabilidade entre a e b);

3.

f (x)dx = 1.

Para melhor entender a abrangencia do conceito de v.a., e necessario proceder a algumas etapas assim
como estudar caractersticas gerais das distribuicoes das v.a. para as distribuicoes mais importantes, que
descrevem um grande n
umero de fenomenos aleatorios. Neste texto sera apresentado apenas conceitos
basicos.

4.7.1

Esperanca Matem
atica de uma Vari
avel Aleat
oria

A M
edia ou Esperan
ca matem
atica de uma variavel aleatoria e denida como:
Para vari
aveis aleatorias discretas:
E(X) = (X) =

xi P (xi ).
i

aveis aleatorias contnuas, por:


Para vari

E(X) =

xf (x)dx.

Propriedades da M
edia:
1. E(k) = k, k e uma constante;
2. E(kX) = kE(X);
3. E(X Y ) = E(X) E(Y );
4. E(X k) = E(X) k.

4.7

Vari
avel Aleat
oria Discreta e Contnua

4.7.2

ROSSI, Robson M. 48

Variabilidade de uma Vari


avel Aleat
oria

A Vari
ancia, o Desvio-padr
ao e o Coeficiente de Varia
c
ao sao parametros que caracterizam a
variabilidade das vari
aveis aleatorias, sendo de grande importancia.
A Vari
ancia de uma Vari
avel Aleatoria e denida por:
2 = 2 (X) = E[(X x )2 ] = E(X2) [E(X)]2 ,
em que, de acordo com a denic
ao da media, tem-se:

E(X 2 ) =
x2i P (xi ),
i

para variaveis aleatorias discretas, e

E(X 2 ) =

x2 f (x)dx,

e para variaveis aleatorias contnuas.


Propriedades da Vari
ancia:
1. 2 (k) = 0, k e uma constante;
2. 2 (kX) = k 2 2 (X);
3. se X e Y sao vari
aveis aleatorias independentes, 2 (X Y ) = 2 (X) + 2 (Y );
4. 2 (X k) = 2 (X).
O Desvio-padr
ao de uma Vari
avel Aleatoria e a raiz quadrada positiva da variancia. Tem a vantagem
denotado por
de ser expresso na mesma unidade da vari
avel. Suas propriedades decorrem da variancia. E
ou (X).

O Coeficiente de Varia
c
ao de uma Variavel Aleatoria e denido como: CV =
.
(X)
uma medida adimensional da dispersao. E
utilizado para comparar conjuntos de dados quanto a
E
dispersao.

Captulo 5

Distribuic
oes de Probabilidade
O objetivo da Inferencia Estatstica e obter armacoes sobre uma dada caracterstica da populac
ao, na
qual se tem interesse, a partir de informac
oes colhidas de uma amostra.
Essa caracterstica de interesse pode ser representada por uma variavel aleatoria.
Se informac
oes completa sobre a distribui
c
ao de probabilidade da variavel em estudo, fosse conhecida
nao haveria necessidade de colher uma amostra. Entao, toda armacao desejada seria obtida atraves desta
distribuicao.
Mas isso raramente acontece. A informacao que se tem a respeito da variavel e parcial ou nada se conhece.
Exemplos:
a altura dos brasileiros adultos, apresenta uma distribuicao Normal?
ao) de uma determinada doenca infecciosa segue uma distribuicao Binomial?
a prevalencia (proporc
o n
umero de lhos de um casal humano segue uma distribuicao de Poisson ?
o tempo de vida de pacientes soropositivos segue uma distribuicao Exponencial?
Se nao ha informac
oes nem sobre os parametros, nem sobre a forma da curva, entao, o uso de uma
amostra nos da uma ideia sobre o comportamento da variavel na populacao. Atraves de suas caractersticas e atraves de testes de aderencia, podemos vericar qual o modelo probabilstico (conhecido)
sera mais adequado aos dados.
Muitas vezes isto nao acontece. Nestes casos um novo modelo devera ser produzido, ou a distribuicao
e produzida atraves de simulac
ao computacional.

5.1

Distribuic
ao Binomial

Considere n ensaios independentes e todos com a mesma probabilidade de sucesso p.


A variavel aleatoria discreta que conta o n
umero total de sucessos e denominada Binomial com parametros
n e p, isto e
X Bin(n; p)
onde sua func
ao de probabilidade e dada por:
( )
n x nx
P (X = x) =
p q
, q = 1 p; x = 0, 1, 2, ..., n.
x
Exemplo 5.1. Uma certa doenca pode ser curada atraves de procedimentos cir
urgicos em 80% dos casos.
Dentre os que tem essa doenca, sorteamos 15 pacientes que ser
ao submetidos `
a cirurgia.
Fazendo alguma suposic
ao adicional que julgar necessaria. Qual a probabilidade de todos serem curados?
X

P (X

Bin(15; 0, 8)
( )
15
15) =
0, 815 0, 21515
15
0, 0352 ou 3, 52%.
49

5.2

Distribui
c
ao de Poisson

ROSSI, Robson M. 50

Obs.: Se X tem uma distribuic


ao Binomial entao:
Media : E(X) = np
e
Variancia : V ar(X) = npq.

5.2

Distribuic
ao de Poisson

Uma vari
avel X tem distribuic
ao de Poisson com parametro > 0 se sua funcao de probabilidades e dada
por

e
, x = 0, 1, 2, ...
x!
com parametro sendo usualmente referido como a taxa de ocorrencia. A notacao utilizada sera
P (X = x) =

X P o().
O modelo Poisson e um modelo discreto muito utilizado em experimentos biologicos e, nesses casos, e
a frequencia media ou esperada de ocorrencias num determinado intervalo de tempo.
Exemplo 5.2. Chegada de pacientes em um pronto socorro. Suponha que o n
umero de pacientes que chegam
a um pronto socorro de uma pequena cidade durante a madrugada tenha distribuic
ao de Poisson com media
3 ( = 3). Calcular as probabilidades de chegadas desses pacientes:
Solucao: Para X valendo 0 temos P (X = 0) =
analogo e os resultados estao na Tabela 5.1.

3e3
= 0, 05. Para os demais (x = 1, 2, ...) o calculo e
0!

Tabela 5.1: Distribuic


ao de Poisson com par
ametro = 3.
x
P(X = x)
x
P(X = x)
0
0,050
7
0,022
1
0,149
8
0,008
2
0,224
9
0,003
3
0,224
10
0,001
4
0,168
11
0,000
12
0,000
5
0,101
6
0,050
13
0

5.3

Distribuic
ao Normal

Esta distribuic
ao e muito importante na teoria e na aplicacao de estatstica.
A distribuic
ao Normal foi inicialmente estudada no seculo XVIII quando foi observado que os erros de
mensuracoes seguem uma distribuic
ao em forma de sino. Ela foi apresentada na forma matematica em
1733 por DeMoivre, que derivou-a como uma forma limitante da distribuicao binomial. Esta distribuicao
foi tambem descoberta por Laplace por volta de 1775. Devido aos erros historicos, seu descobrimento tem
sido atribudo a Gauss, porem suas primeiras publicacoes com referencia a ela apareceu em 1809. Varias
tentativas foram feitas durante os seculos dezoito e dezenove para estabelecer sua distribuicao como a lei
basica de probabilidade para todas as vari
aveis aleatorias; assim o nome normal foi aplicado.
A maioria dos fenomenos da natureza, em especial os biologicos, apresenta variacoes dentro de um
intervalo denido.
Se coletassemos os dados quanto ao peso de mil indivduos, encontraramos diversos valores, dos quais
haveria pequena quantidade de baixos e altos, e grande quantidade em torno dos valores centrais.
Numa representac
ao graca dos dados obtidos, encontraramos uma distribuicao normal, conforme Figura
5.1.

5.3

Distribui
c
ao Normal

ROSSI, Robson M. 51

Figura 5.1: Distribuic


ao Normal.
A Distribuic
ao de Probabilidade Normal, ou Distribuic
ao Gaussiana (curva de Gauss), se caracteriza por
reunir um grande n
umero de valores em torno da media, que diminuem gradualmente de frequencia `a medida
que se afastam dela.
A distribuic
ao de probabilidade e dada por:
(

P (X = x) =

1 x

e 2

)2

< x < +

X N (, )
Le-se: O conjunto de dados X, tem distribuicao Normal com media : e desvio-padrao : .
Devido a complexidade da func
ao de probabilidade, fazemos uso da Tabela Normal-Padr
ao ou NormalReduzida, construda atraves da transformacao na variavel X:
Z=

X
N (0, 1)

Caractersticas:
1. e contnua;
2. a curva em forma de sino, que engloba o total de frequencias ou 100%;
3. e simetrica: a media () = a moda (Mo ) = a mediana (Md );
4. e unimodal;
5. o desvio-padrao e ;
6. a curva de inexao ocorre nos pontos x = ;
Como ja dissemos, a area subordinada `a curva normal representa 100% das frequencias. Em torno da
media determinamos intervalos com utilizacao do desvio-padrao, conforme abaixo:

= 68, 26%
= 95, 45%

= 99, 73%

Exemplo 5.3. Press


ao sist
olica em jovens saud
aveis.
Suponha que a pressao arterial sistolica em pessoas jovens gozando de boa sa
ude tenha distribuicao
N (120, 10) mmHg.
Qual e a probabilidade de se encontrar uma pessoa com pressao sistolica acima de 140 mmHg ?
Solucao:
X
140 120
Z=
=
=2

10
P (X 140) = P (Z 2) = P (Z 2) = 0, 0228 ou 2, 28%.
Isto e, 2, 28% das pessoas jovens e sadias tem pressao sistolica acima de 140 mmHg.

5.4

Distribui
c
ao Exponencial

ROSSI, Robson M. 52

Exemplo 5.4. O peso ( mg) de um determinado medicamento e denotada por X e e distribuda como N(800,
12). Um tecnico em farm
acia ao test
a-lo requer que ele tenha peso de pelo menos 772 mg. Uma amostra do
medicamento e selecionada aleatoriamente e testada.
Solu
c
ao: Para encontrar P (X 772), primeiro calculamos:
P (X 772) = 1 P (Z < 2, 33) = 1 0, 001 = 0, 99.

Figura 5.2: P(X < 772) onde X N(800, 12).

5.4

Distribuic
ao Exponencial

Uma vari
avel aleatoria X, que toma todos os valores nao negativos, tera uma distribuicao exponencial
com parametro > 0, se sua func
ao de densidade for dada por:
{
ex ; x 0
f (x) =
0; c.c.
onde o parametro e uma constante real positiva.
1
1
Sua media e dada por E(X) = e sua variancia por V (X) = 2 .

Obs.: Uma informac


ao u
til e que P (T x) = 1 ex , x 0.
Exemplo 5.5. A vida u
til de um componente eletr
onico pode ser representada por uma func
ao densidade
exponencial com raz
ao de falha 0, 5 falhas por hora (isto e, = 0, 5). O tampo medio de falhas, E(X), e
de 2 horas. Suponha que se deseje determinar a frac
ao dos tais componentes que ir
ao falhar antes do tempo
medio ou tempo de vida esperado.
Solu
c
ao: Como P (T 2) = 1 e0,52 = 0, 6321. Neste caso, 63,212% dos tens ir
ao falhar antes de
2 horas.

Figura 5.3: A media de uma distribuic


ao exponencial.

Captulo 6

Infer
encia Estatstica
6.1

Introduc
ao

Inferencia Estatstica ou Estatstica indutiva e a parte da estatstica que utiliza metodos cientcos para
fazer armac
oes e tirar conclusoes sobre caractersticas ou parametros de uma populacao, baseando-se em
resultados de uma amostra. O proprio termo indutiva decorre da existencia de um processo de induc
ao, isto
e, um processo de raciocnio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusoes
sobre a realidade no todo. O uso de informacoes da amostra para concluir sobre o todo faz parte da atividade
diaria da maioria das pessoas. Basta observar como uma cozinheira verica se o prato que ela esta preparando
tem ou nao a quantidade adequada de sal. Ou ainda, quando uma dona de casa, apos experimentar um
pedaco de uma laranja numa banca de feira, decide se as compra ou nao. Essas sao decisoes baseadas em
procedimentos amostrais.
O objetivo e procurar a conceituac
ao formal desses princpios intuitivos do dia-a-dia para que possam ser
utilizados cienticamente em situac
oes mais complexas.
facil perceber que um processo de inferencia ou inducao ( em estatstica) nao pode ser exato. A
E
Inferencia Estatstica, entretanto, ira dizer ate que ponto pode-se estar errando nas inferencias, e com que
probabilidade. Esse fato e fundamental para que uma inferencia possa ser considerada estatstica, e faz parte
dos objetivos da Inferencia Estatstica.
Em suma, a Inferencia Estatstica busca obter resultados sobre as populacoes a partir das amostras,
dizendo tambem, qual a precisao desses resultados e com que probabilidade se pode conar nas conclusoes
obtidas. Evidentemente, a forma como as inferencias serao realizadas ira depender de cada tipo de problema,
conforme sera estudado posteriormente.
Segue-se que a teoria da Inferencia Estatstica recorre intensamente a conceitos e resultados do Calculo
de Probabilidades.
O objetivo da Inferencia Estatstica e obter armacoes sobre uma dada caracterstica da populac
ao, na
qual se tem interesse, a partir de informac
oes colhidas de uma amostra.
Essa caracterstica de interesse pode ser representada por uma variavel aleatoria. Se informacoes completa
sobre a distribuic
ao de probabilidade da variavel em estudo, fosse conhecida nao haveria necessidade de
colher uma amostra. Toda armac
ao desejada seria obtida atraves da distribuicao da variavel, usando-se as
propriedades estudadas anteriormente. Mas isso raramente acontece. A informacao que se tem a respeito
da variavel e parcial ou nada se conhece. Por exemplo, a altura dos brasileiros adultos, apresenta uma
distribuicao normal, mas os parametros que a caracterizam (media e variancia) sao desconhecidos. Em
outros casos, pode-se ter uma ideia da media e variancia, mas se desconhece a forma da curva. Ou ainda,
nao ha informac
oes nem sobre os parametros, nem sobre a forma da curva. Entao, o uso de uma amostra
permite ter uma ideia sobre o comportamento da variavel na populacao.

53

6.2

No
c
oes de Amostragem

6.2

ROSSI, Robson M. 54

Noc
oes de Amostragem

Uma questao das mais comuns em planejamentos de pesquisas cientcas e: Por que amostragem?
Sao quatro as principais razoes para o uso de amostragem em levantamento de grandes populacoes:
Economia. Em geral, torna-se bem mais economico o levantamento de somente uma parte da populacao.
Tempo. Em geral a pesquisa por amostragem e bem mais rapida que o censo. Numa pesquisa eleitoral,
a tres dias de uma eleic
ao presidencial nao haveria tempo suciente para pesquisar a populacao de eleitores
do pas, mesmo que houvesse recurso nanceiros em abundancia.
Confiabilidade dos dados. Quando se pesquisa uma n
umero reduzido de elementos, pode-se dar mais
atencao aos casos individuais, evitando erros nas respostas.
mais facil realizar operacoes de pequena escala. Um dos problemas tpicos nos
Operacionalidade. E
grandes censos e o controle dos entrevistados.

Situa
c
oes em que o uso da amostragem NAO
e interessante
Popula
c
ao pequena. Sob o enfoque de amostragem aleatorias que sera estudado no proximo item,
se a populacao for pequena (digamos de 50 elementos ou menos) para se ter uma amostra capaz de gerar
resultados precisos para os parametros da populacao, sera necessario uma amostra relativamente grande (em
torno de 80% da populac
ao).
Caracterstica de f
acil mensura
c
ao. Mesmo que a populacao nao seja tao pequena, mas a variavel
que se quer observar e de tao facil mensuracao, que nao compensa investir num plano de amostragem. Por
exemplo, para vericar a porcentagem de funcionarios favoraveis `a mudanca no horario de um turno de
trabalho, pode-se entrevistar toda a populacao no proprio local de trabalho.
Necessidade de alta precis
ao. A cada dez anos o IBGE realiza um censo demograco para estudar
diversas caractersticas da populac
ao brasileira. Dentre estas caractersticas tem-se o parametro n
umero de
habitantes residentes no pas, que e fundamental para o planejamento do pas. Desta forma este parametro
precisa ser avaliado com grande precisao e, por isto, se pesquisa toda a populacao.

6.2.1

Plano de Amostragem

Para se fazer um plano de amostragem e necessario ter bem denidos os objetivos da pesquisa, a populacao
a ser amostrada, bem como os parametros que precisam ser estimados para atingir os objetivos da pesquisa.
Num plano de amostragem deve constar a denicao da unidade de amostragem, a forma de selecao dos
elementos da populac
ao e o tamanho da amostra.
Amostras Probabilsticas e N
ao Probabilsticas
A selecao dos elementos que farao parte da amostra pode ser feita sob alguma forma de sorteio ou
por escolha deliberada. As amostras obtidas atraves de algum tipo de sorteio sao chamadas amostras
probabilsticas ou aleatorias.
Estes tipos de amostragens sao particularmente interessante por permitir a utilizacao das tecnicas classicas
inferencia estatsticas, facilitando a analise dos dados e fornecendo maior seguranca ao generalizar resultados
da amostra para a populac
ao.
As amostras nao aleatorias ou nao probabilsticas podem levar a resultados u
teis, nao se prestam, entretanto, `a utilizac
ao de processos estatsticos inferencias.
Exemplo 6.1. Exemplos de casos de amostragens n
ao probabilsticas:
Amostragem sem criterio (escolha desordenada);
Amostragem intencional ou por conveniencia (o pesquisador escolhe certos elementos para a amostra);
Amostragem com desigualdade de acesso aos elementos da populacao (ha elementos com mais facilidade
de gurarem na amostra);
Outras.

6.2

No
c
oes de Amostragem

ROSSI, Robson M. 55

Alguns Tipos de Amostragens Probabilsticas

6.2.2

Amostragem Aleat
oria Simples (AAS)

Para a selec
ao de uma amostra aleatoria simples e necessario ter uma lista completa dos elementos da
populacao (ou de unidades de amostragens apropriadas). Este tipo de amostragem consiste em selecionar a
amostra atraves de um sorteio, sem restricao
Seja uma u
nica populac
ao com N elementos. Uma forma de extrair uma amostra aleatoria simples de
tamanho n, sendo n < N , e identicar os elementos da populacao em pequenos pedacos de papel e retirar,
ao acaso, n pedacos. Sera considerado sorteio realizado sem reposicao.
A amostragem aleatoria simples tem a seguinte propriedade: qualquer subconjunto da populacao, com
o mesmo n
umero de elementos, tem a mesma chance de fazer parte da amostra. Em particular tem-se que
cada elemento da populac
ao tem a mesma probabilidade de pertencer `a amostra.
O uso de tabelas de n
umeros aleat
orios
As tabelas de n
umeros aleatorios facilitam o processo de selecao de uma amostra aleatoria simples. Tais
tabelas sao formadas por sucessivos sorteios de algarismos do conjunto {0, 1, 2, 3, ..., 9}, com reposicao. Uma
parte destas tabelas e apresentada a seguir.

Figura 6.1: Esquema de uma Amostragem Aleat


oria Simples e uma Tabela de N
umeros Aleat
orios.
Procedimento:
1. Numere todos os elementos da populacao;
umeros aleatorios;
2. Sorteie uma linha ou coluna da tabela de n
3. Leia os n
umeros na tabela de n
umeros aleatorios de modo que o n
umero de algarismos em cada um
seja igual ao n
umero de algarismos do u
ltimo da sua listagem. Assim, se o u
ltimo n
umero e 56, devem
ser lidos n
umeros com dois algarismos;
4. Despreze quaisquer n
umeros que nao correspondam a n
umeros da lista. No caso de amostragem sem
reposicao, despreze tambem os n
umeros que sejam repeticoes de n
umeros lidos anteriormente. Continue
o processo ate obter o n
umero desejado de observacoes;
5. Use os n
umeros assim escolhidos para identicar os tens da lista a serem includos na amostra.

6.2

No
c
oes de Amostragem

6.2.3

ROSSI, Robson M. 56

Amostragem Aleat
oria Simples Sistem
atica (AASist)

Muitas vezes e possvel obter uma amostra de caractersticas parecidas com a amostra aleatoria simples,
por um processo bem mais rapido. Por exemplo, tirar uma amostra de 1.000 chas, dentre uma populacao
de 5.000 chas, pode-se tirar, sistematicamente, uma cha a cada cinco (5.000/1.000 = 5). Para garantir
que cada cha da populac
ao tenha a mesma probabilidade de pertencer a amostra, a primeira cha deve ser
sorteada, dentre as cinco primeiras.
Numa amostragem sistematica a relac
ao N/n e chamada intervalo de selecao. No exemplo das chas o
intervalo de selec
ao e 5.000/1.000 = 5.

Figura 6.2: Esquema de uma Amostragem Aleat


oria Sistem
atica.

6.2.4

Amostragem Aleat
oria por Conglomerados (AAC)

A populac
ao e dividida em diferentes conglomerados (grupos), extraindo-se uma amostra apenas dos
conglomerados selecionados, e nao de toda a populacao. O ideal seria que cada conglomerado representasse
tanto quanto possvel o total da populac
ao. Na pratica, selecionam-se os conglomerados geogracamente.
Escolhem-se aleatoriamente algumas regioes, em seguida algumas sub-regioes e nalmente, alguns lares.
Esse processo possibilita ao pesquisador entrevistar apenas poucas pessoas.
Suponha que desejamos selecionar uma amostra de domiclios na cidade de Maringa. Para se proceder,
a selecao precisamos de uma lista atualizada dos enderecos dos domiclios.
muito mais
A elaborac
ao dessa lista e uma tarefa que requer um consideravel esforco fsico e nanceiro. E
conveniente identicarmos no mapa da cidade alguns conglomerados naturais ou seja, as ruas ou quarteiroes.
Algumas vezes e possvel a construc
ao de conglomerados, nesse caso a melhor tecnica consiste em se
colocar num mesmo conglomerado unidades elementares com caractersticas ou valores bem diferentes. Isto
e justamente o princpio oposto da estraticacao onde os estratos eram formados com unidades elementares
com caractersticas ou valores bem proximos. Se cada conglomerado e uma miniatura da populacao, no
podemos fazer boas estimativas pela selec
ao de poucos conglomerados.
No entanto rara sao `as vezes que temos oportunidade de construir conglomerados, pois na maioria dos
casos somos obrigados a nos valer de conglomerados naturais, como ruas, quarteiroes ou municpios. Isso
devido ao fato de que e necessario se ter os limites dos conglomerados plenamente identicados no campo.
Normalmente os conglomerados naturais nao sao tao ecientes, por exemplo as pessoas que moram numa
mesma rua tem aproximadamente as mesmas caractersticas (renda). Esse fato faz com que o conglomerado
seja internamente bem homogeneo.

6.2

No
c
oes de Amostragem

ROSSI, Robson M. 57

Figura 6.3: Congromerados da cidade de Maring


a e Regi
ao.

6.2.5

Amostragem Aleat
oria Estratificada (AAE)

A tecnica de amostragem estraticada consiste em dividir a populacao em subgrupos, que sao denominados de estratos. Estes estratos devem ser internamente mais homogeneos do que a populacao toda, com
respeito `as vari
aveis em estudo. Por exemplo, para estudar alguns parametros, de um conjunto de hoteis,
pode-se estraticar esta populac
ao por quantidade de estrelas, pelo tipo de acomodacoes (quarto, apartamento, chale etc), ou pela distancia ate o cento da cidade. Deve-se escolher um criterio de estraticacao
que forneca estratos bem homogeneos, com respeito ao que se esta estudando. Neste contexto, um previo
conhecimento sobre a populac
ao em estudo e fundamental. Sobre os diversos estratos da populacao, sao
realizadas selec
oes aleatorias, de forma independente. A amostra completa e obtida atraves da agregacao
das amostras de cada estrato
Amostragem Aleat
oria Estratificada Proporcional (AAEp)
Neste caso particular de amostragem estraticada, a proporcionalidade do tamanho de cada estrato da
populacao e mantida na amostra.
Por exemplo: se um estrato corresponde a 20% do tamanho da populacao ele tambem deve corresponder
a 20% da amostra.
A amostragem estraticada proporcional garante que cada elemento da populacao tem a mesma probabilidade de pertencer a amostra e a soma dos tamanhos dos subgrupos na amostra deve ser igual ou maior ao
tamanho da amostra. Desde que no problema em estudo, os estratos formam subgrupos mais homogeneos
do que a populac
ao como um todo, uma amostra estraticada proporcional tende a gerar resultados mais
precisos, quando comparada com uma amostra aleatoria simples.

Figura 6.4: Ilustrac


ao de uma amostragem estratificada proporcional.

6.2

No
c
oes de Amostragem

ROSSI, Robson M. 58

Exemplo 6.2. A populac


ao de N=1.200 indivduos de uma escola e composta por 20% de professores, 20%
de servidores e 60% de alunos. Separam-se os grupos e sorteia-se uma amostra de tamanho 10% de N, com
24 professores, 24 servidores e 72 alunos.

Figura 6.5: Ilustrac


ao de uma amostragem estratificada proporcional dos indivduos de uma escola.

FONTES DE ERROS
O erro amostral, denido como a diferenca entre uma estatstica (calculada a partir de uma amostra de
n elementos) e o verdadeiro valor do parametro (caracterstica de uma populacao de N elementos), parte do
princpio de que as n observac
oes que compoem a amostra sao obtidas sem erro. Na pratica, isso geralmente
nao acontece.
Havendo erros ou desvios nos dados da propria amostra, a diferenca entre a estatstica e o parametro
pode ser maior que o limite toleravel, que sera usado para o calculo do tamanho da amostra. Por isso, o
planejamento e a execuc
ao da pesquisa devem ser feitos com muita cautela, para evitar ou reduzir, os erros
nos proprios dados da amostra, conhecidos como erros nao amostrais. Alguns dos erros sao:
Popula
c
ao acessvel diferente da popula
c
ao alvo;
Exemplo: Em uma pesquisa sobre febre amarela no Amazonas, a investigacao se da no centro da cidade
ao inves de ser a beira dos rios e/ou mata.
Falta de resposta;
Exemplo: Geralmente em questionarios em que nao ha orientacao ao indivduo selecionado, ou entao
quando a pergunta cria d
uvida ou constrangimento em sua resposta.
Erros de mensura
c
ao;
Exemplo: Aparelhos desajustados e/ou cansaco do experimentador (ou inexperiencia).
Efeito placebo;
Exemplo: O indivduo acredita realmente que tomou o medicamento com o princpio ativo, certo
que obteve melhoras signicativas (efeito psicologico).
Efeito experimentador;
Exemplo: Quando o pesquisador (dono de uma empresa, por exemplo) inuencia involuntariamente
nas respostas ao questionar se o seu funcionario esta satisfeito com salario.

6.3

Distribui
c
ao Amostral

6.3

ROSSI, Robson M. 59

Distribuic
ao Amostral

Ja foi visto, que o problema da Inferencia Estatstica e fazer uma armacao sobre parametros da populacao
atraves da amostra. Suponha que uma armacao deva ser feita sobre um parametro populacional (media,
variancia ou qualquer outra medida). Sera utilizado uma amostra aleatoria simples, com reposicao, de n
elementos sorteados dessa populac
ao. A decisao sera baseada em uma estatstica calculada em funcao da
amostra, (X1 , X2 , ..., Xn ).
A validade da resposta seria melhor compreendida se fosse conhecido o que acontece com a estatstica,
quando todas as amostras de uma populacao conhecida sao retiradas, segundo o plano amostral adotado.
Isto e, qual a distribuic
ao da estatstica quando (X1 , X2 , ..., Xn ) assume todos os valores possveis. Esta
distribuicao e chamada de distribuic
ao amostral da estatstica e desempenha papel fundamental na teoria
de Inferencia Estatstica. Didaticamente, tem-se o seguinte esquema:
1. Uma populac
ao X, com um certo parametro de interesse;
2. Todas as amostras retiradas da populacao, de acordo com um certo procedimento;
3. Para cada amostra, calcula-se o valor da estatstica;
4. Os valores da estatstica formam uma nova populacao, cuja distribuicao recebe o nome de distribuicao
amostral da estatstica.
Para a obtenc
ao das distribuic
oes amostrais em sua forma matematica, precisamos entender o Teorema
do Limite Central.

6.3.1

Distribuic
ao Amostral da M
edia

Considere uma populac


ao identicada pela variavel X, cujos parametros media populacional ( ) e
variancia ( 2 ), sao supostamente conhecidos. Todas as possveis amostras aleatorias simples de tamanho n
dessa populac
ao, devem ser retirada e para cada uma deve-se calcular x, a media da amostra. Em seguida,
sera construdo a distribuic
ao amostral de e estudadas as suas propriedade.
Teorema do Limite Central
Teorema. Para amostras aleatorias simples (X1 , X2 , ..., Xn ), retiradas de uma populacao com media
e variancia 2 , a distribuic
ao amostral da media aproxima-se de uma distribuicao Normal com media e
2
variancia
, quando n , isto e
n
(
)
2

X N ;
.
n
n

2
x1 + x2 + ... + xn
= e V ar(X)
= .
E(X)
n
n
i=1
(
)
2
(
)

2
N ;
Portanto se X N ; , ent
ao X
ou
n

=
Prova: X

1
n

xi =

Z=


X
N (0; 1) .

6.3

Distribui
c
ao Amostral

ROSSI, Robson M. 60

Figura 6.6: Distribuic


ao Amostral.

Verifica
c
ao da Adequa
c
ao do Modelo
Na pratica nao podemos fazer suposicoes arbitrarias a respeito da distribuicao de probabilidade dos
dados, logo usamos de tecnicas para fazer uma vericacao da adequacao do modelo suposto.
A vericac
ao pode ser baseada nas caractersticas do modelo, em gracos especiais e em testes de
aderencia.
Para a distribuic
ao Normal, em especial, sabemos que:

= 68, 26%
= 95, 45%

= 99, 73%

Figura 6.7: Faixa de Referencia.


Grandes discrepancias entre as frequencias relativas observadas e as probabilidades teoricas acima citadas,
indicam uma possvel falta de adequac
ao ao modelo gaussiano.
Outros crit
erios:
Tecnicas Gracas: Normal-plot, Q-Q-plot e P-P-plot;
Testes de aderencia: Kolmogorov-Smirnov (K-S) [ e conhecidos], Shapiro Wilks (W) e/ou Lilliefors
e s, respectivamente].
(L) [ e desconhecidos e estimados pelos dados atraves de x
Faixas de Refer
encia
Toda medida laboratorial e analisada confrontando-se seu valor com uma faixa padrao.
Isto e tao comum que, na propria apresentacao do resultado, muitos laboratorios ja indicam os limites
inferiores e superiores para o valor da medida que devem servir de base ao raciocnio clnico.
Devemos xar, inicialmente, o nvel de conanca (1 )% ou cobertura;
Calculamos atraves da amostra de pessoas supostamente saudaveis: x
e s.

6.3

Distribui
c
ao Amostral

ROSSI, Robson M. 61

Tabela 6.1: Faixas de


Cobertura (1 )%
90%
95%
99%
..
.

Referencia.
Faixa
x
1, 64.s
x
1, 96.s
x
2, 58.s
..
.

(1 )%

x
Z 2 .s

Exemplo 6.3. Faixa de referencia para identificar o Pseudomonas sp.


Um pesquisador deseja criar um padrao para identicar presenca de infeccao bacteriana (Pseudomonas
sp) no trato respiratorio atraves de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente
sadias e determinou-se o n
umero de colonias encontradas em cada cultura. Foram encontrados os seguintes
resultados, em duas etapas amostrais distintas.
Amostra 1:
20
26
30
32
35

21
26
30
32
35

23
27
30
32
36

24
28
30
33
36

25
29
30
33
37

25
29
31
33
37

25
29
31
34
38

25
29
31
34
38

25
29
32
34
41

25
30
32
35
42

Amostra 2:
22
24
26
35
54

23
23
28
35
56

23
25
28
36
56

23
25
29
40
56

23
25
30
41
58

24
25
30
41
60

24
25
31
41
68

24
25
31
42
79

Q-QPlot

amostra

30

0.06

20

0.0

0.02

25

0.04

Freqncias

35

0.08

40

0.10

17
24
25
35
51

20

25

30

35

40

-2

-1

+1

+2

Figura 6.8: Histograma e Q-Q Plot da Amostra 1


Observe atraves da Figura 6.8 o ajuste dos dados (pontos) linearizados, indicando ajuste dos dados a
distribuicao Normal.
Para a Amostra 1, foram realizados alguns testes de normalidade com uso de um software estatstico e
indicaram ajuste dos dados ja (mais detalhes serao apresentados no captulo referente a Testes de Hipoteses).
Observe atraves da Figura 6.9 uma assimetria do histograma comparado `a normal assim como a nao
aderencia ou desajuste dos dados (pontos) sob a reta, indicando que os dados nao seguem uma distribuicao
normal. Testes conrmam isto para a Amostra 2.
Neste caso duas metodologias distintas deverao ser utilizadas para construir faixas de referencia:

Distribui
c
ao Amostral

ROSSI, Robson M. 62

0.05

6.3

50

0.00

20

0.01

30

40

0.02

amostra2

Freqncias
0.03

60

0.04

70

Q-=Q Plot

20

40

60

80

-2

-1

Figura 6.9: Histograma e Q-Q Plot da Amostra 2


Metodo de Gauss para a Amostra 1:
[
x 1, 96s] : [30, 7 1, 96(4, 9)]
[21; 40] colonias - Adequado
Observe que devido a normalidade temos praticamente a mesma faixa, utilizando o metodo dos percentis:
[21; 41] colonias - Adequado
Sendo assim, considerando esse metodo, um indivduo sera considerado doente se tiver com o n
umero
de colonias acima de 41 unidades.
e Metodo dos Percentis para a Amostra 2, isto e, obter uma faixa de inclua, por exemplo, 95% dos
elementos, excluindo os 2,5% valores menores e os 2,5 % maiores valores
[22; 68] colonias - Adequado
Considerando esse metodo, um indivduo na amostra 2 sera considerado doente se tiver com o n
umero
de colonias acima de 68 unidades.
Observe que, se optassemos pelo metodo de gauss para a amostra 2 teramos:
[7; 63] colonias - Inadequado
Um teste estatstico a ser usado depende do tipo de variavel e do tipo de planejamento.

6.3.2

Distribuic
ao Amostral da Diferenca de M
edias

Analogamente ao caso da media, consideremos o caso em que temos duas populacoes de modo que o
carater que estudamos em ambas (X1 e X2 ) sao v.a. distribudas conforme as leis gaussianas:
(
)
X1 N 1 ; 21
(
)
X2 N 2 ; 22
De cada uma dessas populac
oes, extraem-se, mediante amostragem aleatoria simples, amostras que nao
1 e X
2 , entao: consitem por que serem necessariamente do mesmo tamanho (respectivamente, n1 e n2 ): X
2
2
2
derando que 1 = 2 = , tem-se que:
(
)
1 X
2 (1 2 )
X

Z=
N (0; 1) .
1
n11 + n2

6.3

Distribui
c
ao Amostral

ROSSI, Robson M. 63

Quando as vari
ancias das populac
oes sao desconhecidas, mas podemos assumir que, pelo menos, sao
iguais, a seguinte estatstica distribui-se como uma t de Student com n1 + n2 2 graus de liberdade, isto e:
(
)
1 X
2 (1 2 )
X

T =
tn1 +n2 2
1
S n11 + n2
em que S2 e a quase-vari
ancia amostral ponderada de S12 e S22 :
(n1 1)S12 + (n2 1)S22
S2 =
.
n1 + n2 2

6.3.3

Distribuic
ao Amostral da Proporc
ao

Seja uma populac


ao em que a proporc
ao de elementos portadores de uma certa caracterstica e p. Assim,
a populacao pode ser considerada como a variavel aleatoria X, tal que:
{
1, se o indivduo possui a caracterstica;
X:
0, se o indivduo n
ao possui a caracterstica.
assim, para n sucientemente grande, pelo Teorema Limite Central, a variavel aleatoria X que conta o
n
umero de sucessos na amostra tera a distribuicao Normal com media np e variancia np(1 p), ou seja,

X N (np; np(1 p)). Assim, para n , pode-se considerar a distribuicao amostral de p como:
(
)
p(1 p)

p N p;
.
n
em que a proporc
ao de indivduos portadores da caracterstica na amostra e dada por: p =

X
.
n

6.4

Intervalo de Confian
ca

6.4

ROSSI, Robson M. 64

Intervalo de Confianca

Utilizando-se deste teorema, podemos construir um Intervalo de Conanca de (1 )% para o parametro


de interesse, para um nvel de signicancia, , xo.

6.4.1

Intervalo de Confianca para M


edia

Se a populac
ao original e proxima da normal, sua convergencia e rapida; ja, se a distribuicao da populacao
tem outra distribuic
ao, essa convergencia e mais demorada. Como regra pratica, aceita-se que para amostras
com mais de 30 elementos a aproximac
ao ja pode ser considerada muito boa.
Z
IC() : X
2
n
ja que
Z=


X
N (0; 1) .

Figura 6.10: Intervalo de Confianca.

Exemplo 6.4. Sabe-se que o peso dos recem-nascidos segue uma distribuic
ao normal com um desvio padr
ao
de 0,75 kg. Se em uma amostra aleat
oria simples de 100 deles, se obtem uma media amostral de 3 kg e um
desvio padr
ao de 0,5 kg, o IC() com uma confianca de 95% e dado por:
0, 75
Z = 3 1, 96
IC() : X
= 3 0, 147 : [2, 853; 3, 147]kg.
2
n
100
No caso de amostras pequenas ou no desconhecimento da dispersao populacional, usa-se uma aproximacao
atraves da distribuic
ao t de Student, substituindo por s, desvio-padrao amostral.
t(n1; ) s .
IC() : X
2
n
ao se conheca a dispers
ao populacional, assim o IC()
Exemplo 6.5. Suponha o exemplo anterior em que n
com uma confianca de 95% e dado por:
t(n1; ) s = 3 t(99;2,5%) 0, 5 = 3 1, 98(0, 05) : [2, 901; 3, 099]kg.
IC() : X
2
n
100

6.4

Intervalo de Confian
ca

6.4.2

ROSSI, Robson M. 65

Intervalo de Confianca para Diferenca de M


edias

Se (1 )% e o nvel de signicancia com que desejamos estabelecer o intervalo para a diferenca das
duas medias, calculamos o valor tn1 +n2 2 que deixa alem de si /2 da massa da probabilidade de Tn1 +n2 2 ,
o intervalo de conanca para vari
ancias desconhecidas sera:

(
)
1
1

IC(1 2 ) : X1 X2 tn1 +n2 2; 2 S


+
n1
n2
(n1 1)S12 + (n2 1)S22
sendo S2 =
.
n1 + n2 2
Exemplo 6.6. Deseja-se estudar a influencia que pode exercer o tabaco no peso de criancas ao nascer. Para
isso, consideram-se dois grupos de mulheres gr
avidas (um de fumante e outro de n
ao-fumante) e obtem-se
os seguintes dados sobre o peso (X) de seus filhos:
1 = 3, 6 kg, S1 = 0, 5 kg
M
aes fumantes n1 = 35, X
2 = 3, 2 kg, S2 = 0, 8 kg
M
aes n
ao-fumantes n2 = 27, X
Em ambos os grupos, os pesos dos recem-nascidos provem de distribuico
es normais de medias desconhe possvel
cidas e com vari
ancias que, embora sejam desconhecidas, podemos supor que sejam as mesmas. E
determinar quanto a m
ae fumante influi no peso de seu filho !
(n1 1)S12 + (n2 1)S22
(35 1)0, 52 + (27 1)0, 82
Solu
c
ao: S2 =
=
= 0, 419 S = 0, 6473.
n1 + n2 2
35 + 27 2
Considerando um nvel de confianca de 5%,
a dado por:
o IC(1 2 ) ser
1
1
IC(1 2 ) : (3, 6 3, 2) t60;2,5% 0, 6473 35 + 27 = 0, 4 2(0, 6473)(0, 256)
IC(1 2 ) : 0, 4 0, 3316 : [0, 068; 0, 731] kg, com o qual pode-se dizer que em um filho de m
ae n
aofumante supera o de m
ae fumante, est
a compreendido, com um nvel de confianca de 95%, entre 0,068 kg e
0,731 kg.

6.4.3

Intervalo de Confianca para Proporc


ao

Analogamente ao processo de obtenc


ao do IC para a media, podemos obter um IC com uma conanca
de (1 )%, para a proporc
ao populacional, considerando um nvel de signicancia, , xo:

p(1 p)
IC(p) : p Z 2
.
n
Exemplo 6.7. Deseja-se estimar o resultado de um referendo mediante uma sondagem. Para isso, realizase uma amostragem aleat
oria simples com n=100 pessoas e obtem-se 35% que votar
ao a favor e 65% que
votar
ao contra (supomos que n
ao haja indecisos para simplificar o problema a uma vari
avel dicot
omica).
Com um nvel de signific
ancia de 5%, o Intervalo de Confianca para a proporca
o de favor
aveis e dado por:

35
0, 35(1 0, 35)
IC(p) :
1, 96
= 0, 35 0, 093 : [25, 7; 44, 3]%.
100
100
Portanto, estima-se com 95% de confianca que a proporc
ao de favor
aveis ao referendo e de no mnimo 25,7%
e no m
aximo 44,3% ou de 35% com uma margem de erro de 9,3% para mais ou para menos.

6.5

Tamanho da Amostra

6.5

ROSSI, Robson M. 66

Tamanho da Amostra

O assunto pertence `a Teoria da Amostragem. Pode-se, entretanto, calcular, para algumas situacoes
especiais, o tamanho da amostra necessario para se fazer inferencias.

6.5.1

M
etodo Simples

Tamanho de uma amostra aleat


oria simples. Sera abordado calculo do tamanho da amostra para
amostragem aleatoria simples.
A diferenca entre a estatstica descritiva dos elementos da amostra e o verdadeiro valor do parametro
que se deseja estimar como o erro amostral. Para determinar o tamanho da amostra o pesquisador deve
especicar o erro amostral toler
avel, ou seja, quanto ele admite errar na avaliacao dos parametros de
interesse.
A especicac
ao do erro amostral toler
avel deve ser feita sob um enfoque probabilstico, pois por maior
que seja a amostra, existe sempre o risco do sorteio gerar uma amostra com caractersticas bem diferentes
da populacao de onde ela foi extrada.
O calcular do tamanho mnimo de uma amostra aleatoria simples e dado por:
Sejam:
N: tamanho (n
umero de elementos) da populacao;
n: tamanho (n
umero de elementos) da amostra;
n0 : uma primeira aproximac
ao do tamanho da amostra, e
E0 : erro amostral toleravel.
onde
1
n0 =
.
E0
Conhecendo N o tamanho da populacao, pode-se corrigir o calculo:
n=

N n0
.
N + (n0 1)

Exemplo 6.8. Com objetivo de conhecer algumas caractersticas dos pacientes de uma clnica com 35
pacientes. Suponha que seja de interesse realizar um levantamento por amostragem para avaliar diversas
caractersticas da populac
ao de pacientes. Qual deve ser o tamanho mnimo da amostra aleat
oria simples,
tal que se possa admitir, com alta confianca, que os erros amostrais n
ao ultrapassem 4% (E0 = 0,04)?
Soluca
o: Uma primeira aproximac
ao e dada por:
n0 =

1
= 625 pacientes.
0, 042

Corrigindo, em func
ao do tamanho N da populacao, tem-se:
n=

35(625)
34.
35 + 624

Exemplo 6.9. Suponha que na clinica do Exemplo anterior a populac


ao fosse de N = 200 pacientes. Qual
deve ser o tamanho mnimo da amostra aleat
oria simples, tal que se possa admitir, com alta confianca, que
os erros amostrais n
ao ultrapassem 4% (E0 = 0, 04)?
Soluca
o: O valor de n0 continua sendo o mesmo do exemplo anterior, pois nao depende de N . Fazendo
a correcao em termos do novo valor de N , tem-se:
n=

200(625)
152.
200 + 624

Exemplo 6.10. Suponha agora que a populac


ao fosse de N = 200.000 pacientes.

6.5

Tamanho da Amostra

ROSSI, Robson M. 67

Soluca
o: Da mesma forma, o valor de n0 continua sendo o mesmo dos exemplos anteriores. E a correcao
em termos do novo valor de N , e:
n=

200.000(625)
623 pacientes.
200.000 + 624

Observe que para manter o mesmo erro amostral, no Exemplo ?? foi necessaria uma amostra abrangendo
quase 100% da populac
ao; enquanto no Exemplo 6.9 a amostra abrange 76%; e no Exemplo 6.10 abrange
portanto, err
0,3% da populac
ao. E,
onea a id
eia de que para uma amostra ser representativa
deva abranger uma percentagem fixa da popula
c
ao.
Tamanho da amostra em subgrupos da popula
c
ao
muito comum termos interesse em estudar separadamente certos subgrupos da populacao. Nesta
E
situacao, e preciso calcular o tamanho da amostra para cada uma destas partes. O tamanho total da
amostra vai corresponder `a soma dos tamanhos das amostras de cada parte.
O tamanho total da amostra cresce bastante quando se desejam estimativas isoladas para os diversos
subgrupos da populac
ao, por isso, e comum o pesquisador nao ser muito exigente na precisao das estimativas
nos subgrupos, tolerando erros amostrais maiores.

6.5.2

M
etodo Inferencial

Erro Tipo I e Tipo II


Muitas vezes temos necessidade de saber:
Que estatsticas serao utilizadas e retiradas dessa amostra?
Qual o comportamento desta estatstica? e razoavel?
Dois tipos de erros podem ser cometidos em um TH:
H0
Decis
ao
N
ao Rejeitar
Rejeitar

Verdadeira
Correto
Probabilidade: (1 )
Erro tipo I:

Falsa
Erro tipo II:
Correto
Probabilidade: (1 )

Figura 6.11: Erro tipo I e Erro tipo II.

6.5

Tamanho da Amostra

ROSSI, Robson M. 68

Tamanho da Amostra para estimar a M


edia e a Propor
c
ao
Se o objetivo e estimar a media, ou uma proporcao, pode-se usar os intervalos de conanca anteriormente
estabelecidos para obter n, o tamanho da amostra. Para isto, e preciso xar o maior erro aceitavel e o nvel
de conanca com que se quer trabalhar.
Sendo o tamanho maximo do erro aceitavel : e (xo), com probabilidade (1 ) (xo), o intervalo de
conanca de nvel 100(1 )% serao, respectivamente, para a m
edia e para a propor
c
ao, considerando a
populacao innita, tem-se:
[

M
edia:
Propor
c
ao:

]
Z 2 so 2
n=
e
[
]
Z 2 2
p0 (1 p0 )
n=
e

onde
ou

so
e = Z 2
n
[
]
Z 2 2
se p e desconhecido.
n
2e

onde p0 e so s
ao estimativas da proporc
ao e da dispersao, respectivamente, obtidos atraves de uma amostra
piloto, ou de informac
oes populacionais.
Exemplo 6.11. Numa amostra de classificaca
o de veteranos de um colegio com. x
= 2, 6 e so = 0, 3, qual
deve ser o tamanho da amostra para que tenhamos 95% de confianca em que erro da estimativa de n
ao
supere 0,05?
Solu
c
ao:
[
n

=
[

Z 2 so
e

]2

1, 96(0, 3)
0, 05
139.

]2

Exemplo 6.12. Suponha que, em uma amostra de 500 famlias que possuem aparelho de televis
ao em certa
cidade, haja 340 com televisor em cores. Se o objetivo e estimar o n
umero de famlias que possuem televisor
em cores, qual o tamanho da amostra necess
ario para que tenhamos 95% de confianca em que o erro da
estimativa n
ao seja superior a 0,02 ?
Solu
c
ao: Trate as 500 famlias como uma mostra preliminar que fornece a estimativa p0 = 0, 68. Ent
ao:
[
n =
[

Z 2
e

]2

1, 96
0, 02
2.090.
=

p0 (1 p0 )
]2
0, 68(0, 32)

Para o caso em que a populac


ao e nita (N conhecido), onde a amostragem e sem reposicao, temos as
formulas para o calculo do tamanho amostral, respectivamente, para a m
edia e para a propor
c
ao:
M
edia:
Propor
c
ao:

(
)2
N Z 2 so
n=
(
)2 ;
(N 1)e2 + Z 2 so
( )2
N p0 q0 Z 2
n=
( )2
p0 q0 Z 2 + (N 1)e2

ou n (

( )2
N Z 2

Z 2

)2

+ 4(N 1)e2

se p0 for desconhecido.

Alternativamente, temos tanto para o caso em que estudamos variaveis quantitativas discretas, quanto
contnuas, utilizamos as formula descritas anteriormente, e tomamos n = n0 , e conhecendo N , o calculo de
n, tamanho amostral podera ser obtido atraves de:
n=

N n0
.
N + (n0 1)

6.5

Tamanho da Amostra

ROSSI, Robson M. 69

Exemplo 6.13. Determinado trabalho, realizado para investigar a prevalencia de hansenase em trabalhadores rurais, apresentou um valor igual a 22%. Para estimar o tamanho da amostra para novo projeto sobre
hansenase, desejamos um nvel de confianca de 95% e erro de amostragem de 5%. Determine n, o tamanho
da amostra necess
aria para uma populac
ao de tamanho N = 100.000.
Solu
c
ao:
[
n0

=
[

n0

n0

Z 2
e

]2

1, 96
0, 05
264,

p0 (1 p0 )
]2
0, 22(0, 78)

logo, o tamanho da amostra corresponder


a a:
100.000(264)
1 + 263
n 253.
n =

Por denic
ao o Poder do teste e: 1 e na pratica, utilizam-se valores entre 80% a 90% no calculo
dos tamanhos amostrais para a Media e para a Proporcao, agora podem ser dados, respectivamente por:
M
edia:
Propor
c
ao:

[(
) ]2
Z 2 + Z s0
n0 =
;
e
[
]2

Z 2 p0 (1 p0 ) + Z p1 (1 p1 )
n0 =
e

e = p1 p0 ;
p0 : proporc
ao presumida da populac
ao (referente a H0 );
p1 : e a alternativa ou proporc
ao esperada na populacao.
Exemplo 6.14. Suponha que desejemos testar a hip
otese nula H0 : = 180 mg/100 ml ao nvel de
signific
ancia = 1%. Neste contexto e o nvel medio serico de colesterol da populac
ao de homens de 20 a
74 anos. O desvio-padr
ao e = 46 mg/100 ml. Se uma amostra piloto indica que o nvel medio serico de
colesterol e de 201 mg/100 ml (e = 201 180 = 21), queremos adotar um poder do teste de 95%. Qual o
tamanho da amostra para inferir em uma populac
ao de 1.500 indivduos?
[(
) ]2
[
]2
Z 2 + Z s0
(2, 58 + 1, 65) 46
n0 =
= n0 =
85,
e
201 180
e corrigindo para N, temos:
n=

1.500(85)
81.
1 + 84

6.5

Tamanho da Amostra

ROSSI, Robson M. 70

Exemplo 6.15. A proporc


ao de pacientes com c
ancer nos pulm
oes abaixo dos 40 anos no diagn
ostico, que
sobrevivem pelo menos 5 anos e conhecida e igual a p0 = 8, 2%. Deseja-se testar essa hip
otese baseado em
dados de uma amostra que acusou uma proporca
o de p1 = 20%. Qual o tamanho desta amostra, considerando
um nvel de confianca de 99% e um poder do teste com 95%?
[
n0 =
[
n0 =

2, 57

Z 2

]2

p0 (1 p0 ) + Z p1 (1 p1 )
e

]2

0, 082(0, 918) + 1, 65 0, 2(0, 8)


134.
0, 2 0, 082

Tamanho da Amostra Ensaios Clnicos


Aqui devem ser considerados outros fatores.
n0 : tamanho amostral;
n2
r : razao entre grupos controles (n2 ) e os casos (n1 ), ou seja: r =
;
n1
p0 : proporc
ao de indivduos nao-expostos (ou controles);
p1 : proporc
ao de indivduos expostos (ou tratados);
p1 + rp0
p =
;
1+r
s0 : desvio-padrao obtida atraves de uma amostra piloto;
: nvel de signicancia ou erro tipo I (1%, 5%, 10%, ...);
: erro tipo II (10%, 15%, 20%, ...);
e : erro maximo de estimac
ao.
Tamanho de amostra para duas m
edias:
(

)2
Z 2 + Z s20 (r + 1)
n0 =
;
e2 r
Tamanho de amostra para duas propor
c
oes:
(
)2
Z 2 + Z (r + 1)
n0 =
p(1 p).
e2 r
Exemplo 6.16. Com objetivo de comparar medias de teor de hemoglobina devido a dois tratamentos distintos, um experimento ser
a realizado com duas amostras independentes.Sabe-se que = 0, 05, e portanto
n2
Z 2 = 1, 96; = 0, 20, ou seja, um poder de 80%, portanto Z = 0, 84; r =
= 3, ou seja, 3 controles
n1
para cada caso; s0 = 1, 5 mg variac
ao observada em estudos anteriores; e = 0, 5 mg erro m
aximo desejado,
assim, tem-se que:
2
2
(1, 96 + 0, 84) (1, 5) (3 + 1)
n=
94.
(0, 5)2 3
Portanto, o grupo tratado dever
a ter 94 indivduos, enquanto o grupo controle, o triplo : 282.
Exemplo 6.17. Um ensaio clnico aleat
orio ser
a realizado e para a determinac
ao do tamanho das amostras,
n2
= 2; p0 = 0, 40 e
as seguintes informac
oes foram utilizadas: = 0, 05; = 0, 10, ou seja, Z = 1, 28; r=
n1
p1 = 0, 60; e = 0, 20, assim tem-se:
2

n=

(1, 96 + 1, 28) (2 + 1)
98.
(0, 2)2 2

Portanto, o grupo tratado dever


a ter 98 indivduos, enquanto o grupo controle, o dobro : 196.

6.6

Testes de Hip
oteses

6.6

ROSSI, Robson M. 71

Testes de Hip
oteses

Frequentemente e necessario tomar decisoes sobre parametros ou distribuicoes populacionais com base
em informac
oes amostrais, as quais sao denominadas decis
oes estatsticas. Na tomada de decisoes, sao
formuladas hipoteses que serao rejeitadas ou nao rejeitadas. Tais hipoteses, que podem ser verdadeiras ou
nao, chamam-se hip
oteses estatsticas e, em geral, consistem de armacoes sobre os parametros populacionais
ou sobre as distribuic
oes de probabilidade das populacoes, como, por exemplo:
1. a media populacional da altura dos brasileiros e 1,65 m;
2. a proporc
ao de brasileiros com a doenca X e 40% (p = 0, 40);
3. a distribuic
ao dos pesos dos pacientes adultos do hospital X e normal.
Os processos que nos permitem decidir por rejeitar ou nao rejeitar uma hipotese, ou determinar se amostras observadas diferem signicativamente dos resultados esperados sao chamados Testes de Hip
oteses.
O objetivo e fornecer ferramentas que nos permitam validar ou refutar uma hipotese, atraves de resultados
da amostra. Os Testes de Hip
oteses podem ser de dois tipos:
(a) N
ao Parametricos: quando formulamos hipoteses com respeito `a natureza da distribuicao da populacao.
Estes testes nao dependem dos parametros populacionais, nem de suas respectivas estimativas. Veja o
tem (3.);
(b) Parametricos: quando formulamos hipoteses com respeito ao valor de um parametro populacional.
Veja tens (1.) e (2.).

6.6.1

Construc
ao de um Teste de Hip
otese

Inicialmente, para a construc


ao de um teste, deve-se formular duas hipoteses a cerca da armacao:
(a) Hip
otese Nula (H0 ): e uma armacao que diz que o parametro populacional e tal como especicado.
otese alternativa (Ha ): e uma armacao que oferece uma alegacao alternativa (isto e, o parametro
(b) Hip
e diferente do valor alegado).
As hipoteses estatsticas para um parametro , podem ser formuladas como segue:
1. Teste Bilateral: quando utilizamos ambas as caudas da distribuicao.
H0 :
Ha :

= 0
= 0

2. Teste Unilateral `
a Direita: quando utilizamos a cauda direita da distribuicao.
H0 :
Ha :

= 0
> 0

3. Teste Unilateral `
a Esquerda: quando utilizamos a cauda esquerda da distribuicao.
H0 :
Ha :

= 0
< 0

Ao se testar uma hipotese, o que se deseja vericar e, atraves de uma estatstica obtida de uma amostra,
se a hipotese pode ou nao rejeitada com o nvel de signicancia pre-xado, . Esta conclusao e tomada com
base na Regi
ao Crtica (RC: cuja area corresponde a ) que e construda de modo que:
P ( RC|H0 verdadeira) = .
RA e denominada Regi
ao de n
ao rejei
c
ao cuja area corresponde a 1 .
O procedimento que sera utilizado para a construcao de um teste de hipotese e o que consiste em
apresentar o nvel descritivo ou p-valor.
A sequencia abaixo pode ser usada sistematicamente para qualquer teste de hipotese:

6.6

Testes de Hip
oteses

ROSSI, Robson M. 72

1-alfa

alfa/2

alfa/2
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx

xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx

-Zalfa/2

+Zalfa/2

Figura 6.12: Teste de Hip


otese Bilateral.
1. Passo 1: Denir as hipoteses H0 e Ha ;
2. Passo 2: Use a teoria estatstica e as informacoes para decidir qual a distribuicao da estatstica
(estimador) que sera utilizada no julgamento de H0 ;
Exemplos:

para (n 30)
x

N (0, 1)
Zc =
/ n

para (n < 30 ou desconhecido)


x

Tc = tn1
s/ n

para p (supondo normalidade)


p p0
Zc =
N (0, 1)
p0 (1 p0 )
n
3. Passo 3: Escolher o nvel de signicancia (erro tipo I) e utilizando as informacoes fornecidas pela
amostra para encontrar o valor do estimador do parametro (estatstica) que esta sendo testado;
Dois tipos de erros podem ser cometidos em um TH:
H0
Decisao
N
ao Rejeitar
Rejeitar

Verdadeira
Correto
Probabilidade: (1 )
Erro tipo I:

Falsa
Erro tipo II:
Correto
Probabilidade: (1 )

4. Passo 4: Com o valor da estatstica observada na amostra encontrar a probabilidade (probabilidade


de signicancia p-valor) de ocorrer amostras com valores mais extremos do que o valor obtido.
5. Passo 5: Conclus
ao. Compare a probabilidade obtida, p-valor, com o valor de :
Rejeitamos H0 quando p-valor < .

6.6.2

O p-valor

O procedimento de teste de hipotese descrito acima fornece informacao sobre a forca da evidencia contra
H0 obtida a partir dos dados. Isto e, e informado se o valor observado para a estatstica de teste que levou
`a rejeicao de H0 est
a proxima da fronteira da RC-regiao crtica ou RR-regiao de rejeicao (baixa evidencia
contra H0 ) ou se esta muito afastada da fronteira (alta evidencia contra H0 ).
O p-valor e a probabilidade de ocorrencia do valor particular observado para a estatstica de teste ou de
valores mais extremos, na direc
ao da regiao crtica, quando a hipotese nula H0 e verdadeira. Quanto maior
for a forca da evidencia contra H0 , menor sera o p-valor.

6.6

Testes de Hip
oteses

6.6.3

ROSSI, Robson M. 73

Teste de Hip
otese para M
edia

Existem diferentes estatsticas para se testar uma media:


Desvio-padr
ao conhecido
Caso 1. conhecido (!). Nessa situacao a estatstica teste e a Z, isto e:
Zc =

N (0, 1).
/ n

Exemplo 6.18. Deseja-se investigar se uma certa molestia que ataca o rim altera o consumo de oxigenio
desse
org
ao. Para indivduos sadios, admite-se que esse consumo tem distribuic
ao Normal com media 12
cm3 /min. Os valores medidos em cinco pacientes com a molestia foram:
14, 4

12, 9

15, 0

13, 7

13, 5

Qual seria a conclus


ao, ao nvel de 5% de signific
ancia?
Solu
c
ao: O teste de interesse e:
H0 :
Ha :

A molestia nao altera a media de consumo renal de oxigenio;


Indivduos portadores da molestia tem media alterada.

Em termos da media populacional, estamos testando as hipoteses:


H0 :
Ha :

= 12
= 12,

e a regiao crtica, considerando um teste bilateral, e da forma:


RR = {z R|z < z1 ou z > z2 }.
Sendo conhecido e igual a 0,5, temos como valor calculado:
Zc

N (0, 1)
/ n
13, 9 12

=
1, 5/ 5
(
)
p-valor
= +2, 83
= 0, 002327 p-valor = 0, 0047 .
2

Os valores tabelados para = 5%, sao: Z0,025 = 1, 96.


Portanto, como Zc RR, decidimos pela rejei
c
ao da hipotese nula, ou seja, a media de consumo de
oxigenio difere de 12 cm3 /min ao nvel de 5% (p-valor = 0, 0047 < 0, 05 = ).

6.6

Testes de Hip
oteses

ROSSI, Robson M. 74

Figura 6.13: Teste de hip


otese - Desvio-padr
ao conhecido.
Desvio-padr
ao desconhecido e n 30
Caso 2. desconhecido (?, n 30). Nessa situacao a estatstica teste continua sendo a Z, porem
= s, isto e:
x

Zc = N (0, 1).
s/ n
Exemplo 6.19. Considere o Exemplo 6.18, e que n
ao h
a conhecimento de , alem disso o tamanho amostral
tivesse sido 50, refaca o teste ao nvel de 5%.
Solu
c
ao: Sendo desconhecido e n = 50, usaremos s como seu estimador e a estatstica teste sera:

Zc

N (0, 1)
s/ n
13, 9 12

=
0, 82/ 50
(
)
p-valor
= +16, 4
=0 .
2
=

Os valores tabelados para = 5%, sao: Z0,025 = 1, 96.


Portanto, como Zc RR, decidimos pela rejei
c
ao da hipotese nula, ou seja, o nvel medio de consumo
de oxigenio difere de 12 cm3 /min ao nvel de 5% (p-valor = 0 < 0, 05 = ).

6.6

Testes de Hip
oteses

ROSSI, Robson M. 75

Figura 6.14: Teste de hip


otese - Desvio-padr
ao desconhecido e n >= 30.
Desvio-padr
ao desconhecido e n < 30
Caso 3. desconhecido (?, n < 30). Nessa situacao a estatstica teste e a t-Student, porem = s,
isto e:
x

Tc = t(n1) .
s/ n
ao h
a conhecimento de , refaca o teste ao nvel de 5%.
Exemplo 6.20. Considere o Exemplo 6.18, e que n
Solu
c
ao: Sendo desconhecido e n = 5, usaremos s como seu estimador e a estatstica teste sera:

Tc

t(4)
s/ n
13, 9 12

=
0, 82/ 5
= +5, 21 (p-valor = 0, 0066).
=

Os valores tabelados para = 5%, sao: t(4;0,025) = 2, 78.


Portanto, como Tc RR, decidimos pela rejeicao da hipotese nula, ou seja, o nvel medio de consumo de
oxigenio difere de 12 cm3 /min ao nvel de 5%.

6.6

Testes de Hip
oteses

ROSSI, Robson M. 76

Figura 6.15: Teste de hip


otese - Desvio-padr
ao desconhecido e n < 30.

6.6.4

Teste de Hip
otese para Proporc
ao

Exemplo 6.21. Suponha que um laborat


orio alegue que uma determinada droga que ele comercializa e
eficiente em pelo menos 85% dos casos em que e utilizada. Suponha que, para comprovar a alegac
ao do
laborat
orio, um organismo de controle testou 180 pacientes, verificando a ac
ao da droga em 146 casos.
Solu
c
ao: O teste da eficiencia alegada pelo laborat
orio, aos nveis cl
assicos de signific
ancia, seria feito
da seguinte forma:
146
Y
=
0, 811 (proporc
ao de eficiencia na amostra)
p =
n
180
H0 :
Ha :

0, 85
< 0, 85

A Estatstica teste e
Zc

Zc

p p0
p0 (1 p0 )
n
0, 811 0, 85

0, 85(1 0, 85)
180
0, 0389
=
0, 0266
= 1, 46 (p = 0, 072145 ou 7, 2%)

Os valores tabelados para os nveis de signicancia de interesse sao:

10%
1, 28

5%
1, 65

1%
2, 33

Observe que Rejeitamos H0 para : 10%, mas nao para : 1% e 5%.


Conclus
ao: Ao nvel de signicancia = 10%, ha evidencias estatsticas de que a droga e menos ecaz
do que o alegado.

6.6

Testes de Hip
oteses

ROSSI, Robson M. 77

Figura 6.16: Teste de Hip


otese para Proporc
ao.

Captulo 7

An
alise em Tabelas 2x2 e LxC
Neste topico estudaremos a relac
ao entre duas variaveis categoricas (ou qualitativas), onde as observacoes
podem ser classicadas em uma das varias categorias (nveis ou celulas) mutuamente exclusivas.
O problema de mensurac
ao do grau de associac
ao entre dois conjuntos de escores e de car
ater bem
diferente do teste da simples existencia de uma associac
ao em determinada populac
ao. Naturalmente, h
a
interesse em avaliar o grau de associac
ao entre dois conjuntos de escores referentes a um grupo de indivduos.
Mas e talvez de muito maior interesse podermos afirmar que determinada associac
ao observada em uma
amostra de escores indica, ou n
ao, probabilidade de associac
ao entre as vari
aveis na populac
ao da qual se
extraiu a amostra (Siegel, 1956).

7.1

Tabelas de Conting
encia

Segundo o dicionario Webster o termo contingency signica the quality or state of having a close
connection or relationship. O termo contingency table se refere ao fato de que as tabelas construdas sao
usadas para testar a existencia de relac
oes entre duas variaveis. Observamos que infelizmente este termo
em portugues nao tem o mesmo signicado. Segundo o Aurelio, contingencia signica qualidade do que e
contingente, incerteza se uma coisa vai acontecer ou nao e contingente signica que pode ou nao suceder,
eventual, incerto. Logo, em estatstica, quando nos referimos a palavra contingencia estamos tomando o
mesmo signicado da lngua inglesa.
O teste chi-quadrado (2 ) pode ser usado para avaliar a relacao entre duas variaveis qualitativas. Este
teste e um teste nao-parametrico, que e muito u
til, pois nao precisa da suposicao de normalidade das variaveis
para analisar o grau de associac
ao entre as duas variaveis, porem este teste e menos poderoso que o teste
parametrico.
Dentro deste teste devemos distinguir dois tipos de testes: o de independ
encia e o de homogeneidade.
Vejamos quando estamos tratando de um teste de independencia e quando estamos tratando com um teste
de homogeneidade, atraves de exemplos.

7.2

Teste de Independ
encia e de Homogeneidade

Suponha que uma educadora quer analisar se existe relacao entre a participacao ativa dos pais dos
alunos nos deveres extra-escolares e o desempenho dos alunos em Matematica. Suponha que ela categoriza
o desempenho dos alunos em tres grupos: baixo, medio, alto e, do mesmo modo, categoriza a participacao
dos pais em dois grupos: participac
ao ativa, participac
ao fraca. Suponha que ela deseja trabalhar com 300
criancas.
Neste caso a educadora pode delinear sua pesquisa de duas formas:

78

7.2

Teste de Independ
encia e de Homogeneidade

ROSSI, Robson M. 79

Caso 1. Selecionar uma amostra de criancas aleatoriamente e examinar em que celula cada uma esta
alocada, logo o u
nico valor xo sera o total geral que sera de 300. Mas os totais de colunas e de linhas
serao frutos da pesquisa, portanto, aleatorios, neste caso estamos frente a um teste de independencia
de vari
aveis.
Logo a tabela de contingencia sera:

Participac
ao
dos pais
Ativa
Fraca
Total

Tabela 7.1: Exemplo de tabela de contingencia.


Desempenho do aluno em Matematica
Total
Baixo
Medio
Alto
Teste de
Aleatorio = Independencia
Aleatorio
Aleatorio Aleatorio
Aleatorio
300

Porem ela pode xar o n


umero de alunos de acordo com seu desempenho.
Caso 2. Pegar uma amostra aleatoria de tamanho 100 de cada grupo de alunos, logo os totais das
colunas serao xos, mas os totais das linhas serao aleatorios e assim estaremos frente a um teste de
homogeneidade:
Logo a tabela de contingencia sera:

Participac
ao
dos pais
Ativa
Fraca
Total

Tabela 7.2: Exemplo de tabela de contingencia.


Desempenho do aluno em Matematica
Total
Baixo
Medio
Alto
Teste de
Aleatorio = Homogeneidade
Aleatorio
100 (xo) 100 (xo)
100 (xo)
300

Os valores totais, das colunas e das linhas, sao chamados de totais marginais. Quando os totais
marginais variam livremente, o teste de associa
c
ao
e chamado de independ
encia, e quando
um dos conjuntos, linha ou coluna
e fixado pelo pesquisador ent
ao
e chamado de teste de
homogeneidade. Isso vai depender do pesquisador. No exemplo da educadora, observemos que para ela e
muito mais facil xar o n
umero de alunos segundo seu desempenho, do que xar pela participacao dos pais,
que, apriori sera quase impossvel.
Teste de Independ
encia
Apresentaremos a logica do teste com um exemplo bastante simples.
Exemplo 7.1. Suponha que 125 criancas foram expostas a tres tipos de comerciais de TV, sobre cereais
para cafe da manh
a. Ap
os a exposica
o foi solicitado a cada crianca para indicar qual dos comerciais ela
gostou mais. O que se deseja saber e se a escolha do comercial est
a relacionado ao genero da crianca: pois
suspeita-se de que o genero pode estar influenciando na escolha do comercial. Os dados podem ser apreciados
na Tabela 7.3.
Tabela 7.3: N
umero de criancas segundo tipo de comercial escolhido e genero.
Tipo de comercial
Genero
A B
C
Total
Meninos 30 29
16
75
Meninas 12 33
5
50
Total
42 62
21
125
Analisando atentamente a Tabela 7.3, composta por valores absolutos, percebemos:

7.2

Teste de Independ
encia e de Homogeneidade

ROSSI, Robson M. 80

a amostra esta composta por mais meninos do que meninas,


nos comerciais A e C o n
umero de meninos e maior do que meninas, e
no comercial B essa relac
ao se inverte.
Contudo, essa analise ca prejudicada pela composicao da amostra, que tem mais meninos do que meninas. Portanto, a primeira coisa a fazer e analisar as estruturas percentuais, mostradas na Tabela 4.3, ou
seja retirar a inuencia da amostragem.
Tabela 7.4: Porcentagem para os valores absolutos de criancas por tipo de comercial escolhido e genero
apresentados na tabela anterior.
Tipo de comercial
Genero
A
B
C
Total
Meninos 71%
47%
76%
60%
Meninas 29%
53%
24%
40%
Total
100% 100% 100%
Observe cuidadosamente a Tabela 7.4, onde 60% da amostra e composta por meninos. Se a preferencia das
criancas pelos comerciais independe do genero, esperaramos que a estrutura percentual para cada comercial
casse em torno de 60% para os meninos e 40% para as meninas, desvios grandes destes percentuais estariam
mostrando evidencias de que existe alguma relacao entre essas variaveis. Essa inspecao intuitiva, tambem,
pode ser feita analisando a estrutura dentro de cada genero como mostra a Tabela 7.5.
Tabela 7.5: Porcentagem de criancas por genero e tipo de comercial escolhido.
Tipo de comercial
Genero
A
B
C
Total
Meninos 40% 39% 21% 100%
Meninas 24% 66% 10% 100%
Total
33% 50% 17%
Analisando a Tabela 7.5 observamos que as meninas tem uma forte preferencia pelo comercial B, enquanto
que os meninos se dividem entre o comercial A e B.
Assim, intuitivamente percebemos que existe interferencia do genero na preferencia, agora precisamos
saber ate que ponto essas diferencas se devem ao acaso, ou a existencia de associacao entre as duas variaveis:
X: preferencia pelo comercial ( A, B e C) qualitativa;
Y: genero (meninos, meninas) qualitativa.
Hip
otese nula (H0 ): A preferencia pelo comercial independe do genero da crianca;
Hip
otese alternativa (Ha ): A preferencia pelo comercial depende do genero da crianca (ou, o genero
interfere na preferencia pelo comercial);
Analogamente, temos:
Ho

: independencia de variaveis

H1

: dependencia de variaveis

Como deveriam ser os valores a serem observados se as variaveis fossem independentes?, ou dito de outra
forma, sob a hipotese de nulidade, de independencia de variaveis, como deveriam ser os valores a serem
observados? A logica nos diz que esses valores devem estar muito proximos da estrutura percentual global.
Esses valores sao chamados de valores esperados.
Cada valor esperado sera calculado supondo que a estrutura percentual global se mantenha em cada
coluna:
Calculando os valores esperados, sobre a suposicao de independencia:

7.2

Teste de Independ
encia e de Homogeneidade

ROSSI, Robson M. 81

Tabela 7.6:
Valores percentuais
Tipo de comercial
Genero
A
B
C
Meninos 60% 60% 60%
Meninas 40% 40% 40%
Total
42
62
21

Valores absolutos
Valores esperados
Total
Genero
A B
C
e
60%
Meninos 25 37
13
40%
Meninas 17 25
8
125
Total
42 62
21

Total
75
50
125

Valor esperado menino, comercial A: 60% de 42 = 25,2


Valor esperado menino, comercial B: 60% de 62 = 37,2
...
O mesmo teria acontecido se xarmos primeiro o comercial:
Valor esperado comercial A, menino: 33,7% de 75 = 25,2
Valor esperado comercial A, menina: 33,7% de 50 = 16,8
...
Tanto faz xar a linha ou a coluna pois:
Ei =

Tl Tc
Tc
Tl
= Tl
= Tc
T
T
T

Por exemplo, calculemos o valor esperado da primeira linha e primeira coluna:


Ei =

75 42
42
75
= 75
= 42
= 25, 2
125
125
125

Assim calculando os valores esperados para todas as celulas temos:

Genero
Meninos
Meninas
Total

Tabela 7.7:
Tipo de comercial
A
B
Oi = 30 Ei = 25,2
29 37,2
di = +4,8
-8,2
12 16,8
33 24,8
-4,8
+8,2
42
62

C
16 12,6
+3,4
5 8,4
-3,4
21

Total
75
50
125

Dentro de cada celula, no canto superior esquerdo colocamos o valor observado, no canto superior direito
o valor esperado (sob a hipotese de independencia) e, na parte inferior, a distancia entre o observado e o
esperado. Logo, se as vari
aveis fossem independentes, as distancias entre os valores observados e esperados
deveriam ser muito pequenas, caso contr
ario havera indcios de dependencia. A pergunta agora e: quando a
distancia e pequena ou grande? Para isto devemos calcular o valor (2 ) qui-quadrado da amostra:
2amostra =

k (observado esperado)2
k (O E )2

i
i
=
esperado
Ei
i=1
i=1

que tera uma distribuic


ao chi-quadrado com graus de liberdade igual ao produto do n
umero de linhas menos
um vezes o n
umero de colunas menos um, isto e:
2amostra 2

: graus de liberdade
: (no colunas - 1)(no linhas - 1)

Para testar as hipoteses, temos a estatstica teste qui-quadrado com correcao de continuidade de Yates:
(
)2
k |O E | 1

i
i
2
2
cY =
2[L1C1;(1)%] (Tabelas L C)
Ei
i=1

7.2

Teste de Independ
encia e de Homogeneidade

ROSSI, Robson M. 82

No nosso exemplo sem a correc


ao de Yates, temos:
2amostra

=
=
=

(+4, 8)2
(8, 2)2
(+3, 4)2
(4, 8)2
(+8, 2)2
(3, 4)2
+
+
+
+
+
25, 2
37, 2
12, 6
16, 8
24, 8
8, 4
0, 914 + 1, 808 + 0, 917 + 1, 371 + 2, 711 + 1, 376
9, 09818 (p-valor : 0,0106)
onde v = (2 1) (3 1) = 1 2 = 2

Para aceitar ou rejeitar a hipotese devemos conhecero valor de 2calculado na tabela qui-quadrado, com
dois graus de liberdade. Para = 5%, o valor crtico e 5, 991, como o valor da amostra e maior que o valor
crtico, logo rejeitamos a hipotese nula, concluindo que o genero interfere na preferencia pelos comerciais.
No caso de dispormos de um pacote estatstico, este, via de regra, calcula o p-valor, nesse caso e so
comparar esse valor com o nvel de signicancia desejado. No nosso caso o p valor = 0, 01058, ou seja,
rejeitamos ao nvel de 5% mas nao ao nvel de 1%.
Obs.: Quando as vari
aveis sao independentes (H0 ), as freq
uencias observadas tendem a car perto das
esperadas. Neste caso, o valor de 2 deve ser pequeno.
Limita
c
oes do teste 2 :
1. Infelizmente, o teste qui-quadrado nao permite concluir como se da a relacao, uma vez que ele testa
apenas a hipotese geral de que as duas variaveis sao independentes. Examinando a distancia entre
valor observado e esperado, por exemplo, observamos que as meninas tem uma maior preferencia pelo
comercial B, porem nao podemos concluir nada.
2. Uma outra limitac
ao do teste qui-quadrado e que o valor esperado das celulas nao deve ser menor ou
igual a 5 e devido a isso torna vulneravel a estatstica. Nesse caso usamos outra estrategia: o teste
exato de Fisher.
Teste de Homogeneidade
Quando testamos independencia de variaveis, o pesquisador so controla o tamanho total da amostra, mas
os totais para cada coluna e linha sao aleatorios.
Exemplo 7.2. No caso do exemplo anterior, os pesquisadores selecionaram aleatoriamente 125 criancas,
das quais 75 eram meninos e 50 meninas. Ele n
ao fixou o numero de meninos e o n
umero de meninas.
Vejamos um exemplo de teste de homogeneidade. Retomemos o exemplo inicial e suponhamos que a
professora xou o tamanho dentro de cada grupo de alunos e os resultados foram os seguintes:
Tabela 7.8: N
umero de alunos segundo seu desempenho em Matem
atica e participac
ao dos pais nas atividades
extra-escolares.
Desempenho em Matem.
Participac
ao
Baixo Medio
Alto
Total
dos pais
Ativa
5
25
70
100
Fraca
95
75
30
200
Total
100
100
100
300

H0
H1

: p11 = p12 = p13 igualdade de proporcoes


: p1i = p1j ; para algum i = j existe pelo menos uma proporcao diferente

A hipotese nula esta testando que a proporcao de alunos com baixo desempenho e igual a proporcao de
alunos medio e igual a proporc
ao de alunos com desempenho alto quando seus pais participam ativamente
das atividades extra-escolares, contra a hipotese alternativa que indica que existe pelo menos uma proporcao
diferente.
O teste e identico ao teste de independencia.

7.3

An
alise de Resduos em Tabelas 2L

ROSSI, Robson M. 83

O Coeficiente de Conting
encia.
O coeciente de contingencia e uma medida do alcance da associacao ou relacao entre dois conjuntos de
atributos. Ele e calculado em func
ao do valor calculado na tabela de contingencia e independe de ordenacao
das categorias das vari
aveis:

2
C=
, onde n e o tamanho da amostra.
2
+n
Exemplo 7.3. No exemplo dos comerciais de TV, o coeficiente de contingencia ser
a:

9, 09818
C=
= 0, 26047.
9, 09818 + 125
Para testar a signicancia deste coeciente teramos que recorrer a tabela propria.
H0

: C=0

H1

: C = 0

Se o p-valor associado for menor que alfa rejeitamos H0 e conclumos de que existe associacao entre as
variaveis, caso contr
ario nao.
Para facilitar a interpretac
ao, usaremos uma modicacao deste coeciente. Chamaremos de k o menor
entre l (no de linhas da tabela) e c (no de colunas da tabela), isto e:
k = min{l; c}.
O chamado coeciente de contingencia modicado (C ) e dado por:

k.2

C =
.
(k 1)(2 + n)
O valor C sempre estara no intervalo de 0 a 1. Sera 0, somente quando houver completa independencia e
sera 1 quando houver associac
ao perfeita. Valores de C proximos de 1 descrevem associacao forte, enquanto
oximos de 0 indicam associacao fraca. Os valores de C em torno de 50% podem ser
que valores de C pr
interpretados como associac
ao moderada.
Exemplo 7.4. C
alculo do coeficiente de contingencia para os dados do exemplo anterior.
k
C

= min{2; 3} = 2

k.2
=
(k 1)(2 + n)

2.(9, 09818)
=
(2 1)(9, 09818 + 125)
=

0, 3684 ou 36, 84%.

Este resultado indica uma fraca associacao entre X: preferencia pelo comercial e Y: genero.

7.3

An
alise de Resduos em Tabelas 2L

Exemplo 7.5. Vieira e Prolla (1979) estudaram uma amostra de 384 pacientes com problemas pulmonares,
classificando-os segundo a presenca ou n
ao de eosin
ofilos no escarro e o tipo de pneumopatia diagnosticada.
Grupo 1: asmas; Grupo 2: bronquite cr
onica com broncoespasmo; Grupo 3: bronquite cr
onica
ou enfisema sem broncoespasmo; Grupo 4: outras doen
cas pulmonares.

7.3

An
alise de Resduos em Tabelas 2L

ROSSI, Robson M. 84

Tabela 7.9: Presenca de eosin


ofilos no escarro e tipo de doenca pulmonar em 384 pacientes porto-alegrenses.
Grupo quanto a pneumopatia
Eosinolos no escarro Grupo 1 Grupo 2 Grupo 3 Grupo 4 Total
Sim
142
26
32
28
228
Nao
55
19
41
41
156
Total
197
45
73
69
384
{
Hip
oteses :

H0 :
Ha :

N
ao existe associac
ao entre Eosin
ofilos no escarro e pneumopatia;
Existe associacao entre Eosinolos no escarro e pneumopatia.

O teste 2 de associac
ao indica haver associacao entre o tipo de pneumopotia e a ocorrencia de eosinolos
no escarro (2c = 30, 6465; p < 0, 001) ao nvel de 1%.
Uma conclus
ao simples de existencia de associacao e em geral insatisfatoria para os pesquisadores, que
gostariam de entender melhor o tipo de associacao observada. Para responder a esta indagacao, existem
varias tecnicas estatsticas; a analise de resduos e uma das mais interessantes.
A analise de resduos e usada como auxiliar na interpretacao de dados organizados em tabelas L x C.
Por seu intermedio, e possvel avaliar como as diferentes caselas contribuem para o valor do 2c .
Calcula-se inicialmente o resduo padronizado (R p ) para cada casela:
OE
Rp =
.
E
A seguir, cada resduo deve sofrer uma correcao, passando a denominar-se resduo ajustado (Raj ) :
Raj = (

Rp
)(
TC
TG

TL
TG

).

Finalmente, os valores de Raj sao comparados com valores crticos da distribuicao normal, por exemplo,
z = 1,96, para um nvel de 5% de signicancia. Se Raj for maior do que z , conclui-se que o valor
observado na casela (O) desvia-se signicativamente (para mais ou para menos, conforme o sinal de Raj ) do
valor esperado (E).
Os resduos ajustados obtidos para os dados da Tabela 7.9, estao apresentados na Tabela 7.10. Na
primeira casela, o resduo ajustado foi obtido do seguinte modo:
OE
142 117
Rp (Sim; G1) =
=
= +2, 311
117
E
Raj (Sim; G1) = (

Rp
)(
TC
TG

) = (
L
1
1 TT G

+2, 311
)(
197
1
384

228
384

) = +5, 20.

Como Raj = |+5, 20| > Z5% = 1, 96, conclui-se que o n


umero de asmaticos que apresentam eosinolos
no escarro foi signicantemente maior (pois Raj e positivo) do que o esperado se as variaveis fossem independentes. Portanto, existe associac
ao positiva entre asma e presenca de eosinolos no escarro.
A interpretac
ao dos demais resduos ajustados e feita do mesmo modo, apos compara-los com Z . Por
exemplo, no Grupo 3 a freq
uencia de indivduos com eosinolos no escarro e signicantemente menor do que
o esperado ao acaso (Raj = |+3, 00| > 1, 96).
Na Tabela 7.10 ha seis resduos signicativos. Cambinando este resultado com as percentagens observadas
na Tabela 7.9, a conclusao geral e a de que indivduos com eosinolos no escarro sao mais freq
uentes entre os
asmaticos (142/197 = 72%) e menos comuns em pacientes dos Grupos 3 (44%) e 4 (41%). Em pacientes do
Grupo 2, a percentagem de pessoas com eosinolos no escarro (58%) nao diferem signicativamente daquela
observada para o total da amostra (59%).

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 85

Tabela 7.10: Resduos ajustados (Raj) obtidos para os dados da tabela anterior. Os valores com (*) s
ao
significativos ao nvel de 5%.
Grupo quanto a pneumopatia
Eosinolos no escarro Grupo 1* Grupo 2 Grupo 3* Grupo 4*
Sim
5,20
-0,23
-3,00
-3,51
Nao
-5,20
0,23
3,00
3,51

7.4
7.4.1

Medidas do Efeito em Tabelas 22


Risco Relativo (RR)

Os pesquisadores em sa
ude investigam a todo momento a ocorrencia de doencas, sua forma de apresentacao, sua freq
uencia, localizac
ao, enm, re
unem uma serie de informacoes que sao apresentadas de
forma expositiva, dando ciencia de tudo o que encontraram a respeito.
Porem, existe uma preocupac
ao maior, que e a de se estudar o vardadeiro sistema no qual esta inserido
o fato, a m de pesquisarem-se os fatores que a ele estariam associados.
Com o objetivo de analisar os fatores responsaveis e quanticar em sua grandeza a participacao desses
fatores, vale a pena ressaltar que um dos estudos mais importantes que visa a responder a essas indagacoes
seria a analise dos fatores de risco, que podem ser um agente qumico, um tipo de acidente ou mesmo um
habito de vida.
Em determinados tipos de estudo, atraves de um procedimento metodologico estatstico, e possvel realizar
estimativas como indicadores relevantes de causa e efeito.
O risco relativo e uma forma de expressarmos a forca de associacao entre exposicao ao fator e a doenca.
Os estudos longitudinais prospectivos e retrospectivos proporcionam ao investigador a oportunidade de
identicar, dentro do sitema composto das variaveis que sao selecionadas e estudadas, os fatores de risco e
de protecao, considerando as vari
aveis independentes e dependentes contidas no modelo de estudo.
Um dos primeiros procedimentos no estudo e identicar a variavel dependente e as variaveis independentes. Tanto seja vari
avel discreta ou contnua, podemos realizar a analise dos dados, com o intuito de
vericar o risco de ocorrencia de um fato, pela presenca de um ou mais fatores, considerando inclusive a sua
intensidade.
Exemplicando, poderamos vericar a hipotese de que o consumo de cigarros tenha associacao com cancer
de pulmao, determinando-se o risco para tabagistas, baseando-se em indivduos nao fumantes, tendo-se em
conta que os nao tabagistas tambem podem contrair a doenca.
Conceituar o que seja risco e fundamental para nossa apresentacao. Portanto, considera-se como risco a
probabilidade de que pessoas que estao sem a doenca, mas expostas a certos fatores, possam adquir-la.
Na vericac
ao da ocorrencia de doentes na populacao, variavel chave da investigacao epidemiologica, as
medidas de incidencia, prevalencia e outros coecientes servem como indicadores de risco.
Incidencia (I): n
umero de casos novos registrados em determinado perodo de tempo (dia, mes ou ano).
Prevalencia: n
umero de casos (novos+antigos) registrados no perodo de tempo determinado.
Coeficiente de incidencia: n
umero de casos novos em relacao ao total de indivduos expostos na unidade
de tempo.
Coeficiente de prevalencia: n
umero de casos novos + antigos, em relacao ao total de indivduos expostos
na unidade de tempo.
Risco Relativo (RR): relac
ao existente entre o coeciente de incidencia de casos expostos (IE ) e o coeciente de incidencia de casos nao-expostos (IN E )
RR =

IE
P (doente|exposto)
=
IN E
P (doente|nao-exposto)

Risco Atribuvel (RA): diferenca entre coeciente de incidencia no grupo exposto ao fator e o coeciente
de incidencia do grupo nao exposto ao fator
RA = IE IN E
Risco Atribuvel na Populac
ao (RAP%): expresso em porcentagem, e uma medida de associacao que
depende da ocorrencia do fator de risco na populacao (e o excesso de risco na populacao devido ao fator de

7.4

Medidas do Efeito em Tabelas 22

risco)
RAP % =

ROSSI, Robson M. 86

IN IN E
(RR 1)p
=
IN
(RR 1)p + 1

onde IN : e a incidencia global nos expostos e nao expostos e p: prevalencia do fator de risco.
No estudo de coorte e bastante natural pensar na razao entre a proporcao dos que desenvolveram a
doenca dentre os pacientes expostos e a proporcao analoga entre os pacientes nao-expostos. Observando a
disposicao dos grupos na Tabela 7.11 a seguir,
Tabela 7.11: Distribuic
ao quanto `
a ocorrencia de um evento
Doenca
Fator
Total
(Exposto)
(Nao-exposto)
Presente
Ausente
Presente
a
b
n1 = a + b
Ausente
c
d
n2 = c + d
Total
m1 = a + c
m2 = b + d
n = n1 + n2
de modo geral, podemos encarar o RR como
a
IE
a
+
c.
RR =
=
b
IN E
b+d
Ensaios clnicos podem ser vistos como um estudo de coortes, em que os grupos foram criados atraves
de alocacao aleatoria de pacientes aos grupos. Portanto, o risco relativo tambem pode ser calculado para
ensaios clnicos.
Exemplo 7.6. Quando estamos interessados em estimar probabilidades condicionais, por exemplo, de um
nascituro ter aberrac
ao cromoss
omica, dado que a gestante est
a na faixa et
aria de 35 ate 40 anos, e a
probabilidade (condicional) de um nascituro ter aberraca
o cromoss
omica, dado que a gestante tem 40 anos
ou mais, e comum na
area da sa
ude usar a palavra risco para identificar esta probabilidade.
Tabela 7.12: Resultados de casos de diagn
ostico pre-natal segundo a idade da gestante e a presenca ou
ausencia de aberrac
ao cromoss
omica.
Doenca
Fator (Idade em anos)
Total
(Exposto)
(Nao-exposto)
(Aberrac
ao)
40
35 40
Presente
18
10
28
Ausente
510
447
957
Total
528
457
985
Entao, com base nas dados da Tabela 7.12, podemos calcular:
1. o risco de um nascituro ter aberrac
ao cromossomica, dado que a gestante tem 40 anos ou mais (IE ):
IE =

18
= 0, 0341 ou 3, 41%.
528

2. o risco de um nascituro ter aberrac


ao cromossomica, dado que a gestante esta na faixa etaria de 35
ate 40 anos (IN E ):
10
IN E =
= 0, 0219 ou 2, 19%.
457
3. a incidencia global (I N ) :
IN =

10 + 18
= 0, 0284 ou 2, 84%.
985

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 87

4. o risco atribuvel (RA):


RA = IE IN E = 3, 41% 2, 19% = 1, 22%.
5. o risco atribuvel na populac
ao (RAP%):
RAP % =

IN IN E
2, 84% 2, 19%
=
= 0, 2289 ou 22, 89%.
IN
2, 84%

6. o Risco Relativo (RR) e a razao entre duas probabilidades condicionais (ou dois riscos condicionais).
Com base na Tabela 7.12, tem-se o risco relativo
RR =

3, 41
= 1, 56.
2, 19

Este resultado mostra que o risco de um nascituro apresentar aberracao cromossomica e 1,56 maior se a
gestante tiver 40 anos ou mais do que se a gestante estiver na faixa etaria de 35 ate 40 anos.
Intervalo de Confian
ca para RR
Nos estudos longitudinais de coorte, em que procedemos `a vericacao e `a identicacao dos fatores considerados de risco ou de protec
ao, determinamos os valores referentes ao risco relativo. Entretanto, para
que possamos concluir sobre os verdadeiros fatores de risco ou protecao, utilizamos IC(RR) o intervalo de
conanca para o RR, o IC(RR):
Z
2c

IC(RR) = RR
onde

2c

e o valor da estatstica teste calculada atraves dos dados na tabela de contingencia formada.

Exemplo 7.7. Dos dados da Tabela 7.12, para RR = 1,56, podemos obter seu respectivo IC(RR), j
a que
2c = 1, 32 e para um nvel de signific
ancia de 5%, o valor de Z5% = 1, 96 :
1, 96
1, 32

IC(RR) = 1, 56
= 1, 5611,71
IC(RR)

[0, 73; 3, 34]

Observa
c
ao: Este intervalo nao incluindo a unidade, isto e, (o no 1) possibilita-nos rejeitar H0 : Nao
existe associac
ao entre as vari
aveis.
Para o exemplo portanto, concluimos que existe associacao entre idade e aberracao cromossomica, isto
e, a idade e realmente um fator de risco para a doenca em estudo.

7.4.2

Odds-Ratio (OR)

O risco relativo, embora seja uma medida de efeito com muitas qualidades, tem uma grande limitacao: nao
pode ser estimado em estudo de caso-controle, forma mais freq
uente de estudo comparativo. Isto porque,
neste tipo de estudo, as incid
encias observadas s
ao meras conseq
u
encias do n
umero escolhido
de casos e controles e n
ao caractersticas dos grupos em estudo. Por isto, buscaram-se maneiras
alternativas para se denir o efeito da exposicao de forma adequada a todos os estudos epidemiologicos. A
solucao encontrada foi o uso de uma medida denominada raz
ao das chances ou Odds-Ratio (OR).
Dene-se chance de se desenvolver a doenca entre os expostos e os nao expostos como a seguinte estimativa:

OR

OR

a/(a + c)
= c/(a + c) = a/c = ad
=
b/(b + d)
b/d
bc
c/(b + d)
=

P (doente|exposto)
1P (doente|exposto)
P (doente|n
ao-exposto)
1P (doente|exposto)

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 88

Tambem pode ser denida como a chance de exposicao entre indivduos doentes dividia pela chance de
exposicao entre os nao-doentes, isto e:
OR =

P (exposto|doente)
1P (exposto|doentes)
P (exposto|n
ao-doente)
1P (exposto|n
ao-doentes)

Intervalo de Confian
ca para o OR
M
etodo A: O intervalo de conanca para a razao de chances, IC(OR), pode ser obtido analogamente
ao processo do IC(RR):
Z
1
2c
IC(OR) = OR
M
etodo B: Alternativamente podemos por razoes teoricas obter o IC(OR), ja que muitas vezes a variacao
de e mais facilmente calculada na escala logartmica. Vale o seguinte resultado:
=
V ar(ln )

1 1 1 1
+ + + .
a b
c d

Como ln tem aproximadamente distribuicao gaussiana, construmos intervalos de conanca para ln:
[
]

Z V ar(ln )
.
ln[IC(OR)] = [Li ; Ls ] = ln
Obs.: Se este intervalo contem o n
umero 0 (zero) (correspondente ao valor 1 para o RR) entao a associacao
entre a doenca e o fator pode ser vericada.
Para obter o intervalo de conanca para basta exponenciar os limites do intervalo acima, isto e:
[
]
IC(OR) = eLi ; eLs .
Exemplo 7.8. Amamentac
ao na inf
ancia e c
ancer de mama.
Para vericar se o fato de ter sido amamentado pela mae e um fator de protecao para o cancer de mama,
Freudenheim et al. (1994) realizaram estudo do tipo caso-controle nos condados de Erie e Niagara situados
na parte oeste do estado de New York (EUA).
As pacientes tomadas como controle foram escolhidas na populacao da regiao, nao existindo portanto o
emparelhamento. Os dados obtidos estao apresentados na Tabela 7.13.
Tabela 7.13: Distribuic
ao de casos e controles segundo a amamentac
ao.
(Fator)
Doenca
Total
Amamentacao
Sim
Nao
Casos
353
175
528
Controles
449
153
602
Total
802
328
1130
O risco de desenvolver cancer de mama entre mulheres amamentadas pela mae, aproximado pela razao
de chances (odds-ratio), e estimado por
= 353 153 = 0, 69
OR :
175 449
ou seja, nominalmente, o risco do grupo amamentado e apenas 69% do risco do grupo nao-amamentado.
Para obtermos um intervalo com 95% de conanca para temos os metodos A e B:
M
etodo A:
1, 96
1
8, 16
IC(OR) = 0, 69
= 1, 5610,69
IC(OR) : [0, 53; 0, 89]

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 89

M
etodo B:
= ln(0, 69) = 0, 37
ln
1
1
1
1
+
+
+
= 0, 02
353 175 449 153
e 0, 02 = 0, 14. Um intervalo de 95% de conanca para ln
ou seja, a estimativa do desvio-padrao de ln
e portanto
0, 37 1, 96.(0, 14)
=
V ar(ln )

ou
ln[IC(OR)] = [0, 64; 0, 10] .
Observe que o n
umero 0 (zero) nao pertence ao intervalo, onde conclumos na existencia de associacao
entre as vari
aveis (Rejeitamos H0 ).
O intervalo para e ent
ao obtido tomando-se o exponencial dos limites inferior e superior deste intervalo,
ou seja:
IC(OR) = [0, 53; 0, 89]
indicando uma associac
ao signicativa entre ter sido amamentada e cancer de mama (1
/ IC).
Esse resultado deve ser interpretado com cuidado, uma vez que nao foram considerados fatores importantes, como historia familiar e idade na primeira gestacao. De fato, ao ajustar o modelo incorporando essas
variaveis, a associac
ao deixou de ser signicativa.

Captulo 8

Comparac
oes Entre Grupos
8.1

Introduc
ao

` vezes, e preciso comparar duas populacoes. Por exemplo, imagine que um pesquisador obteve, para
As
um grande n
umero de criancas, a idade em que cada uma delas comecou a falar. Para vericar se meninos
e meninas aprendem a falar na mesma idade, o pesquisador tera que comparar os dados dos dois sexos.
Outras vezes, e preciso comparar condicoes experimentais. Por exemplo, para saber se um tratamento
tem efeito positivo, organizam-se dois grupos de unidades: um grupo recebe o tratamento em teste (e o
grupo tratado), enquanto o outro nao recebe o tratamento (e o grupo controle).
O efeito do tratamento e dado pela comparacao dos dois grupos.
Freq
uentemente, para comparac
ao de dois tratamentos observam-se caractersticas ou mede-se o valor da
variavel resposta de interesse que as caractersticas importantes dos indivduos que integram o mesmo par
sejam tao semelhantes quanto possvel. O tratamento e administrado a um dos elementos do par e o outro e
mantido como controle. A vantagem do procedimento e clara. Os indivduos no par sao semelhantes, exceto
no que se refere ao tratamento recebido. Em algumas situacoes o par e constitudo do mesmo indivduo em
duas ocasioes diferentes (amostras dependentes).
A suposicao de Normalidade e necessaria em alguns testes estatsticos. Nesta secao apresentaremos alguns
testes de normalidade assim como algumas tecnicas gracas, am de que possamos vericar a normalidade
dos dados (No caso armativo optamos por testes parametricos).

8.2

Normalidade dos Dados

Na pratica nao podemos fazer suposicoes arbitrarias a respeito da distribuicao de probabilidade dos
dados, logo usamos de tecnicas para fazer uma vericacao da adequacao do modelo suposto.
A vericac
ao pode ser baseada nas caractersticas do modelo, em gracos especiais e em testes de
aderencia.
Para a distribuic
ao normal, em especial, sabemos que:

= 68, 26%

2
3

= 95, 45%
= 99, 73%

Grandes discrepancias entre as freq


uencias relativas observadas e as probabilidades teoricas acima citadas,
indicam uma possvel falta de adequac
ao ao modelo gaussiano.
Testes de aderencia
1. Kolmogorov-Smirnov (K-S) [ e supostamente conhecidos];
ao do K-S [ e estimados pelos dados];
2. Lilliefors e uma variac
3. Shapiro Wilks (W) [ e estimados pelos dados].

90

8.2

Normalidade dos Dados

ROSSI, Robson M. 91

Este u
ltimo, tem sido muito utilizado para dados amostrais devido a sua capacidade de adaptacao a uma
variada gama de problemas sobre avaliac
ao de normalidade.
{
H0 : Os dados s
ao normalmente distribudos;
T.H.
Ha
Os dados n
ao s
ao normalmente distribudos.
Outros crit
erios:
Tecnicas Gracas
1. Normal-plot
2. Q-Q-plot
3. P-P-plot

8.2.1

Faixas de Refer
encia (M
etodo de Gauss)

Toda medida laboratorial e analisada confrontando-se seu valor com uma faixa padrao.
Isto e tao comum que, na propria apresentacao do resultado, muitos laboratorios ja indicam os limites
inferiores e superiores para o valor da medida que devem servir de base ao raciocnio clnico. Quando ha a
suposicao de normalidade nos dados pode-se fazer uso desta informacao para obtencao de uma FR (Faixa
de Referencia) pelo metodo gaussiano:
Devemos xar, inicialmente, o nvel de conanca (1 )% ou cobertura;
Calculamos atraves da amostra de pessoas supostamente saudaveis: x
e s.
Tabela 8.1: Faixas de
Cobertura (1 )%
90%
95%
99%
..
.

Referencia.
Faixa
x
1, 64.s
x
1, 96.s
x
2, 58.s
..
.

(1 )%

x
Z 2 .s

1-alfa

alfa/2

alfa/2
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx
xxxxxxx

xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxx

-Zalfa/2

+Zalfa/2

Figura 8.1: Faixa de Referencia.


Observa
c
ao: Como em geral se trabalha com amostras, ent
ao o uso dos Intervalos de Confianca, con AMOSTRAL DA MEDIA,

siderando a DISTRIBUIC
AO
e mais adequada para obtenc
ao dessas Faixas de
Referencias.

8.3

Resposta Dicot
omica: Amostras Independentes

ROSSI, Robson M. 92

Exemplo 8.1. Faixa de referencia para identificar o Pseudomonas sp (continuac


ao do Exemplo 6.3).
Observe atraves da Figura 6.8o ajuste dos dados (pontos) linearizados, indicando ajuste dos dados a
distribuicao normal.
Para a Amostra 1, foram realizados os testes de normalidade e indicaram ajuste dos dados ja que p
Lillief ors > 0, 20 e p W ilks = 0, 8892. (Software Statistica).
Observe atraves da Figura 6.9 uma assimetria do Histograma comparado `a normal assim como a nao
aderencia ou desajuste dos dados (pontos) sob a reta, indicando que os dados nao seguem uma distribuicao
normal.
Os testes conrmam isto: Para a Amostra 2 obtemos p Lillief ors < 0, 01 e p W ilks < 0, 000013.

8.3

Resposta Dicot
omica: Amostras Independentes

Comparar dois grupos atraves do resultado observado em uma variavel dicotomica e um problema comum
na pesquisa medica, aparecendo com freq
uencia em todos os tipos de estudos clnicos.
A variavel de interesse e a ocorrencia de um evento, como o desenvolvimento de uma doenca de certo
atributo, por exemplo, albinismo. O problema de comparacoes das probabilidades de ocorrencia do evento
ou do atributo nos dois grupos (p1 e p2 ) e formulado atraves das hipoteses:
{
H0 : p1 = p2 nao ha diferenca signicativa entre os grupos
Ha : p1 = p2
ha diferenca signicativa entre os grupos

8.3.1

Teste Qui-Quadrado

A Tabela 8.2 apresenta dados genericos de uma situacao envolvendo a comparacao de dois grupos e que
a resposta de interesse e dicotominca: a ocorrencia ou nao de um evento.
Tabela 8.2: Distribuica
o quanto `
a ocorrencia de um evento.
Grupo
Ocorrencia do Evento
Total
Sim
Nao
I
a
b
n1 = a + b
II
c
d
n2 = c + d
Total
m1 = a + c
m2 = b + d
n = n1 + n2
A estatstica teste sera:
2c =

(Oi Ei )2

Ei

i=1

21;(1)%

ou, para Tabelas 22:


2

2c =

n (ad bc)
21;(1)% (Tabelas 2 2)
n1 n2 m 1 m 2

Ha restricoes para aplicac


ao do 2 em tabelas contingencia, logo a correcao de Yates (1934) e necessaria.
Esta correc
ao deve ser feita quando:
n < 40 ou Ei 5
20 < n < 40 e Ei 5 para algum i;
n > 40 e Ei 5 para algum i;
Para testar as hipoteses acima citadas temos a estatstica teste qui-quadrado com correcao de continuidade
de Yates, temos
(
)2
n |ad bc| n2
2
cY =
21;(1)% (Tabelas 2 2)
n1 n2 m 1 m 2

8.3

Resposta Dicot
omica: Amostras Independentes

ROSSI, Robson M. 93

Exemplo 8.2. Estudo sobre a associac


ao entre o uso corrente de contraceptivos e o infarto de mioc
ardio.
Shapiro et al. (1979) observaram os resultados entre pacientes com idade entre 30 e 34 anos e estes sao
mostrados na Tabela 8.3.
Tabela 8.3: Distribuic
ao de uso de contraceptivo oral segundo
Grupo
Uso recente
Sim
Nao
Casos
9
12
Controles
33
390
Total
42
402

grupo que sofreu ou n


ao infarto do mioc
ardio.
Total
21
423
444

Entre os casos, ou seja, entre as pacientes que tiveram um infarto do miocardio, a proporcao de uso recente
9
33
de contraceptivos e
= 0, 43 e entre os controles,
= 0, 08. A diferenca entre estas duas proporcoes
21
423
(0,35) parece indicar que o uso de contraceptivos orais e mais freq
uente entre os casos (infartos). Mas sera
que este resultado nao ocorreu por mero acaso?
A expressao 2c = 24, 76 > 3, 84 = 21;95% , nos indica, com alto grau de conanca (95%) armar que existe
associacao entre o uso de contraceptivos orais e infarto do miocardio para pacientes entre 30 e 34 anos.

8.3.2

Teste Exato de Fisher

Nos casos em que formamos uma tabela de contingencia com formato 2 2, com pequeno n
umero de
observacoes (n < 20 ou proximo) e, conseq
uentemente, com freq
uencias observadas em cada casela muito
baixas, a literatura apresenta a utilizac
ao do teste exato de Fisher, no qual estimamos, a partir da menor
freq
uencia contida na tabela, a probabilidade de ocorrencia deste valor e de uma freq
uencia menor ainda,
n

fazendo-se p =
pi , em que n e a menor freq
uencia vericada na tabela.
i=0

Numa tabela de contingencia 2 2, com os totais marginais xos, apresentada como a Tabela 5.1, as
freq
uencias observadas tem distribuic
ao hipergeometrica e a probabilidade de ocorrencia i sera dada por:
pi =

n1 !n2 !m1 !m2 !


a!b!c!d!n!

ao entre o tipo de tratamento


Exemplo 8.3. Um estudo foi realizado para verificar a existencia de associac
e mortalidade por AIDS. A Tabela 8.4 apresenta os dados.

Tabela 8.4: Associac


ao entre o tipo de tratamento e mortalidade por AIDS.
Tratamento
Mortalidade
Total
Sim
Nao
A
7
5
12
B
1
9
10
Total
8
14
22
Sendo p =

pi , temos

i=0

p1 =
e
assim

12!10!8!14!
= 0, 024.
7!5!1!9!22!

12!10!8!14!
= 0, 0015.
8!4!0!10!22!
O valor de p sera 0, 024 + 0, 0015 = 0, 0255 (p-valor : 0,0263).
Como este p e menor que o nvel de signicancia, para = 0, 05 a decisao correta sera rejeitar H0 , isto
e, pode-se concluir que ha diferenca quanto `a mortalidade em relacao ao tipo de tratamento, sendo B mais
ecaz.
p0 =

8.3

Resposta Dicot
omica: Amostras Independentes

ROSSI, Robson M. 94

Tabela 8.5: Associac


ao entre o tipo de tratamento e mortalidade por AIDS.
Tratamento
Mortalidade
Total
Sim
Nao
A
8
4
12
B
0
10
10
Total
8
14
22

Exemplo 8.4. Suponha um grupo de dezesseis ratos, divididos em dois grupos, experimental e normal. O
grupo experimental e formado por 9 animais geneticamente modificados, por apresentarem uma disfunc
ao
pancre
atica com diminuic
ao da capacidade de produc
ao de insulina. Imagine que, ap
os um ano e meio em
ambiente controlado, o n
umero de ratos vivos do grupo experimental e do normal seja o seguinte (Tabela
8.6):
Tabela 8.6: Estudo em ratos sobre disfunca
o pancre
atica.
Grupo
Sobrevida + 1,5 ano
Total
Vivos
Mortos
Normal
5
2
7
Experimental
1
8
9
Total
6
10
16
Pode-se notar que aproximadamente 71% dos ratos normais ainda permaneciam vivos, enquanto a sobrevida para o grupo experimental e de apenas 11%.
O teste exato de Fisher consiste em elaborar, com base nos totais marginais do fator discriminante da
tabela original, duas outras tabelas, que serao denominadas tabelas ou matrizes extremas, X1 e X2 . A matriz
extrema 1 e a matriz em que todos os animais mortos pertencem ao grupo normal (sao 10 mortos, mas o
grupo normal tem 7 ratos, logo, os outros 3 que morreram pertencem ao grupo experimental) e todos que
sobraram do grupo experimental estao vivos (todos os vivos, pois sobraram 9-3 = 6 ratos). Desta forma,
resulta na Matriz X1 (Tabela 8.7):
Tabela 8.7: Matriz X 1 .
Sobrevida + 1,5 ano
Vivos
Mortos
Normal
0
7
Experimental
6
3
Total
6
10
Grupo

Total
7
9
16

A matriz extrema 2, X2 , corresponde a uma tabela com os mesmos totais marginais, mas com todos os
animais vivos no grupo normal. Ent
ao, pela matriz X2 (Tabela 8.8):
Observe que existe um obito no grupo normal, pois o n
umero de ratos do grupo normal e maior que o de
ratos que sobreviveram. Obviamente, os 9 mortos que restaram pertencem ao grupo experimental. Nenhum
rato do grupo experimental sobreviveu.
Finalmente, o valor de signicancia para o teste e calculado segundo a formula apresentada anteriormente:
Para a matriz original:
7!.9!.10!.6!
F0 :
= 0, 02360
2!.5!.8!.1!.16!
Para a matriz X 1 :
7!.9!.10!.6!
FX1 :
= 0, 0105
0!.7!.6!.3!.16!
Para a matriz X 2 :
7!.9!.10!.6!
= 0, 0009
FX2 :
6!.1!.0!.9!.16!

8.3

Resposta Dicot
omica: Amostras Independentes

Tabela 8.8: Matriz X 2 .


Sobrevida + 1,5 ano
Vivos
Mortos
Normal
6
1
Experimental
0
9
Total
6
10
Grupo

ROSSI, Robson M. 95

Total
7
9
16

Finalmente,
p = F0 + FX1 + FX2 = 0, 0236 + 0, 01505 + 0, 0009 = 0, 035 ou 3, 5%.
Ou seja, a armac
ao de que a sobrevida dos ratos geneticamente alterados e menor que a dos ratos
normais envolve uma probabilidade de erro de 3,5%. Portanto, ao nvel de 5% de signicancia, rejeita-se a
hipotese de nulidade (ou seja, de que as vidas dos ratos normais e dos transgenicos sao iguais).

8.3.3

Teste z para Comparac


ao de Proporc
oes

Denotamos os dois resultados possveis da variavel dicotomica por sucesso e fracasso. Sejam p1 e p2 as
proporcoes de sucesso referentes aos tratamentos a serem comparados, que sao estimadas por p1 e p2 , as
proporcoes amostrais baseadas em amostras de tamanhos n1 e n2 , respectivamente. Queremos testar as
hipoteses:
H0
Ha

: p1 = p2
: p1 =
p2

isto e, estamos investigando a equivalencia entre os dois tratamentos.


Apresentaremos uma alternativa para o teste qui-quadrado para a comparacao de proporcoes. Trata-se
de um teste aproximado que requer amostras grandes para sua aplicacao. Um criterio e exigir que n1 p1 e
n2 p2 excedam o valor 5.
O teste e baseado em
p1 p2
Zc =
N (0, 1).
p1 (1p1 )
p2 (1p2 )
+
n1
n2
ao de drogas contra n
ausea.
Exemplo 8.5. Comparac
Com o objetivo de comparar a ecacia de dois preventivos contra nausea, dividiu-se aleatoriamente uma
amostra de 400 marinheiros em dois grupos de 200. Um grupo recebeu a plula A e o outro a plula B,
sendo que no primeiro grupo 152 nao enjoaram durante uma tempestade e no outro grupo apenas 132. Ha
indicacoes de que a ecacia da plula A e B e a mesma?
Sol.: Sejam pA e pB as proporc
oes de marinheiros que nao enjoam, respectivamente para as plulas A e
B. Temos que nA = 200, nB = 200, pA = 152
B = 132
200 = 0, 76, p
200 = 0, 66, logo tem-se:
Z=

0, 76 0, 66
0,76(10,76)
200

= 2, 22 (p-valor : 0,0281).

0,66(10,66)
200

Fixando-se o nvel de signicancia em 5%, rejeita-se H0 . Portanto, pode-se concluir que as duas plulas
nao sao igualmente efetivas. Ha indicac
ao de que a plula A oferece maior protecao contra nausea comparada
`a plula B.

8.4

Resposta Dicot
omica: Amostras Pareadas

8.4

ROSSI, Robson M. 96

Resposta Dicot
omica: Amostras Pareadas

Podemos disting
uir tres tipos de pareamento: auto-pareamento, pareamento natural e pareamento artificial.
O auto-pareamento ocorre quando o indivduo serve como seu proprio controle, como na situacao em
que um indivduo recebe duas drogas administradas em ocasioes diferentes. Outra situacao e a que um
tratamento e administrado e as vari
aveis de interesse sao observadas antes e depois do programa. Finalmente,
a comparacao de dois org
aos no mesmo indivduo, como bracos, pernas, olhos, narinas, segundo alguma
caracterstica estudada tambem constitui um auto-pareamento.
O pareamento natural consiste em formar pares tao homogeneos quanto possvel, controlando os fatores
que possam interferir na resposta, sendo que o pareamento aparece de forma natural. Por exemplo, em experimentos de laboratorio pode-se formar pares de cobaias selecionadas da mesma ninhada; em investigacoes
clnicas, gemeos univitelinos sao muitos usados.
No pareamento artificial escolhe-se indivduos com caractersticas semelhantes, tais como, idade, sexo,
nvel socio-econ
omico, estado de sa
ude ou, em geral, fatores que podem inuenciar de maneira relevante a
variavel resposta.

8.4.1

Teste McNemar

O exemplo a seguir ilustra a necessidade de desenvolvimento de um teste especco para a situa


c
ao de
dados pareados em que a resposta
e dicot
omica.
Exemplo 8.6. Suponhamos que dois patologistas examinaram, separadamente, o material de 100 tumores
e os classificaram como benignos ou malignos. A quest
ao de interesse e saber se os patologistas diferem nos
seus criterios de decis
ao.
Neste caso, a forma adequada de apresentacao dos dados e mostrada na Tabela 8.9.
Tabela 8.9: Classificaca
o de dois patologistas (A e B) quanto `
a malignidade de tumores.
Diagn
ostico de B
Diagnostico de A
Total
Malignos
Benignos
Malignos
9
1
10
Benignos
9
81
90
Total
18
82
100
importante observar que a unidade de analise aqui e o tumor, avaliado por dois patologistas. Embora
E
tenham sido feitas 200 analises, o total de tumores e, na realidade, apenas 100.
Alem disto, alguns tumores serao claramente mais malignos do que outros e, portanto, a hipotese fundamental na construc
ao do teste de probabilidade constante de malignidade nao e razoavel aqui. Isto explica
a necessidade de desenvolvimento de teste especco, isto e, para dados pareados.
Os dados a serem analisados no processo de comparacao podem ser resumidos no formato da Tabela 8.10.
H0 : Os patologistas tem o mesmo diagn
ostico.
Tabela 8.10: Apresentac
ao de dados obtidos em uma classificac
ao de dados pareados.
Controle
Tratamento
Total
Sucesso
Fracasso
Sucesso
a
b
n1
Fracasso
c
d
n2
Total
m1
m2
n
Se p1 e p2 s
ao as probabilidades de sucesso nos grupos controle e tratamento, respectivamente, a hipotese
de interesse e:
H0
Ha

: p1 = p2
: p1 =
p2

8.4

Resposta Dicot
omica: Amostras Pareadas

ROSSI, Robson M. 97

A Estatstica Teste: (B/C)


2M cN =

(|b c| 1)2
21 .
b+c

A hipotese nula dever


a ser rejeitada quando 2M cN > 21 .
Exemplo 8.7. Amigdalectomia e doenca de Hodgkin.
Johnson & Johnson (1972), ao analisarem retrospectivamente a historia clnica de pacientes de doenca de
Hodgkin, um tipo de cancer no tecido linfoide, nao encontraram evidencias que sustentassem a hipotese de
que a amigdalectomia aumenta a suscetibilidade `a doenca, pela remocao da barreira linfatica representada
pela amgdala. Neste estudo, usaram um planejamento do tipo caso-controle pareado. A conclusao relatada
no artigo foi feita, entretanto, com uma analise apropriada para dados provenientes de grupos independentes.
Logo apos a publicac
ao, varios autores observaram a impropriedade da analise e, utilizando as informacoes
do artigo, zeram a analise correta, que e baseada nos dados da Tabela 8.11.
Tabela 8.11: Distribuic
ao de pacientes com e sem doenca de Hodgkin em um estudo caso-controle pareado
segundo `
a amigdalectomia.
Doenca de
Controle
Total
Hodgkin
Operados
Nao operados
Operados
26
15
41
N
ao operados
7
37
44
Total
33
52
85
O valor da estatstica do teste de McNemar e:
2M cN =

(|15 7| 1)2
= 2, 23 (p-valor : 0,1356).
15 + 7

Este valor dever ser comparado com 3,84 para um nvel de signicancia de 5%. Ou seja, com uma
conanca de 95% acreditamos que nao ha associacao entre a doenca de Hodgkin e a amigdalectomia. Esta
conclusao nao esta de acordo com trabalhos anteriores, como o de Vianna et al. (1971).

8.5

Resposta Contnua - Teste de M


edias para Amostras Independentes ROSSI, Robson M. 98

8.5

Resposta Contnua - Teste de M


edias para Amostras Independentes

` vezes, e preciso comparar duas populacoes. Por exemplo, imagine que um pesquisador obteve, para
As
um grande n
umero de criancas, a idade em que cada uma delas comecou a falar. Para vericar se meninos
e meninas aprendem a falar na mesma idade, o pesquisador tera que comparar os dados dos dois sexos.
Nesta secao apresentamos a metodologia para comparar dois grupos de pacientes (por exemplo, doentes
versus nao doentes) em relac
ao a uma resposta contnua, por exemplo, pressao sistolica. Testa-se, neste caso,
a igualdade das medias das respostas de dois tratamentos.
Sejam 1 e 2 as medias da vari
avel estudada para os dois grupos, respectivamente. As hipoteses a serem
testadas sao:
H0
Ha

8.5.1

: 1 = 2
: 1 =
2

Teste t

Se a vari
avel em analise tem distribuicao normal ou aproximadamente normal, aplica-se o teste t para
comparar duas medias. Mas primeiro e preciso estabelecer o nvel de signicancia, . Depois, dados os dois
grupos, 1 e 2, calculam-se:
a) as medias de cada grupo:
x
1
x
2

: media do grupo 1
: media do grupo 2

b) as variancias ou os desvios-padroes de cada grupo:


s1

desvio-padrao do grupo 1

s2

desvio-padrao do grupo 2

c) a variancia ponderada:
(n1 1)s21 + (n2 1)s22
n1 + n2 2
d) o valor da estatstica teste, tc , denida por:
s2p =

tc =

x
1 x
2
(
) tn1 +n2 2;%
1
1
2
sp
+
n1
n2

O intervalo de conanca para (1 2 ) sera:


(
x1 x
2 )

tn1 +n2 2;% .s2p .

1
1
+
n1
n2

ao entre tratamentos para dieta.


Exemplo 8.8. Comparac
Para vericar se duas dietas para emagrecer sao igualmente ecientes, um medico separou, ao acaso, um
conjunto de pacientes em dois grupos. Cada paciente seguiu a dieta designada para seu grupo. Decorrido
certo tempo, o medico obteve a perda (ou ganho) de peso, em quilogramas, de cada paciente de cada grupo.
Os dados estao apresentados na Tabela 8.12:
Apos alguns calculos preliminares, temos: x
1 = 12; x
2 = 15; s21 = 4; s22 = 5; s2p = 4, 4, desta forma, para
= 5%, temos t15;5% = 2, 13, assim:
12 15
) = 2, 902 Regiao de rejeicao de H0 , logo podemos
(
1
1
+
4, 4
10 7

tc

p valor

0, 010947

8.5

Resposta Contnua - Teste de M


edias para Amostras Independentes ROSSI, Robson M. 99

Tabela 8.12: Perdas de peso, em quilogramas, segundo a dieta.


1 15 19 15 12 13 16 15
2 12 8 15 13 10 12 14 11 12 13
concluir que, em media, as perdas de peso de pacientes submetidos aos dois tipos de dieta sao diferentes.
Em termos praticos, a perda de peso e maior quando os pacientes sao submetidos `a dieta 2.

8.5.2

Teste z

Um pressuposto importante para aplicar o teste t visto anteriormente e que os dois grupos comparados
tenham a mesma variabilidade, o que nem sempre acontece na pratica. No caso de amostras grandes (n1 e
n2 30) dispomos de um teste em que nao e necessario qualquer suposicao adicional sobre 21 e 22 , ou seja,
as varancias podem ser iguais ou diferentes.
A estatstica teste usada sera:
x
1 x
2
N (0, 1).
Zc =
s21
s22
+
n1
n2
Exemplo 8.9. Efeito do halotano em cirurgias cardacas.
O halotano e uma droga bastante utilizada para induzir a anestesia geral. Trata-se de um poderoso
anestesico de inalac
ao, nao inamavel e nao explosivo, com um odor relativamente agradavel. Pode ser
administrado ao paciente com o mesmo equipamento usado para sua oxigenacao.
Apos a inalac
ao, a substancia chega aos pulmoes tornando possvel a passagem para o estado anestesico
mais rapidamente do que seria possvel com drogas administradas de forma intravenosa.
Entretanto, os efeitos colaterais incluem a depressao do sistema respiratorio e cardiovascular, sensibilizacao a arritmias produzidas por adrenalina e eventualmente o desenvolvimento de lesao hepatica. Alguns
anestesistas acreditam que esses efeitos podem causar complicacoes em pacientes com problemas cardacos
e sugerem o uso da morna como um agente anestesico nesses pacientes devido ao seu pequeno efeito na
atividade cardaca.
Conahan et al. (1973) compararam esses dois agentes anestesicos em um grande n
umero de pacientes
submetidos a uma cirurgia de rotina para reparo ou substituicao da valvula cardaca. Para obter duas
amostras comparaveis, os pacientes foram alocados aleatoriamente a cada tipo de anestesia. Com o objetivo
de estudar o efeito desses dois tipos de anestesia, foram registradas variaveis hemodinamicas, como pressao
sang
unea antes da induc
ao anestesica, apos a anestesia mas antes da incisao, e em outros perodos importantes durante a operac
ao. A questao que surge e se o efeito do halotano e da morna na pressao sang
unea
e o mesmo. Para comparar os dois grupos, necessitamos dos resultados apresentados na Tabela 8.13 a seguir:

Tabela 8.13: Media e desvio-padr


ao da press
ao sang
unea (mmHg) segundo o tipo de anestesia.
Informacoes
Anestesia
sobre a amostra Halotano Morna
Media
66,9
73,2
Desvio-Padrao
12,2
14,4
n
61
61

Nas condic
oes do problema, as hipoteses sao:
{
H0 : 1 = 2
;
Ha : 1 = 2
isto e, devemos testar a diferenca entre as pressoes sang
uneas medias de indivduos anestesiados com halotano
ou morna.

8.6

Resposta Contnua - Teste de M


edias para Amostras Pareadas

ROSSI, Robson M. 100

Como as amostras sao grandes, podemos usar o teste Z, cujo valor da estatstica do teste e:
Zc =

66, 9 73, 2

6, 30
=
= 2, 61 (p-valor : 0,0103).
5, 84
12, 2
14, 4
+
61
61
2

Adotando um nvel de siginicancia de 5%, o resultado e estatisticamente signicativo, ja que | 2, 61| >
1, 96, indicando que os dois anestesicos nao sao equivalentes.

8.6
8.6.1

Resposta Contnua - Teste de M


edias para Amostras Pareadas
Teste t-pareado

Para estudar o efeito de um tratamento, muitas vezes comparam-se pares de indivduos. Por exemplo, em
alguns estudos de psicologia comparam-se pares de gemeos: um dos gemeos recebe o tratamento, enquanto
o outro permanece sem o tratamento (controle).
Outras vezes, comparam-se os dois lados dos mesmos indivduos. Por exemplo, par estudar o efeito de um
tratamento para prevenc
ao de caries, o dentista pode aplicar o tratamento em um lado da arcada dentaria
de cada paciente, e deixar o outro lado sem tratamento (controle).
Tambem sao feitos experimentos em que se observam os mesmos indivduos duas vezes, isto e, uma vez
antes, outra vez, depois de administrar o tratamento. Por exemplo, para vericar o efeito de um tratamento
sobre pressao arterial, o medico pode obter a pressao arterial de seus pacientes, antes e depois de administrar
o tratamento.
Todos esses exemplos sao de observac
oes pareadas (pares de gemeos, dois lados de um indivduo, observacoes no mesmo indivduo). Para testar o efeito de um tratamento, quando as observacoes sao pareadas,
aplica-se o teste t.
Estatstica teste:
d
tc =
tn1;%
s2
n
onde:
d : media das diferencas, di = x2 x1 : a diferenca entre as unidades de cada um dos n pares
n

d =

di

i=1

s2 : variancia das diferencas, di .


Toda vez que o valor absoluto de tc for igual ou maior do que o valor tabelado tn1;% , conclui-se que o
tratamento tem efeito ao nvel % estabelecido.
O intervalo de conanca para d, sera dado por:
S
d tn1;% .
n

8.6

Resposta Contnua - Teste de M


edias para Amostras Pareadas

ROSSI, Robson M. 101

Exemplo 8.10. S
ao dados os pesos de 9 pessoas, antes e depois da dieta para emagrecimento.
Tabela 8.14: Pesos em Kg de 9 pessoas antes e depois da dieta para emagrecimento.
Dieta
Antes Depois di
77
80
3
62
58
-4
61
61
0
76
-4
80
90
79
11
72
69
-3
90
4
86
59
51
-8
88
81
-7
Total
-30

Para fazer o teste, e preciso primeiro estabelecer o nvel de signicancia. Seja = 1%,
30
d =
= 3, 33
9
s2 = 25
logo

3, 33
tc =
= 2, 0 (p-valor : 0,080516).
25
9

Ao nvel de siginicancia de 1% com g.l. = 8, o valor de t tabelado para t8;1% .e de 3,36. Como o valor
absoluto de tc (2,0) e menor do que o valor da tabela, concui-se que o tratamento nao tem efeito signicativo.
Em termos praticos, o experimento nao provou que a dieta emagrece.

8.7

Testes N
ao-Param
etricos

8.7

ROSSI, Robson M. 102

Testes N
ao-Param
etricos

Os testes nao-parametricos sao boas opcoes para situacoes em que ocorrem violacoes dos pressupostos
basicos necessarios para a aplicac
ao de um teste parametrico. Por exemplo, para testar a diferenca de dois
ou mais grupos quando a distribuic
ao subjacente e assimetrica ou dos dados foram coletados em uma escala
ordinal.

8.7.1

Teste Mann-Whitney para Amostras Independentes

Este teste corresponde a mais uma alternativa para a comparacao de duas amostras independentes,
utilizando, como os demais testes nao-parametricos, os n
umeros naturais para classicacao conjunta dos
valores observados. Portanto, o posto de um valor de um conjunto de n valores corres-ponde a um n
umero
natural que indicara a sua posic
ao no conjunto anteriormente ordenado (posto, score ou rank ), isto e, todas
as N observacoes recebem uma pontuac
ao atraves dos n
umeros naturais 1, 2, 3, 4, ..., n. Assim, ao menor valor
se dara o n
umero 1, e assim sucessivamente ate o valor maior, que recebera a maior pontuacao. Quando
ocorre a presenca de valores iguais no conjunto, considera-se um ponto medio, nao afetando o posto seguinte.
Portanto, num conjunto de seis valores ja ordenados {7-12-18-18-19-23} os postos serao {1-2-3,5-3,5-5-6},
respectivamente.
Quanto ao procedimento mais adequado para a aplicacao do teste, baseamo-nos no calculo de U1 e U2 ,
sendo:
ni (ni + 1)
Ui = n1 n2 +
Ti , i = 1, 2.
2
Os valores n1 e n2 s
ao os tamanhos das duas amostras de T1 e T2 , que correspondem as somas dos pontos
(postos) atribudos aos valores das duas amostras.
Para amostras pequenas (ni 20)
Uc = mn{U1 ; U2 }
Obtemos uma estatstica tabelada : UT = U,n1 ,n2 e conclumos para a rejeicao de H0 se UT Uc .
Para amostras grandes (ni > 20)
Neste caso o teste pode ser aplicado por aproximacao normal:

ni (n1 + n2 + 1)
, sendo ni = min{n1 ; n2 }
2

n1 n2 (n1 + n2 + 1)
=
,
12

considerando w = min{T1 ; T2 } tem-se a expressao:


Z=

w
N (0, 1).

8.7

Testes N
ao-Param
etricos

ROSSI, Robson M. 103

Exemplo 8.11. Verificar se os dados das duas amostras apresentam diferenca significativa.

Tabela 8.15: Dados hipoteticos.


Amostra A Amostra B
2,6 (9,5)
2,3 (5)
2,9 (13)
2,8 (12)
2,5 (8)
2,0 (2)
2,7 (11)
1,8 (1)
3,2 (14)
2,4 (7)
2,6 (9,5)
2,3 (5)
2,3 (5)
2,2 (3)
3,3 (15)
T1 = 85, 0
T2 = 35, 0
Procede-se `a ordenac
ao dos valores para obtencao dos seus postos e posteriormente seu somatorio.
Temos ent
ao n1 = 8, n2 = 7, T1 = 85 e T2 = 35.
O valor de U1 e de U2 , respectivamente serao:
U1 = 8(7) +
U2 = 8(7) +

8(8 + 1)
85 = 7
2

7(7 + 1)
35 = 49.
2

Assim
Uc = mn{7;49} = 7
O valor da estatstica tabelada (Anexo) sera de:
UT = U,n1 ,n2 = U5%,8,7 12
Como Uc UT rejeitamos Ho . Portanto as amostras diferem entre si ao nvel de 5% de signicancia.
Suponho n > 20 O teste pode ser aplicado tanto para U1 ou U2 , pois ambos sao simetricos em relacao `a
media.

7(8
+
7
+
1)
112
8(7)(8 + 7 + 1)
=
=
= 56 e =
= 8, 63.
2
2
12
Sendo assim, w = min{85; 35} = 35, tem-se:
Z=

35 56
= 2, 43 (p-valor : 0,013986).
8, 63

Como o valor de |Z| e maior do que Z , quando = 5%, ou seja, o valor 1,96, rejeitamos H0 . Considera-se
que as amostras diferem entre si ao nvel de 5% de signicancia.

8.7.2

Teste Kruskal-Wallis para k Amostras Independentes

O teste de Kruska-Wallis foi criado como um substituto ao teste F na analise de variancia parametrica
(ANOVA) que sera apresentado no proximo captulo.
Ele e utilizado para que se verique o contraste entre k (k>2) amostras independentes.
Requisitos:
Comparac
ao entre 3 ou mais grupos independentes;
Dados ordinais (que possam ser ordenados);
ni 6.

8.7

Testes N
ao-Param
etricos

ROSSI, Robson M. 104

Os valores obtidos nas diversas amostras diferem entre si e portanto, sera uma maneira de vericar se
estas diferencas sao devidas ao acaso ou se as amostras provem de populacoes diferentes.
Da mesma forma que nos outros testes, serao consideradas as hipoteses nula (H0 ) e alternativa (Ha ), isto
e:
H0

: n
ao h
a diferenca significativa entre os tratamentos.

Ha

: h
a diferenca significativa entre os tratamentos.

Quanto `a metodologia usada no teste de Kruskal-Wallis, a expressao e denida por:


HKW =

k T2

12
i
3(N + 1) tal que H 2(k1)
N (N + 1) i=1 ni

em que:
Ti : e a soma das ordens atribudas ao tratamento i;
k : corresponde ao n
umero de tratamentos ou amostras a comparar;
ni : o n
umero de observac
oes em cada tratamento k e,
N : o total de observac
oes em todos os tratamentos k.
Exemplo 8.12. Analisar o tempo de sobrevida, em meses, de pacientes atendidos na clnica de abd
omen
do hospital X, na cidade de Cabrob
o.

Tabela 8.16: Tempo de sobrevida.


Radioterapia (n1 = 7) Quimioterapia (n2 = 8) Cirurgia (n3 = 8)
17 (11)
20 (12)
32 (17)
14 (9)
5 (3)
35 (20)
4 (2)
9 (6)
26 (15)
8 (5)
13 (8)
34 (18,5)
29 (16)
34 (18,5)
21 (13)
6 (4)
2 (1)
45 (21)
15 (10)
11 (7)
50 (23)
22 (14)
47 (22)
T1 = 57, 0
T2 = 69, 5
T3 = 149, 5
Questoes: Ha diferenca sifnicativa entre os tempos de sobrevivencia? Qual o tratamento recomendado
baseado no tempo de sobrevida?
Independentemente do n
umero de observacoes em cada grupo e utilizando os n
umeros naturais, procedemos `a ordenac
ao dos valores. Assim os valores acima receberiam a seguinte numeracao, conforme os valores
ja entre parenteses.
Entao:
HKW

=
=
=
=
=

k T2

12
i
3(N + 1)
N (N + 1) i=1 ni
3 T2

12
i
3(23 + 1)
23(23 + 1) i=1 ni
[
]
1 572
69, 52
149, 52
+
+
72
46 7
8
8
1
(3861, 7) 72
46
11, 95 (p-valor : 0,0025).

Como HKW 2(k1) , ent


ao H 2(31) 22;5% = 5, 99 e 22;1% = 9, 21, portanto, considerando que
o valor encontrado de HKW = 11, 95 e maior do que os valores da tabela, tanto para = 5% como para
= 1%, conclumos pela rejeic
ao de H0 e conseq
uentemente, pela indicacao de que o tratamento cir
urgico
se destaca dos demais, pois apresenta maiores valores aos tempos de sobrevida.

8.7

Testes N
ao-Param
etricos

8.7.3

ROSSI, Robson M. 105

Teste de Wilcoxon para Amostras Pareadas

Trata-se de um teste nao-parametrico para comparar dois tratamentos quando os dados s


ao obtidos
atrav
es do esquema de pareamento. A prova de Wilcoxon avalia a grandeza das diferencas quando
comparados postos de observac
oes. Dada a grandeza das diferencas observadas, atribui-se maior valor para
a maior diferenca encontrada, diminuindo este valor de acordo com as menores diferencas existentes.
Procedimento
1. Calcular di : diferenca entre as obsevacoes
(2)

di = xi

(1)

xi

2. Ignorar os sinais e atribuir postos


3. Calcular a soma dos postos (T+ e T ).
4. Obter o valor da estatstica calculada
Tc = min{|T |; |T+ |}
5. Obter o valor da estatstica Tabelada (Anexo V)
T;n
6. Concluir pela rejeic
ao de H0 se Tc T;n .
Pequenas Amostras (n 20)
No confronto de dois grupos quando desejamos identicar se existe diferenca signicativa entre os mesmos
quanto `as medidas encontradas, empregamos o teste de Wilcoxon quando a variacao dos valores apresenta-se
de forma acentuada.
A aplicacao deste teste pressupoe que as duas amostras sejam casualizadas e independentes, e que as
variaveis em confronto sejam contnuas.
A metodologia do teste consiste em se proceder `a ordenacao dos valores das amostras e, posteriormente,
atribuir aos mesmos seus ranks. Em seguinda, obtem-se os totais do ranks da amostra de menor tamanho,
consultando-se a tabela (anexo) do referido teste.
Exemplo 8.13. Foi realizado um ensaio clnico em que foram utilizadas duas drogas A e B. Com a droga
A foram tratados oito pacientes e com a droga B, cinco pacientes. Os nveis de anticorpos corresponderam
a:
Tabela 8.17: Nveis de anticorpos.
Tratamento
d
rank de |d|
A
B
7,4
9,1
1,7
5
12,3 9,7
-2,6
6
7,4
8
11,8 19,2
16,4 22,4
6,0
7
1,5
-0,4
1
1,9
3,0
3,5
0,5
2,5
7,8
1,0
4
6,8
20,4 19,9
-0,5
2,5

Tem-se:
Soma dos ranks (-) : 9,5
Soma dos ranks (+) : 26,5

8.7

Testes N
ao-Param
etricos

ROSSI, Robson M. 106

assim
Tc = min{9, 5; 26, 5} = 9, 5
consultando-se a Tabela de Wilcoxon, verica-se que T;n = T5%;5 = 5 < 9, 5 (no Statistica o p-valor :
0,234).
Assim, nao rejeitamos H0 , ou seja, que os valores comparados, referentes `as drogas A e B, nao apresentamse com diferenca siginicativa. Conclui-se, entao, que os valores de nveis de anticorpos em relacao aos dois
tipos de drogas se comportam de forma semelhante.
Grandes Amostras (n > 20)
Nos casos de grandes amostras, estas apresentam valores com distribuicao normal e, portanto, a comparacao das medidas sera realizada atraves de determinacao de um valor W .
Sao enunciadas naturalmente as hipoteses. H0 sera rejeitada se o valor de W for maior ou igual a Z
para um nvel de signicancia, , pre-determinado.
Assim, para a comparacao de conjuntos de medidas, provenientes de duas amostras, sera necessario
utilizar a expressao de W :
n(n + 1)
Tc

4
W =
N (0, 1)
n(n + 1)(2n + 1)
24
em que:
n : n
umero de elementos da menor amostra;
Exemplo 8.14. Evoluc
ao do tratamento com tianeptina: Escores dos pacientes do grupo tianeptina no
primeiro e no u
ltimo dia:
Tabela 8.18: Tratamento com tianeptina.
Tianeptina

Primeiro dia (m = 8) Ultimo


dia (n = 8) d
24
6
-18
46
33
-13
26
21
-5
26
-18
44
27
10
-17
34
29
-5
33
33
0
25
29
+4
35
37
+2
30
15
-15
38
2
-36
38
21
-17
31
7
-24
*
*
27
34
*
*
26
-6
32
Sendo assim temos: |T | = 99 e |T+ | = 6, ent
ao
Tc = min{99; 6} = 6
De acordo com a Tabela de Wilcoxon,
T;n = T5%;14 = 21
Como 6 < 21, rejeitamos H0 .

Postos
(-) 11,5
(-) 7
(-) 4,5
(-) 11,5
(-) 9,5
(-) 4,5
(+) 1
(+) 3
(+) 2
(-) 8
(-) 14
(-) 9,5
(-) 13
*
*
(-) 6

8.7

Testes N
ao-Param
etricos

ROSSI, Robson M. 107

Supondo n grande teremos:


14(14 + 1)
4
W =
= 2, 92 (p-valor : 0,003).
14(14 + 1)(2.14 + 1)
24

Considerando que o valor de W = 2, 92 esta na area de rejeicao de H0 , para o valor de Z5% = 1, 96,
rejeitamos H0 , ou seja, os valores dos dois conjuntos apresentam diferencas signicativas.

8.7.4

Teste Friedman para k Amostras Pareadas

O teste de Friedman
e recomendado como um substituto do teste F (ANOVA), quando
procede-se `
a compara
c
ao de k (k>2) amostras relacionadas ou dependentes cujas observa
c
oes
apresentam valores com acentuadas varia
c
oes e em cada tratamento s
ao constitudos blocos.
Na verdade, procura-se fazer a comparac
ao de tratamentos em que sao formados blocos com a intencao de
que isto resulte em um pareamento consideravel entre os diversos tratamentos.
A forma de realizac
ao do teste e analogo aos demais. Dentro de cada um do n blocos formados procede-se
`a classicacao das i-esimas observac
oes em k tratamentos, utilizando-se n
umeros naturais.
Assim, tem-se a estatstica teste:
HF r =

12
T 2 3n(k + 1) tal que HF r 2(k1)
nk(k + 1) i=1 i

Exemplo 8.15. S
ao prescritos quatro procedimentos tecnicos para determinac
ao de certa vari
avel. Foram
formados cinco blocos e obtidos os seguintes valores:

Tabela 8.19: Dados de quatro procedimentos tecnicos.


Tratamentos
A
B
C
D
12 (2)
13 (3)
16 (4)
7 (1)
8 (2)
9 (3)
12 (4)
5 (1)
14 (2)
20 (3)
22 (4)
6 (1)
16 (2)
21 (4)
11 (1)
17 (3)
12 (2)
15 (3)
16 (4)
10 (1)
T1 = 11 T2 = 14 T3 = 20 T4 = 5
Substituindo-se os valores na expressao no teste, tem-se:
HF r

=
=
=

12
. Ti2 3.5(4 + 1)
5.4(4 + 1) i=1
12
. [121 + 196 + 400] 75
100
14, 04 (p-valor : 0,00285).

Como HF r 2(k1) , ent


ao HF r 2(41) 23;5% = 7, 82 e 23;1% = 11, 34, portanto, considerando que
o valor encontrado de HF r = 14, 04 e maior do que os valores da tabela, tanto para = 5% como para
= 1%, conclumos pela rejeic
ao de H0 , logo verica-se que ha diferenca signicativa entre as medidas dos
tratamentos. O tratamento C apresentou melhores resultados em relacao aos demais grupos.

8.7

Testes N
ao-Param
etricos

8.7.5

ROSSI, Robson M. 108

Outros Testes N
ao-Param
etricos

Teste de Concord
ancia ou de Replicabilidade (Coeficiente de Kappa)
O coeciente de Kappa e utilizado para vericar a concordancia entre os diagnosticos de dois especialistas.
Observe a Tabela (8.20) abaixo:
Tabela 8.20: Concord
ancia entre o diagn
ostico de dois especialistas.
Diagnostico
Diagnostico Especialista 1
Total
Especialista 2
Presente (+)
Ausente (-)
Presente (+)
a (++)
b (+-)
n1 = a + b
Ausente (-)
c (-+)
d ()
n2 = c + d
Total
m1 = a + c
m2 = b + d
n
Calculos auxiliares:
Proporc
ao de concordancia observada:
po =
Proporc
ao de concordancia casual:
pc =

a+d
n

n1 m 1 + n2 m 2
n2

Coeciente:
Kappa =

po pc
.
1 pc

Classifica
c
ao:
Kappa
k=0
k < 0, 4
0, 4 k < 0, 8
0, 8 k < 1
k=1

Concord
ancia
nenhuma
leve
moderada
forte
perfeita

Exemplo 8.16. Em uma determinada experiencia, foi avaliado o grau de les


ao do tecido hep
atico, em 20
cobaias `
as quais foi administrada uma certa subst
ancia t
oxica. Os resultados dos exames efetuados por dois
patologistas foram o seguinte:

Tabela 8.21: Teste Kappa


Cobaia
1 2
Patologista 1 + +
Patologista 2 + +

para a concord
ancia entre patologistas quanto
3 4 5 6 7 8 9 10 11 12
+ + + + - + + + + +
- + + + - + +
+

ao grau de les
ao do
13 14 15 16
+
+
+
-

tecido hep
atico.
17 18 19 20
+ +
+
-

+ : presenca de lesao hepatica


- : ausencia de lesao hepatica.
Com base nesses resultados, e possvel construir a tabela abaixo:
Entao tem-se:
a+d
10 + 5
po =
=
= 0, 75
n
20
n1 m 1 + n2 m 2
15(10) + 5(10)
200
pc =
=
=
= 0, 5
2
2
n
20
400
po pc
0, 75 0, 5
Kappa =
=
= 0, 5.
1 pc
1 0, 5
Conclui-se que existe uma concordancia apenas moderada entre os diagnosticos dos patologistas.

8.7

Testes N
ao-Param
etricos

ROSSI, Robson M. 109

Tabela 8.22: Concord


ancia entre o diagn
ostico de dois especialistas.
Diagn
ostico
Diagnostico Patologista 1
Total
Patologista 2
Presente (+)
Ausente (-)
Presente (+)
10
5
15
Ausente (-)
0
5
5
Total
10
10
20

Teste de Cochran
O teste de Cochran e utilizado quando se deseja comparar tratamentos distintos aplicados a uma mesma
amostra (medidas repetidas), o que caracteriza a dependencia ou o pareamento das unidades amostrais em
que a resposta e da forma 0 ou 1, isto e, sucesso ou fracasso. O teste de Cochran e uma extensao do teste
de McNemar.
A hipotese a ser testada sera:
H0 : Os tratamentos nao diferem entre si;
Ha : Pelo menos um par de tratamentos diferem entre si.
Estatstica teste:
k

2
k(k 1) (Ti ) (k 1)N 2
i=1
Q=
2k1 .
n

2
kN
(Sj )
j=1

Sendo k : tratamentos e N : total de uns.


A decisao pela rejeic
ao de Ho ser
a tomada se Q 2k1 , assim existe pelo menos um par de tratamentos
que diferem entre si ao nvel de signicancia.
Um psiquiatra quer testar a eciencia de 4 tratamentos em 10 sujeitos submetidos a um teste cuja resposta
e sim ou nao.
Tabela 8.23: Teste de Cochran: Dez indivduos submetidos a quatro tratamentos supostamente homogeneos.
Tratamentos
2
Indivduos T1 T2 T3 T4 Sj
(Sj )
1
1
1
1
1
4
16
2
1
0
0
1
2
4
3
1
0
1
0
2
4
4
1
1
1
0
3
9
5
0
0
0
0
0
0
6
0
1
1
1
3
9
7
1
0
1
1
3
9
8
0
0
1
0
1
1
9
1
1
1
0
3
9
10
0
1
0
0
1
1
Ti
6
5
7
4
22
62
2
(Ti )
36 25 49 16 126
Assim tem-se:
4(4 1)
Q =

(Ti ) (4 1)(222 )

i=1

4(22)

10

(Sj )

j=1

4(3) (126) (4 1)(222 )


4(22) (62)

2, 31 < 23 = 7, 815,

8.7

Testes N
ao-Param
etricos

ROSSI, Robson M. 110

logo nao se rejeita H0 .Conclu-se que os tratamentos nao diferem entre si ao nvel de 5% de signicancia.
Observa
c
ao: Em caso de rejeic
ao da hipotese nula, um procedimento de comparacoes m
ultiplas deve
ser realizado (ver CASTELLANOS e MERINO, 1989).

Captulo 9

An
alise de Vari
ancia
` vezes e preciso comparar medias de mais de duas populacoes. Por exemplo, para vericar se pessoas
As
com diferentes nveis de renda, isto e, alto, medio e baixo tem, em media, o mesmo peso corporal, e preciso
comparar medias de tres populac
oes.
Outras vezes, e preciso comparar varias situacoes experimentais. Por exemplo, se um pesquisador separa,
ao acaso, um conjunto de pacientes em 4 grupos e administra uma droga diferente a cada grupo, tera que
comparar medias de quatro populac
oes.
Para comparar medias de mais de duas populacoes normais ou aproximadamente normais, aplica-se o
teste F. Neste caso convem vericar antecipadamente a normalidade dos dados.
Por exemplo, imagine que 4 amostras casuais simples, todas com cinco elementos mas cada uma proveniente de uma populac
ao, conduziram aos dados apresentados na Tabela 9.1.

Tabela 9.1: Dados de 4 amostras e respectivas medias.


Amostras
A
B
C
D
11
8
5
4
8
5
7
4
5
2
3
2
8
5
3
0
8
5
7
0
x
1 = 8 x
2 = 5 x
3 = 5 x
4 = 2

Sera que as diferencas das medias das amostras sao sucientemente grandes para que se possa armar
que as medias das populac
oes sao diferentes? Para responder a esta pergunta, e preciso um teste estatstico.

9.1

ANOVA para Experimentos ao Acaso

Primeiro, e preciso estudar as causas de variaca


o. Por que os dados variam? Uma explicacao e o fato de
as amostras provirem de populac
oes diferentes. Outra explicacao e o caso, porque mesmo dados provenientes
da mesma populac
ao variam.
O teste F e feito atraves de uma an
alise de vari
ancia, que separa a variabilidade devido aos tratamentos (no exemplo, devido `as amostras terem provindo de populacoes diferentes) da variabilidade
residual, isto e, devido ao acaso. Para aplicar o teste F e preciso fazer uma serie de calculos, que exigem
conhecimento de notac
ao.
A Tabela 9.2, apresenta os dados de k tratamentos, cada um com r repeticoes (no exemplo, denominam-se
repeticoes os elementos da mesma amostra). A soma das r repeticoes de um mesmo tratamento constitui o
total desse tratamento. O total geral e dado pela soma dos k totais de tratamentos.

111

9.1

ANOVA para Experimentos ao Acaso

ROSSI, Robson M. 112

Tabela 9.2: Notac


ao para a an
alise
Tratamentos
1
2
3
...
x11 x21 x31 ...
x12 x22 x32 ...
.
.
.
x1r x2r x3r
Total
T1
T2
T3
...
No de repetic
oes r
r
r
...
Media
x
1
x
2
x
3

de vari
ancia.
k
xk1
xk2
.
.
.
xkr
Tk
r
x
k

Total

T = x
n = kr

Para fazer a analise de vari


ancia e preciso calcular as seguintes quantidades:
1. os graus de liberdade:
(a) de tratamento: k 1
(b) de total: n 1
(c) de resduo: (n 1) (k 1) = n k
2. o valor C, dado pelo total geral elevado ao quadrado e dividido pelo n
umero de dados. O valor C e
chamado correc
ao.

( x)2
C=
n
3. a soma de quadrados total:
SQT =

x2 C

3. a soma de quadrados de tratamentos:

T2
C
r

SQT r =
4. a soma de quadrados de resduos:

SQR = SQT SQT r


5. o quadrado medio de tratamentos:
QM T r =

SQT r
k1

QM R =

SQR
nk

6. o quadrado medio de resduo:

7. o valor de F
F =

QM T r
QM R

Em seguida, e preciso comparar o valor calculado de F com o valor tado em tabela, ao nvel de signicancia
estabelecido e com (k 1) graus de liverdade no numerador e (n k) graus de liberdade no denominador.
Toda vez que o valor calculado de F for maior ou igual do que o da tabela conclui-se, ao nvel de
signicancia estabelecido, que as medias de tratamentos sao iguais.
Exemplo 9.1. Para os dados apresentados na Tabela 9.1, proceder uma an
alise de vari
ancia para verificar
se existe diferenca significativa entre os tratamentos.

9.1

ANOVA para Experimentos ao Acaso

ROSSI, Robson M. 113

1. os graus de liberdade:
(a) de tratamento: k 1 = 4 1 = 3
(b) de total: n 1 = 20 1 = 19
(c) de resduo: (n 1) (k 1) = n k = 20 4 = 16
2. o valor C:
C=

x)2
(11 + 8 + ... + 0)2
=
= 500
n
20

3. a soma de quadrados total:

SQT =
x2 C = 112 + 82 + ... + 02 500 = 658 500 = 158
3. a soma de quadrados de tratamentos:
2
402 + 252 + 252 + 102
T
C =
500 = 590 500 = 90
SQT r =
r
5
4. a soma de quadrados de resduos:
SQR = SQT SQT r = 158 90 = 68
5. o quadrado medio de tratamentos:
QM T r =

SQT r
90
=
= 30
k1
3

6. o quadrado medio de resduo:


QM R =
7. o valor de F
F =

SQR
68
=
= 4, 25
nk
16
QM T r
= 7, 06
QM R

As quantidades calculadas sao apresentadas numa tabela de an


alise de vari
ancia. Veja a Tabela 9.3:
Tabela 9.3: An
alise de vari
ancia dos dados da Tabela 6.1.
Causas da variac
ao GL SQ QM
F
p
Tratamentos
3
90
30
7,06 0,003086
Resduo
16
68 4,25
Total
19 158
Ao nvel de signicancia de 5%, o valor de F tabelado, com 3 e 16 graus de liberdade (numerador e
denominador, respectivamente), e de 3,24. Como o valor obtido e maior do que 3,24, conclui-se que as
medias nao sao iguais, ao nvel de signicancia de 5%.

9.2

Teste de Compara
c
oes M
ultiplas

9.2
9.2.1

ROSSI, Robson M. 114

Teste de Comparac
oes M
ultiplas
N
umero Igual de Repetico
es

Teste Tukey
Uma analise de vari
ancia permite estabelecer se as medias das populacoes em estudo sao, ou nao sao, estatisticamente iguais. No entanto, esse tipo de analise nao permite detectar quais sao as medias estatsticamente
diferentes das demais. Por exemplo, a analise de variancia apresentada na Tabela 6.3 mostrou que as medias
das populacoes nao sao iguais, mas nao permite concluir que e, ou quais sao, as medias diferentes das demais.
O teste de Tukey permite estabelecer a diferenca mnima significante (d.m.s), ou seja, a menor diferenca
de medias de amostras que deve ser tomada como estatisticamente signicante, em determinado nvel. Essa
diferenca (d.m.s) e dada por:

QM R
d.m.s = q
r
onde q e um valor dado em tabela, QMR e o quadrado medio do resduo da analise de variancia e r e o
n
umero de repetic
oes de cada tratamento.
Considere agora os dados da Tabela 9.1. A analise de variancia apresentada na Tabela 9.3 mostra um
valor F signicante ao nvel de 5%. Ent
ao as medias de A, B, C e D nao sao estatsticamente iguais. Mas
qual e, ou quais sao, as medias diferentes entre si?
A pergunta pode ser respondida com a aplicacao do teste de Tukey. Ao nvel de signicancia de 5%,
o valor de q para comparar 4 tratamentos (A,B, C e D), com 16 graus de liberdade no resduo, e de 4,05.
Como QMR = 4,25 e r = 5, segue-se que:

4, 25
d.m.s = 4, 05
= 3, 73.
5
De acordo com o teste de Tukey, duas medias sao estatisticamente diferentes toda vez que o valor absoluto
da diferenca entre elas for igual ou superior ao valor da d.m.s. No caso do Exemplo, o valor da d.m.s. e 3.73
facil ver que a diferenca
e os valores absolutos das diferencas entre as medias estao apresentados a seguir. E
entre as medias A e D e maior do que a d.m.s. Entao, ao nvel de 5%, a media de A e signicativamente
mair do que a media de D.
Tabela 9.4: Comparac
oes entre as medias via Tukey.
Pares de medias Valor absoluto da diferenca
AeB
|8 5| = 3
AeC
|8 5| = 3
AeD
|8 2| = 6
BeC
|5 5| = 0
BeD
|5 2| = 3
CeE
|5 2| = 3
Exemplo 9.2. Com base nos dados apresentados na Tabela 9.5 abaixo, verifique se existe diferenca estatstica
entre os grupos. Note que s
ao tres grupos em comparac
ao. No grupo operado foi feita a remoc
ao das gl
andulas
salivares maiores, e no grupo pseudo-operado foram executados todos os tempos cir
urgicos, mas nenhuma
gl
andula foi removida (Banco de dados: Tukey1 ex.stw).
Sol.: A tabela de analise de vari
ancia resume os calculos:
Para aplicar o teste de Tukey ao nvel de signicancia de 5%, tem-se:
q3;21 3, 57
e

d.m.s. = 3, 57

53, 247
= 9, 21.
8

Os valores absolutos das diferencas de medias sao:


A taxa de glicose e, em media, maior nos operados do que nos pseudo-operados, ao nvel de signicancia
de 5%.

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 115

Tabela 9.5: Taxa de glicose, em miligramas por 100 ml de sangue, em ratos Wistar machos de 60 dias,
segundo o grupo.
Grupo
Operado Pseudo-operado Normal
96
90
86
95
93
85
100
89
105
108
88
105
120
87
90
110,5
92,5
100
97
87,5
95
92,5
85
95
Tabela 9.6: ANOVA para a taxa de glicose.
Causas da variac
ao GL
SQ
QM
F
p
Grupos
2
717,25 358,625 6,73 0,005509
Resduo
21 1118,75 53,274
Total
23 1836,00

Teste Dunnett
Em muitos experimentos, e comum a necessidade de se realizar m
ultiplas comparacoes, todas em relacao
a um u
nico grupo denominado Controle. Neste caso, o test Dunnett (1964) e apropriado.
Teremos (k 1) comparac
oes a serem realizadas em relacao ao controle e queremos testas as seguintes
hipoteses:
H0
Ha

: i = c i = 1, 2, ..., k 1
: i =
c c: controle

O procedimento de Dunnett e analogo ao teste t, mas modicado.

2.QM R
d.m.s = d.
r
onde r e o n
umero de repeticoes.
Considerando um nvel de conanca , rejeitamos H0 se:

)
(
1
1
+
|
xi x
c | > d,(k1),f . QM R.
ni
nc
onde:
d,(k1),f esta tabelado (Tabela Dunnett) para k 1 comaracoes e f : no de observacoes dos tratamentos
(exceto o controle);
QM R : proveniente da ANOVA (Quadrado Medio dos Resduos);
ni : no de observac
oes do tratamento i;
nc : no de observac
oes do controle;
x
i e x
c : medias, do tratamento e controle, respectivamente.
Exemplo 9.3. Deseja-se comparar o efeito de cinco drogas na diminuica
o da press
ao arterial. Para isto
utilizou-se cinco grupos distintos e foram comparadas suas medias em relac
ao a media de um grupo controle,
que recebeu placebo. Ao todo, 30 indivduos participaram no experimento. A Tabela abaixo apresenta os
valores referentes a diferenca entre a press
ao arterial no incio e no fim do experimento (mmHg).

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 116

Tabela 9.7: Comparac


oes para as taxas medias de
Pares de medias
Valor absoluto da diferenca
Operado vs pseudo |102, 375 89, 0| = 13, 375
Operado vs normal |102, 375 95, 125| = 7, 25
Pseudo vs normal
|89, 000 92, 125| = 6, 125

glicose.
p
0,0004
0,1403
0,2368

Tabela 9.8: Diminuic


ao da press
ao arterial, em milmetros de merc
urio, segundo o tratamento.
Tratamento
A B C D E Controle
25 10 18 23 11
8
17 -2
8 29 23
-6
27 12 4 25 5
6
21 4 14 35 17
0
15 16 6 33 9
2
Apos a analise de vari
ancia, tem-se:
Como o valor de F apresentado e de 13,08 (p-valor = 0,000003) e signicante ao nvel de 5%, e razoavel
procurar um teste para comparar as medias dos tratamentos. A d.m.s. estabelecida pelo teste Dunnett
(especco para este caso) sera:

2.QM R
2.36
d.m.s = d.
= 2, 70
= 10, 25
r
5
Obs. O valor d = 2, 70 e proveniente da Tabela Dunnett com 24 graus de liberdade.
Desta forma teremos:
facil observar que os tratamentos A, D e E apresentam, em media, resultados melhores que os do
E
controle, ao nvel de 5%.

9.2.2

N
umero Diferente de Repetico
es

Muitas vezes o pesquisador dispoe de diversas amostras, cada uma proveniente de uma populacao, mas
essas amostras nao tem todas o mesmo tamanho. Mesmo assim, e possvel conduzir a analise de variancia.
Alias, todos os calculos, com excec
ao da soma de quadrados de tratamentos, sao feitos na forma ja apresentada
anteriormente.
Para entender como se calcula a soma de quadrados de tratamentos quando os tratamentos nao tem o
mesmo n
umero de repetic
oes, primeiro observe a Tabela 9.11.
A soma de quadrados de tratamentos e dada pela formula:
SQT r =

T12
T2
T2
+ 2 + ... + k C
r1
r2
rk

onde C e a correc
ao ja denida anteriormente.
mais facil entender a aplicac
E
ao de formulas atraves de um exemplo.
Exemplo 9.4. An
alise de vari
ancia para os dados da Tabela 9.12.
1. os graus de liberdade:
(a) de tratamento: k 1 = 3 1 = 2
(b) de total: n 1 = 15 1 = 14
(c) de resduo: (n 1) (k 1) = n k = 15 3 = 12
2. o valor C:
C=

( x)2
(15 + 10 + ... + 16)2
=
= 4001, 67
n
15

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 117

Tabela 9.9: ANOVA para os dados de press


ao arterial, em milmetros de merc
urio, segundo o tratamento.
Causas da variac
ao GL
SQ
QM
F
p
Grupos
5
2354,17 470,83 13,08 0,000003
Resduo
24
864
36
Total
29 3218,17
Tabela 9.10: Comparac
oes entre as medias dos dados de
Pares de medias Valor absoluto da diferenca
A vs Controle
|21 2| = 19 > 10, 25
B vs Controle
|8 2| = 6 < 10, 25
C vs Controle
|10 2| = 8 < 10, 25
D vs Controle
|29 2| = 27 > 10, 25
E vs Controle
|13 2| = 11 > 10, 25

Press
ao arterial.
p
0,000182
0,392329
0,162730
0,000007
0,032024

3. a soma de quadrados total:


SQT =

x2 c = 152 + 102 + ... + 162 4001, 67 = 159, 33

3. a soma de quadrados de tratamentos:


2
842
762
852
T
SQT r =
C =
+
+
4001, 67 = 63, 33
r
6
4
5
4. a soma de quadrados de resduos:
SQR = SQT SQT r = 159, 33 63, 33 = 96, 00
5. o quadrado medio de tratamentos:
QM T r =

SQT r
63, 33
=
= 31, 67
k1
2

6. o quadrado medio de resduo:


QM R =
7. o valor de F
F =

SQR
96
=
= 8, 00
nk
12

QM T r
31, 67
=
= 3, 96
QM R
8, 00

Os valores calculados estao apresentados na Tabela 9.13.


Ao nvel de signicancia de 5%, com 2 e 12 g.l., o valor de F tabelado e de 3,89, menor do que 3,96,
conclui-se que as medias diferem entre si.
Os metodos de comparacao de medias apresentados anteriormente tambem podem ser usados quando o
umero de repeticoes dos tratamentos
n
umero de repetic
oes por tratamento nao e constante. Se ri e rj sao o n
em comparac
ao, as formulas para a diferenca mnima signicante cam como segue:
Teste Tukey
Para comparar as medias de tratamentos duas a duas, pode-se aplicar o teste de Tukey que, neste caso, e
aproximado, porque os tratamentos tem n
umeros diferentes de repeticoes. A diferenca mnima signicativa
(d.m.s.) e dada pela formula:
(
)
1
1 QM R
d.m.s. = q
+
ri
rj
2

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 118

Tabela 9.11: Notac


ao para a an
alise de vari
ancia com diferentes repetico
es.
Tratamentos
1
2
3
... k
Total
x11 x21 x31 ... xk1
x12 x22 x32 ... xk2
.
.
.
.
.
.
x1r x2r x3r
xkr

Total
T1
T2
T3
... Tk
T = x
No de repetic
oes r1
r2
r3
... rk
n = kr
Media
x
1
x
2
x
3
x
k
Tabela 9.12: Dados de 3 amostras e respectivas medias.
Amostras
A
B
C
15
23
19
10
16
15
13
19
21
18
18
14
15
16
13
x
1 = 84 x
2 = 76 x
3 = 86
onde ri e o n
umero de repetic
oes do i-esimo tratamento e rj e o n
umero de repeticoes do j-esimo tratamento.
No caso do Exemplo anterior com dados na Tabela 9.12, para comparar a media de A com a media de
B, tem-se:
(
)
1 1 8
d.m.s. = 3, 77
+
= 4, 87.
6 4 2
Para comparar A com C, tem-se:
(
)
1 1 8
d.m.s. = 3, 77
+
= 4, 57.
6 5 2
Para comparar B com C, tem-se:
(
)
1 1 8
d.m.s. = 3, 77
+
= 5, 06.
4 5 2
Os valores absolutos das diferencas entre as medias estao sao apresentados a seguir. Como o valor
absoluto da diferenca entre A e B e maior do que a respectiva d.m.s., conclui-se que, em media, A difere de
B, ao nvel de signicancia de 5%.
Existem diferentes testes de comparac
oes m
ultiplas. Dentre eles destacam-se:
Teste t
A diferenca mnima signicativa (d.m.s.) e dada pela formula:
(
)
1
1
+
QM R
d.m.s. = t
ri
rj

9.2

Teste de Compara
c
oes M
ultiplas

Tabela 9.13: An
alise de vari
ancia.
Causas da variac
ao GL
SQ
QM
F
Tratamentos
2
63,33 31,67 3,96
Resduo
12
96
8
Total
14 159,33

ROSSI, Robson M. 119

p
0,04784

Tabela 9.14: Comaparac


oes entre medias.
Pares de medias Valor absoluto da diferenca
p
AeB
|14 19| = 5
0,0443*
AeC
|14 17| = 3
0,2272
BeC
|19 17| = 2
0,5589
Teste Dunnett
A diferenca mnima signicativa (d.m.s.) e dada pela formula:
(
)
1
1
d.m.s. = d
+
QM R
ri
rj
Considera
c
oes
A escolha apropriada de um teste e muito exvel. Se o pesquisador quer ter alta chance de rejeitar
H0 : de que as medias sao iguais, pode optar pelo teste t ou pelo teste Duncan (Nao apresentado neste
material-Ver Vieira, 1999). Estes dois testes tem caractersticas similares, mas o teste t e mais antigo e,
talvez por isso, mais conhecido. Tambem e de aplicacao mais facil. Entretanto, o pesquisador tambem pode
optar por aplicar o teste de Tukey ou de Dunnett, com nvel de signicancia mais elevado. Estes testes
teriam, entao, maior poder. Por exemplo, o teste de Tukey a 10% tem maior poder do que o teste de Tukey
a 5%.
Um pesquisador que pretende somente rejeitar a hipotese de que as medias sao iguais com muita conanca,
deve optar pelo teste de Tukey ou de Dunnett, com baixo nvel de signicancia. Esta situacao pode ocorrer
quando se comparam novas drogas terapeuticas com uma droga conhecida. Toda droga tem efeitos colaterais.
Entao, muitas vezes so e razoavel indicar uma nova droga - de efeitos colaterais desconhecidos - quando
existem indicac
oes seguras de que essa nova droga e melhor do que a convencional.
De qualquer forma, ca aqui um alerta: todos os procedimentos para a comparacoes de medias tem
vantagens e desvantagens. Ainda nao existe um teste denitivamente melhor que todos os outros.

Refer
encias Bibliogr
aficas
[1] ARANGO, H. G. Bioestatstica: Te
orica e computacional. Guanabara Koogan S.A. 3a Ed. RJ, 2009.
[2] BUSSAB, W. O e MORETTIN, P. A. Estatstica b
asica. Ed. Saraiva, 5a Ed. SP, 2003.
oes. Ed. Artmed. RS, 2003.
[3] CALLEGARI-JACQUES, S. M. Bioestatstica: Princpios e Aplicac
[4] CAMPOS, H. Estatstica Experimetal N
ao-Parametrica. 4a Ed. USP/ESALQ, 1983.
[5] CARVAJAR, S. S. R. Elementos de Estatstica (com aplicacoes `as ciencias medicas e biologicas). Rio
de Janeiro: UFRJ, 1970.
[6] CASTELLANOS, R. S.; MERINO, A. P.. Psicoestadistica-Contrastes Parametricos y no Parametricos.
Ediciones Piramide S.A., Madrid, 1989.
[7] CENTENO, A. J. Curso de Estatstica aplicada `
a Biologia. Goiania: Ed. Universidade Federal de Goias,
1981.
[8] CARVAJAR, S. S. R. Elementos de Estatstica (com aplicacoes `as ciencias medicas e biologicas). Rio
de Janeiro: UFRJ, 1970.
[9] DANIEL, W. W. Bioestatistics: a foundation for analysis in the health sciences. 2 Ed. New York: John
Wiley, 1999.
[10] DIAS, F, R; LOPES, F. J. B. Bioestatstica. 1a Ed. Thomson Learning, 2007.
[11] DOWNING, D.; CLARK, J. Estatstica aplicada. 2a Ed. Saraiva. SP, 2002.
[12] GAUVREAU, K.; PAGANO. Principios de Bioestatstica. 2a Ed. Thonson, 2004.
[13] GUEDES, M. L. S.; GUEDES, J. S. Bioestatstica - Para profissionais de sa
ude. 1a Ed. Ao livro tecnico
S.A. RJ, 1988.

[14] MAGALHAES,
M. N.; LIMA, A. C. P. Noc
oes de Probabilidade e Estatstica. 6a Ed. EDUSP, 2008.
[15] MEDRONHO, R. A.. Epidemiologia. Ed. Atheneu. SP, 2003.
[16] MONTGOMERY, DOUGLAS. Desigin and analysis of experiments. 3a Ed. NY, John Wiley & Sons,
1991.
[17] MORETTIN, L. G. Estatstica B
asica. Sao Paulo: Makron Books, 2000, vol. I e II.
[18] PAGANO, M.; GAUVREAU, K. Princpios de Bioestatstica. Ed. Thomson, 2a Edicao, SP, 2004.
[19] PEREIRA, M. G.. Epidemiologia: Teoria e Pr
atica. Ed. Guanabara & Koogan, 1995.
[20] SOARES, J. F.; BARTMAN, F. C. Metodos estatsticos em medicina e biologia. 14o Coloquio Brasileiro
de Matematica. IMPA/CNPq. RJ, 1983.
[21] SOARES, J. F.; SIQUEIRA, A.L. Introduc
ao `
a estatstica medica. Ed. UFMG. 1999.
[22] SOKAL, R. R. Biometry: The Principles and Practice of Statistics in Biological Research. New York:
W.F. Freeman, 1995.
120

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 121

[23] SIEGEL, S. Estatstica n


ao-parametrica. 1a Ed. RJ, Editora McGraw Hill do Brasil Ltda, 1981.
[24] SOUNIS, E. Bioestatstica. Princpios fundamentais, metodologia, estatstica, aplicac
ao `
a ciencias
biol
ogicas. 2a Ed. Revisada, McGraw-Hill, 1975.
[25] STEEL, R. G. D. Principles and Procedures of Statistics a Biometrical Approach. 2. Ed. New York: Mc
Graw-Hill, 1980.
[26] VIEIRA, S. Bioestatstica. T
opicos Avancados. 3a Edicao. Rio de Janeiro: Elsevier, 2010.
[27] WAYNE, W. D. Biostatistics. A foundation for analysis in the health sciences. 7a Ed. J&S. NY, 1999.

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 122

FORMULARIOS
Formul
ario I - Estatstica Descritiva 1

AT = xmax xmin
Linf + Lsup
xi =
2
n

xi
x
= i=1
n
Md = xp ; p =

k=

n
Fi
fi =
n
k

xi Fi
x
= i=1
n
xp + xp+1
n
Md =
;p=
2
2
kn
p=
w
(Q3 Q1 )
k=
2(P
90 P10()
)2
k

(
) k
xi
1
2

i=1
s2 =
xi

n 1 i=1
n

n+1
2

h(p Fac1 )
Fi
x
Mo
Ap =
s
n

2
(xi x
)
s2 = i=1
n1

Sk = li +

s2 =

(xi x
) Fi

i=1

s2 =

n1

) k
1
2
x Fi
n 1 i=1 i

k = 1 + 3, 22 log n e h =
Fac
fac =
n

h(Fi Fi1 )
(Fi Fi1 ) + (Fi Fi+1 )
h(p Fac1 )
n
Md = li +
;p=
Fi
2

Mo = li +

w : 1, 4, 10 ou 100

s = s2

)2
xi Fi

i=1

cv =

s
100
x

Formul
ario II - Probabilidade e Distribuic
oes Probabilsticas
P (A) =

#A
#S

P (Ac ) = 1 P (A)

E(X) =
xi p(xi )
E(aX b) = aE(X) b
( )
p(X = x) = nx px q nx
e x
p(X = x) =
x!
X
Z=

p(X = x) = ex

1 Para

AT
k

P (A B) = P (A) + P (B) P (A B)
P (A B)
P (A|B) =
P (B)
V ar(X) = E[(X E(X))2 ] = E(X 2 ) [E(X)]2
V ar(aX b) = a2 V ar(X)
(n)
n!
x = x!(n x)!

P (X > x) = ex

fazer uso deste formul


ario nas avaliac
oes, n
ao faca nenhum tipo de anotac
ao.

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 123

Formul
ario III - Inferencia Parametrica * Supondo X N (; )2
Tamanho de Amostra
( )2
]
[
Z 2 so 2
N s2o Z 2
so
N n0

n=
onde e = Z 2 ;
n =
ou n =
( )2
e
N + (n0 1)
n
(N 1)e2 + s2o Z 2
[
]
[
]
Z 2 2
Z 2 2
N n0
n=
p0 q0 ou
n=
; n =
e
2e
N + (n0 1)

p/ :
p/ p :

Formul
ario IV - Inferencia - IC e TH | Supondo X N (; )

p/ :

Intervalos de Confian
ca (IC)

x
e; e = Z 2
n

{ !

s
x
e; e = Z 2
n

{ ?e n

x
e; e = t

p Z

p/ p :

2 ,

pq
n

(
x1 x
2 ) Z 2

(
x1 x
2 ) Z 2

? e n < 30
g.l : = n 1

p =

p/
1 2 :

21
2
+ 2
n1
n2
s21
s2
+ 2
n1
n2

(
x1 x
2 ) t 2 , sp

1
1
+
n1
n2

(n1 1)s21 + (n2 1)s22


n1 + n2 2

s21
s2
(
x1 x
2 ) t 2 ,
+ 2
n1
n2

30

X
n

{ 2
1 ! e 22 !
{

21 ? e 22 ?
n1 + n2 30

2
1 = 22 = 2 ?
n1 + n2 < 30

= n1 + n2 2

Testes de Hip
oteses (TH)
x
0
Zc =
N (0, 1)

n
x
0
Zc =
N (0, 1)
s

n
x
0
tc =
tn1
s

n
p p0
Zc =
N (0, 1)
pq
n
x
1 x
2
Zc =
N (0, 1)
2
22
1
+
n1
n2
x
1 x
2
Zc =
N (0, 1)
2
s1
s22
+
n1
n2
tc =

x
x
2
1
t
1
1
sp
+
n1
n2

sp =

(1 + 2 )
21
22
+
n1 1 n2 1
sd

d t 2 ,n1
n
p2 q2
p1 q1
+
(
p1 p2 ) Z 2
n1
n2
=

p/ :
dados pareados

p/
p1 p2 :

2 Para

21 = 22 ?
n1 + n2 < 30

s21
n1
onde,
s2
2 = 2
n2

x
1 x
2
tc =
t
s21
s22
+
n1
n2

1 =

n < 30
ni pi > 5; i = 1, 2.

fazer uso deste formul


ario nas avaliac
oes, n
ao faca nenhum tipo de anotac
ao.

d n
tn1
sd
p1 p2
N (0, 1)
Zc =
p1 q1
p2 q2
+
n1
n2
tc =

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 124

Formul
ario IV - An
alise em Tabelas de Contingencia 3
2 =

k (O E )2

i
i
2(l1)(c1)
Ei
i=1

2 =

n (ad bc)
2(1)
m 1 m 2 n1 n2

2Y ates =

k (|O E | 0.5)2

i
i
2(l1)(c1)
Ei
i=1

Coluna)
onde Ei = (Total Linha)(Total
Total Geral
Para Tabelas 2X2
(
)2
2
n |ad bc| n2
[|b c| 1]
2
Y ates =
2(1) 2M cN =
2(1)
m 1 m 2 n1 n2
b+c

An
alise de Resduos
OE
Rp =
;
E

Raj = (

Rp
)(
TC
TG

TL
TG

) N (0, 1)

Medidas do Efeito
RR =

OR =

Pr(Doente|Exposto)
=
Pr(Doente|Nao exposto)
Z
1 2
2
c
IC(RR; 1 %) : RR

a/(a+c)
b/(b+d)

Pr(Exposto|Doente)/[1 Pr(Exposto|Doente)]
ac
=
Pr(Exposto|N
ao Doente)/[1 Pr(Exposto|Nao Doente)]
bd
Z
1 2
2
c
IC(OR; 1 %) : OR
Coeficiente de Kappa (replicabilidade)
Kappa =

po pe
a+d
n1 m1 + n2 m2
; po =
; pe =
1 pe
n
n2
Kappa
k=0
k < 0, 4
0, 4 k < 0, 8
0, 8 k < 1
k=1

3 Para

Concord
ancia
nenhuma
leve
moderada
forte
perfeita

fazer uso deste formul


ario nas avaliac
oes, n
ao faca nenhum tipo de anotac
ao.

9.2

Teste de Compara
c
oes M
ultiplas

ROSSI, Robson M. 125

Formul
ario V - Inferencia N
ao-Parametrica 4
Teste Mann-Whitney para 2 amostras independentes
M -W = Uc = min{U1 ; U2 } U;n1 ;n2
ni (ni + 1)
onde Ui = n1 n2 +
Ti
2
nmin (n1 + n2 + 1)
min{T1 ; T2 }
2

Zc =
N (0, 1)

n < 25

n 25

n1 n2 (n1 +n2 +1)


12

Teste Wilcoxon para 2 amostras pareadas

n < 20
n 20

Wc = min{ T() ; T(+) } W;n


n(n + 1)
Wc
4
Zc =
N (0, 1)
n(n + 1)(2n + 1)
24

Teste Kruskal-Wallis para k amostras independentes


HKW =

k T2

12
i
3(N + 1) tal que H 2(k1)
N (N + 1) i=1 ni

Teste Friedman para k amostras pareadas


HF r =

12
T 2 3n(k + 1) tal que HF r 2(k1)
nk(k + 1) i=1 i

Teste Cochran para k amostras pareadas (Resposta dicot


omica)

k(k 1)
Q=

(Ti ) (k 1)N 2

i=1

kN

(Sj )

2k1

j=1

4 Para

fazer uso deste formul


ario nas avaliac
oes, n
ao faca nenhum tipo de anotac
ao.

Você também pode gostar