Você está na página 1de 94

Bioestatística

Maurício Cagy
Depto. de Epidemiologia e Bioestatística
Instituto de Saúde da Comunidade
Bibliografia Recomendada
 Díaz, F. R., López, F. J. B., Bioestatística, São Paulo:
Thomson Learning, 2007.
 Morettin, P. A., Bussab, W. O., Estatística Básica, 5a.
Ed., São Paulo: Editora Saraiva, 2006.
 Medronho R.A. et al. (eds.), Epidemiologia, São Paulo:
Editora Atheneu, 2002.
 Soares J.F., Siqueira A.L., Introdução à Estatística
Médica,
– 1a. Ed., Belo Horizonte: Departamento de Estatística –
UFMG, 1999;
– 2a. Ed., Belo Horizonte: Coppemed, 2002.
Epidemiologia
 “… o que os epidemiologistas estudam são os
determinantes e as condições de ocorrência de
doenças e agravos à saúde em populações
humanas. E o fazem empregando os mais
diversos métodos e técnicas, de acordo com suas
próprias visões de mundo, posicionamentos
teóricos, e propósitos, imediatos ou não, de seus
estudos.” (Carvalho, D.M., “Epidemiologia - História e Fundamentos” in: [2], p.6)
Bioestatística
 “…o conjunto de métodos estatísticos usados no
tratamento da variabilidade nas ciências médicas
e biológicas. A Bioestatística fornece métodos
para se tomarem decisões ótimas na presença de
incerteza, estabelecendo faixas de confiança
para a eficácia dos tratamentos e verificando a
influência de fatores de risco no aparecimento de
doenças.” ([3], p.11)
Variável
 “…a quantificação ou a categorização da característica
de interesse do estudo.” ([3], p.33)
 Tipos:
– Categóricas:
 Ordinal (Ex.: nível de gravidade de uma doença;

grau de satisfação com atendimento); Codificação


 Nominal (Ex.: gênero, etnia); 
– Quantitativas: Decodificação
 Contínua (Ex.: grandezas físicas, e.g. altura,
massa, pressão, temperatura);
Discretização
 Discreta (Ex.: contagens, proporções).
(Quantização)
Variável Categórica
 Codificação:
– Representação dos valores desta variáveis por meio
de símbolos em vez de palavras por extenso, visando
à simplificação do preenchimento dos dados.
– Deve permitir a decodificação, ou corre-se o risco de
se perder completamente esta informação.
 Exemplo: gênero
– M e F ou ♂ e ♀, no lugar de masculino e feminino;
– 0 e 1  nesse caso, uma tabela deve informar a que
valor cada símbolo se refere para permitir a
decodificação.
Variável Quantitativa
 Discretização  Quantização:
– Arredondamento: busca-se o valor quantizado mais
próximo, seja abaixo ou acima:
 Erro máximo: metade da resolução da escala
– Truncamento: busca-se o valor quantizado mais
próximo em direção ao zero:
 Erro máximo: resolução da escala

– Valor verdadeiro: 36,98764953...


– Valor arredondado: 37,0;
– Valor truncado: 36,9.
Tabelas, Gráficos e Medidas
Descritivas - Var. Categórica
 Medidas  Freqüências:
– Absoluta (contagem);
– Relativa (proporção).
 Exemplo: em um grupo de 20 pacientes
cardiopatas, 6 são diabéticos.
– Freqüência absoluta de diabéticos: 6;
– Freqüência relativa de diabéticos: 6/20 = 0,3 = 30%;
Tabelas, Gráficos e Medidas
Descritivas - Var. Categórica
 Tabelas de Contingência:
Simples
Diabetes Fr. Abs. Fr. Rel.
Sim 6 0,3
Não 14 0,7 Tabela 22

Cardiopata Sim Não Total


Diabético
Sim 6 2 8
Não 14 17 31
Total 20 19 39
Tabelas, Gráficos e Medidas
Descritivas - Var. Categórica
 Gráficos:
– Gráficos de Setores (ou de pizza ou de torta - pie
chart):

– Histogramas:
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Medidas de Tendência Central ou Centralidade:
– Em torno de que valor se encontram nossas
observações?
 Medidas de Dispersão ou Variabilidade:
– Estes valores são parecidos uns com os outros ou
apresentam grande variabilidade?
 Medidas de Simetria...
 Medidas de Curtose...
 ...
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Medidas de Tendência Central:
– Média: somam-se os N valores e divide-se por N;
– Mediana: valor abaixo do qual se encontra metade das
observações;
– Moda: valor (ou intervalo de valores) mais freqüente.
– Exemplo: altura de indivíduos do gênero masculino (cm)
173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
N
Média: x 
1
N  xi  3540 / 20  177 cm
i 1

Mediana: 163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193
xm= (176+177)/2 = 176,5 cm

Modas: 175 e 177 cm


Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 O que a média equilibra?
– A soma de todos os desvios (diferença) em relação à
N

média (  x  x ) é sempre nula!


i
i 1

– Demonstração:  ( x  x )    x   x    x   x
N N N N N N
1 1
i i N i i N i
i 1   i 1 i 1 i 1 i 1 i 1
N N N N
  xi  1
N N  xi   xi   xi  0
i 1 i 1 i 1 i 1

– Ou seja, a média equilibra os desvios...


 Exemplo:
173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
-4 -14 0 1 -10 9 9 -1 2 0 -2 5 -6 16 -2 0 8 -1 -2 -8
Somatório acumulado:
-4 -18 -18 -17 -27 -18 -9 -10 -8 -8 -10 -5 -11 5 3 3 11 10 8 0
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Além de a soma dos desvios em relação à média
ser sempre nula, a média é a referência que
minimiza a soma dos desvios quadráticos (S.D.Q.).
– Demonstração - busca do parâmetro a que minimiza o S.D.Q.:

d  ( xi  a ) 2 d ( xi  a ) 2 d ( xi2  2axi  a 2 )
0  0
da da da
 (2 xi  2a)  0   ( xi  a)  0   a   xi
N N N N

Na   xi  a  1
N  xi  x
N N

 Exemplo:
173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
– Soma dos desvios quadráticos com relação à média (177): 938
– Soma dos desvios quadráticos com relação a 176: 958
– Soma dos desvios quadráticos com relação a 178: 958
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Medidas de Dispersão ou Variabilidade:
– Desvio Absoluto Médio: valor médio da distância dos
indivíduos com relação à média;
– Variância e desvio padrão;

173 163 177 178 167 186 186 176 179 177 175 182 171 193 175 177 185 176 175 169
-4 -14 0 1 -10 9 9 -1 2 0 -2 5 -6 16 -2 0 8 -1 -2 -8
N

Desvio Absoluto Médio DAM  1


N  xi  x  100 / 20  5 cm
i 1
N
N 2 
  xi  x    xi  Nx 2   938 / 19  49,368 cm 2
2
Variância s 
2
x
1
N 1
 1
N 1
i 1  i 1 
Desvio-Padrão s x  s x2  7,026 cm
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Estimador não-tendencioso da Variância:
s 
2
x
1
N 1
N
  xi  x 
2
 1
N 1
N 2 
  x i  Nx 2  Por que N-1???
i 1  i 1 

– Resposta: para que a esperança matemática deste


estimador seja a variância real 2.
N 2 
  xi  Nx 2    ( xi2 )  N( x 2 )  N( xi2 )  N( x 2 ) 
 i 1 
  
N ( xi2 )  ( x 2 )  N Var ( x)  ( x) 2  Var ( x )  ( x ) 2  
N  2
  2  N1  2   2  N  N 1
N
 2  ( N  1)  2

– Como x minimiza o S.D.Q., se dividíssemos por N, o


estimador tenderia a subestimar a variância.
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Medidas de Dispersão ou Variabilidade (cont.):
– Percentis: o percentil de P% é o valor abaixo do qual
se encontram P% dos indivíduos:
– 10% - 90%
– 25% - 75%  Primeiro e Terceiro Quartis (Q1 e Q3)
– Distância Interquartil = Q3-Q1
163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
4,75 9,5 14,25
Q1=174,5 cm xm=176,5 cm Q3=179,75 cm

DI = 179,75-174,5 = 5,25 cm
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
 Tabelas e Gráficos:
163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193

Intervalo (cm) Freq. Abs. – Ogiva


163,0 | 170,5 3
170,5 | 178,0 10
178,0 | 185,5 4
185,5 || 193,0 3

– Histograma
Tabelas, Gráficos e Medidas
Descritivas - Var. Quantitativa
Mais Gráficos:
163 167 169 171 173 175 175 175 176 176 177 177 177 178 179 182 185 186 186 193 (cm)
(Q1 = 174,5; xm = 176,5; Q3 = 179,75 cm) ( x = 177,0; sx = 7,026 cm)

Box-plot Média e DP
195,5 cm

Q3+3,0.DI 187,625 cm

Q3+1,5.DI

Q1-1,5.DI

Q1-3,0.DI 166,625 cm

158,75 cm

1,5.DI = 7,875 cm
3,0.DI = 15,75 cm
Box-Plot com Variáveis
Gaussianas
Introdução à Probabilidade
 Conceitos Fundamentais:
– Espaço Amostral (E): é o conjunto de todos valores
possíveis que uma variável aleatória pode assumir.
 Ex.:
– Lançamento de um dado  E = {1;2;3;4;5;6}
– Pressão sistólica  E = [60;320] mmHg
– Evento Probabilístico ou Aleatório: é qualquer sub-
conjunto de E, e que traga um significado conceitual
dentro do fenômeno estudado.
 Ex.:
– Lançamento de um dado  A = {1;2} (números em que eu apostei...)
– Pressão sistólica  A = [110;130] mmHg (pressão normal...)
Introdução à Probabilidade
 Conceitos Fundamentais:
– Relação entre Probabilidade e Proporção:
 Qual a probabilidade de sair o número 3 no lançamento de um

dado de 6 faces?
– Dado honesto: p(3) = 1/6;
– Nada se sabe sobre a estrutura do dado:
• Lançamos um número muito grande de vezes e estimamos a
probabilidade pela proporção de vezes que saiu o número 3
N
pˆ (3)  3
NT
onde N3 é o número de vezes que resultou o número 3 e NT é o
número total de lançamentos.
N3
– Definição: p (3)  lim N T 
NT
Introdução à Probabilidade
 Propriedades:
– Seja A um evento probabilístico:
1. 0  p(A)  1 E
p(A) = 0  A é impossível 1 2
0 < p(A) < 1
p(A) = 1  A é certo de acontecer
A
3 4
Ex.: p(A) = 2/6 = 1/3
5 6
2. p( A )  1  p( A)
p( A)  4 / 6  2 / 3  1  1 / 3
Conjunto complemento  Lógica “Não”
3. p(E) = 1  p({ }) = 0,
onde {} =  (conjunto vazio)
Introdução à Probabilidade
Sejam A e B dois eventos...
Excludência Probabilística: dois eventos são excludentes entre si (ou
mutuamente excludentes) se a ocorrência de um EXCLUI a
possibilidade de o outro ocorrer.
4. p(A  B) = p(A) + p(B)
se A e B são excludentes;
p(A  B) = p(A) + p(B) – p(A ∩ B) E
caso contrário (caso geral); 1 2
AA 3
344
BB
Conjunto União  Lógica “Ou” 55 66
Conjunto Interseção  Lógica “&”
Introdução à Probabilidade
Independência Probabilística: dois eventos são independentes
entre si se o conhecimento sobre a ocorrência de um
deles não traz qualquer informação sobre a probabilidade
de o outro ocorrer, ou seja, a ocorrência de um não
depende da ocorrência do outro.
5. p(A ∩ B) = p(A) · p(B)
se A e B são independentes;

p(A ∩ B) = p(A) · p(B | A)


caso contrário (caso geral);
p(B | A) é a probabilidade condicional: lê-se “probabilidade de B
dado A”.
Introdução à Probabilidade
 Se A e B são independentes: p(A ∩ B) = p(A) · p(B), uma vez que
p(B) = p(B | A)
 Exemplo: Lançamento de dois dados; qual a probabilidade de resultar
3 no 1o. dado (A) e 5 no 2o. dado (B)?

1-1 2-1 3-1 4-1 5-1 6-1


1-2 2-2 3-2 4-2 5-2 6-2
E 1-3 2-3 3-3 4-3 5-3 6-3
1-4 2-4 A 3-4 4-4 5-4 6-4
1-5 2-5 3-5 4-5 5-5 6-5
B
1-6 2-6 3-6 4-6 5-6 6-6

p(A) = 6/36 =1/6 p(B | A) = 1/6


p(B) = 6/36 = 1/6 p(A ∩ B) = 1/36
Introdução à Probabilidade
 Se A e B são dependentes: p(A ∩ B) = p(A) · p(B | A),
 Exemplo: Sorteio de duas bolas de um globo com 6 bolas sem
reposição; qual a probabilidade de resultar 3 na 1a. bola (A) e 5 na
2a. bola (B)?
2-1 3-1 4-1 5-1 6-1
1-2 3-2 4-2 5-2 6-2
E 1-3 2-3 4-3 5-3 6-3
1-4 2-4 A 3-4 5-4 6-4
B 1-5 2-5 3-5 4-5 6-5
1-6 2-6 3-6 4-6 5-6 .

p(A) = 5/30 = 1/6 p(B | A) = 1/5


p(B) = 5/30 = 1/6 p(A ∩ B) = 1/30
Introdução à Probabilidade
Exemplo: O = ser obeso; C = ter cardiopatia.
p(O) = 0,1; p(C) = 0,2.

p(O O)
CeO |C C| OeC
p(
Teorema de Bayes

)
p(O ∩ C) = p(O) · p(C | O) = p(C) · p(O | C) = p(C ∩ O)
p(A ∩ B) = p(A) · p(B | A) = p(B) · p(A | B) = p(B ∩ A)

30.000
p(B | A) = p(B) · p(A | B)

30.000
p(A)

Cardio. Obesos
100.000

p(

)
200.000

p(O
C)
C e NO O e NC
170.000 70.000
População
1.000.000

NC e O NO e C
70.000 Não Obesos 170.000
Não Cardio.
800.000 900.000
NO e NC
NC e NO
730.000
730.000
Distribuições de Probabilidade
 São modelos probabilísticos que descrevem alguns
comportamentos “padrões” de fenômenos aleatórios.
Costuma-se “eleger” o modelo que seja mais adequado
ao fenômeno analisado.

A. Variáveis Discretas:
1. Distribuição Uniforme (Valores equiprováveis)
 Ex.: Lançamento de um dado de 6 faces
– p(1) = 1/6;
– p(2) = 1/6;
– p(3) = 1/6;
– p(4) = 1/6;
– p(5) = 1/6;
– p(6) = 1/6.
Distribuições de Probabilidade
2. Distribuição Triangular
 Ex.: Lançamento de dois dado de 6 faces  Resultado = soma das faces
E Resultados p _
2 1+1 1/36
3 1+2, 2+1 2/36
4 1+3, 2+2, 3+1 3/36
5 1+4, 2+3, 3+2, 4+1 4/36
6 1+5, 2+4, 3+3, 4+2, 5+1 5/36
7 1+6, 2+5, 3+4, 4+3, 5+2, 6+1 6/36 = 1/6
8 2+6, 3+5, 4+4, 5+3, 6+2 5/36
9 3+6, 4+5, 5+4, 6+3 4/36
10 4+6, 5+5, 6+4 3/36
11 5+6, 6+5 2/36
12 6+6 1/36
Distribuições de Probabilidade
3. Distribuição Binomial
 Seja uma população de tamanho “infinitamente” grande, na qual a
proporção de indivíduos com uma dada característica vale P. Qual a
probabilidade de, em uma amostra de N indivíduos selecionados
aleatoriamente desta população, k terem a tal característica?
– Ex.: P(C) = 0,1 ; N = 3 (C = canhotos; D = não canhotos )  P(D) = 0,9
E Indivíduos X, Y e Z p _
0 DDD 0,9 3 = 0,729
1 CDD, DCD, DDC 3  0,1  0,9 2 = 0,243
2 DCC, CDC, CCD 3  0,1 2  0,9 = 0,027
3 CCC 0,1 3 = 0,001

p(k )   P
N
k
k
 (1  P ) N k
Distribuições de Probabilidade
4. Distribuição de Poisson
 Seja um evento que se repete a uma taxa média de  vezes por unidade
de tempo (UT). Qual a probabilidade de, em um determinado período de
1 UT, este evento ocorrer k vezes?
– Ex.:  = 1 e  = 4


e  k
p(k ) 
k!
Distribuições de Probabilidade
B. Variáveis Contínuas:
1. Distribuição Uniforme
 Ex.: Ângulo de parada de um disco: E = [0, 360)
– Qual a probabilidade do ângulo 200? É a altura do gráfico?  NÃO.
– Qual a probabilidade de o ângulo estar entre 0 e 360?  100%.
– A área abaixo do gráfico vale 100% por definição.
– Só tem sentido falar de probabilidade para intervalos!
– Logo, o eixo vertical refere-se à Função Densidade de Probabilidade (pdf).
Distribuições de Probabilidade
2. Distribuição Gaussiana
 Teorema do Limite Central (TLC) [quem é central é o limite, e não o teorema!]
 Ex.: Altura da população masculina adulta ( = 175,7 cm e  = 7,3 cm)

 x  2
1 
pdf ( x)  e 2 2

2 

68,27%

95,45%

Distribuições de Probabilidade
3. Distribuição Qui-Quadrada
 Resultante da soma de K variáveis gaussianas e independentes elevadas
ao quadrado: K é o número de graus de liberdade;
 Ex.: Grandezas quadráticas por natureza, p.ex. Potência.
Ilustração do TLC
1. Soma de dados de 6 faces:

2. Binomial aumentando-se o N:
Ilustração do TLC
3. Poisson aumentando-se :

4. Qui-quadrada aumentando-se o número de graus de liberdade:


Inferência Estatística
 A partir de informações imprecisas, procura-se ter o melhor
conhecimento possível sobre a medida exata; ou...
 A partir de uma amostra, procura-se atingir conclusões sobre a
população.

1. Como é a população de onde


a amostra analisada se origina? Estimadores Estatísticos

2. A amostra analisada origina-se


de uma determinada população
conhecida?
Testes de Hipótese
3. Duas ou mais amostras podem ser
consideradas originárias de uma
mesma população?
Estimadores Estatísticos
 Muitas vezes, desejamos estimar uma dada característica de
uma população de interesse com base em uma amostra da
mesma, composta por N indivíduos.
 Seja uma característica populacional (“verdadeira”) denotada por um
parâmetro Q.
 Esta mesma característica, se extraída com base na amostra, representa
tão somente uma estimativa de Q, denotada por Q̂ .
 Qual a confiabilidade / utilidade deste valor Q̂ isolado?
 Como se estabelecer uma forma de inferência (i.e. entendimento sobre a
população) a partir deste valor?
– Em torno deste valor estimado, estabelece-se um intervalo que possua
elevada probabilidade de englobar o verdadeiro Q  Intervalo de
Confiança.
 Intervalo de confiança de 95% (IC95%): intervalo que possui 95% de
probabilidade de incluir o verdadeiro valor do parâmetro estudado.
 
p Qˆ   Neg  Q  Qˆ   Pos  0,95
Exemplo: Estimador da Média
 Média populacional (valor “verdadeiro”): 
 Média amostral (estimativa de ): x
 Para se obter o IC95%, primeiro, precisamos entender qual seria
a distribuição de todas possíveis estimativas de média caso
conhecêssemos a população:
 desta população, poder-se-iam selecionar muitas amostras de N
indivíduos cada;
 cada amostra terá a sua média, sendo que cada uma destas médias é uma
estimativa de ;
 qual a média de todas estas estimativas de  (qual o valor esperado das
estimativas de média)?  
 mas algumas amostras terão sua média amostral abaixo de , enquanto
outras terão acima de .  as estimativas possuem variabilidade;
 medida de variabilidade  desvio padrão...
 desvio padrão da estimativa de média  Erro-Padrão da média: EP(x )
x
EP( x )  , onde  x é o desvio padrão da população
N
Exemplo: Estimador da Média
 Com base nesse conhecimento, se considerarmos que a variável
analisada é gaussiana, as estimativas de média também serão
gaussianas;
 mesmo se a variável não for gaussiana, caso N seja suficientemente
grande (N  30), a distribuição das estimativas de média se aproxima de
uma gaussiana (TLC).
 Assim sendo, pode-se dizer que 95% de todas as amostras
possíveis desta população terão média dentro do intervalo
seguinte:   1,96  EP( x )  x    1,96  EP( x ) , ou seja um
intervalo para x com base em .
 Mas queremos justamente o contrário: um intervalo para o
valor de  com base em x !
 Caso conhecêssemos o verdadeiro Erro-Padrão da média, o
caminho inverso seria análogo:
x  1,96  EP( x )    x  1,96  EP ( x )
Exemplo: Estimador da Média
 Contudo, não conhecemos o verdadeiro Erro-Padrão, uma vez
que ele depende do desvio-padrão da variável analisada na
população (x)! Mas podemos estimar também este desvio
padrão com base na amostra:
 Amostra x : estimativa da média populacional ;
sx : estimativa do desvio padrão populacional x.
sx ^
 Usando-se sx, podemos estimar o Erro-Padrão: EP ( x ) 
N

mas isto acarreta um aumento na incerteza sobre o .


 Aumento de incerteza  alargamento do intervalo de confiança.
 Distribuição t de Student: incorpora a incerteza sobre o desvio-
padrão (parece com a gaussiana, mas é mais larga)
^ ^
x t *
gl ; 95%  EP ( x )    x  t *
gl ;95%  EP ( x )
 onde t* é o valor crítico e gl é o número de graus de liberdade (N-1).

Exemplo: Estimador da Média
Altura de mulheres adultas (cm).

 N = 38  gl = 37


= 161,84 cm
sx = 7,25 cm 158 162 158
 = 1,177 cm

164 154
Intervalo de Confiança de 95%:
160
153 155 173
162 163 157
154 165 162
168 165 164
173 168 169
156 154 175
160 156 179
162 167 155
165 172 154
151 172 151
158 156  

^
EP( x )

161,84  2,0262 1,177    161,84  2,0262 1,177


159,46 cm    164,23 cm
Distribuição t de Student
p(tgl≤T)
gl 0,600 0,750 0,900 0,950 0,975 0,990 0,995 0,9995
1 0,325 1,000 3,078 6,314 12,706 31,821 63,657 636,619
2 0,289 0,816 1,886 2,920 4,303 6,965 9,925 31,598
3 0,277 0,765 1,638 2,353 3,182 4,541 5,841 12,924
4 0,271 0,741 1,533 2,132 2,776 3,747 4,604 8,610
5 0,267 0,727 1,476 2,015 2,571 3,365 4,032 6,869
6 0,265 0,718 1,440 1,943 2,447 3,143 3,707 5,959
7 0,263 0,711 1,415 1,895 2,365 2,998 3,499 5,408
8 0,262 0,706 1,397 1,860 2,306 2,896 3,355 5,041
9 0,261 0,703 1,383 1,833 2,262 2,821 3,250 4,781
10 0,260 0,700 1,372 1,812 2,228 2,764 3,169 4,587
11 0,260 0,697 1,363 1,796 2,201 2,718 3,106 4,437
12 0,259 0,695 1,356 1,782 2,179 2,681 3,055 4,318
13 0,259 0,694 1,350 1,771 2,160 2,650 3,012 4,221
14 0,258 0,692 1,345 1,761 2,145 2,624 2,977 4,140
15 0,258 0,691 1,341 1,753 2,131 2,602 2,947 4,073
16 0,258 0,690 1,337 1,746 2,120 2,583 2,921 4,015
17 0,257 0,689 1,333 1,740 2,110 2,567 2,898 3,965
18 0,257 0,688 1,330 1,734 2,101 2,552 2,878 3,922
19 0,257 0,688 1,328 1,729 2,093 2,539 2,861 3,883
20 0,257 0,687 1,325 1,725 2,086 2,528 2,845 3,850
21 0,257 0,686 1,323 1,721 2,080 2,518 2,831 3,819
22 0,256 0,686 1,321 1,717 2,074 2,508 2,819 3,792
23 0,256 0,685 1,319 1,714 2,069 2,500 2,807 3,768
24 0,256 0,685 1,318 1,711 2,064 2,492 2,797 3,745
25 0,256 0,684 1,316 1,708 2,060 2,485 2,787 3,725
26 0,256 0,684 1,315 1,706 2,056 2,479 2,779 3,707
27 0,256 0,684 1,314 1,703 2,052 2,473 2,771 3,689
28 0,256 0,683 1,313 1,701 2,048 2,467 2,763 3,674
29 0,256 0,683 1,311 1,699 2,045 2,462 2,756 3,660
30 0,256 0,683 1,310 1,697 2,042 2,457 2,750 3,646
40 0,255 0,681 1,303 1,684 2,021 2,423 2,704 3,551
60 0,254 0,679 1,296 1,671 2,000 2,390 2,660 3,460
120 0,254 0,677 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,253 0,674 1,282 1,645 1,960 2,326 2,576 3,291
Testes de Hipótese
 Comparação entre uma amostra e uma população conhecida ou
entre duas ou mais amostras.
 Hipótese Nula (H0): é a hipótese estatisticamente mais simples,
envolvendo igualdade estatística, sendo presumida como
verdadeira pelo tratamento matemático.
 Igualdade estatística:
1. A amostra analisada pode ser considerada originária de uma população
conhecida (A= 0);
2. As amostras analisadas podem ser consideradas originárias de uma mesma
população (A= B= ).
 Não confundir H0 com a hipótese teórica do estudo!!!
 Ex.: comparação entre médias de 2 amostras  H0 implica que a diferença
esperada entre as médias é 0, portanto é fácil de ser modelado.
 x A  xB   0
 Hipótese Alternativa (HA): é a hipótese contrária a H0, ou seja,
desigualdade estatística.
 Ex.: comparação entre médias de 2 amostras   x  x   ???
A B
Testes de Hipótese
Verdade H0 HA
Indicação
do Teste
H0 Acerto Erro Tipo 2
β

HA Erro Tipo 1 Acerto


Nível de Poder de Teste
significância (α) (1- β)
 Nível de significância: maior probabilidade que se permite de
cometer o Erro Tipo 1 (arbitrário – valores comuns: 5%, 1%).
 β: maior probabilidade que se permite de cometer o Erro Tipo 2
(arbitrário – valores comuns: 20%, 30%).
Testes de Hipótese
 Meta: conseguir que tanto α quanto β sejam suficientemente pequenos
 Valores comuns:
 α: 5%, 1% (quanto menor, mais estringente é o teste);
 β: 20%, 30% (quanto menor, mais poderoso é o teste).
 Maior permissividade com β: é mais difícil lidar com o Erro Tipo 2 que com o
Erro Tipo 1
– A distribuição de HA é estipulada pelo que teoricamente seria o pior caso possível
explicável (menor diferença entre duas populações distintas que faria sentido pela
teoria).
 Exemplo: diferença entre médias:

β
α/2
/2 /2

Aceita-se H 0
Testes de Hipótese
 Compromisso entre α e β:
 Sem se alterarem as curvas de H0 e HA (mesmos dados):
 Redução de α: aumenta-se k (alarga-se o intervalo de aceitação de H0);
 Neste caso, facilita-se a aceitação de H0 (mesmo se ela for falsa);
 Isto equivale a aumentar a área verde (β).
 Vice-versa, caso se reduza β...
 Para se ter α e β arbitrariamente pequenos:
 Deve-se estreitar as curvas  N deve ser suficientemente grande!

β
α/2
/2 /2

Aceita-se H 0
Testes de Hipótese
 Lateralidade do Teste:
 Alguns testes permitem a escolha entre várias opções de H A;
 Por exemplo: comparação entre médias
  A   B   x A  xB   0 ou  x A  xB   0  Teste Bilateral ou Bicaudal;
  A   B   x A  x B   0 ;
Teste Unilateral ou Unicaudal
  A   B   x A  x B   0 .
 Utiliza-se um teste unilateral quando, pela teoria, não se espera ou não é
justificável que haja diferença verdadeira em um dos “lados da
desigualdade”.

α/2 α/2
Testes de Hipótese
 Comparações com base em variáveis categóricas:
 Usualmente, usam-se testes que comparam proporções, tais
como o Teste Qui-Quadrado e o Exato de Fisher.

 Comparações com base em variáveis quantitativas:


 Mais comuns: testes que comparam médias, tais como o
teste-t e ANOVA (Análise de Variância);
 Em alguns casos, é mais adequado o uso de testes que
comparam medianas, tais como Testes de Mann-Witney,
Wilcoxon e Kruskal-Wallis (testes não-paramétricos);
 Outros parâmetros descritivos podem ser também
comparados, tais como a variância (Testes de Fisher e de
Bartlett).
Teste t de Student para Amostras
Independentes
 Comparação entre médias de 2 grupos.
 H0: igualdade entre médias (ambos grupos são amostras de uma
mesma população gaussiana).
 Condições para poder ser usado:
 Os indivíduos que compõem cada grupo devem ser independentes entre si
(independência intragrupo);
 Os indivíduos de um grupo devem ser independentes dos indivíduos do
outro grupo (independência intergrupo);
 Os dados dos dois grupos devem ter distribuição gaussiana  testes de
aderência;
 Os dados dos dois grupos devem ter mesma variabilidade (desvios-padrões /
variâncias estatisticamente iguais)  testes de homocedasticidade.
NA NB
 Grupo A: xA Grupo B: xB , onde sA  sB
sA sB
Teste t de Student para Amostras Independentes
 Parâmetro T: reflete o quão diferentes são as duas médias
x A  xB x A  xB
T ^

EP x A  xB   1
s 
2

1 

P
 N A NB 
onde
( N  1) s 2
 ( N  1) s 2
sP2  A A B B
N A  NB  2
 Sob a hipótese nula, o parâmetro T segue uma distribuição t de
Student com NA+NB-2 graus de liberdade:
T ~ t N A  N B 2
 Rejeita-se H0 se a diferença for significativamente grande, i.e.
 Teste bilateral:
T  t* / 2; N A  N B  2 ou T  t1* / 2; N A  N B  2
 Teste unilateral positivo:
T  t1* ; N A  N B  2
 Teste unilateral negativo:
T  t* ; N A  N B  2
Teste t de Student para Amostras Independentes
 Exemplo: Comparação de alturas entre homens e mulheres
 Homens (cm):
174 170 175 177 172 182 166 178 189 185 174 185 190
173 164 185 174 173 170 182 170 179 170 184 175
 Mulheres (cm):
169 157 161 168 159 179 178 168 152 162 170 170 163 169
160 163 163 155 165 159 162 167 161 160 180 168 175 163

N H  25 N M  28 s P2  49,15 cm 2
x H  176,54 cm x M  165,21 cm
176,54  165,21
s H  7,02 cm s M  7,00 cm T  5,92
 1 1 
49,15  
 25 28 

t*0,95; 51 = 1,6753 valor-p = 0,000000135


ou
T > t*  Rejeita-se H0 valor-p <<   Rejeita-se H0
Teste t de Student para Amostras Independentes
 Por exemplo, para teste bilateral...
 Caso 1: T fora do intervalo de H0 (rejeita-se H0)

valor-p < 

 Caso 2: T dentro do intervalo de H0 (aceita-se H0)

valor-p > 

 Valor-p: probabilidade de ocorrer uma diferença entre médias tão grande


quanto ou maior que T mesmo H0 sendo verdadeiro  probabilidade de se
errar caso se rejeite H0  probabilidade de se cometer o Erro Tipo 1.
Teste t de Student para
Amostras Pareadas
 Comparação entre médias de 2 grupos em que há vinculação
biunívoca entre indivíduos dos dois grupos.
 H0: igualdade entre médias (ambos grupos são amostras de uma
mesma população gaussiana).
 Condições para poder ser usado:
 Os indivíduos que compõem cada grupo devem ser independentes entre
si (independência intragrupo);
 Cada indivíduo de um grupo deve ser vinculado a um indivíduo do outro
grupo, formando um par (pareamento): NA = NB = N;
 Os grupos devem apresentar distribuição gaussiana (matematicamente,
basta que as diferenças por pares tenham distribuição gaussiana);
 Os dados dos dois grupos devem ter mesma variabilidade (desvios-
padrões estatisticamente iguais).
Teste t de Student para Amostras Pareadas
 Como resolver a questão do pareamento, que torna os grupos
interdependentes?
 P. ex., efeitos aditivos com autopareamento:
 xA1 = K1 + eA1
xA1 – xB1 = eA1 – eB1, e a parcela comum desaparece
 xB1 = K1 + eB1

Grupo A Grupo B Diferença

xA1 xB1 D1 = xA1 – xB1


N
xA2 xB2 D2 = xA2 – xB2 D
   sD
xAN xBN DN = xAN – xBN
Teste t de Student para Amostras Pareadas
 Parâmetro T: reflete, em média, o quão diferentes são os pares
x A  xB x A  xB D D
T   
  EP D 
^ ^ ^
EP x A  xB  EP x A  xB sD2
N
Sob a hipótese nula, o parâmetro T segue uma distribuição t de Student
com N - 1 graus de liberdade:
T ~ t N 1
 Rejeita-se H0 se a diferença for significativamente grande, i.e.
 Teste bilateral:
T  t* / 2; N 1 ou T  t1* / 2; N 1
 Teste unilateral positivo:
T  t1* ; N 1
 Teste unilateral negativo:
T  t* ; N 1
 ou se valor-p < 
ANOVA: Análise de Variância
 Comparação entre médias de mais de 2 grupos.
 H0: igualdade entre médias (todos grupos são amostras
de uma mesma população gaussiana).
 Condições para poder ser usado:
 Os indivíduos que compõem cada grupo devem ser
independentes entre si (independência intragrupo);
 Os indivíduos de cada grupo devem ser independentes dos
indivíduos dos outros grupo (independência intergrupo);
 Os dados de todos grupos devem ter distribuição gaussiana;
 Os dados de todos grupos devem ter mesma variabilidade 
homocedasticidade.
ANOVA
 Baseia-se na comparação (razão) entre variâncias “entre grupos” e
“intragrupos”:
 Ng = número de grupos; Ni = número de indivíduos no i-ésimo grupo;
N = número total de indivíduos.
 glE = Ng – 1; glI = N – Ng;
 H0: a razão entre estas variâncias (f) é 1 (variâncias são iguais, uma vez que as
médias são iguais e todos grupos são amostra de uma mesma população)  f ~ F
glE, glI; rejeita-se H0 se f > Fcrit.

 Parâmetros calculados:
Grande média:
x

X GM 
N
 Variação total:
SST    x  X GM 
2

 Variação entre grupos:


SS E   N i  xi  X GM 
2

 Variação intragrupos: i

SS I   ( N i  1) si2
i
ANOVA
SS gl MS f

Entre SSE Ng-1 SSE MSE


Ng-1 MSI
Intra SSI N-Ng SSI
N-Ng
Total SSE+ SSI N-1
 Caso haja diferença significativa (f > Fcrit), faz-se uso de testes post
hoc (p.ex. Tukey e Scheffé) para identificar entre quais grupos há
diferença.
Testes Não-Paramétricos
 Os testes vistos até agora baseavam-se em pressuposições
acerca da distribuição de probabilidade dos dados  Testes
Paramétricos.
 Quando tais pressuposições não são atendidas, pode-se
lançar mão de Testes Não-Paramétricos, que não requerem
uma distribuição específica.
 Grande parte dos Testes Não-Paramétricos baseiam-se na
ordenação (ranqueamento) dos dados (estatística ordinal),
podendo também ser usados em dados categóricos ordinais.
 Desvantagem: em casos onde um teste paramétrico fosse
adequado, o uso de um teste não-paramétrico traria um
menos poder de teste.
Testes Não-Paramétricos
 Exemplos de testes não paramétricos análogos aos vistos até agora:

Paramétrico Não-Paramétrico
Teste t para amostras Mann-Witney
independentes
Teste t para amostras Wilcoxon
pareadas
ANOVA
– Paramétricos: médias
Kruskal-Wallis
– Não-Paramétricos: medianas
 Embora não requeiram uma distribuição específica, estes testes não-
paramétricos, sob a hipótese nula, pressupõem que as amostras
possuam mesma distribuição.
Teste Qui-Quadrado
 Comparação entre proporções de indivíduos classificados de
acordo uma variável categórica em dois ou mais grupos.
 H0: igualdade entre proporções (todos grupos são amostras de
uma mesma população).
 Exemplo: comparação entre dois grupos considerando-se uma
variável categórica dicotômica  Tabela de Contingência 22
Variável Sim Não Total
Grupo
1 a b N1 = a + b

2 c d N2 = c + d

Total NS = a + c NN = b + d N=a+b+c+d
Teste Qui-Quadrado
Variável Sim Não Total
Grupo
1 a b N1
2 c d N2
Total NS NN N

 Sob H0, as proporções seria iguais entre os grupos; logo, seriam iguais à
proporção no total. Portanto, os valores esperados seriam:
N ~ N N ~ N
a~  S N1 , b  N N1 , c~  S N 2 , d  N N 2
N N N N

e uma medida de o quanto os valores observados diferem dos esperados seria:

X2 
~ 2

~
~2
~ 2

~
~
a  a   b  b  c  c   d  d   2

~
a b ~
c d
Teste Qui-Quadrado
 Simplificando, temos:
N  ad  bc 
2
X 
2

N1  N 2  N S  N N

 Sob H0, X2 segue aproximadamente uma distribuição qui-quadrada com 1


grau de liberdade: X2 ~ 21. Assim, rejeita-se H0 caso X2 > 2crit.
 Yates propôs uma modificação para que o parâmetro X2 se aproxime mais
de uma distribuição qui-quadrada (correção de continuidade):
N  ad  bc   2
N
2
X 
2

N1  N 2  N S  N N
 Caso o N seja menor que 20 ou se alguma das células da tabela de
contingência tiver valor menor que 5, o Teste Qui-quadrado não deve ser
utilizado, devendo-se optar pelo Teste Exato de Fisher.
Teste Qui-Quadrado
 Exemplo: comparação da proporção de óbitos em dois grupos que
receberam dois tratamentos diferentes:

Óbito Sim Não Total


Tratamento
1 41 216 257
2 64 180 244
Total 105 396 501

 Sem correção de Yates: X2 = 7,979


 Com correção de Yates: X2 = 7,371
 Valor crítico para distribuição qui-quadrada com 1 grau de liberdade e  =
5%: 3,8415  rejeita-se H0 e infere-se que o tratamento 1 é mais eficiente
que o 2.
Teste Qui-Quadrado de McNemar
 Comparação entre proporções de indivíduos classificados de
acordo uma variável categórica em dois grupos pareados.
 H0: igualdade entre proporções (os grupos são amostras de uma
mesma população).
 Exemplo: comparação entre dois tratamentos aplicados a mesmos
indivíduos (cada indivíduo responde por um par de resultados)
Tratamento B Sucesso Fracasso
Tratamento A
Sucesso k r

Fracasso s l

 k e l representam os pares em que houve concordância de resultados com


os dois tratamentos; r e s, os pares em que houve discordância.
Teste Qui-Quadrado de McNemar
Tratamento B Sucesso Fracasso
Tratamento A
Sucesso k r

Fracasso s l

 Sob H0: r e s são fruto do acaso, esperando-se que sejam semelhantes (metade
de todas discordâncias em cada). Assim, usando-se a correção de
continuidade, temos:

X 2

 r rs
2  1
2
  s
2
rs
2  1
2
 2


 r  s  1
2

McN rs
2
rs
2
rs
sendo que X2McN segue aproximadamente uma distribuição qui-quadrada com 1
grau de liberdade: X2McN ~ 21. Assim, rejeita-se H0 caso X2 > 2crit.
Regressão Linear e Correlação
 Em vários fenômenos, parte da variação de uma das variáveis (dependente)
pode ser explicada pela variação de outra(s) variável(is) (independentes).
Deste modo, busca-se obter uma função matemática que melhor associe a
variação entre estas variáveis: a mais comum é a função linear.
 Sejam duas variáveis, uma tida como independente (x) e outra como
dependente (y), tal como ilustrado no exemplo abaixo:

 Podemos enxergar que, além de uma componente aleatória, uma parte da


variação de y pode ser explicada linearmente pela variação em x:
yi  ei  ~
yi  ei  a  xi  b
 Procuram-se os valores de a e b que melhor explicam y a partir de x, ou seja,
~
que minimizam o desvio quadrático entre y e y : método dos mínimos
quadrados.
Regressão Linear e Correlação
 Aplicando-se o método dos mínimos quadrados, obtém-se:
N N

   x  x  y i i  y  x y i i N xy
a i 1
N
 i 1
N b  y ax

 ix  x  2
 i
x 2
 N  x 2

i 1 i 1

 b é o coeficiente linear (ponto em que a reta cruza o eixo vertical);


 a é o coeficiente angular: se a > 0, a reta tende a subir (quanto maior x,
maior y); se a < 0, a reta tende a descer (quanto maior x, menor y); se a é
próximo de 0, indica que y e x não são relacionados entre si.
 Contudo, o valor de a só apenas indica a angulação da reta, mas não
especifica o quanto da variação total de y depende da variação de x 
Coeficiente de Correlação (Linear) de Pearson (entre -1 e 1):
N N

   x  x  y
i i  y  x y i i Nxy
r i 1
 i 1
N N
 N 2 2 
N
2
 x  x  y
i
2
i  y
2
  xi  N  x   yi  N  y 
2

i 1 i 1  i 1  i 1 
Regressão Linear e Correlação
 Exemplo: relação entre idade e nível de colesterol...

 a = 4,75 mg/dl/ano (coeficiente angular)


 b = 132,5 mg/dl (coeficiente linear)
 r = 0,7914 (coeficiente de correlação de Pearson)
 r2 = 0,6263 (coeficiente de determinação – percentual da variância de y
explicada pela regressão)
Regressão Linear e Correlação
 Considerações:
 Em geral, estima-se o intervalo de confiança para os
verdadeiros coeficientes angular, linear e de correlação com
base nos valores estimados a, b e r.
 Alternativamente, pode-se obter o valor-p para a hipótese
nula de que  = 0 (a verdadeira correlação populacional seja
nula), ou seja, de que não há correlação linear entre x e y.
 Se x e y são independentes entre si, necessariamente não há
correlação entre eles. Contudo, se não há correlação entre x
e y, não necessariamente eles são independentes.
 Ou seja, o fato de não haver correlação linear não implica que não
haja outro tipo de correlação (não-linear), a não ser se x e y forem
gaussianos!!!
 Isto significa que, se x e y apresentam distribuição gaussiana, caso
haja correlação entre eles, esta correlação só pode ser linear.
Regressão Linear e Correlação
 Considerações (cont.):
 Caso a relação entre x e y seja melhor descrita por uma função
matemática não-linear, nem sempre o coeficiente de correlação de
Pearson será capaz de indicar esta relação.

 a = -0,125 mg/dl/ano
 b = 304,5 mg/dl
 r = -0,04
 r2 = 0,0016
Conceitos Básicos de Testes
Diagnósticos
 A qualidade de um teste diagnóstico refere-se à sua capacidade de refletir o
verdadeiro status da doença em um indivíduo (doente [D] ou não-doente [ND]).
 Portanto, para se avaliar um teste diagnóstico, deve-se conhecer o verdadeiro
status de um número suficientemente grande de indivíduos (tanto doentes quanto
não doentes) por meio de outro método diagnóstico altamente confiável (padrão-
ouro) e aplicar o teste nestes indivíduos:

Padrão-Ouro D ND Total
Teste
+ VP FP T+
- FN VN T-
 VP = Número de Verdadeiros Positivos; VN = Número de Verdadeiros Negativos;
 Total T
FP = Número de Falsos Positivos; FN = Número de Falsos Negativos;
D T
ND N
 TD = Número Total de Doentes; TND = Número Total de Não Doentes;
 T+ = Número Total de Diagnósticos Positivos; T- = Número Total de Diagnósticos Negativos.
Testes Diagnósticos
Padrão-Ouro D ND Total
Teste
+ VP FP T+
- FN VN T-
Total TD TND N

 Um bom teste diagnóstico deve apresentar pequeno número de FP e FN!


 Sensibilidade e Especificidade:
 Sensibilidade: é a probabilidade de um teste dar positivo quando o indivíduo é realmente
doente...
s = p(+ | D)  VP VP
sˆ  
TD VP  FN
 Especificidade: é a probabilidade de um teste dar negativo quando o indivíduo é
realmente não doente...
e = p(- | ND)  VN VN
eˆ  
TND VN  FP
 Ou seja, ambos são medidas de probabilidade de o teste realmente acusar um
determinado status conhecido.
Testes Diagnósticos
Padrão-Ouro D ND Total
Teste
+ VP FP T+
- FN VN T-
Total TD TND N
 Mais interessante seria se conhecêssemos a probabilidade de o teste estar
certo ao acusar algum diagnóstico  Valor Preditivo:
 Valor Preditivo Positivo: é a probabilidade de um teste estar correto ao dar
positivo  VPP = p(D | +);
 Valor Preditivo Negativo: é a probabilidade de um teste estar correto ao dar
negativo  VPN = p(ND | -);
T
 Caso a prevalência da doença possa ser estimada por Pˆ  D , então os valores
preditivos podem ser estimados diretamente da tabela: N
ˆ VP VP ˆ VN VN
VPP   V P N  
T VP  FP T VN  FN
 Caso contrário, estes valores saem a partir dos valores de sensibilidade,
especificidade e prevalência da doença.
ˆ VP  VN
 Acurácia  probabilidade de o teste acertar em geral: A 
N
Testes Diagnósticos
 Fórmulas para se obter VPP e VPN a partir dos valores de sensibilidade,
especificidade e prevalência (i.e., quando a proporção TD / N não reflete a
verdadeira prevalência da doença):

sP
VPˆ P 
s  P  (1  e)(1  P )

e(1  P)
VPˆ N 
(1  s ) P  e(1  P)
Medidas de Associação
 Um determinado desfecho (p.ex.: uma doença) é
associado à exposição a um determinado fator (de
risco ou de proteção)?
 Exemplos de medidas de associação:
 Risco Relativo: o risco (probabilidade) de apresentar o
desfecho é maior (ou menor) entre os indivíduos expostos
que entre os não expostos?
 Razão de Chances (Odds Ratio - OR) de Desfecho: a
chance de apresentar o desfecho entre os expostos é
diferente da chance entre os não expostos?
 Razão de Chances de Exposição: a chance de ter sido
exposto entre os indivíduos que apresentam o desfecho é
diferente da chance entre os que não apresentam o
desfecho?
Probabilidade vs. Chance
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N

 Probabilidade de alguém apresentar o desfecho entre os


indivíduos expostos e não expostos:
a c
pˆ ( D | E )  pˆ ( D | E ) 
ab cd
 A chance é a razão entre as probabilidades de um evento
acontecer e não acontecer. Logo, as chances de alguém
apresentar o desfecho entre os indivíduos expostos e não
expostos é dado por:
a a c c
odˆds( D | E )  a b
 odˆds( D | E )  cd

b
a b b d
cd d
Risco Relativo
 Razão entre o risco (probabilidade) de apresentar o desfecho entre os
indivíduos expostos e o risco entre os não expostos:
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N

p( D | E ) ^ a
a b a (c  d )
RR   RR  
p( D | E ) c
cd c ( a  b)
 Valores de risco relativo em torno de 1 sugerem não haver
associação entre exposição e desfecho (H0):
 Como estimador: aceita-se H0 se IC95% engloba a unidade;
 Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)
Razão de Chances (OR)
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N
 OR de desfecho: razão entre a chance de apresentar o desfecho entre os
indivíduos expostos e a chance entre os não expostos:
odds ( D | E ) ^ a ad
ORD   ORD  b

odds ( D | E ) c
d bc
 OR de exposição: razão entre a chance de ter sido exposto entre os
indivíduos que apresentam o desfecho e a chance entre os sem desfecho:
odds ( E | D) ^ a ad
ORE   ORE  c

odds ( E | D ) b
d bc
 Valores de OR em torno de 1 sugerem não haver associação entre exposição
e desfecho (H0):
 Como estimador: aceita-se H0 se IC95% engloba a unidade;
 Como teste de hipótese: aceita-se H0 se valor-p > 5% (=0,05)
Relação entre OR e RR
Desfecho Sim Não Total
Exposição
Sim a b TE
Não c d TNE
Total TD TND N
 Risco Relativo:
a  (c  d )
RR 
( a  b)  c
 Razão de Chances:
ad
OR 
bc
 No caso de uma doença ter uma prevalência (P) muito baixa:

a << b  a + b  b ad
RR   OR
c << d  c + d  d bc

ou seja, a Razão de Chances pode ser vista como uma estimativa do Risco Relativo.
Visão Geral sobre Desenhos
de Estudos Epidemiológicos
Tipos de Estudos Mais Comuns
Seccionais ou Transversais

Observacionais: Coorte

Caso-Controle

Intervenção: Ensaios Clínicos Aleatorizados


Estudos Seccionais
 Duração do estudo consideravelmente mais
curta que a dinâmica das características
estudadas (consiste em um “retrato” da
população).
 Amostragem suficientemente grande e
representativa da população-alvo:
 Tipos comuns de amostragem:
 Amostragem aleatória simples;
 Amostragem por conglomerados;
 Visa, usualmente, análises descritivas (p.ex.:
prevalências e incidências).
Estudos Seccionais
 Instrumentos de avaliação:
 Questionários:
 Perguntas abertas;
 Perguntas fechadas;
 Mistos.
 Perdas.
 Exames Clínicos:
 Sensibilidade vs. especificidade.
 Medidas fisiológicas:
 Precisão;
 Calibração.
 Treinamento dos avaliadores:
 uniformização da coleta de informações
Estudos Seccionais
 Medidas de associação comuns:
 Razão de Prevalências (RP - análoga ao Risco
Relativo) e Razão de Chances Prevalentes (tipo de
razão de chances).
 Por ser um estudo eminentemente descritivo, com base
em amostras representativas da população, as
proporções de desfecho são estimativas de
prevalências na população, viabilizando-se o cálculo
do RR, particularmente da RP.
 Limitação: mesmo detectando-se associação entre
exposição e desfecho, nem sempre é possível
estabelecer relações de causalidade, pois as
informações de temporalidade podem não ser
disponíveis.
Estudos de Coorte
 Coorte: grupo de indivíduos que apresentam
uma característica em comum.
 No estudo de coorte, os indivíduos são
selecionados quanto ao status de exposição.
 No início do estudo, nenhum indivíduo analisado
apresenta o desfecho estudado.
 Ao longo de um período suficientemente longo
(dependendo da dinâmica do desfecho estudado),
os indivíduos são acompanhados e contabilizam-se
as ocorrências de desfecho nas duas coortes.
 A associação entre a exposição e o desfecho é,
normalmente, analisada pelo Risco Relativo.
Estudos de Coorte
 Outros nomes:
 Longitudinal;
 Prospectivo;
 Seguimento (follow-up).
 A pertinência dos indivíduos em cada coorte se dá por
motivos alheios ao estudo (não há interferência sobre o status
dos indivíduos).
 Potenciais:
 Investigar a relação exposição-desfecho sob a óptica da causalidade;
 Abordar hipóteses etiológicas;
 Calcular medidas de Incidência;
 Examinar associações entre variáveis, usando medidas diretas de
risco: Risco Relativo;
 Comparar a incidência da doença em uma ou mais coortes.
Estudos de Coorte
 Vantagens:
 Produz medidas diretas de riscos
 Fornece evidências mais fortes de que uma associação
possa ser causal;
 Resultados mais facilmente generalizáveis a populações
maiores;
 Muitos desfechos podem ser investigados
simultaneamente.
 Desvantagens:
 Demorado e de alto custo relativo;
 Perdas de acompanhamento;
 Inadequado para doenças raras.
Estudos Caso-Controle
 No estudo de coorte, os indivíduos são
selecionados quanto ao status de desfecho.
 Comparam-se um grupo de pessoas indivíduos
(casos) com outro de indivíduos não-doentes
(controles) com características parecidas com os
casos, usualmente vizinhos:
– Pode ser interessante realizar pareamento (por gênero,
idade, etnia, etc.).
 O estudo é retrospectivo, avaliando-se se os
indivíduos haviam sido ou não expostos ao fator
estudado.
 A associação entre a exposição e o desfecho é,
normalmente, analisada pela Razão de Chances.
Estudos Caso-Controle
 Vantagens:
 Eficiente para doenças raras;
 Útil para gerar hipóteses sobre novas doenças ou surtos não
usuais (pois é útil para examinar um grande número de
variáveis preditoras);
 Usualmente de baixo custo.
 Desvantagens:
 Não permite obter medidas de riscos ou incidência;
 Permite a investigação de apenas um desfecho;
 Grande susceptibilidade a vieses:
– Viés de seleção: amostragem diferencial entre casos e controles;
– Viés de informação (memória) ou medida retrospectiva das
variáveis preditoras.
Ensaios Clínicos Aleatorizados
 Os indivíduos são alocados aleatoriamente em
dois grupos diferentes quanto ao status de
exposição.
 No início do estudo, nenhum indivíduo analisado
apresenta o desfecho estudado, como no estudo de
coortes;
– A diferença está na alocação dos grupos, que é feita pelo
pesquisador.
 Ao longo do estudo, os indivíduos são
acompanhados e contabilizam-se as ocorrências de
desfecho nos dois grupos.
 A associação entre a exposição e o desfecho é,
normalmente, analisada pelo Risco Relativo.
Ensaios Clínicos Aleatorizados
 Critérios de Inclusão:
 Minimizar a heterogeneidade dos indivíduos.
 Critérios de Exclusão comuns:
 Existência de outras doenças;
 Mal prognóstico;
 Indivíduos não-colaborativos.
 Questões Éticas:
 Termo de Consentimento Livre e Esclarecido;
 Comitês Locais;
 Conselho Nacional de Ética em Pesquisa (CONEPE).
 Mascaramento (ou Cegamento):
 Tenta minimizar qualquer comportamento tendencioso devido ao
conhecimento de qual tratamento está sendo usado;
 Cego vs. Duplo Cego.

Você também pode gostar