Testes de Hipótese Usando o R

“poderão estas observações terem acontecido
devido ao acaso?”
Introdução à Análise de Dados

Biomédicos usando o R
Martins Abudo Mupueleque

MSc. Medical Informatics
Carttoon adaptado de: Gonick et al. The cartoon Guide to statistics. 1993 HarperPerennial.
Testes de Hipótese
• Com os intervalos de confiança nós podemos inferir sobre um

parâmetro na população com base numa estimativa desse parâmetro.
• Os testes de hipótese são baseados noutra abordagem diferente (mas

relacionada).
• A ideia agora é medir o quanto os resultados observados na amostra

são compativeis com uma hipótese sobre a população.
Testes de Hipótese
Definimos a Hipótese
H0 = hipótese nula – ausência de efeito na população
Obtemos a estatística do teste com os dados de uma amostra
Obtemos o valor de p – probabilidade de obter o resultado que
obtivemos ou mais extremo, sendo H0 verdadeira.
Definimos o nível se significância () – usualmente 0.05
Interpretamos o valor de p –
se p< temos evidência suficiente para rejeitar H0
se p ≥  não temos evidência suficiente para rejeitar H0
Erros nos Testes de Hipótese
H0 verdadeira H0 falsa
Aceitar H0 Sem Erro Erro Tipo II ()
Rejeitar H0 Erro Tipo I () Sem Erro
Poder do teste = 1-  = Probabilidade de rejeitar H0 quando ela é falsa

Vamos pensar nos teste de hipótese como se

tivéssemos a fazer … torradas por baixo de um detector de
incêndios. H : não há fogo
0
ERRO DE TIPO I: alarme sem fogo (rejeitar H0 quando H0 verdadeira)

ERRO DE TIPO II: fogo sem alarme (aceitar H0 quando H0 falsa)
Como acabar com o erro tipo I? desligar o alarme

nesse caso o que acontecia ao erro tipo II? AUMENTAVA
Como reduzir o erro tipo II? tornar o alarme mais sensível

nesse caso o que acontecia ao erro tipo I? AUMENTAVA
H0 verdadeira H0 falsa Sem fogo fogo
Aceitar H0 Sem Erro Erro Tipo II Sem alarme Sem Erro Erro Tipo II
Rejeitar H0 Erro Tipo I Sem Erro Alarme Erro Tipo I Sem Erro
probabilidade de não havendo fogo tocar o alarme ()

1-  é a nossa confiança no toque do alarme, ou seja,
se 1-  é grande quer dizer que quando toca provavelmente não é falso alarme
mas por vezes o que queremos saber é qual a probabilidade de havendo fogo não tocar o
alarme ()
1-  é a sensibilidade do alarme ou seja,

se 1-  é grande quer dizer que quando não toca provavelmente não há mesmo fogo,
1- é definido por nós quando fazemos um teste de hipótese, ao

definimos o nível se significância ()
para um maior poder (1- ) do teste

• tamanho da amostra maior
• variabilidade das observações menor
• efeito maior
•  maior
Usando uma amostra aleatória saber se um parâmetro da
população é igual a um determinado valor ou comparar
duas ou mais populações usando amostras aleatórias.
Testes t
Teste F (OneWay ANOVA)
Carttoon adaptado de: Gonick et al. The cartoon Guide to statistics. 1993 HarperPerennial.
Teste t- uma amostra
Com uma amostra de indivíduos queremos saber se a
média da respetiva população é um determinado valor.
H0: A média na população é igual a µ1
H1: A média na população é diferente1 de µ1
Obtemos a estatística do teste com os dados de uma

amostra t = 𝑋−µ1
𝑠 que segue uma distribuição t com n-1 graus de liberdade
𝑛
Teste t - uma amostra
Definimos o nível se significância – usualmente 0.05
Obtemos o valor de p – probabilidade de obter o resultado que

obtivemos ou mais extremo, sendo H0 verdadeira.
Interpretamos o valor de p:
se p < 0.05, temos evidência suficiente para rejeitar H0
se p >= 0.05, não temos evidência suficiente para rejeitar H0
Teste t - uma amostra
Vamos testar se a média do peso ao nascimento é 3300g.

Teste t – duas amostras emparelhadas
Com duas amostras emparelhadas de indivíduos queremos saber se as
médias dos dois grupos na população são iguais.
H0: µ1 = µ2 ou µ1 - µ2 = 0
H1: µ1  µ2 ou µ1 - µ2  0
t=médias das diferenças/EP das diferenças
que segue uma distribuição t com n-1 graus de liberdade
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
Foi realizado um estudo com o objectivo de

comparar dois fármacos para as dores de
cabeça. Aos doentes foram dados dois
comprimidos em pacotes indistinguíveis
com a indicação a (novo medicamento) e b
(medicamento antigo) e foi lhes dito para
tomarem o comprimido do pacote a
quando tivessem uma dor de cabeça e para
tomarem o da pacote b na a dor de cabeça
seguinte. Pedia-se também que, depois de
tomarem o medicamento, registassem o
tempo até que a dor passasse.
Será que se pode afirmar que um dos fármacos é mais eficiente que o outro?
Vamos testar se existe uma variação na escala global de desenvolvimento

entre os 5 e os 8 anos.
Teste t – duas amostras independentes
Com duas amostras independentes de indivíduos queremos saber

se as médias dos dois grupos na população são iguais.
H0: µ1 = µ2 ou µ1 - µ2 = 0
H1: µ1  µ2 ou µ1 - µ2  0
t=(X1-X2)-(µ1 - µ2 )/Sp ((1/n1)+(1/n2))
Sp – os dois desvios padrões num só (se as variâncias são iguais)
que segue uma distribuição t com n1+n2-2 graus de liberdade
• E se as variâncias não são iguais, como calcular o sp?
• O teste de Levene testa a hipótese de as variâncias serem

iguais nos dois grupos
• Se não forem iguais não podemos calcular estimativa agrupada

dos desvios padrões (Sp) e temos que recorrer a uma forma
modificada do teste t.
Teste de Levene
• Suponhamos que queremos comparar o perímetro cefálico ao

nascimento nos rapazes e nas raparigas
Teste de Levene
• Neste caso o valor de p para o teste de Levene é p=0.4076.
• Para um nível de significância de 0.05, aceitamos a igualdade
das variâncias entre os dois grupos.
Para α=0.05, rejeitamos H0 porque

p=0.003474 < 0.05
i.e. a diferença de perímetros encontrada
é significativa
Teste de Levene
• No caso de o valor de p para o teste de Levene ser inferior a 0.05, teríamos de
rejeitar a hipótese da igualdade das variâncias entre os dois grupos.
Para α=0.05, rejeitamos H0 porque p=0.003658 < 0.05

i.e. a diferença de perímetros encontrada é significativa
One-Way ANOVA – mais que 2 grupos
Com mais de duas amostras independentes de

indivíduos queremos saber se as médias dos
grupos na população são iguais.
One-Way ANOVA – mais que 2 grupos
H0: µ1 = µ2 = ... = µk
Teremos um conjunto de i grupos com ni indivíduos cada,
um total de N indivíduos, uma média de cada grupo xi e uma
média comum X
Exemplo: Pesos em Kg de 3 grupos de indivíduos de

grupos étnicos diferentes (caucasianos, latinos e asiáticos).
Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70 kg
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 X = 67,70 kg
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 X = 61,50 kg
X=66,97kg i=3 n1=10 n2=10 n3=10 N=30
One-Way ANOVA
Grupo 1 Grupo 2 ... Grupo k

within groups • • • •
• • • •
Variability
• • • •
• • • •
Variability across groups

One-Way ANOVA
Prova-se que se µ1 = µ2 = ... = µk, então, Between MS e Within MS
Between MS  Within MS
Se pelo contrário µ1  µ2  ...  µk, então, Between MS será maior

que Within MS
Assim, para testar H0: µ1 = µ2 = ... = µk calcula-se a estatística F

F = Between MS / Within MS
One-Way ANOVA
Voltando ao exemplo:
Pesos em Kg de 3 grupos de indivíduos de grupos étnicos
diferentes (caucasianos, latinos e asiáticos).
H0: µ1 = µ2 = µ3
Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 kg X = 67,70
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 kg X = 61,50
X=66,97kg i=3 n1=10 n2=10 n3=10 kg N=30
One-Way ANOVA
One-Way ANOVA
• Outro exemplo: comparação do peso dos recém nascidos em três

diferentes hospitais.
One-Way ANOVA
• Outro exemplo: comparação do peso dos recém nascidos em
quatro categorias de idade gestacional.
One-Way ANOVA
Em algumas situações como a anterior em que há diferenças, é
importante por vezes saber que grupos, são diferentes.
Uma solução é fazer comparações múltiplas (duas a duas). No caso

anterior 6 comparaçõe:
H0: µ1 = µ2 H0: µ1 =µ3 H0: µ1 = µ4
H0: µ2 = µ3 H0: µ2 =µ4 H0: µ3 =µ4
Então… porque é que não fizemos isto desde início?

One-way ANOVA
Suponhamos que H0 é de facto verdadeira.

Definimos o nível de significancia P(type I error) = 0.05 para cada teste
Teremos 6 testes para fazer
Qual a probabilidade de cometer pelo menos um erro de

tipo I?
Será 0.05?
One-way ANOVA
• A probabilidade de cometer um erro de type I em pelo menos um teste é

maior que 0.05!
• Então, depois de fazer uma one-way ANOVA e se queremos identificar

que grupos são diferentes podemos fazer comparações múltiplas mas
temos que corrigir o nível de significância.
• Há várias correcções implementadas no R (Bonferroni, Sheffe, Tuckey, etc)

One-way ANOVA
• Podemos fazer comparações múltiplas, neste caso com

correção de Bonferroni
Verificação da assunção da normalidade
Para verificar a assunção da normalidade podemos usar apenas a

análise visual do histograma da variável na amostra em cada grupo.
Teste de Kolmogorov-Smirnov
O histograma obtido com esta amostra é

Teste de normalidade
compatível com uma população com
distribuição normal?
• A utilidade do teste de K-S é limitada
• Tem muito pouco poder com uma amostra pequena, ou seja,

aceita facilmente a normalidade por falta de informação contrária
• É também muito sensivel quando a amostra é grande, ou

seja, obtem-se um valor de p significativo com pequenos
desvios da distribuição normal na amostra
Teste de normalidade (amostra de 1000 casos com reposição)

Com duas amostras emparelhadas de indivíduos queremos saber

se as médias dos dois grupos na população são iguais.
Assunção:
A variável das diferenças é normalmente

distribuída na população.
E se não for?
Teste não paramétricos – amostras emparelhadas
Suponha o seguinte exemplo:
• 20 indivíduos obesos participaram num estudo de avaliação de

uma dieta.
• Cada indivíduo foi pesado antes de iniciar a dieta e 3 meses após

o início da dieta.
• Os resultados foram os seguintes:
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
Teste não paramétricos – amostras emparelhadas
• A variável das diferenças (antes e depois) é normalmente
distribuída na população?
• não, então:
• Precisamos de usar um teste não paramétrico
• O teste do sinal e o teste de Wilcoxon são testes não

paramétricos aplicados em amostras emparelhadas
(como o teste t para amostras emparelhadas)
Teste do sinal – amostras emparelhadas
• Voltando ao exemplo, vamos primeiro verificar em cada

indivíduo se houve perda ou ganho de peso
Patient ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
Sinal - - - - - - - - = - - - - + - = = + - -
• 15 indivíduos perderam peso (sinal -) e 2 ganharam peso (sinal +)
• Se a dieta não tivesse efeito deveríamos observar um número

semelhante de perdas e ganhos de peso
• Então se a dieta não tiver efeito qual a probabilidade de observar em 20
indivíduos um resultado tão ou mais extremo do que 15 perdas (sinal -) e 2
aumentos de peso (sinal +)?
• Este teste é designado pelo teste

do sinal.
• Para um nível de significância de 0.05 rejeitamos a hipótese nula e concluímos

que a dieta tem efeito
• O teste do sinal ignora muita da informação, pois apenas leva em

consideração se houve perda ou aumento de peso.
• Não seria interessante um teste que levasse em consideração se os que

perderam peso perderam tantos Kg como os kg que engordaram os que
ganharam peso?
✓ teste de Wilcoxon signed-rank.

Teste Wilcoxon signed-rank
• Para cada indivíduo vamos agora registar a diferença de peso

(valor absoluto) e o sinal da diferença (+ se foi aumento de
peso, - se foi perda de peso)
Patient ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
|A-D| 3 9 20 4 4 5 5 5 0 5 3 5 5 3 1 0 0 2 3 3
Sinal - - - - - - - - = - - - - + - = = + - -
• Ordenamos todas as diferenças (excluindo os zeros) e

registamos o rank (posição) de cada
|A-D| 1 2 3 3 3 3 3 4 4 5 5 5 5 5 5 9 20
Rank 1 2 5 5 5 5 5 8.5 8.5 12.5 12.5 12.5 12.5 12.5 12.5 14 15
Sinal - + + - - - - - - - - - - - - - -
• No caso de empates damos a posição média. Por exemplo existem 5

indivíduos com diferença (positiva ou negativa) de 3Kg. Estes
corresponderiam às posições 3º, 4º, 5º, 6º e 7º; como são empates
atribuímos-lhes a posição média (5º).
|A-D| 1 2 3 3 3 3 3 4 4 5 5 5 5 5 5 9 20
Rank 1 2 5 5 5 5 5 8.5 8.5 12.5 12.5 12.5 12.5 12.5 12.5 14 15
Sinal - + + - - - - - - - - - - - - - -
• A soma dos ranks dos 15 indivíduos que perderam peso

(sinal -) é:
1+5+5+5+5+8.5+8.5+12.5+12.5+12.5+12.5+12.5+12.5+14+15
= 146
ou seja as perdas de peso (sinal -) têm um rank médio =146/15 = 9.73

• A soma dos ranks dos 2 indivíduos que ganharam peso (sinal +) é: 2+5= 7
ou seja, os ganhos de peso (sinal +) têm um rank médio de 7/2 = 3.5
Se a dieta não tivesse efeito era de esperar observar um rank médio idêntico para
as perdas e aumentos de peso
• O valor p é então calculado como a probabilidade de observar uma

diferença tão ou mais extrema como 9.73 vs 3.5, se a dieta não tivesse
efeito
Com duas amostras independentes de indivíduos queremos

saber se as médias dos dois grupos na população são iguais.
Assunção:
A variável é normalmente distribuída na população.
E se não for?
Teste não paramétrico: Mann-Whitney U test
Teste Mann-Whitney U
• Se os grupos não forem emparelhados podemos usar o teste de
Mann-Whitney
• Ordenam-se os valores independentemente do grupo a que

pertence. Calcula-se a soma dos ranks, R1, para um dos grupos
• São calculadas as seguintes estatísticas
+ nA (nA +1) − R .
U = n An B 1
2
Se U  nAnB , então usamos a estatística U  = n An B −U
2
• Usando uma aproximação à normal, obtemos o valor p associado à estatística do teste
Teste Mann-Whitney U - exemplo
Pretende-se estudar o efeito da cafeína no metabolismo muscular medido pela razão
das trocas de Co2 e O2 (RER)
Placebo Cafeína
%RER %RER
105 96
RER elevado (típico durante o
119 exercício físico) indica que o 99
100 organismo está a produzir 94
97 mais CO2 e a consumir mais O2 89
96 96
101 93
94 88
95 105
98 88
• Como no teste de Wilcoxon vamos ordenar todos os valores
atribuindo-lhes o rank e registando a qual grupo pertencem (P -
placebo ou C - cafeína)
RER 88 88 89 93 94 94 95 96 96 96 97 98 99 100 101 105 105 119
Rank 1.5 1.5 3 4 5.5 5.5 7 9 9 9 11 12 13 14 15 16.5 16.5 18
Grupo
C C C C P C P P C C P P C P P P C P
• Se não existisse efeito da cafeína os “C’s” e os “P’s” na tabela

deveriam estar misturados
• Se houver efeito os C’s devem concentrar-se nos ranks menores e

os P’s nos ranks maiores
Qual é a probabilidade de observar uma distribuição de P’s e C’s tão ou
mais extrema do que esta, se a cafeína não tiver efeito?
H0: Não há diferenças na (RER) dos dois

grupos
One-Way ANOVA
Com mais de duas amostras independentes de indivíduos queremos saber

se as médias dos grupos na população são iguais.
Assunção:
A variável é normalmente distribuída na população.
As variâncias são iguais em todos os grupos na população
E se não for?
Teste não paramétrico: Kruskal-Wallis Test
Kruskal-Wallis Test
Exemplo: Pesos em Kg de 3 grupos de indivíduos de 3 grupos étnicos
diferentes Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57
Organizam-se todos os valores por ordem crescente de modo a cada
valor ter uma posição atribuída ...
...
grupo 3 3 3 3 3 3 2 2 3 1 2 2 3 1 2
peso 53 57 58 59 61 61 62 63 63 64 64 65 66 67 68
...
...
3 2 2 3 1 2 1 1 1 1 2 2 1 1 1
68 69 69 69 70 70 71 71 72 73 73 74 75 76 78
Kruskal-Wallis Test
Calcula-se a estatística: k

12 Ri
H= − 3(N +1)
N (N +1) i=1 ni
N = nº total de indivíduos
ni = nº de indivíduos no grupo i
Ri = soma das posições no grupo i
Segue distribuição de Qui-quadrado com k-1 graus de liberdade

Kruskal-Wallis Test
grupo peso ordem ... ... ...
3 68 15.5
3 53 1
2 69 18
3 57 2
3 58 3 2 69 18
3 69 18
Grupo3 :
3 59 4
3 61 5.5
1 70 20.5 (1+2+3+4+5.5+5.5+8.5+13+15.5+18)/10 = 7.6
2 70 20.5
3 61 5.5
2 62 7 1 71 22.5
2 63 8.5 1 71 22.5
3 63 8.5 1 72 24
1 64 10.5 1 73 25.5
2 64 10.5 2 73 26
2 65 12 2 74 27
3 66 13 1 75 28
1 67 14 1 76 29
2 68 15.5 1 78 30
... ... ...

Testes de Hipótese Usando o R

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Testes de Hipótese Usando o R

Enviado por

Direitos autorais:

Formatos disponíveis

“poderão estas observações terem acontecido

Introdução à Análise de Dados

Martins Abudo Mupueleque

• Com os intervalos de confiança nós podemos inferir sobre um

• Os testes de hipótese são baseados noutra abordagem diferente (mas

• A ideia agora é medir o quanto os resultados observados na amostra

Rejeitar H0 Erro Tipo I () Sem Erro

Poder do teste = 1-  = Probabilidade de rejeitar H0 quando ela é falsa

Vamos pensar nos teste de hipótese como se

ERRO DE TIPO I: alarme sem fogo (rejeitar H0 quando H0 verdadeira)

Como acabar com o erro tipo I? desligar o alarme

Como reduzir o erro tipo II? tornar o alarme mais sensível

probabilidade de não havendo fogo tocar o alarme ()

1-  é a sensibilidade do alarme ou seja,

1- é definido por nós quando fazemos um teste de hipótese, ao

para um maior poder (1- ) do teste

Obtemos a estatística do teste com os dados de uma

Definimos o nível se significância – usualmente 0.05

Obtemos o valor de p – probabilidade de obter o resultado que

Vamos testar se a média do peso ao nascimento é 3300g.

Foi realizado um estudo com o objectivo de

Vamos testar se existe uma variação na escala global de desenvolvimento

Com duas amostras independentes de indivíduos queremos saber

• E se as variâncias não são iguais, como calcular o sp?

• O teste de Levene testa a hipótese de as variâncias serem

• Se não forem iguais não podemos calcular estimativa agrupada

• Suponhamos que queremos comparar o perímetro cefálico ao

Para α=0.05, rejeitamos H0 porque

Para α=0.05, rejeitamos H0 porque p=0.003658 < 0.05

Com mais de duas amostras independentes de

Exemplo: Pesos em Kg de 3 grupos de indivíduos de

Grupo 1 Grupo 2 ... Grupo k

Variability across groups

Se pelo contrário µ1  µ2  ...  µk, então, Between MS será maior

Assim, para testar H0: µ1 = µ2 = ... = µk calcula-se a estatística F

Obtemos a estatística do teste com os dados de uma amostra

• Outro exemplo: comparação do peso dos recém nascidos em três

Uma solução é fazer comparações múltiplas (duas a duas). No caso

Então… porque é que não fizemos isto desde início?

Suponhamos que H0 é de facto verdadeira.

Teremos 6 testes para fazer

Qual a probabilidade de cometer pelo menos um erro de

• A probabilidade de cometer um erro de type I em pelo menos um teste é

• Então, depois de fazer uma one-way ANOVA e se queremos identificar

• Há várias correcções implementadas no R (Bonferroni, Sheffe, Tuckey, etc)

• Podemos fazer comparações múltiplas, neste caso com

Para verificar a assunção da normalidade podemos usar apenas a

O histograma obtido com esta amostra é

• A utilidade do teste de K-S é limitada

• Tem muito pouco poder com uma amostra pequena, ou seja,

• É também muito sensivel quando a amostra é grande, ou

Teste de normalidade (amostra de 1000 casos com reposição)

Com duas amostras emparelhadas de indivíduos queremos saber

A variável das diferenças é normalmente

• 20 indivíduos obesos participaram num estudo de avaliação de

• Cada indivíduo foi pesado antes de iniciar a dieta e 3 meses após

• Precisamos de usar um teste não paramétrico

• O teste do sinal e o teste de Wilcoxon são testes não

• Voltando ao exemplo, vamos primeiro verificar em cada

• 15 indivíduos perderam peso (sinal -) e 2 ganharam peso (sinal +)

• Se a dieta não tivesse efeito deveríamos observar um número

• Este teste é designado pelo teste

• Para um nível de significância de 0.05 rejeitamos a hipótese nula e concluímos