Você está na página 1de 54

“poderão estas observações terem acontecido

devido ao acaso?”

Introdução à Análise de Dados


Biomédicos usando o R

Martins Abudo Mupueleque


MSc. Medical Informatics

Carttoon adaptado de: Gonick et al. The cartoon Guide to statistics. 1993 HarperPerennial.
Testes de Hipótese

• Com os intervalos de confiança nós podemos inferir sobre um


parâmetro na população com base numa estimativa desse parâmetro.

• Os testes de hipótese são baseados noutra abordagem diferente (mas


relacionada).

• A ideia agora é medir o quanto os resultados observados na amostra


são compativeis com uma hipótese sobre a população.
Testes de Hipótese
Definimos a Hipótese
H0 = hipótese nula – ausência de efeito na população
Obtemos a estatística do teste com os dados de uma amostra
Obtemos o valor de p – probabilidade de obter o resultado que
obtivemos ou mais extremo, sendo H0 verdadeira.
Definimos o nível se significância () – usualmente 0.05
Interpretamos o valor de p –
se p< temos evidência suficiente para rejeitar H0
se p ≥  não temos evidência suficiente para rejeitar H0
Erros nos Testes de Hipótese

H0 verdadeira H0 falsa
Aceitar H0 Sem Erro Erro Tipo II ()

Rejeitar H0 Erro Tipo I () Sem Erro

Poder do teste = 1-  = Probabilidade de rejeitar H0 quando ela é falsa


Erros nos Testes de Hipótese

Vamos pensar nos teste de hipótese como se


tivéssemos a fazer … torradas por baixo de um detector de
incêndios. H : não há fogo
0

ERRO DE TIPO I: alarme sem fogo (rejeitar H0 quando H0 verdadeira)


ERRO DE TIPO II: fogo sem alarme (aceitar H0 quando H0 falsa)

Como acabar com o erro tipo I? desligar o alarme


nesse caso o que acontecia ao erro tipo II? AUMENTAVA

Como reduzir o erro tipo II? tornar o alarme mais sensível


nesse caso o que acontecia ao erro tipo I? AUMENTAVA
Erros nos Testes de Hipótese
H0 verdadeira H0 falsa Sem fogo fogo
Aceitar H0 Sem Erro Erro Tipo II Sem alarme Sem Erro Erro Tipo II

Rejeitar H0 Erro Tipo I Sem Erro Alarme Erro Tipo I Sem Erro

probabilidade de não havendo fogo tocar o alarme ()


1-  é a nossa confiança no toque do alarme, ou seja,
se 1-  é grande quer dizer que quando toca provavelmente não é falso alarme
mas por vezes o que queremos saber é qual a probabilidade de havendo fogo não tocar o
alarme ()

1-  é a sensibilidade do alarme ou seja,


se 1-  é grande quer dizer que quando não toca provavelmente não há mesmo fogo,
Erros nos Testes de Hipótese

1- é definido por nós quando fazemos um teste de hipótese, ao


definimos o nível se significância ()

para um maior poder (1- ) do teste


• tamanho da amostra maior
• variabilidade das observações menor
• efeito maior
•  maior
Usando uma amostra aleatória saber se um parâmetro da
população é igual a um determinado valor ou comparar
duas ou mais populações usando amostras aleatórias.
Testes t
Teste F (OneWay ANOVA)

Carttoon adaptado de: Gonick et al. The cartoon Guide to statistics. 1993 HarperPerennial.
Teste t- uma amostra
Com uma amostra de indivíduos queremos saber se a
média da respetiva população é um determinado valor.

Definimos a Hipótese
H0: A média na população é igual a µ1
H1: A média na população é diferente1 de µ1

Obtemos a estatística do teste com os dados de uma


amostra t = 𝑋−µ1
𝑠 que segue uma distribuição t com n-1 graus de liberdade
𝑛
Teste t - uma amostra

Definimos o nível se significância – usualmente 0.05

Obtemos o valor de p – probabilidade de obter o resultado que


obtivemos ou mais extremo, sendo H0 verdadeira.

Interpretamos o valor de p:
se p < 0.05, temos evidência suficiente para rejeitar H0
se p >= 0.05, não temos evidência suficiente para rejeitar H0
Teste t - uma amostra

Vamos testar se a média do peso ao nascimento é 3300g.


Teste t – duas amostras emparelhadas
Com duas amostras emparelhadas de indivíduos queremos saber se as
médias dos dois grupos na população são iguais.
Definimos a Hipótese
H0: µ1 = µ2 ou µ1 - µ2 = 0
H1: µ1  µ2 ou µ1 - µ2  0
Obtemos a estatística do teste com os dados de uma amostra
t=médias das diferenças/EP das diferenças
que segue uma distribuição t com n-1 graus de liberdade
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
Teste t – duas amostras emparelhadas

Foi realizado um estudo com o objectivo de


comparar dois fármacos para as dores de
cabeça. Aos doentes foram dados dois
comprimidos em pacotes indistinguíveis
com a indicação a (novo medicamento) e b
(medicamento antigo) e foi lhes dito para
tomarem o comprimido do pacote a
quando tivessem uma dor de cabeça e para
tomarem o da pacote b na a dor de cabeça
seguinte. Pedia-se também que, depois de
tomarem o medicamento, registassem o
tempo até que a dor passasse.

Será que se pode afirmar que um dos fármacos é mais eficiente que o outro?
Teste t – duas amostras emparelhadas

Vamos testar se existe uma variação na escala global de desenvolvimento


entre os 5 e os 8 anos.
Teste t – duas amostras independentes

Com duas amostras independentes de indivíduos queremos saber


se as médias dos dois grupos na população são iguais.
Definimos a Hipótese
H0: µ1 = µ2 ou µ1 - µ2 = 0
H1: µ1  µ2 ou µ1 - µ2  0
Obtemos a estatística do teste com os dados de uma amostra
t=(X1-X2)-(µ1 - µ2 )/Sp ((1/n1)+(1/n2))
Sp – os dois desvios padrões num só (se as variâncias são iguais)
que segue uma distribuição t com n1+n2-2 graus de liberdade
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
Teste t – duas amostras independentes

• E se as variâncias não são iguais, como calcular o sp?

• O teste de Levene testa a hipótese de as variâncias serem


iguais nos dois grupos

• Se não forem iguais não podemos calcular estimativa agrupada


dos desvios padrões (Sp) e temos que recorrer a uma forma
modificada do teste t.
Teste de Levene

• Suponhamos que queremos comparar o perímetro cefálico ao


nascimento nos rapazes e nas raparigas
Teste de Levene
• Neste caso o valor de p para o teste de Levene é p=0.4076.
• Para um nível de significância de 0.05, aceitamos a igualdade
das variâncias entre os dois grupos.

Para α=0.05, rejeitamos H0 porque


p=0.003474 < 0.05
i.e. a diferença de perímetros encontrada
é significativa
Teste de Levene
• No caso de o valor de p para o teste de Levene ser inferior a 0.05, teríamos de
rejeitar a hipótese da igualdade das variâncias entre os dois grupos.

Para α=0.05, rejeitamos H0 porque p=0.003658 < 0.05


i.e. a diferença de perímetros encontrada é significativa
One-Way ANOVA – mais que 2 grupos

Com mais de duas amostras independentes de


indivíduos queremos saber se as médias dos
grupos na população são iguais.
One-Way ANOVA – mais que 2 grupos
Definimos a Hipótese
H0: µ1 = µ2 = ... = µk
Teremos um conjunto de i grupos com ni indivíduos cada,
um total de N indivíduos, uma média de cada grupo xi e uma
média comum X

Exemplo: Pesos em Kg de 3 grupos de indivíduos de


grupos étnicos diferentes (caucasianos, latinos e asiáticos).

Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70 kg
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 X = 67,70 kg
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 X = 61,50 kg
X=66,97kg i=3 n1=10 n2=10 n3=10 N=30
One-Way ANOVA

Grupo 1 Grupo 2 ... Grupo k


within groups • • • •
• • • •
Variability

• • • •
• • • •

Variability across groups


One-Way ANOVA
Prova-se que se µ1 = µ2 = ... = µk, então, Between MS e Within MS
Between MS  Within MS

Se pelo contrário µ1  µ2  ...  µk, então, Between MS será maior


que Within MS

Assim, para testar H0: µ1 = µ2 = ... = µk calcula-se a estatística F

Obtemos a estatística do teste com os dados de uma amostra


F = Between MS / Within MS
Obtemos o valor de p
Definimos o nível se significância
Interpretamos o valor de p
One-Way ANOVA

Voltando ao exemplo:
Pesos em Kg de 3 grupos de indivíduos de grupos étnicos
diferentes (caucasianos, latinos e asiáticos).

H0: µ1 = µ2 = µ3

Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 kg X = 67,70
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 kg X = 61,50
X=66,97kg i=3 n1=10 n2=10 n3=10 kg N=30
One-Way ANOVA
One-Way ANOVA

• Outro exemplo: comparação do peso dos recém nascidos em três


diferentes hospitais.
One-Way ANOVA
• Outro exemplo: comparação do peso dos recém nascidos em
quatro categorias de idade gestacional.
One-Way ANOVA
Em algumas situações como a anterior em que há diferenças, é
importante por vezes saber que grupos, são diferentes.

Uma solução é fazer comparações múltiplas (duas a duas). No caso


anterior 6 comparaçõe:
H0: µ1 = µ2 H0: µ1 =µ3 H0: µ1 = µ4
H0: µ2 = µ3 H0: µ2 =µ4 H0: µ3 =µ4

Então… porque é que não fizemos isto desde início?


One-way ANOVA

Suponhamos que H0 é de facto verdadeira.


Definimos o nível de significancia P(type I error) = 0.05 para cada teste

Teremos 6 testes para fazer

Qual a probabilidade de cometer pelo menos um erro de


tipo I?

Será 0.05?
One-way ANOVA

• A probabilidade de cometer um erro de type I em pelo menos um teste é


maior que 0.05!

• Então, depois de fazer uma one-way ANOVA e se queremos identificar


que grupos são diferentes podemos fazer comparações múltiplas mas
temos que corrigir o nível de significância.

• Há várias correcções implementadas no R (Bonferroni, Sheffe, Tuckey, etc)


One-way ANOVA

• Podemos fazer comparações múltiplas, neste caso com


correção de Bonferroni
Verificação da assunção da normalidade

Para verificar a assunção da normalidade podemos usar apenas a


análise visual do histograma da variável na amostra em cada grupo.
Teste de Kolmogorov-Smirnov

O histograma obtido com esta amostra é


Teste de normalidade
compatível com uma população com
distribuição normal?
Teste de Kolmogorov-Smirnov

• A utilidade do teste de K-S é limitada

• Tem muito pouco poder com uma amostra pequena, ou seja,


aceita facilmente a normalidade por falta de informação contrária

• É também muito sensivel quando a amostra é grande, ou


seja, obtem-se um valor de p significativo com pequenos
desvios da distribuição normal na amostra
Teste de Kolmogorov-Smirnov

Teste de normalidade (amostra de 1000 casos com reposição)


Teste t – duas amostras emparelhadas

Com duas amostras emparelhadas de indivíduos queremos saber


se as médias dos dois grupos na população são iguais.

Assunção:

A variável das diferenças é normalmente


distribuída na população.

E se não for?
Teste não paramétricos – amostras emparelhadas
Suponha o seguinte exemplo:

• 20 indivíduos obesos participaram num estudo de avaliação de


uma dieta.

• Cada indivíduo foi pesado antes de iniciar a dieta e 3 meses após


o início da dieta.
• Os resultados foram os seguintes:
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
Teste não paramétricos – amostras emparelhadas
• A variável das diferenças (antes e depois) é normalmente
distribuída na população?

• não, então:

• Precisamos de usar um teste não paramétrico

• O teste do sinal e o teste de Wilcoxon são testes não


paramétricos aplicados em amostras emparelhadas
(como o teste t para amostras emparelhadas)
Teste do sinal – amostras emparelhadas

• Voltando ao exemplo, vamos primeiro verificar em cada


indivíduo se houve perda ou ganho de peso
Patient ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
Sinal - - - - - - - - = - - - - + - = = + - -

• 15 indivíduos perderam peso (sinal -) e 2 ganharam peso (sinal +)

• Se a dieta não tivesse efeito deveríamos observar um número


semelhante de perdas e ganhos de peso
Teste do sinal – amostras emparelhadas
• Então se a dieta não tiver efeito qual a probabilidade de observar em 20
indivíduos um resultado tão ou mais extremo do que 15 perdas (sinal -) e 2
aumentos de peso (sinal +)?

• Este teste é designado pelo teste


do sinal.

• Para um nível de significância de 0.05 rejeitamos a hipótese nula e concluímos


que a dieta tem efeito
Teste do sinal – amostras emparelhadas

• O teste do sinal ignora muita da informação, pois apenas leva em


consideração se houve perda ou aumento de peso.

• Não seria interessante um teste que levasse em consideração se os que


perderam peso perderam tantos Kg como os kg que engordaram os que
ganharam peso?

✓ teste de Wilcoxon signed-rank.


Teste Wilcoxon signed-rank

• Para cada indivíduo vamos agora registar a diferença de peso


(valor absoluto) e o sinal da diferença (+ se foi aumento de
peso, - se foi perda de peso)

Patient ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Antes 103 104 141 146 147 106 107 110 109 114 116 117 122 114 118 125 125 118 125 125
Depois 100 95 121 142 143 101 102 105 109 109 113 112 117 117 117 125 125 120 122 122
|A-D| 3 9 20 4 4 5 5 5 0 5 3 5 5 3 1 0 0 2 3 3
Sinal - - - - - - - - = - - - - + - = = + - -
Teste Wilcoxon signed-rank

• Ordenamos todas as diferenças (excluindo os zeros) e


registamos o rank (posição) de cada
|A-D| 1 2 3 3 3 3 3 4 4 5 5 5 5 5 5 9 20

Rank 1 2 5 5 5 5 5 8.5 8.5 12.5 12.5 12.5 12.5 12.5 12.5 14 15

Sinal - + + - - - - - - - - - - - - - -

• No caso de empates damos a posição média. Por exemplo existem 5


indivíduos com diferença (positiva ou negativa) de 3Kg. Estes
corresponderiam às posições 3º, 4º, 5º, 6º e 7º; como são empates
atribuímos-lhes a posição média (5º).
Teste Wilcoxon signed-rank
|A-D| 1 2 3 3 3 3 3 4 4 5 5 5 5 5 5 9 20

Rank 1 2 5 5 5 5 5 8.5 8.5 12.5 12.5 12.5 12.5 12.5 12.5 14 15

Sinal - + + - - - - - - - - - - - - - -

• A soma dos ranks dos 15 indivíduos que perderam peso


(sinal -) é:
1+5+5+5+5+8.5+8.5+12.5+12.5+12.5+12.5+12.5+12.5+14+15
= 146

ou seja as perdas de peso (sinal -) têm um rank médio =146/15 = 9.73


• A soma dos ranks dos 2 indivíduos que ganharam peso (sinal +) é: 2+5= 7
ou seja, os ganhos de peso (sinal +) têm um rank médio de 7/2 = 3.5

Se a dieta não tivesse efeito era de esperar observar um rank médio idêntico para
as perdas e aumentos de peso
Teste Wilcoxon signed-rank

• O valor p é então calculado como a probabilidade de observar uma


diferença tão ou mais extrema como 9.73 vs 3.5, se a dieta não tivesse
efeito
Teste t – duas amostras independentes

Com duas amostras independentes de indivíduos queremos


saber se as médias dos dois grupos na população são iguais.

Assunção:
A variável é normalmente distribuída na população.

E se não for?
Teste não paramétrico: Mann-Whitney U test
Teste Mann-Whitney U
• Se os grupos não forem emparelhados podemos usar o teste de
Mann-Whitney

• Ordenam-se os valores independentemente do grupo a que


pertence. Calcula-se a soma dos ranks, R1, para um dos grupos

• São calculadas as seguintes estatísticas

+ nA (nA +1) − R .
U = n An B 1
2
Se U  nAnB , então usamos a estatística U  = n An B −U
2
• Usando uma aproximação à normal, obtemos o valor p associado à estatística do teste
Teste Mann-Whitney U - exemplo
Pretende-se estudar o efeito da cafeína no metabolismo muscular medido pela razão
das trocas de Co2 e O2 (RER)
Placebo Cafeína
%RER %RER
105 96
RER elevado (típico durante o
119 exercício físico) indica que o 99
100 organismo está a produzir 94
97 mais CO2 e a consumir mais O2 89
96 96
101 93
94 88
95 105
98 88
Teste Mann-Whitney U
• Como no teste de Wilcoxon vamos ordenar todos os valores
atribuindo-lhes o rank e registando a qual grupo pertencem (P -
placebo ou C - cafeína)
RER 88 88 89 93 94 94 95 96 96 96 97 98 99 100 101 105 105 119
Rank 1.5 1.5 3 4 5.5 5.5 7 9 9 9 11 12 13 14 15 16.5 16.5 18
Grupo
C C C C P C P P C C P P C P P P C P

• Se não existisse efeito da cafeína os “C’s” e os “P’s” na tabela


deveriam estar misturados

• Se houver efeito os C’s devem concentrar-se nos ranks menores e


os P’s nos ranks maiores
Teste Mann-Whitney U
Qual é a probabilidade de observar uma distribuição de P’s e C’s tão ou
mais extrema do que esta, se a cafeína não tiver efeito?

H0: Não há diferenças na (RER) dos dois


grupos
One-Way ANOVA

Com mais de duas amostras independentes de indivíduos queremos saber


se as médias dos grupos na população são iguais.

Assunção:
A variável é normalmente distribuída na população.
As variâncias são iguais em todos os grupos na população

E se não for?
Teste não paramétrico: Kruskal-Wallis Test
Kruskal-Wallis Test
Exemplo: Pesos em Kg de 3 grupos de indivíduos de 3 grupos étnicos
diferentes Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64
Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73
Grupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57
Organizam-se todos os valores por ordem crescente de modo a cada
valor ter uma posição atribuída ...
...
grupo 3 3 3 3 3 3 2 2 3 1 2 2 3 1 2
peso 53 57 58 59 61 61 62 63 63 64 64 65 66 67 68
...
...
3 2 2 3 1 2 1 1 1 1 2 2 1 1 1
68 69 69 69 70 70 71 71 72 73 73 74 75 76 78
Kruskal-Wallis Test

Calcula-se a estatística: k

12 Ri
H= − 3(N +1)
N (N +1) i=1 ni

N = nº total de indivíduos
ni = nº de indivíduos no grupo i
Ri = soma das posições no grupo i

Segue distribuição de Qui-quadrado com k-1 graus de liberdade


Kruskal-Wallis Test
grupo peso ordem ... ... ...
3 68 15.5
3 53 1
2 69 18
3 57 2

3 58 3 2 69 18
3 69 18
Grupo3 :
3 59 4

3 61 5.5
1 70 20.5 (1+2+3+4+5.5+5.5+8.5+13+15.5+18)/10 = 7.6
2 70 20.5
3 61 5.5

2 62 7 1 71 22.5

2 63 8.5 1 71 22.5

3 63 8.5 1 72 24

1 64 10.5 1 73 25.5

2 64 10.5 2 73 26

2 65 12 2 74 27

3 66 13 1 75 28

1 67 14 1 76 29

2 68 15.5 1 78 30

... ... ...

Você também pode gostar