Você está na página 1de 45

Métodos Estatísticos Aplicados

às Ciências Biológicas
- 7ª aula -
Motivação
Arumalla et al., 2012
Estimação

Inferência

Testes de hipótese
Em uma pesquisa eleitoral, considere o candidato “A”

Denomine por  a proporção de pessoas que


votarão em “A” na eleição.

Denomine por p a proporção de pessoas no


levantamento de opinião (amostra) que expressam
intenção de voto em “A”.
População: todas as pessoas aptas a votar

Amostra: eleitores que participaram da pesquisa


eleitoral

 : característica de interesse da população


(parâmetro)

p: correspondente característica na amostra


(estatística ou estimador)
Este é um problema de estimação

Na apresentação dos resultados é fornecida uma


medida de incerteza: margem de erro

Observação: Neste exemplo, no dia da eleição,  será


conhecido. Porém, isto não ocorre em outras
aplicações, de uma forma geral.
Exemplo 1

Um fabricante de próteses afirma que seu processo de


fabricação produz 90% de peças dentro das
especificações. O IPEM deseja investigar se este
processo de fabricação ainda está sob controle. Foi
selecionada uma amostra aleatória de 100 itens e
observada a proporção itens satisfatórios
Exemplo 2 - Um fabricante de cigarros afirma que seus
cigarros contêm, em média, não mais que 30 mg de
nicotina. Uma ONG anti-tabagismo não concorda com
essa afirmação, e colhe uma amostra aleatória de 81
cigarros dessa marca para contestar a afirmação
Hipótese estatística: afirmação sobre um
parâmetro da população

Os parâmetros e valores especificados nas hipóteses


nula e alternativa dependem do objetivo e
características o estudo
No exemplo 1:
Parâmetro de interesse: proporção de itens dentro das
especificações na população ()

Hipóteses

H0: =0,90 hipótese nula


H1: <0,90 hipótese alternativa
Parâmetro de interesse: média da quantidade de
nicotina em um cigarro

Hipóteses:
H0: = 30 hipótese nula
H1: > 30 hipótese alternativa

onde  é a média de nicotina / cigarro


Dois tipos de erros podem ser cometidos:

Erro de tipo I:rejeitar H0 quando H0 é verdadeira


Erro de tipo II: não rejeitar H0 quando H0 é falsa

P(erro de tipo I) = 
P(erro de tipo II) = 

 : nível de significância do teste

Em um teste de hipótese,  é fixado


Para testar uma hipótese:

• fixamos o nível de significância . Em geral =0,05


• consideramos uma amostra da população em estudo
• calculamos o valor da estatística de teste apropriada
• rejeitamos ou não a hipótese H0

O conjunto de valores que levam à rejeição de H0 é


denominado região crítica ou região de rejeição
Os conceitos sobre testes de hipótese apresentados são
gerais, e são válidos para testes sobre diferentes
parâmetros.

Nesta aula vamos nos concentrar, de uma forma geral, em


testes sobre as médias de variáveis com distribuição
normal
Teste sobre a média de uma população (1 amostra)

Suponha que X seja uma variável aleatória com


distribuição N (,2)

Hipóteses: H0: =0


H1: 0

0: valor padrão de interesse


Procedimento:

• A partir de uma amostra de tamanho n, calcular a


x
média amostral e o desvio padrão amostral s;

• Calcular o valor da estatística de teste:


x  0
t0 
s/ n
Se H0 é verdadeira, então t0 tem distribuição t-Student
com n-1 graus de liberdade
0.4
0.3

T1
0.2

T5
T30
Z
0.1
0.0

-4 -2 0 2 4
• Rejeitar H0 se | t 0 | t  / 2 ,n 1

ou seja, se t0 pertence à região crítica do teste

Para hipóteses alternativas unilaterais:

• H1: <0 Rejeitar H0 se t0   t ,n 1


• H1: >0 Rejeitar H0 se t 0  t ,n 1
Um procedimento alternativo seria, ao invés de verificar
se o valor da estatística (t0) pertence à região crítica,
calcular do nível descritivo do teste (p-valor)

p-valor: probabilidade de que a estatística do teste


assuma um valor pelo menos tão extremo como o
observado na amostra, quando H0 é verdadeira
Se p<, H0 é rejeitada

Cálculo do p-valor

H0: =0 H1: 0 p= 2 x P(T >| t0|)


H0: =0 H1: <0 p= P(T < t0)
H0: =0 H1: >0 p=P(T>t0)

onde T tem distribuição t com n-1 graus de liberdade


Exemplo 2:
Um fabricante de cigarros afirma que seus cigarros
contêm, em média, não mais que 30 mg de nicotina.
Uma ONG anti-tabagismo não concorda com essa
afirmação, e colhe uma amostra aleatória de 81 cigarros
dessa marca para contestar a afirmação
Na amostra coletada, o conteúdo médio de nicotina foi
31,1 mg e desvio padrão de 3,7 mg.

Esses resultados são suficientes para contestar a


afirmação do fabricante?
As hipóteses apropriadas são

H0: =30mg
H1: >30mg
x  0 31 ,1  30
t0    2 , 68
s / n 3 , 7 / 81
t 0,05 ,80  1,66 Excel: INVT

Como t0 >1,66, H0 é rejeitada

Logo, ao nível de 5%, há evidências suficiente para


concluir que a afirmação do fabricante está incorreta, ou
seja, a contestação da ONG procede.
Cálculo do p-valor
Distribuição t com 80 graus de liberdade

0,4

0,3

0,2

0,1

p-valor Excel: DISTT


0,0

, 00 ,0
0
, 00 ,0
0 00 00 00 6 8 00 0 0
0, 1, 2, 2, 3 , 4,
-4 -3 -2 -1
p=0,004
Como verificar a suposição de normalidade?

Gráfico quantil-quantil
Comparação das médias de duas populações

Quando temos mais de um grupo de observações é


importante verificarmos se os dados são pareados
ou se as amostras são independentes

Observações pareadas:
• o mesmo indivíduo é observado em mais de uma
vez
• indivíduos diferentes pareados segundo outra
variável (idade, por exemplo)
Comparação de duas médias:
amostras pareadas

Estamos interessados na média das diferenças das


observações individuais

A vantagem do planejamento com pareamento é


que na análise dos dados é considerada a
variabilidade intra-indivíduos
Representação dos dados
par 1ª observação 2ª observação Diferença
1
2
3

variável de interesse
A análise se reduz ao problema de uma amostra, na
qual a variável a ser analisada é a diferença . A
hipótese apropriada é

H0: d=0 Pode ser unilateral,


H1: d≠0 dependendo do
objetivo do estudo

onde d é a média da diferença na população


Exemplo (Fisher e van Belle, 1993)
Nº de episódios de apnéia/hora
Paciente Pré Pós Diferença (Pré -Pós)
1 1,71 0,13 1,58
2 1,25 0,88 0,37
3 2,13 1,38 0,75
4 1,29 0,13 1,16
5 1,58 0,25 1,33
6 4 2,63 1,37
7 1,42 1,38 0,04
8 1,08 0,5 0,58
9 1,83 1,25 0,58
10 0,67 0,75 -0,08
11 1,13 0 1,13
12 2,71 2,38 0,33
13 1,96 1,13 0,83
Perfis individuais do Nº apnéias/ hora

Indivíduo
4 1
2
3
4
5
3
6
Nº apnéias por hora

7
8
9
2 10
11
12
13

Pré Pós
Período
Média da diferença = d = 0,77
Desvio padrão da diferença = S = 0,52

Estatística de teste
d 0 0 ,77
t0    5 ,28
s / n 0 ,52 / 13

p<0,001

Intervalo de confiança de 95% para a média da


diferença :
[0,45 ; 1,08]
Comparação de duas médias:
amostras independentes

O objetivo é comparar as médias de uma variável em


duas populações, com base em duas amostras
independentes
0,6

0,5

População 1 População 2
0,4

N(1,2) N(2,2)
0,3

0,2

0,1

0,0

amostra 1: x11, x12, ..., x1n1 amostra 2: x21, x22,..., x2n2


Hipóteses:

H0: 1 = 2
H1: 1  2
Dependendo do objetivo do estudo a hipótese
alternativa pode ser:

H1: 1 < 2 ou H1: 1 > 2


Estatística para o teste

x1  x2
t0 
s 1 / n1  1 / n 2

onde

x1 e x2 são as médias das amostras 1 e 2, respectivamente


2 2
( n  1 )s ( n  1 )s , s12 e s22 são as variâncias das
s2  1 1 2 2
n1  n 2  2 amostras 1 e 2, respectivamente

Variância amostral combinada


Sob H0, t0 tem distribuição t-Student com n1+n2-2
graus de liberdade

Para decidir pela rejeição ou não de H0:

• verificar se t0 pertence à região crítica


ou
• calcular o p-valor
• Rejeitar H0 se | t 0 | t  / 2,n1 n 2 2

ou seja, se t0 pertence à região crítica do teste

Para hipóteses alternativas unilaterais:

• H1: 1<2 Rejeitar H0 se t 0   t  ,n 1  n 2 2

• H1: 1>2 Rejeitar H0 se t 0  t ,n1 n 2 2


Cálculo do p-valor

H0: 1=2 H1: 12 p= 2 x P(T >| t0|)


H0: 1=2 H1: 1<2 p= P(T < t0)
H0: 1=2 H1: 1>2 p=P(T>t0)

onde T tem distribuição t com n1+n2-2 graus de


liberdade
Exemplo
Fumantes Não fumantes
Em um estudo realizado para 43,3 18,6
avaliar o efeito do tabagismo nos 46,0 15,1
padrões de sono foram 32,1 16,4
37,6 24,9
considerados dois grupos de 43,2 19,8
indivíduos: Fumantes e Não 38,1 18,4
fumantes. A variável observada 42,7 28,5
29,4 20,2
foi o tempo, em minutos, que se 50,2 20,6
leva para dormir. 33,8 21,8
33,2 31,6
33,8 31,1
26,0
27,9
33,9
Resumo dos dados
Grupo N Média Desvio padrão Mínimo Mediana Máximo
Fumantes 12 38,6 6,4 29,4 37,85 50,2
Não fumantes 15 23,7 5,9 15,1 21,8 33,9

50

40
Tempo (min)

30

20

10
Fumantes Não fumantes
Grupo
Gráfico de probabilidade normal (equivalente ao gráfico
quantil-quantil)
Probability Plot of Tempo (min)
Normal - 95% CI
99
Grupo
Fumantes
95 Não fumantes

90

80
70
Percent

60
50
40
30
20

10
5

1
0 10 20 30 40 50 60
Tempo (min)
Hipóteses: H0: 1 = 2
H1: 1  2

a= 0,05 (fixado)
( 12  1 ) 40 ,96  ( 15  1 ) 34 ,81
s2   37 ,7 s= 6,14
12  15  2

38 ,6  23,7
t0   6 ,29
6 ,14 1 / 12  1 / 15

n1=n2=27 n1+n2-2=25
t Distribution: Degrees of freedom=25

0.4
0.3
Density

0.2

0,05
0.1
0.0

-4 -2 0 2 4

x
1,71

ou: p<0,001
Portanto, o tempo médio no grupo dos fumantes é
maior que nos não fumantes

E se tivéssemos 3
grupos

Você também pode gostar