Você está na página 1de 43

Testes de hipóteses

Índice

1. Introdução............................................................................................................. 2
2. Metodologia do contrate de hipóteses .................................................................. 2
3. Tipos de erros nos testes de hipóteses .................................................................. 4
4. Testes de hipóteses clássicos ................................................................................ 7
4.1 Testes acerca da média de uma amostra....................................................... 7
4.1.2 Caso 1: A variância da população é conhecida ........................................ 7
Cálculo da probabilidade limite.......................................................................... 14
Cálculo da potência do teste ............................................................................... 15
4.1.2 Caso 2: Variância Desconhecida ou Amostras de Pequenas Amostras.. 19
Determinação do tamanho da amostra.................................................................... 24
4.2 Comparação das médias de duas amostras independentes ............................... 27
4.2.1 Teste de homogeneidade de duas variâncias .......................................... 28
4.2.2 Intervalo de confiança para a diferença de duas médias ............................... 29
4.2.3 Estimativa do tamanho das amostras............................................................. 30
4.3 Comparação das médias de duas amostras emparelhadas ................................ 34
4.4 Comparação de duas proporções ................................................................ 37
Exercícios propostos............................................................................................... 40
Bibliografia............................................................................................................. 43

IPCB 2005/2006 1
Testes de hipóteses

TESTES DE HIPÓTESES

1. Introdução

Um teste (ou contraste) de hipóteses é um procedimento estatístico cujo objectivo


consiste em decidir se se aceitam ou não como certos determinados pressupostos que se
estabelecem sobre o comportamento paramétrico (parâmetros estatísticos, distribuição
de probabilidades dos parâmetros ou relações entre parâmetros, etc.) de uma população,
a partir dos resultados observados numa amostra realizada sobre essa população,
quantificando o risco de erro inerente a cada uma das possíveis decisões. Isto é, um teste
de hipóteses é uma metodologia estatística cujo objectivo é ajudar o investigador a
tomar uma decisão acerca de uma população, através da análise de uma amostra retirada
dessa população em estudo.

Os testes de hipóteses mais frequentes nas áreas das Engenharias são:

- testar se uma amostra segue uma determinada função de distribuição de


probabilidades;
- testar, com base nos valores de uma amostra, se a média populacional tem um
determinado valor;
- testar se duas (ou mais) amostras diferentes provêm da mesma população isto é,
comparação das médias e variâncias das amostras).

2. Metodologia do contrate de hipóteses

A realização de um teste de hipóteses necessita de uma metodologia de trabalho que


garanta a minimização dos erros da decisão adoptada, e que portanto a decisão tomada
se efectue correctamente.

A hipótese que se pretende testar denomina-se hipótese nula, e representa-se por H 0 ;


qualquer outra hipótese, que não inclua a hipótese nula, denomina-se hipótese
alternativa, e representa-se por H1 . A hipótese nula baseia-se no pressuposto que a
amostra segue uma determinada lei de probabilidades, que explica a distribuição das
frequências na população de onde essa amostra foi retirada.

A hipótese alternativa de um teste de hipóteses não é única; por exemplo, num teste de
hipóteses clássico de comparação de duas médias, a hipótese nula é H 0 : x1 = x2 (que

IPCB 2005/2006 2
Testes de hipóteses

também se pode expressar por H 0 : x1 − x2 = 0 ), mas existem diversas hipóteses


alternativas, cuja eleição dependerá dos objectivos do próprio teste; assim, pode ter-se a
hipótese alternativa de um teste bilateral, H1 :x1 ≠ x2 (que também se pode escrever
como H1 :x1 − x2 ≠ 0 ), ou uma das duas hipóteses alternativas de teste unilateral,
concretamente, H1 : x1 < x2 ou H1 : x1 > x2 . Deverão ser os objectivos do ensaio, e o
respectivo delineamento experimental, que decidirão qual das três alternativas se deverá
usar em cada caso.

A definição da hipótese nula não é mero acaso, mas está condicionada aos pressupostos
estatísticos inerentes ao teste estatístico que se vai a realizar; isto é, e reportando-nos de
novo ao teste de comparação de duas médias, a hipótese nula será H 0 : x1 = x2 , e não
poderá ser H 0 :x1 ≠ x2 , pois o teste estatístico que se vai a utilizar na decisão tem como
pressuposto que sob a hipótese de se ter x1 − x2 = 0 , então as estatísticas que se
calculam para auxiliar na decisão seguem uma determinada função de distribuição de
probabilidades.

Os passos típicos para a realização de um teste de hipóteses são os que de seguida se


enumeram. A fim de facilitar a interpretação dos passos a seguir, apresenta-se em
paralelo um exemplo simples:
Passos num teste de hipóteses Exemplo
1. Definir as hipóteses nula e alternativa 1. H 0 : x A = xB H1 : x A ≠ xB
2. Definir o erro máximo admissível para a 2. Definir α = 5%
decisão (isto é, definir qual a probabilidade
máxima que estamos dispostos a correr de
aceitar H 0 como válida, quando na
realidade H 0 é falsa (erro de tipo I, ou α )
3. Definir uma estatística de teste 3. Definir a estatística de teste
x A − xB
T=
s A2 s2
+ B
N A NB
4. Definir a função de distribuição de 4. Admitindo que s A2 = sB2 e sob o
probabilidades da estatística de teste, sob o pressuposto que H é verdadeira, T segue
0
pressuposto que H 0 é verdadeira
uma distribuição t-Student com
( N A + N B − 2 ) graus de liberdade:
T ∼ t(α ; N A + N B − 2)

IPCB 2005/2006 3
Testes de hipóteses

5. Definir uma região de aceitação e uma 5. Estabelecida a função de distribuição de


região de rejeição (ou região crítica) de H 0 probabilidades de T, a região crítica é
definida:

0.45

0.4

0.35

0.3

0.25
0.2

0.15

0.1 1-α
α /2 α /2
0.05

0
-t c tc

15

22

29

36

43

50

57

64

71

78

85

92

99

106

113

120
Região de ac eitaç ão de Ho
Região c rític a Região c rític a

6. Definir o delineamento experimental e 6. Definir duas amostras de indivíduos, em


recolher as amostras de dados tudo semelhantes; a cada uma das unidades
experimentais, é atribuído de modo
completamente aleatório, um dos dois
tratamentos cujo efeito pretendemos
comparar. Recolha dos resultados.
7. Com base no delineamento experimental 7. Calcular a estatística de teste:
e no tipo de teste de hipóteses, calcular a x A − xB
estatística de teste T =
s A2 s2
+ B
N A NB
8. Aceitar ou rejeitar H 0 , com base na 8. Aceitar H 0 se:
estatística de teste e na região crítica T ∈  −t(1−α ; N A + N B − 2) ; t(1−α ; N A + N B − 2) 
 2 2 

3. Tipos de erros nos testes de hipóteses

Os testes de hipóteses são baseados em estatísticas de amostras realizadas na população,


pelo que, tal como estas, estão sujeitos a erros.

Consideremos um teste de hipóteses referente à comparação das médias de duas


amostras independentes:

H 0 : x A = xB H 1 : x A ≠ xB

Consideremos que foi definida a região de aceitação, tal que a hipótese nula é aceite se a
estatística de teste estiver no intervalo T ∈ [ −2.101; 2.101] , correspondente a um nível
de significância de 5% e a duas amostras cada uma com 10 observações.

Após recolher as duas amostras, em que dois dos valores da amostra A eram
anormalmente elevados quando comparados com os restantes oito valores da amostra A,
estes muito parecidos aos 10 elementos da amostra B, pode acontecer ter-se chegado a
um valor da estatística de teste T = 2.25 (exactamente devido a esses dois valores fora

IPCB 2005/2006 4
Testes de hipóteses

do comum) que, pela regra de decisão acima indicada, conduz à rejeição da hipótese
nula.

Isto é, quando a maior parte dos valores das duas amostras parecem indicar que as duas
amostras são muito iguais, não havendo razão para as considerar distintas, o facto de
numa delas existirem alguns valores anómalos pode levar à rejeição errónea da hipótese
nula, não porque as amostras não sejam iguais, mas antes, provavelmente, por uma
amostragem deficiente.

O inverso também pode acontecer: perante duas populações nitidamente distintas, as


amostragens para constituir os dois grupos de comparação podem estar viciadas, no
sentido de se terem seleccionado para ambas as amostras indivíduos muito homogéneos,
o que pode conduzir a uma estatística de teste anormalmente baixa (em valor absoluto),
e consequentemente à aceitação (errónea) da hipótese nula, quando na verdade ela
deveria ter sido rejeitada. Isto é, a hipótese nula, embora na realidade não seja
verdadeira, não foi rejeitada pelo teste, pois da amostra não resulta suficiente evidência
para a rejeição.

Isto é, nos testes de hipóteses há a possibilidade de se cometerem dois tipos de erros:

Erros do tipo I: consiste em rejeitar a hipótese nula, quando na realidade ele é válida;
Erros do tipo II: consiste em não rejeitar a hipótese nula quando na realidade é falsa.

De um modo esquemático:

Decisão H 0 verdadeira H 0 falsa

Aceitar H 0 Decisão correcta Erro do tipo II


1−α β
Não aceitar H 0 Erro do tipo I Decisão correcta
α 1− β

As probabilidades de, num teste estatístico, cometer algum destes dois tipos de erros,
são geralmente designadas por α e β , respectivamente:

α = Pr ( erro do tipo I ) = Pr ( rejeitar H 0 H 0 verdadeira )


β = Pr ( erro do tipo II ) = Pr ( nao rejeitar H 0 H 0 falsa )

O erro do tipo I também se designa frequentemente por nível de significância ou “risco


do vendedor”, na acepção de ser a probabilidade de não se vender o produto (rejeitar
H 0 ) quando este cumpre as condições estabelecidas no contrato ( H 0 verdadeira); o erro
do tipo II também se designa por “risco do comprador”, no sentido de ser a
probabilidade que o comprador tem de adquirir um produto (aceitar H 0 ) quando este
não cumpre as especificações ( H 0 falsa).

Como atrás se referiu, num teste de hipóteses geralmente especifica-se à priori um valor
para a probabilidade de cometer um erro do tipo I, e de seguida conduz-se o teste de

IPCB 2005/2006 5
Testes de hipóteses

modo a que se minimize a probabilidade de erro do tipo II, pelo menos para algum valor
do parâmetro no qual o teste se baseia.

Nota: está muito generalizada a utilização de alguns níveis de significância concretos,


nomeadamente α = 5% (o mais usual). Nada obsta a que se utilize este nível de
significância num teste de hipótese, mas deve alertar-se o leitor que este uso
generalizado resulta do facto de, quando se começaram a desenvolver estas
metodologias estatísticas (nos anos 1920), os meios de cálculo eram muito reduzidos,
comparativamente aos actuais. A definição da região crítica do teste resulta da função
de distribuição de probabilidades que a estatística de teste segue. O cálculo desta função
de distribuição de probabilidades é bastante complexo, requerendo meios de cálculo
automático, que não estavam disponíveis na época. Para contornar este obstáculo, os
estatísticos de então tiveram de tabelar as funções de distribuição de probabilidades,
para alguns valores de probabilidade, tendo-se então adoptado a regra de se usarem
níveis de significância de 2.5%, 5% ou 10%. Com os actuais meios de cálculo
disponíveis, qualquer programa estatístico calcula o nível de significância para o teste
em análise (p-value), sendo mais óbvio usar este valor para a decisão do teste.

A potência de um teste de hipóteses é a probabilidade:

Power = 1 − β = Pr(rejeitar H 0 H 0 falsa )

Alguns programas estatísticos calculam os valores de β e a potência do teste 1 − β para


valores específicos do parâmetro do teste (por exemplo a média), e apresentam um
gráfico denominado curva característica de operação, com o valor do parâmetro do teste
em abcissas e β em ordenadas, e um gráfico da potência do teste em que ao eixo das
ordenadas representa o valor da potência. De seguida veremos alguns exemplos.

Segundo o valor da estatística de teste, T , esteja mais ou menos próximo do calor


crítico, tc , que define a região crítica, o grau de aceitação ou de rejeição de H 0 será
diferente. Entende-se por nível significância limite, probabilidade limite, p-value ou
simplesmente p , à probabilidade de rejeitar H 0 quando o valor crítico tc coincide com
o valor da estatística de teste T . Isto é, p-value é a probabilidade de obter um valor da
estatística de teste pelo menos tão extrema quanto a calculada, quando a hipótese nula é
verdadeira. É o menor valor do nível de significância que permite a rejeição da hipótese
nula. Assim:

¾ Se p > α então aceita-se H 0 como verdadeira;


¾ Se p < α então não se aceita H 0 como verdadeira.

Note-se o paralelismo entre os testes de hipóteses e os intervalos de confiança: se a


estatística de teste se situa dentro da região de aceitação, significa que não há evidência
estatística, ao nível de significância α , para a rejeição da hipótese nula; isto equivale a
que o parâmetro estatístico (por exemplo, a média) se situe dentro do intervalo de
confiança 1 − α .

IPCB 2005/2006 6
Testes de hipóteses

4. Testes de hipóteses clássicos

4.1 Testes acerca da média de uma amostra

Num teste de hipóteses de média constante pretende-se confirmar se a média


µ (desconhecida) de uma população normal Ν ( µ ; σ ) toma um determinado valor
constante µ0 , a partir da informação proporcionada pelos dados de uma amostra
aleatória extraída dessa população.

A estatística de teste é estabelecida entre a diferença do parâmetro a estimar (a média da


amostra é um estimador da média populacional, x = µˆ ) e o valor que se deseja
contrastar ( µ0 ), dividida pelo erro padrão da média, isto é:

x − µ0
σx

4.1.2 Caso 1: A variância da população é conhecida

Embora o pressuposto de que seja conhecido o valor da variância da população σ 2 seja


raramente satisfeito, este caso é contudo um bom ponto de partida para a introdução aos
testes de hipóteses sobre a média.

A realização deste teste de hipóteses pressupõe a realização de uma amostra de tamanho


N, para estimar o valor da média da população; pretende-se testar se esta estimativa é o
verdadeiro valor da média da população, µ0 ; este teste de hipóteses terá uma das
seguintes formulações:

i) Teste bilateral: H 0 : µ = µ0 H1 : µ ≠ µ 0
ii) Teste unilateral direito: H 0 : µ = µ0 H1 : µ > µ 0
iii) Teste unilateral esquerdo: H 0 : µ = µ0 H1 : µ < µ 0

Se a hipótese nula é válida, a estatística de teste segue uma distribuição normal de


média zero e variância 1, isto é:

x − µ0 x − µ0
Z= = ∼ Ν ( 0;1) )
σx σ
N

A região crítica é definida pela distribuição normal estandardizada, isto é, para um


determinado valor de α , e de acordo com o tipo de teste (unilateral ou bilateral), os
limites das zonas crítica e de aceitação são definidas pela curva da distribuição normal

IPCB 2005/2006 7
Testes de hipóteses

Ν ( 0,1) de modo a que a zona crítica defina uma probabilidade de α e a zona de


aceitação defina uma probabilidade de 1 − α .

Assim, para o teste bilateral, tendo fixado um nível de α = 5% , a acontecer erro de tipo
I, este pode acontecer ou bem porque se rejeite H 0 quando o valor da média amostral é
muito superior à média populacional, ou bem porque se rejeite H 0 quando o valor da
média amostral é muito inferior à média populacional. Isto é, a região crítica é definida
em ambas as caudas da curva da distribuição, o que significa que os valores da
estatística de teste que levam à rejeição da hipótese nula devem estar mais afastados (em
qualquer das extremidades) do valor médio da curva da distribuição normal Ν ( 0,1) do
que o valor crítico Z c tal que:

Pr ( Z > Z c ) = α = 0.05
Pr ( Z < −Z c ) + Pr ( Z > Z c ) = α = 0.05

Como a curva da distribuição normal é simétrica, tem-se que:

Pr ( Z < −Z c ) = Pr ( Z > Z c ) = α = 0.025


2

2,5% 2,5%

ou seja:

Pr ( Z < Z c ) = 0.975

Nota: convém efectuar esta passagem, pois os programas estatísticos, bem como
algumas das tabelas da distribuição normal, apresentam os valores de função
de distribuição cumulativa.

IPCB 2005/2006 8
Testes de hipóteses

97.5%

1,96

O valor de Z c pode ser obtido de uma tabela da distribuição normal estandardizada, ou


de qualquer programa informático que calcule a distribuição normal, nomeadamente a
folha de cálculo Excel, com a função INV .NORM ( Pr; µ ; σ ) :

Isto é, o valor crítico que define a região de rejeição e de aceitação da hipótese nula é o
valor Z c = 1.96 ; assim, se o valor da estatística de teste for superior (em valor absoluto)
ao valor crítico, deve rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

¾ Se Z > Z c = 1.96 , então rejeitar H 0 ;


¾ Se Z ≤ Z c = 1.96 , então não rejeitar H 0 .

Note-se que o intervalo de confiança 1 − α para a média, baseado na estimativa amostral


da média x = µˆ , e pressupondo que a variância σ 2 é conhecida, é dado por:

IPCB 2005/2006 9
Testes de hipóteses

µ ∈ [ x ± Zα .σ x ]
 σ 
µ ∈  x ± Zα . 
 N
 σ σ 
µ ∈  x − Zα . ; x + Zα . 
 N N 

Para grandes amostras ( N > 30 ), mesmo que σ 2 não seja conhecida, tendo de estimar-
se pela variância amostral, a expressão anterior transforma-se em:

µ ∈ [ x ± Zα .sx ]
 s 
µ ∈  x ± Zα . 
 N
 s s 
µ ∈  x − Zα . ; x + Zα . 
 N N

Se o teste é unilateral, o erro do tipo I só poderá ocorrer numa das caudas da


distribuição, isto é, a região crítica tem apenas uma das zonas da extremidade da
distribuição, nomeadamente:

¾ Se o valor da média amostral é muito maior que a média populacional em teste,


a zona crítica é constituída pela cauda superior da distribuição; deve utilizar-se
quando o investigador suspeita que a média amostral é maior que µ0 .

¾ Se o valor da média amostral é muito menor que a média populacional em teste,


a zona crítica é constituída pela cauda inferior da distribuição; deve utilizar-se
quando o investigador suspeita que a média amostral é menor que µ0 .

Assim, e ao contrário do que acontecia no teste bilateral, toda a probabilidade de ocorrer


erro do tipo I se situa numa das caudas da distribuição:

i) Teste unilateral direito: Pr ( Z > Z c ) = α = 0.05

Em termos de função cumulativa de probabilidades, esta probabilidade é


equivalente a:

Pr ( Z < Z c ) = 0.95

IPCB 2005/2006 10
Testes de hipóteses

95%

1.645

Por consulta numa tabela da distribuição normal, ou com recurso a um programa


estatístico, o valor crítico correspondente é Z c = 1.645 :

Assim, se o valor da estatística de teste for superior ao valor crítico, deve


rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

¾ Se Z > Z c = 1.645 , então rejeitar H 0 ;


¾ Se Z ≤ Z c = 1.645 , então não rejeitar H 0 .

ii) Teste unilateral esquerdo: Pr ( Z < −Z c ) = α = 0.05

Como esta probabilidade se refere à cauda esquerda da distribuição, corresponde


à função cumulativa de probabilidades. Por consulta numa tabela da
distribuição normal, ou com recurso a um programa estatístico, o valor crítico
correspondente é −Z c = −1.645 :

IPCB 2005/2006 11
Testes de hipóteses

Assim, se o valor da estatística de teste for inferior ao valor crítico, deve


rejeitar-se a hipótese nula; caso contrário, não se rejeita, isto é:

¾ Se Z < −Z c = −1.645 , então rejeitar H 0 ;


¾ Se Z ≥ −Z c = −1.645 , então não rejeitar H 0 .

Exemplo:

Foi medida a concentração de monóxido de carbono (mg/m3) em diversos pontos de


uma cidade, tendo-se obtido os seguintes valores:

10.25 10.37 10.66 10.47 10.56 10.22


10.44 10.38 10.63 10.40 10.39 10.26
10.32 10.35 10.54 10.33 10.48 10.68

Admitindo que o erro padrão da média é de σ x = 0.24mg / m3 (de medições anteriores),


pretende-se testar se se pode considerar que a concentração média de monóxido de
carbono é de 10 mg/m3 (valor de referência de medições anteriores).

O teste de hipóteses é o seguinte:

H 0 : x = 10 mg / m3 H1 : x ≠ 10 mg / m3

Como se admite conhecer o erro padrão da média da população ( σ x = 0.24 mg / m3 ), a


estatística de teste é:

x − µ0
Z= ∼ Ν ( 0,1)
σx

que segue uma distribuição normal estandardizada.

IPCB 2005/2006 12
Testes de hipóteses

Para um teste bilateral, como atrás se explicou, e para um nível de significância


α = 5% , a região de aceitação da hipótese nula é Z ≤ 1.96 e a região crítica é
Z > 1.96 .
18

∑x i
Com base na amostra, estima-se a média amostral ( x = = 10.429 ) que se pretende
i =1

18
comparar com a média de referência ( µ0 = 10 mg / m3 ), e de seguida calcula-se a
estatística de teste:

x − µ0 10.429 − 10
Z= = = 1.788
σx 0.24

Como (Z = 1.788 ) < ( Z c = 1.96 ) , isto é, o valor da estatística de teste está dentro da
região de aceitação, conclui-se que não há evidência estatística para rejeitar a hipótese
nula, isto é, concluímos que se deve aceitar que a concentração média de monóxido de
carbono, medida neste dia, não difere da concentração média de referência.

O intervalo de confiança para a média da população, com base na média amostral, é


dado por:

µ ∈ [ x ± Zα .σ x ]
µ ∈ [10.429 ± 1.96 × .24]
µ ∈ [9.9586;10.8994]

A interpretação do intervalo de confiança é a seguinte: efectuando múltiplas


amostragens desta população (isto é, efectuando múltiplas amostragens do teor de
monóxido de carbono nesta cidade), e calculando a respectiva média, existe a
probabilidade de 1 − α de as médias se situarem no interior deste intervalo. Como o
valor de referência ( µ0 = 10 ) fica dentro do intervalo, é estatisticamente verosímil que
ocorra este valor como sendo o valor da média.

Caso se pretendesse testar se neste dia a concentração média monóxido de carbono é


superior à média de referência, efectuava-se o teste unilateral:

H 0 : x = 10 mg / m3 H1 : x > 10 mg / m3

A estatística de teste tem a mesma distribuição de probabilidades e o mesmo valor. A


única alteração a fazer, é a definição da região crítica, em que toda a probabilidade de
erro ocorre na cauda superior da distribuição, como atrás se referiu. Para um nível de
significância α = 5% , a região de aceitação da hipótese nula é Z ≤ 1.645 e a região
crítica ou de rejeição é Z > 1.645 .

Como a estatística de teste é Z=1.788, conclui-se que se deverá rejeitar a hipótese nula,
ou seja, deve concluir-se que, aparentemente, neste dia a concentração de monóxido de
carbono é superior ao valor médio de referência.

IPCB 2005/2006 13
Testes de hipóteses

Note-se que parece haver uma contradição na decisão tomada, conforme se opte por
efectuar um teste bilateral ou um teste unilateral. Assim, é da responsabilidade do
investigador decidir previamente os seus objectivos, de modo a evitar esta aparente
ambiguidade da Estatística. Recordemo-nos que os testes de hipóteses, tal como todas
as metodologias estatísticas, são meras ferramentas de apoio ao investigados, e não um
substituto do investigador.

Cálculo da probabilidade limite

Esta aparente ambiguidade pode ultrapassar-se se, em vez de fixar taxativamente e a


priori, um nível de significância, optarmos por calcular a probabilidade limite, ou p-
value, e em face deste valor, fazer a decisão. Aliás, qualquer programa estatístico
apresenta este valor.

Tal como definido atrás, a probabilidade limite representa a probabilidade de obter um


valor da estatística de teste pelo menos tão extrema quanto a calculada, quando a
hipótese nula é verdadeira. No fundo, representa a probabilidade de uma “região crítica”
definida pelo valor da estatística de teste.

Assim, o p-value é calculado com base no valor da estatística de teste e na função de


distribuição de probabilidades que esta segue, colocando a região crítica nas zonas
exteriores ao valor da estatística de teste.

Teste bilateral: p − value = Pr ( Z > Z )


Teste unilateral direito: p − value = Pr ( Z > Z )
Teste unilateral esquerdo: p − value = Pr ( Z < − Z )

em que Z representa o quantil da distribuição e Z é a estatística de teste.

No exemplo anterior o valor da estatística de teste é Z = 1.788 , e pelos pressupostos do


teste, distribui-se segundo a normal estandardizada. A probabilidade limite é:

p − value = Pr ( Z > Z ) = Pr ( Z > 1.788 )


= Pr ( Z < −1.788 ) + Pr ( Z > 1.788 )
= Pr ( Z < −1.788 ) + 1 − Pr ( Z < 1.788 ) 
= 0.0369 + [1 − 0.9631]
= 0.0738

Os valores das probabilidades são obtidos consultando uma tabela da distribuição


normal estandardizada, ou usando qualquer programa que a calcule. Por exemplo, na
folha de cálculo Excel, a função DIST .NORMP ( Z ) dá a distribuição normal
acumulada, isto é Pr ( Z < Z ) :

IPCB 2005/2006 14
Testes de hipóteses

Tratando-se de um teste bilateral, para obter a probabilidade limite deve multiplicar-se


este valor por 2, sendo portanto p − value = 0.0738 . Assim, pode dizer-se que, para um
nível de significância de α = 5% , a hipótese nula não seria rejeitada; porém, seria
rejeitada para α = 7.5% ou para α = 10% .

No caso do teste unilateral direito, teríamos:

p − value = Pr ( Z > Z ) = Pr ( Z > 1.788 )


= 1 − Pr ( Z < 1.788 )
= 1 − 0.9631
= 0.0369

valor este que leva à rejeição da hipótese nula para qualquer nível de significância
superior a 3.7%.

Cálculo da potência do teste

A potência do teste é a probabilidade de um teste de hipóteses rejeitar a hipótese nula,


quando ela é falsa:

Power = 1 − β = Pr(rejeitar H 0 H 0 falsa )

sendo:

β = Pr ( erro do tipo II ) = Pr ( nao rejeitar H 0 H 0 falsa )

O cálculo de 1 − β (potência) faz-se admitindo que a média tem outro valor µ1 ,


diferente de µ0 ; nesta situação, calcula-se a probabilidade de que a hipótese H 0 : µ0
seja rejeitada se na realidade a média fosse µ1 .

No exemplo anterior, seja o novo valor da média µ1 = 9 .

IPCB 2005/2006 15
Testes de hipóteses

Com base no valor µ0 = 10 , (e sendo σ x = 0.24 , α = 0.05 ), calculam-se os limites da


x −µ
região de aceitação; para tal, a partir da expressão Z = obtêm-se os limites
σx
críticos:

xc = µ ± Z .σ x

sendo Z = 1.96 para α = 0.05 . A região de aceitação da hipótese nula H 0 : µ0 = 10 é


para valores de média no intervalo µ ∈ [9.5296;10.4704] .

De seguida, com base no novo valor presumido para a média, calcula-se a probabilidade
de rejeição da hipótese nula se o valor da média fosse µ1 = 9 :

1− β = Pr ( rejeitar H 0 | H 0 Falsa, com µ1 = 9 )


= Pr ( µ < 9.5296 ou µ > 10.4704, com µ1 = 9 )
 9.5296 − 9   10.4704 − 9 
= Pr  Z <  + Pr  Z > 
 0.24   0.24 
= Pr ( Z < 2.2067 ) + Pr ( Z > 6.1267 )
= 0.9864

D modo igual podemos calcular a potência do teste para outros valores presumidos para
a média. Por exemplo, quando µ1 = 9.5 :

1− β = Pr ( nao rejeitar H 0 | H 0 Falsa, com µ1 = 9.5 )


= Pr ( µ < 9.5296 ou µ > 10.4704, com µ1 = 9.5 )
 9.5296 − 9.5   10.4704 − 9.5 
= Pr  Z <  + Pr  Z > 
 0.24   0.24 
= Pr ( Z < 0.1233) + Pr ( Z > 4.0433)
= 0.5491

Para µ1 = µ0 = 10 :
1− β = Pr ( nao rejeitar H 0 | H 0 Falsa, com µ1 = 10 )
= Pr ( µ < 9.5296 ou µ > 10.4704, com µ1 = 10 )
 9.5296 − 10   10.4704 − 10 
= Pr  Z <  + Pr  Z > 
 0.24   0.24 
= Pr ( Z < −1.96 ) + Pr ( Z > 1.96 )
= 0.025 + 0.025
= 0.05

IPCB 2005/2006 16
Testes de hipóteses

Isto é, para o verdadeiro valor da média, a potência do teste 1 − β coincide com o nível
de significância α do teste. Note-se que quanto mais afastado se encontra um valor da
verdadeira média, mais potente é o teste, isto é, maior é a probabilidade de o teste
rejeitar a hipótese nula, quando a hipótese nula é falsa.

Diversos programas estatísticos calculam a potência do teste, para valores de médias


afastados do verdadeiro valor. No caso do MINITAB, há que indicar qual o tamanho da
amostra, o desvio padrão ( σ ), e um ou diversos valores da diferença entre novos
valores de média e o verdadeiro valor da média (por exemplo, nos dois exemplos
anteriores, estas diferenças são de –1 e –0.5 respectivamente):

Os resultados são os seguintes:

IPCB 2005/2006 17
Testes de hipóteses

Notas: calcularam-se os valores da potência do teste para os seguintes valores de


médias: 9, 9.25, 9.5, 9.75, 10, 10.25, 10.5 10.75, 1, que diferem da verdadeira
média µ0 = 10 respectivamente em –1, -0.75, -0.5, -0.25, 0, 0.25, 0.5, 0,75, 1.
O valor do desvio padrão (sigma σ = 1.01823 ) corresponde ao erro padrão da
média σ x = 0.24 , com N=18.

Alguns programas estatísticos apresentam o gráfico da potência do teste e/ou o gráfico


da curva característica de operação. De seguida apresenta-se a curva de potência para
um teste de hipóteses semelhante ao anterior, elaborado no programa
STATGRAPHICS:

Power Curve
1

0,8
Power

0,6

0,4

0,2

0
-0,48 -0,28 -0,08 0,12 0,32 0,52
True Mean

No MINITAB podem calcular-se os valores da potência do teste para diversos valores


de diferenças µ1 − µ0 e levar esses valores para uma folha de cálculo, onde se calcula o
valor de β e se realizam o gráfico da potência e a curva característica de operação:

Po tê n cia

0,8

0,6

0,4

0,2

0
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

µ 1 -µ 0

IPCB 2005/2006 18
Testes de hipóteses

Cu r va car acte r ís tica d e o p e r ação

0,8

0,6

0,4

0,2

0
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

µ 1 -µ 0

4.1.2 Caso 2: Variância Desconhecida ou Amostras de


Pequenas Amostras

Tal como no caso anterior, realização deste teste de hipóteses pressupõe a realização de
uma amostra de tamanho N, para estimar o valor da média da população; pretende-se
testar se esta estimativa é o verdadeiro valor da média da população, µ0 . Esta é a
situação mais realista, em que não se conhece a priori o valor da variância da população,
mas em que terá de estimar-se (tal como a média) a partir da amostra. Para pequenas
amostras, digamos N < 30 , que é a situação mais frequente em testes de hipóteses nas
áreas das Ciências Agrárias, normalmente não se conhece a variância da população, de
modo que se deverá utilizar esta metodologia.

A estimativa da variância é dada por:

  N  
2

 ∑ xi  1  N 2
1  N 2  i =1   
s =
2
 ∑
N − 1 i =1
xi −
N 
=  ∑
N − 1  i =1
xi − N .x 2 

 
 
 

Este teste de hipóteses terá uma das seguintes formulações:

i) Teste bilateral: H 0 : µ = µ0 H1 : µ ≠ µ 0
ii) Teste unilateral direito: H 0 : µ = µ0 H1 : µ > µ 0
iii) Teste unilateral esquerdo: H 0 : µ = µ0 H1 : µ < µ 0

Se a hipótese nula é válida, a estatística de teste segue uma distribuição t-Student com
N − 1 graus de liberdade:

IPCB 2005/2006 19
Testes de hipóteses

x − µ0 x − µ0
T= = ∼ t(α ; N −1)
sx s
N

A região de aceitação e a região crítica do teste são definidas pela distribuição t-Student,
para um determinado nível de significância e para N − 1 graus de liberdade. Esta
distribuição tem uma forma muito aproximada à distribuição normal, tanto mais
próxima da normal quanto maior for o tamanho da amostra. De um modo geral, para
amostras de grande dimensão ( N > 30 ), a curva da distribuição t-Student praticamente
coincide com a curva da distribuição normal estandardizada, sendo praticamente iguais
as probabilidades definidas pelas duas distribuições.

Se a estatística de teste fica na região crítica do teste, deve rejeitar-se a hipótese nula;
caso contrário, não há evidência estatística para rejeitar H 0 . A decisão também pode ser
feita pelo valor da probabilidade limite:

¾ Se p > α então aceita-se H 0 como verdadeira;


¾ Se p < α então não se aceita H 0 como verdadeira.

Assim, para o teste bilateral, tendo fixado um nível de α = 5% :

( )
Pr T > tα ; N −1 = α = 0.05
Pr (T < −tα ; N −1 ) + Pr (T > tα ; N −1 ) = α = 0.05

Como a curva da distribuição normal é simétrica, tem-se que:

Pr (T < −tα ; N −1 ) = Pr (T > tα ; N −1 ) = α = 0.025


2

2,5 2,5

-t t

O valor crítico de tα ; N −1 pode ser obtido através da consulta de uma tabela da


distribuição t-Student, ou usando um programa informático que calcule esta

IPCB 2005/2006 20
Testes de hipóteses

distribuição. Na folha de cálculo Excel, o valor tα ; N −1 para uma situação de teste


bilateral é dada pela função INVT (α ; N − 1) :

Isto é, para uma amostra de tamanho N = 18 e para um nível de significância de


α = 5% , a região de aceitação para um teste bilateral é T ∈ [ −2.11; 2.11] e a região
crítica é T > 2.11 .

Para pequenas amostras ( N < 30 ), ou quando σ 2 não é conhecida e tem de estimar-se


pela variância amostral, o intervalo de confiança da média é:

 s   s s 
µ ∈  x ± t(α ; N −1) .sx  =  x ± t(α ; N −1) .  =  x − t(α ; N −1) . ; x + t(α ; N −1) . 
 N   N N

Tratando-se de um teste unilateral (por exemplo, esquerdo), temos:

α = 5%

t= -1.740

Pr (T < tα ; N −1 ) = α = 0.05

IPCB 2005/2006 21
Testes de hipóteses

Para N = 18 e α = 5% , t( 0.05;17 ) = −1.740 , sendo a região crítica T < −1.740 e a região


de aceitação T > −1.740 .

Nota: a função INVT (α ; N − 1) dá o quantil da distribuição t-Student bilateral, isto é,


em que metade da probabilidade α se encontra na cauda esquerda (isto é,
Pr (T < −tc ) = α 2 ) e a outra metade na cauda superior ( Pr (T > tc ) = α 2 ). Para
obter o quantil da distribuição unilateral, temos de simular uma situação em que
toda a probabilidade que nos interessa está acima desse quantil; assim, para
obter o quantil para α = 5% , na situação unilateral esquerda, temos que entrar
com uma probabilidade de 10%; além disso, dá o quantil no lado positivo da
distribuição; se se trata do teste unilateral direito, é este quantil que nos
interessa; para o teste unilateral esquerdo, o interessa-nos o simétrico deste
quantil:

Como se trata de um teste unilateral esquerdo, o valor crítico é t(.05;17 ) = −1.740 .

Exemplo:

No exemplo anterior admitiu-se conhecido o erro padrão da média da população,


σ x = 0.24 , admissão esta que muitas vezes não é possível. A situação mais verosímil é
que a variância tenha de ser estimada a partir dos dados da amostra.

Com base nas 18 observações efectuadas, pretende-se testar se podemos aceitar a


hipótese de que a concentração média de monóxido de carbono é de µ0 = 10 mg / m3 :

H 0 : x = 10 H1 : x ≠ 10

A partir dos dados da amostra calculemos a média e o desvio padrão.

IPCB 2005/2006 22
Testes de hipóteses

18

∑x i
x= i =1
= 10.429
18

  N  
2

 ∑ xi 
1  N 2  i =1   1  187.732 
s =
2
∑i
N − 1  i =1
x −
N
=
 17 
1958.251 −
18 
 = 0.0195
 
 
 

A estatística de teste é:

x − µ0 ( x − µ0 ) N (10.429 − 10 ) 18
T= = = = 13.034
s s 0.0195
N

O valor crítico da distribuição t-Student, para N = 18 e para um nível de significância


de α = 5% é t( 0.05;17 ) = 2.11 a região de aceitação para um teste bilateral é
T ∈ [ −2.11; 2.11] e a região crítica é T > 2.11 . Como o valor T = 13.034 é nitidamente
superior ao valor crítico, não nos restam dúvidas que se deverá rejeitar a hipótese nula.

O intervalo de confiança 1 − α = 0.95 para a verdadeira média da população, com base


na média da amostra é:

µ ∈  x ± t(α ; N −1) .sx 


 s 
µ ∈  x ± t(α ; N −1) . 
 N
 0.0195 
µ ∈ 10.429 ± 2.11× 
 18 
µ ∈ [10.3595;10.4985]

Para proceder ao teste unilateral, basta comparar T = 13.034 com o valor t crítico
anteriormente calculado, t( 0.05;17 ) = 1.740 . Não nos restam dúvidas que neste dia a
concentração de monóxido de carbono é significativamente superior ao valor de
referência µ0 = 10 .

O cálculo da probabilidade limite, p-value, é impraticável, a não ser com auxílio de um


programa que calcule a distribuição t-Student.Os programas estatísticos calculam este
valor. Trata-se de calcular:

p − value = Pr ( t > T ) = Pr ( t > 13.034 )


= Pr ( t < −13.034 ) + Pr ( t > 14.034 )

IPCB 2005/2006 23
Testes de hipóteses

A função DISTT (T ; N − 1; caudas ) da folha de cálculo Excel calcula esta probabilidade


( T é o valor da estatística de teste, para a qual se pretende calcular a probabilidade
limite, e caudas representa se é um teste unilateral ou bilateral):

Isto é, a probabilidade de que, sendo verdadeira a hipótese nula, se tenha uma estatística
de teste tão elevada quanto a obtida, é praticamente nula ( p − value = 2.81E − 10 ≈ 0 ).

Determinação do tamanho da amostra

Uma questão frequente é “qual deve ser o tamanho da amostra para se obter uma
determinada precisão?”. A resposta a esta questão está relacionada com o conceito de
intervalo de confiança: um intervalo de confiança expressa a precisão de uma estatística
amostral, sendo a precisão maior quando o intervalo de confiança é mais estreito, e isto
consegue-se aumentando o tamanho da amostra.

Retomemos a expressão do intervalo de confiança

 s 
µ ∈  x ± t(α ; N −1) .sx  =  x ± t(α ; N −1) .  = [x ± d ]
 N 

t(α ; N −1) .s
em que a parcela d = representa a semiamplitude do intervalo de confiança.
N
Repare-se que d varia na razão inversa da raiz quadrada do tamanho da amostra: quanto
maior for a amostra, menor será a amplitude do intervalo, logo maior será a precisão da
média.

A amplitude do intervalo varia directamente com a variabilidade da amostra, expressa


pela sua variância; quanto maior for a variabilidade de uma população, maior deverá ser
o tamanho da amostra a fim de que a estimativa da variância seja um estimador centrado
(não enviezado).

IPCB 2005/2006 24
Testes de hipóteses

Para um valor de variância determinado, s 2 , e para uma precisão fixada pela


semiamplitude d , o tamanho da amostra pode ser estimado por:

t(α ; N −1) .s t(2α ; N −1) .s 2


N = ⇔N=
d d2

A expressão anterior pretende estimar o tamanho da amostra para atingir uma


determinada precisão, em termos de amplitude do intervalo de confiança. Contudo, a
questão da precisão do teste pode ser colocada em termos de probabilidades de cometer
erros de tipo I e de tipo II: qual deverá ser o tamanho da amostra para que seja
significativa a diferença δ = µ0 − µ1 entre a verdadeira média µ0 e uma média
alternativa µ1 . A solução para esta questão prende-se com o conceito de potência do
teste, já anteriormente abordada.

O tamanho mínimo do teste para detectar diferença significativa em δ = µ0 − µ1 é:

s2
( )
2
N= . t(α ; N −1) + t( β ; N −1)
δ 2

Os programas estatísticos, nomeadamente MINITAB, procedem à estimativa do


tamanho da amostra por esta segunda expressão.

Contudo, a estimação envolve um processo iterativo de cálculo, já que a variável a


estimar N se encontra em ambos os lados da igualdade. Geralmente inicia-se o
processo com um valor de N atribuído por palpite, ou então admitindo que se trata de
uma grande amostra, em que a distribuição t-Student é muito aproximada à distribuição
normal, e na primeira iteração usa-se o quantil Zα para a primeira estimação de N ; na
segunda iteração (e seguintes), já é possível usar o quantil t α ; N * −1 , em que N * é o valor
( )
de N da iteração anterior. O processo prossegue até que o valor estimado de
N convirja. É este o algoritmo de estimação de N implementado nos programas
estatísticos que estimam o tamanho da amostra (por exemplo, MINITAB).

Exemplo:

No exemplo anterior ( x = 10.429; s 2 = 0.0195 ), qual deverá ser o tamanho da amostra


para que o intervalo de confiança 1 − α = 0.95 para a concentração média de monóxido
de carbono não tenha uma amplitude superior a 0.1 mg/m3 (isto é, d = 0.05 )?

Vamos começar a estimação, admitindo a aproximação da distribuição t-Student pela


distribuição normal estandardizada. Assim, para α = 0.05 , Z 0.05 = 1.96 , e a primeira
iteração vem:

Z 0.05
2
.s 2 1.962 × 0.0195
N* = = = 30
d2 0.052

IPCB 2005/2006 25
Testes de hipóteses

Na segunda iteração já podemos usar a distribuição t-Student, sendo t( 0.05;29) = 2.045 :

t 20.05; N * −1 .s 2
( ) 2.0452 × 0.0195
N =
*
= = 32
d2 0.052

Na iteração seguinte t( 0.05;31) = 2.040 :

2.0402 × 0.0195
N =
*
= 33
0.052

Na iteração seguinte t( 0.05;32) = 2.037 :

2.037 2 × 0.0195
N =
*
= 33
0.052

O processo já convergiu para um valor constante, devendo ser o valor do tamanho da


amostra pretendido N = 33 .

Se a questão fosse colocada nos seguintes termos: Qual o tamanho da amostra


necessário para que seja significativamente diferente da média de referência
µ0 = 10 mg / m3 uma média amostral de x = 10.1 mg / m3 (isto é, δ = 0.1 ), para um nível
de significância α = 5% e uma potência 1 − β = 95% ?

Na primeira iteração usaremos os quantis da probabilidade normal estandardizada;


assim, para α = 5% e β = 5% , Z 0.05 = 1.96 :

0.0195 × (1.96 + 1.96 )


2
s2
. ( Zα + Z β )
2
N =
*
= = 30
δ2 0.12

Para a segunda iteração já dispomos de uma estimativa de N que nos permite estimar os
graus de liberdade e os quantis da distribuição t-Student t( 0.05;29) = 2.045 :

0.0195 × ( 2.045 + 2.045 )


2
s2
( )
2
N =
*
. t(α ; N −1) + t( β ; N −1) = = 33
δ2 0.12

Para a terceira iteração, t( 0.05;32) = 2.037 :

0.0195 × ( 2.037 + 2.037 )


2
s2
( )
2
N =
*
. t(α ; N −1) + t( β ; N −1) = = 33
δ2 0.12

O processo iterativo é razoavelmente rápido na convergência; no caso, convergiu após 3


iterações para uma estimativa do tamanho amostral N = 33 .

IPCB 2005/2006 26
Testes de hipóteses

4.2 Comparação das médias de duas amostras independentes

Um teste de hipóteses estatístico clássico em Ciências Agrárias consiste em comparar as


médias de duas amostras, pressupostamente retiradas da mesma população com
distribuição normal1.

Seja a amostra A com N A indivíduos, cuja média é x A e variância s A2 e a amostra B com


N B indivíduos, cuja média é xB e variância sB2 . Pretende-se efectuar o seguinte teste de
hipóteses (bilateral):

H 0 : x A = xB + δ 0 H 1 : x A ≠ xB + δ 0

que é equivalente a:

H 0 : x A − xB = δ 0 H 1 : x A − xB ≠ δ 0

em que δ 0 é a diferença entre as médias das duas amostras. O mais habitual é pretender-
se verificar se as duas médias são iguais, situação em que δ 0 = 0 , sendo então as
expressões dos testes de hipóteses:

H 0 : x A = xB H 1 : x A ≠ xB

que é equivalente a:

H 0 : x A − xB = 0 H 1 : x A − xB ≠ 0

Os testes unilaterais possíveis são:

H 0 : x A = xB H1 : x A > xB , equivalente a H 0 : x A − xB = 0 H 1 : x A − xB > 0

ou:

H 0 : x A = xB H1 : x A < xB , equivalente a H 0 : x A − xB = 0 H 1 : x A − xB < 0

A estatística de teste é:

1
Se a população de onde as amostras foram retiradas viola o pressuposto da distribuição normal, a
validade do teste pode estar comprometida. Nesta situação, é preferível efectuar um teste não paramétrico,
que exige o pressuposto da distribuição normal.

IPCB 2005/2006 27
Testes de hipóteses

T=
( x A − xB ) − δ 0
s A2 s2
+ B
N A NB

Como geralmente δ 0 = 0 :

T=
( x A − xB )
s A2 sB2
+
N A NB

Esta estatística de teste segue uma distribuição t-Student, com um nível de significância
α e gl graus de liberdade, conforme as variâncias das duas amostras são ou não
homogéneas:

¾ variâncias homogéneas: gl = N A + N B − 2
2
 s A2 sB2 
 + 
N NB 
¾ variâncias não são homogéneas: gl =  A2 2
(fórmula de Welch)
 s A2   sB2 
   
 N A  +  NB 
N A −1 NB −1

No caso de as variâncias serem homogéneas, pode estimar-se a variância ponderada,


comum às duas amostras pela expressão:

s 2
=
( N A − 1) .s A2 + ( N B − 1) .sB2
N A + NB − 2

e nesta situação, a expressão da estatística de teste pode escrever-se:

T=
( x A − xB ) =
( x A − xB )
 1 1  1 1
s2 . +  s. +
 N A NB  N A NB

Assim, antes de efectuar o teste de comparação das duas médias, há que decidir
previamente se as variâncias das duas amostras são ou não homogéneas.

4.2.1 Teste de homogeneidade de duas variâncias

Para verificar se as variâncias de duas amostras são homogéneas, elabora-se o seguinte


teste de razão de duas variâncias:

IPCB 2005/2006 28
Testes de hipóteses

H 0 : s A2 = sB2 H1 : s A2 ≠ sB2

que é equivalente a:

s A2 s A2
H0 : 2 = 1 H1 : 2 ≠ 1
sB sB
s A2
A estatística de teste 2 segue uma distribuição F(α ; N A −1; N B −1) .
sB

O valor crítico da distribuição F para o nível de significância α e N A − 1 e N B − 1 graus


de liberdade, pode ser obtido a partir de uma tabela desta distribuição ou usando um
programa que a calcule. Na folha de cálculo Excel a função que dá este valor é a função
INVF (α ; N A − 1; N A − 1) :

Alguns programas estatísticos (MINITAB, SPSS) apresentam o teste de Levene para a


homogeneidade das variâncias.

O teste de Levene consiste em efectuar uma análise de variância simples aos valores
absolutos dos desvios de cada observação para a mediana de cada uma das variáveis. A
estatística de teste é um valor F, que segue uma distribuição F de Snedecor, com 1 e
N A + N B − 1 graus de liberdade, isto é, Fteste ∼ F(α ;1; N A + N B −1) .

4.2.2 Intervalo de confiança para a diferença de duas médias

O intervalo de confiança para a diferença entre as médias de duas amostras é dado por:

 s A2 s2 
( xA − xB ) ∈ ( xA − xB ) ± t(α ;GL) . + B 
 N A N B 

IPCB 2005/2006 29
Testes de hipóteses

No caso de as variâncias serem homogéneas, e sendo s a variância ponderada comum


às duas amostras, a expressão para este intervalo é:

 1 1 
( xA − xB ) ∈ ( xA − xB ) ± t(α ; N A + N B − 2)
.s. + 
 N A NB 

A analogia do intervalo de confiança para a diferença entre duas médias e o teste de


comparação de duas médias é a seguinte: se o intervalo de confiança inclui o zero,
significa que há a possibilidade 1 − α de que a diferença entre as duas médias seja nula,
ou seja, que as duas médias sejam iguais.

4.2.3 Estimativa do tamanho das amostras

Tal como no caso do teste de hipóteses de comparação de uma média amostral com a
média populacional, também no caso do teste de hipóteses de comparação de duas
médias amostrais, a estimativa do tamanho das amostras pode ser abordado em termos
da precisão do teste traduzida pela semiamplitude do intervalo de confiança para a
diferença das duas médias, ou em termos da precisão traduzida pela potência do teste.

Se dispomos da semiamplitude do intervalo de confiança onde deverá situar-se a


diferença entre as duas médias, o tamanho N = N A = N B de cada uma das duas
amostras é dado por:

2s 2t(2α ;2 N − 2)
N=
d2

Pretendendo estimar o tamanho de cada uma das amostras em função da potência


1 − β do teste, a estimativa é dada por:

( )
2
2s 2 t(α ;2 N − 2) + t( β ;2 N − 2)
N=
δ2

em que s 2 é a variância ponderada comum às duas amostras e δ = µ1 − µ 2 é a diferença


entre médias correspondente à potência 1 − β do teste.

É preferível delinear os ensaios com tamanhos iguais, isto é, N A = N B , porém esta


prática pode ser impraticável em determinadas situações. Se, por qualquer motivo, uma
das amostras estiver restringida ao tamanho N1 , então a outra amostra deverá ter o
tamanho:

N .N1
N2 =
2 N1 − N

Exemplo

IPCB 2005/2006 30
Testes de hipóteses

Num ensaio de nutrição em suínos, pretende-se estudar o efeito da suplementação com


vitamina B12. Dois lotes de 8 leitões cada, com peso vivo aproximado de 30 kg, e nas
mesmas condições de crescimento, com o mesmo tipo de alimentação, etc, foram
colocados em teste, um dos lotes com suplementação com B12 e o outro sem vitamina
B12. Os aumentos médios de peso diário, durante a duração do ensaio, foram os
seguintes (em libras):

Com B12 1.60 1.68 1.75 1.64 1.75 1.79 1.78 1.77
Sem B12 1.56 1.52 1.52 1.49 1.59 1.56 1.60 1.56

Pretende-se verificar se a suplementação com vitamina B12 tem ou não algum efeito no
aumento médio diário de peso.

O teste de hipóteses subjacente é:

H 0 : xcom B12 = xsem B12 H 0 : xcom B12 ≠ xsem B12

A média e a variância de cada um dos lotes são:

Lote com suplemento de vitamina B12: x A = 1.72


s A2 = 0.0050

Lote sem suplemento de vitamina B12: xB = 1.55


s A2 = 0.0014

Antes de se proceder ao teste de comparação das duas médias, deve efectuar-se um teste
para verificar se as duas variâncias são ou não homogéneas, isto é:

H 0 : s A2 = sB2 H1 : s A2 ≠ sB2

A estatística de teste é:

s A2 0.0050
Fteste = = = 3.5714
sB2 0.0014

Para um nível de significância de α = 5% , o valor crítico da distribuição F de Snedecor


é F( 0.05;7;7 ) = 3.787 ; como Fteste = 3.5714 < F( 0.05;7;7 ) = 3.787 , deve concluir-se que as
variâncias dos dois lotes são homogéneas.

O valor da probabilidade limite para este teste de homogeneidade de variâncias pode


obter-se de uma tabela da distribuição F de Snedecor, para F(teste;7;7 ) = 3.5714 ; a função
DISTF( F ; gl1; gl 2) permite-nos calcular esta probabilidade limite:

IPCB 2005/2006 31
Testes de hipóteses

Como p − value = 0.057 > α = 0.05 , para este nível de significância (5%) devem
considerar-se as variâncias homogéneas.

O teste de Levene para estas duas amostras dá um valor de estatística de teste


Fteste = 1.406 < F( 0.05;1;15) = 4.54 , com p − value = 0.256 , que conduzem à mesma
conclusão de considerar as duas variâncias homogéneas.

Tendo concluído que as variâncias são homogéneas, passamos de seguida ao teste de


comparação das duas médias (objectivo primário do ensaio). A variância ponderada
comum aos dois lotes é:

s 2
=
( N A − 1) .s A2 + ( N B − 1) .sB2
=
7 × 0.0050 + 7 × 0.0014
= 0.0032
N A + NB − 2 14

A estatística de teste é:

T=
( x A − xB ) =
( x A − xB ) =
(1.72 − 1.55) = 6.01
 1 1  1 1 1 1
s2 . +  s. + 0.0032 ×  + 
 N A NB  N A NB 8 8

Para um nível de significância de α = 5% , e como as variâncias são homogéneas, para


N A + N B − 2 = 14 graus de liberdade, o valor crítico da distribuição t-Student é
t( 0.05;14) = 2.145 , deve rejeitar-se a hipótese nula, e concluir que a suplementação com
vitamina B12 provoca um aumento médio diário de peso superior.

IPCB 2005/2006 32
Testes de hipóteses

A mesma conclusão se obteria se se calculasse o valor da probabilidade limite, para este


valor da estatística de teste ( p − value = 0.0000 ).

O intervalo de confiança para a diferença entre as duas médias é:

 1 1 
( xA − xB ) ∈ ( xA − xB ) ± t(α ; N A + N B − 2)
.s. + 
 N A NB 
 1 1 
( xA − xB ) ∈ (1.72 − 1.55) ± 2.145 × 0.0032 ×  +  
  8 8  
( xA − xB ) ∈ [ 0.1093;0.2307]
Qual deveria ser o tamanho de cada uma das duas amostras para que, para um nível de
significância α = 5% e uma potência 1 − β = 95% dê como significativa a diferença de
δ = xA − xB = 0.1 kg ?

Tratando-se de um processo iterativo, vamos usar na primeira iteração os quantis da


distribuição normal estandardizada, isto é, Zα = Z β = Z 0.05 = 1.96 :

2s 2 ( Zα + Z β )
2
2 × 0.0032 × (1.96 + 1.96 )
2

N =
*
= = 10
δ2 0.12

Para a segunda iteração já usamos os quantis da distribuição t-Student: t( 0.05;18) = 2.101 :

( )
2
2s 2 t(α ;2 N − 2) + t( β ;2 N − 2) 2 × 0.0032 × ( 2.101 + 2.101)
2

N =
*
= = 12
δ2 0.12

Na terceira iteração, t( 0.05;22) = 2.074 :

IPCB 2005/2006 33
Testes de hipóteses

( )
2
2s 2 t(α ;2 N − 2) + t( β ;2 N − 2) 2 × 0.0032 × ( 2.074 + 2.074 )
2

N* = = = 12
δ2 0.12

Assim, cada um dos dois lotes deveria ter 12 animais.

Violação dos pressupostos do teste t-Student

O teste t-Student para comparar as médias de duas amostras assume que ambas as
amostras provêm de uma população normal, com a variância homogénea. Contudo, nem
sempre tais pressupostos se cumprem. Porém, diversos trabalhos demostram que o teste
t-Student é bastante robusto para resistir às violações destes pressupostos, especialmente
se os tamanhos das amostras são iguais, e especialmente se se trata de um teste bilateral.
Quanto maiores forem as amostras, mais robusto é o teste.

Se a população é nitidamente assimétrica, deve evitar-se efectuar o teste unilateral. Se a


não normalidade é acentuada, é preferível efectuar um teste não paramétrico.

Se as variâncias não são homogéneas, e com tamanhos amostrais iguais, a probabilidade


de cometer um erro do tipo I tende a ser maior que o nível de significância α
estabelecido. Nesta situação, se os tamanhos amostrais não são iguais, e se a maior
variância está associada à amostra de maior tamanho, a probabilidade de erro do tipo I é
inferior a α , mas se a maior variância provém da amostra de menor dimensão, então a
probabilidade de erro de tipo I é maior que α .

Para ultrapassar esta limitação associada à não homogeneidade das variâncias, já


anteriormente se apresentou a correcção da estimativa dos graus de liberdade associados
à estatística de teste (fórmula de Welsh).

4.3 Comparação das médias de duas amostras emparelhadas

O teste de comparação das médias anteriormente apresentado aplica-se quando as duas


amostras são independentes, significando esta independência que cada indivíduo ou
unidade experimental de uma das amostras não está de algum modo associado com
qualquer outro indivíduo da outra amostra.

Existem situações em que cada uma das observações de uma das amostras está
associada e correlacionada com uma observação na segunda amostra, de modo que os
dados de ambas as amostras aparecem aos pares, uma observação de cada amostra.

A situação típica destes pares de observações ocorrem, por exemplo, quando cada um
dos indivíduos pertence, em tempo diferente, a ambas as amostras: em cada um dos
indivíduos são efectuadas duas amostragens, por exemplo, uma antes de um
determinado tratamento, e a outra após esse mesmo indivíduo ter sido sujeito a
determinado tratamento. Outra situação de amostras emparelhadas é o caso de medições
antropomórficas, em que em cada indivíduo (pessoa) são medidos os comprimentos do
braço direito (uma amostra) e do braço esquerdo (outra amostra).

IPCB 2005/2006 34
Testes de hipóteses

Nota: nas situações frequentes de pares do tipo casal (marido, mulher), sexo
(masculino, feminino), as medições das duas amostragens não são efectuadas no
mesmo indivíduo ou unidade estatística, de modo que não devem ser
consideradas amostras emparelhadas.

As amostras emparelhadas são frequentes em áreas de Ciências da Saúde e de Biologia,


em que cada um dos indivíduos é observado duas vezes, antes e após um determinado
tratamento. Ensaios deste tipo também são frequentes em determinadas áreas de
Zootecnia, num paralelismo evidente com as ciências médicas.

Em áreas de Ciências Agrárias também é possível delinear ensaios em amostras


emparelhadas, como por exemplo comparar a produção de material forrageiro entre dois
cortes sucessivos de uma cultura pretense de cortes múltiplos, em que se mantêm todos
os restantes factores de produção constantes entre os cortes.

Implícito a este tipo de delineamento experimental está o facto de que ambas as


amostras têm o mesmo tamanho ( N ), já que ambas as amostras são efectuadas
exactamente com as mesmas unidades experimentais.

Seja a amostra A cuja média é x1 e variância é s12 e a amostra B cuja média é x2 e


variância s22 . Em cada uma das amostras foram registadas N observações. Pretende-se
efectuar o seguinte teste de hipóteses (bilateral):

H 0 : x1 = x2 + δ 0 H1 : x1 ≠ x2 + δ 0

Como já anteriormente referido, geralmente pretende-se verificar se as duas médias são


estatisticamente iguais, pelo que se tem δ 0 = 0 .

Este teste de hipóteses pressupõe que as diferenças d j = x1 j − x2 j têm uma distribuição


normal (em que x1 j é cada um dos N indivíduos da amostra A e x2 j é cada um dos
N indivíduos da amostra B).

Assim, o anterior teste de hipóteses deve especificar-se preferivelmente como:

H 0 : xx1 − x2 = 0 H 0 : xx1 − x2 ≠ 0

em que xx1 − x2 é a média e sd é o desvio padrão das diferenças entre os pares de


observações d j = x1 j − x2 j .

A estatística de teste é:

xx1 − x2
T= ∼ t(α ; N −1)
sd
N

IPCB 2005/2006 35
Testes de hipóteses

O valor crítico do teste e as respectivas região de aceitação e região crítica são definidas
como habitualmente, tendo em conta que existem N − 1 graus de liberdade.

O intervalo de confiança 1 − α para a média das diferenças dos pares de observações é:

 s 
xx1 − x2 ∈  xx1 − x2 ± t( a ; N −1) .sxx1− x2  =  xx1 − x2 ± t( a ; N −1) . d 
 N

Exemplo:

O processo de cura de presunto inclui a imersão da peça numa solução de ácido sórbico.
Numa fábrica de presunto registaram-se os resíduos de ácido sórbico, em partes por
milhão, em 8 peças de presunto imediatamente depois de estas serem imersas na
solução, e depois de 60 dias de cura:

Resíduos de ácido sórbico


Peça Antes da cura Após 60 dias de cura
1 224 116
2 270 96
3 400 239
4 444 329
5 590 437
6 660 597
7 1400 689
8 680 576

A média das diferenças entre as observações das duas amostras é xx1 − x2 = 198.625 e o
desvio padrão das diferenças é sd = 210.1652 , sendo o erro padrão da média das
s 210.1652
diferenças sxx1− x2 = d = = 74.3046 . Assim, a estatística de teste é:
N 8

xx1 − x2 198.625
T= = = 2.6731
sd 74.3046
N

Para um nível crítico de α = 5% e 7 graus de liberdade, a região de crítica é T > 2.365 ;


a probabilidade limite é p − value = 0.032 , donde se deve concluir que a média das
diferenças é estatisticamente diferente de zero, ou seja, existem diferenças significativas
no teor de ácido ascórbico entre as amostras antes da cura e após a cura.

O intervalo de confiança 1 − α para a média das diferenças dos pares de observações é:

IPCB 2005/2006 36
Testes de hipóteses

 s 
xx1 − x2 ∈  xx1 − x2 ± t( a ; N −1) . d 
 N
 210.1652 
xx1 − x2 ∈ 198.625 ± 2.365 × 
 8 
xx1 − x2 ∈ [ 22.8968;374.3532]

4.4 Comparação de duas proporções

Consideremos que de uma população se retiram duas amostras de dois tipos distintos,
de tamanhos N A e N B respectivamente. Em cada uma destas amostras existem
respectivamente nA e nB indivíduos com determinada característica de interesse. As
proporções amostrais de cada um dos tipos são respectivamente:

NA NB
pA = ; pB =
N N

que, sob o pressuposto de as amostras serem de grande dimensão, se distribuem de uma


forma aproximadamente normal.

Pretende-se testar se as duas proporções são iguais:

H 0 : p A = pB H1 : p A ≠ pB

que é equivalente a:

H 0 : p A − pB = 0 H1 : p A − pB ≠ 0

A estatística de teste é:

nA nB

N A NB
Z=
nA . ( N A − nA ) nB . ( N B − nB )
+
N A3 N B3

que, sob o pressuposto de as amostras serem de grande dimensão, segue uma


distribuição normal estandardizada Ν ( 0;1) .

A região crítica e a região de aceitação são definidas do modo habitual.

O intervalo de confiança 1 − α para a diferença entre duas proporções é:

IPCB 2005/2006 37
Testes de hipóteses

 nA nB   nA nB  nA . ( N A − nA ) nB . ( N B − nB ) 
 −  ∈  −  ± Zα . 3
+ 
N
 A N B   N
 A N B  N A N B3 

Exemplo:

Uma adega cooperativa dispõe de duas linhas de engarrafamento, de concepção


diferente, que enchem garrafas com a capacidade de 1 litro. Num processo de controlo
de qualidade, recolheram-se uma amostra de cada uma das linhas, cada uma de 100
garrafas, cuja capacidade foi rigorosamente medida.

Na amostra A registaram-se 8 garrafas com capacidade inferior a 95 cl, e na amostra B


registaram-se 2 garrafas com capacidade inferior a 95 cl. Pretende-se verificar se as
proporções das garrafas com capacidade abaixo da admitida é idêntica em ambas as
linhas.

H 0 : p A = pB H1 : p A ≠ pB

As proporções de garrafas deficientemente cheias são p A = 0.08 e pB = 0.02 .

A estatística de teste é:

nA nB

N A NB 0.08 − 0.02
Z= = = 1.965
nA . ( N A − nA ) nB . ( N B − nB ) 8. (100 − 8 ) 2. (100 − 2 )
+ +
N A3 N B3 1003 1003

Para um nível de significância α = 5% , a região crítica é Z > 1.96 , devendo rejeitar-se


a hipótese nula.

Note-se que a estatística de teste está muito próximo do limite crítico entre a rejeição e
não rejeição da hipótese nula, sendo preferível calcular a probabilidade limite:

p − value = Pr ( Z > Z ) = Pr ( Z > 1.965 ) = 0.0494

O intervalo de confiança 1 − α para a diferença entre duas proporções é:

IPCB 2005/2006 38
Testes de hipóteses

 nA nB   nA nB  nA . ( N A − nA ) nB . ( N B − nB ) 
 −  ∈  −  ± Zα . + 
 N A NB   N A N B  N A3 N B3 

 nA nB   8. (100 − 8 ) 2. (100 − 2 ) 
 −  ∈ ( 0.08 − 0.02 ) ± 1.96 × 3
+ 
 A NB
N    100 1003 
 nA nB 
 −  ∈ [ 0.0002;0.1198]
 N A NB 

IPCB 2005/2006 39
Testes de hipóteses

Exercícios propostos

1 – Num estudo realizado numa zona rural de um país em desenvolvimento, estudou-se


uma amostra de 500 indivíduos, tendo-se obtido uma média de consumo de calorias de
1985 calorias/dia e com um desvio padrão de 210 calorias/dia. Verifique se se pode
concluir que o consumo de calorias não difere de 2000 calorias/dia.

2 – Num laboratório químico pretende-se aferir o grau de precisão de um operador, na


determinação do pH. Assim, esse operador fez 10 determinações de pH em amostras de
água pura e neutra (ph=7.0). Os resultados foram os seguintes:

7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08

Verifique a precisão do operador.

3 – Um viveiro cultiva rosas da mesma variedade em diversas parcelas. Numa das


parcelas usa-se um fertilizante orgânico e em outra usa-se um fertilizante mineral (com
os mesmos teores de macro e mico-nutrientes principais). Para estudar o efeito do tipo
de fertilizante no comprimento das rosas, foi colhida uma amostra aleatória de 20 rosas
em cada uma das parcelas, sendo os resultados os seguintes:

- Amostra com fertilizante orgânico: x1 = 102 mm ; desvio padrão: s1 = 45 mm ;


- Amostra com fertilizante mineral: x1 = 95 mm ; desvio padrão: s1 = 40 mm ;

Verifique se o lote de rosas proveniente da parcela com fertilizante orgânico tem um


comprimento médio de a 10 mm em relação ao lote de rosas da parcela com fertilizante
mineral.

4 - Uma amostra aleatória, proveniente de uma população normal, de n1 = 25


indivíduos, tem média x1 = 81 e desvio padrão s1 = 5.2 . A amostra 2, proveniente da
mesma população, tem n2 = 36 indivíduos, tem média x2 = 76 e desvio padrão s2 = 3.4 .
Verifique se se podem considerar as duas médias iguais.

5 – O Departamento de Zoologia de uma Universidade leva a cabo um estudo para


determinar se existe diferença significativa na densidade de organismos vivos entre duas
estações de controle de efluentes de um rio.

Estação 1 Estação 2
5030 4980 2800 2810
13700 11910 4670 1330
10730 8130 6890 14500
11400 26850 7720 3320
860 17660 7030 1230
2200 22800 12540 2130
4250 1130 7330 2190
15040 1690 9650 8750

IPCB 2005/2006 40
Testes de hipóteses

Verifique se a densidade de organismos estatisticamente diferente entre as duas


estações.

6 – Pretende-se aferir um método químico de detecção de óxidos de ferro em solos


agrícolas, por comparação com um método baseado em raios X. Assim, recolheram-se 5
amostras de solos agrícolas, e em cada uma analisou-se o teor em óxido de ferro:

Amostra 1 2 3 4 5
Raios X 2.0 2.0 2.3 2.1 2.4
Químico 2.2 1.9 2.5 2.3 2.4

Verifique se o processo químico dá resultados idênticos ao processo radiológico.

7 – Doze pessoas participaram num ensaio clínico para estudar o efeito de uma
determinada dieta na redução do teor de colesterol no sangue:
Teor de colesterol no sangue
Indivíduo Antes da dieta Após período a dieta
1 201 200
2 231 236
3 221 216
4 260 233
5 228 224
6 237 216
7 326 296
8 235 195
9 240 207
10 267 247
11 284 210
12 201 209

Verifique a eficácia da dieta sobre o teor de colesterol.

8- Efectuou-se uma ensaio com o objectivo de comparar 5 insecticidas, designados


por A, B, C, D, E. Os insecticidas A e B são sistémicos; C, D e E não são sistémicos.
Cada um dos insecticidas foi usado em talhões de 10 m² de tomateiros. Os resultados
constam da produção (kg de tomate) em cada um dos canteiros.
Devido a causas acidentais imprevistas ocorridas no decurso do ensaio, o investigador
teve de eliminar um dos canteiros tratados com o insecticida A e com E e dois canteiros
tratados com o insecticida D.
Elabore a análise de variância, e decida:
a) se os insecticidas têm efeitos diferentes na produção;
b) se os insecticidas sistémicos conduzem, em média, a melhores produções.

A B C D E
4.7 4.8 4.9 4.9 5.0
4.8 5.2 4.7 4.6 4.6
5.1 4.9 4.8 4.7 4.8
5.0 5.1 4.7 4.5 4.6
5.2 5.0 4.6 4.8 4.6

IPCB 2005/2006 41
Testes de hipóteses

9 – Num ensaio de alimentação de suínos pretende-se comparar os ganhos médios de


peso, em função de três regimes alimentares.
Para tal, 3 lotes de 5 porcos foram alimentados com cada um dos regimes alimentares.
Os ganhos de peso semanais foram:

Regime
A 3.04 7.35 6.08 4.90 6.44
B 6.03 6.89 9.16 4.49 8.89
C 3.72 7.39 6.26 7.17 6.53

Elabore a análise de variância e tire conclusões quanto aos ganhos de peso obtidos com
cada um dos regimes alimentares

10 – O tratamento de bolbos e tubérculos com uma radiação ionizante é um dos


métodos anti-abrolhantes de conservação de bolbos. Num ensaio, uma amostra de 180
bolbos de alho foram submetidos a radiação, tendo-se observado que passados 240 dias
não apresentavam sintomas de abrolhamento. Na amostra testemunha, dos 180 bolbos,
119 não apresentavam sintomas de abrolhamento passados 240 dias. Haverá evidência
estatística para considerar a radiação como um método eficaz de anti-abrolhamento?

11 – Numa sondagem de segurança rodoviária, observou-se que dos 300 residentes em


áreas urbanas, 63 eram a favor do aumento do limite de velocidade urbana de 50 para 60
km/hora; dos 180 inquiridos residentes em áreas rurais, 75 eram a favor do aumento do
limite de velocidade. Verifique se estes dados indicam que o sentimento em relação ao
aumento do limite de velocidade urbana depende do ambiente em que se vive.

IPCB 2005/2006 42
Testes de hipóteses

Bibliografia

Daniel, Wayne W. (1995) Bioestadística. Base para el análisis de las ciencias de la


salud. Editorial Limusa, México.

Devore, Jay L. (2000) Probability and Statistics for engineering and the sciences.
Duxbury, Australia.

Guimarães, Rui Campos; Cabral, José A. Sarsfield (1997) Estatística. McGraw-Hill,


Portugal.

Hicks, Charles R. e Turner Jr., Kenneth V. (1999) Fundamental concepts in the design
of experiments. Fifth edition. Oxford University Press, USA.

Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition.


John Wiley and Sons, USA.

Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh


edition. Iowa State University Press, USA.

Walpone, Ronald E. (1999) Probabilidad y Estadística para ingenieros. Sexta edición.


Prentice Hall, México.

Zar, Jerrold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.

IPCB 2005/2006 43