ISCTE
ESTATÍSTICA II
(Textos de Apoio das Aulas)
Testes de Hipóteses
Testes de Hipóteses
1. INTRODUÇÃO
Um sociólogo planeia realizar um estudo empírico sobre percepção política em grupos de
alunos universitários. No final, através dos dados recolhidos na amostra, o sociólogo espera
confirmar a sua hipótese de estudo (para a população universitária portuguesa), a de que nas
faculdades de ciências sociais e humanas a proporção de indivíduos com uma propensão política
entendida como sendo tradicionalmente à esquerda é superior à proporção de indivíduos com
uma propensão política entendida como sendo tradicionalmente à direita ( p esq > p dir ). Nas
faculdades de ciências exactas, o sociólogo espera ver igualmente confirmada a sua hipótese,
mas agora no sentido oposto: a proporção de indivíduos com uma propensão política entendida
como sendo tradicionalmente à direita é superior à proporção de indivíduos com uma propensão
política entendida como sendo tradicionalmente à esquerda ( p esq < p dir ).
Como já sabemos nesta altura, se o sociólogo se limitar a construir intervalos de confiança para
estimar aquelas proporções, pode acontecer que os seus limites não permitam tirar nenhuma
conclusão no sentido desejado. Por exemplo, com base nos resultados amostrais, pode acontecer
(para um determinado nível de confiança) que o intervalo de confiança para a proporção de
indivíduos de esquerda nas faculdades de ciências sociais e humanas seja dado por ]0,488;0,514[ ,
e o sociólogo não pode afirmar (para o nível de confiança definido) que a verdadeira proporção de
indivíduos de esquerda na população universitária é superior aos de direita.
O que pode o sociólogo fazer? Se na amostra a proporção de indivíduos de esquerda é, por
exemplo, de 0,503, haverá alguma forma de o sociólogo poder testar se na população esta
proporção (para um determinado nível de significância) é, de facto, superior a 0,50?
1
Recorde-se que os estimadores são, portanto, variáveis aleatórias que produzem tantas estimativas quanto o número
de amostras realizáveis. É por esta razão que para efeitos de estimação necessitamos de conhecer as suas distribuições
amostrais.
A construção de um ensaio de hipóteses segue habitualmente uma metodologia que pode ser
definida como se segue:
Iremos percorrer estes passos e ilustrá-los com um exemplo decorrente dos resultados da
aplicação do inquérito que nos tem acompanhado.
Note-se que, como parece ser óbvio, a formulação das hipóteses antecede a recolha dos dados
que serão analisados. Ou seja, para que não haja enviesamentos na recolha da amostra, as
hipóteses de estudo devem ser antecipada e claramente definidas.
Aplicação…
“Em certa aula de Estatística II, os alunos resolvem fazer previsões sobre a média das notas
dessa disciplina. Os alunos não estão propriamente de acordo, apesar de estarem todos
optimistas. Um grupo de alunos recorda a média obtida em Estatística I: 8,85 valores
Descriptive Statistics
N Mean
Que nota obteve
114 8,85
em Estatística I?
Valid N (listwise) 114
e afirma (com muita convicção) que a média de Estatística II vai ser positiva e de 13 valores.”3
O grupo de alunos está a tentar “adivinhar” a média das notas a Estatística II, avançando com 13
valores como hipótese. De modo a testarmos se a média da população de alunos inscritos a
Estatística II é, de facto, igual a 13 valores, iremos usar os dados de que dispomos na amostra e
realizar um ensaio de hipóteses.4
2
É igualmente bastante comum escrever a hipótese alternativa como H 1 .
3
In Helena Carvalho (2004), Interpretação de Outputs do SPSS - Intervalo de Confiança para a Média
Populacional e Ensaio de Hipóteses para a Média Populacional, Textos de apoio das aulas, p.5.
4
Assumimos, para efeitos de exemplo, que esta hipótese foi formulada antes da recolha dos dados.
H 0 : µ = 13
H a : µ ≠ 13
Se o resultado do teste não permitir provar que µ = 13 , ou seja, H 0 é rejeitada, nesse caso a
verdadeira média das notas a Estatística II na população poderá ser 10, 12, 9, etc. (precisamente
a situação que é enunciada na hipótese alternativa, H a : µ ≠ 13 ), e a melhor estimativa possível
que podemos obter (com esta amostra) é de 11,69 valores, estimativa esta que, como iremos ver,
estará sujeita a um erro.
Note-se que a não rejeição da hipótese nula, não quer dizer que H 0 seja verdadeira. O que
podemos dizer é que, provavelmente, a hipótese nula de que a média da nota esperada a
Estatística II é de 13 valores, é verdadeira.
O critério de decisão será dado por uma estatística de teste. A estatística de teste não é mais
que uma fórmula que contém o estimador pontual do parâmetro populacional a testar, e que
seguirá uma determinada distribuição. Em seguida, apenas necessitamos de calcular o valor
desta estatística de teste com base nos dados amostrais e compará-lo com o seu valor tabelado.
Ora, as fórmulas que contêm os estimadores pontuais dos parâmetros – as estatísticas de teste –
são precisamente as expressões das suas próprias distribuições amostrais.
No nosso caso, como já sabemos, o estimador para a média populacional (o parâmetro sobre o
qual estamos a fazer inferência) é a estatística média amostral, a qual fornecerá a informação
para podermos executar o teste de hipóteses. A estatística de teste será então dada pela
expressão da distribuição da média amostral, assumindo que desconhecemos, para a população,
qual o verdadeiro valor do desvio-padrão da nota esperada a Estatística II:
X −µ 5
T= .
s'
n
Sob H 0 (isto é, H 0 é verdadeira), esta estatística segue uma t de Student com n-1 graus de
liberdade: T ∩ t ( n −1) .
No entanto, por aplicação directa do Limite Central, dado que estamos a trabalhar com uma
grande amostra ( n = 152 ), a distribuição da média amostral segue uma normal-padrão (a t de
Student é aproximadamente igual à normal-padrão em grandes amostras). A estatística de teste
vem então :
X −µ 6
Z= , a qual, sob H 0 , segue uma normal padrão: Z ∩ N (0;1) .
s'
n
Estamos agora em condições de calcular o valor da estatística de teste, Z, a partir dos dados
amostrais e se H 0 for verdadeira ( H 0 : µ = 13 ):
X − µ 11,69 − 13 − 1,31
Z= = = = −7,218
s' 2,232 0,181
n 152
Dado que a estatística de teste, Z, (sob H 0 ) segue uma normal-padrão, a partir de que valor se
poderá assumir que a média da população é de 13 valores, sabendo que a média na amostra é de
11,69 valores?
5
O facto da distribuição seguir uma t de Student explica a designação largamente conhecida dos testes
para a média como os testes T (em inglês T test, a qual é usada pelo SPSS).
6
Note mais uma vez que as distribuições amostrais são, obviamente, e tal como o nome indica, funções
dos valores das amostras.
2.3.1. Erros associados à decisão nos testes de hipóteses estatísticos: Erro Tipo I e Erro Tipo II
De onde vem então o erro na decisão relacionada com um teste de hipóteses? Pensemos num
julgamento de um réu que foi acusado. Até prova em contrário, o réu deve ser considerado
inocente, isto é, a hipótese nula é que ele é inocente (sendo a hipótese alternativa a de que o réu
é culpado). No final do julgamento, e após a apresentação das provas de acusação e de defesa, o
réu pode vir a ser julgado como inocente ou como culpado, e esta decisão pode ter sido correcta
ou incorrectamente tomada.
Vejamos: se o réu era de facto inocente, isto é, a hipótese nula era verdadeira, e ele foi julgado
como inocente, então não se rejeitou a hipótese nula e tomou-se a decisão correcta; se, pelo
contrário, o réu era de facto inocente (a hipótese nula era verdadeira), mas este foi julgado como
culpado, então rejeitou-se a hipótese nula e tomou-se a decisão errada. A este erro chamamos
um Erro Tipo I. Se o réu era de facto culpado, isto é, a hipótese nula era falsa, e ele foi julgado
como culpado, então rejeitou-se a hipótese nula e tomou-se a decisão correcta; se, pelo
contrário, o réu era de facto culpado (a hipótese nula era falsa), mas este foi julgado como
inocente, então não se rejeitou a hipótese nula e tomou-se a decisão errada. A este erro
chamamos um Erro Tipo II.
Realidade
Hipótese nula é verdadeira Hipótese nula é falsa
(o réu é de facto inocente) (o réu é de facto culpado)
Erro Tipo II:
Não rejeita a hipótese nula
Decisão Decisão correcta considerar inocente um réu
(o réu é julgado como inocente)
baseada que é culpado
nas Erro Tipo I:
Rejeita a hipótese nula
provas considerar culpado um réu Decisão correcta
(o réu é julgado como culpado)
que é inocente
No nosso caso, podemos cometer o erro de rejeitar a hipótese nula (média igual a 13 valores),
quando essa hipótese é verdadeira e portanto a média é, de facto, de 13 valores – Erro Tipo I.
Podemos também cometer o erro de não rejeitar a hipótese nula quando essa hipótese é falsa e
portanto a média não é de 13 valores – Erro Tipo II.
População
H 0 é verdadeira H 0 é falsa
(a média na população é de 13 valores) (a média na população não é de 13 valores)
Decisão Não rejeita H 0 Decisão correcta Erro Tipo II
baseada
na
amostra Rejeita H 0 Erro Tipo I Decisão correcta
Então, resumidamente:
Para o nosso caso vamos então fixar 0,05 como o nível de significância.
No nosso caso, o valor crítico é o valor a partir do qual se poderá assumir (ou não) que a média
da população é de 13 valores, sabendo que a média na amostra é de 11,69 valores. Mas Como se
obtém o valor crítico?
Teste bilateral
O valor crítico do teste é dado pelo valor da distribuição da estatística de teste associado à
α
probabilidade 1 − ;
2
Teste unilateral
O valor crítico do teste é dado pelo valor da distribuição da estatística de teste associado à
probabilidade 1 − α .
No nosso exemplo, para um nível de significância de 5%, o valor crítico do teste é dado pelo
valor da distribuição normal-padrão para uma probabilidade 1 − 0,05 2 = 1 − 0,025 = 0,975 , ou
seja, z 0,975 = 1,960 . E o nosso valor da estatística de teste Z = −7,218 , está situado numa região
de rejeição:
Qual o nível de significância que deve ser fixado num teste de hipóteses? 10%, 5%, 1%? Para
contornar este problema, o que podemos fazer é calcular qual o menor valor de α a partir do
qual rejeitamos H 0 . A este valor chamamos probabilidade de significância p ou, mais
frequentemente, p-value.
Quanto menor for a probabilidade de significância (o p-value), menor será o erro de Tipo I
(rejeitar H 0 quando H 0 é verdadeira) que estaremos a cometer quando rejeitamos H 0 .
Tipicamente, o que se faz é considerar que
Como alternativa para a tomada de decisão num teste de hipóteses, basta olharmos para o
p-value associado ao teste, e, uma vez que este valor corresponde ao menor valor a partir do
qual rejeitaríamos H 0 , compará-lo com o nível de significância definido.
Consideremos um nível de significância igual a 0,10 ( α = 0,10 ). Se o p-value for 0,07, então
significa que rejeitamos H 0 a partir de 0,07, ou seja, embora tenhamos admitido como 0,10 a
probabilidade de rejeitar H 0 quando H 0 é verdadeira – Erro Tipo I –, o que se verifica é que
rejeitamos logo H 0 a partir de uma probabilidade de erro admissível ainda mais baixa. Se o p-
value for 0,00, então significa que rejeitamos H 0 mesmo que virtualmente não admitamos
qualquer probabilidade de erro (ou uma probabilidade muito residual), e, portanto, é óbvio que
aceitando uma probabilidade de erro de 0,10, também iremos rejeitar H 0 .
Muito simplesmente, a regra habitual para a decisão num teste de hipóteses usando o p-value, é
a seguinte:
p − value ≤ α rejeitar H 0
p − value > α não rejeitar H 0
No nosso caso, e consultando a tabela da normal, mesmo com um α de 0,00001 o valor crítico
de teste que obteríamos seria 4,417 (ou, devido à simetria da distribuição normal, – 4,417),
ainda muito longe do valor da estatística de teste ( Z = −7,218 ), o que significa que mesmo
assim rejeitaríamos H 0 . Mesmo com uma probabilidade de erro, α , tão baixa estamos ainda
muito longe de podermos não rejeitar H 0 . O p-value deve então ser igual a 0,000:
One-Sample Test
Test Value = 13
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Que nota espera vir a
-7,218 151 ,000 -1,31 -1,66 -,95
ter em Estatística II?
No SPSS o p-value figura nos outputs como Sig. Neste caso, Sig. (2-tailed) significa que se trata
do p-value associado a um teste bilateral (2-tailed = 2 caudas).
3. TESTES PARAMÉTRICOS
Com base nos dados recolhidos para uma amostra, podemos testar se a respectiva média
populacional, µ , é significativamente diferente, maior ou menor que um determinado valor k .
A forma das hipóteses nula e alternativa e os respectivos critérios de decisão e regiões de
rejeição (consoante as estatísticas de teste) apresentam-se no quadro seguinte:
H0 : µ = k Ha :µ ≠ k Z ≤ −z α ou Z ≥ z α
1− 1−
(teste bilateral) 2 2
T ≤ −t α ou T ≥ t α
1− ; ( n −1) 1− ; ( n −1)
2 2
Ha : µ < k Z ≤ − z1−α
(teste unilateral à T ≤ −t1−α ;( n −1)
esquerda)
Ha : µ > k Z ≥ z1−α
(teste unilateral à T ≥ t1−α ;( n −1)
direita)
3.1.1. Pequenas amostras, n ≤ 30 (e assumindo que a variável segue uma distribuição normal na população)
“Um grupo de alunos da turma SA1 manifesta uma enorme convicção em melhorar a nota
média na cadeira do 2º semestre. Defendem que a sua turma vai obter uma nota média de 12
valores. Não obstante, as opiniões dividem-se, pois há quem afirme mesmo que vai ser maior
que 12 valores.” 7
7
Vai usar-se o exemplo desenvolvido nos textos de apoio às aulas de Interpretação de Outputs do SPSS,
op. cit., pág. 9.
Tomada de decisão
Dado que o valor da estatística de teste “caiu” na região de não rejeição ( t < t1−α ;( n −1) Z ≥ z 0,95
ou 0,511 < 1,711 ), não rejeitamos a hipótese nula ( H 0 : µ = 12 ). Ou seja, existe evidência
estatística, através da amostra recolhida, para não rejeitar que a média da nota esperada a
Estatística II na turma SA1, na população, é de 12 valores.
s'
8
Note mais uma vez que = 0,47 corresponde ao erro-padrão da média amostral (do inglês standard
n
error of mean, ou, abreviadamente, std. error mean).
3.1.2. Grandes amostras, n > 30 (e qualquer que seja a distribuição da variável na população)
X − µ 11,69 − 10 1,69
E o cálculo da estatística de teste vem: Z = = = = 9,337 9
s' 2,232 0,181
n 152
Tomada de decisão
Dado que o valor da estatística de teste “caiu” na região de rejeição ( Z ≥ z 0,95 ou 9,337 ≥ 1,645 ),
rejeitamos a hipótese nula ( H 0 : µ = 10 ). Ou seja, não existe evidência estatística, através da
amostra recolhida, para afirmar que a média da nota esperada a Estatística II, na população, é de 10
valores. Assim sendo, podemos afirmar que a média é superior a 10 valores.
9
Note mais uma vez que s' n = 0,181 corresponde ao erro-padrão da média amostral (do inglês
standard error of mean, ou, abreviadamente, std. error mean).
Duas (ou mais) amostras dizem-se independentes se os indivíduos das várias amostras são
seleccionados de forma independente, ou seja, se estes não estão (propositadamente ou não)
relacionados entre si.
Duas (ou mais) amostras dizem-se emparelhadas se os indivíduos das várias amostras estão de
alguma forma relacionados entre si. Os exemplos mais comuns são as investigações com grupos
experimentais: comportamento dos doentes depressivos antes e depois de sujeitos ao tratamento
com um novo anti-depressivo; trajectórias de integração de reclusos, em que se constitui uma
amostra com reclusos toxicodependentes e uma amostra com reclusos que não consomem
drogas; avaliação de agregados familiares em momentos temporais distintos; etc.
Com base em dados amostrais, podemos testar se as médias entre duas populações, µ1 e µ 2 ,
são significativamente diferentes, ou se uma delas é maior ou menor que a outra. A forma das
hipóteses nula e alternativa apresenta-se no quadro seguinte:
Z ≤ −z α ou Z ≥ z α
1− 1−
H a : µ1 ≠ µ 2 ou 2 2
H a : µ1 − µ 2 ≠ 0
(teste bilateral)
H a : µ1 < µ 2 ou Z ≤ − z1−α
H a : µ1 − µ 2 < 0
H 0 : µ1 = µ 2 ou (teste unilateral à
H 0 : µ1 − µ 2 = 0 esquerda)
H a : µ1 > µ 2 ou Z ≥ z1−α
H a : µ1 − µ 2 > 0
(teste unilateral à direita)
Para fazer a exposição deste teste, vai utilizar-se o mesmo exemplo usado para os intervalos de
confiança apresentado anteriormente.
“Será que os alunos que frequentam as aulas da noite são, de facto, mais velhos que os alunos
que frequentam as aulas durante o dia? Ou seja, será que a diferença entre a média de idades dos
alunos “da noite” e a média de idades dos alunos “do dia” é positiva (significando, portanto, que
a média dos alunos “da noite” é superior à média de idades dos alunos “do dia”). Na sequência
do que é apresentado no exemplo consideram-se os alunos “da noite” como a população 1 e os
10
alunos do dia como a população 2.”
H 0 : µ1 − µ 2 = 0
H a : µ1 − µ 2 > 0 (teste unilateral à direita)
Report
Idade
Horário (Diurno/Nocturno) Mean N Std. Deviation
Diurno 20,50 98 3,077
Nocturno 29,50 66 9,481
Total 24,12 164 7,815
( X 1 − X 2 ) − ( µ1 − µ 2 ) (29,50 − 20,50) − 0 9 9
Z= = = = = 7,45 12
s1'2 s 2'2 9,481 2
3,077 2 1,459 1,208
+ +
n1 n2 66 98
10
In Carlos Lourenço, (2004), Intervalo de Confiança Para a Diferença de Duas Médias Populacionais,
(em grandes amostras e com variâncias desconhecidas), Textos de apoio das aulas, pág.2.
11
A aplicação deste teste tem dois pressupostos: (1) a variável em estudo tem distribuição normal nas
duas populações e (2) existe homogeneidade (ou homocedasticidade) das variâncias, isto é, a variância é
igual nas duas populações. Para verificar o primeiro pressuposto é normalmente usado o teste K-S
(Kolmogorov-Smirnov) com a correcção de Lilliefors, o qual é dispensável no caso de estarmos na
presença de grandes amostras e podermos aplicar o Teorema do Limite Central para aproximar as
distribuições à normal. Para a verificação do segundo pressuposto é habitualmente usado o teste de
Levene, o qual é considerado um dos mais potentes para o efeito.
O teste de Levene é apresentado em detalhe no ANEXO do presente texto de apoio.
s1'2 s 2'2
12
Note mais uma vez que + = 1,208 corresponde ao erro-padrão da diferença entre as médias
n1 n 2
amostrais (do inglês standard error of mean difference, ou, abreviadamente, std. error difference).
O valor crítico do teste é dado pelo valor da distribuição normal-padrão para uma probabilidade
1 − α = 1 − 0,05 = 0,95 , ou seja, z 0,95 = 1,645 .
Tomada de decisão
Dado que o valor da estatística de teste “caiu” na região de rejeição ( Z ≥ z 0,95 ou 7,45 ≥ 1,645 ),
rejeitamos a hipótese H 0 : µ1 − µ 2 = 0 , isto é, rejeitamos a igualdade das médias populacionais.
Ou seja, as médias de idades entre os dois turnos são significativamente diferentes.