Escolar Documentos
Profissional Documentos
Cultura Documentos
Ana Cristina Ferreira – Isabel Tiago de Oliveira – Margarida Perestrelo – Alda Azevedo
(ISCTE-IUL)
Conceitos Básicos sobre Ensaios de Hipóteses
Os testes de hipóteses são uma espécie de experiência em que se põe à prova uma
ideia sobre a população (hipótese). Nesta experiência é feito um confronto entre a
ideia sobre a população e os valores encontrados numa amostra.
Se as diferenças entre o que se pensava sobre a população e o que se encontra na
amostra são pequenas, consideramos que há uma grande probabilidade destas
diferenças terem acontecido por acaso e, por isso, não consideramos que a nossa ideia
sobre a população estava errada.
Se as diferenças são grandes, então é improvável que aqueles valores apareçam na
amostra casualmente e concluímos que a ideia que tínhamos sobre a população deve
estar errada.
Exemplo
A ideia de que percentagem de votantes num partido é igual em duas cidades pode
ser testada com base numa amostra com pessoas das duas cidades.
Se, na amostra, a diferença de percentagens é muito pequena então, podemos
continuar a pensar que, na população não há diferenças significativas.
Pelo contrário, se numa amostra a diferença de percentagens for muito grande é
muito improvável que esta diferença tenha acontecido por acaso. Por isso, concluímos
que existe mesmo uma diferença real.
É claro que poderíamos pensar que a amostra não era representativa, mas nesse caso
nem faria sentido fazer testes de hipóteses – a estatística indutiva só é válida para
amostras aleatórias e, por isso, representativas.
Por exemplo, com 1% de diferença consideramos que a nossa ideia não deve estar
errada, mas com 10% de diferença já concluímos que deve estar errada. Então, qual a
diferença necessária para rejeitarmos a hipótese que tínhamos sobre a população?
2
Qual é a diferença entre os valores observados na amostra e os considerados para a
população que nos leva a concluir que a nossa ideia sobre a população está errada?
É exatamente a esta pergunta que responde um teste de hipóteses. E a diferença
necessária vai depender de diversos fatores, sendo um dos mais importantes a
dimensão da amostra.
Quando fazemos um teste de hipóteses é aplicada a distribuição amostral do
estimador, na qual estão incluídos os valores atribuídos à população e os observados
na amostra, assim como a dimensão da amostra. Com uma distribuição amostral
conhecida (se estivermos a fazer um teste sobre a(s) média(s) será uma distribuição
aproximadamente normal) e, quando aplicada, vai dar um resultado concreto. O
resultado obtido tem associado uma probabilidade (p-value) - esta é a probabilidade
de aqueles valores ou diferenças ainda maiores serem encontrados na amostra, se a
hipótese for verdadeira na população.
Em suma, um teste de hipóteses é uma espécie de “termómetro de probabilidades”.
Os testes medem a probabilidade dos valores amostrais terem acontecido por acaso,
se a hipótese fosse verdadeira na população. Só consideramos que a hipótese sobre a
população é falsa se a probabilidade de encontrar, por acaso, uma amostra com
aquela média ou percentagem (se a hipótese é verdadeira) é muito pequena
(geralmente 5%).
Conclusão:
1. Um teste de hipóteses é uma técnica estatística que só pode ser usada com
amostras aleatórias.
2. Esta técnica corresponde a aplicar uma distribuição amostral de
probabilidades conhecida.
3. Na aplicação da distribuição amostral confrontam-se os valores obtidos na
amostra e os valores atribuídos para a população (hipótese).
4. O resultado deste ensaio de hipóteses tem associada uma probabilidade
que nos leva a decidir se devemos ou não, considerar falsa a hipótese inicial
sobre a população.
5. Consideramos que a ideia sobre a população está errada, se a
probabilidade de se encontrarem aqueles valores na amostra, apenas por
acaso, for muito baixa.
3
Os testes de hipóteses, também chamados ensaios de hipóteses ou testes de
significância, constituem um capítulo fundamental em inferência indutiva.
Estes testes permitem tomar uma decisão entre duas hipóteses (hipótese nula e
hipótese alternativa) propostas para uma mesma característica da população ou para
a comparação da mesma característica entre duas populações a partir dos valores
amostrais.
Com base na teoria das probabilidades, é possível controlar o erro com que se toma a
decisão de rejeitar uma das hipóteses (hipótese nula) em favor da outra (hipótese
alternativa).
Por exemplo, “Será que o tempo médio nas deslocações diárias é de 30 minutos? (esta
é a hipótese nula - Ho: µ= 30 minutos) ou “Será que que o tempo médio gasto nas
deslocações diárias é diferente de 30 minutos (hipótese alternativa - Ha: µ
≠30 minutos).
Com uma amostra aleatória (e por isso, representativa) de um conjunto de pessoas
inquiridas é possível testar a hipótese nula.
4
Os conceitos fundamentais subjacentes a um teste de hipóteses são, então:
Hipótese nula (Ho): é a hipótese assumida como verdadeira para a construção do
teste.
Num teste que diz respeito ao valor de um parâmetro ou a uma diferença de
parâmetros, a hipótese nula tem de conter sempre o sinal da igualdade.
No exemplo anterior: Ho: µ=30 minutos
Hipótese alternativa (Ha): é uma afirmação, ou um valor, que se opõe à hipótese nula
No exemplo anterior: Ha: µ≠ 30 minutos
Nível de significância ou Erro tipo I (α) – margem de erro que estamos dispostos a
correr de rejeitar a hipótese nula, sendo ela verdadeira,esta margem de erro é pré-
fixada e corresponde comummente a 1%, 5% ou 10%, consoante é mais ou menos
gravoso tomar uma decisão errada neste sentido.
Erro Tipo II (β) – Há ainda um outro tipo de erro associado aos ensaios de hipóteses e
que varia em sentido inverso ao erro tipo I. Quando não rejeitamos a hipótese nula,
isto é, quando a probabilidade de o fazermos erradamente é superior ao nível de
significância que pré-fixámos, corremos ainda o risco de, apesar de não rejeitar a
hipótese nula, ela ser falsa. Isto é, os valores amostrais não parecem ir no sentido da
falsidade da hipótese nula, mas, na população aquela hipótese é, de facto, falsa. Neste
caso, estamos a cometer um erro tipo II, ao não pôr em causa Ho e esta hipótese ser
realmente falsa.1
1
O SPSS não calcula o Erro Tipo II.
5
Ensaios de Hipóteses Não-Paramétricos
Os testes não-paramétricos dizem respeito a outras características da população que
não o valor dos seus parâmetros. Os ensaios de hipóteses que mais se vão usar nesta
UC têm vulgarmente como objetivo:
→ Verificar se existe uma relação entre duas variáveis qualitativas
“Será que a variável qualitativa A não tem relação com a variável qualitativa B?” ou, o
que é a mesma coisa, “Será que a variável qualitativa A tem uma distribuição igual,
seja qual for a categoria da variável qualitativa B?”
→ Validar afirmações sobre a forma como uma variável quantitativa se comporta no
universo, se segue uma determinada distribuição.
“Será que a variável (necessariamente quantitativa) segue uma distribuição normal no
universo?”2
2
Teste de Aderência.
3
Em geral os testes são bilaterais. Isto é tanto se rejeita a hipótese nula no caso das diferenças (entre
valor observado na amostra e o atribuído para a população) serem no sentido positivo ou negativo.
Em alguns casos, podem ser feitos testes unilaterais. Nesse caso, se o teste é unilateral, então a
hipótese alternativa afirma que o valor do parâmetro é superior (teste unilateral direito) ou inferior
(teste unilateral esquerdo) ao proposto na hipótese nula. Nessa situação, o P-value é dividido por dois
e, por outro lado, é necessário verificar se a diferença (entre a amostra e a hipótese nula) vão no
sentido da rejeição, ou seja se estão de acordo com a hipótese alternativa.
6
TESTE DE STUDENT (TESTE T) PARA A MÉDIA
Existem vários testes cujo foco é a média. Podem fazer-se testes para uma média (por
exemplo para perceber se o salário médio em Portugal é igual ou diferente a um dado
valor usa-se o teste T para uma média), mas também se fazem testes para comparar
médias.
Podemos comparar médias de dois grupos distintos (teste T para amostras
independentes, por exemplo se se quiser testar se os homens e as mulheres têm, em
média, salários iguais ou diferentes). Ou, o objetivo pode ser perceber se um mesmo
grupo têm médias iguais ou diferentes em duas variáveis diferentes (test T para
amostras emparelhadas, por exemplo no caso de querermos comparar se a média de
gastos com a alimentação é igual ou diferente da média de gastos com transportes e
deslocações).
No contexto da Sociologia e da Ciência Política, o teste mais utilizado é aquele que
compara a média de dois grupos diferentes.
O teste para a igualdade de médias é mais comummente usado que o teste para uma
média. O procedimento para realizar os dois testes é muito semelhante, sendo que o
teste para a igualdade de médias tem um teste adicional. Na prática, o SPSS faz dois
testes para a igualdade de médias: um na suposição que a variável em teste tem uma
dispersão idêntica nas duas populações e outro para quando aquela dispersão é
assumida como diferente. Estes dois testes são realizados simultaneamente pelo SPSS.
Vejamos um exemplo: no European Social Survey, de 2014, uma das questões
colocadas diz respeito ao grau de felicidade que os indivíduos experimentam, expresso
numa escala de 0 (nada feliz) a 10 (muito feliz). Com base nesta variável, podemos
4
Se a dimensão da amostra for inferior a 30 tem de garantir-se que a variável segue, no universo, uma
distribuição normal. Para tal, realiza-se um teste de aderência à normalidade, que será explicado
adiante (ver pág. 13).
7
comparar a felicidade sentida pelos dois grupos, tratando neste caso a variável como
se fosse quantitativa e comparando as duas médias.
A amostra portuguesa daquele inquérito é considerada representativa pelo que se
pode aplicar estatística inferencial. É com base nesta amostra, de pouco mais de mil
pessoas (567 homens e 693 mulheres), que se vão retirar conclusões sobre a
população portuguesa. A estas conclusões está necessariamente associado o risco de
cometer erros. Geralmente admite-se um erro máximo de 0,05 (5%) – o que
corresponde a dizer que o nível de significância é de 5%.
2_ Hipóteses em teste
Ho: Na população portuguesa os homens e as mulheres têm o mesmo grau médio de
felicidade ou (Ho: H = M ou Ho: H - M =0)
Ha: Na população portuguesa os homens e as mulheres têm diferentes graus médios
de felicidade ou (Ho: H ≠ M ou Ho: H - M≠0)
8
4._ Valor do Teste(s) e p-value
No segundo quadro estão os resultados dos dois testes T para a igualdade de médias
(e também o teste de Levene para a igualdade de variâncias)
Esta tabela tem duas linhas e, em cada uma delas um teste para a igualdade de médias.
Em cada uma das linhas existe: um teste t (t), o número de graus de liberdade (df)6 , o
P-value (sig (2 tailed)).7
5
O desvio-padrão amostral não é um bom estimador para o desvio-padrão da população. Assim, usa-
se o desvio-padrão corrigido (s’) que corresponde ao desvio-padrão multiplicado pela raiz quadrada de
n/(n-1), onde n é a dimensão da amostra. Tal correção só conduzirá a valores diferentes do desvio-
padrão sem correção quando n é pequeno, dado que quanto maior o n mais próximo aquele quociente
está de 1.
6
Uma última nota: o nº de graus de liberdade no teste para duas amostras, éigual a n1+n2-2.
7
Neste caso os valores são iguais. Mas isso não acontece sempre.
9
Antes de tomar a decisão sobre o teste para a igualdade de médias, é necessário
decidir qual dos dois testes se vai ler (t=3,339 ou t=3,376).
Na zona a sombreado vê-se claramente que os testes diferem pois um é realizado
assumindo a igualdade de variâncias (equal variances assumed) e outro na suposição
contrária (equal variances not assumed).
Para decidir qual dos testes T deve ser lido, o SPSS apresenta o teste de Levene, (teste
F e sig). Como todos os testes, também este teste tem duas hipóteses:
O teste de Levene tem o seguinte valor: F=10,73, com o P-value de 0,001 (muito
inferior a 0,05). Assim, rejeita-se a hipótese de na população as variâncias do grau de
felicidade serem iguais nos dois sexos.
➔ Nesta situação, o teste para as médias terá de ser lido na segunda linha
(equal variances not assumed).
10
Teste T para a diferença de Média - A Dimensão do Efeito
Para além do teste de hipóteses, que levou a conclui que “na população, existem
diferenças no grau médio de felicidade entre homens e mulheres”
É frequente medir a dimensão do efeito (Effect Size), ou seja, até que ponto uma
variável tem efeito na outra variável.
De entre as várias medidas sobre a dimensão/tamanho do efeito, a mais usual é o d
de Cohen. Este indicador compara as médias das duas amostras e relativiza esta
diferença em função do desvio padrão.
(𝑋̅𝐴 −𝑋̅𝐵 )
d=
𝐷𝑃
11
Teste T para a igualdade de médias em dois grupos
(amostras independentes, mas pequenas)
Exemplo:
Considerando a questão anterior, mas agora pensando apenas na população jovem
até aos 20 anos. Neste caso, a amostra recolhida pelo European Social Survey tem
muito menor dimensão: 27 homens e 33 mulheres. Ou seja, temos uma amostra que
é menor que 30 e, por isso é necessário realizar o teste para verificar se o grau de
felicidade tem uma distribuição normal na população masculina jovem.
12
1. Fixação do nível de significância (erro admitido - α)
O α é pré-fixado e, neste caso é de 5%. Ou seja, queremos correr um risco máximo de
rejeitar incorretamente a hipótese nula de 0,05
2. Hipóteses em teste
Ho: Na população jovem os homens e as mulheres têm o mesmo grau médio de
felicidade ou (Ho: H = M ou Ho: H - M =0)
Ha: Na população jovem os homens e as mulheres têm diferentes graus médios de
felicidade ou (H o: H ≠ M ou Ho: H - M≠0)
3. Escolha do teste
Escolhe-se um teste para médias de duas amostras independentes.
No SPSS: Analyse → Compare Means → Independent Samples Test
Verifica-se que a amostra dos homens tem dimensão inferior a 30 (n1<30). Não se
pode usar, neste caso, o teorema do limite central, para garantir que as médias
amostrais seguem, no conjunto das amostras que se podem tirar da população dos
homens, uma distribuição normal. Por isso, tem de se testar se o grau de felicidade
sentido tem uma distribuição normal, na população jovem do sexo masculino.
Assim, é necessário realizar um teste (não paramétrico) de aderência à normalidade.
Este teste é o Kolmogorov-Smirnov. O teste de Kolmogorov-Smirnov é utilizado em
muitas circunstâncias, no caso de ser um passo prévio da realização do teste T, então
deve ser lida o teste de Shapiro-Wilk (que o SPSS calcula sempre que as amostras têm
uma dimensão igual ou inferior a 50 ).
13
TESTE DE ADERÊNCIA À NORMALIDADE
(TESTE AUXILIAR PARA O TESTE PARA A IGUALDADE DE MÉDIAS)
2._Hipóteses em teste
Como só a amostra dos homens é pequena (tem dimensão inferior a 30), só se fará
este teste para os homens.
Ho: Na população masculina jovem, a avaliação feita da felicidade segue uma distribuição
normal
Ha: Na população masculina jovem, a avaliação feita da felicidade não segue uma distribuição
normal
3. Escolha do teste
No SPSS escolhe-se: Analyse -> Descriptive statistics -> Explore
No interior do Explore, escolhe-se Plots. Depois, já na janela dos Plots, ativa-se a opção
Normality plots with tests
14
4. Valor do teste e p value
5. Tomada de decisão
Com S-W(27)=0,782; Sig<0,05, rejeita-se a hipótese nula e aceita-se a alternativa.
Conclui-se que que no universo dos homens a distribuição da avaliação de felicidade
não segue uma distribuição normal.
8
Neste caso ter-se-ia de optar pela alternativa não paramétrica, teste não-paramétrico Mann
Whitney.
15