Você está na página 1de 15

LICENCIATURAS DE SOCIOLOGIA E CIÊNCIA POLÍTICA

ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS: INFERENCIAL

Texto de apoio n.º 2

Ensaios de Hipóteses Paramétricos


Teste t para uma amostra
Teste t para duas amostras independentes
(duas amostras grandes)
(uma ou duas amostras pequenas)

Ana Cristina Ferreira – Isabel Tiago de Oliveira – Margarida Perestrelo – Alda Azevedo
(ISCTE-IUL)
Conceitos Básicos sobre Ensaios de Hipóteses

1. O que são? E para que servem os ensaios de hipóteses?

Os testes de hipóteses são uma espécie de experiência em que se põe à prova uma
ideia sobre a população (hipótese). Nesta experiência é feito um confronto entre a
ideia sobre a população e os valores encontrados numa amostra.
Se as diferenças entre o que se pensava sobre a população e o que se encontra na
amostra são pequenas, consideramos que há uma grande probabilidade destas
diferenças terem acontecido por acaso e, por isso, não consideramos que a nossa ideia
sobre a população estava errada.
Se as diferenças são grandes, então é improvável que aqueles valores apareçam na
amostra casualmente e concluímos que a ideia que tínhamos sobre a população deve
estar errada.

Exemplo
A ideia de que percentagem de votantes num partido é igual em duas cidades pode
ser testada com base numa amostra com pessoas das duas cidades.
Se, na amostra, a diferença de percentagens é muito pequena então, podemos
continuar a pensar que, na população não há diferenças significativas.
Pelo contrário, se numa amostra a diferença de percentagens for muito grande é
muito improvável que esta diferença tenha acontecido por acaso. Por isso, concluímos
que existe mesmo uma diferença real.
É claro que poderíamos pensar que a amostra não era representativa, mas nesse caso
nem faria sentido fazer testes de hipóteses – a estatística indutiva só é válida para
amostras aleatórias e, por isso, representativas.

Por exemplo, com 1% de diferença consideramos que a nossa ideia não deve estar
errada, mas com 10% de diferença já concluímos que deve estar errada. Então, qual a
diferença necessária para rejeitarmos a hipótese que tínhamos sobre a população?

2
Qual é a diferença entre os valores observados na amostra e os considerados para a
população que nos leva a concluir que a nossa ideia sobre a população está errada?
É exatamente a esta pergunta que responde um teste de hipóteses. E a diferença
necessária vai depender de diversos fatores, sendo um dos mais importantes a
dimensão da amostra.
Quando fazemos um teste de hipóteses é aplicada a distribuição amostral do
estimador, na qual estão incluídos os valores atribuídos à população e os observados
na amostra, assim como a dimensão da amostra. Com uma distribuição amostral
conhecida (se estivermos a fazer um teste sobre a(s) média(s) será uma distribuição
aproximadamente normal) e, quando aplicada, vai dar um resultado concreto. O
resultado obtido tem associado uma probabilidade (p-value) - esta é a probabilidade
de aqueles valores ou diferenças ainda maiores serem encontrados na amostra, se a
hipótese for verdadeira na população.
Em suma, um teste de hipóteses é uma espécie de “termómetro de probabilidades”.
Os testes medem a probabilidade dos valores amostrais terem acontecido por acaso,
se a hipótese fosse verdadeira na população. Só consideramos que a hipótese sobre a
população é falsa se a probabilidade de encontrar, por acaso, uma amostra com
aquela média ou percentagem (se a hipótese é verdadeira) é muito pequena
(geralmente 5%).

Conclusão:
1. Um teste de hipóteses é uma técnica estatística que só pode ser usada com
amostras aleatórias.
2. Esta técnica corresponde a aplicar uma distribuição amostral de
probabilidades conhecida.
3. Na aplicação da distribuição amostral confrontam-se os valores obtidos na
amostra e os valores atribuídos para a população (hipótese).
4. O resultado deste ensaio de hipóteses tem associada uma probabilidade
que nos leva a decidir se devemos ou não, considerar falsa a hipótese inicial
sobre a população.
5. Consideramos que a ideia sobre a população está errada, se a
probabilidade de se encontrarem aqueles valores na amostra, apenas por
acaso, for muito baixa.

3
Os testes de hipóteses, também chamados ensaios de hipóteses ou testes de
significância, constituem um capítulo fundamental em inferência indutiva.
Estes testes permitem tomar uma decisão entre duas hipóteses (hipótese nula e
hipótese alternativa) propostas para uma mesma característica da população ou para
a comparação da mesma característica entre duas populações a partir dos valores
amostrais.
Com base na teoria das probabilidades, é possível controlar o erro com que se toma a
decisão de rejeitar uma das hipóteses (hipótese nula) em favor da outra (hipótese
alternativa).
Por exemplo, “Será que o tempo médio nas deslocações diárias é de 30 minutos? (esta
é a hipótese nula - Ho: µ= 30 minutos) ou “Será que que o tempo médio gasto nas
deslocações diárias é diferente de 30 minutos (hipótese alternativa - Ha: µ
≠30 minutos).
Com uma amostra aleatória (e por isso, representativa) de um conjunto de pessoas
inquiridas é possível testar a hipótese nula.

Testar a hipótese nula significa perceber qual a probabilidade de se encontrar uma


amostra com aquelas características, quando na população a hipótese nula é
verdadeira. Se a probabilidade de encontrar uma amostra com aquelas características
for baixa, significa que a hipótese nula deve ser rejeitada, ou seja, a nossa ideia sobre
a população estava errada.

Para controlar o erro de rejeitar incorretamente a hipótese nula, define-se a priori a


margem de erro máxima com que estamos dispostos a trabalhar (designada por nível
de significância, α, sendo os erros mais vulgarmente usados, 0,1; 0,05 e 0,01).

4
Os conceitos fundamentais subjacentes a um teste de hipóteses são, então:
Hipótese nula (Ho): é a hipótese assumida como verdadeira para a construção do
teste.
Num teste que diz respeito ao valor de um parâmetro ou a uma diferença de
parâmetros, a hipótese nula tem de conter sempre o sinal da igualdade.
No exemplo anterior: Ho: µ=30 minutos
Hipótese alternativa (Ha): é uma afirmação, ou um valor, que se opõe à hipótese nula
No exemplo anterior: Ha: µ≠ 30 minutos
Nível de significância ou Erro tipo I (α) – margem de erro que estamos dispostos a
correr de rejeitar a hipótese nula, sendo ela verdadeira,esta margem de erro é pré-
fixada e corresponde comummente a 1%, 5% ou 10%, consoante é mais ou menos
gravoso tomar uma decisão errada neste sentido.
Erro Tipo II (β) – Há ainda um outro tipo de erro associado aos ensaios de hipóteses e
que varia em sentido inverso ao erro tipo I. Quando não rejeitamos a hipótese nula,
isto é, quando a probabilidade de o fazermos erradamente é superior ao nível de
significância que pré-fixámos, corremos ainda o risco de, apesar de não rejeitar a
hipótese nula, ela ser falsa. Isto é, os valores amostrais não parecem ir no sentido da
falsidade da hipótese nula, mas, na população aquela hipótese é, de facto, falsa. Neste
caso, estamos a cometer um erro tipo II, ao não pôr em causa Ho e esta hipótese ser
realmente falsa.1

Os ensaios de hipóteses dividem-se em dois grandes grupos: ensaios de hipóteses


paramétricos e não-paramétricos.
Ensaios de Hipóteses Paramétricos
Estes testes focam-se nos parâmetros da população e servem para:
→ Validar afirmações sobre o valor dos parâmetros de uma população
“Será que a percentagem de votos no partido A irá ser de 35%?”
→ Verificar se as diferenças observadas entre valores de duas ou mais amostras
correspondem ou não a diferenças significativas, ou seja, diferenças entre os
parâmetros em causa
“Será que a média dos rendimentos das mulheres é igual ao dos homens?”
“Será que o volume médio de vendas semanais deste jornal é igual em duas cidades?”

1
O SPSS não calcula o Erro Tipo II.

5
Ensaios de Hipóteses Não-Paramétricos
Os testes não-paramétricos dizem respeito a outras características da população que
não o valor dos seus parâmetros. Os ensaios de hipóteses que mais se vão usar nesta
UC têm vulgarmente como objetivo:
→ Verificar se existe uma relação entre duas variáveis qualitativas
“Será que a variável qualitativa A não tem relação com a variável qualitativa B?” ou, o
que é a mesma coisa, “Será que a variável qualitativa A tem uma distribuição igual,
seja qual for a categoria da variável qualitativa B?”
→ Validar afirmações sobre a forma como uma variável quantitativa se comporta no
universo, se segue uma determinada distribuição.
“Será que a variável (necessariamente quantitativa) segue uma distribuição normal no
universo?”2

Etapas para a realização de um Ensaio de Hipóteses

Um ensaio de hipóteses, quer seja paramétrico ou não-paramétrico, desenrola-se de


acordo com cinco etapas:
1. Definição do nível de significância (erro admitido - α)
2. Formulação das hipóteses estatísticas (hipótese nula e alternativa)
3. Escolha da estatística de teste (escolha do teste adequado)
4. Cálculo do valor do teste
5. Tomada de decisão (a partir da comparação entre o p-value e o nível de significância
pré-fixado
• Quando o P-value é inferior ou igual ao α pré-fixado, rejeita-se a
hipótese nula e aceita-se a alternativa
• Quando o P-value é superior ao α pré-fixado, considera-se não haver
evidência estatística para rejeitar a hipótese nula3

2
Teste de Aderência.
3
Em geral os testes são bilaterais. Isto é tanto se rejeita a hipótese nula no caso das diferenças (entre
valor observado na amostra e o atribuído para a população) serem no sentido positivo ou negativo.
Em alguns casos, podem ser feitos testes unilaterais. Nesse caso, se o teste é unilateral, então a
hipótese alternativa afirma que o valor do parâmetro é superior (teste unilateral direito) ou inferior
(teste unilateral esquerdo) ao proposto na hipótese nula. Nessa situação, o P-value é dividido por dois
e, por outro lado, é necessário verificar se a diferença (entre a amostra e a hipótese nula) vão no
sentido da rejeição, ou seja se estão de acordo com a hipótese alternativa.

6
TESTE DE STUDENT (TESTE T) PARA A MÉDIA

Existem vários testes cujo foco é a média. Podem fazer-se testes para uma média (por
exemplo para perceber se o salário médio em Portugal é igual ou diferente a um dado
valor usa-se o teste T para uma média), mas também se fazem testes para comparar
médias.
Podemos comparar médias de dois grupos distintos (teste T para amostras
independentes, por exemplo se se quiser testar se os homens e as mulheres têm, em
média, salários iguais ou diferentes). Ou, o objetivo pode ser perceber se um mesmo
grupo têm médias iguais ou diferentes em duas variáveis diferentes (test T para
amostras emparelhadas, por exemplo no caso de querermos comparar se a média de
gastos com a alimentação é igual ou diferente da média de gastos com transportes e
deslocações).
No contexto da Sociologia e da Ciência Política, o teste mais utilizado é aquele que
compara a média de dois grupos diferentes.

Teste T para a igualdade de médias em dois grupos


(amostras independentes e grandes) 4

O teste para a igualdade de médias é mais comummente usado que o teste para uma
média. O procedimento para realizar os dois testes é muito semelhante, sendo que o
teste para a igualdade de médias tem um teste adicional. Na prática, o SPSS faz dois
testes para a igualdade de médias: um na suposição que a variável em teste tem uma
dispersão idêntica nas duas populações e outro para quando aquela dispersão é
assumida como diferente. Estes dois testes são realizados simultaneamente pelo SPSS.
Vejamos um exemplo: no European Social Survey, de 2014, uma das questões
colocadas diz respeito ao grau de felicidade que os indivíduos experimentam, expresso
numa escala de 0 (nada feliz) a 10 (muito feliz). Com base nesta variável, podemos

4
Se a dimensão da amostra for inferior a 30 tem de garantir-se que a variável segue, no universo, uma
distribuição normal. Para tal, realiza-se um teste de aderência à normalidade, que será explicado
adiante (ver pág. 13).

7
comparar a felicidade sentida pelos dois grupos, tratando neste caso a variável como
se fosse quantitativa e comparando as duas médias.
A amostra portuguesa daquele inquérito é considerada representativa pelo que se
pode aplicar estatística inferencial. É com base nesta amostra, de pouco mais de mil
pessoas (567 homens e 693 mulheres), que se vão retirar conclusões sobre a
população portuguesa. A estas conclusões está necessariamente associado o risco de
cometer erros. Geralmente admite-se um erro máximo de 0,05 (5%) – o que
corresponde a dizer que o nível de significância é de 5%.

1. Fixação do nível de significância (erro admitido - α)


O α é pré-fixado e, neste caso é de 5%. Ou seja, queremos correr um risco máximo de
rejeitar incorretamente a hipótese nula de 0,05.

2_ Hipóteses em teste
Ho: Na população portuguesa os homens e as mulheres têm o mesmo grau médio de
felicidade ou (Ho: H = M ou Ho: H - M =0)
Ha: Na população portuguesa os homens e as mulheres têm diferentes graus médios
de felicidade ou (Ho: H ≠ M ou Ho: H - M≠0)

3._ Escolha do teste


Escolhe-se um teste para médias de duas amostras independentes, porque:
- são dois grupos populacionais diferentes (e, portanto, amostras independentes)
- se quer testar a média de uma variável quantitativa (ou tratada como tal)
A distribuição amostral que é utilizada T=
(X 1 )
− X 2 − (1 −  2 )0 .
 N ( 0,1 )
2 2
s' s'
1
+ 2
para realizar este teste é a seguinte: n1 n2

Assim, a realização do teste para a diferença de médias passa por 2 etapas.


1 – Teste de Levene para a igualdade de Variâncias
2 – Teste T para a igualdade de Médias

8
4._ Valor do Teste(s) e p-value

O SPSS irá fornecer dois quadros de output deste teste.


No primeiro quadro estão as estatísticas descritivas dos dois grupos:
Group Statistics
Sexo N Mean Std. Deviation Std. Error Mean
Qual o seu grau de Homem 567 7,09 2,117 ,089
felicidade? Mulher 693 6,67 2,366 ,090

N – dimensão das amostras


Mean – média das amostras
Std. Deviation – desvio-padrão corrigido das amostras5
Std Error Mean – erro-padrão das médias amostrais (erro padrão da média) =

No segundo quadro estão os resultados dos dois testes T para a igualdade de médias
(e também o teste de Levene para a igualdade de variâncias)

Esta tabela tem duas linhas e, em cada uma delas um teste para a igualdade de médias.
Em cada uma das linhas existe: um teste t (t), o número de graus de liberdade (df)6 , o
P-value (sig (2 tailed)).7

5
O desvio-padrão amostral não é um bom estimador para o desvio-padrão da população. Assim, usa-
se o desvio-padrão corrigido (s’) que corresponde ao desvio-padrão multiplicado pela raiz quadrada de
n/(n-1), onde n é a dimensão da amostra. Tal correção só conduzirá a valores diferentes do desvio-
padrão sem correção quando n é pequeno, dado que quanto maior o n mais próximo aquele quociente
está de 1.
6
Uma última nota: o nº de graus de liberdade no teste para duas amostras, éigual a n1+n2-2.
7
Neste caso os valores são iguais. Mas isso não acontece sempre.

9
Antes de tomar a decisão sobre o teste para a igualdade de médias, é necessário
decidir qual dos dois testes se vai ler (t=3,339 ou t=3,376).
Na zona a sombreado vê-se claramente que os testes diferem pois um é realizado
assumindo a igualdade de variâncias (equal variances assumed) e outro na suposição
contrária (equal variances not assumed).
Para decidir qual dos testes T deve ser lido, o SPSS apresenta o teste de Levene, (teste
F e sig). Como todos os testes, também este teste tem duas hipóteses:

Ho: Na população, a variância do grau de felicidade é igual nos dois sexos


Ho: Ϭ2H = Ϭ2M
Ha: Na população, a variância do grau de felicidade é diferente nos dois sexos
Ha: Ϭ2H ≠Ϭ2M

O teste de Levene tem o seguinte valor: F=10,73, com o P-value de 0,001 (muito
inferior a 0,05). Assim, rejeita-se a hipótese de na população as variâncias do grau de
felicidade serem iguais nos dois sexos.
➔ Nesta situação, o teste para as médias terá de ser lido na segunda linha
(equal variances not assumed).

5._ Tomada de decisão (teste principal)


O valor do teste t para a igualdade de médias é t=3,376 (lido na segunda linha) e o P-
value é 0,001 (ou seja, muito inferior aos 0,05 assumidos que correspondem a um erro
admitido de 5%).
Assim, rejeita-se a hipótese nula que afirma que na população o grau médio de
felicidade é idêntico para ambos os sexos. A leitura comparativa das duas médias
aponta para que sejam os homens a sentirem-se mais felizes (média=7,09) do que as
mulheres (média 6,67).
Para além disso o output apresenta ainda o intervalo de confiança para a diferença de
médias que, neste caso, é: [I0,95]*(µ1- µ2)= ]0,179; 0,675[ isto é, a verdadeira diferença
entre a posição média de homens e mulheres na escala da felicidade está, com uma
confiança de 95%, entre aqueles dois valores.

10
Teste T para a diferença de Média - A Dimensão do Efeito

Para além do teste de hipóteses, que levou a conclui que “na população, existem
diferenças no grau médio de felicidade entre homens e mulheres”
É frequente medir a dimensão do efeito (Effect Size), ou seja, até que ponto uma
variável tem efeito na outra variável.
De entre as várias medidas sobre a dimensão/tamanho do efeito, a mais usual é o d
de Cohen. Este indicador compara as médias das duas amostras e relativiza esta
diferença em função do desvio padrão.
(𝑋̅𝐴 −𝑋̅𝐵 )
d=
𝐷𝑃

Existem diversos ajustamentos a esta fórmula base, que decorrem de diferentes


aproximações ao cálculo do desvio padrão.
Em amostras de dimensão inferior a 20 é aconselhada a correção de Hedges.

O valor do d de Cohen é, neste caso, de 0.189.


Para avaliar se um efeito é mais ou menos importante é necessário compará-lo com
os efeitos que são obtidos habitualmente quando se relacionam as duas variáveis
(um d=0.4 pode muito, se habitualmente se obtém efeitos de 0.3, mas pode ser
pouco se são habituais efeitos de 0.5)
Na ausência de estudos anteriores, é usual apontar para:
d=0.2 efeito fraco
d=0.5 efeito médio
d=0.8 efeito forte
Neste caso pode considerar-se que, embora as duas variáveis estejam relacionadas,
o efeito da diferença de géneros no grau de felicidade é fraco (d=0.189).

11
Teste T para a igualdade de médias em dois grupos
(amostras independentes, mas pequenas)

No caso de querermos comparar a média de duas populações, mas estando numa


situação em que uma ou as duas amostras são pequenas, não é possível supor que as
médias amostrais têm uma distribuição aproximadamente normal.
O teorema do limite central garante que quando as amostras são grandes (n>30), as
médias amostrais seguem uma distribuição aproximadamente normal.
Mas esta situação não se aplica a pequenas amostras e, nesse caso, é necessário testar
se a variável quantitativa tem uma distribuição normal na população de onde a
amostra (pequena) foi extraída. Este é um passo prévio que determina a possibilidade,
ou não, de prosseguir com o teste para a diferença de médias.

Assim, a realização do teste para a diferença de médias passa por 3 etapas.


1 – Teste à Normalidade da Distribuição (quando uma das amostras tem n<30)
2 – Teste de Levene para a igualdade de Variâncias
3 – Teste T para a igualdade de Médias

Exemplo:
Considerando a questão anterior, mas agora pensando apenas na população jovem
até aos 20 anos. Neste caso, a amostra recolhida pelo European Social Survey tem
muito menor dimensão: 27 homens e 33 mulheres. Ou seja, temos uma amostra que
é menor que 30 e, por isso é necessário realizar o teste para verificar se o grau de
felicidade tem uma distribuição normal na população masculina jovem.

12
1. Fixação do nível de significância (erro admitido - α)
O α é pré-fixado e, neste caso é de 5%. Ou seja, queremos correr um risco máximo de
rejeitar incorretamente a hipótese nula de 0,05

2. Hipóteses em teste
Ho: Na população jovem os homens e as mulheres têm o mesmo grau médio de
felicidade ou (Ho: H = M ou Ho: H - M =0)
Ha: Na população jovem os homens e as mulheres têm diferentes graus médios de
felicidade ou (H o: H ≠ M ou Ho: H - M≠0)

3. Escolha do teste
Escolhe-se um teste para médias de duas amostras independentes.
No SPSS: Analyse → Compare Means → Independent Samples Test

Estatísticas descritivas das duas amostras de jovens

Verifica-se que a amostra dos homens tem dimensão inferior a 30 (n1<30). Não se
pode usar, neste caso, o teorema do limite central, para garantir que as médias
amostrais seguem, no conjunto das amostras que se podem tirar da população dos
homens, uma distribuição normal. Por isso, tem de se testar se o grau de felicidade
sentido tem uma distribuição normal, na população jovem do sexo masculino.
Assim, é necessário realizar um teste (não paramétrico) de aderência à normalidade.
Este teste é o Kolmogorov-Smirnov. O teste de Kolmogorov-Smirnov é utilizado em
muitas circunstâncias, no caso de ser um passo prévio da realização do teste T, então
deve ser lida o teste de Shapiro-Wilk (que o SPSS calcula sempre que as amostras têm
uma dimensão igual ou inferior a 50 ).

13
TESTE DE ADERÊNCIA À NORMALIDADE
(TESTE AUXILIAR PARA O TESTE PARA A IGUALDADE DE MÉDIAS)

1. Fixação do nível de significância (erro admitido - α)


O α é pré-fixado e, neste caso é de 5%. Ou seja, queremos correr um risco máximo de
rejeitar incorretamente a hipótese nula de 0,05.

2._Hipóteses em teste
Como só a amostra dos homens é pequena (tem dimensão inferior a 30), só se fará
este teste para os homens.
Ho: Na população masculina jovem, a avaliação feita da felicidade segue uma distribuição
normal
Ha: Na população masculina jovem, a avaliação feita da felicidade não segue uma distribuição
normal

3. Escolha do teste
No SPSS escolhe-se: Analyse -> Descriptive statistics -> Explore
No interior do Explore, escolhe-se Plots. Depois, já na janela dos Plots, ativa-se a opção
Normality plots with tests

14
4. Valor do teste e p value

O valor do teste de Shapiro-Wilk é de 0,782 e o P-value é de 0.000.

5. Tomada de decisão
Com S-W(27)=0,782; Sig<0,05, rejeita-se a hipótese nula e aceita-se a alternativa.
Conclui-se que que no universo dos homens a distribuição da avaliação de felicidade
não segue uma distribuição normal.

➔ Como a amostra dos homens é pequena e não se pode admitir a normalidade


da distribuição da avaliação da felicidade no universo masculino, não é possível
prosseguir com o teste para a igualdade de médias.8
➔ Se não se tivesse rejeitado a hipótese da normalidade na amostra pequena,
então, pelo contrário prosseguia-se com o teste para a igualdade de variâncias e
finalmente lia-se o teste para a igualdade de médias.

8
Neste caso ter-se-ia de optar pela alternativa não paramétrica, teste não-paramétrico Mann
Whitney.

15

Você também pode gostar