Escolar Documentos
Profissional Documentos
Cultura Documentos
FACULDADE DE ENGINHARIA
2º Ano
1º Semestre
Na estatística, os testes-t são um tipo de teste de hipóteses que permite comparar médias. Eles são
chamados de testes-t porque cada um deles resume seus dados amostrais em um número, o valor-
t. Se você entender como os testes-t calculam os valores-t, você estará no caminho certo para
entender como esses testes funcionam.
Nesta série de posts, estou me concentrando em conceitos e não em equações para mostrar como
os testes-t funcionam. No entanto, este post inclui duas equações simples sobre as quais eu vou
discorrer, que usam a analogia de uma razão sinal-ruído.
Entender esse processo é crucial para saber como os testes-t funcionam. Vou mostrar a fórmula
primeiro e depois explicarei como funciona.
Observe que a fórmula é uma razão. Uma analogia comum é que o valor-t é a razão sinal-ruído.
O numerador é o sinal. Você simplesmente pega a média amostral e subtrai o valor da hipótese
nula. Se a média amostral for 10 e a hipótese nula for 6, a diferença ou sinal será 4.
Se não houver diferença entre a média amostral e o valor sob a hipótese nula, o sinal no numerador
(assim como o valor da razão inteira) será igual a zero. Por exemplo, se a média da sua amostra
for 6 e o valor nulo for 6, a diferença será zero.
Como a diferença entre a média amostral e a média sob a hipótese nula aumenta, seja no sentido
positivo ou no negativo, a força do sinal aumenta.
3
Página
RUÍDO
O denominador é o barulho. A equação no denominador é uma medida de variabilidade conhecida
como erro padrão da média. Essa estatística indica com que precisão sua amostra estima a média
da população. Um número maior indica que sua estimativa amostral é menos precisa porque tem
mais erros aleatórios.
Esse erro aleatório é o "ruído". Quando há mais ruído, você espera ver diferenças maiores entre a
média amostral e o valor sob a hipótese nula, mesmo quando a hipótese nula for verdadeira. Nós
incluímos o fator de ruído no denominador porque devemos determinar se o sinal é grande o
suficiente para se destacar dele.
A rAZÃO SINAL-RUÍDO
Os valores de sinal e ruído estão nas unidades dos seus dados. Se o seu sinal for 6 e o ruído for 2,
seu valor-t será 3. Este valor-t indica que a diferença é 3 vezes o tamanho do erro padrão. No
entanto, se houver uma diferença do mesmo tamanho, mas seus dados tiverem mais variabilidade
(6), seu valor-t será apenas 1. O sinal está na mesma escala do ruído.
Dessa forma, os valores-t permitem que você veja como o seu sinal é distinguível do ruído. Sinais
relativamente grandes e baixos níveis de ruído produzem valores-t maiores. Se o sinal não se
destacar do ruído, é provável que a diferença observada entre a estimativa amostral e o valor sob
a hipótese nula se deva ao erro aleatório amostral e não a uma diferença real no nível da população.
Você pode testar isso com esse conjunto de dados para ver como todos os resultados são idênticos,
incluindo a diferença média, o valor-t, o valor-p e o intervalo de confiança da diferença.
4
Página
Página
5
Entender que o teste-t pareado simplesmente executa um teste-t para 1 amostra nas diferenças
pareadas pode realmente ajudar você a entender como o teste-t pareado funciona e quando usá-lo.
Você só precisa descobrir se faz sentido calcular a diferença entre cada par de observações.
Por exemplo, suponhamos que “antes” e “depois” representem os resultados dos testes e que houve
uma intervenção entre eles. Se as pontuações antes e depois em cada linha da planilha exemplo
representarem o mesmo assunto, faz sentido calcular a diferença entre as pontuações dessa maneira
- o teste-t pareado é apropriado. No entanto, se as pontuações em cada linha são para assuntos
diferentes, não faz sentido calcular a diferença. Nesse caso, você precisaria usar outro teste, como
o teste-t para 2 amostras (que discuto abaixo).
Usar o teste-t pareado economiza o passo de calcular as diferenças antes de executar o teste-t. Você
só precisa ter certeza de que as diferenças pareadas fazem sentido!
Quando for apropriado usar um teste-t pareado, ele pode ser mais poderoso do que um teste-t para
2 amostras.
6
Página
COMO TESTES-T PARA DUAS AMOSTRAS CALCULAM VALORES-T
O teste-t para 2 amostras coleta seus dados amostrais de dois grupos e os resume no valor-t. O
processo é muito semelhante ao teste-t para 1 amostra, e você ainda pode usar a analogia da relação
sinal-ruído. Ao contrário do teste-t pareado, o teste-t para 2 amostras requer grupos independentes
para cada amostra.
Para o teste-t para 2 amostras, o numerador é novamente o sinal, que é a diferença entre as médias
das duas amostras. Por exemplo, se a média do grupo 1 for 10 e a média do grupo 2 for 4, a
diferença será 6.
A hipótese nula padrão para um teste-t para 2 amostras é que os dois grupos são iguais. Você pode
ver na equação que quando os dois grupos são iguais, a diferença (e a razão) também será igual a
zero. Como a diferença entre os dois grupos cresce em uma direção positiva ou negativa, o sinal
se torna mais forte.
Em um teste-t para 2 amostras o denominador ainda é o ruído, mas o Minitab pode usar dois valores
diferentes. Você pode supor que a variabilidade em ambos os grupos é igual ou diferente, e o
Minitab usa a estimativa correspondente da variabilidade. De qualquer forma o princípio
permanece o mesmo: você está comparando seu sinal ao ruído para ver o quanto o sinal se destaca.
Assim como com o teste-t para 1 amostra, para qualquer diferença dada no numerador, à medida
que você aumenta o valor do ruído no denominador, o valor-t se torna menor. Para determinar se
os grupos são diferentes, você precisa de um valor-t grande.
7
Página
Pretende-se comparar as duas médias de duas amostras emparelhada, partindo do pressuposto da
normalidade das populações. Devido ao emparelhamento, o procedimento passa por subtrair os pares de
observações. Trata-se esta situação como se trata uma única população.
Conteúdo
descrição
hipóteses a testar
estatística de teste
R project
texas TI 84
descrição
Temos duas amostras emparelhadas, de dimensão n, sendo X1,…,Xn e Y1,…,Yn. Estas formam
XYDx1y1d1=x1−y1x2y2d2=x2−y2⋯⋯⋯xnyndn=xn−yn
hipóteses a testar
O teste bilateral é:
Considerando que se reduzem as duas amostras a uma só então escreve-se o teste com base na v.a. D:
μD=μX−μY
H0:μD=0vsH1:μD≠0H0:μD=0vsH1:μD>0H0:μD=0vsH1:μD<0
estatística de teste
T=D¯−μDSD/n−−√∼sob H0tn−1,
onde Di=Xi−Yi.
Tudo isso é interessante, mas o que um valor-t de 2, por exemplo, realmente significa? A partir da
discussão acima, sabemos que um valor-t igual 2 indica que a diferença observada é duas vezes o
tamanho da variabilidade em seus dados. No entanto, usamos testes-t para avaliar hipóteses ao
invés de somente descobrir a razão sinal-ruído. Queremos determinar se o tamanho do efeito é
estatisticamente significativo.
Para ver como obtemos valores-t para avaliar hipóteses e determinar a significância estatística, leia
o outro post desta série, Entendendo testes-t e distribuições-t.
O teste de Dixon determina se o valor mais extremo em uma amostra é um outlier. O teste de
9
Página
Dixon inclui uma escolha da estatística de teste que supere os potenciais efeitos de encobrimento
de outros valores extremos na amostra. A estatística do teste de Dixon é indicada por rij , onde os
subscritos i e j indicam o seguinte:
i indica o número de valores extremos do mesmo lado (superior ou inferior) dos dados que o
outlier suspeito. i = 1 ou 2.
Por exemplo, se o outlier suspeito é o menor valor na amostra, mas a amostra inclui também dois
valores atipicamente grandes, então r12 é a estatística de teste apropriada. A estatística de
teste r10, (também chamada de Q de Dixon), é apropriada quando a amostra inclui apenas um
valor extremo.
Os valores críticos para as estatísticas dos testes de Dixon são tabulados em Rorabacher (1991).
A fórmula para o teste unilateral depende se você testar o menor valor, yi , ou o maior valor, yn.
Para testar se yi, é o outlier, use a seguinte fórmula:
Nós definimos a estatística de teste bilateral como King (1953) define a estatística de teste
bilateral relacionada com r10. A estatística de teste de bilateral é dada por: Notação
10
Notação
Página
Termo Descrição
Se você testar se o menor valor de dados é um outlier, então a estatística de teste G é dada por:
Se você testar se o maior valor de dados é um outlier, então a estatística de teste G é dada por:
Notação
Termo Descrição
a média da amostra
Suponha um curso preparatório para o ENEM que tenha em seu corpo docente três professores de
matemática, que são responsáveis por diferentes turmas de alunos. A direção da escola suspeita
que a variação do desempenho dos alunos nas provas de matemática do ENEM pode ser explicada
pelo trabalho desenvolvido pelos seus professores.
Sendo assim, a direção resolveu verificar as notas na prova de matemática dos alunos de cada
professor e calculou a média das notas de cada turma.
Mas será que essa informação é suficiente para afirmar que o desempenho dos alunos de cada
turma é realmente diferente? E se um dos professores tiver em sua turma um aluno que não se
preparou e errou quase todas as questões? Esse aluno não seria responsável por ter diminuído a
média do grupo de alunos desse professor?
Para verificar então se realmente o desempenho dos alunos variou de acordo com o professor, é
necessário a utilização de teste estatístico, que além de considerar a média das notas, leva também
em conta a variação das notas dentro de cada turma.
A Análise de Variância
12
Página
Um dos objetivos da aplicação da ANOVA é realizar o teste estatístico para verificar se há
diferença entre distribuição de uma medida entre três ou mais grupos. Em nosso exemplo, podemos
definir as hipóteses do teste como:
H0: Não existe diferença entre o desempenho das notas dos alunos de cada professor.
Mas o que significa diferença entre as distribuições? Qual a relação entre as distribuições das notas
dos alunos de cada professor e as hipóteses testadas pela análise de variância?
Caso os três grupos de alunos apresentem mesma variabilidade e a mesma média de desempenho,
suas distribuições tendem a se sobrepor, confirmando a hipótese de que não existe diferença entre
o desempenho das notas dos alunos de cada professor. Caso contrário, quando os grupos
apresentam a mesma variabilidade interna e médias de desempenho diferentes, as distribuições se
distanciam quanto mais as médias de desempenho se diferenciam.
Para aplicação da análise de variância, são necessárias algumas suposições, sendo elas:
As observações são independentes, ou seja, cada elemento amostral (aluno) deve ser independente;
Os erros são independentes e provenientes de uma distribuição normal com média igual a zero e
variância constante.
13
Página
Cabe ressaltar que os grupos de alunos de cada professor podem ser vistos como três níveis de um
mesmo fator, sendo que o objetivo é saber se o fator professor exerce alguma influência na variação
do desempenho das notas de matemática.
As informações geradas na análise de variância estão resumidas na tabela abaixo. Nela são
apresentados os graus de liberdade, a soma de quadrados, o quadrado médio, a estatística F e o
valor-p.
Os graus de liberdade são calculados com base no número de professores (grupos) e no número
total de alunos.
A soma de quadrados mede a variação dos dados. A soma de quadrados total mede a variação total
nos dados, a soma de quadrados dos tratamentos mede a variação entre os professores de cada
turma e a soma dos quadrados dos resíduos mede a variação dentro de cada turma, ou seja, mede
a variação dos alunos de cada professor.
A conclusão da ANOVA pode ser feita também com base na Estatística F. A estatística F tem
distribuição F de Fisher-Snedecor com k-1 e n-k graus de liberdade, onde k é o número de grupos
(k = 3) e n é o número de observações (n = 36). Neste caso fictício, obteríamos F ≅ 3,32 e como a
Estatística F (5,25) foi maior que o F tabelado (3,32), conclui-se que existe pelo menos dois
professores com alunos com desempenho significativamente diferentes.
15
Página
COMPARÇÃO DE VARIA MEDIAS RESULTADOS LABORATORIAS
Quando um novo método analítico está sendo desenvolvido é comum comparar-se a média e
precisão do novo método com as do método de referência. 1 2 1 2 1 2 n n n n s x x t p + − = 2 1 2
1 x média x média = = sP = desvio padrão agrupado 2 ( 1) ( 1) 1 2 2 2 2 2 1 1 + − − + − = n n n s
n s s p É necessário que não haja uma diferença significativa entre as precisões dos métodos
aplica o teste F antes de usar o teste t
16
Página
Referências
D.B. Rorabacher (1991). "Statistical Treatment for Rejection of Deviant Values: Critical Values
of Dixon Q Parameter and Related Subrange Ratios at the 95 percent Confidence
Level," Analytic Chemistry, 83, 2, 139-146.
E.P. King (1953). "On Some Procedures for the Rejection of Suspected Data," Journal of the
American Statistical Association, Vol. 48, No. 263, 531-533.
Ao longo do meu trabalho concluímos que na estatística, os testes-t são um tipo de teste de
hipóteses que permite comparar médias. Eles são chamados de testes-t porque cada um deles
resume seus dados amostrais em um número, o valor-t. Se você entender como os testes-t calculam
os valores-t, você estará no caminho certo para entender como esses testes funcionam.
Nesta série de posts, estou me concentrando em conceitos e não em equações para mostrar como
os testes-t funcionam. No entanto, este post inclui duas equações simples sobre as quais eu vou
discorrer, que usam a analogia de uma razão sinal-ruído.
18
Página