Escolar Documentos
Profissional Documentos
Cultura Documentos
FACULDADE DE ENGINHARIA
2º Ano
1º Semestre
Discentes⁚ 2ºGrupo
Jeremias Daniel
Juvêncio Sulemane
Egnalda Ucucho
Benilton Antonio
Yuran Carlos
Docente⁚
INTRODUÇÃO
Neste trabalho iremos falar sobre Testes de Significância que concerne os seus subtemas tentando unir
de uma forma simplificada os seus conteúdos que não são poucos, e tentando trazer o máximo de
informação para este presente trabalho.
TESTES DE SIGNIFICANCIA
Na estatística, os testes-t são um tipo de teste de hipóteses que permite comparar médias. Eles
são chamados de testes-t porque cada um deles resume seus dados amostrais em um número, o
valor-t. Se você entender como os testes-t calculam os valores-t, você estará no caminho certo
para entender como esses testes funcionam.
Nesta série de posts, estou me concentrando em conceitos e não em equações para mostrar como
os testes-t funcionam. No entanto, este post inclui duas equações simples sobre as quais eu vou
discorrer, que usam a analogia de uma razão sinal-ruído.
Entender esse processo é crucial para saber como os testes-t funcionam. Vou mostrar a fórmula
primeiro e depois explicarei como funciona.
Observe que a fórmula é uma razão. Uma analogia comum é que o valor-t é a razão sinal-ruído.
O numerador é o sinal. Você simplesmente pega a média amostral e subtrai o valor da hipótese
nula. Se a média amostral for 10 e a hipótese nula for 6, a diferença ou sinal será 4.
Se não houver diferença entre a média amostral e o valor sob a hipótese nula, o sinal no
numerador (assim como o valor da razão inteira) será igual a zero. Por exemplo, se a média da
sua amostra for 6 e o valor nulo for 6, a diferença será zero.
Como a diferença entre a média amostral e a média sob a hipótese nula aumenta, seja no sentido
positivo ou no negativo, a força do sinal aumenta.
RUÍDO
Esse erro aleatório é o "ruído". Quando há mais ruído, você espera ver diferenças maiores entre a
média amostral e o valor sob a hipótese nula, mesmo quando a hipótese nula for verdadeira. Nós
incluímos o fator de ruído no denominador porque devemos determinar se o sinal é grande o
suficiente para se destacar dele.
A RAZÃO SINAL-RUÍDO
Os valores de sinal e ruído estão nas unidades dos seus dados. Se o seu sinal for 6 e o ruído for 2,
seu valor-t será 3. Este valor-t indica que a diferença é 3 vezes o tamanho do erro padrão. No
entanto, se houver uma diferença do mesmo tamanho, mas seus dados tiverem mais variabilidade
(6), seu valor-t será apenas 1. O sinal está na mesma escala do ruído.
Dessa forma, os valores-t permitem que você veja como o seu sinal é distinguível do ruído.
Sinais relativamente grandes e baixos níveis de ruído produzem valores-t maiores. Se o sinal não
se destacar do ruído, é provável que a diferença observada entre a estimativa amostral e o valor
sob a hipótese nula se deva ao erro aleatório amostral e não a uma diferença real no nível da
população.
Muitas pessoas estão confusas sobre quando usar um teste-t pareado e como ele funciona. Eu vou
lhe contar um pequeno segredo. O teste-t pareado e o teste-t para 1 amostra são na verdade o
mesmo teste! Como vimos acima, um teste-t para 1 amostra compara uma média amostral com
um valor sob a hipótese nula. Um teste-t pareado simplesmente calcula a diferença entre
observações emparelhadas (por exemplo, antes e depois) e, em seguida, realiza um teste-t para 1
amostra sobre as diferenças.
Você pode testar isso com esse conjunto de dados para ver como todos os resultados são
idênticos, incluindo a diferença média, o valor-t, o valor-p e o intervalo de confiança da
diferença.
Entender que o teste-t pareado simplesmente executa um teste-t para 1 amostra nas diferenças
pareadas pode realmente ajudar você a entender como o teste-t pareado funciona e quando usá-
lo. Você só precisa descobrir se faz sentido calcular a diferença entre cada par de observações.
Por exemplo, suponhamos que “antes” e “depois” representem os resultados dos testes e que
houve uma intervenção entre eles. Se as pontuações antes e depois em cada linha da planilha
exemplo representarem o mesmo assunto, faz sentido calcular a diferença entre as pontuações
dessa maneira - o teste-t pareado é apropriado. No entanto, se as pontuações em cada linha são
para assuntos diferentes, não faz sentido calcular a diferença. Nesse caso, você precisaria usar
outro teste, como o teste-t para 2 amostras (que discuto abaixo).
Usar o teste-t pareado economiza o passo de calcular as diferenças antes de executar o teste-t.
Você só precisa ter certeza de que as diferenças pareadas fazem sentido!
Quando for apropriado usar um teste-t pareado, ele pode ser mais poderoso do que um teste-t
para 2 amostras.
COMO TESTES-T PARA DUAS AMOSTRAS CALCULAM VALORES-T
O teste-t para 2 amostras coleta seus dados amostrais de dois grupos e os resume no valor-t. O
processo é muito semelhante ao teste-t para 1 amostra, e você ainda pode usar a analogia da
relação sinal-ruído. Ao contrário do teste-t pareado, o teste-t para 2 amostras requer grupos
independentes para cada amostra.
Para o teste-t para 2 amostras, o numerador é novamente o sinal, que é a diferença entre as
médias das duas amostras. Por exemplo, se a média do grupo 1 for 10 e a média do grupo 2 for 4,
a diferença será 6.
A hipótese nula padrão para um teste-t para 2 amostras é que os dois grupos são iguais. Você
pode ver na equação que quando os dois grupos são iguais, a diferença (e a razão) também será
igual a zero. Como a diferença entre os dois grupos cresce em uma direção positiva ou negativa,
o sinal se torna mais forte.
Em um teste-t para 2 amostras o denominador ainda é o ruído, mas o Minitab pode usar dois
valores diferentes. Você pode supor que a variabilidade em ambos os grupos é igual ou diferente,
e o Minitab usa a estimativa correspondente da variabilidade. De qualquer forma o princípio
permanece o mesmo: você está comparando seu sinal ao ruído para ver o quanto o sinal se
destaca.
Assim como com o teste-t para 1 amostra, para qualquer diferença dada no numerador, à medida
que você aumenta o valor do ruído no denominador, o valor-t se torna menor. Para determinar se
os grupos são diferentes, você precisa de um valor-t grande.
Pretende-se comparar as duas médias de duas amostras emparelhada, partindo do pressuposto da
normalidade das populações. Devido ao emparelhamento, o procedimento passa por subtrair os pares de
observações. Trata-se esta situação como se trata uma única população.
Conteúdo
descrição
hipóteses a testar
estatística de teste
R project
texas TI 84
descrição
XYDx1y1d1=x1−y1x2y2d2=x2−y2⋯⋯⋯xnyndn=xn−yn
hipóteses a testar
O teste bilateral é:
H0:μX−μYμD=0vsH1:μX−μYμD≠0
Considerando que se reduzem as duas amostras a uma só então escreve-se o teste com base na v.a. D:
μD=μX−μY
estatística de teste
T=D¯−μDSD/n−−√∼sob H0tn−1,
onde Di=Xi−Yi.
Cada tipo de teste t usa um procedimento para resumir todos os seus dados amostrais em um
valor, o valor-t. Os cálculos comparam sua(s) média(s) amostrais com a hipótese nula e
incorporam o tamanho amostral e a variabilidade nos dados. Um valor-t de 0 indica que os
resultados da amostra são exatamente iguais à hipótese nula. Na estatística, chamamos a
diferença entre a estimativa amostral e a hipótese nula o tamanho do efeito. À medida que essa
diferença aumenta, o valor absoluto do valor-t aumenta.
Tudo isso é interessante, mas o que um valor-t de 2, por exemplo, realmente significa? A partir
da discussão acima, sabemos que um valor-t igual 2 indica que a diferença observada é duas
vezes o tamanho da variabilidade em seus dados. No entanto, usamos testes-t para avaliar
hipóteses ao invés de somente descobrir a razão sinal-ruído. Queremos determinar se o tamanho
do efeito é estatisticamente significativo.
Para ver como obtemos valores-t para avaliar hipóteses e determinar a significância estatística,
leia o outro post desta série, Entendendo testes-t e distribuições-t.
Estatística de teste de Dixon
O teste de Dixon determina se o valor mais extremo em uma amostra é um outlier. O teste de
Dixon inclui uma escolha da estatística de teste que supere os potenciais efeitos de encobrimento
de outros valores extremos na amostra. A estatística do teste de Dixon é indicada por rij , onde os
subscritos i e j indicam o seguinte:
i indica o número de valores extremos do mesmo lado (superior ou inferior) dos dados que o
outlier suspeito. i = 1 ou 2.
Por exemplo, se o outlier suspeito é o menor valor na amostra, mas a amostra inclui também dois
valores atipicamente grandes, então r12 é a estatística de teste apropriada. A estatística de
teste r10 , (também chamada de Q de Dixon), é apropriada quando a amostra inclui apenas um
valor extremo.
Os valores críticos para as estatísticas dos testes de Dixon são tabulados em Rorabacher (1991).
A fórmula para o teste unilateral depende se você testar o menor valor, yi , ou o maior valor, yn.
Para testar se yi , é o outlier, use a seguinte fórmula:
Nós definimos a estatística de teste bilateral como King (1953) define a estatística de teste
bilateral relacionada com r10. A estatística de teste de bilateral é dada por:
Notação
Termo Descrição
Referências
D.B. Rorabacher (1991). "Statistical Treatment for Rejection of Deviant Values: Critical Values
of Dixon Q Parameter and Related Subrange Ratios at the 95 percent Confidence
Level," Analytic Chemistry, 83, 2, 139-146.
E.P. King (1953). "On Some Procedures for the Rejection of Suspected Data," Journal of the
American Statistical Association, Vol. 48, No. 263, 531-533.
Se você testar se o menor valor de dados é um outlier, então a estatística de teste G é dada por:
Se você testar se o maior valor de dados é um outlier, então a estatística de teste G é dada por:
Notação
Termo Descrição
a média da amostra
yi o io menor valor na amostra
A análise de variância é também uma forma de resumir um modelo de regressão linear através da
decomposição da soma dos quadrados para cada fonte de variação no modelo e, utilizando o teste
F, testar a hipótese de que qualquer fonte de variação no modelo é igual a zero.
Suponha um curso preparatório para o ENEM que tenha em seu corpo docente três professores
de matemática, que são responsáveis por diferentes turmas de alunos. A direção da escola
suspeita que a variação do desempenho dos alunos nas provas de matemática do ENEM pode ser
explicada pelo trabalho desenvolvido pelos seus professores.
Sendo assim, a direção resolveu verificar as notas na prova de matemática dos alunos de cada
professor e calculou a média das notas de cada turma.
Mas será que essa informação é suficiente para afirmar que o desempenho dos alunos de cada
turma é realmente diferente? E se um dos professores tiver em sua turma um aluno que não se
preparou e errou quase todas as questões? Esse aluno não seria responsável por ter diminuído a
média do grupo de alunos desse professor?
Para verificar então se realmente o desempenho dos alunos variou de acordo com o professor, é
necessário a utilização de teste estatístico, que além de considerar a média das notas, leva
também em conta a variação das notas dentro de cada turma.
A Análise de Variância
H0: Não existe diferença entre o desempenho das notas dos alunos de cada professor.
Mas o que significa diferença entre as distribuições? Qual a relação entre as distribuições das
notas dos alunos de cada professor e as hipóteses testadas pela análise de variância?
Caso os três grupos de alunos apresentem mesma variabilidade e a mesma média de
desempenho, suas distribuições tendem a se sobrepor, confirmando a hipótese de que não existe
diferença entre o desempenho das notas dos alunos de cada professor. Caso contrário, quando os
grupos apresentam a mesma variabilidade interna e médias de desempenho diferentes, as
distribuições se distanciam quanto mais as médias de desempenho se diferenciam.
Para aplicação da análise de variância, são necessárias algumas suposições, sendo elas:
As observações são independentes, ou seja, cada elemento amostral (aluno) deve ser
independente;
Os erros são independentes e provenientes de uma distribuição normal com média igual a zero e
variância constante.
Cabe ressaltar que os grupos de alunos de cada professor podem ser vistos como três níveis de
um mesmo fator, sendo que o objetivo é saber se o fator professor exerce alguma influência na
variação do desempenho das notas de matemática.
As informações geradas na análise de variância estão resumidas na tabela abaixo. Nela são
apresentados os graus de liberdade, a soma de quadrados, o quadrado médio, a estatística F e o
valor-p.
Os graus de liberdade são calculados com base no número de professores (grupos) e no número
total de alunos.
A soma de quadrados mede a variação dos dados. A soma de quadrados total mede a variação
total nos dados, a soma de quadrados dos tratamentos mede a variação entre os professores de
cada turma e a soma dos quadrados dos resíduos mede a variação dentro de cada turma, ou seja,
mede a variação dos alunos de cada professor.
Tomando como base a tabela anterior, pode-se concluir que existe pelo menos dois professores
com alunos com desempenho significativamente diferentes ao avaliar o valor-p = 0,010 (menor
que o nível de significância estabelecido de 0,05).
A conclusão da ANOVA pode ser feita também com base na Estatística F. A estatística F tem
distribuição F de Fisher-Snedecor com k-1 e n-k graus de liberdade, onde k é o número de
grupos (k = 3) e n é o número de observações (n = 36). Neste caso fictício, obteríamos F ≅ 3,32
e como a Estatística F (5,25) foi maior que o F tabelado (3,32), conclui-se que existe pelo menos
dois professores com alunos com desempenho significativamente diferentes.
COMPARACAO DE VARIA MEDIAS RESULTADOS LABORATORIAS
Quando um novo método analítico está sendo desenvolvido é comum comparar-se a média e
precisão do novo método com as do método de referência. 1 2 1 2 1 2 n n n n s x x t p 2 1 2
1 x média x média sP = desvio padrão agrupado 2 ( 1) ( 1) 1 2 2 2 2 2 1 1 n n n s
n s s p É necessário que não haja uma diferença significativa entre as precisões dos métodos
aplica o teste F antes de usar o teste t