Escolar Documentos
Profissional Documentos
Cultura Documentos
Organização e elaboração:
Profa. Marinalva Cardoso Maciel
Profa. Marina Y. Toma
FAEST/ICEN/UFPA
Belém - PA
2022
I - INTRODUÇÃO
CONCEITOS BÁSICOS
Amostra Aleatória
𝑋1 , 𝑋2 , … , 𝑋𝑛 constituem uma amostra aleatória se cada Xi apresenta a mesma
distribuição e independência entre si.
Parâmetro: É um valor desconhecido, associado à uma população, que se deseja
estimar.
Estimador: É uma função da amostra aleatória que estima o valor do parâmetro.
Nível de Confiança: É a probabilidade de abrangência do intervalo de confiança para
certo parâmetro.
Exercício 1: Vamos testar a hipótese de uma moeda ser ou não honesta. Para tal,
vamos considerar que esta moeda foi lançada 8 vezes. Foram encontradas 7 caras e
apenas uma coroa. Qual deve ser a nossa opinião sobre a moeda, com um nível de
confiança de 5%?
Temos N = 8 e o número de sucessos, X = 7. Para que a moeda seja considerada
honesta, é necessário que o número de caras obtidas não difira estatisticamente do
número de coroas. As hipóteses de teste podem ser definidas como:
H0: p = 0,5 (probabilidade de cair cara é igual à probabilidade de cair coroa)
H1: p > 0,5
𝑃(𝑋 ≥ 7) = ∑8𝑖=7 𝐶8𝑖 𝑝𝑖 𝑞8−𝑖 = 𝐶87 × 0,57 × 0,58−7 + 𝐶88 × 0,58 × 0,58−8 = 0,035156
Como a hipótese é unilateral, e α = 0,05, o p calculado é menor que o nível de
significância, logo, rejeita-se a hipótese nula.
Observe que, como é uma probabilidade exata, o p calculado já é o p-valor.
No Bioestat:
No Excel: 𝑃(𝑋 ≥ 7) = 1 − 𝑃(𝑋 < 7) = 1 − 𝑃(𝑋 ≤ 6):
No R:
>binom.test(7,8,p=0.5,alternative = "greater")
onde:
Oi = número de casos observados classificados na categoria i.
Ei = número de casos esperados na categoria i sob H0, onde k é o número de
categorias.
Se há concordância entre os valores observados e os esperados, as diferenças (Oi -
Ei) serão pequenas e, consequentemente, ² será também pequeno. Se as
divergências, entretanto, forem grandes, o valor de ², será também grande. Pode-se
mostrar que a distribuição amostral de ², sob Ho, calculada pela fórmula acima, segue
a distribuição qui-quadrado com um número de graus de liberdade igual a “k-1” onde
“k” é igual ao número de categorias em que a variável foi classificada.
Existem muitas distribuições qui-quadrado diferentes, uma para cada grau de
liberdade. O grau de liberdade, anotado por gl reflete o número de observações livres
(que podem variar) após feitas certas restrições sobre os dados. Por exemplo, se forem
classificados em duas categorias dados relativos a 50 casos, tão logo se saiba que,
digamos, 35 casos se enquadram em uma das categorias, automaticamente fica-se
sabendo que 15 casos se enquadrarão na outra. Tem-se, então que gl = 1, porque com
duas categorias e qualquer n fixo, tão logo se conheça o número de casos em uma
categoria a outra estará automaticamente determinada. Em geral, no caso de uma
amostra, quando Ho especifica plenamente os valores esperados o número de graus
de liberdade será gl=(k-1), onde k representa o número de categorias usadas na
classificação dos dados.
Para empregar a prova ² na comprovação de uma hipótese, deve-se enquadrar
cada observação em uma das k células. O número total dessas observações deve ser
n (número de elementos da amostra considerada). Isto é, cada observação deve ser
independente de qualquer outra. Não se pode, portanto, fazer várias observações
sobre o mesmo indivíduo e considerá-las como sendo independentes. Deve-se também
determinar a frequência esperada para cada uma das k células. Se H0 especificar que
a proporção de elementos em cada categoria seja a mesma, então 𝐸𝑖 = 𝑛/𝑘.
O valor tabelado de 𝜒 2 (7; 5%) = 14,067. Como o valor calculado é maior que o
tabelado, rejeita-se a hipótese nula. Pela tabela da ² com 7 gl tem probabilidade de
ocorrência entre 0,02 < 𝑝 < 0,05. Logo, se 𝛼 = 0,01 não podemos rejeitar 𝐻0 . Se 𝛼 =
0,05 podemos rejeitar 𝐻0 ? (Tabela C, Siegel, pg. 280): 1%=18,48; 2% =16,62; 5%=14,07)
No Bioestat:
Como o resultado do Bioestat é o p-valor, ele deve ser comparado com o nível de significância.
Nesse caso, como α = 0,05, o p-valor é menor do que o nível de significância e deve-se rejeitar a
hipótese nula.
No excel:
Pode-se calcular o 𝜒 2 usando a fórmula e depois usar a função:
=DIST.QUIQUA.CD(valor calculado;graus de liberdade) = DIST.QUIQUA.CD(16.333;7)
Que fornece o p-valor = 0,0222
No R:
Pequenas Frequências Esperadas. Quando gl = 1, isto é, quando k = 2, cada
frequência esperada não deve ser inferior a 5. Quando o grau de liberdade for maior do
que um, isto é, quando k > 2, a prova ² não deve ser usada se mais de 20% das
frequências esperadas forem inferiores a 5 ou se qualquer frequência esperada é
inferior a 1. As frequências esperadas podem eventualmente ser aumentadas
combinando-se categorias adjacentes. Isto naturalmente só deve ser feito se as
combinações forem significativas.
Por exemplo, pode-se classificar um grupo de pessoas quanto à sua atitude em relação
a determinada opinião em: "apoia fortemente", "apoia", “indiferente", “é contra” e “é
fortemente contra”. Como forma de aumentar as frequências esperadas as categorias
poderiam ser reclassificadas em: “apoia”, “indiferente” e “é contra”.
Se o pesquisador tem apenas duas categorias e tem frequência esperada
inferior a 5, ou se, após combinar categorias obtém apenas duas com frequência
esperada inferior a 5, então deve ser utilizado o teste binomial ao invés do ².
A frequência teórica relativa acumulada pode ser obtida no excel utilizando a fórmula:
=DIST.NORM.N(X;290;56;VERDADEIRO). Onde X é o valor da coluna “Dados sem
repetição”. A coluna Diferença é o cálculo da Frequência teórica acumulada –
Frequência relativa acumulada. A estatística D é a maior das diferenças:
Dmax = 0.485755
Para pequenas amostras, como é o caso, a tabela E de Siegel dá os valores para
comparação:
No Bioestat:
Verifica-se que a decisão será tomada com base no p-valor, para o caso bilateral.
Como o p-valor é menor que 5%, rejeitamos a hipótese nula, de que os dados seguem
a distribuição normal.
No R:
Faces 1 2 3 4 5 6
Nº de vezes que apareceu 29 19 19 27 26 30
Método: Para o teste de normalidade da amostra, esta prova processa-se como o teste
de Kolmogorov-Smirnov, mas os dados originais são padronizados, usando estimativas
de μ e σ:
𝑋𝑖 −𝑋̅
𝑧𝑖 = 𝑆 (i = 1, ..., n)
No Bioestat, tem o teste direto no menu de testes para uma amostra e produz o
seguinte resultado:
𝐺 = 2 ∑ 𝑂𝑖 . ln(𝑂𝑖 /𝐸𝑖 )
𝑖
Exemplo. Vamos refazer o exemplo da corrida de cavalos em uma pista circular, que foi
usado com o teste qui-quadrado:
Posto 1 2 3 4 5 6 7 8 Total
Nº de vitórias 29 19 18 25 17 10 15 11 144
2𝑛1 𝑛2 2(30)(20)
𝑟−( + 1) 35 − ( + 1)
𝑛1 + 𝑛2 30 + 20
𝑧= = = 2,98
2𝑛1 𝑛2 (2𝑛1 𝑛2 − 𝑛1 − 𝑛2 ) 2(30)(20)[2(30)(20) − 30 − 20]
√ √
(𝑛1 + 𝑛2 )2 (𝑛1 + 𝑛2 − 1) (30 + 20)2 (30 + 20 − 1)