Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo probabilstico a um conjunto de dados observados Exemplo 1: Segundo Mendel (geneticista famoso), os resultados dos cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas seguem uma distribuio de probabilidades dada por:
Resultado
Probabilidade
Amarela redonda
9/16
Amarela enrugada
3/16
Verde redonda
3/16
Verde enrugada
1/16
Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas foi classificada da seguinte forma:
Resultado Frequncia observada Amarela redonda 315 Amarela enrugada 101 Verde redonda 108 Verde enrugada 32
2
H evidncias de que os resultados desse experimento esto de acordo com a distribuio de probabilidades proposta por Mendel?
No experimento, 556 ervilhas foram classificadas segundo o tipo de resultado, fornecendo a tabela a seguir: Tipo de resultado AR AE VR VE Total Objetivo: Frequncia observada 315 101 108 33 556
Se o modelo probabilstico for adequado, a frequncia esperada ervilhas do tipo AR, dentre as 556 observadas, pode ser calculada por:
Tipo de Frequncia Frequncia esperada resultado observada AR 315 312,75 AE 101 104,25 VR 108 104,25 VE 32 34,75 Total 556 556 Pergunta: Podemos afirmar que os valores observados esto suficientemente prximos dos valores esperados, de tal forma que o modelo probabilstico proposto por Mendel adequado aos resultados desse experimento?
2 categorias
Frequncia Observada
O1
2
3
O2
O3
k
Total
Ok
n
Seja pi a probabilidade associada categoria i, i = 1,..., k. O objetivo do teste de aderncia testar as hipteses H : p1 = po1 , .... , pk = pok
Ei = n
poi, i = 1, ...,k
8
1 2 3
k Total
O1 O2 O3
Ok n
E1 E2 E3
Ek n
i 1
(Oi E i )2 Ei
k 2 i 1
(Oi
Ei )2 Ei
k
Supondo H verdadeira,
2 i 1
(Oi
Ei )2 Ei
2 q
, aproximadamente,
Ei
5, i = 1, ..., k.
10
Regra de deciso: Pode ser baseada no nvel descritivo ou valor P, neste caso
2 q 2 obs
P P(
2 obs
),
em que o valor calculado, a partir dos dados, 2 usando a expresso apresentada para . Graficamente: P
2 obs
Se, para
fixado, obtemos P
, rejeitamos a hiptese H.
11
Hipteses: H : O modelo probabilstico proposto por Mendel adequado. A : O modelo proposto por Mendel no adequado.
De forma equivalente, podemos escrever: H: P(AR) =9/16, P(AE) = 3/16, P(VR) = 3/16 e P(VE) =
1/16.
A: ao menos uma das igualdades no se verifica. A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente).
12
Resultado AR AE VR VE Total
4 2 obs 1
Oi
Ei
(Oi Ei ) 2 Ei
Usando a distribuio de qui-quadrado com q = k-1 = 3 graus de liberdade, o nvel descritivo calculado por
P(
2 3
0,470) 0,925.
Concluso: Para = 0,05, como P = 0,925 > 0,05, no h evidncias para rejeitarmos a hiptese H, isto , ao nvel de significncia de 5%, conclumos o modelo de probabilidades 13 de Mendel se aplica aos resultados do experimento.
O clculo do nvel descritivo P pode ser feito no Rcmdr, via menu, atravs do seguinte caminho:
Distribuies
Distribuies contnuas
Distribuio Qui-Quadrado
da Qui-Quadrado
Probabilidades
Cauda Superior
Exemplo 2: Deseja-se verificar se o nmero de acidentes em uma estrada muda conforme o dia da semana. O nmero de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram:
No. de acidentes 20 10 10 15 30 20 35
15
,7,
Dia da semana
Seg Ter Qua Qui Sex
Sab
Dom
20
35
20
20
7 2 obs 1
(Oi E i )2 Ei
(20 20)2 20
(10 20)2 20
(10 20)2 20
(30 20)2 20
(20 20)2 20
(35 20)2 20
2 6
, aproximadamente.
P(
2 6
27,50)
0,00012 ,
Distribuies Distribuies contnuas Distribuio Qui-Quadrado Probabilidades da Qui-Quadrado Cauda Superior (inserindo o valor 27,50 e o nmero de graus de liberdade igual a 6).
Concluso: Para = 0,05, temos que P = 0,0001 < . Assim, h evidncias para rejeitarmos H, ou seja, conclumos ao nvel de significncia de 5% que o nmero de acidentes no 18 o mesmo em todos os dias da semana.
2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis medidas nas mesmas unidades experimentais. Exemplo 3: A Associao de Imprensa do Estado de So Paulo fez um levantamento com 1300 leitores, para verificar se a preferncia por leitura de um determinado jornal independente do nvel de instruo do indivduo. Os resultados obtidos foram:
Tipo de Jornal Grau de instruo 1o Grau 2o Grau Universitrio Total Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350 Outros 27 73 130 230 Total 50 450 800 1300
19
Vamos calcular propores segundo os totais das colunas (poderiam tambm ser calculadas pelos totais das linhas). Temos a seguinte tabela:
Tipo de Jornal Grau de instruo 1o Grau Jornal A Jornal B Jornal C 3,33% 1,90% 1,43% Outros 11,74% Total 3,85%
o 30,00% 38,57% 35,71% 31,74% 34,62% 2 Grau Universitrio 66,67% 59,52% 62,86% 56,52% 61,54% Total 100,00% 100,00% 100,00% 100,00% 100,00%
Independentemente da preferncia por um tipo de jornal, 3,85% dos leitores tm o 1 Grau, 34,62% tm o 2 Grau e 61,54% so universitrios.
20
Sob independncia entre grau de instruo e preferncia por um tipo de jornal, o nmero esperado de leitores que tm o 1 Grau e preferem o jornal A igual a 300 x 0,0385 = 11,54, que tm o 2 Grau e preferem o Jornal A 300 x 0,3462 = 103,85 e que so universitrios e preferem o jornal A 300 x 0,6154 = 184,62.
Tipo de Jornal Grau de instruo 1o Grau Jornal A Jornal B 8 16,15 (3,85%) 162 145,38 (34,62%) 250 258,46 (61,54%) 420 Jornal C 5 13,46 (3,85%) 125 121,15 (34,62%) 220 215,38 (61,54%) 350 Outros 27 8,85 (3,85%) 73 79,62 (34,62%) 130 141,54 (61,54%) 230 Total 50
10 11,54 (3,85%) o 90 2 Grau 103,85 (34,62)% 200 Universitrio 184,62 (61,54%) Total 300
450
800 1300
As diferenas entre os valores observados e os esperados no so muito pequenas. Preferncia por um tipo de jornal e grau de instruo parecem no ser independentes. 21
A \ B A1 A2 ... Ar Total
B1 O 11 O 21 ... O r1 O .1
B2 O 12 O 22 ... O r2 O .2
Bs O 1s O 2s ... O rs O .s
Total O 1. O 2. ... O r. n
22
Eij
Oi. O. j n
23
i 1
j 1
Supondo H verdadeira,
r 2 i 1 j 1 s
(Oij
Eij )2 Eij
2 q
aproximadamente,
sendo q = ( r 1) ( s 1 ) o nmero de graus de liberdade.
24
Regra de deciso: Pode ser baseada no valor P (nvel descritivo), neste caso
P P(
2
2 q
2 obs
em que obs o valor calculado, a partir dos dados, 2 usando a expresso apresentada para .
Graficamente:
P
2 obs
, rejeitamos a hiptese H de
25
Exemplo (continuao): Estudo da independncia entre preferncia por um tipo de jornal e grau de instruo. 1300 eleitores foram entrevistados ao acaso. Hipteses H: As variveis preferncia por um tipo de jornal e grau de instruo so independentes. A: Existe dependncia entre as variveis.
Tipo de Jornal Grau de instruo 1o Grau 2o Grau Universitrio Total Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350 Outros 27 73 130 230 Total 50 450 800 1300
Exemplo do clculo dos valores esperados sob H (independncia): Nmero esperado de leitores que tm 1 Grau e preferem o jornal A:
E11
26
E22
Lembre-se:
Eij
(8 16,15) 2 16,15
(5 13,46) 2 13,46
P P(
2 6
53,910) 0,0001
Supondo 0,05, temos P < Assim, temos evidncias para rejeitar a independncia entre as variveis grau de instruo e preferncia por tipo de jornal ao nvel de 5% de significncia. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia tabela de dupla entrada Digite e analise
29
Sada do Rcmdr:
data: .Table
> .Test$expected # Expected Counts 1 2 3 4 1 11.53846 16.15385 13.46154 8.846154 2 103.84615 145.38462 121.15385 79.615385
Exemplo 4: 1237 indivduos adultos classificados segundo a presso sangunea (mm Hg) e o nvel de colesterol (mg/100cm3). Verificar se existe independncia entre essas variveis. Colesterol < 200
Presso
< 127 117 127 a 166 > 166 168 22
Total 307
200 a 260
> 260 Total
204
67 388
418
145 731
63
33 118
685
245 1237
H: Presso sangunea e nvel de colesterol so independentes; A: Nvel de colesterol e presso sangunea so variveis dependentes. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela de dupla entrada
31
Sada do Rcmdr:
data: .Table X-squared = 13.5501, df = 4, p-value = 0.008878
> .Test$expected # Expected Counts 1 2 3 1 96.29426 181.4204 29.28537 2 214.85853 404.7979 65.34357 3 76.84721 144.7817 23.37106
> round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 1 4.45 0.99 1.81 2 0.55 0.43 0.08 3 1.26 0.00 3.97
Para = 0,05, temos P < . Assim, temos evidncias para rejeitar a hiptese de independncia entre as variveis presso sangunea e nvel de colesterol ao nvel de 5% de 32 significncia.