Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo probabilstico a um conjunto de dados observados Exemplo 1: Segundo Mendel (geneticista famoso), os resultados dos cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas seguem uma distribuio de probabilidades dada por:
Resultado Probabilidade Amarela redonda 9/16 Amarela enrugada 3/16 Verde redonda 3/16 Verde enrugada 1/16
Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas foi classificada da seguinte forma:
Resultado Frequncia observada Amarela redonda 315 Amarela enrugada 101 Verde redonda 108 Verde enrugada 32
2
H evidncias de que os resultados desse experimento esto de acordo com a distribuio de probabilidades proposta por Mendel? 4 categorias para os resultados dos cruzamentos: Amarelas redondas (AR), Amarelas enrugadas (AE), Verdes redondas (VR), Verdes enrugadas (VE). Segundo Mendel, a probabilidade de cada categoria dada por: Probabilidades: AR AE VR 9/16 3/16 3/16 VE 1/16
No experimento, 556 ervilhas foram classificadas segundo o tipo de resultado, fornecendo a tabela a seguir: Tipo de resultado AR AE VR VE Total Objetivo: Frequncia observada 315 101 108 33 556
Se o modelo probabilstico for adequado, a frequncia esperada ervilhas do tipo AR, dentre as 556 observadas, pode ser calculada por:
Podemos expandir a tabela de frequncias dada anteriormente: Tipo de Frequncia Frequncia esperada resultado observada AR 315 312,75 AE 101 104,25 VR 108 104,25 VE 32 34,75 Total 556 556 Pergunta: Podemos afirmar que os valores observados esto suficientemente prximos dos valores esperados, de tal forma que o modelo probabilstico proposto por Mendel adequado aos resultados desse experimento?
Seja pi a probabilidade associada categoria i, i = 1,..., k. O objetivo do teste de aderncia testar as hipteses H : p1 = po1 , .... , pk = pok A : existe pelo menos uma diferena
sendo poi a probabilidade especificada para a categoria i, i = 1, ..., k, fixada atravs do modelo probabilstico de interesse.
Ei = n poi, i = 1, ...,k
8
1 2 3 M k Total
O1 O2 O3 M Ok n
E1 E2 E3 M Ek n
(Oi E i )2 2 = Ei i =1
k
(Oi Ei )2 2 = Ei i =1
k
Supondo H verdadeira,
(Oi Ei )2 2 2 = ~ q , aproximadamente, Ei i =1
k
sendo que q = k - 1 representa o nmero de graus de liberdade. Em outras palavras, se H verdadeira, a v.a. 2 tem distribuio aproximada qui-quadrado com q graus de liberdade.
IMPORTANTE.: Este resultado vlido para n grande e para Ei 5, i = 1, ..., k.
10
Regra de deciso: Pode ser baseada no nvel descritivo ou valor P, neste caso
2 2 P = P ( q obs ),
2 obs o valor calculado, a partir dos dados, em que 2 . usando a expresso apresentada para
Graficamente: P
2 obs
Exemplo (continuao): Cruzamentos de ervilhas Hipteses: H : O modelo probabilstico proposto por Mendel adequado. A : O modelo proposto por Mendel no adequado. De forma equivalente, podemos escrever: H: P(AR) =9/16, P(AE) = 3/16, P(VR) = 3/16 e P(VE) = 1/16. A: ao menos uma das igualdades no se verifica. A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente).
12
Resultado AR AE VR VE Total
Oi
Ei
(Oi Ei ) 2 (315 312,75) 2 (101 104,25) 2 (108 104,25) 2 (32 34,75) 2 = = + + + = Ei 312,75 104,25 104,25 34,75 1
Usando a distribuio de qui-quadrado com q = k-1 = 3 graus de liberdade, o nvel descritivo calculado por
Concluso: Para = 0,05, como P = 0,925 > 0,05, no h evidncias para rejeitarmos a hiptese H, isto , ao nvel de significncia de 5%, conclumos o modelo de probabilidades de 13 Mendel se aplica aos resultados do experimento.
2 P = P( 3 0,470) = 0,925.
O clculo do nvel descritivo P pode ser feito no Rcmdr, via menu, atravs do seguinte caminho:
Inserindo o valor 0,470 e o nmero de graus de liberdade igual a 3, o valor P ser igual a 0,925431.
14
Exemplo 2: Deseja-se verificar se o nmero de acidentes em uma estrada muda conforme o dia da semana. O nmero de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram: Dia da semana Seg Ter Qua Qui Sex Sab Dom No. de acidentes 20 10 10 15 30 20 35
15
Hipteses a serem testadas: H: O nmero de acidentes no muda conforme o dia da semana; A: Pelo menos um dos dias tem nmero diferente dos demais.
Total de acidentes na semana: n =140. Logo, se H for verdadeira, Ei = 140 x 1/7 = 20, i = 1,,7, ou seja, esperamos 20 acidentes por dia.
16
2 obs
Distribuies Distribuies contnuas Distribuio Qui-Quadrado Probabilidades da Qui-Quadrado Cauda Superior (inserindo o valor 27,50 e o nmero de graus de liberdade igual a 6).
Concluso: Para = 0,05, temos que P = 0,0001 < . Assim, h evidncias para rejeitarmos H, ou seja, conclumos ao nvel de significncia de 5% que o nmero de acidentes no 18 o mesmo em todos os dias da semana.
2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis medidas nas mesmas unidades experimentais. Exemplo 3: A Associao de Imprensa do Estado de So Paulo 3 fez um levantamento com 1300 leitores, para verificar se a preferncia por leitura de um determinado jornal independente do nvel de instruo do indivduo. Os resultados obtidos foram: Tipo de Jornal Grau de instruo 1 Grau 2 Grau Universitrio Total
o o
Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350
Vamos calcular propores segundo os totais das colunas (poderiam tambm ser calculadas pelos totais das linhas. Temos a seguinte tabela:
Outros 11,74%
Total 3,85%
o 30,00% 38,57% 35,71% 31,74% 34,62% 2 Grau Universitrio 66,67% 59,52% 62,86% 56,52% 61,54% Total 100,00% 100,00% 100,00% 100,00% 100,00%
Independentemente da preferncia por um tipo de jornal, 3,85% dos leitores tm o 1 Grau, 34,62% tm o 2 Grau e 61,54% so universitrios.
20
Sob independncia entre grau de instruo e preferncia por um tipo de jornal, o nmero esperado de leitores que tm o 1 Grau e preferem o jornal A igual a 300 x 0,0385 = 11,54, que tm o 2 Grau e preferem o Jornal A 300 x 0,3462 = 103,85 e que so universitrios e preferem o jornal A 300 x 0,6154 = 184,62.
Tipo de Jornal Grau de instruo 1 Grau
o
Jornal A
Jornal B 8 16,15 (3,85%) 162 145,38 (34,62%) 250 258,46 (61,54%) 420
Jornal C 5 13,46 (3,85%) 125 121,15 (34,62%) 220 215,38 (61,54%) 350
Total 50
10 11,54 (3,85%) o 90 2 Grau 103,85 (34,62)% 200 Universitrio 184,62 (61,54%) Total 300
450
800 1300
As diferenas entre os valores observados e os esperados no so muito pequenas. Preferncia por um tipo de jornal e grau de instruo parecem no ser independentes. 21
A \ B A1 A2 ... Ar Total
B1 O 11 O 21 ... O r1 O .1
B2 O 12 O 22 ... O r2 O .2
Bs O 1s O 2s ... O rs O .s
Total O 1. O 2. ... O r. n
22
Quantas observaes devemos esperar em cada casela, se A e B forem independentes? Sendo Oij o total de observaes na casela (i, j), se A e B forem independentes, esperamos que, para todos os possveis pares (Ai e Bj): Oi1 /O.1 = Oi2 /O.2 = ... = Ois /O.s = Oi. /n, i = 1, ..., r
ou ainda Oij /O.j = Oi. /n = 1, ..., r, j = 1, ..., s de onde se deduz, finalmente, que Oij = (Oi. x O.j )/n, i = 1, 2,, r e j = 1, 2,,s. Logo, o nmero esperado de observaes com as caractersticas (Ai e Bj), entre as n observaes, sob a hiptese de independncia, dado por O O
Eij =
i.
.j
23
Supondo H verdadeira,
2 =
i =1 j =1
2 ~ q
Regra de deciso: Pode ser baseada no valor P (nvel descritivo), neste caso
2 2 P = P ( q obs )
em que obs o valor calculado, a partir2dos dados, usando a expresso apresentada para .
2
Graficamente: P
2 obs
Exemplo (continuao): Estudo da independncia entre preferncia por um tipo de jornal e grau de instruo. 1300 eleitores foram entrevistados ao acaso. Hipteses H: As variveis preferncia por um tipo de jornal e grau de instruo so independentes. A: Existe dependncia entre as variveis.
Tipo de Jornal Grau de instruo 1 Grau 2 Grau Universitrio Total
o o
Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350
Exemplo do clculo dos valores esperados sob H (independncia): Nmero esperado de leitores que tm 1 Grau e preferem o jornal A: 300 50
E11 =
1300
= 11,54 .
26
Jornal A Jornal B 10 (11,54) 90 (103,85) 200 (184,62) 300 8 (16,15) 162 (145,38) 250 (258,46) 420
Lembre-se:
Eij =
Jornal A Jornal B 10 (11,54) 90 (103,85) 200 (184,62) 300 8 (16,15) 162 (145,38) 250 (258,46) 420
(10 11,54) 2 (8 16,15) 2 (5 13,46) 2 (27 8,85) 2 = + + + 11,54 16,15 13,46 8,85
(90 103,85) 2 (162 145,38) 2 (125 121,15) 2 (73 79,62) 2 + + + + 103,85 145,38 121,15 79,62 (200 184,62) 2 (250 258,46) 2 (220 215,38) 2 (130 141,54) 2 + + + + 184,62 258,46 215,38 141,54 28 = 53,910.
Supondo = 0,05, temos P < . Assim, temos evidncias para rejeitar a independncia entre as variveis grau de instruo e preferncia por tipo de jornal ao nvel de 5% de significncia. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela de dupla entrada
29
Sada do Rcmdr:
data: .Table
3 184.61538 258.46154 215.38462 141.538462 > round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 4 0.55 0.94
30
1 0.21 4.12 5.32 37.25 2 1.85 1.90 0.12 3 1.28 0.28 0.10
Exemplo 4: 1237 indivduos adultos classificados segundo a presso sangunea (mm Hg) e o nvel de colesterol (mg/100cm3). Verificar se existe independncia entre essas variveis. Colesterol < 200 200 a 260 > 260 Total Presso < 127 117 204 67 388 127 a 166 > 166 168 418 145 731 22 63 33 118 Total 307 685 245 1237
H: Presso sangunea e nvel de colesterol so independentes; A: Nvel de colesterol e presso sangunea so variveis dependentes. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela de dupla entrada
31
Sada do Rcmdr:
data: .Table X-squared = 13.5501, df = 4, p-value = 0.008878 > .Test$expected # Expected Counts 1 2 3 1 96.29426 181.4204 29.28537 2 214.85853 404.7979 65.34357 3 76.84721 144.7817 23.37106 > round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 1 4.45 0.99 1.81 2 0.55 0.43 0.08 3 1.26 0.00 3.97
Para = 0,05, temos P < . Assim, temos evidncias para rejeitar a hiptese de independncia entre as variveis presso sangunea e nvel de colesterol ao nvel de 5% de 32 significncia.