Escolar Documentos
Profissional Documentos
Cultura Documentos
- Testes Qui-quadrado -
Aderncia e Independncia
1. Testes de Aderncia
2
Objetivo: Testar a adequabilidade de um modelo
probabilstico a um conjunto de dados observados
Exemplo 1: Gentica Equilbrio Hardy-Weinberg
Aa Aa
AA Aa aa
Probabilidades:
(Modelo terico)
3 categorias: AA, Aa, aa
3
Em uma certa populao, 100 descendentes foram
estudados, fornecendo a tabela a seguir:
Gentipo
Freqncia
observada
AA 26
Aa 45
aa 29
Total 100
Objetivo: Verificar se o modelo gentico proposto
adequado para essa populao
4
Se o modelo Hardy-Weinberg for adequado, a freqncia
esperada de descendentes para o gentipo AA, dentre os
100 indivduos, pode ser calculada por:
1
4
100 (AA) 100 25 P = =
1
2
100 (Aa) 100 50 P = =
Da mesma forma, temos para o gentipo Aa,
1
4
100 (aa) 100 25 P = =
E para o gentipo aa,
5
Podemos expandir a tabela de freqncias dada
anteriormente:
Gentipo
Freqncia
observada
Freqncia
esperada
AA 26 25
Aa 45 50
aa 29 25
Total 100 100
Podemos afirmar que os valores observados esto
suficientemente prximos dos valores esperados, de tal
forma que o modelo Hardy-Weinberg adequado a esta
populao?
1. Testes de Aderncia Metodologia
6
Considere uma tabela de freqncias, com k > 2 categorias
de resultados:
Categorias
Freqncia
Observada
1 O
1
2 O
2
3 O
3
k O
k
Total n
em que O
i
o total de indivduos observados na
categoria i, i = 1,...,k.
7
Seja p
i
a probabilidade associada categoria i , i=1,...,k.
O objetivo do teste de aderncia testar as hipteses
H
o
: p
1
= p
o1
, .... , p
k
= p
ok
(hiptese nula)
H
1
: existe pelo menos uma diferena (hiptese Alternativa)
sendo p
oi
a probabilidade associada categoria i, i = 1,...,k,
calculada atravs do modelo probabilstico de interesse.
Se E
i
o total de indivduos esperados na categoria i,
quando a hiptese H
o
verdadeira, ento:
E
i
= n p
oi
, i = 1,...,k
8
Expandindo a tabela de freqncias original, temos
Quantificao da distncia entre as colunas de freqncias:
Categorias
Freqncia
observada
Freqncia
esperada
sob H
o
1 O
1
E
1
2 O
2
E
2
3 O
3
E
3
k O
k
E
k
Total n n
=
k
i
i
i i
E
E O
1
2
) (
2
9
2
2
1
( )
k
i i
i
i
O E
E
_
=
Estatstica do
teste de aderncia
Supondo H
o
verdadeira,
=
2
2 2
1
( )
~ ,
k
i i
q
i
i
O E
E
_ _
sendo que q = k - 1 representa o nmero de graus de
liberdade.
aproximadamente,
Obs.: Este resultado vlido para n grande e para
E
i
> 5, i = 1, ..., k.
Em outras palavras, se H
o
verdadeira, a v.a. _
2
tem
distribuio aproximada qui-quadrado com q graus de
liberdade.
10
Regra de deciso:
Toda vez que o valor calculado de
2
for igual ou maior do
que o valor da tabela, rejeita-se a hiptese de que a
distribuio das freqncias observadas est de acordo
com a teoria, ao nvel de significncia estabelecido (=1%,
5% ou 10%).
2 2
tabelado obs
_ _ >
11
Exemplo (continuao): Gentica Equilbrio Hardy-Weinberg:
Hipteses:
H
o
: O modelo proposto adequado a esta situao
H
1
: O modelo no adequado a esta situao
A tabela seguinte apresenta os valores observados e
esperados (calculados anteriormente).
De forma equivalente, podemos escrever:
H
o
: P(AA) = , P(Aa) = e P(aa) =
H
1
: ao menos uma das igualdades no se verifica
12
Gentipo O
i
E
i
AA 26 25
Aa 45 50
aa 29 25
Total 100 100
Clculo do valor da estatstica do teste ( k = 3):
1,18 0,64 0,50 0,04
25
25) (29
50
50) (45
25
25) (26 ) (
2 2 2
3
1
2
= + + =
=
i
i i
2
obs
E
E O
i
i i
2
obs
E
E O
16
Logo, para o = 0,05, rejeitamos H
o
, e conclumos que o
nmero de acidentes no o mesmo em todos os dias da
semana.
59 , 12
2
=
tabelado
_
Usando a distribuio de qui-quadrado com q = k-1 = 6 graus de
liberdade, o valor tabelado de:
2 2
tabelado obs
_ _ > 59 , 12 5 , 27 >
2. Testes de Independncia
17
Objetivo: Verificar se existe independncia entre duas
variveis medidas nas mesmas unidades experimentais.
Exemplo 3: Deseja-se verificar se existe dependncia entre a
renda e o nmero de filhos em famlias de uma cidade.
250 famlias escolhidas ao acaso forneceram a tabela a seguir:
250 61 71 70 48 Total
40 10 9 13 8 5000 ou mais
75 8 12 30 25 2000 a 5000
135 43 50 27 15 menos de 2000
Total + de 2 2 1 0
Nmero de filhos
Renda (R$)
18
Em geral, os dados referem-se a mensuraes de duas
caractersticas (A e B) feitas em n unidades experimentais,
que so apresentadas conforme a seguinte tabela:
Hipteses a serem testadas Teste de independncia:
H
o
: A e B so variveis independentes
H
1
: As variveis A e B no so independentes
19
Se A e B forem independentes, temos que, para todos os
possveis (A
i
e B
j
):
P(A
i
B
j
) = P(A
i
) P(B
j
) para i = 1, 2,, r e j = 1, 2,,s
Quantas observaes devemos ter em cada casela, se A e B
forem independentes?
Logo, o nmero esperado de observaes com as caractersticas
(A
i
e B
j
) entre as n
j
i
ij ij i j
n
n
E n p n p p n
n n
= = =
sendo p
ij
a proporo de observaes com as caractersticas (A
i
e B
j
).
O processo deve ser repetido para todas as caselas (i, j).
i j
ij
n n
E
n
=
Assim,
20
Estatstica do
teste de
independncia
Supondo H
o
verdadeira,
= =
2
2 2
1 1
( )
~
r s
ij ij
q
i j
ij
O E
E
_ _
sendo q = ( r 1) ( s 1 ) graus de liberdade.
em que O
ij
= n
ij
representa o total de observaes na casela (i, j).
Distncia entre os valores observados e os valores
esperados sob a suposio de independncia:
= =
= _
s
1 i
r
1 j
ij
2
ij ij
2
E
) E O (
21
Regra de deciso:
Toda vez que o valor calculado de
2
for igual ou maior do
que o valor da tabela, rejeita-se a hiptese de que a
distribuio das freqncias observadas est de acordo
com a teoria, ao nvel de significncia estabelecido.
2 2
tabelado obs
_ _ >
22
Exemplo (continuao):
Estudo da dependncia entre renda e o nmero de filhos
250 famlias foram escolhidas ao acaso
Hipteses H
o
: O nmero de filhos e a renda so independentes
H
1
: Existe dependncia entre o nmero de filhos e a renda
250 61 71 70 48 Total
40 10 9 13 8 5000 ou mais
75 8 12 30 25 2000 a 5000
135 43 50 27 15 menos de 2000
Total + de 2 2 1 0
Nmero de filhos
Renda (R$)
Exemplo do clculo dos valores esperados sob H (independncia):
Nmero esperado de famlias sem filhos e renda menor que R$ 2000:
11
48 135
25,92
250
E
= = .
23
Renda (R$)
Nmero de filhos
0 1 2 + de 2 Total
menos de 2000 15(25,92) 27(37,80) 50(38,34) 43(32,94) 135
2000 a 5000 25(14,40) 30(21,00) 12(21,30) 8(18,30) 75
5000 ou mais 8(7,68) 13(11,20) 9(11,36) 10(9,76)
40
Total 48 70 71 61 250
Tabela de valores observados e esperados (entre parnteses)
1 filho e renda de R$ 2000
a R$ 5000:
22
70 75
21,00
250
E
= =
Lembre-se:
i j
ij
n n
E
n
=
2 ou + filhos e renda de R$ 5000 ou
mais:
34
61 40
9,76
250
E
= =
24
Clculo da estatstica de qui-quadrado:
Renda (R$)
Nmero de filhos
0 1 2 + de 2 Total
menos de 2000 15(25,92) 27(37,80) 50(38,34) 43(32,94) 135
2000 a 5000 25(14,40) 30(21,00) 12(21,30) 8(18,30) 75
5000 ou mais 8(7,68) 13(11,20) 9(11,36) 10(9,76) 40
Total 48 70 71 61 250
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
2 2 2 2
2
2 2 2 2
2 2 2 2
15 25,92 25 14,40 8 7,68 27 37,80
25,92 14,40 7,68 37,80
30 21,00 13 11,20 50 38,34 12 21,30
21,00 11,20 38,34 21,30
12 21,30 9 11,36 43 32,94 8 18,30
21,30 11,36 32,94 18,30
obs
_
= + + + +
+ + + + +
+ + + + +
( )
2
10 9,76
36,62
9,76
+ =
.
25
Determinao do nmero de graus de liberdade:
Categorias de renda: r = 3
Categorias de n de filhos: s = 4
q = (r 1)(s 1) = 2 3 = 6
59 , 12
2
=
tabelado
_
2 2
tabelado obs
_ _ >
59 , 12 62 , 36 >
Logo, para o = 0,05, rejeitamos a independncia entre
nmero de filhos e renda familiar.
26
Exemplo 4: 1237 indivduos adultos classificados segundo a
presso sangnea (mm Hg) e o nvel de colesterol (mg/100cm
3
).
Verificar se existe independncia entre essas variveis.
H
o
: Presso sangnea e nvel de colesterol so independentes;
H
1
: Nvel de colesterol e presso sangnea so variveis dependentes.
Colesterol
Presso
Total
< 127 127 a 166 >166
<200 117 168 22 307
200 a 260 204 418 63 685
>260 67 145 33 245
Total 388 731 118 1237
27
Exemplo 4: 1237 indivduos adultos classificados segundo a
presso sangnea (mm Hg) e o nvel de colesterol (mg/100cm
3
).
Verificar se existe independncia entre essas variveis.
H
o
: Presso sangnea e nvel de colesterol so independentes;
H
1
: Nvel de colesterol e presso sangnea so variveis dependentes.
Colesterol
Presso
Total
< 127 127 a 166 >166
<200 96,29 181,42 29,29 307
200 a 260 214,86 404,80 65,34 685
>260 76,85 144,78 23,37 245
Total 388 731 118 1237
28 28
Determinao do nmero de graus de liberdade:
Categorias de presso: s = 3
Categorias de colesterol: r = 3
q = (r 1)(s 1) = 2 2 = 4
49 , 9
2
=
tabelado
_
2 2
tabelado obs
_ _ >
49 , 9 56 , 13 >
Logo, para o = 0,05, rejeitamos a independncia entre
presso e colesterol.