Você está na página 1de 28

1

- Testes Qui-quadrado -
Aderncia e Independncia
1. Testes de Aderncia
2
Objetivo: Testar a adequabilidade de um modelo
probabilstico a um conjunto de dados observados
Exemplo 1: Gentica Equilbrio Hardy-Weinberg
Aa Aa
AA Aa aa
Probabilidades:
(Modelo terico)

3 categorias: AA, Aa, aa
3
Em uma certa populao, 100 descendentes foram
estudados, fornecendo a tabela a seguir:
Gentipo
Freqncia
observada
AA 26
Aa 45
aa 29
Total 100
Objetivo: Verificar se o modelo gentico proposto
adequado para essa populao
4
Se o modelo Hardy-Weinberg for adequado, a freqncia
esperada de descendentes para o gentipo AA, dentre os
100 indivduos, pode ser calculada por:
1
4
100 (AA) 100 25 P = =
1
2
100 (Aa) 100 50 P = =
Da mesma forma, temos para o gentipo Aa,
1
4
100 (aa) 100 25 P = =
E para o gentipo aa,
5
Podemos expandir a tabela de freqncias dada
anteriormente:
Gentipo
Freqncia
observada
Freqncia
esperada
AA 26 25
Aa 45 50
aa 29 25
Total 100 100
Podemos afirmar que os valores observados esto
suficientemente prximos dos valores esperados, de tal
forma que o modelo Hardy-Weinberg adequado a esta
populao?
1. Testes de Aderncia Metodologia
6
Considere uma tabela de freqncias, com k > 2 categorias
de resultados:
Categorias
Freqncia
Observada
1 O
1
2 O
2
3 O
3
k O
k
Total n
em que O
i
o total de indivduos observados na
categoria i, i = 1,...,k.

7
Seja p
i
a probabilidade associada categoria i , i=1,...,k.
O objetivo do teste de aderncia testar as hipteses
H
o
: p
1
= p
o1
, .... , p
k
= p
ok
(hiptese nula)
H
1
: existe pelo menos uma diferena (hiptese Alternativa)
sendo p
oi
a probabilidade associada categoria i, i = 1,...,k,
calculada atravs do modelo probabilstico de interesse.
Se E
i
o total de indivduos esperados na categoria i,
quando a hiptese H
o
verdadeira, ento:
E
i
= n p
oi
, i = 1,...,k
8
Expandindo a tabela de freqncias original, temos
Quantificao da distncia entre as colunas de freqncias:
Categorias
Freqncia
observada
Freqncia
esperada
sob H
o
1 O
1
E
1
2 O
2
E
2
3 O
3
E
3
k O
k
E
k
Total n n

=
k
i
i
i i
E
E O
1
2
) (
2

9
2
2
1
( )
k
i i
i
i
O E
E
_
=

Estatstica do
teste de aderncia
Supondo H
o
verdadeira,
=

2
2 2
1
( )
~ ,
k
i i
q
i
i
O E
E
_ _
sendo que q = k - 1 representa o nmero de graus de
liberdade.
aproximadamente,
Obs.: Este resultado vlido para n grande e para
E
i
> 5, i = 1, ..., k.
Em outras palavras, se H
o
verdadeira, a v.a. _
2
tem
distribuio aproximada qui-quadrado com q graus de
liberdade.
10
Regra de deciso:
Toda vez que o valor calculado de
2
for igual ou maior do
que o valor da tabela, rejeita-se a hiptese de que a
distribuio das freqncias observadas est de acordo
com a teoria, ao nvel de significncia estabelecido (=1%,
5% ou 10%).
2 2
tabelado obs
_ _ >
11
Exemplo (continuao): Gentica Equilbrio Hardy-Weinberg:
Hipteses:
H
o
: O modelo proposto adequado a esta situao
H
1
: O modelo no adequado a esta situao
A tabela seguinte apresenta os valores observados e
esperados (calculados anteriormente).
De forma equivalente, podemos escrever:
H
o
: P(AA) = , P(Aa) = e P(aa) =
H
1
: ao menos uma das igualdades no se verifica
12
Gentipo O
i
E
i
AA 26 25
Aa 45 50
aa 29 25
Total 100 100
Clculo do valor da estatstica do teste ( k = 3):
1,18 0,64 0,50 0,04
25
25) (29
50
50) (45
25
25) (26 ) (
2 2 2
3
1
2
= + + =
=

i
i i
2
obs
E
E O

Usando a distribuio de qui-quadrado com q = k-1 = 2 graus de


liberdade, o valor tabelado de:
.
99 , 5
2
=
tabelado
_
Concluso: Para o = 0,05, como , no
rejeitamos a hiptese H
o
, isto , essa populao segue o
equilbrio Hardy-Weinberg.
2 2
tabelado obs
_ _ <
13
Exemplo 2: Deseja-se verificar se o nmero de acidentes em
uma estrada muda conforme o dia da semana. O nmero de
acidentes observado para cada dia de uma semana
escolhida aleatoriamente foram:
O que pode ser dito?
Dia da
semana
No. de
acidentes
Seg 20
Ter 10
Qua 10
Qui 15
Sex 30
Sab 20
Dom 35
14
Hipteses a serem testadas:
H
o
: O nmero de acidentes no muda conforme o dia da
semana;
H
1
: Pelo menos um dos dias tem nmero diferente dos demais.
Se p
i
representa a probabilidade de ocorrncia de
acidentes no i-simo dia da semana,
H
o
: p
i
= 1/7 para todo I = 1,, 7
H
1
: p
i
=1/7 para pelo menos um valor de i.
Total de acidentes na semana: n =140.
Logo, se H for verdadeira,
E
i
= 140 x 1/7 = 20, i = 1,.,7.
15
Dia da
semana
N
o
. de acidentes
observados (O
i
)
N
o
. esperado de
acidentes (E
i
)
Seg 20 20
Ter 10 20
Qua 10 20
Qui 15 20
Sex 30 20
Sab 20 20
Dom 35 20
Clculo da estatstica de qui-quadrado:
27,50
20
20) (35
20
20) (20
20
20) (30

20
20) (15
20
20) (10
20
20) (10
20
20) (20 ) (
2 2 2
2 2 2 2
7
1
2
=

i
i i
2
obs
E
E O

16
Logo, para o = 0,05, rejeitamos H
o
, e conclumos que o
nmero de acidentes no o mesmo em todos os dias da
semana.
59 , 12
2
=
tabelado
_
Usando a distribuio de qui-quadrado com q = k-1 = 6 graus de
liberdade, o valor tabelado de:
2 2
tabelado obs
_ _ > 59 , 12 5 , 27 >
2. Testes de Independncia
17
Objetivo: Verificar se existe independncia entre duas
variveis medidas nas mesmas unidades experimentais.
Exemplo 3: Deseja-se verificar se existe dependncia entre a
renda e o nmero de filhos em famlias de uma cidade.
250 famlias escolhidas ao acaso forneceram a tabela a seguir:
250 61 71 70 48 Total
40 10 9 13 8 5000 ou mais
75 8 12 30 25 2000 a 5000
135 43 50 27 15 menos de 2000
Total + de 2 2 1 0
Nmero de filhos
Renda (R$)
18
Em geral, os dados referem-se a mensuraes de duas
caractersticas (A e B) feitas em n unidades experimentais,
que so apresentadas conforme a seguinte tabela:
Hipteses a serem testadas Teste de independncia:
H
o
: A e B so variveis independentes
H
1
: As variveis A e B no so independentes
19
Se A e B forem independentes, temos que, para todos os
possveis (A
i
e B
j
):
P(A
i
B
j
) = P(A
i
) P(B
j
) para i = 1, 2,, r e j = 1, 2,,s
Quantas observaes devemos ter em cada casela, se A e B
forem independentes?
Logo, o nmero esperado de observaes com as caractersticas
(A
i
e B
j
) entre as n

observaes sob a hiptese de independncia,


dado por



j
i
ij ij i j
n
n
E n p n p p n
n n
= = =
sendo p
ij
a proporo de observaes com as caractersticas (A
i
e B
j
).
O processo deve ser repetido para todas as caselas (i, j).

i j
ij
n n
E
n

=
Assim,
20
Estatstica do
teste de
independncia
Supondo H
o
verdadeira,
= =

2
2 2
1 1
( )
~
r s
ij ij
q
i j
ij
O E
E
_ _
sendo q = ( r 1) ( s 1 ) graus de liberdade.
em que O
ij
= n
ij
representa o total de observaes na casela (i, j).
Distncia entre os valores observados e os valores
esperados sob a suposio de independncia:

= =

= _
s
1 i
r
1 j
ij
2
ij ij
2
E
) E O (
21
Regra de deciso:
Toda vez que o valor calculado de
2
for igual ou maior do
que o valor da tabela, rejeita-se a hiptese de que a
distribuio das freqncias observadas est de acordo
com a teoria, ao nvel de significncia estabelecido.
2 2
tabelado obs
_ _ >
22
Exemplo (continuao):
Estudo da dependncia entre renda e o nmero de filhos
250 famlias foram escolhidas ao acaso
Hipteses H
o
: O nmero de filhos e a renda so independentes
H
1
: Existe dependncia entre o nmero de filhos e a renda
250 61 71 70 48 Total
40 10 9 13 8 5000 ou mais
75 8 12 30 25 2000 a 5000
135 43 50 27 15 menos de 2000
Total + de 2 2 1 0
Nmero de filhos
Renda (R$)
Exemplo do clculo dos valores esperados sob H (independncia):
Nmero esperado de famlias sem filhos e renda menor que R$ 2000:
11
48 135
25,92
250
E

= = .
23
Renda (R$)
Nmero de filhos
0 1 2 + de 2 Total
menos de 2000 15(25,92) 27(37,80) 50(38,34) 43(32,94) 135
2000 a 5000 25(14,40) 30(21,00) 12(21,30) 8(18,30) 75
5000 ou mais 8(7,68) 13(11,20) 9(11,36) 10(9,76)
40
Total 48 70 71 61 250
Tabela de valores observados e esperados (entre parnteses)
1 filho e renda de R$ 2000
a R$ 5000:
22
70 75
21,00
250
E

= =
Lembre-se:

i j
ij
n n
E
n

=
2 ou + filhos e renda de R$ 5000 ou
mais:
34
61 40
9,76
250
E

= =
24
Clculo da estatstica de qui-quadrado:
Renda (R$)
Nmero de filhos
0 1 2 + de 2 Total
menos de 2000 15(25,92) 27(37,80) 50(38,34) 43(32,94) 135
2000 a 5000 25(14,40) 30(21,00) 12(21,30) 8(18,30) 75
5000 ou mais 8(7,68) 13(11,20) 9(11,36) 10(9,76) 40
Total 48 70 71 61 250
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
2 2 2 2
2
2 2 2 2
2 2 2 2
15 25,92 25 14,40 8 7,68 27 37,80
25,92 14,40 7,68 37,80
30 21,00 13 11,20 50 38,34 12 21,30

21,00 11,20 38,34 21,30
12 21,30 9 11,36 43 32,94 8 18,30

21,30 11,36 32,94 18,30

obs
_

= + + + +

+ + + + +

+ + + + +
( )
2
10 9,76
36,62
9,76

+ =
.
25
Determinao do nmero de graus de liberdade:
Categorias de renda: r = 3
Categorias de n de filhos: s = 4
q = (r 1)(s 1) = 2 3 = 6
59 , 12
2
=
tabelado
_
2 2
tabelado obs
_ _ >
59 , 12 62 , 36 >
Logo, para o = 0,05, rejeitamos a independncia entre
nmero de filhos e renda familiar.
26
Exemplo 4: 1237 indivduos adultos classificados segundo a
presso sangnea (mm Hg) e o nvel de colesterol (mg/100cm
3
).
Verificar se existe independncia entre essas variveis.
H
o
: Presso sangnea e nvel de colesterol so independentes;
H
1
: Nvel de colesterol e presso sangnea so variveis dependentes.
Colesterol
Presso
Total
< 127 127 a 166 >166
<200 117 168 22 307
200 a 260 204 418 63 685
>260 67 145 33 245
Total 388 731 118 1237
27
Exemplo 4: 1237 indivduos adultos classificados segundo a
presso sangnea (mm Hg) e o nvel de colesterol (mg/100cm
3
).
Verificar se existe independncia entre essas variveis.
H
o
: Presso sangnea e nvel de colesterol so independentes;
H
1
: Nvel de colesterol e presso sangnea so variveis dependentes.
Colesterol
Presso
Total
< 127 127 a 166 >166
<200 96,29 181,42 29,29 307
200 a 260 214,86 404,80 65,34 685
>260 76,85 144,78 23,37 245
Total 388 731 118 1237
28 28
Determinao do nmero de graus de liberdade:
Categorias de presso: s = 3
Categorias de colesterol: r = 3
q = (r 1)(s 1) = 2 2 = 4
49 , 9
2
=
tabelado
_
2 2
tabelado obs
_ _ >
49 , 9 56 , 13 >
Logo, para o = 0,05, rejeitamos a independncia entre
presso e colesterol.