Você está na página 1de 35

Testes de Aderncia

Testes de Independncia
Testes de Homogeneidade

1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo probabilstico a
um conjunto de dados observados
Exemplo 1: Gentica

Equilbrio Hardy-Weinberg
Aa

Probabilidades:

Aa

AA

Aa

aa

(Modelo terico)

3 categorias: AA, Aa, aa


2

Em uma certa populao, 100 descendentes foram estudados,


fornecendo a tabela a seguir:

Gentipo

Freqncia
Observada

AA

26

Aa

45

aa

29

Total

100

Objetivo: Verificar se o modelo gentico proposto adequado


para essa populao

Se o modelo Hardy-Weinberg for adequado, a freqncia esperada


de descendentes para o gentipo AA, dentre os 100 indivduos,
pode ser calculada por:

100 P (AA) 100

25

Da mesma forma, temos para o gentipo Aa,

100 P (Aa) 100

50

25

E para o gentipo aa,

100 P (aa) 100

Podemos expandir a tabela de freqncias dada anteriormente:

Gentipo

Freqncia
Observada

Freqncia
Esperada

AA

26

25

Aa

45

50

aa

29

25

Total

100

100

Podemos afirmar que os valores observados esto suficientemente


prximos dos valores esperados, de tal forma que o modelo HardyWeinberg adequado a esta populao?
5

1. Testes de Aderncia

Metodologia

Considere uma tabela de freqncias com k


resultados:
Categorias

2 categorias de

Freqncia
Observada

O1

O2

O3

Ok

Total

em que Oi o total de indivduos observados na


categoria i, i = 1,...,k.
6

Seja pi a probabilidade associada categoria i , i=1,...,k.


O objetivo do teste de aderncia testar as hipteses
H : p1 = po1 , .... , pk = pok
A : existe pelo menos uma diferena
sendo poi a probabilidade associada categoria i , i = 1,...,k, calculada
atravs do modelo probabilstico de interesse.

Se Ei o total de indivduos esperados na categoria i quando a


hiptese H verdadeira, ento:

Ei

n poi ,

1, , k
7

Expandindo a tabela de freqncias original, temos


Categorias

Freqncia
Observada

Freqncia
Esperada

O1

E1

O2

E2

O3

E3

Ok

Ek

Total

Quantificao da distncia entre as colunas de freqncias:


k
2
i 1

(Oi

Ei )2
Ei
8

Ei ) 2

(Oi

2
i 1

Estatstica do
teste de aderncia.

Ei

Supondo H verdadeira,
k
2
i 1

sendo que q = k

(Oi

Ei )2
Ei

2
q

, aproximadamente,

1 representa o nmero de graus de liberdade.

Em outras palavras, se H verdadeira, a v.a. 2 tem distribuio


aproximada qui-quadrado com q graus de liberdade.

Obs.:
Obs Este resultado vlido para n grande e para

Ei

5, i

1, , k .

Regra de deciso:
Pode ser baseada no nvel descritivo P, neste caso

P(

2
q

2
obs

),

em que obs o valor calculado, a partir dos dados, usando a


2
expresso apresentada para
.
Graficamente:
P

2
obs

Se, para

fixado, obtemos P

, rejeitamos a hiptese H.

10

Exemplo (continuao): Gentica

Equilbrio Hardy-Weinberg:

Hipteses:
H: O modelo proposto adequado a esta situao
A: O modelo no adequado a esta situao
De forma equivalente, podemos escrever:

H: P(AA) = e P(Aa) = e P(aa) =


A: ao menos uma das igualdades no se verifica
A tabela seguinte apresenta os valores observados e esperados
(calculados anteriormente).

11

Gentipo

Oi

Ei

AA

26

25

Aa

45

50

aa

29

25

Total

100

100

Clculo do valor da estatstica do teste ( k = 3):


2
obs

(Oi

0,04

Ei)2
Ei

(26 25) 2
25

0,50 0,64

(45 50) 2
50

(29 25) 2
25

1,18 .

Usando a distribuio de qui-quadrado com q = k-1 = 2 graus de


liberdade,
P P( 22 1,18) 0,5543 .
Concluso: Seja = 0,05. Como P = 0,5543 > 0,05, no rejeitamos a
hiptese H, isto , essa populao segue o equilbrio HardyWeinberg.
12

O clculo do nvel descritivo P pode ser feito no MINITAB,


atravs dos comandos:
MTB >
SUBC>
MTB >
MTB >

cdf 1.18 k1;


chisquare 2.
let k2 = 1 - k1
print k2

Data Display
K2
0.554327
MTB >

Nvel descritivo

13

Exemplo 2 : Deseja-se verificar se o nmero de acidentes em uma


estrada muda conforme o dia da semana. O nmero de acidentes
observado para cada dia de uma semana escolhida aleatoriamente
foram:

Dia da
semana

No. de acidentes

Seg

20

Ter

10

Qua

10

Qui

15

Sex

30

Sab

20

Dom

35

O que pode ser dito?

14

Hipteses a serem testadas:


H: O nmero de acidentes no muda conforme o dia da semana;
A: Pelo menos um dos dias tem nmero diferente dos demais.
Se pi representa a probabilidade de ocorrncia de acidentes no
i-simo dia da semana,
H: pi = 1/7 para todo I = 1, , 7
A: pi 1/7 para pelo menos um valor de i.
Total de acidentes na semana: n =140.
Logo, se H for verdadeira,
Ei = 140 x 1/7 = 20, i = 1, ,7.

15

Dia da semana

No. de acidentes
observados (Oi )

No. esperado de
acidentes (Ei )

Seg

20

20

Ter

10

20

Qua

10

20

Qui

15

20

Sex

30

20

Sab

20

20

Dom

35

20

Clculo da estatstica de qui-quadrado:


2
obs

7
1

(Oi

Ei)2
Ei

(20 20) 2
20
(30 20)2
20

(10 20) 2
20
(20 20) 2
20

(10 20)2
20
(35 20) 2
20

(15 20)2
20
27,50 .
16

Neste caso, temos

2
6,

aproximadamente.

O nvel descritivo dado por

P(

2
6

27,50)

e pode ser obtido no MINITAB conforme indicado a seguir:


MTB >
SUBC>
MTB >
MTB >

cdf 27.50 k1;


chisquare 6.
let k2 = 1 - k1
print k2

Data Display
K2
0.000116680
Logo, para = 0,05, segue que P = 0,001 < e assim rejeitamos H,
e conclumos que o nmero de acidentes no o mesmo em
todos os dias da semana.
17

2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis
medidas nas mesmas unidades experimentais.
Exemplo 3: Deseja-se verificar se existe dependncia entre a renda e o
nmero de filhos em famlias de uma cidade.
250 famlias escolhidas ao acaso forneceram a tabela a seguir:

Renda (R$)

Nmero de filhos
0

+ de 2

Total

menos de 2000

15

27

50

43

135

2000 a 5000

25

30

12

75

5000 ou mais

13

10

40

Total

48

70

71

61

250
18

Em geral, os dados referem-se a mensuraes de duas caractersticas (A


e B) feitas em n unidades experimentais, que so apresentadas
conforme a seguinte tabela:

B
A1
A2

B1
n11
n21

B2
n12
n2s

Bs
n1s
n2s

Total
n1
n2

Ar

nr1

nr2

nrs

nr

Total

Hipteses a serem testadas

Teste de independncia:
independncia

H: A e B so variveis independentes
A: As variveis A e B no so independentes
19

Quantas observaes devemos ter em cada casela se A e B forem


independentes?
Se A e B forem independentes, temos que, para todos os possveis (Ai e Bj):

P(Ai

Bj ) = P(Ai )

P(Bj )

i = 1, 2, , r e j = 1, 2, ,s.

Logo, o nmero esperado de observaes com as caractersticas (Ai e Bj)


entre as n observaes sob a hiptese de independncia, dado por

Eij

pij

pi

pj

ni
n

nj
n

sendo pij a proporo de observaes com as caractersticas (Ai e Bj).


Assim,

Eij

ni

nj
n

O processo deve ser repetido para todas as caselas (ij).


20

Distncia entre os valores observados e os valores esperados sob a


suposio de independncia:
s

Estatstica do
teste de
independncia

Eij )2

( Oij

Eij

i 1 j 1

em que Oij = nij representa o total de observaes na casela ( ij ).


Supondo H verdadeira,
r

2
i 1 j 1

sendo q = ( r

1)

(s

(Oij

Eij )2
Eij

2
q

1 ) graus de liberdade.

21

Regra de deciso:
Pode ser baseada no nvel descritivo P, neste caso

P
em que
do teste.

2
obs

P(

2
q

2
obs

o valor calculado, a partir dos dados, para a estatstica

Graficamente:
P

2
obs

Se, para

fixado obtemos P

, rejeitamos a hiptese de independncia.


22

Exemplo (continuao):
Estudo da dependncia entre renda e o nmero de filhos
250 famlias foram escolhidas ao acaso
Hipteses

H: O nmero de filhos e a renda so independentes


A: Existe dependncia entre o nmero de filhos e a renda

Renda (R$)

Nmero de filhos
0

+ de 2

Total

15

27

50

43

135

2000 a 5000

25

30

12

75

5000 ou mais

13

10

40

Total

48

70

71

61

250

menos de 2000

Exemplo do clculo dos valores esperados sob H (independncia):


Nmero esperado de famlias sem filhos e renda menor que R$ 2000:
E11

48 135
250

25,92 .

23

Tabela de valores observados e esperados (entre parnteses)

Renda (R$)
menos de 2000
2000 a 5000

Nmero de filhos
0

+ de 2

Total

15(25,92) 27(37,80) 50(38,34) 43(32,94)

135

25(14,40) 30(21,00) 12(21,30)

8(18,30)

75

5000 ou mais

8(7,68)

13(11,20)

9(11,36)

10(9,76)

40

Total

48

70

71

61

250

2 ou + filhos e renda de R$ 5000 ou


mais:

1 filho e renda de R$ 2000


a R$ 5000:
E22

70 75
250

E 34

21,00

61 40
9,76
250

Lembre-se:

Eij

ni

nj
n

24

Clculo da estatstica de qui-quadrado:


Nmero de filhos

Renda (R$)
menos de 2000
2000 a 5000

+ de 2

Total

15(25,92) 27(37,80) 50(38,34) 43(32,94)

135

25(14,40) 30(21,00) 12(21,30)

8(18,30)

75

5000 ou mais

8(7,68)

13(11,20)

9(11,36)

10(9,76)

40

Total

48

70

71

61

250

2
obs

15 25,92
25,92
30 21,00
21,00
12 21,30
21,30
10 9,76
9,76

25 14,40
14,40
13 11,20
11,20
9 11,36
11,36

8 7,68
7,68

27 37,80
37,80

50 38,34
38,34
43 32,94
32,94

12 21,30
21,30
8 18,30
18,30

36,62

25

Determinao do nmero de graus de


liberdade:
Categorias de renda: r = 3
Categorias de n de filhos: s = 4

Logo,

2
6

e, supondo

Como P = 0,000 <

q = (r

= 0,05, P

P(

1) (s

2
6

1) = 2 3 = 6

36,62)

0,000

0,05, rejeitamos a independncia entre nmero

de filhos e renda familiar.


Os clculos podem ser feitos diretamente no MINITAB:

Stat
test

Tables

Chi-Square
26

Sada do MINITAB:
Chi-Square Test
Expected counts are printed below observed counts
C1
15
25,92

C2
27
37,80

C3
50
38,34

C4
43
32,94

Total
135

25
14,40

30
21,00

12
21,30

8
18,30

75

8
7,68

13
11,20

9
11,36

10
9,76

40

Total

48

70

71

61

250

Chi-Sq =

4,601
7,803
0,013
DF = 6, P-Value

+ 3,086 +
+ 3,857 +
+ 0,289 +
= 0,000

3,546 +
4,061 +
0,490 +

3,072 +
5,797 +
0,006 = 36,621
27

Exemplo 4: 1237 indivduos adultos classificados segundo a


presso sangnea (mm Hg) e o nvel de colesterol (mg/100cm3).
Verificar se existe independncia entre essas variveis.

Colesterol

Presso

Total

< 127

127a 166

>166

<200

117

168

22

307

200 a 260

204

418

63

685

>260

67

145

33

245

Total

388

731

118

1237

H: Presso sangnea e nvel de colesterol so independentes;


A: Nvel de colesterol e presso sangnea so variveis dependentes.
28

Sada do MINITAB:
Chi-Square Test
Expected counts are printed below observed counts
C1
C2
C3
Total
1
117
168
22
307
96,29
181,42
29,29
2

204
214,86

418
404,80

63
65,34

685

67
76,85
388

145
144,78
731

33
23,37
118

245

Total
Chi-Sq =

4,452
0,549
1,262
DF = 4, P-Value

+ 0,993 +
+ 0,431 +
+ 0,000 +
= 0,009

1237

1,812 +
0,084 +
3,967 = 13,550

Rejeitamos a independncia entre presso sangnea e nvel de colesterol


(

= 0,05).

29

3. Teste de Homogeneidade
Objetivo: Verificar se uma varivel aleatria se comporta de modo
similar, ou homogneo, em vrias subpopulaes.
Exemplo 5: A reao ao tratamento por quimioterapia est sendo
estudada em quatro grupos de pacientes com cncer.
Deseja-se investigar se todos os tipos reagem da mesma maneira.
Uma amostra de pacientes de cada grupo foi escolhida ao acaso
e classificou-se a reao em trs categorias:
Cncer

Reao
Pouca

Mdia

Alta

Total

Tipo I

51

33

16

100

Tipo II

58

29

13

100

Tipo IIII

48

42

30

120

Tipo IV

26

38

16

80
30

Apesar da realizao do teste ser semelhante a do Teste de


Independncia, uma distino importante se refere forma como as
amostras so coletadas. No teste de homogeneidade fixamos o tamanho
da amostra em cada uma das subpopulaes e selecionamos uma
amostra dentro de cada uma.
Subpopulao

valores

da

varivel

Total da linha

O11

O12

...

n1

O21

O22

...

n2

...

...

...

...

...

Total da coluna

Hipteses a serem testadas

Total geral

Teste de homogeneidade:
homogeneidade

H: o comportamento da varivel homogneo nas subpopulaes


A: o comportamento da varivel no homogneo nas subpopulaes
31

Valores esperados (supondo homogeneidade entre as populaes)

ei , j

ni

total da coluna j
total geral

O total da linha ni indica o tamanho da amostra da subpopulao i e o


quociente, total da coluna j dividido pelo total geral, representa a
proporo de ocorrncias do valor da varivel correspondente coluna
j.
Caso haja homogeneidade de comportamento da varivel, esperamos
que essa proporo seja a mesma em todas as subpopulaes.

32

Distncia entre os valores observados e os valores esperados sob a


suposio de independncia:
s

Estatstica do
teste de
homogeneidade

Eij )2

( Oij

Eij

i 1 j 1

Supondo H verdadeira,
r

2
i 1 j 1

sendo q = ( r

1)

(s

(Oij

Eij )2
Eij

2
q

1 ) graus de liberdade.

33

Sada do MINITAB
Expected counts are printed below observed counts

1
2
3
4

Total
Chi-Sq =

Pouca
51
45,75
58
45,75
48
54,90
26
36,60
183

0,602
3,280
0,867
3,070
DF = 6, P-Value

Mdia
33
35,50
29
35,50
42
42,60
38
28,40

Alta
16
18,75
13
18,75
30
22,50
16
15,00

142
+ 0,176
+ 1,190
+ 0,008
+ 3,245
= 0,009

75
+
+
+
+

0,403
1,763
2,500
0,067

Total
100
100
120
80

400
+
+
+
= 17,173

34

This document was created with Win2PDF available at http://www.daneprairie.com.


The unregistered version of Win2PDF is for evaluation or non-commercial use only.