Você está na página 1de 32

- Testes Qui-quadrado Aderncia e Independncia

1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo probabilstico a um conjunto de dados observados Exemplo 1: Segundo Mendel (geneticista famoso), os resultados dos cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas seguem uma distribuio de probabilidades dada por:
Resultado
Probabilidade

Amarela redonda
9/16

Amarela enrugada
3/16

Verde redonda
3/16

Verde enrugada
1/16

Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas foi classificada da seguinte forma:
Resultado Frequncia observada Amarela redonda 315 Amarela enrugada 101 Verde redonda 108 Verde enrugada 32
2

H evidncias de que os resultados desse experimento esto de acordo com a distribuio de probabilidades proposta por Mendel?

4 categorias para os resultados dos cruzamentos:


Amarelas redondas (AR), Amarelas enrugadas (AE), Verdes redondas (VR), Verdes enrugadas (VE). Segundo Mendel, a probabilidade de cada categoria dada por: Probabilidades: AR AE VR 9/16 3/16 3/16 VE 1/16

No experimento, 556 ervilhas foram classificadas segundo o tipo de resultado, fornecendo a tabela a seguir: Tipo de resultado AR AE VR VE Total Objetivo: Frequncia observada 315 101 108 33 556

Verificar se o modelo probabilstico proposto adequado aos resultados do experimento.


4

Se o modelo probabilstico for adequado, a frequncia esperada ervilhas do tipo AR, dentre as 556 observadas, pode ser calculada por:

556 x P(AR) = 556 x 9/16 = 312,75


Da mesma forma, temos para o tipo AE,

556 x P(AE) = 556 x 3/16 = 104,25


Para o tipo VR temos

556 x P(VR) = 556 x 3/16 = 104,25


E, para o tipo VE,

556 x P(VE) = 556 x 1/16 = 34,75


5

Podemos expandir a tabela de frequncias dada anteriormente:

Tipo de Frequncia Frequncia esperada resultado observada AR 315 312,75 AE 101 104,25 VR 108 104,25 VE 32 34,75 Total 556 556 Pergunta: Podemos afirmar que os valores observados esto suficientemente prximos dos valores esperados, de tal forma que o modelo probabilstico proposto por Mendel adequado aos resultados desse experimento?

Testes de Aderncia Metodologia


Considere uma tabela de frequncias, com k de resultados:
Categorias 1

2 categorias

Frequncia Observada
O1

2
3

O2
O3

k
Total

Ok
n

em que Oi o total de indivduos observados na categoria i, i = 1,...,k.


7

Seja pi a probabilidade associada categoria i, i = 1,..., k. O objetivo do teste de aderncia testar as hipteses H : p1 = po1 , .... , pk = pok

A : existe pelo menos uma diferena


sendo poi a probabilidade especificada para a categoria i, i = 1, ..., k, fixada atravs do modelo probabilstico de interesse.

Se Ei o total de indivduos esperados na categoria i, quando a hiptese H verdadeira, ento:

Ei = n

poi, i = 1, ...,k
8

Expandindo a tabela de frequncias original, temos


Categorias Frequncia observada Frequncia esperada sob H

1 2 3
k Total

O1 O2 O3
Ok n

E1 E2 E3
Ek n

Quantificao da distncia entre as colunas de frequncias:

i 1

(Oi E i )2 Ei

k 2 i 1

(Oi

Ei )2 Ei
k

Estatstica do teste de aderncia

Supondo H verdadeira,
2 i 1

(Oi

Ei )2 Ei

2 q

, aproximadamente,

sendo que q = k - 1 representa o nmero de graus de liberdade.


Em outras palavras, se H verdadeira, a v.a. 2 tem distribuio aproximada qui-quadrado com q graus de liberdade.
IMPORTANTE.: Este resultado vlido para n grande e para

Ei

5, i = 1, ..., k.

10

Regra de deciso: Pode ser baseada no nvel descritivo ou valor P, neste caso
2 q 2 obs

P P(
2 obs

),

em que o valor calculado, a partir dos dados, 2 usando a expresso apresentada para . Graficamente: P

2 obs

Se, para

fixado, obtemos P

, rejeitamos a hiptese H.
11

Exemplo (continuao): Cruzamentos de ervilhas

Hipteses: H : O modelo probabilstico proposto por Mendel adequado. A : O modelo proposto por Mendel no adequado.
De forma equivalente, podemos escrever: H: P(AR) =9/16, P(AE) = 3/16, P(VR) = 3/16 e P(VE) =

1/16.
A: ao menos uma das igualdades no se verifica. A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente).

12

Resultado AR AE VR VE Total
4 2 obs 1

Oi

Ei

315 101 108 32 556


(101 104,25) 2 104,25

312,75 104,25 104,25 34,75 556


(108 104,25) 2 104,25 (32 34,75) 2 34,75

Clculo do valor da estatstica do teste ( k = 4):

(Oi Ei ) 2 Ei

(315 312,75) 2 312,75

0,016 0,101 0,135 0,218 0,470.

Usando a distribuio de qui-quadrado com q = k-1 = 3 graus de liberdade, o nvel descritivo calculado por

P(

2 3

0,470) 0,925.

Concluso: Para = 0,05, como P = 0,925 > 0,05, no h evidncias para rejeitarmos a hiptese H, isto , ao nvel de significncia de 5%, conclumos o modelo de probabilidades 13 de Mendel se aplica aos resultados do experimento.

O clculo do nvel descritivo P pode ser feito no Rcmdr, via menu, atravs do seguinte caminho:

Distribuies

Distribuies contnuas

Distribuio Qui-Quadrado
da Qui-Quadrado

Probabilidades

Cauda Superior

Inserindo o valor 0,470 e o nmero de graus de


liberdade igual a 3, o valor P ser igual a 0,925431.
14

Exemplo 2: Deseja-se verificar se o nmero de acidentes em uma estrada muda conforme o dia da semana. O nmero de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram:

Dia da semana Seg Ter Qua Qui Sex Sab Dom

No. de acidentes 20 10 10 15 30 20 35

O que pode ser dito?

15

Hipteses a serem testadas:


H: O nmero de acidentes no muda conforme o dia da semana; A: Pelo menos um dos dias tem nmero diferente dos demais.

Se pi representa a probabilidade de ocorrncia de acidentes no i-simo dia da semana,


H: pi = 1/7 para todo i = 1,, 7 A: pi 1/7 para pelo menos um valor de i.

Total de acidentes na semana: n =140.

Logo, se H for verdadeira,


Ei = 140 x 1/7 = 20, i = 1, ou seja, esperamos 20 acidentes por dia.
16

,7,

Dia da semana
Seg Ter Qua Qui Sex

No. de acidentes observados (Oi )


20 10 10 15 30

No. esperado de acidentes (Ei )


20 20 20 20 20

Sab
Dom

20
35

20
20

Clculo da estatstica de qui-quadrado:

7 2 obs 1

(Oi E i )2 Ei

(20 20)2 20

(10 20)2 20

(10 20)2 20

(15 20)2 20 27,50


17

(30 20)2 20

(20 20)2 20

(35 20)2 20

Neste caso, temos

2 6

, aproximadamente.

O nvel descritivo dado por P

P(

2 6

27,50)

0,00012 ,

que pode ser obtido no Rcmdr pelo caminho (via menu):

Distribuies Distribuies contnuas Distribuio Qui-Quadrado Probabilidades da Qui-Quadrado Cauda Superior (inserindo o valor 27,50 e o nmero de graus de liberdade igual a 6).

Concluso: Para = 0,05, temos que P = 0,0001 < . Assim, h evidncias para rejeitarmos H, ou seja, conclumos ao nvel de significncia de 5% que o nmero de acidentes no 18 o mesmo em todos os dias da semana.

2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis medidas nas mesmas unidades experimentais. Exemplo 3: A Associao de Imprensa do Estado de So Paulo fez um levantamento com 1300 leitores, para verificar se a preferncia por leitura de um determinado jornal independente do nvel de instruo do indivduo. Os resultados obtidos foram:

Tipo de Jornal Grau de instruo 1o Grau 2o Grau Universitrio Total Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350 Outros 27 73 130 230 Total 50 450 800 1300
19

Vamos calcular propores segundo os totais das colunas (poderiam tambm ser calculadas pelos totais das linhas). Temos a seguinte tabela:

Tipo de Jornal Grau de instruo 1o Grau Jornal A Jornal B Jornal C 3,33% 1,90% 1,43% Outros 11,74% Total 3,85%

o 30,00% 38,57% 35,71% 31,74% 34,62% 2 Grau Universitrio 66,67% 59,52% 62,86% 56,52% 61,54% Total 100,00% 100,00% 100,00% 100,00% 100,00%

Independentemente da preferncia por um tipo de jornal, 3,85% dos leitores tm o 1 Grau, 34,62% tm o 2 Grau e 61,54% so universitrios.
20

Sob independncia entre grau de instruo e preferncia por um tipo de jornal, o nmero esperado de leitores que tm o 1 Grau e preferem o jornal A igual a 300 x 0,0385 = 11,54, que tm o 2 Grau e preferem o Jornal A 300 x 0,3462 = 103,85 e que so universitrios e preferem o jornal A 300 x 0,6154 = 184,62.
Tipo de Jornal Grau de instruo 1o Grau Jornal A Jornal B 8 16,15 (3,85%) 162 145,38 (34,62%) 250 258,46 (61,54%) 420 Jornal C 5 13,46 (3,85%) 125 121,15 (34,62%) 220 215,38 (61,54%) 350 Outros 27 8,85 (3,85%) 73 79,62 (34,62%) 130 141,54 (61,54%) 230 Total 50

10 11,54 (3,85%) o 90 2 Grau 103,85 (34,62)% 200 Universitrio 184,62 (61,54%) Total 300

450

800 1300

As diferenas entre os valores observados e os esperados no so muito pequenas. Preferncia por um tipo de jornal e grau de instruo parecem no ser independentes. 21

Testes de Independncia Metodologia


Em geral, os dados referem-se a mensuraes de duas caractersticas (A e B) feitas em n unidades experimentais, que so apresentadas conforme a seguinte tabela:

A \ B A1 A2 ... Ar Total

B1 O 11 O 21 ... O r1 O .1

B2 O 12 O 22 ... O r2 O .2

... ... ... ... ... ...

Bs O 1s O 2s ... O rs O .s

Total O 1. O 2. ... O r. n

Hipteses a serem testadas Teste de independncia: H: A e B so variveis independentes A: As variveis A e B no so independentes

22

Quantas observaes devemos esperar em cada casela, se A e B forem independentes?


Sendo Oij o total de observaes na casela (i, j), se A e B forem independentes, esperamos que, para todos os possveis pares (Ai e Bj): Oi1 /O.1 = Oi2 /O.2 = ... = Ois /O.s = Oi. /n, i = 1, ..., r
ou ainda

Oij /O.j = Oi. /n = 1, ..., r, j = 1, ..., s


de onde se deduz, finalmente, que Oij = (Oi. x O.j )/n, i = 1, 2,, r e j = 1, 2,,s. Logo, o nmero esperado de observaes com as caractersticas (Ai e Bj), entre as n observaes, sob a hiptese de independncia, dado por

Eij

Oi. O. j n

23

Distncia entre os valores observados e os valores esperados sob a suposio de independncia:


s r

i 1

j 1

( Oij Eij )2 Eij

Estatstica do teste de independncia

Supondo H verdadeira,
r 2 i 1 j 1 s

(Oij

Eij )2 Eij

2 q

aproximadamente,
sendo q = ( r 1) ( s 1 ) o nmero de graus de liberdade.
24

Regra de deciso: Pode ser baseada no valor P (nvel descritivo), neste caso

P P(
2

2 q

2 obs

em que obs o valor calculado, a partir dos dados, 2 usando a expresso apresentada para .

Graficamente:
P

2 obs

Se, para fixado, obtemos P independncia.

, rejeitamos a hiptese H de
25

Exemplo (continuao): Estudo da independncia entre preferncia por um tipo de jornal e grau de instruo. 1300 eleitores foram entrevistados ao acaso. Hipteses H: As variveis preferncia por um tipo de jornal e grau de instruo so independentes. A: Existe dependncia entre as variveis.
Tipo de Jornal Grau de instruo 1o Grau 2o Grau Universitrio Total Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350 Outros 27 73 130 230 Total 50 450 800 1300

Exemplo do clculo dos valores esperados sob H (independncia): Nmero esperado de leitores que tm 1 Grau e preferem o jornal A:

E11

300 50 11,54 . 1300

26

Tabela de valores observados e esperados (entre parnteses)


Tipo de Jornal Grau de instruo 1o Grau 2o Grau Universitrio Total Jornal A Jornal B 10 (11,54) 90 (103,85) 200 (184,62) 300 8 (16,15) 162 (145,38) 250 (258,46) 420 Jornal C 5 (13,46) 125 (121,15) 220 (215,38) 350 Outros 27 (8,85) 73 (79,62) 130 (141,54) 230 Total 50 450 800 1300

2 Grau e prefere jornal B:

Universitrio e prefere outros jornais:


E 34 230 800 141,54 1300

E22

420 450 145,38 1300

Lembre-se:

Eij

Oi. O.j n..


27

Clculo da estatstica de qui-quadrado:


Tipo de Jornal Grau de instruo 1o Grau Jornal A Jornal B 8 (16,15) 162 (145,38) 250 (258,46) 420 Jornal C 5 (13,46) 125 (121,15) 220 (215,38) 350 Outros 27 (8,85) 73 (79,62) 130 (141,54) 230 Total 50 450 800 1300

10 (11,54) o 90 2 Grau (103,85) 200 Universitrio (184,62) Total 300


2 obs

(10 11,54) 2 11,54

(8 16,15) 2 16,15

(5 13,46) 2 13,46

(27 8,85) 2 8,85 (73 79,62) 2 79,62 (130 141,54) 2 141,54 28

(90 103,85) 2 103,85 (200 184,62) 2 184,62 53,910.

(162 145,38) 2 145,38 (250 258,46) 2 258,46

(125 121,15) 2 121,15

(220 215,38) 2 215,38

Determinao do nmero de graus de liberdade:


Categorias de Grau de instruo: s = 3 Categorias de Tipo de jornal: r = 4
q = (r 1) (s 1) = 3 2 = 6

O nvel descritivo (valor P):

P P(

2 6

53,910) 0,0001

Supondo 0,05, temos P < Assim, temos evidncias para rejeitar a independncia entre as variveis grau de instruo e preferncia por tipo de jornal ao nvel de 5% de significncia. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia tabela de dupla entrada Digite e analise
29

Sada do Rcmdr:
data: .Table

X-squared = 53.9099, df = 6, p-value = 7.692e-10

> .Test$expected # Expected Counts 1 2 3 4 1 11.53846 16.15385 13.46154 8.846154 2 103.84615 145.38462 121.15385 79.615385

3 184.61538 258.46154 215.38462 141.538462


> round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 4 1 0.21 4.12 5.32 37.25 2 1.85 1.90 0.12 0.55 3 1.28 0.28 0.10 0.94
30

Exemplo 4: 1237 indivduos adultos classificados segundo a presso sangunea (mm Hg) e o nvel de colesterol (mg/100cm3). Verificar se existe independncia entre essas variveis. Colesterol < 200

Presso
< 127 117 127 a 166 > 166 168 22

Total 307

200 a 260
> 260 Total

204
67 388

418
145 731

63
33 118

685
245 1237

H: Presso sangunea e nvel de colesterol so independentes; A: Nvel de colesterol e presso sangunea so variveis dependentes. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela de dupla entrada

31

Sada do Rcmdr:
data: .Table X-squared = 13.5501, df = 4, p-value = 0.008878

> .Test$expected # Expected Counts 1 2 3 1 96.29426 181.4204 29.28537 2 214.85853 404.7979 65.34357 3 76.84721 144.7817 23.37106
> round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 1 4.45 0.99 1.81 2 0.55 0.43 0.08 3 1.26 0.00 3.97

Para = 0,05, temos P < . Assim, temos evidncias para rejeitar a hiptese de independncia entre as variveis presso sangunea e nvel de colesterol ao nvel de 5% de 32 significncia.

Você também pode gostar