Você está na página 1de 32

- Testes Qui-quadrado Aderncia e Independncia

1. Testes de Aderncia
Objetivo: Testar a adequabilidade de um modelo probabilstico a um conjunto de dados observados Exemplo 1: Segundo Mendel (geneticista famoso), os resultados dos cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas seguem uma distribuio de probabilidades dada por:
Resultado Probabilidade Amarela redonda 9/16 Amarela enrugada 3/16 Verde redonda 3/16 Verde enrugada 1/16

Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas foi classificada da seguinte forma:
Resultado Frequncia observada Amarela redonda 315 Amarela enrugada 101 Verde redonda 108 Verde enrugada 32
2

H evidncias de que os resultados desse experimento esto de acordo com a distribuio de probabilidades proposta por Mendel? 4 categorias para os resultados dos cruzamentos: Amarelas redondas (AR), Amarelas enrugadas (AE), Verdes redondas (VR), Verdes enrugadas (VE). Segundo Mendel, a probabilidade de cada categoria dada por: Probabilidades: AR AE VR 9/16 3/16 3/16 VE 1/16

No experimento, 556 ervilhas foram classificadas segundo o tipo de resultado, fornecendo a tabela a seguir: Tipo de resultado AR AE VR VE Total Objetivo: Frequncia observada 315 101 108 33 556

Verificar se o modelo probabilstico proposto adequado aos resultados do experimento.


4

Se o modelo probabilstico for adequado, a frequncia esperada ervilhas do tipo AR, dentre as 556 observadas, pode ser calculada por:

556 x P(AR) = 556 x 9/16 = 312,75


Da mesma forma, temos para o tipo AE,

556 x P(AE) = 556 x 3/16 = 104,25


Para o tipo VR temos

556 x P(VR) = 556 x 3/16 = 104,25


E, para o tipo VE,

556 x P(VE) = 556 x 1/16 = 34,75


5

Podemos expandir a tabela de frequncias dada anteriormente: Tipo de Frequncia Frequncia esperada resultado observada AR 315 312,75 AE 101 104,25 VR 108 104,25 VE 32 34,75 Total 556 556 Pergunta: Podemos afirmar que os valores observados esto suficientemente prximos dos valores esperados, de tal forma que o modelo probabilstico proposto por Mendel adequado aos resultados desse experimento?

Testes de Aderncia Metodologia


Considere uma tabela de frequncias, com k 2 categorias de resultados:
Categorias 1 2 3 k Total Frequncia Observada O1 O2 O3 Ok n

em que Oi o total de indivduos observados na categoria i, i = 1,...,k.


7

Seja pi a probabilidade associada categoria i, i = 1,..., k. O objetivo do teste de aderncia testar as hipteses H : p1 = po1 , .... , pk = pok A : existe pelo menos uma diferena
sendo poi a probabilidade especificada para a categoria i, i = 1, ..., k, fixada atravs do modelo probabilstico de interesse.

Se Ei o total de indivduos esperados na categoria i, quando a hiptese H verdadeira, ento:

Ei = n poi, i = 1, ...,k
8

Expandindo a tabela de frequncias original, temos


Categorias Frequncia observada Frequncia esperada sob H

1 2 3 M k Total

O1 O2 O3 M Ok n

E1 E2 E3 M Ek n

Quantificao da distncia entre as colunas de frequncias:

(Oi E i )2 2 = Ei i =1
k

(Oi Ei )2 2 = Ei i =1
k

Estatstica do teste de aderncia

Supondo H verdadeira,

(Oi Ei )2 2 2 = ~ q , aproximadamente, Ei i =1
k

sendo que q = k - 1 representa o nmero de graus de liberdade. Em outras palavras, se H verdadeira, a v.a. 2 tem distribuio aproximada qui-quadrado com q graus de liberdade.
IMPORTANTE.: Este resultado vlido para n grande e para Ei 5, i = 1, ..., k.
10

Regra de deciso: Pode ser baseada no nvel descritivo ou valor P, neste caso
2 2 P = P ( q obs ),
2 obs o valor calculado, a partir dos dados, em que 2 . usando a expresso apresentada para

Graficamente: P

2 obs

Se, para fixado, obtemos P , rejeitamos a hiptese H.


11

Exemplo (continuao): Cruzamentos de ervilhas Hipteses: H : O modelo probabilstico proposto por Mendel adequado. A : O modelo proposto por Mendel no adequado. De forma equivalente, podemos escrever: H: P(AR) =9/16, P(AE) = 3/16, P(VR) = 3/16 e P(VE) = 1/16. A: ao menos uma das igualdades no se verifica. A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente).

12

Resultado AR AE VR VE Total

Oi

Ei

315 101 108 32 556

312,75 104,25 104,25 34,75 556

Clculo do valor da estatstica do teste ( k = 4):


2 obs

(Oi Ei ) 2 (315 312,75) 2 (101 104,25) 2 (108 104,25) 2 (32 34,75) 2 = = + + + = Ei 312,75 104,25 104,25 34,75 1

= 0,016 + 0,101 + 0,135 + 0,218 = 0,470.

Usando a distribuio de qui-quadrado com q = k-1 = 3 graus de liberdade, o nvel descritivo calculado por
Concluso: Para = 0,05, como P = 0,925 > 0,05, no h evidncias para rejeitarmos a hiptese H, isto , ao nvel de significncia de 5%, conclumos o modelo de probabilidades de 13 Mendel se aplica aos resultados do experimento.
2 P = P( 3 0,470) = 0,925.

O clculo do nvel descritivo P pode ser feito no Rcmdr, via menu, atravs do seguinte caminho:

Distribuies Distribuies contnuas Distribuio Qui-Quadrado Probabilidades da Qui-Quadrado Cauda Superior

Inserindo o valor 0,470 e o nmero de graus de liberdade igual a 3, o valor P ser igual a 0,925431.
14

Exemplo 2: Deseja-se verificar se o nmero de acidentes em uma estrada muda conforme o dia da semana. O nmero de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram: Dia da semana Seg Ter Qua Qui Sex Sab Dom No. de acidentes 20 10 10 15 30 20 35
15

O que pode ser dito?

Hipteses a serem testadas: H: O nmero de acidentes no muda conforme o dia da semana; A: Pelo menos um dos dias tem nmero diferente dos demais.

Se pi representa a probabilidade de ocorrncia de acidentes no i-simo dia da semana,


H: pi = 1/7 para todo i = 1,, 7 A: pi 1/7 para pelo menos um valor de i.

Total de acidentes na semana: n =140. Logo, se H for verdadeira, Ei = 140 x 1/7 = 20, i = 1,,7, ou seja, esperamos 20 acidentes por dia.
16

Dia da semana Seg Ter Qua Qui Sex Sab Dom

No. de acidentes observados (Oi ) 20 10 10 15 30 20 35

No. esperado de acidentes (Ei ) 20 20 20 20 20 20 20

Clculo da estatstica de qui-quadrado:

2 obs

(Oi E i )2 (20 20)2 (10 20)2 (10 20)2 (15 20)2 = = + + + + Ei 20 20 20 20 1


7

(30 20)2 (20 20)2 (35 20)2 + + = 27,50 20 20 20


17

2 2 ~ 6 , aproximadamente. Neste caso, temos

O nvel descritivo dado por P = P ( 6 27,50) 0,00012 ,


2

que pode ser obtido no Rcmdr pelo caminho (via menu):

Distribuies Distribuies contnuas Distribuio Qui-Quadrado Probabilidades da Qui-Quadrado Cauda Superior (inserindo o valor 27,50 e o nmero de graus de liberdade igual a 6).
Concluso: Para = 0,05, temos que P = 0,0001 < . Assim, h evidncias para rejeitarmos H, ou seja, conclumos ao nvel de significncia de 5% que o nmero de acidentes no 18 o mesmo em todos os dias da semana.

2. Testes de Independncia
Objetivo: Verificar se existe independncia entre duas variveis medidas nas mesmas unidades experimentais. Exemplo 3: A Associao de Imprensa do Estado de So Paulo 3 fez um levantamento com 1300 leitores, para verificar se a preferncia por leitura de um determinado jornal independente do nvel de instruo do indivduo. Os resultados obtidos foram: Tipo de Jornal Grau de instruo 1 Grau 2 Grau Universitrio Total
o o

Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350

Outros 27 73 130 230

Total 50 450 800 1300


19

Vamos calcular propores segundo os totais das colunas (poderiam tambm ser calculadas pelos totais das linhas. Temos a seguinte tabela:

Tipo de Jornal Grau de instruo 1 Grau


o

Jornal A Jornal B Jornal C 3,33% 1,90% 1,43%

Outros 11,74%

Total 3,85%

o 30,00% 38,57% 35,71% 31,74% 34,62% 2 Grau Universitrio 66,67% 59,52% 62,86% 56,52% 61,54% Total 100,00% 100,00% 100,00% 100,00% 100,00%

Independentemente da preferncia por um tipo de jornal, 3,85% dos leitores tm o 1 Grau, 34,62% tm o 2 Grau e 61,54% so universitrios.
20

Sob independncia entre grau de instruo e preferncia por um tipo de jornal, o nmero esperado de leitores que tm o 1 Grau e preferem o jornal A igual a 300 x 0,0385 = 11,54, que tm o 2 Grau e preferem o Jornal A 300 x 0,3462 = 103,85 e que so universitrios e preferem o jornal A 300 x 0,6154 = 184,62.
Tipo de Jornal Grau de instruo 1 Grau
o

Jornal A

Jornal B 8 16,15 (3,85%) 162 145,38 (34,62%) 250 258,46 (61,54%) 420

Jornal C 5 13,46 (3,85%) 125 121,15 (34,62%) 220 215,38 (61,54%) 350

Outros 27 8,85 (3,85%) 73 79,62 (34,62%) 130 141,54 (61,54%) 230

Total 50

10 11,54 (3,85%) o 90 2 Grau 103,85 (34,62)% 200 Universitrio 184,62 (61,54%) Total 300

450

800 1300

As diferenas entre os valores observados e os esperados no so muito pequenas. Preferncia por um tipo de jornal e grau de instruo parecem no ser independentes. 21

Testes de Independncia Metodologia


Em geral, os dados referem-se a mensuraes de duas caractersticas (A e B) feitas em n unidades experimentais, que so apresentadas conforme a seguinte tabela:

A \ B A1 A2 ... Ar Total

B1 O 11 O 21 ... O r1 O .1

B2 O 12 O 22 ... O r2 O .2

... ... ... ... ... ...

Bs O 1s O 2s ... O rs O .s

Total O 1. O 2. ... O r. n

Hipteses a serem testadas Teste de independncia: H: A e B so variveis independentes A: As variveis A e B no so independentes

22

Quantas observaes devemos esperar em cada casela, se A e B forem independentes? Sendo Oij o total de observaes na casela (i, j), se A e B forem independentes, esperamos que, para todos os possveis pares (Ai e Bj): Oi1 /O.1 = Oi2 /O.2 = ... = Ois /O.s = Oi. /n, i = 1, ..., r
ou ainda Oij /O.j = Oi. /n = 1, ..., r, j = 1, ..., s de onde se deduz, finalmente, que Oij = (Oi. x O.j )/n, i = 1, 2,, r e j = 1, 2,,s. Logo, o nmero esperado de observaes com as caractersticas (Ai e Bj), entre as n observaes, sob a hiptese de independncia, dado por O O

Eij =

i.

.j

23

Distncia entre os valores observados e os valores esperados sob a suposio de independncia:

( Oij Eij )2 2 = Eij i =1 j =1


s r

Estatstica do teste de independncia

Supondo H verdadeira,

2 =
i =1 j =1

(Oij Eij )2 Eij

2 ~ q

aproximadamente, sendo q = ( r 1) ( s 1 ) o nmero de graus de liberdade.


24

Regra de deciso: Pode ser baseada no valor P (nvel descritivo), neste caso
2 2 P = P ( q obs )

em que obs o valor calculado, a partir2dos dados, usando a expresso apresentada para .
2

Graficamente: P

2 obs

Se, para fixado, obtemos P , rejeitamos a hiptese H de independncia. 25

Exemplo (continuao): Estudo da independncia entre preferncia por um tipo de jornal e grau de instruo. 1300 eleitores foram entrevistados ao acaso. Hipteses H: As variveis preferncia por um tipo de jornal e grau de instruo so independentes. A: Existe dependncia entre as variveis.
Tipo de Jornal Grau de instruo 1 Grau 2 Grau Universitrio Total
o o

Jornal A Jornal B Jornal C 10 90 200 300 8 162 250 420 5 125 220 350

Outros 27 73 130 230

Total 50 450 800 1300

Exemplo do clculo dos valores esperados sob H (independncia): Nmero esperado de leitores que tm 1 Grau e preferem o jornal A: 300 50

E11 =

1300

= 11,54 .

26

Tabela de valores observados e esperados (entre parnteses)


Tipo de Jornal Grau de instruo 1 Grau 2 Grau Universitrio Total
o o

Jornal A Jornal B 10 (11,54) 90 (103,85) 200 (184,62) 300 8 (16,15) 162 (145,38) 250 (258,46) 420

Jornal C 5 (13,46) 125 (121,15) 220 (215,38) 350

Outros 27 (8,85) 73 (79,62) 130 (141,54) 230

Total 50 450 800 1300

2 Grau e prefere jornal B:

Universitrio e prefere outros jornais:


E 34 = 230 800 = 141,54 1300

420 450 E22 = = 145,38 1300

Lembre-se:

Eij =

Oi. O.j n..


27

Clculo da estatstica de qui-quadrado:


Tipo de Jornal Grau de instruo 1 Grau 2 Grau Universitrio Total
2 obs
o o

Jornal A Jornal B 10 (11,54) 90 (103,85) 200 (184,62) 300 8 (16,15) 162 (145,38) 250 (258,46) 420

Jornal C 5 (13,46) 125 (121,15) 220 (215,38) 350

Outros 27 (8,85) 73 (79,62) 130 (141,54) 230

Total 50 450 800 1300

(10 11,54) 2 (8 16,15) 2 (5 13,46) 2 (27 8,85) 2 = + + + 11,54 16,15 13,46 8,85

(90 103,85) 2 (162 145,38) 2 (125 121,15) 2 (73 79,62) 2 + + + + 103,85 145,38 121,15 79,62 (200 184,62) 2 (250 258,46) 2 (220 215,38) 2 (130 141,54) 2 + + + + 184,62 258,46 215,38 141,54 28 = 53,910.

Determinao do nmero de graus de liberdade:


Categorias de Grau de instruo: s = 3 Categorias de Tipo de jornal: r = 4 q = (r 1)(s 1) = 3 2 = 6

O nvel descritivo (valor P):

P = P ( 53,910) < 0,0001


2 6

Supondo = 0,05, temos P < . Assim, temos evidncias para rejeitar a independncia entre as variveis grau de instruo e preferncia por tipo de jornal ao nvel de 5% de significncia. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela de dupla entrada
29

Sada do Rcmdr:
data: .Table

X-squared = 53.9099, df = 6, p-value = 7.692e-10

> .Test$expected # Expected Counts 1 1 11.53846 2 16.15385 3 13.46154 4 8.846154 79.615385

2 103.84615 145.38462 121.15385

3 184.61538 258.46154 215.38462 141.538462 > round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 4 0.55 0.94
30

1 0.21 4.12 5.32 37.25 2 1.85 1.90 0.12 3 1.28 0.28 0.10

Exemplo 4: 1237 indivduos adultos classificados segundo a presso sangunea (mm Hg) e o nvel de colesterol (mg/100cm3). Verificar se existe independncia entre essas variveis. Colesterol < 200 200 a 260 > 260 Total Presso < 127 117 204 67 388 127 a 166 > 166 168 418 145 731 22 63 33 118 Total 307 685 245 1237

H: Presso sangunea e nvel de colesterol so independentes; A: Nvel de colesterol e presso sangunea so variveis dependentes. Os clculos podem ser feitos diretamente no Rcmdr: Estatsticas Tabelas de Contingncia Digite e analise tabela de dupla entrada
31

Sada do Rcmdr:
data: .Table X-squared = 13.5501, df = 4, p-value = 0.008878 > .Test$expected # Expected Counts 1 2 3 1 96.29426 181.4204 29.28537 2 214.85853 404.7979 65.34357 3 76.84721 144.7817 23.37106 > round(.Test$residuals^2, 2) # Chi-square Components 1 2 3 1 4.45 0.99 1.81 2 0.55 0.43 0.08 3 1.26 0.00 3.97

Para = 0,05, temos P < . Assim, temos evidncias para rejeitar a hiptese de independncia entre as variveis presso sangunea e nvel de colesterol ao nvel de 5% de 32 significncia.