Você está na página 1de 8

1.

Testes de Aderência
Objetivo: Testar a adequabilidade de um modelo
probabilístico a um conjunto de dados observados
Exemplo 1: Genética – Equilíbrio Hardy-Weinberg
- Testes Qui-quadrado - Aa Aa Aa AA
Aderência e Independência AA Aa
aa Aa
aa aa
AA Aa aa AA
aa
AA Aa
aa aa

3 categorias de descendentes: AA, Aa, aa.


Qual é a FREQUÊNCIA de cada genótipo em uma população?

Probabilidades: AA Aa aa
1
(Modelo teórico – equilíbrio H.-W.) ¼ ½ ¼ 2

Se o modelo Hardy-Weinberg for adequado, a freqüência


Em uma certa população, 100 descendentes foram esperada de descendentes para o genótipo AA, dentre os
estudados, fornecendo a tabela a seguir: 100 indivíduos, pode ser calculada por:
100 x P(AA) = 100 x ¼ = 25
Freqüência
Genótipo
observada
AA 26 Da mesma forma, temos para o genótipo Aa,
Aa 45
100 x P(Aa) = 100 x ½ = 50
aa 29
Total 100
E para o genótipo aa,

Objetivo: Verificar se o modelo genético proposto é 100 x P(AA) = 100 x ¼ = 25


adequado para essa população

3 4
1. Testes de Aderência – Metodologia
Podemos expandir a tabela de freqüências dada
anteriormente: Considere uma tabela de freqüências, com k ≥ 2 categorias
de resultados:
Freqüência Freqüência
Genótipo Freqüência
observada esperada Categorias
Observada
AA 26 25 1 O1
Aa 45 50 2 O2
aa 29 25 3 O3

Total 100 100 M M


k Ok
Total n
→ Pergunta: Podemos afirmar que os valores
observados estão suficientemente próximos dos
em que Oi é o total de indivíduos observados na
valores esperados, de tal forma que o modelo
categoria i, i = 1,...,k.
Hardy-Weinberg é adequado a esta população?
5 6

Expandindo a tabela de freqüências original, temos


Seja pi a probabilidade associada à categoria i, i = 1,..., k.
Freqüência
O objetivo do teste de aderência é testar as hipóteses Freqüência
Categorias esperada
observada
H : p1 = po1 , .... , pk = pok sob H
1 O1 E1
A : existe pelo menos uma diferença
2 O2 E2
sendo poi a probabilidade especificada para a categoria i, 3 O3 E3
i = 1, ..., k, fixada através do modelo probabilístico de M M M
interesse. k Ok Ek
Se Ei é o total de indivíduos esperados na categoria i, Total n n
quando a hipótese H é verdadeira, então: Quantificação da distância entre as colunas de freqüências:
Ei = n × poi, i = 1, ...,k (Oi − Ei )2
k
χ =∑2

i =1 Ei
7 8
Regra de decisão:
2
k
(Oi − Ei ) Estatística do
χ2 = ∑ Pode ser baseada no nível descritivo ou valor P, neste caso
Ei teste de aderência
i =1
P = P ( χ q2 ≥ χobs
2
),
Supondo H verdadeira, 2
2 em que χ obs é o valor calculado, a partir 2dos dados,
k
(Oi − Ei ) usando a expressão apresentada para χ .
χ2 = ∑ ~ χ q2 , aproximadamente,
i =1 Ei
Graficamente:
sendo que q = k - 1 representa o número de graus de
liberdade.
P
→ Em outras palavras, se H é verdadeira, a v.a. tem χ2
distribuição aproximada qui-quadrado com q graus de
liberdade.
2
IMPORTANTE.: Este resultado é válido para n grande e para χ obs

Ei ≥ 5, i = 1, ..., k.
Se, para α fixado, obtemos P ≤ α, rejeitamos a hipótese H.
9 10

Exemplo (continuação): Genética – Equilíbrio Hardy-Weinberg: Genótipo Oi Ei


AA 26 25
Hipóteses:
H : O modelo proposto é adequado a esta situação Aa 45 50
A : O modelo não é adequado a esta situação aa 29 25
Total 100 100

De forma equivalente, podemos escrever: Cálculo do valor da estatística do teste ( k = 3):


H: P(AA) = ¼ , P(Aa) = ½ e P(aa) = ¼
3
(Oi − E i )2 (26 − 25) 2 (45 − 50) 2 (29 − 25) 2
χ 2
=∑ = + + =
25 50 25
obs
1 Ei
A: ao menos uma das igualdades não se verifica
= 0,04 + 0,50 + 0,64 = 1,18
Usando a distribuição de qui-quadrado com q = k-1 = 2 graus de
A tabela seguinte apresenta os valores observados e liberdade, o nível descritivo é calculado por
P = P ( χ 2 ≥ 1,18) = 0,5543 .
esperados (calculados anteriormente). 2
Conclusão: Para α = 0,05, como P = 0,5543 > 0,05, não
rejeitamos a hipótese H, isto é, essa população segue o
11 equilíbrio Hardy-Weinberg. 12
O cálculo do nível descritivo P pode ser feito no Exemplo 2: Deseja-se verificar se o número de acidentes em
MINITAB, através dos comandos: uma estrada muda conforme o dia da semana. O número de
MTB > cdf 1,18 k1; acidentes observado para cada dia de uma semana
SUBC> chisquare 2. escolhida aleatoriamente foram:
MTB > let k2 = 1 - k1
MTB > print k2 Dia da No. de
semana acidentes
Data Display Seg 20
K2 0,554327
Ter 10
MTB >
Qua 10 ⇒ O que pode ser dito?
Nível descritivo Qui 15
Ou via menu por:
Sex 30
calc → probability distributions → Chi-Square Sab 20
Dom 35
e o valor P será o complementar da probabilidade fornecida.
13 14

Hipóteses a serem testadas: Dia da No. de acidentes No. esperado de


semana observados (Oi ) acidentes (Ei )
H: O número de acidentes não muda conforme o dia da semana; Seg 20 20
A: Pelo menos um dos dias tem número diferente dos demais.
Ter 10 20
Qua 10 20
Se pi representa a probabilidade de ocorrência de
Qui 15 20
acidentes no i-ésimo dia da semana,
Sex 30 20
H: pi = 1/7 para todo i = 1,…, 7 Sab 20 20
A: pi ≠1/7 para pelo menos um valor de i. Dom 35 20

Total de acidentes na semana: n =140. Cálculo da estatística de qui-quadrado:


Logo, se H for verdadeira, 7
(Oi − E i )2 (20 − 20)2 (10 − 20)2 (10 − 20)2 (15 − 20)2
χ 2
=∑ = + + + +
20 20 20 20
obs
Ei
Ei = 140 x 1/7 = 20, i = 1,…,7, 1

(30 − 20)2 (20 − 20)2 (35 − 20)2


ou seja, esperamos 20 acidentes por dia. + + = 27,50
20 20 20
15 16
2 2
Neste caso, temos χ ~ χ 6 , aproximadamente. 2. Testes de Independência
Objetivo: Verificar se existe independência entre duas
O nível descritivo é dado por P = P ( χ 62 ≥ 27 ,50 ) ≅ 0,00012 ,
variáveis medidas nas mesmas unidades experimentais.
que pode ser obtido no MINITAB por:
Exemplo 3: Deseja-se verificar se existe dependência entre a
MTB > cdf 27,50 k1; renda e o número de filhos em famílias de uma cidade.
SUBC> chisquare 6.
MTB > let k2 = 1 - k1 • 250 famílias escolhidas ao acaso forneceram a tabela a seguir:
MTB > print k2

Data Display Número de filhos


Renda (R$)
K2 0,000116680 0 1 2 + de 2 Total
menos de 2000 15 27 50 43 135
ou pelo complementar da probabilidade fornecida em:
2000 a 5000 25 30 12 8 75
calc → probability distributions → Chi-Square
5000 ou mais 8 13 9 10 40
Conclusão: para α = 0,05, temos que P = 0,0001 < α e, assim, Total 48 70 71 61 250
rejeitamos H, e concluímos que o número de acidentes não é
o mesmo em todos os dias da semana. 17 18

Em geral, os dados referem-se a mensurações de duas → Quantas observações devemos ter em cada casela, se A e B
características (A e B) feitas em n unidades experimentais, que forem independentes?
são apresentadas conforme a seguinte tabela:
Se A e B forem independentes, temos que, para todos os possíveis
pares (Ai e Bj):

pij = P(Ai ∩ Bj ) = P(Ai ) × P(Bj ) = pi. × p.j , i = 1, …, r e j = 1, …, s.

Logo, o número esperado de observações com as características


(Ai e Bj), entre as n observações, sob a hipótese de independência,
é dado por n n.j i.
Eij = n × pij = n × pi. × p.j = n × × ,
n n
sendo pij a proporção de observações com as características (Ai e Bj).
Hipóteses a serem testadas – Teste de independência:
independência
H: A e B são variáveis independentes Assim, ni. × n.j
A: As variáveis A e B não são independentes Eij =
n
O processo deve ser repetido para todas as caselas (i, j).
19 20
Distância entre os valores observados e os valores Regra de decisão:
esperados sob a suposição de independência: Pode ser baseada no valor P (nível descritivo), neste caso
s r
( Oij − Eij )2 Estatística do P = P ( χ q2 ≥ χobs
2
),
χ = ∑∑
2
teste de 2
Eij em que χ obs é o valor calculado, a partir 2dos dados,
i =1 j =1 independência
usando a expressão apresentada para χ .
em que Oij = nij representa o total de observações na casela (i, j).
Graficamente:

Supondo H verdadeira,
P

2
r s (Oij − Eij )2
χ = ∑∑ ~ χ q2
i =1 j =1 Eij
2
aproximadamente, χ obs
Se, para α fixado, obtemos P ≤ α, rejeitamos a hipótese H de
sendo q = ( r – 1) × ( s – 1 ) o número de graus de liberdade. independência.
21 22

Exemplo (continuação):
(continuação):
Tabela de valores observados e esperados (entre parênteses)
Estudo da dependência entre renda e o número de filhos
• 250 famílias foram escolhidas ao acaso
Número de filhos
Renda (R$)
Hipóteses H: O número de filhos e a renda são independentes 0 1 2 + de 2 Total
A: Existe dependência entre o número de filhos e a renda menos de 2000 15(25,92)
15 27(37,80)
27 50(
50(38,34) 43(32,94)
43 135

Número de filhos 2000 a 5000 25(14,40)


25( 30(21,00)
30 12(21,30)
12 8(18,30) 75
Renda (R$) 5000 ou mais 8(7,68) 13(11,20)
13 9(11,36) 10
0(9,76) 40
0 1 2 + de 2 Total
menos de 2000 15 27 50 43 135 Total 48 70 71 61 250
2000 a 5000 25 30 12 8 75
5000 ou mais 8 13 9 10 40 1 filho e renda de R$ 2000 2 ou + filhos e renda de R$ 5000 ou
Total 48 70 71 61 250 a R$ 5000: mais:
70 × 75 61 × 40
= 21,00 E 34 = = 9,76
Exemplo do cálculo dos valores esperados sob H (independência): E22 =
250 250
• Número esperado de famílias sem filhos e renda menor que R$ 2000: Lembre-se:
48 × 135 ni. × n .j
E11 = = 25,92
250 E ij =
. 23 n.. 24
Cálculo da estatística de qui-quadrado:
Determinação do número de graus de liberdade:
Número de filhos
Renda (R$)
0 1 2 + de 2 Total • Categorias de renda: r = 3
menos de 2000 15(25,92) 27(37,80) 50(38,34) 43(32,94) 135 • Categorias de nº de filhos: s = 4 q = (r – 1)×(s – 1) = 2 ×3 = 6
2000 a 5000 25(14,40) 30(21,00) 12(21,30) 8(18,30) 75
5000 ou mais 8(7,68) 13(11,20) 9(11,36) 10(9,76) 40
O nível descritivo (valor P):
Total 48 70 71 61 250

2 (15 − 25,92) 2 (25 − 14,40) 2 (8 − 7,68) 2 χ 2 ~ χ 62 e, supondo α = 0,05, P = P ( χ 62 ≥ 36 ,62 ) ≅ 0,000 .


χ obs = + +
25,92 14,40 7,68
∴ Como P = 0,000 < α = 0,05, rejeitamos a independência entre
(27 − 37,80) (30 − 21,00) (13 − 11,20) 2
2 2
número de filhos e renda familiar.
+ +
37,80 21,00 11,20
(50 − 38,34) 2 (12 − 21,30) 2 (9 − 11,36) 2 Os cálculos podem ser feitos diretamente no MINITAB:
+ +
38,34 21,30 11,36
(43 − 32,94) 2 (8 − 18,30) 2 (10 − 9,76) 2 Stat → Tables → Chi-Square test
+ +
32,94 18,30 9,76
2 25 26
χ obs = 36,62 .

Saída do MINITAB 15:


Exemplo 4: 1237 indivíduos adultos classificados segundo a
Chi-Square Test: 0; 1; 2; + de 2 pressão sangüínea (mm Hg) e o nível de colesterol (mg/100cm3).
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Verificar se existe independência entre essas variáveis.
0 1 2 +de2 Total
1 15 27 50 43 135
25,92 37,80 38,34 32,94
Pressão
Colesterol Total
4,601 3,086 3,546 3,072 < 127 127 a 166 > 166
< 200 117 168 22 307
2 25 30 12 8 75
14,40 21,00 21,30 18,30 200 a 260 204 418 63 685
7,803 3,857 4,061 5,797
> 260 67 145 33 245
3 8 13 9 10 40 Total 388 731 118 1237
7,68 11,20 11,36 9,76
0,013 0,289 0,490 0,006 H: Pressão sangüínea e nível de colesterol são independentes;
Total 48 70 71 61 250
A: Nível de colesterol e pressão sangüínea são variáveis dependentes.

Chi-Sq = 36,621; DF = 6; P-Value = 0,000


27 28
Saída do MINITAB 15:
Chi-Square Test: < 127; 127 a 166; > 166

Expected counts are printed below observed counts


Chi-Square contributions are printed below expected counts

< 127 127 a 166 > 166 Total


< 200 117 168 22 307
96,29 181,42 29,29
4,452 0,993 1,812

200 a 260 204 418 63 685


214,86 404,80 65,34
0,549 0,431 0,084

>260 67 145 33 245


76,85 144,78 23,37
1,262 0,000 3,967

Total 388 731 118 1237

Chi-Sq = 13,550; DF = 4; P-Value = 0,009 29