Você está na página 1de 33

Testes 2 de ajustamento, homogeneidade e independncia

Os testes 2 considerados neste ltimo ponto do programa surgem associados a dados de contagem. Mais concretamente, dados que contam o nmero de observaes que recaem em vrias categorias (denidas a partir de um ou mais factores). Pode pensar-se que se tem uma (ou mais) varivel resposta categrica (factor), e que os dados so a frequncia com que se observa cada um dos nveis desse factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

384 / 429

Testes 2 (cont.)

O objectivo dos testes que agora se estudam comparar essas contagens observadas com as contagens que seriam esperadas ao abrigo de alguma hiptese. A maior ou menor proximidade global entre contagens observadas e esperadas serve para testar a hiptese subjacente aos valores esperados. Apesar de terem um fundo comum, os testes agora estudados aplicam-se em contextos diferentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

385 / 429

Testes 2 para k categorias


Considerem-se n observaes independentes que podem recair numa de k categorias. Seja Oi o nmero de observaes na categoria i . Exemplo: Considere-se uma avaliao da qualidade duma linha de produo de embalagens de 6 latas de cerveja. Para cada embalagem, considere-se o nmero de latas que no passam o controlo de qualidade. Temos k = 7 categorias, associadas ao nmero de latas imprprias. Em n = 200 embalagens, conta-se o nmero Oi de embalagens com i (i {0, 1, 2, 3, 4, 5, 6}) latas que no passam o controlo. Foram obtidos os seguintes valores:
No. latas imprprias No. embalagens 0 141 1 48 2 9 3 2 4 0 5 0 6 0

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

386 / 429

Testes 2 para k categorias (cont.)

Considere-se uma hiptese que associa a cada uma das k categorias uma probabilidade pi . Ao abrigo dessa hiptese, o nmero esperado de observaes na categoria i seria Ei = n pi . Exemplo: No contexto do exemplo anterior, considere-se a hiptese de que o nmero de latas imprprias em cada embalagem segue uma distribuio Binomial, de parmetros B (6 , 0.04)

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

387 / 429

Testes 2 para k categorias (cont.)


Ao abrigo desta hiptese, e tendo em conta que a probabilidade de haver i latas imprprias numa embalagem de 6 latas ser dada por: pi = tem-se Ei = 200 pi e:
i pi Ei 0 0.7828 156.552 1 0.1957 39.138 2 0.0204 4.077 3 0.0011 0.226 4 0.0000 0.007 5 0.0000 0.000 6 0.0000 0.000

6 0.04i 0.966i , i

comparando-se com os valores observados: Oi 141 48 9 2 0 0 0

A distribuio observada compatvel com a distribuio esperada?

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

388 / 429

A estatstica de Pearson
No contexto agora descrito, Pearson mostrou que a estatstica X2 =

i =1

(Oi Ei )2 Ei

2 . segue assintoticamente uma distribuio k 1

NOTA: a subtraco de um grau de liberdade vem de existir uma restrio ao nmero de observaes em cada categoria, uma vez que a sua soma tem de ser n. Logo, h apenas k 1 valores observados livres. Denindo a hiptese nula como a hiptese que gerou os valores esperados Ei tem-se uma Regio Crtica unilateral direita, ou seja:
2 > 2 Rejeita-se H0 (hiptese subjacente aos Ei ) se Xcalc ;k 1 .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

389 / 429

A estatstica de Pearson (cont.)

Assintoticamente signica para grandes amostras, mas h critrios diferentes para quando se considera a aproximao adequada. Um critrio, sugerido por Cochran, : nenhum Ei inferior a 1; no mais do que 20% dos Ei s inferiores a 5. Caso estas condies no se veriquem, podem-se agrupar classes de forma a satisfazer o critrio.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

390 / 429

Exemplo
Seguindo o critrio de Cochran, no exemplo anterior ser necessrio agrupar as classes correspondentes a 2 ou mais latas imprprias, obtendo-se a nova tabela:
i pi Ei Oi 0 0.7828 156.552 141 1 0.1957 39.138 48 2 0.0216 4.311 11

A estatstica de Pearson calculada tem valor: X2 = 13.9327

2 Numa distribuio 3 1 o limiar da regio crtica ao nvel = 0.05 5.991, pelo que se rejeita a hiptese de a distribuio subjacente ser a referida.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

391 / 429

Pearson com a estimao de parmetros


Caso o clculo dos valores esperados ao abrigo da hiptese de referncia exija a estimao de um ou mais parmetros (ou seja, a hiptese nula est incompletamente especicada), necessrio retirar um grau de liberdade distribuio 2 por cada parmetro estimado. Exemplo: No caso que tem vindo a ser considerado, admita-se que o nmero de latas imprprias por embalagem segue uma distribuio Binomial B (6, q ), mas com parmetro q desconhecido. S possvel calcular os valores esperados Ei admitindo um valor para a probabilidade de xito numa lata (q ). Uma forma de o fazer ser recordar que X B (m, q ) E [X ] = mq , e usar a mdia amostral para estimar q . Com base nos dados, o nmero mdio de latas imprprias por embalagem, nas 200 embalagens, 0.36. Como m = 6, tem-se = 0.36/6 = 0.06. q
J. Cadima (ISA) Estatstica e Delineamento 2010-11 392 / 429

Exemplo
Agora, a probabilidade estimada de haver i latas imprprias numa embalagem de 6 latas ser dada por: i = p i = 200 p i . e tem-se E Reconstruindo a tabela para uma Binomial B (6 , 0.06), tem-se:
i pi i E 0 0.6899 137.974 1 0.2642 52.841 2 0.0422 8.432 3 0.0036 0.718 4 0.0002 0.034 5 0.0000 0.001 6 0.0000 0.000

6 0.06i 0.946i , i

comparando-se com os (mesmos) valores observados: Oi 141 48 9 2 0 0 0

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

393 / 429

Pearson com estimao de parmetros (cont.)


Sendo necessrio estimar r parmetros, a estatstica X2 =

i =1

i )2 (Oi E i E

2 segue assintoticamente uma distribuio k 1 r .

Denindo a hiptese nula como hiptese que (aps a estimao de parmetros) gerou os i valores esperados estimados E Dene-se uma Regio Crtica unilateral direita, ou seja: i ) se X 2 > 2 Rejeita-se H0 (hiptese subjacente aos E ;k1r calc

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

394 / 429

Exemplo (cont.)
De novo, utilizando o critrio de Cochran para garantir a qualidade da aproximao assinttica distribuio 2 , tem-se:
i pi i E Oi 0 0.6899 137.974 141 1 0.2642 52.841 48 2 0.0459 9.185 11

A estatstica de Pearson calculada tem valor: X2 = 0.8686

2 Numa distribuio 3 11 o limiar duma regio crtica ao nvel = 0.05 3.841, pelo que no se rejeita a hiptese de a distribuio subjacente ser Binomial (em particular, B (6, 0.06)).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

395 / 429

O teste 2 como teste de ajustamento


Os exemplos que acabmos de considerar mostram como o teste 2 , baseado na estatstica de Pearson, pode ser usado como um teste de ajustamento duma amostra a uma dada distribuio de probabilidades. No exemplo considerado, tratava-se duma distribuio discreta (a Binomial). Para outras distribuies discretas (Poisson, Geomtrica, Binomial Negativa) pode proceder-se de forma anloga. No caso de distribuies contnuas, o teste pode ainda ser utilizado, mas torna-se necessrio denir classes de valores para a distribuio, contando-se o nmero de observaes da varivel que recaem em cada classe. No caso de se pretender testar a Normalidade, prefervel utilizar outro teste, j estudado na disciplina de Estatstica do primeiro ciclo: o teste de Shapiro-Wilks.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 396 / 429

Teste 2 de homogeneidade

Admita-se agora uma generalizao da questo discutida antes: classicam-se observaes em vrias categorias, mas repete-se o procedimento para amostras extradas de vrias populaes. Admita-se que: h a populaes, que constituem os nveis de um factor A; as observaes de cada populao so classicadas em uma de b categorias, que denem os nveis dum factor B.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

397 / 429

Exemplo

Nos solos duma dada regio foi assinalada a presena de larvas de 4 espcies de insectos que afectam as principais culturas da regio. Pretende-se investigar se as frequncias relativas das espcies so ou no iguais consoante o tipo de solos. Classicaram-se os solos em trs tipos: arenosos, limosos e argilosos (Factor A, com a=3 nveis). Em cada tipo de solos foram recolhidas 100 larvas, e classicadas de acordo com a respectiva espcie (Factor B, com b=4 nveis).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

398 / 429

Exemplo (cont.)
Feita a classicao das larvas, obtiveram-se os seguintes resultados:
Espcie de larva 1 2 3 4 27 24 23 26 20 32 18 30 13 37 16 34 60 93 57 90 Total 100 100 100 300

Tipos de solos

Arenosos Limosos Argilosos Total

A linha nal, com as frequncias absolutas n.j de cada tipo de larva, representa uma base para estimar o que sero as probabilidades de cada tipo de larva, caso haja uma nica distribuio pelas espcies, comum aos trs tipos de solo. .j = A probabilidade estimada da espcie j ser p .1 = p
n. j n ,

ou seja:

60 93 57 90 .2 = .3 = .4 = = 0.20 p = 0.31 p = 0.19 p = 0.30 300 300 300 300


J. Cadima (ISA) Estatstica e Delineamento 2010-11 399 / 429

Exemplo (cont.)
Uma vez que em cada tipo de solo h ni . = 100 observaes, o nmero esperado de observaes na clula (i,j) dado por ij E = .j ni . p = ni . n.j n

A tabela com os valores esperados estimados entre parenteses:


1 27 (20) 20 (20) 13 (20) 60 Espcie de larva 2 3 24 (31) 23 (19) 32 (31) 18 (19) 37 (31) 16 (19) 93 57 4 26 (30) 30 (30) 34 (30) 90 Total 100 100 100 300

Tipos de solos

Arenosos Limosos Argilosos Total

Entre as observaes de clula Oij e os correspondentes valores ij ), existe concordncia suciente para admitir esperados estimados (E que as distribuies de frequncias de espcies so anlogas nos trs tipos de solos?
J. Cadima (ISA) Estatstica e Delineamento 2010-11 400 / 429

Tabelas de contingncia
Generalizando, sejam dadas n observaes que so classicadas de acordo com dois diferentes factores. Chama-se tabela de contingncia a uma tabela com o nmero Oij de observaes em cada clula (i , j ) (nvel i do factor A e j do factor B):
Nveis do Factor A 1 2 3 . . . a Marginal de B 1 O11 O21 O31 . . . Oa1 n1 Nveis do Factor B 2 3 O12 O13 O22 O23 O32 O33 . . .. . . . . . Oa2 Oa3 n2 n3 b O1,b O2,b O3,b . . . Oa,b nb Marginal de A n1 n2 n3 . . . na n

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

401 / 429

Testes de homogeneidade
No contexto de testes de homogeneidade, associados ao exemplo das larvas, o nmero de observaes em cada nvel de um factor foi previamente xado (no nosso caso, os totais de linha, ni .). Admitindo que se trata dos totais de linha (nveis do factor A), tal facto impe a restries. A necessidade de estimar as probabilidades dos nveis do outro factor (no nosso caso, as probabilidades de espcie, ou seja as probabilidades marginais de coluna) impes mais b 1 restries. i tem de ser 1, logo (NOTA: No so b restries pois a soma dos p estimar b 1 probabilidades determina a ltima estimativa.) Assim, ao todo foram impostas a + b 1 restries.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

402 / 429

A estatstica de Pearson em testes de homogeneidade


No contexto agora descrito, a estatstica de Pearson tem a forma X2 =
a b

i =1 j =1

ij )2 (Oij E ij E

2 e segue assintoticamente uma distribuio ( a1)(b 1) , uma vez que ab (a + b 1) = (a 1)(b 1)

Denindo a hiptese nula como homogeneidade na distribuio das amostras de cada i ) populao (a hiptese que gerou os valores esperados E tem-se uma Regio Crtica unilateral direita, ou seja: Rejeita-se H0 se
2 > 2 Xcalc ;(a1)(b 1) .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

403 / 429

Exemplo
A estatstica de Pearson calculada no exemplo das larvas tem valor
2 = 10.10928 . Xcalc

Este valor calculado deve ser comparado com o valor que, numa 2 (pois (a 1)(b 1) = 2 3 = 6), deixa direita uma distribuio 6 regio de probabilidade = 0.05:
2 0 .05(6) = 12.591 . 2 < 2 Como Xcalc 0.05(6) no se rejeita H0 : admite-se a homogeneidade das distribuies de espcies de larva, nos trs tipos de solos.

Tal como nos casos anteriores, pode ser necessrio agrupar classes do factor B, caso o nmero esperado de observaes nalgumas classes seja demasiado baixo. Neste exemplo, esse agrupamento no foi necessrio.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 404 / 429

Testes 2 com totais de margens livres


Nos testes de homogeneidade acabados de analisar, uma das margens da tabela de contingncias tem os nmeros totais de observaes xos. Mas outros contextos podem existir, entre os quais o de tabelas de contingncia onde apenas se xa o nmero total de observaes, sendo essas n observaes livres de recair em qualquer das ab clulas denidas pelos nveis de dois factores, A e B. Como em casos anteriores, pode-se testar uma hiptese a que correspondam valores esperados de clulas, Eij , comparando esses valores esperados com os valores efectivamente observados em cada clula, Oij , utilizando um teste baseado na estatstica 2 de Pearson.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

405 / 429

Testes 2 de independncia
A mais frequente das hipteses, no contexto das margens de linhas e colunas duma tabela de contingncias serem livres, o teste independncia entre os dois factores que denem as margens da tabela. Recorde-se que falamos em independncia quando as probabilidades conjuntas so dadas pelo produto das probabilidades marginais: pij onde pij indica a probabilidade duma observao recair na clula (i,j); pi . indica a probabilidade marginal duma observao recair no nvel i do factor A (seja qual fr o nvel do outro factor); p.j indica a probabilidade marginal duma observao recair no nvel j do factor B (seja qual fr o nvel do outro factor);
J. Cadima (ISA) Estatstica e Delineamento 2010-11 406 / 429

pi . p.j ,

i,j

Testes 2 de independncia (cont.)


Caso se verique a independncia, o nmero esperado de observaes na clula (i,j) dado por: Eij = n pij = n pi . p.j i,j.

possvel estimar as probabilidades marginais a partir das frequncias relativas marginais (como foi feito nos testes de homogeneidade, para o factor B): i . = p .j p = ni . n n.j n , , i = 1, 2, ..., a j = 1, 2, ..., b ,

onde n o nmero total de observaes (xo), ni . o nmero (livre) de observaes no nvel i do factor A e n.j o nmero (livre) de observaes no nvel j do factor B.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 407 / 429

Testes 2 de independncia (cont.)


Assim, caso se verique a independncia, o nmero esperado estimado de observaes na clula (i,j) : n n n n ij = n p .j = n i . .j = i . .j ij = n p i . p E n n n Foram estimadas: a 1 probabilidades marginais do factor A (a ltima tem de dar a soma 1); e b 1 probabilidades marginais do factor B. Juntamente com 1 restrio imposta pelo nmero total xo de observaes (n), tem-se um total de (a 1) + (b 1) + 1 = a + b 1 restries.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 408 / 429

i,j .

Testes 2 de independncia (cont.)


Estes valores esperados estimados sero comparados com os valores observados, Oij , em cada uma das ab clulas, com base na estatstica de Pearson. NOTA: Repare-se que, embora com motivaes diferentes, ij so iguais, nos testes de as expresses de clculo dos E homogeneidade e nos testes de independncia; e o nmero de restries impostas igual nos dois tipos de teste. Logo, a estatstica X 2 de Pearson ter uma expresso idntica, e uma distribuio assinttica idntica, quer nos testes de homogeneidade, quer nos testes de independncia. Mas importa no perder de vista que se trata de contextos diferentes, com hipteses de referncia diferentes e concluses diferentes.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 409 / 429

Testes 2 de independncia (cont.)


No contexto de testes de independncia, a estatstica de Pearson tem a forma X2

i =1 j =1

ij )2 (Oij E ij E

i =1 j =1

Oij

ni . n. j n ni . n. j n

2 e segue assintoticamente uma distribuio ( a1)(b 1) .

Denindo a hiptese nula como independncia entre os dois factores tem-se uma Regio Crtica unilateral direita, ou seja: Rejeita-se H0 se
2 > 2 Xcalc ;(a1)(b 1) .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

410 / 429

Exemplo
Um estudo de n = 6800 alemes do sexo masculino analisou a cr do cabelo e a cr dos olhos de cada indivduo. Os resultados foram: Olhos Azuis Cinz./Verde Castanhos Total Louro 1768 946 115 2829 Cabelo Castanho Preto 807 189 1387 746 438 288 2632 1223 Ruivo 47 53 16 116 Total 2811 3132 857 6800

Pretende-se testar se existe independncia entre as caractersticas cr do cabelo e cr dos olhos.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

411 / 429

Um exemplo (cont.)
As frequncias marginais de linha do estimativas das probabilidades i. i . = n marginais de cada cr de olhos (p n ):
1 = p 2811 = 0.4134 6800 2 = p 3132 = 0.4606 6800 3 = p 857 = 0.1260 6800

De forma anloga se obtm estimativas das probabilidades .j .j = n marginais de cres de cabelo (p n ):


1 = p 2829 = 0.416 6800 2 = p 2632 = 0.387 6800 3 = p 1223 = 0.180 6800 4 = p 116 = 0.017 6800

Os valores esperados estimados em cada clula, caso haja independncia, so dados por: ij = n p .j . .j = 6800 p i . p ij = n p i . p E 11 = Por exemplo, E
J. Cadima (ISA)

28112829 6800

= 1169.4587.
2010-11 412 / 429

Estatstica e Delineamento

Um exemplo (cont.)
A tabela com os valores esperados (estimados) entre parenteses :
Cabelo Castanho Preto 807 (1088.02) 189 (505.57) 1387 (1212.27) 746 (563.30) 438 (331.71) 288 (154.13) 2632 1223

Olhos Azuis Cin./Verde Castanhos Total

Louro 1768 (1169.46) 946 (1303.00) 115 (356.54) 2829

Ruivo 47 (47.95) 53 (53.43) 16 (14.62) 116

Total 2811 3132 857 6800

A estatstica de Pearson ser ento:


X2 =
i =1 j =1

ij )2 (Oij E (16 14.62)2 (1768 1169.46)2 + ... + = 1073.508 . = ij 1169.46 14.62 E

2 quase nulo O p -value deste valor numa distribuio 6 16 (< 2.2 10 ), pelo que, como seria de esperar, se rejeita de forma clara a hiptese de independncia.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 413 / 429

Analisando as parcelas da estatstica

Em qualquer dos contextos considerados, a regio de rejeio unilateral direita, isto , so os valores grandes da estatstica que rejeitam a hiptese nula, num teste baseado na estatstica de Pearson. Como a estatstica X 2 de Pearson uma soma de parcelas no-negativas, ao longo de todas as categorias denidas pelo factor (no caso dos testes de ajustamentro inciais) ou pelo cruzamento dos nveis de cada factor (no caso de testes de homogeneidade e/ou independncia), possvel identicar a(s) categoria(s) que contribuem com as parcelas de maior valor e que so, por isso mesmo, maiormente responsveis pela rejeio de H0 .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

414 / 429

Ainda o exemplo de teste de independncia


As parcelas individuais da estatstica de Pearson, no caso do teste de independncia acima referido, so: Cabelo Castanho Preto 72.585 198.222 25.185 59.257 34.059 116.263

Olhos Azuis Cin./Verde Castanhos

Louro 306.340 97.814 163.630

Ruivo 0.019 0.003 0.130

2 Uma vez que 0 .05 (6) = 12.592, quase todas as combinaes (excepto as referentes aos ruivos) so, s por si, responsveis pela rejeio de H0 , com destaque para as associaes de olhos azuis com cabelo louro e de olhos azuis com cabelo preto.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

415 / 429

Ainda o exemplo da independncia (cont.)

No entanto, o sentido destas duas associaes diferente: para olhos azuis/cabelo louro, tem-se 11 = 1169.46 . 1768 = O11 > E Trata-se duma associao positiva. para olhos azuis/cabelo preto, tem-se 13 = 505.57 . 189 = O13 < E Trata-se duma associao negativa.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

416 / 429