Você está na página 1de 24

TESTES DE HIPTESES NO PARAMTRICOS 1.

Introduo
Os testes estudados at agora envolviam problemas nos quais a distribuio da populao em estudo era conhecida, ou pelo menos nunca colocada em causa, e as hipteses testadas apenas envolviam parmetros populacionais. No entanto, outro tipo de problemas podem ser colocados: se a distribuio de uma populao desconhecida e se pretender testar a hiptese de uma distribuio particular para aquela populao, que fazer? Por exemplo, ao efectuar uma ANOVA, as populaes em estudo tero de facto distribuio normal? Os testes que iremos abordar neste captulo, denominados testes no paramtricos ou testes de distribuio livre constituem uma alternativa para este e outro tipos de problemas. O termo distribuio livre vulgarmente usado para indicar que os mtodos so aplicveis independentemente da forma da distribuio, ou que so vlidos para um ou mais largo espectro de distribuies. Estes mtodos so, em geral, fceis de aplicar, pois podem ser usados quando as hipteses exigidas por outras tcnicas no so satisfeitas. Relembramos aqui que os testes paramtricos estudados at agora comportam uma diversidade de suposies fortes a que o seu emprego deve subordinar-se (as observaes devem ser extradas de populaes com distribuio normal, as variveis em estudo devem ser medidas em escala intervalar ou de rcios, de modo a que seja possvel utilizar operaes aritmticas sobre os valores obtidos das amostras (adio, multiplicao, obteno de mdias, ...), etc.). Apesar de haver certas suposies bsicas associadas maioria das provas no paramtricas, essas suposies so em menor nmero e mais fracas do que as associadas s provas paramtricas. Servem para pequenas amostras e, alm disso, a maior parte das provas no paramtricas aplicam-se a dados medidos em escala ordinal, e alguns mesmo a dados em escala nominal.

De entre uma vasta gama de testes no paramtricos disponveis, foram seleccionados para anlise neste captulo apenas alguns testes de utilizao frequente ou que complementam, de alguma forma, os testes paramtricos discutidos anteriormente.

2. Testes de Ajustamento
Os testes de ajustamento, tambm designados por testes da bondade do ajustamento, servem para testar a hiptese de que uma determinada amostra aleatria tenha sido extrada de uma populao com distribuio especificada. Isto , sendo X1, X2, ..., Xn uma amostra aleatria de uma populao X com funo (densidade) de probabilidade f desconhecida, as hipteses a testar so: H0: X tem funo (densidade) de probabilidade f0 H1: X no tem funo (densidade) de probabilidade f0 ou, de modo mais simples, H0: f(x)=f0(x) H1: f(x)f0(x), com f0 a funo (densidade) de probabilidade proposta. Exemplo 1: A procura diria de um certo produto foi, em 40 dias escolhidos ao acaso, a seguinte: Nmero de Nmero de unidades dias
0 1 2 3 4 5 6 14 10 7 2 1

Tabela I: Procura diria de um produto registada em 40 dias. Ser que tais observaes foram extradas de uma populao com distribuio Poisson, isto , ser de admitir que tal procura segue uma distribuio de Poisson?

Exemplo 2: Pretende-se construir um modelo de simulao das operaes de um determinado terminal de um porto situado na Europa. Uma das variveis a considerar no 2

modelo a diferena entre a data de chegada dos navios provenientes dos EU e a respectiva data planeada. Dado que tal diferena influenciada por muitos factores, pode tomar-se como uma varivel aleatria. H razes para supor que tem distribuio Normal de mdia 0.1 e desvio padro 7.2. Uma amostra de 30 navios revelou os resultados que se apresentam na tabela seguinte.

-6.6 -7.4 8.2

-2 12.4 -9

5 -6 13.2

2.4 -5.8 7.6

-1.8 15.2 -2.8

-0.3 -2.4 -1.8

15 -8.9 1.8

-7.6 -5.6 4.4

-0.6 -3.7 2.2

2.6 2.2 4

Tabela II: Diferena entre a data de chegada e a data planeada para 30 navios.

Ser mesmo de admitir que tais dados foram extrados de uma populao N(0.1, 7.22)?

Tanto no primeiro como no segundo exemplo, estamos perante um problema de ajustamento de dados a uma determinada distribuio. Existem vrios testes de ajustamento que nos permitem fazer uma anlise de problemas deste tipo, entre os quais: o teste de ajustamento do Qui-quadrado sugerido por Karl Pearson, o teste de Kolmogorov ou Kolmogorov-Smirnov e o teste de normalidade de Lilliefors, que apresentamos a seguir.

2.1 Teste do Qui-quadrado O teste de ajustamento do Qui-quadrado um teste de fcil construo e baseia-se na comparao da distribuio dos dados da amostra (frequncias observadas) com a distribuio terica qual se supe pertencer a amostra. Considere-se uma amostra aleatria de n elementos, extrada de uma populao com distribuio desconhecida, sobre os quais se observa uma caracterstica (qualitativa ou quantitativa). Os valores possveis da caracterstica em estudo so, num primeiro passo, repartidas por m classes mutuamente exclusivas, A1, A2, ... , Am (sero intervalos da recta real se a caracterstica quantitativa e contnua). Denote-se por: - Oi o n de observaes ou frequncia absoluta observada da classe Ai; 3

- pi a probabilidade desconhecida de obter uma observao na classe Ai; - p0i a probabilidade de obter uma observao na classe Ai assumindo que a observao foi extrada de uma populao com a distribuio especificada em H0, i.e p0i =P(Ai\H0). Ento, o problema que se pe o de testar as hipteses: H0: pi=p0i , i=1,...,m H1: pip0i para algum i. Assim, a frequncia esperada da classe Ai, quando H0 verdadeira, dada por ei =np0i. A estatstica de teste, do teste de ajustamento do Qui-quadrado, dada por

Q=
i =1

(Oi ei )2
ei

que, sendo verdadeira a hiptese nula, tem distribuio assimpttica do Qui-quadrado com mk-1 graus de liberdade (2m-k-1), onde k o nmero de parmetros desconhecidos da

distribuio proposta em H0, estimados a partir da amostra. Se a funo (densidade) de probabilidade proposta em H0 estiver completamente especificada, i.e., se no h parmetros desconhecidos, ento Q 2m-1.

Notemos que, se a hiptese nula for de facto verdadeira, a diferena entre cada valor observado e o respectivo valor esperado, Oi ei, no deve ser muito grande, e consequentemente a estatstica teste ter um valor observado, Qobs, tambm no muito grande. De modo intuitivo, quanto maior for o valor observado de Q, menos plausvel a hiptese nula, isto , mais nos encaminhamos de concluir que as frequncias observadas no foram provenientes da populao em que se baseou a hiptese nula, levando rejeio desta. Tratase portanto de um teste unilateral direita. Assim, para um nvel de significncia , a hiptese nula rejeitada se Qobs 21-, com 21- o quantil de probabilidade 1- da distribuio 2m-k-1.

Na aplicao deste teste deve-se ter particular ateno s frequncias esperadas, eis, pois se estas forem muito pequenas a aproximao ao Qui-quadrado no a mais apropriada. So referidas na literatura vrias regras prticas de aplicao do teste, das quais avanamos a seguinte. Se tivermos: ou, mais de uma classe com ei inferior a 1, mais de 20% das classes com ei inferior a 5

devemos proceder agregao de algumas classes contguas, e iniciar novamente o teste, agora com menos classes. Recorremos aos exemplos apresentados anteriormente para demostrar a metodologia do teste descrito, neste caso com uma distribuio discreta em H0 no Exemplo 1 e uma distribuio contnua no Exemplo 2. No primeiro problema pretende-se verificar se as observaes seleccionadas pertencem a uma populao com distribuio de Poisson. Representando por X a procura diria do produto e por f a funo de probabilidade de X, as hipteses a testar so H0: f(x) = f0(x) = e- H1: f(x) f0(x). Notemos, no entanto, que nada dito acerca do parmetro/mdia da Poisson, , sendo assim necessria a sua estimao a partir dos dados da amostra. Uma estimativa para dada pela mdia amostral x = (06 + 114 + 210 + 37 + 42 +51)/40 = 1.7. x , x = 0,1,2,... e >0 x!

Os dados so inicialmente classificados em 7 classes, da forma apresentada na tabela III, e as probabilidades associadas a cada uma das classes, supondo H0 verdadeira, so facilmente calculadas. Por exemplo:

p01= P(A1\H0) = P(X{0}\H0) = f0(0) = e-1.7

1.70 = 0.1827; 0! 1.71 = 0.3106; 1!

p02= P(A2\H0) = P(X{1}\H0) = f0(1) = e-1.7

p03= e-1.7

1.7 2 =0.2639; 2!

Relembrando ainda que as frequncias esperadas so calculadas a partir de ei =40p0i, podemos construir uma tabela como a seguinte :

Classes

Frequncias observadas 6 14 10 7 2 1 0

p0i = P(Ai\H0)
0.1827 0.3106 0.2639 0.1496 0.0636

Frequncias esperadas 7.308 12.424 10.556 5.984 2.544 0.0932 0.864 0.32

A1={0} A2={1} A3={2} A4={3} A5={4} A6={5} A7={6,7,...}

0.0216 0.008

3.728

Tabela III: Frequncias observadas e esperadas.

De acordo com as regras atrs mencionadas as classes A5={4}, A6={5} e A7={6,7,...} foram agrupadas numa s, {4,5,6,7...}, ficando ento os dados agrupados em m = 5 classes. Alm disso, uma vez que estimmos um parmetro (), a estatstica teste Q, sob a hiptese H0, tem aproximadamente distribuio Qui-quadrado com m-k-1 = 5-1-1=3 graus de liberdade.
2 Ao nvel de significncia de 0.05, o quantil de probabilidade 1-0.05 da distribuio 3

7.81, e logo a regio crtica [7.81, +[. 6

Recorrendo 2 e 4 coluna da tabela III, podemos finalmente calcular o valor observado da estatstica de teste: (6 7.308) 2 (14 12.424) 2 (10 10.556) 2 (7 5.984) 2 (3 3.728) 2 + + + + =0.778 . 7.308 12.424 10.556 5.984 3.728

Qobs=

Ento, a hiptese H0 no rejeitada ao nvel de significncia de 0.05, isto , no podemos rejeitar a hiptese de aquelas observaes provirem de uma populao com distribuio Poisson.

Em relao ao Exemplo 2, denotando por X a diferena entre a data de chegada dos navios e a data planeada, as hipteses a testar so H0: X~N(0.1, 7.22) H1: X N(0.1, 7.22). semelhana do exemplo anterior, a varivel em estudo quantitativa sendo ento necessrio a agregao dos dados em classes. Notemos, no entanto, que neste caso a distribuio proposta em H0 contnua e, deste modo, as classes Ai, i=1,...m, so intervalos da forma A1=]-, a1[, A2=[ a1, a2[ A3=[ a2, a3[ ... Am=[ am-1, +[. Para a determinao das classes, mais precisamente dos limites dos intervalos de classe sugerida a regra de Mann e Wald:
Fixado o nmero de classes, m, com m tal que n/m>5 para que no seja necessrio a agregao de classes, definem-se os limites de modo a que as probabilidades decorrentes da hiptese nula sejam iguais a 1/m para todas as classes, isto , de modo a que as frequncias esperadas sejam todas iguais a n/m.

Para o exemplo escolheu-se m=4 classes, donde p0i = P(Ai\H0) = P(XAi\ X~N(0.1, 7.22)) = 1/4, para i=1,2,3,4. Note-se que deste modo as frequncias esperadas ei=301/4=7.5>5, para i=1,...,4. Clculo dos limites dos intervalos de classe:

a1: p01 = P(XA1\X~N(0.1, 7.22)) = 0.25 P(X<a1\ X~N(0.1, 7.22)) =0.25


P(Z<

a1 0.1 )=0.25 a1=-4.724; 7.2

Da simetria da distribuio normal (ver grfico), a2=0.1 e a3= 0.1 + 0.1 (-4.724) = 4.924.

a1

a2 =0.1 a3

Classes

Frequncias observadas 8 8 7 7

p0i
0.25 0.25 0.25 0.25

Frequncias esperadas 7.5 7.5 7.5 7.5

A1=]-, -4.724[ A2=[-4.724,0.1[ A3=[0.1, 4.924[ A4=[4.924, + [

Tabela IV: Frequncias observadas e esperadas.

O valor observado da estatstica de teste Qobs= (8 7.5) 2 (8 7.5) 2 (7 7.5) 2 (7 7.5) 2 + + + = 0.1. 7.5 7.5 7.5 7.5

A estatstica teste, sob o pressuposto de H0 ser verdadeira, tem aproximadamente distribuio Qui-quadrado com m-1=4-1=3 graus de liberdade.
2 Ao nvel de significncia de 0.05, o quantil de probabilidade 1-0.05 da distribuio 3

igual a 7.81. Ento, como Qobs no pertence regio crtica, somos levados a no rejeitar a

hiptese de que a diferena entre os tempos de chegada e os tempos planeados tem distribuio N(0.1, 7.22).

2.2 Teste de Kolmogorov-Smirnov

O teste de Kolmogorov-Smirnov, abreviadamente K-S, ao contrrio do teste do Quiquadrado, no se aplica a dados qualitativos nem a variveis discretas, pois a tabela disponvel para este teste s exacta caso a distribuio em teste seja contnua. No entanto, tem a vantagem de no estar dependente de classificaes dos dados, que alm de serem sempre algo arbitrrias envolvem perdas de informao. De facto, no ajustamento de uma distribuio contnua a uma amostra usando o teste do Qui-quadrado, temos de proceder agregao dos dados em classes, sendo por isso mais adequado utilizar o teste K-S. Por outro lado, o teste K-S s pode ser aplicado quando a distribuio indicada na hiptese nula est completamente especificada (o que no sucede com o teste do Quiquadrado). No caso de pretendermos, por exemplo, efectuar um ajustamento de uma distribuio normal, sem especificar e , podemos recorrer a outro teste, neste caso o teste desenvolvido por Lilliefors (teste de normalidade de Lilliefors) que ser abordado mais tarde. Alm disso, o teste do Qui-Quadrado est orientado essencialmente para grandes amostras, enquanto que o teste K-S aplicvel a pequenas amostras.

Definem-se de seguida funo de distribuio da amostra e funo de distribuio emprica, conceitos estes fundamentais para o desenvolvimento do teste de K-S.

Funo de distribuio emprica e funo de distribuio da amostra

Seja (X1, X2,...,Xn) uma amostra aleatria de uma certa populao X e (x1, x2,...,xn) uma sua realizao. A funo de distribuio emprica definida por
1 Fn ( x ) = #{xi: xix}, -< x <+, n onde #{xi: xix} o nmero de valores xi que so inferiores ou iguais a x.

A funo de distribuio da amostra definida, para as variveis aleatrias (X1, X2,...,Xn), por Fn ( x ) = 1 #{Xi: Xix}, -< x <+. n

Convm fazer aqui uma clara distino entre funo de distribuio emprica Fn , definida para uma particular realizao (x1, x2,...,xn), e funo de distribuio da amostra Fn, definida para as variveis aleatrias (X1, X2,...,Xn). Note-se que Fn ( x ) uma funo de distribuio do tipo discreto associado a uma particular amostra, enquanto que Fn ( x ) , para cada -< x <+ fixo, uma varivel aleatria, funo de (X1, X2,...,Xn), ou seja, uma estatstica. Vejamos como construir uma funo de distribuio emprica associada a uma determinada amostra. Consideremos, por exemplo, a amostra constituda pelas observaes:
5, 7, 8, 8, 10 e 11. A funo de distribuio emprica F6 , associada a esta amostra, dada por

0 1 / 6 2 / 6 F6 (x) = 4 / 6 5 / 6 1

se se se se se se

x<5 5x<7 7x<8 . 8 x < 10 10 x < 11 x 11

A representao grfica de F6 , em forma de escada, apresentada a seguir: F6

x
Grfico I: Representao grfica da f.d. emprica.

Note-se que a funo Fn descontnua esquerda em cada valor xi.

10

Para uma varivel aleatria X, o teste K-S baseia-se na anlise do ajustamento entre a funo de distribuio populacional admitida em H0, F0, e a funo de distribuio emprica Fn . Assim, sendo F a funo de distribuio (desconhecida) da populao, as hipteses a testar sero: H0: F(x)=F0(x), -<x<+ H1: F(x)F0(x), onde F0 a funo de distribuio proposta, contnua e completamente especificada. No teste de Kolmogorov-Smirnov considera-se a estatstica
D n = sup Fn ( x ) F0 ( x ) ,
< x < +

como uma medida da discrepncia entre a funo de distribuio da amostra Fn e a funo de distribuio proposta F0. Observe-se que Dn representa a distncia vertical mxima entre as imagens da funo de distribuio da amostra, Fn(x), e da funo de distribuio proposta F0(x), dando assim uma ideia do ajustamento, como alis se pretendia. Ao substituir em Dn a funo de distribuio da amostra Fn pela funo de distribuio emprica Fn , obtm-se o valor observado da estatstica teste: d n = sup Fn ( x ) F0 ( x ) .
< x < +

Uma vez que F0 uma funo (contnua) crescente e Fn uma funo em escada (ver grfico II), o supremo dn ocorre num ponto onde se verifica um salto de Fn (numa observao xi) ou imediatamente antes desse ponto. Isto ,
i =1,..., n

d n = max F0 ( x i ) Fn ( x i ) , F0 ( x i ) Fn ( x i ) .

F0(x)
< x < +

sup Fn ( x ) F0 ( x )

Fn ( x )

Grfico II: Ajustamento de uma f.d hipottica F0 f.d. emprica Fn . 11

Assim, se H0 for verdadeira, a distncia vertical mxima entre as imagens das duas distribuies no deve de ser muito grande, e logo espera-se que Dn tome um valor pequeno. Conhecendo a distribuio de Dn possvel avaliar o seu valor observado dn, e decidir se este suficientemente pequeno para que no se rejeite H0 a um dado nvel de significncia . Mais concretamente, rejeita-se H0, para um nvel de significncia , se o valor observado dn da estatstica teste Dn for superior ou igual ao ponto crtico Dn, onde Dn, tal que, P(DnDn,\ H0 verdadeira)= . Os valores crticos Dn, podem ser consultados na Tabela 7 (em anexo).

Exemplo 3: Um certo Politcnico do pas efectuou um contrato com uma determinada empresa que ficou responsvel pelo abastecimento da carne que compunha as refeies na cantina dessa Escola. O contrato refere uma mdia de 290 gramas de carne por refeio, por estudante. No entanto, alguns alunos queixaram-se acerca da comida, em particular acerca da quantidade de carne servida por refeio. Os alunos falaram com o cozinheiro chefe, que lhes disse que a quantidade de carne servida por refeio a cada estudante tinha aproximadamente distribuio normal de mdia 290 gr com um desvio padro de 56 gr. Aps esta conversa com o cozinheiro, alguns alunos concordaram em recolher as suas refeies ao longo de vrios dias, resultando assim uma amostra de 10 refeies, que foram levadas para um laboratrio afim de serem pesados os pedaos de carne nelas contidos. Os dados obtidos so os seguintes: 198 254 262 272 275 278 285 287 287 292 Ao nvel de significncia de 5%, h evidncia para rejeitar a hiptese de que o cozinheiro seguia as regras que afirmou em relao quantidade de carne servida? Denote-se por X a quantidade, em gramas, de carne servida por refeio a cada estudante. As hipteses a testar so, neste caso, H0: XN(290, 562) H1: X N(290, 562).

Note-se que a funo de distribuio proposta em H0, F0, a funo de distribuio normal com mdia 290 gr e desvio padro 56. Assim, sendo uma distribuio contnua completamente especificada, podemos usar o teste de K-S. 12

A estatstica de teste D10= sup |F10(x)-F0(x)| .


x

O ponto crtico da estatstica de teste D10 , para =0.05, D10,0.05= 0.409 (Tabela 7).

A funo de distribuio emprica definida para a amostra dada foi calculada do modo descrito anteriormente, e indicada na Tabela V. Falta calcular as imagens das observaes pela funo distribuio F0. Indicam-se apenas os clculos para as duas primeiras observaes; os restantes encontram-se na respectiva coluna da tabela V. F0(198) = P(X198) = P(Z F0(254) = P(X254) = P(Z 198 290 ) = P(Z-1.64) = 1-0.9495 = 0.0505; 56 254 290 ) = P(Z-0.64) = 1-0.7389 = 0.2611 56

xi 198 254 262 272 275 278 285 287 292

F10 ( x i ) F10 ( x i ) z = x i 290 i 56 0,1 0 -1,64 0,2 0,1 -0,64 0,3 0,2 -0,5 0,4 0,3 -0,32 0,5 0,4 -0,27 0,6 0,5 -0,21 0,7 0,6 -0,09 0,9 0,7 -0,05 1 0,9 0,04

F0(zi) 0,0505 0,2611 0,3085 0,3745 0,3936 0,4168 0,4641 0,4801 0,516

|F0(xi)- F10 ( x i ) | |F0(xi)- F10 ( x i ) |

0,0495 0,0611 0,0085 0,0255 0,1064 0,1832 0,2359 0,4199 0,484

0,0505 0,1611 0,1085 0,0745 0,0064 0,0832 0,1359 0,2199 0,384

Tabela V: Clculo do valor observado da estatstica D10.

Observamos, atravs das duas ltimas colunas da tabela, que o valor observado da estatstica teste d10 igual a 0.484. Assim, como d10>0.409, ao nvel de significncia de 5%, rejeitamos a hiptese de a quantidade de carne servida por refeio a cada estudante seguir distribuio N(290, 562).

13

2.3 Teste de Normalidade Lilliefors

Sejam X1, X2,...,Xn uma amostra aleatria de uma populao X com distribuio F desconhecida. Pretende-se testar se X tem distribuio N(, 2) sem especificar e , isto , para algum e algum . As hipteses a testar so H0: X ~ N(, 2) H1: X

~ N(, ). /
2

Foi dito anteriormente que a aplicao do teste de Kolmogorov-Smirnov carece da especificao completa da funo de distribuio proposta em H0, o que no sucede no problema. proposto ento o teste de normalida de Lilliefors. Este teste processa-se como o teste de Kolmogorov-Smirnov, mas os dados originais so estandardizados, usando estimativas de e : Zi = Xi X (i=1,..n). S

Assim, as hipteses a testar so: H0: Z ~ N(0, 1) H1: Z

~ N(0, 1). /
< z < +

Sendo F0 a funo de distribuio N(0,1), a estatstica teste de Lilliefors


D* = sup Fn (z) F0 (z) , n

onde Fn a funo de distribuio da amostra depois de estandardizada, i.e., definida para as variveis aleatrias Z1, Z2,...,Zn. Mais uma vez, o valor observado da estatstica teste D* , d* , obtido substituindo na n n estatstica a funo distribuio da amostra estandardizada pela funo distribuio emprica. A hiptese H0 rejeitada, para um nvel de significncia , se o valor observado d* for n superior ou igual ao ponto crtico D* , , com Dn, tal que, n P( D* D* , \ H0 verdadeira)= . n n Os pontos crticos so consultados na tabela elaborada por Lilliefors (Tabela 8).

14

Exemplo 4: Um distribuidor pretende estimar o tempo mdio de entrega dos seus produtos a um cliente bastante importante. Foi recolhida uma amostra aleatria de cinco tempos: 29, 33, 35, 36 e 36. O senhor quer estimar o tempo mdio pretendido atravs de um intervalo de confiana, mas no sabe nada acerca da distribuio do tempo de entrega X, e alm disso, a dimenso da amostra muito pequena (n=5). Poder faz-lo? Sabemos que caso X tenha distribuio normal o intervalo pode ser calculado usando a estatstica T= X tn-1. S

Assim, interessa testar, em primeiro lugar, as hipteses H0: X ~ N(, 2) H1: X

~ N(, ). /
2

Uma vez que nada sabemos acerca de e , podemos utilizar o teste de Lilliefors, recorrendo s estimativas x =33.8 s=2.95 . O valor crtico da estatstica teste, ao nvel de significncia de 0.05 D* , 0.05 =0.337, e 5 assim a distribuio normal rejeitada se d* 0.337. 5 O calculo do valor observado d* apresentado, de forma sucinta, na tabela seguinte. 5 xi 29 33 35 36 z i= x i 33.8 2.95 -1,63 -0,27 0,41 0,75
F5 (z i ) F5 (z i )

F0(zi) 0,0516 0,3936 0,6591 0,7734

|F0(zi)- F5 ( zi ) | |F0(zi)- F5 (z i ) |

0,2 0,4 0,6 1

0 0,2 0,4 0,6

0,1484 0,0064 0,0591 0,2266

0,0516 0,1936 0,2591 0,1734

Tabela VI: Clculo do valor observado da estatstica D5.

Observamos que d* =0.2591<0.337, e logo, ao nvel se significncia de 5%, no 5 rejeitamos a hiptese de a populao em estudo ter distribuio normal. O clculo do intervalo de confiana pretendido fica como exerccio.

15

3. Tabelas de Contingncia

3.1 Teste do Qui-quadrado de Independncia

Suponha que numa amostra aleatria de tamanho n de uma dada populao so observados dois atributos ou caractersticas A e B (qualitativas ou quantitativas), uma com r e outra com s modalidades ou categorias, respectivamente A1, A2,..., Ar e B1, B2,..., Bc. Cada indivduo da amostra classificado numa e numa s categoria (ou classe) de A e numa e numa s categoria (ou classe) de B. A classificao dos elementos da amostra d origem a uma tabela de dupla entrada, designada por tabela de contingncia rc, com o seguinte aspecto: B1 A1 A2 O11 O21 B2 O12 O22 ... ... ... Bc O1c O2c

Ar

Or1

Or2

...

Orc

Tabela I: Tabela de contingncia rc.

Nesta tabela cada Oij (i=1,...,r e j=1,...,c) uma varivel aleatria que representa na amostra o nmero de elementos classificados simultaneamente nas categorias Ai de A e Bj de B. Alm disso, temos as variveis aleatrias:

Oi = Oij (i=1,...,r) que representa o nmero de elementos na amostra com


j =1 c

modalidade Ai;

O j = O ij (j=1,...,c) que representa o nmero de elementos na amostra com


i =1 r

modalidade Bj.

16

Tem-se,
n = Oij = Oi = O j ,
i =1 j =1 i =1 j =1 r c r c

onde n a dimenso da amostra que se supe fixa.

O objectivo a que nos propomos o de tentar inferir sobre a existncia ou no de qualquer relao ou associao entre os atributos (variveis) A e B, mais concretamente, inferir se A e B so ou no independentes. Pretende-se assim testar as hipteses H0: A e B so independentes H1: A e B no so independentes. Denote-se por: pij=P(AiBj) (i=1,..,r e j=1,...,c) a probabilidade (desconhecida) de um indivduo da populao ser classificado simultaneamente nas categorias Ai de A e Bj de B; p i = P(A i ) (i=1,...,r) a probabilidade (desconhecida) de um indivduo da populao ser classificado na categoria Ai de A; p j = P(B j ) (j=1,...,c) a probabilidade (desconhecida) de um indivduo da populao ser classificado na categoria Bj de B. Tem-se,
1 = p ij = p i = p j .
i =1 j=1 i =1 j=1 r s r s

Ora, se os atributos so independentes, verifica-se a conhecida relao, P( A i B j ) = P(A i ) P( B j ) , isto , pij= p i p j Assim, as hipteses anteriores podem ser formuladas do seguinte modo: H0: pij= p i p j (para todo i e j) H1: pij p i p j .(para algum ij).

17

Uma vez que no se conhecem os verdadeiros valores das probabilidades envolvidas, estas tero que ser estimadas, a partir dos dados amostrais, por p i = o i n e pj = oj n ,

onde o i e o j so os valores observados das variveis aleatrias O i e O j , respectivamente, para uma amostra concreta.

Seja ainda eij=n pij o nmero esperado de indivduos na classe Ai de A e Bj de B. Ento, quando H0 verdadeira, i.e, pij= p i p j , teremos eij=n pij=n p i p j , valor este que pode ser estimado por e ij = np i p j . semelhana do teste de ajustamento do Qui-quadrado, a estatstica do teste de independncia
(Oij eij ) 2 , = eij i =1 j =1
r c 2

que, sob o pressuposto de H0 ser verdadeira, tem distribuio assinttica do Qui-quadrado com (r-1)(c-1) graus de liberdade. Vimos que quando H0 verdadeira eij pode ser estimado por eij = npi p j , e logo a diferena entre oij (frequncia observada) e e ij (estimativa da frequncia esperada supondo a independncia) no deve ser grande. Assim, a estatstica teste, tal como est definida, mede o afastamento dos dados em relao hiptese de independncia: valores pequenos da estatstica teste so compatveis com a hiptese nula, enquanto que valores muito grandes traduzem um maior afastamento dos dados em relao hiptese nula, conduzindo rejeio desta. Trata-se ento de um teste unilateral direita

18

Exemplo 1: Um supermercado quer testar ao nvel de significncia de 5% a hiptese de que o modo de pagamento dos clientes nesse estabelecimento independente do perodo do dia em que fazem as compras. Existem trs modos de efectuar os pagamentos: por cheque, dinheiro e carto de crdito. A seguinte tabela de contingncia 33 apresenta os resultados obtidos numa amostra de 4000 clientes:
PERODO DO DIA MODO DE PAGAMENTO

Manh

Tarde

Noite

Cheque
Dinheiro Carto de Crdito

750 125 125


Tabela II

1500 300 200

750 75 175

Denotando por A o atributo Modo de pagamento e por B o atributo Perodo do dia em

que faz as compras, as hipteses as testar so


H0: A e B so independentes H0: A e B no so independentes. Uma vez que A e B assumem cada uma 3 modalidades, respectivamente (cheque, dinheiro, carto de crdito) e (manh, tarde, noite), sob H0, a estatstica teste tem distribuio assinttica do Qui-quadrado com (r-1)(c-1)=(3-1)(3-1)= 4 graus de liberdade. Ao nvel de significncia de 0.05, a regio crtica ento [9.49, +[.

Como vimos, para obtermos o valor observado da estatstica teste, temos de calcular as frequncias esperadas. Estas calculam-se de modo muito simples: eij = npip j =n coluna, em n. Assim, por exemplo,
e11 =(30001000)/4000=750, e12 =(30002000)/4000=1500 e e13 =(30001000)/4000=750.

oi o j oi.o. j = : produto dos totais da i-sima linha pelos totais da j-sima n n n

19

PERODO DO DIA MODO DE PAGAMENTO

Manh 750

Tarde 1500 250 250 2000

Noite 750 125 125 1000

Totais

Cheque

3000 500 500 4000

Dinheiro Carto de Crdito


Totais

125 125 1000

Tabela III: Frequncias esperadas.

Finalmente, o valor observado da estatstica teste pode ser calculado, combinando os dados das tabelas anteriores. Tem-se, 2obs = (750 750) 2 (1500 1500) 2 (125 125) 2 (200 250) 2 (175 125) 2 + +...+ + + =60. 750 1500 125 250 125

Uma vez que 60 excede o valor crtico 9.49, ao nvel de significncia de 0.05, rejeitamos a hiptese de que o modo de pagamento independente do perodo do dia em que as compras so feitas.

3.1.1 Medidas de Associao

No teste do Qui-Quadrado apresentado, se for rejeitada a hiptese de independncia entre os atributos, pode interessar medir a intensidade da associao entre os mesmos, atravs de uma medida adequada. Uma vez que a estatstica do teste mede o afastamento em relao hiptese de independncia, o seu valor observado tambm poder servir para avaliar a fora da relao entre os atributos. No entanto, houve necessidade de introduzir algumas modificaes, devido
2 a diversas razes, por exemplo o facto do no tomar valores apenas no intervalo [0,1], o

que salutar numa medida de associao. O facto de ter havido j vrios autores a dedicarem-se ao estudo de tais medidas faz com que o nmero de coeficientes propostos seja considervel. Vamos apenas referir alguns desses coeficientes.

20

Coeficiente de Contingncia de Pearson:


C= 2 . 2 + n

Este coeficiente varia entre 0 e

(q 1) q onde q=min{r,s} e portanto nunca assume o

valor 1. Valores pequenos de C indicam fraca associao entre os atributos, enquanto que valores grandes de C indicam forte associao.

O facto deste coeficiente no assumir o valor 1 no caso de associao completa uma sua limitao. Para obviar este problema, Tshuprow props o seguinte coeficiente.

Coeficiente de Tshuprow:

T=

2
n (r 1) (c 1)

Este coeficiente varia entre 0 e 1, tomando o valor 0 no caso de existir independncia e o valor 1 quando r=c e houver associao completa.

Por ltimo, referimos o coeficiente proposto por Cramer que atinge o valor 1 quando h associao completa.

Coeficiente V de Cramer:
V=
2 , com q=min{r,s} n (q 1)

0V1.

Para o exemplo anterior, rejeitamos a hiptese de independncia entre o modo de pagamento e o perodo do dia em que as compras eram efectuadas. Para ter uma ideia da intensidade de associao entre estes dois atributos, calcula-se, por exemplo, o coeficiente V de Cramer. Assim, tem-se V=
60 =0.087. 4000 2

Verificamos, segundo o coeficiente V que, apesar de haver associao entre os atributos, esta pode considerar-se fraca.

21

3.2 Teste de Homogeneidade

Suponha que so recolhidas amostras aleatrias de c populaes (subpopulaes ou estratos) B1, B2,..., Bc , nas quais se observa um atributo A com r categorias A1, A2,..., Ar. Neste contexto, surge tambm uma tabela de contingncia rc da forma apresentada na tabela I, mas com leitura diferente. Assim, cada Oij (i=1,...,r e j=1,...,c) uma varivel aleatria que representa o nmero de elementos classificados na categorias Ai de A, na amostra da populao Bj.
Oi = Oij (i=1,...,r) uma varivel aleatria que representa o nmero de elementos na
j =1 c

categoria Ai de A em todas as amostras.

O j = Oij (j=1,...,s) uma constante prefixada (e no uma varivel aleatria como


i =1

acontece no teste de independncia), pois o tamanho da amostra recolhida na populao Bj. Neste caso, cada Bj (j=1,...,c) rotula uma subpopulao cujos elementos se distribuem pelas r modalidades do atributo A, e o que se pretende saber se existe homogeneidade, isto , se no h diferena entre as populaes no modo como os seus elementos se distribuem pelas modalidades do atributo A.

Suponhamos, por exemplo, que dispomos dos resultados de vacinao contra a clera num conjunto de 279 indivduos escolhidos aleatoriamente entre os vacinados, e num conjunto de 539 indivduos escolhidos aleatoriamente entre os no vacinados:

Vacinados Atacados No Atacados

No Vacinados

3 276

66 473

Totais

279

539

Isto corresponde a ter duas amostras, uma em cada coluna da tabela, obtidas de modo independente e de dimenses, respectivamente o 1 =279 e o 2 =539.

22

A hiptese a testar a de homogeneidade entre as amostras: H0: os atacados e no atacados distribuem-se de forma idntica (homognea) nos vacinados e no vacinados H1: os atacados e no atacados distribuem-se de modo diferente nos vacinados e no vacinados. As propores de atacados e no atacados so dadas, respectivamente, por
o1. 69 = =0.084 n 818

o 2. 749 = =0.916 . n 818

Assim, sob o pressuposto de H0 ser verdadeira, em cada um dos grupos dos vacinados e no vacinados, deviam ser atacados (no atacados) uma proporo de indivduos igual a 0.084 (0.916), isto :

nos vacinados espera-se que sejam: atacados


e11 = o .1 o1. =2790.084=23.44 n

indivduos

e no atacados e 21 = o .1

o 2. =2790.916=255.56; n

nos no vacinados espera-se que sejam atacados


e12 = o .2 o1. =5390.084=45.276 n

indivduos

e no atacados

e 22 = o .2

o 2. =5390.916=493.724. n

O quadro seguinte apresenta as frequncias esperadas sob o pressuposto de homogeneidade:

Vacinados Atacados No Atacados 23.44 255.56

No Vacinados 45.276 493.724

Totais

279

539

23

semelhana do teste de independncia, a estatstica do teste


(Oij eij ) 2 , = eij i =1 j =1
r c
2

que, sob o pressuposto de H0 ser verdadeira, tem distribuio assinttica do Qui-Quadrado com (r-1)(c-1) graus de liberdade. As frequncias observadas Oij e as estimativas das frequncias esperadas e ij calculadas sob o pressuposto de H0 ser verdadeira, devem diferir pouco se H0 for de facto verdadeira. Assim, valores muito grandes da estatstica teste traduzem um grande afastamento dos dados em relao hiptese nula, conduzindo rejeio desta. Mais uma vez, a estatstica teste mede o afastamento dos dados em relao hiptese de homogeneidade. Calculo do valor observado da estatstica teste:

(3 23.44)2 + (66 45.276)2 + (276 255.56)2 + (473 493.724)2 =29.8 =


23.44 45.276 255.56 493.724

2 O quantil de probabilidade 0.995 da distribuio 1 7.88 .

Como o valor observado da estatstica teste 29.8 > 7.88 ento, para um nvel de significncia 0.005, rejeita-se a hiptese de homogeneidade entre as duas amostras, isto , a populao dos vacinados difere da dos no vacinados no que se refere ao facto de terem ou no sido atacados.

24

Você também pode gostar