Escolar Documentos
Profissional Documentos
Cultura Documentos
=
=
k
i
i
n n
1
(tamanho da amostra).
(iv) Determina-se a frequncia das observaes que se esperaria obter em cada classe i se a
hiptese nula fosse verdadeira, isto , se os dados fossem provenientes de uma
determinada distribuio terica conhecida. Tais frequncias esperadas, que se denotam
por
ei
n , so dadas por
i ei
np n = , onde
i
p representa a probabilidade de, sendo
0
H
verdadeira, a varivel aleatria tomar valores pertencentes classe i e n o tamanho da
amostra. Note-se que, tal como as frequncias observadas, tambm as frequncias
esperadas satisfazem a condio,
=
=
k
i
ei
n n
1
.
(v) A estatstica de teste construda com base numa medida global de ajustamento entre
as frequncias observadas na amostra,
i
n , e as frequncias esperadas,
ei
n . Essa medida
dada por
=
k
i ei
ei i
obs
n
n n
1
2
2
.
) (
.
Se
0
H for verdadeira, devem registar-se pequenas diferenas entre as frequncias
observadas e as frequncias esperadas e, consequentemente,
2
. obs
deve tomar valores
baixos. Pelo contrrio, um valor de
2
. obs
elevado constitui um indcio de que h um
desajuste entre a distribuio de frequncias amostrais e tericas. Pode demonstrar-se
que, quando
0
H for verdadeira e a dimenso da amostra grande, a estatstica
2
. obs
segue uma distribuio [ ] gl
2
, com [ ] p k gl = ) 1 ( graus de liberdade, onde k
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 69
representa o nmero de classes e p o nmero de parmetros da distribuio populacional
estimados a partir da amostra.
(vi) Uma vez fixado o nvel de significncia , a rejeio ou no rejeio de
0
H ser feita
com base na comparao entre o valor que a estatstica de teste toma e [ ] 1
2
p k
.
Dada a natureza da estatstica
2
. obs
tomando valores prximos de zero, se
0
H for
verdadeira, e valores tanto mais positivos quanto mais
0
H se afastar de
1
H o teste ser
unilateral direita e, consequentemente, o valor crtico, [ ] 1
2
p k
, dever ser
procurado na cauda direita da distribuio qui-quadrado
16
.
Sendo
0
H verdadeira, a estatstica
2
. obs
ter uma distribuio tanto mais prxima da
distribuio [ ] 1
2
p k
| |
|
\
= , com , e 0 x IR IR > , onde e so os parmetros da distribuio
normal.
16
possvel, atravs da funo distribuio
2
, obter o valor da prova (p-value) com 1 p k graus de liberdade da
estatstica de teste
2
. obs
. No Excel, usar a funo =DIST.CHI(x, (k 1) p).
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 70
x y
y
i i i
e y y =
1 0,99 90,01 89,08 0,93
2 1,02 89,05 89,53 -0,48
3 1,15 91,43 91,47 -0,04
4 1,29 93,74 93,57 0,17
5 1,46 96,73 96,11 0,62
6 1,36 94,45 94,61 -0,16
7 0,87 87,59 87,29 0,30
8 1,23 91,77 92,67 -0,90
9 1,55 99,42 97,45 1,97
10 1,40 93,65 95,21 -1,56
11 1,19 93,54 92,07 1,47
12 1,15 92,52 91,47 1,05
13 0,98 90,56 88,93 1,63
14 1,01 89,54 89,38 0,16
15 1,11 89,85 90,88 -1,03
16 1,20 90,39 92,22 -1,83
17 1,26 93,25 93,12 0,13
18 1,32 93,41 94,01 -0,60
19 1,43 94,98 95,66 -0,68
20 0,95 87,33 88,48 -1,15
Tabela 3.1 Erros obtidos do ajustamento da regresso linear aos dados da Tabela 1.1
O primeiro passo ser estimar estes dois parmetros, recorrendo mdia e desvio padro amostrais (no
caso da distribuio normal, x e s constituem estimadores no-enviesados de e ). Da distribuio
amostral dos erros resulta a mdia 0, 00 x = ( 0, 00 = ) e o desvio-padro 1, 06 s = ( 1, 06 = ) e,
consequentemente, a varincia
2
1,12 s = (
2
1,12 = ). Relembre-se que a varincia poderia ser estimada
pela
E
MQ resultante da tabela ANOVA, neste caso
2
1,18
E
MQ = = (Tabela 1.4). Nestes termos, a
hiptese nula ser
( )
2
0
: ~ 0;1, 06
i
H N , onde os dois parmetros da distribuio foram estimados a partir
da amostra, da que 2 = p .
As 20 n = observaes (dados contnuos) devero ser agrupadas em k classes. A construo das classes
relativamente arbitrria. Pode-se, contudo, apontar o seguinte procedimento, como linha de orientao: a)
5 k = , para 25 n e k n , para 25 n > ou pela Frmula de Sturges 1 3, 322log k n + ; ou b) a
amplitude das classes, h, pode ser dada por
r
h
k
= , onde r a amplitude total dos dados, isto , a diferena
entre o maior e o menor valor observados. Tal como no caso do nmero de classes, a amplitude das
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 71
classes deve ser aproximada para o maior inteiro. Neste exemplo, como 20 n = , considere-se o nmero de
classes 5 k = .
De seguida pretende-se conhecer os limites dessas classes sob
0
H . Considere-se, ento, a distribuio
( )
2
0;1, 06 N (Figura 3.1).
Figura 3.1 Grfico da distribuio normal com mdia 0 e desvio-padro 1,06.
Uma vez que
2
1
2
1
( )
2
x
f x e
| |
|
\
= uma f.d.p., sabe-se que a rea sob curva igual a 1 (soma de
todas as probabilidades, i.e. a probabilidade de X estar compreendido entre a +). Por convenincia,
vamos considerar a rea total dividida em cinco partes iguais (ou seja, n de classes = 5). Denotem-se as
abcissas que separam cada uma destas reas, e que sero os limites das classes que se pretendem
conhecer, por
1
x ,
2
x ,
3
x e
4
x .
Para o clculo de
1
x , no muito difcil entender que a rea esquerda de
1
x ser 20% da rea total que
1, ou seja, ( )
1
0, 20 P X x < = . Supondo que
1
z o valor da (0,1) N que corresponde a
1
x (de acordo
com a transformao de Gauss) tem-se (com 0, 00 = e desvio-padro 1, 06 = ) que
1 1
1 1 1
0
1, 06
1, 06
x x
z x z
= = =
Sendo
1
z o valor da (0,1) N que corresponde a
1
x ,
( ) ( )
1 1 1
( ) 0, 20 P Z z z P X x < = = = <
onde ( )
1 1
( ) z P Z z = < a funo distribuio da norma reduzida (0,1) N
17
. O nosso objectivo ser,
portanto, calcular
1
z (a abcissa correspondente rea 0,20), utilizando a funo do Excel
17
No Excel ser =DIST.NORMP(
1
z ).
0
0.1
0.2
0.3
0.4
f(x)
-4 -2 2 4
x
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 72
=INV.NORMP(0,20)
1
0, 8416 z = = , vindo,
1 1
1, 06 1, 06 ( 0, 8416) 0, 8901 x z = = = (ou ento poderia
ter recorrer-se tabela da distribuio normal reduzida)
18
. No caso do clculo de
2
x ,
3
x e
4
x , por
raciocnio anlogo ao anterior: uma vez que ( )
2
0, 40 P X x < = <=>
2
0
0, 4
1, 06
x | |
=
|
\
, ento
=INV.NORM(0,40;0;1,06) =-0,2679; ( )
3
0, 6 P X x < = obtm-se com =INV.NORM(0,60;0;1,06) =0,2679; e
para obter ( )
4
0, 8 P X x < = , vem que =INV.NORM(0,80;0;1,06) =0,8901. Podemos, ento, apresentar
numa tabela (Tabela 3.2) os dados agrupados em classes
19
.
Classes
i
n
i
p
ei i
n np =
[ [ - ; -0,89
5 0,2 4
[ [ -0,89; -0,27
3 0,2 4
[ [ -0,27; 0,27
5 0,2 4
[ [ 0,27; 0,89
2 0,2 4
[ [ 0,89; +
5 0,2 4
Total 20 1 20
Tabela 3.2 Valores observados e esperados por classes.
Como as frequncia esperadas so todas inferiores a 5 (o que viola um dos pressupostos do teste), vamos
considerar apenas 4 classes, ou seja, 4 k = . Obtm-se, por raciocnio anlogo ao anterior, a seguinte
tabela
Classes
i
n
i
p
ei i
n np =
[ [ - ; -0,71
5 0,25 5
[ [ -0,71; 0
5 0,25 5
[ [ 0; 0,71
5 0,25 5
[ [ 0,71; +
5 0,25 5
Total 20 1 20
Tabela 3.3 Valores observados e esperados por classes
18
Usando a funo =INV.NORM(prob., , ) do Excel obteramos o valor directamente para
1
x , isto ,
=INV.NORM(0,20;0;1,06) =-0,8901 (ateno ao arredondamento do desvio-padro).
19
Obviamente as probabilidades para cada classe sob
0
H , isto , se os erros seguirem uma distribuio
( )
2
0;1, 06 N
so todas iguais a 0,2, facto que tem a ver com a maneira como foram construdas as classes.
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 73
Sendo assim,
2
2
.
1
( )
0
k
i ei
obs
i
ei
n n
n
= =
,
20
Caso os dois parmetros no tivessem sido estimados a partir da amostra, ou seja a hiptese nula estaria
completamente especificada, o nmero de graus de liberdade seria 1 = k gl .
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 74
Como as frequncias esperadas (sob
0
H ) esto na proporo 9:3:3:1, ou seja, 9 3 3 1 16 + + + = , ento:
1
9 556
312, 75
16
e
n
= = sero ervilhas do tipo LA, que resulta da regra de trs simples 16 556 9 =
ei
n ;
2 3
3 556
104, 25
16
e e
n n
= = = sero ervilhas dos tipos LV e EA; e
4
1 556
34, 75
16
e
n
= = ervilhas do sero
do tipo EV. Donde a estatstica do teste ser
2 2 2 2 2
2
.
1
( ) (315 312, 75) (108 104, 25) (101 104, 25) (32 34, 75)
=0,470
312, 75 104, 25 104, 25 34, 75
k
i ei
obs
i
ei
n n
n
=
= = + + +
Como h quatro categorias, i.e. 4 k = , o nmero de graus de liberdade ser 1 4 1 3 gl k = = = .
Comparando o valor da estatstica de teste com [ ]
2
0,05
3 7,8147 = , no se rejeita a hiptese nula de que
as observaes estejam de acordo com a teoria da hereditariedade de Mendel. Repare-se que o p-
value 0, 9254 = (embora a concordncia seja boa, os resultados obtidos podero estar sujeitos a erros de
amostragem).
3.2.2 Teste de Kolmogorov-Smirnov
O Teste de Kolmogorov-Smirnov (abreviadamente K-S) de qualidade de ajuste deve o seu
nome aos matemticos russos Andrei N. Kolmogorov [1903-1987] e Nicolai V. Smirnov [n. 1900].
Podem ser apontadas duas vantagens deste teste em relao ao teste qui-quadrado, que acaba de ser
apresentado. Em primeiro lugar, quando a distribuio populacional contnua e se conhecem a
forma e os parmetros da sua funo densidade de probabilidade, a distribuio da estatstica do
teste definida rigorosamente (ao contrrio do que sucede com a estatstica
2
. obs
, cuja distribuio
aproximada). Esta vantagem tanto mais ntida quanto menor for a dimenso da amostra. Em
segundo lugar, o teste K-S , na maioria das situaes, mais potente do que o teste qui-quadrado.
Em contrapartida, o teste K-S exige distribuies populacionais contnuas e completamente
especificadas (o que no sucede com o teste do qui-quadrado), bem como um maior esforo
computacional.
Para uma v.a. X, o teste K-S tem por base a anlise da proximidade ou, se se preferir, do
ajustamento entre a funo de distribuio emprica ou da amostra, ) (x S , e a funo de distribuio
populacional (terica), ) (
0
x F , que admitida em
0
H . Para uma amostra de tamanho n, a funo
) (x S expressa a soma das frequncias relativas dos dados com valores menores ou iguais a x, um
qualquer valor particular x da varivel X. Sendo ( )
n
X X X , , ,
2 1
K uma amostra aleatria de uma
populao contnua X e
) ( ) 2 ( ) 1 (
, , ,
n
X X X K a respectiva amostra ordenada, tem-se que, a funo
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 75
distribuio emprica S(x) dada por
(1)
( ) ( 1)
( )
0 ,
( ) , ( 1, 2, , 1)
1 ,
k k
n
x X
k
S x X x X k n
n
x X
+
<
= =
K
A funo de distribuio emprica, ) (x S , , pois, uma funo em degrau que cresce 1 n nos pontos
de salto (estatsticas ordinais da amostra)
21
.
A estatstica de teste, que se denota por
. obs
D (que uma varivel aleatria), corresponde ao
supremo (ou mximo) da diferena, em valor absoluto, entre ) (x S e ) (
0
x F , quando so
considerados todos os valores possveis de X. Em notao simblica,
. 0
max ( ) ( )
obs
x
D S x F x = .
possvel demonstrar que, se a amostra aleatria e provm de uma distribuio contnua
conhecida, a estatstica
. obs
D s depende da dimenso da amostra, n, sendo irrelevante a forma da
funo distribuio da populao, ) (
0
x F . Esta a razo pela qual
. obs
D considerada uma
estatstica distribution-free.
No teste K-S de qualidade de ajuste adopta-se o procedimento que se descreve em seguida:
(i) As hipteses nula e alternativa so formuladas nos seguintes termos: ) ( ) ( :
0 0
x F x F H = ,
para todos os valores de X, ou seja, a funo de distribuio da populao da qual
provm a amostra idntica a uma funo de distribuio que se assume conhecida,
) (
0
x F ; versus ) ( ) ( :
0 1
x F x F H para algum valor de X.
(ii) Uma vez determinada a funo de distribuio emprica, ) (x S , calcula-se
. obs
D . O
mximo de ) ( ) (
0
x F x S no necessariamente o maior valor que ) ( ) (
0
x F x S toma
quando se consideram apenas os valores observados de X. De facto, dados que a funo
) (
0
x F contnua e ) (x S uma funo em escada, o valor mximo daquela diferena
absoluta deve ser procurado na vizinhana de cada valor observado de X. O valor
observado
. obs
d , da varivel aleatria
. obs
D , ser, pois, o maior dos valores seguintes:
. 1 0
( ) ( )
obs i i
D S x F x
= e
. 0
( ) ( )
obs i i
D S x F x
+
= , n i 1 .
(iii) O valor de
. obs
D comparado com o respectivo valor crtico de [ ] n D
, uma vez
21
Deve-se ter em conta a frequncia absoluta de cada observao, pois estas esto directamente relacionadas com os
saltos da funo.
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 76
especificado o nvel de significncia do teste. Dever rejeitar-se
0
H , sempre que
d d
obs
>
.
. O valor crtico da estatstica de K-S pode ser obtido a partir das respectivas
tabelas (Tabelas 3.11 a 3.17). Note-se que, como a estatstica
. obs
D calculada com base
no mdulo da diferena entre ) (x S e ) (
0
x F , no distinguindo entre valores positivos e
negativos, os valores crticos de
. obs
D devem ser procurados na cauda direita da sua
distribuio.
Tal como se afirmou atrs, o teste K-S exacto (ou seja, o risco est definido
rigorosamente) quando a funo ) (
0
x F se encontra perfeitamente especificada e, em particular,
quando se conhecem os respectivos parmetros. O teste pode, no entanto, ser utilizado quando os
parmetros de ) (
0
x F so estimados a partir da amostra. Porm, nestas circunstncias dever ter-se
em conta que o nvel de significncia com que se realiza o teste menor do que aquele que
especificado e que a potncia do teste tambm diminui de uma quantidade no-conhecida. ara
ultrapassa esta limitao do teste K-S, H. Lilliefors estudou o comportamento da estatstica
. obs
D
nas situaes em que a distribuio populacional normal ou exponencial negativa, mas em que os
seus parmetros so estimados a partir dos dados amostrais. Na Tabela 3.13 apresentam-se os
valores crticos da estatstica
. obs
D para o caso da distribuio normal.
Exemplo 3.3
Retomando o exemplo 3.1, onde se estudou o ajustamento de uma distribuio normal
( )
2
0;1, 06 N aos
resduos resultantes do modelo 74, 3 14, 9 y x = + (ajustado aos dados da Tabela 1.1). No obstante o
tamanho da amostra ser 20 30 n = < , utilizou-se um teste de qui-quadrado para se verificar a qualidade do
ajustamento, no se tendo rejeitado a hiptese nula.
Vamos agora utilizar um teste Kolmogorov-Smirnov (K-S) para testar, de forma mais apropriada, a hiptese
( )
2
0
: ~ 0;1, 06
i
H N . Para este teste no se procede ao agrupamento dos dados em classes. Depois de
se terem ordenados os resduos, constri-se a distribuio de frequncias absolutas (
i
f ) e de frequncias
absolutas acumuladas (
i
F ) a partir das quais se obtm a funo de distribuio emprica
( ) ( 1)
( ) ,
i
i i
F
S x X x X
n
+
= < (neste caso o saltos da funo sero dados por
i
f
n
).
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 77
A determinao de
0
( ) F x
22
sob
0
H feita atravs da funo de distribuio da normal, que no Excel
corresponde a fazer =DIST.NORM(
i
e , , ,VERDADEIRO) com 1, 2, , i n = K , ou ento, pode-se
estandardizar os resduos, atravs de
i
d dado por (2.44), para uma (0,1) N , cujos valores se encontram
tabelados, ou atravs do Excel fazendo =DIST.NORMP(
i
d ). Aps a determinao dos valores das colunas
( ) S x e
0
( ) F x , determinam-se
. 0
( ) ( )
obs i i
D S x F x
+
= e
. 1 0
( ) ( )
obs i i
D S x F x
= , n i 1 (Tabela 3.5).
O valor mais elevado das duas ltimas colunas nessa tabela ser o valor da estatstica de teste, ou seja,
0884 , 0
.
=
obs
d . Como os parmetros da distribuio foram estimados a partir da amostra (ver exemplo
3.1), para a obteno do valor crtico, vamos utilizar a Tabela 3.13 (de Lilliefors). Verifica-se que
[ ]
0,05
20 0,190 D = > 0884 , 0
.
=
obs
d , o que leva no-rejeio de
0
H e portanto no se pode rejeitar que
( )
2
06 , 1 ; 0 ~ N
i
, concluso idntica alcanada pelo teste de qui-quadrado.
i
e
i
f
i
F ( ) S x
0
( ) F x
. obs
D
+
. obs
D
-1,83 1 1 0,05 0,0418 0,0082 0,0418
-1,56 1 2 0,1 0,0702 0,0298 0,0202
-1,15 1 3 0,15 0,1385 0,0115 0,0385
-1,03 1 4 0,2 0,1651 0,0349 0,0151
-0,9 1 5 0,25 0,1975 0,0525 0,0025
-0,68 1 6 0,3 0,2602 0,0398 0,0102
-0,6 1 7 0,35 0,2853 0,0647 0,0147
-0,48 1 8 0,4 0,3250 0,0750 0,0250
-0,16 1 9 0,45 0,4399 0,0101 0,0399
-0,04 1 10 0,5 0,4849 0,0151 0,0349
0,13 1 11 0,55 0,5489 0,0011 0,0489
0,16 1 12 0,6 0,5601 0,0399 0,0101
0,17 1 13 0,65 0,5638 0,0862 0,0362
0,3 1 14 0,7 0,6116 0,0884 0,0384
0,62 1 15 0,75 0,7211 0,0289 0,0211
0,93 1 16 0,8 0,8103 0,0103 0,0603
1,05 1 17 0,85 0,8395 0,0105 0,0395
1,47 1 18 0,9 0,9176 0,0176 0,0676
1,63 1 19 0,95 0,9383 0,0117 0,0383
1,97 1 20 1 0,9687 0,0313 0,0187
Tabela 3.5 Clculos necessrios obteno do valor da estatstica de K-S
22
Atente-se que
0
( )
1, 06
i
e
F x
| |
=
|
\
.
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 78
3.2.3 Comparao entre os dois testes
O teste de
2
especificamente destinado a casos com dados classificados enquanto o teste
de K-S ser usado apenas para amostras aleatrias extradas de populaes contnuas. Todavia,
quando os dados no esto classificados estes dois testes de ajustamento podem ser utilizados
indistintamente se os requisitos bsicos exigidos aplicao de cada um forem satisfatrios. A
breve comparao feita a seguir apenas se ajusta ao caso de dados no-classificados.
Sendo contnua a distribuio postulada (terica), o teste de K-S permite examinar a
qualidade do ajustamento para cada uma das n estatsticas ordinais; o teste de
2
apenas faz isso
para n k classes. Neste sentido o teste de K-S faz um uso mais completo dos dados disponveis
no se perdendo tanta informao como no teste de
2
.
Outra das vantagens do teste de K-S, reside no facto da distribuio de amostragem
. obs
D ser
exacta (conhecida e tabelada), enquanto a distribuio de
2
. obs
aproximadamente
2
quando
+ n .
Por outro lado, o teste de K-S pode ser aplicado a amostras de qualquer tamanho, enquanto a
estatstica de
2
s deve ser utilizada para n grande e para frequncias esperadas em cada classe
no demasiadamente pequenas ) 5 (
ei
n .
Por fim, no caso da funo de distribuio terica ser discreta, podero existir problemas na
utilizao do teste K-S.
3.3 Ajustamento entre duas amostras independentes
3.3.1 Teste de qui-quadrado
O teste de qui-quadrado utilizado na comparao de duas amostras independentes pode ser
considerado como uma extenso do teste de qui-quadrado de qualidade de ajustamento de uma
amostra a uma distribuio terica. A situao que ser abordada nesta seco difere da que foi
estudada anteriormente pelo facto do objectivo ser, agora, a comparao entre duas populaes a
partir das quais se obtm amostras independentes. Tal como anteriormente, apenas se requer que as
amostras sejam aleatrias e tenham dimenses adequadas.
A metodologia deste teste de qui-quadrado, que se descreve de seguida, muito semelhante
que foi apresentada anteriormente, nomeadamente:
(i) Denotando por A e B as populaes a partir das quais se obtm as amostras, as hipteses
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 79
nulas e alternativas so formuladas nos seguintes termos: :
0
H As populaes A e B so
idnticas vs :
1
H As populaes A e B so no idnticas
23
.
(ii) As
A
n e
B
n observaes que constituem as amostras retiradas das populaes A e B, so
agrupadas em k classes (ou categorias) no-sobreponveis (com 2 k );
(iii) Para cada amostra, determinam-se as frequncias observadas em cada classe i,
iA
n e
iB
n
) , , 1 ( k i K = ;
(iv) As frequncias esperadas,
eiA
n e
eiB
n , so calculadas no pressuposto de que
0
H
verdadeira, do modo que se segue (o procedimento acima referido esta sumariado na
Tabela 3.6, pgina seguinte):
a. Denote-se por n o nmero total de observaes (
B A
n n n + = ) e por
i
n a frequncia
das observaes na classe i (
iB iA i
n n n + =
).
b. Como se admite que
0
H verdadeira, a probabilidade de uma observao ser
classificada na classe i (uma observao se encontrar na classe i) pode ser estimada
por
n
n
i
.
c. Consequentemente, a frequncia esperada de observaes referentes populao A
na classe i ser
n
n
n n
i
A eiA
= .
d. As frequncias esperadas
eiB
n , so obtidas de forma anloga ou, mais simplesmente,
pela subtraco
24
i eiA
n n
, j que ( )
i
eiB A i eiA
n
n n n n n
n
= = .
(v) A estatstica de teste uma medida global do ajustamento entre as frequncias
observadas nas amostras e as respectivas frequncias esperadas. Tal medida dada por
2 2
2
.
1 1
( ) ( )
k k
iA eiA iB eiB
obs
i i
eiA eiB
n n n n
n n
= =
= +
23
Estas hipteses podem tomar a seguinte forma equivalente: :
0
H ) ( ) ( x F x F
B A
= , para todo o x versus
:
1
H ) ( ) ( x F x F
B A
, para algum x (Com ) (x F
A
e ) (x F
B
representando as funes de distribuio das populaes
A e B).
24
Pode-se verificar que das 2k frequncias esperadas apenas 1 k so independentes, isto , a partir de 1 k
frequncias esperadas quaisquer podem ser obtidas por subtraco as restantes frequncias esperadas, j que
1
k
eiA A
i
n n
=
=
e
1
k
eiB B
i
n n
=
=
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 80
Frequncias observadas Frequncias esperadas
Classe A B Total
eiA
n
eiB
n
1
1A
n
1B
n
1
n
1
A
n
n
n
1 1 e A
n n
2
2 A
n
2B
n
2
n
2
A
n
n
n
2 2 e A
n n
M M M M M M
k
kA
n
kB
n
k
n
k
A
n
n
n
k ekA
n n
Total
A
n
B
n n
A
n
B
n
Tabela 3.6 Clculo das frequncias esperadas para o teste de qui-quadrado para duas amostras independentes.
(vi) Se
0
H for verdadeira, pode demonstrar-se que, para amostras de grande dimenso,
2
. obs
segue uma distribuio qui-quadrado com 1 gl k = graus de liberdade (uma vez que s
existem 1 k termos independentes nos somatrios da expresso da estatstica de teste).
(vii) Fixado o nvel de significncia , a rejeio ou no rejeio de
0
H ser feita com
base na comparao entre o valor que a estatstica de teste toma e o valor crtico
[ ]
2
1 k
quanto maior forem as dimenses das amostras, o teste deve ser conduzido seguindo as
mesmas recomendaes que foram apresentadas a propsito do teste de qui-quadrado discutido na
seco3.2.1. Note-se apenas que, quando houver necessidade de agregar classes adjacentes numa
das amostras, tal operao deve ser igualmente executada na outra.
Exemplo 3.4
Um fabricante de pssegos em calda produz diferentes qualidades deste produto e pretende verificar se o
modo como se repartem as vendas da sua marca tendo em conta a qualidade do produto idntico nos
hipermercados A e B. Na Tabela 3.7 apresenta-se a composio das vendas nestes mercados ao longo do
ltimo ano.
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 81
Qualidade Hipermercado A Hipermercado B Total
Baixa 1034 2225 3259
Mdia-baixa 892 2103 2995
Mdia 734 1754 2488
Mdia-alta 280 685 965
Alta 80 202 282
Luxo 26 32 58
Total 3046 7001 10047
Tabela 3.7 Composio das vendas de pssego em calda nos hipermercados A e B
Denotando por A e B as populaes referentes composio das vendas do produto nos hipermercados A
e B, respectivamente, obtm-se (os clculos necessrios apresentam-se na Tabela 3.8):
2 2 2
1
( ) (1034 988, 0) (26 17, 6)
... 7, 856
988, 0 17, 6
k
iA eiA
i
eiA
n n
n
=
= + + =
e
2 2 2
1
( ) (2225 2271, 0) (32 40, 4)
... 3, 425
2271, 0 40, 4
k
iB eiB
i
eiB
n n
n
=
= + + =
Sendo que a estatstica de teste
2 2
2
.
1 1
( ) ( )
7,856 3, 425 11, 281
k k
iA eiA iB eiB
obs
i i
eiA eiB
n n n n
n n
= =
= + = + =
Considerando um nvel significncia 0, 05 = , possvel verificar, a partir da funo do Excel, que
[ ]
2
0,05
5 11, 07 = . Como [ ]
2 2
. 0,05
11, 281 5 11, 07
obs
= > = rejeita-se
0
H ao nvel de significncia de 5%,
ou seja, h indcios de que as vendas do produto em causa, tendo em conta as diferentes qualidades,
diferem nos dois hipermercados (a anlise da Tabela 3.7 pode dar uma ideia deste facto, mas ateno s
propores). Neste caso o p-value 4,6%.
k
iA
n
iB
n Total
eiA
n
eiB
n
1 1034 2225 3259 988,0 2271,0
2 892 2103 2995 908,0 2087,0
3 734 1754 2488 754,3 1733,7
4 280 685 965 292,6 672,4
5 80 202 282 85,5 196,5
6 26 32 58 17,6 40,4
Total 3046 7001 10047 3046,0 7001,0
Tabela 3.8 Clculo das frequncias esperadas necessrias para a obteno da estatstica de qui-quadrado
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 82
3.3.3 Teste de Kolmogorov-Smirnov
Admita-se agora que se pretende avaliar se duas amostras aleatrias independentes provm
de uma nica populao contnua ou, equivalentemente, se provm de duas populaes contnuas
idnticas.
Denotem-se por ( )
A
F x e ( )
B
F x as funes de distribuio associadas s populaes A e B,
respectivamente. A estrutura deste teste K-S, que semelhante do teste K-S discutido
anteriormente, a seguinte:
(i) As hipteses nula e alternativa so
0
: ( ) ( )
A B
H F x F x = , para todo o x (ou seja, as duas
amostras provm de populaes com a mesma funo distribuio) versus
1
: ( ) ( )
A B
H F x F x , para algum x (teste bilateral)
25
.
(ii) Uma vez determinadas as funes de distribuio das amostras ( )
A
S x e ( )
B
S x , calcula-
se a estatstica de teste
. obs
D , tal que
.
max ( ) ( )
obs A B
x
D S x S x =
Note-se que se recorre estatstica
. obs
D tanto no caso do teste ser bilateral como no caso
do teste ser unilateral.
(iii) Uma vez especificado o nvel de significncia do teste, o valor de
. obs
D comparado
com o respectivo valor crtico de
D , e, em funo do resultado,
0
H ou no rejeitada.
A distribuio de
. obs
D conhecida de forma exacta quando
0
H verdadeira e ambas as
distribuies populacionais so consideradas contnuas. Dever rejeitar-se
0
H , sempre
que
d d
obs
>
.
. Na Tabela 3.14 apresentam-se os valores da distribuio da estatstica
. A B obs
n n D (onde
A
n e
B
n representam as dimenses das duas amostras).
Exemplo 3.5
O departamento de engenharia alimentar da universidade do Algarve foi seleccionado para uma experincia
piloto na qual se pretende testar novos procedimentos. Na Tabela 3.9 apresentam-se valores do tempo
despendido no processamento de uma determinada operao, antes e depois de terem sido introduzidos
novos procedimentos.
25
No caso de fazer sentido um teste unilateral, a hiptese alternativa vir: ) ( ) ( :
1
x F x F H
B A
> ou
) ( ) ( :
1
x F x F H
B A
< para algum x.
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 83
Antes 4,1 4,4 4,7 4,8 4,9 5,7 7,4 7,6 9,7 10,3 12,4 15,5
Depois 3,8 5,0 6,3 6,6 6,7 6,9 8,5 8,6 8,9 9,5 9,8 10,2
Tabela 3.9 Tempos de processamento, em minutos.
Estes valores, seleccionados aleatoriamente, foram obtidos a partir de cronometragem. Ser que os dados
sustentam a hiptese de que a distribuio do tempo de processamento se modificou com a introduo dos
novos procedimentos? Na resposta a esta questo utilizar-se- o teste K-S de ajustamento entre duas
amostras independentes.
Para testar as hipteses:
0
: ( ) ( )
A B
H F x F x = para todo o x (em que A e B denotam, respectivamente, as
situaes anterior e posterior adopo dos novos procedimentos) versus
1
: ( ) ( )
A B
H F x F x para algum
x, obtm-se a estatstica de teste
.
4
0, (3)
12
obs
D = = ,
que foi calculada como se indica na Tabela 3.10. Note-se que, contrariamente ao que sucedia no teste K-S
discutido na seco 3.2.2, agora basta calcular as diferenas absolutas para os valores observados de X
numa ou noutra amostra ( ) ( )
A B
S x S x e escolher o valor mximo de tais diferenas absolutas.
X
( )
A
S x ( )
B
S x
( ) ( )
A B
S x S x
3,8 0 1/12 1/12
4,1 1/12 1/12 0
4,4 2/12 1/12 1/12
4,7 3/12 1/12 2/12
4,8 4/12 1/12 3/12
4,9 5/12 1/12 4/12
5,0 5/12 2/12 3/12
5,7 6/12 2/12 4/12
6,3 6/12 3/12 3/12
() () () ()
8,6 8/12 8/12 0
8,9 8/12 9/12 1/12
9,5 8/12 10/12 2/12
9,7 9/12 10/12 1/12
9,8 9/12 11/12 2/12
10,2 9/12 12/12 3/12
10,3 10/12 12/12 2/12
12,4 11/12 12/12 1/12
15,5 12/12 12/12 0
Tabela 3.10 Excerto dos clculos envolvidos num teste K-S para duas amostras independentes
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 84
De acordo com a Tabela 3.16, para um nvel de significncia 0, 05 = e 12
A B
n n = = vem
.
84
A B obs
n n D = , donde resulta
0,05
84
0, 583
144
d = = .
Como
. 0,05
4
0, (3) 0, 583
12
obs
d d = = < = ,
a hiptese nula no rejeitada com um nvel de significncia de 5%. Podemos pois concluir, com 95% de
confiana, que os dados sustentam a hiptese de que a distribuio do tempo de processamento no se
modificou com a introduo dos novos procedimentos.
Na Tabela 3.11 apresentam-se os valores crticos da distribuio da estatstica
0
max ( ) ( )
x
D S x F x = para amostras de dimenso n e nveis de significncia . Para amostras de
grandes dimenses ( 40 n > ), os valores crticos de D
, sob a forma
. A B obs
n n D ,
para situaes em que a dimenso das amostras A e B diferente. Os valores p nessas tabelas
referem-se probabilidade na cauda direita da distribuio da estatstica
. A B obs
n n D (com
.
max ( ) ( )
obs A B
x
D S x S x = ), para amostras com dimenses
A
n e
B
n (satisfazendo 2 12
A B
n n e
16
A B
n n + ) de duas populaes A e B, isto ,
.
Pr( )
A B A B obs
n n D n n D
\
|
2
1
ln
.
Testes da qualidade de ajustamento
APONTAMENTOS DE ADPE E. Esteves & C. Sousa, 2007. 86
Dimenses Nveis de significncia ( )
n 0,20 0,15 0,10 0,05 0,01
4 0,300 0,319 0,352 0,381 0,417
5 0,285 0,299 0,315 0,337 0,405
6 0,265 0,277 0,294 0,319 0,364
7 0,217 0,253 0,276 0,300 0,348
8 0,233 0,244 0,261 0,285 0,331
9 0,223 0,233 0,249 0,271 0,311
10 0,215 0,224 0,239 0,258 0,294
11 0,206 0,217 0,230 0,249 0,284
12 0,199 0,212 0,223 0,242 0,275
13 0,190 0,202 0,214 0,234 0,268
14 0,183 0,194 0,207 0,227 0,261
15 0,177 0,187 0,201 0,220 0,257
16 0,173 0,182 0,195 0,213 0,245
17 0,169 0,177 0,189 0,206 0,239
18 0,166 0,173 0,184 0,200 0,235
19 0,163 0,169 0,179 0,195 0,231
20 0,160 0,166 0,174 0,190 0,203
25 0,149 0,153 0,165 0,180 0,187
30 0,131 0,136 0,144 0,161 1,031
>30
0,730
n
0,768
n
0,805
n
0,886
n
1,031
n
Tabela 3.13 Valores crticos da distribuio da estatstica D