Você está na página 1de 41

MTODOS ESTATSTICOS E DELINEAMENTO EXPERIMENTAL

TESTES NO PARAMTRICOS














Ar mando Mat eus Fer r ei r a
1

ndice




1 Introduo................................................................................................................. 2
2 Testes de Aleatoriedade............................................................................................ 3
2.1 Teste das sequncias (runs) .............................................................................. 3
3 Testes de localizao................................................................................................ 7
3.1 Teste do sinal (sign).......................................................................................... 8
3.2 Teste de Wilcoxon (Wilcoxon signed rank)................................................... 12
3.3 Teste de Wilcoxon para duas amostras emparelhadas.................................... 17
3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras................................. 19
3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio normal 22
4 Anlise de varincia............................................................................................... 25
4.1 Teste de Kruskal-Wallis................................................................................. 26
A estatstica de teste : ........................................................................................... 27
4.2 Teste de Friedman.......................................................................................... 33
5 Coeficiente de correlao de Spearman.................................................................. 36

2
TESTES NO PARAMTRICOS


1 Introduo


Os testes de hiptese recebem a designao de testes paramtricos se satisfazem
simultaneamente as seguintes duas condies:

Os testes incidem explicitamente sobre um parmetro de uma ou mais
populaes (por exemplo, sobre a mdia ou valor esperado, ou sobre a
varincia);
A distribuio de probabilidades da estatstica de teste pressupe uma forma
particular das distribuies populacionais de onde as amostras foram recolhidas.
Por exemplo, a distribuio da estatstica de teste do teste t-Student para
comparar as mdias de duas amostras pressupe que as amostras foram retiradas
de uma populao que se distribui segundo uma funo de probabilidades
Normal, e alm disso pressupe tambm que as varincias das duas amostras so
homogneas
1
.
Os erros ou resduos
i
(tal que
i i
x = + ) tm distribuio normal;
Os erros ou resduos
i
tm varincia finita e constante
2
;
Os erros ou resduos
i
so independentes.

Assim, se algum destes pressupostos violado, ento os testes tradicionais vistos
anteriormente no tm rigor estatstico, e devero ser evitados, e em sua substituio
dever-se-o utilizar testes que no exigem o cumprimento de tais pressupostos. Estes
testes designam-se por testes no paramtricos.

Os testes no paramtricos no esto condicionados por qualquer distribuio de
probabilidades dos dados em anlise, sendo tambm designados por distribution-free
tests.

Tal como no estatisticamente rigorosa a utilizao de testes paramtricos quando no
se cumprem os pressupostos necessrios, tambm dever ser evitada a utilizao dos
testes no paramtricos em situaes em que prevalecem as condies de utilizao dos
testes paramtricos, pois estes (paramtricos) so mais potentes que os testes no
paramtricos.

Trate-se de um teste paramtrico ou no paramtrico, para l dos pressupostos acima
referidos, qualquer teste de hipteses s tem validade estatstica se as amostras sobre as
que esto a ser aplicados forem aleatrias. Assim, dentro dos testes no paramtricos,
veremos alguns que se aplicam para verificar a aleatoriedade das amostras.


1
A frmula de Welsh para calcular os graus de liberdade do teste de comparao de duas amostras cujas
varincias no so homogneas resulta se a violao deste pressuposto no muito acentuada. Se as
varincias so muito diferentes, prefervel usar um teste no paramtrico.
3
Para verificar a forma de distribuio das populaes, a fim de se decidir pela utilizao
de um teste paramtrico ou por um teste no paramtrico, podem usar-se os testes de
bondade ou qualidade de ajustamento das amostras a funes de distribuio de
probabilidades, tais como o teste do qui-quadrado, o teste de Kolmogorov-Smirnov,
teste de Shapiro-Wilk. A maioria dos programas estatsticos tm estes testes
implementados.


2 Testes de Aleatoriedade

Imagine-se que em vinte lanamentos de uma moeda ao ar, se observa a seguinte
sequncia alternada da face sada: cara-coroa-cara-coroa-cara-coroa-cara-coroa-etc,
sempre com a mesma regularidade. Facilmente se percebe que este resultado no
aleatrio. O que inslito neste resultado no o facto de se terem registado 10 caras e
10 coroas, mas sim o facto de as faces terem sado sempre de modo alternado.

Em geral, a no aleatoriedade pode ocorrer de muitas formas: misturas de populaes
com diferentes mdias ou diferentes varincias, correlao positiva ou negativa entre
observaes sucessivas, periodicidade, etc. Nos grficos seguintes esquematizam-se
algumas situaes de no aleatoriedade.



2.1 Teste das sequncias (runs)

Este teste aplica-se em conjuntos de observaes classificadas dicotomicamente
(geralmente 0 ou 1, que podem ser as codificaes de variveis no numricas).

Contudo, a amostra em anlise pode ser uma amostra contnua, mas devendo classificar-
se neste caso cada uma das observaes por um critrio dicotmico. Por exemplo, pode
Distribuio aleatria Observaes correlacionadas positivamente
Observaes correlacionadas negativamente Observaes provenientes de duas populaes
4
usar-se o teste das sequncias para testar se as observaes se distribuem aleatoriamente
abaixo (codificado com 0) ou acima (codificado com 1) de um valor mdio ou de um
valor mediano.

Define-se por sequncia um conjunto de observaes idnticas (por exemplo, 1,1,1,...)
que precedido ou sucedido por um conjunto de observaes de outro tipo (por
exemplo, 0,0,...). Cada um destes conjuntos pode conter uma s observao. Por
exemplo, o conjunto de observaes 0,1,1,0,1,0,1,1 contm 8 observaes e 6
sequncias ou runs.

Em geral, uma amostra de dimenso N (com
0
N observaes codificadas com o valor 0
e
1
N observaes codificadas com o valor 1), apresentar r N sequncias.

O teste de hipteses :

0
: H A amostra aleatria
1
: H A amostra no aleatria

A estatstica do teste baseia-se no nmero de sequncias contidas na amostra
(geralmente designado por R).

Geralmente o teste bilateral: rejeita-se a hiptese nula quando h poucas sequncias
diferentes (esta situao levada a extrema, conduziria a uma nica sequncia, ou a duas
sequncias, que equivaleria mistura de duas populaes); tambm se rejeita a hiptese
nula quando h muitas sequncias diferentes: na situao extrema haveria tantas
sequncias quantas as observaes, o que significa que a seguir a uma observao
codificada com 0, viria obrigatoriamente uma observao codificada com 1.

Por exemplo, se na amostra 10, 10, 10, 15, 15, 15 codificarmos as observaes da
seguinte forma: 0, para observaes abaixo da mediana; 1 para observaes acima da
mediana; conclui-se que existem apenas 2 sequncias, o que eventualmente um sinal
de no aleatoriedade.

Existem tabelas para a distribuio do nmero de sequncias, em funo do nmero de
observaes em cada uma das duas categorias em que amostra clasificada.

Admitindo que a hiptese nula verdadeira (amostra aleatria), a distribuio de R pode
ser aproximada pela distribuio Normal com parmetros:


2. .
1
A B
R
N N
N
= +


( )
( )
2
2. . . 2. .
. 1
A B A B
R
N N N N N
N N




Nestas condies, a estatstica de teste :

5
( ) ~ 0,1
R
R
R
Z

= N
Exemplo 1:

Em 25 N = lanamentos sucessivos de uma moeda ao ar registaram-se os seguintes
resultados (em que E representa a sada de Cara e C a sada de Coroa):

E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C

Pretende-se verificar se a amostra aleatria.

0
: H A amostra aleatria
1
: H A amostra no aleatria

14
11
16
E
C
N
N
R
=
=
=


Na tabela de distribuio do nmero de sequncias, para 11
C
N = e 14
E
N = , e para
5% = , os nmeros crticos de sequncias so 8 e 19, isto , a regio crtica para
8 19 R R < > e a regio de aceitao para 8 19 R . Como 16 R = , conclui-se que
se deve aceitar a hiptese nula.

Fazendo a aproximao normal, teramos:

2. . 2 14 11
1 1 13.32
25
A B
R
N N
N


= + = + =

( )
( )
( )
2 2
2. . . 2. . 2 14 11 2 14 11 25
2.4106
. 1 25 24
A B A B
R
N N N N N
N N


= = =



A estatstica de teste ento:

16 13.32
1.1118
2.4106
R
R
R
Z


= = =

Deciso:

Fixando um nvel de significncia, por exemplo 5% = , e admitindo que o teste de
natureza bilateral (o que corresponde a que R pode afastar-se de
R
em ambos os
sentidos), o valor crtico
0.05
1.96 = Z ; como
0.05
1.1118 1.96 Z = < = Z , conclui-se
que no se deve rejeitar a hiptese de que a amostra aleatria.

A mesma deciso pode ser tomada estimando o valor de probabilidade limite:

( ) ( )
Pr Pr 1.1118 0.2662
calc
p value Z

= < = < = Z Z , pelo que se aceita
0
H .
6
Exemplo 2:


Na tabela seguinte apresentam-se o peso nascena (PN) e o peso aos 45 dias (P45) de
um lote de 30 borregos; a varivel RESIDUOS contm os resduos da equao de
regresso 45 2.79 2.54 P PN = + :


Pretende-se verificar se os resduos se distribuem aleatoriamente em torno do valor zero
(que um dos pressupostos da regresso linear).

Isto :

0
: H Os resduos distribuem-se aleatoriamente em torno de 0
1
: H Os resduos no se distribuem aleatoriamente em torno de 0

Para efectuar o teste das sequncias, temos de classificar cada um dos resduos numa
varivel dicotmica: 0, se o resduo inferior a zero; 1, caso contrrio (coluna
GRUPO).

Note-se que a amostra est ordenada em termos da varivel PN.
PN P45 RESIDUOS GRUPO
1.2 9.62 3.782 1
1.2 4.20 -1.638 0
1.4 6.74 0.394 1
1.6 7.69 0.836 1
2.0 6.20 -1.670 0
2.0 8.63 0.760 1
2.0 7.46 -0.410 0
2.2 7.21 -1.168 0
2.2 8.39 0.012 1
2.4 7.11 -1.776 0
2.4 8.00 -0.886 0
2.4 8.49 -0.396 0
2.6 9.35 -0.044 0
2.6 10.71 1.316 1
2.8 9.69 -0.212 0
3.0 10.42 0.010 1
3.0 10.71 0.300 1
3.0 11.40 0.990 1
3.2 13.67 2.752 1
3.2 12.64 1.722 1
3.2 6.91 -4.008 0
3.2 7.70 -3.218 0
3.4 11.33 -0.096 0
3.4 12.00 0.574 1
3.6 11.12 -0.814 0
3.6 10.91 -1.024 0
3.8 14.18 1.738 1
3.8 13.50 1.058 1
4.0 14.00 1.050 1
4.2 13.64 0.182 1
7
A partir do quadro anterior, calcula-se:

0
1
14
16
15
N
N
R
=
=
=


Na tabela de distribuio do nmero de sequncias, para
0
14 N = e
1
16 N = , e para
5% = , os nmeros crticos de sequncias so 10 e 22, isto , a regio crtica para
10 22 R R < > e a regio de aceitao para 10 22 R . Como 15 R = , conclui-se
que se deve aceitar a hiptese nula.

Fazendo a aproximao normal, teramos:

2. . 2 14 16
1 1 15.9333
30
A B
R
N N
N


= + = + =

( )
( )
( )
2 2
2. . . 2. . 2 14 16 2 14 16 30
2.6786
. 1 30 29
A B A B
R
N N N N N
N N


= = =



A estatstica de teste ento:

15 15.9333
0.3484
2.6786
R
R
R
Z


= = =

Deciso:

Fixando um nvel de significncia, por exemplo 5% = , e admitindo que o teste de
natureza bilateral (o que corresponde a que R pode afastar-se de
R
em ambos os
sentidos), o valor crtico
0.05
1.96 = Z ; como
0.05
0.3484 1.96 Z = < = Z , conclui-se
que no se deve rejeitar a hiptese de que a amostra aleatria.

A probabilidade limite 0.7275 p value = , pelo que se dever aceitar a hiptese nula
com um nvel de significncia de 0.7275.

3 Testes de localizao

O valor esperado, esperana matemtica ou mdia o parmetro de localizao mais
frequentemente utilizado em inferncia estatstica. No entanto, a mediana populacional
(vamos represent-la por
~
), que corresponde tambm a um valor central das
distribuies, pode constituir uma alternativa mdia, uma vez que:

menos influenciada por valores extremos (consideremos a seguinte amostra,
com 5 observaes: 2, 13, 13, 14, 15; a mdia 11.4, enquanto que a mediana
8
13; o valor extremo 2, muito afastado do contexto das restantes, afecta bastante a
mdia, causando um enviezamento deste parmetro; a mediana no afectada);

Quando as distribuies so assimtrica, a mediana situa-se numa posio mais
prxima do valor mais observado, podendo por isso ter mais sentido como
medida da tendncia central;

Quando as distribuies so simtricas, a mediana populacional e a mdia ou
valor esperado coincidem, possuindo assim o mesmo mrito como medida de
tendncia central.

Alguns testes no paramtricos acerca de um parmetro de localizao utilizam a
mediana como esse parmetro. Estes testes constituem uma alternativa aos testes
paramtricos acerca da mdia.

3.1 Teste do sinal (sign)

O teste do sinal desenvolve-se com base em amostras aleatrias provenientes de
populaes contnuas. Na hiptese nula admite-se que a mediana populacional possui
um determinado valor particular,
~
0
:

~ ~ ~ ~
0 0 1 0
: : H H =

(note-se que a hiptese alternativa pode ser unilateral,
~ ~
0
> ou
~ ~
0
< ).

A estatstica de teste Y =nmero de observaes abaixo (ou acima) de
~
0
.

Se a hiptese nula for verdadeira e a amostra for aleatria, o nmero de observaes
com valor inferior (ou superior) a
~
0
uma varivel aleatria binomial com parmetro
0.5 p = . Ento, o teste de hiptese equivalente a testar:

0 1
: 0.5 : 0.5 H p H p =

(tratando-se de um teste unilateral, a hiptese alternativa ser
1
: 0.5 H p < ou
1
: 0.5 H p > ).

Os valores crticos para estabelecer a regio de aceitao e a regio crtica so obtidos
pelo clculo das probabilidades de funo binomial. Se o teste bilateral, pretende-se
estabelecer a regio crtica:

( ) ( ) ( )
0
Pr 0.5 ; ;
c
i
i s
k
s
Y
N
c c
k k Y
Y Y Y Y p Bi N p Bi N p
= =
= = +



9
em que
i
c
Y e
s
c
Y so respectivamente os valores de Y =nmero de observaes abaixo
(ou acima) de
~
0
correspondentes a uma probabilidade (nvel de significncia), e
( ) ;
k
s
N
k Y
Bi N p
=

a probabilidade binomial acumulada (correspondente a


2

na cauda
superior da distribuio). Note-se que
i
c
Y e
s
c
Y so simtricos em relao a
~
0
.

O nome do teste (sinal ou sign) provm de, ao fazer os clculos, se registavam
tradicionalmente por ou por +as observaes inferiores ou superiores a
~
0
.

Este teste tem a vantagem de poder aplicar-se a dados de tipo dicotmico que no
podem registar-se numa escala numrica, mas que podem representar mediante
respostas negativas ou positivas. Por exemplo, pode ser usada em ensaios em que se
registam resultados qualitativos do tipo fracasso ou xito.

Exemplo:

Admita-se que a produo mediana de leite (em ordenha, aps retirar borregos) de um
determinado rebanho de ovelhas Merino da Beira Baixa de 60 litros/animal e ano.
Numa amostra de 12 ovelhas retiradas desse rebanho obtiveram-se as seguintes
produes por animal e ano:

44.0; 46.6; 48.2; 51.8; 60.3; 61.7; 63.6; 72.7; 77.4; 82.4; 96.1; 105.6

Pretende-se verificar:

~ ~
0 1
: 60 : 60 H H =

A hiptese nula estabelece que a produo mediana de 60 litros; se esta hiptese
verdadeira, 50% do rebanho ter uma produo inferior (e 50% ter uma produo
superior a 60 l); isto , o anterior teste pode escrever-se como:

0 1
: 0.5 : 0.5 H p H p =

Nestas condies, se o tamanho da populao for muito grande em relao amostra, o
nmero de animais com produo inferior a 60 l numa amostra de 12 animais, segue
uma distribuio binomial ( ) 12;0.5 .

No exemplo, Y=4 (nmero de animais com produo inferior a 60).

No grfico seguinte apresentam-se as probabilidades de acontecerem 0, 1, 2, ..., 12
sucessos numa prova de Bernoulli com 0.5 p = (cada uma destas probabilidades dada
pela expresso: ( ) ( ) ( ) Pr ; 1
N k
N k
k
k B N p C p p

= ).

10
Assim, para um nvel de significncia 5% = , e sendo o teste bilateral, a hiptese nula
seria rejeitada se na amostra ocorrerem menos de 3 ou mais de 9 animais com produo
inferior a 60 l.

Este valor (ou quantil da distribuio binomial) pode ser calculado com a funo
( ) . ; ; CRIT BINOM N p :



(como se trata de um teste bilateral, o quantil que define o limite superior da regio de
aceitao calcula-se colocando-o mesma distncia que separa o quantil inferior e a
mdia).

A deciso do teste tambm se pode efectuar, calculando a probabilidade limite (que
geralmente todos os programas estatsticos apresentam nos testes de hiptese). Na folha
de clculo Excel, a funo ( ) ; ; ; DISTRBINOM k N p cumulativo calcula a funo de
distribuio cumulativa de probabilidades binomial, at a k sucessos:

0
.
0
0
0
2
0
.
0
0
2
9
0
.
0
1
6
1
0
.
0
5
3
7
0
.
1
2
0
8
0
.
1
9
3
4
0
.
2
2
5
6
0
.
1
9
3
4
0
.
1
2
0
8
0
.
0
5
3
7
0
.
0
1
6
1
0
.
0
0
2
9
0
.
0
0
0
2
0 1 2 3 4 5 6 7 8 9 10 11 12
N animais com produo <60
Rejeio
Rejeio
11


Tratando-se de um teste bilateral, a probabilidade limite ser dupla desta (isto ,
2 0.19385 0.3877 p value = = ).

Se o tamanho da amostra muito grande, o clculo das probabilidades da funo
binomial pode ser aproximado pela funo de distribuio normal estandardizada,
sendo:

~
. N p =

( ) . . 1 N p p =

e estatstica de teste :

( )
( )
0.5 0.5.
. . 1
k N
Z
N p p
+
=



No exemplo apresentado, esta aproximao :

( )
( )
( ) 0.5 0.5 4 0.5 0.5 12
0.8660
12 0.5 0.5 . . 1
k N
Z
N p p
+ +
= = =



Para 5% = , os quantis da distribuio normal que estabelecem as regies de aceitao
e de rejeio da hiptese nula so
0.05
1.96 = Z , donde se conclui que se deve aceitar
0
H . O valor da probabilidade limite, pela aproximao normal 0.3865 p value = ,
valor muito aproximado ao estimado com a funo binomial.


12
3.2 Teste de Wilcoxon (Wilcoxon signed rank)

No teste do sinal os dados so transformados em contagens de uma varivel dicotmica,
geralmente representados por - e por +, correspondentes s observaes abaixo ou
acima da mediana
~
0
. Ao proceder desta forma perde-se a informao relativa s
diferenas de valor entre as observaes e a mediana. Por exemplo, se
~
0
10 = , no teste
do sinal indiferente que uma observao tenha o valor 15 ou o valor 20: no clculo da
estatstica de teste, em ambos os casos seria contabilizada como uma observao +,
isto , acima de
~
0
. No teste de Wilcoxon, a magnitude das diferenas tida em conta,
exigindo-se contudo que a populao seja de natureza contnua e simtrica. Nestas
condies, o teste de Wilcoxon mais potente que o teste do sinal.

Tal como no teste do sinal, considere-se o seguinte teste de hipteses:

~ ~ ~ ~
0 1 0 0
: : H H =

(note-se que a hiptese alternativa pode ser unilateral,
~ ~
0
> ou
~ ~
0
< ).

Se a populao for contnua e simtrica, a amostra for aleatria e
0
H for verdadeira,
ento as diferenas:


~
0 i i
d x =

devero distribuir-se de forma simtrica em torno de 0. Ou seja, observar-se-o
diferenas positivas e negativas com valores absolutos da mesma ordem de grandeza, e
em nmero aproximadamente igual.

A avaliao relativa da magnitude das diferenas
i
d pode ser efectuada ordenando de
forma crescente, de 1 a N, os seus valores absolutos
i
d e atribuindo a cada um destes o
respectivo nmero de ordem (em ingls esta ordenao designa-se por rank, de onde
vem o nome do teste), com o sinal negativo ou positivo, consoante
i
d sejam negativo ou
positivo.

Se a populao for simtrica em torno de
~
0
e
0
H for verdadeira, a soma dos nmeros
de ordem referentes s diferenas
i
d negativas dever ser aproximadamente igual
soma dos nmeros de ordem referentes s diferenas
i
d positivas. Uma situao
contrria a esta beneficia uma das hipteses alternativas. Por exemplo, se a soma dos
nmeros de ordem relativos s diferenas positivas for muito maior do que a soma dos
nmeros de ordem das diferenas negativas, ento a hiptese alternativa
~ ~
1 0
: H >
tornar-se- plausvel. A estatstica de teste de Wilcoxon baseada, justamente, na
propriedade que acaba de ser enunciada.
13
Os passos para o clculo da estatstica de teste de Wilcoxon so:
Calculam-se as diferenas
~
0 i i
d x = ;
Ordenam-se as diferenas
i
d por ordem crescente dos respectivos valores
absolutos
i
d ;
Atribui-se um nmero de ordem sequencialmente a cada
i
d ; os nmeros de
ordem referentes a
i
d so precedidos do sinal +; os nmeros de ordem
referentes a
i
d negativos so precedidos do sinal -;
Quando o valor absoluto de duas ou mais diferenas o mesmo (isto , quando
existem empates ou ties), o nmero de ordem atribudo a cada uma dessas
diferenas com o mesmo valor absoluto
i
d a mdia aritmtica dos nmeros de
ordem que tais observaes receberiam se no estivessem empatadas. Sejam por
exemplo as diferenas ordenadas a sequncia 1, 3, -3, 5, 7, -7, -7, 8; os
respectivos nmeros de ordem seriam 1, 2.5, 2.5, 4, 6, 6, 6, 8.
Quando existem zeros, isto , quando 0
i
d = , estes valores devem ignorar-se, e
consequentemente, reduzir o tamanho da amostra em tantas unidades, tantos os
zeros que existam.
Calcula-se a estatstica de teste, geralmente designada por T, e que resulta da
soma dos nmeros de ordem positivos (caso em que a estatstica de teste se
representa por T
+
) ou dos nmeros de ordem negativos (a estatstica de teste
representada por T

).

Note-se que a estatstica de teste toma sempre um valor no negativo, e para uma
amostra de tamanho N a soma de todos os nmeros de ordem :

( ) . 1
2
N N
T T
+
+
+ =

Se a hiptese nula verdadeira, as distribuies de T
+
e T

so simtricas em torno do
valor esperado:

( ) . 1
4
N N +


de modo que seria indiferente usar de T
+
ou T

como estatstica de teste. Contudo, por


comodidade, em cada uma das seguintes situaes de hiptese alternativa, usual
considerar:

Hiptese nula Hiptese alternativa Estatstica de teste usual
~ ~
0
<
T
+

~ ~
0

Mnimo de T
+
ou T


~ ~
0
=
~ ~
0
>
T



14
Existem tabelas com os valores crticos de T
+
ou T

para decidir acerca da significncia


do teste. Para amostras com 15 N demonstra-se que a distribuio amostral de T
+
(ou
T

) se aproxima da distribuio normal de parmetros:



Mdia:
( ) . 1
4
T
N N

+
+
=

Varincia:
( )( )
2
. 1 2. 1
24
T
N N N

+
+ +
=

Se existem empates a varincia deve ser corrigida, sendo neste caso a expresso para
clculo da varincia:

Varincia:
( )( )
3
2
. 1 2. 1
24 48
i i
T
u u N N N

+
+ +
=



em que
i
u representa o nmero de empates no i-simo grupo de observaes iguais.

Quando se faz a aproximao funo de distribuio normal, a estatstica de teste :

( )
( )( )
( )
. 1
4
~ 0,1
. 1 2. 1
24
T
T
N N
T
T
Z
N N N

+
+
+
+
+

= =
+ +
N


Exemplo 1:

Os seguintes dados referem-se aos pesos ao nascimento de uma amostra de 9 borregos:

1.9, 2.0, 2.2, 2.8, 3.1, 3.1, 3.3, 3.4, 3.7

Pretende-se averiguar se podemos considerar que o peso mediano dos borregos
nascena neste rebanho de 3.3 kg.

O teste de hipteses :
~ ~
0 1
: 3.3 : 3.3 H H =

No seguinte quadro apresenta-se o clculo da estatstica de teste T
+
e T

, conforme atrs
descrito. Chama-se a ateno para a existncia de dois empates e um zero; o zero deve
ser ignorado, considerando 8 N = ; as diferenas das observaes para a mediana
0
3.3 = correspondentes aos empates seriam a 2 e 3 diferenas, se no houvesse
empate; assim, ambas tero nmero de ordem 2.5.


15
i
x
~
0 i i
d x =
i
d
Ordem (+) Ordem (-)
3.3 0 0
3.4 0.1 0.1 1
3.1 -0.2 0.2 2.5
3.1 -0.2 0.2 2.5
3.7 0.4 0.4 4
2.8 -0.5 0.5 5
2.2 -1.1 1.1 6
2 -1.3 1.3 7
1.9 -1.4 1.4 8

5 T
+
= 31 T

=


Para amostras at 15 observaes existem tabelas dos valores crticos da distribuio
das estatsticas T
+
e T

, isto , os valores das probabilidades tais que ( ) Pr


e
T t
+
< e
( ) Pr
d
T t

> . Na tabela em anexo, para um tamanho de amostra 8 N = , verifica-se que


( ) ( ) Pr 5 Pr 31 0.039 T T
+
< = > = , ou seja, 0.078 p value = Assim, a hiptese nula no
rejeitada ao nvel de significncia de 5%.


Caso no se disponha da tabela, ou se opte por fazer a aproximao funo de
distribuio normal, devem calcular-se os parmetros desta:

Mdia:
( ) . 1
8 9
18
4 4
T
N N

+
+

= = =

Varincia (note-se que existem duas diferenas empatadas, pelo que se deve
fazer a correco da varincia):

( )( )
3
3
2
. 1 2. 1
8 9 17 2 2
50.875
24 48 24 48
i i
T
u u N N N

+
+ +

= = =



A estatstica de teste ento:

5 18
1.8226
50.875
T
T
T
Z

+
+
+


= = =

Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil
crtico da distribuio normal ( ) 0,1 N
0.05
1.96 = Z , pelo que se conclui que no h
evidncia estatstica para rejeitar a hiptese nula.

A partir da estatstica 1.8226 Z = tambm se pode calcular a probabilidade limite:
0.0684 p value = , sendo a deciso a mesma que anteriormente.


16
Exemplo 2:

Os dados seguintes referem-se ao peso vivo aos 45 dias de um lote de borregos:

4.2 7.7 9.5 12.6
6.2 8 10.4 13.6
7.2 8.5 10.7 13.7
7.2 8.5 11.1 14
7.2 8.6 11.3 14.1

Pretende-se verificar se o peso mediano aos 45 dias de idade dos borregos deste rebanho
de 10 kg.

O teste de hipteses pretendido :

~ ~
0 1
: 10 : 10 H H =

No seguinte quadro apresenta-se o clculo da estatstica de teste T
+
e T

, conforme atrs
descrito. Chama-se a ateno para a existncia de alguns empates; devido a estes
empates, os nmeros de ordem das diferenas so 7.5 para os dois pesos 8.5 (pois
seriam a 7 e 8 observaes, e em caso de empate, recebem a mdia dos nmeros de
ordem que receberiam se no houvesse empate), e 13 para os trs pesos 7.2 kg (se no
houvesse empate, seriam os nmeros de ordem 12, 13 e 14, cuja mdia 13).


i
x
~
0 i i
d x =
i
d
Ordem (+) Ordem (-)
10.4 0.4 0.4 1
9.5 -0.5 0.5 2
10.7 0.7 0.7 3
11.1 1.1 1.1 4
11.3 1.3 1.3 5
8.6 -1.4 1.4 6
8.5 -1.5 1.5 7.5
8.5 -1.5 1.5 7.5
8 -2 2 9
7.7 -2.3 2.3 10
12.6 2.6 2.6 11
7.2 -2.8 2.8 13
7.2 -2.8 2.8 13
7.2 -2.8 2.8 13
13.6 3.6 3.6 15
13.7 3.7 3.7 16
6.2 -3.8 3.8 17
14 4 4 18
14.1 4.1 4.1 19
4.2 -5.8 5.8 20

92 T
+
= 118 T

=
17


O valor esperado de T :

( ) . 1
20 21
105
4 4
N N +

= =

Note-se que 92 T
+
= e 118 T

= so simtricos em torno do valor esperado(105).



A fim de calcular a estatstica de teste para proceder deciso do teste, temos em
primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros
so:

Mdia:
( ) . 1
20 21
105
4 4
T
N N

+
+

= = =

Varincia (note-se que existem dois grupos de observaes iguais,
respectivamente com 2 e com 3 observaes):

( )( ) ( ) ( )
3 3
3
2
2 3 2 3
. 1 2. 1
20 21 41
716.875
24 48 24 48
i i
T
u u N N N

+
+ +
+ +

= = =



A estatstica de teste ento:

92 105
0.4855
716.875
T
T
T
Z

+
+
+


= = =

Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil
crtico da distribuio normal ( ) 0,1 N
0.05
1.96 = Z , pelo que se conclui que no h
evidncia estatstica para rejeitar a hiptese nula.

A partir da estatstica 0.4855 Z = tambm se pode calcular a probabilidade limite:
0.6273 p value = , sendo a deciso a mesma que anteriormente.


3.3 Teste de Wilcoxon para duas amostras emparelhadas

Quando se tm pares de observaes ( ) ( )
1 1
, ,..., ,
N N
X Y X Y , e as diferenas
i i i
d X Y =
tm distribuio normal, usa-se o teste paramtrico t-Student para comparar as mdias
de duas amostras emparelhadas. Porm, se as diferenas
i i i
d X Y = no se distribuem
normalmente, pode usar-se o teste de Wilcoxon sobre as diferenas, desde que estas
tenham um comportamento contnuo e simtrico.

Neste caso, o teste de hipteses :

18

0 0 1 0
: :
d d
H H =

em que
d
a mdia das diferenas
i i i
d X Y = .

A estatstica de teste ( ) min ; T T
+
, isto , o valor mnimo da soma dos nmeros de
ordem associados aos valores positivos ou negativos de
0 i
d .

Exemplo:

Existem diversos mtodos de estimao do volume de madeira produzido pelas rvores,
nomeadamente modelos de estimao baseados no dimetro basal e modelos de
estimao baseados no dimetro altura do peito (dap).

Pretende-se comparar um mtodo de estimao baseado no dimetro basal com outro
mtodo baseado no dap. Para tal, os volumes (m3) de madeira dos mesmas 15 pinheiros
foram estimados pelos dois mtodos:

Basal 1.06 1.08 1.12 0.98 1.05 0.85 1.06 0.87 1.03 1.1 0.95 0.78 1.23 1.04 0.88
Dap 1.12 0.97 1.15 1.07 0.89 0.98 1.13 0.82 1.15 1.25 0.86 0.83 1.05 0.89 1.02

Como exposto, pretendendo testar se as estimativas pelos dois mtodos so idnticas,
ento a mdia das diferenas entre as observaes ser nula, e o teste de hipteses :


0 1
: 0 : 0
d d
H H =

em que
d
a mdia das diferenas
i i
i basal dap
d V V = .

No quadro seguinte apresentam-se os clculo do teste:

i
basal
V
i
dap
V
i i
i basal dap
d V V =
i
d
Ordem (+) Ordem (-)
1.06 1.12 -0.06 0.06 4
1.08 0.97 0.11 0.11 8
1.12 1.15 -0.03 0.03 1
0.98 1.07 -0.09 0.09 6.5
1.05 0.89 0.16 0.16 14
0.85 0.98 -0.13 0.13 10
1.06 1.13 -0.07 0.07 5
0.87 0.82 0.05 0.05 2.5
1.03 1.15 -0.12 0.12 9
1.1 1.25 -0.15 0.15 12.5
0.95 0.86 0.09 0.09 6.5
0.78 0.83 -0.05 0.05 2.5
1.23 1.05 0.18 0.18 15
1.04 0.89 0.15 0.15 12.5
0.88 1.02 -0.14 0.14 11

58.5 T
+
= 61.5 T

=

19
A fim de calcular a estatstica de teste para proceder deciso do teste, temos em
primeiro lugar de fazer a aproximao funo de distribuio normal. Os parmetros
desta aproximao so:

Mdia:
( ) . 1
15 16
60
4 4
T
N N

+
+

= = =

Varincia (note-se que existem trs grupos de observaes iguais, cada um com
2 observaes):

( )( ) ( ) ( )
3 3 3
3
2
2 2 2 2 2 2
. 1 2. 1
15 16 31
309.625
24 48 24 48
i i
T
u u N N N

+
+ + + +
+ +

= = =


A estatstica de teste ento:

58.5 60
0.0853
309.625
T
T
T
Z

+
+
+


= = =

Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil
crtico da distribuio normal ( ) 0,1 N
0.05
1.96 = Z , pelo que se conclui que no h
evidncia estatstica para rejeitar a hiptese nula.

A partir da estatstica 0.0853 Z = tambm se pode calcular a probabilidade limite:
0.932 p value = , sendo a deciso a mesma que anteriormente.

3.4 Teste de Mann-Whitney-Wilcoxon para duas amostras

O teste de Mann-Whitney-Wilcoxon (ou teste M-W-W) um teste no-paramtrico
alternativo ao teste t-Student para comparar as mdias de duas amostras independentes.

O nico pressuposto exigido para a aplicao do teste M-W-W que as duas amostras
sejam independentes e aleatrias, e que as variveis em anlise sejam numricas ou
ordinais (os pressupostos para a aplicabilidade do teste t-Student so mais exigentes: as
populaes de onde as amostras provm tm distribuio normal; as amostras so
independentes e aleatrias; as populaes tm uma varincia comum).

Sejam
1
N e
2
N os tamanhos das duas amostras.

O teste de hipteses subjacente :

H
0
: As duas amostras tm distribuies idnticas
H
1
: As duas amostras tm distribuies diferentes

Nota: o teste de hipteses tambm pode expressar-se pela comparao de medianas:

20

~ ~ ~ ~
0 1 1 2 1 2
: : H H =

A estatstica de teste U calculada como se descreve em seguida.

As observaes das duas amostras so combinadas numa nica varivel de
tamanho
1 2
N N + , sendo identificadas as respectivas provenincias.

O conjunto de observaes assim constitudo pela juno das duas amostras
ordenado por ordem crescente, atribuindo o nmero de ordem 1 observao
menor e o nmero de ordem
1 2
N N + observao maior. Caso haja empates
ou ties, a cada uma das observaes empatadas atribudo o nmero de
ordem mdio que essas observaes teriam se no estivessem empatadas.

De seguida, calculam-se as somas dos nmeros de ordem das observaes de
cada amostra:

1
: W soma dos nmeros de ordem das observaes da amostra 1;
2
: W soma dos nmeros de ordem das observaes da amostra 2;

Calculam-se as quantidades:

( )
2 2
1 1 2 2
. 1
.
2
N N
U N N W
+
= +

( )
1 1
2 1 2 1
. 1
.
2
N N
U N N W
+
= +

A estatstica de teste :

( )
1 2
min , U U U =

A hiptese nula estabelece que as duas amostras tm a mesma distribuio, e se tal
acontecer, as mdias (e tambm as medianas) das duas amostras so iguais.
Suponhamos que, na realidade, as duas amostras tm distribuio diferente, e
consideremos uma situao extrema em que tal acontece, que seria numa situao em
que todas as observaes de uma das amostras so inferiores menor observao da
outra amostra, tal como se ilustra no grfico seguinte:


Numa situao destas, provavelmente estaremos na disposio de aceitar a hiptese
alternativa como verdadeira, ou seja, deveremos rejeitar a hiptese nula.
21

Consideremos as duas amostras acima representadas graficamente; a partir deste grfico
possvel estabelecer os nmeros de ordem (no interessam os valores
i
x , mas sim a
ordem ou lugar que cada observao ocupa) de cada uma das amostras (cada ponto
representa uma observao):

Amostra 1 1 3 3 3 5.5 5.5 7 8.5 8.5 10
1
55 W =
Amostra 2 11 12.5 12.5 14.5 14.5 16.5 16.5 18.5 18.5 20
2
155 W =

( )
2 2
1 1 2 2
. 1
10 11
. 10 10 155 0
2 2
N N
U N N W
+

= + = + =

( )
1 1
2 1 2 1
. 1
10 11
. 10 10 55 100
2 2
N N
U N N W
+

= + = + =

A estatstica de teste ento ( ) ( )
1 2
min , min 0,100 0 U U U = = =

Se, pelo contrrio, tivssemos duas amostras cujas observaes fossem iguais aos pares
(a primeira observao da amostra A igual primeira observao da amostra B; etc), as
distribuies das duas amostras seriam exactamente iguais, sendo iguais os nmeros de
ordem das observaes em ambas as amostras, situao em que se deveria aceitar a
hiptese nula:


A partir deste grfico possvel estabelecer os nmeros de ordem de cada uma das
amostras:

Amostra A 1.5 3.5 5.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 105
A
W =
Amostra B 1.5 3.5 5.5 9.5 9.5 9.5 13.5 16.5 16.5 19.5 105
B
W =

( ) . 1
10 11
. 10 10 105 50
2 2
B B
A A B B
N N
U N N W
+

= + = + =

( ) . 1
10 11
. 10 10 105 50
2 2
A A
B A B A
N N
U N N W
+

= + = + =

A estatstica de teste ento ( ) ( ) min , min 50,50 50
A B
U U U = = =

Isto , valores grandes da estatstica U so favorveis aceitao da hiptese nula, e
valores pequenos de U so favorveis no aceitao da hiptese nula
22

Existem tabelas dos quantis da distribuio U de Mann-Whitney-Wilcoxon. Contudo,
chama-se a ateno para que se deve ter o cuidado de verificar qual a estatstica U a
que se refere a tabela.

Esta chamada de ateno prende-se com o facto de que alguns autores consideram a
estatstica U como sendo a estatstica atrs apresentada ( ( )
1 2
min , U U U = ); outros
autores consideram como sendo o valor
1
W (ou
2
W ) atrs calculados; outros ainda
consideram a estatstica
1 2 1
. U N N U = ou
1 2 2
. U N N U = (por exemplo, Zar, 1999)

O programa SPSS utiliza a estatstica ( )
1 2
min , U U U = aqui descrita. O programa
MINITAB considera a estatstica
1
U W = .

Em anexo apresenta-se a tabela dos valores crticos da estatstica ( )
1 2
min , U U U = ,
atrs descrita, e apresentada por J ohnson e Kuby (1999).

3.4.1 Aproximao do teste Mann-Whitney-Wilcoxon distribuio
normal

Se ambas as amostras em anlise tm tamanhos iguais ou superiores a 10 observaes,
pode fazer-se a aproximao funo de distribuio normal, com parmetros:

Valor esperado:
1 2
.
2
U
N N
=

Varincia:
( )
1 2 1 2 2
. . 1
12
U
N N N N

+ +
=

Se existem empates ou ties nos nmeros de ordem, deve fazer-se uma
correco no clculo da varincia; sendo
i
u os nmeros de nmeros de ordem
empatados, a expresso para clculo da varincia deve ser:

Varincia:
( )
3 3
2 1 2
2
.
12
i i
U
N N u u
N N
N N




A estatstica de teste ento:

( )
2
~ 0,1
U
U
U
Z

= N

Exemplo:

Num ensaio delineado com o objectivo de estimar os efeitos da inalao prolongada de
xido de cdmio, 15 cobaias foram sujeitas em laboratrio a um ambiente contaminado
23
com este xido, e 10 cobaias estiveram num ambiente normal sem essa contaminao
(grupo de controlo). A varivel de interesse a concentrao de hemoglobina aps o
ensaio:

Animais expostos Grupo de controlo
14.4 17.4
14.2 16.2
13.8 17.1
16.5 17.5
14.1 15.0
16.6 16.0
15.9 16.9
15.6 15.0
14.1 16.3
15.3 16.8
15.7
16.7
13.7
15.3
14.0

Pretende-se averiguar se a inalao prolongada de xido de cdmio altera o nvel de
hemoglobina.

O teste de hipteses pode expressar-se pela comparao de medianas:


~ ~ ~ ~
0 1 1 2 1 2
: : H H =

No quadro seguinte apresentam-se os clculos de
cadmio
W e
controlo
W :

Teor de hemoglobina Grupo Ordem (Cdmio) Ordem (Controlo)
13.7 Cdmio 1
13.8 Cdmio 2
14.0 Cdmio 3
14.1 Cdmio 4.5
14.1 Cdmio 4.5
14.2 Cdmio 6
14.4 Cdmio 7
15.0 Controlo 8.5
15.0 Controlo 8.5
15.3 Cdmio 10.5
15.3 Cdmio 10.5
15.6 Cdmio 12
15.7 Cdmio 13
15.9 Cdmio 14
16.0 Controlo 15
16.2 Controlo 16
16.3 Controlo 17
24
16.5 Cdmio 18
16.6 Cdmio 19
16.7 Cdmio 20
16.8 Controlo 21
16.9 Controlo 22
17.1 Controlo 23
17.4 Controlo 24
17.5 Controlo 25

145
cadmio
W = 180
controlo
W =


( ) . 1
10 11
. 15 10 180 25
2 2
ctr ctr
cad cad ctr ctr
N N
U N N W
+

= + = + =

( ) . 1
15 16
. 15 10 145 125
2 2
cad cad
ctr cad ctr cad
N N
U N N W
+

= + = + =

A estatstica de teste ( ) min , 25
cad ctr
U U U = =

Para um nvel de significncia 5% = , e
1
15 N = e
2
10 N = , o quantil crtico da
distribuio U de Mann-Whitney-Wilcoxon
( ) 0.05;15;10
45 U = , e como a estatstica de
teste 25 U = inferior a este valor crtico
2
, deve rejeitar-se a hiptese nula de que as
duas amostras tm a mesma mediana, ou seja, deve concluir-se que a exposio ao
xido de crmio afecta o nvel de hemoglobina nas cobaias.

Usando a aproximao distribuio normal, temos:

Valor esperado:
1 2
. 15 10
75
2 2
U
N N


= = =

Varincia:
( ) ( )
1 2 1 2 2
. . 1 15 10 15 10 1
325
12 12
U
N N N N

+ + + +
= = =

Note-se que existem 3 grupos de nmeros de ordem empatados, cada um com 2
empates; so nomeadamente os nmeros de ordem 4.5, 8.5 e 10.5. Assim, a varincia
deve ser calculada em funo de um factor de correco devida existncia destes
empates. A varincia a considerar deve ser a de seguida calculada, e no a anterior:

Varincia:







2
Como atrs se referiu, a rejeio da hiptese nula para valores pequenos da estatstica de teste U .
( )
( ) ( ) ( )
3 3
2 1 2
2
3 3 3 3
2
.
12
25 25 2 2 2 2 2 2
15 10
12 25 25
324.625
i i
U
N N u u
N N
N N


+ +

25
Note-se que os valores da varincia e da varincia corrigida so muito prximos; s
numa situao de existirem muitos nmeros de ordem empatados que estes dois
valores diferem apreciavelmente.

A estatstica de teste ento:


2
25 75
2.7751
324.625
U
U
U
Z


= = =

Para um nvel de significncia 5% = , e tratando-se de um teste bilateral, o quantil
crtico da distribuio normal ( ) 0,1 N
0.05
1.96 = Z , pelo que se conclui que se deve
rejeitar a hiptese nula.

A partir da estatstica 2.7751 Z = tambm se pode calcular a probabilidade limite:
0.0055 p value = , sendo a deciso a mesma que anteriormente.


4 Anlise de varincia

A anlise de varincia (ANOVA) uma metodologia estatstica cujo objectivo
comparar 2 k > amostras ou tratamentos, a fim de verificar se h diferenas
significativas entre as mdias dos tratamentos que sejam resultado dos efeitos dos
tratamentos. O modelo linear subjacente a uma anlise de varincia :

ij i ij
x = + +

em que
ij
x cada uma das 1,...,
i
j N = observaes do tratamento i , com 1,..., i k = ,
a mdia global de todas as N observaes,
i
o efeito do tratamento i , isto , a parte
da variabilidade que pode ser imputada ao facto de cada uma das amostras ter sido
objecto de um tratamento diferente, e
ij
a variabilidade residual ou erro
experimental, isto , a parte da variabilidade que no pode ser imputada aos tratamentos.

Recordemo-nos que os pressupostos subjacentes ao teste paramtrico t-Student para
comparar as mdias de duas amostras,
0 1 2
: H = , so:

i) cada uma das duas amostras provm de uma populao normal;
ii) as varincias so homogneas,
2 2
1 2
= .
iii) Os resduos so independentes, com distribuio normal e com varincia
finita e constante.

Se estes pressupostos so violados, deve usar-se um teste no paramtrico.

De modo similar, quando se pretendem comparar 2 k > mdias amostrais,
0 1 2
: ...
k
H = = = , pela metodologia de anlise de varincia, os pressupostos so
uma extenso dos anteriores:
26

cada uma das k amostras provm de uma populao normal;
as varincias das k amostras so homogneas,
2 2 2
1 2
...
k
= = = e constantes;
Os erros ou resduos
ij
(tal que
ij i ij
x = + + , sendo
i
o efeito do tratamento)
tm distribuio normal;
Os erros ou resduos
ij
tm varincia finita e constante
2
(esta propriedade
denomina-se por homoscedasticidade);
Os erros ou resduos
ij
so independentes.

Est provado que a ANOVA uma metodologia estatstica bastante robusta,
relativamente a pressupostos das distribuies das populaes e da homogeneidade das
varincias das amostras ou tratamentos.

Se os tamanhos
i
N de cada uma das amostras (isto , o nmero de repeties) so iguais
para todas as amostras, a ANOVA robusta no que se refere homogeneidade das
varincias.

Se os tamanhos
i
N so bastante diferentes, ento a probabilidade de cometer erro do
tipo I afasta-se do nvel de significncia , sendo este afastamento dependente da
heterogeneidade das varincias: se as varincias maiores esto associadas s amostras
com maior nmero de repeties, a probabilidade de erro tipo I ser menor que ; se as
maiores varincias esto associadas s amostras de menor dimenso, ento a
probabilidade de erro tipo I maior que .

A validade da ANOVA apenas ligeiramente afectada pela violao do pressuposto da
normalidade (simetria e achatamento), especialmente se
i
N so grandes. Se as
populaes subjacentes so muito achatadas (platicrticas) e
i
N so pequenos, a
potncia da ANOVA diminuir. Se as populaes so pouco achatadas (muito elevadas
no centro da distribuio ou leptocrticas) e os tamanhos
i
N so pequenos, a potncia
do teste aumenta.

Assim, a validade do teste da ANOVA prevalece vlido a no ser que as violaes dos
pressupostos sejam muito graves, situao em que se dever usar um teste de anlise de
varincia no paramtrico que no exige tais pressupostos.


4.1 Teste de Kruskal-Wallis

O teste de Kruskal-Wallis ou anlise de varincia pelos nmeros de ordem (ranks)
pode ser utilizado nos casos em que se utiliza o teste paramtrico da ANOVA, sendo
apenas ligeiramente menos potente. Alm disso, deve ser utilizado nas situaes em que
a ANOVA paramtrica no pode ser utilizada, nomeadamente quando as k amostras
no provm de populaes normais, ou quando as varincias so muito heterogneas.

Quando 2 k = , o teste de Kruskal-Wallis idntico ao teste de Mann-Whitney-
Wilcoxon.
27

Sejam k as amostras em anlise, cada um com
i
N repeties, e
1
k
i
i
N N
=
=

o nmero
total de observaes. Pretende-se verificar se as k amostras (ou tratamentos, como
geralmente so designados) tm distribuies idnticas.

O teste de hipteses :

0
: H As distribuies das k amostras so idnticas;
1
: H As distribuies das k amostras diferem na localizao.

(note-se que, semelhana dos demais testes no paramtricos, a formulao do teste de
hipteses no deve usar os parmetros populacionais).
A estatstica de teste :

( )
( )
2
1
12
3. 1
. 1
k
i
i
i
R
H N
N N N
=
= +
+



onde
i
R a soma dos nmeros de ordem das
i
N observaes do grupo ou tratamento i
(note-se que a soma de todos os nmeros de ordem de todos os tratamentos deve ser
igual a ( ) . 1 2 N N + ).

Se existem nmeros de ordem empatados, a estatstica de teste deve ser corrigida para
esta situao. Para tal, calcula-se o factor de correco:


( )
3
1
3
1
m
i
i
u u
C
N N
=

=



e a estatstica de teste corrigida :


c
H
H
C
=

onde
i
u o nmero de empates em cada grupo, e m o nmero de grupos de nmeros
de ordem empatados. Note-se que
c
H ser pouco diferente de H , quando os
i
u so
pequenos comparativamente a N .

Para atribuir os nmeros de ordem s observaes, procede-se tal como no teste de
Mann-Whitney-Wilcoxon, isto , juntam-se as observaes de todos os tratamentos, e
ordenam-se todas as observaes. Quando existem observaes iguais (empates ou ties),
o nmero de ordem a atribuir a cada uma das observaes empatadas o nmero de
ordem mdio dos nmeros de ordem que essas observaes teriam se no estivessem
empatadas.

28
A estatstica H (ou
c
H ) avalia em que medida as k amostras ou tratamentos diferem,
relativamente aos respectivos nmeros de ordem. Esta ideia pode mais facilmente
percebe-se se dermos expresso de clculo de H uma forma equivalente:

( )
( )
2
1
12
.
. 1
k
i i
i
H n R R
N N
=
=
+



em que i R a mdia dos nmeros de ordem da i.sima amostra e R a mdia de todos
os nmeros de ordem (isto , ( ) 1 2 R n = + . Como facilmente se percebe, a estatstica
H nula quando todas as mdias dos nmeros de ordem so iguais, e aumenta medida
que as mdias dos nmeros de ordem das amostras diferem. Isto , para valores grandes
de H deve rejeitar-se a hiptese nula. Assim, a regio de rejeio est toda localizada na
cauda superior da distribuio de H .

Os valores crticos da distribuio da estatstica de teste H (ou
c
H ) apresentam-se na
tabela em anexo, para 5 k tratamentos.

Para grandes amostras, ou 5 k > tratamentos, a estatstica de teste H (ou
c
H )
aproxima-se a uma distribuio
2
(qui-quadrado) com 1 k graus de liberdade. Como
atrs se referiu a propsito da regio de rejeio, esta est localizada na cauda superior
da distribuio.

Exemplo 1:

Considere os seguintes 3 tratamentos, A, B, C, cada um com 7 repeties:

Tratamento A 9 13 11 10 9 14 10
Tratamento B 11 13 12 15 8 12 12
Tratamento C 18 13 12 16 10 16 15

Pretende-se averiguar se trs tratamentos conduzem a resultados iguais, isto :

0
: H Os trs tratamentos tm a mesma distribuio;
1
: H Os trs tratamentos no tm a mesma distribuio.
29

No quadro seguinte apresentam-se os nmeros de ordem atribudos a cada uma das
observaes, aps ter juntado e ordenado todas as observaes dos trs tratamentos:

Aps ter atribudo os nmeros de ordem, conveniente separar de novo as observaes
por tratamento, a fim de prosseguir com os clculos:

Tratamento A Tratamento B Tratamento C
x Ordem x Ordem x Ordem
9 2.5 8 1 10 5
9 2.5 11 7.5 12 10.5
10 5 12 10.5 13 14
10 5 12 10.5 15 17.5
11 7.5 12 10.5 16 19.5
13 14 13 14 16 19.5
14 16 15 17.5 18 21
1
52.5 R =
2
71.5 R =
3
107 R =

A estatstica de teste (sem correco devida aos empates) :

( )
( )
2 2 2 2
1
12 12 52.5 71.5 107
3. 1 3 22 5.6790
. 1 21 22 7
k
i
i
i
R
H N
N N N
=
+ +
= + = =
+



Como existem 7 m = grupos de observaes empatadas, respectivamente com 2, 3, 2, 4,
3, 2 e 2 observaes, deve fazer-se a correco da estatstica de teste; o factor de
correco :

x Tratamento Ordem
8 B 1
9 A 2.5
9 A 2.5
10 A 5
10 A 5
10 C 5
11 A 7.5
11 B 7.5
12 B 10.5
12 B 10.5
12 B 10.5
12 C 10.5
13 A 14
13 B 14
13 C 14
14 A 16
15 B 17.5
15 C 17.5
16 C 19.5
16 C 19.5
18 C 21
30
( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
3
3 3 3 3 3 3 3
1
3 3
2 2 3 3 2 2 4 4 3 3 2 2 2 2
1 1
21 21
0.9857
m
i
i
u u
C
N N
=

+ + + + + +
= =

=


A estatstica de teste corrigida ento:

5.6790
5.7614
0.9857
c
H
H
C
= = =

Para um nvel de significncia 5% = , e para trs tratamentos, cada um com 7
repeties, o valor crtico da distribuio da estatstica H
( ) 0.05;7;7;7
5.819 H = ; como a
estatstica de teste
( ) 0.05;7;7;7
5.7614 5.819
c
H H = < = , conclui-se que no h evidncia
estatstica para rejeitar a hiptese nula.

Procedendo aproximao distribuio
2
, para um nvel de significncia 5% = e
para 1 3 1 2 k = = = graus de liberdade, o valor crtico
( )
2
0.05;2
5.9915 = ; como
( )
2
0.05;2
5.7614 5.9915
c
H = < = , conclui-se que no se deve rejeitar a hiptese nula. O
valor da probabilidade limite 0.0561 p value = .


Exemplo 2:

Num estudo de limnologia mediu-se o pH de oito amostras de gua de cada uma de
quatro barragens. Os valores so os seguintes:

Barragem 1 Barragem 2 Barragem 3 Barragem 4
7.68 7.71 7.74 7.71
7.69 7.73 7.75 7.71
7.70 7.74 7.77 7.74
7.70 7.74 7.78 7.79
7.72 7.78 7.80 7.81
7.73 7.78 7.81 7.85
7.73 7.80 7.84 7.87
7.76 7.81 7.86 7.91

Pretende-se averiguar se as guas das quatro origens tm o mesmo valor de pH, isto :

0
: H O valor do pH da gua o mesmo nas 4 barragens;
1
: H O valor do pH da gua no o mesmo nas 4 barragens.

Cada um dos quatro tratamentos (barragens) tem 8
i
N = (i=1,2,3,4) observaes,
sendo 32 N = .

No quadro seguinte apresentam-se os clculos dos nmeros de ordem de cada
observao, aps ter juntado num nico vector todas as 32 observaes :
31



Aps ter ordenado por ordem crescente todas as observaes, e atribudo os respectivos
nmeros de ordem, conveniente dispor novamente as observaes isoladas por
tratamento, a fim de facilitar os clculos subsequentes:

PH Ordem pH Ordem pH Ordem pH Ordem
7.68 1 7.71 6 7.74 13.5 7.71 6
7.69 2 7.73 10 7.75 16 7.71 6
7.70 3.5 7.74 13.5 7.77 18 7.74 13.5
7.70 3.5 7.74 13.5 7.78 20 7.79 22
7.72 8 7.78 20 7.80 23.5 7.81 26
7.73 10 7.78 20 7.81 26 7.85 29
7.73 10 7.80 23.5 7.84 28 7.87 31
7.76 17 7.81 26 7.86 30 7.91 32


1
55 R =


2
132.5 R =


3
175 R =


4
165.5 R =

A estatstica de teste (sem correco devida aos empates) :

pH Barragem Nmero de ordem
7.68 1 1
7.69 1 2
7.70 1 3.5
7.70 1 3.5
7.71 2 6
7.71 4 6
7.71 4 6
7.72 1 8
7.73 1 10
7.73 1 10
7.73 2 10
7.74 2 13.5
7.74 2 13.5
7.74 3 13.5
7.74 4 13.5
7.75 3 16
7.76 1 17
7.77 3 18
7.78 2 20
7.78 2 20
7.78 3 20
7.79 4 22
7.80 2 23.5
7.80 3 23.5
7.81 2 26
7.81 3 26
7.81 4 26
7.84 3 28
7.85 4 29
7.86 3 30
7.87 4 31
7.91 4 32
32
( )
( )
2 2 2 2 2
1
12 12 55 132.5 175 165.5
3. 1 3 33
. 1 32 33 8
12.6428
k
i
i
i
R
H N
N N N
=
+ + +
= + =

+

=



Como existem 7 m = grupos de observaes empatadas, respectivamente com 2, 3, 3, 4,
3, 2 e 3 observaes, deve fazer-se a correco da estatstica de teste; o factor de
correco :

( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
3
3 3 3 3 3 3 3
1
3 3
2 2 3 3 3 3 4 4 3 3 2 2 3 3
1 1
32 32
0.9949
m
i
i
u u
C
N N
=

+ + + + + +
= =

=


A estatstica de teste corrigida ento:

12.6428
12.7076
0.9949
c
H
H
C
= = =

Para um nvel de significncia 5% = e para 1 4 1 3 k = = = graus de liberdade, e
fazendo a aproximao distribuio
2
, o valor crtico
( )
2
0.05;3
7.815 = ; como
( )
2
0.05;3
12.7076 7.815
c
H = > = , deve rejeitar-se a hiptese nula.

O valor crtico da distribuio
2
est tabelado (tabela em anexo), ou pode usar-se a
funo ( ) . ; INV CHI da folha de clculo EXCEL:




A probabilidade limite pode calcular-se para o valor da estatstica de teste, com a funo
( ) . ;
c
DIST CHI H da folha de clculo:

33


Isto , 0.0053 p value = , sendo a concluso a de rejeitar
0
H .

4.2 Teste de Friedman

O teste de Friedman um teste no paramtrico que pode ser efectuado para analisar os
resultados de um delineamento experimental em blocos casualizados, quando no so
cumpridos os pressupostos necessrios anlise de varincia paramtrica,
nomeadamente no que se refere normalidade e homoscedasticidade.

Se os pressupostos de aplicabilidade da anlise de varincia paramtrica so cumpridos,
a utilizao do teste de Friedman menos potente que o teste paramtrico
correspondente; assim, se 3 k = , a potncia do teste de Friedman de 72%
comparativamente potncia do teste paramtrico; para um grande nmero de
tratamentos, esta percentagem pode ir at cerca de 95%. Contudo, o inverso tambm
vlido. Assim, se os pressupostos no se verificam, deve usar-se o teste de Friedman.

O teste de hiptese, , tal como no teste de Kruskal-Wallis:

0
: H As distribuies das k amostras so idnticas;
1
: H As distribuies das k amostras diferem na localizao.

Seja um delineamento em blocos casualizados, com k tratamentos e b blocos. Dentro
de cada um dos b blocos, as observaes so ordenadas por ordem crescente, e
atribudos nmeros de ordem. De seguida, somam-se os nmeros de ordem (atribudos
por bloco) dentro de cada um dos tratamentos (
i
R ).

A estatstica de teste (aqui designada por
2
) calculada pela expresso:

( )
( )
2 2
1
12
3. . 1
. . 1
k
i
i
R b k
b k k
=
= +
+



Para 2 k = , o teste
r
F de Friedman equivalente ao teste de Wilcoxon. Se 2 b = , deve
usar-se o coeficiente de correlao no paramtrico de Spearman..
34

A expresso anterior pode escrever-se como:

( )
( )
2
2
1
12
. . 1
k
i
i
b R R
b k k
=
=
+



em que
i
R a mdia dos nmeros de ordem do i.simo tratamento e R a mdia
global dos nmeros de ordem. A estatstica
2
vale zero quando todos os tratamentos
tm a mesma mdia dos nmeros de ordem, e aumenta medida que as mdias dos
nmeros de ordem dos diferentes tratamentos diferem.

Os valores crticos da distribuio da estatstica
2
encontram-se tabelados (tabela em
anexo) para at 6 tratamentos e 10 blocos. Para valores de k e de b superiores, a
estatstica
2
deve ser aproximada pela distribuio
2
, com 1 k graus de liberdade.
Os programas SPSS e MINITAB consideram esta estatstica de teste.

Porm, est demostrado que esta aproximao distribuio
2
demasiado
conservadora, isto , com muita propenso para causar erro do tipo II, ou seja, pouco
potente. A aproximao:


( )
( )
2
2
1 .
. 1
r
b
F
b k

=



com distribuio Fde Fisher, com ( ) 1 k e ( )( ) 1 1 k b graus de liberdade
geralmente superior. Contudo, a maioria dos programas estatsticos continua a usar a
aproximao distribuio
2
.

Exemplo:

Num ensaio de alimentao de porcos, pretende-se avaliar o efeito de 4 dietas
alimentares. Cada animal em teste mantido isolado numa jaula. As jaulas so
agrupadas em grupos de 4, tendo-se constitudo 5 grupos (blocos) de 4 jaulas. Cada
bloco ou grupo de jaulas so mantidas em condies que podem ser consideradas
idnticas em termos ambientais (luz, temperatura, rudo, etc). Em cada um dos blocos,
atribudo de modo completamente aleatrio uma das quatro dietas a cada um dos
animais do bloco de jaulas, de modo que em cada bloco de jaulas h um animal com
cada uma das quatro dietas. A varivel resposta o ganho de peso de cada um dos
animais (unidade experimental):

Dieta 1 Dieta 2 Dieta 3 Dieta 4
Bloco 1 7.0 5.3 4.9 8.8
Bloco 2 9.9 5.7 7.6 8.9
Bloco 3 8.5 4.7 5.5 8.1
Bloco 4 5.1 3.5 2.8 3.3
Bloco 5 10.3 7.7 8.4 9.1

35

O teste de hipteses :

0
: H Os ganhos de peso so iguais para as quatro dietas;
1
: H Os ganhos de peso no so iguais para as quatro dietas.

Tal como atrs exposto, ordenam-se as observaes e so atribudos nmeros de ordem
dentro de cada bloco. Na tabela seguinte, apresentam-se, entre parntesis, os nmeros de
ordem atribudos a cada uma das observaes, dentro de cada um dos blocos. De
seguida, somam-se os nmeros de ordem por tratamento ou dieta (
i
R ):

Dieta 1 Dieta 2 Dieta 3 Dieta 4
Bloco 1
Nmero de ordem
7.0
(3)
5.3
(2)
4.9
(1)
8.8
(4)
Bloco 2
Nmero de ordem
9.9
(4)
5.7
(1)
7.6
(2)
8.9
(3)
Bloco 3
Nmero de ordem
8.5
(4)
4.7
(1)
5.5
(2)
8.1
(3)
Bloco 4
Nmero de ordem
5.1
(4)
3.5
(3)
2.8
(1)
3.3
(2)
Bloco 5
Nmero de ordem
10.3
(4)
7.7
(1)
8.4
(2)
9.1
(3)
i
R
1
19 R =
2
8 R =
3
8 R =
4
15 R =

Sendo 5 b = blocos e 4 k = , tratamentos, 20 N = , o clculo da estatstica de teste de
Friedman :

( )
( ) ( )
2 2 2 2 2 2
1
12 12
3. . 1 19 8 8 15 3 5 5 10.68
. . 1 5 4 5
k
i
i
R b k
b k k
=
= + = + + + =
+



Para um nvel de significncia 5% = , o valor crtico da distribuio
2

( )
2
0.05;3
7.8147 = ; como
( )
2 2
0.05;3
10.68 7.8147 = > = , deve rejeitar-se a hiptese nula.
Chegar-se- mesma concluso de rejeio da hiptese nula se calcularmos a
probabilidade limite: 0.0136 p value = .

Caso se pretenda usar a aproximao distribuio F, calcula-se a estatstica:

( )
( )
2
2
1 .
4 10.68
9.8889
. 1 5 3 10.68
r
b
F
b k


= = =



Como
( ) 0.05;3;12
9.8889 3.49
r
F = > = F (o valor crtico da distribuio F pode calcular-se
com a funo ( ) 0.05;3;12 INVF da folha de clculo), rejeita-se a hiptese nula. A
probabilidade limite para a estatstica 9.8889
r
F = 0.0254 p value = (pode calcular-
se com a funo ( ) 9.8889;3;12 DISTF da folha de clculo).

36
5 Coeficiente de correlao de Spearman

O coeficiente de correlao linear r entre as variveis X e Y mede o grau de associao
ou de relao linear mtua entre as variveis X e Y, e calculado pela expresso:


1 1
1
2 2
2 2 1 1
1 1
N N
i i N
i i
i i
i
N N
i i
N N
i i
i i
i i
x y
x y
N
r
x y
x y
N N
= =
=
= =
= =





O coeficiente de correlao adimensional e situa-se no intervalo 1 1 r . A validade
estatstica do coeficiente de correlao linear pressupe que as duas variveis so
aleatrias e provm de uma populao normal bivariada.

Caso este pressuposto seja gravemente violado, aconselhado quantificar o grau de
associao ou correlao entre as variveis X e Y usando um coeficiente no
paramtrico, baseado nos nmeros de ordem (rank) dos pares (X,Y) das observaes
em cada uma das variveis.

O coeficiente de correlao de Spearman, ou rank correlacion calculado pela
seguinte expresso:


2
1
3
6
1
N
i
i
s
d
r
N N
=



onde
i
d a diferena entre os nmeros de ordem das observaes
i
x e
i
y , isto ,

i i i
d n ordemde x n ordemde y = . O coeficiente de correlao
s
r adimensional e
situa-se no intervalo 1 1 r .

Se existem observaes empatadas, o valor do coeficiente de correlao corrigido :

( )
3
2
1
3 3
6
2 2
6 6
N
i x y
i
s
c
x y
N N
d u u
r
N N N N
u u
=


=








em que:

37
( )
3
1
12
i i
m
x x
i
x
u u
u
=

=

a soma do nmero de observaes com nmeros de ordem das


observaes X empatadas;

( )
3
1
12
i i
m
y y
i
x
u u
y
=

=

a soma do nmero de observaes com nmeros de ordem das


observaes Y empatadas.

Existem tabelas de significncia do coeficiente de correlao de Spearman (em anexo).
Contudo, a significncia do coeficiente de regresso, isto , o teste de hipteses:

0
: H X e Y no esto correlacionadas;
1
: H X e Y esto correlacionadas.
equivalente a:


0 1
: 0 : 0
s s
H r H r =

pode mais rigorosamente ser decidido pela aproximao da distribuio do coeficiente
s
r funo de distribuio normal, pela expresso:

( )
3 1
ln ~ 0,1
2 1
N r
Z
r
+
=


N


Exemplo 1:

As variveis X e Y so respectivamente as classificaes (em percentagem) em
Matemtica e em Biologia de uma turma de 10 alunos. Para calcular o coeficiente
s
r ,
foram atribudos os nmeros de ordem a cada valor
i
x e
i
y :

Aluno Mat. (
i
x ) Ordem
i
x Biol. (
i
y ) Ordem
i
y
i
d
2
i
d
1 57 3 83 7 -4 16
2 45 1 37 1 0 0
3 72 7 41 2 5 25
4 78 8 84 8 0 0
5 53 2 56 3 -1 1
6 63 5 85 9 -4 16
7 86 9 77 6 3 9
8 98 10 87 10 0 0
9 59 4 70 5 -1 1
10 71 6 59 4 2 4

Como se verifica, em nenhuma das variveis existem empates. Aplicando a expresso
de clculo, temos:
38

2
1
3 3
6
6 72
1 1 0.5636
10 10
N
i
i
s
d
r
N N
=

= = =



Consultando a tabela de significncia dos coeficientes de correlao de Spearman em
anexo, para uma amostra de 10 N = observaes e para um nvel de significncia
5% = ,
s
r significativo, isto , existe correlao ou associao entre X e Y, para
valores 0.648
s
r > . Assim, devemos concluir que no existe, no exemplo apresentado,
correlao significativa entre as classificaes obtidas em Matemtica e em Biologia.

Procedendo aproximao distribuio normal, tem-se:

3 1 7 1 0.5636
ln ln 1.6882
2 1 2 1 0.5636
N r
Z
r
+ +
= = =





que conduz probabilidade limite 0.0914 p value = .

Exemplo 2:

Em estudos de ornitologia considera-se haver uma associao entre a envergadura das
asas e o comprimento da cauda das aves. Os seguintes dados referem-se envergadura
de asas (X, em cm) e o comprimento da cauda (Y, em cm) de uma espcie de tordos:

X 10.4 10.8 11.1 10.2 10.3 10.2 10.7 10.5 10.8 11.2 10.6 11.4
Y 7.4 7.6 7.9 7.2 7.4 7.1 7.4 7.2 7.8 7.7 7.8 8.3

Em ambas as variveis existem observaes empatadas; na varivel X existem 2 grupos,
cada um com 2 observaes; na varivel Y existem 3 grupos, havendo dois grupos com
2 observaes e um com 3 observaes. Para calcular o coeficiente
s
r , foram atribudos
os nmeros de ordem a cada valor
i
x e
i
y :

Tordo Asa (
i
x ) Ordem
i
x Cauda (
i
y ) Ordem
i
y
i
d
2
i
d
1 10.4 4 7.4 5 -1 1
2 10.8 8.5 7.6 7 1.5 2.25
3 11.1 10 7.9 11 -1 1
4 10.2 1.5 7.2 2.5 -1 1
5 10.3 3 7.4 5 -2 4
6 10.2 1.5 7.1 1 0.5 0.25
7 10.7 7 7.4 5 2 4
8 10.5 5 7.2 2.5 2.5 6.25
9 10.8 8.5 7.8 9.5 -1 1
10 11.2 11 7.7 8 3 9
11 10.6 6 7.8 9.5 -3.5 12.25
12 11.4 12 8.3 12 0 0


39
Como existem observaes empatadas, vamos em primeiro lugar calcular:

( )
( ) ( )
3
3 3
1
2 2 2 2
1
12 12
i i
m
x x
i
x
u u
u
=

+
= = =



( )
( ) ( ) ( )
3
3 3 3
1
2 2 3 3 2 2
3
12 12
i i
m
y y
i
x
u u
y
=

+ +
= = =




O coeficiente de correlao corrigido devido a empates :

( )
3
3
2
1
3 3 3 3
12 12
42 1 3
6
6
12 12 12 12
2 2 2 1 2 3
6 6 6 6
0.8511
N
i x y
i
s
c
x y
N N
d u u
r
N N N N
u u
=




= =




=




Este valor significativo, pois ( ) ( )
( ) 0.05;12
0.8511 0.587
s s
c
r r = > = (valor crtico
tabelado); ou, pela aproximao normal, chaga-se mesma concluso:

3 1 9 1 0.8511
ln ln 3.7804
2 1 2 1 0.8511
N r
Z
r
+ +
= = =





sendo 0.0002 p value = .

40
Bibliografia


Daniel, Wayne W. (1995) Bioestadstica. Base para el anlisis de las ciencias de la
salud. Editorial Limusa, Mxico.

Devore, J ay L. (2000) Probability and Statistics for engineering and the sciences.
Duxbury, Australia.

Guimares, Rui Campos; Cabral, J os A. Sarsfield (1997) Estatstica. McGraw-Hill,
Portugal.

Hicks, Charles R. e Turner J r., Kenneth V. (1999) Fundamental concepts in the design
of experiments. Fifth edition. Oxford University Press, USA.

J ohnson, Robert e Kuby, Patricia (1999) Elementary statistics. Eighth edition. Duxbury,
USA.

McClave, J ames T. e Sincich, Terry (2000) Statistics. Eighth Edition. Prentice Hall,
USA.

Montgomery, Douglas C. (2001) Design and analysis of experiments. 5.th edition.
J ohn Wiley and Sons, USA.

Montgomery, Douglas C. e Runger, George C. (1999) Applied statistics and probability
for engineers. Second edition. J ohn Wiley and Sons, USA.

Snedecor, George W. e Cochran, William G. (1980) Statistical methods. Seventh
edition. Iowa State University Press, USA.

Walpone, Ronald E. (1999) Probabilidad y Estadstica para ingenieros. Sexta edicin.
Prentice Hall, Mxico.

Zar, J errold H. (1999) Biostatistical analysis. Fourth edition. Prentice Hall, USA.

Você também pode gostar