Você está na página 1de 15

1.

ANÁLISE DA VARIÂNCIA SIMPLES

1.1. Introdução.

O problema da comparação de populações é dos mais frequentes na


prática e, por isso, a teoria estatística que responde a este tipo de situações
está bastante desenvolvida, principalmente, no caso em que as populações
em estudo têm distribuição aproximadamente normal. Na maior parte das
situações reais, o problema da comparação de populações pode-se
formalizar como um teste de igualdade entre dois ou mais valores
médios.

Teste na igualdade de dois valores médios

Nos pressupostos:

• (X
11 ) ( ) (
, X12 ,..., X1n ∩ N µ1 ,σ 2 e X21 , X22 ,..., X2n ∩ N µ2 ,σ 2 ;
1 2
) ( )
• as amostras são independentes;

pretende-se testar

H 0: µ 1 = µ 2 contra H 1: µ 1 ≠ µ 2,

(ou H1: µ1 > µ2 ou H1: µ1 < µ2).

Este é um problema clássico da estatística cuja solução se baseia no facto


de que, nos pressupostos estabelecidos:

⎛ ⎛1 1 ⎞⎞
• X1 − X2 ∩ N ⎜ µ1 − µ2 ,σ 2 ⎜ + ⎟⎟
⎝ ⎝ n1 n2 ⎠ ⎠

• o estimador da variância comum às duas populações, dado por


n

( ) n1S12 + n2S22
2
1 j 2
S = 2
T ∑∑ X − Xj
n1 + n2 − 2 j =1 i=1 ij
=
n1 + n2 − 2

( )
é tal que n1 + n2 − 2 ST2 σ 2 ∩ χ n2 +n −2 e é independente de X1 − X2 .
1 2

A estatística de teste é dada por

X1 − X2
T = ∩ t(n +n −2)
1 1 1 2

ST +
n1 n2
H0
Análise da variância simples 2

providenciando um teste cujas boas propriedades fazem com que seja


dos mais utilizados na prática estatística.

Características do teste t para a igualdade de médias

• O teste t é equivalente ao teste da razão de verosimilhanças


generalizada.
• O teste t é robusto, isto é, a estatística de teste mantém
aproximadamente a sua distribuição de probabilidade mesmo quando
alguns dos pressupostos não são verificados como, por exemplo, a não
normalidade das populações em estudo.
Para amostras não gaussianas, o teorema do limite central
conjuntamente com a convergência em probabilidade do estimador da
variância, isto é,

P
ST2 ⎯⎯ →σ 2

garante que a distribuição da estatística de teste T é bem aproximada, para


valores grandes de n1 e n2, pela normal padrão. Por razões semelhantes,
um teste assintotico para a igualdade de valores médios quando as
variâncias das duas populações são diferentes é dado por

X1 − X2
T = ,
S12 S22
+
n1 n2

que tem, também, distribuição assintotica normal padrão.

Pelas boas propriedades e pela robustez do teste de igualdade de médias


em populações normais será natural tomá-lo como base para uma
generalização à comparação de um conjunto de quaisquer I médias, I≥2.

O modelo de Análise da Variância

Neste capítulo vamos supor que:

( ) ( )
• Dispomos de I amostras, X i1 , X i2 ,..., X in ∩ N µi ,σ 2 , i = 1,...,I;
i

• as amostras são independentes entre si

Pretendemos construir um teste para a hipótese nula:

H0: µ1 = µ2 = ... = µI (1.1)

contra a alternativa de que existe pelo menos um µi que é diferente dos


outros. Sendo assim, cada observação pode-se escrever na forma
Análise da variância simples 3

X ij = µi + ε ij , i = 1,...,I , j = 1,...,ni, (1.2)

em que os µi são constantes (os valores médios de cada população) e os εij


são variáveis aleatórias i.i.d. com distribuição normal, N(0,σ2), em que σ2
denota agora a variância comum às várias populações. Seja ainda N o
número total de observações,

I
N= ∑n . i
i=1

NOTA

Dizemos que o conjunto das observações segue um modelo de Análise da


Variância porque, como veremos, a estatística para este teste baseia-se na
comparação entre o estimador da variância da população obtido a partir das
médias, admitindo que estas são iguais, com o estimador da variância da
população obtido a partir da média ponderada das variâncias empíricas de
cada população.

1.2. Do teste de igualdade de médias à análise de variância.

Comecemos por reparar que o teste baseado na estatística T para as


hipóteses

H 0: µ 1 = µ 2 contra H 1: µ 1 ≠ µ 2,

é equivalente à regra de teste em que se rejeita sempre que

( )
2
n1n2 X1 − X2
2
T = 1−α
> F1,n +n −2
,
NST2 1 2

em que F1,n
1−α
+n −2
é o quantil de ordem 1-α da distribuição F com 1 g. l. no
1 2

numerador e n1+n2-2 g.l. de liberdade no denominador, pois

2 Z2 χ(1)
2

T
(n)
= = ∩ F1;n
χ(n)
2
χ(n)
2

n n

Note-se que, como estamos a testar uma hipótese alternativa bilateral, é


equivalente utilizar a estatística T ou o seu quadrado.

O que vamos ver é uma representação alternativa para T2 que torna


muito intuitiva a generalização do teste a um conjunto de I populações.
Assim, comecemos por denotar
Análise da variância simples 4

n
1 2 i n X + n2 X2
X = ∑ ∑ X ij = 1 1 ,
N i=1 j =1 n1 + n2

isto é, X representa a média global de todas as observações contidas nas


duas amostras. Com esta notação, podemos escrever

2
⎛ n X + n2 X2 ⎞ n22
(X ) ( )
2 2

1
−X = ⎜ X1 − 1 1 ⎟ = X − X2
⎝ n1 + n2 ⎠ N2 1

e, analogamente,

2
⎛ n X + n2 X2 ⎞ n12
(X ) ( )
2 2

2
−X = ⎜ X2 − 1 1 ⎟ = X1 − X2 .
⎝ n1 + n2 ⎠ N 2

Vem então que

n1n2
( ) ( ) (X )
2 2 2
n1 X1 − X + n2 X2 − X = 1
− X2
N

de modo que a estatística de teste T2 pode ser escrita na forma

( ) ( )
2 2

2
n1 X1 − X + n2 X2 − X
T = .
ST2

O numerador desta estatística de teste exprime a variabilidade das


médias das duas populações em torno de uma média global. Sob H0,
essa variabilidade está directamente relacionada com a variância comum σ2.
Podemos generalizar esta medida a I populações considerando:

∑ n (X )
I 2
SQext = i i
−X
i=1

em que

ni n
1 1 I i
Xi =
ni
∑X ij
e X = ∑ ∑ X ij .
N i=1 j =1
j =1

Por outro lado, o estimador da variância comum pode facilmente ser


adaptado ao caso de I populações, tomando

( )
I n
1 i 2
ST2 = ∑ ∑ X − Xi
N − I i=1 j =1 ij
.
Análise da variância simples 5

Para compreender a relação entre SQext e ST2 , bem como o seu papel na
construção da estatística de teste, vamos definir o que se costuma chamar
a variabilidade total da amostr,

∑ ∑ (X )
I ni
2
SQTot = ij
−X .
i=1 j =1

A variabilidade total da amostra está relacionada com as duas quantidades


definidas anteriormente:

∑∑( ) ∑ ∑ (X )
I ni I ni
2 2
X ij − X = ij
− Xi + Xi − X
i=1 j =1 i=1 j =1

∑∑( ) ( ) ( X − X ).
ni ni

( )
I 2 I 2 I
= X ij − X i + ∑ ni X i − X + 2∑ ∑ X ij − X i i
i=1 j =1 i=1 i=1 j =1

Acontece que o termo rectangular é nulo porque

⎡ ⎤
∑ ∑ (X ) ( X − X ) = ∑ ⎢⎢( X − X ) ∑ ( X )
ni ni

∑ (X )( )
I I I

ij
− Xi i i ij
− Xi ⎥ = i
− X ni X i − ni X i = 0 .
i=1 j =1 i=1 ⎣ j =1 ⎥⎦ i=1

Donde, vemos que

SQTot = SQe + SQExt (1.3)

em que

∑ ∑ (X ) = (N − I ) S .
I ni
2
2
SQe = ij
− Xi T
i=1 j =1

Ou seja,

variabilidade total da amostra = variabilidade dentro das amostras (SQe) +


variabilidade entre amostras (SQExt).

Agora, se designarmos por Si2 o estimador da variância da amostra i, isto é,

( ),
n
1 i 2
Si2 = ∑ X − Xi
ni − 1 j =1 ij

vem que

- ( n − 1) S
i
2
i
σ 2 ∩ χ(n
2
−1)
, para i=1,...,I;
i

- e estas variáveis são independentes.

Assim, a soma
Análise da variância simples 6

(N − I)ST2 SQe I
(ni − 1)Si2
σ2
=
σ2
= ∑ σ2
i=1

tem distribuição qui-quadrado com N-I graus de liberdade.

Se H0 for verdadeira, o conjunto das I amostras pode ser considerado como


uma amostra única de uma população com distribuição normal. Então, a
variável SQTot (N − 1) é um estimador centrado para essa variância e tal que

∑ ∑ (X )
I ni
2
−X
SQTot i=1 j =1
ij
= ∩ χ (N−1)
2

σ 2
σ 2

Repare-se ainda que as variáveis SQext e SQe são independentes, porque:

SQe → depende das variâncias de cada amostra, Si2

SQext → depende das médias de cada amostra X i .

Como, para amostras recolhidas de populações normais, Si2 é independente


de X i , podemos concluir que as duas quantidades são independentes.

A decomposição da soma de quadrados (1.3) pode ser escrita como

SQTot SQe SQext


= +
σ 2
σ 2
σ2

ou, em termos das respectivas distribuições de probabilidade

χ(N−1)
2
= χ (N−I)
2
+ χ (I2 −1) .

Portanto, se a hipótese nula for verdadeira, a variável

∑ n (X )
I 2
−X (I − 1)
SQext (I − 1) i i
= i=1
∩ FI −1;N−I
∑ ∑ (X )
SQe (N − I) I ni
2

ij
− Xi (N − I)
i=1 j =1

porque é o quociente de dois qui-quadrados a dividir pelo respectivo


número de graus de liberdade, e pode ser utilizada como estatística de
teste para a hipótese de igualdade de médias.

A regra de teste será


Análise da variância simples 7

SQext (I − 1) α
F = > FI1−−1,N−I
SQe (N − I)

em que FI1−−1,N
α
−I
representa o quantil de ordem 1-α da distribuição F com I-1
e N-I graus de liberdade,

É também usual considerar a notação

SQext SQe
MQext = e MQe = ,
I −1 N−I

em que MQ se refere a média de quadrados.

NOTAS

• Independentemente da validade da hipótese nula, MQe é sempre um


bom estimador centrado para a variância comum das I
populações, E ⎡⎣MQe ⎤⎦ = σ 2 .

• Se os valores médios das I populações forem iguais, MQext é também


um bom estimador centrado para σ2.

• Se a hipótese nula for falsa, MQext tende a tomar valores maiores do


que a variância σ2 porque, para além da variabilidade entre médias
devida à variância das observações, a diferença entre os valores médios
reflecte-se também no valor de MQext.

Resumindo:

A estatística F corresponde, no caso da igualdade dos valores médios das I


populações, ao quociente de dois estimadores para a variância
comum σ 2. Se os valores médios forem diferentes o numerador da
estatística de teste é sensível a esse facto e aumenta o seu valor enquanto
o denominador se mantém, de modo que a região de rejeição do teste é
dada por

MQext
F = α
> FI1−−1,N −I
.
MQe

Os resultados do teste podem ser melhor compreendidos quando


apresentados numa tabela com os vários cálculos parciais necessários à
construção da estatística de teste, à quals se chama tabela ANOVA
(ANalysis Of VAriance).
Análise da variância simples 8

Tabela ANOVA

FONTE DE SOMA DE GRAUS DE MÉDIA DE


VARIAÇÃO QUADRADOS LIBERDADE QUADRADOS ESTATÍSTICA F

SQext
∑ n (X )
I 2
Entre grupos SQext = i i
−X I-1 MQext = F=MQext/MQe
i =1 I −1

∑ ∑ (X )
ni
I 2 SQe
Erro SQe = ij
− Xi N-I MQe =
i =1 j =1 N−I

∑ ∑ (X )
ni
I 2 SQTot
Total SQTot = ij
−X N-1 MQTot =
i =1 j =1 N −1

1.3. O teste sobre a igualdade de várias médias.

O teste que construímos na secção anterior para a igualdade de várias


médias de populações normais, numa base intuitiva, é também o teste da
razão de verosimilhanças generalizada, o que lhe confere boas
propriedades.

A verosimilhança correspondente a um conjunto de observações que


seguem um modelo ANOVA é dada por

⎡ 1 2⎤
∑ ∑ (x )
ni

( )
I
1
L x1 ,...,x I ; µ1 ,..., µ I ,σ 2 = exp ⎢ − − µi ⎥ ,
( )
ij
⎢⎣ 2σ
N /2 2
2πσ 2 i=1 j =1 ⎥⎦

em que xi representa a i-ésima amostra observada, x i = xi1 ,..., xin . Assim, ( i


)
o logaritmo da verosimilhança toma a forma:

∑ ∑ (x )
ni

( ) ( )
I
N 1 2
lnL µ1 ,..., µ I ,σ 2
= − ln 2πσ 2 − ij
− µi .
2 2σ 2 i=1 j =1

Derivando esta função em ordem a cada um dos µi’s e a σ2 podemos obter


os estimadores de máxima verosimilhança para o caso geral de um
qualquer conjunto de valores médios. Basta resolver o sistema de I+1
equações a I+1 incógnitas :


∑ (x )
ni
⎪ ∂ lnL 1
= 2 − µi = 0 i = 1,..., I
⎪ ∂µi σ j =1
ij


∑ ∑ (x )
ni
⎪ ∂ lnL N 1 I 2

⎪ =− + ij
− µi =0
⎪⎩ ∂σ 2
2σ 2
2σ 4 i=1 j =1
Análise da variância simples 9

cuja solução é dada por

⎧ ni
⎪ µ̂ = X = 1 ∑ X i = 1,..., I;
⎪ i i
ni j =1 ij

( )
n
⎪ 2 1 I i 2

⎪ σ̂ = ∑ ∑
N i=1 j =1
X ij − X i .
⎪⎩

Designando por Θ o espaço de parâmetros para todos os µi’s e σ2 podemos


escrever a verosimilhança calculada nos estimadores de máxima
verosimilhança:

( ) ( ) 1 − Nσ̂ 2
L Θ̂ = sup L x1 ,...,x I ; µ1 ,..., µ I ,σ e2 = e 2σ̂ 2
.
(2πσ̂ )
N /2
Θ 2

Sob a validade da hipótese nula, os estimadores de máxima verosimilhança


restrita são os estimadores de máxima verosimilhança para o valor méido e
para a variância, baseados numa amostra de dimensão N recolhida de uma
população normal,

⎧ µ̂ˆ = X;
⎪⎪
⎨ 2 1 I ni
( )
2
⎪ σ̂ˆ = ∑ ∑ X ij − X .
⎪⎩ N i=1 j =1

Designando por L Θ̂ 0 ( ) a verosimilhança calculada nos estimadores de


máxima verosimilhança restritos aos valores da hipótese nula, vem

( ) ( ) 1 − Nσ̂ˆ2
L Θ̂ 0 = sup L x1 ,...,x I ; µ,σ 2 = e 2σ̂ˆ2
.
(2πσ̂ˆ )
N /2
Θ0 2

Daqui resulta que a razão de verosimilhanças generalizada está também


relacionada com o quociente de dois estimadores para a variância,

N /2
⎡ I ni ⎤
( )
2
N /2 ⎢ ∑ ∑ X ij − X i ⎥
⎛ σ̂ 2 ⎞
L(Θ̂ 0 )
λ= =⎜ ⎟ = ⎢⎢ i=1 j =1 ⎥
⎥ .
L(Θ̂) ⎝ σ̂ˆ2 ⎠
( )
I ni
2
⎢ ∑∑ X − X ⎥
⎢⎣ i=1 j =1 ij ⎥⎦

Tendo em consideração a decomposição da soma de quadrados (1.3), vem


que a razão de verosimilhanças pode ser escrita como

N /2
⎛ SQe ⎞
λ=⎜ ⎟ .
⎝ SQe + SQext ⎠
Análise da variância simples 10

Uma vez que a região de rejeição do teste será da forma {λ ≤ k} tem-se


que esta região é ainda equivalente a

SQext / (I − 1)
> k,
SQe / (N − I)

que é exactamente o teste que já tínhamos obtido por generalização directa


do teste de igualdade de médias.

É importante sabermos que o nosso teste pode ser visto como um teste de
razão de verosimilhanças generalizada, pois sabemos que esse tipo de teste
goza de boas propriedades estatísticas. É um teste robusto no sentido em
que ser utilizado também para populações com distribuições diferentes da
normal, desde que estas ou não se afastem muito da forma da normal ou
desde que as dimensões das amostras de cada população sejam
razoavelmente grandes.

1.4. O valor médio de MQext quando a hipótese é falsa.

O teste na hipótese nula de igualdade de valores médios consiste em tomar


para estatística de teste o quociente de dois estimadores para as
variâncias que são ambos centrados sob a validade da hipótese. Se esta
não fôr verdadeira, o denominador da estatística de teste é ainda um
estimador centrado para a variância da população mas tal já não
acontece com o numerador, que tende a ser tanto maior quanto maior
disparidade houver entre os vaores médios das diferentes populações.

Para compreender melhor o comportamento da estatística de teste, vamos


reformular o modelo (1.2) numa forma equivalente mas que, por vezes,
explica melhor o comportamento das várias populações. Esta reformulação
é o que se chama, em Estatística, uma reparametrização do modelo, isto
é, vamos reescrever as variáveis como função de outros parâmetros, em
igual número, que são função dos primeiros.

Comecemos por definir

1 I
µ= ∑nµ
N i=1 i i
e

α i = µi − µ , i = 1,…,I.

NOTAS

I
• Definimos I+1 parâmetros, mas uma vez que se tem ∑ nα i i
= 0 , temos,
i=1

de facto, apenas I parâmetros independentes.


Análise da variância simples 11

• O parâmetro µ é agora a média ponderada dos valores médios das I


populações, em que os pesos são proporcionais às dimensões de cada
amostra.
• Os αi’s reflectem o afastamento da média de cada uma das populações
ou grupos a este valor.
• Quando as amostras têm igual dimensão n, o parâmetro µ é
simplesmente a média dos µi’s.

As observações podem ser escritas em função destes novos parâmetros


como:

X ij = µ + α i + ε ij , i = 1,...,I , j = 1,...,ni, (1.3)

em os εij’s são variáveis aleatórias i.i.d. N(0,σ2). O modelo é o mesmo, só


que se optou por uma forma diferente de exprimir os valores médios das
populações. A hipótese nula segundo o modelo (1.3) será:

H0: αi = 0, i = 1,…,I.

A propriedade de invariância dos estimadores de máxima verosimilhança


(EMV) garante que os EMV dos novos parâmetros são dados por:

µ̂ = X ;

α̂ i = X i − X .

As estimativas para os α̂ i ’s dão-nos de uma forma mais imediata uma ideia


do afastamente da média de cada população à média global. A partição da
soma de quadrados total pode agora ser escrita como:

( ) ∑∑( )
I ni I ni I
2 2
SQtot = ∑ ∑ X ij − X = X ij − X i + ∑ niα̂ i2 ,
i=1 j =1 i=1 j =1 i=1

e podemos escrever a estatística F em função dos novos parâmetros,

∑ n α̂ i
2
i
(I − 1)
F = i=1
.
SQe / (N − I)

Para estudar melhor o comportamento da estatística F quando a hipótese


nula é falsa vamos calcular o valor médio do seu numerador. Como

( )
I 2 I
SQext = ∑ ni X i − X = ∑nX i
2
i
− NX 2.
i=1 i=1

aplicando valores médios a ambos os termos desta igualdade, obtemos:


Análise da variância simples 12

( ) ∑ n E (X ) − NE ( X ).
I
2 2
E SQext = i i
i=1

Mas sabemos que

( )
E X 2
i
=µ +2
i
σ2
ni
e E X ( ) 2
=µ +
σ2
N
2
.

Deste modo, substituido estas expressões na soma acima, vem

⎛σ2 ⎞ ⎛σ2 ⎞
( )
I
E SQext = ∑n ⎜ ni
+ µi2 ⎟ − N ⎜
⎝N
+ µ2 ⎟

i=1 ⎝ i ⎠
I
= Iσ 2 − σ 2 + ∑ ni µi2 − N µ 2
i=1

( )
I 2
= (I − 1)σ + ∑ ni µi − µ .
2

i=1

Assim, no que respeita ao valor médio da correspondente média de


quadrados, temos:

∑ nα 2

( )
i i
E MQext = σ 2 + i=1
.
I −1

Portanto, quanto maior for a soma dos quadrados dos desvios dos valores
médios à sua média global, maior é o valor médio do numerador da
estatística de teste e, consequentemente, maior é a tendência para a
estatística de teste tomar valores grandes.

1.5. O teste sobre a igualdade das variâncias.

O teste de igualdade de médias é muito utilizado devido à sua simpliciade


de cálculo, boas propriedades e robustez. No entanto, o modelo de Análise
da Variância pressupõe a igualdade das variâncias de todas as amostras.
Nesta secção vamos ver como construir o teste da razão de verosimilhanças
generalizada para a hipótese nula

H0 : σ 12 = ... = σ I2

contra a alternativa em que não é imposta qualquer restrição às variâncias


de cada amostra.

A verosimilhança que corresponde ao conjunto das I amostras, em que cada


uma é recolhida de uma população normal, N(µi ,σ i2 ) , é dada por,
Análise da variância simples 13

⎡ 1 2⎤
∑ (x )
ni

( ) 1
I
L µ1 ,..., µ I ,σ 12 ,...,σ I2 = ∏ exp ⎢− − µi ⎥ .
( )
ij
⎢⎣ 2σ i
ni /2 2
i=1 2πσ i2 j =1 ⎥⎦

Como as amostras são independentes, sabemos que os estimadores de


máxima verosimilhança de cada µi e σ i2 são dados pelos estimadores de
máxima verosimilhança para a média e variância de uma população
normal com esses parâmetros:

⎧ µ̂ = X ;
⎪ i i
⎨ 2
⎪⎩ σ̂ i = Si ; i = 1,..., I
2

A verosimilhança não restrita calculada nestes estimadores é dada por

⎛ n S2 ⎞
( ) 1 1
I
L Θ̂ = ∏ exp− ⎜ i 2i ⎟ = e −N /2 .
(2π S ) ∏ (2π S )
ni 2 I
i=1 2 ⎝ 2Si ⎠ 2
ni 2
i i
i=1

Por outro lado, sob H0, os estimadores de máxima verosimilhança são

⎧⎪ µ̂ = X ;
⎨ 2i i

⎪⎩ σ̂ = S ; i = 1,..., I,
2

em que

( )
n
1 I i 2 1 I
S2 = ∑ ∑ X − Xi
N i=1 j =1 ij
= ∑
N i=1
ni Si2 .

Deste modo, a verosimilhança pressupondo a igualdade das variâncias das


diferentes populações, é dada por

⎡ 1 ⎤
( )
I
1 1
L Θ̂ 0 = exp ⎢ − ∑nS 2
⎥= e −N /2
(2π S ) ( )
N 2 2 i i N 2
2 ⎣ 2S i=1 ⎦ 2π S 2

e, em consequência, a razão de verosimilhanças generalizada toma a


forma:

∏ (S )
I ni 2
2
L(Θ̂ 0 ) i
λ= = i=1
.
L(Θ̂)
( )
N 2
S2

Então a estatística de teste T baseada no logaritmo da razão de


verosimilhanças é dada por
Análise da variância simples 14

I I
S2
T = −2ln λ = N lnS 2 − ∑ ni lnSi2 = ∑ ni ln ,
i=1 i=1 Si2

que tem distribuição assintótica qui-quadrado com I-1 graus de liberdade


(teorema de Wilks) o que conduz à região de rejeição

{T > χ } .
1−α
(I −1)

Quando a hipótese de igualdade de variâncias é rejeitada, em princípio, a


estatística de teste F não deve ser utilizada. No entanto, em muitas
situações, o teste F pode ainda ser utilizado, nomeadamente:

• Quando as dimensões das diferentes amostras são grandes e,


principalmente, têm valores próximos, o teste F pode ser utilizado sem
risco de grande erro, uma vez que é bastante robusto nestas condições.
• Se as dimensões das amostras forem diferentes, há tipicamente dois
casos que podem acontecer:
→ Se as variâncias maiores correspondem a amostras com dimensão
grande, a estatística F tende a tornar-se mais pequena do que devia ser
e o teste tem probabilidade mais reduzida de identificar correctamente
as diferenças entre os vlaores médios;
→ se as variâncias maiores ocorrem nas amostras com dimensão mais
pequena, o teste F tem maior probabilidade de rejeitar a hipótese nula,
quando esta é verdadeira.

Nos casos em que amostras com dimensão desigual têm também variâncias
claramente diferentes, uma possibilidade é aplicar uma transformação
às observações. As transformações mais utilizadas para estabilizar as
variâ ncias são:

• O logaritmo das observações, que é particularmente adequado ao caso


em que o valor das variâncias é directamente proporcional às médias.
(Se existirem observações com valores negativos deve-se usar uma
transformação do tipo ln(Xij+a), em que a é uma constante
apropriada)
• A raíz quadrada das observações, tendo o mesmo cuidado para tornar
todas as observações positivas.

Existem testes aproximados para a igualdade dos valores médios de


populações com variâncias diferentes que, em geral se baseiam no facto de
que a estatística

ni
(X − X )
I 2
Tσ = ∑σ 2 i σ
,
i=1 i

em que
Análise da variância simples 15

I
ni I
ni
Xσ = ∑σ 2
Xi ∑σ 2
,
i=1 i i=1 i

para populações com distribuição normal, tem distribuição qui-quadrado


com I-1 graus de liberdade, quando a hipótese de igualdade das médias
é verdadeira.

Naturalmente, os valores das variâncias de cada população, σ i2 , são


desconhecidos, de modo que têm de ser substituídos pelos seus
estimadores Si2 . Assim, um teste assintótico pode ser feito com base na
estatística

ni
(X − X )
I 2
Tω = ∑S 2 i ω
,
i=1 i

I
ni I
ni
em que Xω = ∑S 2
Xi ∑S 2
, e cuja distribuição é aproximadamente qui-
i=1 i i=1 i

quadrado com I-1 graus de liberdade.

Esta estatística foi proposta por Cochran (1937) mas trata-se de um teste
aproximado que, para amostras com dimensão reduzida, também pode conduzir
a uma decisão errada.

Você também pode gostar