Slides Cap 1 - Anova

1.
ANÁLISE DA VARIÂNCIA SIMPLES
1.1. Introdução.
O problema da comparação de populações é dos mais frequentes na

prática e, por isso, a teoria estatística que responde a este tipo de situações
está bastante desenvolvida, principalmente, no caso em que as populações
em estudo têm distribuição aproximadamente normal. Na maior parte das
situações reais, o problema da comparação de populações pode-se
formalizar como um teste de igualdade entre dois ou mais valores
médios.
Teste na igualdade de dois valores médios
Nos pressupostos:
• (X
11 ) ( ) (
, X12 ,..., X1n ∩ N µ1 ,σ 2 e X21 , X22 ,..., X2n ∩ N µ2 ,σ 2 ;
1 2
) ( )
• as amostras são independentes;
pretende-se testar
H 0: µ 1 = µ 2 contra H 1: µ 1 ≠ µ 2,
(ou H1: µ1 > µ2 ou H1: µ1 < µ2).
Este é um problema clássico da estatística cuja solução se baseia no facto

de que, nos pressupostos estabelecidos:
⎛ ⎛1 1 ⎞⎞
• X1 − X2 ∩ N ⎜ µ1 − µ2 ,σ 2 ⎜ + ⎟⎟
⎝ ⎝ n1 n2 ⎠ ⎠
• o estimador da variância comum às duas populações, dado por

n
( ) n1S12 + n2S22
2
1 j 2
S = 2
T ∑∑ X − Xj
n1 + n2 − 2 j =1 i=1 ij
=
n1 + n2 − 2
( )
é tal que n1 + n2 − 2 ST2 σ 2 ∩ χ n2 +n −2 e é independente de X1 − X2 .
1 2
A estatística de teste é dada por
X1 − X2
T = ∩ t(n +n −2)
1 1 1 2
ST +
n1 n2
H0
Análise da variância simples 2
providenciando um teste cujas boas propriedades fazem com que seja

dos mais utilizados na prática estatística.
Características do teste t para a igualdade de médias
• O teste t é equivalente ao teste da razão de verosimilhanças

generalizada.
• O teste t é robusto, isto é, a estatística de teste mantém
aproximadamente a sua distribuição de probabilidade mesmo quando
alguns dos pressupostos não são verificados como, por exemplo, a não
normalidade das populações em estudo.
Para amostras não gaussianas, o teorema do limite central
conjuntamente com a convergência em probabilidade do estimador da
variância, isto é,
P
ST2 ⎯⎯ →σ 2
⎯
garante que a distribuição da estatística de teste T é bem aproximada, para

valores grandes de n1 e n2, pela normal padrão. Por razões semelhantes,
um teste assintotico para a igualdade de valores médios quando as
variâncias das duas populações são diferentes é dado por
X1 − X2
T = ,
S12 S22
+
n1 n2
que tem, também, distribuição assintotica normal padrão.
Pelas boas propriedades e pela robustez do teste de igualdade de médias

em populações normais será natural tomá-lo como base para uma
generalização à comparação de um conjunto de quaisquer I médias, I≥2.
O modelo de Análise da Variância
Neste capítulo vamos supor que:
( ) ( )
• Dispomos de I amostras, X i1 , X i2 ,..., X in ∩ N µi ,σ 2 , i = 1,...,I;
i
• as amostras são independentes entre si
Pretendemos construir um teste para a hipótese nula:
H0: µ1 = µ2 = ... = µI (1.1)
contra a alternativa de que existe pelo menos um µi que é diferente dos

outros. Sendo assim, cada observação pode-se escrever na forma
X ij = µi + ε ij , i = 1,...,I , j = 1,...,ni, (1.2)
em que os µi são constantes (os valores médios de cada população) e os εij

são variáveis aleatórias i.i.d. com distribuição normal, N(0,σ2), em que σ2
denota agora a variância comum às várias populações. Seja ainda N o
número total de observações,
I
N= ∑n . i
i=1
NOTA
Dizemos que o conjunto das observações segue um modelo de Análise da

Variância porque, como veremos, a estatística para este teste baseia-se na
comparação entre o estimador da variância da população obtido a partir das
médias, admitindo que estas são iguais, com o estimador da variância da
população obtido a partir da média ponderada das variâncias empíricas de
cada população.
1.2. Do teste de igualdade de médias à análise de variância.
Comecemos por reparar que o teste baseado na estatística T para as

hipóteses
H 0: µ 1 = µ 2 contra H 1: µ 1 ≠ µ 2,
é equivalente à regra de teste em que se rejeita sempre que
( )
2
n1n2 X1 − X2
2
T = 1−α
> F1,n +n −2
,
NST2 1 2
em que F1,n
1−α
+n −2
é o quantil de ordem 1-α da distribuição F com 1 g. l. no
1 2
numerador e n1+n2-2 g.l. de liberdade no denominador, pois
2 Z2 χ(1)
2
T
(n)
= = ∩ F1;n
χ(n)
2
χ(n)
2
n n
Note-se que, como estamos a testar uma hipótese alternativa bilateral, é

equivalente utilizar a estatística T ou o seu quadrado.
O que vamos ver é uma representação alternativa para T2 que torna

muito intuitiva a generalização do teste a um conjunto de I populações.
Assim, comecemos por denotar
n
1 2 i n X + n2 X2
X = ∑ ∑ X ij = 1 1 ,
N i=1 j =1 n1 + n2
isto é, X representa a média global de todas as observações contidas nas

duas amostras. Com esta notação, podemos escrever
2
⎛ n X + n2 X2 ⎞ n22
(X ) ( )
2 2
1
−X = ⎜ X1 − 1 1 ⎟ = X − X2
⎝ n1 + n2 ⎠ N2 1
e, analogamente,
2
⎛ n X + n2 X2 ⎞ n12
(X ) ( )
2 2
2
−X = ⎜ X2 − 1 1 ⎟ = X1 − X2 .
⎝ n1 + n2 ⎠ N 2
Vem então que
n1n2
( ) ( ) (X )
2 2 2
n1 X1 − X + n2 X2 − X = 1
− X2
N
de modo que a estatística de teste T2 pode ser escrita na forma
( ) ( )
2 2
2
n1 X1 − X + n2 X2 − X
T = .
ST2
O numerador desta estatística de teste exprime a variabilidade das

médias das duas populações em torno de uma média global. Sob H0,
essa variabilidade está directamente relacionada com a variância comum σ2.
Podemos generalizar esta medida a I populações considerando:
∑ n (X )
I 2
SQext = i i
−X
i=1
em que
ni n
1 1 I i
Xi =
ni
∑X ij
e X = ∑ ∑ X ij .
N i=1 j =1
j =1
Por outro lado, o estimador da variância comum pode facilmente ser

adaptado ao caso de I populações, tomando
( )
I n
1 i 2
ST2 = ∑ ∑ X − Xi
N − I i=1 j =1 ij
.
Para compreender a relação entre SQext e ST2 , bem como o seu papel na
construção da estatística de teste, vamos definir o que se costuma chamar
a variabilidade total da amostr,
∑ ∑ (X )
I ni
2
SQTot = ij
−X .
i=1 j =1
A variabilidade total da amostra está relacionada com as duas quantidades

definidas anteriormente:
∑∑( ) ∑ ∑ (X )
I ni I ni
2 2
X ij − X = ij
− Xi + Xi − X
i=1 j =1 i=1 j =1
∑∑( ) ( ) ( X − X ).
ni ni
( )
I 2 I 2 I
= X ij − X i + ∑ ni X i − X + 2∑ ∑ X ij − X i i
i=1 j =1 i=1 i=1 j =1
Acontece que o termo rectangular é nulo porque
⎡ ⎤
∑ ∑ (X ) ( X − X ) = ∑ ⎢⎢( X − X ) ∑ ( X )
ni ni
∑ (X )( )
I I I
ij
− Xi i i ij
− Xi ⎥ = i
− X ni X i − ni X i = 0 .
i=1 j =1 i=1 ⎣ j =1 ⎥⎦ i=1
Donde, vemos que
SQTot = SQe + SQExt (1.3)
em que
∑ ∑ (X ) = (N − I ) S .
I ni
2
2
SQe = ij
− Xi T
i=1 j =1
Ou seja,
variabilidade total da amostra = variabilidade dentro das amostras (SQe) +

variabilidade entre amostras (SQExt).
Agora, se designarmos por Si2 o estimador da variância da amostra i, isto é,
( ),
n
1 i 2
Si2 = ∑ X − Xi
ni − 1 j =1 ij
vem que
- ( n − 1) S
i
2
i
σ 2 ∩ χ(n
2
−1)
, para i=1,...,I;
i
- e estas variáveis são independentes.
Assim, a soma
(N − I)ST2 SQe I
(ni − 1)Si2
σ2
=
σ2
= ∑ σ2
i=1
tem distribuição qui-quadrado com N-I graus de liberdade.
Se H0 for verdadeira, o conjunto das I amostras pode ser considerado como

uma amostra única de uma população com distribuição normal. Então, a
variável SQTot (N − 1) é um estimador centrado para essa variância e tal que
∑ ∑ (X )
I ni
2
−X
SQTot i=1 j =1
ij
= ∩ χ (N−1)
2
σ 2
σ 2
Repare-se ainda que as variáveis SQext e SQe são independentes, porque:
SQe → depende das variâncias de cada amostra, Si2
SQext → depende das médias de cada amostra X i .
Como, para amostras recolhidas de populações normais, Si2 é independente

de X i , podemos concluir que as duas quantidades são independentes.
A decomposição da soma de quadrados (1.3) pode ser escrita como
SQTot SQe SQext

= +
σ 2
σ 2
σ2
ou, em termos das respectivas distribuições de probabilidade
χ(N−1)
2
= χ (N−I)
2
+ χ (I2 −1) .
Portanto, se a hipótese nula for verdadeira, a variável
∑ n (X )
I 2
−X (I − 1)
SQext (I − 1) i i
= i=1
∩ FI −1;N−I
∑ ∑ (X )
SQe (N − I) I ni
2
ij
− Xi (N − I)
i=1 j =1
porque é o quociente de dois qui-quadrados a dividir pelo respectivo

número de graus de liberdade, e pode ser utilizada como estatística de
teste para a hipótese de igualdade de médias.
A regra de teste será

SQext (I − 1) α
F = > FI1−−1,N−I
SQe (N − I)
em que FI1−−1,N
α
−I
representa o quantil de ordem 1-α da distribuição F com I-1
e N-I graus de liberdade,
É também usual considerar a notação
SQext SQe
MQext = e MQe = ,
I −1 N−I
em que MQ se refere a média de quadrados.
NOTAS
• Independentemente da validade da hipótese nula, MQe é sempre um

bom estimador centrado para a variância comum das I
populações, E ⎡⎣MQe ⎤⎦ = σ 2 .
• Se os valores médios das I populações forem iguais, MQext é também

um bom estimador centrado para σ2.
• Se a hipótese nula for falsa, MQext tende a tomar valores maiores do

que a variância σ2 porque, para além da variabilidade entre médias
devida à variância das observações, a diferença entre os valores médios
reflecte-se também no valor de MQext.
Resumindo:
A estatística F corresponde, no caso da igualdade dos valores médios das I

populações, ao quociente de dois estimadores para a variância
comum σ 2. Se os valores médios forem diferentes o numerador da
estatística de teste é sensível a esse facto e aumenta o seu valor enquanto
o denominador se mantém, de modo que a região de rejeição do teste é
dada por
MQext
F = α
> FI1−−1,N −I
.
MQe
Os resultados do teste podem ser melhor compreendidos quando

apresentados numa tabela com os vários cálculos parciais necessários à
construção da estatística de teste, à quals se chama tabela ANOVA
(ANalysis Of VAriance).
Tabela ANOVA
FONTE DE SOMA DE GRAUS DE MÉDIA DE

VARIAÇÃO QUADRADOS LIBERDADE QUADRADOS ESTATÍSTICA F
SQext
∑ n (X )
I 2
Entre grupos SQext = i i
−X I-1 MQext = F=MQext/MQe
i =1 I −1
∑ ∑ (X )
ni
I 2 SQe
Erro SQe = ij
− Xi N-I MQe =
i =1 j =1 N−I
∑ ∑ (X )
ni
I 2 SQTot
Total SQTot = ij
−X N-1 MQTot =
i =1 j =1 N −1
1.3. O teste sobre a igualdade de várias médias.
O teste que construímos na secção anterior para a igualdade de várias

médias de populações normais, numa base intuitiva, é também o teste da
razão de verosimilhanças generalizada, o que lhe confere boas
propriedades.
A verosimilhança correspondente a um conjunto de observações que

seguem um modelo ANOVA é dada por
⎡ 1 2⎤
∑ ∑ (x )
ni
( )
I
1
L x1 ,...,x I ; µ1 ,..., µ I ,σ 2 = exp ⎢ − − µi ⎥ ,
( )
ij
⎢⎣ 2σ
N /2 2
2πσ 2 i=1 j =1 ⎥⎦
em que xi representa a i-ésima amostra observada, x i = xi1 ,..., xin . Assim, ( i

)
o logaritmo da verosimilhança toma a forma:
∑ ∑ (x )
ni
( ) ( )
I
N 1 2
lnL µ1 ,..., µ I ,σ 2
= − ln 2πσ 2 − ij
− µi .
2 2σ 2 i=1 j =1
Derivando esta função em ordem a cada um dos µi’s e a σ2 podemos obter

os estimadores de máxima verosimilhança para o caso geral de um
qualquer conjunto de valores médios. Basta resolver o sistema de I+1
equações a I+1 incógnitas :
⎧
∑ (x )
ni
⎪ ∂ lnL 1
= 2 − µi = 0 i = 1,..., I
⎪ ∂µi σ j =1
ij
⎨
∑ ∑ (x )
ni
⎪ ∂ lnL N 1 I 2
⎪ =− + ij
− µi =0
⎪⎩ ∂σ 2
2σ 2
2σ 4 i=1 j =1
cuja solução é dada por
⎧ ni
⎪ µ̂ = X = 1 ∑ X i = 1,..., I;
⎪ i i
ni j =1 ij
⎨
( )
n
⎪ 2 1 I i 2
⎪ σ̂ = ∑ ∑
N i=1 j =1
X ij − X i .
⎪⎩
Designando por Θ o espaço de parâmetros para todos os µi’s e σ2 podemos

escrever a verosimilhança calculada nos estimadores de máxima
verosimilhança:
( ) ( ) 1 − Nσ̂ 2
L Θ̂ = sup L x1 ,...,x I ; µ1 ,..., µ I ,σ e2 = e 2σ̂ 2
.
(2πσ̂ )
N /2
Θ 2
Sob a validade da hipótese nula, os estimadores de máxima verosimilhança

restrita são os estimadores de máxima verosimilhança para o valor méido e
para a variância, baseados numa amostra de dimensão N recolhida de uma
população normal,
⎧ µ̂ˆ = X;
⎪⎪
⎨ 2 1 I ni
( )
2
⎪ σ̂ˆ = ∑ ∑ X ij − X .
⎪⎩ N i=1 j =1
Designando por L Θ̂ 0 ( ) a verosimilhança calculada nos estimadores de

máxima verosimilhança restritos aos valores da hipótese nula, vem
( ) ( ) 1 − Nσ̂ˆ2
L Θ̂ 0 = sup L x1 ,...,x I ; µ,σ 2 = e 2σ̂ˆ2
.
(2πσ̂ˆ )
N /2
Θ0 2
Daqui resulta que a razão de verosimilhanças generalizada está também

relacionada com o quociente de dois estimadores para a variância,
N /2
⎡ I ni ⎤
( )
2
N /2 ⎢ ∑ ∑ X ij − X i ⎥
⎛ σ̂ 2 ⎞
L(Θ̂ 0 )
λ= =⎜ ⎟ = ⎢⎢ i=1 j =1 ⎥
⎥ .
L(Θ̂) ⎝ σ̂ˆ2 ⎠
( )
I ni
2
⎢ ∑∑ X − X ⎥
⎢⎣ i=1 j =1 ij ⎥⎦
Tendo em consideração a decomposição da soma de quadrados (1.3), vem

que a razão de verosimilhanças pode ser escrita como
N /2
⎛ SQe ⎞
λ=⎜ ⎟ .
⎝ SQe + SQext ⎠
Uma vez que a região de rejeição do teste será da forma {λ ≤ k} tem-se

que esta região é ainda equivalente a
SQext / (I − 1)
> k,
SQe / (N − I)
que é exactamente o teste que já tínhamos obtido por generalização directa

do teste de igualdade de médias.
É importante sabermos que o nosso teste pode ser visto como um teste de
razão de verosimilhanças generalizada, pois sabemos que esse tipo de teste
goza de boas propriedades estatísticas. É um teste robusto no sentido em
que ser utilizado também para populações com distribuições diferentes da
normal, desde que estas ou não se afastem muito da forma da normal ou
desde que as dimensões das amostras de cada população sejam
razoavelmente grandes.
1.4. O valor médio de MQext quando a hipótese é falsa.
O teste na hipótese nula de igualdade de valores médios consiste em tomar

para estatística de teste o quociente de dois estimadores para as
variâncias que são ambos centrados sob a validade da hipótese. Se esta
não fôr verdadeira, o denominador da estatística de teste é ainda um
estimador centrado para a variância da população mas tal já não
acontece com o numerador, que tende a ser tanto maior quanto maior
disparidade houver entre os vaores médios das diferentes populações.
Para compreender melhor o comportamento da estatística de teste, vamos

reformular o modelo (1.2) numa forma equivalente mas que, por vezes,
explica melhor o comportamento das várias populações. Esta reformulação
é o que se chama, em Estatística, uma reparametrização do modelo, isto
é, vamos reescrever as variáveis como função de outros parâmetros, em
igual número, que são função dos primeiros.
Comecemos por definir
1 I
µ= ∑nµ
N i=1 i i
e
α i = µi − µ , i = 1,…,I.
NOTAS
I
• Definimos I+1 parâmetros, mas uma vez que se tem ∑ nα i i
= 0 , temos,
i=1
de facto, apenas I parâmetros independentes.

• O parâmetro µ é agora a média ponderada dos valores médios das I

populações, em que os pesos são proporcionais às dimensões de cada
amostra.
• Os αi’s reflectem o afastamento da média de cada uma das populações
ou grupos a este valor.
• Quando as amostras têm igual dimensão n, o parâmetro µ é
simplesmente a média dos µi’s.
As observações podem ser escritas em função destes novos parâmetros

como:
X ij = µ + α i + ε ij , i = 1,...,I , j = 1,...,ni, (1.3)
em os εij’s são variáveis aleatórias i.i.d. N(0,σ2). O modelo é o mesmo, só

que se optou por uma forma diferente de exprimir os valores médios das
populações. A hipótese nula segundo o modelo (1.3) será:
H0: αi = 0, i = 1,…,I.
A propriedade de invariância dos estimadores de máxima verosimilhança

(EMV) garante que os EMV dos novos parâmetros são dados por:
µ̂ = X ;
α̂ i = X i − X .
As estimativas para os α̂ i ’s dão-nos de uma forma mais imediata uma ideia

do afastamente da média de cada população à média global. A partição da
soma de quadrados total pode agora ser escrita como:
( ) ∑∑( )
I ni I ni I
2 2
SQtot = ∑ ∑ X ij − X = X ij − X i + ∑ niα̂ i2 ,
i=1 j =1 i=1 j =1 i=1
e podemos escrever a estatística F em função dos novos parâmetros,
∑ n α̂ i
2
i
(I − 1)
F = i=1
.
SQe / (N − I)
Para estudar melhor o comportamento da estatística F quando a hipótese

nula é falsa vamos calcular o valor médio do seu numerador. Como
( )
I 2 I
SQext = ∑ ni X i − X = ∑nX i
2
i
− NX 2.
i=1 i=1
aplicando valores médios a ambos os termos desta igualdade, obtemos:

( ) ∑ n E (X ) − NE ( X ).
I
2 2
E SQext = i i
i=1
Mas sabemos que
( )
E X 2
i
=µ +2
i
σ2
ni
e E X ( ) 2
=µ +
σ2
N
2
.
Deste modo, substituido estas expressões na soma acima, vem
⎛σ2 ⎞ ⎛σ2 ⎞
( )
I
E SQext = ∑n ⎜ ni
+ µi2 ⎟ − N ⎜
⎝N
+ µ2 ⎟
⎠
i=1 ⎝ i ⎠
I
= Iσ 2 − σ 2 + ∑ ni µi2 − N µ 2
i=1
( )
I 2
= (I − 1)σ + ∑ ni µi − µ .
2
i=1
Assim, no que respeita ao valor médio da correspondente média de

quadrados, temos:
∑ nα 2
( )
i i
E MQext = σ 2 + i=1
.
I −1
Portanto, quanto maior for a soma dos quadrados dos desvios dos valores
médios à sua média global, maior é o valor médio do numerador da
estatística de teste e, consequentemente, maior é a tendência para a
estatística de teste tomar valores grandes.
1.5. O teste sobre a igualdade das variâncias.
O teste de igualdade de médias é muito utilizado devido à sua simpliciade

de cálculo, boas propriedades e robustez. No entanto, o modelo de Análise
da Variância pressupõe a igualdade das variâncias de todas as amostras.
Nesta secção vamos ver como construir o teste da razão de verosimilhanças
generalizada para a hipótese nula
H0 : σ 12 = ... = σ I2
contra a alternativa em que não é imposta qualquer restrição às variâncias

de cada amostra.
A verosimilhança que corresponde ao conjunto das I amostras, em que cada

uma é recolhida de uma população normal, N(µi ,σ i2 ) , é dada por,
⎡ 1 2⎤
∑ (x )
ni
( ) 1
I
L µ1 ,..., µ I ,σ 12 ,...,σ I2 = ∏ exp ⎢− − µi ⎥ .
( )
ij
⎢⎣ 2σ i
ni /2 2
i=1 2πσ i2 j =1 ⎥⎦
Como as amostras são independentes, sabemos que os estimadores de

máxima verosimilhança de cada µi e σ i2 são dados pelos estimadores de
máxima verosimilhança para a média e variância de uma população
normal com esses parâmetros:
⎧ µ̂ = X ;
⎪ i i
⎨ 2
⎪⎩ σ̂ i = Si ; i = 1,..., I
2
A verosimilhança não restrita calculada nestes estimadores é dada por
⎛ n S2 ⎞
( ) 1 1
I
L Θ̂ = ∏ exp− ⎜ i 2i ⎟ = e −N /2 .
(2π S ) ∏ (2π S )
ni 2 I
i=1 2 ⎝ 2Si ⎠ 2
ni 2
i i
i=1
Por outro lado, sob H0, os estimadores de máxima verosimilhança são
⎧⎪ µ̂ = X ;
⎨ 2i i
⎪⎩ σ̂ = S ; i = 1,..., I,
2
em que
( )
n
1 I i 2 1 I
S2 = ∑ ∑ X − Xi
N i=1 j =1 ij
= ∑
N i=1
ni Si2 .
Deste modo, a verosimilhança pressupondo a igualdade das variâncias das

diferentes populações, é dada por
⎡ 1 ⎤
( )
I
1 1
L Θ̂ 0 = exp ⎢ − ∑nS 2
⎥= e −N /2
(2π S ) ( )
N 2 2 i i N 2
2 ⎣ 2S i=1 ⎦ 2π S 2
e, em consequência, a razão de verosimilhanças generalizada toma a

forma:
∏ (S )
I ni 2
2
L(Θ̂ 0 ) i
λ= = i=1
.
L(Θ̂)
( )
N 2
S2
Então a estatística de teste T baseada no logaritmo da razão de

verosimilhanças é dada por
I I
S2
T = −2ln λ = N lnS 2 − ∑ ni lnSi2 = ∑ ni ln ,
i=1 i=1 Si2
que tem distribuição assintótica qui-quadrado com I-1 graus de liberdade

(teorema de Wilks) o que conduz à região de rejeição
{T > χ } .
1−α
(I −1)
Quando a hipótese de igualdade de variâncias é rejeitada, em princípio, a

estatística de teste F não deve ser utilizada. No entanto, em muitas
situações, o teste F pode ainda ser utilizado, nomeadamente:
• Quando as dimensões das diferentes amostras são grandes e,

principalmente, têm valores próximos, o teste F pode ser utilizado sem
risco de grande erro, uma vez que é bastante robusto nestas condições.
• Se as dimensões das amostras forem diferentes, há tipicamente dois
casos que podem acontecer:
→ Se as variâncias maiores correspondem a amostras com dimensão
grande, a estatística F tende a tornar-se mais pequena do que devia ser
e o teste tem probabilidade mais reduzida de identificar correctamente
as diferenças entre os vlaores médios;
→ se as variâncias maiores ocorrem nas amostras com dimensão mais
pequena, o teste F tem maior probabilidade de rejeitar a hipótese nula,
quando esta é verdadeira.
Nos casos em que amostras com dimensão desigual têm também variâncias
claramente diferentes, uma possibilidade é aplicar uma transformação
às observações. As transformações mais utilizadas para estabilizar as
variâ ncias são:
• O logaritmo das observações, que é particularmente adequado ao caso

em que o valor das variâncias é directamente proporcional às médias.
(Se existirem observações com valores negativos deve-se usar uma
transformação do tipo ln(Xij+a), em que a é uma constante
apropriada)
• A raíz quadrada das observações, tendo o mesmo cuidado para tornar
todas as observações positivas.
Existem testes aproximados para a igualdade dos valores médios de

populações com variâncias diferentes que, em geral se baseiam no facto de
que a estatística
ni
(X − X )
I 2
Tσ = ∑σ 2 i σ
,
i=1 i
em que
I
ni I
ni
Xσ = ∑σ 2
Xi ∑σ 2
,
i=1 i i=1 i
para populações com distribuição normal, tem distribuição qui-quadrado

com I-1 graus de liberdade, quando a hipótese de igualdade das médias
é verdadeira.
Naturalmente, os valores das variâncias de cada população, σ i2 , são

desconhecidos, de modo que têm de ser substituídos pelos seus
estimadores Si2 . Assim, um teste assintótico pode ser feito com base na
estatística
ni
(X − X )
I 2
Tω = ∑S 2 i ω
,
i=1 i
I
ni I
ni
em que Xω = ∑S 2
Xi ∑S 2
, e cuja distribuição é aproximadamente qui-
i=1 i i=1 i
quadrado com I-1 graus de liberdade.
Esta estatística foi proposta por Cochran (1937) mas trata-se de um teste
aproximado que, para amostras com dimensão reduzida, também pode conduzir
a uma decisão errada.

Slides Cap 1 - Anova

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slides Cap 1 - Anova

Enviado por

Direitos autorais:

Formatos disponíveis

1.

ANÁLISE DA VARIÂNCIA SIMPLES

O problema da comparação de populações é dos mais frequentes na

Teste na igualdade de dois valores médios

(ou H1: µ1 > µ2 ou H1: µ1 < µ2).

Este é um problema clássico da estatística cuja solução se baseia no facto

• o estimador da variância comum às duas populações, dado por

A estatística de teste é dada por

providenciando um teste cujas boas propriedades fazem com que seja

Características do teste t para a igualdade de médias

• O teste t é equivalente ao teste da razão de verosimilhanças

garante que a distribuição da estatística de teste T é bem aproximada, para

que tem, também, distribuição assintotica normal padrão.

Pelas boas propriedades e pela robustez do teste de igualdade de médias

O modelo de Análise da Variância

Neste capítulo vamos supor que:

• as amostras são independentes entre si

Pretendemos construir um teste para a hipótese nula:

H0: µ1 = µ2 = ... = µI (1.1)

contra a alternativa de que existe pelo menos um µi que é diferente dos

X ij = µi + ε ij , i = 1,...,I , j = 1,...,ni, (1.2)

em que os µi são constantes (os valores médios de cada população) e os εij

Dizemos que o conjunto das observações segue um modelo de Análise da

1.2. Do teste de igualdade de médias à análise de variância.

Comecemos por reparar que o teste baseado na estatística T para as

é equivalente à regra de teste em que se rejeita sempre que

numerador e n1+n2-2 g.l. de liberdade no denominador, pois

Note-se que, como estamos a testar uma hipótese alternativa bilateral, é

O que vamos ver é uma representação alternativa para T2 que torna

isto é, X representa a média global de todas as observações contidas nas

Vem então que

de modo que a estatística de teste T2 pode ser escrita na forma

O numerador desta estatística de teste exprime a variabilidade das

Por outro lado, o estimador da variância comum pode facilmente ser

A variabilidade total da amostra está relacionada com as duas quantidades

Acontece que o termo rectangular é nulo porque

Donde, vemos que

SQTot = SQe + SQExt (1.3)

variabilidade total da amostra = variabilidade dentro das amostras (SQe) +

Agora, se designarmos por Si2 o estimador da variância da amostra i, isto é,

- e estas variáveis são independentes.

tem distribuição qui-quadrado com N-I graus de liberdade.

Se H0 for verdadeira, o conjunto das I amostras pode ser considerado como

Repare-se ainda que as variáveis SQext e SQe são independentes, porque:

SQe → depende das variâncias de cada amostra, Si2

SQext → depende das médias de cada amostra X i .

Como, para amostras recolhidas de populações normais, Si2 é independente

A decomposição da soma de quadrados (1.3) pode ser escrita como

SQTot SQe SQext

ou, em termos das respectivas distribuições de probabilidade

Portanto, se a hipótese nula for verdadeira, a variável

porque é o quociente de dois qui-quadrados a dividir pelo respectivo

A regra de teste será

É também usual considerar a notação

em que MQ se refere a média de quadrados.

• Independentemente da validade da hipótese nula, MQe é sempre um

• Se os valores médios das I populações forem iguais, MQext é também

• Se a hipótese nula for falsa, MQext tende a tomar valores maiores do

A estatística F corresponde, no caso da igualdade dos valores médios das I

Os resultados do teste podem ser melhor compreendidos quando

FONTE DE SOMA DE GRAUS DE MÉDIA DE

1.3. O teste sobre a igualdade de várias médias.

O teste que construímos na secção anterior para a igualdade de várias

A verosimilhança correspondente a um conjunto de observações que