Você está na página 1de 40

1

2
3
4
5
DEMONSTRAÇÃO:

Seja θ = aTb uma combinação linear dos coeficientes do modelo de regressão


múltipla. Em particular, pode ser apenas um dos coeficientes, bj, j=1,...,p.

Um estimador linear centrado para θ é da forma cTY em que,

E(cTY) = cTE(Y) = cTXb = aTb.

Daqui, como o estimador é centrado, deduz-se a igualdade:

c TX = a T

Além disso, a variância deste estimador é dada por

Var(cTY) = cTCov(Y)c = cTσ2Inc = σ2cTc

Por outro lado, a variância do EMQ é dada por:

( ) ()
Var aTb̂ = aTCov b̂ a = σ 2aT X T X ( )
−1
a.

Fazendo a diferença entre as duas variâncias e entrando em linha de conta


com a igualdade acima que garante que um estimador linear seja centrado
vem:

( ) ( ) ⎛
(
Var c T Y − Var aTb̂ = σ 2 ⎜ c T c − aT X T X
⎝ )
−1 ⎞
a⎟


( ) ⎞
−1
= σ 2 ⎜ cTc − cT X X T X X T c⎟
⎝ ⎠

( ) ⎞
−1
= σ 2c T ⎜ I n − X X T X XT ⎟ c
⎝ ⎠
= σ 2c TMc.

Mas como σ2M é a matriz de covariâncias dos resíduos, sabemos que M é


semi-definida positiva e, portanto, tem-se que

σ2cTMc ≥ 0,

o que demonstra o teorema.

NOTA

• As propriedades que acabámos de ver não impõem qualquer


condição no que respeita à distribuição de probabilidade dos erros
aleatórios e das observações da variável dependente Y.

12
O método dos mínimos quadrados produz bons estimadores em condições
muito gerais. Mas se, para além das condições de Gauss-Markov, admitirmos
que os εi’s são variáveis aleatórias i.i.d. com distribuição normal, N(0,σ2), os
EMQ são estimadores centrados de variância mínima.

Se os termos de erro têm distribuição normal, a verosimilhança da amostra


das observações da variável dependente é

⎡ ⎛ ⎞ ⎤
2

( )
n p
1 ⎢− 1
L y1 ,y2 ,...,yn;b,σ 2
= exp ∑ ⎜⎝ yi − ∑ xij bj ⎟⎠ ⎥⎥ ,
( )
⎢ 2σ 2
n/2
2πσ 2 ⎣
i=1 j =1

e a logverosimilhança:

2
⎛ ⎞
( )
n p
n 1
lnL = − ln 2πσ 2 −
2 2σ 2
∑ ⎜⎝ i ∑ xij bj ⎟⎠ .
y −
i=1 j =1

Como o primeiro termo no lado direito da igualdade acima não depende dos
coeficientes de regressão, os estimadores que maximizam a logverosimilhança
são aqueles que maximizam o termo direito da soma, ou seja, que minimizam
a soma de quadrados SQ.

Quando as observações têm distribuição normal, os EMQ coincidem


com os estimadores de máxima verosimilhança.

Além disso, tem-se ainda que:

∂ lnL 1 n ⎛ p ⎞
∂ bk
= 2
σ
∑ ⎜⎝ i ∑ xij bj ⎟⎠ xik ,
y − k = 1,...,p
i=1 j =1

2
∂ lnL n 1 ⎛
n p ⎞
∂σ 2
=−
2σ 2
+
2σ 4
∑ ⎜⎝ yi − ∑ xij bj ⎟⎠ .
i=1 j =1

Igualando a segunda equação a zero e resolvendo em ordem a σ2, o EMV para


este parâmetro é dado por:

1 n 2
σ̂ 2 = ∑e .
n i=1 i

Este estimador não coincide exactamente com o estimador centrado para a


variância dos erros, S2, ainda que lhe seja próximo. No entanto, eles são
assintóticamente equivalentes.

No que respeita aos coeficientes de regressão, as derivadas de 2ª ordem da


logverosimilhança são dadas por:

13
∂ 2 lnL 1 n

∂ bℓ ∂ bk
=− 2
σ
∑x iℓ
xik .
i=1

Seja I a matriz de informação de Fisher relativa a estes parâmetros:

⎡ ⎛ ∂ 2 lnL ⎞ ⎤
I = ⎢E ⎜ − ⎟⎥
⎢⎣ ⎝ ∂ bℓ ∂ bk ⎠ ⎥⎦ k=1,...,p
ℓ=1,...,p

Da fórmula acima, vê-se facilmente que

I=
1
σ 2 (X X) ,
T

ou seja,

( ) ()
−1
I-1 = σ 2 X T X = Cov b̂ ,

o que significa que a matriz de covariâncias dos EMQ destes parâmetros é


igual ao limite inferior de Cramer-Rao.

Conclusão: de entre todos os estimadores centrados, os de mínimos


quadrados (ou de máxima verosimilhança) são os que possuem variância
mínima.

3.3. Testes, Intervalos de confiança e de predição.

Nesta secção vamos supor que os termos de erro εi’s, i =1,...,n, são variáveis
aleatórias i.i.d. com distribuição normal, N(0,σ2). O teorema seguinte é a base
para a inferência estatística no modelo linear e é uma generalização para p
variáveis independentes do teorema 2.1, para o caso da regressão simples.

T
Teorema 3.4. Seja Y = Xb + ε um modelo linear em que ε = ⎡⎢ ε1 ! ε n ⎤⎥ é
⎣ ⎦
um vector de variáveis i.i.d. com distribuição normal N(0, σ ). Então,
2

( )
−1
i) O EMQ do vector de parâmetros b, isto é, b̂ = X T X XTY tem
distribuição multinormal, N(b, σ2(XTX)-1).

ii) A variável aleatória

(n − p)S 2 eTe
= ∩ χ n−
2
p
σ 2
σ 2

iii) b̂ e S2 são independentes.

14
3.3.1. Testes e intervalos de confiança para σ 2.

Em geral, a inferência estatística no modelo linear centra-se nos coeficientes


de regressão ou combinações lineares destes. Mas também pode ser útil obter
intervalos de confiança para a variância dos erros. A partir da alínea (ii) do
teorema 3.4 podemos construir um intervalo de confiança para σ2, tendo como
base a variável fulcral (n – p)S2/σ2 o que leva, ao nível de confiança 1-α, ao
intervalo

⎛ (n − p)S 2 (n − p)S 2 ⎞
⎜ , ⎟,
⎜⎝ χ 1−α /2 α /2
χ(n− ⎟⎠
(n− p) p)

α
em que χ (n− p)
representa o quantil de probablidade α da distribuição qui-
quadrado com n-p graus de liberdade.

3.3.2. Testes e intervalos de confiança para os coeficientes de


regressão.

Consideremos o caso mais geral de um parâmetro que é combinação linear


dos bj, j=1,...,p, isto é:

p
θ= ∑a b j j
= aTb
j =1

em que a é um vector de constantes. (Já vimos que esta formulação inclui


como caso particular o caso de um só parâmetro bj).

O estimador θ̂ = aTb̂ para este parâmetro tem propriedades óptimas:

• É o estimador BLUE para θ;

• Se os erros tiverem distribuição normal, é o estimador de máxima


verosimilhança;

• É centrado e, se os erros tiverem distribuição normal, é de variância


mínima

Tem-se ainda

() ()
E θˆ = aT E b̂ = aTb = θ

() ()
Var θˆ = aTCov b̂ a = σ 2aT X T X ( )
−1
a.

15
Pela alínea (i) do teorema 3.4 sabemos que os EMQ têm distribuição normal
multivariada e, portanto, qualquer combinação linear destes tem tembém
distribuição normal. Logo

θˆ − θ
∩ N(0,1)
( )
−1
σ a X X
T T
a

Além disso, também pelo teorema 3.4 sabemos que

( n − p) S 2

∩ χ n−
2
p
σ 2

e é independente de θ̂ . Então a variável

θˆ − θ

( )
−1
σ aT X T X a θ̂ − θ
=
( )
2 −1
(n − p)S S aT X T X a
(n − p)σ 2

tem distribuição t de student com n-p graus de liberdade porque é o quociente


entre uma normal padrão e a raíz de um qui-quadrado a dividir pelo seu
número de graus de liberdade.

Assim, esta variável fulcral conduz ao intervalo de (1-α)100% de confiança:

⎛ ⎞
( ) ( )
−1 −1
ˆ 1−α /2 a;θˆ + t n−
1−α /2
⎜ θ − t n− p S a X X
T T
p
S aT X T X a⎟ ,
⎝ ⎠

α
em que t n− p
representa o quantil de probabilidade α da distribuição t de
student com n-p graus de liberdade.

Podemos também utilizar a mesma estatística para construir testes de


hipóteses sobre o parâmetro θ. Consideremos o caso particular importante do
teste sobre a nulidade de um dos coeficientes de regressão:

H 0: b j = 0 contra H1: bj ≠ 0.

Este teste é equivalente a testar se a variável independente xj está ou não


relacionada com variável resposta Y e se deverá ou não ser incluída no
modelo.

Seja

Var(bj) = σ2zjj,

16
(X X)
−1
em que zjj é o j-ésimo elemento na diagonal principal de T
. Então a
estatística de teste pode ser escrita na forma

b̂j b̂j
=
S z jj ( )
σ b̂j

que, sob a validade de H0, tem distribuição t(n-p). Consequentemente, a região


de rejeição do teste será dada por

b̂j
1−α /2
> t n− .
( )
σ b̂j
p

A região de rejeição para o teste com hipótese alternativa unilateral pode ser
encontrada de maneira óbvia.

3.3.3. Intervalos de predição.

Suponhamos que, para um certo conjunto de valores não observados das


variáveis independentes,

⎡ * ⎤
x
x* = ⎢ 1 ⎥
⎢ * ⎥
⎢ x2 ⎥
⎢ ⎥
⎢ ! ⎥
⎢ x* ⎥
⎢⎣ p ⎥⎦

pretendemos estimar o correspondente valor da variável y* e associar-lhe um


intervalo de confiança. De acordo com o modelo, a variável aleatória y* é dada
por

∑x b
T
y * = x* b + ε * = *
j j
+ ε* ,
j =1

em que ε* tem distribuição normal, N(0,σ2).

Se quiséssemos um intervalo de confiança para o valor médio de y*, para o


T
parâmetro x* b , poderíamos aplicar o procedimento que estudámos na secção
anterior para combinações lineares dos coeficientes de regressão, com o
vector de constantes a dado por x*.

Mas o que pretendemos é um intervalo de confiança para a variável


dependente e não para o seu valor médio.

17
A previsão, para uma variável aleatória, com erro quadrático médio (EQM)
mínimo é dada pelo valor médio dessa variável aleatória.

Neste caso o valor médio de y* é uma combinação linear dos coeficientes de


regressão do modelo e, portanto, pode ser estimado de maneira óptima pela
correspondente combinação linear dos EMQ de b ( Teorema de Gauss-
Markov). Portanto,

p T

ŷ * = ∑x b *
j j
= x* b̂ ,
j =1

( ) ( )
em que E ŷ * = E y * . O EQM de ŷ * é dado por


( ) ( )( )
2⎤ ⎡ T ⎤
E ⎢ ŷ * − y * ⎥ = E ⎢ ŷ * − y * ŷ * − y * ⎥
⎣ ⎦ ⎣ ⎦
⎡ T ⎤
= E ⎢⎛ x* b̂ − x* b − ε * ⎞ ⎛ x* b̂ − x* b − ε * ⎞ ⎥
T T T T

⎢⎣⎝ ⎠⎝ ⎠ ⎥

⎡ *T *⎤
( )( )
T
= E ⎢ x b̂ − b b̂ − b x ⎥ + E ε ε ⎛ * * ⎞
T

⎣ ⎦ ⎝ ⎠
⎡ ⎤
( )
T −1
= σ 2 ⎢ x* X T X x* + 1⎥
⎣ ⎦

O erro de predição é

(b̂ − b) + ε
T

ŷ * − y * = x* *
,

é uma combinação linear do vector dos EMQ, que tem distribuição normal
multivariada, e do termo de erro ε*, que tem também distribuição normal e é
independente desse vector de estimadores. Então o erro de predição tem
distribuição normal com média nula e variância igual ao EQM de ŷ * . Portanto,

ŷ * − y *
∩ t(n− p)
( )
T −1
S x* X T X x* + 1

Um intervalo de (1-α)100% de confiança para y * , isto é, um intervalo de


predição para y * , é dado por

⎛ * 1−α /2 ⎞
( ) ( )
T −1 T −1

⎜ ŷ − t n− p
S x *
XT X 1−α /2
x* + 1; ŷ * + t n− p
S x* X T X x* + 1 ⎟ ,
⎝ ⎠

1−α /2
em que t n− p
designa o quantil de ordem 1-α/2 da distribuição t de student
com n-p graus de liberdade.

18
3.4. Análise dos resíduos e ajustamento do modelo.

Vamos agora ver alguns métodos e análises que nos permitem julgar sobre a
adequação de um modelo linear à descrição de um determinado fenómeno.
Veremos também como verificar as condições de Gauss-Markov e a
normalidade dos resíduos, que garantem a qualidade das inferências e
predições.

3.4.1. Análise dos resíduos.

A análise dos resíduos tem um papel particularmente importante no que


respeita a avaliação da qualidade do ajustamento do modelo bem como a
verificação das condições de Gauss-Markov e de normalidade.

Os resíduos são as diferenças entre os valores observados e os valores


ajustados, ei = yi − ŷi , i = 1,...,n, e permitem investigar sobre as discrepâncias
entre a realidade observada e o modelo. Daqui podemos obter informações
muito importantes para encontrar modelos mais adequados e mais precisos.

Algumas análises que é usual fazer aosresíduos:

• Representar graficamente os resíduos contra cada uma das


variáveis independentes, isto é, para cada j fixo, j = 1,...,p,
representar ei contra xij.
resíduos
resíduos

xij xij

Deverá ser incluído o quadrado da A variável indpendente deverá ser


variável dependente. substituída pelo seu logaritmo.

• Representar os resíduos contra outras variáveis independentes


não incluídas no modelo.

• Representar os resíduos contra os valores ajustados, ŷi .

• Tanto os gráficos dos resíduos ocntra as variáveis independentes como


contra os valores ajustados, podem dar indicação sobre o problema que
consiste no aumento (ou na diminuição) da variância dos resíduos
proporcionalmente ao valor médio das observações.

19
resíduos
valores ajustados

Resíduos com variância não constante

• Os resíduos devem também ser analisados só por si, representando-os


em papel de probabilidades normal, fazendo o seu histograma e
aplicando testes de ajustamento, como o teste do qui-quadrado ou o
teste de Kolmogorov-Smirnov, a fim de verificar sobre a sua
normalidade. Neste tipo de análises é usual trabalhar com os resíduos
padronizados, isto é, divididos pelo seu desvio-padrão. A variância dos
resíduos é dada por

( )
Var ei = σ 2 1 − hii , ( )
de modo que os resíduos padronizados (com variância unitária) são
obtidos através da fórmula

ei* = ei S 1 − hii .

Note-se, no entanto, que os resíduos, mesmo padronizados, não


constituem uma amostra aleatória no sentido rigoroso do termo porque
não são independentes.

3.4.2. A análise do R2.

Consideremos o modelo linear incluindo um termo constante, isto é, xi1 =1,


para i =1,...,n. Então a variabilidade total da amostra pode-se decompor
segundo a equação

SQTot = SQe + SQReg.

Com base nesta decomposição, e à semelhança do que foi feito para o caso da
regressão simples, podemos definir o coeficiente de determinação múltipla, R2,
como a percentagem de variação da amostra que é explicada pelo modelo de
regressão, isto é,

SQRe g SQe
R2 = =1−
SQTot SQTot

20
Este coeficiente toma valores entre 0 e 1:

- R2 = 1 corresponde ao ajustamento perfeito

- R2 = 0 corresponde ao caso em que a variabilidade total da amostra provém


unicamente da variabilidade dos erros. Não estamos, portanto, em presença
de um modelo linear.

É possível ainda dar uma outra interpretação do coeficiente R2, se tivermos


em atenção que:

∑ (y )( ) ∑ (y )( )
n n

i
− y ŷi − y = i
− ŷi + ŷi − y ŷi − y
i=1 i=1

∑( )( ) ( )
n n 2
= yi − ŷi ŷi − y + ∑ ŷi − y
i=1 i=1

( )
n n n 2
= ∑ e ŷ i i
− y ∑ ei + ∑ ŷi − y
i=1 i=1 i=1

∑ ( ŷ )
n 2
= i
−y .
i=1

Daqui sai que

∑( ) ∑ (y )( )
n 2 n
ŷi − y i
− y ŷi − y
2
R = i=1
= i=1
.
∑ (y ) ∑ (y )
n 2 n 2

i
−y i
−y
i=1 i=1

∑ ( ŷ )
n 2
Multiplicando este quociente, no numerador e no denominador, por i
−y
i=1

vem que

2 2
⎡ n ⎤ ⎡ ⎤
( )( ) ∑ (y )( )
n
⎢ ∑ yi − y ŷi − y ⎥ ⎢
i
− y ŷi − y ⎥
⎢ ⎥
R2 = ⎣n ⎦
i=1
=⎢ i=1

( ) ( )
2 n

∑ (y ) ∑ ( ŷ − y )
2 n 2 n
∑ yi − y ∑ ŷi − y
2
⎢ −y ⎥
i=1 i=1 ⎢⎣ i=1
i
i=1
i
⎥⎦

Daqui se conclui que o R2 é também o coeficiente de correlação amostral entre


a amostra dos yi e dos ŷi , ou seja R2 = ryŷ2 .

Alguns autores, preferem utilizar como medida de ajustamento alternativa o


R2 ajustado, que se representa por Ra2 e que é dado por

21
∑ (y )
n 2
− ŷi (n − p)
2
i
s2
R = 1− i =1
= 1− .
∑ (y )
a n 2 SQTot (n − 1)
i
−y (n − 1)
i =1

Também é importante olhar para o valor de s2. Uma boa regra prática para
julgar acerca do valor de s2 baseia-se no facto de que, para uma amostra de
dimensão grande, a amplitude do intervalo de predição com 95% de confiança
é aproximadamente 4s.

Em rigor, o valor de R2 é mais uma medida da utilidade do modelo, do


que da qualidade do ajustamento. Se a variância dos termos de erro for
grande, este índice tende a ser baixo, o que não significa que o modelo esteja
mal ajustado. O que significa é que é pouco útil, principalmente, se o objectivo
for a predição.

No entanto, pode acontecer que s2 seja grande e, portanto, R2 seja baixo


porque faltam variáveis no modelo. São duas situações completamente
diferentes que importa diagnosticar na prática. Este diagnóstico tem
essencialmente a ver com o conhecimento que temos do problema e não com
o cálculo de estatísticas e índices.

Quando o modelo não possui termo constante, isto é, se b1 = 0, a


decomposição da soma de quadrados na qual se baseia a definição do R2 já
não é válida e, portanto, aquele coeficiente não pode ser calculado do mesmo
modo. No caso em que não existe termo constante, o que sabemos é que,

∑ (y )
n n n n 2 n

∑y 2
i
= ∑e 2
i
+ ∑ ŷi2 = i
− ŷi + ∑ ŷi2 .
i =1 i =1 i =1 i =1 i =1

Então, o coeficente de determinação múltipla é definido como

∑ (y )
n 2 n

i
− ŷi ∑ ŷ 2
i
R2 = 1 − i =1
n
= i =1
n
.
∑y 2
i ∑y 2
i
i =1 i =1

3.4.3. Teste F e tabela ANOVA

Uma forma de avaliar, grosso modo, sobre a eficiência do modelo é testar a


hipótese de que todos os coeficientes de regressão são nulos, exceptuando o
que corresponde ao termo constante:

H0: b2 = b3 = ... = bp = 0 contra H1: bj ≠ 0, para algum j = 1,...,p.

Este teste não averigua sobre o ajustamento do modelo mas permite


verificar rapidamente a necessidade de ajustamento de um modelo linear ao
conjunto de observações.

Para construir um teste para esta hipótese vamos reescrever a fórmula da


decomposição da soma de quadrados na forma:

22
∑ (y ) ∑ ( ŷ )
n 2 n n 2

i
−y ∑e 2
i i
−y
i=1
= i=1
+ i=1
.
σ 2
σ 2
σ2

Tem-se ainda que:

∑e 2
i
• A soma dos quadrados dos residuos é tal que: i=1
∩ χ (n− p)
σ2

• Se H0 for verdadeira, os yi's são v.a.'s i.i.d. com distribuição N(b1,σ2). Logo

∑ (y )
n 2

i
−y
i=1
∩ χ (n−1)
σ2

p p p
• Como b̂1 = y − ∑ b̂j x j , tem-se ŷi − y = y − ∑ x j b̂j + ∑ xij b̂j − y e SQreg pode
j =2 J =1
2 J =1
2
2
T
ser escrita como

( )
⎡ p ⎤
∑ ( ŷ )
n 2 n

i
−y = ∑ ⎢ ∑ b̂j xij − x j ⎥ ,
i=1 i=1 ⎣ j =2 ⎦

isto é, como função dos EMQ dos coeficientes de regressão que sabemos,
que são independentes de SQe.

Portanto, em termos da distribuição de probabilidade, a decomposição da


soma de quadrados pode ser escrita como:

χ n−1
2
= χ n−
2
p
+ χ 2p−1

Então a estatística de teste é dada por

∑ ( ŷ ) ( p − 1)
n 2

i
−y
F = i=1
que, sob H0, é uma Fp-1;n-p,
( n − p)
n

∑e 2
i
i=1

1−α
com região de rejeição R = F > Fp−1;n− p { }
Note-se que rejeitar esta hipótese não significa que o modelo esteja bem
ajustado e que não possa ser melhorado juntando mais variáveis ou
transformando algumas das que já estão incluídas.

É usual representar os resultados deste teste numa tabela ANOVA, como se


apresenta em baixo:

23
Fonte Soma de Graus de Média de
quadrados liberdade Quadrados

∑ ( ŷ )
n 2
Regressão SQReg = i
−y p-1 MQReg = SQReg /(p-1)
i=1
n
Residual SQe = ∑e 2
i
n-p MQe = SQe /(n-p)
i=1

∑ (y )
n 2
Total SQTot = i
−y n-1 F: MQReg / MQe
i=1

EXEMPLOS

24
3.6. Hipótese linear.

Para um modelo linear Y=Xb+ε , com b = ⎡ b1 b2 ! bp ⎤ , já construímos testes


⎣⎢ ⎥⎦
de hipóteses para as hipóteses da forma:

p
• H0: a'b = ∑a b j j
= 0 , tendo como caso particular importante H0: bj = 0
j =1

• H0: b2 = b3 = ... = bp = 0.

E se quisermos testar se um qualquer subconjunto de coeficientes de


regressão é nulo?

E se quisermos testar se mais de uma combinação linear dos parâmetros é


nula ou igual a outro valor?

Vamos agora ver como construir um teste para a chamada hipótese linear,
isto é, para as hipóteses

H0: Cb = h vs H1: Cb ≠ h

em que C é uma matriz de constantes qxp, q sendo o número de restrições, e


h é também um vector coluna qx1 de constantes. Em geral o vector de
contantes h é o vector nulo, mas não obrigatoriamente.

Assim, a hipótese

H 0: b j = 0 vs H 1: b j ≠ 0

é um caso particular da hipótese linear em que q=1, h=0 e a matriz C é uma


matriz linha com todas as componentes iguais a zéro excepto a j-ésima
componente que é igual à unidade, ou seja,

C = ⎣ 0 ... 0 1 0 ! 0 ⎦ . ⎤

A hipótese

H0: b2 = ... = bp = 0 vs H1: bj ≠ 0 para algum j = 2,...,p,

é também um caso particular da hipótese linear em que q=p-1, o vector h


tem todas as componentes nulas e a matriz C é dada por

⎡ 0 1 0 ! 0 ⎤⎥

⎢ 0 0 1 ! 0 ⎥
C=⎢ ⎥.
⎢ " " " # " ⎥
⎢ ⎥
⎣ 0 0 0 ! 1 ⎦

Da mesma forma, se quisermos testar apenas se os coeficientes b2 e b3 são


nulos,

25
H 0: b 2 = b 3 = 0 vs H1: b2 ≠ 0 ou b3 ≠ 0,

a matriz C corresponde apenas às duas primeiras linhas da matriz anterior:

⎡ 0 1 0 ! 0 ⎤⎥
C=⎢ .
⎢ 0 0 1 ! 0 ⎥⎦

A hipótese linear é, pois, uma ferramenta estatística extremamente útil, que


se aplica a uma grande variedade de situações.

Para construir um teste para a hipótese linear vamos começar por obter os
EMQ de b que satisfazem o conjunto de restrições lineares especificadas na
hipótese nula, isto é, tais que Cb̂ = h .

26
27
28
29
Fonte Soma de Graus de Média de
quadrados liberdade Quadrados

Modelo Completo SQReg(C) p-1 SQReg(C) /(p-1)


Modelo Reduzido SQReg(R) p-q-1 SQReg(R)/(p-q-1)
Diferença SQReg(C) - SQReg(R) = q [SQe(R) - SQe(C)]/q
= SQe(R) - SQe(C)
Residual SQe(C) n-p MQe(C)=SQe(C)/(n-p)

Total SQTot n-1 F: [SQe(R) - SQe(C)]/(qMQe(C))

3.7. A análise de variância simples como um modelo de


regressão.

Consideremos de novo o problema do capítulo 1 em que temos I amostras


independentes

( X , X ,..., X ) , i = 1,...,I,
i1 i2 ini

em que a amostra i é proveniente de uma população Xi com distribuição


normal N(µi, σ2). Assim, cada observação é da forma

X ij = µi + ε ij , i = 1,...,I , j = 1,...,ni,

em que os εij são variáveis aleatórias i.i.d. com distribuição normal, N(0, σ2), e
pretendemos construir um teste para as hipóteses

H0: µ1 = µ2 = ... = µI contra H1: µi ≠ µj para algum i ≠ j.

Relembremos que:

• A estatística de teste F encontrada foi obtida por simples generalização


do teste de igualdade de duas médias

• A estatística de teste F corresponde ao teste de razão de


verosimilhanças generalizado.

Este modelo também pode ser escrito como um modelo de regresão linear
múltipla. Consideremos o vector de observações na forma

⎡ ⎤
Y ! Y1n | Y21 ! Y2n | ! | YI1 ! YIn
Y ′ = ⎢ "11$
$#$$ %1
"$$#$$ %2
"$$#$$ %I ⎥,
⎢ ⎥
⎣ população 1 população 2 população I

em que N representa o número total de observações no conjunto das I


I
amostras, N = ∑n . i
i=1

30
A matriz de planeamento X pode ser escrita recorrendo a I variáveis
indicatrizes, xij, j=1,...,I, i=1,....,N:

⎧⎪ 1 i = n + ... + n + 1,...,n ;
xij = ⎨ 1 j −1 j

⎪⎩ 0 caso contrário.

A matriz de planeamento é agora uma matriz cujos elementos são apenas “0”
ou “1”, em que a j-ésima coluna está associada à j-ésima população,
assumindo o valor 1 na i-ésima linha se a observação Yi pertencer à população
j e tomando o valor 0 se não pertencer:

⎡ 1 0 ! 0 ⎤
⎢ ⎥
⎢ " " # " ⎥
⎢ 1 0 ! 0 ⎥
⎢ 0 1 ! 0 ⎥
⎢ ⎥
X=⎢ " " # " ⎥.
⎢ 0 1 ! 0 ⎥
⎢ ⎥
⎢ " " # " ⎥
⎢ 0 0 ! 1 ⎥
⎢ " " # " ⎥
⎢ ⎥
⎢⎣ 0 0 ! 1 ⎥⎦

Escrevendo o vector dos termos de erro como

ε = ⎡ ε11 ! ε1n | ε 21 ! ε 2n | ! | ε I1 ! ε In ⎤ ,
⎣⎢ 1 2 I ⎦⎥

as observações do modelo de análise de variância podem ser escritas como


um modelo de regressão linear múltipla:

Y =Xb + e,

em que o vector dos coeficientes de regressão µ é constituído pelos valores


médios das I populações, µ ′ = ⎡ µ1 µ2 ! µ I ⎤ .
⎣ ⎦

Neste caso,

⎡ n1 ⎤


∑ 1 j ⎥⎥
Y
⎡ n1 0 ! 0 ⎤
j =1
⎢ ⎥ ⎢ n2 ⎥


X ′X = ⎢
0 n2 ! 0 ⎥
⎥ e X ′Y = ⎢ ∑ Y2 j ⎥⎥ .
j =1
⎢ " " # " ⎥ ⎢ ⎥
⎢ ⎢ ! ⎥
0 0 ! nI ⎥ ⎢ ⎥
⎣ ⎦ nI


∑ Ij ⎥⎥
Y
⎣ j =1

31
Deste modo, os EMQ para os coeficientes de regressão que, neste caso, são os valores
médios das I populações, são dados por

⎡ µ̂1 ⎤ ⎡Y ⎤
⎢ ⎥ ⎢ 1 ⎥
⎢ µ̂2 ⎥ ⎢Y ⎥
( )
−1
µ̂ = ⎢ ⎥ = X ′X X ′Y = ⎢ 2 ⎥,
⎢ ! ⎥ ⎢ ! ⎥
⎢ µ̂ I ⎥ ⎢Y ⎥
⎣ ⎦ ⎣ I ⎦

em que, naturalmente, Yi designa a média amostral da população i.

Também podemos obter os EMQ dos valores médios de cada população por
derivação da soma de quadrados que, neste caso, é simplesmente,

∑ ∑ (Y ).
I ni
2
SQ = ij
− µi
i=1 j =1

Então, para cada k = 1,...,I, vem

( )
n
∂SQ k

= −2∑ Ykj − µk .
∂ µk j =1

Assim, obtemos o sistema de I equações normais

nk
∂SQ
∂ µk
= 0, k = 1,..., I ⇔ ∑Y kj
= nk µk .
j =1

Assim os EMQ dos valores médios das I populações são dados por

nk
1
µ̂k = Yk =
nk
∑Y kj
.
j =1

Além disso, como Yij = µi + εij, os valores ajustados são dados por,

Yˆij = µ̂i = Yi ,

Nestas circunstâncias, a fórmula da decomposição da soma dos quadrados


total diz-nos, sem necessidade de executar mais cálculos, que

∑∑( ) ∑ ∑ (Y )
ni ni

( )
I 2 I 2 I 2
SQtot = Yij − Y = ij
− Yi + ∑ ni Yi − Y
i=1 j =1 i=1 j =1 i=1

= SQe + SQext

32
n
1 I i
em que Y = ∑ ∑ Yij .
N i=1 j =1

NOTAS

• Os EMQ dos coeficientes de regressão, neste caso, os valores médios


das populações são simplesmente as médias amostrais e são estes
também os valores ajustados a cada observação

• É de notar que a soma de quadrados extra-grupos, aqui designada por


SQext também se costuma denotar por SQtrat porque mede a
variabiidade provocada pela existência de diferentes tratamentos que
são aplicados a pessoas, animais, plantas, etc. Esta quantidade, na
perspectiva do modelo de regressão linear, é exactamente o mesmo
que a soma de quadrados devido à regressão, SQreg.

A hipótese linear permite agora deduzir a estatística de teste para as


hipóteses

H0: µ1 = µ2 = ... = µI vs H1: µi ≠ µj para algum i≠j.

Sob a validade da hipótese nula, as observações Yij têm valor médio comum µ
e variância σ2, e o EMQ de µ é a média de todas as observações Y . Ora como

Yˆij = µ̂ = Y

vem que a soma de quadrados dos erros para este modelo reduzido é dada
por

∑∑( ) ∑ ∑ (Y )
I ni I ni
2 2
SQe (R) = Yij − Yˆij = ij
−Y = SQtot .
i=1 j =1 i=1 j =1

Por outro lado sabemos que, para o modelo completo, em que os valores
médios são diferentes, se tem

SQe(C)=SQtot - SQext.

Para esta hipótese linear, a diferença das somas de quadrados dos erros, vem
apenas

SQe(R) - SQe(C)=SQtot - (SQtot - SQext) = SQext.

Então se H0 for verdadeira:

33
SQe (R) − SQe (C) SQext
= ∩ χ (I −1)
σ 2
σ2

O número de graus de liberdade corresponde ao número de restrições sobre


os parâmetros da hipótese nula, que pode ser escrita como hipótese linear,

H0: Cµ = 0

em que C é uma matriz I-1 x I dada por

⎡ 1 −1 0 ! 0 0 ⎤
⎢ ⎥
C=⎢ 0 1 −1 ! 0 0 ⎥.
⎢ " " " # " " ⎥
⎢ ⎥
⎣ 0 0 0 ! 1 −1 ⎦

Além disso, como:

- SQe(R) - SQe(C) é independente de SQe(C);

SQe (C)
- ∩ χ (n−I)
2
,
σ 2

vem que a estatística de teste para esta hipótese linear é dada por

⎡ SQ (R) − SQ (C)⎤ (I − 1) SQ (I − 1) ∑ n (Y i i
− Y )2 (I − 1)
F = ⎣ ⎦
e e
= ext
= i=1

∑ ∑ (Y )
SQe (C) (N − I) SQe (N − I) I ni
2

ij
− Yi (N − I)
i=1 j =1

que, sob a validade da hipótese nula, tem distribuição F com I-1 graus de
liberdade no numerador e N-I graus de liberdade no denominador.

NOTAS

• O teste que já tínhamos deduzido no capítulo 1 para a hipótese de


igualdade de valores médios pode também ser obtido como um teste
numa hipótese linear num modelo de regressão múltipla.

• As propriedades óptimas dos EMQ deduzidas para os modelos de


regressão linear são também válidas para o modelo ANOVA.

No caso da hipótese sobre a igualdade de todas as médias ser rejeitada,


escrever um modelo de análise da variância como um modelo de regressão
linear, pode ser particularmente útil para, utilizando o teste na hipótese linear,
verificar a validade de certas hipóteses específicas como, por exemplo, dividir
as populações em grupos com valores médios iguais entre si.

34
EXEMPLO

Suponhamos que após compraração de 6 populações, o teste de igualdade dos


seus valores médios conduz à rejeição da hipótese. Como poderemos, por
exemplo, testar o conjunto de hipóteses:

H 0 : µ2 = µ3 = µ4 ; µ5 = µ6 ?

Basta utilizar o teste na hipótese linear em que a matriz C é dada por

⎡ 0 1 −1 0 0 0 ⎤
⎢ ⎥
C= ⎢ 0 0 1 −1 0 0 ⎥ .
⎢ ⎥
⎢⎣ 0 0 0 0 1 −1 ⎥⎦

Na prática, juntando as observações da população 2 com a 3 e a 4, e juntando


a população 5 com a 6, podemos obter SQe(R) que, comparando com SQe(C),
permite testar se a constituição destes três grupos é viável, sendo que um dos
grupos é constituído por apenas uma população.

Outra parametrização do modelo

Como já vimos, muitas vezes representa-se o modelo ANOVA através de um


outro conjunto de parâmetros, isto é, considera-se a reparametrização

Yij = µ + α i + ε ij , i = 1,...,I , j = 1,...,ni,

em que os novos parâmetros são dados por

1 I
µ= ∑nµ
N i=1 i i
e α i = µi − µ , i = 1,...,I,

e tais que

I I

∑ nα i i
= ∑nµ i i
− Nµ = 0 .
i=1 i=1

Como os novos parâmetros são função linear dos anteriores, os EMQ são a
mesma função linear dos EMQ de µ1, µ2, ..., µI:

n
1 I 1 I i
µ̂ = ∑ n Y = ∑ ∑Y = Y
N i=1 i i N i=1 j =1 ij

α̂ i = µ̂i − µ̂ = Yi − Y .

35
Esta reparametrização do modelo envolve I+1 parâmetros: µ e α1, α2, ..., αI.

I
Como ∑ nα i i
= 0 , existem apenas I parâmetros independentes, já que um dos
i=1

αi’s pode-se escrever como combinação linear dos outros, por exemplo:

n1 n2 nI −1
αI = − α1 − α 2 − ... − α I −1 .
nI nI nI

Se quisermos escrever o modelo em notação matricial, o vector de


coeficientes inclui apenas µ, α1, α2, ..., αI-1 e a matriz de planeamento X, com
N linhas e I colunas, toma a forma

⎡ 1 1 0 ! 0 ⎤
⎢ ⎥
⎢ 1 1 0 ! 0 ⎥
⎢ " " " # " ⎥
⎢ 1 1 0 ! 0 ⎥
⎢ ⎥
⎢ 1 0 1 ! 0 ⎥
⎢ " " " # " ⎥
⎢ ⎥
⎢ 1 0 1 ! 0 ⎥
⎢ " " " # " ⎥
X =⎢ 1 0 0 ! 1 ⎥.
⎢ ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
nI nI nI
⎢ ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
⎢ nI nI nI ⎥
⎢ ⎥
⎢ " " " # " ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
⎢⎣ nI nI nI ⎥⎦

Na verdade, a representação matricial não é, neste caso, estritamente


necessária porque os novos parâmetros, sendo funções lineares dos primeiros,
obtêm-se facilmente a partir destes. Com a nova reparametrização o teste de
igualdade de médias toma a forma:

H0: α1 = α2 = ... = αI = 0 vs H1: αi ≠ 0 para algum i.

Repare-se que, em ambos os modelos, Yˆij = Yi , de maneira que a partição da


soma de quadrados é a mesma,

I
SQtot = SQe + SQext = SQe + ∑ niα̂ i2 ,
i=1

o que conduz, naturalmente, à mesma estatística de teste F. Em ambos os


casos a tabela ANOVA é a mesma e igual à que foi apresentada no capítulo 1.

36
ANEXO I
ANEXO II

(iv)

Você também pode gostar