Slides Aulas ML 2019 - 20

1
2
3
4
5
DEMONSTRAÇÃO:
Seja θ = aTb uma combinação linear dos coeficientes do modelo de regressão

múltipla. Em particular, pode ser apenas um dos coeficientes, bj, j=1,...,p.
Um estimador linear centrado para θ é da forma cTY em que,
E(cTY) = cTE(Y) = cTXb = aTb.
Daqui, como o estimador é centrado, deduz-se a igualdade:
c TX = a T
Além disso, a variância deste estimador é dada por
Var(cTY) = cTCov(Y)c = cTσ2Inc = σ2cTc
Por outro lado, a variância do EMQ é dada por:
( ) ()
Var aTb̂ = aTCov b̂ a = σ 2aT X T X ( )
−1
a.
Fazendo a diferença entre as duas variâncias e entrando em linha de conta

com a igualdade acima que garante que um estimador linear seja centrado
vem:
( ) ( ) ⎛
(
Var c T Y − Var aTb̂ = σ 2 ⎜ c T c − aT X T X
⎝ )
−1 ⎞
a⎟
⎠
⎛
( ) ⎞
−1
= σ 2 ⎜ cTc − cT X X T X X T c⎟
⎝ ⎠
⎛
( ) ⎞
−1
= σ 2c T ⎜ I n − X X T X XT ⎟ c
⎝ ⎠
= σ 2c TMc.
Mas como σ2M é a matriz de covariâncias dos resíduos, sabemos que M é

semi-definida positiva e, portanto, tem-se que
σ2cTMc ≥ 0,
o que demonstra o teorema.
NOTA
• As propriedades que acabámos de ver não impõem qualquer

condição no que respeita à distribuição de probabilidade dos erros
aleatórios e das observações da variável dependente Y.
12
O método dos mínimos quadrados produz bons estimadores em condições
muito gerais. Mas se, para além das condições de Gauss-Markov, admitirmos
que os εi’s são variáveis aleatórias i.i.d. com distribuição normal, N(0,σ2), os
EMQ são estimadores centrados de variância mínima.
Se os termos de erro têm distribuição normal, a verosimilhança da amostra

das observações da variável dependente é
⎡ ⎛ ⎞ ⎤
2
( )
n p
1 ⎢− 1
L y1 ,y2 ,...,yn;b,σ 2
= exp ∑ ⎜⎝ yi − ∑ xij bj ⎟⎠ ⎥⎥ ,
( )
⎢ 2σ 2
n/2
2πσ 2 ⎣
i=1 j =1
⎦
e a logverosimilhança:
2
⎛ ⎞
( )
n p
n 1
lnL = − ln 2πσ 2 −
2 2σ 2
∑ ⎜⎝ i ∑ xij bj ⎟⎠ .
y −
i=1 j =1
Como o primeiro termo no lado direito da igualdade acima não depende dos
coeficientes de regressão, os estimadores que maximizam a logverosimilhança
são aqueles que maximizam o termo direito da soma, ou seja, que minimizam
a soma de quadrados SQ.
Quando as observações têm distribuição normal, os EMQ coincidem

com os estimadores de máxima verosimilhança.
Além disso, tem-se ainda que:
∂ lnL 1 n ⎛ p ⎞
∂ bk
= 2
σ
∑ ⎜⎝ i ∑ xij bj ⎟⎠ xik ,
y − k = 1,...,p
i=1 j =1
2
∂ lnL n 1 ⎛
n p ⎞
∂σ 2
=−
2σ 2
+
2σ 4
∑ ⎜⎝ yi − ∑ xij bj ⎟⎠ .
i=1 j =1
Igualando a segunda equação a zero e resolvendo em ordem a σ2, o EMV para

este parâmetro é dado por:
1 n 2
σ̂ 2 = ∑e .
n i=1 i
Este estimador não coincide exactamente com o estimador centrado para a

variância dos erros, S2, ainda que lhe seja próximo. No entanto, eles são
assintóticamente equivalentes.
No que respeita aos coeficientes de regressão, as derivadas de 2ª ordem da

logverosimilhança são dadas por:
13
∂ 2 lnL 1 n
∂ bℓ ∂ bk
=− 2
σ
∑x iℓ
xik .
i=1
Seja I a matriz de informação de Fisher relativa a estes parâmetros:
⎡ ⎛ ∂ 2 lnL ⎞ ⎤
I = ⎢E ⎜ − ⎟⎥
⎢⎣ ⎝ ∂ bℓ ∂ bk ⎠ ⎥⎦ k=1,...,p
ℓ=1,...,p
Da fórmula acima, vê-se facilmente que
I=
1
σ 2 (X X) ,
T
ou seja,
( ) ()
−1
I-1 = σ 2 X T X = Cov b̂ ,
o que significa que a matriz de covariâncias dos EMQ destes parâmetros é

igual ao limite inferior de Cramer-Rao.
Conclusão: de entre todos os estimadores centrados, os de mínimos

quadrados (ou de máxima verosimilhança) são os que possuem variância
mínima.
3.3. Testes, Intervalos de confiança e de predição.
Nesta secção vamos supor que os termos de erro εi’s, i =1,...,n, são variáveis
aleatórias i.i.d. com distribuição normal, N(0,σ2). O teorema seguinte é a base
para a inferência estatística no modelo linear e é uma generalização para p
variáveis independentes do teorema 2.1, para o caso da regressão simples.
T
Teorema 3.4. Seja Y = Xb + ε um modelo linear em que ε = ⎡⎢ ε1 ! ε n ⎤⎥ é
⎣ ⎦
um vector de variáveis i.i.d. com distribuição normal N(0, σ ). Então,
2
( )
−1
i) O EMQ do vector de parâmetros b, isto é, b̂ = X T X XTY tem
distribuição multinormal, N(b, σ2(XTX)-1).
ii) A variável aleatória
(n − p)S 2 eTe
= ∩ χ n−
2
p
σ 2
σ 2
iii) b̂ e S2 são independentes.
14
3.3.1. Testes e intervalos de confiança para σ 2.
Em geral, a inferência estatística no modelo linear centra-se nos coeficientes

de regressão ou combinações lineares destes. Mas também pode ser útil obter
intervalos de confiança para a variância dos erros. A partir da alínea (ii) do
teorema 3.4 podemos construir um intervalo de confiança para σ2, tendo como
base a variável fulcral (n – p)S2/σ2 o que leva, ao nível de confiança 1-α, ao
intervalo
⎛ (n − p)S 2 (n − p)S 2 ⎞
⎜ , ⎟,
⎜⎝ χ 1−α /2 α /2
χ(n− ⎟⎠
(n− p) p)
α
em que χ (n− p)
representa o quantil de probablidade α da distribuição qui-
quadrado com n-p graus de liberdade.
3.3.2. Testes e intervalos de confiança para os coeficientes de

regressão.
Consideremos o caso mais geral de um parâmetro que é combinação linear

dos bj, j=1,...,p, isto é:
p
θ= ∑a b j j
= aTb
j =1
em que a é um vector de constantes. (Já vimos que esta formulação inclui

como caso particular o caso de um só parâmetro bj).
O estimador θ̂ = aTb̂ para este parâmetro tem propriedades óptimas:
• É o estimador BLUE para θ;
• Se os erros tiverem distribuição normal, é o estimador de máxima

verosimilhança;
• É centrado e, se os erros tiverem distribuição normal, é de variância

mínima
Tem-se ainda
() ()
E θˆ = aT E b̂ = aTb = θ
() ()
Var θˆ = aTCov b̂ a = σ 2aT X T X ( )
−1
a.
15
Pela alínea (i) do teorema 3.4 sabemos que os EMQ têm distribuição normal
multivariada e, portanto, qualquer combinação linear destes tem tembém
distribuição normal. Logo
θˆ − θ
∩ N(0,1)
( )
−1
σ a X X
T T
a
Além disso, também pelo teorema 3.4 sabemos que
( n − p) S 2
∩ χ n−
2
p
σ 2
e é independente de θ̂ . Então a variável
θˆ − θ
( )
−1
σ aT X T X a θ̂ − θ
=
( )
2 −1
(n − p)S S aT X T X a
(n − p)σ 2
tem distribuição t de student com n-p graus de liberdade porque é o quociente

entre uma normal padrão e a raíz de um qui-quadrado a dividir pelo seu
número de graus de liberdade.
Assim, esta variável fulcral conduz ao intervalo de (1-α)100% de confiança:
⎛ ⎞
( ) ( )
−1 −1
ˆ 1−α /2 a;θˆ + t n−
1−α /2
⎜ θ − t n− p S a X X
T T
p
S aT X T X a⎟ ,
⎝ ⎠
α
em que t n− p
representa o quantil de probabilidade α da distribuição t de
student com n-p graus de liberdade.
Podemos também utilizar a mesma estatística para construir testes de

hipóteses sobre o parâmetro θ. Consideremos o caso particular importante do
teste sobre a nulidade de um dos coeficientes de regressão:
H 0: b j = 0 contra H1: bj ≠ 0.
Este teste é equivalente a testar se a variável independente xj está ou não

relacionada com variável resposta Y e se deverá ou não ser incluída no
modelo.
Seja
Var(bj) = σ2zjj,
16
(X X)
−1
em que zjj é o j-ésimo elemento na diagonal principal de T
. Então a
estatística de teste pode ser escrita na forma
b̂j b̂j
=
S z jj ( )
σ b̂j
que, sob a validade de H0, tem distribuição t(n-p). Consequentemente, a região

de rejeição do teste será dada por
b̂j
1−α /2
> t n− .
( )
σ b̂j
p
A região de rejeição para o teste com hipótese alternativa unilateral pode ser
encontrada de maneira óbvia.
3.3.3. Intervalos de predição.
Suponhamos que, para um certo conjunto de valores não observados das

variáveis independentes,
⎡ * ⎤
x
x* = ⎢ 1 ⎥
⎢ * ⎥
⎢ x2 ⎥
⎢ ⎥
⎢ ! ⎥
⎢ x* ⎥
⎢⎣ p ⎥⎦
pretendemos estimar o correspondente valor da variável y* e associar-lhe um

intervalo de confiança. De acordo com o modelo, a variável aleatória y* é dada
por
∑x b
T
y * = x* b + ε * = *
j j
+ ε* ,
j =1
em que ε* tem distribuição normal, N(0,σ2).
Se quiséssemos um intervalo de confiança para o valor médio de y*, para o

T
parâmetro x* b , poderíamos aplicar o procedimento que estudámos na secção
anterior para combinações lineares dos coeficientes de regressão, com o
vector de constantes a dado por x*.
Mas o que pretendemos é um intervalo de confiança para a variável

dependente e não para o seu valor médio.
17
A previsão, para uma variável aleatória, com erro quadrático médio (EQM)
mínimo é dada pelo valor médio dessa variável aleatória.
Neste caso o valor médio de y* é uma combinação linear dos coeficientes de

regressão do modelo e, portanto, pode ser estimado de maneira óptima pela
correspondente combinação linear dos EMQ de b ( Teorema de Gauss-
Markov). Portanto,
p T
ŷ * = ∑x b *
j j
= x* b̂ ,
j =1
( ) ( )
em que E ŷ * = E y * . O EQM de ŷ * é dado por
⎡
( ) ( )( )
2⎤ ⎡ T ⎤
E ⎢ ŷ * − y * ⎥ = E ⎢ ŷ * − y * ŷ * − y * ⎥
⎣ ⎦ ⎣ ⎦
⎡ T ⎤
= E ⎢⎛ x* b̂ − x* b − ε * ⎞ ⎛ x* b̂ − x* b − ε * ⎞ ⎥
T T T T
⎢⎣⎝ ⎠⎝ ⎠ ⎥
⎦
⎡ *T *⎤
( )( )
T
= E ⎢ x b̂ − b b̂ − b x ⎥ + E ε ε ⎛ * * ⎞
T
⎣ ⎦ ⎝ ⎠
⎡ ⎤
( )
T −1
= σ 2 ⎢ x* X T X x* + 1⎥
⎣ ⎦
O erro de predição é
(b̂ − b) + ε
T
ŷ * − y * = x* *
,
é uma combinação linear do vector dos EMQ, que tem distribuição normal
multivariada, e do termo de erro ε*, que tem também distribuição normal e é
independente desse vector de estimadores. Então o erro de predição tem
distribuição normal com média nula e variância igual ao EQM de ŷ * . Portanto,
ŷ * − y *
∩ t(n− p)
( )
T −1
S x* X T X x* + 1
Um intervalo de (1-α)100% de confiança para y * , isto é, um intervalo de

predição para y * , é dado por
⎛ * 1−α /2 ⎞
( ) ( )
T −1 T −1
⎜ ŷ − t n− p
S x *
XT X 1−α /2
x* + 1; ŷ * + t n− p
S x* X T X x* + 1 ⎟ ,
⎝ ⎠
1−α /2
em que t n− p
designa o quantil de ordem 1-α/2 da distribuição t de student
com n-p graus de liberdade.
18
3.4. Análise dos resíduos e ajustamento do modelo.
Vamos agora ver alguns métodos e análises que nos permitem julgar sobre a
adequação de um modelo linear à descrição de um determinado fenómeno.
Veremos também como verificar as condições de Gauss-Markov e a
normalidade dos resíduos, que garantem a qualidade das inferências e
predições.
3.4.1. Análise dos resíduos.
A análise dos resíduos tem um papel particularmente importante no que

respeita a avaliação da qualidade do ajustamento do modelo bem como a
verificação das condições de Gauss-Markov e de normalidade.
Os resíduos são as diferenças entre os valores observados e os valores

ajustados, ei = yi − ŷi , i = 1,...,n, e permitem investigar sobre as discrepâncias
entre a realidade observada e o modelo. Daqui podemos obter informações
muito importantes para encontrar modelos mais adequados e mais precisos.
Algumas análises que é usual fazer aosresíduos:
• Representar graficamente os resíduos contra cada uma das

variáveis independentes, isto é, para cada j fixo, j = 1,...,p,
representar ei contra xij.
resíduos
resíduos
xij xij
Deverá ser incluído o quadrado da A variável indpendente deverá ser

variável dependente. substituída pelo seu logaritmo.
• Representar os resíduos contra outras variáveis independentes

não incluídas no modelo.
• Representar os resíduos contra os valores ajustados, ŷi .
• Tanto os gráficos dos resíduos ocntra as variáveis independentes como

contra os valores ajustados, podem dar indicação sobre o problema que
consiste no aumento (ou na diminuição) da variância dos resíduos
proporcionalmente ao valor médio das observações.
19
resíduos
valores ajustados
Resíduos com variância não constante
• Os resíduos devem também ser analisados só por si, representando-os

em papel de probabilidades normal, fazendo o seu histograma e
aplicando testes de ajustamento, como o teste do qui-quadrado ou o
teste de Kolmogorov-Smirnov, a fim de verificar sobre a sua
normalidade. Neste tipo de análises é usual trabalhar com os resíduos
padronizados, isto é, divididos pelo seu desvio-padrão. A variância dos
resíduos é dada por
( )
Var ei = σ 2 1 − hii , ( )
de modo que os resíduos padronizados (com variância unitária) são
obtidos através da fórmula
ei* = ei S 1 − hii .
Note-se, no entanto, que os resíduos, mesmo padronizados, não

constituem uma amostra aleatória no sentido rigoroso do termo porque
não são independentes.
3.4.2. A análise do R2.
Consideremos o modelo linear incluindo um termo constante, isto é, xi1 =1,

para i =1,...,n. Então a variabilidade total da amostra pode-se decompor
segundo a equação
SQTot = SQe + SQReg.
Com base nesta decomposição, e à semelhança do que foi feito para o caso da
regressão simples, podemos definir o coeficiente de determinação múltipla, R2,
como a percentagem de variação da amostra que é explicada pelo modelo de
regressão, isto é,
SQRe g SQe
R2 = =1−
SQTot SQTot
20
Este coeficiente toma valores entre 0 e 1:
- R2 = 1 corresponde ao ajustamento perfeito
- R2 = 0 corresponde ao caso em que a variabilidade total da amostra provém

unicamente da variabilidade dos erros. Não estamos, portanto, em presença
de um modelo linear.
É possível ainda dar uma outra interpretação do coeficiente R2, se tivermos

em atenção que:
∑ (y )( ) ∑ (y )( )
n n
i
− y ŷi − y = i
− ŷi + ŷi − y ŷi − y
i=1 i=1
∑( )( ) ( )
n n 2
= yi − ŷi ŷi − y + ∑ ŷi − y
i=1 i=1
( )
n n n 2
= ∑ e ŷ i i
− y ∑ ei + ∑ ŷi − y
i=1 i=1 i=1
∑ ( ŷ )
n 2
= i
−y .
i=1
Daqui sai que
∑( ) ∑ (y )( )
n 2 n
ŷi − y i
− y ŷi − y
2
R = i=1
= i=1
.
∑ (y ) ∑ (y )
n 2 n 2
i
−y i
−y
i=1 i=1
∑ ( ŷ )
n 2
Multiplicando este quociente, no numerador e no denominador, por i
−y
i=1
vem que
2 2
⎡ n ⎤ ⎡ ⎤
( )( ) ∑ (y )( )
n
⎢ ∑ yi − y ŷi − y ⎥ ⎢
i
− y ŷi − y ⎥
⎢ ⎥
R2 = ⎣n ⎦
i=1
=⎢ i=1
⎥
( ) ( )
2 n
∑ (y ) ∑ ( ŷ − y )
2 n 2 n
∑ yi − y ∑ ŷi − y
2
⎢ −y ⎥
i=1 i=1 ⎢⎣ i=1
i
i=1
i
⎥⎦
Daqui se conclui que o R2 é também o coeficiente de correlação amostral entre

a amostra dos yi e dos ŷi , ou seja R2 = ryŷ2 .
Alguns autores, preferem utilizar como medida de ajustamento alternativa o

R2 ajustado, que se representa por Ra2 e que é dado por
21
∑ (y )
n 2
− ŷi (n − p)
2
i
s2
R = 1− i =1
= 1− .
∑ (y )
a n 2 SQTot (n − 1)
i
−y (n − 1)
i =1
Também é importante olhar para o valor de s2. Uma boa regra prática para
julgar acerca do valor de s2 baseia-se no facto de que, para uma amostra de
dimensão grande, a amplitude do intervalo de predição com 95% de confiança
é aproximadamente 4s.
Em rigor, o valor de R2 é mais uma medida da utilidade do modelo, do

que da qualidade do ajustamento. Se a variância dos termos de erro for
grande, este índice tende a ser baixo, o que não significa que o modelo esteja
mal ajustado. O que significa é que é pouco útil, principalmente, se o objectivo
for a predição.
No entanto, pode acontecer que s2 seja grande e, portanto, R2 seja baixo

porque faltam variáveis no modelo. São duas situações completamente
diferentes que importa diagnosticar na prática. Este diagnóstico tem
essencialmente a ver com o conhecimento que temos do problema e não com
o cálculo de estatísticas e índices.
Quando o modelo não possui termo constante, isto é, se b1 = 0, a

decomposição da soma de quadrados na qual se baseia a definição do R2 já
não é válida e, portanto, aquele coeficiente não pode ser calculado do mesmo
modo. No caso em que não existe termo constante, o que sabemos é que,
∑ (y )
n n n n 2 n
∑y 2
i
= ∑e 2
i
+ ∑ ŷi2 = i
− ŷi + ∑ ŷi2 .
i =1 i =1 i =1 i =1 i =1
Então, o coeficente de determinação múltipla é definido como
∑ (y )
n 2 n
i
− ŷi ∑ ŷ 2
i
R2 = 1 − i =1
n
= i =1
n
.
∑y 2
i ∑y 2
i
i =1 i =1
3.4.3. Teste F e tabela ANOVA
Uma forma de avaliar, grosso modo, sobre a eficiência do modelo é testar a

hipótese de que todos os coeficientes de regressão são nulos, exceptuando o
que corresponde ao termo constante:
H0: b2 = b3 = ... = bp = 0 contra H1: bj ≠ 0, para algum j = 1,...,p.
Este teste não averigua sobre o ajustamento do modelo mas permite

verificar rapidamente a necessidade de ajustamento de um modelo linear ao
conjunto de observações.
Para construir um teste para esta hipótese vamos reescrever a fórmula da

decomposição da soma de quadrados na forma:
22
∑ (y ) ∑ ( ŷ )
n 2 n n 2
i
−y ∑e 2
i i
−y
i=1
= i=1
+ i=1
.
σ 2
σ 2
σ2
Tem-se ainda que:
∑e 2
i
• A soma dos quadrados dos residuos é tal que: i=1
∩ χ (n− p)
σ2
• Se H0 for verdadeira, os yi's são v.a.'s i.i.d. com distribuição N(b1,σ2). Logo
∑ (y )
n 2
i
−y
i=1
∩ χ (n−1)
σ2
p p p
• Como b̂1 = y − ∑ b̂j x j , tem-se ŷi − y = y − ∑ x j b̂j + ∑ xij b̂j − y e SQreg pode
j =2 J =1
2 J =1
2
2
T
ser escrita como
( )
⎡ p ⎤
∑ ( ŷ )
n 2 n
i
−y = ∑ ⎢ ∑ b̂j xij − x j ⎥ ,
i=1 i=1 ⎣ j =2 ⎦
isto é, como função dos EMQ dos coeficientes de regressão que sabemos,
que são independentes de SQe.
Portanto, em termos da distribuição de probabilidade, a decomposição da

soma de quadrados pode ser escrita como:
χ n−1
2
= χ n−
2
p
+ χ 2p−1
Então a estatística de teste é dada por
∑ ( ŷ ) ( p − 1)
n 2
i
−y
F = i=1
que, sob H0, é uma Fp-1;n-p,
( n − p)
n
∑e 2
i
i=1
1−α
com região de rejeição R = F > Fp−1;n− p { }
Note-se que rejeitar esta hipótese não significa que o modelo esteja bem
ajustado e que não possa ser melhorado juntando mais variáveis ou
transformando algumas das que já estão incluídas.
É usual representar os resultados deste teste numa tabela ANOVA, como se

apresenta em baixo:
23
Fonte Soma de Graus de Média de
quadrados liberdade Quadrados
∑ ( ŷ )
n 2
Regressão SQReg = i
−y p-1 MQReg = SQReg /(p-1)
i=1
n
Residual SQe = ∑e 2
i
n-p MQe = SQe /(n-p)
i=1
∑ (y )
n 2
Total SQTot = i
−y n-1 F: MQReg / MQe
i=1
EXEMPLOS
24
3.6. Hipótese linear.
Para um modelo linear Y=Xb+ε , com b = ⎡ b1 b2 ! bp ⎤ , já construímos testes

⎣⎢ ⎥⎦
de hipóteses para as hipóteses da forma:
p
• H0: a'b = ∑a b j j
= 0 , tendo como caso particular importante H0: bj = 0
j =1
• H0: b2 = b3 = ... = bp = 0.
E se quisermos testar se um qualquer subconjunto de coeficientes de

regressão é nulo?
E se quisermos testar se mais de uma combinação linear dos parâmetros é

nula ou igual a outro valor?
Vamos agora ver como construir um teste para a chamada hipótese linear,
isto é, para as hipóteses
H0: Cb = h vs H1: Cb ≠ h
em que C é uma matriz de constantes qxp, q sendo o número de restrições, e

h é também um vector coluna qx1 de constantes. Em geral o vector de
contantes h é o vector nulo, mas não obrigatoriamente.
Assim, a hipótese
H 0: b j = 0 vs H 1: b j ≠ 0
é um caso particular da hipótese linear em que q=1, h=0 e a matriz C é uma

matriz linha com todas as componentes iguais a zéro excepto a j-ésima
componente que é igual à unidade, ou seja,
⎡
C = ⎣ 0 ... 0 1 0 ! 0 ⎦ . ⎤
A hipótese
H0: b2 = ... = bp = 0 vs H1: bj ≠ 0 para algum j = 2,...,p,
é também um caso particular da hipótese linear em que q=p-1, o vector h

tem todas as componentes nulas e a matriz C é dada por
⎡ 0 1 0 ! 0 ⎤⎥
⎢
⎢ 0 0 1 ! 0 ⎥
C=⎢ ⎥.
⎢ " " " # " ⎥
⎢ ⎥
⎣ 0 0 0 ! 1 ⎦
Da mesma forma, se quisermos testar apenas se os coeficientes b2 e b3 são

nulos,
25
H 0: b 2 = b 3 = 0 vs H1: b2 ≠ 0 ou b3 ≠ 0,
a matriz C corresponde apenas às duas primeiras linhas da matriz anterior:
⎡ 0 1 0 ! 0 ⎤⎥
C=⎢ .
⎢ 0 0 1 ! 0 ⎥⎦
⎣
A hipótese linear é, pois, uma ferramenta estatística extremamente útil, que

se aplica a uma grande variedade de situações.
Para construir um teste para a hipótese linear vamos começar por obter os
EMQ de b que satisfazem o conjunto de restrições lineares especificadas na
hipótese nula, isto é, tais que Cb̂ = h .
26
27
28
29
Fonte Soma de Graus de Média de
quadrados liberdade Quadrados
Modelo Completo SQReg(C) p-1 SQReg(C) /(p-1)

Modelo Reduzido SQReg(R) p-q-1 SQReg(R)/(p-q-1)
Diferença SQReg(C) - SQReg(R) = q [SQe(R) - SQe(C)]/q
= SQe(R) - SQe(C)
Residual SQe(C) n-p MQe(C)=SQe(C)/(n-p)
Total SQTot n-1 F: [SQe(R) - SQe(C)]/(qMQe(C))
3.7. A análise de variância simples como um modelo de

regressão.
Consideremos de novo o problema do capítulo 1 em que temos I amostras

independentes
( X , X ,..., X ) , i = 1,...,I,
i1 i2 ini
em que a amostra i é proveniente de uma população Xi com distribuição

normal N(µi, σ2). Assim, cada observação é da forma
X ij = µi + ε ij , i = 1,...,I , j = 1,...,ni,
em que os εij são variáveis aleatórias i.i.d. com distribuição normal, N(0, σ2), e
pretendemos construir um teste para as hipóteses
H0: µ1 = µ2 = ... = µI contra H1: µi ≠ µj para algum i ≠ j.
Relembremos que:
• A estatística de teste F encontrada foi obtida por simples generalização

do teste de igualdade de duas médias
• A estatística de teste F corresponde ao teste de razão de

verosimilhanças generalizado.
Este modelo também pode ser escrito como um modelo de regresão linear
múltipla. Consideremos o vector de observações na forma
⎡ ⎤
Y ! Y1n | Y21 ! Y2n | ! | YI1 ! YIn
Y ′ = ⎢ "11$
$#$$ %1
"$$#$$ %2
"$$#$$ %I ⎥,
⎢ ⎥
⎣ população 1 população 2 população I
⎦
em que N representa o número total de observações no conjunto das I

I
amostras, N = ∑n . i
i=1
30
A matriz de planeamento X pode ser escrita recorrendo a I variáveis
indicatrizes, xij, j=1,...,I, i=1,....,N:
⎧⎪ 1 i = n + ... + n + 1,...,n ;
xij = ⎨ 1 j −1 j
⎪⎩ 0 caso contrário.
A matriz de planeamento é agora uma matriz cujos elementos são apenas “0”
ou “1”, em que a j-ésima coluna está associada à j-ésima população,
assumindo o valor 1 na i-ésima linha se a observação Yi pertencer à população
j e tomando o valor 0 se não pertencer:
⎡ 1 0 ! 0 ⎤
⎢ ⎥
⎢ " " # " ⎥
⎢ 1 0 ! 0 ⎥
⎢ 0 1 ! 0 ⎥
⎢ ⎥
X=⎢ " " # " ⎥.
⎢ 0 1 ! 0 ⎥
⎢ ⎥
⎢ " " # " ⎥
⎢ 0 0 ! 1 ⎥
⎢ " " # " ⎥
⎢ ⎥
⎢⎣ 0 0 ! 1 ⎥⎦
Escrevendo o vector dos termos de erro como
ε = ⎡ ε11 ! ε1n | ε 21 ! ε 2n | ! | ε I1 ! ε In ⎤ ,
⎣⎢ 1 2 I ⎦⎥
as observações do modelo de análise de variância podem ser escritas como

um modelo de regressão linear múltipla:
Y =Xb + e,
em que o vector dos coeficientes de regressão µ é constituído pelos valores

médios das I populações, µ ′ = ⎡ µ1 µ2 ! µ I ⎤ .
⎣ ⎦
Neste caso,
⎡ n1 ⎤
⎢
⎢
∑ 1 j ⎥⎥
Y
⎡ n1 0 ! 0 ⎤
j =1
⎢ ⎥ ⎢ n2 ⎥
⎢
⎢
X ′X = ⎢
0 n2 ! 0 ⎥
⎥ e X ′Y = ⎢ ∑ Y2 j ⎥⎥ .
j =1
⎢ " " # " ⎥ ⎢ ⎥
⎢ ⎢ ! ⎥
0 0 ! nI ⎥ ⎢ ⎥
⎣ ⎦ nI
⎢
⎢
∑ Ij ⎥⎥
Y
⎣ j =1
⎦
31
Deste modo, os EMQ para os coeficientes de regressão que, neste caso, são os valores
médios das I populações, são dados por
⎡ µ̂1 ⎤ ⎡Y ⎤
⎢ ⎥ ⎢ 1 ⎥
⎢ µ̂2 ⎥ ⎢Y ⎥
( )
−1
µ̂ = ⎢ ⎥ = X ′X X ′Y = ⎢ 2 ⎥,
⎢ ! ⎥ ⎢ ! ⎥
⎢ µ̂ I ⎥ ⎢Y ⎥
⎣ ⎦ ⎣ I ⎦
em que, naturalmente, Yi designa a média amostral da população i.
Também podemos obter os EMQ dos valores médios de cada população por
derivação da soma de quadrados que, neste caso, é simplesmente,
∑ ∑ (Y ).
I ni
2
SQ = ij
− µi
i=1 j =1
Então, para cada k = 1,...,I, vem
( )
n
∂SQ k
= −2∑ Ykj − µk .
∂ µk j =1
Assim, obtemos o sistema de I equações normais
nk
∂SQ
∂ µk
= 0, k = 1,..., I ⇔ ∑Y kj
= nk µk .
j =1
Assim os EMQ dos valores médios das I populações são dados por
nk
1
µ̂k = Yk =
nk
∑Y kj
.
j =1
Além disso, como Yij = µi + εij, os valores ajustados são dados por,
Yîj = µ̂i = Yi ,
Nestas circunstâncias, a fórmula da decomposição da soma dos quadrados

total diz-nos, sem necessidade de executar mais cálculos, que
∑∑( ) ∑ ∑ (Y )
ni ni
( )
I 2 I 2 I 2
SQtot = Yij − Y = ij
− Yi + ∑ ni Yi − Y
i=1 j =1 i=1 j =1 i=1
= SQe + SQext
32
n
1 I i
em que Y = ∑ ∑ Yij .
N i=1 j =1
NOTAS
• Os EMQ dos coeficientes de regressão, neste caso, os valores médios

das populações são simplesmente as médias amostrais e são estes
também os valores ajustados a cada observação
• É de notar que a soma de quadrados extra-grupos, aqui designada por

SQext também se costuma denotar por SQtrat porque mede a
variabiidade provocada pela existência de diferentes tratamentos que
são aplicados a pessoas, animais, plantas, etc. Esta quantidade, na
perspectiva do modelo de regressão linear, é exactamente o mesmo
que a soma de quadrados devido à regressão, SQreg.
A hipótese linear permite agora deduzir a estatística de teste para as

hipóteses
H0: µ1 = µ2 = ... = µI vs H1: µi ≠ µj para algum i≠j.
Sob a validade da hipótese nula, as observações Yij têm valor médio comum µ
e variância σ2, e o EMQ de µ é a média de todas as observações Y . Ora como
Yîj = µ̂ = Y
vem que a soma de quadrados dos erros para este modelo reduzido é dada
por
∑∑( ) ∑ ∑ (Y )
I ni I ni
2 2
SQe (R) = Yij − Yîj = ij
−Y = SQtot .
i=1 j =1 i=1 j =1
Por outro lado sabemos que, para o modelo completo, em que os valores
médios são diferentes, se tem
SQe(C)=SQtot - SQext.
Para esta hipótese linear, a diferença das somas de quadrados dos erros, vem
apenas
SQe(R) - SQe(C)=SQtot - (SQtot - SQext) = SQext.
Então se H0 for verdadeira:
33
SQe (R) − SQe (C) SQext
= ∩ χ (I −1)
σ 2
σ2
O número de graus de liberdade corresponde ao número de restrições sobre

os parâmetros da hipótese nula, que pode ser escrita como hipótese linear,
H0: Cµ = 0
em que C é uma matriz I-1 x I dada por
⎡ 1 −1 0 ! 0 0 ⎤
⎢ ⎥
C=⎢ 0 1 −1 ! 0 0 ⎥.
⎢ " " " # " " ⎥
⎢ ⎥
⎣ 0 0 0 ! 1 −1 ⎦
Além disso, como:
- SQe(R) - SQe(C) é independente de SQe(C);
SQe (C)
- ∩ χ (n−I)
2
,
σ 2
vem que a estatística de teste para esta hipótese linear é dada por
⎡ SQ (R) − SQ (C)⎤ (I − 1) SQ (I − 1) ∑ n (Y i i
− Y )2 (I − 1)
F = ⎣ ⎦
e e
= ext
= i=1
∑ ∑ (Y )
SQe (C) (N − I) SQe (N − I) I ni
2
ij
− Yi (N − I)
i=1 j =1
que, sob a validade da hipótese nula, tem distribuição F com I-1 graus de
liberdade no numerador e N-I graus de liberdade no denominador.
NOTAS
• O teste que já tínhamos deduzido no capítulo 1 para a hipótese de

igualdade de valores médios pode também ser obtido como um teste
numa hipótese linear num modelo de regressão múltipla.
• As propriedades óptimas dos EMQ deduzidas para os modelos de

regressão linear são também válidas para o modelo ANOVA.
No caso da hipótese sobre a igualdade de todas as médias ser rejeitada,

escrever um modelo de análise da variância como um modelo de regressão
linear, pode ser particularmente útil para, utilizando o teste na hipótese linear,
verificar a validade de certas hipóteses específicas como, por exemplo, dividir
as populações em grupos com valores médios iguais entre si.
34
EXEMPLO
Suponhamos que após compraração de 6 populações, o teste de igualdade dos

seus valores médios conduz à rejeição da hipótese. Como poderemos, por
exemplo, testar o conjunto de hipóteses:
H 0 : µ2 = µ3 = µ4 ; µ5 = µ6 ?
Basta utilizar o teste na hipótese linear em que a matriz C é dada por
⎡ 0 1 −1 0 0 0 ⎤
⎢ ⎥
C= ⎢ 0 0 1 −1 0 0 ⎥ .
⎢ ⎥
⎢⎣ 0 0 0 0 1 −1 ⎥⎦
Na prática, juntando as observações da população 2 com a 3 e a 4, e juntando

a população 5 com a 6, podemos obter SQe(R) que, comparando com SQe(C),
permite testar se a constituição destes três grupos é viável, sendo que um dos
grupos é constituído por apenas uma população.
Outra parametrização do modelo
Como já vimos, muitas vezes representa-se o modelo ANOVA através de um

outro conjunto de parâmetros, isto é, considera-se a reparametrização
Yij = µ + α i + ε ij , i = 1,...,I , j = 1,...,ni,
em que os novos parâmetros são dados por
1 I
µ= ∑nµ
N i=1 i i
e α i = µi − µ , i = 1,...,I,
e tais que
I I
∑ nα i i
= ∑nµ i i
− Nµ = 0 .
i=1 i=1
Como os novos parâmetros são função linear dos anteriores, os EMQ são a
mesma função linear dos EMQ de µ1, µ2, ..., µI:
n
1 I 1 I i
µ̂ = ∑ n Y = ∑ ∑Y = Y
N i=1 i i N i=1 j =1 ij
α̂ i = µ̂i − µ̂ = Yi − Y .
35
Esta reparametrização do modelo envolve I+1 parâmetros: µ e α1, α2, ..., αI.
I
Como ∑ nα i i
= 0 , existem apenas I parâmetros independentes, já que um dos
i=1
αi’s pode-se escrever como combinação linear dos outros, por exemplo:
n1 n2 nI −1
αI = − α1 − α 2 − ... − α I −1 .
nI nI nI
Se quisermos escrever o modelo em notação matricial, o vector de

coeficientes inclui apenas µ, α1, α2, ..., αI-1 e a matriz de planeamento X, com
N linhas e I colunas, toma a forma
⎡ 1 1 0 ! 0 ⎤
⎢ ⎥
⎢ 1 1 0 ! 0 ⎥
⎢ " " " # " ⎥
⎢ 1 1 0 ! 0 ⎥
⎢ ⎥
⎢ 1 0 1 ! 0 ⎥
⎢ " " " # " ⎥
⎢ ⎥
⎢ 1 0 1 ! 0 ⎥
⎢ " " " # " ⎥
X =⎢ 1 0 0 ! 1 ⎥.
⎢ ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
nI nI nI
⎢ ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
⎢ nI nI nI ⎥
⎢ ⎥
⎢ " " " # " ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
⎢⎣ nI nI nI ⎥⎦
Na verdade, a representação matricial não é, neste caso, estritamente

necessária porque os novos parâmetros, sendo funções lineares dos primeiros,
obtêm-se facilmente a partir destes. Com a nova reparametrização o teste de
igualdade de médias toma a forma:
H0: α1 = α2 = ... = αI = 0 vs H1: αi ≠ 0 para algum i.
Repare-se que, em ambos os modelos, Yîj = Yi , de maneira que a partição da

soma de quadrados é a mesma,
I
SQtot = SQe + SQext = SQe + ∑ niα̂ i2 ,
i=1
o que conduz, naturalmente, à mesma estatística de teste F. Em ambos os

casos a tabela ANOVA é a mesma e igual à que foi apresentada no capítulo 1.
36
ANEXO I
ANEXO II
(iv)

Slides Aulas ML 2019 - 20

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slides Aulas ML 2019 - 20

Enviado por

Direitos autorais:

Formatos disponíveis

1

Seja θ = aTb uma combinação linear dos coeficientes do modelo de regressão

Um estimador linear centrado para θ é da forma cTY em que,

E(cTY) = cTE(Y) = cTXb = aTb.

Daqui, como o estimador é centrado, deduz-se a igualdade:

Além disso, a variância deste estimador é dada por

Var(cTY) = cTCov(Y)c = cTσ2Inc = σ2cTc

Por outro lado, a variância do EMQ é dada por:

Fazendo a diferença entre as duas variâncias e entrando em linha de conta

Mas como σ2M é a matriz de covariâncias dos resíduos, sabemos que M é

o que demonstra o teorema.

• As propriedades que acabámos de ver não impõem qualquer

Se os termos de erro têm distribuição normal, a verosimilhança da amostra

Quando as observações têm distribuição normal, os EMQ coincidem

Além disso, tem-se ainda que:

Igualando a segunda equação a zero e resolvendo em ordem a σ2, o EMV para

Este estimador não coincide exactamente com o estimador centrado para a

No que respeita aos coeficientes de regressão, as derivadas de 2ª ordem da

Seja I a matriz de informação de Fisher relativa a estes parâmetros:

Da fórmula acima, vê-se facilmente que

o que significa que a matriz de covariâncias dos EMQ destes parâmetros é

Conclusão: de entre todos os estimadores centrados, os de mínimos

3.3. Testes, Intervalos de confiança e de predição.

ii) A variável aleatória

iii) b̂ e S2 são independentes.

Em geral, a inferência estatística no modelo linear centra-se nos coeficientes

3.3.2. Testes e intervalos de confiança para os coeficientes de

Consideremos o caso mais geral de um parâmetro que é combinação linear

em que a é um vector de constantes. (Já vimos que esta formulação inclui

O estimador θ̂ = aTb̂ para este parâmetro tem propriedades óptimas:

• É o estimador BLUE para θ;

• Se os erros tiverem distribuição normal, é o estimador de máxima

• É centrado e, se os erros tiverem distribuição normal, é de variância

Além disso, também pelo teorema 3.4 sabemos que

e é independente de θ̂ . Então a variável

tem distribuição t de student com n-p graus de liberdade porque é o quociente

Assim, esta variável fulcral conduz ao intervalo de (1-α)100% de confiança:

Podemos também utilizar a mesma estatística para construir testes de

Este teste é equivalente a testar se a variável independente xj está ou não

que, sob a validade de H0, tem distribuição t(n-p). Consequentemente, a região

3.3.3. Intervalos de predição.

Suponhamos que, para um certo conjunto de valores não observados das

pretendemos estimar o correspondente valor da variável y* e associar-lhe um

em que ε* tem distribuição normal, N(0,σ2).

Se quiséssemos um intervalo de confiança para o valor médio de y*, para o

Mas o que pretendemos é um intervalo de confiança para a variável

Neste caso o valor médio de y* é uma combinação linear dos coeficientes de

Um intervalo de (1-α)100% de confiança para y * , isto é, um intervalo de

3.4.1. Análise dos resíduos.

A análise dos resíduos tem um papel particularmente importante no que

Os resíduos são as diferenças entre os valores observados e os valores

Algumas análises que é usual fazer aosresíduos:

• Representar graficamente os resíduos contra cada uma das

Deverá ser incluído o quadrado da A variável indpendente deverá ser

• Representar os resíduos contra outras variáveis independentes

• Representar os resíduos contra os valores ajustados, ŷi .

• Tanto os gráficos dos resíduos ocntra as variáveis independentes como

Resíduos com variância não constante

• Os resíduos devem também ser analisados só por si, representando-os

Note-se, no entanto, que os resíduos, mesmo padronizados, não

3.4.2. A análise do R2.

Consideremos o modelo linear incluindo um termo constante, isto é, xi1 =1,

SQTot = SQe + SQReg.