Escolar Documentos
Profissional Documentos
Cultura Documentos
2
3
4
5
DEMONSTRAÇÃO:
c TX = a T
( ) ()
Var aTb̂ = aTCov b̂ a = σ 2aT X T X ( )
−1
a.
( ) ( ) ⎛
(
Var c T Y − Var aTb̂ = σ 2 ⎜ c T c − aT X T X
⎝ )
−1 ⎞
a⎟
⎠
⎛
( ) ⎞
−1
= σ 2 ⎜ cTc − cT X X T X X T c⎟
⎝ ⎠
⎛
( ) ⎞
−1
= σ 2c T ⎜ I n − X X T X XT ⎟ c
⎝ ⎠
= σ 2c TMc.
σ2cTMc ≥ 0,
NOTA
12
O método dos mínimos quadrados produz bons estimadores em condições
muito gerais. Mas se, para além das condições de Gauss-Markov, admitirmos
que os εi’s são variáveis aleatórias i.i.d. com distribuição normal, N(0,σ2), os
EMQ são estimadores centrados de variância mínima.
⎡ ⎛ ⎞ ⎤
2
( )
n p
1 ⎢− 1
L y1 ,y2 ,...,yn;b,σ 2
= exp ∑ ⎜⎝ yi − ∑ xij bj ⎟⎠ ⎥⎥ ,
( )
⎢ 2σ 2
n/2
2πσ 2 ⎣
i=1 j =1
⎦
e a logverosimilhança:
2
⎛ ⎞
( )
n p
n 1
lnL = − ln 2πσ 2 −
2 2σ 2
∑ ⎜⎝ i ∑ xij bj ⎟⎠ .
y −
i=1 j =1
Como o primeiro termo no lado direito da igualdade acima não depende dos
coeficientes de regressão, os estimadores que maximizam a logverosimilhança
são aqueles que maximizam o termo direito da soma, ou seja, que minimizam
a soma de quadrados SQ.
∂ lnL 1 n ⎛ p ⎞
∂ bk
= 2
σ
∑ ⎜⎝ i ∑ xij bj ⎟⎠ xik ,
y − k = 1,...,p
i=1 j =1
2
∂ lnL n 1 ⎛
n p ⎞
∂σ 2
=−
2σ 2
+
2σ 4
∑ ⎜⎝ yi − ∑ xij bj ⎟⎠ .
i=1 j =1
1 n 2
σ̂ 2 = ∑e .
n i=1 i
13
∂ 2 lnL 1 n
∂ bℓ ∂ bk
=− 2
σ
∑x iℓ
xik .
i=1
⎡ ⎛ ∂ 2 lnL ⎞ ⎤
I = ⎢E ⎜ − ⎟⎥
⎢⎣ ⎝ ∂ bℓ ∂ bk ⎠ ⎥⎦ k=1,...,p
ℓ=1,...,p
I=
1
σ 2 (X X) ,
T
ou seja,
( ) ()
−1
I-1 = σ 2 X T X = Cov b̂ ,
Nesta secção vamos supor que os termos de erro εi’s, i =1,...,n, são variáveis
aleatórias i.i.d. com distribuição normal, N(0,σ2). O teorema seguinte é a base
para a inferência estatística no modelo linear e é uma generalização para p
variáveis independentes do teorema 2.1, para o caso da regressão simples.
T
Teorema 3.4. Seja Y = Xb + ε um modelo linear em que ε = ⎡⎢ ε1 ! ε n ⎤⎥ é
⎣ ⎦
um vector de variáveis i.i.d. com distribuição normal N(0, σ ). Então,
2
( )
−1
i) O EMQ do vector de parâmetros b, isto é, b̂ = X T X XTY tem
distribuição multinormal, N(b, σ2(XTX)-1).
(n − p)S 2 eTe
= ∩ χ n−
2
p
σ 2
σ 2
14
3.3.1. Testes e intervalos de confiança para σ 2.
⎛ (n − p)S 2 (n − p)S 2 ⎞
⎜ , ⎟,
⎜⎝ χ 1−α /2 α /2
χ(n− ⎟⎠
(n− p) p)
α
em que χ (n− p)
representa o quantil de probablidade α da distribuição qui-
quadrado com n-p graus de liberdade.
p
θ= ∑a b j j
= aTb
j =1
Tem-se ainda
() ()
E θˆ = aT E b̂ = aTb = θ
() ()
Var θˆ = aTCov b̂ a = σ 2aT X T X ( )
−1
a.
15
Pela alínea (i) do teorema 3.4 sabemos que os EMQ têm distribuição normal
multivariada e, portanto, qualquer combinação linear destes tem tembém
distribuição normal. Logo
θˆ − θ
∩ N(0,1)
( )
−1
σ a X X
T T
a
( n − p) S 2
∩ χ n−
2
p
σ 2
θˆ − θ
( )
−1
σ aT X T X a θ̂ − θ
=
( )
2 −1
(n − p)S S aT X T X a
(n − p)σ 2
⎛ ⎞
( ) ( )
−1 −1
ˆ 1−α /2 a;θˆ + t n−
1−α /2
⎜ θ − t n− p S a X X
T T
p
S aT X T X a⎟ ,
⎝ ⎠
α
em que t n− p
representa o quantil de probabilidade α da distribuição t de
student com n-p graus de liberdade.
H 0: b j = 0 contra H1: bj ≠ 0.
Seja
Var(bj) = σ2zjj,
16
(X X)
−1
em que zjj é o j-ésimo elemento na diagonal principal de T
. Então a
estatística de teste pode ser escrita na forma
b̂j b̂j
=
S z jj ( )
σ b̂j
b̂j
1−α /2
> t n− .
( )
σ b̂j
p
A região de rejeição para o teste com hipótese alternativa unilateral pode ser
encontrada de maneira óbvia.
⎡ * ⎤
x
x* = ⎢ 1 ⎥
⎢ * ⎥
⎢ x2 ⎥
⎢ ⎥
⎢ ! ⎥
⎢ x* ⎥
⎢⎣ p ⎥⎦
∑x b
T
y * = x* b + ε * = *
j j
+ ε* ,
j =1
17
A previsão, para uma variável aleatória, com erro quadrático médio (EQM)
mínimo é dada pelo valor médio dessa variável aleatória.
p T
ŷ * = ∑x b *
j j
= x* b̂ ,
j =1
( ) ( )
em que E ŷ * = E y * . O EQM de ŷ * é dado por
⎡
( ) ( )( )
2⎤ ⎡ T ⎤
E ⎢ ŷ * − y * ⎥ = E ⎢ ŷ * − y * ŷ * − y * ⎥
⎣ ⎦ ⎣ ⎦
⎡ T ⎤
= E ⎢⎛ x* b̂ − x* b − ε * ⎞ ⎛ x* b̂ − x* b − ε * ⎞ ⎥
T T T T
⎢⎣⎝ ⎠⎝ ⎠ ⎥
⎦
⎡ *T *⎤
( )( )
T
= E ⎢ x b̂ − b b̂ − b x ⎥ + E ε ε ⎛ * * ⎞
T
⎣ ⎦ ⎝ ⎠
⎡ ⎤
( )
T −1
= σ 2 ⎢ x* X T X x* + 1⎥
⎣ ⎦
O erro de predição é
(b̂ − b) + ε
T
ŷ * − y * = x* *
,
é uma combinação linear do vector dos EMQ, que tem distribuição normal
multivariada, e do termo de erro ε*, que tem também distribuição normal e é
independente desse vector de estimadores. Então o erro de predição tem
distribuição normal com média nula e variância igual ao EQM de ŷ * . Portanto,
ŷ * − y *
∩ t(n− p)
( )
T −1
S x* X T X x* + 1
⎛ * 1−α /2 ⎞
( ) ( )
T −1 T −1
⎜ ŷ − t n− p
S x *
XT X 1−α /2
x* + 1; ŷ * + t n− p
S x* X T X x* + 1 ⎟ ,
⎝ ⎠
1−α /2
em que t n− p
designa o quantil de ordem 1-α/2 da distribuição t de student
com n-p graus de liberdade.
18
3.4. Análise dos resíduos e ajustamento do modelo.
Vamos agora ver alguns métodos e análises que nos permitem julgar sobre a
adequação de um modelo linear à descrição de um determinado fenómeno.
Veremos também como verificar as condições de Gauss-Markov e a
normalidade dos resíduos, que garantem a qualidade das inferências e
predições.
xij xij
19
resíduos
valores ajustados
( )
Var ei = σ 2 1 − hii , ( )
de modo que os resíduos padronizados (com variância unitária) são
obtidos através da fórmula
ei* = ei S 1 − hii .
Com base nesta decomposição, e à semelhança do que foi feito para o caso da
regressão simples, podemos definir o coeficiente de determinação múltipla, R2,
como a percentagem de variação da amostra que é explicada pelo modelo de
regressão, isto é,
SQRe g SQe
R2 = =1−
SQTot SQTot
20
Este coeficiente toma valores entre 0 e 1:
∑ (y )( ) ∑ (y )( )
n n
i
− y ŷi − y = i
− ŷi + ŷi − y ŷi − y
i=1 i=1
∑( )( ) ( )
n n 2
= yi − ŷi ŷi − y + ∑ ŷi − y
i=1 i=1
( )
n n n 2
= ∑ e ŷ i i
− y ∑ ei + ∑ ŷi − y
i=1 i=1 i=1
∑ ( ŷ )
n 2
= i
−y .
i=1
∑( ) ∑ (y )( )
n 2 n
ŷi − y i
− y ŷi − y
2
R = i=1
= i=1
.
∑ (y ) ∑ (y )
n 2 n 2
i
−y i
−y
i=1 i=1
∑ ( ŷ )
n 2
Multiplicando este quociente, no numerador e no denominador, por i
−y
i=1
vem que
2 2
⎡ n ⎤ ⎡ ⎤
( )( ) ∑ (y )( )
n
⎢ ∑ yi − y ŷi − y ⎥ ⎢
i
− y ŷi − y ⎥
⎢ ⎥
R2 = ⎣n ⎦
i=1
=⎢ i=1
⎥
( ) ( )
2 n
∑ (y ) ∑ ( ŷ − y )
2 n 2 n
∑ yi − y ∑ ŷi − y
2
⎢ −y ⎥
i=1 i=1 ⎢⎣ i=1
i
i=1
i
⎥⎦
21
∑ (y )
n 2
− ŷi (n − p)
2
i
s2
R = 1− i =1
= 1− .
∑ (y )
a n 2 SQTot (n − 1)
i
−y (n − 1)
i =1
Também é importante olhar para o valor de s2. Uma boa regra prática para
julgar acerca do valor de s2 baseia-se no facto de que, para uma amostra de
dimensão grande, a amplitude do intervalo de predição com 95% de confiança
é aproximadamente 4s.
∑ (y )
n n n n 2 n
∑y 2
i
= ∑e 2
i
+ ∑ ŷi2 = i
− ŷi + ∑ ŷi2 .
i =1 i =1 i =1 i =1 i =1
∑ (y )
n 2 n
i
− ŷi ∑ ŷ 2
i
R2 = 1 − i =1
n
= i =1
n
.
∑y 2
i ∑y 2
i
i =1 i =1
22
∑ (y ) ∑ ( ŷ )
n 2 n n 2
i
−y ∑e 2
i i
−y
i=1
= i=1
+ i=1
.
σ 2
σ 2
σ2
∑e 2
i
• A soma dos quadrados dos residuos é tal que: i=1
∩ χ (n− p)
σ2
• Se H0 for verdadeira, os yi's são v.a.'s i.i.d. com distribuição N(b1,σ2). Logo
∑ (y )
n 2
i
−y
i=1
∩ χ (n−1)
σ2
p p p
• Como b̂1 = y − ∑ b̂j x j , tem-se ŷi − y = y − ∑ x j b̂j + ∑ xij b̂j − y e SQreg pode
j =2 J =1
2 J =1
2
2
T
ser escrita como
( )
⎡ p ⎤
∑ ( ŷ )
n 2 n
i
−y = ∑ ⎢ ∑ b̂j xij − x j ⎥ ,
i=1 i=1 ⎣ j =2 ⎦
isto é, como função dos EMQ dos coeficientes de regressão que sabemos,
que são independentes de SQe.
χ n−1
2
= χ n−
2
p
+ χ 2p−1
∑ ( ŷ ) ( p − 1)
n 2
i
−y
F = i=1
que, sob H0, é uma Fp-1;n-p,
( n − p)
n
∑e 2
i
i=1
1−α
com região de rejeição R = F > Fp−1;n− p { }
Note-se que rejeitar esta hipótese não significa que o modelo esteja bem
ajustado e que não possa ser melhorado juntando mais variáveis ou
transformando algumas das que já estão incluídas.
23
Fonte Soma de Graus de Média de
quadrados liberdade Quadrados
∑ ( ŷ )
n 2
Regressão SQReg = i
−y p-1 MQReg = SQReg /(p-1)
i=1
n
Residual SQe = ∑e 2
i
n-p MQe = SQe /(n-p)
i=1
∑ (y )
n 2
Total SQTot = i
−y n-1 F: MQReg / MQe
i=1
EXEMPLOS
24
3.6. Hipótese linear.
p
• H0: a'b = ∑a b j j
= 0 , tendo como caso particular importante H0: bj = 0
j =1
• H0: b2 = b3 = ... = bp = 0.
Vamos agora ver como construir um teste para a chamada hipótese linear,
isto é, para as hipóteses
H0: Cb = h vs H1: Cb ≠ h
Assim, a hipótese
H 0: b j = 0 vs H 1: b j ≠ 0
A hipótese
⎡ 0 1 0 ! 0 ⎤⎥
⎢
⎢ 0 0 1 ! 0 ⎥
C=⎢ ⎥.
⎢ " " " # " ⎥
⎢ ⎥
⎣ 0 0 0 ! 1 ⎦
25
H 0: b 2 = b 3 = 0 vs H1: b2 ≠ 0 ou b3 ≠ 0,
⎡ 0 1 0 ! 0 ⎤⎥
C=⎢ .
⎢ 0 0 1 ! 0 ⎥⎦
⎣
Para construir um teste para a hipótese linear vamos começar por obter os
EMQ de b que satisfazem o conjunto de restrições lineares especificadas na
hipótese nula, isto é, tais que Cb̂ = h .
26
27
28
29
Fonte Soma de Graus de Média de
quadrados liberdade Quadrados
( X , X ,..., X ) , i = 1,...,I,
i1 i2 ini
X ij = µi + ε ij , i = 1,...,I , j = 1,...,ni,
em que os εij são variáveis aleatórias i.i.d. com distribuição normal, N(0, σ2), e
pretendemos construir um teste para as hipóteses
Relembremos que:
Este modelo também pode ser escrito como um modelo de regresão linear
múltipla. Consideremos o vector de observações na forma
⎡ ⎤
Y ! Y1n | Y21 ! Y2n | ! | YI1 ! YIn
Y ′ = ⎢ "11$
$#$$ %1
"$$#$$ %2
"$$#$$ %I ⎥,
⎢ ⎥
⎣ população 1 população 2 população I
⎦
30
A matriz de planeamento X pode ser escrita recorrendo a I variáveis
indicatrizes, xij, j=1,...,I, i=1,....,N:
⎧⎪ 1 i = n + ... + n + 1,...,n ;
xij = ⎨ 1 j −1 j
⎪⎩ 0 caso contrário.
A matriz de planeamento é agora uma matriz cujos elementos são apenas “0”
ou “1”, em que a j-ésima coluna está associada à j-ésima população,
assumindo o valor 1 na i-ésima linha se a observação Yi pertencer à população
j e tomando o valor 0 se não pertencer:
⎡ 1 0 ! 0 ⎤
⎢ ⎥
⎢ " " # " ⎥
⎢ 1 0 ! 0 ⎥
⎢ 0 1 ! 0 ⎥
⎢ ⎥
X=⎢ " " # " ⎥.
⎢ 0 1 ! 0 ⎥
⎢ ⎥
⎢ " " # " ⎥
⎢ 0 0 ! 1 ⎥
⎢ " " # " ⎥
⎢ ⎥
⎢⎣ 0 0 ! 1 ⎥⎦
ε = ⎡ ε11 ! ε1n | ε 21 ! ε 2n | ! | ε I1 ! ε In ⎤ ,
⎣⎢ 1 2 I ⎦⎥
Y =Xb + e,
Neste caso,
⎡ n1 ⎤
⎢
⎢
∑ 1 j ⎥⎥
Y
⎡ n1 0 ! 0 ⎤
j =1
⎢ ⎥ ⎢ n2 ⎥
⎢
⎢
X ′X = ⎢
0 n2 ! 0 ⎥
⎥ e X ′Y = ⎢ ∑ Y2 j ⎥⎥ .
j =1
⎢ " " # " ⎥ ⎢ ⎥
⎢ ⎢ ! ⎥
0 0 ! nI ⎥ ⎢ ⎥
⎣ ⎦ nI
⎢
⎢
∑ Ij ⎥⎥
Y
⎣ j =1
⎦
31
Deste modo, os EMQ para os coeficientes de regressão que, neste caso, são os valores
médios das I populações, são dados por
⎡ µ̂1 ⎤ ⎡Y ⎤
⎢ ⎥ ⎢ 1 ⎥
⎢ µ̂2 ⎥ ⎢Y ⎥
( )
−1
µ̂ = ⎢ ⎥ = X ′X X ′Y = ⎢ 2 ⎥,
⎢ ! ⎥ ⎢ ! ⎥
⎢ µ̂ I ⎥ ⎢Y ⎥
⎣ ⎦ ⎣ I ⎦
Também podemos obter os EMQ dos valores médios de cada população por
derivação da soma de quadrados que, neste caso, é simplesmente,
∑ ∑ (Y ).
I ni
2
SQ = ij
− µi
i=1 j =1
( )
n
∂SQ k
= −2∑ Ykj − µk .
∂ µk j =1
nk
∂SQ
∂ µk
= 0, k = 1,..., I ⇔ ∑Y kj
= nk µk .
j =1
Assim os EMQ dos valores médios das I populações são dados por
nk
1
µ̂k = Yk =
nk
∑Y kj
.
j =1
Além disso, como Yij = µi + εij, os valores ajustados são dados por,
Yˆij = µ̂i = Yi ,
∑∑( ) ∑ ∑ (Y )
ni ni
( )
I 2 I 2 I 2
SQtot = Yij − Y = ij
− Yi + ∑ ni Yi − Y
i=1 j =1 i=1 j =1 i=1
= SQe + SQext
32
n
1 I i
em que Y = ∑ ∑ Yij .
N i=1 j =1
NOTAS
Sob a validade da hipótese nula, as observações Yij têm valor médio comum µ
e variância σ2, e o EMQ de µ é a média de todas as observações Y . Ora como
Yˆij = µ̂ = Y
vem que a soma de quadrados dos erros para este modelo reduzido é dada
por
∑∑( ) ∑ ∑ (Y )
I ni I ni
2 2
SQe (R) = Yij − Yˆij = ij
−Y = SQtot .
i=1 j =1 i=1 j =1
Por outro lado sabemos que, para o modelo completo, em que os valores
médios são diferentes, se tem
SQe(C)=SQtot - SQext.
Para esta hipótese linear, a diferença das somas de quadrados dos erros, vem
apenas
33
SQe (R) − SQe (C) SQext
= ∩ χ (I −1)
σ 2
σ2
H0: Cµ = 0
⎡ 1 −1 0 ! 0 0 ⎤
⎢ ⎥
C=⎢ 0 1 −1 ! 0 0 ⎥.
⎢ " " " # " " ⎥
⎢ ⎥
⎣ 0 0 0 ! 1 −1 ⎦
SQe (C)
- ∩ χ (n−I)
2
,
σ 2
vem que a estatística de teste para esta hipótese linear é dada por
⎡ SQ (R) − SQ (C)⎤ (I − 1) SQ (I − 1) ∑ n (Y i i
− Y )2 (I − 1)
F = ⎣ ⎦
e e
= ext
= i=1
∑ ∑ (Y )
SQe (C) (N − I) SQe (N − I) I ni
2
ij
− Yi (N − I)
i=1 j =1
que, sob a validade da hipótese nula, tem distribuição F com I-1 graus de
liberdade no numerador e N-I graus de liberdade no denominador.
NOTAS
34
EXEMPLO
H 0 : µ2 = µ3 = µ4 ; µ5 = µ6 ?
⎡ 0 1 −1 0 0 0 ⎤
⎢ ⎥
C= ⎢ 0 0 1 −1 0 0 ⎥ .
⎢ ⎥
⎢⎣ 0 0 0 0 1 −1 ⎥⎦
1 I
µ= ∑nµ
N i=1 i i
e α i = µi − µ , i = 1,...,I,
e tais que
I I
∑ nα i i
= ∑nµ i i
− Nµ = 0 .
i=1 i=1
Como os novos parâmetros são função linear dos anteriores, os EMQ são a
mesma função linear dos EMQ de µ1, µ2, ..., µI:
n
1 I 1 I i
µ̂ = ∑ n Y = ∑ ∑Y = Y
N i=1 i i N i=1 j =1 ij
α̂ i = µ̂i − µ̂ = Yi − Y .
35
Esta reparametrização do modelo envolve I+1 parâmetros: µ e α1, α2, ..., αI.
I
Como ∑ nα i i
= 0 , existem apenas I parâmetros independentes, já que um dos
i=1
αi’s pode-se escrever como combinação linear dos outros, por exemplo:
n1 n2 nI −1
αI = − α1 − α 2 − ... − α I −1 .
nI nI nI
⎡ 1 1 0 ! 0 ⎤
⎢ ⎥
⎢ 1 1 0 ! 0 ⎥
⎢ " " " # " ⎥
⎢ 1 1 0 ! 0 ⎥
⎢ ⎥
⎢ 1 0 1 ! 0 ⎥
⎢ " " " # " ⎥
⎢ ⎥
⎢ 1 0 1 ! 0 ⎥
⎢ " " " # " ⎥
X =⎢ 1 0 0 ! 1 ⎥.
⎢ ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
nI nI nI
⎢ ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
⎢ nI nI nI ⎥
⎢ ⎥
⎢ " " " # " ⎥
⎢ n1 n2 nI −1 ⎥
⎢ 1 − − ! − ⎥
⎢⎣ nI nI nI ⎥⎦
I
SQtot = SQe + SQext = SQe + ∑ niα̂ i2 ,
i=1
36
ANEXO I
ANEXO II
(iv)