Você está na página 1de 14

Econometria I - Lista 5

Monitores: Arthur Fehr e Maria Pedote

Maio de 2022

Revisão de Álgebra Linear e Estimação: o esti-


mador de OLS na forma matricial
Questão 1 (SW - adaptada)
Considere o modelo de regressão dado por

Yi = β0 + β1 x1 + ui

e considere que temos n observações.


a) Reescreva o modelo em notação matricial.
O modelo pode ser reescrito como:

y = Xβ + u

Em que yn×1 = [y1 y2 ... yn ]′ ,


β 2×1 = [β0 β1 ]′ ,
un×1 = 
[u1 u2 ... un ]′ e
1 x11
. .. 
Xn×2 = ..

. 

1 xn1

b) Derive o estimador de MQO a partir do modelo em (a).

u′ u = (y − Xβ)′ (y − Xβ) = (y ′ − β ′ X ′ )(y − Xβ) =


= y ′ y − y ′ Xβ − β ′ X ′ y + β ′ X ′ Xβ

1
Note que todos os termos na equação acima são escalares (dimensão 1 × 1), de
forma que podemos reescrever

u′ u = y ′ y − 2y ′ Xβ + β ′ X ′ Xβ

Usando regras de derivação matricial1 ,

∂u′ u
= −2X ′ y + (X ′ X + (X ′ X)′ )β
β
= −2X ′ y + (X ′ X + X ′ X)β
= −2X ′ y + 2X ′ Xβ

Portanto, temos que f rac∂u′ u∂β = 0 nos dá o seguinte estimador β̂:

− 2X ′ y + 2X ′ X β̂ = 0
X ′ X β̂ = X ′ y
(X ′ X)−1 X ′ X β̂ = (X ′ X)−1 X ′ y
| {z }
I

β̂ = (X ′ X)−1 X ′ y

Como y = Xβ + u,

β̂ = (X ′ X)−1 X ′ y = (X ′ X)−1 X ′ (Xβ + u)


= (X ′ X)−1 X ′ X β + (X ′ X)−1 X ′ u
| {z }
I

= β + (X ′ X)−1 X ′ u

c) Use a expressão encontrada em (b) para derivar as formulas de β̂0 , β̂1 que
vimos em listas anteriores.

x ∂x′ Ax
1 Se w′ é uma matriz linha, ∂x
= w. Se A é uma matriz quadrada, ∂x
= (A + A′ )x

2
Temos, do item anterior, que β̂ = (X ′ X)−1 X ′ y. Isto é,
  −1  
" # " # 1 x11 " # y1
βˆ0  1 ··· 1   .. ..   1 ··· 1   .. 

= . . 

.
βˆ1  x
11 · · · xn1  x11 · · · xn1 
1 xn1 yn
" Pn #−1 " P #
n
n xi1 yi
= Pn Pn 2 Pn
xi1 xi1 xi1 yi
" P #" P #
n 2 Pn n
1 xi1 − xi1 yi
= Pn 2 Pn
xi1 )2 − n xi1
Pn
n xi1 − (
P
n xi1 yi
 Pn 2 Pn Pn Pn 
xi1 y − x x y
Pn i2 P i1 2 i1 i
Pnn xi1 −( n Pxi1 )
= − xi1 n yiP
P
+n n xi1 yi

P n 2 n 2
n xi1 −( xi1 )

Pn
Note que o denominador pode ser escrito como n (xi1 − x̄1 )2 :

n
X n
X Xn
n (xi1 − x̄1 )2 = n x2i1 − 2nx̄1 xi1 + n2 x̄21
n n
!2 n
!2
X X X
2
=n xi1 − 2 xi1 + xi1

n n
!2
X X
=n x2i1 − xi1

Portanto, temos que


Pn Pn Pn
ˆ − xi1 yi + n xi1 yi
β1 = Pn 2
n (xi1 − x̄1 )
Pn Pn
xi1 yi − xi1 ȳ
= Pn
(xi1 − x̄1 )2
Pn Pn Pn Pn
xi1 yi − xi1 ȳ − yi1 x̄1 + yi1 x̄1
= Pn 2
y
(xi1 − x̄1 )
Pn Pn Pn
xi1 yi − x ȳ − yi1 x̄1 + nȳx̄1
= Pn i1 2
(xi1 − x̄1 )
Pn
(xi1 − x̄1 )(yi − ȳ)
= Pn
(xi1 − x̄1 )2

Exatamente a mesma fórmula que tı́nhamos para βˆ1 sem usar notação matricial.
Para mostrar que a expressão encontrada para β0 equivale a ȳ − β̂1 x̄1 , vamos

3
abrir essa expressão:

β̂0 = ȳ − β̂1 x̄1


Pn Pn Pn
− xi1 yi + n xi1 yi
= ȳ − Pn 2
x̄1
n (xi1 − x̄1 )
Pn n n Pn
(xi1 − x̄1 )2 + x̄1
P P
nȳ xi1 yi − nx̄1 xi1 yi
= Pn 2
n (xi1 − x̄1 )
Pn 2 Pn Pn Pn Pn
nȳ xi1 − 2nȳ xi1 x̄1 + n2 ȳx̄21 + x̄1 xi1 yi − nx̄1 xi1 yi
= Pn 2
n (xi1 − x̄1 )
Pn Pn 2 Pn Pn Pn Pn Pn
yi xi1 − 2ȳ( xi1 )2 + ȳ( xi1 )2 + ȳ( xi1 )2 − xi1 xi1 yi
= Pn 2
n (xi1 − x̄1 )
Pn Pn 2 Pn Pn
yi xi1 − xi1 xi1 yi
= Pn
n (xi1 − x̄1 )2

Que é exatamente a mesma expressão encontrada no vetor de β.

Propriedades do MQO em forma matricial


Questão 2
Nesse exercı́cio, discutiremos o estimador de MQO em um contexto de grandes
amostras, isto é, considerando n → ∞. Considere o modelo

y = Xβ + ε,

onde X é uma matriz n × k e β é um vetor k × 1.


(a) Prove que o estimador é consistente, enumerando as hipóteses necessárias.

Sabemos que nosso estimador é igual a

−1
β̂ = (X ′ X) X ′y

Note que aqui é necessária a hipótese 4, de que X tem posto completo, o que
garante que (X ′ X)−1 existe. Substituindo o modelo dado e dividindo e multi-

4
1
plicando por n, obtemos
 −1
′ −1 ′ 1 ′ 1 ′
β̂ = β + (X X) X ε=β+ XX Xε
n n

Ou seja,
( −1 )  
1 ′ 1 ′
plimN →∞ β̂ = β + plim XX × plim Xε
N N

Usando a hipótese 2, de amostra iid, podemos aplicar a Lei dos Grandes Números
para obter que  
1 ′ p
XX → E[X ′ X] = Qxx

n
e como a função (·)−1 é contı́nua, podemos aplicar o TMP para obter que
 −1
1 ′ p
XX → E[X ′ X]−1 = Q−1
− xx
n
1 ′
p
Agora falta mostrar que plim NX ε −→ 0. Vamos usar a primeira e a quarta
hipótese aqui, ou seja, E[εi |Xi ] = 0 e que Xi , εi têm quartos momentos finitos.
Repare que a primeira hipótese implica que E[X ′ ε] = 0, e a quarta hipótese
implica que E[X ′ ε] tem segundo momento finito. Podemos então aplicar nova-
1 ′
mente a Lei dos Grandes Números no termo nX ε para mostrar que

1 ′ p
X ε → E [X ′ ε] = 0
N

Logo, concluı́mos que


plim β̂ = β + Q−1
xx × 0 = β

ou seja, β̂ é consistente para o parâmetro β.


 
(b) Assuma que ε ∼ N 0, σ 2 I onde N µ, σ 2 é uma distribuição qualquer
 
com média µ e variância σ 2 e que E ε2 | X = σ 2 I. Mostre que a distri-

buição assintótica do estimador de MQO é n(βb − β) ∼ N 0, σ 2 Q−1

xx onde
−1 1 ′

Qxx = plim n X X

Usando a mesma derivação anterior para o estimador de OLS, temos que


 −1
1 ′ 1 ′
β̂ − β = XX Xε
n n

5

multiplicando ambos os lados por n e multiplicando e dividindo o lado direito
1
por n, temos
−1


1 ′ 1
n(β̂ − β) = XX √ X ′ε
n n
Considerando agora a hipótese de amostra aleatória e que, como mostrado no
item anterior, V [x′i εi ] < ∞, podemos aplicar também o Teorema Central do
Limite (CLT ou TLC)2 sob o termo √1 X ′ ε e concluir que
n


 
1 ′ d
n xi εi − E [x′i εi ] → N (0, Σ)
n

podemos escrever desta forma por que estamos ”subtraindo zero”uma vez que,
por hipótese, plim n1 x′i εi = E [x′i εi ] = 0. Agora, precisamos abrir o termo


h i
2
Σ = V [x′i εi ] = E (x′i εi ) = E x′i xi · ε2i
 

′ d ′ p
1 1
→ Q−1
 
Sabemos então que nX ε → N (0, Σ) e nX X xx , então usando o
Teorema de Slutsky,
 −1
1 ′ 1 d
XX √ X ′ ε → N (0, Ω)
n n

Onde Ω representa a variâneia assintótica do estimador de MQO, ou A var[β̂],


abrindo este termo, temos que - lembrando que a matriz Q−1
xx é simétrica e que
ela “entra” ao quadrado na variância:

Ω = Q−1 ′ −1
xx E [Xi ϵi ϵi Xi ] Qxx

= Q−1
 2 ′  −1
xx E ϵi Xi Xi Qxx

= Q1xx E E ϵ2i Xi′ Xi | X Q−1


  
xx
−1
 ′  2  −1
= Qxx E Xi Xi E ϵi | X Qxx
= σ 2 Q−1 ′ −1
xx E [Xi Xi ] Qxx

= σ 2 Q−1 −1
xx Qxx Qxx

= σ 2 Q−1
xx

2 Lembre-se de que o CLT é enunciado de forma que, para qualquer estimador θ de variância
√ d
finita e amostra iid, temos que n(θ̂ − θ) → N (0, V[θ])

6
e então,
√ d
n(βb − β) → N 0, σ 2 Q−1

xx

(c) Considere que Xi = [1x1,i ] e β = [β0 β1 ], isso é, voltamos para o MQO
simples com intercepto. Calcule a matriz Qxx

Pelo item anterior temos que, sob o contexto de amostra aleatória, Qxx =
E [Xi′ Xi ]. Tomando o caso univariado, temos que
" # " # " #
1 xi E[1] E [xi ] 1 E [xi ]
E [Xi′ Xi ] = E =   =  
xi x2i E [xi ] E x2i E [xi ] E x2i

(d) Calcule a matriz Q−1


xx (Dica: essa matriz é k × k, no caso bivariado, 2 × 2

Tomando a inversão de matrizes 2 × 2 temos que


"   #
1 E x2i −E [xi ]
Q−1
xx =
det Qxx −E [xi ] 1
  2
Como det Qxx = E x2i − E [xi ] = V (xi ) , concluı́mos que
 
E(x2i ) i)
− VE(x
Q−1
xx =
 V (xi ) (xi ) 
i) 1
− VE(x
(xi ) V (x1 )

(e) Qual a matriz de variância-covariância assintótica de βb ?

Pelo item (b), temos que


 
E[x2i ] i)
√ − VE(x
V[ n(βb − β)] = σ 2 Q−1
xx = σ
2 V (xi ) (xi ) 
1) 1
− VE(x
(xi ) V (xi )

(f) Prove que o estimador é BLUE, usando as hipóteses necessárias.


Agora vamos provar o Gauss-Markov usando notação matricial. Seja β̃ = A′ y
um estimador não viesado de β.

7
Como β̃ é linear, podemos escrever:

β̃ = A′ y = A′ (Xβ + u) = A′ Xβ + A′ u

Dado que β̃ é não viesado e E[u | X] = 0, E[β̃ | X] = A′ Xββ =, o que implica


que A′ X = I. Assim, β̃ = β + A′ u.
Calculando então a variância desse estimador e usando homoscedasticidade,
temos:

V (β̃ | X) = V (β + A′ u | X) = V (A′ u | X) = A′ V (u | X)A = A′ σ 2 IA = σ 2 A′ A

Seja A = D′ + X(X ′ X)−1 . Assim,

V (β̃ | X) = σ 2 A′ A
= σ 2 (D + (X ′ X)−1 X ′ )(D′ + X(X ′ X)−1 )
= σ 2 (DD′ + DX(X ′ X)−1 + (X ′ X)−1 X ′ D′ + (X ′ X)−1 X ′ X(X ′ X)−1 )

Note que DX(X ′ X)−1 = A′ X(X ′ X)−1 −(X ′ X)−1 X ′ X(X ′ X)−1 = I(X ′ X)−1 −
I(X ′ X)−1 = 0. Portanto,

V (β̃ | X) = σ 2 DD′ + σ 2 (X ′ X)−1 X ′ X(X ′ X)−1


= σ 2 DD′ + σ 2 (X ′ X)−1

Portanto,

V (β̃ | X) − V (β̂ | X) = σ 2 DD′

As duas variâncias só são equivalentes se DD′ = 0, ou seja,

(A′ − (X ′ X)−1 X ′ )(A − X(X ′ X)−1 ) = 0


A′ A = (X ′ X)−1 X ′ X(X ′ X)−1
A′ A = (X ′ X)−1

Em outras palavras, a variância de β̃ só não será maior do que a de β̂ se β̃ = β̂.

8
Multicolinearidade
Questão 4
−1
Em notação matricial, vimos que β̂ = (X ′ X) X ′ Y.
a) O que acontece com β̂ quando há perfeita colinearidade entre os Xs? Como
examinar sua existência?
Quando há perfeita colinearidade não conseguimos estimar o β̂ por MQO. Isso
−1
acontece porque a inversa de (X ′ X) não existe. Uma forma bem simples de
examinar a existência de colinearidade perfeita é verificar se (X ′ X) é singular,
ou seja, se o determinante dessa matriz é igual a zero.
b) Seja a seguinte matriz X que contém as explicativas a serem usadas em uma
regressão:
 
1 0 0
 1 7 0 
 

1 0 1
Examine se há perfeita colinearidade.
Podemos verificar colinearidade tentando observar se uma variável pode ser
combinação linear da outra. Podemos ver que, neste caso, não é o que acontece.
Dessa forma, não há colinearidade perfeita.
c) Seja a seguinte matriz X ′ X a ser usada em outra regressão:
 
9 0 0 0 0
 0 4 0 8 0
 

 
 2 0 7 0 0 
 
 1 3 0 6 0 
 

0 0 0 0 5
Examine se há perfeita colinearidade.
Aqui a melhor forma é calcular o determinante da matriz. É fácil verificar que
o determinante de X ′ X é igual a zero.
d) Sob homoscedasticidade, a matriz de variância-covariância é expressa como:

−1
Σβ̂ = σ 2 (X ′ X)

Explique o que acontece a esta matriz quando:


(i) há perfeita colinearidade;
(ii) a colinearidade é alta porém não perfeita.

9
Quando há colinearidade perfeita a matriz de variância-covariância dos estima-
dores vai para infinito (explode). E no caso de colinearidade alta essa matriz
assume um valor também alto, o que significa que os erros padrões dos esti-
madores são altos e isso pode levar a conclusões falsas sobre significância de
coeficientes.

Teste de hipótese
Questão 5
Considere o modelo de regressão múltipla dado por:

Y = Xβ + u
 
1 1 2
 
1 0 3
Em que β = [β0 β1 β2 ]′ , Y = [0 1 4 3]′ e X = 
1

 1 3

1 1 2
a) Estime β̂.
Temos que β̂ = (X ′ X)−1 X ′ y. Assim:
 
  1 1 2  
1 1 1 1   4 3 10
′  1 0 3
X X = 1 0 1 1  =
3 3 7
 
1 1 3
2 3 3 2 10 7 26
 
1 1 2

 29

2 −4 − 29
(X ′ X)−1 =  −4 2 1 
 

− 29 1 3
2

 
  0  
1 1 1 1   8
′ 1
X y = 1 0 1 1   =  7 
    
4
2 3 3 2 21
3

10
Assim:
 29
    13 
2 −4 − 92 8 −2
β̂ = (X ′ X)−1 X ′ y =  −4 2 1  7  =  3 
    

− 29 1 3
2 21 5
2

b) Seja û o vetor de resı́duos. Estime X ′ û. Esse resultado tem alguma relação
com exogeneidade?
Para estimar û, primeiro precisamos estimar ŷ:
   
3
1 1 2  13 
  −2 2
1 0 3  1
ŷ = X β̂ = 
1
 3 = 
 1 3
5
4
 
2 3
1 1 2 2

Assim,
 
−3
 2
 0 
û = y − ŷ =  
 0 
 
3
2

Estimando X ′ û, temos:


 
  − 32  
1 1 1 1   0
 0   
X ′ û = 1
 
0 1 =
 0  0
1 

2 3 3 2 0
 
3
2

Lembre que isso não implica em exogeneidade: estamos usando os resı́duos (não
os erros), que, por construção, são ortogonais ao espaço coluna de X. Assim,
esse resultado apenas indica que acertamos os cálculos, mas não diz nada sobre
exogeneidade.

c) Mostre que, sob homoscedasticidade, V (β̂) = σ 2 (X ′ X)−1 .

11
V (β̂ | X) = V β + (X ′ X)−1 X ′ u | X

′
= (X ′ X)−1 X ′ V (u | X) (X ′ X)−1 X ′
= (X ′ X)−1 X ′ V (u | X)X(X ′ X)−1
= (X ′ X)−1 X ′ σ 2 IX(X ′ X)−1
= σ 2 (X ′ X)−1 X ′ X(X ′ X)−1
= σ 2 (X ′ X)−1 I
= σ 2 (X ′ X)−1

d) Estime σ̂ 2 .

 
− 32
û′ û û′ û i 
h  0  9
σ̂ 2 = = = − 23 0 0 3 
2 
=
n−k 4−3  0  2

3
2

e) Estime a matriz de variância-covariância Σ̂β̂ .

 29

2 −4 − 29
9
Σ̂β̂ = σ̂ 2 (X ′ X)−1 =  −4 2 1 

2
− 92 1 3
2
 261

4 −18 − 81
4
= −18 9 
9

2 
− 81
4
9
2
27
4

f ) Teste a hipótese nula de que β1 = 0.


Para testar a nula de que β1 = 0, podemos proceder realizando um teste t como
fazı́amos antes. Assim:
β̂1 − 0 3
t= = √ =1
SE(β̂1 ) 9
Como temos apenas 1 grau de liberdade (4 observações - 3 variáveis estimadas),
o valor crı́tico para rejeitar a nula em um teste de hipótese bicaudal é dado por
12, 71, aproximadamente. Portanto, não podemos rejeitar a nula de que β1 = 0.

12
g) Você quer testar a hipótese nula de que β1 = β2 . Como você escreveria essa
hipótese na notação Rβ = r?
Podemos
h escrever
i essa hipótese nula como
R = 0 1 −1 ,
 
β0
β = β1  e
 

β2
r=0

h) Calcule a estatı́stica F para testar a hipótese nula do item g. É possı́vel


rejeitar que as duas inclinações são iguais?
No SW, temos que a estatı́stica F é dada por:

F = (Rβ̂ − r)′ [RΣ̂β̂ R′ ]−1 (Rβ̂ − r)/q

Em que q é o número de restrições lineares sendo testadas. No caso, q = 1.


Temos então:

5 1
Rβ̂ − r = β̂1 − β̂2 = 3 − =
2 2

 261
 
h i 4 −18 − 81
4 0
RΣ̂β̂ R′ = 0 −1 −18
1 9 9
 1 
  
2
− 81
4
9
2
27
4 −1
 
h i 0
9 9 9
= 4 2 −4  1 
 

−1
9 9 27
= + =
2 4 4

Assim,
1 4 1 1
F = =
2 27 2 27
O valor crı́tico para rejeitar a nula, considerando que temos apenas 1 restrição
e 1 grau de liberdade, é 161, 4, aproximadamente. Portanto, claramente não
podemos rejeitar a nula de que as duas inclinações são iguais.

13
Questão 6
Nessa questão, vamos reaproveitar a base de dados “WAGE1.dta”, que usa-
mos na lista 3. Imagine que agora estamos interessados em estimar a seguinte
regressão usando essa base

Wagei = β0 + β1 Educi + β2 Experi + β3 Femalei + ui

em que Wagei é o salário dos indivı́duos, Educi são os anos de educação, Experi
são os anos de experiência trabalhando e Femalei é uma variável dummy igual
a 1 se o indivı́duo é uma mulher.
a) Estime a regressão acima e interprete os coeficientes de educ e exper, o que
eles estão nos dizendo?

Pelos resultados da regressão que obtivemos, vemos que tanto o coeficiente


de educ quanto o de exper são significantes a um nı́vel de 1%, porém isso não
significa necessariamente que eles são ambos diferentes de zero a esse mesmo
nı́vel de significância.
b) Explique intuitivamente porque não podemos concluir que os dois coeficientes
são simultaneamente iguais a zero a um nı́vel de significância de 1%.
c) Faça agora um teste de hipótese conjunto para testar a hipótese nula de que
H0 : β1 = β2 = 0 e interprete.
d) Suponha que agora que sabemos que os dois coeficientes são simultaneamente
diferentes de zero, estamos interessados em testar se os coeficientes são iguais
entre si. Nossa hipótese aqui é testar se um ano a mais de educação teria o
mesmo “efeito” sobre os salários do que um ano a mais de experiência. Nossa
hipótese nula então é H0 : β1 = β2 . Faça esse teste de hipótese conjunta e
interprete.

14

Você também pode gostar