Modelo Classico de Regressao Linear

1.
O Modelo Clássico de Regressão Linear (MCRL)
1.1. Hipóteses do MCRL

[Griffith et al., caps.3,5; Johnston e Dinardo, cap.3]
O modelo a ser estimado pode ser expresso como:
Yi = β1 + β 2 X 2i + β 3 X 3i + ... + β k X ki + ui , i = 1,...,n (1.1)
onde:
Y é a variável dependente,
X2,...,Xk são k-1 variáveis independentes (explicativas),
β1,..., βk são os parâmetros a serem estimados,
u é um distúrbio aleatório, e
i indexa as n observações amostrais.
1-1
Hipóteses básicas do MCRL:
(1) Linearidade nos parâmetros

O modelo pode ser escrito na forma (1.1).
→ refere-se à forma como os parâmetros entram
na equação, não necessariamente à relação entre
XeY
Ex.: a relação Y = AXβ não é linear no sentido
usual, mas pode ser expressa, em logaritmos,
como um modelo de regressão linear:
ln Y = α + β ln X
(2) Regressores não-estocásticos

Os valores de X são fixos em amostragens
repetidas
(3) Média zero dos distúrbios

E(ui|X2i,...,Xki) = 0 para todo i
(4) Homocedasticidade
Var(ui|X2i,...,Xki) = σ² (constante) para todo i
(5) Ausência de autocorrelação dos distúrbios

Cov(ui ,uj |X2i,...,Xki ,X2j,...,Xkj) = 0 para i ≠ j
1-2
(6) Ausência de correlação entre regressores e
distúrbios
Cov(ui ,X2i) =...= Cov(ui ,Xki) = 0
(7) Número de observações ≥ número de

regressores
(8) Variabilidade dos valores de X

0 < var(X) < ∞
→ trata-se de uma condição de identificação: se
todos os valores de X na amostra forem iguais,
não será possível inferir qualquer resultado sobre
a relação entre Y e X
(9) Modelo corretamente especificado
(10) Ausência de multicolinearidade perfeita entre

regressores
(11) Normalidade dos distúrbios

ui ~ N[0,σ²] para todo i
→ resultados referentes às propriedades dos
estimadores no MCRL independem dessa
hipótese
→ sob tal hipótese, o modelo é dito Modelo
Clássico de Regressão Linear Normal (MCRLN)
1-3
O modelo (1.1) pode ser reescrito como
Y1 = β1 + β 2 X 21 + β 3 X 31 + ... + β k X k1 + u1
Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + u 2
(1.2)
: : :
Yn = β1 + β 2 X 2 n + β 3 X 3n + ... + β k X kn + u n
ou, em forma matricial:
y = Xβ + u (1.3)
onde:
 Y1  1 X 21 .. X k1   β1   u1 
Y  1 X .. X k 2  β  u 
2 22 , β =  , u =  2 
2
y =  , X = 
: 1 : :   :  :
       
Yn  1 X 2 n .. X kn  β k  u n 
nx1 nxk kx1 nx1
X é a matriz de dados.
Observe que a 1a coluna de X é um vetor de 1’s,

referente ao termo constante (intercepto) de cada
equação.
Atenção: a ordem dos índices na matriz X é a inversa

da usualmente adotada na representação de matrizes.
1-4
A matriz X é formada por k vetores coluna x1,...,xk.
Uma forma alternativa de representar o modelo é,
portanto:
y = β1x1 + β 2 x 2 + ... + β k x k + u (1.4)
de modo que o vetor y pode ser expresso como uma

combinação linear das colunas de X e do vetor u.
As hipóteses do MCRL na versão matricial são:
(1) Linearidade nos parâmetros

O modelo pode ser escrito na forma (1.3)
(2) Regressores não-estocásticos

A matriz X (n x k) é não-estocástica
(3) Média zero dos distúrbios
 u1   E (u1 )  0
 u   E (u )   0 
E (u ) = E  2  =  2
= =0
 :   :  :
     
 n 
u E (u )
n  0 
1-5
(4)-(5) Homocedasticidade + ausência de
autocorrelação dos distúrbios
 var(u1 ) cov(u1 , u2 ) .. cov(u1 , un ) 

cov(u , u ) var(u2 ) .. cov(u2 , un )
Var (u ) =  2 1

 : : .. : 
 
cov(un , u1 ) cov(un , u2 ) .. var(un ) 
 E[u1 − E (u1 )]2 .. E[u1 − E (u1 )][un − E (un )]
 
= : .. : 
 E[un − E (un )][u1 − E (u1 )] .. E[un − E (un )] 2

= E[u − E (u)][u − E (u)]'
= E (uu' )
σ 2 0 0 .. 0 
 2 
 0 σ 0 .. 0 
=0 0 . : 
 
 : : . 0
 0 0 .. 0 σ 2 
= σ 2I n
(6) Ausência de correlação entre regressores e

distúrbios
Cov(X,u) = 0
1-6
(7)-(8)-(10) O posto da matriz X (n x k) é k
As colunas de X são linearmente independentes
→ não há multicolinearidade perfeita
→ os valores observados de X1,...,Xk não são
todos iguais (caso contrário, qualquer coluna de X
seria um múltiplo de outra)
→ n ≥ k (número de observações ≥ número de
variáveis independentes)
(9) Modelo corretamente especificado
(11) Normalidade dos distúrbios

u ~ N[ 0, σ²I ]
1-7
1.2. Estimação pelo Método dos Mínimos
Quadrados Ordinários (MQO) [Johnston e Dinardo,
cap.3; Griffith et al., cap.5]
Dado o modelo
y = Xβ + u , (1.5)
nosso objetivo é encontrar a “melhor” estimativa do

vetor de parâmetros desconhecidos β.
Seja o vetor β̂ (k x 1) uma estimativa qualquer de β, a

partir da qual pode-se definir o vetor de valores
ajustados de y,
yˆ = Xβ̂ (1.6)
e o vetor de resíduos
e = y − yˆ = y − Xβ̂ (1.7)
O método dos MQO seleciona β̂ de modo a minimizar

a soma dos quadrados dos resíduos e’e. Denotaremos
por b a solução desse problema.
O Apêndice 1.A mostra a derivação do estimador de

MQO a partir das condições de primeira e segunda
ordem desse problema.
1-8
Note que o problema consiste em tentar reproduzir, da
melhor forma possível, o vetor y(n x 1) através de uma
combinação linear das colunas da matriz X(n x k).
Em outras palavras: dentre todos os (infinitos) vetores

que se encontram no subespaço vetorial definido pelos
vetores-coluna de X, queremos encontrar aquele que
mais se aproxime do vetor y.
Podemos ter dois casos básicos:
• Caso 1: y está no espaço coluna de X
Isso significa que y pode ser expresso exatamente

como uma combinação linear das colunas de X:
y = Xb (1.8)
Ex.: x1, x2 e y são vetores 3x1 com a terceira

coordenada igual (ou seja, estão no mesmo
hiperplano).
x1
y = x1b1+x2b2
x2
1-9
• Caso 2: y não está no espaço coluna de X
Isso significa que y não pode ser expresso como

uma combinação linear das colunas de X; ou seja,
não há um vetor b que satisfaça (1.8).
Mas podemos escrever:
y = Xb + e (1.9)
onde e é a diferença (“resíduo”) entre y e a

combinação linear das colunas de X, Xb. O
objetivo é, então, encontrar o vetor b que minimize
tal resíduo.
Ex.:
x1, x2 são vetores 3x1 com a terceira coordenada
igual a zero.
y é um vetor com terceira coordenada não nula.
x1
yˆ = x 1b1 + x 2 b2 = Xb
x2
1-10
O Caso 2 é a situação típica na prática; isto é, as
variáveis independentes não conseguem explicar
totalmente a variável dependente, havendo sempre
uma diferença (resíduo) entre esta e sua estimativa.
A estimativa de y é sua projeção no espaço de X, dada

por ŷ na figura.
Observe que:
(1) O vetor de resíduos é ortogonal ao vetor ŷ :

yˆ ' e = 0
(2) Como ŷ é uma combinação linear das colunas de

X, (1) implica que o vetor de resíduos também é
ortogonal em relação a cada coluna de X:
X'e = 0
(3) Se as colunas de X são linearmente

independentes, ŷ pode ser expresso como uma
combinação linear única dessas colunas; caso
contrário, não há solução única.
Ex:
Na figura anterior, suponha um vetor adicional x3
no mesmo subespaço de x1 e x2. Então, ŷ não
tem uma única representação em termos dos
vetores xi’s.
1-11
A hipótese de que X tem posto cheio (= k) garante a
unicidade da solução. (Por quê?)
Mas como podemos calcular o vetor b que resolve o

problema?
Note que, como vimos, e é ortogonal a todo o plano

formado por combinações de x1 e x2, isto é:
X’e = 0
Mas e = y – Xb. Logo:
X’(y – Xb) = 0
De modo que o estimador b deve satisfazer as k

equações normais:
( X' X)b = X' y (1.10)
e, se (X’X)-1 existe, ele é encontrado a partir de:
b = ( X' X) −1 X' y (1.11)
O Apêndice 1.A prova que, dadas nossas hipóteses, a

matriz (X’X) é inversível, de modo que b pode
efetivamente ser calculado a partir de (1.11).
1-12
Vejamos as equações normais (1.10) em maior
detalhe:
 n ∑ X 2i .. ∑ X ki   b1   ∑ Yi 
∑ X ∑ X 2i
2
.. ∑ X 2i X ki  b2  ∑ X 2iYi 
 2i  =  (1.12)
 : : : :  :   : 
 2    
 ∑ X ki ∑ X 2i X ki .. ∑ X ki  bk   ∑ X kiYi 
(No Exercício 1.1 você deve derivar essa expressão)
(1.12) deveria parecer familiar a vocês.

Não parece? Suponha então que você esteja
regredindo Y contra uma constante e um único
regressor X2. As equações normais seriam, nesse
caso, estas:
 n ∑ X 2i   b1   ∑ Yi 
∑ X 2   =  (1.13)
 2i ∑ X 2i  b2  ∑ X 2iYi 
Se ainda não reconhece expressões estudadas no

curso anterior de Econometria, veja o Exercício 1.2.
1-13
1.2.1 Exemplo: A geometria do ajuste por MQO
Suponha que você deseje estimar uma regressão

univariada (com intercepto) a partir de nada mais do
que as seguintes três observações:
x1 = -1 y1 = 1
x2 = 1 y2 = 1
x3 = 2 y3 = 3
Essas três observações estão representadas como

quadrados no diagrama de dispersão abaixo.
1-14
Por mínimos quadrados, ajustaremos uma reta a
essas três observações, representada pela equação:
Yi = β1 + β2 Xi , i = 1...3
Substituindo os valores observados, obtemos o

sistema linear:
1 = β1 - β2
1 = β1 + β2
3 = β1 + 2β2
Esse sistema nas “variáveis” β1 e β2 não tem solução,

i.e., é inconsistente. Se o sistema tivesse solução,
haveria uma reta que passaria pelos três pontos do
diagrama de dispersão, o que é claramente
impossível. Essa é a situação típica em econometria
Escrito em forma matricial, o sistema é:
1 1 − 1
1 = 1 1  β1 
   β 
3 1 2  2 
Na notação do nosso curso:
1 1 − 1
 β1 
y = 1, X = 1 1, β= 
3 1 2 β 2 
1-15
A mesma equação vetorial pode ser rescrita
1 1 − 1
1 = 1 β +  1 β
   1   1
3 1  2
Essa segunda forma mostra que resolver o sistema

significaria encontrar uma combinação linear dos
vetores-coluna da matriz X que fosse igual ao vetor y.
Os pesos da combinação seriam β1 e β2.
O espaço vetorial gerado pelos vetores linearmente

independentes x1 = (1, 1, 1) e x2 = (-1, 1, 2) é um
plano. Se o sistema tivesse solução, y = (1, 1, 3) seria
um dos infinitos vetores nesse plano. Infelizmente, ele
não é e o sistema é insolúvel.
y = (1, 1, 3) Plano formado

y está fora do plano
pelas combinações
definido por x1 e x2.
lineares de x1 e x2.
É o “espaço-
coluna de X”.
x1 = (1, 1, 1)
x1 = (-1, 1, 2)
1-16
Como o sistema não tem solução, lançamos mão de
um ajuste de mínimos quadrados. As estimativas b1 e
b2 para os parâmetros β1 e β2 consistirão em pesos de
uma combinação linear de x1 e x2.
Essa combinação é um vetor muito especial: ele é a

projeção ortogonal de y sobre o espaço-coluna de X.
Justamente por ser ortogonal, a projeção minimiza o
comprimento do vetor de erro e, definido por:
e = y − yˆ = y − Xb
onde yˆ = Xb é a projeção ortogonal de y sobre o plano.
Esse vetor e, por construção, é ortogonal a todo o

plano formado por combinações de x1 e x2. Logo:
x1 ' (y − Xb) = 0
⇒ X' (y − Xb) = 0
x 2 ' (y − Xb) = 0
X' Xb = X' y
∴ b = (X' X ) X' y
−1
Aplicamos a seguir a fórmula do estimador para os

dados do exemplo.
1-17
SOLUÇÃO:
3 2 5 
X' X =   X' y =  
2 6  6 
−1
 3 2  5  9 7
b=    ⇒ b = 4
 2 6  6   7
1 − 1 5 7
9 7 
yˆ = 1 1   ⇒ yˆ = 13 7 
47
1 2   17 7
1  5 7   2 7
e = 1 − 13 7  ⇒ e = − 6 7
3 17 7  4 7
A soma dos resíduos ao quadrado, que também é o

quadrado do comprimento do vetor e, é a menor
possível, com as observações dadas (se não acredita,
tente obter outra estimativa que gere um vetor e de
comprimento menor!)
3
4 36 16 56
e' e = ∑ ei2 = + + =
i =1 49 49 49 49
Verifique, como exercício, que o vetor e é realmente

perpendicular aos vetores x1 e x2.
1-18
Há 2 formas de visualizar geometricamente essa
solução. A primeira, que você conheceu em
Econometria, é através do diagrama de dispersão,
agora com a reta de regressão obtida por MQO:
e3 = 3 – 17/7 = 4/7
e2 = 1 – 13/7 = -6/7
e1 = 1 – 5/7 = 2/7
X
1 5 7  2 7
y = 1 yˆ = 13 7  e = − 6 7 
3 17 7  4 7 
1-19
A segunda forma de visualizar esta, e qualquer outra
estimação por mínimos quadrados, é a que você
aprende agora em TPE.
y = (1, 1, 3)
e = (2/7, -6/7, 4/7)
x1 = (1, 1, 1)
Espaço-
coluna de X
y^ = (5/7, 13/7, 17/7)
x1 = (-1, 1, 2)
Se este é um triângulo retângulo, valerá para ele o

Teorema de Pitágoras? Veremos logo adiante que sim,
e que ele representa um resultado importante já visto
em Econometria: a decomposição da variância de y.
1-20
1.2.2 Duas matrizes importantes
Substituindo a fórmula do estimador de MQO (1.11) na

definição do vetor de valores ajustados, temos:
yˆ = Xb = X(X'X)−1 X' y = Py (1.14)
onde
P = X(X'X)−1 X'
é a matriz de projeção de y no espaço coluna de X.
É fácil verificar que P é idempotente, simétrica e

singular. (Quais as dimensões e o posto dela?)
Analogamente, podemos expressar o vetor de

resíduos como:
e = y − Xb = y − X(X'X)−1 X' y
= (I − X(X'X)−1 X' )y (1.15)
= My
onde
M = I − X(X' X) X'
−1
é uma matriz que, gera o vetor de resíduos de MQO

na regressão de y sobre X quando pré-multiplica
qualquer vetor y.
1-21
Note que M = I – P e, evidentemente:
Py + My = (P + I – P)y = y
pois y pode ser decomposto no ajuste da regressão e

no resíduo desta.
Eis um resumo gráfico:
M=I-P
P ŷ
1-22
1.2.3. Decomposição da soma dos quadrados
Podemos decompor a variação de y numa parte

explicada pela regressão e numa parte não explicada.
Partindo de
y = yˆ + e (1.18)
podemos definir a soma dos quadrados
y' y = (yˆ + e)' (yˆ + e)

= yˆ ' yˆ + e' e
(1.19)
= (Xb)' Xb + e' e
= b' X' Xb + e' e
Note que este resultado é exatamente o Teorema de

Pitágoras (em n dimensões), para o triângulo
retângulo formado pelos vetores y, y ajustado e e:
y' y = yˆ ' yˆ + e' e

A variação de y ao redor da média é dada por
∑ (Yi − Y ) 2 =∑ Yi 2 − 2Y ∑ Yi +nY 2
= ∑ Yi 2 − nY 2 (1.20)
= y' y − nY 2
1-23
Temos, então,
y' y − nY 2 = (b' X' Xb − nY 2 ) + e' e (1.21)
SQT SQE SQR
Finalmente, a partir da decomposição de quadrados,

são definidos o R2 e o R2 ajustado da regressão.
R2 =
SQE
SQT
(
R 2 = 1 − 1 − R2 ) nn −− 1k
EXEMPLO – Para o triângulo retângulo do ex. (1.2.1),
a aplicação do Teorema de Pitágoras e o R2 são:
y' y = yˆ ' yˆ + e' e
1 2 1 2
(12
)
+ 12 + 32 =
7 2
5(+ 13 2
+ 17 2
+
7
)2
(
2 + 62 + 42 )
483 56
11 = +
49 49
2 483 49 − 5 2 3 1,52
R = 2
= = 57%
11 − 5 3 2,67
R 2 = 1− 1− R2( ) nn −− 1k = 1 − (1 − 0,57) 33−− 12 = 14%
1-24
1.3 Teorema de Frisch-Waugh-Lovell
Suponha que nosso modelo contenha pelo menos 2

regressores (e, para facilitar, não inclua constante).
Podemos então dividir os regressores em 2 conjuntos

de variáveis, que denominaremos X1 e X2 e
correspondem a partições da matriz X.
Por exemplo, se X contivesse 4 regressores,

poderíamos agrupá-los em dois grupos de dois:
 X 11 X 21 X 31 X 41 
X= : : : : 
 
 X 1n X 2n X 3n X 4 n 
X1 X2
Para facilitar o raciocínio, pense inicialmente no caso

de apenas dois regressores, quando X1 e X2 são,
portanto, vetores. Lembre, porém, que os resultados a
seguir valem para o caso de k regressores.
1-25
Já sabemos como estimar por MQO os coeficientes b1
e b2 da regressão de y em X1 e X2. O Teorema de
Frisch-Waugh-Lovell nos fornece uma forma
alternativa de fazer isso, que tem uma interpretação
muito interessante.
Segundo o teorema, o vetor b2 obtido da regressão de

y sobre X1 e X2 é idêntico ao obtido através do
seguinte procedimento:
(1) Regressão de y sobre X1; forma o vetor de

resíduos y*;
(2) Regressão de X2 sobre X1; forma o vetor de

resíduos X2*;
(3) Regressão de y* sobre X2*.
[resultado análogo vale para b1]
1-26
Tal resultado significa que o vetor de coeficientes de
um regressor num modelo de regressão múltipla pode
ser obtido de duas formas alternativas:
• regredindo todas as variáveis sobre algum outro

regressor (p.ex., “tempo”), e usando os resíduos
dessas regressões em nova regressão;
• usando os regressores na forma original, incluindo

explicitamente o outro regressor (“tempo”) no
modelo a ser estimado
Em outras palavras, os coeficientes estimados num

modelo de regressão múltipla correspondem ao efeito
de cada regressor sobre a variável dependente,
“líquido” dos efeitos dos demais regressores.
Para uma apresentação mais detalhada desse

resultado e algumas aplicações, ver os Apêndices 1.C
e 1.D.
1-27
1.4 Distribuição do Estimador de MQO
Sabemos que a distribuição normal é preservada após

uma transformação linear; se Z tem uma distribuição
normal:
Z ~ N(µ,σ2)
então
aZ + c ~ N(aµ + c, a2σ2)
Para o caso de um vetor z:
z ~ N(µ, Σ)
Az + c ~ N(Aµ + c, AΣA’)
Usaremos esse resultado, nas próximas páginas, para

derivar a distribuição do estimador de MQO, o vetor b.
1-28
Primeiro, adotemos a hipótese de normalidade dos
distúrbios:
2
u ~ N(0, σ I )
Segundo, note que b é uma transformação linear de u:
b = (X' X)−1 X' y

= (X' X)−1 X'(Xβ + u)
= (X' X)−1 X' Xβ + (X' X)−1 X'u (1.16)
= β + (X' X)−1 X'u
Logo, usando o resultado anterior com

z=u
µ=0
Σ = σ 2I
A = (X' X)−1 X'
c=β
obtemos
b ~ N(β , σ 2 ( X' X) −1 ) (1.17)
1-29
Esta é uma distribuição normal multivariada; para cada
elemento,
bk ~ N( β k ,σ 2 ( X' X) −kk1 )
onde ( X' X) −kk1 é o k-ésimo elemento na diagonal da

matriz ( X' X) −1 .
Podemos, então, testar hipóteses sobre β usando a

distribuição normal. (Essa é a relevância da hipótese
de normalidade dos distúrbios!)
Observações importantes:
1. MQO é não-viesado
Pode ser visto diretamente de (1.17). Alternativamente:
E (b) = E[β + (X' X)−1 X'u]

= β + (X' X)−1 X' E (u) (1.18)
=β
2. MQO é o melhor estimador linear não-viesado

(“BLUE”)
Ver Apêndice 1.E.
1-30
1.4.1 Estimação de σ 2
Ainda há um problema para a realização de testes de

hipótese sobre os parâmetros do modelo, pois a
variância do estimador de MQO depende do parâmetro
desconhecido σ 2 (variância dos distúrbios u).
2
Precisamos, então, de um estimador de σ . No
Apêndice 1.F, mostramos que um estimador não
enviesado é
e' e
s2 = (1.19)
n−k
de modo que a matriz de variância-covariância

estimada de b é
Var (b) = s 2 ( X' X) −1
1-31
1.5 Teste de hipóteses lineares
Dado o modelo
y = Xβ + u
podemos estar interessados em testar várias hipóteses

sobre os parâmetros β1 , β 2 ,..., β k . Por exemplo:
(i) H0 : β2 = 0
(ii) H 0 : β 2 = −1
(iii) H 0 : β 2 + β 3 = 1
(iv) H 0 : β 2 = β 4 ou H 0 : β 2 − β 4 = 0
(v) H 0 : β 2 = β 3 = ... = β k = 0
(vi) H 0 : β 2 = β 3 = 0
Qualquer uma dessas hipóteses pode ser rescrita

matricialmente através do formato geral
Rβ = r (1.20)
onde R é uma matriz (q x k), q<k, e r é um vetor (q x 1)

de constantes conhecidas.
A matriz R essencialmente “codifica” as hipóteses a

serem testadas. Cada linha dela corresponde a uma
1-32
restrição linear sobre o vetor β . Logo, q é o número de
restrições a serem testadas.
Para os exemplos acima, teríamos as seguintes

representações em termos de R e r:
(i) H0 : β2 = 0
 β1 
β 
 2
[0 1 0 .. 0] β 3  = 0
 
 : 
 β k 
R β = r
1xk kx1 1x1
(ii) H 0 : β 2 = −1
 β1 
β 
 2
[0 1 0 .. 0] β 3  = −1
 
 : 
 β k 
1-33
(iii) H 0 : β 2 + β 3 = 1
 β1 
β 
 2
[0 1 1 0 .. 0] β 3  = 1
 
 : 
 β k 
(iv) H 0 : β 2 − β 3 = 0
 β1 
β 
 2
[0 1 − 1 0 .. 0] β 3  = 0
 
 : 
 β k 
(v) H 0 : β 2 = β 3 = ... = β k = 0
0 1 0 0 .. 0  β 1  0
0 0 1 0 .. 0  β 2  0
    
0 0 0 1 .. 0  β 3  = 0
    
: : : : . :  :   : 
0 0 0 0 .. 1  β k  0
R β = r
(k-1) x k kx1 (k-1) x 1
1-34
(vi) H 0 : β 2 = β 3 = 0
 β1 
β 
0 1 0 0 .. 0   0
2
0 0 1 0 .. 0  β 3  = 0
    
 : 
 β k 
Ou seja: um conjunto qualquer de hipóteses lineares é

substituído por uma única hipótese matricial:
H 0 : Rβ − r = 0 (1.21)
Em outras palavras, qualquer conjunto de hipóteses

sobre os parâmetros do modelo econométrico é
substituído por uma pergunta ao mesmo tempo mais
simples e mais abstrata: “O vetor (Rβ – r) tem um
comprimento maior do que zero?”
Chegar à conclusão de que esse comprimento é nulo

significa aceitar o conjunto das hipóteses codificadas
em R e r. Por outro lado, a conclusão de que o
comprimento é maior do zero corresponde à rejeição
de uma ou mais das hipóteses conjuntas originais.
1-35
Se o vetor β é irremediavelmente desconhecido, o
vetor (Rβ - r) também o é. Por isso, testamos a
hipótese nula através do estimador de MQO. Dado o
estimador b, podemos computar o vetor (Rb - r).
Geometria do teste de hipóteses:
Espaço
vetorial de
dimensão q
(Rb – r) (número de
hipóteses a
(Rβ - r) se testar).
Vetor conhecido, mas Vetor desconhecido,

aleatório. Flutua ao mas fixo. Queremos
redor do ponto fixo e testar a hipótese de
desconhecido (Rβ β - r) que seu comprimento
é igual a zero
Quanto mais longe o vetor (Rb - r) estiver de 0, menos

provável é que o vetor (Rβ - r) seja igual a zero. Logo,
tenderemos a rejeitar a hipótese nula.
Como em qualquer teste de hipótese, a questão crucial

é se o desvio de (Rb - r) em relação a 0 pode ser
atribuído a erro de amostragem, ou se é realmente
significativo.
1-36
Para testar H0, investigaremos a distribuição do
quadrado do comprimento de (Rb – r), sob H0.
Lembrando que esse vetor nada mais é do que uma

transformação linear do vetor aleatório bem conhecido
nosso b, cuja distribuição é:
b ~ N(β , σ 2 ( X' X) −1 ),
segue:
E (Rb − r) = Rβ − r = zero (sob a hipótese nula)
Var (Rb − r ) =
Var (Rb) = E[(Rb − Rβ)(Rb − Rβ)' ]
= E[R(b − β)(b − β)' R ' ]
= RVar (b)R'
= σ 2 R ( X' X)−1 R'
E finalmente,
(Rb - r) ~ N( 0, σ 2 R(X' X)−1 R' ) (1.22)
1-37
Se então (Rb – r) é uma normal multivariada com
média 0, o seu comprimento ao quadrado, dado por
(Rb – r)’(Rb – r)
será uma soma de quadrados de v.a. normais. É uma

variável aleatória não tabelada, mas com um forte
“parentesco” com uma v.a. qui-quadrado. Como torná-
la uma qui-quadrado, com valores críticos conhecidos?
Pode-se mostrar (Johnston e Dinardo, Apêndice B),

que, se o vetor z (qx1) tem distribuição
z ~ N( 0,Σ )
então
z’ Σ −1 z ~ χ 2 (q )
Logo, a partir da distribuição amostral (1.22),

chegamos a uma v.a. tabelada, sobre a qual
poderíamos realizar testes de hipóteses:
(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) ~ χ 2 (q ) (1.23)
Essa expressão deve ser entendida como o

quadrado do comprimento “padronizado” do vetor
(Rb – r), ou seja, medido em desvios padrões.
1-38
Infelizmente, não podemos parar aqui. A equação
(1.23) não pode ser usada na prática devido à
presença do parâmetro desconhecido σ 2 .
Mas pode-se mostrar (Johnston e Dinardo, Ap.B), que
e' e
2
~ χ 2 (n − k ) (1.24)
σ
e que tal estatística é distribuída independentemente

de b.
Além disso, sabemos que a razão entre duas variáveis

qui-quadrado independentes, divididas pelos
respectivos graus de liberdade n1 e n2, gera uma
variável com distribuição F(n1,n2).
Logo, podemos construir a estatística
(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) q

~ F(q,n-k)
(e' e σ 2 ) (n − k )
(Rb − r)'[R(X' X)−1 R' ]−1 (Rb − r) q

~ F(q,n-k) (1.25)
(e' e) (n − k )
1-39
Usando a definição de s2,
(Rb − r)'[ s 2 R(X' X)− 1 R' ]−1 (Rb − r) q ~ F(q,n-k) (1.26)
A estatística (1.26) pode, assim, ser usada para testar

hipóteses lineares sobre o vetor β . Valores elevados
da estatística apontam para a rejeição de H0.
Note que a raiz quadrada de uma variável F(1,n) é

uma variável t(n).
Logo, no caso de uma única restrição (q=1), a raiz

quadrada da estatística-F (1.26) equivale a uma
estatística-t.
Ex:
(i) H0 : β2 = 0
Rb − r = b2
s 2 R(X' X)−1 R' = Var (b2 )
b22
~ F (1, n - k)
Var (b2 )
b2
~ t (n - k)
d . p.(b2 )
1-40
(ii) H 0 : β 2 + β 3 = 1
Rb − r = b2 + b3 − 1
s 2 R(X' X)−1 R' =

0 
 c11 c21 c31 .. ck1   
c12 1
c22 c32 .. ck 2   
  1
= s 2 [0 1 1 0 .. 0]c13 c23 c33 .. ck 3   
0
 : : : . :  
:
c1k c2 k c3 k .. ckk   
0 
= s 2 (c22 + c23 + c32 + c33 )
= s 2 (c22 + 2c23 + c33 )
= var (b2 ) + 2 cov(b2 , b3 ) + var(b3 )
= var (b2 + b3 )
(b2 + b3 − 1) 2
var(b2 + b3 ) ~ F(1, n - k)
(b2 + b3 − 1)
var(b2 + b3 ) ~ t (n - k)
1-41
(v) H 0 : β 2 = β 3 = ... = β k = 0
b2 
b 
Rb − r =  3  = b 2
:
 
bk 
s 2 R(X' X)−1 R' =

0 0 .. 0
0 1 0 .. 0  c11 c21 .. ck1  
1 0 .. 0
0 0 1 .. 0 c12 c22 .. ck 2   
=s 2   0 1 .. 0
: : : . :  : : . :  
   : : . :
0 0 0 .. 1 c1k c2 k .. ckk  
0 0 .. 1
 c22 .. ck 2 
= s2  : . :  = s 2C
 
c2 k .. ckk 
A estatística de teste é, então,
F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.27)
Mas, conforme mostra o Apêndice 1.G, tal estatística

pode ser rescrita da seguinte forma:
R 2 (k − 1)
F= ~ F(k - 1, n - k) (1.28)
(1 − R 2 ) (n − k )
1-42
1.6 O Estimador de Mínimos Quadrados Restrito
De acordo com a abordagem acima, os testes de

hipóteses seguem os seguintes passos:
1. Estimam-se os parâmetors;
2. Verifica-se se tais estimativas estão muito longe de

satisfazer determinadas restrições.
Mas pode-se proceder de forma alternativa:
1. Impõem-se as restrições diretamente, estimando-

se uma regressão restrita;
2. Estima-se a regressão irrestrita usual;
3. Comparam-se os resultados das regressões

restrita e irrestrita, de modo a verificar se a perda
de ajuste ocasionada pela imposição das restrições
deve-se a amostragem ou realmente indica que as
restrições não são válidas.
As duas abordagens são equivalentes. A opção por

uma ou outra dependerá da situação:
• para testar uma única restrição ou a “significância
global” da regressão, a primeira abordagem é
preferível;
• para testar várias restrições, a segunda
abordagem é geralmente preferível
1-43
O Apêndice 1.H mostra a derivação formal do
estimador restrito. Aqui, nos limitamos a apresentar a
fórmula a ser utilizada nas aplicações:
(e'* e* − e' e) q
F= ~ F(q, n - k) (1.29)
e' e (n − k )
ou
( R 2 − R 2* ) q
F= 2
~ F(q, n - k) (1.30)
(1 − R ) ( n − k )
Ao usar (1.30) deve-se atentar para o fato de que,

freqüentemente, as regressões restrita e irrestrita
apresentam diferentes variáveis dependentes, de
modo que os R2 são incomparáveis.
Ex.:
Para testar H 0 : β 2 = 1 no modelo
ln Y = β1 + β 2 ln L + β 3 ln K + ε
pode-se impor a restrição
ln Y = β1 + ln L + β 3 ln K + ε
e estimar o modelo restrito, usando como variável

dependente ln Y − ln L :
ln Y − ln L = β1 + β 3 ln K + ε
1-44
Aplicação:
Teste de Chow para Mudança Estrutural
[Johnston e Dinardo, 4.5]
Pergunta: Os coeficientes da regressão são

constantes ao longo de toda a amostra? Ou há
diferentes vetores de parâmetros para diferentes
subconjuntos dos dados?
• Modelo irrestrito:
 y 1   X1 0  β 1 
y  =  0 X 2  β 2 
+u
 2 
Estimador de MQO:
−1
b 1   X'1 X 1 0   X'1 y   (X'1 X 1 ) −1 X'1 y 
b  =  0    =
X'2 X 2   X'2 y  (X'2 X 2 ) −1 X'2 y 
 2 
Trata-se de MQO aplicados separadamente a cada

equação.
A soma dos quadrados dos resíduos total é:
e' e = e'1 e1 + e'2 e 2
1-45
• Modelo restrito:
H 0 :β 1 = β 2
Pode-se formular a hipótese nula através da matriz

R = [I − I ] e do vetor r = 0.
Alternativamente, pode-se impor a restrição

diretamente no modelo:
y 1   X1 
y  =  X  β + u
 2  2
Trata-se de uma única regressão por MQO, cuja SQR

denotamos por e'* e* .
A estatística de teste é, então,
(e'* e* − e' e) k
F= ~ F(k, n - 2k)
e' e ( n − 2k )
1-46
Ex.: Emprego nos EUA (E) em função de uma
constante, do deflator do PIB (D), PIB (Y), Forças
Armadas (F) e tempo (t):
E = β1 + β 2 D + β 3Y + β 4 F + β 5t
A relação entre tais variáveis mudou após a Guerra da

Coréia (terminada em 1953) ?
1947-62 1947-53 1954-62

Coeficientes
C 1,169,090 1,678,148 3,776,130
D -19.768 -161.292 -42.4647
Y 0.06439 0.0948 0.11233
F -0.01014 -0.246697 -2.57928
t -576.464 -835.193 -1914.17
SQR 4.898.596 345.212 800.244
(4,898,596 − 345,212 − 800,244) 5

F [5,6] = = 3.932
(345,212 + 800,244) (7 + 9 − 10)
Valor crítico da distribuição-F a 5%: 4.39
⇒ Não se pode rejeitar a hipótese nula de constância

paramétrica.
1-47
1.7 Problemas de especificação (Greene 8.4)
Uma das hipóteses do MCRL nos diz que o modelo

deve estar “corretamente especificado”. Isso significa,
em particular, que no modelo
y = Xβ + u
a matriz X deveria incluir todas as variáveis

explicativas relevantes e não deveria incluir nenhuma
variável supérflua.
O que aconteceria se tais condições não fossem

satisfeitas? É o que veremos a seguir.
1.7.1 Omissão de variáveis relevantes
Suponha que o modelo verdadeiro seja
y = X1β 1 + X 2β 2 + u (1.31)
mas que o modelo estimado seja o seguinte:
y = X1β 1 + u (1.32)
Ou seja, estima-se um modelo caracterizado pela

omissão de um conjunto de variáveis relevantes (X2).
1-48
O estimador de MQO de (1.32) é
b1 = (X1 ' X1 ) −1 X1 ' y

= (X1 ' X1 ) −1 X1 ' (X1β 1 + X 2β 2 + u) (1.33)
= β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 + (X1 ' X1 )−1 X1 ' u
cujo valor esperado é
E (b1 ) = β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 (1.34)
Vemos, portanto, que b1 será viesado em geral, a não

ser que tenhamos X1’X2 = 0 , isto é, que os regressores
incluídos no modelo sejam ortogonais aos regressores
omitidos.
Em outras palavras, se alguma variável relevante for

omitida do modelo, e se a correlação dessa
variável com as variáveis incluídas no modelo não
for zero, então o estimador de MQO será viesado.
Na prática, é improvável que os regressores sejam

ortogonais, de modo que, em geral, deve-se esperar
que a omissão de variáveis relevantes gere
estimativas viesadas.
1-49
O que acontece com a variância do estimador de
MQO quando omitimos variáveis relevantes?
O Apêndice 1.I mostra que a variância de b1 é menor

que a variância de b1.2 (estimador que leva em
consideração X2).
Logo, apesar de obtermos estimativas viesadas ao

omitirmos variáveis relevantes, é possível que tais
estimativas sejam “mais precisas” do que as que
teriam sido obtidas com a inclusão dessas variáveis.
(O que não é grande consolo – estamos errando com
mais precisão!!)
No entanto, há um problema adicional, relativo à

estimação de σ 2 - necessária para a realização de
testes de hipótese. Conforme o Apêndice 1.I mostra, o
estimador usual
e1' e1
s2 =
n − k1
também é viesado, não sendo possível estimar σ 2 - e,

portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .
1-50
1.7.2 Inclusão de variáveis irrelevantes
Suponha agora que o modelo verdadeiro seja
y = X1β 1 + u (1.35)
mas que o modelo estimado seja
y = X1β 1 + X 2β 2 + u
(1.36)
= Xβ + u
onde
X = [X1 X2 ]
β 
β =  1
β 2 
Nesse caso, o estimador de MQO é dado pela fórmula

usual, e não é viesado:
b = (X' X)−1 X' y

= β + (X' X)−1 X' u
β  β 
E (b) = β =  1  =  1 
β 2   0 
Da mesma forma, a variância do estimador de MQO é

dada pela fórmula usual e também não é viesada.
1-51
Tais resultados parecem indicar que a inclusão de
variáveis irrelevantes não causa nenhum problema de
estimação.
Tendo em vista que, como vimos, a omissão de

variáveis relevantes causa problemas bastante graves,
a conclusão lógica pareceria ser:
“Sempre que estivermos em dúvida com relação à

inclusão/exclusão de alguma variável no modelo a ser
estimado, é melhor optar pela sua inclusão”.
Entretanto, tal conclusão está errada!
A razão disso é simples:
Se, por um lado, estimar um modelo omitindo uma

variável relevante equivale a impor uma restrição falsa
(restrição de que o coeficiente da variável é zero), por
outro lado, estimar um modelo incluindo uma variável
irrelevante equivale a deixar de impor uma restrição
verdadeira (restrição de que o coeficiente da variável é
zero).
O custo dessa segunda situação é a perda de

precisão da estimação. Conforme visto acima, a
variância do estimador de MQO aumenta com a
inclusão de novas variáveis explicativas.
Logo, também é necessário tomar cuidado para não

incluir variáveis irrelevantes no modelo.
1-52
APÊNDICE 1.A
Derivação do estimador de MQO
Problema:
Min β̂ e' e = (y − Xβ̂ )' (y − Xβ̂ )

= y' y − β̂ ' X' y − y' Xβ̂ + β̂ ' X' Xβ̂
= y' y − 2β̂ ' X' y + β̂ ' X' Xβ̂
Condições de primeira ordem:
∂ (e' e)
= −2 X' y + 2 X' Xβ̂ = 0
∂β̂
Seja b a solução do problema. Então, b satisfaz as k

equações normais:
( X' X)b = X' y
e, se (X’X)-1 existe, pode ser encontrado a partir de:
b = ( X' X) −1 X' y
Condições de segunda ordem para um mínimo:
∂ 2 (e' e)
= 2 X' X é positiva definida
∂β̂ 2
1-53
Pergunta: A condição de segunda ordem é satisfeita?
Resposta: Sim.
Prova:
Sejam X uma matriz (n x k) de posto cheio k e d um

vetor não nulo (k x 1). Observe que:
• d'(X’X)d ≥ 0 , pois é dada pela soma dos

quadrados dos elementos do vetor Xd (n x 1)
• d'(X’X)d = 0 se e somente se Xd = 0
Mas Xd = 0 implica que as colunas de X são

linearmente dependentes, o que contradiz a hipótese
de que X tem posto cheio. Logo,
d'(X’X)d > 0 para todo d ≠ 0
⇒ X’X é positiva definida
1-54
Pergunta: (X’X)-1 existe?
Resposta: Sim.
Prova:
Uma matriz positiva definida não pode ser singular.

Suponha que (X’X) seja singular; então, existe algum
vetor d ≠ 0 que satisfaz
(X’X)d = 0 ⇒ d'(X’Xd) = 0
o que contradiz a hipótese de que X’X é positiva

definida.
⇒ X’X é não-singular
1-55
APÊNDICE 1.B
O modelo em forma de desvios
Sejam i um vetor coluna composto por 1’s, e x um

vetor de observações de uma variável. Então,
x 
1
ix =  :  = i i' x
  n
 x 
1
= ii' x
n
Podemos expressar os valores de x em forma de

desvio:
 x1 − x 
 :  = x − ix = x − 1 ii' x
  n
 n
x − x 
1
= Ix − ii' x
n
 1 
= I − ii' x
 n 
= Ax
A matriz A é uma matriz simétrica e idempotente que,

ao premultiplicar qualquer vetor x, o coloca na forma
de desvios.
1-56
Observe que
 1 1 1 1 
1 − − − .. −
n n n n 
 1 1 1 
 − 1− 1 − .. − 
 n n n n 
1 1
A= − − : : : 
 n n 
 1 
 : : : 1− 1 − 
n n 

 −1 −
1
.. −
1
1− 1 
 n n n n
Tal matriz é usada primordialmente para calcular

somas de quadrados de desvios:
∑ ( x1 − x ) 2 = (x − ix )' (x − ix )
= (Ax)' Ax
= x' A' Ax
= x' Ax
Podemos colocar o modelo
y = Xb + e
na forma de desvio, premultiplicando cada termo por A
Ay = AXb + Ae
1-57
e, então, proceder à decomposição da soma dos
quadrados:
y' Ay = b' X' AXb + e' e
SQT SQE SQR
1-58
APÊNDICE 1.C
Teorema de Frisch-Waugh-Lovell
Suponha que X possa ser particionada em 2 conjuntos

de variáveis, X1 e X2:
y = Xβ + u = X 1β 1 + X 2β 2 + u
Sejam b1 e b2 os coeficientes estimados por MQO:
y = X 1b 1 + X 2 b2 + e
Premultiplicando por M 1 = I − X 1 (X 1 ' X 1 ) −1 X 1 ' , obtemos
M 1 y = M 1 X 1b 1 + M 1 X 2 b 2 + M 1e
(1.C1)
= M 1 X 2b 2 + e
e, premultiplicando por X’2 ,
X 2 ' M 1y = X 2 ' M 1 X 2b 2 + X 2 'e

(1.C2)
= X 2 ' M 1 X 2b 2
Rearrumando,
(M 1 X 2 )' (M 1 y ) = (M 1 X 2 )' (M 1 X 2 )b 2
1-59
ou seja, o vetor b2 obtido da regressão de y sobre X =
[X1 X2] é idêntico ao obtido através do seguinte
procedimento:
(4) Regressão de y sobre X1; forma o vetor de

resíduos M1y;
(5) Regressão de X2 sobre X1; forma o vetor de

resíduos M1X2;
(6) Regressão de M1y sobre M1X2.
[resultado análogo vale para b1]
Esse resultado é conhecido como Teorema de Frisch-

Waugh-Lovell.
1-60
APÊNDICE 1.D
Aplicações do Teorema de Frisch-Waugh-Lovell
Aplicação 1: Pode-se usar esse resultado para provar

que o R2 nunca diminui ao adicionarmos novas
variáveis na regressão.
A partir de (1.C1), obtemos:
y' M 1 y = b 2 ' X 2 ' M 1 X 2 b 2 + e' e
ou
e' e = y' M 1 y − b 2 ' X 2 ' M 1 X 2 b 2
Observe que:
• y' M 1 y = (M 1 y )' (M 1 y ) é a SQR da regressão de y

sobre X1
• e’e representa a SQR da regressão de y sobre X =

[X1 X2]
• b 2 ' X 2 ' M 1 X 2b 2 ≥ 0
Logo, a SQR da regressão de y sobre X1 e X2 nunca

será superior à SQR da regressão de y sobre X1
apenas. Consequentemente, o R2 nunca será inferior.
1-61
Aplicação 2: Coeficientes de correlação parcial
Em Econometria, vê-se que o coeficiente de

correlação simples entre a variável dependente (Y) e
uma das independentes (por ex., X2) pode ser
“contaminado” pelas outras variáveis.
Por exemplo, se tanto Y quanto X2 forem

positivamente correlacionadas à X3, então um aumento
nesta última causará aumentos simultâneos nas duas
outras, inflando a correlação “natural” entre elas.
A solução é utilizar o coeficiente de correlação

parcial: r12.34...k é a correlação entre Y e X2, expurgada
qualquer influência de X3, X4 ... Xk.
Seja M* a matriz que produz o vetor de resíduos de

uma regressão contra todas as variáveis
independentes exceto X2. Então:
r12.34...k = correlação entre (M ∗ y ) e (M ∗ x 2 )
x 2 ' M ∗y
r12.34...k =
x 2 ' M ∗ x 2 y ' M ∗y
Comparando com a equação (1.C2) acima, vê-se que:
y ' M ∗y s1.34...k
b2 = r12.34...k = r12.34...k
x 2 ' M ∗x 2 s2.34...k
1-62
APÊNDICE 1.E
Teorema de Gauss-Markov
A matriz de variância-covariância de b é:
Var (b) = E[(b − β)(b − β)' ]

= E[(X' X)−1 X'uu' X(X'X)−1 ]
= (X' X)−1 X' E (uu' )X(X'X)−1
= (X' X)−1 X'σ 2 IX(X' X)−1
= σ 2 (X' X)−1
É possível encontrar algum outro estimador linear e

não-viesado que seja mais eficiente que b?
Seja b0 um estimador linear alternativo dado por
b 0 = C0 y
onde C0 é um matriz de constantes.
b0 é não-viesado se C0X = I:
E (b 0 ) = E (C 0 y) = E (C 0 Xβ + C 0 u) = C 0 Xβ
A matriz de variância-covariância de b0 é:
Var (b 0 ) = Var (C 0 y) = C 0Var (y)C 0 ' = σ 2 C 0 C 0 '
1-63
Seja
D = C 0 − C = C 0 − (X' X)−1 X'
Dado que C0X = I por hipótese, temos:
DX + (X' X)−1 X' X = I

DX + I = I
DX = 0
Logo,
Var (b 0 ) = σ 2 [(D + (X' X)−1 X' )(D + (X' X)−1 X' )' ]
= σ 2 [DX(X'X)−1 + (X' X)−1 X' X(X'X)−1 + DD'+(X' X)−1 X' D' ]
= σ 2 (X' X)−1 + σ 2 DD'
= Var (b) + σ 2 DD'
O que significa que a matriz de variância de b0 é igual

à matriz de variância de b mais uma matriz positiva
semidefinida.
⇒ MQO é o melhor estimador linear não-viesado
1-64
APÊNDICE 1.F
Estimação de σ 2
Para estimar σ 2 , partimos do vetor de resíduos e:
e = My = M(Xβ + u) = Mu
E (e' e) = E[(Mu)' Mu] = E (u' Mu)
Usando as propriedades do traço de uma matriz,
E (e' e) = E[tr (u' Mu)]

= E[tr (uu' M )]
= tr[ E (uu' M )]
= tr[ E (uu' )M ]
= tr[σ 2 IM ]
= σ 2 tr (M )
= σ 2 tr (I n − X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X' X(X' X)−1 )
= σ 2 tr (I n ) − σ 2 tr (I k )
= σ 2 (n − k )
1-65
Seja
e' e
s2 =
n−k
2
Logo, s2 é um estimador não-viesado de σ :
 e' e 
E (s 2 ) = E  =σ
2
n−k
E a matriz de variância-covariância estimada de b é
Var (b) = s 2 ( X' X) −1
1-66
APÊNDICE 1.G
Teste de H 0 : β 2 = β 3 = ... = β k = 0
A estatística de teste
F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.G1)
pode ser rescrita em função de valores mais familiares.
Note que a inversa de uma matriz particionada
A A 12 
A =  11
 A 21 A 22 
é dada por
 A 11 −1 + A 11 −1 A 12 B 22 A 21 A 11 −1
−1
−1
− A 11 A 12 B 22 
A = −1  (1.G2)
 − B 22 A 21 A 11 B 22 
−1
onde B 22 = ( A 22 − A 21 A 11 A 12 ) −1
Logo, particionando X em X = [ i X2] , temos
 i'   n i' X 2 
X' X =  ' [i X 2 ] =  ' ' 
X 2  X 2 i X 2 X 2 
e, usando o resultado (1.G2) acima,
1-67
C = (X '2 X 2 − X '2 i n −1 i' X 2 ) −1 = (X '2 AX 2 ) −1
Por conseguinte,
b '2 C −1 b 2 = b '2 X '2 AX 2 b 2 (1.G3)
que corresponde à SQE da regressão.
Usando (1.G3) e a fórmula s 2 = e' e /( n − k ) , podemos

rescrever a estatística (1.G1) como
SQE (k − 1)
F= ~ F(k - 1, n - k)
SQR (n − k )
ou
R 2 (k − 1)
F= ~ F(k - 1, n - k)
(1 − R 2 ) (n − k )
1-68
APÊNDICE 1.H
Derivação do estimador de mínimos quadrados

restrito
Formalmente, o problema é
Min b (y − Xb* )' (y − Xb* ) − 2 λ ' (Rb * − r)

*
As condições de primeira ordem são:
∂φ
= −2X' y + 2 X' Xb* − 2R'λ = 0
∂b *
∂φ
= −2(Rb * − r) = 0
∂λ
Obtemos
X' Xb* = X' y + R'λ (1.H1)
Resolvendo para b*
b * = ( X' X) −1 X' y + ( X' X) −1 R' λ

−1
(1.H2)
= b + ( X' X) R' λ
Premultiplicando por R e resolvendo para λ
Rb * = Rb + R ( X' X) −1 R' λ
1-69
λ = [R(X' X)−1 R' ]-1 (r - Rb)
Substituindo em (1.H2),
b * = b + ( X' X) −1 R' [R(X' X)−1 R' ]-1 (r - Rb) (1.H3)
Os resíduos da regressão restrita são
e* = y − Xb*
= y − Xb − X(b* − b)
= e − X(b* − b)
e a soma dos quadrados é
e'* e* = e' e + (b * − b)' X' X(b* − b)
Observe que e'* e* ≥ e' e : a SQR da regressão restrita

não pode ser menor do que a SQR da regressão
irrestrita!
Usando (1.H3),
e'* e* − e' e = (r − Rb)'[R(X' X)−1 R' ]-1 R(X' X)−1 X' X

(X' X)−1 R'[R(X' X)−1 R' ]-1 (r − Rb) (1.H4)
= (r − Rb)'[R(X' X)−1 R' ]-1 (r − Rb)
1-70
Logo, podemos rescrever a estatística do teste
H 0 : Rb = r usando (1.H4):
(e'* e* − e' e) q
F= ~ F(q, n - k) (1.H5)
e' e (n − k )
1-71
APÊNDICE 1.I
Variância do estimador de MQO com omissão de

variáveis
A variância do estimador de MQO no modelo (1.32) é

dada por
Var (b1 ) = σ 2 ( X1' X1 ) −1
Caso tivéssemos estimado o modelo verdadeiro (1.31),

a variância teria sido
Var (b1.2 ) = σ 2 ( X1' M 2 X1 ) −1
onde
M 2 = I − X 2 (X 2 ' X 2 )−1 X 2 '
Podemos comparar as duas matrizes de variância

acima olhando para a diferença entre suas inversas:
Var (b1 ) −1 − Var (b1.2 ) −1 = σ 2 X1 ' X 2 ( X 2 ' X 2 ) −1 X 2 ' X1
que é uma matriz positiva definida.
Isso significa que a inversa da variância de b1 é maior

que a inversa da variância de b1.2, ou seja, que a
variância de b1 é menor que a variância de b1.2.
1-72
Outro problema diz respeito à estimação de σ 2 -
necessária para a realização de testes de hipótese. O
estimador usual seria
e1' e1
s2 =
n − k1
Mas pode-se mostrar que tal estimador também é

viesado. De fato, note que
e1 = M 1y = M 1 (X1β 1 + X 2β 2 + u) = M 1 X 2β 2 + M 1u
de modo que, procedendo como no Apêndice 1.F,

pode-se provar que
E (e1 ' e1 ) = β 2 ' X 2 ' M 1 X 2β 2 + (n − k1 )σ 2
Logo, s2 é viesado, não sendo possível estimar σ 2 - e,

portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .
1-73
EXERCÍCIOS
1.1
Usando as definições de y e X na página 1.4, mostre que (1.10) e (1.12) são equivalentes.
1.2
No curso de Econometria, você aprendeu que o estimador de MQO dos parâmetros β1 e

β2 na regressão
Yi = β1 + β 2 X i + ui
era dado por
∑ (Yi − Y )( X i − X)
b2 =
∑ (Xi − X )2
b1 = Y − b2 X
Mostre que as fórmulas acima podem ser obtidas a partir de (1.13).
1.3
Usando os resultados da Seção 1.2, mostre que se a regressão inclui um intercepto:

• a soma (e a média) dos resíduos é zero
• a média dos valores ajustados é igual à média dos valores observados
1.4
Mostre que MX = 0, onde M = I – X(X’X)-1X’ é a matriz definida na Seção 1.2.2. Interprete

o resultado.
1.5
Sejam os três vetores coluna: v1 = (1,2,c,4,4), v2 = (-2,1,4,-6,c), v3 = (-1,c,7,-2,7), onde c é

uma constante positiva. Esses vetores representam o resultado de uma regressão de
mínimos quadrados com intercepto: um deles é um vetor de observações da variável
dependente, outro um vetor de ajustes, e outro um vetor de resíduos. O espaço coluna da
matriz X tem dimensão igual a 2. Calcule numericamente o R2 ajustado da regressão.
[DICA: Uma forma de resolver é pensar nas propriedades dos resíduos de MQO num
modelo com intercepto.]
1-74
1.6
Espaço vetorial de dimensão... .....

Na figura ao lado, o círculo pontilhado
representa, simbolicamente, um espaço
vetorial de dimensão qualquer. Imerso
nele há um subespaço de dimensão
menor qualquer, simbolizado pelo plano.
O triângulo retângulo formado por três
vetores, apoiado nesse plano, tem um
significado crucial em Econometria.
Explique esse significado, mencionando:
a
c (a) O que determina as dimensões do
espaço vetorial e do subespaço
b vetorial.
(b) Que vetores geram o subespaço.
(c) O que representam os três vetores a,
b b e c que formam o triângulo.
(d) Por que é um triângulo retângulo.
Subspaço vetorial de dimensão.. ....
(e) Qual a expressão da matriz que
transforma linearmente o vetor a no
vetor b. E no vetor c.
(f) Qual a relação entre o R2 de uma
regressão e o Teorema de Pitágoras
aplicado a esse triângulo retângulo.
1.7
Considere as seguintes informações:
1  b 1 c 
y 1 = 1  y 2 = 1 X = 0 d  e1 = 0 e2 = y2
a  1 0 e 
onde: e1 = vetor de resíduos da regressão de y1 em X

e2 = vetor de resíduos da regressão de y2 em X
a, b, c, d, e = parâmetros desconhecidos.
(a) Quais são os valores dos parâmetros a e b? (1,5 pontos)
(b) Os parâmetros c, d, e podem ser unicamente determinados a partir das informações

acima? Por quê? (0,5 ponto)
(c) Caso a resposta ao item anterior seja positiva, encontre a solução única. Caso a
resposta seja negativa, apresente uma possível solução. (0,5 ponto)
1-75
1.8
Um economista deseja verificar se a taxa de crescimento econômico de um país é afetada

pelo “nível de liberdades individuais” e pelo “grau de corrupção” do país através da
seguinte regressão (contendo um termo constante):
Yi = β1 + β 2 Li + β 3Ci + ui
onde Y é a taxa de crescimento do PIB, L o nível de liberdades individuais e C o grau de

corrupção do país i. A variável L pode assumir os valores 1 (nível elevado de liberdades),
0 (nível médio de liberdades) ou –1 (nível baixo de liberdades). Similarmente, a variável C
pode assumir os valores 1 (baixo grau de corrupção), 0 (grau de corrupção médio) ou –1
(elevado grau de corrupção).
Para uma amostra de 10 países, observados ao longo de 1999, o economista obtém os

seguintes dados:
País Y L C
Dinamarca 6 1 1
México 2 1 -1
Chile 3 0 1
Colômbia -1 0 -1
Rússia 2 0 0
Argentina 2 0 0
Brasil 1 0 0
Grécia 1 0 0
Egito 0 -1 0
Indonésia 0 -1 0
Infelizmente, o economista não pode rodar a regressão, pois seu computador contraiu um
vírus que apagou todo o HD (inclusive o Eviews...). O economista precisa entregar a seu
superior um relatório com os resultados da regressão; entretanto, como ele não teve aula
de TPE, não sabe como realizar os cálculos manualmente. Você certamente poderá
ajudá-lo!
(a) Usando seus conhecimentos de álgebra linear, escreva as equações normais e

calcule o vetor de coeficientes de MQO. Interprete os coeficientes estimados.
(b) Calcule as variâncias dos coeficientes estimados. Tais coeficientes são
estatisticamente significativos (a 10%)?
(c) Calcule o R2 da regressão.
Suponha que, após você ter terminado seus cálculos, o economista consiga recuperar
seu HD e decida conferir suas respostas usando o Eviews.
(d) Mostre os resultados da regressão acima realizada no Eviews. Compare os resultados

com aqueles obtidos nos itens (a)-(c); os resultados deveriam ser idênticos (se não forem,
é sinal de que você cometeu algum erro!)
1-76
1.9
Em certo país, com o objetivo de testar algumas hipóteses sobre os determinantes dos
gastos dos municípios em educação e saúde, estima-se por MQO uma regressão dos
gastos municipais (G) em função de uma constante (C), das receitas tributárias do
município (R) e de uma variável dummy (D) que assume valor 1 se o município é
governado por um partido “de esquerda”, e zero em caso contrário. Sabemos que:
• O vetor de coeficientes estimados para C,R,D é b’=[ -0.7527, 0.4753, 2.3764 ]
• O número de municípios com governo de esquerda é 10
• A soma das receitas de todos os municípios é 200, sendo que os municípios de
esquerda têm 25% desse total
• A soma dos quadrados das receitas de todos os municípios é 2114
• A soma dos gastos de todos os municípios é 100
• A soma dos quadrados dos gastos de todos os municípios é 504
• Os valores na diagonal da matriz inversa de X’X são [0.338, 0.00267, 0.2329]
Responda:
a) Quanto foi gasto pelos municípios de esquerda em saúde/educação?

b) Calcule as variâncias dos coeficientes estimados e o R2 da regressão.
c) Teste, ao nível de 5%, a hipótese de que os partidos de esquerda não gastam mais
em saúde/educação relativamente aos demais.
1.10
Suponha um modelo econométrico para explicar o consumo (C) de famílias de uma

mesma região através de três variáveis: renda (R), poupança total (P) e posse do imóvel
em que habita (D). As variáveis C, R e P são medidas em reais. A variável D é uma
dummy que assume valor 1 se a família é dona do imóvel em que habita, e zero caso
contrário. A FRP é:
Ci = β1 + β 2 Ri + β 3 Pi + β 4 Di + ui
Um economista estimou esse modelo para uma amostra de 14 famílias, obtendo:
1  1 0 0 0
 2 −1
0 2 0 0 1
b=  (X ' X ) =  s2 =
1  0 0 1 0 3
4 0 0 0 3
Teste conjuntamente as hipóteses: (1) não há diferença entre os efeitos da renda e da

poupança sobre o consumo, e (2) o fato de a família ser dona do imóvel em que habita
não influencia em nada o consumo. O Conjunto das hipóteses é rejeitado ou não?
Interprete o resultado.
1-77
1.11
A teoria econômica sugere que o grau de independência da política monetária de um país

depende do regime cambial adotado: sob um regime de câmbio fixo e mobilidade de
capitais, a taxa de juros doméstica estaria atrelada à taxa de juros externa, enquanto que
num regime de câmbio flutuante as autoridade monetárias teriam liberdade para
determinar a taxa de juros doméstica. Entretanto, alguns autores afirmam que mesmo em
países com regimes flexíveis a política monetária não é independente, pois fatores como
credibilidade, repasse (“pass-through”) do câmbio à inflação e passivos em moeda
estrangeira impedem que as autoridades deixem o câmbio flutuar livremente – ou seja,
que adotem políticas monetárias independentes.
Com o objetivo de testar se a adoção de um regime flutuante realmente permite políticas

monetárias independentes, um economista estimou, para um conjunto de países, a
seguinte regressão:
i D = β1 + β 2i* + ε
onde iD = taxa de juros doméstica; i* = taxa de juros externa
A regressão foi estimada para a amostra completa de países e para duas subamostras,
classificadas de acordo com o tipo de regime cambial adotado pelos países: (1) câmbio
fixo; (2) câmbio flexível. As matrizes relevantes, em cada subamostra, são:
(1) Câmbio fixo
10 60   60 
X1' X1 =   X1' y1 =   y1' y1 = 490
60 420 420
(2) Câmbio flexível
10 60   60 
X2 ' X2 =   X2'y 2 =   y 2 ' y 2 = 430
60 420 390
a) Calcule o vetor de coeficientes de MQO e o R2 para a amostra inteira e para cada

subamostra. Os valores dos coeficientes estimados estão de acordo com a teoria
“convencional”?
b) Teste, ao nível de 5%, a igualdade dos coeficientes entre as duas subamostras.
Interprete o resultado.
1-78
1.12
Os dados abaixo referem-se a um modelo de regressão linear estimado:
 − 1 0,05 0,1 0 
b = − 2 =  0,1 0,4 0 
−1
e' e = 74 (X' X )
 3  0 0 0,5
O modelo (com intercepto) explica as importações de um país em função da taxa de

câmbio real (x2) e um índice de produção física industrial (x3). Teste, ao nível de
significância de 1%, a hipótese conjunta de que β 1 = 0 e β 2 = − β 3 .
1.13
Com o objetivo de analisar a relação entre os lucros dos bancos e o volume de

empréstimos concedidos, o economista A pretende estimar a seguinte regressão:
Li = β1 + β 2 Ei + ui
onde Li é o lucro por cliente do banco i, Ei é o volume de empréstimos do banco e ui é um
distúrbio aleatório.
Entretanto, segundo o economista B, não seria correto estimar tal regressão para a
amostra total de bancos, pois bancos com diferentes tamanhos devem apresentar
desempenhos muito diferentes – e, portanto, os parâmetros não podem ser considerados
constantes ao longo da amostra. O mais correto, segundo ele, seria estimar regressões
diferentes para bancos com tamanhos diferentes.
Suponha que seja possível dividir a amostra em duas partes, a primeira correspondente
aos bancos de pequeno porte e a segunda aos bancos de grande porte, cujas
observações geram as seguintes matrizes:
10 10 10 

X1' X1 =   X1' y1 =   y1 ' y1 = 3210
10 11 50
10 10  10 
X2 ' X2 =   X2 'y 2 =   y 2 'y 2 = a
10 11 100
onde X inclui um intercepto.
a) Calcule o vetor de coeficientes de MQO para a amostra inteira e para cada uma
das subamostras. Interprete os resultados.
b) Calcule a soma dos quadrados dos resíduos para cada subamostra. Qual é o
intervalo de valores possíveis para a?
1-79
c) Para quais valores de a poderíamos dizer, com 95% de confiança, que o
procedimento sugerido pelo economista B é realmente mais correto?
1.14
Um economista deseja estimar a seguinte relação para um conjunto de países:
Yi = β 1 + β 2 J i + β 3 Pi + u i , u i ~ N (0, σ 2 ) (1)
onde, para cada país i, Yi é a taxa de crescimento do PIB, Ji é a taxa de juros nominal e Pi
é a taxa de inflação.
Ele dispõe dos seguintes dados:
100 0 0 100
X' X =  0 10 0 X' y = - 15 y' y = 220,5
 0 0 1  1 
onde y é o vetor de observações da variável dependente e X a matriz de observações das

variáveis explicativas.
(a) Calcule os coeficientes estimados por MQO. [0,5 ponto]
(b) Segundo outro economista, a taxa de crescimento do PIB deveria depender

exclusivamente da taxa de juros real, de modo que uma equação mais apropriada
seria:
Yi = δ1 JRi + u (2)
onde JR = J – P é a taxa de juros real “ex-post”. Com base nas informações

disponíveis, teste ao nível de 5% a validade dessa especificação vis-à-vis a equação
(1). [1 ponto]
(c) Se nós dispuséssemos de informações adicionais, seríamos capazes de realizar o

teste do item anterior através de um método alternativo. Descreva esse método
alternativo, explicitando as informações requeridas para a sua realização. [0,5 ponto]
(d) Um terceiro economista, tentando conciliar as idéias dos outros dois, sugere estimar
por MQO uma equação contendo simultaneamente as variáveis nominais e reais, isto
é:
Yi = β1 + β 2 J i + β 3 Pi + β 4 JRi + ui (3)
Esse procedimento apresenta algum problema? Responda fazendo referência às

propriedades da matriz X de variáveis explicativas. [0,5 ponto]
1-80

Modelo Classico de Regressao Linear

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelo Classico de Regressao Linear

Enviado por

Direitos autorais:

Formatos disponíveis

1.

O Modelo Clássico de Regressão Linear (MCRL)

1.1. Hipóteses do MCRL

O modelo a ser estimado pode ser expresso como:

Yi = β1 + β 2 X 2i + β 3 X 3i + ... + β k X ki + ui , i = 1,...,n (1.1)

X2,...,Xk são k-1 variáveis independentes (explicativas),

β1,..., βk são os parâmetros a serem estimados,

i indexa as n observações amostrais.

(1) Linearidade nos parâmetros

(2) Regressores não-estocásticos

(3) Média zero dos distúrbios

(5) Ausência de autocorrelação dos distúrbios

(7) Número de observações ≥ número de

(8) Variabilidade dos valores de X

(9) Modelo corretamente especificado

(10) Ausência de multicolinearidade perfeita entre

(11) Normalidade dos distúrbios

ou, em forma matricial:

Observe que a 1a coluna de X é um vetor de 1’s,

Atenção: a ordem dos índices na matriz X é a inversa

y = β1x1 + β 2 x 2 + ... + β k x k + u (1.4)

de modo que o vetor y pode ser expresso como uma

As hipóteses do MCRL na versão matricial são:

(1) Linearidade nos parâmetros

(2) Regressores não-estocásticos

(3) Média zero dos distúrbios

 var(u1 ) cov(u1 , u2 ) .. cov(u1 , un ) 

(6) Ausência de correlação entre regressores e

(9) Modelo corretamente especificado

(11) Normalidade dos distúrbios

nosso objetivo é encontrar a “melhor” estimativa do

Seja o vetor β̂ (k x 1) uma estimativa qualquer de β, a

O método dos MQO seleciona β̂ de modo a minimizar

O Apêndice 1.A mostra a derivação do estimador de

Em outras palavras: dentre todos os (infinitos) vetores

Podemos ter dois casos básicos:

• Caso 1: y está no espaço coluna de X

Isso significa que y pode ser expresso exatamente

Ex.: x1, x2 e y são vetores 3x1 com a terceira

Isso significa que y não pode ser expresso como

Mas podemos escrever:

onde e é a diferença (“resíduo”) entre y e a

A estimativa de y é sua projeção no espaço de X, dada

(1) O vetor de resíduos é ortogonal ao vetor ŷ :

(2) Como ŷ é uma combinação linear das colunas de

(3) Se as colunas de X são linearmente

Mas como podemos calcular o vetor b que resolve o

Note que, como vimos, e é ortogonal a todo o plano

Mas e = y – Xb. Logo:

De modo que o estimador b deve satisfazer as k

( X' X)b = X' y (1.10)

e, se (X’X)-1 existe, ele é encontrado a partir de:

b = ( X' X) −1 X' y (1.11)

O Apêndice 1.A prova que, dadas nossas hipóteses, a

(No Exercício 1.1 você deve derivar essa expressão)

(1.12) deveria parecer familiar a vocês.

Se ainda não reconhece expressões estudadas no

Suponha que você deseje estimar uma regressão

Essas três observações estão representadas como

Substituindo os valores observados, obtemos o

Esse sistema nas “variáveis” β1 e β2 não tem solução,

Escrito em forma matricial, o sistema é:

Na notação do nosso curso: