Você está na página 1de 80

1.

O Modelo Clássico de Regressão Linear (MCRL)

1.1. Hipóteses do MCRL


[Griffith et al., caps.3,5; Johnston e Dinardo, cap.3]

O modelo a ser estimado pode ser expresso como:

Yi = β1 + β 2 X 2i + β 3 X 3i + ... + β k X ki + ui , i = 1,...,n (1.1)

onde:

Y é a variável dependente,

X2,...,Xk são k-1 variáveis independentes (explicativas),

β1,..., βk são os parâmetros a serem estimados,

u é um distúrbio aleatório, e

i indexa as n observações amostrais.

1-1
Hipóteses básicas do MCRL:

(1) Linearidade nos parâmetros


O modelo pode ser escrito na forma (1.1).
→ refere-se à forma como os parâmetros entram
na equação, não necessariamente à relação entre
XeY
Ex.: a relação Y = AXβ não é linear no sentido
usual, mas pode ser expressa, em logaritmos,
como um modelo de regressão linear:

ln Y = α + β ln X

(2) Regressores não-estocásticos


Os valores de X são fixos em amostragens
repetidas

(3) Média zero dos distúrbios


E(ui|X2i,...,Xki) = 0 para todo i

(4) Homocedasticidade
Var(ui|X2i,...,Xki) = σ² (constante) para todo i

(5) Ausência de autocorrelação dos distúrbios


Cov(ui ,uj |X2i,...,Xki ,X2j,...,Xkj) = 0 para i ≠ j

1-2
(6) Ausência de correlação entre regressores e
distúrbios
Cov(ui ,X2i) =...= Cov(ui ,Xki) = 0

(7) Número de observações ≥ número de


regressores

(8) Variabilidade dos valores de X


0 < var(X) < ∞
→ trata-se de uma condição de identificação: se
todos os valores de X na amostra forem iguais,
não será possível inferir qualquer resultado sobre
a relação entre Y e X

(9) Modelo corretamente especificado

(10) Ausência de multicolinearidade perfeita entre


regressores

(11) Normalidade dos distúrbios


ui ~ N[0,σ²] para todo i
→ resultados referentes às propriedades dos
estimadores no MCRL independem dessa
hipótese
→ sob tal hipótese, o modelo é dito Modelo
Clássico de Regressão Linear Normal (MCRLN)

1-3
O modelo (1.1) pode ser reescrito como

Y1 = β1 + β 2 X 21 + β 3 X 31 + ... + β k X k1 + u1
Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + u 2
(1.2)
: : :
Yn = β1 + β 2 X 2 n + β 3 X 3n + ... + β k X kn + u n

ou, em forma matricial:

y = Xβ + u (1.3)

onde:

 Y1  1 X 21 .. X k1   β1   u1 
Y  1 X .. X k 2  β  u 
2 22 , β =  , u =  2 
2
y =  , X = 
: 1 : :   :  :
       
Yn  1 X 2 n .. X kn  β k  u n 
nx1 nxk kx1 nx1

X é a matriz de dados.

Observe que a 1a coluna de X é um vetor de 1’s,


referente ao termo constante (intercepto) de cada
equação.

Atenção: a ordem dos índices na matriz X é a inversa


da usualmente adotada na representação de matrizes.

1-4
A matriz X é formada por k vetores coluna x1,...,xk.
Uma forma alternativa de representar o modelo é,
portanto:

y = β1x1 + β 2 x 2 + ... + β k x k + u (1.4)

de modo que o vetor y pode ser expresso como uma


combinação linear das colunas de X e do vetor u.

As hipóteses do MCRL na versão matricial são:

(1) Linearidade nos parâmetros


O modelo pode ser escrito na forma (1.3)

(2) Regressores não-estocásticos


A matriz X (n x k) é não-estocástica

(3) Média zero dos distúrbios

 u1   E (u1 )  0
 u   E (u )   0 
E (u ) = E  2  =  2
= =0
 :   :  :
     
 n 
u E (u )
n  0 

1-5
(4)-(5) Homocedasticidade + ausência de
autocorrelação dos distúrbios

 var(u1 ) cov(u1 , u2 ) .. cov(u1 , un ) 


cov(u , u ) var(u2 ) .. cov(u2 , un )
Var (u ) =  2 1

 : : .. : 
 
cov(un , u1 ) cov(un , u2 ) .. var(un ) 
 E[u1 − E (u1 )]2 .. E[u1 − E (u1 )][un − E (un )]
 
= : .. : 
 E[un − E (un )][u1 − E (u1 )] .. E[un − E (un )] 2

= E[u − E (u)][u − E (u)]'
= E (uu' )
σ 2 0 0 .. 0 
 2 
 0 σ 0 .. 0 
=0 0 . : 
 
 : : . 0
 0 0 .. 0 σ 2 
= σ 2I n

(6) Ausência de correlação entre regressores e


distúrbios
Cov(X,u) = 0

1-6
(7)-(8)-(10) O posto da matriz X (n x k) é k
As colunas de X são linearmente independentes
→ não há multicolinearidade perfeita
→ os valores observados de X1,...,Xk não são
todos iguais (caso contrário, qualquer coluna de X
seria um múltiplo de outra)
→ n ≥ k (número de observações ≥ número de
variáveis independentes)

(9) Modelo corretamente especificado

(11) Normalidade dos distúrbios


u ~ N[ 0, σ²I ]

1-7
1.2. Estimação pelo Método dos Mínimos
Quadrados Ordinários (MQO) [Johnston e Dinardo,
cap.3; Griffith et al., cap.5]

Dado o modelo

y = Xβ + u , (1.5)

nosso objetivo é encontrar a “melhor” estimativa do


vetor de parâmetros desconhecidos β.

Seja o vetor β̂ (k x 1) uma estimativa qualquer de β, a


partir da qual pode-se definir o vetor de valores
ajustados de y,

yˆ = Xβ̂ (1.6)

e o vetor de resíduos

e = y − yˆ = y − Xβ̂ (1.7)

O método dos MQO seleciona β̂ de modo a minimizar


a soma dos quadrados dos resíduos e’e. Denotaremos
por b a solução desse problema.

O Apêndice 1.A mostra a derivação do estimador de


MQO a partir das condições de primeira e segunda
ordem desse problema.

1-8
Note que o problema consiste em tentar reproduzir, da
melhor forma possível, o vetor y(n x 1) através de uma
combinação linear das colunas da matriz X(n x k).

Em outras palavras: dentre todos os (infinitos) vetores


que se encontram no subespaço vetorial definido pelos
vetores-coluna de X, queremos encontrar aquele que
mais se aproxime do vetor y.

Podemos ter dois casos básicos:

• Caso 1: y está no espaço coluna de X

Isso significa que y pode ser expresso exatamente


como uma combinação linear das colunas de X:

y = Xb (1.8)

Ex.: x1, x2 e y são vetores 3x1 com a terceira


coordenada igual (ou seja, estão no mesmo
hiperplano).

x1
y = x1b1+x2b2

x2

1-9
• Caso 2: y não está no espaço coluna de X

Isso significa que y não pode ser expresso como


uma combinação linear das colunas de X; ou seja,
não há um vetor b que satisfaça (1.8).

Mas podemos escrever:

y = Xb + e (1.9)

onde e é a diferença (“resíduo”) entre y e a


combinação linear das colunas de X, Xb. O
objetivo é, então, encontrar o vetor b que minimize
tal resíduo.

Ex.:
x1, x2 são vetores 3x1 com a terceira coordenada
igual a zero.
y é um vetor com terceira coordenada não nula.

x1

yˆ = x 1b1 + x 2 b2 = Xb

x2

1-10
O Caso 2 é a situação típica na prática; isto é, as
variáveis independentes não conseguem explicar
totalmente a variável dependente, havendo sempre
uma diferença (resíduo) entre esta e sua estimativa.

A estimativa de y é sua projeção no espaço de X, dada


por ŷ na figura.

Observe que:

(1) O vetor de resíduos é ortogonal ao vetor ŷ :


yˆ ' e = 0

(2) Como ŷ é uma combinação linear das colunas de


X, (1) implica que o vetor de resíduos também é
ortogonal em relação a cada coluna de X:
X'e = 0

(3) Se as colunas de X são linearmente


independentes, ŷ pode ser expresso como uma
combinação linear única dessas colunas; caso
contrário, não há solução única.

Ex:
Na figura anterior, suponha um vetor adicional x3
no mesmo subespaço de x1 e x2. Então, ŷ não
tem uma única representação em termos dos
vetores xi’s.

1-11
A hipótese de que X tem posto cheio (= k) garante a
unicidade da solução. (Por quê?)

Mas como podemos calcular o vetor b que resolve o


problema?

Note que, como vimos, e é ortogonal a todo o plano


formado por combinações de x1 e x2, isto é:

X’e = 0

Mas e = y – Xb. Logo:

X’(y – Xb) = 0

De modo que o estimador b deve satisfazer as k


equações normais:

( X' X)b = X' y (1.10)

e, se (X’X)-1 existe, ele é encontrado a partir de:

b = ( X' X) −1 X' y (1.11)

O Apêndice 1.A prova que, dadas nossas hipóteses, a


matriz (X’X) é inversível, de modo que b pode
efetivamente ser calculado a partir de (1.11).

1-12
Vejamos as equações normais (1.10) em maior
detalhe:

 n ∑ X 2i .. ∑ X ki   b1   ∑ Yi 
∑ X ∑ X 2i
2
.. ∑ X 2i X ki  b2  ∑ X 2iYi 
 2i  =  (1.12)
 : : : :  :   : 
 2    
 ∑ X ki ∑ X 2i X ki .. ∑ X ki  bk   ∑ X kiYi 

(No Exercício 1.1 você deve derivar essa expressão)

(1.12) deveria parecer familiar a vocês.


Não parece? Suponha então que você esteja
regredindo Y contra uma constante e um único
regressor X2. As equações normais seriam, nesse
caso, estas:

 n ∑ X 2i   b1   ∑ Yi 
∑ X 2   =  (1.13)
 2i ∑ X 2i  b2  ∑ X 2iYi 

Se ainda não reconhece expressões estudadas no


curso anterior de Econometria, veja o Exercício 1.2.

1-13
1.2.1 Exemplo: A geometria do ajuste por MQO

Suponha que você deseje estimar uma regressão


univariada (com intercepto) a partir de nada mais do
que as seguintes três observações:

x1 = -1 y1 = 1
x2 = 1 y2 = 1
x3 = 2 y3 = 3

Essas três observações estão representadas como


quadrados no diagrama de dispersão abaixo.

1-14
Por mínimos quadrados, ajustaremos uma reta a
essas três observações, representada pela equação:

Yi = β1 + β2 Xi , i = 1...3

Substituindo os valores observados, obtemos o


sistema linear:
1 = β1 - β2
1 = β1 + β2
3 = β1 + 2β2

Esse sistema nas “variáveis” β1 e β2 não tem solução,


i.e., é inconsistente. Se o sistema tivesse solução,
haveria uma reta que passaria pelos três pontos do
diagrama de dispersão, o que é claramente
impossível. Essa é a situação típica em econometria

Escrito em forma matricial, o sistema é:

1 1 − 1
1 = 1 1  β1 
   β 
3 1 2  2 

Na notação do nosso curso:

1 1 − 1
 β1 
y = 1, X = 1 1, β= 
3 1 2 β 2 

1-15
A mesma equação vetorial pode ser rescrita

1 1 − 1
1 = 1 β +  1 β
   1   1
3 1  2

Essa segunda forma mostra que resolver o sistema


significaria encontrar uma combinação linear dos
vetores-coluna da matriz X que fosse igual ao vetor y.
Os pesos da combinação seriam β1 e β2.

O espaço vetorial gerado pelos vetores linearmente


independentes x1 = (1, 1, 1) e x2 = (-1, 1, 2) é um
plano. Se o sistema tivesse solução, y = (1, 1, 3) seria
um dos infinitos vetores nesse plano. Infelizmente, ele
não é e o sistema é insolúvel.

y = (1, 1, 3) Plano formado


y está fora do plano
pelas combinações
definido por x1 e x2.
lineares de x1 e x2.
É o “espaço-
coluna de X”.

x1 = (1, 1, 1)

x1 = (-1, 1, 2)

1-16
Como o sistema não tem solução, lançamos mão de
um ajuste de mínimos quadrados. As estimativas b1 e
b2 para os parâmetros β1 e β2 consistirão em pesos de
uma combinação linear de x1 e x2.

Essa combinação é um vetor muito especial: ele é a


projeção ortogonal de y sobre o espaço-coluna de X.
Justamente por ser ortogonal, a projeção minimiza o
comprimento do vetor de erro e, definido por:

e = y − yˆ = y − Xb

onde yˆ = Xb é a projeção ortogonal de y sobre o plano.

Esse vetor e, por construção, é ortogonal a todo o


plano formado por combinações de x1 e x2. Logo:

x1 ' (y − Xb) = 0
⇒ X' (y − Xb) = 0
x 2 ' (y − Xb) = 0

X' Xb = X' y

∴ b = (X' X ) X' y
−1

Aplicamos a seguir a fórmula do estimador para os


dados do exemplo.

1-17
SOLUÇÃO:

3 2 5 
X' X =   X' y =  
2 6  6 
−1
 3 2  5  9 7
b=    ⇒ b = 4
 2 6  6   7

1 − 1 5 7
9 7 
yˆ = 1 1   ⇒ yˆ = 13 7 
47
1 2   17 7

1  5 7   2 7
e = 1 − 13 7  ⇒ e = − 6 7
3 17 7  4 7

A soma dos resíduos ao quadrado, que também é o


quadrado do comprimento do vetor e, é a menor
possível, com as observações dadas (se não acredita,
tente obter outra estimativa que gere um vetor e de
comprimento menor!)
3
4 36 16 56
e' e = ∑ ei2 = + + =
i =1 49 49 49 49

Verifique, como exercício, que o vetor e é realmente


perpendicular aos vetores x1 e x2.

1-18
Há 2 formas de visualizar geometricamente essa
solução. A primeira, que você conheceu em
Econometria, é através do diagrama de dispersão,
agora com a reta de regressão obtida por MQO:

e3 = 3 – 17/7 = 4/7

e2 = 1 – 13/7 = -6/7

e1 = 1 – 5/7 = 2/7
X

1 5 7  2 7
y = 1 yˆ = 13 7  e = − 6 7 
3 17 7  4 7 

1-19
A segunda forma de visualizar esta, e qualquer outra
estimação por mínimos quadrados, é a que você
aprende agora em TPE.

y = (1, 1, 3)
e = (2/7, -6/7, 4/7)

x1 = (1, 1, 1)

Espaço-
coluna de X
y^ = (5/7, 13/7, 17/7)

x1 = (-1, 1, 2)

Se este é um triângulo retângulo, valerá para ele o


Teorema de Pitágoras? Veremos logo adiante que sim,
e que ele representa um resultado importante já visto
em Econometria: a decomposição da variância de y.

1-20
1.2.2 Duas matrizes importantes

Substituindo a fórmula do estimador de MQO (1.11) na


definição do vetor de valores ajustados, temos:

yˆ = Xb = X(X'X)−1 X' y = Py (1.14)

onde
P = X(X'X)−1 X'

é a matriz de projeção de y no espaço coluna de X.

É fácil verificar que P é idempotente, simétrica e


singular. (Quais as dimensões e o posto dela?)

Analogamente, podemos expressar o vetor de


resíduos como:

e = y − Xb = y − X(X'X)−1 X' y
= (I − X(X'X)−1 X' )y (1.15)
= My
onde
M = I − X(X' X) X'
−1

é uma matriz que, gera o vetor de resíduos de MQO


na regressão de y sobre X quando pré-multiplica
qualquer vetor y.

1-21
Note que M = I – P e, evidentemente:

Py + My = (P + I – P)y = y

pois y pode ser decomposto no ajuste da regressão e


no resíduo desta.

Eis um resumo gráfico:

M=I-P

P ŷ

1-22
1.2.3. Decomposição da soma dos quadrados

Podemos decompor a variação de y numa parte


explicada pela regressão e numa parte não explicada.
Partindo de

y = yˆ + e (1.18)

podemos definir a soma dos quadrados

y' y = (yˆ + e)' (yˆ + e)


= yˆ ' yˆ + e' e
(1.19)
= (Xb)' Xb + e' e
= b' X' Xb + e' e

Note que este resultado é exatamente o Teorema de


Pitágoras (em n dimensões), para o triângulo
retângulo formado pelos vetores y, y ajustado e e:

y' y = yˆ ' yˆ + e' e


A variação de y ao redor da média é dada por

∑ (Yi − Y ) 2 =∑ Yi 2 − 2Y ∑ Yi +nY 2
= ∑ Yi 2 − nY 2 (1.20)
= y' y − nY 2

1-23
Temos, então,

y' y − nY 2 = (b' X' Xb − nY 2 ) + e' e (1.21)

SQT SQE SQR

Finalmente, a partir da decomposição de quadrados,


são definidos o R2 e o R2 ajustado da regressão.

R2 =
SQE
SQT
(
R 2 = 1 − 1 − R2 ) nn −− 1k
EXEMPLO – Para o triângulo retângulo do ex. (1.2.1),
a aplicação do Teorema de Pitágoras e o R2 são:

y' y = yˆ ' yˆ + e' e

1 2 1 2
(12
)
+ 12 + 32 =
7 2
5(+ 13 2
+ 17 2
+
7
)2
(
2 + 62 + 42 )
483 56
11 = +
49 49

2 483 49 − 5 2 3 1,52
R = 2
= = 57%
11 − 5 3 2,67

R 2 = 1− 1− R2( ) nn −− 1k = 1 − (1 − 0,57) 33−− 12 = 14%

1-24
1.3 Teorema de Frisch-Waugh-Lovell

Suponha que nosso modelo contenha pelo menos 2


regressores (e, para facilitar, não inclua constante).

Podemos então dividir os regressores em 2 conjuntos


de variáveis, que denominaremos X1 e X2 e
correspondem a partições da matriz X.

Por exemplo, se X contivesse 4 regressores,


poderíamos agrupá-los em dois grupos de dois:

 X 11 X 21 X 31 X 41 
X= : : : : 
 
 X 1n X 2n X 3n X 4 n 

X1 X2

Para facilitar o raciocínio, pense inicialmente no caso


de apenas dois regressores, quando X1 e X2 são,
portanto, vetores. Lembre, porém, que os resultados a
seguir valem para o caso de k regressores.

1-25
Já sabemos como estimar por MQO os coeficientes b1
e b2 da regressão de y em X1 e X2. O Teorema de
Frisch-Waugh-Lovell nos fornece uma forma
alternativa de fazer isso, que tem uma interpretação
muito interessante.

Segundo o teorema, o vetor b2 obtido da regressão de


y sobre X1 e X2 é idêntico ao obtido através do
seguinte procedimento:

(1) Regressão de y sobre X1; forma o vetor de


resíduos y*;

(2) Regressão de X2 sobre X1; forma o vetor de


resíduos X2*;

(3) Regressão de y* sobre X2*.

[resultado análogo vale para b1]

1-26
Tal resultado significa que o vetor de coeficientes de
um regressor num modelo de regressão múltipla pode
ser obtido de duas formas alternativas:

• regredindo todas as variáveis sobre algum outro


regressor (p.ex., “tempo”), e usando os resíduos
dessas regressões em nova regressão;

• usando os regressores na forma original, incluindo


explicitamente o outro regressor (“tempo”) no
modelo a ser estimado

Em outras palavras, os coeficientes estimados num


modelo de regressão múltipla correspondem ao efeito
de cada regressor sobre a variável dependente,
“líquido” dos efeitos dos demais regressores.

Para uma apresentação mais detalhada desse


resultado e algumas aplicações, ver os Apêndices 1.C
e 1.D.

1-27
1.4 Distribuição do Estimador de MQO

Sabemos que a distribuição normal é preservada após


uma transformação linear; se Z tem uma distribuição
normal:

Z ~ N(µ,σ2)

então

aZ + c ~ N(aµ + c, a2σ2)

Para o caso de um vetor z:

z ~ N(µ, Σ)

Az + c ~ N(Aµ + c, AΣA’)

Usaremos esse resultado, nas próximas páginas, para


derivar a distribuição do estimador de MQO, o vetor b.

1-28
Primeiro, adotemos a hipótese de normalidade dos
distúrbios:
2
u ~ N(0, σ I )

Segundo, note que b é uma transformação linear de u:

b = (X' X)−1 X' y


= (X' X)−1 X'(Xβ + u)
= (X' X)−1 X' Xβ + (X' X)−1 X'u (1.16)
= β + (X' X)−1 X'u

Logo, usando o resultado anterior com


z=u
µ=0
Σ = σ 2I
A = (X' X)−1 X'
c=β

obtemos

b ~ N(β , σ 2 ( X' X) −1 ) (1.17)

1-29
Esta é uma distribuição normal multivariada; para cada
elemento,

bk ~ N( β k ,σ 2 ( X' X) −kk1 )

onde ( X' X) −kk1 é o k-ésimo elemento na diagonal da


matriz ( X' X) −1 .

Podemos, então, testar hipóteses sobre β usando a


distribuição normal. (Essa é a relevância da hipótese
de normalidade dos distúrbios!)

Observações importantes:

1. MQO é não-viesado

Pode ser visto diretamente de (1.17). Alternativamente:

E (b) = E[β + (X' X)−1 X'u]


= β + (X' X)−1 X' E (u) (1.18)

2. MQO é o melhor estimador linear não-viesado


(“BLUE”)

Ver Apêndice 1.E.

1-30
1.4.1 Estimação de σ 2

Ainda há um problema para a realização de testes de


hipótese sobre os parâmetros do modelo, pois a
variância do estimador de MQO depende do parâmetro
desconhecido σ 2 (variância dos distúrbios u).
2
Precisamos, então, de um estimador de σ . No
Apêndice 1.F, mostramos que um estimador não
enviesado é
e' e
s2 = (1.19)
n−k

de modo que a matriz de variância-covariância


estimada de b é

Var (b) = s 2 ( X' X) −1

1-31
1.5 Teste de hipóteses lineares

Dado o modelo

y = Xβ + u

podemos estar interessados em testar várias hipóteses


sobre os parâmetros β1 , β 2 ,..., β k . Por exemplo:

(i) H0 : β2 = 0
(ii) H 0 : β 2 = −1
(iii) H 0 : β 2 + β 3 = 1
(iv) H 0 : β 2 = β 4 ou H 0 : β 2 − β 4 = 0
(v) H 0 : β 2 = β 3 = ... = β k = 0
(vi) H 0 : β 2 = β 3 = 0

Qualquer uma dessas hipóteses pode ser rescrita


matricialmente através do formato geral

Rβ = r (1.20)

onde R é uma matriz (q x k), q<k, e r é um vetor (q x 1)


de constantes conhecidas.

A matriz R essencialmente “codifica” as hipóteses a


serem testadas. Cada linha dela corresponde a uma

1-32
restrição linear sobre o vetor β . Logo, q é o número de
restrições a serem testadas.

Para os exemplos acima, teríamos as seguintes


representações em termos de R e r:

(i) H0 : β2 = 0
 β1 
β 
 2
[0 1 0 .. 0] β 3  = 0
 
 : 
 β k 
R β = r
1xk kx1 1x1

(ii) H 0 : β 2 = −1
 β1 
β 
 2
[0 1 0 .. 0] β 3  = −1
 
 : 
 β k 

1-33
(iii) H 0 : β 2 + β 3 = 1
 β1 
β 
 2
[0 1 1 0 .. 0] β 3  = 1
 
 : 
 β k 

(iv) H 0 : β 2 − β 3 = 0
 β1 
β 
 2
[0 1 − 1 0 .. 0] β 3  = 0
 
 : 
 β k 

(v) H 0 : β 2 = β 3 = ... = β k = 0

0 1 0 0 .. 0  β 1  0
0 0 1 0 .. 0  β 2  0
    
0 0 0 1 .. 0  β 3  = 0
    
: : : : . :  :   : 
0 0 0 0 .. 1  β k  0
R β = r
(k-1) x k kx1 (k-1) x 1

1-34
(vi) H 0 : β 2 = β 3 = 0
 β1 
β 
0 1 0 0 .. 0   0
2

0 0 1 0 .. 0  β 3  = 0
    
 : 
 β k 

Ou seja: um conjunto qualquer de hipóteses lineares é


substituído por uma única hipótese matricial:

H 0 : Rβ − r = 0 (1.21)

Em outras palavras, qualquer conjunto de hipóteses


sobre os parâmetros do modelo econométrico é
substituído por uma pergunta ao mesmo tempo mais
simples e mais abstrata: “O vetor (Rβ – r) tem um
comprimento maior do que zero?”

Chegar à conclusão de que esse comprimento é nulo


significa aceitar o conjunto das hipóteses codificadas
em R e r. Por outro lado, a conclusão de que o
comprimento é maior do zero corresponde à rejeição
de uma ou mais das hipóteses conjuntas originais.

1-35
Se o vetor β é irremediavelmente desconhecido, o
vetor (Rβ - r) também o é. Por isso, testamos a
hipótese nula através do estimador de MQO. Dado o
estimador b, podemos computar o vetor (Rb - r).

Geometria do teste de hipóteses:

Espaço
vetorial de
dimensão q
(Rb – r) (número de
hipóteses a
(Rβ - r) se testar).

Vetor conhecido, mas Vetor desconhecido,


aleatório. Flutua ao mas fixo. Queremos
redor do ponto fixo e testar a hipótese de
desconhecido (Rβ β - r) que seu comprimento
é igual a zero

Quanto mais longe o vetor (Rb - r) estiver de 0, menos


provável é que o vetor (Rβ - r) seja igual a zero. Logo,
tenderemos a rejeitar a hipótese nula.

Como em qualquer teste de hipótese, a questão crucial


é se o desvio de (Rb - r) em relação a 0 pode ser
atribuído a erro de amostragem, ou se é realmente
significativo.

1-36
Para testar H0, investigaremos a distribuição do
quadrado do comprimento de (Rb – r), sob H0.

Lembrando que esse vetor nada mais é do que uma


transformação linear do vetor aleatório bem conhecido
nosso b, cuja distribuição é:

b ~ N(β , σ 2 ( X' X) −1 ),

segue:

E (Rb − r) = Rβ − r = zero (sob a hipótese nula)

Var (Rb − r ) =

Var (Rb) = E[(Rb − Rβ)(Rb − Rβ)' ]

= E[R(b − β)(b − β)' R ' ]

= RVar (b)R'

= σ 2 R ( X' X)−1 R'

E finalmente,

(Rb - r) ~ N( 0, σ 2 R(X' X)−1 R' ) (1.22)

1-37
Se então (Rb – r) é uma normal multivariada com
média 0, o seu comprimento ao quadrado, dado por

(Rb – r)’(Rb – r)

será uma soma de quadrados de v.a. normais. É uma


variável aleatória não tabelada, mas com um forte
“parentesco” com uma v.a. qui-quadrado. Como torná-
la uma qui-quadrado, com valores críticos conhecidos?

Pode-se mostrar (Johnston e Dinardo, Apêndice B),


que, se o vetor z (qx1) tem distribuição

z ~ N( 0,Σ )

então

z’ Σ −1 z ~ χ 2 (q )

Logo, a partir da distribuição amostral (1.22),


chegamos a uma v.a. tabelada, sobre a qual
poderíamos realizar testes de hipóteses:

(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) ~ χ 2 (q ) (1.23)

 Essa expressão deve ser entendida como o


quadrado do comprimento “padronizado” do vetor
(Rb – r), ou seja, medido em desvios padrões.

1-38
Infelizmente, não podemos parar aqui. A equação
(1.23) não pode ser usada na prática devido à
presença do parâmetro desconhecido σ 2 .

Mas pode-se mostrar (Johnston e Dinardo, Ap.B), que

e' e
2
~ χ 2 (n − k ) (1.24)
σ

e que tal estatística é distribuída independentemente


de b.

Além disso, sabemos que a razão entre duas variáveis


qui-quadrado independentes, divididas pelos
respectivos graus de liberdade n1 e n2, gera uma
variável com distribuição F(n1,n2).

Logo, podemos construir a estatística

(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) q


~ F(q,n-k)
(e' e σ 2 ) (n − k )

(Rb − r)'[R(X' X)−1 R' ]−1 (Rb − r) q


~ F(q,n-k) (1.25)
(e' e) (n − k )

1-39
Usando a definição de s2,

(Rb − r)'[ s 2 R(X' X)− 1 R' ]−1 (Rb − r) q ~ F(q,n-k) (1.26)

A estatística (1.26) pode, assim, ser usada para testar


hipóteses lineares sobre o vetor β . Valores elevados
da estatística apontam para a rejeição de H0.

Note que a raiz quadrada de uma variável F(1,n) é


uma variável t(n).

Logo, no caso de uma única restrição (q=1), a raiz


quadrada da estatística-F (1.26) equivale a uma
estatística-t.

Ex:

(i) H0 : β2 = 0

Rb − r = b2
s 2 R(X' X)−1 R' = Var (b2 )

b22
~ F (1, n - k)
Var (b2 )

b2
~ t (n - k)
d . p.(b2 )

1-40
(ii) H 0 : β 2 + β 3 = 1

Rb − r = b2 + b3 − 1

s 2 R(X' X)−1 R' =


0 
 c11 c21 c31 .. ck1   
c12 1
c22 c32 .. ck 2   
  1
= s 2 [0 1 1 0 .. 0]c13 c23 c33 .. ck 3   
0
 : : : . :  
:
c1k c2 k c3 k .. ckk   
0 
= s 2 (c22 + c23 + c32 + c33 )
= s 2 (c22 + 2c23 + c33 )
= var (b2 ) + 2 cov(b2 , b3 ) + var(b3 )
= var (b2 + b3 )

(b2 + b3 − 1) 2
var(b2 + b3 ) ~ F(1, n - k)

(b2 + b3 − 1)
var(b2 + b3 ) ~ t (n - k)

1-41
(v) H 0 : β 2 = β 3 = ... = β k = 0

b2 
b 
Rb − r =  3  = b 2
:
 
bk 

s 2 R(X' X)−1 R' =


0 0 .. 0
0 1 0 .. 0  c11 c21 .. ck1  
1 0 .. 0
0 0 1 .. 0 c12 c22 .. ck 2   
=s 2   0 1 .. 0
: : : . :  : : . :  
   : : . :
0 0 0 .. 1 c1k c2 k .. ckk  
0 0 .. 1
 c22 .. ck 2 
= s2  : . :  = s 2C
 
c2 k .. ckk 

A estatística de teste é, então,

F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.27)

Mas, conforme mostra o Apêndice 1.G, tal estatística


pode ser rescrita da seguinte forma:

R 2 (k − 1)
F= ~ F(k - 1, n - k) (1.28)
(1 − R 2 ) (n − k )

1-42
1.6 O Estimador de Mínimos Quadrados Restrito

De acordo com a abordagem acima, os testes de


hipóteses seguem os seguintes passos:

1. Estimam-se os parâmetors;

2. Verifica-se se tais estimativas estão muito longe de


satisfazer determinadas restrições.

Mas pode-se proceder de forma alternativa:

1. Impõem-se as restrições diretamente, estimando-


se uma regressão restrita;

2. Estima-se a regressão irrestrita usual;

3. Comparam-se os resultados das regressões


restrita e irrestrita, de modo a verificar se a perda
de ajuste ocasionada pela imposição das restrições
deve-se a amostragem ou realmente indica que as
restrições não são válidas.

As duas abordagens são equivalentes. A opção por


uma ou outra dependerá da situação:
• para testar uma única restrição ou a “significância
global” da regressão, a primeira abordagem é
preferível;
• para testar várias restrições, a segunda
abordagem é geralmente preferível

1-43
O Apêndice 1.H mostra a derivação formal do
estimador restrito. Aqui, nos limitamos a apresentar a
fórmula a ser utilizada nas aplicações:

(e'* e* − e' e) q
F= ~ F(q, n - k) (1.29)
e' e (n − k )

ou

( R 2 − R 2* ) q
F= 2
~ F(q, n - k) (1.30)
(1 − R ) ( n − k )

Ao usar (1.30) deve-se atentar para o fato de que,


freqüentemente, as regressões restrita e irrestrita
apresentam diferentes variáveis dependentes, de
modo que os R2 são incomparáveis.

Ex.:
Para testar H 0 : β 2 = 1 no modelo

ln Y = β1 + β 2 ln L + β 3 ln K + ε

pode-se impor a restrição

ln Y = β1 + ln L + β 3 ln K + ε

e estimar o modelo restrito, usando como variável


dependente ln Y − ln L :

ln Y − ln L = β1 + β 3 ln K + ε

1-44
Aplicação:
Teste de Chow para Mudança Estrutural
[Johnston e Dinardo, 4.5]

Pergunta: Os coeficientes da regressão são


constantes ao longo de toda a amostra? Ou há
diferentes vetores de parâmetros para diferentes
subconjuntos dos dados?

• Modelo irrestrito:

 y 1   X1 0  β 1 
y  =  0 X 2  β 2 
+u
 2 

Estimador de MQO:
−1
b 1   X'1 X 1 0   X'1 y   (X'1 X 1 ) −1 X'1 y 
b  =  0    =
X'2 X 2   X'2 y  (X'2 X 2 ) −1 X'2 y 
 2 

Trata-se de MQO aplicados separadamente a cada


equação.

A soma dos quadrados dos resíduos total é:

e' e = e'1 e1 + e'2 e 2

1-45
• Modelo restrito:

H 0 :β 1 = β 2

Pode-se formular a hipótese nula através da matriz


R = [I − I ] e do vetor r = 0.

Alternativamente, pode-se impor a restrição


diretamente no modelo:

y 1   X1 
y  =  X  β + u
 2  2

Trata-se de uma única regressão por MQO, cuja SQR


denotamos por e'* e* .

A estatística de teste é, então,

(e'* e* − e' e) k
F= ~ F(k, n - 2k)
e' e ( n − 2k )

1-46
Ex.: Emprego nos EUA (E) em função de uma
constante, do deflator do PIB (D), PIB (Y), Forças
Armadas (F) e tempo (t):

E = β1 + β 2 D + β 3Y + β 4 F + β 5t

A relação entre tais variáveis mudou após a Guerra da


Coréia (terminada em 1953) ?

1947-62 1947-53 1954-62


Coeficientes
C 1,169,090 1,678,148 3,776,130
D -19.768 -161.292 -42.4647
Y 0.06439 0.0948 0.11233
F -0.01014 -0.246697 -2.57928
t -576.464 -835.193 -1914.17

SQR 4.898.596 345.212 800.244

(4,898,596 − 345,212 − 800,244) 5


F [5,6] = = 3.932
(345,212 + 800,244) (7 + 9 − 10)

Valor crítico da distribuição-F a 5%: 4.39

⇒ Não se pode rejeitar a hipótese nula de constância


paramétrica.

1-47
1.7 Problemas de especificação (Greene 8.4)

Uma das hipóteses do MCRL nos diz que o modelo


deve estar “corretamente especificado”. Isso significa,
em particular, que no modelo

y = Xβ + u

a matriz X deveria incluir todas as variáveis


explicativas relevantes e não deveria incluir nenhuma
variável supérflua.

O que aconteceria se tais condições não fossem


satisfeitas? É o que veremos a seguir.

1.7.1 Omissão de variáveis relevantes

Suponha que o modelo verdadeiro seja

y = X1β 1 + X 2β 2 + u (1.31)

mas que o modelo estimado seja o seguinte:

y = X1β 1 + u (1.32)

Ou seja, estima-se um modelo caracterizado pela


omissão de um conjunto de variáveis relevantes (X2).

1-48
O estimador de MQO de (1.32) é

b1 = (X1 ' X1 ) −1 X1 ' y


= (X1 ' X1 ) −1 X1 ' (X1β 1 + X 2β 2 + u) (1.33)
= β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 + (X1 ' X1 )−1 X1 ' u

cujo valor esperado é

E (b1 ) = β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 (1.34)

Vemos, portanto, que b1 será viesado em geral, a não


ser que tenhamos X1’X2 = 0 , isto é, que os regressores
incluídos no modelo sejam ortogonais aos regressores
omitidos.

Em outras palavras, se alguma variável relevante for


omitida do modelo, e se a correlação dessa
variável com as variáveis incluídas no modelo não
for zero, então o estimador de MQO será viesado.

Na prática, é improvável que os regressores sejam


ortogonais, de modo que, em geral, deve-se esperar
que a omissão de variáveis relevantes gere
estimativas viesadas.

1-49
O que acontece com a variância do estimador de
MQO quando omitimos variáveis relevantes?

O Apêndice 1.I mostra que a variância de b1 é menor


que a variância de b1.2 (estimador que leva em
consideração X2).

Logo, apesar de obtermos estimativas viesadas ao


omitirmos variáveis relevantes, é possível que tais
estimativas sejam “mais precisas” do que as que
teriam sido obtidas com a inclusão dessas variáveis.
(O que não é grande consolo – estamos errando com
mais precisão!!)

No entanto, há um problema adicional, relativo à


estimação de σ 2 - necessária para a realização de
testes de hipótese. Conforme o Apêndice 1.I mostra, o
estimador usual

e1' e1
s2 =
n − k1

também é viesado, não sendo possível estimar σ 2 - e,


portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .

1-50
1.7.2 Inclusão de variáveis irrelevantes

Suponha agora que o modelo verdadeiro seja

y = X1β 1 + u (1.35)

mas que o modelo estimado seja

y = X1β 1 + X 2β 2 + u
(1.36)
= Xβ + u

onde

X = [X1 X2 ]
β 
β =  1
β 2 

Nesse caso, o estimador de MQO é dado pela fórmula


usual, e não é viesado:

b = (X' X)−1 X' y


= β + (X' X)−1 X' u

β  β 
E (b) = β =  1  =  1 
β 2   0 

Da mesma forma, a variância do estimador de MQO é


dada pela fórmula usual e também não é viesada.

1-51
Tais resultados parecem indicar que a inclusão de
variáveis irrelevantes não causa nenhum problema de
estimação.

Tendo em vista que, como vimos, a omissão de


variáveis relevantes causa problemas bastante graves,
a conclusão lógica pareceria ser:

“Sempre que estivermos em dúvida com relação à


inclusão/exclusão de alguma variável no modelo a ser
estimado, é melhor optar pela sua inclusão”.

Entretanto, tal conclusão está errada!

A razão disso é simples:

Se, por um lado, estimar um modelo omitindo uma


variável relevante equivale a impor uma restrição falsa
(restrição de que o coeficiente da variável é zero), por
outro lado, estimar um modelo incluindo uma variável
irrelevante equivale a deixar de impor uma restrição
verdadeira (restrição de que o coeficiente da variável é
zero).

O custo dessa segunda situação é a perda de


precisão da estimação. Conforme visto acima, a
variância do estimador de MQO aumenta com a
inclusão de novas variáveis explicativas.

Logo, também é necessário tomar cuidado para não


incluir variáveis irrelevantes no modelo.

1-52
APÊNDICE 1.A

Derivação do estimador de MQO

Problema:

Min β̂ e' e = (y − Xβ̂ )' (y − Xβ̂ )


= y' y − β̂ ' X' y − y' Xβ̂ + β̂ ' X' Xβ̂
= y' y − 2β̂ ' X' y + β̂ ' X' Xβ̂

Condições de primeira ordem:

∂ (e' e)
= −2 X' y + 2 X' Xβ̂ = 0
∂β̂

Seja b a solução do problema. Então, b satisfaz as k


equações normais:

( X' X)b = X' y

e, se (X’X)-1 existe, pode ser encontrado a partir de:

b = ( X' X) −1 X' y

Condições de segunda ordem para um mínimo:

∂ 2 (e' e)
= 2 X' X é positiva definida
∂β̂ 2

1-53
Pergunta: A condição de segunda ordem é satisfeita?

Resposta: Sim.

Prova:

Sejam X uma matriz (n x k) de posto cheio k e d um


vetor não nulo (k x 1). Observe que:

• d'(X’X)d ≥ 0 , pois é dada pela soma dos


quadrados dos elementos do vetor Xd (n x 1)

• d'(X’X)d = 0 se e somente se Xd = 0

Mas Xd = 0 implica que as colunas de X são


linearmente dependentes, o que contradiz a hipótese
de que X tem posto cheio. Logo,

d'(X’X)d > 0 para todo d ≠ 0

⇒ X’X é positiva definida

1-54
Pergunta: (X’X)-1 existe?

Resposta: Sim.

Prova:

Uma matriz positiva definida não pode ser singular.


Suponha que (X’X) seja singular; então, existe algum
vetor d ≠ 0 que satisfaz

(X’X)d = 0 ⇒ d'(X’Xd) = 0

o que contradiz a hipótese de que X’X é positiva


definida.

⇒ X’X é não-singular

1-55
APÊNDICE 1.B

O modelo em forma de desvios

Sejam i um vetor coluna composto por 1’s, e x um


vetor de observações de uma variável. Então,

x 
1
ix =  :  = i i' x
  n
 x 
1
= ii' x
n

Podemos expressar os valores de x em forma de


desvio:

 x1 − x 
 :  = x − ix = x − 1 ii' x
  n
 n
x − x 
1
= Ix − ii' x
n
 1 
= I − ii' x
 n 
= Ax

A matriz A é uma matriz simétrica e idempotente que,


ao premultiplicar qualquer vetor x, o coloca na forma
de desvios.

1-56
Observe que

 1 1 1 1 
1 − − − .. −
n n n n 
 1 1 1 
 − 1− 1 − .. − 
 n n n n 
1 1
A= − − : : : 
 n n 
 1 
 : : : 1− 1 − 
n n 

 −1 −
1
.. −
1
1− 1 
 n n n n

Tal matriz é usada primordialmente para calcular


somas de quadrados de desvios:

∑ ( x1 − x ) 2 = (x − ix )' (x − ix )
= (Ax)' Ax
= x' A' Ax
= x' Ax

Podemos colocar o modelo

y = Xb + e

na forma de desvio, premultiplicando cada termo por A

Ay = AXb + Ae

1-57
e, então, proceder à decomposição da soma dos
quadrados:

y' Ay = b' X' AXb + e' e

SQT SQE SQR

1-58
APÊNDICE 1.C

Teorema de Frisch-Waugh-Lovell

Suponha que X possa ser particionada em 2 conjuntos


de variáveis, X1 e X2:

y = Xβ + u = X 1β 1 + X 2β 2 + u

Sejam b1 e b2 os coeficientes estimados por MQO:

y = X 1b 1 + X 2 b2 + e

Premultiplicando por M 1 = I − X 1 (X 1 ' X 1 ) −1 X 1 ' , obtemos

M 1 y = M 1 X 1b 1 + M 1 X 2 b 2 + M 1e
(1.C1)
= M 1 X 2b 2 + e

e, premultiplicando por X’2 ,

X 2 ' M 1y = X 2 ' M 1 X 2b 2 + X 2 'e


(1.C2)
= X 2 ' M 1 X 2b 2

Rearrumando,

(M 1 X 2 )' (M 1 y ) = (M 1 X 2 )' (M 1 X 2 )b 2

1-59
ou seja, o vetor b2 obtido da regressão de y sobre X =
[X1 X2] é idêntico ao obtido através do seguinte
procedimento:

(4) Regressão de y sobre X1; forma o vetor de


resíduos M1y;

(5) Regressão de X2 sobre X1; forma o vetor de


resíduos M1X2;

(6) Regressão de M1y sobre M1X2.

[resultado análogo vale para b1]

Esse resultado é conhecido como Teorema de Frisch-


Waugh-Lovell.

1-60
APÊNDICE 1.D

Aplicações do Teorema de Frisch-Waugh-Lovell

Aplicação 1: Pode-se usar esse resultado para provar


que o R2 nunca diminui ao adicionarmos novas
variáveis na regressão.

A partir de (1.C1), obtemos:

y' M 1 y = b 2 ' X 2 ' M 1 X 2 b 2 + e' e

ou

e' e = y' M 1 y − b 2 ' X 2 ' M 1 X 2 b 2

Observe que:

• y' M 1 y = (M 1 y )' (M 1 y ) é a SQR da regressão de y


sobre X1

• e’e representa a SQR da regressão de y sobre X =


[X1 X2]

• b 2 ' X 2 ' M 1 X 2b 2 ≥ 0

Logo, a SQR da regressão de y sobre X1 e X2 nunca


será superior à SQR da regressão de y sobre X1
apenas. Consequentemente, o R2 nunca será inferior.

1-61
Aplicação 2: Coeficientes de correlação parcial

Em Econometria, vê-se que o coeficiente de


correlação simples entre a variável dependente (Y) e
uma das independentes (por ex., X2) pode ser
“contaminado” pelas outras variáveis.

Por exemplo, se tanto Y quanto X2 forem


positivamente correlacionadas à X3, então um aumento
nesta última causará aumentos simultâneos nas duas
outras, inflando a correlação “natural” entre elas.

A solução é utilizar o coeficiente de correlação


parcial: r12.34...k é a correlação entre Y e X2, expurgada
qualquer influência de X3, X4 ... Xk.

Seja M* a matriz que produz o vetor de resíduos de


uma regressão contra todas as variáveis
independentes exceto X2. Então:

r12.34...k = correlação entre (M ∗ y ) e (M ∗ x 2 )

x 2 ' M ∗y
r12.34...k =
x 2 ' M ∗ x 2 y ' M ∗y

Comparando com a equação (1.C2) acima, vê-se que:

y ' M ∗y s1.34...k
b2 = r12.34...k = r12.34...k
x 2 ' M ∗x 2 s2.34...k

1-62
APÊNDICE 1.E

Teorema de Gauss-Markov

A matriz de variância-covariância de b é:

Var (b) = E[(b − β)(b − β)' ]


= E[(X' X)−1 X'uu' X(X'X)−1 ]
= (X' X)−1 X' E (uu' )X(X'X)−1
= (X' X)−1 X'σ 2 IX(X' X)−1
= σ 2 (X' X)−1

É possível encontrar algum outro estimador linear e


não-viesado que seja mais eficiente que b?

Seja b0 um estimador linear alternativo dado por

b 0 = C0 y

onde C0 é um matriz de constantes.

b0 é não-viesado se C0X = I:

E (b 0 ) = E (C 0 y) = E (C 0 Xβ + C 0 u) = C 0 Xβ

A matriz de variância-covariância de b0 é:

Var (b 0 ) = Var (C 0 y) = C 0Var (y)C 0 ' = σ 2 C 0 C 0 '

1-63
Seja

D = C 0 − C = C 0 − (X' X)−1 X'

Dado que C0X = I por hipótese, temos:

DX + (X' X)−1 X' X = I


DX + I = I
DX = 0

Logo,

Var (b 0 ) = σ 2 [(D + (X' X)−1 X' )(D + (X' X)−1 X' )' ]
= σ 2 [DX(X'X)−1 + (X' X)−1 X' X(X'X)−1 + DD'+(X' X)−1 X' D' ]
= σ 2 (X' X)−1 + σ 2 DD'
= Var (b) + σ 2 DD'

O que significa que a matriz de variância de b0 é igual


à matriz de variância de b mais uma matriz positiva
semidefinida.

⇒ MQO é o melhor estimador linear não-viesado

1-64
APÊNDICE 1.F

Estimação de σ 2

Para estimar σ 2 , partimos do vetor de resíduos e:

e = My = M(Xβ + u) = Mu

E (e' e) = E[(Mu)' Mu] = E (u' Mu)

Usando as propriedades do traço de uma matriz,

E (e' e) = E[tr (u' Mu)]


= E[tr (uu' M )]
= tr[ E (uu' M )]
= tr[ E (uu' )M ]
= tr[σ 2 IM ]
= σ 2 tr (M )
= σ 2 tr (I n − X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X' X(X' X)−1 )
= σ 2 tr (I n ) − σ 2 tr (I k )
= σ 2 (n − k )

1-65
Seja

e' e
s2 =
n−k
2
Logo, s2 é um estimador não-viesado de σ :

 e' e 
E (s 2 ) = E  =σ
2

n−k

E a matriz de variância-covariância estimada de b é

Var (b) = s 2 ( X' X) −1

1-66
APÊNDICE 1.G

Teste de H 0 : β 2 = β 3 = ... = β k = 0

A estatística de teste

F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.G1)

pode ser rescrita em função de valores mais familiares.

Note que a inversa de uma matriz particionada

A A 12 
A =  11
 A 21 A 22 

é dada por

 A 11 −1 + A 11 −1 A 12 B 22 A 21 A 11 −1
−1
−1
− A 11 A 12 B 22 
A = −1  (1.G2)
 − B 22 A 21 A 11 B 22 
−1
onde B 22 = ( A 22 − A 21 A 11 A 12 ) −1

Logo, particionando X em X = [ i X2] , temos

 i'   n i' X 2 
X' X =  ' [i X 2 ] =  ' ' 
X 2  X 2 i X 2 X 2 

e, usando o resultado (1.G2) acima,

1-67
C = (X '2 X 2 − X '2 i n −1 i' X 2 ) −1 = (X '2 AX 2 ) −1

Por conseguinte,

b '2 C −1 b 2 = b '2 X '2 AX 2 b 2 (1.G3)

que corresponde à SQE da regressão.

Usando (1.G3) e a fórmula s 2 = e' e /( n − k ) , podemos


rescrever a estatística (1.G1) como

SQE (k − 1)
F= ~ F(k - 1, n - k)
SQR (n − k )

ou

R 2 (k − 1)
F= ~ F(k - 1, n - k)
(1 − R 2 ) (n − k )

1-68
APÊNDICE 1.H

Derivação do estimador de mínimos quadrados


restrito

Formalmente, o problema é

Min b (y − Xb* )' (y − Xb* ) − 2 λ ' (Rb * − r)


*

As condições de primeira ordem são:

∂φ
= −2X' y + 2 X' Xb* − 2R'λ = 0
∂b *
∂φ
= −2(Rb * − r) = 0
∂λ

Obtemos

X' Xb* = X' y + R'λ (1.H1)

Resolvendo para b*

b * = ( X' X) −1 X' y + ( X' X) −1 R' λ


−1
(1.H2)
= b + ( X' X) R' λ

Premultiplicando por R e resolvendo para λ

Rb * = Rb + R ( X' X) −1 R' λ

1-69
λ = [R(X' X)−1 R' ]-1 (r - Rb)

Substituindo em (1.H2),

b * = b + ( X' X) −1 R' [R(X' X)−1 R' ]-1 (r - Rb) (1.H3)

Os resíduos da regressão restrita são

e* = y − Xb*
= y − Xb − X(b* − b)
= e − X(b* − b)

e a soma dos quadrados é

e'* e* = e' e + (b * − b)' X' X(b* − b)

Observe que e'* e* ≥ e' e : a SQR da regressão restrita


não pode ser menor do que a SQR da regressão
irrestrita!

Usando (1.H3),

e'* e* − e' e = (r − Rb)'[R(X' X)−1 R' ]-1 R(X' X)−1 X' X


(X' X)−1 R'[R(X' X)−1 R' ]-1 (r − Rb) (1.H4)
= (r − Rb)'[R(X' X)−1 R' ]-1 (r − Rb)

1-70
Logo, podemos rescrever a estatística do teste
H 0 : Rb = r usando (1.H4):

(e'* e* − e' e) q
F= ~ F(q, n - k) (1.H5)
e' e (n − k )

1-71
APÊNDICE 1.I

Variância do estimador de MQO com omissão de


variáveis

A variância do estimador de MQO no modelo (1.32) é


dada por

Var (b1 ) = σ 2 ( X1' X1 ) −1

Caso tivéssemos estimado o modelo verdadeiro (1.31),


a variância teria sido

Var (b1.2 ) = σ 2 ( X1' M 2 X1 ) −1

onde

M 2 = I − X 2 (X 2 ' X 2 )−1 X 2 '

Podemos comparar as duas matrizes de variância


acima olhando para a diferença entre suas inversas:

Var (b1 ) −1 − Var (b1.2 ) −1 = σ 2 X1 ' X 2 ( X 2 ' X 2 ) −1 X 2 ' X1

que é uma matriz positiva definida.

Isso significa que a inversa da variância de b1 é maior


que a inversa da variância de b1.2, ou seja, que a
variância de b1 é menor que a variância de b1.2.

1-72
Outro problema diz respeito à estimação de σ 2 -
necessária para a realização de testes de hipótese. O
estimador usual seria

e1' e1
s2 =
n − k1

Mas pode-se mostrar que tal estimador também é


viesado. De fato, note que

e1 = M 1y = M 1 (X1β 1 + X 2β 2 + u) = M 1 X 2β 2 + M 1u

de modo que, procedendo como no Apêndice 1.F,


pode-se provar que

E (e1 ' e1 ) = β 2 ' X 2 ' M 1 X 2β 2 + (n − k1 )σ 2

Logo, s2 é viesado, não sendo possível estimar σ 2 - e,


portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .

1-73
EXERCÍCIOS
1.1

Usando as definições de y e X na página 1.4, mostre que (1.10) e (1.12) são equivalentes.

1.2

No curso de Econometria, você aprendeu que o estimador de MQO dos parâmetros β1 e


β2 na regressão

Yi = β1 + β 2 X i + ui
era dado por

∑ (Yi − Y )( X i − X)
b2 =
∑ (Xi − X )2
b1 = Y − b2 X
Mostre que as fórmulas acima podem ser obtidas a partir de (1.13).

1.3

Usando os resultados da Seção 1.2, mostre que se a regressão inclui um intercepto:


• a soma (e a média) dos resíduos é zero
• a média dos valores ajustados é igual à média dos valores observados

1.4

Mostre que MX = 0, onde M = I – X(X’X)-1X’ é a matriz definida na Seção 1.2.2. Interprete


o resultado.

1.5

Sejam os três vetores coluna: v1 = (1,2,c,4,4), v2 = (-2,1,4,-6,c), v3 = (-1,c,7,-2,7), onde c é


uma constante positiva. Esses vetores representam o resultado de uma regressão de
mínimos quadrados com intercepto: um deles é um vetor de observações da variável
dependente, outro um vetor de ajustes, e outro um vetor de resíduos. O espaço coluna da
matriz X tem dimensão igual a 2. Calcule numericamente o R2 ajustado da regressão.
[DICA: Uma forma de resolver é pensar nas propriedades dos resíduos de MQO num
modelo com intercepto.]

1-74
1.6

Espaço vetorial de dimensão... .....


Na figura ao lado, o círculo pontilhado
representa, simbolicamente, um espaço
vetorial de dimensão qualquer. Imerso
nele há um subespaço de dimensão
menor qualquer, simbolizado pelo plano.
O triângulo retângulo formado por três
vetores, apoiado nesse plano, tem um
significado crucial em Econometria.
Explique esse significado, mencionando:
a
c (a) O que determina as dimensões do
espaço vetorial e do subespaço
b vetorial.
(b) Que vetores geram o subespaço.
(c) O que representam os três vetores a,
b b e c que formam o triângulo.
(d) Por que é um triângulo retângulo.
Subspaço vetorial de dimensão.. ....
(e) Qual a expressão da matriz que
transforma linearmente o vetor a no
vetor b. E no vetor c.
(f) Qual a relação entre o R2 de uma
regressão e o Teorema de Pitágoras
aplicado a esse triângulo retângulo.

1.7

Considere as seguintes informações:

1  b 1 c 
y 1 = 1  y 2 = 1 X = 0 d  e1 = 0 e2 = y2
a  1 0 e 

onde: e1 = vetor de resíduos da regressão de y1 em X


e2 = vetor de resíduos da regressão de y2 em X
a, b, c, d, e = parâmetros desconhecidos.

(a) Quais são os valores dos parâmetros a e b? (1,5 pontos)

(b) Os parâmetros c, d, e podem ser unicamente determinados a partir das informações


acima? Por quê? (0,5 ponto)

(c) Caso a resposta ao item anterior seja positiva, encontre a solução única. Caso a
resposta seja negativa, apresente uma possível solução. (0,5 ponto)

1-75
1.8

Um economista deseja verificar se a taxa de crescimento econômico de um país é afetada


pelo “nível de liberdades individuais” e pelo “grau de corrupção” do país através da
seguinte regressão (contendo um termo constante):

Yi = β1 + β 2 Li + β 3Ci + ui

onde Y é a taxa de crescimento do PIB, L o nível de liberdades individuais e C o grau de


corrupção do país i. A variável L pode assumir os valores 1 (nível elevado de liberdades),
0 (nível médio de liberdades) ou –1 (nível baixo de liberdades). Similarmente, a variável C
pode assumir os valores 1 (baixo grau de corrupção), 0 (grau de corrupção médio) ou –1
(elevado grau de corrupção).

Para uma amostra de 10 países, observados ao longo de 1999, o economista obtém os


seguintes dados:

País Y L C
Dinamarca 6 1 1
México 2 1 -1
Chile 3 0 1
Colômbia -1 0 -1
Rússia 2 0 0
Argentina 2 0 0
Brasil 1 0 0
Grécia 1 0 0
Egito 0 -1 0
Indonésia 0 -1 0

Infelizmente, o economista não pode rodar a regressão, pois seu computador contraiu um
vírus que apagou todo o HD (inclusive o Eviews...). O economista precisa entregar a seu
superior um relatório com os resultados da regressão; entretanto, como ele não teve aula
de TPE, não sabe como realizar os cálculos manualmente. Você certamente poderá
ajudá-lo!

(a) Usando seus conhecimentos de álgebra linear, escreva as equações normais e


calcule o vetor de coeficientes de MQO. Interprete os coeficientes estimados.
(b) Calcule as variâncias dos coeficientes estimados. Tais coeficientes são
estatisticamente significativos (a 10%)?
(c) Calcule o R2 da regressão.

Suponha que, após você ter terminado seus cálculos, o economista consiga recuperar
seu HD e decida conferir suas respostas usando o Eviews.

(d) Mostre os resultados da regressão acima realizada no Eviews. Compare os resultados


com aqueles obtidos nos itens (a)-(c); os resultados deveriam ser idênticos (se não forem,
é sinal de que você cometeu algum erro!)

1-76
1.9

Em certo país, com o objetivo de testar algumas hipóteses sobre os determinantes dos
gastos dos municípios em educação e saúde, estima-se por MQO uma regressão dos
gastos municipais (G) em função de uma constante (C), das receitas tributárias do
município (R) e de uma variável dummy (D) que assume valor 1 se o município é
governado por um partido “de esquerda”, e zero em caso contrário. Sabemos que:
• O vetor de coeficientes estimados para C,R,D é b’=[ -0.7527, 0.4753, 2.3764 ]
• O número de municípios com governo de esquerda é 10
• A soma das receitas de todos os municípios é 200, sendo que os municípios de
esquerda têm 25% desse total
• A soma dos quadrados das receitas de todos os municípios é 2114
• A soma dos gastos de todos os municípios é 100
• A soma dos quadrados dos gastos de todos os municípios é 504
• Os valores na diagonal da matriz inversa de X’X são [0.338, 0.00267, 0.2329]

Responda:

a) Quanto foi gasto pelos municípios de esquerda em saúde/educação?


b) Calcule as variâncias dos coeficientes estimados e o R2 da regressão.
c) Teste, ao nível de 5%, a hipótese de que os partidos de esquerda não gastam mais
em saúde/educação relativamente aos demais.

1.10

Suponha um modelo econométrico para explicar o consumo (C) de famílias de uma


mesma região através de três variáveis: renda (R), poupança total (P) e posse do imóvel
em que habita (D). As variáveis C, R e P são medidas em reais. A variável D é uma
dummy que assume valor 1 se a família é dona do imóvel em que habita, e zero caso
contrário. A FRP é:

Ci = β1 + β 2 Ri + β 3 Pi + β 4 Di + ui

Um economista estimou esse modelo para uma amostra de 14 famílias, obtendo:

1  1 0 0 0
 2 −1
0 2 0 0 1
b=  (X ' X ) =  s2 =
1  0 0 1 0 3
4 0 0 0 3

Teste conjuntamente as hipóteses: (1) não há diferença entre os efeitos da renda e da


poupança sobre o consumo, e (2) o fato de a família ser dona do imóvel em que habita
não influencia em nada o consumo. O Conjunto das hipóteses é rejeitado ou não?
Interprete o resultado.

1-77
1.11

A teoria econômica sugere que o grau de independência da política monetária de um país


depende do regime cambial adotado: sob um regime de câmbio fixo e mobilidade de
capitais, a taxa de juros doméstica estaria atrelada à taxa de juros externa, enquanto que
num regime de câmbio flutuante as autoridade monetárias teriam liberdade para
determinar a taxa de juros doméstica. Entretanto, alguns autores afirmam que mesmo em
países com regimes flexíveis a política monetária não é independente, pois fatores como
credibilidade, repasse (“pass-through”) do câmbio à inflação e passivos em moeda
estrangeira impedem que as autoridades deixem o câmbio flutuar livremente – ou seja,
que adotem políticas monetárias independentes.

Com o objetivo de testar se a adoção de um regime flutuante realmente permite políticas


monetárias independentes, um economista estimou, para um conjunto de países, a
seguinte regressão:

i D = β1 + β 2i* + ε

onde iD = taxa de juros doméstica; i* = taxa de juros externa

A regressão foi estimada para a amostra completa de países e para duas subamostras,
classificadas de acordo com o tipo de regime cambial adotado pelos países: (1) câmbio
fixo; (2) câmbio flexível. As matrizes relevantes, em cada subamostra, são:

(1) Câmbio fixo

10 60   60 
X1' X1 =   X1' y1 =   y1' y1 = 490
60 420 420

(2) Câmbio flexível

10 60   60 
X2 ' X2 =   X2'y 2 =   y 2 ' y 2 = 430
60 420 390

a) Calcule o vetor de coeficientes de MQO e o R2 para a amostra inteira e para cada


subamostra. Os valores dos coeficientes estimados estão de acordo com a teoria
“convencional”?
b) Teste, ao nível de 5%, a igualdade dos coeficientes entre as duas subamostras.
Interprete o resultado.

1-78
1.12

Os dados abaixo referem-se a um modelo de regressão linear estimado:

 − 1 0,05 0,1 0 
b = − 2 =  0,1 0,4 0 
−1
e' e = 74 (X' X )
 3  0 0 0,5

O modelo (com intercepto) explica as importações de um país em função da taxa de


câmbio real (x2) e um índice de produção física industrial (x3). Teste, ao nível de
significância de 1%, a hipótese conjunta de que β 1 = 0 e β 2 = − β 3 .

1.13

Com o objetivo de analisar a relação entre os lucros dos bancos e o volume de


empréstimos concedidos, o economista A pretende estimar a seguinte regressão:

Li = β1 + β 2 Ei + ui
onde Li é o lucro por cliente do banco i, Ei é o volume de empréstimos do banco e ui é um
distúrbio aleatório.

Entretanto, segundo o economista B, não seria correto estimar tal regressão para a
amostra total de bancos, pois bancos com diferentes tamanhos devem apresentar
desempenhos muito diferentes – e, portanto, os parâmetros não podem ser considerados
constantes ao longo da amostra. O mais correto, segundo ele, seria estimar regressões
diferentes para bancos com tamanhos diferentes.

Suponha que seja possível dividir a amostra em duas partes, a primeira correspondente
aos bancos de pequeno porte e a segunda aos bancos de grande porte, cujas
observações geram as seguintes matrizes:

10 10 10 


X1' X1 =   X1' y1 =   y1 ' y1 = 3210
10 11 50

10 10  10 
X2 ' X2 =   X2 'y 2 =   y 2 'y 2 = a
10 11 100
onde X inclui um intercepto.

a) Calcule o vetor de coeficientes de MQO para a amostra inteira e para cada uma
das subamostras. Interprete os resultados.
b) Calcule a soma dos quadrados dos resíduos para cada subamostra. Qual é o
intervalo de valores possíveis para a?

1-79
c) Para quais valores de a poderíamos dizer, com 95% de confiança, que o
procedimento sugerido pelo economista B é realmente mais correto?

1.14

Um economista deseja estimar a seguinte relação para um conjunto de países:

Yi = β 1 + β 2 J i + β 3 Pi + u i , u i ~ N (0, σ 2 ) (1)

onde, para cada país i, Yi é a taxa de crescimento do PIB, Ji é a taxa de juros nominal e Pi
é a taxa de inflação.

Ele dispõe dos seguintes dados:

100 0 0 100
X' X =  0 10 0 X' y = - 15 y' y = 220,5
 0 0 1  1 

onde y é o vetor de observações da variável dependente e X a matriz de observações das


variáveis explicativas.

(a) Calcule os coeficientes estimados por MQO. [0,5 ponto]

(b) Segundo outro economista, a taxa de crescimento do PIB deveria depender


exclusivamente da taxa de juros real, de modo que uma equação mais apropriada
seria:
Yi = δ1 JRi + u (2)

onde JR = J – P é a taxa de juros real “ex-post”. Com base nas informações


disponíveis, teste ao nível de 5% a validade dessa especificação vis-à-vis a equação
(1). [1 ponto]

(c) Se nós dispuséssemos de informações adicionais, seríamos capazes de realizar o


teste do item anterior através de um método alternativo. Descreva esse método
alternativo, explicitando as informações requeridas para a sua realização. [0,5 ponto]

(d) Um terceiro economista, tentando conciliar as idéias dos outros dois, sugere estimar
por MQO uma equação contendo simultaneamente as variáveis nominais e reais, isto
é:
Yi = β1 + β 2 J i + β 3 Pi + β 4 JRi + ui (3)

Esse procedimento apresenta algum problema? Responda fazendo referência às


propriedades da matriz X de variáveis explicativas. [0,5 ponto]

1-80

Você também pode gostar