Apostila de Econometria PDF

Métodos Quantitativos II
Mestrado em Economia Aplicada

Faculdade de Economia e Administração
Prof. Rogério Silva de Mattos
ECONOMETRIA CLÁSSICA
Notas de Aula
1. INTRODUÇÃO
1.1 OBJETIVOS
Modelos econométricos
Mensuração
Verificação de teorias
Previsão
1.2 VISÕES DA ECONOMETRIA
Escola Clássica
Escola Inglesa
1.3 VISÃO ESTATÍSTICA
Modelo Populacional ↔ Modelo Gerador dos Dados (MGD)

Modelo Probabilístico ↔ Modelo Gerador dos Dados (MGD)
2. MODELO DE REGRESSÃO MÚLTIPLA
2.1 MODELO LINEAR GAUSSIANO (versão básica)
MGD: Yi b1 b2 X 2i  bk X ki i
Y variável dependente;
X 2 ,, X k variáveis independentes ou explicativas;
E (Yi )
bj ou coeficiente de sensibilidade de Y em relação à Xj;
Xj
E (Yi ) b1 b2 X 2i  bk X ki é a média de Y e representa um hiperplano
que corta o espaço euclidiano Rk;
Hipóteses Básicas
1. Y é uma função linear de X 2 , , X k ;

2. X 2 , , X k são variáveis não-estocásticas;
3. Cada X j não é uma função linear das demais X s ,
j s, j, s 1,, k; ;
4. E ( i ) 0 ;
2
5. Var ( i ) e E ( i j ) 0; i j, i, j 1,n; ;
2 2
6. i ~ N (0, ) Yi ~ N ( E (Yi ), ).
Observações
Modelo linear vem da área de planejamento de experimentos, daí a

hipótese 2 que diz que cada Xj não é variável aleatória;
Hipótese 3, implica que cada X j não é combinação linear das
demais variáveis explicativas;
Hipóteses 4, 5, e 6 dizem respeito ao termo de erro aleatório i , que
apresenta as seguintes características:
média nula (hip. 4);
homocedástico, pois possui variância constante (hip. 5);
não autocorrelacionado com os demais j (hip. 5);
distribuição normal (hip. 6), logo Yi também é normal com média
E (Yi ) e variância 2 ;
2.2 REPRESENTAÇÃO MATRICIAL
Assumindo n observações para Y, X2,...,Xk
MGD: Y Xb
onde:
Y1 1 X 21  X k1 b1 1
Y  X     b  
n 1 n k k 1 n 1
Yn 1 X 2 n  X kn bk n
E(Y ) Xb .
Hipóteses Básicas Re-escritas
1. Vetor Y é função linear dos vetores colunas da matriz X;

2. X é uma matriz não-estocástica;
3. X possui posto completo igual a k;
4. E( ) 0 , onde 0 é um vetor n×1 de elementos nulos;
2
5. Var ( ) E ( ) I , onde I é uma matriz identidade n×n;
6. ~ MN (0, I )2
Y ~ MN ( Xb, 2 I ) ;
Observações
As hipóteses correspondem às anteriores para a versão não-

matricial;
Hipótese 3 implica que cada coluna de X não é uma combinação
linear exata das k-1 colunas restantes;
Hipóteses 4-6 dizem respeito ao vetor de erros aleatórios ;
Hipótese 6 diz que vetor segue uma distribuição normal
multivariada com vetor de médias 0 e matriz de variância-
covariância 2 I ;
Hipótese 6 também diz que vetor Y segue uma distribuição
normal multivariada com vetor de médias Xb e matriz de
variância-covariância 2 I ;
2.3 ESTIMADOR DE MÍNIMOS QUADRADOS ORDINÁRIOS
Conceitos
Modelo Amostral: Yi bˆ1 bˆ2 X 2i bˆk X ki î
Preditor Linear: Yî bˆ1 bˆ2 X 2i bˆk X ki
î Yi Yî
Resíduo:
Y bˆ
i 1 bˆ2 X 2i  bˆk X ki
Representação Matricial
Modelo Amostral: Y Xb̂ ˆ
Preditor Linear: Yˆ Xbˆ
Resíduo: ˆ Y Yˆ Y Xbˆ
Yˆ1 bˆ1 ˆ1
onde: Yˆ  bˆ  ˆ 
n 1 k 1 n 1
ˆ
Yn ˆ
bk ˆn
Problema: A partir de n observações amostrais, achar estimadores bˆ1 ,, bˆk

de boa qualidade para b1 ,, bk ;
n
Solução: Minimizar a soma dos quadrados dos resíduos î para b̂ , ou
i 1
seja, minimizar ˆ ˆ para b̂ . Assim, encontra-se o estimador de mínimos

quadrados ordinários (EMQO):
bˆ ( X X ) 1 X Y
Prova
Como se tem de minimizar uma função de b̂ , usa-se as regras de

determinação de valores mínimos de funções diferenciáveis de várias
variáveis. Ou seja, acha-se as derivadas parciais da função, iguala-se estas
a zero e resolve-se o sistema resultante. Os passos são os seguintes:
ˆ ˆ bˆ X )(Y Xbˆ) bˆ X Y
1. ˆ ˆ (Y Xb) (Y Xb) (Y YY YXb b X Xb
YY 2b X Y b X Xb
ˆˆ
2. Condição de 1ª. Ordem: 2X Y 2 X Xbˆ 0
bˆ
3. bˆ ( X X ) 1 X Y EMQO para b.
2
ˆˆ
4. Condição de 2ª. Ordem: 2( X X ) definida positiva*
( bˆ) 2 k k
* Como X tem posto k, segue que a matriz quadrada X’X de ordem k×k também
apresenta posto k e, logo, é não singular. Sendo não singular, possui inversa. Além
disso, X’X é definida positiva ( z X Xz 0, z 0 ; veja-se, por exemplo, JD, 1988:
p. 484). Logo, b̂ é ponto de mínimo absoluto para ˆ ˆ .
Nota: Derivação Vetorial
Seja a um vetor k 1 de constantes, A uma matriz k k de constantes e

b um vetor k 1 de variáveis. Então:
( a b) (b a)
a
b b
(b Ab)
2 Ab
b
Exemplo: Vendas trimestrais de automóveis nos EUA (1959.I-1988.I).
MGD: St b1 b2YPt b3 Rt b4 CPI t t
onde:
S = consumo pessoal de automóveis novos em US$ bilhões;

YP = renda pessoal em US$ bilhões;
R = taxa de juros trimestral (de título do Tesouro Americano);
CPI = índice de preços ao consumidor para novos carros (1983=100)
Modelo Empírico: Sˆt 35,7 0,0391YPt 1,586Rt 0,654CPI t

2.4 MÉDIA E VARIÂNCIA DOS EMQO
Resultado (R1): bˆ b ( X X ) 1 X
Prova:
bˆ (X X ) 1 X Y( X X ) 1 X ( Xb ) b (X X ) 1 X .
Do que segue que bˆ b ( X X ) 1 X .
Média
Viés(bˆ) E (bˆ b) E (X X ) 1 X ( X X ) 1 X E( ) 0;
E (bˆ) b .
Variância
R2: Var (bˆ) 2

(X X ) 1
Prova
Var (bˆ) E[( X X ) 1 X X ( X X ) 1]

( X X ) 1 X E( )X (X X ) 1
(X X ) 1 X ( 2
I)X (X X ) 1
2 1
(X X )
2.5 PROPRIEDADES DOS EMQO
Eficiência
Eficiência Restrita: dadas as hipóteses 1-5, o EMQO é o mais

eficiente (não enviesado e com variância mínima) dentro da
classe dos estimadores lineares de b; ou seja, o EMQO é o
Melhor Estimador Linear Não Enviesado (MELNE) de b.
~
Nota: Um estimador linear é aquele que pode ser escrito como b MY , onde M é
uma matriz k n.
Prova (Teorema de Gauss Markov):
A prova só usa hipóteses 1-5. Sejam A (X X ) 1 X e C matrizes,

ambas de ordem k n. Por R1, b̂ b A , e por R2, Var(bˆ) 2 AA .
~
Seja também b ( A C )Y um estimador linear alternativo de b.
~
Então, pode-se escrever b ( A C)( Xb ) ( A C ) Xb ( A C ) . Para
~
b ser não enviesado, ele tem de satisfazer:
~
AXb CXb b CXb ( I CX )b b .
E(b )
~
Logo, é preciso que CX 0 . Supondo CX 0 , então (b b) ( A C )
~ ~ ~
de modo que Var(b ) E[(b b)(b b) ] pode ser desenvolvida como:
~
Var (b ) E[( A C ) ( A C )' ] ( A C ) E ( )( A C )
2
( A C )( A C )
Mas,
( A C )( A C ) AA CA AC CC
1 1
(X X ) CX ( X X ) (X X ) 1 X C CC
1
(X X ) CC
Pois CX X 'C ' 0 . Então:
~
Var (b ) 2
[( X X ) 1
CC ] Var (bˆ) 2
CC
Nota: Resultados de álgebra matricial garantem que CC é semidefinida positiva. Será

~
CC 0 somente quando C = 0. Mas, neste caso b bˆ ; logo, não pode haver outro
estimador linear, diferente do EMQO, que seja mais eficiente (não-enviesado e com
variância mínima).
Eficiência Irrestrita: Quando vale também a hipótese 6 (erros
normalmente distribuídos), o EMQO é o mais eficiente dentre todos
os estimadores (lineares e não-lineares). A prova envolve mostrar
que no caso de normalidade dos erros o EMQO é equivalente ao
Estimador de Máxima Verossimilhança (EMV).
Consistência
EMQO é consistente para b, ou seja, p lim(bˆ) b ;
Prova: Dadas as hipóteses 1-5 e R1, segue que:
p lim(bˆ) p lim(b ( X X ) 1 X )
b p lim[( X X ) 1 X ]
1
XX X
b p lim
n n
1
X'X X
b p lim
n n
Dado que X é não estocástica (hip. 2), segue que:
X
p lim E( X ) X E( ) 0
n k 1
Logo:
p lim(bˆ) b
Normalidade Assintótica (Propriedade MUITO IMPORTANTE!)
Quando n , (bˆ j b j ) / bˆ j
N (0,1) ;
Ou seja, em amostras grandes, podemos aproximar a distribuição
de b̂ j como uma normal, isto é: para n grande, bˆ j ~ N (b j , b2ˆj ) ;
Logo, se a amostra é grande, não precisamos da hipótese 6.
Qualquer que seja a distribuição de i , podemos aplicar a teoria da
normal para o EMQO e os procedimentos de testes de hipótese;
2.6 QUALIDADE DO AJUSTAMENTO
Como avaliar se o modelo está aderindo bem aos dados ou não?

Estatísticas descritivas: R 2 , R 2 , Critério de Informação de Akaike (AIC)
e Critério de Schwarz (SC)
R2
Mede o grau de ajustamento do modelo aos dados;
Yi Y = Yi Yî + Yî Y
Desvio Desvio Não- Desvio
Total explicado Explicado
Elevando ao quadrado e agregando para todas as observações:
n
= n
+ n
(Yi Y ) 2 (Yi Yî ) 2 (Yî Y ) 2
i 1 i 1 i 1
Variação Variação Variação

Total Não- Explicada
explicada
Matricialmente: y y ˆˆ yˆ yˆ
onde: y Y Y yˆ Yˆ Y ˆ Y Yˆ
n 1 n 1 n 1
Grau de ajustamento
yˆ yˆ ˆˆ
R2 ou R2 1
yy yy
Propriedades
R2 [0,1] ;
Bom ajustamento R 2 1 ; Fraco ajustamento R2 0 ;
R 2 tende a aumentar sempre com novas variáveis explicativas;
R 2 nunca diminui com novas variáveis explicativas
R 2 ou R 2 - ajustado
Corrige limitação do grau de ajustamento R 2
ˆ ˆ (n 1)
R2 1
y y (n k )
Propriedades
R 2 R 2 se k = 1;
R 2 R 2 se k > 1;
R 2 pode diminuir se incluo variáveis pouco explicativas;
R 2 pode ser negativo;
Critério de Informação de Akaike – AIC
ˆˆ 2k
AIC log
n n
Propriedades
AIC ;
Quanto menor AIC, melhor o ajustamento;
AIC penaliza bem mais que o R 2 a presença de variáveis
irrelevantes;
AIC valoriza mais a parcimônia.
Critério de Schwarz – SC
ˆˆ k log n
SC log
n n
Propriedades
SC ;
Quanto menor SC, melhor o ajustamento;
SC penaliza bem mais que o R 2 a presença de variáveis irrelevantes;
SC também valoriza mais a parcimônia do que o AIC, penalizando
mais ainda o número de parâmetros/variáveis no modelo.
2.7 VARIÂNCIA RESIDUAL DA REGRESSÃO
2
Var ( i ) também é um parâmetro desconhecido do MGD;
Caminho natural de estimá-lo seria:
n
î2
ˆˆ
ˆ2 i 1
n n
Problema: ˆ 2 é um estimador enviesado de 2 ;

Solução: usa-se um corretor de viés que redunda em:
n
î2
ˆˆ
S2 i 1
n k n k
S 2 é a chamada variância residual e será usada em vários contextos,

por exemplo, o R 2 - ajustado pode ser escrito como:
n
2
(Yi Y )2
S
R2 1 2
, onde: S Y2 i 1
SY n 1
S 2 também é usada para se estimar a matriz de variância-covariância

dos EMQO:
Sb2ˆ S 2(X X ) 1
Exemplo: Consumo Anual Brasil 1960-2004
MGD: COt b1 b2Yt b3GR b4 I t b5 NE t t
Saída (Compactada) do Eviews

Dependent Variable: CO
Method: Least Squares
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
Included observations: 45
Variable Coefficient Std. Error
Constante 23372214 9915664.

Y 0.836903 0.031319
GR -0.789323 0.067470
I -0.737619 0.119547
NE -0.764959 0.105569
R-squared 0.994985 Mean dependent var 8.19E+08

Adjusted R-squared 0.994483 S.D. dependent var 3.28E+08
S.E. of regression 24391210 Akaike info criterion 36.96178
Sum squared resid 2.38E+16 Schwarz criterion 37.16252
Nota: Dados anuais referentes ao Brasil;

CO = consumo das famílias;
Y = renda disponível das famílias;
GR = gastos do governo;
I = investimento direto;
NE = Exportações líquidas
Observações
A coluna correspondente a “Std. Error” refere-se a:

sbˆ diag S b2ˆ
k 1
O modelo empírico é dado por:
CO t 23.372.214 0,837Yt 0,789GR 0,738I t 0,765NE t

2.8 RESULTADOS IMPORTANTES
Supondo que valem todas as hipóteses, inclusive a 6, de normalidade

dos erros :
R3. ˆ ˆ / 2
~ 2
n k ;
R4. (n k )S 2 / 2
~ 2
n k ;
R5. (bˆ j b j ) ~ N (0, 2V j ) , onde V j é o j-ésimo elemento da diagonal

principal de ( X X ) 1 ;
R6. (n k ) S 2 / 2
e (bˆ j b j ) são independentes;
(bˆ j bj )
R7. De R4-R6, segue que: ~ tn k
S Vj
Prova: De R5, segue que (bˆ j b j ) / V j ~ N (0,1) . Agora
computando:
(bˆ j bj ) (n k ) S 2
,
Vj (n k ) 2
temos uma VA N(0,1) dividida pela raíz quadrada de uma VA

2
n k (dividida, por sua vez, por n k), ambas independentes, o que
resulta numa VA tn-k. Fazendo as simplificações necessárias,

obtém-se o resultado R7.
2.9 ESTIMAÇÃO INTERVALAR
Objetivo: achar intervalos de confiança para bj;

Em geral, usa-se intervalos bilaterais;
Critério: P(bˆ jL b j bˆ jH ) 1 ;
bˆ j , L = limite inferior
bˆ j , H = limite superior
1 = nível de confiança
Solução:
bˆ j , L bˆ j t1 s
/ 2 , n k bˆ j
bˆ j , H bˆ j t1 s
/ 2 , n k bˆ j
Prova: Defina sbˆ j

S V j . Então, usando R7, podemos escrever:
bˆ j bj
P t1 / 2, n k t1 / 2,n k 1
sbˆ
j
P t1 s
/ 2 , n k bˆ j bˆ j bj t1 s
/ 2 , n k bˆ j 1
Multiplicando todos os componentes da tripla desigualdade por -1:
P t1 / 2, n k bˆ js bj bˆ j t1 s
/ 2, n k bˆ j 1
e somando b̂ j aos três componentes:
P bˆ j t1 s
/ 2 , n k bˆ j bj bˆ j t1 s
/ 2 , n k bˆ j 1
2.10 TESTES DE SIGNIFICÂNCIA DE PARÂMETROS E VARIÁVEIS
Exemplos de hipóteses de interesse:
H0: b1 = 0 (E(Y) atravessa a origem do espaço Rk);

H1: b1 0 (E(Y) não atravessa a origem do espaço Rk);
H0: b2 = 0 (variações em X2 não explicam variações em Y);

H1: b2 0 (variações em X2 explicam variações em Y);
H0: b3 = 1 (variações em X3 produzem variações idênticas em Y);

H1: b3 1 (variações em X3 não produzem vars. idênticas em Y);
Conceitos e definições
= nível de significância = P(Erro Tipo I) = P(Rejeitar H0|H0 é V);

= P(Erro Tipo II) = P(Não Rejeitar H0|H0 é F);
Poder do teste = 1 - ;
Representação Geral H0: bj = b0j ; H1: bj b0j
Caso típico em econometria: b0j = 0;
Por R7, segue que (bˆ j b0, j ) Sbˆ ~ t n k ou bˆ S bˆ ~ t n k (caso b0j= 0);
j j
Procedimentos do teste t (típico)
1. Enunciado das hipóteses: H0: bj = 0 ; H1: bj 0

2. Escolha de = nível de significância;
bˆ j
3. Cálculo de tbˆ j
S bˆ
j
4. Aplicação da regra de decisão pelo valor de prova (p-value):
Se P( | Tn k | tbˆ ) j
Não rejeito H0;
Se P( | Tn k | tbˆ ) j
Rejeito H0;
Exemplo: Consumo Anual Brasil 1960-2004
MGD: COt b1 b2Yt b3GR b4 I t b5 NE t t
Saída (Compactada) do EViews

Date: 06/24/05 Time: 11:01
Sample: 1960 2004
Variable Coefficient Std. Error t-Statistic Prob.
C 23372214 9915664. 2.357100 0.0234

Y 0.836903 0.031319 26.72190 0.0000
GR -0.789323 0.067470 -11.69886 0.0000
I -0.737619 0.119547 -6.170097 0.0000
NE -0.764959 0.105569 -7.246070 0.0000

2.12 TESTE F (SIGNIFICÂNCIA GERAL DA REGRESSÃO)
H0: b2 b3  bk 0 (nenhuma Xj explica variações em Y);

H1: pelo menos um b j 0 (pelo menos uma Xj explica variações em
Y);
j = 2...,k-1;
Suponha válidas as hipóteses 1 a 6 e considere H0 verdadeira:
(Yî bˆ* x* x*bˆ*

n
R8. i 1
Y )2 2
yˆ yˆ 2 2
~ 2
k 1 , onde x * X* X*
n ( k 1)
é a matriz X em forma de desvios em relação à média com a primeira

coluna (referente à constante) excluída.
Prova: Ver [VA: pp. 59-60];
yˆ yˆ /(k 1)
R9. ~ Fk
ˆ ˆ /(n k ) 1, n k
Prova
Combinando R3 com R8:
yˆ yˆ (n k ) S 2 yˆ yˆ /(k 1)
2
~ Fk 1, n k
(k 1) (n k ) 2 S2
Estatística de Teste:
yˆ yˆ /(k 1) Variação Explicada /(k 1)

F
ˆ ˆ /(n k ) Variação Não Explicada /(n k )
Regra de decisão pelo valor de prova:
o Dado uma escolha de :
 Se P( Fk 1, n k F) Não rejeito H0;

 Se P( Fk 1, n k F) Rejeito H0;
2.13 MULTICOLINEARIDADE
Caso 1: Modelo com 1 var. dependente e 2 vars. independentes:
Yi b1 b2 X 2i b3 X 3i i
É fácil verificar que o EMQO neste caso seria:
( x2i yi x32i ) ( x3i yi )( x2i x3i )

bˆ2
( x22i )( x32i ) ( x2i x3i ) 2
( x3i yi x22i ) ( x2i yi )( x2i x3i )

bˆ3
( x22i )( x32i ) ( x2i x3i ) 2
bˆ1 Y bˆ2 X 2 bˆ3 X 3
Colinearidade Perfeita
Coeficiente de correlação linear entre X2 e X3:
x 2 i x 3i
1 r23 1
x 22i x32i
Se X 2 X 3 , com 0 (violação da hipótese 2):
o Os numeradores de b̂2 e b̂3 são iguais a 0;

o r232 1 ( x22i )( x32i ) ( x2i x3i ) 2 0
Logo, com bˆ2 bˆ3 0 0 , é impossível computar os EMQO bˆ1 , bˆ2 , bˆ3 .
Alta mas não perfeita colinearidade
É possível computar EMQO, pois hip. 2 não é violada;
Sejam as variâncias estimadas dos EMQO, (obtidas como os 2

últimos elementos da diagonal principal de S b2ˆ S 2 ( X X ) 1 ):
S2 S2
S b2ˆ S b2ˆ
2
x2i (1 r232 ) 3
x3i (1 r232 )
Seja r232 1 , mas considere que:
r232 1 Sb̂ e Sb̂

2 3
Logo:
r232 1 t b̂ 0 e t b̂ 0
2 3
Conseqüências da Multicolinearidade
Estatísticas t podem ficar artificialmente muito baixas;
Inclusive, é possível acontecer R 2 1 com t b̂ 2

0 e t b̂
3
0 , o que é
contraditório;
Soluções Alternativas
Retira-se uma das variáveis do modelo;
Trabalha-se com variáveis em diferenças:
o Exemplo:
 Modelo de interesse: C t b1 b2Yt b3Wt t

 Se Yt e Wt muito correlacionadas, usa-se:
 Ct Ct 1 b2 (Yt Yt 1 ) b3 (Wt Wt 1 ) ( t t 1 )
Caso 2: Modelo com 1 var. dependente e k-1 vars. independentes:
Multicolinearidade Perfeita
Yi b1 b2 X 2i  bk X ki i
Neste caso, não pode acontecer por exemplo:
X 2i 3 X 3i  k X ki
Ou seja, uma variável explicativa não pode ser linearmente

dependente das demais.
Alta mas não perfeita Multicolinearidade
Por exemplo, pode acontecer:
X 2i 3 X 3i  k X ki
Uma variável explicativa é “quase” linearmente dependente das

demais.
2.14 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA (EMV)
2
Pela hipótese 6: Yi ~ N ( E(Yi ), );
Função densidade:
1 (Yi b1 b2 X 2i  bk X ki ) 2
f (Yi ) exp
2 2 2 2
Função de verossimilhança:
n
2
L(b1 ,, bk , ) f (Yi )
i 1
n n
1 2
i 1
(Yi b1 b2 X 2i  bk X ki ) 2
2
exp 2
2 2
Em forma matricial:
n
2 1 2 (Y Xb) (Y Xb)
L(b, ) 2
exp
2 2 2
Log-verosssimilhança:
2 n n 2 (Y Y b X Y YXb b X Xb)
(b, ) ln 2 ln
2 2 2 2
Maximizando a log-verossimilhança
Condição de 1ª. Ordem:
 1 ~ ~
2
(2 X Y 2 X Xb ) 0 b (X X ) 1 X Y
b 2
 n ~~ ~~
0 ~2
2
2 ~2 2 ~4 n
~
onde: ~ Y Xb
2
Condição de 2ª. Ordem: garante que o EVM de b e é máximo
global (ver JD: p. 146).
~
Logo, o EMV de b ( b ) é o mesmo que o EMQO ( b̂ ); e o EMV de
2 ~2
( ) difere do usado antes para 2 ( S 2 ) apenas no denominador;
Propriedades do EMV para pequenas amostras

~
b é não enviesado para b;
~ 2 é enviesado para 2 ;
~ ~
A variância de b atinge o limite mínimo de Cramer-Rao, logo b é
também eficiente;
Propriedades do EMV para grandes amostras

~
b e ~ 2 são consistentes;
~
b apresenta normalidade assintótica;
Conclusão
Sob hipótese 6 de normalidade dos erros, EMQO e EMV são

equivalentes e portanto constituem o melhor estimador de b dentre os
estimadores lineares e os não-lineares.
2.15 PREVISÃO
Objetivo: acertar um valor de Y condicional a valores particulares de

X 2 ,, X k ;
Previsão Pontual
Seja x f [1 X 2 f  X kf ] , então:
Yˆf bˆ1 bˆ2 X 2 f  bˆk X kf x f bˆ
o Previsão dentro da amostra:
xf xi [1 X 2i  X ki ]
i 1,, n
Yˆ f Yî xi bˆ
o Previsão fora da amostra:
xf x0 [1 X 20  X k 0 ]
o i
Yˆ f Yˆ0 x0 bˆ
Pelo T. Gauss-Markov:
o b̂ é o melhor estimador linear de b;

o Logo, Ŷ f é um preditor ótimo de Yf;
Erro de previsão: e f Yf Yˆf ;
o Note que: E(Yˆf ) x f E(bˆ) x f b E(Y f ) ;

o Logo: E(e f ) E(Y f Yˆf ) E(Y f ) E(Yˆf ) 0;
o Ou seja Ŷ f é um previsor não enviesado de Y f .
2
Variância do erro de previsão: Var (e f ) f
2
f Var (Y f Yˆf ) Var ( f x f (bˆ b))
Var ( f ) Var ( x f (bˆ b)) 2
E[ x f (bˆ b)(bˆ b) x f ]
2
x f Var (bˆ) x f 2 2
xf (X X ) 1 xf
2
[1 x f ( X X ) 1 x f ]
Estimação da Variância do erro de previsão:
S 2f S 2 (1 x f ( X X ) 1 x f )
Resultados de interesse
Sejam válidas hips. 1-6. Considere os seguintes resultados:
R10. (Yˆf Yf ) f ef f ~ N (0,1);

2 2 2
R11. (n k ) S f f ~ n k ;
R12. (Yˆf Yf ) f e (n k ) S 2f 2
f são independentes;
Yˆf Yf
R13. ~ tn k
Sf
Prova
Por R10, R11 e R12, segue que a razão:
Yˆf Yf (n k ) S 2f Yˆ Y f
2
~ tn k ,
f (n k ) f Sf
Fazendo-se as simplificações necessárias, temos o resultado R13.

Previsão Intervalar
Objetivo: Achar intervalo de confiança para Y f de acordo com o

critério P(YˆfL Y f YˆfH ) 1 ;
Solução:
Yˆ fL Yˆ f t1 / 2, n k Sf
Yˆ fH Yˆ f t1 / 2,n k Sf
Prova
Usando R13, verificamos que:
Yˆ f Yf
P ( t1 / 2,n k t1 / 2,n k ) 1
Sf
De onde é imediato que, após manipulações algébricas simples:
P(Yˆf t1 / 2, n k Sf Yf Yˆf t1 / 2, n k Sf ) 1
Isto é:
P(YˆfL Yf YˆfH ) 1
Exemplo: Previsão do Consumo Anual Brasil 2005-2010
Modelo Econométrico:
CO t 29.589.820 0,789Yt 0,686GR 0,606I t 0,781NE t
ANO CÔL CÔ CÔH Y G I NE

2005 1046 1087 1128 1848 157 364 94
2006 1073 1114 1155 1907 165 382 97
2007 1095 1136 1177 1958 173 401 99
2008 1114 1156 1197 2008 182 421 101
2009 1132 1174 1215 2055 191 442 102
2010 1148 1190 1233 2102 201 464 102
Nota: Valores em R$ bilhões
3. USOS E EXTENSÕES DO MODELO DE REGRESSÃO MÚLTIPLA
3.1 COEFICIENTES PADRONIZADOS
Os coeficientes do MGD linear não podem ser comparados entre si;

Suas magnitudes dependem da escala de medida das variáveis
explicativas;
Solução: modelo com as variáveis padronizadas, isto é:
Yi Y X 2i X 2 X ki X k
b2*  bk* ei
SY S X2 S Xk
Relação entre coeficientes originais e padronizados:
SXj
b *j bj j = 2,...,k.
SY
Coeficientes padronizados são a-dimensionais, isto é, não possuem

uma unidade particular de medida;
A comparação entre coeficientes padronizados é possível porque
agora todas as variáveis apresentam a mesma média e variância;
3.2 ELASTICIDADES
Muito usada em microeconomia, a elasticidade mede a variação

relativa na variável dependente dada uma variação relativa numa
variável independente (com as demais constantes);
E (Yi ) X ji X ji
Ej bj
X ji E (Yi ) E (Yi )
No modelo linear, a elasticidade estimada é obtida como:
X ji
Eˆ ji bˆ j
Yî
Elasticidades no ponto médio:
Xj
Eˆ j bˆ j
Y
No caso do modelo log-log (todas as variáveis são medidas em

logaritmos), a elasticidade é constante para todo i = 1,...,n.
3.3 MODELOS NÃO-LINEARES
Modelo Linear: Yi b1 b2 X 2i bk X ki i

Modelo Não-Linear: qualquer modelo que não é linear.
Yi F ( X 2i ,, X ki , i )
Modelos não-lineares intrinsecamente lineares (MNLIL):
o São lineares nos parâmetros ou ;

o Podem ser transformados em lineares nos parâmetros;
Modelos não-lineares intrinsecamente não-lineares (MNLINL):
o não podem ser transformados em lineares nos parâmetros.
Modelos intrinsecamente lineares
Modelo polinomial: Yi b1 b2 X i b3 X i2 bk X ik 1

i
Modelo multiplicativo: Y b1 X 2bi  X kib 2 k *

i
Modelo log-log: ln Yi b1 b2 ln X 2i  bk ln X ki i
o Note-se que o modelo log-log deriva do modelo

multiplicativo, porque:
*
b1 lnb1 b2 b2 bk bk i ln i
Modelo exponencial: Yi exp(b1 b2 X 2i  bk X ki )

Modelo log-lin: ln Yi b1 b2 X 2i  bk X ki ln
1
Modelo recíproco: Yi
b1 b2 X 2i  bk X ki i
o Que pode ser transformado em:

1
b1 b2 X 2i  bk X ki
Yi
Modelo lin-log: Yi b1 b2 ln X 2i  bk ln X ki i
Modelo interativo: Yi b1 b2 X 2i b3 X 3i b4 ( X 2i X 3i ) i
3.4 TESTE F PARA SIGNIFICÂNCIA DE BLOCOS DE VARIÁVEIS
Considere o MGD: Yi b1 b2 X 2i b3 X 3i b4 X 4 i b5 X 5i i ;
Teste de Hipótese:
o H0: b4 b5 0 (X4 e X5 não são significativas);
o H1: b4 0 e/ou b5 0 (X4 e/ou X5 é/são significativa(s));
Definições:
o Modelo irrestrito (IR): Yi b1 b2 X 2i b3 X 3i b4 X 4 i b5 X 5i i
o Modelo restrito(R): Yi b1 b2 X 2i b3 X 3i i
o SQT = Soma dos Quadrados Totais = (Yi Y )2 y y;
o SQE = Soma dos Quadrados Explicados: (Yî Y )2 yˆ yˆ ;
o SQR = Soma dos Quadrados dos Resíduos: î2 ˆ ˆ;
Estatística de Teste:
( SQE IR SQE R ) /(k IR k R )
F ~ Fk IR k R , n k IR
SQRIR (n k IR )
Regra de decisão pelo valor de prova:

o Dado uma escolha de :
 Se P( Fk IR k R , n k IR F) Não rejeito H0;
 Se P( Fk IR k R , n k IR F) Rejeito H0;
Exemplo: Modelo consumo vs renda e tendência quadrática
MGD: Ct b1 b2Yt b3t b4 t 2
H0: b3 b4 0; (termo de tendência não é significativo)

H1: b3 0 e/ou b4 0 (termo de tendência é significativo)
Implementação do teste com = 5%;
Usando-se n = 15 observações anuais, estimou-se:

Modelo irrestrito: Cˆ t 2,1 0,77 Yt 1,1 t 0,32 t 2
(16, 56 ) ( 6 , 35) (1, 59 ) (1, 43)
o SQEIR 65.965,10 ;
o SQRIR 77,17 ;
o k IR 4;
Modelo restrito: Cˆ t 2,3 0,77 Yt

(17 , 31) ( 7 , 49 )
o SQER 65.898,24 ;
o kR 2
(65965,10 65898,24) /(4 2)
F 4,765
77,17 (15 4)
P( F2,11 4,765) 0,0323 Rejeitamos H0 a 5% de significância

Caso Geral do Teste F para bloco de variáveis
Divida o conjunto {X2,...,Xk} em 2 grupos, sendo um deles formado

por q < k 1 variáveis a serem testadas;
Agrupe as variáveis a serem testadas no final do MGD, re-
escrevendo-o como segue:
Yi b1 b2 X 2i bk q X k q ,i bk q 1 Xk q 1,i bk X ki i
H0: bk q 1  bk 0 ( Xk q 1 ,, X k são não-significativas);
H1: pelo menos um bs 0 (pelo menos uma Xs, s = k q + 1,...,k, é

significativa);
Escolha um valor para ;
Estime os modelos irrestrito e restrito;
Compute:
( SQE IR SQE R ) /(k IR k R )

F ;
SQRIR (n k IR )
Aplique a regra de decisão:

o Se P( Fk IR k R , n k IR F) Não rejeito H0;
o Se P( Fk IR k R , n k IR F) Rejeito H0;
Nota: modernos softwares econométricos, como o Eviews, implementam automaticamente

esse procedimento, sendo necessário informar apenas o grupo de q variáveis a serem
testadas em bloco;
3.5 VARIÁVEIS DUMMY
Variáveis qualitativas: que refletem estado, situação, classe, etc., ou

seja, eventos qualitativos que não podem ser medidos
numericamente;
Variável dummy: variável binária (assume valor 0 ou 1) usada para
representar, num modelo quantitativo/matemático como o MGD, as
influências de eventos qualitativos;
Variáveis dummy podem ser usadas no papel de dependente ou
independente num modelo econométrico. Veremos por ora só o
caso de variáveis dummy independentes;
Regressão com uma variável dummy
MGD: Yi b1 b2 Di i
Yi é uma variável quantitativa;

Di é uma variável dummy (qualitativa) que assume só valores 0 ou 1;
Exemplo: Estudo americano em escola secundária
n = 20 professores pesquisados;
Yi = renda do i ésimo professor;
Di = sexo do i ésimo professor (1 homem; 0 mulher);
Interpretação do MGD:
E (Yi | Di 0) b1 é o salário médio/esperado de uma professora;
E (Yi | Di 1) b1 b2 é o salário médio/esperado de um professor;
Modelo empírico: Yî 21,2 1,5 Di
( 3.15) ( 2, 7 )
Yî | ( Di 0) bˆ1 21,2 ;

Yî | ( Di 1) bˆ1 bˆ2 21,2 1,5 22,7 ;
Hipótese de interesse: H0: b2 0 (não há discriminação sexual);
Regressão com duas variáveis dummy
MGD: Yi b1 b2 DSi b3 DRi i
Exemplo: Estudo americano em escola secundária (continuação)
DSi = sexo do i ésimo professor (1 homem; 0 mulher);
DRi = raça do i ésimo professor (1 branco(a) ; 0 negro(a));
Sexo\Raça Branco (B) Negro (N)

Homem (H) DS = DR = 1 DS=1, DR = 0
Mulher(M) DS = 0, DR = 1 DS = DR =0
o E (Yi | DSi DRi 0) b1 : sal. médio/esperado da M.N.;
o E (Yi | DSi 1, DRi 0) b1 b2 : sal. médio/esperado do H.N.;
o E (Yi | DSi 0, DRi 1) b1 b3 : sal. médio/esperado de uma M.B.;
o E (Yi | DSi DRi 1) b1 b2 b3 : sal. médio/esperado do H.B.;
Modelo empírico: Yî 19,2 1,03 DSi 0,74 DRi
( 3, 74 ) ( 3,14 ) (1, 01)
o Yî | ( DSi DRi 0) 19,2 ;

o Yî | ( DSi 1, DRi 0) 19,2 1,03 20,23 ;
o Yî | ( DSi 0, DRi 1) 19,2 0,74 19,94 ;
o Yî | ( DSi DRi 1) 19,2 1,03 0,74 20,97 ;
Nota: a rigor, não se somaria o coeficiente estimado bˆ3 0,74 porque ele se não
mostrou diferente de zero a 5% de significância. Apenas para fins ilustrativos é que
o incluímos;
Hipóteses de interesse:
o H0: b2 0 (não há discriminação sexual);
o H0: b3 0 (não há discriminação racial);
o H0: b2 b3 0 (não há discriminação de qualquer tipo);
Regressão com 1 variável dummy e 1 variável quantitativa
MGD: Yi b1 b2 Di b3 X i i
Exemplo: Estudo americano em escola secundária (continuação)
Di = sexo do i ésimo professor (1 homem; 0 mulher);
Xi = número de anos de serviço do i-ésimo professor.
o E (Yi | Di 0, X i ) b1 b3 X i : salário médio/esperado da
professora como função do número de anos de serviço.;
o E (Yi | Di 1, X i ) (b1 b2 ) b3 X i : salário médio/esperado do
professor como função do número de anos de serviço;
Modelo empírico: Yî 19,5 1,12 Di 0,53 X i

( 3,19 ) ( 2 , 77 ) ( 3,15)
o Yî | ( Di 0, X i ) 19,5 0,53X i ;

o Yî | ( Di 1, X i ) 20,67 0,53X i ;
Hipótese de interesse:
o H0: b2 0 (não há diferença, entre homens e mulheres, na
relação entre salário recebido e anos de serviço );
Variáveis dummy sazonais
MGD1: Yt a b1 D1t b2 D2t  bs 1 Ds 1,t t
1 t j
D jt j 1,..., s 1
0 outro
s = comprimento do período sazonal:
s = 2 (semestral) s = 6 (bimestral)
s = 3 (quadrimestral) s = 12 (mensal)
s = 4 (trimestral)
bj = fator sazonal do j ésimo mês, bimestre, etc. (j = 1,...,s 1);
usa se só s-1 dummies p/evitar colinearidade perfeita c/a constante;
Normalização dos fatores sazonais

Yt a b1 D1t b2 D2t  bs Dst t
MGD2: s
j 1
bj 0
Verifica se que este modelo pode ser re escrito como:

MGD2: Yt a b1 D1*t b2 D1*t  bs 1 Ds* 1,t t
1 t j
o Onde: D *
jt 1 t s j 1,..., s 1
0 outro
Exemplo: Sazonalidade trimestral (s=4); MGD: Y Xb , X [1n D] .
3 3
MGD1: Yt a j 1
b j D jt t MGD2: Yt a j 1
b j D *jt t
D1 D2 D3 D1* D2* D3*

1 0 0 1 0 0
0 1 0 0 1 0
0 0 1 0 0 1
0 0 0 1 1 1
D 1 0 0 D 1 0 0
0 1 0 0 1 0
0 0 1 0 0 1
0 0 0 1 1 1
     
4. VIOLAÇÃO DE HIPÓTESES BÁSICAS
4.1 AUTOCORRELAÇÃO SERIAL DOS ERROS
Violação da hipótese 5 ( E( i , j ) Cor( i , j ) Cov( i , j ) 0 , i j);
Caso Geral
Yi b1 b2 X 2i bk X ki ui
MGD: para algum j i
Cor (u i , u j ) 0
Caso de Séries de Tempo
Yt b1 b2 X 2t bk X kt ut
MGD: j = 1, 2, ...
Cor (ut , ut j ) E (u t , ut j ) 0
Cor (ut , ut j ) 0 é chamada autocorrelação serial de j-ésima ordem;
Autocorrelação Serial de 1ª. Ordem (ACS1)
Yt b1 b2 X 2t  bk X kt ut
MGD:
Cor (ut , ut 1 ) 0
Razões para haver ACS1
o Inércia típica das variáveis econômicas;

o Variáves explicativas excluídas do MGD considerado:
 MGD: Yt b1 b2 X 2t b3 X 3t t
 MGD considerado: Yt b1 b2 X 2t ut
o Forma funcional incorreta:

 MGD: Yt b1 b2 X t b3 X t2 t
 MGD considerado: Yt b1 b2 X t ut
o Defasagens excluídas:
 MGD: Yt b1 b2 X 2t b3 X 2,t 1 b4Yt 1 t
 MGD considerado: Yt b1 b2 X 2t ut
Conseqüências da ACS1:
Propriedades do EMQO:
o b̂ continua não enviesado para b;
o b̂ (EMQO) não é mais o MELNE para b, logo é ineficiente;
Variância residual enviesada:
o S2 uˆ t2 (n k ) em geral subestima 2 ;
o Elementos de diag(S b̂ ) ficam, em geral, subestimados;
o R 2 e R 2 ficam, em geral, superestimados;
o Estatísticas t bˆ bˆ j S bˆ (j = 1,...,k) ficam,
j j
em geral,
superestimadas;
o Estatística F fica superestimada;
o Critérios de informação AIC e SC ficam em geral
subestimados;
Matriz de var-covar dos parâmetros:
o Com ACS1: Var(bˆ) 2
( X X ) 1 C( , xt , xt 1, ) ;
o Cor (u t , u t 1 ) ;
o Computadores tipicamente reportam resultados calculados
com base na ausência de ACS1, isto é: S b2ˆ S 2 ( X X ) 1 ;
Verificando a presença/ausência de ACS1
Graficamente:
Termo de Erro com ACS1 Termo de erro Sem ACS1

0.8 0.4
0.6 0.3
0.4 0.2
0.2
0.1
0
0
-0.2 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
-0.1
-0.4
-0.6 -0.2
-0.8 -0.3
-1 -0.4
0 0
Teste de Durbin-Watson
o Assuma que:
o MGD: ut ut 1 t
2
Cor ( t t 1 ) 0; E ( t ) 0,Var ( t )
o Onde ut ut 1 t é chamado processo AR(1) e
Cor (u t , u t 1 ) ;
o H0: 0 ; H1: 0;
n
(uˆ t uˆ t 1 ) 2
o Estatística DW: DW t 2
n n
2(1 ˆ)
uˆ 2
t
t 1
o Onde ˆ n
t 2 tuˆ uˆt 1
n 2
t 1 tuˆ ;
o Note-se que:
ˆ 1 DW 0
0 ˆ 1 0 DW 2
ˆ 0 DW 2
1 ˆ 0 2 DW 4
ˆ 1 DW 4
o Regra de decisão
Se Decidir
0 DW dL Rejeitar H0 (há ACS1 +)
dL DW dU Não decidir
dU DW 4 dU Não Rejeitar H0
4 dU DW 4 dL Não decidir
4 dL DW 4 Rejeitar H0 (há ACS1 )
o Onde [dL,dU] = f (n,k’, );

Exemplo: Consumo Anual Brasil 1960 2004
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
C 23372214 9915664. 2.357100 0.0234

Y 0.836903 0.031319 26.72190 0.0000
GR -0.789323 0.067470 -11.69886 0.0000
I -0.737619 0.119547 -6.170097 0.0000
NE -0.764959 0.105569 -7.246070 0.0000

Log likelihood -826.6401 F-statistic 1983.966
Durbin-Watson stat 0.395263 Prob(F-statistic) 0.000000
o Considerando n = 45, k’ = 4 e = 0,05, dL=1,34 dU=1,72
Teste de Ljung Box (também para ACS de ordens maiores)
o H0: 1 2  m 0 ; H1: pelo menos um j 0 (j=1,...,m)

o Estatística de Ljung Box:
m ˆ 2j a
2
QLB n(n 2) ~ m
j 1 n j
Date: 06/06/06 Time: 10:58

Sample: 1970 2004
Autocorrelation Partial Correlation J AC PAC Q-Stat Prob
( j) (LB)
. |****** . |****** 1 0.725 0.725 20.017 0.000

. |**** . | . 2 0.525 -0.002 30.812 0.000
. |*** . *| . 3 0.345 -0.072 35.634 0.000
. |**. . | . 4 0.209 -0.034 37.451 0.000
. |* . . |* . 5 0.160 0.087 38.561 0.000
Estimador de Mínimos Quadrados Generalizados (EMQG)
MGD: ut ut 1 t
2
Cor ( t t 1 ) 0; E ( t ) 0,Var ( t )
Equação de diferenças generalizadas (EDG):

Yt* b1* b2 X 2*t  bk X kt* t
o Onde Yt* Yt Yt 1 , X *jt X jt X j ,t 1 e t ut ut 1 ;
Então, estima se a EDG por MQO, obtendo se bˆ* (bˆ1* , bˆ2 ,, bˆk ) ;
o bˆ1 bˆ1* (1 );
o Primeira observação: Y1* Y1 1 2

, X *j1 X j1 1 2
Representação matricial
MGD: Y Xb u ,
2
Note que Var (u ) E (uu ) , porque há ACS1;
2 n 1
1 
n 2
1 
o Onde 2
1  n 3
;
n n
    
n 1 n 3 n 3
 1
1 0  0
0 1  0
Agora, seja a seguinte matriz: H 0 0 1  0
n n
   
2
0 0 0  1
o Pré multiplicando o MGD por essa matriz: HY HXb Hu ;

o Seja Hu . Então, minimizando se î2 ˆˆ uˆ H Huˆ , tém se o
EMQG:
~ 1
b (X X) 1X 1
Y
o Note se que 1
HH;
~
o b é eficiente, consistente e normalmente distribuído
assintóticamente;
Estimação de ˆ (Método de Cochrane Orcutt ou CORC):
1. Estima se o MGD por MQO e obtém se uˆ t (1) ;
2. Estima se: uˆ(1),t ûˆ (1),t 1 vˆ(1),t ;
3. Usa se ˆ para estimar EDG: Yt* bˆ1* bˆ2 X 2*t  bˆk X kt* ˆt ;
4. Computa se: uˆ( 2),t Yt bˆ1 bˆ2 X 2t  bˆk X kt ;

5. Repete se passos 2, 3 e 4 iterativamente até que:
| ˆ ˆ 1 | 0 (onde  indica iteração);

Sample (adjusted): 1971 2004
Included observations: 34 after adjustments
Convergence achieved after 22 iterations
C 1.22E+08 54126485 2.257963 0.0319

Y 0.769876 0.043924 17.52743 0.0000
GR -0.679646 0.062333 -10.90354 0.0000
I -0.828333 0.074674 -11.09262 0.0000
NE -0.932487 0.087990 -10.59761 0.0000
AR(1) 0.865912 0.070015 12.36746 0.0000

S.E. of regression 9368116. Akaike info criterion 35.10231
Estatística Q de Ljung Box

Date: 06/07/06 Time: 15:20
Sample: 1971 2004
Autocorrelation Partial Correlation J AC PAC Q-Stat Prob
. *| . . *| . 1 -0.094 -0.094 0.3309

. |* . . |* . 2 0.087 0.079 0.6192 0.431
. *| . . *| . 3 -0.110 -0.097 1.0987 0.577
. | . . | . 4 -0.016 -0.041 1.1097 0.775
. |* . . |* . 5 0.112 0.127 1.6421 0.801
4.2 HETEROCEDASTICIDADE
2 2
Violação da hipótese 5 ( Var ( i ) , i ; ou Var ( ) E ( ) I );
Caso Geral
Yi b1 b2 X 2i  bk X ki ui
MGD: 2
Var (ui ) i
Caso de Séries de Tempo
MGD: 2
Var (ut ) t
Exemplo Gráfico: Caso de 1 variável explicativa X
Atualmente, heterocedasticidade ocorre em dados temporais e de

seção cruzada (cross section);
Consequências da Heterocedasticidade
Propriedades do EMQO:
o b̂ continua não enviesado para b;
o b̂ (EMQO) não é mais o MELNE para b, logo é ineficiente;
Variância residual enviesada:
o S2 n
ˆ2
i 1 ui ( n k ) é um estimador enviesado de sigma2i;
o Elementos de diag(S b̂ ) ficam enviesados;
o R 2 e R 2 ficam enviesados;
o Estatísticas t bˆ bˆ j S bˆ (j = 1,...,k) ficam enviesadas;
j j
o Estatística F fica enviesada;

o Critérios de informação AIC e SC ficam enviesados;
Matriz de var-covar dos parâmetros:
o Sob heterocedasticidade: Var (bˆ) 2
Μ , onde Μ ( X X ) 1 ;
o Computadores tipicamente reportam resultados calculados
com base na ausência de heterocedasticidade, isto é:
S b2ˆ S 2 ( X X ) 1 ;
Mínimos Quadrados Ponderados (MQP)
É um caso particular do EMQG;

Yi b1 b2 X 2i  bk X ki ui
MGD: 2
Var (ui ) i
2
Supondo i conhecida, transforma se o MGD segundo:
Yi 1 X 2i X ki ui
b1 b2  bk
i i i i i
o Isto é: Yi* b1Wi b2 X 2*i  bk X ki* i ;

o No novo modelo, o termo i ui i é homocedástico;
2
ui 1 i
Prova: Var ( i ) Var 2
Var ui 2
1
i i i
Estima se o modelo transformado por EMQO.

Representação Matricial do EMQP
MGD: Y Xb u ,
2
Note que Var (u ) E (uu ) , onde :
2
1 0 0  0
2
0 2 0  0
2
0 0 2
3  0 ;
n n
    
2
0 0 0  n
1
0  0
1
1
0  0
Agora, seja a seguinte matriz: nHn 2
;
   
1
0 0 
n
o Pré multiplicando o MGD por essa matriz: HY HXb Hu ;
o Seja Hu . Então, minimizando se î2 ˆˆ uˆ H Huˆ , tém se o

EMQP:
~ 1
b (X X) 1X 1
Y
o Note se que ( 2
) 1
HH ;
~
o b é eficiente, consistente e normalmente distribuído
assintóticamente;
2
Quando i é desconhecida
Assume se que é uma função das variáveis do modelo:
2
Var (ui ) i cZ i cZ (Yi , X 1i ,, X ki )
Onde c é uma constante não nula.

Transforma se o MGD conforme:
Yi 1 X 2i X ki ui
b1 b2  bk
Zi Zi Zi Zi Zi
É fácil verificar que:
ui 1 cZ i
Var Var u i c
Zi Zi Zi
Logo, no MGD transformado o termo de erro é homocedástico.

Exemplos de funções Zi que podem ser usadas:
o Z i Yi ;
o Zi X ji ;
o Zi X 2ji ;
o Zi c1 X 1i c 2 X 2i  c k X ki ;

Mínimos Quadrados Ponderados: Assumindo que Var(ut)=c.Yt
Dependent Variable: CO/SQR(Y)

Date: 06/12/06 Time: 15:01
1/SQR(Y) 42489845 11564215 3.674252 0.0009

SQR(Y) 0.794932 0.032469 24.48296 0.0000
GR/SQR(Y) -0.664485 0.076533 -8.682316 0.0000
I/SQR(Y) -0.690385 0.115316 -5.986888 0.0000
NE/SQR(Y) -0.705055 0.110605 -6.374556 0.0000
R-squared 0.956610 Mean dependent var 21405.12

Adjusted R-squared 0.950824 S.D. dependent var 2459.812
S.E. of regression 545.4779 Akaike info criterion 15.57277
Sum squared resid 8926386. Schwarz criterion 15.79496
Log likelihood -267.5234 Durbin-Watson stat 0.336312
Verificando a Presença de Heterocedasticidade
Graficamente
Plotar i X 2i , i X 3i , ..., i X ki ;
2 2 2
Plotar i X 2i , i X 3i , ..., i X ki ;
2
Plotar t t ou t t.
Teste de White
H0: não há heterocedasticidade;

a
Estatística de teste: nR 2 ~ 2
q , onde q [k (k 1) 2] 1 ;
o O cômputo dessa estatística de teste envolve regredir os
quadrados dos resíduos de um MGD estimado por MQO
contra um conjunto V de variáveis formado por:
 Todas as variáveis explicativas não redundantes;
 Os quadrados dessas variáveis;
 Os produtos cruzados entre si dessas variáveis;
Regra de Decisão
o Se P( 2
q nR 2 ) Não Rejeite H0;
o Se P( 2
q nR 2 ) Rejeite H0.
Ilustração do teste de White:
o MGD: Yi b1 b2 X 2i b3 X 3i i ;
o Estime por MQO e compute: î Yi bˆ1 bˆ2 X 2i bˆ3 X 3i ;
o Estime por MQO a regressão:
î2 a1 a 2 X 2i a3 X 3i c2 X 22i c3 X 32i c4 ( X 2i X 3i ) wi ;
2
o Compute R 2 1 (wˆ wˆ ˆ 2 ˆ ) para essa regressão;
o Compute a estatística de teste nR 2
o Escolha e aplique a regra de decisão.
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
C 23372214 9915664. 2.357100 0.0234

Y 0.836903 0.031319 26.72190 0.0000
GR -0.789323 0.067470 -11.69886 0.0000
I -0.737619 0.119547 -6.170097 0.0000
NE -0.764959 0.105569 -7.246070 0.0000

(Continuação)
Teste de Heterocedasticidade de White
White Heteroskedasticity Test:
F-statistic 16.41214 Prob. F(14,20) 0.000000

Obs*R-squared 32.19742 Prob. Chi-Square(14) 0.003755
Test Equation:
Dependent Variable: RESID^2
Date: 06/12/06 Time: 14:57
C 3.22E+15 1.03E+15 3.118874 0.0054

Y -25802647 9318834. -2.768871 0.0118
Y^2 0.025064 0.009505 2.636992 0.0158
Y*GR -0.103383 0.038220 -2.704923 0.0136
Y*I -0.088866 0.047901 -1.855195 0.0784
Y*NE 0.067251 0.040232 1.671590 0.1102
GR 72030518 25197051 2.858688 0.0097
GR^2 0.134210 0.048908 2.744141 0.0125
GR*I 0.098590 0.089595 1.100397 0.2842
GR*NE -0.162626 0.113055 -1.438473 0.1658
I 68674186 35064179 1.958528 0.0643
I^2 0.043314 0.067828 0.638594 0.5303
I*NE 0.109893 0.141270 0.777892 0.4457
NE -89816669 21962399 -4.089565 0.0006
NE^2 -0.138321 0.103752 -1.333191 0.1975

S.E. of regression 3.66E+14 Akaike info criterion 70.20062
4.3 VARIÁVEIS INDEPENDENTES ESTOCÁSTICAS
Estudaremos este assunto com base na regressão simples:
MGD: Yi a bX i i
Violação da hipótese 2, isto é: X i é estocástica (é uma V.A.);

Situações em que X é uma V.A.:
o Erro de medida nas variáveis independentes;
o Variáveis independentes também dependem da dependente;
o Variável dependente defasada entre as independentes;
Nesses casos, é possível que Cov( X i , i ) X, 0 e, se isso ocorre,
EMQO é enviesado e inconsistente:
Prova
o Seja a seguinte “forma em desvios”do MGD: y i bxi ei ; onde
yi Yi Y , xi X i X e ei i . Neste caso, o EMQO
para b é dado por:
xi y i xi (bxi ei ) xi e i
bˆ 2 2
 b
x i x i xi2
xi e i
o Computando o E(,) em ambos os lados: E (bˆ) b E
xi2
o Nada garante que E(bˆ) b porque

2 2
E[ xi ei xi ] E[ xi ei ] E[ xi ] . No entanto, aplicando o operador
plim(,) em ambos os lados:
xi e i p lim xi e i n
p lim(bˆ)
X,
p lim(b) p lim 2
b 2
b 2
x i p lim x i n X
o Fica claro que tudo depende de Cov( X i , i ) X, :

 Se X , 0 , então b̂ é consistente para b (embora não
se possa determinar se é enviesado ou não);
 Se X , 0 , isto significa que b̂ é inconsistente para b
(e, em decorrência, também enviesado para b);
Mínimos Quadrados de Variáveis Instrumentais (MQVI)
Seja X estocástica e Cov( X i , i ) X ,e 0 . Como estimar b já que

MQO é inconsistente neste caso?
Definição de instrumento: Seja Z uma V.A. tal que:
xi z i
o p lim X ,Z 0;
n
zi ei
o p lim Z, 0;
n
o onde xi Xi X e zi Zi Z.
~ z i yi
Então, o estimador MQVI dado por: b é consistente para b;
xi z i
Prova
o Novamente, seja o MGD em forma de desvio: yi bxi ei .
Então, o EMQVI pode ser desenvolvido como:
~ z i yi z i (bxi ei ) (bxi z i z i ei )
b
xi z i xi z i xi z i
o
b xi z i zi e i zi e i
b
xi z i xi z i
o Aplicando plim(,) a ambos os lados:
~ p lim zi e i n
o p lim(b ) p lim(b) b Z,
b
p lim xi zi n X ,Z
Caso Geral
X2i,...,Xki são todas estocásticas;

Cada Xji (j = 2,...,k) é correlacionada com o termo de erro i;
Aplicar o MQVI neste caso envolve usar um instrumento para cada
variável independente; Z 2i X 2i ,..., Z ki X ki .
E usar o estimador geral de MQVI:
~
b (Z X ) 1 Z Y
Onde Z é a matrix n k de instrumentos para a matriz X;

5. INTRODUÇÃO A SISTEMAS DE EQUAÇÕES SIMULTÂNEAS
Trigve Haavelmo
(1911-1999)
Economista Norueguês
Premio Nobel de Economia de 1989
Abordagem probabilística em econometria
Sistemas de equações simultâneas
Objetivo: introduzir mais variáveis dependentes no MGD;
Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i

MGD:
Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i
Terminologia:
o Y variáveis endógenas;
o X variáveis exógenas;
o b coeficientes das endógenas;
o coeficientes das exógenas
o Variáveis pré determinadas:
 Exógenas;
 Endógenas defasadas;
E (Y1i ) b10 b12Y2i 11 X 1i 12 X 2i

Média:
E (Y2i ) b20 b21Y1i 21 X 1i 22 X 2i
Y1i bˆ10 bˆ12Y2i ˆ11 X 1i ˆ12 X 2i ˆ1i
Modelo Amostral:
Y2i bˆ
20 bˆ Y
21 1i
ˆ 21 X 1i ˆ 22 X 2i ˆ2i
Yˆ1i bˆ10 bˆ12Y2i ˆ11 X 1i ˆ12 X 2i

Preditor linear:
Yˆ 2i bˆ 20 bˆ Y
21 1i
ˆ 21 X 1i ˆ 22 X 2i
Forma Estrutural x Forma Reduzida

Forma Estrutural: endógenas como função de endógenas e
pré determinadas;
Y1i b10 b12Y2i 11 X 1i 1i
MGD(FE):
Y2i b20 b21Y1i 21 X 1i 2i
Forma Reduzida: endógenas como função de pré determinadas;
Y1i 10 11 X 1i w1i
MGD(FR):
Y2i 20 21 X 1i w2i
Relação entre parâmetros da FE e da FR;
b10 b12 b20 b12 21 11 b12 2i 1i

10 11 w1i
1 b12 b21 1 b12 b21 1 b12 b21
b20 b21b10 b21 11 21 b21 1i 2i
20 21 w2 i
1 b12 b21 1 b12 b21 1 b12 b21
Problema da Identificação
Definição: Em um SES uma equação está identificada quando é

possível obter se estimativas numéricas dos parâmetros estruturais a
partir de estimativas dos parâmetros da forma reduzida;
Status de identificação:
o Equação não identificada: não é possível;
o Equação identificada exatamente: obtém se uma única
estimativa dos parâmetros estruturais;
o Equação sobre identificada: obtém se mais de uma
estimativa dos parâmetros estruturais;
Sistema Identificado: quando todas as equações do SES estão
identificadas (exatamente ou sobreidentificadas);
Condição de Ordem (necessária) para identificação
Regra: Em um SES com M equações simultâneas, uma equação

estará identificada se o número de varáveis pré determinadas
excluídas da equação (K k) for maior ou igual ao número de
endógenas incluídas na equação (m) menos um ( K k m 1 );
Y1i b10 b12Y2i 12 X 2i 1i (1)
Exemplo: MGD: Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i (2)
Y3i b30 b31Y1i 3i (3)
Equação M=3 K=2 Status
(1) m=2 k=1 K k = 1 = m 1 = 1: identificada exatamente
(2) m=2 k=2 K k = 0 < m 1 = 1: não identificada
(3) m=2 k=0 K k = 2 > m 1 = 1: sobre identificada
Condição de Posto (suficiente) para identificação
Regra: Em um SES com M equações em M variáveis endógenas,

uma equação é identificada se e somente se no mínimo um
determinante não nulo de ordem (M 1) (M 1) puder ser construído
a partir dos coeficientes das variáveis (endógenas e
pré determinadas) excluídas daquela equação particular mas
incluídas em outras equações do modelo;
Ilustração
Y1i b10 b12Y2i b13Y3i 11 X 1i 1i
Y2i b20 b23Y3i 21 X 1i 22 X 2i 2i
Y3i b30 b31Y1i 31 X 1i 32 X 2i 3i
Y4i b40 b41Y1i b42Y2i 43 X 3i 4i
Pela condição de ordem verifica se que:
Equação M=4 K=3 Status

Tabela de Coeficientes do Sistema
Eq. 1 Y1 Y2 Y3 Y4 X1 X2 X3
(1) b10 1 b12 b13 0 11
0 0
(2) b20 0 1 b23 0 21 22
0
(3) b30 b31 0 1 0 31 32
0
(4) b40 b41 b42 0 1 0 0 43
Pela condição de Posto:
0 22 0
o Equação (1): A 0 32 0
1 0 43
Det(A) = 0, logo eq. (1) não está identificada;

1 0 0
o Equação (2): A b31 0 0
b41 1 43

b12 0 0
o Equação (3): A 1 0 0
b42 1 43

b13 11 0
o Equação (4): A b23 21 22
1 31 32
o Det(A) 0, logo eq. (4) está identificada;
Procedimentos para aplicar a condição de posto
Passo 1: re escrever o SES com todas as variáveis e parâmetros do

lado esquerdo e só os erros aleatórios do lado direito;
Passo 2: montar a tabela de coeficientes do sistema;
Passo 3: construir para cada equação a matriz A respectiva (a partir
dos coeficientes nulos da linha correspondente à equação em
análise);
Regra Geral de Identificação
K k>m 1 K k m 1
Posto de A = M 1 Posto de A < M 1
Eq. Sobre identificada Eq. Sub identificada
K k=m 1 K k<m 1
Posto de A = M 1 Eq. Não identificada
Eq. Exatam. identificiada (Posto de A < M 1)
Problema da simultaneidade
Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i

MGD:
Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i
Simultaneidade: quando há causalidade bidirecional entre

endógenas;
Problema: correlação da endógena do lado direito com o termo de
erro;
No MGD acima: Cor (Y2i , 1i ) 0 e Cor (Y1i , 2i ) 0 , logo:
o EMQO é inconsistente para estimar parâmetros das duas
equações;
Quando não há simultaneidade, é possível usar EMQO, desde que as
hipóteses básicas do SES sejam satisfeitas;
Estimação de SES
Y1i b10 b12Y2i b1g Ygi 11 X 1i  1k X ki 1i
Y2i b20 b21Y1i  b2 g Ygi 21 X 1i  2k X ki 2i

MGD:
   
YMii bM 0 bM 1Y1i  bM , M 1YM 1,i M1 X 1i  Mk X ki Mi
Hipóteses Básicas:
o Relação linear entre as variáveis;
o Xjis são não estocásticas, j = 1,...,k;
o E ( ri ) 0 , Var ( ri ) r2 , Cov( ri , rj ) 0 para r = 1,...,M e i j;
o Cov( ri , si ) 0 para r s; r = 1,...,M; s = 1,...,M;
o ri ~ N (0, 2
r ) Yri ~ N ( E (Yri ), 2
r ) , r = 1,...,M.
Antes da estimação, verificar:
o Identificação;
o Simultaneidade;
Métodos de Informação Limitada: considera restrições
relacionadas apenas à equação de interesse;
o EMQO;
o Estimador de Mínimos Quadrados Indiretos (EMQI);
o Estimador de Mínimos Quadrados de 2 Estágios (EMQ2E);
Métodos de Informação Completa: considera restrições entre
equações;
o Estimador de Mínimos Quadrados de 3 Estágios (EMQ3E);
o Estimador de Máxima Verossimilhança com Informação
Completa (EMVIC);
Tipologia de SES:
o Equações não relacionadas

Y1i b10 11 X 1i 1i
Y2i b20 22 X 2i 2i
Cov( 1i , 2i ) 0
o Equações aparentemente não relacionadas (SURE)

Y1i b10 11 X 1i 1i
Y2i b20 22 X 2 i 2i
Cov( 1i , 2i ) 0
 Nota: neste caso, estima se por algum método sistêmico, o mais

usual sendo o MQ3E;
o Sistemas Recursivos
Y1i b10 11 X 1i 12 X 2i 1i
Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i
Cov( 1i , 2i ) 0
 Nota: observe que Y1i E (Y1i ) 1i ; substituindo na 2ª. equação
implica que Cov(Y1i , 2i ) 0;
o Sistemas Bloco Recursivos
Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i
Y2i b20 b21Y1i 21 X 1i 22 X 2 i 2i
Y3i b30 b31Y1i b32Y2i 31 X 1i 32 X 2i 3i
Cov( 1i , 2i ) Cov( 1i , 3i ) Cov( 2i , 3i ) 0

o Sistemas Simultâneos:
Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i
Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i
 Nota: estima se por MQI ou MQ2E;
Mínimos Quadrados de 2 Estágios
Caso particular do EMQVI;

Serve para estimar equações exatamente ou sobre identificadas;
Seja o seguinte:
Y1t b10 b12Y2t 11 X 1t 12 X 2t 1t

MGD:
Y2t b20 b21Y1t 2t
É fácil verificar (pelas condições de ordem e de posto) que:

o 1ª. equação não está identificada;
o 2ª. equação está sobre identificada;
o Logo, só é possível estimar a 2ª. equação;
É fácil verificar também que devido à causalidade bidirecional

(simultaneidade) entre Y1t e Y2 t , ocorre:
Cov(Y1t , 2t ) 0;
Estimação da 2ª. equação por MQ2E:
o 1º. Estágio: construção de instrumento para Y1t via forma

reduzida;
Y1t X 1t X 2t w1t
 Forma Reduzida (FR): 10 11 12
Y2t 20 21 X 1t 21 X 2t w2t
 Estima se por MQO a 1ª. equação da FR:

Yˆ1t ˆ10 ˆ11 X 1t ˆ12 X 2t
o 2º. Estágio: usa se Yˆ1t no lugar de Y1t para estimar a 2ª.

equação da FE por MQVI;
Y2t b20 b21 (Yˆ1t wˆ 1t ) 2t
b20 b21Yˆ1t b21 wˆ 1t 2t
b20 b Yˆ
21 1t
*
1t
o Estima se usando as fórmulas de MQVI:
y 2t yˆ1t
bˆ21 bˆ20 Y2 bˆ21Y1
y1t yˆ1t
 Nota: é possível mostrar que a formula acima para b̂21 é

equivalente ao estimador de MQO (ver PR pg. 402)
Observe se que Yˆ1t é de fato um instrumento para Y1t :

y1t yˆ1t
o p lim Y1Yˆ1
0;
n
yˆ1t *
o p lim 1t
Cov( E (Y1t ), *
1t ) 0
n
Logo, EM2QE é um estimador consistente para os parâmetros
estruturais de equações exatamente ou sobre identificadas.
Estimação por EMQ2E

(Opção TSLS do Eviews em Quick\Estimate Equation)
Method: Two-Stage Least Squares
Date: 06/20/06 Time: 11:05
Instrument list: GR NE
C 1.83E+08 28288823 6.469929 0.0000

Y 0.470996 0.023360 20.16266 0.0000

S.E. of regression 40600140 Sum squared resid 5.44E+16
Durbin-Watson stat 0.449011 Second-stage SSR 5.20E+17
Estimação da Forma Reduzida no 1º. Estágio

Dependent Variable: Y
Date: 06/20/06 Time: 11:08
C 8.49E+08 51210803 16.57725 0.0000

GR 3.370831 0.449911 7.492219 0.0000
NE 1.672787 1.082381 1.545469 0.1321

S.E. of regression 2.03E+08 Akaike info criterion 41.17520

Apostila de Econometria PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila de Econometria PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Métodos Quantitativos II

Mestrado em Economia Aplicada

1.2 VISÕES DA ECONOMETRIA

1.3 VISÃO ESTATÍSTICA

Modelo Populacional ↔ Modelo Gerador dos Dados (MGD)

2.1 MODELO LINEAR GAUSSIANO (versão básica)

1. Y é uma função linear de X 2 , , X k ;

Modelo linear vem da área de planejamento de experimentos, daí a

Assumindo n observações para Y, X2,...,Xk

Hipóteses Básicas Re-escritas

1. Vetor Y é função linear dos vetores colunas da matriz X;

As hipóteses correspondem às anteriores para a versão não-

Modelo Amostral: Yi bˆ1 bˆ2 X 2i bˆk X ki ˆi

Preditor Linear: Yˆi bˆ1 bˆ2 X 2i bˆk X ki

Modelo Amostral: Y Xb̂ ˆ

Preditor Linear: Yˆ Xbˆ

Problema: A partir de n observações amostrais, achar estimadores bˆ1 ,, bˆk

seja, minimizar ˆ ˆ para b̂ . Assim, encontra-se o estimador de mínimos

Como se tem de minimizar uma função de b̂ , usa-se as regras de

Nota: Derivação Vetorial

Seja a um vetor k 1 de constantes, A uma matriz k k de constantes e

Exemplo: Vendas trimestrais de automóveis nos EUA (1959.I-1988.I).

MGD: St b1 b2YPt b3 Rt b4 CPI t t

S = consumo pessoal de automóveis novos em US$ bilhões;

Modelo Empírico: Sˆt 35,7 0,0391YPt 1,586Rt 0,654CPI t

R2: Var (bˆ) 2

Var (bˆ) E[( X X ) 1 X X ( X X ) 1]

Eficiência Restrita: dadas as hipóteses 1-5, o EMQO é o mais

Prova (Teorema de Gauss Markov):

A prova só usa hipóteses 1-5. Sejam A (X X ) 1 X e C matrizes,

Pois CX X 'C ' 0 . Então:

Nota: Resultados de álgebra matricial garantem que CC é semidefinida positiva. Será

EMQO é consistente para b, ou seja, p lim(bˆ) b ;

Prova: Dadas as hipóteses 1-5 e R1, segue que:

Dado que X é não estocástica (hip. 2), segue que:

Normalidade Assintótica (Propriedade MUITO IMPORTANTE!)

Como avaliar se o modelo está aderindo bem aos dados ou não?

Mede o grau de ajustamento do modelo aos dados;

Variação Variação Variação

Corrige limitação do grau de ajustamento R 2

Critério de Informação de Akaike – AIC

Problema: ˆ 2 é um estimador enviesado de 2 ;

S 2 é a chamada variância residual e será usada em vários contextos,

S 2 também é usada para se estimar a matriz de variância-covariância

MGD: COt b1 b2Yt b3GR b4 I t b5 NE t t

Saída (Compactada) do Eviews

Variable Coefficient Std. Error

Constante 23372214 9915664.

R-squared 0.994985 Mean dependent var 8.19E+08

Nota: Dados anuais referentes ao Brasil;

A coluna correspondente a “Std. Error” refere-se a:

O modelo empírico é dado por:

CO t 23.372.214 0,837Yt 0,789GR 0,738I t 0,765NE t

Supondo que valem todas as hipóteses, inclusive a 6, de normalidade

R5. (bˆ j b j ) ~ N (0, 2V j ) , onde V j é o j-ésimo elemento da diagonal

temos uma VA N(0,1) dividida pela raíz quadrada de uma VA

resulta numa VA tn-k. Fazendo as simplificações necessárias,

Objetivo: achar intervalos de confiança para bj;

Prova: Defina sbˆ j

Multiplicando todos os componentes da tripla desigualdade por -1:

e somando b̂ j aos três componentes:

Exemplos de hipóteses de interesse:

H0: b1 = 0 (E(Y) atravessa a origem do espaço Rk);

(Yˆi bˆ* x* xbˆ