Você está na página 1de 60

Métodos Quantitativos II

Mestrado em Economia Aplicada


Faculdade de Economia e Administração
Prof. Rogério Silva de Mattos

ECONOMETRIA CLÁSSICA

Notas de Aula
1. INTRODUÇÃO

1.1 OBJETIVOS

Modelos econométricos
Mensuração
Verificação de teorias
Previsão

1.2 VISÕES DA ECONOMETRIA

Escola Clássica
Escola Inglesa

1.3 VISÃO ESTATÍSTICA

Modelo Populacional ↔ Modelo Gerador dos Dados (MGD)


Modelo Probabilístico ↔ Modelo Gerador dos Dados (MGD)
2. MODELO DE REGRESSÃO MÚLTIPLA

2.1 MODELO LINEAR GAUSSIANO (versão básica)

MGD: Yi b1 b2 X 2i  bk X ki i

Y variável dependente;
X 2 ,, X k variáveis independentes ou explicativas;
E (Yi )
bj ou coeficiente de sensibilidade de Y em relação à Xj;
Xj
E (Yi ) b1 b2 X 2i  bk X ki é a média de Y e representa um hiperplano
que corta o espaço euclidiano Rk;

Hipóteses Básicas

1. Y é uma função linear de X 2 , , X k ;


2. X 2 , , X k são variáveis não-estocásticas;
3. Cada X j não é uma função linear das demais X s ,
j s, j, s 1,, k; ;
4. E ( i ) 0 ;
2
5. Var ( i ) e E ( i j ) 0; i j, i, j 1,n; ;
2 2
6. i ~ N (0, ) Yi ~ N ( E (Yi ), ).

Observações

Modelo linear vem da área de planejamento de experimentos, daí a


hipótese 2 que diz que cada Xj não é variável aleatória;
Hipótese 3, implica que cada X j não é combinação linear das
demais variáveis explicativas;
Hipóteses 4, 5, e 6 dizem respeito ao termo de erro aleatório i , que
apresenta as seguintes características:
média nula (hip. 4);
homocedástico, pois possui variância constante (hip. 5);
não autocorrelacionado com os demais j (hip. 5);
distribuição normal (hip. 6), logo Yi também é normal com média
E (Yi ) e variância 2 ;
2.2 REPRESENTAÇÃO MATRICIAL

Assumindo n observações para Y, X2,...,Xk

MGD: Y Xb

onde:
Y1 1 X 21  X k1 b1 1

Y  X     b  
n 1 n k k 1 n 1
Yn 1 X 2 n  X kn bk n

E(Y ) Xb .

Hipóteses Básicas Re-escritas

1. Vetor Y é função linear dos vetores colunas da matriz X;


2. X é uma matriz não-estocástica;
3. X possui posto completo igual a k;
4. E( ) 0 , onde 0 é um vetor n×1 de elementos nulos;
2
5. Var ( ) E ( ) I , onde I é uma matriz identidade n×n;
6. ~ MN (0, I )2
Y ~ MN ( Xb, 2 I ) ;

Observações

As hipóteses correspondem às anteriores para a versão não-


matricial;
Hipótese 3 implica que cada coluna de X não é uma combinação
linear exata das k-1 colunas restantes;
Hipóteses 4-6 dizem respeito ao vetor de erros aleatórios ;
Hipótese 6 diz que vetor segue uma distribuição normal
multivariada com vetor de médias 0 e matriz de variância-
covariância 2 I ;
Hipótese 6 também diz que vetor Y segue uma distribuição
normal multivariada com vetor de médias Xb e matriz de
variância-covariância 2 I ;
2.3 ESTIMADOR DE MÍNIMOS QUADRADOS ORDINÁRIOS

Conceitos

Modelo Amostral: Yi bˆ1 bˆ2 X 2i bˆk X ki ˆi

Preditor Linear: Yˆi bˆ1 bˆ2 X 2i bˆk X ki

ˆi Yi Yˆi
Resíduo:
Y bˆ
i 1 bˆ2 X 2i  bˆk X ki

Representação Matricial

Modelo Amostral: Y Xb̂ ˆ

Preditor Linear: Yˆ Xbˆ

Resíduo: ˆ Y Yˆ Y Xbˆ

Yˆ1 bˆ1 ˆ1
onde: Yˆ  bˆ  ˆ 
n 1 k 1 n 1
ˆ
Yn ˆ
bk ˆn

Problema: A partir de n observações amostrais, achar estimadores bˆ1 ,, bˆk


de boa qualidade para b1 ,, bk ;

n
Solução: Minimizar a soma dos quadrados dos resíduos ˆi para b̂ , ou
i 1

seja, minimizar ˆ ˆ para b̂ . Assim, encontra-se o estimador de mínimos


quadrados ordinários (EMQO):

bˆ ( X X ) 1 X Y
Prova

Como se tem de minimizar uma função de b̂ , usa-se as regras de


determinação de valores mínimos de funções diferenciáveis de várias
variáveis. Ou seja, acha-se as derivadas parciais da função, iguala-se estas
a zero e resolve-se o sistema resultante. Os passos são os seguintes:

ˆ ˆ bˆ X )(Y Xbˆ) bˆ X Y
1. ˆ ˆ (Y Xb) (Y Xb) (Y YY YXb b X Xb
YY 2b X Y b X Xb
ˆˆ
2. Condição de 1ª. Ordem: 2X Y 2 X Xbˆ 0

3. bˆ ( X X ) 1 X Y EMQO para b.
2
ˆˆ
4. Condição de 2ª. Ordem: 2( X X ) definida positiva*
( bˆ) 2 k k

* Como X tem posto k, segue que a matriz quadrada X’X de ordem k×k também
apresenta posto k e, logo, é não singular. Sendo não singular, possui inversa. Além
disso, X’X é definida positiva ( z X Xz 0, z 0 ; veja-se, por exemplo, JD, 1988:
p. 484). Logo, b̂ é ponto de mínimo absoluto para ˆ ˆ .

Nota: Derivação Vetorial

Seja a um vetor k 1 de constantes, A uma matriz k k de constantes e


b um vetor k 1 de variáveis. Então:

( a b) (b a)
a
b b
(b Ab)
2 Ab
b

Exemplo: Vendas trimestrais de automóveis nos EUA (1959.I-1988.I).

MGD: St b1 b2YPt b3 Rt b4 CPI t t

onde:

S = consumo pessoal de automóveis novos em US$ bilhões;


YP = renda pessoal em US$ bilhões;
R = taxa de juros trimestral (de título do Tesouro Americano);
CPI = índice de preços ao consumidor para novos carros (1983=100)

Modelo Empírico: Sˆt 35,7 0,0391YPt 1,586Rt 0,654CPI t


2.4 MÉDIA E VARIÂNCIA DOS EMQO

Resultado (R1): bˆ b ( X X ) 1 X

Prova:

bˆ (X X ) 1 X Y( X X ) 1 X ( Xb ) b (X X ) 1 X .
Do que segue que bˆ b ( X X ) 1 X .

Média

Viés(bˆ) E (bˆ b) E (X X ) 1 X ( X X ) 1 X E( ) 0;
E (bˆ) b .

Variância

R2: Var (bˆ) 2


(X X ) 1

Prova

Var (bˆ) E[( X X ) 1 X X ( X X ) 1]


( X X ) 1 X E( )X (X X ) 1

(X X ) 1 X ( 2
I)X (X X ) 1

2 1
(X X )
2.5 PROPRIEDADES DOS EMQO

Eficiência

Eficiência Restrita: dadas as hipóteses 1-5, o EMQO é o mais


eficiente (não enviesado e com variância mínima) dentro da
classe dos estimadores lineares de b; ou seja, o EMQO é o
Melhor Estimador Linear Não Enviesado (MELNE) de b.
~
Nota: Um estimador linear é aquele que pode ser escrito como b MY , onde M é
uma matriz k n.

Prova (Teorema de Gauss Markov):

A prova só usa hipóteses 1-5. Sejam A (X X ) 1 X e C matrizes,


ambas de ordem k n. Por R1, b̂ b A , e por R2, Var(bˆ) 2 AA .
~
Seja também b ( A C )Y um estimador linear alternativo de b.
~
Então, pode-se escrever b ( A C)( Xb ) ( A C ) Xb ( A C ) . Para
~
b ser não enviesado, ele tem de satisfazer:
~
AXb CXb b CXb ( I CX )b b .
E(b )
~
Logo, é preciso que CX 0 . Supondo CX 0 , então (b b) ( A C )
~ ~ ~
de modo que Var(b ) E[(b b)(b b) ] pode ser desenvolvida como:

~
Var (b ) E[( A C ) ( A C )' ] ( A C ) E ( )( A C )
2
( A C )( A C )
Mas,
( A C )( A C ) AA CA AC CC
1 1
(X X ) CX ( X X ) (X X ) 1 X C CC
1
(X X ) CC

Pois CX X 'C ' 0 . Então:

~
Var (b ) 2
[( X X ) 1
CC ] Var (bˆ) 2
CC

Nota: Resultados de álgebra matricial garantem que CC é semidefinida positiva. Será


~
CC 0 somente quando C = 0. Mas, neste caso b bˆ ; logo, não pode haver outro
estimador linear, diferente do EMQO, que seja mais eficiente (não-enviesado e com
variância mínima).
Eficiência Irrestrita: Quando vale também a hipótese 6 (erros
normalmente distribuídos), o EMQO é o mais eficiente dentre todos
os estimadores (lineares e não-lineares). A prova envolve mostrar
que no caso de normalidade dos erros o EMQO é equivalente ao
Estimador de Máxima Verossimilhança (EMV).

Consistência

EMQO é consistente para b, ou seja, p lim(bˆ) b ;

Prova: Dadas as hipóteses 1-5 e R1, segue que:

p lim(bˆ) p lim(b ( X X ) 1 X )
b p lim[( X X ) 1 X ]
1
XX X
b p lim
n n
1
X'X X
b p lim
n n

Dado que X é não estocástica (hip. 2), segue que:

X
p lim E( X ) X E( ) 0
n k 1

Logo:

p lim(bˆ) b

Normalidade Assintótica (Propriedade MUITO IMPORTANTE!)

Quando n , (bˆ j b j ) / bˆ j
N (0,1) ;
Ou seja, em amostras grandes, podemos aproximar a distribuição
de b̂ j como uma normal, isto é: para n grande, bˆ j ~ N (b j , b2ˆj ) ;
Logo, se a amostra é grande, não precisamos da hipótese 6.
Qualquer que seja a distribuição de i , podemos aplicar a teoria da
normal para o EMQO e os procedimentos de testes de hipótese;
2.6 QUALIDADE DO AJUSTAMENTO

Como avaliar se o modelo está aderindo bem aos dados ou não?


Estatísticas descritivas: R 2 , R 2 , Critério de Informação de Akaike (AIC)
e Critério de Schwarz (SC)

R2

Mede o grau de ajustamento do modelo aos dados;

Yi Y = Yi Yˆi + Yˆi Y
Desvio Desvio Não- Desvio
Total explicado Explicado
Elevando ao quadrado e agregando para todas as observações:
n
= n
+ n
(Yi Y ) 2 (Yi Yˆi ) 2 (Yˆi Y ) 2
i 1 i 1 i 1

Variação Variação Variação


Total Não- Explicada
explicada

Matricialmente: y y ˆˆ yˆ yˆ

onde: y Y Y yˆ Yˆ Y ˆ Y Yˆ
n 1 n 1 n 1

Grau de ajustamento

yˆ yˆ ˆˆ
R2 ou R2 1
yy yy

Propriedades

R2 [0,1] ;
Bom ajustamento R 2 1 ; Fraco ajustamento R2 0 ;
R 2 tende a aumentar sempre com novas variáveis explicativas;
R 2 nunca diminui com novas variáveis explicativas
R 2 ou R 2 - ajustado

Corrige limitação do grau de ajustamento R 2

ˆ ˆ (n 1)
R2 1
y y (n k )
Propriedades

R 2 R 2 se k = 1;
R 2 R 2 se k > 1;
R 2 pode diminuir se incluo variáveis pouco explicativas;
R 2 pode ser negativo;

Critério de Informação de Akaike – AIC

ˆˆ 2k
AIC log
n n
Propriedades

AIC ;
Quanto menor AIC, melhor o ajustamento;
AIC penaliza bem mais que o R 2 a presença de variáveis
irrelevantes;
AIC valoriza mais a parcimônia.

Critério de Schwarz – SC

ˆˆ k log n
SC log
n n
Propriedades

SC ;
Quanto menor SC, melhor o ajustamento;
SC penaliza bem mais que o R 2 a presença de variáveis irrelevantes;
SC também valoriza mais a parcimônia do que o AIC, penalizando
mais ainda o número de parâmetros/variáveis no modelo.
2.7 VARIÂNCIA RESIDUAL DA REGRESSÃO

2
Var ( i ) também é um parâmetro desconhecido do MGD;
Caminho natural de estimá-lo seria:
n
ˆi2
ˆˆ
ˆ2 i 1

n n

Problema: ˆ 2 é um estimador enviesado de 2 ;


Solução: usa-se um corretor de viés que redunda em:
n
ˆi2
ˆˆ
S2 i 1

n k n k

S 2 é a chamada variância residual e será usada em vários contextos,


por exemplo, o R 2 - ajustado pode ser escrito como:
n

2
(Yi Y )2
S
R2 1 2
, onde: S Y2 i 1

SY n 1

S 2 também é usada para se estimar a matriz de variância-covariância


dos EMQO:

Sb2ˆ S 2(X X ) 1
Exemplo: Consumo Anual Brasil 1960-2004

MGD: COt b1 b2Yt b3GR b4 I t b5 NE t t

Saída (Compactada) do Eviews


Dependent Variable: CO
Method: Least Squares
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
Included observations: 45

Variable Coefficient Std. Error

Constante 23372214 9915664.


Y 0.836903 0.031319
GR -0.789323 0.067470
I -0.737619 0.119547
NE -0.764959 0.105569

R-squared 0.994985 Mean dependent var 8.19E+08


Adjusted R-squared 0.994483 S.D. dependent var 3.28E+08
S.E. of regression 24391210 Akaike info criterion 36.96178
Sum squared resid 2.38E+16 Schwarz criterion 37.16252

Nota: Dados anuais referentes ao Brasil;


CO = consumo das famílias;
Y = renda disponível das famílias;
GR = gastos do governo;
I = investimento direto;
NE = Exportações líquidas

Observações

A coluna correspondente a “Std. Error” refere-se a:


sbˆ diag S b2ˆ
k 1

O modelo empírico é dado por:

CO t 23.372.214 0,837Yt 0,789GR 0,738I t 0,765NE t


2.8 RESULTADOS IMPORTANTES

Supondo que valem todas as hipóteses, inclusive a 6, de normalidade


dos erros :

R3. ˆ ˆ / 2
~ 2
n k ;

R4. (n k )S 2 / 2
~ 2
n k ;

R5. (bˆ j b j ) ~ N (0, 2V j ) , onde V j é o j-ésimo elemento da diagonal


principal de ( X X ) 1 ;

R6. (n k ) S 2 / 2
e (bˆ j b j ) são independentes;
(bˆ j bj )
R7. De R4-R6, segue que: ~ tn k
S Vj
Prova: De R5, segue que (bˆ j b j ) / V j ~ N (0,1) . Agora
computando:

(bˆ j bj ) (n k ) S 2
,
Vj (n k ) 2

temos uma VA N(0,1) dividida pela raíz quadrada de uma VA


2
n k (dividida, por sua vez, por n k), ambas independentes, o que

resulta numa VA tn-k. Fazendo as simplificações necessárias,


obtém-se o resultado R7.
2.9 ESTIMAÇÃO INTERVALAR

Objetivo: achar intervalos de confiança para bj;


Em geral, usa-se intervalos bilaterais;
Critério: P(bˆ jL b j bˆ jH ) 1 ;

bˆ j , L = limite inferior
bˆ j , H = limite superior
1 = nível de confiança

Solução:

bˆ j , L bˆ j t1 s
/ 2 , n k bˆ j

bˆ j , H bˆ j t1 s
/ 2 , n k bˆ j

Prova: Defina sbˆ j


S V j . Então, usando R7, podemos escrever:

bˆ j bj
P t1 / 2, n k t1 / 2,n k 1
sbˆ
j

P t1 s
/ 2 , n k bˆ j bˆ j bj t1 s
/ 2 , n k bˆ j 1

Multiplicando todos os componentes da tripla desigualdade por -1:

P t1 / 2, n k bˆ js bj bˆ j t1 s
/ 2, n k bˆ j 1

e somando b̂ j aos três componentes:

P bˆ j t1 s
/ 2 , n k bˆ j bj bˆ j t1 s
/ 2 , n k bˆ j 1
2.10 TESTES DE SIGNIFICÂNCIA DE PARÂMETROS E VARIÁVEIS

MGD: Yi b1 b2 X 2i  bk X ki i

Exemplos de hipóteses de interesse:

H0: b1 = 0 (E(Y) atravessa a origem do espaço Rk);


H1: b1 0 (E(Y) não atravessa a origem do espaço Rk);

H0: b2 = 0 (variações em X2 não explicam variações em Y);


H1: b2 0 (variações em X2 explicam variações em Y);

H0: b3 = 1 (variações em X3 produzem variações idênticas em Y);


H1: b3 1 (variações em X3 não produzem vars. idênticas em Y);

Conceitos e definições

= nível de significância = P(Erro Tipo I) = P(Rejeitar H0|H0 é V);


= P(Erro Tipo II) = P(Não Rejeitar H0|H0 é F);
Poder do teste = 1 - ;
Representação Geral H0: bj = b0j ; H1: bj b0j
Caso típico em econometria: b0j = 0;
Por R7, segue que (bˆ j b0, j ) Sbˆ ~ t n k ou bˆ S bˆ ~ t n k (caso b0j= 0);
j j

Procedimentos do teste t (típico)

1. Enunciado das hipóteses: H0: bj = 0 ; H1: bj 0


2. Escolha de = nível de significância;
bˆ j
3. Cálculo de tbˆ j
S bˆ
j

4. Aplicação da regra de decisão pelo valor de prova (p-value):

Se P( | Tn k | tbˆ ) j
Não rejeito H0;
Se P( | Tn k | tbˆ ) j
Rejeito H0;
Exemplo: Consumo Anual Brasil 1960-2004

MGD: COt b1 b2Yt b3GR b4 I t b5 NE t t

Saída (Compactada) do EViews


Dependent Variable: CO
Method: Least Squares
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
Included observations: 45

Variable Coefficient Std. Error t-Statistic Prob.

C 23372214 9915664. 2.357100 0.0234


Y 0.836903 0.031319 26.72190 0.0000
GR -0.789323 0.067470 -11.69886 0.0000
I -0.737619 0.119547 -6.170097 0.0000
NE -0.764959 0.105569 -7.246070 0.0000

R-squared 0.994985 Mean dependent var 8.19E+08


Adjusted R-squared 0.994483 S.D. dependent var 3.28E+08
S.E. of regression 24391210 Akaike info criterion 36.96178
Sum squared resid 2.38E+16 Schwarz criterion 37.16252
2.12 TESTE F (SIGNIFICÂNCIA GERAL DA REGRESSÃO)

H0: b2 b3  bk 0 (nenhuma Xj explica variações em Y);


H1: pelo menos um b j 0 (pelo menos uma Xj explica variações em
Y);
j = 2...,k-1;
Suponha válidas as hipóteses 1 a 6 e considere H0 verdadeira:

(Yˆi bˆ* x* x*bˆ*


n
R8. i 1
Y )2 2
yˆ yˆ 2 2
~ 2
k 1 , onde x * X* X*
n ( k 1)

é a matriz X em forma de desvios em relação à média com a primeira


coluna (referente à constante) excluída.

Prova: Ver [VA: pp. 59-60];

yˆ yˆ /(k 1)
R9. ~ Fk
ˆ ˆ /(n k ) 1, n k

Prova
Combinando R3 com R8:

yˆ yˆ (n k ) S 2 yˆ yˆ /(k 1)
2
~ Fk 1, n k
(k 1) (n k ) 2 S2

Estatística de Teste:

yˆ yˆ /(k 1) Variação Explicada /(k 1)


F
ˆ ˆ /(n k ) Variação Não Explicada /(n k )

Regra de decisão pelo valor de prova:

o Dado uma escolha de :

 Se P( Fk 1, n k F) Não rejeito H0;


 Se P( Fk 1, n k F) Rejeito H0;
2.13 MULTICOLINEARIDADE

Caso 1: Modelo com 1 var. dependente e 2 vars. independentes:

Yi b1 b2 X 2i b3 X 3i i

É fácil verificar que o EMQO neste caso seria:

( x2i yi x32i ) ( x3i yi )( x2i x3i )


bˆ2
( x22i )( x32i ) ( x2i x3i ) 2

( x3i yi x22i ) ( x2i yi )( x2i x3i )


bˆ3
( x22i )( x32i ) ( x2i x3i ) 2

bˆ1 Y bˆ2 X 2 bˆ3 X 3

Colinearidade Perfeita

Coeficiente de correlação linear entre X2 e X3:

x 2 i x 3i
1 r23 1
x 22i x32i

Se X 2 X 3 , com 0 (violação da hipótese 2):

o Os numeradores de b̂2 e b̂3 são iguais a 0;


o r232 1 ( x22i )( x32i ) ( x2i x3i ) 2 0

Logo, com bˆ2 bˆ3 0 0 , é impossível computar os EMQO bˆ1 , bˆ2 , bˆ3 .
Alta mas não perfeita colinearidade

É possível computar EMQO, pois hip. 2 não é violada;

Sejam as variâncias estimadas dos EMQO, (obtidas como os 2


últimos elementos da diagonal principal de S b2ˆ S 2 ( X X ) 1 ):

S2 S2
S b2ˆ S b2ˆ
2
x2i (1 r232 ) 3
x3i (1 r232 )

Seja r232 1 , mas considere que:

r232 1 Sb̂ e Sb̂


2 3

Logo:

r232 1 t b̂ 0 e t b̂ 0
2 3

Conseqüências da Multicolinearidade

Estatísticas t podem ficar artificialmente muito baixas;

Inclusive, é possível acontecer R 2 1 com t b̂ 2


0 e t b̂
3
0 , o que é
contraditório;

Soluções Alternativas

Retira-se uma das variáveis do modelo;

Trabalha-se com variáveis em diferenças:

o Exemplo:

 Modelo de interesse: C t b1 b2Yt b3Wt t


 Se Yt e Wt muito correlacionadas, usa-se:
 Ct Ct 1 b2 (Yt Yt 1 ) b3 (Wt Wt 1 ) ( t t 1 )
Caso 2: Modelo com 1 var. dependente e k-1 vars. independentes:

Multicolinearidade Perfeita

Yi b1 b2 X 2i  bk X ki i

Neste caso, não pode acontecer por exemplo:

X 2i 3 X 3i  k X ki

Ou seja, uma variável explicativa não pode ser linearmente


dependente das demais.

Alta mas não perfeita Multicolinearidade

Por exemplo, pode acontecer:

X 2i 3 X 3i  k X ki

Uma variável explicativa é “quase” linearmente dependente das


demais.
2.14 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA (EMV)

2
Pela hipótese 6: Yi ~ N ( E(Yi ), );

Função densidade:

1 (Yi b1 b2 X 2i  bk X ki ) 2
f (Yi ) exp
2 2 2 2

Função de verossimilhança:

n
2
L(b1 ,, bk , ) f (Yi )
i 1
n n
1 2
i 1
(Yi b1 b2 X 2i  bk X ki ) 2
2
exp 2
2 2

Em forma matricial:
n

2 1 2 (Y Xb) (Y Xb)
L(b, ) 2
exp
2 2 2

Log-verosssimilhança:

2 n n 2 (Y Y b X Y YXb b X Xb)
(b, ) ln 2 ln
2 2 2 2
Maximizando a log-verossimilhança

Condição de 1ª. Ordem:

 1 ~ ~
2
(2 X Y 2 X Xb ) 0 b (X X ) 1 X Y
b 2
 n ~~ ~~
0 ~2
2
2 ~2 2 ~4 n

~
onde: ~ Y Xb

2
Condição de 2ª. Ordem: garante que o EVM de b e é máximo
global (ver JD: p. 146).

~
Logo, o EMV de b ( b ) é o mesmo que o EMQO ( b̂ ); e o EMV de
2 ~2
( ) difere do usado antes para 2 ( S 2 ) apenas no denominador;

Propriedades do EMV para pequenas amostras


~
b é não enviesado para b;
~ 2 é enviesado para 2 ;
~ ~
A variância de b atinge o limite mínimo de Cramer-Rao, logo b é
também eficiente;

Propriedades do EMV para grandes amostras


~
b e ~ 2 são consistentes;
~
b apresenta normalidade assintótica;

Conclusão

Sob hipótese 6 de normalidade dos erros, EMQO e EMV são


equivalentes e portanto constituem o melhor estimador de b dentre os
estimadores lineares e os não-lineares.
2.15 PREVISÃO

Objetivo: acertar um valor de Y condicional a valores particulares de


X 2 ,, X k ;

Previsão Pontual

Seja x f [1 X 2 f  X kf ] , então:

Yˆf bˆ1 bˆ2 X 2 f  bˆk X kf x f bˆ

o Previsão dentro da amostra:

xf xi [1 X 2i  X ki ]
i 1,, n
Yˆ f Yˆi xi bˆ

o Previsão fora da amostra:

xf x0 [1 X 20  X k 0 ]
o i
Yˆ f Yˆ0 x0 bˆ

Pelo T. Gauss-Markov:

o b̂ é o melhor estimador linear de b;


o Logo, Ŷ f é um preditor ótimo de Yf;

Erro de previsão: e f Yf Yˆf ;

o Note que: E(Yˆf ) x f E(bˆ) x f b E(Y f ) ;


o Logo: E(e f ) E(Y f Yˆf ) E(Y f ) E(Yˆf ) 0;
o Ou seja Ŷ f é um previsor não enviesado de Y f .
2
Variância do erro de previsão: Var (e f ) f

2
f Var (Y f Yˆf ) Var ( f x f (bˆ b))
Var ( f ) Var ( x f (bˆ b)) 2
E[ x f (bˆ b)(bˆ b) x f ]
2
x f Var (bˆ) x f 2 2
xf (X X ) 1 xf
2
[1 x f ( X X ) 1 x f ]

Estimação da Variância do erro de previsão:

S 2f S 2 (1 x f ( X X ) 1 x f )

Resultados de interesse

Sejam válidas hips. 1-6. Considere os seguintes resultados:

R10. (Yˆf Yf ) f ef f ~ N (0,1);


2 2 2
R11. (n k ) S f f ~ n k ;
R12. (Yˆf Yf ) f e (n k ) S 2f 2
f são independentes;
Yˆf Yf
R13. ~ tn k
Sf

Prova

Por R10, R11 e R12, segue que a razão:

Yˆf Yf (n k ) S 2f Yˆ Y f
2
~ tn k ,
f (n k ) f Sf

Fazendo-se as simplificações necessárias, temos o resultado R13.


Previsão Intervalar

Objetivo: Achar intervalo de confiança para Y f de acordo com o


critério P(YˆfL Y f YˆfH ) 1 ;

Solução:

Yˆ fL Yˆ f t1 / 2, n k Sf
Yˆ fH Yˆ f t1 / 2,n k Sf

Prova

Usando R13, verificamos que:

Yˆ f Yf
P ( t1 / 2,n k t1 / 2,n k ) 1
Sf

De onde é imediato que, após manipulações algébricas simples:

P(Yˆf t1 / 2, n k Sf Yf Yˆf t1 / 2, n k Sf ) 1

Isto é:

P(YˆfL Yf YˆfH ) 1

Exemplo: Previsão do Consumo Anual Brasil 2005-2010

Modelo Econométrico:
CO t 29.589.820 0,789Yt 0,686GR 0,606I t 0,781NE t

ANO CÔL CÔ CÔH Y G I NE


2005 1046 1087 1128 1848 157 364 94
2006 1073 1114 1155 1907 165 382 97
2007 1095 1136 1177 1958 173 401 99
2008 1114 1156 1197 2008 182 421 101
2009 1132 1174 1215 2055 191 442 102
2010 1148 1190 1233 2102 201 464 102
Nota: Valores em R$ bilhões
3. USOS E EXTENSÕES DO MODELO DE REGRESSÃO MÚLTIPLA

3.1 COEFICIENTES PADRONIZADOS

Os coeficientes do MGD linear não podem ser comparados entre si;


Suas magnitudes dependem da escala de medida das variáveis
explicativas;
Solução: modelo com as variáveis padronizadas, isto é:

Yi Y X 2i X 2 X ki X k
b2*  bk* ei
SY S X2 S Xk
Relação entre coeficientes originais e padronizados:

SXj
b *j bj j = 2,...,k.
SY

Coeficientes padronizados são a-dimensionais, isto é, não possuem


uma unidade particular de medida;
A comparação entre coeficientes padronizados é possível porque
agora todas as variáveis apresentam a mesma média e variância;

3.2 ELASTICIDADES

Muito usada em microeconomia, a elasticidade mede a variação


relativa na variável dependente dada uma variação relativa numa
variável independente (com as demais constantes);

E (Yi ) X ji X ji
Ej bj
X ji E (Yi ) E (Yi )

No modelo linear, a elasticidade estimada é obtida como:

X ji
Eˆ ji bˆ j
Yˆi

Elasticidades no ponto médio:

Xj
Eˆ j bˆ j
Y

No caso do modelo log-log (todas as variáveis são medidas em


logaritmos), a elasticidade é constante para todo i = 1,...,n.
3.3 MODELOS NÃO-LINEARES

Modelo Linear: Yi b1 b2 X 2i bk X ki i


Modelo Não-Linear: qualquer modelo que não é linear.

Yi F ( X 2i ,, X ki , i )

Modelos não-lineares intrinsecamente lineares (MNLIL):

o São lineares nos parâmetros ou ;


o Podem ser transformados em lineares nos parâmetros;

Modelos não-lineares intrinsecamente não-lineares (MNLINL):

o não podem ser transformados em lineares nos parâmetros.

Modelos intrinsecamente lineares

Modelo polinomial: Yi b1 b2 X i b3 X i2 bk X ik 1


i

Modelo multiplicativo: Y b1 X 2bi  X kib 2 k *


i

Modelo log-log: ln Yi b1 b2 ln X 2i  bk ln X ki i

o Note-se que o modelo log-log deriva do modelo


multiplicativo, porque:
*
b1 lnb1 b2 b2 bk bk i ln i

Modelo exponencial: Yi exp(b1 b2 X 2i  bk X ki )


Modelo log-lin: ln Yi b1 b2 X 2i  bk X ki ln
1
Modelo recíproco: Yi
b1 b2 X 2i  bk X ki i

o Que pode ser transformado em:


1
b1 b2 X 2i  bk X ki
Yi
Modelo lin-log: Yi b1 b2 ln X 2i  bk ln X ki i

Modelo interativo: Yi b1 b2 X 2i b3 X 3i b4 ( X 2i X 3i ) i
3.4 TESTE F PARA SIGNIFICÂNCIA DE BLOCOS DE VARIÁVEIS

Considere o MGD: Yi b1 b2 X 2i b3 X 3i b4 X 4 i b5 X 5i i ;

Teste de Hipótese:
o H0: b4 b5 0 (X4 e X5 não são significativas);

o H1: b4 0 e/ou b5 0 (X4 e/ou X5 é/são significativa(s));

Definições:
o Modelo irrestrito (IR): Yi b1 b2 X 2i b3 X 3i b4 X 4 i b5 X 5i i

o Modelo restrito(R): Yi b1 b2 X 2i b3 X 3i i

o SQT = Soma dos Quadrados Totais = (Yi Y )2 y y;

o SQE = Soma dos Quadrados Explicados: (Yˆi Y )2 yˆ yˆ ;

o SQR = Soma dos Quadrados dos Resíduos: ˆi2 ˆ ˆ;

Estatística de Teste:
( SQE IR SQE R ) /(k IR k R )
F ~ Fk IR k R , n k IR
SQRIR (n k IR )

Regra de decisão pelo valor de prova:


o Dado uma escolha de :
 Se P( Fk IR k R , n k IR F) Não rejeito H0;
 Se P( Fk IR k R , n k IR F) Rejeito H0;
Exemplo: Modelo consumo vs renda e tendência quadrática

MGD: Ct b1 b2Yt b3t b4 t 2

H0: b3 b4 0; (termo de tendência não é significativo)


H1: b3 0 e/ou b4 0 (termo de tendência é significativo)

Implementação do teste com = 5%;

Usando-se n = 15 observações anuais, estimou-se:


Modelo irrestrito: Cˆ t 2,1 0,77 Yt 1,1 t 0,32 t 2
(16, 56 ) ( 6 , 35) (1, 59 ) (1, 43)

o SQEIR 65.965,10 ;
o SQRIR 77,17 ;

o k IR 4;

Modelo restrito: Cˆ t 2,3 0,77 Yt


(17 , 31) ( 7 , 49 )

o SQER 65.898,24 ;
o kR 2
(65965,10 65898,24) /(4 2)
F 4,765
77,17 (15 4)

P( F2,11 4,765) 0,0323 Rejeitamos H0 a 5% de significância


Caso Geral do Teste F para bloco de variáveis

MGD: Yi b1 b2 X 2i  bk X ki i

Divida o conjunto {X2,...,Xk} em 2 grupos, sendo um deles formado


por q < k 1 variáveis a serem testadas;
Agrupe as variáveis a serem testadas no final do MGD, re-
escrevendo-o como segue:

Yi b1 b2 X 2i bk q X k q ,i bk q 1 Xk q 1,i bk X ki i

H0: bk q 1  bk 0 ( Xk q 1 ,, X k são não-significativas);

H1: pelo menos um bs 0 (pelo menos uma Xs, s = k q + 1,...,k, é


significativa);
Escolha um valor para ;
Estime os modelos irrestrito e restrito;
Compute:

( SQE IR SQE R ) /(k IR k R )


F ;
SQRIR (n k IR )

Aplique a regra de decisão:


o Se P( Fk IR k R , n k IR F) Não rejeito H0;
o Se P( Fk IR k R , n k IR F) Rejeito H0;

Nota: modernos softwares econométricos, como o Eviews, implementam automaticamente


esse procedimento, sendo necessário informar apenas o grupo de q variáveis a serem
testadas em bloco;
3.5 VARIÁVEIS DUMMY

Variáveis qualitativas: que refletem estado, situação, classe, etc., ou


seja, eventos qualitativos que não podem ser medidos
numericamente;
Variável dummy: variável binária (assume valor 0 ou 1) usada para
representar, num modelo quantitativo/matemático como o MGD, as
influências de eventos qualitativos;
Variáveis dummy podem ser usadas no papel de dependente ou
independente num modelo econométrico. Veremos por ora só o
caso de variáveis dummy independentes;

Regressão com uma variável dummy

MGD: Yi b1 b2 Di i

Yi é uma variável quantitativa;


Di é uma variável dummy (qualitativa) que assume só valores 0 ou 1;

Exemplo: Estudo americano em escola secundária

n = 20 professores pesquisados;
Yi = renda do i ésimo professor;
Di = sexo do i ésimo professor (1 homem; 0 mulher);

Interpretação do MGD:
E (Yi | Di 0) b1 é o salário médio/esperado de uma professora;
E (Yi | Di 1) b1 b2 é o salário médio/esperado de um professor;
Modelo empírico: Yˆi 21,2 1,5 Di
( 3.15) ( 2, 7 )

Yˆi | ( Di 0) bˆ1 21,2 ;


Yˆi | ( Di 1) bˆ1 bˆ2 21,2 1,5 22,7 ;
Hipótese de interesse: H0: b2 0 (não há discriminação sexual);
Regressão com duas variáveis dummy

MGD: Yi b1 b2 DSi b3 DRi i

Exemplo: Estudo americano em escola secundária (continuação)

n = 20 professores pesquisados;
Yi = renda do i ésimo professor;
DSi = sexo do i ésimo professor (1 homem; 0 mulher);
DRi = raça do i ésimo professor (1 branco(a) ; 0 negro(a));

Sexo\Raça Branco (B) Negro (N)


Homem (H) DS = DR = 1 DS=1, DR = 0
Mulher(M) DS = 0, DR = 1 DS = DR =0

Interpretação do MGD:
o E (Yi | DSi DRi 0) b1 : sal. médio/esperado da M.N.;
o E (Yi | DSi 1, DRi 0) b1 b2 : sal. médio/esperado do H.N.;
o E (Yi | DSi 0, DRi 1) b1 b3 : sal. médio/esperado de uma M.B.;
o E (Yi | DSi DRi 1) b1 b2 b3 : sal. médio/esperado do H.B.;
Modelo empírico: Yˆi 19,2 1,03 DSi 0,74 DRi
( 3, 74 ) ( 3,14 ) (1, 01)

o Yˆi | ( DSi DRi 0) 19,2 ;


o Yˆi | ( DSi 1, DRi 0) 19,2 1,03 20,23 ;
o Yˆi | ( DSi 0, DRi 1) 19,2 0,74 19,94 ;
o Yˆi | ( DSi DRi 1) 19,2 1,03 0,74 20,97 ;

Nota: a rigor, não se somaria o coeficiente estimado bˆ3 0,74 porque ele se não
mostrou diferente de zero a 5% de significância. Apenas para fins ilustrativos é que
o incluímos;
Hipóteses de interesse:
o H0: b2 0 (não há discriminação sexual);
o H0: b3 0 (não há discriminação racial);
o H0: b2 b3 0 (não há discriminação de qualquer tipo);
Regressão com 1 variável dummy e 1 variável quantitativa

MGD: Yi b1 b2 Di b3 X i i

Exemplo: Estudo americano em escola secundária (continuação)

n = 20 professores pesquisados;
Yi = renda do i ésimo professor;
Di = sexo do i ésimo professor (1 homem; 0 mulher);
Xi = número de anos de serviço do i-ésimo professor.

Interpretação do MGD:
o E (Yi | Di 0, X i ) b1 b3 X i : salário médio/esperado da
professora como função do número de anos de serviço.;
o E (Yi | Di 1, X i ) (b1 b2 ) b3 X i : salário médio/esperado do
professor como função do número de anos de serviço;

Modelo empírico: Yˆi 19,5 1,12 Di 0,53 X i


( 3,19 ) ( 2 , 77 ) ( 3,15)

o Yˆi | ( Di 0, X i ) 19,5 0,53X i ;


o Yˆi | ( Di 1, X i ) 20,67 0,53X i ;

Hipótese de interesse:
o H0: b2 0 (não há diferença, entre homens e mulheres, na
relação entre salário recebido e anos de serviço );
Variáveis dummy sazonais

MGD1: Yt a b1 D1t b2 D2t  bs 1 Ds 1,t t

1 t j
D jt j 1,..., s 1
0 outro
s = comprimento do período sazonal:
s = 2 (semestral) s = 6 (bimestral)
s = 3 (quadrimestral) s = 12 (mensal)
s = 4 (trimestral)
bj = fator sazonal do j ésimo mês, bimestre, etc. (j = 1,...,s 1);
usa se só s-1 dummies p/evitar colinearidade perfeita c/a constante;

Normalização dos fatores sazonais


Yt a b1 D1t b2 D2t  bs Dst t
MGD2: s
j 1
bj 0

Verifica se que este modelo pode ser re escrito como:


MGD2: Yt a b1 D1*t b2 D1*t  bs 1 Ds* 1,t t

1 t j
o Onde: D *
jt 1 t s j 1,..., s 1
0 outro
Exemplo: Sazonalidade trimestral (s=4); MGD: Y Xb , X [1n D] .
3 3
MGD1: Yt a j 1
b j D jt t MGD2: Yt a j 1
b j D *jt t

D1 D2 D3 D1* D2* D3*


1 0 0 1 0 0
0 1 0 0 1 0
0 0 1 0 0 1
0 0 0 1 1 1
D 1 0 0 D 1 0 0
0 1 0 0 1 0
0 0 1 0 0 1
0 0 0 1 1 1
     
4. VIOLAÇÃO DE HIPÓTESES BÁSICAS

4.1 AUTOCORRELAÇÃO SERIAL DOS ERROS

Violação da hipótese 5 ( E( i , j ) Cor( i , j ) Cov( i , j ) 0 , i j);

Caso Geral
Yi b1 b2 X 2i bk X ki ui
MGD: para algum j i
Cor (u i , u j ) 0

Caso de Séries de Tempo

Yt b1 b2 X 2t bk X kt ut
MGD: j = 1, 2, ...
Cor (ut , ut j ) E (u t , ut j ) 0
Cor (ut , ut j ) 0 é chamada autocorrelação serial de j-ésima ordem;

Autocorrelação Serial de 1ª. Ordem (ACS1)

Yt b1 b2 X 2t  bk X kt ut
MGD:
Cor (ut , ut 1 ) 0

Razões para haver ACS1

o Inércia típica das variáveis econômicas;


o Variáves explicativas excluídas do MGD considerado:
 MGD: Yt b1 b2 X 2t b3 X 3t t

 MGD considerado: Yt b1 b2 X 2t ut

o Forma funcional incorreta:


 MGD: Yt b1 b2 X t b3 X t2 t

 MGD considerado: Yt b1 b2 X t ut

o Defasagens excluídas:
 MGD: Yt b1 b2 X 2t b3 X 2,t 1 b4Yt 1 t

 MGD considerado: Yt b1 b2 X 2t ut
Conseqüências da ACS1:

Propriedades do EMQO:
o b̂ continua não enviesado para b;
o b̂ (EMQO) não é mais o MELNE para b, logo é ineficiente;
Variância residual enviesada:
o S2 uˆ t2 (n k ) em geral subestima 2 ;
o Elementos de diag(S b̂ ) ficam, em geral, subestimados;
o R 2 e R 2 ficam, em geral, superestimados;
o Estatísticas t bˆ bˆ j S bˆ (j = 1,...,k) ficam,
j j
em geral,
superestimadas;
o Estatística F fica superestimada;
o Critérios de informação AIC e SC ficam em geral
subestimados;
Matriz de var-covar dos parâmetros:
o Com ACS1: Var(bˆ) 2
( X X ) 1 C( , xt , xt 1, ) ;
o Cor (u t , u t 1 ) ;
o Computadores tipicamente reportam resultados calculados
com base na ausência de ACS1, isto é: S b2ˆ S 2 ( X X ) 1 ;

Verificando a presença/ausência de ACS1

Graficamente:

Termo de Erro com ACS1 Termo de erro Sem ACS1


0.8 0.4
0.6 0.3
0.4 0.2
0.2
0.1
0
0
-0.2 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
-0.1
-0.4
-0.6 -0.2

-0.8 -0.3

-1 -0.4

0 0
Teste de Durbin-Watson

o Assuma que:
Yt b1 b2 X 2t  bk X kt ut
o MGD: ut ut 1 t
2
Cor ( t t 1 ) 0; E ( t ) 0,Var ( t )
o Onde ut ut 1 t é chamado processo AR(1) e
Cor (u t , u t 1 ) ;
o H0: 0 ; H1: 0;
n
(uˆ t uˆ t 1 ) 2
o Estatística DW: DW t 2
n n
2(1 ˆ)
uˆ 2
t
t 1

o Onde ˆ n
t 2 tuˆ uˆt 1
n 2
t 1 tuˆ ;
o Note-se que:

ˆ 1 DW 0
0 ˆ 1 0 DW 2
ˆ 0 DW 2
1 ˆ 0 2 DW 4
ˆ 1 DW 4

o Regra de decisão

Se Decidir
0 DW dL Rejeitar H0 (há ACS1 +)
dL DW dU Não decidir
dU DW 4 dU Não Rejeitar H0
4 dU DW 4 dL Não decidir
4 dL DW 4 Rejeitar H0 (há ACS1 )

o Onde [dL,dU] = f (n,k’, );


Exemplo: Consumo Anual Brasil 1960 2004
Dependent Variable: CO
Method: Least Squares
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
Included observations: 45
Variable Coefficient Std. Error t-Statistic Prob.

C 23372214 9915664. 2.357100 0.0234


Y 0.836903 0.031319 26.72190 0.0000
GR -0.789323 0.067470 -11.69886 0.0000
I -0.737619 0.119547 -6.170097 0.0000
NE -0.764959 0.105569 -7.246070 0.0000

R-squared 0.994985 Mean dependent var 8.19E+08


Adjusted R-squared 0.994483 S.D. dependent var 3.28E+08
S.E. of regression 24391210 Akaike info criterion 36.96178
Sum squared resid 2.38E+16 Schwarz criterion 37.16252
Log likelihood -826.6401 F-statistic 1983.966
Durbin-Watson stat 0.395263 Prob(F-statistic) 0.000000

o Considerando n = 45, k’ = 4 e = 0,05, dL=1,34 dU=1,72

Teste de Ljung Box (também para ACS de ordens maiores)

o H0: 1 2  m 0 ; H1: pelo menos um j 0 (j=1,...,m)


o Estatística de Ljung Box:

m ˆ 2j a
2
QLB n(n 2) ~ m
j 1 n j

Exemplo: Consumo Anual Brasil 1960 2004

Date: 06/06/06 Time: 10:58


Sample: 1970 2004
Included observations: 35
Autocorrelation Partial Correlation J AC PAC Q-Stat Prob
( j) (LB)

. |****** . |****** 1 0.725 0.725 20.017 0.000


. |**** . | . 2 0.525 -0.002 30.812 0.000
. |*** . *| . 3 0.345 -0.072 35.634 0.000
. |**. . | . 4 0.209 -0.034 37.451 0.000
. |* . . |* . 5 0.160 0.087 38.561 0.000
Estimador de Mínimos Quadrados Generalizados (EMQG)

Yt b1 b2 X 2t  bk X kt ut
MGD: ut ut 1 t
2
Cor ( t t 1 ) 0; E ( t ) 0,Var ( t )

Equação de diferenças generalizadas (EDG):


Yt* b1* b2 X 2*t  bk X kt* t

o Onde Yt* Yt Yt 1 , X *jt X jt X j ,t 1 e t ut ut 1 ;

Então, estima se a EDG por MQO, obtendo se bˆ* (bˆ1* , bˆ2 ,, bˆk ) ;
o bˆ1 bˆ1* (1 );

o Primeira observação: Y1* Y1 1 2


, X *j1 X j1 1 2

Representação matricial
MGD: Y Xb u ,
2
Note que Var (u ) E (uu ) , porque há ACS1;
2 n 1
1 
n 2
1 
o Onde 2
1  n 3
;
n n
    
n 1 n 3 n 3
 1

1 0  0
0 1  0
Agora, seja a seguinte matriz: H 0 0 1  0
n n
   
2
0 0 0  1

o Pré multiplicando o MGD por essa matriz: HY HXb Hu ;


o Seja Hu . Então, minimizando se ˆi2 ˆˆ uˆ H Huˆ , tém se o
EMQG:
~ 1
b (X X) 1X 1
Y

o Note se que 1
HH;
~
o b é eficiente, consistente e normalmente distribuído
assintóticamente;
Estimação de ˆ (Método de Cochrane Orcutt ou CORC):
1. Estima se o MGD por MQO e obtém se uˆ t (1) ;
2. Estima se: uˆ(1),t ˆuˆ (1),t 1 vˆ(1),t ;
3. Usa se ˆ para estimar EDG: Yt* bˆ1* bˆ2 X 2*t  bˆk X kt* ˆt ;

4. Computa se: uˆ( 2),t Yt bˆ1 bˆ2 X 2t  bˆk X kt ;


5. Repete se passos 2, 3 e 4 iterativamente até que:
| ˆ ˆ 1 | 0 (onde  indica iteração);

Exemplo: Consumo Anual Brasil 1960 2004


Dependent Variable: CO
Sample (adjusted): 1971 2004
Included observations: 34 after adjustments
Convergence achieved after 22 iterations

Variable Coefficient Std. Error t-Statistic Prob.

C 1.22E+08 54126485 2.257963 0.0319


Y 0.769876 0.043924 17.52743 0.0000
GR -0.679646 0.062333 -10.90354 0.0000
I -0.828333 0.074674 -11.09262 0.0000
NE -0.932487 0.087990 -10.59761 0.0000
AR(1) 0.865912 0.070015 12.36746 0.0000

R-squared 0.997571 Mean dependent var 7.49E+08


Adjusted R-squared 0.997138 S.D. dependent var 1.75E+08
S.E. of regression 9368116. Akaike info criterion 35.10231
Sum squared resid 2.46E+15 Schwarz criterion 35.37167
Log likelihood -590.7392 F-statistic 2300.268
Durbin-Watson stat 2.156901 Prob(F-statistic) 0.000000

Estatística Q de Ljung Box


Date: 06/07/06 Time: 15:20
Sample: 1971 2004

Autocorrelation Partial Correlation J AC PAC Q-Stat Prob

. *| . . *| . 1 -0.094 -0.094 0.3309


. |* . . |* . 2 0.087 0.079 0.6192 0.431
. *| . . *| . 3 -0.110 -0.097 1.0987 0.577
. | . . | . 4 -0.016 -0.041 1.1097 0.775
. |* . . |* . 5 0.112 0.127 1.6421 0.801
4.2 HETEROCEDASTICIDADE

2 2
Violação da hipótese 5 ( Var ( i ) , i ; ou Var ( ) E ( ) I );

Caso Geral
Yi b1 b2 X 2i  bk X ki ui
MGD: 2
Var (ui ) i

Caso de Séries de Tempo

Yt b1 b2 X 2t  bk X kt ut
MGD: 2
Var (ut ) t

Exemplo Gráfico: Caso de 1 variável explicativa X

Atualmente, heterocedasticidade ocorre em dados temporais e de


seção cruzada (cross section);
Consequências da Heterocedasticidade

Propriedades do EMQO:
o b̂ continua não enviesado para b;
o b̂ (EMQO) não é mais o MELNE para b, logo é ineficiente;
Variância residual enviesada:
o S2 n
ˆ2
i 1 ui ( n k ) é um estimador enviesado de sigma2i;
o Elementos de diag(S b̂ ) ficam enviesados;
o R 2 e R 2 ficam enviesados;
o Estatísticas t bˆ bˆ j S bˆ (j = 1,...,k) ficam enviesadas;
j j

o Estatística F fica enviesada;


o Critérios de informação AIC e SC ficam enviesados;
Matriz de var-covar dos parâmetros:
o Sob heterocedasticidade: Var (bˆ) 2
Μ , onde Μ ( X X ) 1 ;
o Computadores tipicamente reportam resultados calculados
com base na ausência de heterocedasticidade, isto é:
S b2ˆ S 2 ( X X ) 1 ;

Mínimos Quadrados Ponderados (MQP)

É um caso particular do EMQG;


Yi b1 b2 X 2i  bk X ki ui
MGD: 2
Var (ui ) i

2
Supondo i conhecida, transforma se o MGD segundo:
Yi 1 X 2i X ki ui
b1 b2  bk
i i i i i

o Isto é: Yi* b1Wi b2 X 2*i  bk X ki* i ;


o No novo modelo, o termo i ui i é homocedástico;
2
ui 1 i
Prova: Var ( i ) Var 2
Var ui 2
1
i i i

Estima se o modelo transformado por EMQO.


Representação Matricial do EMQP

MGD: Y Xb u ,

2
Note que Var (u ) E (uu ) , onde :
2
1 0 0  0
2
0 2 0  0
2
0 0 2
3  0 ;
n n
    
2
0 0 0  n

1
0  0
1
1
0  0
Agora, seja a seguinte matriz: nHn 2
;
   
1
0 0 
n

o Pré multiplicando o MGD por essa matriz: HY HXb Hu ;

o Seja Hu . Então, minimizando se ˆi2 ˆˆ uˆ H Huˆ , tém se o


EMQP:
~ 1
b (X X) 1X 1
Y

o Note se que ( 2
) 1
HH ;
~
o b é eficiente, consistente e normalmente distribuído
assintóticamente;

2
Quando i é desconhecida

Assume se que é uma função das variáveis do modelo:

2
Var (ui ) i cZ i cZ (Yi , X 1i ,, X ki )

Onde c é uma constante não nula.


Transforma se o MGD conforme:
Yi 1 X 2i X ki ui
b1 b2  bk
Zi Zi Zi Zi Zi
É fácil verificar que:
ui 1 cZ i
Var Var u i c
Zi Zi Zi

Logo, no MGD transformado o termo de erro é homocedástico.


Exemplos de funções Zi que podem ser usadas:
o Z i Yi ;
o Zi X ji ;
o Zi X 2ji ;
o Zi c1 X 1i c 2 X 2i  c k X ki ;

Exemplo: Consumo Anual Brasil 1970 2004


Mínimos Quadrados Ponderados: Assumindo que Var(ut)=c.Yt

Dependent Variable: CO/SQR(Y)


Method: Least Squares
Date: 06/12/06 Time: 15:01
Sample (adjusted): 1970 2004
Included observations: 35 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

1/SQR(Y) 42489845 11564215 3.674252 0.0009


SQR(Y) 0.794932 0.032469 24.48296 0.0000
GR/SQR(Y) -0.664485 0.076533 -8.682316 0.0000
I/SQR(Y) -0.690385 0.115316 -5.986888 0.0000
NE/SQR(Y) -0.705055 0.110605 -6.374556 0.0000

R-squared 0.956610 Mean dependent var 21405.12


Adjusted R-squared 0.950824 S.D. dependent var 2459.812
S.E. of regression 545.4779 Akaike info criterion 15.57277
Sum squared resid 8926386. Schwarz criterion 15.79496
Log likelihood -267.5234 Durbin-Watson stat 0.336312
Verificando a Presença de Heterocedasticidade

Graficamente

Plotar i X 2i , i X 3i , ..., i X ki ;
2 2 2
Plotar i X 2i , i X 3i , ..., i X ki ;
2
Plotar t t ou t t.

Teste de White

H0: não há heterocedasticidade;


a
Estatística de teste: nR 2 ~ 2
q , onde q [k (k 1) 2] 1 ;
o O cômputo dessa estatística de teste envolve regredir os
quadrados dos resíduos de um MGD estimado por MQO
contra um conjunto V de variáveis formado por:
 Todas as variáveis explicativas não redundantes;
 Os quadrados dessas variáveis;
 Os produtos cruzados entre si dessas variáveis;
Regra de Decisão
o Se P( 2
q nR 2 ) Não Rejeite H0;
o Se P( 2
q nR 2 ) Rejeite H0.
Ilustração do teste de White:
o MGD: Yi b1 b2 X 2i b3 X 3i i ;
o Estime por MQO e compute: ˆi Yi bˆ1 bˆ2 X 2i bˆ3 X 3i ;
o Estime por MQO a regressão:
ˆi2 a1 a 2 X 2i a3 X 3i c2 X 22i c3 X 32i c4 ( X 2i X 3i ) wi ;
2
o Compute R 2 1 (wˆ wˆ ˆ 2 ˆ ) para essa regressão;
o Compute a estatística de teste nR 2
o Escolha e aplique a regra de decisão.

Exemplo: Consumo Anual Brasil 1960 2004

Dependent Variable: CO
Method: Least Squares
Date: 06/24/05 Time: 11:01
Sample: 1960 2004
Included observations: 45

Variable Coefficient Std. Error t-Statistic Prob.

C 23372214 9915664. 2.357100 0.0234


Y 0.836903 0.031319 26.72190 0.0000
GR -0.789323 0.067470 -11.69886 0.0000
I -0.737619 0.119547 -6.170097 0.0000
NE -0.764959 0.105569 -7.246070 0.0000

R-squared 0.994985 Mean dependent var 8.19E+08


Adjusted R-squared 0.994483 S.D. dependent var 3.28E+08
S.E. of regression 24391210 Akaike info criterion 36.96178
Sum squared resid 2.38E+16 Schwarz criterion 37.16252
Log likelihood -826.6401 F-statistic 1983.966
Durbin-Watson stat 0.395263 Prob(F-statistic) 0.000000
Exemplo: Consumo Anual Brasil 1960 2004
(Continuação)

Teste de Heterocedasticidade de White

White Heteroskedasticity Test:

F-statistic 16.41214 Prob. F(14,20) 0.000000


Obs*R-squared 32.19742 Prob. Chi-Square(14) 0.003755

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/12/06 Time: 14:57
Sample (adjusted): 1970 2004
Included observations: 35 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

C 3.22E+15 1.03E+15 3.118874 0.0054


Y -25802647 9318834. -2.768871 0.0118
Y^2 0.025064 0.009505 2.636992 0.0158
Y*GR -0.103383 0.038220 -2.704923 0.0136
Y*I -0.088866 0.047901 -1.855195 0.0784
Y*NE 0.067251 0.040232 1.671590 0.1102
GR 72030518 25197051 2.858688 0.0097
GR^2 0.134210 0.048908 2.744141 0.0125
GR*I 0.098590 0.089595 1.100397 0.2842
GR*NE -0.162626 0.113055 -1.438473 0.1658
I 68674186 35064179 1.958528 0.0643
I^2 0.043314 0.067828 0.638594 0.5303
I*NE 0.109893 0.141270 0.777892 0.4457
NE -89816669 21962399 -4.089565 0.0006
NE^2 -0.138321 0.103752 -1.333191 0.1975

R-squared 0.919926 Mean dependent var 4.78E+14


Adjusted R-squared 0.863875 S.D. dependent var 9.91E+14
S.E. of regression 3.66E+14 Akaike info criterion 70.20062
Sum squared resid 2.67E+30 Schwarz criterion 70.86719
Log likelihood -1213.511 F-statistic 16.41214
Durbin-Watson stat 2.029315 Prob(F-statistic) 0.000000
4.3 VARIÁVEIS INDEPENDENTES ESTOCÁSTICAS

Estudaremos este assunto com base na regressão simples:

MGD: Yi a bX i i

Violação da hipótese 2, isto é: X i é estocástica (é uma V.A.);


Situações em que X é uma V.A.:
o Erro de medida nas variáveis independentes;
o Variáveis independentes também dependem da dependente;
o Variável dependente defasada entre as independentes;
Nesses casos, é possível que Cov( X i , i ) X, 0 e, se isso ocorre,
EMQO é enviesado e inconsistente:

Prova
o Seja a seguinte “forma em desvios”do MGD: y i bxi ei ; onde
yi Yi Y , xi X i X e ei i . Neste caso, o EMQO
para b é dado por:
xi y i xi (bxi ei ) xi e i
bˆ 2 2
 b
x i x i xi2

xi e i
o Computando o E(,) em ambos os lados: E (bˆ) b E
xi2

o Nada garante que E(bˆ) b porque


2 2
E[ xi ei xi ] E[ xi ei ] E[ xi ] . No entanto, aplicando o operador
plim(,) em ambos os lados:
xi e i p lim xi e i n
p lim(bˆ)
X,
p lim(b) p lim 2
b 2
b 2
x i p lim x i n X

o Fica claro que tudo depende de Cov( X i , i ) X, :


 Se X , 0 , então b̂ é consistente para b (embora não
se possa determinar se é enviesado ou não);
 Se X , 0 , isto significa que b̂ é inconsistente para b
(e, em decorrência, também enviesado para b);
Mínimos Quadrados de Variáveis Instrumentais (MQVI)

Seja X estocástica e Cov( X i , i ) X ,e 0 . Como estimar b já que


MQO é inconsistente neste caso?
Definição de instrumento: Seja Z uma V.A. tal que:
xi z i
o p lim X ,Z 0;
n
zi ei
o p lim Z, 0;
n
o onde xi Xi X e zi Zi Z.

~ z i yi
Então, o estimador MQVI dado por: b é consistente para b;
xi z i

Prova
o Novamente, seja o MGD em forma de desvio: yi bxi ei .
Então, o EMQVI pode ser desenvolvido como:
~ z i yi z i (bxi ei ) (bxi z i z i ei )
b
xi z i xi z i xi z i
o
b xi z i zi e i zi e i
b
xi z i xi z i
o Aplicando plim(,) a ambos os lados:
~ p lim zi e i n
o p lim(b ) p lim(b) b Z,
b
p lim xi zi n X ,Z

Caso Geral
MGD: Yi b1 b2 X 2i  bk X ki i

X2i,...,Xki são todas estocásticas;


Cada Xji (j = 2,...,k) é correlacionada com o termo de erro i;
Aplicar o MQVI neste caso envolve usar um instrumento para cada
variável independente; Z 2i X 2i ,..., Z ki X ki .
E usar o estimador geral de MQVI:
~
b (Z X ) 1 Z Y

Onde Z é a matrix n k de instrumentos para a matriz X;


5. INTRODUÇÃO A SISTEMAS DE EQUAÇÕES SIMULTÂNEAS

Trigve Haavelmo
(1911-1999)

Economista Norueguês
Premio Nobel de Economia de 1989
Abordagem probabilística em econometria
Sistemas de equações simultâneas

Objetivo: introduzir mais variáveis dependentes no MGD;

Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i


MGD:
Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i

Terminologia:
o Y variáveis endógenas;
o X variáveis exógenas;
o b coeficientes das endógenas;
o coeficientes das exógenas
o Variáveis pré determinadas:
 Exógenas;
 Endógenas defasadas;

E (Y1i ) b10 b12Y2i 11 X 1i 12 X 2i


Média:
E (Y2i ) b20 b21Y1i 21 X 1i 22 X 2i
Y1i bˆ10 bˆ12Y2i ˆ11 X 1i ˆ12 X 2i ˆ1i
Modelo Amostral:
Y2i bˆ
20 bˆ Y
21 1i
ˆ 21 X 1i ˆ 22 X 2i ˆ2i

Yˆ1i bˆ10 bˆ12Y2i ˆ11 X 1i ˆ12 X 2i


Preditor linear:
Yˆ 2i bˆ 20 bˆ Y
21 1i
ˆ 21 X 1i ˆ 22 X 2i

Forma Estrutural x Forma Reduzida


Forma Estrutural: endógenas como função de endógenas e
pré determinadas;
Y1i b10 b12Y2i 11 X 1i 1i
MGD(FE):
Y2i b20 b21Y1i 21 X 1i 2i

Forma Reduzida: endógenas como função de pré determinadas;

Y1i 10 11 X 1i w1i
MGD(FR):
Y2i 20 21 X 1i w2i
Relação entre parâmetros da FE e da FR;

b10 b12 b20 b12 21 11 b12 2i 1i


10 11 w1i
1 b12 b21 1 b12 b21 1 b12 b21
b20 b21b10 b21 11 21 b21 1i 2i
20 21 w2 i
1 b12 b21 1 b12 b21 1 b12 b21

Problema da Identificação

Definição: Em um SES uma equação está identificada quando é


possível obter se estimativas numéricas dos parâmetros estruturais a
partir de estimativas dos parâmetros da forma reduzida;
Status de identificação:
o Equação não identificada: não é possível;
o Equação identificada exatamente: obtém se uma única
estimativa dos parâmetros estruturais;
o Equação sobre identificada: obtém se mais de uma
estimativa dos parâmetros estruturais;
Sistema Identificado: quando todas as equações do SES estão
identificadas (exatamente ou sobreidentificadas);

Condição de Ordem (necessária) para identificação

Regra: Em um SES com M equações simultâneas, uma equação


estará identificada se o número de varáveis pré determinadas
excluídas da equação (K k) for maior ou igual ao número de
endógenas incluídas na equação (m) menos um ( K k m 1 );
Y1i b10 b12Y2i 12 X 2i 1i (1)
Exemplo: MGD: Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i (2)
Y3i b30 b31Y1i 3i (3)
Equação M=3 K=2 Status
(1) m=2 k=1 K k = 1 = m 1 = 1: identificada exatamente
(2) m=2 k=2 K k = 0 < m 1 = 1: não identificada
(3) m=2 k=0 K k = 2 > m 1 = 1: sobre identificada
Condição de Posto (suficiente) para identificação

Regra: Em um SES com M equações em M variáveis endógenas,


uma equação é identificada se e somente se no mínimo um
determinante não nulo de ordem (M 1) (M 1) puder ser construído
a partir dos coeficientes das variáveis (endógenas e
pré determinadas) excluídas daquela equação particular mas
incluídas em outras equações do modelo;

Ilustração

Y1i b10 b12Y2i b13Y3i 11 X 1i 1i

Y2i b20 b23Y3i 21 X 1i 22 X 2i 2i

Y3i b30 b31Y1i 31 X 1i 32 X 2i 3i

Y4i b40 b41Y1i b42Y2i 43 X 3i 4i

Pela condição de ordem verifica se que:

Equação M=4 K=3 Status


(1) m=3 k=1 K k = 2 = m 1 = 2: identificada exatamente
(2) m=2 k=2 K k = 1 = m 1 = 1: identificada exatamente
(3) m=2 k=2 K k = 1 = m 1 = 1: identificada exatamente
(4) m=3 k=1 K k = 2 = m 1 = 2: identificada exatamente

Tabela de Coeficientes do Sistema

Eq. 1 Y1 Y2 Y3 Y4 X1 X2 X3
(1) b10 1 b12 b13 0 11
0 0
(2) b20 0 1 b23 0 21 22
0
(3) b30 b31 0 1 0 31 32
0
(4) b40 b41 b42 0 1 0 0 43
Pela condição de Posto:

0 22 0
o Equação (1): A 0 32 0
1 0 43

Det(A) = 0, logo eq. (1) não está identificada;


1 0 0
o Equação (2): A b31 0 0
b41 1 43

Det(A) = 0, logo eq. (2) não está identificada;


b12 0 0
o Equação (3): A 1 0 0
b42 1 43

Det(A) = 0, logo eq. (3) não está identificada;


b13 11 0
o Equação (4): A b23 21 22

1 31 32

o Det(A) 0, logo eq. (4) está identificada;

Procedimentos para aplicar a condição de posto

Passo 1: re escrever o SES com todas as variáveis e parâmetros do


lado esquerdo e só os erros aleatórios do lado direito;
Passo 2: montar a tabela de coeficientes do sistema;
Passo 3: construir para cada equação a matriz A respectiva (a partir
dos coeficientes nulos da linha correspondente à equação em
análise);

Regra Geral de Identificação

K k>m 1 K k m 1
Posto de A = M 1 Posto de A < M 1
Eq. Sobre identificada Eq. Sub identificada
K k=m 1 K k<m 1
Posto de A = M 1 Eq. Não identificada
Eq. Exatam. identificiada (Posto de A < M 1)
Problema da simultaneidade

Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i


MGD:
Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i

Simultaneidade: quando há causalidade bidirecional entre


endógenas;
Problema: correlação da endógena do lado direito com o termo de
erro;
No MGD acima: Cor (Y2i , 1i ) 0 e Cor (Y1i , 2i ) 0 , logo:
o EMQO é inconsistente para estimar parâmetros das duas
equações;
Quando não há simultaneidade, é possível usar EMQO, desde que as
hipóteses básicas do SES sejam satisfeitas;

Estimação de SES

Y1i b10 b12Y2i b1g Ygi 11 X 1i  1k X ki 1i

Y2i b20 b21Y1i  b2 g Ygi 21 X 1i  2k X ki 2i


MGD:
   
YMii bM 0 bM 1Y1i  bM , M 1YM 1,i M1 X 1i  Mk X ki Mi

Hipóteses Básicas:
o Relação linear entre as variáveis;
o Xjis são não estocásticas, j = 1,...,k;
o E ( ri ) 0 , Var ( ri ) r2 , Cov( ri , rj ) 0 para r = 1,...,M e i j;
o Cov( ri , si ) 0 para r s; r = 1,...,M; s = 1,...,M;
o ri ~ N (0, 2
r ) Yri ~ N ( E (Yri ), 2
r ) , r = 1,...,M.
Antes da estimação, verificar:
o Identificação;
o Simultaneidade;
Métodos de Informação Limitada: considera restrições
relacionadas apenas à equação de interesse;
o EMQO;
o Estimador de Mínimos Quadrados Indiretos (EMQI);
o Estimador de Mínimos Quadrados de 2 Estágios (EMQ2E);
Métodos de Informação Completa: considera restrições entre
equações;
o Estimador de Mínimos Quadrados de 3 Estágios (EMQ3E);
o Estimador de Máxima Verossimilhança com Informação
Completa (EMVIC);

Tipologia de SES:

o Equações não relacionadas


Y1i b10 11 X 1i 1i

Y2i b20 22 X 2i 2i

Cov( 1i , 2i ) 0

o Equações aparentemente não relacionadas (SURE)


Y1i b10 11 X 1i 1i

Y2i b20 22 X 2 i 2i

Cov( 1i , 2i ) 0

 Nota: neste caso, estima se por algum método sistêmico, o mais


usual sendo o MQ3E;
o Sistemas Recursivos
Y1i b10 11 X 1i 12 X 2i 1i

Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i

Cov( 1i , 2i ) 0
 Nota: observe que Y1i E (Y1i ) 1i ; substituindo na 2ª. equação
implica que Cov(Y1i , 2i ) 0;
o Sistemas Bloco Recursivos
Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i

Y2i b20 b21Y1i 21 X 1i 22 X 2 i 2i

Y3i b30 b31Y1i b32Y2i 31 X 1i 32 X 2i 3i

Cov( 1i , 2i ) Cov( 1i , 3i ) Cov( 2i , 3i ) 0


o Sistemas Simultâneos:
Y1i b10 b12Y2i 11 X 1i 12 X 2i 1i

Y2i b20 b21Y1i 21 X 1i 22 X 2i 2i

 Nota: estima se por MQI ou MQ2E;

Mínimos Quadrados de 2 Estágios

Caso particular do EMQVI;


Serve para estimar equações exatamente ou sobre identificadas;
Seja o seguinte:

Y1t b10 b12Y2t 11 X 1t 12 X 2t 1t


MGD:
Y2t b20 b21Y1t 2t

É fácil verificar (pelas condições de ordem e de posto) que:


o 1ª. equação não está identificada;
o 2ª. equação está sobre identificada;
o Logo, só é possível estimar a 2ª. equação;

É fácil verificar também que devido à causalidade bidirecional


(simultaneidade) entre Y1t e Y2 t , ocorre:

Cov(Y1t , 2t ) 0;
Estimação da 2ª. equação por MQ2E:

o 1º. Estágio: construção de instrumento para Y1t via forma


reduzida;
Y1t X 1t X 2t w1t
 Forma Reduzida (FR): 10 11 12

Y2t 20 21 X 1t 21 X 2t w2t

 Estima se por MQO a 1ª. equação da FR:


Yˆ1t ˆ10 ˆ11 X 1t ˆ12 X 2t

o 2º. Estágio: usa se Yˆ1t no lugar de Y1t para estimar a 2ª.


equação da FE por MQVI;
Y2t b20 b21 (Yˆ1t wˆ 1t ) 2t

b20 b21Yˆ1t b21 wˆ 1t 2t

b20 b Yˆ
21 1t
*
1t

o Estima se usando as fórmulas de MQVI:

y 2t yˆ1t
bˆ21 bˆ20 Y2 bˆ21Y1
y1t yˆ1t

 Nota: é possível mostrar que a formula acima para b̂21 é


equivalente ao estimador de MQO (ver PR pg. 402)

Observe se que Yˆ1t é de fato um instrumento para Y1t :


y1t yˆ1t
o p lim Y1Yˆ1
0;
n
yˆ1t *

o p lim 1t
Cov( E (Y1t ), *
1t ) 0
n
Logo, EM2QE é um estimador consistente para os parâmetros
estruturais de equações exatamente ou sobre identificadas.
Exemplo: Consumo Anual Brasil 1970 2004

Estimação por EMQ2E


(Opção TSLS do Eviews em Quick\Estimate Equation)

Dependent Variable: CO
Method: Two-Stage Least Squares
Date: 06/20/06 Time: 11:05
Sample (adjusted): 1970 2004
Included observations: 35 after adjustments
Instrument list: GR NE

Variable Coefficient Std. Error t-Statistic Prob.

C 1.83E+08 28288823 6.469929 0.0000


Y 0.470996 0.023360 20.16266 0.0000

R-squared 0.954299 Mean dependent var 7.36E+08


Adjusted R-squared 0.952914 S.D. dependent var 1.87E+08
S.E. of regression 40600140 Sum squared resid 5.44E+16
Durbin-Watson stat 0.449011 Second-stage SSR 5.20E+17

Estimação da Forma Reduzida no 1º. Estágio


Dependent Variable: Y
Method: Least Squares
Date: 06/20/06 Time: 11:08
Sample (adjusted): 1970 2004
Included observations: 35 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

C 8.49E+08 51210803 16.57725 0.0000


GR 3.370831 0.449911 7.492219 0.0000
NE 1.672787 1.082381 1.545469 0.1321

R-squared 0.696523 Mean dependent var 1.17E+09


Adjusted R-squared 0.677556 S.D. dependent var 3.57E+08
S.E. of regression 2.03E+08 Akaike info criterion 41.17520
Sum squared resid 1.32E+18 Schwarz criterion 41.30852
Log likelihood -717.5660 F-statistic 36.72227
Durbin-Watson stat 0.593245 Prob(F-statistic) 0.000000

Você também pode gostar