Variaveis Instrumentais GMM

VARIVEIS
INSTRUMENTAIS E
ESTIMAO GMM
Henrique Dantas Neder

Universidade Federal de Uberlndia
VARIVEIS INSTRUMENTAIS
O que so mtodos de variveis instrumentais
(IV)? Mais conhecidos como uma soluo para
regressores endgenos: variveis explicativas
correlacionadas com o termo de erro da
regresso, os mtodos de variveis instrumentais
so uma maneira de obter estimativas de
parmetros consistentes.
A hiptese fundamental para a consistncia dos

estimadores OLS que o termo de erro do modelo
no correlacionado com os regressores.
VARIVEIS INSTRUMENTAIS
Esta hiptese, tambm conhecida como hiptese da
esperana condicional nula, pode ser expressa por E[u|x] =
0
Podemos entender isto de uma forma concreta: quando
quisermos regredir rendimentos com anos de estudo e
soubermos que uma varivel latente (no observada)
tambm determina os rendimentos. Neste caso, esta
varivel latente, por exemplo a habilidade do trabalhador
no deve ter sua esperana condicionada ao nmero de
anos de estudo igual a zero. Para cada valor de anos de
estudo (por exemplo, 3 anos de estudo e 5 anos de estudo)
temos um valor mdio da varivel latente diferente.
Esta condio tambm pode ser representada pela
independncia entre u e X, ou seja, covarincia(u,x)=0
Vamos primeiro considerar um diagrama de causalidade
para ilustrar o problema colocado por variveis
instrumentais. Podemos usar mnimos quadrados
ordinrios (MQO) para estimar consistentemente o
seguinte modelo:
regresso: y = xb + u (1)
Nenhuma associao entre x e u; MQO consistente.
X y
u
Entretanto, a regresso falha na seguinte circunstancia:
Endogeneidade: y = xb + u
Correlao entre x e u; MQO no consistente.
x y
A correlao entre x e u (ou a falha na hiptese de

mdia condicional nula E[u|x] = 0) pode ser
causada por muitos fatores.
Podemos nos referir ao problema da endogeneidade
como duas ou mais variveis determinadas
conjuntamente em um modelo comportamental. Um
exemplo o modelo de equaes simultneas tal como o
conhecido sistema de oferta e demanda em economia,
no qual o preo e a quantidade so conjuntamente
determinados no mercado.
Um choque ou perturbao tanto na oferta como na

demanda afetar tanto o preo como a quantidade no
mercado de forma que ambas as variveis esto
correlacionadas com uma perturbao no sistema.
Regresso por MQO resultar em estimativas
inconsistentes de qualquer regresso incluindo preo
e quantidade.
Uma outra situao em que temos que utilizar
variveis instrumentais quando temos que levar em
conta fatores no observveis relevantes e que so
omitidos da equao de regresso. Tanto y como x
podem ser afetados por estes fatores latentes, como por
exemplo a habilidade.
Considere a regresso de (ln) rendimentos (y) sobre

anos de estudo (x). O termo de erro u engloba todos os
outros fatores que afetam os rendimentos tais como
habilidade inata dos indivduos ou inteligncia.
Mas a habilidade certamente correlacionada com o

grau de escolaridade alcanado, causando uma
correlao entre o regressor e o erro,
Matematicamente, este o mesmo problema que
aquele causado pela endogeneidade ou erros de
medida.
A soluo deste problema por variveis instrumentais
pode ser vista como:
Regresso de variveis instrumentais: y = xb + u
z no correlacionado com u, correlacionado com x
z x y
A varivel adicional z chamada de instrumento

para x. Em geral, temos muitas variveis em x, e
mais de uma destas variveis correlacionada com u.
Neste caso, necessitamos no mnimo tantas
variveis em z, quantas forem as variveis em x
correlacionadas com u.
Para tratar do problema de endogeneidade em um
sistema de oferta e demanda, um candidato z deve
afetar a quantidade ofertada, mas no deve impactar
diretamente a demanda do produto. Um exemplo para
um produto agrcola pode ser a temperatura ou a
precipitao pluviomtrica: estes fatores so
claramente exgenos ao mercado, mas provavelmente
importantes no processo de produo.
Consideremos o seguinte sistema de equaes de

equilbrio de mercado:
q 1d 2 d p 3d r u1
(2)
p 1o 2 o q u2
Se considerarmos a soluo algbrica deste sistema de
equaes estruturais para as variveis p e q, teremos
as equaes na forma reduzida, nas quais os fatores
exgenos aparecero em seus lados direitos.
No caso dos fatores latentes da equao de

rendimentos, podemos escolher o instrumento z como o
nmero de anos de estudo do pai ou da me. Pais com
maior escolaridade provavelmente tm filhos com maior
escolaridade; ao mesmo tempo, fatores no observveis
que influenciam simultaneamente a renda e o nvel
educacional dos indivduos no podem influenciar
variveis cujos valores so definidos no passado, como a
escolaridade dos pais.
MAS PORQUE NO UTILIZAR
SEMPRE VARIVEIS
INSTRUMENTAIS?
Pode ser difcil achar variveis que servem como
instrumentos vlidos. Muitas variveis que tm um
efeito sobre as variveis endgenas includas, tambm
tm um efeito direto sobre a varivel dependente.
Estimadores IV so viesados para pequenas amostras
e suas propriedades para amostras finitas so
freqentemente problemticas. Estes estimadores
podem ter resultado ruim em pequenas amostras.
A preciso de estimadores IV menor do que a de
estimadores OLS. Na presena de instrumentos fracos
(instrumentos includos com baixa correlao com os
regressores endgenos) a perda de preciso muito
grande e as estimativas IV podem no compensar a
inconsistncia dos estimadores OLS. Isto sugere a
necessidade de um mtodo para determinar se um
dado regressor pode ser tratado como endgeno.
COMO SABER SE OS
INSTRUMENTOS SO FORTES?
Instrumentos podem ser fracos: satisfatoriamente
exgenos mas fracamente correlacionados com os
regressores endgenos. Neste caso, a cura pode ser
pior do que a doena.
Alguns autores (ver citao em Baum, 2008),
formalizaram a definio de instrumentos fracos:
concluem que a estatstica F da equao de primeiro
estgio deve exceder 10 para que os instrumentos
sejam considerados fortes. Mas este critrio no
suficiente para considerar que um instrumento no
seja fraco.
Outros autores (Stock e Yogo, 2005) estabelecem uma
regra de bolso para avaliar a fraqueza de
instrumentos. Os comandos STATA ivreg2 e ivregress
incorporam tabulaes referentes a esta regra.
SIMULAO DE UMA VARIVEL
ENDGENA
ENDGENA
ENDGENA UMA NOVA ERA NO
ENSINO DA ECONOMETRIA
O vis para este exemplo com varivel endgena, com
tamanho de amostra n = 150 e 1000 replicaes de
aproximadamente 20% para 2 2 (Cameron e Trivedi,
2009, pg 143), o erro padro cerca de 17 vezes menor e
sempre rejeitamos a hiptese nula verdadeira de que 2 2.
O erro padro (parmetro) de x = raiz(1+.52x1) = 1.1180.
1.1180/0.06580 = 17. Ou seja, a estimativa OLS tambm
inconsistente para a varincia do coeficiente (subestima o
valor do parmetro)
Outros exemplos podem ser testados. Esta possibilidade de
simulao computacional do DGP (data generation
process) nos coloca em uma nova era do ensino da
econometria.
UM PRIMEIRO EXEMPLO DE USO DE
IV
Utilizaremos um exemplo de Cameron e
Trivedi(2009): gastos mdicos com um regressor
endgeno.
A varivel dependente ldrugexp o logaritmo dos
gastos totais em medicamentos.

Os regressores so: um indicador (dummy) se os
indivduos tem seguro por empresa ou por
sindicato (hi_empunion), nmero de condies
crnicas (totchr), idade em anos (age), indicador
de gnero (female), se negro ou hispnico
(blhisp) e o logaritmo natural da renda domiciliar
anual em milhares de dlares (linc).
IV
Vamos considerar que a varivel hi_empunion
endgena. A justificativa que os indivduos
escolhem uma ou outra condio baseados na sua
expectativa de gasto.
Os instrumentos selecionados so: a relao da
rendimentos de seguridade social rendimentos
de todas as fontes (ssiratio), uma varivel
indicadora qualitativa (dummy) do status de
renda reduzida (lowincome), o tamanho da fora
de trabalho empregada na firma (firmsz) e uma
varivel dummy indicando se a firma uma
grande operadora com localizaes mltiplas.
IV
Os primeiros dois instrumentos so relevantes
porque espera-se que sejam negativamente
correlacionados com ter seguro suplementar.
Para serem instrumentos vlidos (sem correlao
com o termo de erro da equao de segundo

estgio) vamos admitir que se eles podem ser
omitidos desta equao dado que o efeito dos
rendimentos j inteiramente capturado pela
varivel linc.
Os ltimos dois instrumentos podem ser
irrelevantes porque muitos indivduos podem estar

aposentados, serem autnomos ou estarem em
sistemas de seguro de sade privados.
UM PRIMEIRO EXEMPLO DE USO DE IV
ESTIMAO DE UM MODELO
EXATAMENTE IDENTIFICADO
use "C:\cameron stata data files\mus06data.dta", clear
global x2list totchr age female blhisp linc
ivregress 2sls ldrugexp (hi_empunion = ssiratio) $x2list,
vce(robust) first
Em modelos com mais de um regressor endgeno, mais de

uma regresso de primeiro estgio mostrada se a opo
first usada.
Indivduos com seguro suplementar tem despesas com
remdios que so 90% mais baixas do que as pessoas com
este suplemento.
UM PRIMEIRO EXEMPLO DE USO DE IV
ESTIMAO DE UM MODELO SOBRE
IDENTIFICADO
global ivmodel ldrugexp (hi_empunion=ssiratio multlc) $x2list
quietly ivregress 2sls $ivmodel, vce(robust)
estimates store TwoSLS
quietly ivregress gmm $ivmodel, wmatrix(robust)
estimates store GMM_hat
quietly ivregress gmm $ivmodel, wmatrix(robust) igmm
estimates store GMM_igmm
quietly ivregress gmm $ivmodel, wmatrix(cluster age)
estimates store GMM_clu
quietly ivregress 2sls $ivmodel
estimates store TwoSLS_def
estimates table TwoSLS GMM_hat GMM_igmm GMM_clu TwoSLS_def, b(%9.5f) se
FRMULAS DERIVADAS PARA OS
ESTIMADORES
IV ( Z X ) 1 Z y
2 SLS ( X Z ( Z Z ) 1 Z X ) X Z ( Z Z ) 1 y
GMM ( X ZWZ X ) 1 X ZWZ y
onde:
W qualquer matriz de ponderao simtrica
de posto completo
Para modelos exatamente identificados, todas
as escolhas de W conduzem aos mesmos estimadores
FRMULAS DERIVADAS PARA OS
ESTIMADORES
Este estimador minimiza a funo objetivo:
1 1
Q( )={ (y-X )Z}W{ Z(y-X )}
N N
que uma forma quadrtica de matriz ponderada
em Z(y-X ).
Para GMM, algumas escolhas de W so melhores
do que outras. O estimador 2SLS obtido com
W = (ZZ) 1. O estimador timo GMM usa W =S 1
onde S uma estimativa de Var(N 1/2 Zu ).
TESTE PARA ENDOGENEIDADE DO
REGRESSOR
Se o regressor hi_empunion for exgeno, os
estimadores IV (IV, 2SLS ou GMM) so ainda
consistentes, mas eles sero muito menos
eficientes do que o estimador OLS.
Hausman test: se h pequena diferena entre as
estimativas IV e OLS, conclumos que o regressor
exgeno.
( IV OLS ) 2
TH ~ (1)
2
V ( IV OLS )
H0:=0
COMENTRIOS SOBRE O TESTE
HAUSMAN
O comando estat endogenous implementa o teste
Durbin-Wu-Hausman (DWH).
baseado em uma estatstica de teste robusta.
Considere o modelo:
y1i y2i 1 x1i 2 ui , i 1,...., N
Podemos re-escrever esta equao estrutural

adicionando uma varivel v1 que o erro da
equao de primeiro estgio para y2:
y1i y2i 1 x1i 2 v1i ui , i 1,...., N
COMENTRIOS SOBRE O TESTE
HAUSMAN
Sob a hiptese nula de que y 2i xgena
E[v1i ui | y2i , x1i ] 0
O teste de exogeneidade o teste de H 0:=0 na
regresso de y1 sobre y2, x1 e v1. Como v1 no
diretamente observado utiliza-se o vetor de resduos
ajustados da equao v1 de primeiro estgio.
Para erros homocedsticos e independentes, o teste
assintoticamente equivalente ao primeiro teste

Hausman. No caso mais realista de erros
heterocedticos, o teste H0:=0 pode ser ainda
implementado desde que utilizemos estimativas
robustas de varincias.
TESTES DE RESTRIES DE SOBRE
IDENTIFICAO
a validade de um instrumento no pode ser
testada em um modelo exatamente identificado.
mas possvel testar a validade de
instrumentos em um modelo sobre identificado
desde que os parmetros do modelo so
estimados usando o GMM timo.
o mesmo teste tem diversos nomes, incluindo
teste de restries de sobre identificao (OIR),

teste de sobre identificao (OID), Teste de
Hansen, teste de Sargent e teste Hansen-
Sargent.
TESTES DE RESTRIES DE SOBRE
IDENTIFICAO
Consideremos o valor da funo de critrio para o
estimador GMM timo:
1 1 1
Q( )={ (y-X )Z}S { Z(y-X )}
N N
Se as condies de momento da populao E[Z(y-X )]=0
esto corretas, ento
Z(y-X ) ; 0 Q( e) ; 0 .
Sob a hiptese nula de que todos os instrumentos
so vlidos, pode ser demonstrado que tem

uma Qdistribuio
( ) assintoticamente qui-quadrado
com numero de graus de liberdade igual ao
nmero de restries sobre identificao.
NOTAO VETORIAL (MATRICIAL)
UTILIZADA
Regressores [ X 1 X 2 ] [ X 1Z 2 ] [Endgenos Exgenos]

Instrumentos Z = [Z1Z 2 ] [Excludos Includos]
Portanto: a matriz Z ser formada por vetores-coluna constitudos

dos instrumentos excludos e dos instrumentos includos.
O MTODO DAS VARIVEIS
INSTRUMENTAIS
1
Seja PZ Z ( Z ' Z ) Z ' . O estimador de
variveis instrumentais de :
IV ( X ' Z ( Z ' Z ) 1 Z ' X ) 1 X ' Z ( Z ' Z ) 1 Z ' y
1
(3)
( X ' PZ X ) X ' PZ y
Apesar deste estimador ser chamado de

estimador de variveis instrumentais em dois
estgios, ele pode ser calculado em duas etapas
como em apenas uma atravs da expresso
anterior.
INSTRUMENTAIS
Equao de primeiro estgio:
iq= 1 + 2s+ 3expr+ 4 tenure+ 5rns+ 6smsa+dummies+

7 med+8 kww+ 9age+10 mrt+u
Equao de segundo estgio:
lw = 1 + 2s+ 3expr+ 4 tenure+ 5rns+ 6smsa+dummies+

7 pred (iq ) u
INSTRUMENTAIS
INSTRUMENTAIS
INSTRUMENTAIS
O estimador IV em dois estgios:
2 SLS ( X ' X ) 1 X ' y { X ' Z ( Z ' Z ) 1 Z ' X }{ X ' Z ( Z ' Z ) 1 Z ' y}

( X ' Pz X ) 1 X ' Pz y
INSTRUMENTAIS
INSTRUMENTAIS: A ESTIMATIVA DA
VARINCIA
O estimador da varincia dos parmetros
estimados pelo mtodo 2SLS :
Var ( 2 SLS ) 2 { X ' Z ( Z ' Z ) 1 Z ' X }1 2 ( X ' Pz X ) 1

INSTRUMENTAIS ESTIMATIVA DA
VARINCIA
INSTRUMENTAIS ESTIMATIVA DA
VARINCIA
PROPRIEDADES DA IV COM UMA VARIAVEL
INSTRUMENTAL POBRE: ESTIMAO COM APENAS
UMA VARIVEL ENDGENA
O vis assinttico de um estimador IV dado

pela seguinte equao:
corr ( z , u ) u
p lim 1 1 .
corr ( z , x) x
Mesmo se corr(z,u) for pequena, a inconsistncia no estimador IV pode

ser muito grande se corr(z,x) tambm for pequena.
PROPRIEDADES DA IV COM UMA VARIAVEL
INSTRUMENTAL POBRE: ESTIMAO COM APENAS
UMA VARIVEL ENDGENA
Outra expresso para representar o vis

assinttico dada por:

p lim 1 1 co rr ( x, u ). u
x
IV prefervel a OLS em termos de vis assinttico
quando corr(z,u)/corr(z,x) < corr(x,u)
ESTIMAO IV: SNTESE
Quando temos certeza de que os regressores da
nossa equao no esto correlacionados com os
erros podemos aplicar o mtodo convencional de
OLS. No entanto, mesmo nesse caso temos que
verificar se os resduos da regresso so
homocedsticos. Ento temos que realizar o teste
heterocedasticidade. Caso os resduos sejam
heterocedsticos temos que realizar a regresso
robusta. Isto pode ser feito utilizando a opo
robust (aps a vrgula) no comando regress.
ESTIMAO IV: SNTESE
Caso tenhamos motivos para acreditar que um ou
mais regressores sejam endgenos (tenham
correlao no nula com termo de erro da
equao) temos que aplicar o mtodo das
variveis instrumentais. Ento nesse caso
utilizaremos o comando ivreg (ou atravs do
menu endogenous covariates) ao invs do
comando regress.
ESTIMAO IV: SNTESE
Mas mesmo nesse caso podemos ter uma
complicao. Pode acontecer que aplicando o
mtodo das variveis instrumentais os resduos
do modelo no sejam homocedsticos. Nesse caso
temos que aplicar o mtodo das variveis
instrumentais articulado com o mtodo dos
momentos generalizados (GMM).
QUAIS SO AS IMPLICAES DA
HETEROCEDASTICIDADE PARA O
ESTIMADOR IV?
Os regressores Os resduos da
Sim Sim
regresso OLS Utilizar estimao
so todos so OLS
exgenos? homocedsticos?
No
No Utilizar estimao
OLS com opo
Os resduos da Sim robust
Utilizar estimao
regresso IV so
IV
homocedsticos?
No
Utilizar estimao
GMM
O MTODO DOS MOMENTOS
GENERALIZADOS (GMM)
Os economistas consideram que o GMM foi uma
inveno de Lars Hansen em seu paper de 1982
na revista Econometrica.
Mas o mtodo tem seus antecedentes nos
trabalhos de Karl Pearson sobre o mtodo dos
momentos datados em 1895 e mais a frente
(1928) nos trabalhos de Neyman e Egon Pearson
sobre o mtodo MCE que supera a dificuldade do
mtodo dos momentos quando temos mais
condies de momentos do que parmetros a
serem estimados.
O mtodo tem portanto, como qualquer
descoberta cientifica, uma histria bem definida.
GENERALIZADOS
O GMM foi introduzido por Lars Hansen em
1982.
A equao a ser estimada, em notao matricial
:
y X u
com uma linha tpica:
yi X i ui
GENERALIZADOS
A matriz de regressores X tem dimenso n x K,
onde n o nmero de observaes.
Alguns dos regressores so endgenos, de forma
que E(Xiui) 0.
Fazemos uma partio do conjunto de regressores
em [X1 X2], com K1 regressores X1que de acordo
com a hiptese nula so endgenos e K2=(K-K1)
regressores X2 que so considerados exgenos.
GENERALIZADOS
Temos ento a seguinte equao:
y [ X X ][ ]' u
1 2
' '
1 2
(4)
O conjunto de variveis instrumentais Z e tem

dimenso n x L.
Este o conjunto completo de variveis que so
exgenas - E(Ziui) =0.
Fazemos uma partio dos instrumentos em [Z1-Z2],
com L1 instrumentos Z1que so instrumentos
excludos e L2=(L- L1)instrumentos Z2 =X2 que so os
instrumentos includos / regressores exgenos.
GENERALIZADOS
Regressores [ X 1 X 2 ] [ X 1Z 2 ] [Endgenos Exgenos]

Instrumentos Z = [Z1Z 2 ] [Excludos Includos]
A condio de ordem para identificao da

equao : L K
Isto implica que precisamos ter no mnimo tantos
instrumentos excludos (L1)quantos forem os
regressores endgenos (K1).
Se L = K a equao exatamente identificada.
Se L > K a equao sobre-identificada.
O ESTIMADOR IV-GMM
Os L instrumentos nos do um conjunto de L
momentos:
gi ( ) Z i'ui Z i' ( yi X i ) i = 1,n (5)
Temos um vetor gi que L x 1 (resultado

Z i' de uma
multiplicao de uma matriz que
L x n por outra matriz que n x 1.
Dado que os L instrumentos so todos exgenos -
E(Ziui) =0, temos L momentos nulos:
E ( gi ( )) 0 (6)
O ESTIMADOR IV-GMM
Cada uma das L equaes de momento
corresponde a um momento amostral. Para um
dado estimador , podemos escrever estes L
momentos amostrais como:
1 n 1 n
g ( ) gi ( ) Z i ( yi X i )
'
n i 1 n i 1
1 (7)
Z ' u
n
O ESTIMADOR IV-GMM
g1 ( ) z11 z21 ... zl1 y1 ( 1 x11 ... k x1k )

g ( ) z z22 ... zl y2 ( 1 x21 ... k x2 k)
2 12 1 2

... n ... ... ... ... ...
g ( ) z z2l ... zll yn ( 1 xn1 ... k xnk)
l 1l
O ESTIMADOR IV-GMM
O que est por trs da estimao GMM? Temos
que escolher um estimador para o vetor de
parmetros que torne g ( ) to prximo de zero
quanto possvel.
No caso de L = K (equao exatamente
identificada) temos L condies (equaes) iguais
a K coeficientes (incgnitas) em . Neste caso,
possvel achar uma matriz que soluciona o
sistema g ( ) .
O ESTIMADOR IV-GMM
Quando L = K a equao exatamente
identificada e uma soluo nica existe
equivalente ao estimador padro de variveis
instrumentais:
IV ( Z ' X ) 1 Z ' y (9)
No caso de sobre-identificao (L > K), podemos
definir um conjunto de K instrumentos:
X Z '( Z ' Z ) 1 Z ' X Pz X (10)
que o estimador de mnimos quadrados em dois

estgios (2SLS) que a despeito do seu nome
calculado por esta simples equao matricial.
O ESTIMADOR IV-GMM
Se a equao sobre-identificada (L K) temos
mais equaes do que incgnitas e neste caso no
possvel achar uma matriz
que iguale exatamente todo o conjunto de L
momentos a zero.
Neste caso, temos que tomar uma matriz de
ponderao W (L x L) e utiliz-la para construir
uma forma quadrtica nas condies de
momento.
O ESTIMADOR IV-GMM
No mtodo 2SLS com sobre-identificao os L
instrumentos disponveis so reduzidos aos K
necessrios para definir a matriz Pz.
De acordo com Baum(2008), na abordagem IV-GMM
esta reduo no necessria e todos os L
instrumentos so usados no estimador.
Uma matriz de ponderao empregada de forma que
podemos determinar GMM de forma que os elementos
de g ( GMM ) so to prximos de zero quanto possvel.
Com L > K nem todas as L condies de momento
podem ser satisfeitas e um critrio de funo que
pondere estas condies apropriadamente utilizado
para aumentar a eficincia do estimador.
O ESTIMADOR IV-GMM
O estimador GMM minimiza o critrio (funo
objetivo):
J ( GMM ) ng ( GMM )'Wg ( GMM ) (11)
onde W uma matriz de ponderao simtrica LxL.

Resolvendo atravs deste critrio de minimizao
obtemos o estimador IV-GMM de uma equao sobre-
identificada:
GMM ( X ' ZWZ ' X ) X ' ZWZ ' y (12)
que ser idntico para todas as matrizes W que diferem

por um fator de proporcionalidade.
O ESTIMADOR IV-GMM
A consistncia garantida por qualquer matriz
de ponderao W simtrica positiva e portanto h
tantos estimadores GMM como h escolhas da
matriz de ponderao W.
Mas a eficincia no garantida por uma W
arbitrria. Ento, o ltimo estimador ser
referido como estimador GMM possivelmente
ineficiente.
Estamos interessados em obter estimadores
GMM eficientes: estimadores com mnima
varincia assinttica.
QUAL A ESCOLHA TIMA DA MATRIZ
DE PONDERAO W QUE MINIMIZA A
VARINCIA DO ESTIMADOR GMM?
Seja S a matriz de covarincia assinttica das
condies de momento g :
1
S AVar ( g ( )) lim E ( Z ' uu ' Z )
n n
1 (13)
lim E ( Z ' Z )
n n
1
onde S uma matriz L x L , g ( ) Z ' u
n
e a matriz de varincia-covarincia dos
resduos.
A frmula geral para a distribuio do estimador
GMM :
1
V ( GMM ) (Q ' XZ WQXZ ) 1 (Q ' XZ WSWQXZ )(Q ' XZ WQXZ ) 1 (14)
n
O estimador GMM eficiente o estimador GMM com

uma matriz de ponderao tima que minimiza a
varincia assinttica do estimador. Isto obtido pela
escolha de W = S-1
Substituindo W por S-1 na expresso anterior do
estimador GMM, temos:
GMM ( X ' ZS 1Z ' X ) X ' ZS 1Z ' y (15)
com varincia assinttica:

V ( EGMM ) (Q ' XZ S Q ' XZ )
1 1
(16)
A matriz S obtida em um primeiro estgio atravs

da estimativa ineficiente de uma matriz diagonal
que posteriormente introduzida na expresso:
1 n 2 ' 1 (17)
S
n
u Z Z
i 1
i i i
n
Z
Z '
onde uma matriz diagonal de resduos ao
quadrado ui2 de , que o estimador GMM de
primeiro estgio consistente mas no
necessariamente eficiente. No comando Stata
ivreg2, este estimador de primeiro estgio IV ,
o estimador de variveis instrumentais.
COMO UTILIZAR O COMANDO
IVREG2 PARA ESTIMAR GMM
use MROZ, clear
ivreg2 lwage exper expersq (educ=age kidslt6 kidsge6)
ivreg2 lwage exper expersq (educ=age kidslt6 kidsge6), robust
ivreg2 lwage exper expersq (educ=age kidslt6 kidsge6), gmm2s robust
ivreg2 lwage exper expersq (educ=age kidslt6 kidsge6), gmm2s
No primeiro comando (acima) temos um estimador padro IV/2SLS

(estamos assumindo da matriz de varincia- covarincia que os erros so
condicionalmente homocedsticos e independentes (i.i.d.).
No segundo comando temos um estimador IV/ 2SLS com estimador da
matriz de varincia-covarincia que robusto a heterocedasticidade.
GMM E ERROS HETEROCEDSTICOS

a matriz diagonal de quadrados dos
resduos.
u12 K 0
M u 2
M

i
0 L un2

onde ui uma estimativa consistente de ui . Ento,

um estimador consistente de S
1 Z)
S (Z ' (18)
n
GMM E ERROS HETEROCEDSTICOS
1. Estimar uma equao usando IV.
2. Calcule os resduos u . Use estes resduos para
calcular a matriz de ponderao tima:
1 Z )) 1 (19)
1
W S1. ( ( Z
n
3. Calcule o estimador GMM eficiente EGMM e sua

matriz de varincia-covarincia usando a matriz
de ponderao tima estimada.
QUAIS SO AS IMPLICAES DA
HETEROCEDASTICIDADE PARA O
ESTIMADOR IV?
Na presena de heterocedasticidade, o estimador IV
ineficiente mas consistente, enquanto que a matriz padro
estimada de covarincia inconsistente.
A vantagem do GMM sobre IV clara: se a
heterocedasticidade est presente, o estimador GMM
mais eficiente que o estimador simples IV, enquanto que se
no existe heterocedasticidade o estimador GMM no pior
assintoticamente que o estimador IV.
No entanto, o uso do GMM tem um preo. A matriz de
ponderao tima S uma funo dos quartos momentos e
a obteno de uma estimativa razovel para estes requer
amostras muito grandes.
Se o erro homocedstico, IV prefervel ao GMM eficiente
(ver Slide 30).
TESTES DE
HETEROCEDASTICIDADE
Estatsticas de Breusch-Pagan/Godfrey/Cook-Weisberg e
White/Koenker so testes de heterocedasticidade em
regresso OLS.
Testa-se a relao entre os resduos da regresso e p
variveis indicadores que so relacionadas a
heterocedasticidade (por hiptese).
2
A estatstica distribuda como uma com p graus de
liberdade sob a nula de no heterocedasticidade e de que o
erro da regresso normalmente distribudo.
O poder deste teste muito sensvel a hiptese de
normalidade dos resduos: Koenker proposum teste que
relaxa esta hiptese.
Estes testes esto no Stata aps a estimao com o
comando regress, com ivhettest, hettest e whitetst.
TESTES DE
HETEROCEDASTICIDADE
Pagan e Hall mostraram que estes testes so
vlidos na regresso IV somente se h
heterocedasticidade naquela equao e em
nenhuma outra mais no sistema.
As outras equaes estruturais no sistema
(correspondentes aos regressores endgenos X1)
precisam ser homocedsticas mesmo que elas no
sejam explicitamente estimadas.
Este teste est disponvel no Stata atravs do
comando ivhettest aps a estimao com ivreg,
ivreg2 ou ivgmm0
TESTANDO A RELEVNCIA E
VALIDADE DOS INSTRUMENTOS
Como vimos as variveis instrumentais tem que
satisfazer duas condies: precisam ser
correlacionadas com os regressores endgenos e
devem ser ortogonais ao processo de erro.
A primeira condio pode ser testada examinando o
grau de ajuste das regresses de primeiro estgio,
ou o que o mesmo, verificar o poder explicativo
dos instrumentos excludos nestas regresses.
A estatstica comumente usada o R 2 da regresso
de primeiro estgio: a correlao parcial ao
quadrado entre os instrumentos excludos Z 1 e o
regressor endgeno (Bound).
Um exemplo: o pesquisador tem um modelo com dois
regressores endgenos e dois instrumentos excludos. Um
dos instrumentos excludos altamente correlacionado com
os dois regressores endgenos mas o outro instrumento
excludo tem uma correlao nula (representa um processo
de rudo).
O modelo est, portanto, sub-identificado: h um
instrumento bom mas dois regressores endgenos. Mas a
estatstica F e o R2 no revelam esta fraqueza.
A soluo encontrar mais instrumentos relevantes ou
eliminar o regressor endgeno da equao.
A estatstica de Bound s e vlida quando temos apenas
um regressor endgeno.
Para levar em conta diversos regressores
endgenos Shea(1997) props uma medida de R2
parcial que leva em conta as inter-correlaes
entre os instrumentos. Para um modelo
contendo um nico regressor endgeno, as duas
medidas de R2 so equivalentes.
Se uma equao gera um grande valor do R2
parcial (Bound) e pequeno valor da medida de
Shea, podemos concluir que os instrumentos tem
pouca relevncia para explicar os regressores
endgenos e o modelo pode estar sub-especificado.
CONSEQNCIAS DE
INSTRUMENTOS FRACOS
Aumento do vis dos coeficientes IV estimados.
O modelo no fica identificado com relao as variveis
endgenas.
Neste caso, o vis do estimador IV o mesmo do estimador
OLS a estimao IV inconsistente e nada se ganha com
isto.
Para equao com um nico regressor endgeno uma
estatstica F com valor menor do que 10 significa que os
instrumentos so fracos.
Deve-se ser parcimonioso na escolha dos instrumentos, dado
que o vis por IV crescente com o numero de instrumentos.
O problema de instrumentos fracos pode aparecer mesmo
quando os testes de primeiro estgio so significativos aos
nveis de 5 e 1 % e se dispe de uma amostra grande.
TESTANDO A ENDOGENEIDADE DE UMA
VARIVEL EXPLICATIVA (WOOLDRIDGE
PG 473)
Suponha a seguinte equao de regresso:
y1 0 1 y2 2 z1 3 z2 u1 (20)
onde y2 a varivel que suspeita-se que seja
endgena e z1 e z2 so exgenas.
Temos a equao de y2 na forma reduzida:
y2 0 1z1 2 z2 3 z3 4 z4 v2 (21)
Como as variveis z so no correlacionadas
com u1, y2 ser no correlacionado com u1 se, e
somente se v2 for no correlacionada com u1.
TESTANDO A ENDOGENEIDADE DE
UMA VARIVEL EXPLICATIVA
Existem duas maneiras de testar isto:
1) Regredir u1 contra em v2 um modelo u1 1v2 e1

onde e1 no correlacionado com v2 e tem mdia 0.
Ento u1 e v2 sero no correlacionados se, e
somente se 1 0 .
2) Incluir v2 como um regressor adicional na
primeira equao e fazer um teste t para 1 :
y1 0 1 y2 2 z1 3 z2 1v2 u1
(22)
Se a estimativa 1 for significativa (atravs de um
teste t) conclumos que y2 endgena na equao
(20).
Podemos tambm testar a endogeneidade de
mltiplas variveis explicativas. Para cada
varivel suspeita de ser endgena obtemos os
resduos da equao da forma reduzida e
verificamos a significncia conjunta da forma
estrutural usando um teste F. Se rejeitarmos a
nula conclumos que pelo menos uma das
variveis explicativas endgena (Wooldridge pg.
477).
* TESTE DE ENDOGENEIDADE DE UMA UNICA VARIAVEL
EXPLICATIVA
use "c:\textos download\wooldridge data files\mroz.dta", clear

regress educ exper expersq motheduc fatheduc if hours > 0
test motheduc fatheduc
predict v2,residuals
regress lwage educ exper expersq v2
regress lwage educ exper expersq
ivregress 2sls lwage exper expersq (educ = motheduc fatheduc)
MODELOS DE EQUAO
SIMULTNEA E O PROBLEMA DA
IDENTIFICAO
Vamos supor um modelo Keynesiano simples de
determinao de renda:
Funo consumo: Ct (23)
0 1Yt ut 0 < 1 1
Identidade da renda: Yt Ct I(24)t ( St )
onde:
C = despesas de consumo
Y = renda
I = investimento (considerado exgeno)
S = poupana
t = tempo
u = termo de erro estocstico
MODELOS DE EQUAO
SIMULTNEA E O PROBLEMA DA
IDENTIFICAO
No modelo de equaes simultneas (equaes 23
e 24) nota-se que C e Y so variveis
interdependentes. Quando o termo aleatrio ut
muda, o valor de C varia (pela equao 23) e isto
faz variar Y (pela equao 24) tornando Yt e ut
correlacionados em (23).
Isto faz com que o estimador OLS de 1 em (23)
seja viesado e inconsistente. Podemos demonstrar
isto tambm (ver Gujarati, pg 582) substituindo
(23) em (24) e teremos:
Yt 0 1Yt ut I t (25)
O PROBLEMA DA IDENTIFICAO
Problema da identificao = possibilidade de
obter, ou no, os parmetros de uma equao
estrutural a partir dos coeficientes estimados na
forma reduzida. Em caso afirmativo, dizemos que
a equao identificada. Em caso negativo,
dizemos que a equao sub-identificada.
Uma equao exatamente identificada quando
podemos obter valores numricos exatos para
seus parmetros.
Uma equao sobre-identificada quando mais
de um valor numrico podem ser obtidos para
alguns dos parmetros das equaes estruturais.
REGRAS PARA IDENTIFICAO: A
CONDIO DE ORDEM
No caso de um modelo com M equaes
simultneas, para que a equao possa ser
identificada, preciso que exclua no mnimo M-1
das variveis (tanto endgenas quanto exgenas)
que aparecem no modelo.
Para que uma equao seja identificada, em um
modelo de M equaes simultneas, o nmero de
variveis exgenas excludas da equao no
poder ser menor do que o nmero de variveis
endgenas includas nesta equao menos 1.
CONDIO DE ORDEM
Exemplo 1:
Funo de demanda: Qt 0 1 Pt u1t
Funo de oferta: Qt 0 1 Pt u2t
modelo com duas variveis endgenas, P e Q e
nenhuma varivel exgena. Para serem
identificadas, cada uma destas equaes devem
excluir M-1 = 2-1 = 1 varivel. Como isto no ocorre
nenhuma das equaes identificada.
CONDIO DE ORDEM
Exemplo 2:
Funo de demanda: Qt 0 1 Pt 2l + u1t
Funo de oferta: Qt 0 1 Pt u2 t
modelo com duas variveis endgenas, P e Q e l
exgena. Para serem identificadas, cada uma
destas equaes devem excluir M-1 = 2-1 = 1
varivel. A funo de demanda no identificada,
mas a funo de oferta exatamente identificada.
CONDIO DE ORDEM
Exemplo 3:
Funo de demanda: Qt 0 1 Pt 2l + u1t
Funo de oferta: Qt 0 1Pt 2 Pt 1 u2t
modelo com duas variveis endgenas, Pt e Qt e l e
Pt-1 so exgenas. Para serem identificadas, cada
uma destas equaes devem excluir M-1 = 2-1 = 1
varivel. Tanto a funo de demanda como a funo
de oferta so exatamente identificadas. Portanto, o
modelo como um todo identificado.
CONDIO DE POSTO
Ver Gujarati e Baum.
TESTES REALIZADOS ATRAVS DO
COMANDO IVREG2: TESTE HANSEN-
SARGAN
Teste de restries de sobre-identificao.
A hiptese nula conjunta que os instrumentos
so instrumentos vlidos, isto , no
correlacionados com o termo de erro e que os
instrumentos excludos so corretamente
excludos da equao estimada.
Sob a nula, a estatstica de teste distribuda
como qui-quadrado no nmero de restries de

sobre-identificao.
Uma rejeio coloca em dvida a validade dos
instrumentos.
COMANDO IVREG2: TESTE HANSEN-
SARGAN
Para o estimador eficiente GMM, a estatstica de
teste a estatstica J de Hansen, que o valor
minimizado da funo objetivo GMM.
Para os estimador 2SLS, a estatstica de teste a
estatstica de Sargan, calculada como N*R2 de

uma regresso dos resduos de IV sobre o
conjunto completo de instrumentos.
.
COMANDO IVREG2: ESTATSTICA C
A estatstica C, ou estatstica diferena-em-Sargan
obtida atravs da opo orthog do comando ivreg2.
Permite o teste de um subconjunto de condies de
ortogonalidade, ou seja, o teste de exogeneidade de um ou
mais instrumentos.
definida como a diferena da estatstica Hansen-Sargan
da equao com o conjunto menor de instrumentos e a
equao com o conjunto completo de instrumentos
(incluindo os instrumentos suspeitos).
Sob a nula de que todos os instrumentos so vlidos a
estatstica C tem distribuio qui-quadrado no nmero de
instrumentos testados.
A falha em rejeitar a nula significa que o conjunto total de
condies de ortogonalidade vlido.
TESTES REALIZADOS ATRAVS DO COMANDO
IVREG2: TESTE DE RAZO DE
VEROSSIMILHANA DE CORRELAO
CANNICA DE ANDERSON
Testa se a equao identificada, ou seja, se os
instrumentos excludos so vlidos.
A hiptese nula que a equao sub-especificada.
Sob a nula de sub-identificao, a estatstica distribuda
como qui-quadrado com L-K+1 graus de liberdade (L=
nmero de instrumentos excludos e includos).
A estatstica fornece uma medida da relevncia dos
instrumentos e a rejeio da nula indica que o modelo
identificado.
Importante: uma rejeio da nula deve ser interpretada
com cautela, j que problemas de instrumentos fracos
podem ainda estar presentes.
O COMANDO IVREG2
O COMANDO IVREG2 E
COMPLEMENTARES
Uma importante referencia a ser pesquisada :
Baum, Christopher F. Instrumental variables:

Overview and advances. Boston College and DIW
BerlinUKSUG 13, London, September 2007.
REFERENCIAS
Baum, C. F., M. E. Schaffer, and S. Stillman.
2003. Instrumental variables and GMM:
Estimation and testing. Stata Journal 3: 131.
Baum, C. F. 2006. An Introduction to Modern
Econometrics Using Stata. College Station, TX:

Stata Press.
Baum, C. F. Schaffer M.E. e Stillman, S. 2006.
Enhanced routines for instrumental

variables/GMM estimation and testing, 2007.
Wooldridge, J. M.. 2003. Introductory
Econometrics: A Modern Approach. 2nd ed. New

York: Thomson Learning.
REFERENCIAS
Cameron, A.C. e Trivedi, P.K., 2009.

Microeconometrics using Stata, StataCorp LP.,
College Station, Texas.

Variaveis Instrumentais GMM

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Variaveis Instrumentais GMM

Enviado por

Direitos autorais:

Formatos disponíveis

VARIVEIS

Henrique Dantas Neder

A hiptese fundamental para a consistncia dos

A correlao entre x e u (ou a falha na hiptese de

Um choque ou perturbao tanto na oferta como na

Considere a regresso de (ln) rendimentos (y) sobre

Mas a habilidade certamente correlacionada com o

A varivel adicional z chamada de instrumento

Consideremos o seguinte sistema de equaes de

No caso dos fatores latentes da equao de

gastos totais em medicamentos.

com o termo de erro da equao de segundo

irrelevantes porque muitos indivduos podem estar

Em modelos com mais de um regressor endgeno, mais de

y1i y2i 1 x1i 2 ui , i 1,...., N

Podemos re-escrever esta equao estrutural

assintoticamente equivalente ao primeiro teste

teste de restries de sobre identificao (OIR),

so vlidos, pode ser demonstrado que tem

Regressores [ X 1 X 2 ] [ X 1Z 2 ] [Endgenos Exgenos]

Portanto: a matriz Z ser formada por vetores-coluna constitudos

Apesar deste estimador ser chamado de

iq= 1 + 2s+ 3expr+ 4 tenure+ 5rns+ 6smsa+dummies+

Equao de segundo estgio:

lw = 1 + 2s+ 3expr+ 4 tenure+ 5rns+ 6smsa+dummies+

2 SLS ( X ' X ) 1 X ' y { X ' Z ( Z ' Z ) 1 Z ' X }{ X ' Z ( Z ' Z ) 1 Z ' y}

Var ( 2 SLS ) 2 { X ' Z ( Z ' Z ) 1 Z ' X }1 2 ( X ' Pz X ) 1

O vis assinttico de um estimador IV dado

Mesmo se corr(z,u) for pequena, a inconsistncia no estimador IV pode

Outra expresso para representar o vis

O conjunto de variveis instrumentais Z e tem

Regressores [ X 1 X 2 ] [ X 1Z 2 ] [Endgenos Exgenos]

A condio de ordem para identificao da

gi ( ) Z i'ui Z i' ( yi X i ) i = 1,n (5)

Temos um vetor gi que L x 1 (resultado

g1 ( ) z11 z21 ... zl1 y1 ( 1 x11 ... k x1k )

que o estimador de mnimos quadrados em dois

J ( GMM ) ng ( GMM )'Wg ( GMM ) (11)

onde W uma matriz de ponderao simtrica LxL.

GMM ( X ' ZWZ ' X ) X ' ZWZ ' y (12)

que ser idntico para todas as matrizes W que diferem

O estimador GMM eficiente o estimador GMM com

GMM ( X ' ZS 1Z ' X ) X ' ZS 1Z ' y (15)

com varincia assinttica:

A matriz S obtida em um primeiro estgio atravs

No primeiro comando (acima) temos um estimador padro IV/2SLS

onde ui uma estimativa consistente de ui . Ento,

3. Calcule o estimador GMM eficiente EGMM e sua

1) Regredir u1 contra em v2 um modelo u1 1v2 e1

use "c:\textos download\wooldridge data files\mroz.dta", clear

como qui-quadrado no nmero de restries de

estatstica de Sargan, calculada como N*R2 de

Baum, Christopher F. Instrumental variables:

Econometrics Using Stata. College Station, TX:

Enhanced routines for instrumental

Econometrics: A Modern Approach. 2nd ed. New

Cameron, A.C. e Trivedi, P.K., 2009.

Você também pode gostar