Escolar Documentos
Profissional Documentos
Cultura Documentos
18.1 Introduction
623
La majeure partie du chapitre sra consacree au mod`ele dequations simultanees. Supposons quil y ait g variables endog`enes, et par consequent g
equations, et k variables exog`enes ou predeterminees. Alors le mod`ele peut
etre ecrit sous forme matricielle comme
Y = XB + U.
(18.01)
j=1
La multiplication de tous les param`etres il et Bjl par nimporte quelle constante non nulle aurait pour effet de multiplier utl par cette constante pour
tout t, mais ne modifierait pas la structure des aleas dans les observations.
Il est donc necessaire dimposer une sorte de nomrmalisation pour chaque
equation du mod`ele. Une normalisation evidente consiste `a poser ii = 1
pour tout i; chaque variable endog`ene, de y1 `a yg , serait alors associee `a un
coefficient unitaire dans une et une seule equation. Cependant, comme nous
lavons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
etre envisagees. Nous pourrions, par exemple, poser 1l = 1 pour tout l; le
coefficient associe `a la premi`ere variable endog`ene serait ainsi egal `a lunite
dans chaque equation.
Le mod`ele (18.01) na pas de sens si la matrice nest pas inversible,
car sinons il serait impossible de determiner Y de mani`ere unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par 1 pour obtenir
Y = XB 1 + U 1
= X + V.
(18.02)
(18.03)
624
ne
ite
et Causalite
18.2 Exoge
625
E ht (Yt , Xt , ) = 0,
o`
u lesperance pourrait sinterpreter comme etant conditionnelle `a un ensemble
dinformation approprie.
Definition 18.1.
Les variables explicatives Xt sont predeterminees dans lequation i du
mod`ele (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,
Xt k ui,t+s
pour tout s 0.
626
pour tout s = 1, . . . , n.
Si (18.04) represente une forme structurelle, alors autant la predetermination que lexogeneite stricte nous autorise `a traiter cette forme comme une
caracterisation du processus generant Yt conditonnellement `a Xt . Ainsi
nous pouvons, par exemple, ecrire une fonction de log-vraisemblance basee
sur (18.04), que lon peut maximiser pour obtenir des estimations convergentes des param`etres ; voir la Section 18.4. Si lon pense que (18.04) doit
fournir des conditions portant sur les moments conditionnels, alors autant la
predetermination que lexogeneite stricte nous autorise `a employer les colonnes
de X comme instruments dans lestimation de par une sorte quelconque de
procedure IV, telle que les 2SLS, 3SLS ou la GMM. En reclamant cette propriete, nous supposons quil y a suffisamment dinstruments dans X pour
identifier tous les param`etres de .
Helas, le concept de lexogeneite stricte est beaucoup trop contraignant,
du moins pour les applications sur series temporeles. Dans ce contexte, un
tr`es petit nombre de variables sont strictement exog`enes, bien que beaucoup
soient predeterminees. Cependant, comme nous allons le montrer, une variable peut etre predeterminee ou non dans un meme mod`ele selon la mani`ere
de le parametrer. En plus de cela, la predetermination nest pas toujours
necessaire pour une estimation convergente. Ce concept est par consequent
tr`es peu satisfaisant.
Considerons le mod`ele simultane suivant, tire de Engle, Hendry, et
Richard (1983):
yt = xt + 1t
(18.05)
xt = 1 xt1 + 2 yt1 + 2t ,
(18.06)
o`
u les aleas sont normalement, identiquement, et independemment distribues
pour tout t, avec une matrice de covariance donnee par
11 12
.
12 22
Si 12 6= 0, xt est correle `a 1t et lestimation de (18.05) par OLS ne sera pas
convergente parce que xt nest pas predetermine dans (18.05).
ne
ite
et Causalite
18.2 Exoge
627
(18.07)
Remarquons que 2t est defini par (18.06) comme une combinaison lineaire
des variables conditionnantes. Ainsi lesperance conditionnelle de 1t dans
(18.07) est
E(1t | 2t ) =
12
12
2t =
(x 1 xt1 2 yt1 ).
22
22 t
12
,
22
c 1 = 1
12
,
22
c2 = 2
(18.08)
12
,
22
(18.09)
o`
u vt est independent de xt . Ainsi xt est predetermine dans (18.08), quelle
que soit la valeur de 12 , bien quil ne soit pas predetermine dans (18.05)
lorsque 12 6= 0.
Nous retournerons `a ce mod`ele plus tard. Pendant ce temps, progressons
vers un concept plus approprie que la predetermination dans le contexte du
mod`ele simultane. Parce que nous voulons savoir si les variables explicatives
Xt sont determinees simultanement aux Yt nous aurons besoin de travailler
avec des DGP qui gen`erent `a la fois Yt et Xt . Comme dhabitude, nous
pouvons representer un DGP par une densite de probabilite, ou mieux par
son logarithme, que lon peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de lobservation t est
de la forme
`t (Yt , Xt | t ).
(18.10)
Cette expression est le logarithme de la densite jointe de Yt et Xt conditionnellement `a lensemble dinformation t . Ce dernier est compose de toutes
les observations sur Yt et Xt , de la premi`ere `a la (t 1)th .
Lexpression (18.10) peut etre decomposee en deux contributions, lune
correspondant au logarithme de la densite de Yt cnditionnellement `a Xt et
t , et la seconde correspondant au logarithme de la densite de Xt conditionnellement `a t :
`t (Yt , Xt | t ) = `Yt (Yt | Xt , t ) + `X
t (Xt | t ),
(18.11)
avec une notation evidente. A ce stade, nous souhaitons pouvoir faire abstraction de la seconde partie des contributions dans (18.11), puisquelle ne
concerne que les variables explicatives.
628
Sous quelles conditions pouvons-nous faire abstraction de la seconde contribution? Pour repondre `a cette question, considerons tout dabord un
mod`ele, M, compose de DGP representes par des ensembles de contributions de la forme (18.11). Puis, definissons une application definissante des
param`etres: M Rp qui associe un vecteur de param`etres `a p composantes () `a chaque M. Le vecteur de param`etres contient
les param`etres dinteret, cest-`a-dire ceux que nous vouons estimer. Comme
nous allons le voir, il peut y avoir dautres param`etres, appeles, param`etres
perturbateurs, que nous ne souhaitons pas estimer.
Definition 18.3.
Les variables expliatives Xt sont faiblement exog`enes pour le mod`ele
parametrique (M, ) si
(i) il existe un sous-mod`ele M X qui contient les DGP pour les variables explicatives Xt seulement;
(ii) il existe un sous-mod`ele conditionnel M Y qui contient les DGP
pour les variables endog`enes Yt conditionnellement aux variables
explicatives Xt ;
(iii) le mod`ele complet M comprend tous les DGP joints (Y, X ), o`
u
X
X
Y
est un element arbitraire de M et o`
u est un element
Y
arbitraire de M ; et
(iv) il existe une application definissante des param`etres Y : M Y
telle que, pour tout (Y, X ) M, () = Y (Y ).
Cette definition necessite quelques mots dexplication. Les DGP du sousmod`ele M X sont caracterises par des serise des contributions telles que `X
t
dans (18.11), alors que ceux de M Y sont caracterises par des contributions
telles que `Yt dans cette equation. Ainsi les contributions qui caracterisent
les DGP des deux sous-mod`eles sont tels que, pour lobservation t, la densite
est conditionnelle `a tous les t . Cela signifie en particulier que le processus
qui gen`ere les Xt peut tout `a fait dependre des Yt retardes. La puissance
de point (iii) de la definition est que le mod`ele complet M, les DGP qui ont
des contributions comparables au membre de droite de (18.11), doit contenir
toutes les combinaisons delements de M X et M Y possibles. Le point (iv)
indique que les param`etres du mod`ele ne dependent que du DGP conditionnel
qui gen`ere les Yt conditionnellement aux Xt . Autrement dit, les param`etres
associes au DGP (Y , X ) ne dependent que de Y . Si on remplace X par un
autre DGP pour les memes variables explicatives, disons X, les param`etres
ne sont pas modifies.
Engle, Hendry, et Richard pretendent que lexogeneite faible au sens de la
definiiton precedente est precisement cedont nous avons besoin pour estimer
et realiser des inferences sur les param`etres without sans tenir compte du
sous-mod`ele M X . Afin destimer les mod`eles par maximum de vraisemblance,
cela est suffisament clair. La fonction de log-vraisemblance est la somme des
contributions du type (18.11). Seul le premier terme, issu du sous-mod`ele
ne
ite
et Causalite
18.2 Exoge
629
n
X
`Yt (Yt | Xt , t ; )
t=1
630
Cela signifie que Y t1 ne cause pas au sens de Granger Xt si la distribution de Xt conditionnellement au passe de Xt et Yt est la meme
que celle qui est conditionnelle au passe de Xt .
Un moyen pratique dexprimer la non causalite au sens de Granger consiste `a
dire que le passe de Yt ne contient aucune information sur Xt qui ne soit dej`a
contenue dans le passe de Xt . Bien que cela ne soit pas strictement exact,
il est frequent de parler de causalite au sens de Granger plutot que de non
causalite au sens de Granger. Cette pratique nentrane en general aucune
ambiguite.
ne
ite
et Causalite
18.2 Exoge
631
Il est evident `a partir de (18.06) que, dans le mod`ele donne par cette
equation et par (18.05), yt cause au sens de Granger xt , `a moins que 2 = 0.
Ainsi, meme si 12 = 0, ce qui signifie que xt est faiblement exog`ene pour
le param`etre dans (18.05), le processus generateur de xt depend du passe
de la variable endog`ene yt . par ailleurs, si 2 = 0 mais que 12 6= 0, yt ne
cause pas xt au sens de Granger, bien que xt ne soit pas faiblement exog`ene
pour . Ainsi les deux idees de faible exogeneite et de non causalite au sens de
Granger sont distinctes: aucune nimplique lautre et aucune nest impliquee
par lautre.
Comme nous lavons vu, la presence de la causalite au sens de Granger ne
nous empeche nullement destimer efficacement et de realiser des inferences
sur ce param`etre sans avoir recours au processus qui gen`ere xt si xt est faiblement exog`ene pour . Inversement, une absence dexogeneite faible ne nous
empeche nullement de faire des previsions efficaces de yt conditionnellement
a xt si yt ne cause pas xt au sens de Granger. Plus precisement, supposons
`
que nous etablissions une equation danticipation de xt basee sur sont passe
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que
E(xt | xt1 ) = (1 + 2 )xt1 .
(18.12)
On anticiperait alors xt en termes de la valeur retardee xt1 et dune estimation du param`etre dautoregression 1 + 2 , obtenu, sans doute, par une
regression de xt sur sa propre valeur retardee dune periode. Si par la suite
nous souhaitons anticiper yt conditionnellement `a notre prevision de xt , nous
developperions une equation de prevision de yt en fonction de celle de xt et
du passe des deux variables. De (18.08),
E(yt | xt , t ) = bxt + c1 xt1 + c2 yt1 ,
(18.13)
o`
u b, c1 , et c2 sont definis par (18.09). Si maintenant nous remplacons xt dans
(18.13) par son anticipation (18.12), nous obtenons une prevision
b(1 + 2 )xt1 + c1 xt1 + c2 yt1 .
(18.14)
632
`les Simultane
s
18.3 LIdentification dans les Mode
Le probl`eme de lidentification dans les mod`eles dequations simultanees est,
en principe, comparable `a ce dont nous avons discute dans le contexte general
des mod`eles paraetrises. si pour un mod`ele M donne, il est possible de definir
une application definissante des param`etres, alors les param`etres du mod`eles
sont identifies, dans le sens o`
u un seul et unique vecteur de param`etres est
associe `a chaque DGP dans M. Cependant, meme si une telle application
existe, les donnees doivent satisfaire certaines conditions pour que le mod`ele
soit identifie par les donnees, et le DGP doit en satisfaire dautres pour que
le mod`ele soit identifie asymptotiquement. Dans le Chapitre 5, nous avons
defini et discute en detail du concept didentification asymptotique, et nous
lavons compare au conept didentification par un ensemble dobservations
particulier. Dans le cadre des mod`eles dequations simultanees, cest bien
s
ur le premier qui nous interesse. Toutes les methodes destimation que nous
avons etudiees se fondent sur la theorie asymptotique, et on ne peut pas
esperer realiser des estimations convergentes si les param`etres ne sont pas
identifies asymptotiquemen.
`les Simultane
s
18.3 LIdentification dans les Mode
633
634
Y1
Y2 ],
(18.15)
o`
u le vecteur colonne y est la variable endog`ene associee au coefficient unitaire dans a premi`ere equation du syst`eme, les colonnes de la matrice Y1 de
dimension n g1 sonbt les variables endog`enes non exclues de cette equatiobn
par des contraintes de nullite, et o`
u les colonnes de la matrice Y2 de dimension n (g g1 1) sont les variables endog`enes exclues. Pareillement, nous
partitionnons la matrice X des variables exog`enes:
X = [ X1
X2 ],
(18.16)
o`
u les colonnes de la matrice X1 de dimension nk1 sont les variables exog`enes
qui sont incluses dans lequation, et o`
u celles de la matrice X2 de dimension
n (k k1 ) sont les variables exog`enes exclues.
De facon coherente avec la partition de Y et X, nous pouvons partitionner
le smatrices de coefficients
et Bcomme suit:
1 02
B
1
12
.
(18.17)
= 1 12 et B =
0 B22
0 22
Les lignes de sont partitionnees comme les colonnes de Y dans (18.15), et
celle de B le sont comme les colonnes de X dans (18.16). En plus de cela,
nous avons partitionne les colonnes de et B pour quelles puissent separer
les premi`eres colonnes de chaque matrice des autres colonnes, puisque ce sont
les premi`eres colonnes qui contiennent les param`etres de la premi`ere equation
du syst`eme. On peut donc ecrire la premi`ere equation comme suit:
y = Y1 1 + X1 1 + u = Z + u,
(18.18)
o`
u la matrice Z de dimension n (g1 + k1 ) est [X1 Y1 ], et o`
u le vecteur
...
parametrique est [1 . 1 ].
Pour obtenir une estimation 2SLS de , nous devons utiliser des variables
instrumentales. Les colonnes de X1 , qui sont exog`enes, peuvent servir en tant
quinstruments, et celles de X2 constituent des instruments supplementaires.
Si les colonnes de X sont les seuls instruments disponibles, il va de soi quune
condition necessaire `a lidentification de , que ce soit avec des echantillons
finis ou asymptotiquement, est que X poss`ede au moins autant de colonnes
que Z. Cela revient `a dire que X2 doit posseder au moins autant de colonnes
que Y1 , cest-`a-dire que k k1 g1 . Autrement dit, il faut q`eue le nombre des
variables exog`enes exclues soit au moins aussi grand que celui des variables
endog`enes incluses. Cette condition est connue sous le nom de condition
dordre pour lidentification. Cependant, comme nous le verrons, cest une
condition necessaire mais qui nest pas suffisante en general.1
1
`les Simultane
s
18.3 LIdentification dans les Mode
635
Il nest pas evident que X fournisse toutes les variable s instrumentales requises. Pourquoi ne pas employer dautres variables endog`enes ou
predeterminees qui sont correlees aux variables endog`enes Y1 ? Meme dans
le cas o`
u la condition dordre est verifiee, ne pourrions-nous pas faire usage dautres instruments disponibles pour obtenir des estimations plus efficaces? Il sav`ere que lusage dinstruments supplementaires ne permet pas
dindentifier asymptotiquement des param`etres qui ne le sont pas. De plus,
lorsque les aleas u sont homoscedastiques et independants en serie, les instruments supplementaires napportent aucun gain defficacite.
Pour mettre en evidence ces resultats, nous considerons la forme reduite
contraintes (18.02) correspondant `a (18.01). Par un leger abus de notation,
nous poserons simplement
Y = X + V ,
(18.19)
en definissant par B 1. Il sera necessaire de partitionner conformement aux partitions (18.17) de et B:
1 11 12
=
.
(18.20)
2 21 22
La partition des lignes est ici la meme que celle de B dans (18.17), et la
partition des colonnes est identique `a celle de dans la meme equation,
ainsi qu`a celle de Y dans (18.15). Nous supposerons que les donnees ont ete
generees par le processus (18.19) avec = 0 = B0 01.
Considerons `a present lidentification du vecteur parametrique dans
lequation (18.18) pour nimporte quelle matrice W dinstruments valables,
cest-`
a-dire nimporte quelle matrice W telle que plim(n1 W >W ) est une
matrice definie et deterministe, et telle que plim(n1 W >V ) = 0. A partir
des resultats de la Section 7.8, est identifiable par les donnees si la matrice Z>PW Z est definie positive, et il est identifiable asymptotiquement si
plim(n1Z>PW Z) est definie positive. Pour etudier cette limite en probabilite, examinons la matrice
1
1
W >Z =
W > [ X1
n
n
1
=
W > [ X1
n
Y1 ]
X1 11 + X2 21 + V1 ],
(18.21)
o`
u le bloc V1 de la matrice daleas V correspond au bloc Y1 de Y dans (18.15),
et o`
u les coefficients de la forme reduite sont evaluees avec = 0 .
Lorthogonalite asymptotique entre les instruments W et la matrice
daleas V signifie que la limite en probabilite de (18.21) est
1
>
plim
W [ X1 X1 11 + X2 21 ] .
(18.22)
n
n
Ceci montre clairement que, quel que soit le choix dune matrice dinstruments
W, le rang de la matrice (18.22) ne peut exceder k, qui est precisement le nombre de variables exog`enes lineairement independantes. Toutes les colonnes de
636
la matrice partitionnee dans (18.22) sont des colonnes de X ou des combinaisons lineaires de ces colonnes. Il sensuit que le rang de plim(n1Z>PW Z)
ne peut jamais depasser k lui non plus. Ainsi, si Z poss`ede plus de k colonnes,
ce qui implique une violation de la condition dordre, plim(n1Z>PW Z) est
singuli`ere, et donc, non definie positive. Nous concluons que la condition
dordre est bien necessaire pour lidentification asymptotique de , quel que
soit lensemble dinstruments employe.
Puis nous montrons que, sous les hypoth`eses dhomoscedasticite et dindependance en serie des aleas u, les colonnes de X offrent des instruments
optimaux pour lestimation de . Il y a deux eventualites possibles. Dans
la premi`ere, S(X) S(W ). Puisque X1 et X2 appartiennent `a S(X), nous
voyons `
a partir de (18.22) que
1 >
1 >
Z
plim
Z
P
Z
=
plim
P
Z
W
X
n n
n n
1
>
[ X1 X1 11 + X2 21 ] [ X1 X1 11 + X2 21 ] .
= plim
n
n
`les Simultane
s
18.3 LIdentification dans les Mode
637
sur dans le DGP. Les param`etres 1 et 1 de la premi`ere equation structurelle peuvent etre identifies si et seulement on peut les retrouver de facon
unique `a partir de la matrice des param`etres de la forme reduite contrainte.
Cette matrice, par definition, satisfait lequation = B, dont nous pouvons
ecrire la premi`ere colonne sous la forme
1 + 11 1 = 1
2 + 21 1 = 0
en vertu des partitions de (18.17) et (18.20). La premi`ere de ces deux
equations sert `a definir 1 en termes de et 1 , et nous permet de voir
que 1 peut etre identifie si 1 lest aussi. La seconde equation montre que
1 est determine de facon unique si et seulement si la sous-matrice 21 est de
plein rang en colonnes, cest-`a-dire si le rang de la matrice est egal au nombre de ses colonnes (voir lAnnexe A). La sous-matrice 21 poss`ede k k1
lignes et g1 colonnes. Par consequent, si la condition dordre est satisfaite, il
y a au moins autant de lignes que de colonnes. La condition `a lidentification
de 1 , mais aussi `a celle de 1 , est que les colonnes de 21 soient lineairement
independantes.
Il est instructif de voir pourquoi cette derni`ere condition est equivalente
a la condition de rang en termes de plim(n1Z>PX Z). Si, comme nous
`
lavons suppose tacitement tout au long de cette discussion, les variables
exog`enes X satisfont la condition que plim(n1X>X) est definie positive,
alors plim(n1Z>PX Z) peut ne pas etre de plein rang si plim(n1X>Z) a un
rang inferieur `a g1 + k1 , le nombre de colonnes de Z. La limite en probabilite
de la matrice n1 X>Z provient de (18.22), en remplacant W par X. Si nous
faisons abstractin de la limite en probabilite et du facteur n1 pour simplifier
la notation, la matrice pertinente peut secrire comme suit:
>
X1 X1 X1>X1 11 + X1>X2 21
.
(18.23)
X2>X1 X2>X1 11 + X2>X2 21
La matrice (18.23) nest pas de plein rang g1 + k1 si et seulement sil existe
.
un vecteur non nul [1 ... 2 ] de dimension (g1 + k1 ) tel que (18.23) fois ce
vecteur donne un vecteur nul. Si nous explicitons cette condition, et si nous
arrangeons les differents termes, nous obtenons
>
X1 X1 X1>X2
1 + 11 2
= 0.
(18.24)
21 2
X2>X1 X2>X2
La premi`ere matrice du membre de gauche est simplement X>X, et elle est
clairement non singuli`ere. La condition porte alors sur les deux equations
vectorielles
1 + 11 2 = 0
(18.25)
21 2 = 0.
(18.26)
638
Si ces equations sont verifiees pour un vecteur non nul, il est clair que 2
ne peut pas etre nul. Par consequent, la seconde equation nest verifiee que
si 21 nest pas de plein rang. Alors si la condition de rang en termes de
Z>PX Z nest pas verifiee, alors elle ne lest pas non plus en termes de 21 .
Inversement, supposons que (18.26) soit verifiee pour un vecteur 2 non nul
quelconque de dimension g1 . Alors 21 nest pas de plein rang. Definissons
1 en termes de 2 et grace `a (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale nest pas satisfaite. Ainsi les
deux versions de la condition de rang sont equivalentes.
Nous terminons cette section en etablissant, sans demonstration, une
troisi`eme version de la condition de rang, equivalente aux deux premi`eres, en
termes des param`etres structurels et B. Il est impossible dexprimer cette
condition exclusivement ne termes des param`etres 1 et 1 de la premi`ere
equation. Au contraire, ce sont uniquement les valeurs des autres param`etres
qui determinent la possible identification de 1 et 1 . Ce troisi`eme expose
de la condition de rang est formule de la mani`ere suivante. Construisons la
matrice de dimension (g g1 1 + k k1 ) (g 1)
22
.
B22
`te
18.4 Maximum de Vraisemblance en Information Comple
Il est possible detablir une classification de deux facons des mod`eles dequations simultanees. La premi`ere classification naturelle distingue les methodes
equation par equation des methodes systemiques. Les premi`eres, dont les
representants principaux sont les 2SLS et le LIML, estiment le mod`ele
`te
18.4 Maximum de Vraisemblance en Information Comple
639
equation par equation. Les secondes, dont les representants principaux sont les
3SLS et le FIML, estiment tous les param`etres du mod`ele en meme temps. Les
adjectifs information limitee et information compl`ete qui composent les
noms LIML et FIML montrent clairement que la premi`ere methode sapplique
equation par equation, et que la seconde sapplique au syst`eme dans sa globalite. Les methodes equation par equation sont plus faciles `a mettre en oeuvre,
alors que les methodes systemiques produisent des estimations potentiellement
plus efficaces.
Lautre classification naturelle distingue les methodes basees sur le maximum de vraisemblance, `a savoir le LIML et FIML, des methodes basees
sur les variables instrumentales ou la methode des moments generalises, dont
les representants les plus connus sont les 2SLS et les 3SLS. Les methodes
du ML produisent des estimations invariantes `a la reparametrisation (voir la
Section 8.3) alors que ce nest pas le cas des methodes des IV. Nous avons
dej`
a vu en detail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement detaille de FIML, qui diff`ere des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacrees au LIML et
aux 3SLS.
Tous les estimateurs dequations simultanees tentent de gerer le fait que
les aleas des equations structurelles sont correles avec nimporte quelle variable
endog`ene apparaissant dans lequation. Cette correlation rend les OLS non
convergents. Nous avons vu que les 2SLS g`erent ce probl`eme en remplacant
les regresseurs defectueux par des instruments. Dun autre cote, le FIML
g`ere ce probl`eme par la maximisation dune fonction de log-vraisemblance
qui implique un terme Jacobien qui nest pas simplement la transformation
dune somme de residus au carre. Le FIML g`ere egalement deux probl`emes
qui se manifestent dans le cadre de tout mod`ele multivarie, quil y ait ou non
simultaneite; voir la Section 9.9. Le premier probl`eme est que, en dehors de
rares cas, les aleas des differentes equations seront correles. Les techniques
equation par equation telles que les 2SLS ou le LIML ingorent purement et
simplement ce probl`eme. Au contraire, les techniques systemiques telles que le
FIML ou les 3SLS assurent la gestion de ce probl`eme et devraient normalement
produire des estimations plus efficaces en general. le second probl`eme est que,
dans de nombreux mod`eles, il existe des contraintes dequations croisees. Les
methodes equation par equation ingorent necessairement ce probl`eme, mais
les methodes systemiques telles que le FIML en tiennent compte. Lorsque le
syst`eme complet est etabli, les param`etres qui apparaissent dans plus dune
equation sont automatiquement traites de facon differente des param`etres qui
napparaissent que dans une seule.
Le mod`ele dequations simultanees lineaire (18.01), dont les aleas sont
supposes etre normalement distribues, homoscedastiques et indpendants en
serie, peut secrire
Yt = Xt B + Ut ,
Ut N (0, ),
(18.27)
640
1
(2)g/2 ||1/2 exp
Ut 1 Ut> .
2
n
X
ng
t=1
n
X
n
1
log ||
Yt Xt B 1 Yt Xt B >.
(18.28)
t=1
Une premi`ere etape pratique dans la maximisation de `(B, , ) consiste `a la concentrer par rapport `a ou, comme nous lavons fait dans la
Section 9.9, par rapport `a son inverse, 1. Etant donne que
n
X
`
n
1
=
Yt Xt B > Yt Xt B ,
1
2
2
t=1
1
(B, ) =
Y XB > Y XB .
n
(18.29)
ng
`c (B, ) = log(2) + 1 + n log |det |
2
>
1
n
log
Y XB Y XB .
n
(18.30)
`te
18.4 Maximum de Vraisemblance en Information Comple
641
(18.31)
ng
1
1 >
1
log(2) + 1
log
Y
XB
Y
XB
(18.32)
.
n
2
Cette nouvelle expression pour `c (B, ) est egale `a celle derivee precedemment, (18.30). Legalite entre (18.30) et (18.32) decoule du fait que
1
n
1 >
1
log
Y XB
Y XB
n
2
1 > 1 >
n
1 >
1
1
=
log
(
)
XB
Y
XB
n
2
>
1
n
= n log |det |
log
Y
XB
Y
XB
.
n
2
Il est interessant de noter que la fonction de log-vraisemblance concentree pour un mod`ele dequations simultanees peut secrire de deux mani`eres
differentes, (18.30) et (18.32). Cela montre de facon tout `a faut claire que
les formes structurelle et reduite contrainte sont silmplement des moyens
dexprimer le meme mod`ele. Nous pouvons assimiler le mod`ele dequations
simultanees soit `a un type particulier de mod`ele, dont la fonction de logvraisemblance concentree est donnee par (18.30), soit `a un cas particulier
de mod`ele de regression multivariee non lineaire, dont la fonction de logvraisemblance concentree est identique `a celle de nimporte quel autre mod`ele
642
de regression multivariee. Mis sous cette forme, nous pouvons lui appliquer
tous les resultats dej`
a etablis dans le Chapitre 9 pour les mod`eles de regression
multivariee. Cependant, parce que la matrice des coefficients B 1 depend
non lineairement des coefficients de toutes les equations du mod`ele, (18.32)
est en general moins pratique que (18.30).
Lorsquil fut propose `a lorigine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML netait pas dun calcul aise, parce que
les maximisation de la fonction de log-vraisemblance (18.30) necessite une
optimisation numerique. Au fur et `a mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se democratisait, un certain nombre de
procedures de maximisation de la fonction de log-vraisemblance fut propose,
et la plupart des progiciels deconometrie modernes incopore au moins lune
delles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des references `a consulter sur ce th`eme.
Comme dhabitude, la matrice de covariance asymptotique des estima ,
et
peut etre estime de differentes facons.
tions parametriques FIML B,
Une approche qui reste relativement aisee mais peu recommandee avec de petits echantillons consiste `a executer une regression OPG. Cette regression artificielle peut se baser sur la fonction de log-vraisemblance concentree (18.28),
mais pas sur la fonction concentree (18.30), parce que cette derni`ere nest
pas ecrite sous la forme dune somme de contributions. Une deuxi`eme approche consiste `a partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous lavons mis en evidence dans la Section 9.9, le bloc de la matrice
dinformation assovcie aux param`etres des fonctions de regression dun mod`ele
de regression multivariee est donne par (9.69), et ce bloc peut sobtenir `a laide
de la GNR (9.58). Une troisi`eme approche pour estimer la matrice de covar et consiste `a utiliser la propriete dequivalence
iance asymptotique de B
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log |det | qui apparat explicitement dans (18.30)
joue un role fondamental dans lestimation. Sa presence est essentielle `a la
convergence des estimations ML. De plus, lorsdque le determinant de tend
vers zero, ce terme tend vers linfini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins linfini chaque fois que le determinant de tend vers
zero. Cela est coherent, parce que le mod`ele nest pas gerable si |det | = 0, ce
qui implique que la vraisemblance dun tel ensemble de param`etres est nul. De
fait, cela signifie que lespace des valeurs possibles de est divise en un certain
nombre de regions, separees par des singularites lorsque |det | = 0. Dans le
cadre du mod`ele doffre- demande discute dans la Section 7.3, par exemple, il
nexiste quune seule singularite, qui survient lorsque les pentes des fonctions
doffre et de demande sont egales. On ne peut pas esperer quun algorithme
de maximisation numerique passe `a travers ces singularites en general, meme
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser numeriquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le
`te
18.4 Maximum de Vraisemblance en Information Comple
643
644
n
ng
1
Y X Y X ,
(18.33)
log(2) + 1 log
n
2
(Y X)>(Y X).
(18.34)
XA)>(Y X
XA)
(Y X
(18.35)
= (MXY XA)>(MXY XA)
>
= Y MXY + A>X>XA.
Parce que le determinant de la somme de deux matrices definies positives
est toujours superieur `a chacun des determinants des deux matrices (voir
lAnnexe A), il vient de (18.35) que (18.34) sera superieur `a Y >MXY pour
minimise (18.34), ce qui demontre
toute matrice A 6= 0. Cela implique que
que les estimations OLS equations par equation de la FRL sont egalement les
estimations ML systemiques.
Si lon ne dispose pas dun progiciel de regression qui calcule (18.33), il
existe un moyen different dy parvenir. Considerons le syst`eme recursif
y1 = X1 + e1
y2 = X2 + y1 1 + e2
y3 = X3 + [y1 y2 ]2 + e3
y4 = X4 + [y1 y2 y3 ]3 + e4 ,
(18.36)
` Information Limite
e
18.5 Maximum de Vraisemblance a
645
et ainsi de suite, o`
u yi designe la i i`eme colonne de Y. On peut interpreter ce
syst`eme dequations comme une simple reparametrisation de la FRL (18.03).
Il est aise de voir que si lon estime ces equations par OLS, tous les vecteurs
de residus seront orthogonaux: e2 sera orthogonal `a e1 , e3 sera orthogonal
a e2 et `a e1 , et ainsi de suite. Conformement `a la FRL, tous les yi sont
`
des combinaisons lineaires des colonnes de X et derreurs aleatoires. Par
consequent, les equations de (18.36) sont correctes pour tout choix arbitraire
des param`etres : les i sajustent simplement selon le choix opere. Toutefois,
si nous reclamons lorthogonalite des termes derreur ei , cela sert `a identifier
un choix particulier unique des . En realite, le syst`eme recursif (18.36)
poss`ede autant de param`etres que la FRL (18.03): g vecteurs i , possedant
chacun k elements, g 1 vecteurs i , avec en tout g(g 1)/2 param`etres, et
g param`etres de variance, ce qui donne un total general de gk + (g 2 + g)/2
param`etres. la FRL poss`ede gk param`etres pour la matrice de covariance
et (g 2 +g)/2 pour la matrice de covariance , ce qui donne un total identique.
La difference est que les param`etres de (18.36) ont ete remplaces par les
elements non diagonaux de la matrice de covariance de V dans la FRL.
Etant donne que le syst`eme recursif (18.36) est une simple reparametrisation de la FRL (18.03), il ne devrait pas etre surprenant dapprendre que la
fonction de log-vraisemblance pour le syst`eme recursif est egale `a (18.33).
Parce que les residus des diverses equations dans (18.36) sont orthogonaux, la valeur des fonctions de log-vraisemblance des estimations OLS des
equations individuelles. Ce resultat, que les lecteurs peuvent aisement verifier
numeriquement, fournit parfois un moyen pratique de calculer la fonction de
log-vraisemblance de la FRL. En dehors de cet usage, les syst`emes recursifs
sont dune faible utilite. Ils ne procurent aucune information que ne soit dej`a
disponible dans la FRL, et la reparametrisation depend de lordonnancement
des equations.
` Information Limite
e
18.5 Maximum de Vraisemblance a
Lun des probl`eles qui se pose avec le FIML et les autres methodes systemiques
est quelles necessitent de la part du chercheur une specification de la structure de toutes les equations du mod`ele. La mauvaise specification dune
equation quelconque conduira en general `a des estimations non convergentes
pour toutes les equations. Pour eviter ce probl`eme, `a condition que lefficacite
ne soit pas cruciale, les chercheurs peuvent preferer employer des methodes
equations par equation. La plus facile et la plus repandue est la methode des
2SLS, mais elle souffre de deux inconvenients majeurs. les estimations quelle
produit ne sont pas invariantes `a la reparametrisation, et, comme nous lavons
vu dans la Section 7.5, elles peuvent etre sev`erement biaisees avec de petits
echantillons. La methode LIML est ne
technique alternative qui produit des
estimations invariantes et qsui, `a de nombreux egards, poss`ede de meilleures
proprietes avec des echantillons finis que les 2SLS. Bien quelle ait ete proposee
646
par Anderson et Rubin (1949) avant linvention des 2SLS, et quelle ait ete
lobjet dune etude plus theorique, elle a ete peu utilisee par les econom`etres
dans la pratique.
Comme son nom le sugg`ere, lidee de base du LIML consite `a employer
une information partielle sur la structure du mod`ele. Supposons que lon
veuille estimer uen seule equation, disons la premi`ere, dun mod`ele structurel comme (18.01). Nous avons ecrit une equation comparable dans la Section 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y1 , sont endog`enes. Le meilleur moyen
den tenir compte consiste `a ecrire leurs equations sous la forme reduire libre:
Y1 = X1 11 + X2 21 + V1 ,
(18.37)
o`
u la notation est identique `a celle utilisee dans la Section 18.3. La combinaison de (18.18) et (18.37)donne le syst`eme dequations
y Y1 1 = X1 1 + u
Y1 = X1 11 + X2 21 + V1 .
(18.38)
1 0
.
(18.39)
1 I
Parce que cette matrice est triangulaire, son determinant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jacobien dans la fonction de log-vraisemblabce disparat, et la fonction de logvraisemblance pour (18.38) a la meme forme que celle de nimporte quel ensemble de regression apparemment sans lien (voir la Section 9.9). Cela implique que lon peut utiliser nimporte quel programme pour lestimation des
syst`emes SUR pour obtenir des estimations LIML. De plus, lapplication des
GLS faisables `a un syst`eme tel que (18.38), en debutant par des estimations
2SLS pour la premi`ere equaion et OLS pour les equations restantes, produira
des estimations asymptotiquement equivalentes aux estimations LIML. Pagan
(1979) a suggere une procedure o`
u lon it`ere la procedure de GLS faisables
jusqu`
a ce quelle converge vers les veritables estimations LIML.
` Information Limite
e
18.5 Maximum de Vraisemblance a
647
1 B12
1 0
1 + B12 1 B12
1
B
=
=
.
0 B22 1 I
B22 1
B22
La matrice la plus `a droite est simplement la version contrainte de .
Lelement au nord-ouest correspond `a X1 et la matrice au sud-est correspond `a X2 . Puisque 1 napparat pas dans la matrice du bas et peut
varier librement, il est clair que, quelle que soit la valeur de 1 , nous pouvons trouver des valeurs de 1 et B12 telles que lelement au nord-ouest
prenne nimporte quelle valeur. Aurtrement dit, les contraintes sur lequation
structurelle (18.37) nimposent aucune contrainte sur les lignes de qui correspondent `a X1 . En general, cependant, elles imposent des contraintes sur
les lignes qui correspondent `a X2 .
Comme nous lavons vu dans la section qui precedait, il y a equivalence
entre la minimisation dun determinant tel que (18.34) sur lequel ne p`ese
aucune contrainte et lusage des OLS. Dans ce cas, puisquaucune contrainte
sur les lignes de ne correspond `a X1 , nous pouvons employer les OLS pour
estimer ces aram`etres, et ensuite concentrer ce determinant par rapport `a ces
param`etres. Ce faisant, le determinant dans le membre de droite de (18.40)
devient
(Y XB)>M1 (Y XB),
o`
u, comme dhabitude, M1 designe la matrice qui projette orthogonalement
sur S (X1 ).
Nous allons `a present introduire une notation nouvelle. Premi`erement,
.
notons le vecteur [1 ... 1 ]; par consequent, Y yY1 1 . Deuxi`emement,
notons Y M1 Y, Y1 M1 Y1 , et X M1 X2 . On peut recrire le determinant
dans le membre de droite de (18.40) comme
(Y )>(Y )
(Y )>(Y1 X B22 )
(18.41)
(Y X B )>(Y ) (Y X B )>(Y X B ) .
22
22
22
1
1
1
648
A A A>B
>
>
(18.42)
B >A B >B = |A A||B MA B|,
o`
u, comme dhabitude, MA I A(A>A)1A>. Lorsque ce resultat est
applique `a (18.41), nous obtenons
>
(Y1 ) Mv, X Y1 .
(18.44)
On peut exploiter le fait que v et X apparaissent de mani`ere symetrique
dans (18.44) afin de faire dependre (18.44) de uniquement `a travers un
scalaire. Considerons le determinant
>
v MX v
v>MX Y1
(18.45)
(Y )>M v (Y )>M Y .
X
X
1
1
1
En utilisant (18.42), ce determinant peut etre factorise tout comme (18.41).
Nous aboutissons `a
= Y MXY = Y >MXY .
(18.47)
Y >M Y
>
Y1 MXY1
1
X
` Information Limite
e
18.5 Maximum de Vraisemblance a
649
(18.48)
o`
u le scalaire a ete defini implicitement comme
>Y >M1 Y
.
>Y >MXY
(18.49)
n
log(2)
log |Y >MXY |.
2
` Information Limite
e
18.5 Maximum de Vraisemblance a
651
Puisque X1 S(X), M1
MX = M1 (I
MX ). A laide de cette propriete
1 peut egalement se calculer
et dun peu dalg`ebre, on peut montrer que
suivant la formule (nous laissons la manipulation en quexercice)
>
X1 X1
1
=
1
Y1>X1
X1>Y1
Y1>(I
MX )Y1
X1>y
Y1>(I
MX )y
(18.53)
1
= Z>(I
MX )Z Z>(I
MX )y.
(18.54)
Lequation (18.53) est un moyen parmi dautres decrire le LIML comme
un membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).
Lequation (18.54) est un moyen encore plus simple darriver au meme but.
La classe K comprend tous les estimateurs que lon peut ecrire sous une de
ces deux formes, mais avec un scalaire K arbitraire `a la place de
. Nous
employons la notation K plutot que la notation plus conventionnelle k pour
designer ce scalaire afin deviter la confusion avec le nombre de variables
exog`enes dans le syst`eme. Lestimateur LIML est ainsi un estimateur de la
classe K, avec la parametrisation K =
. Identiquement, comme (18.54)le
montre clairement, lestimateur 2SLS est un estimateur de la classe K avec
la parametrisation K = 1, et celui des OLS est egalement un estimateur
de la classe K avec la parametrisation K = 0. Puisque pour une equation
structurelle juste identifiee,
= 1, il decoule immediatement de (18.54) que
les estimateurs LIML et 2SLS se confondent dans ce cas particulier.
On peut montrer que les estimaturs de la classe K sont convergents
lorsque K tend vers 1 asymptotiquement `a un taux plus fort que n1/2 ; voir
Schmidt (1976), parmi dautres auteurs. Bien que la convergence du LIML
provienne de resultats generaux sur les estimateurs ML, il reste interessant de
voir comment ce resultat pour la classe K sy applique. Nous avons dej`a vu que
n log(
) est la statistique de test LR pour lhypoth`ese nulle de pertinence des
contraintes de suridentification sur lequation structurelle. Un developpement
de Taylor sur le logarithme nous montre que n log(
)
1). Puisque
= n(
cette statistique de test suit asymptotiquement une loi du 2 , elle doit etre
O(1), de sorte que
1 doit etre O(n1 ). Ceci etablit la convergence du
LIML.
Il existe de nombreux autres estimateurs de la classe K. Par exemple,
Sawa (1973) suggera un moyen de modifier lestimateur 2SLS pour reduire
son biais, et Fuller (1977) et Morimune (1978, 1983) sugger`erent des versions modifiees de lestimateur LIML. Lestimateur de Fuller, qui est le plus
simple dentre eux, utilise la parametrisation K =
/(n k), o`
u est
une constante positive que choisit lexperimentateur. Un choix judicieux est
= 1, puisquil produit des estimations approximativement non biaisees. Par
652
contraste avec lestimateur LIML qui ne poss`ede aucun moment fini (voir Mariano (1982) et Phillips (1983) sur ce point), tous les moments de lestimateur
modifie de Fuller sont finis `a condition que lechantillon soit suffisamment
important.
Il est possible destimer la matrice de covariance du vecteur des estimations de la classe K de differentes facons. La plus naturelle consiste `a
utiliser
2 Z>(I
MX )Z ,
(18.55)
o`
u
1
>(y Z ).
2 =
(y Z )
n
Les statistiques de test de Wald pour les contraintes sur 1 et 1 , et parmi
elles les t de Student asymptotiques, peuvent se calculer `a laide de (18.55)
de la mani`ere habituelle. Toutefois, il est sans doute preferable demployer
des statistiques LR, etant donne leur invariance `a la reparametrisation, mais
aussi compte tenu de leur facilite de calcul `a partir de la fonction de logvraisemblance concentree (18.50).
s
18.6 Les Triples Moindres Carre
1.0
0.8
0.6
0.4
0.2
0.0
653
...........................................
.................................. ...........................................
............
..
.
.
.
.
.
.
.
.
..............
.
.
.
.
.
.
.
....... ............................
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
....
...
....
....... .........
....
..... .............
.
.
.
.
.
.
... ...
...
.... ......
...
.... ........
.
.
.
.
..
... ....
...
... ...... LIML
.
.....
.
. .
... .....
...
..
.
.....
.
. ... LIMLF
.
... .....
.
.....
.
.. ..
...
... ...
.....
..........
..
.. ..
2SLS ..... ..........
...
... ...
Vraie valeur
..
.. ..
...
......
..... ..........
... ......
... ..........
.
.
... ......
... .............
.
.
.
.
.
.... ..........
.....................
.
.
.
.
.
..........
.............................................
0.0
0.5
1.0
1.5
2.0
s
18.6 Les Triples Moindres Carre
La derni`ere des quatre methodes principales pour lestimation des mod`eles
dequations simultanees dont nous allons discuter est celle des triples moindres carres, ou 3SLS. Tout comme le FIML, la methode des 3SLS est une
654
methode systemique, pour laquelle tous les param`etres du mod`ele sont estimes conjointement. Ainsi que son nom le sugg`ere, on peut calculer les 3SLS
en trois etapes. Les deux premi`eres sont celles des 2SLS classiques, appliquees
a chaque equation du syst`eme separement. La troisi`eme etape est alors es`
sentiellement la meme que letape terminale de lestimation par GLS faisables
dun syst`eme SUR (Section 9.7). La methode fut propose par Zellner et Theil
(1962).
Le moyen le plus simple de deriver lestimateur des 3SLS, ainsi que ses
proprietes asymptotiques, consiste `a appliquer les principes de la methode des
moments generalisee au syst`eme des mod`eles dequations simultanees lineaires
(18.01). Pour lobservation t, ce syst`eme peut se mettre sous la forme
Yt = Xt B + Ut .
Lhypoth`ese selon laquelle toutes les variables dans X sont soit exog`enes soit
predeterminees implique que, pour toutes les observations t,
E Yt Xt B | Xt = 0.
On interpr`ete immediatement les egalites comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous lavons
vu dans la Section 18.3, les variables exog`enes constituent des instruments
efficaces pour les 2SLS si les aleas sont homoscedastiques et independants en
serie, il semble raisonnable denvisager lensemble suivant de conditions du
premier ordre:
E Xt>(Yt Xt B) = 0.
(18.56)
Etant donne que Xt poss`ede k composantes et Yt Xt B en poss`ede g, il
y a en tout gk conditions portant sur les moments. Si la condition dordre
pour lidetnification est satisfaite avec une egalite, il y aurait exactement
gk param`etres `a estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments quil y a de param`etres dans le syst`eme,
et meme davantage si le syst`eme est suridentifie. Bien evidemment, lutilite
reelle de ces conditions sur les moments dans le processus didentification des
param`etres depend asymptotiquement de la validite de la condition de rang.
Il est pratique dordonner differemment les elements de la matrice de
dimension k g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque equation du syst`eme dans une notation comparable `a
celle de (18.18):
yi = Zi i + ui , pour i = 1, . . . , g,
o`
u la matrice de regresseurs Zi qui apparat dans lequation i est [Xi Yi ],
avec ki variables exog`enes Xi incluses et gi variables endog`enes Yi incluses, et
.
o`
u le vecteur de param`etres de dimension (ki + gi ) i est [i ... i ]. Definissons
alors le vecteur ligne Ft compose de gk elements comme:
Ft [ut1 Xt utg Xt ],
s
18.6 Les Triples Moindres Carre
655
o`
u uti yti (Zi )t i . Chaque composante de Ft est la contribution de
lobservation t `
a un des moments empiriques provenant de is the (18.56). La
matrice F de dimension n gk est definie pour avoir une ligne type Ft .
Pour obtenir des estimations GMM, il est necessaire de trouver une estimation de la matrice de covariance des gk moments (18.56). Nous ferons les
memes hypoth`eses preliminaires sur les aleas que pour le FIML et le LIML.
Nous supposons que chaque vecteur ui est homoscedastique et independant en
serie (lhypoth`ese dhomoscedasticite sera relachee plus tard). Nous supposons
egalement que, pour chaque observation t, les uti sont correles entre eux, avec
une matrice de covariance contemporaine de dimension g g , independante
de t. Nous noterons ij un element type de et ij un element type de 1.
Il est relativement aise de trouver la matrice de covariance du vecteur des
moments empiriques F >. Cest
n
> > X
E F F =
E Ft>Ft
t=1
n
X
t=1
11 X>X
..
.
>
g1 X X
..
.
1g X>X
..
,
.
(18.58)
>
gg X X
cest-`
a-dire une matrice dont le bloc type est ij X>X. Afin de construire une
fonction crit`ere comparable `a (17.54) et avec laquelle nous pourrons obtenir
des estimations des param`etres vectoriels i , i = 1, . . . , g, nous aurons be structure en bloc de (18.58) facilite cette
soin dinverser la matrice (18.58)La
manipulation. On peut verifer facilement par une simple multiplication de
matrices partitionnees que linverse est une matrice dont le bloc type est
ij (X>X)1 (souvenons-nous que ij est un element type de 1 ).
Il est pratique dexprimer le vecteur des moments empiriques F > sous
une forme partitionnee comparable `a (18.58), comme une fonction des donnees
et des param`etres du mod`ele. Le resultat est un vecteur avec lelement type
X>(yi Zi i ), pour i = 1, . . . , g:
F > =
656
i=1 j=1
g X
g
X
1
ij yi Zi i >X X>X X> yj Zj j
ij
yi Zi i >PX yj Zj j .
(18.60)
i=1 j=1
Puisque nous supposons tacitement quil nexiste aucune contrainte dequations croisees, les param`etres i napparaissent que dans le residus de lequation i. Ainsi les conditions du premier ordre pour un minimum de (18.60)
peuvent secrire assez simplement comme
g
X
ij Zi>PX yj Zj j = 0, pour i = 1, . . . , g.
(18.61)
j=1
ij =
n
n
X
u
ti u
tj .
(18.62)
t=1
Bien s
ur, ces residus doivent correspondre aux veritables residus 2SLS, et non
aux residus de lestimation OLS de seconde etape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS, 1 `a g doivent conjointement resoudre
les conditions du premier ordre:
g
X
ij Zi>PX yj Zj j = 0.
(18.63)
j=1
.
.
La solution est aisee `a formuler. Si [1 ... ... g ] et si les matrices entre
crochets designent les matrices partitionnees caracterisees par lelement ype
a linterieur du crochet, lestimateur 3SLS se met sous la forme compacte
`
" g
#
ij >
1 X
=
Zi PXZj
ij Zi>PX yj .
(18.64)
j=1
s
18.6 Les Triples Moindres Carre
657
Lecriture de lestimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus frequente; consulter la plupart des ouvrages deconometrie.
Bien que les produits de Kronecker soient bien souvent tr`es utiles (Magnus et
Neudecker, (1988)), nous preferons la notation compacte de (18.64).
Lestimateur 3SLS est intimement relie `a la fois `a celui des 2SLS et `a
celui des GLS pour les mod`eles SUR multivaries pour lequel les variables
explicatives sont toutes exog`enes ou predeterminees. Si nous supposons que
est proportionnelle `a une matrice identite, les conditions (18.63) se ram`enent
a
`
ii Zi>PX yi Zi i = 0,
et ces conditions sont equivalentes aux conditions equation par equation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
numeriquement) equivalents lorsque les aleas contemporains de la forme structurelle sont non correles. Il est egalement aise de voir que lestimateur SUR
pour les mod`eles lineaires est juste un cas particulier de lestimateur 3SLS.
Etant donne que tous les regresseurs peuvent servir en tant quinstruments
dans le cas SUR, il nest plus du tout besoin demployer les 2SLS en premi`ere
etape. En correspondance, le fait que chaque matrice de regresseur Zi soit
une sous-matrice de la matrice de tous les regresseurs, X, implique que
PXZi = Zi . Ainsi (18.63) se ram`ene `a
g
X
ij Zi> yj Zj j = 0,
j=1
(18.65)
1
ij Zi>PXZj ,
Zi>X
ij X>X X>Zj =
658
s
18.6 Les Triples Moindres Carre
659
n
`(B, , ) = log(2) + n log |det |
log ||
2
g
g X
n X
X
ij Yt i Xt Bi Yt j Xt Bj .
(18.66)
im Xtj Yt m Xt Bm .
(18.67)
t=1 m=1
Nous souhaitons trouver une matrice dont lelement ij est (18.67). Puisque j
est lindice associe `a lelement Xtj , nous pouvons developper la colonne j de
ladite matrice en ordonnant les elements Xtj en colonne. Cela donne
g
n X
X
im Xt> Yt m Xt Bm
t=1 m=1
g
X
im
X> Ym XBm
m=1
= X> Y XB ( 1 )i ,
(18.68)
o`
u ( 1 )i est la i i`eme colonne de 1. Observons maintenant que les expressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k g, et il est desormais evident que cette matrice
est X>(Y XB) 1.
660
n( 1 )> Y > Y XB 1.
(18.69)
Nous pouvons aboutir `a une expression plus pratique que (18.69) en utilisant les conditions du premier ordre pour les elements de la matrice de covariance . De (18.29), nous voyons que ces conditions donnent
= n1 (Y XB)
>(Y XB),
(18.70)
,
et B
designent des estimations FIML. Si nous premultiplions cette
o`
u ,
1, la postmultiplions par 1, et la transposons, nous arequation par n
rivons `a
1 ( 1 )>B
>X>(Y XB)
1.
n( 1 )> = Y >(Y XB)
(18.71)
s
18.6 Les Triples Moindres Carre
661
cest-`
a-dire les elements correspondant `a la matrice de dimension n ki Xi .
Puisque pour selectionner les lignes dun produit matriciel, il nous suffit de
selectionner les lignes correspondant au facteur le plus `a gauche, les elements
1 )i .
nuls sont ceux du vecteur de dimension ki Xi>(Y XB)(
Par un rasionnement en tous points identique, nous trouvons que, pour
1 )i de dimension gi est nul,
chaque i = 1, . . . , g, le vecteur Yi>(Y XB)(
o`
u Yi ne contient que les colonnes de Y qui correspondent `a la matrice Yi
des variables endog`enes incluses en tant que regresseurs dans lequation i. Si
i [Xi Yi ], alors nous pouvons ecrire toutes les conditions
nous definissons Z
du premier ordre correspondant aux param`etres de la i i`eme equation sous la
forme
i> Y XB
( 1 )i = 0.
Z
Ces conditions peuvent se simplifier grandement. Remarquons que
1 )i =
(Y XB)(
=
g
X
j=1
g
X
ij Y j XB
ij yj Zj j .
j=1
i> yj Zj j = 0,
ij Z
pour i = 1, . . . , g.
(18.72)
j=1
Les conditions (18.72) apparaissent desormais sous une forme tr`es comparables `a celle des conditions (18.63) qui definissent lestimateur 3SLS. En
realite, si nous notons Yi la matrice de dimension n gi des valeurs ajustees
de la forme reduite libre, de sorte que Yi = PX Yi for i = 1, . . . , g, alors
i .
PXZi = PX Xi Yi = Xi Yi Z
Ainsi la conditions (18.63) qui definit lestimateur 3SLS peut secrire comme
g
X
i> yj Zj j = 0.
ij Z
(18.73)
j=1
Les differences existant entre les conditions qui definissent les etsimations
3SLS et celles qui definissent les estimations FIML sont mises en evidence `a
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) lestimation de la matrice de covariance provient des residus 2SLS equation par equation en ce qui concerne les 3SLS, et des residus FIML en ce
qui concerne le FIML;
662
.
.
y1 Z1 1 ... ... yg Zg g ,
(18.74)
et
Pgun element type est n--vector yi Zi i . Au total, il faut identifier p
etres, de sorte quil faut premultiplier le vecteur (18.74)
i=1 (gi + ki ) param`
par exactement le nombre de vecteurs lignes, chacun etant de dimesnion ng,
si lon veut obtenir les equations definissantes pour ces estimations. On peut
voir sans grande difficulte que la matrice de dimension p ng necessaire `a
lobtention de (18.72) ou de (18.73) est constituee de blocs de la forme ij Wi>,
o`
u Wi indique une matrice de la forme [Xi Xi ] pour un choix donne des
matrices i de dimension n gi . Ce bloc type est une matrice de dimension
(gi + ki ) n, ce qui est coherent.
Les estimateurs 3SLS et FIML diff`erent selon la mani`ere de choisir et
les matrices i . Les instruments optimaux reel, mais non observables, sont
donnes en posant egale `a la veritable matrice de covariance des erreurs 0
et en posant i = B0 01, `a laide des veritables matrices de param`etres. A
que
convergent vers 0 . Identiquement, les malevidence, aussi bien
s
18.6 Les Triples Moindres Carre
663
664
X ij X
n
(18.75)
ij = diag(
si lon pose la definition
uti u
tj ), pour i, j = 1, . . . , g. Si nous
employons cette expression pour elaborer une fonction crit`ere basee sur les
conditions portant sur les moments empiriques (18.56), nous aboutissons `a un
nouvel estimateur, defini par les equations
g
X
ij X 1X> yj Zj j = 0.
Zi>X X>
j=1
ij X X Zj
ij X 1X>yj .
= Zi X X
Zi>X X>
(18.76)
j=1
Il nest pas surprenant de retrouver en (18.76) une structure tr`es omparable `a celle de lestimateur H2SLS (17.44), aussi lappellerons-nous estimateur
H3SLS. On peut estimer sa matrice de covariance asymptotique par linverse
de la matrice avec le bloc type
ij X 1X>Zj .
Zi>X X>
En presence dheteroscedasticite de forme inconnue, lestimateur H3SLS devrait etre plus efficace, asymptotiquement que celui des 3SLS ou du FIML.
Malgre tout, ses performances avec des echantillons finis sont pratiquement
inconnus `a ce jour.
Il est evident que nous pourrions generaliser lestimateur H3SLS encore davantage `a laide dun estimateur HAC de la matrice de covariance
a la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,
`
Chapitre 6). Cependant, cest une strategie adequate tant que la presence
de correlation en serie reste compatible avec le mod`ele correctement specifie
et que la taille dechantillon est relativement importante. Pour la plupart des
applications sur donnees chronologiques, le FIML ou les 3SLS restent les estimateurs systemiques preferes, du fait que lheteroscedasticite sera largement
absente, alors que la correlation en serie largement repandue si le mod`ele est
mal specifie. Quoi quil en soit, lorsque la taille de lechantillon est importante
et que lheteroscedasticite se manifeste fortement, comme cest le cas avec de
nombreuses applications sur donnees en coupe transversale, il est fort probable que lestimateur H3SLS soit lestimateur sysmetique le plus approprie.
665
(18.77)
o`
u la notation reste conventionnelle et o`
u lindice t a ete supprime pour ne
pas surcharger les expressions Si nous subsituons le membre de droite de la
premi`ere equation de (18.77) dans la seconde, nous obtenons
2
y2 = 1 y2 + X1 1 + u1 + 2 y2 + X1 1 + u1 + X2 2 + u2 .
Puisque cette equation est une forme quadratique en y2 , elle poss`edera
habituellement deux solutions. Selon les valeurs parametriques et les valeurs
des Xi et des ui , les deux solutions peuvent etre reelles ou pas. Meme sil
existe une solution reelle, elle ne sera generalement pas lineaire en les variables
exog`enes. Par consequent, le simple usage des composantes de X1 et de X2
en tant quinstruments ne sera pas optimal.
Cet exemple illustre la nature des probl`emes que lon peut rencontrer-292(p)-28(our)-291(de)ave
endog`enes. Nous sommes au moins confrontes `a un probl`eme de choix des instruments. Une approche, discutee dans la Section 7.6, consiste `a employer
des puissances et meme des produits croises des des variables exog`enes en
666
E W > y x() = 0
et en supposant que E(uu> ) = 2 I. Cette hypoth`ese peut se reveler parfois
trop contraignante. Si elle etait correcte, la minimisation de (18.78) produirait
667
a
o`
u
u
t , et nous utilisons ces derniers pour construire la matrice W >W,
2
comme element type u
t . Dans la seconde etape, nous minimisons la fonction
crit`ere
1 >
668
Lappellation est quelque peu trompeuse, pour une raison identique `a celle
qui fait que le nom`
u NL2SLS est egalement trompeuse. Par analogie avec
6.96T6163.1803.87od
669
fi ()
),
o`
u Fi est une matrice de dimension n p des derivees de fi () par rapport aux p elements de . Si quelques param`etres napparaissent pas dans
lequation i, les colonnes correspondantes de Fi seront identiquement nulles.
Les estimations en une etape, qui seront asymptotiquement equvalentes aux
o`
estimations NL3SLS, sont simplement ` = t,
u t designe le vecteur des
estimations 3SLS lineaires
" g
#
ij >
1 X
t =
Fi PW Fj
ij Fi>PW fj .
(18.83)
j=1
ij W 1 W >,
W W >
ij = diag(
o`
u, par analmogie avec (18.76),
uti u
tj ) pour i, j = 1, . . . , g. Les
estimations initiales peuvent ne pas tenir compte de lheteroscedasticite.
pour une discussion plus detaillee sur cette sorte de procedure, et de NL3SLS
en general, consulter Gallant (1987, Chapitre 6).
Lautre methode destimation systemique qui est largement employee est
celle du FIML non lineaire. Pour lexaminer, il est judicieux decrire le syst`eme
dequations `a estimer non pas sous la forme (18.79) mais plutot sous la forme
ht (Yt , Xt , ) = Ut ,
Ut NID(0, ),
(18.84)
o`
u demeure un vecteur de p param`etres, ht un vecteur de dimension 1 g
de fonctions non lineaires, et Ut un vecteur de dimension 1 g de termes
derreur. Pour admettre que (18.79) et (18.84) sont de formes comparables il
suffit dimaginer que le i i`eme element de ht () est identique au t i`eme element
de fi ().
La densite du vecteur Ut est
1
(2)g/2 ||1/2 exp
Ut 1 Ut> .
2
670
1
(2)g/2 |det Jt |||1/2 exp
ht (Yt , Xt , ) 1 ht>(Yt , Xt , ) .
2
`(, ) = log(2) +
2
n
X
n
log |det Jt |
log ||
2
t=1
n
X
(18.85)
ht (Yt , Xt , ) 1 ht>(Yt , Xt , ).
t=1
ng
` () = log(2) + 1 +
2
n
X
log |det Jt |
t=1
n
X
n
>
log
h
(Y
,
X
,
)h
(Y
,
X
,
)
.
t
t
t
t
t
t
n
2
(18.86)
t=1
18.8 Conclusion
671
18.8 Conclusion
Le fait que nous traitions un th`eme aussi important que les mod`eles dequations simultanees aussi tard peut heurter certains lecteurs. Nous avons bien
evidemment aborde certains aspects du probl`eme dans le Chapitre 7, en tant
que contribution `a notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
comprehension claire de lestimation et des tests de specification par maximum
de vraisemblance et de la methode des moments generalisee. Cela nous a alors
permis de developper toutes les methodes destimation et de test discutees
dans ce chapitre en tant quapplications immediates du ML et de la GMM.
Si lon admet cela, il est beaucoup plus facile de comprendre les mod`eles
dequations simultanees et les techniques statistiques qui leur sont associees.
Termes et Concepts
672
causalite au sens de Granger
condition dordre pour lidentification
condition de rang pour lidentification
contraintes dequation croisees
contraintes de suridentification
doubles moindres carres non lineaires
(NL2SLS)
estimateur de classe K
estimateur du ratio de moindre
variance
estimateur H3SLS
exogeneite
exogeneite faible
exogeneite stricte
FIML non lineaire
fonction de logvraisemblance partielle
forme reduite contrainte (FRC)
forme reduite libre (FRL)
maximum de vraisemblance en
information compl`ete (FIML)