Equat Simul

Chapitre 18
Modèles dEquations Simultanees

18.1 Introduction
Pendant de nombreuses annees, le modèles dequations simultanees lineaire a
ete le centre dinteret de la theorie econometrique. Nous avons aborde un cas
particulier de ce modèle, un modèle doffre-demande à deux equations, dans la
Section 7.3. Lobjet de cette discussion etait simplement de monter que la simultaneite implique une correlation entre les regresseurs et les termes derreur
de chaque equation de système, rendant les OLS non convergents et justifiant lusage des variables instrumentales. La non convergence des estimateurs
par moindres carres des equations individuelles dans les modèles dequations
simultanees nest pourtant pas le seul resultat econometrique pour ce genre
de modèle. Dans ce chapitre, nou discutons donc des modèles dequations
simultanees en detail.
La grande majorite du travail recent sur les modèles dequations simultanees sest developpe sous la bienveillance de la Commisssion Cowles; Koopmans (1950) et Hood et Koopmans (1953) sont des references connues. Ce
travail a fortement influence la direction suivie par la theorie econometrique
depuis de nombreuses annees. Pour une histoire sur le developpement recent
de leconometrie, consulter Morgan (1990). Parce que la litterature consacree
aux modèles dequations simultanees est vaste, nous ne traiterons quune
petite partie de celle-ci. Il existe un grand nombre detudes sur ce champ
theorique, et de nombreux ouvrages qui se situent à des niveaux differents.
Deux articles de synthèse interssants sont ceux de Hausman (1983), qui traite
de la litterature traditionnelle, et Phillips (1983), qui traite du champ plus
specifique de la theorie en petit echantillon dans les modèles dequations simultanees, un sujet que nous naborderons pas du tout.
La caracteristique essentielle des modèles dequations simultanees est
que deux ou plusieurs variables endogènes sont determinees simultanement
par le modèle, comme des fonctions de variables exogènes, de variables
predeterminees, et daleas. A ce stade, nous en avons dit très peu sur ce
que nous entendons par variables exogènes et predeterminees. Puisque le role
de telles variables est essentiel dans les modèles dequations simutlanees, il
est temps de corriger le defaut. Dans la Section 18.2, nous discutons par
consequent en detail du concept important de lexogeneite.
622
18.1 Introduction
623
La majeure partie du chapitre sra consacree au modèle dequations simultanees. Supposons quil y ait g variables endogènes, et par consequent g
equations, et k variables exogènes ou predeterminees. Alors le modèle peut
etre ecrit sous forme matricielle comme
Y = XB + U.
(18.01)
Ici, Y designe une matrice de dimension n g de variables endogènes, X

designe une matrice de dimension n k de variables exogènes ou predeterminees, designe une matrice de dimension g g de coefficients, B designe
une matrice de dimension k g de coefficients, et U desigen une matrice de
dimension n g de termes derreur.
Il est immediatement clair que le modèle (18.01) comprend beaucoup trop
de paramètres à estimer. Une observation type pour lequation l peut secrire
sous la forme
g
k
X
X
il Yti =
Bjl Xtj + utl .
i=1
j=1
La multiplication de tous les paramètres il et Bjl par nimporte quelle constante non nulle aurait pour effet de multiplier utl par cette constante pour
tout t, mais ne modifierait pas la structure des aleas dans les observations.
Il est donc necessaire dimposer une sorte de nomrmalisation pour chaque
equation du modèle. Une normalisation evidente consiste à poser ii = 1
pour tout i; chaque variable endogène, de y1 à yg , serait alors associee à un
coefficient unitaire dans une et une seule equation. Cependant, comme nous
lavons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
etre envisagees. Nous pourrions, par exemple, poser 1l = 1 pour tout l; le
coefficient associe à la première variable endogène serait ainsi egal à lunite
dans chaque equation.
Le modèle (18.01) na pas de sens si la matrice nest pas inversible,
car sinons il serait impossible de determiner Y de manière unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par 1 pour obtenir
Y = XB 1 + U 1
= X + V.
(18.02)
(18.03)
Lexpression (18.02) est la forme reduite contrainte, ou FRC, et lexpression

(18.03) est la forme reduite libre, ou FRL. Les contraintes sont = B 1.
Notons que, meme dans le cas improbable o`
u les colonnes de U etaient
independantes, celles de V ne le seraient pas. Ainsi les diverses equations
de la forme reduite possèdent preque s
urement des aleas correles.
Limposition des contraintes de normalisation est necessaire mais non
suffisante pour obtenir des estimations de et B. Le problème est que, à
624
`les dEquations Simultane

es
Mode
moins de lui imposer des contrantes, le modèle (18.01) a beaucoup trop de

paramètres inconnus. La matrice possède g 2 g coefficients, du fait des g
conraintes de normalisation, alors que la matrice B en possède gk. Il y a donc
g 2 + gk g coefficents structurels au total. Mais la matrice sous la forme
reduite libre ne possède que gk coefficients. Il est à levidence impossible de
determiner les g 2 + gk g coefficients structurels à partir des gk coefficients
de la FRL. Il faudra imposer au moins g 2 g contraintes sur et/ou B afin
detre en mesure didentifier le modèle. Il existe une vaste litterature consacree à lidentification dans les modèles dequations simultanees, qui aborde
ne
ite
et Causalite
18.2 Exoge
625
predeterminees. De plus, le concept de predetermination se revèle etre plus

delicat que ce que lon imagine, puisque la predetermination nest pas invariante à la parametrisation du modèle. Ainsi il est calir que nous avons besoin
dun concept plus general que celui de la predetermination.
Il est pratique de debuter par des definitions formelles du concept de
predetermination et du concept etraitement relie de lexogeneite faible. Ce
faisant, nous suivons lexpose classique de ces thèmes, tel quil apparat chez
Engle, Hendry, et Richard (1983). Les lecteurs devraient etre prevenus que
cet article, bien quetant une reference classique, nest pas du tout evident à
lire. Notre discussion sera grandement simplifiee par rapport à la leur, et se
fondera sur un contexte plus general, puisque ces auteurs se concentrent sur
les modèles parametriques pleinement specifies et estimables par maximum
de vraisemblance. Nous nous refererons, malgre tout, à un de leurs exemples
pour une illustration concrète dun nombre de points.
Soit Yt le vecteur de dimension 1 g lobservation t dun ensemble de
variables que nous voulons modeliser dans un processus simultane, et soit
Xt le vecteur de dimension 1 k lobservation t dun ensemble de variables
explicatives, dont toutes ou certaines peuvent etre des Yt retardes. Nous
pouvons ecrire un modèle dequations simultanees, en general nobn lineaire,
sous la forme
ht (Yt , Xt , ) = Ut ,
(18.04)
o`
u ht est un vecteur de dimension 1 g de fonctions, comparable à la fonction
de regression dun modèle univarie, o`
u est un vecteur de paramètres de
dimensionp, et o`
u Ut est un vecteur de dimension 1 g daleas. Le modèle
lineaire (18.01) peut etre considere comme un cas particulier de (18.04) si
nous le mettons sous la forme
Yt = Xt B + Ut
et si nous faisons en sorte que soit compose de tous les elements de
et B quil faut estimer. Ici Xt et Yt sont les t ième lignes des matrices X
et Y. On pourrait baser un ensemble de conditions portant sur les moments
(conditionnels) sur (18.04), en ecrivant
E ht (Yt , Xt , ) = 0,
o`
u lesperance pourrait sinterpreter comme etant conditionnelle à un ensemble
dinformation approprie.
Definition 18.1.
Les variables explicatives Xt sont predeterminees dans lequation i du
modèle (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,
Xt k ui,t+s
pour tout s 0.

es
Mode
626
Le symbole k est ici employe pour exprimer lindependance statistique. La

definition est valable quel que soit le contexte, et en particulier le contexte des
series temporelles pour lequel il existe un ordre naturel. Le prochain concept
ne necessite pas un tel ordonnancement.
Definition 18.2.
Les variables explicatives Xt sont strictement exogènes dans lequation
i du modèle (18.04) si, pour tout t = 1, . . . , n,
Xt k Us
pour tout s = 1, . . . , n.
Si (18.04) represente une forme structurelle, alors autant la predetermination que lexogeneite stricte nous autorise à traiter cette forme comme une
caracterisation du processus generant Yt conditonnellement à Xt . Ainsi
nous pouvons, par exemple, ecrire une fonction de log-vraisemblance basee
sur (18.04), que lon peut maximiser pour obtenir des estimations convergentes des paramètres ; voir la Section 18.4. Si lon pense que (18.04) doit
fournir des conditions portant sur les moments conditionnels, alors autant la
predetermination que lexogeneite stricte nous autorise à employer les colonnes
de X comme instruments dans lestimation de par une sorte quelconque de
procedure IV, telle que les 2SLS, 3SLS ou la GMM. En reclamant cette propriete, nous supposons quil y a suffisamment dinstruments dans X pour
identifier tous les paramètres de .
Helas, le concept de lexogeneite stricte est beaucoup trop contraignant,
du moins pour les applications sur series temporeles. Dans ce contexte, un
très petit nombre de variables sont strictement exogènes, bien que beaucoup
soient predeterminees. Cependant, comme nous allons le montrer, une variable peut etre predeterminee ou non dans un meme modèle selon la manière
de le parametrer. En plus de cela, la predetermination nest pas toujours
necessaire pour une estimation convergente. Ce concept est par consequent
très peu satisfaisant.
Considerons le modèle simultane suivant, tire de Engle, Hendry, et
Richard (1983):
yt = xt + 1t
(18.05)
xt = 1 xt1 + 2 yt1 + 2t ,
(18.06)
o`
u les aleas sont normalement, identiquement, et independemment distribues
pour tout t, avec une matrice de covariance donnee par
11 12
.
12 22
Si 12 6= 0, xt est correle à 1t et lestimation de (18.05) par OLS ne sera pas
convergente parce que xt nest pas predetermine dans (18.05).
ne
ite
et Causalite
18.2 Exoge
627
Considerons à present lesperance de yt conditionnellement à xt et à tous

les yt et xt retardes. Nous avons
E(yt | xt , yt1 , xt1 ) = xt + E(1t | xt , yt1 , xt1 ).
(18.07)
Remarquons que 2t est defini par (18.06) comme une combinaison lineaire
des variables conditionnantes. Ainsi lesperance conditionnelle de 1t dans
(18.07) est
E(1t | 2t ) =
12
12
2t =
(x 1 xt1 2 yt1 ).
22
22 t
Nous pouvons par consequent ecrire

yt = bxt + c1 xt1 + c2 yt1 + vt ,
avec
b=+
12
,
22
c 1 = 1
12
,
22
c2 = 2
(18.08)
12
,
22
(18.09)
o`
u vt est independent de xt . Ainsi xt est predetermine dans (18.08), quelle
que soit la valeur de 12 , bien quil ne soit pas predetermine dans (18.05)
lorsque 12 6= 0.
Nous retournerons à ce modèle plus tard. Pendant ce temps, progressons
vers un concept plus approprie que la predetermination dans le contexte du
modèle simultane. Parce que nous voulons savoir si les variables explicatives
Xt sont determinees simultanement aux Yt nous aurons besoin de travailler
avec des DGP qui genèrent à la fois Yt et Xt . Comme dhabitude, nous
pouvons representer un DGP par une densite de probabilite, ou mieux par
son logarithme, que lon peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de lobservation t est
de la forme
`t (Yt , Xt | t ).
(18.10)
Cette expression est le logarithme de la densite jointe de Yt et Xt conditionnellement à lensemble dinformation t . Ce dernier est compose de toutes
les observations sur Yt et Xt , de la première à la (t 1)th .
Lexpression (18.10) peut etre decomposee en deux contributions, lune
correspondant au logarithme de la densite de Yt cnditionnellement à Xt et
t , et la seconde correspondant au logarithme de la densite de Xt conditionnellement à t :
`t (Yt , Xt | t ) = `Yt (Yt | Xt , t ) + `X
t (Xt | t ),
(18.11)
avec une notation evidente. A ce stade, nous souhaitons pouvoir faire abstraction de la seconde partie des contributions dans (18.11), puisquelle ne
concerne que les variables explicatives.
628

es
Mode
Sous quelles conditions pouvons-nous faire abstraction de la seconde contribution? Pour repondre à cette question, considerons tout dabord un
modèle, M, compose de DGP representes par des ensembles de contributions de la forme (18.11). Puis, definissons une application definissante des
paramètres: M Rp qui associe un vecteur de paramètres à p composantes () à chaque M. Le vecteur de paramètres contient
les paramètres dinteret, cest-à-dire ceux que nous vouons estimer. Comme
nous allons le voir, il peut y avoir dautres paramètres, appeles, paramètres
perturbateurs, que nous ne souhaitons pas estimer.
Definition 18.3.
Les variables expliatives Xt sont faiblement exogènes pour le modèle
parametrique (M, ) si
(i) il existe un sous-modèle M X qui contient les DGP pour les variables explicatives Xt seulement;
(ii) il existe un sous-modèle conditionnel M Y qui contient les DGP
pour les variables endogènes Yt conditionnellement aux variables
explicatives Xt ;
(iii) le modèle complet M comprend tous les DGP joints (Y, X ), o`
u
X
X
Y
est un element arbitraire de M et o`
u est un element
Y
arbitraire de M ; et
(iv) il existe une application definissante des paramètres Y : M Y
telle que, pour tout (Y, X ) M, () = Y (Y ).
Cette definition necessite quelques mots dexplication. Les DGP du sousmodèle M X sont caracterises par des serise des contributions telles que `X
t
dans (18.11), alors que ceux de M Y sont caracterises par des contributions
telles que `Yt dans cette equation. Ainsi les contributions qui caracterisent
les DGP des deux sous-modèles sont tels que, pour lobservation t, la densite
est conditionnelle à tous les t . Cela signifie en particulier que le processus
qui genère les Xt peut tout à fait dependre des Yt retardes. La puissance
de point (iii) de la definition est que le modèle complet M, les DGP qui ont
des contributions comparables au membre de droite de (18.11), doit contenir
toutes les combinaisons delements de M X et M Y possibles. Le point (iv)
indique que les paramètres du modèle ne dependent que du DGP conditionnel
qui genère les Yt conditionnellement aux Xt . Autrement dit, les paramètres
associes au DGP (Y , X ) ne dependent que de Y . Si on remplace X par un
autre DGP pour les memes variables explicatives, disons X, les paramètres
ne sont pas modifies.
Engle, Hendry, et Richard pretendent que lexogeneite faible au sens de la
definiiton precedente est precisement cedont nous avons besoin pour estimer
et realiser des inferences sur les paramètres without sans tenir compte du
sous-modèle M X . Afin destimer les modèles par maximum de vraisemblance,
cela est suffisament clair. La fonction de log-vraisemblance est la somme des
contributions du type (18.11). Seul le premier terme, issu du sous-modèle
ne
ite
et Causalite
18.2 Exoge
629
M Y, peut dependre de . La maximisation de la fonction de log-vraisemblance

dans sa totalite est donc equivalente à la maximisation de la fonction de logvraisemblance partielle
`Y (Y n, X n ; )
n
X
`Yt (Yt | Xt , t ; )
t=1
par rapport à . De la meme facon, en ce qui concerne linference, le gradient

et la matrice Hessienne de la fonction de log-vraisemblance complète ` par
rapport à sont identiques à ceux de la fonction de log-vraisemblance partielle
`Y .
Voyons comment sapplique la Definition 18.3 au modèle defini par (18.05)
et (18.06). A levidence, (18.06) correspond au sous-modèle M X et (18.05)
correspond au sous-modèle M Y. Notons que (18.06) fait usage des valeurs
retardees de yt . Remarquons que si les paramètres 1 et 2 etaient definis
par lapplication definissante des paramètres, lexogeneite faible serait sans
pertinence, puisque les i apparaissent seulement dans le sous-modèle M X.
Pour eviter cette difficulte apparente, nous supposerons que lapplication
definissante des paramètres ne definit que le paramètre . Ainsi, dans ce
cas, nous mettons les paramètres i et les elements de la matrice de covariance sur un pied degalite, en tant que paramètres perturbateurs. Le seul
paramètre dinteret est .
Un DGP du sous-modèle M X peut maintenant etre specifie en donnant les
valeurs des paramètres perturbateurs i et la densite marginale des aleas 2t ,
qui dependra de la variance non conditionnelle 22 mais pas de 11 ou de
12 . Pour une DGP dans M Y, il est necessaire de specifier la valeur de , le
paramètre qui nous interesse, et la densite de 1t conditionnellement à 2t ,
qui impliquera 11 et 12 . A ce stade, les conditions (i), (ii), et (iv) de la
Definition 18.3 sont satisfaites. La variable xt est donc faiblement exogène
pour le modèle donne par (18.05), (18.06) et le paramètre dès que la condition (iii) est satisfaite, ce qui implique que nous soyons capables dassocier
deux DGP, quels quils soient, correspondant chacun à un sous-modèle. Mais
2
cela nest pas possible en general, parce quil faut que 11 22 12
afin que
la matrice de covariance de la distribution jointe de 1t et 2t soit semi-definie
positive. Cette inegalite ne sera satisfaite automatiquement que si nous contraignons le modèle global de sorte que 12 = 0, ce qui rend xt faiblement
exogène.
Nus voyons donc, dans ce cas, que la predetermination de xt se confond avec son exogeneite faible. Quadvient-il si nous examinons le modèle
donne par (18.08) et (18.06)? Souvenons-nous que xt est predetermine dans
(18.08) de manière tout à fait generale. En realite, il sera egalement faiblement
exogène en general si nous modifions lapplication definissante des paramètres
(mais pas le modèle M sous-jacent) afin quelle decrive le paramètre b au lieu
de . Remarquons que meme si nous nous interessons aux paramètres c1 , c2 ,

es
Mode
630
et à la variance des aleas vt dans (18.08)autant quà b, ne peut pas etre

recompose à partir de ces paramètres sans 12 . Lexogeneite faible provient
du fait que, par construction, vt est non correle à 2t .
Lavantage de lexogeneite faible par rapport à la predetermination dans
ce contexte est que sa definition fait reference à une application definissante
des paramètres particulière. cela signifie que nous pouvons dire que xt est
faiblement exogène pour ou pas, selon le cas, et quelle est toujours faiblement exogène pour b. A linverse, la predetermination est definie relativement à un equation, telle que (18.05) ou (18.08), plutot quà une application
definissante des paramètres.
Le concept de causalite au sens de Granger est egalement un concept qui
peut etre important pour celui qui desire travailler conditionnellement à un
ensemble de variables explicatives. Comme son nom le suggère, ce concept
a ete developpe par Granger (1969). Dautres definitions de la causalite ont
ete proposees, en particulier par Sims (1972). Les definitions de la causalite
au sens de Granger ou de Sims sont souvent equivalentes, mais pas toujours;
consulter Chamberlain (1982) et Florens et Mouchart (1982). Pour la plupart
des usages, il semble que la causalite au sens de Granger, ou plutot son oppose,
la non causalite au sens de Granger, soit le concept le plus utile.
Nous donnons à present une definition de la non causalite au sens de
Granger. Tout comme la definition de lexogeneite faible, elle est relative au
contexte des modèles M qui contiennent les DGP qui genèrent deux ensembles de variables Yt et Xt . Contrairement à celle-ci, elle ne fait reference
a aucune application definissante des paramètres, et nopère pas de distinc`
tion entre les variables endogènes Yt et les variables explicatives Xt . Dans la
definition, Y t1 et X t1 designent les lignes des matrices Y et X, respectivement, anterieures à la t th. Ainsi t est compose de Y t1 et X t1.
Definition 18.4.
Les variables Y t1 ne causent pas au sens de Granger les variables Xt
dans un modèle M comprenant les DGP caracterises par les contributions (18.11) si et seulement si
t1
X
).
`X
t (Xt | t ) = `t (Xt | X
Cela signifie que Y t1 ne cause pas au sens de Granger Xt si la distribution de Xt conditionnellement au passe de Xt et Yt est la meme
que celle qui est conditionnelle au passe de Xt .
Un moyen pratique dexprimer la non causalite au sens de Granger consiste à
dire que le passe de Yt ne contient aucune information sur Xt qui ne soit dejà
contenue dans le passe de Xt . Bien que cela ne soit pas strictement exact,
il est frequent de parler de causalite au sens de Granger plutot que de non
causalite au sens de Granger. Cette pratique nentrane en general aucune
ambiguite.
ne
ite
et Causalite
18.2 Exoge
631
Il est evident à partir de (18.06) que, dans le modèle donne par cette
equation et par (18.05), yt cause au sens de Granger xt , à moins que 2 = 0.
Ainsi, meme si 12 = 0, ce qui signifie que xt est faiblement exogène pour
le paramètre dans (18.05), le processus generateur de xt depend du passe
de la variable endogène yt . par ailleurs, si 2 = 0 mais que 12 6= 0, yt ne
cause pas xt au sens de Granger, bien que xt ne soit pas faiblement exogène
pour . Ainsi les deux idees de faible exogeneite et de non causalite au sens de
Granger sont distinctes: aucune nimplique lautre et aucune nest impliquee
par lautre.
Comme nous lavons vu, la presence de la causalite au sens de Granger ne
nous empeche nullement destimer efficacement et de realiser des inferences
sur ce paramètre sans avoir recours au processus qui genère xt si xt est faiblement exogène pour . Inversement, une absence dexogeneite faible ne nous
empeche nullement de faire des previsions efficaces de yt conditionnellement
a xt si yt ne cause pas xt au sens de Granger. Plus precisement, supposons
`
que nous etablissions une equation danticipation de xt basee sur sont passe
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que
E(xt | xt1 ) = (1 + 2 )xt1 .
(18.12)
On anticiperait alors xt en termes de la valeur retardee xt1 et dune estimation du paramètre dautoregression 1 + 2 , obtenu, sans doute, par une
regression de xt sur sa propre valeur retardee dune periode. Si par la suite
nous souhaitons anticiper yt conditionnellement à notre prevision de xt , nous
developperions une equation de prevision de yt en fonction de celle de xt et
du passe des deux variables. De (18.08),
E(yt | xt , t ) = bxt + c1 xt1 + c2 yt1 ,
(18.13)
o`
u b, c1 , et c2 sont definis par (18.09). Si maintenant nous remplacons xt dans
(18.13) par son anticipation (18.12), nous obtenons une prevision
b(1 + 2 )xt1 + c1 xt1 + c2 yt1 .
(18.14)
On deduit immediatement de (18.05) et (18.06) que

E(yt | t ) = 1 xt1 + 2 yt1 .
Par consequent, si (18.14) doit procurer une anticipation sans biais, il est
necessaire que
b(1 + 2 ) + c1 = 1 et c2 = 2 .
A laide des definitions (18.09), nous pouvons voir que ces egalites sont verifiees
si 2 = 0 ou si b = 0. La première condition est precisdement celle de la non
causalite au sens de Granger. La seconde corespond à un cas particulier o`
u

es
Mode
632
xt ne contient aucune information sur yt qui ne soit dejà contenue dans t ,

et elle est moins interessante dabns le conteste actuel.
La conclusion en general est que lorsque nous portons notre attention sur
la prevision, nous pouvons anticiper les valeurs des variables Yt conditionnellement aux anticipations sur les variables Xt si Y t1 ne cause pas Xt au sens
de Granger. Dautre part, si nous portons notre attention surlestimation et
linference pour certains paramètres, nous pouvons conditionner par rapport
a Xt si ces variables sont faiblement exogènes pour les paramètres dans le con`
texte du modèle pour lequel ils sont definis. Il est interessant de combiner les
deux idees pour definir les circonstances pour lesquelles toutes des activites
peuvent etre entreprises avec succès conditionnellement à Xt . Le concept
approprie est celui de lexogeneite forte, que nous definissons à present.
Definition 18.5.
Les variables explicatives Xt sont fortement exogènes pour le modèle
parametrise (M, ) comprenant les DGP qui genèrent à la fois les
variables endogènes Yt et les Xt si elles sotn faiblement exogènes et si
Y t1 ne cause pas Xt au sens de Granger.
Ceci complète notre discussion sur la causalite et sur lexogeneite. Pour
une discussion encore plus complète, nous orientons les lecteurs vers larticle
de Engle-Hendry-Richard. Au delà de lintroduction des concepts de faible
et de forte exogeneite, cet raticle annonce un autre concept, appele super
exogeneite. Ce concept est importan tpour lanalyse politique, mais pas pour
lestimation ou linference, et nest donc pas dans notre priorite immediate.
`les Simultane
s
18.3 LIdentification dans les Mode
Le problème de lidentification dans les modèles dequations simultanees est,
en principe, comparable à ce dont nous avons discute dans le contexte general
des modèles paraetrises. si pour un modèle M donne, il est possible de definir
une application definissante des paramètres, alors les paramètres du modèles
sont identifies, dans le sens o`
u un seul et unique vecteur de paramètres est
associe à chaque DGP dans M. Cependant, meme si une telle application
existe, les donnees doivent satisfaire certaines conditions pour que le modèle
soit identifie par les donnees, et le DGP doit en satisfaire dautres pour que
le modèle soit identifie asymptotiquement. Dans le Chapitre 5, nous avons
defini et discute en detail du concept didentification asymptotique, et nous
lavons compare au conept didentification par un ensemble dobservations
particulier. Dans le cadre des modèles dequations simultanees, cest bien
s
ur le premier qui nous interesse. Toutes les methodes destimation que nous
avons etudiees se fondent sur la theorie asymptotique, et on ne peut pas
esperer realiser des estimations convergentes si les paramètres ne sont pas
identifies asymptotiquemen.
`les Simultane
s
633
Dans cette section, 6ous traiterons de lidentification asymptotique dune

modèle dequations simultanees par lestimateur des doubles moindres carres,
que 6ous avons introduit dans la Section 7.5. Cela peut paratre un sujet
limite, et dans un certains sens, cest un sujet limite. Cependant, cest un
problème qui a donne naissance à une litterature très vaste, et que 6ous
ne pouvons pas exposer en entier ici; voir Fisher (1976) et Hsiao (1983).
Il existe des modèles qui ne sont pas identifies par lestimateur des 2SLS
mais qui le sont par des dautres, tels que lestimateur FIML, et 6ous en
parlerons brièvement. Il nest pas très facile detendre la theorie que nous
presentons dans le contexte des modèles non lineaires, contexte pour lequel il
est habituellement recommande de se recommander de se referer à la theorie
asymptotique developpee dans la Section 5.2.
Nous debutons par le modèle dequations simultanees (18.01). Ce modèle
comprend les DGP qui genèrent les echantillons do`
u sont issus le vecteur Yt
des g variables dependantes, conditionnellement à un ensemble de variables
exogènes et dependante retardees Xt . Puisque 6ous avons suppose que les
variables exogènes Xt sont faiblement exogènes, 6ous pouvons faire abstraction du processus qui les genère. Afin de poursuivre notre discussion sur
lidentification, il fait poser quelques hypothèses sur les aleas Ut . Il faut bien
evidemment que E(Ut ) = 0, et il semble raisonnable de supposer quils sont
independants en serie et que E(Ut>Ut ) = t , o`
u t est une matrice definie
positive pour tout t. Si lon veut realiser de inferences à partir de la matrice de
covariance des 2SLS, il est necessaire dimposer lhomoscedasticite des aleas,
cest-`
a-dire dimposer t = pour tout t.
Il est pratique de traiter lidentification des paramètres equation par
equation dans un modèle dequations simultanees, puisquil est parfaitement
envisageable didentifier les paramètres dune equation quelconque meme si
ceux des autre equations 6e le sont pas. Pour simplifier la 6otation, 6ous
ne considèrerons, sans perte de generalite, que les parmètres de la première
equation du système, cest-à-dire les elements des premières colonnes des matrices et B. Comme 6ous laons 6ote dans la Section 18.1, il faut imposer
des contraintes sur les elements de ces matrices pour les identifier. Il est
habituel de supposer que ces contraintes prennent toutes la forme de contraintes de nullite de certains paramètres. On dit quune variable est exclue dune equation lorsque le coefficient correspondant est contraint à zero;
autrement, on parle de variable incluse dans lequation. Comme 6ous lavons
vu dans la Section 6.4, il est toujours possible de reparametriser les contraintes dans un contexte dequation unique pour leur donner la forme de
contraintes de nullite. Mais dans un contexte dequatiosn simultanees, de
telle reparametrisations nexistent en general quen labsence de contraintes
dequations croisees, cest-à-dire des contraintes qui impliquent les paramètres
de plus dune equation du système. Sil existe des contraintes dequations
croisees, alors il faut abandonner le contexte des systèmes lineaires, quoi que

es
Mode
634
lon veuille tenter. Il nous faut egalement abandonner lestimateur 2SLS si

nous voulons imposer des contraintes dequations croisees.
Partitionnons la matrice Y comme suit:
Y = [y
Y1
Y2 ],
(18.15)
o`
u le vecteur colonne y est la variable endogène associee au coefficient unitaire dans a première equation du système, les colonnes de la matrice Y1 de
dimension n g1 sonbt les variables endogènes non exclues de cette equatiobn
par des contraintes de nullite, et o`
u les colonnes de la matrice Y2 de dimension n (g g1 1) sont les variables endogènes exclues. Pareillement, nous
partitionnons la matrice X des variables exogènes:
X = [ X1
X2 ],
(18.16)
o`
u les colonnes de la matrice X1 de dimension nk1 sont les variables exogènes
qui sont incluses dans lequation, et o`
u celles de la matrice X2 de dimension
n (k k1 ) sont les variables exogènes exclues.
De facon coherente avec la partition de Y et X, nous pouvons partitionner
le smatrices de coefficients
et Bcomme suit:
1 02
B
1
12
.
(18.17)
= 1 12 et B =
0 B22
0 22
Les lignes de sont partitionnees comme les colonnes de Y dans (18.15), et
celle de B le sont comme les colonnes de X dans (18.16). En plus de cela,
nous avons partitionne les colonnes de et B pour quelles puissent separer
les premières colonnes de chaque matrice des autres colonnes, puisque ce sont
les premières colonnes qui contiennent les paramètres de la première equation
du système. On peut donc ecrire la première equation comme suit:
y = Y1 1 + X1 1 + u = Z + u,
(18.18)
o`
u la matrice Z de dimension n (g1 + k1 ) est [X1 Y1 ], et o`
u le vecteur
...
parametrique est [1 . 1 ].
Pour obtenir une estimation 2SLS de , nous devons utiliser des variables
instrumentales. Les colonnes de X1 , qui sont exogènes, peuvent servir en tant
quinstruments, et celles de X2 constituent des instruments supplementaires.
Si les colonnes de X sont les seuls instruments disponibles, il va de soi quune
condition necessaire à lidentification de , que ce soit avec des echantillons
finis ou asymptotiquement, est que X possède au moins autant de colonnes
que Z. Cela revient à dire que X2 doit posseder au moins autant de colonnes
que Y1 , cest-à-dire que k k1 g1 . Autrement dit, il faut qèue le nombre des
variables exogènes exclues soit au moins aussi grand que celui des variables
endogènes incluses. Cette condition est connue sous le nom de condition
dordre pour lidentification. Cependant, comme nous le verrons, cest une
condition necessaire mais qui nest pas suffisante en general.1
1
Si on adment la possibilite de contraintes dequations croisees, cette condition

dordre nest plus du tout necessaire.
`les Simultane
s
635
Il nest pas evident que X fournisse toutes les variable s instrumentales requises. Pourquoi ne pas employer dautres variables endogènes ou
predeterminees qui sont correlees aux variables endogènes Y1 ? Meme dans
le cas o`
u la condition dordre est verifiee, ne pourrions-nous pas faire usage dautres instruments disponibles pour obtenir des estimations plus efficaces? Il savère que lusage dinstruments supplementaires ne permet pas
dindentifier asymptotiquement des paramètres qui ne le sont pas. De plus,
lorsque les aleas u sont homoscedastiques et independants en serie, les instruments supplementaires napportent aucun gain defficacite.
Pour mettre en evidence ces resultats, nous considerons la forme reduite
contraintes (18.02) correspondant à (18.01). Par un leger abus de notation,
nous poserons simplement
Y = X + V ,
(18.19)
en definissant par B 1. Il sera necessaire de partitionner conformement aux partitions (18.17) de et B:
1 11 12
=
.
(18.20)
2 21 22
La partition des lignes est ici la meme que celle de B dans (18.17), et la
partition des colonnes est identique à celle de dans la meme equation,
ainsi quà celle de Y dans (18.15). Nous supposerons que les donnees ont ete
generees par le processus (18.19) avec = 0 = B0 01.
Considerons à present lidentification du vecteur parametrique dans
lequation (18.18) pour nimporte quelle matrice W dinstruments valables,
cest-`
a-dire nimporte quelle matrice W telle que plim(n1 W >W ) est une
matrice definie et deterministe, et telle que plim(n1 W >V ) = 0. A partir
des resultats de la Section 7.8, est identifiable par les donnees si la matrice Z>PW Z est definie positive, et il est identifiable asymptotiquement si
plim(n1Z>PW Z) est definie positive. Pour etudier cette limite en probabilite, examinons la matrice
1
1
W >Z =
W > [ X1
n
n
1
=
W > [ X1
n
Y1 ]
X1 11 + X2 21 + V1 ],
(18.21)
o`
u le bloc V1 de la matrice daleas V correspond au bloc Y1 de Y dans (18.15),
et o`
u les coefficients de la forme reduite sont evaluees avec = 0 .
Lorthogonalite asymptotique entre les instruments W et la matrice
daleas V signifie que la limite en probabilite de (18.21) est
1
>
plim
W [ X1 X1 11 + X2 21 ] .
(18.22)
n
n
Ceci montre clairement que, quel que soit le choix dune matrice dinstruments
W, le rang de la matrice (18.22) ne peut exceder k, qui est precisement le nombre de variables exogènes lineairement independantes. Toutes les colonnes de

es
Mode
636
la matrice partitionnee dans (18.22) sont des colonnes de X ou des combinaisons lineaires de ces colonnes. Il sensuit que le rang de plim(n1Z>PW Z)
ne peut jamais depasser k lui non plus. Ainsi, si Z possède plus de k colonnes,
ce qui implique une violation de la condition dordre, plim(n1Z>PW Z) est
singulière, et donc, non definie positive. Nous concluons que la condition
dordre est bien necessaire pour lidentification asymptotique de , quel que
soit lensemble dinstruments employe.
Puis nous montrons que, sous les hypothèses dhomoscedasticite et dindependance en serie des aleas u, les colonnes de X offrent des instruments
optimaux pour lestimation de . Il y a deux eventualites possibles. Dans
la première, S(X) S(W ). Puisque X1 et X2 appartiennent à S(X), nous
voyons `
a partir de (18.22) que
1 >
1 >
Z
plim
Z
P
Z
=
plim
P
Z
W
X
n n
n n
1
>
[ X1 X1 11 + X2 21 ] [ X1 X1 11 + X2 21 ] .
= plim
n
n
Ainsi lajout dinstruments W `

a ceux offerts par X ne produit aucun gain
defficacite asymptotique. Puique cela contribuera à accrotre le biais dans
les echantillons finis (voir la Section 7.5), il vaut mieux ne pas utiliser ces
instruments supplementaires.
Dans la seconde, S(X) nest pas un sous-espace de S(W ). Cela implique
que, asymptotiquement, W doit avoir un pouvoir explicatif sur Z inferieur
a celui de X. Par consequent, plim(n1Z>PXZ) plim(n1Z>PW Z) est
`
une matrice semi-definie positive pour toute matrice dinstruments W. Il
sensuit que (voir lAnnexe A) plim(n1Z>PW Z)1 plim(n1Z>PXZ)1
est egalement une matrice semi-definie positive. Ainsi la matrice de covariance asymptotique que lon obtient à laide de la matrice dinstruments X,
a savoir 2 plim(n1Z>PXZ)1, etablit une borne inferieure pour la matrice
`
de covariance asymptotique pour tout estimateur IV.
De la discussion precedente et des resultats de la Section 7.8, il ressort
que la condition necessaire et suffisante pour lidentification asymptotique de
à laide des instruments optimaux X est simplement que plim(n1Z>PX Z)
soit non singulière. La litterature traditionnelle sur les modèles dequations
simultanees fait reference à cette condition en tant que condition de rang pour
lidentification, pour des raisons evidentes. Cependant, un expose aussi simple
de cette condition est trèsb rare. Au lieu de cela, la condition est typiquement
exprimee en termes des coefficients de et B de la forme structurelle ou des
coefficients de la forme reduite contrainte. Etant donne que nous avons defini
en termes de et B uniquement, toutes condition que lon peut exprimer
`les Simultane
s
637
sur dans le DGP. Les paramètres 1 et 1 de la première equation structurelle peuvent etre identifies si et seulement on peut les retrouver de facon
unique à partir de la matrice des paramètres de la forme reduite contrainte.
Cette matrice, par definition, satisfait lequation = B, dont nous pouvons
ecrire la première colonne sous la forme
1 + 11 1 = 1
2 + 21 1 = 0
en vertu des partitions de (18.17) et (18.20). La première de ces deux
equations sert à definir 1 en termes de et 1 , et nous permet de voir
que 1 peut etre identifie si 1 lest aussi. La seconde equation montre que
1 est determine de facon unique si et seulement si la sous-matrice 21 est de
plein rang en colonnes, cest-à-dire si le rang de la matrice est egal au nombre de ses colonnes (voir lAnnexe A). La sous-matrice 21 possède k k1
lignes et g1 colonnes. Par consequent, si la condition dordre est satisfaite, il
y a au moins autant de lignes que de colonnes. La condition à lidentification
de 1 , mais aussi à celle de 1 , est que les colonnes de 21 soient lineairement
independantes.
Il est instructif de voir pourquoi cette dernière condition est equivalente
a la condition de rang en termes de plim(n1Z>PX Z). Si, comme nous
`
lavons suppose tacitement tout au long de cette discussion, les variables
exogènes X satisfont la condition que plim(n1X>X) est definie positive,
alors plim(n1Z>PX Z) peut ne pas etre de plein rang si plim(n1X>Z) a un
rang inferieur à g1 + k1 , le nombre de colonnes de Z. La limite en probabilite
de la matrice n1 X>Z provient de (18.22), en remplacant W par X. Si nous
faisons abstractin de la limite en probabilite et du facteur n1 pour simplifier
la notation, la matrice pertinente peut secrire comme suit:
>
X1 X1 X1>X1 11 + X1>X2 21
.
(18.23)
X2>X1 X2>X1 11 + X2>X2 21
La matrice (18.23) nest pas de plein rang g1 + k1 si et seulement sil existe
.
un vecteur non nul [1 ... 2 ] de dimension (g1 + k1 ) tel que (18.23) fois ce
vecteur donne un vecteur nul. Si nous explicitons cette condition, et si nous
arrangeons les differents termes, nous obtenons
>
X1 X1 X1>X2
1 + 11 2
= 0.
(18.24)
21 2
X2>X1 X2>X2
La première matrice du membre de gauche est simplement X>X, et elle est
clairement non singulière. La condition porte alors sur les deux equations
vectorielles
1 + 11 2 = 0
(18.25)
21 2 = 0.
(18.26)

es
Mode
638
Si ces equations sont verifiees pour un vecteur non nul, il est clair que 2
ne peut pas etre nul. Par consequent, la seconde equation nest verifiee que
si 21 nest pas de plein rang. Alors si la condition de rang en termes de
Z>PX Z nest pas verifiee, alors elle ne lest pas non plus en termes de 21 .
Inversement, supposons que (18.26) soit verifiee pour un vecteur 2 non nul
quelconque de dimension g1 . Alors 21 nest pas de plein rang. Definissons
1 en termes de 2 et grace à (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale nest pas satisfaite. Ainsi les
deux versions de la condition de rang sont equivalentes.
Nous terminons cette section en etablissant, sans demonstration, une
troisième version de la condition de rang, equivalente aux deux premières, en
termes des paramètres structurels et B. Il est impossible dexprimer cette
condition exclusivement ne termes des paramètres 1 et 1 de la première
equation. Au contraire, ce sont uniquement les valeurs des autres paramètres
qui determinent la possible identification de 1 et 1 . Ce troisième expose
de la condition de rang est formule de la manière suivante. Construisons la
matrice de dimension (g g1 1 + k k1 ) (g 1)
22
.
B22
Alors la condition de rang est satisfaite si et seulement si cette matrice est de

plein rang g 1.
Nous navons discute dans cette section que des conclusions les plus importantes dun programme de recherche ambitieux. Hsiao (1983) donne un
traitement plus precis. Nous navons pas gere des problèmes tels que les
contraintes dequatios croisees ou les contraintes impliquant la matrice de
covariance ; voir Rothenberg (1971), Richmond (1974), et Hausman et
Taylor (1983), parmi dautres. Dans la pratique, la condition dordre pour
lidentification est beaucoup plus utile que la condition de rang parce quelle
est beaucoup plus difficile à verifier. Cependant, la condition de rang a un
interet theorique certain, et il est instructif de voir quelle peut sexprimer
comme une condition très simple portant sur la limite en probabilite dune
certaine matrice qui doit etre de plein rang. Elle est donc equivalente à la
condition portant sur un certain estimateur 2SLS, celui qui utilise en tant
quinstruments toutes les variables exogènes et predeterminees, qui doit avoir
une matrice de covariance asymptotique non singulière.
`te
18.4 Maximum de Vraisemblance en Information Comple
Il est possible detablir une classification de deux facons des modèles dequations simultanees. La première classification naturelle distingue les methodes
equation par equation des methodes systemiques. Les premières, dont les
representants principaux sont les 2SLS et le LIML, estiment le modèle
`te
639
equation par equation. Les secondes, dont les representants principaux sont les
3SLS et le FIML, estiment tous les paramètres du modèle en meme temps. Les
adjectifs information limitee et information complète qui composent les
noms LIML et FIML montrent clairement que la première methode sapplique
equation par equation, et que la seconde sapplique au système dans sa globalite. Les methodes equation par equation sont plus faciles à mettre en oeuvre,
alors que les methodes systemiques produisent des estimations potentiellement
plus efficaces.
Lautre classification naturelle distingue les methodes basees sur le maximum de vraisemblance, à savoir le LIML et FIML, des methodes basees
sur les variables instrumentales ou la methode des moments generalises, dont
les representants les plus connus sont les 2SLS et les 3SLS. Les methodes
du ML produisent des estimations invariantes à la reparametrisation (voir la
Section 8.3) alors que ce nest pas le cas des methodes des IV. Nous avons
dej`
a vu en detail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement detaille de FIML, qui diffère des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacrees au LIML et
aux 3SLS.
Tous les estimateurs dequations simultanees tentent de gerer le fait que
les aleas des equations structurelles sont correles avec nimporte quelle variable
endogène apparaissant dans lequation. Cette correlation rend les OLS non
convergents. Nous avons vu que les 2SLS gèrent ce problème en remplacant
les regresseurs defectueux par des instruments. Dun autre cote, le FIML
gère ce problème par la maximisation dune fonction de log-vraisemblance
qui implique un terme Jacobien qui nest pas simplement la transformation
dune somme de residus au carre. Le FIML gère egalement deux problèmes
qui se manifestent dans le cadre de tout modèle multivarie, quil y ait ou non
simultaneite; voir la Section 9.9. Le premier problème est que, en dehors de
rares cas, les aleas des differentes equations seront correles. Les techniques
equation par equation telles que les 2SLS ou le LIML ingorent purement et
simplement ce problème. Au contraire, les techniques systemiques telles que le
FIML ou les 3SLS assurent la gestion de ce problème et devraient normalement
produire des estimations plus efficaces en general. le second problème est que,
dans de nombreux modèles, il existe des contraintes dequations croisees. Les
methodes equation par equation ingorent necessairement ce problème, mais
les methodes systemiques telles que le FIML en tiennent compte. Lorsque le
système complet est etabli, les paramètres qui apparaissent dans plus dune
equation sont automatiquement traites de facon differente des paramètres qui
napparaissent que dans une seule.
Le modèle dequations simultanees lineaire (18.01), dont les aleas sont
supposes etre normalement distribues, homoscedastiques et indpendants en
serie, peut secrire
Yt = Xt B + Ut ,
Ut N (0, ),
(18.27)

es
Mode
640
avec une notation qui est desormais familière. Souvenons-nous simplement

que Yt est de dimension 1 g, est de dimension g g, Xt est de dimension
1 k, B est de dimension k g, Ut est de dimension 1 g, et est de
dimension g g. Le moyen le plus simple dobtenir la densite de Yt consiste
a ecrire celle de Ut :
`
1
(2)g/2 ||1/2 exp
Ut 1 Ut> .
2
Puis nous remplacons Ut par Yt Xt B et multiplions per un terme Jacobien

approprie. ce treme est la valeur absolue du determinant duJacobien de la
transformation de Yt en Ut , cest-à-dire le determinant de . Ainsi le facteur
Jacobien est |det |.2 Le resultat est

1
>
1
g/2
1/2
(2)
Yt Xt B
|det |||
exp Yt Xt B
.
2
De là, nous voyons que la fonction de log-vraisemblance est

`(B, , ) =
n
X
ng
`t (B, , ) = log(2) + n log |det |

2
t=1
n
X
n
1
log ||
Yt Xt B 1 Yt Xt B >.
(18.28)
t=1
Une première etape pratique dans la maximisation de `(B, , ) consiste à la concentrer par rapport à ou, comme nous lavons fait dans la
Section 9.9, par rapport à son inverse, 1. Etant donne que
n
X
`
n
1
=
Yt Xt B > Yt Xt B ,
1
2
2
t=1
(voir Annexe A) il est evident que
1
(B, ) =
Y XB > Y XB .
n
(18.29)
Nous pouvons substituer (18.29) à dans (18.28) pour obetnir
ng
`c (B, ) = log(2) + 1 + n log |det |
2

>
1
n
log
Y XB Y XB .
n
(18.30)
Dans ce chapitre, nois notons |A| le determinant de A et |det A| la velru

absolue du determinant. il est necessaire demployer la notation det, que
nous preferons eviter par ailleurs, lorsdque la valeur absolue apparat dans la
formule.
`te
641
Cette fonction de log-vraisemblance concentree ressemble etroitement à (9.65),

la fonction de log-vraisemblance concentree pour un modèle de regression
multivariee. Remarquons que nous avons use de la meme astuce que pour
evaluer le second terme de la dernière ligne de (18.28). La difference entre
(9.65) et (18.30) provient de la presnece du terme Jacobien n log |det |, dont
nous allons evaluer le r230(ole)-332(plus)-334(tard.)-446(Lestimateur)-333(FIML)-334(ne)-334(sera)-3
n doit etre t grand
par ort à
g + k pour conserver FIML de bonnes proprietes; consulter
Sargan (1975) et Brown (1981).
Il est revelateur de deriver cete fonction de log-vraisemblance concentree
dune manière t osee. Cette fois, nous partons de la forme
reduire contrainte correspondant à (18.27), qui est
Yt = Xt B 1 + Vt .
(18.31)
Ce système dequations est juste un cas particulier du modèle de regression

multivariee etudie dans la Section 9.9, mais sous la forme (9.43), avec un
ensemble de fonctions de regression donne par t Xt B 1 et qui sont
des fonctions non lineaires des elements de B et . La fonction de logvraisemblance concentree correspondant à (18.31) est par consequent (9.65).
dans notre cas particulier, (9.65) devient

n
ng
1
1 >
1
log(2) + 1
log
Y
XB
Y
XB
(18.32)
.
n
2
Cette nouvelle expression pour `c (B, ) est egale à celle derivee precedemment, (18.30). Legalite entre (18.30) et (18.32) decoule du fait que

1
n
1 >
1
log
Y XB
Y XB
n
2
1 > 1 >
n
1 >
1
1
=
log
(
)
XB
Y
XB
n
2

>
1
n
= n log |det |
log
Y
XB
Y
XB
.
n
2
Il est interessant de noter que la fonction de log-vraisemblance concentree pour un modèle dequations simultanees peut secrire de deux manières
differentes, (18.30) et (18.32). Cela montre de facon tout à faut claire que
les formes structurelle et reduite contrainte sont silmplement des moyens
dexprimer le meme modèle. Nous pouvons assimiler le modèle dequations
simultanees soit à un type particulier de modèle, dont la fonction de logvraisemblance concentree est donnee par (18.30), soit à un cas particulier
de modèle de regression multivariee non lineaire, dont la fonction de logvraisemblance concentree est identique à celle de nimporte quel autre modèle
642

es
Mode
de regression multivariee. Mis sous cette forme, nous pouvons lui appliquer
tous les resultats dej`
a etablis dans le Chapitre 9 pour les modèles de regression
multivariee. Cependant, parce que la matrice des coefficients B 1 depend
non lineairement des coefficients de toutes les equations du modèle, (18.32)
est en general moins pratique que (18.30).
Lorsquil fut propose à lorigine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML netait pas dun calcul aise, parce que
les maximisation de la fonction de log-vraisemblance (18.30) necessite une
optimisation numerique. Au fur et à mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se democratisait, un certain nombre de
procedures de maximisation de la fonction de log-vraisemblance fut propose,
et la plupart des progiciels deconometrie modernes incopore au moins lune
delles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des references à consulter sur ce thème.
Comme dhabitude, la matrice de covariance asymptotique des estima ,
et
peut etre estime de differentes facons.
tions parametriques FIML B,
Une approche qui reste relativement aisee mais peu recommandee avec de petits echantillons consiste à executer une regression OPG. Cette regression artificielle peut se baser sur la fonction de log-vraisemblance concentree (18.28),
mais pas sur la fonction concentree (18.30), parce que cette dernière nest
pas ecrite sous la forme dune somme de contributions. Une deuxième approche consiste à partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous lavons mis en evidence dans la Section 9.9, le bloc de la matrice
dinformation assovcie aux paramètres des fonctions de regression dun modèle
de regression multivariee est donne par (9.69), et ce bloc peut sobtenir à laide
de la GNR (9.58). Une troisième approche pour estimer la matrice de covar et consiste à utiliser la propriete dequivalence
iance asymptotique de B
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log |det | qui apparat explicitement dans (18.30)
joue un role fondamental dans lestimation. Sa presence est essentielle à la
convergence des estimations ML. De plus, lorsdque le determinant de tend
vers zero, ce terme tend vers linfini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins linfini chaque fois que le determinant de tend vers
zero. Cela est coherent, parce que le modèle nest pas gerable si |det | = 0, ce
qui implique que la vraisemblance dun tel ensemble de paramètres est nul. De
fait, cela signifie que lespace des valeurs possibles de est divise en un certain
nombre de regions, separees par des singularites lorsque |det | = 0. Dans le
cadre du modèle doffre- demande discute dans la Section 7.3, par exemple, il
nexiste quune seule singularite, qui survient lorsque les pentes des fonctions
doffre et de demande sont egales. On ne peut pas esperer quun algorithme
de maximisation numerique passe à travers ces singularites en general, meme
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser numeriquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le
`te
643
maximum global si la region dans laquelle lalgorithme debute ne le contient

pas. Cela suggère quil peut etre très important de bien choisir les valeurs
initiales lorsque nous employons le FIML.
Bien que le FIML se base sur lhypothèse que les aleas sont normaux mul et
tivaries, cette hypothèse nest pas necessaire pour que les estimations B
soient convergentes et asymptotiquement normales. Lorsque le FIML est employe alors que les aleas ne sont pas normalement distribues, cest davantage
un estimateur QML quun estimateur ML, et il ne sera pas asymptotiquement
efficace. Comme nous lavons vu dans la Section 9.6, tout modèle de regression
peut etre estime de facon satisfaisante par le ML sous lhypothèse de distribution normale des aleas, que celle-ci soit exacte ou pas. Ce resultat sapplique
aussi au FIML parce que, comme le montre (18.32), celui-ci estime en fait
un certain modèle de regression multivariee non lineaire. Toutefois, lorsque
le modèle dequations simultanees sous-jacent est non lienaire, ce resultat ne
sapplique plus automatiquement; voir Phillips (1982).
Les tests de specification du modèle sont aussi importants pour les
modèles dequations simultanees que pour les autres modèles econometriques.
Le large eventail des tests classiques LM, LR, Wald, et C() est bien s
ur
disponible à cet egard. Cepedant, du fait que lestimation FIML est relativement co
uteuse et difficile, les utilisateurs peuvent etre tentes de renoncer à un
programme de tests de specification ambitieux pour les modèles estimes par
FIML. Il est par consequent utile de garder à lesprit le fait que de nombreux
types de mauvaise specification du modèle structurel (18.01) impliquent une
mauvaise specification similaire de la forme reduite contrainte (18.03). Par
exemple, si un alea quelconque du modèle structurel etait correle en serie,
alors, à de très rares exceptions près, tous les aleas de la forme reduite contrainte doivent letre aussi. De manière comparable, si un alea quelconque
etait heteroscedastique, alors tous les aleas de la forme reduite doivent letre.
Pareillement, si les paramètres du modèle structurel sont non constants sur
lechantillon, les paramètres de la FRL ne seront pas constants non plus.
Puisque les equations de la FRL sont estimes par moindres carres ordinaires,
il est très facile de les tester contre des mauvaises specifications telles que la
correlation en serie, lheteroscedasticite, ou encore la non constance des coefficients. Si de tels phenomènes sont mis en evidence par les tests, on peut
raisonnablement conclure que le modèle structurel est mal specifie, meme sil
na pas encore ete estime. Linverse nest pas exact, cependant, puisque ces
tests peuvent manquer de puissance, en particulier si une seule equation structurelle est mal specifiee.
Un test de mauvaise specification supplementaire que lon devrait toujours mener est celui des contraintes de suridentification. Dans la Section 7.8,
nous avons examine la manière de tester des contraintes de suridentifiction
pour une equation unique estimee par IV ou 2SLS. Nous sommes à present
interesses par toutes les contraintes de suridentification pour le système dans
sa globalite. Le nombre des degres de liberte pour le test est egal au nombre

es
Mode
644
delements dans la matrice de la FRL, gk, moins le nombre de paramètres

libres de B et . Dans la plupart des cas, il y aura quelques contraintes de
suridentification, et dans de nombreux cas, il y en aura un grand nombre. La
manière la plus naturelle de les tester est probablement demployer un test
LR. La valeur contrainte de la fonction de log-vraisemblance est la valeur de
et ,
et la valeur non contrainte
(18.30) evaluee avec les estimations FIML B
est

>
n
ng
1
Y X Y X ,
(18.33)
log(2) + 1 log
n
2
designe les estimations OLS des paramètres de la FRL. Comme

o`
u
dhabitude, le double de la difference entre les valeurs contrainte et non
contrainte de la fonction de log-vraisemblance sera asymptotiquement distribuee suivant un 2 dont le nombre de degres de liberte est egal à celui
des contraintes de suridentification. Si lon sattend à ce que ces contraintes
de suridentification soient enfreintes et si lon ne veut pas sembarrasser de
lestimation du modèle structurel, on peut employer un test de Wald, comme
Byron (1974) la suggere.
sont
Nous navons pas encore explique pourquoi les estimations OLS
egalement les estimations ML. On voit aisement à partir de (18.33) que, pour
obtenir des estimations ML de , il est necessaire de minimiser le determinant
(Y X)>(Y X).
(18.34)
Supposons que lon evalue ce determinant avec un ensemble destimations

Puisquil est toujours possible decrire
=
+A
quelconque different de .
pour une certaine matrice A, (18.34) devient
XA)>(Y X
XA)
(Y X
(18.35)
= (MXY XA)>(MXY XA)
>
= Y MXY + A>X>XA.
Parce que le determinant de la somme de deux matrices definies positives
est toujours superieur à chacun des determinants des deux matrices (voir
lAnnexe A), il vient de (18.35) que (18.34) sera superieur à Y >MXY pour
minimise (18.34), ce qui demontre
toute matrice A 6= 0. Cela implique que
que les estimations OLS equations par equation de la FRL sont egalement les
estimations ML systemiques.
Si lon ne dispose pas dun progiciel de regression qui calcule (18.33), il
existe un moyen different dy parvenir. Considerons le système recursif
y1 = X1 + e1
y2 = X2 + y1 1 + e2
y3 = X3 + [y1 y2 ]2 + e3
y4 = X4 + [y1 y2 y3 ]3 + e4 ,
(18.36)
` Information Limite
e
18.5 Maximum de Vraisemblance a
645
et ainsi de suite, o`
u yi designe la i ième colonne de Y. On peut interpreter ce
système dequations comme une simple reparametrisation de la FRL (18.03).
Il est aise de voir que si lon estime ces equations par OLS, tous les vecteurs
de residus seront orthogonaux: e2 sera orthogonal à e1 , e3 sera orthogonal
a e2 et à e1 , et ainsi de suite. Conformement à la FRL, tous les yi sont
`
des combinaisons lineaires des colonnes de X et derreurs aleatoires. Par
consequent, les equations de (18.36) sont correctes pour tout choix arbitraire
des paramètres : les i sajustent simplement selon le choix opere. Toutefois,
si nous reclamons lorthogonalite des termes derreur ei , cela sert à identifier
un choix particulier unique des . En realite, le système recursif (18.36)
possède autant de paramètres que la FRL (18.03): g vecteurs i , possedant
chacun k elements, g 1 vecteurs i , avec en tout g(g 1)/2 paramètres, et
g paramètres de variance, ce qui donne un total general de gk + (g 2 + g)/2
paramètres. la FRL possède gk paramètres pour la matrice de covariance
et (g 2 +g)/2 pour la matrice de covariance , ce qui donne un total identique.
La difference est que les paramètres de (18.36) ont ete remplaces par les
elements non diagonaux de la matrice de covariance de V dans la FRL.
Etant donne que le système recursif (18.36) est une simple reparametrisation de la FRL (18.03), il ne devrait pas etre surprenant dapprendre que la
fonction de log-vraisemblance pour le système recursif est egale à (18.33).
Parce que les residus des diverses equations dans (18.36) sont orthogonaux, la valeur des fonctions de log-vraisemblance des estimations OLS des
equations individuelles. Ce resultat, que les lecteurs peuvent aisement verifier
numeriquement, fournit parfois un moyen pratique de calculer la fonction de
log-vraisemblance de la FRL. En dehors de cet usage, les systèmes recursifs
sont dune faible utilite. Ils ne procurent aucune information que ne soit dejà
disponible dans la FRL, et la reparametrisation depend de lordonnancement
des equations.
e
Lun des problèles qui se pose avec le FIML et les autres methodes systemiques
est quelles necessitent de la part du chercheur une specification de la structure de toutes les equations du modèle. La mauvaise specification dune
equation quelconque conduira en general à des estimations non convergentes
pour toutes les equations. Pour eviter ce problème, à condition que lefficacite
ne soit pas cruciale, les chercheurs peuvent preferer employer des methodes
equations par equation. La plus facile et la plus repandue est la methode des
2SLS, mais elle souffre de deux inconvenients majeurs. les estimations quelle
produit ne sont pas invariantes à la reparametrisation, et, comme nous lavons
vu dans la Section 7.5, elles peuvent etre sevèrement biaisees avec de petits
echantillons. La methode LIML est ne
technique alternative qui produit des
estimations invariantes et qsui, à de nombreux egards, possède de meilleures
proprietes avec des echantillons finis que les 2SLS. Bien quelle ait ete proposee
646

es
Mode
par Anderson et Rubin (1949) avant linvention des 2SLS, et quelle ait ete
lobjet dune etude plus theorique, elle a ete peu utilisee par les economètres
dans la pratique.
Comme son nom le suggère, lidee de base du LIML consite à employer
une information partielle sur la structure du modèle. Supposons que lon
veuille estimer uen seule equation, disons la première, dun modèle structurel comme (18.01). Nous avons ecrit une equation comparable dans la Section 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y1 , sont endogènes. Le meilleur moyen
den tenir compte consiste à ecrire leurs equations sous la forme reduire libre:
Y1 = X1 11 + X2 21 + V1 ,
(18.37)
o`
u la notation est identique à celle utilisee dans la Section 18.3. La combinaison de (18.18) et (18.37)donne le système dequations
y Y1 1 = X1 1 + u
Y1 = X1 11 + X2 21 + V1 .
(18.38)
Remarquons que Y2 napparat plus du tout dans ce système dequations.

Si nous focalisons notre attention sur la première equation, les variables endogènes qui n y apparaissent pas sont sans interet. On peut estimer le système
dequations (18.38) par maximum de vraisemblance, et les estimations 1 et
1 qui en resulten seront les estimations LIML. Tout progiciel de FIML peut
etre employe `
a cette fin.
En fait, nous navons pas besoin dun progiciel de FIML pour obtenir des
estimations ML de (18.38). La matrice de coefficients des variables endogènes
dans ce système dequations est
1 0
.
(18.39)
1 I
Parce que cette matrice est triangulaire, son determinant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jacobien dans la fonction de log-vraisemblabce disparat, et la fonction de logvraisemblance pour (18.38) a la meme forme que celle de nimporte quel ensemble de regression apparemment sans lien (voir la Section 9.9). Cela implique que lon peut utiliser nimporte quel programme pour lestimation des
systèmes SUR pour obtenir des estimations LIML. De plus, lapplication des
GLS faisables à un système tel que (18.38), en debutant par des estimations
2SLS pour la première equaion et OLS pour les equations restantes, produira
des estimations asymptotiquement equivalentes aux estimations LIML. Pagan
(1979) a suggere une procedure o`
u lon itère la procedure de GLS faisables
jusqu`
a ce quelle converge vers les veritables estimations LIML.
e
647
Dans la pratique, on calcule rarement les estimations LIML de cette facon,

parce quil existe une methode plus efficace pour les calculer. Il faudrait disposer de davantage doutils algebriques pour la developper, mais les resultats
terminaux seront relativement simples. A partir de (18.30), (18.32), et du
fait que | | = 1, nous voyons que les estimations ML peuvent sobtenir en
minimisant
(Y XB 1 )>(Y XB 1 ) = (Y XB)>(Y XB). (18.40)

Nous allons maintenant montrer que la minimisation du determinant dans le
membre de droite est ici equivalente à la minimisation du rapport de formes
quadratiques, et que cela peut etre realise, à son tour, en resolvant un certain
problème de valeurs propres.
Ecrivons tout dabord la matrice B 1 qui apparat dans le membre de
gauche de (18.40). De (18.17) et dune expression pour linverse de (18.39),
nous voyons que
1 B12
1 0
1 + B12 1 B12
1
B
=
=
.
0 B22 1 I
B22 1
B22
La matrice la plus à droite est simplement la version contrainte de .
Lelement au nord-ouest correspond à X1 et la matrice au sud-est correspond à X2 . Puisque 1 napparat pas dans la matrice du bas et peut
varier librement, il est clair que, quelle que soit la valeur de 1 , nous pouvons trouver des valeurs de 1 et B12 telles que lelement au nord-ouest
prenne nimporte quelle valeur. Aurtrement dit, les contraintes sur lequation
structurelle (18.37) nimposent aucune contrainte sur les lignes de qui correspondent à X1 . En general, cependant, elles imposent des contraintes sur
les lignes qui correspondent à X2 .
Comme nous lavons vu dans la section qui precedait, il y a equivalence
entre la minimisation dun determinant tel que (18.34) sur lequel ne pèse
aucune contrainte et lusage des OLS. Dans ce cas, puisquaucune contrainte
sur les lignes de ne correspond à X1 , nous pouvons employer les OLS pour
estimer ces aramètres, et ensuite concentrer ce determinant par rapport à ces
paramètres. Ce faisant, le determinant dans le membre de droite de (18.40)
devient
(Y XB)>M1 (Y XB),
o`
u, comme dhabitude, M1 designe la matrice qui projette orthogonalement
sur S (X1 ).
Nous allons à present introduire une notation nouvelle. Premièrement,
.
notons le vecteur [1 ... 1 ]; par consequent, Y yY1 1 . Deuxièmement,
notons Y M1 Y, Y1 M1 Y1 , et X M1 X2 . On peut recrire le determinant
dans le membre de droite de (18.40) comme
(Y )>(Y )
(Y )>(Y1 X B22 )
(18.41)
(Y X B )>(Y ) (Y X B )>(Y X B ) .
22
22
22
1
1
1
648

es
Mode
Ce determinant ne depend que des paramètres et B22 . La prochaine etape

consiste à concentrer par rapport aux paramètres de B22 , de manière à obtenir
une expression qui ne depend que de . Cela necessitera un usage intensif du
resultat suivant, qui est demontre dans lAnnexe A:
>
A A A>B
>
>
(18.42)
B >A B >B = |A A||B MA B|,
o`
u, comme dhabitude, MA I A(A>A)1A>. Lorsque ce resultat est
applique à (18.41), nous obtenons
(Y )>(Y ) (Y1 X B22 )>Mv (Y1 X B22 ),

(18.43)
o`
u Mv designe la matrice qui projette orthogonalement sur S (v), et v
Y . Il nexiste quun seul determinant dans (18.43), et non pas deux, parce
que le premier est un scalaire.
Les paramètres B22 napparaissent que dans le second facteur de (18.43).
Ce facteur est le determinant de la matrice des sommes des carres et des
produits croises des residus du système des regressions entier
Mv Y1 = Mv X B22 + residus.
Comme nous lavons vu dans la section precedente, ce determinant peut etre
minimise en remplacant B22 par son estimation, obtenue en appliquant les
OLS à chaque equation separement. La matrice des residus ainsi produite est
u MMv X designe la projection sur le complement orthogMMv X Mv Y1 , o`
onal de S(Mv X ). Observons à present que MMv X Mv = Mv, X , à savoir

la matrice de projection associee au complement orthogonal de S(v, X ).
Consequemment, le second facteur de (18.43), lorsquil est minimise par rapport à B22 , est
>
(Y1 ) Mv, X Y1 .
(18.44)
On peut exploiter le fait que v et X apparaissent de manière symetrique
dans (18.44) afin de faire dependre (18.44) de uniquement à travers un
scalaire. Considerons le determinant
>
v MX v
v>MX Y1
(18.45)
(Y )>M v (Y )>M Y .
X
X
1
1
1
En utilisant (18.42), ce determinant peut etre factorise tout comme (18.41).
Nous aboutissons à
(v>MX v) (Y1 )>Mv, X Y1 .

(18.46)
En faisant usage des definitions M1 MX = MX et v = M1 Y , (18.45) peut
etre recrit
> >
Y MXY >Y >MXY1 > >

= Y MXY = Y >MXY .
(18.47)
Y >M Y
>
Y1 MXY1
1
X
e
649
La première egalite est ici aisement verifiee en exploitant lexpression (18.39)

pour et les definitions de et Y ; souvenons- nous que est la première
colonne de . La seconde egalite est un resultat du fait que | | = 1. Elle
implique que (18.47) ne depend pas du tout de .
Enfin, nous pouvons maintenant ecrire une expression simplifiee, qui,
lorsquelle est minimisee par rapport à , est egale à la valeur minimisee du
determinant originel (18.40). De (18.46) et (18.47), nous voyons que (18.44)
est egal à
>
>
>
(Y1 ) Mv, X Y1 = |Y MXY | = |Y MXY | .

v>MX v
>Y >MXY
Ainsi, en utilisant (18.43), le determinant dorigine (18.40) doit etre egal à

v>v |Y >MXY |
(>Y >M1 Y )|Y >MXY |
=
= |Y >MXY |,
>Y >MXY
>Y >MXY
(18.48)
o`
u le scalaire a ete defini implicitement comme
>Y >M1 Y
.
>Y >MXY
(18.49)
Puisque |Y >MXY | ne depend pas du tout de , il y a equivalence entre

la minimisation de (18.48) et la minimisation de . Ainsi, si nous pouvons
minimiser (18.49) par rapport à , nous pouvons obtenir des estimations LIML
et une valeur associee de , disons
. Lorsque les estimations LIML sont

obtenues de cette manière, on les appelle quelquefois estimations du rapport
de moindre variance.
, il nous faut
Avant de voir comment obtenir des estimations LIML
dire quelques mots des consequences de (18.48) et (18.49). En premier lieu, il
devrait etre evident que
1. Etant donne que S(X1 ) est un sous-espace de
S(X), le numerateur de (18.49) ne peut pas etre inferieur au denominateur
pour tout possible. En fait, pour une equation suridentifiee,
sera toujours
superieur à 1 avec des echantillons finis. En ce qui concerne une equation juste
identifiee,
sera precisement egal à 1 parce que le nombre de paramètres à
estimer est aloors egal à k, le rang de X. Ainsi, dans ce cas, il est possible
de choisir de sorte que le numerateur et le denominateur de (18.49) soient
egaux.
Lexpression (18.48) implique que la valeur maximisee de la fonction de
log-vraisemblance concentree pour lestimation LIML dune unique equation
est
ng
n
n
log(
)
log |Y >MXY |.
(18.50)
log(2)
2
La valeur maximisee de la fonction de log-vraisemblance concentree pour

lestimation ML de la forme reduire libre est
ng
n
log(2)
log |Y >MXY |.
2
e
651
Puisque X1 S(X), M1
MX = M1 (I
MX ). A laide de cette propriete
1 peut egalement se calculer
et dun peu dalgèbre, on peut montrer que
suivant la formule (nous laissons la manipulation en quexercice)
>
X1 X1
1
=
1
Y1>X1
X1>Y1
Y1>(I
MX )Y1
X1>y
Y1>(I
MX )y
(18.53)
qui fournit egalement 1 . Alors si nous definissons Z par [X1 Y1 ] et par

.
[1 ... 1 ], tout comme dans (18.18), (18.53) peut se recrire sous la forme très
simple
1
= Z>(I
MX )Z Z>(I
MX )y.
(18.54)
Lequation (18.53) est un moyen parmi dautres decrire le LIML comme
un membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).
Lequation (18.54) est un moyen encore plus simple darriver au meme but.
La classe K comprend tous les estimateurs que lon peut ecrire sous une de
ces deux formes, mais avec un scalaire K arbitraire à la place de
. Nous
employons la notation K plutot que la notation plus conventionnelle k pour
designer ce scalaire afin deviter la confusion avec le nombre de variables
exogènes dans le système. Lestimateur LIML est ainsi un estimateur de la
classe K, avec la parametrisation K =
. Identiquement, comme (18.54)le
montre clairement, lestimateur 2SLS est un estimateur de la classe K avec
la parametrisation K = 1, et celui des OLS est egalement un estimateur
de la classe K avec la parametrisation K = 0. Puisque pour une equation
structurelle juste identifiee,
= 1, il decoule immediatement de (18.54) que
les estimateurs LIML et 2SLS se confondent dans ce cas particulier.
On peut montrer que les estimaturs de la classe K sont convergents
lorsque K tend vers 1 asymptotiquement à un taux plus fort que n1/2 ; voir
Schmidt (1976), parmi dautres auteurs. Bien que la convergence du LIML
provienne de resultats generaux sur les estimateurs ML, il reste interessant de
voir comment ce resultat pour la classe K sy applique. Nous avons dejà vu que
n log(
) est la statistique de test LR pour lhypothèse nulle de pertinence des
contraintes de suridentification sur lequation structurelle. Un developpement
de Taylor sur le logarithme nous montre que n log(
)
1). Puisque
= n(
cette statistique de test suit asymptotiquement une loi du 2 , elle doit etre
O(1), de sorte que
1 doit etre O(n1 ). Ceci etablit la convergence du
LIML.
Il existe de nombreux autres estimateurs de la classe K. Par exemple,
Sawa (1973) suggera un moyen de modifier lestimateur 2SLS pour reduire
son biais, et Fuller (1977) et Morimune (1978, 1983) suggerèrent des versions modifiees de lestimateur LIML. Lestimateur de Fuller, qui est le plus
simple dentre eux, utilise la parametrisation K =
/(n k), o`
u est
une constante positive que choisit lexperimentateur. Un choix judicieux est
= 1, puisquil produit des estimations approximativement non biaisees. Par
652

es
Mode
contraste avec lestimateur LIML qui ne possède aucun moment fini (voir Mariano (1982) et Phillips (1983) sur ce point), tous les moments de lestimateur
modifie de Fuller sont finis à condition que lechantillon soit suffisamment
important.
Il est possible destimer la matrice de covariance du vecteur des estimations de la classe K de differentes facons. La plus naturelle consiste à
utiliser
2 Z>(I
MX )Z ,
(18.55)
o`
u
1
>(y Z ).
2 =
(y Z )
n
Les statistiques de test de Wald pour les contraintes sur 1 et 1 , et parmi
elles les t de Student asymptotiques, peuvent se calculer à laide de (18.55)
de la manière habituelle. Toutefois, il est sans doute preferable demployer
des statistiques LR, etant donne leur invariance à la reparametrisation, mais
aussi compte tenu de leur facilite de calcul à partir de la fonction de logvraisemblance concentree (18.50).
Le resultat selon lequel les estimateurs de la classe K sont convergents

lorsque K tend asymptotiquement vers 1 à un taux approprie peut suggerer
que les 2SLS possèdent de meilleures proprietes avec des echantillons finis que
le LIML. Après tout, pour les 2SLS, K est identiquement egal à 1, alors que
pour le LIML, K =
, et
est toujours superieur à 1 avec des echantillons
finis. Le resultat selon lequel le LIML ne possède pas de moment fini peut
egalement suggerer que cet estimateur est plus pauvre que celui des 2SLS,
puisque, comme nous lavons vu dans la Section 7.5, lestimateur des 2SLS
possèdent autant de moments finis quil y a de contraintes de suridentification.
Dun autre cote, il apparat que dans de nombreux cas, les 2SLS possèdent
en fait de piètres qualites face au LIML à de multiples egards. Anderson,
Kunitomo, et Sawa (1982), par exemple, exposent des resultats analytiques
qui montrent que le LIML converge vers sa distribution asymptotique normale
beaucoup plus rapidement que ne le font les 2SLS. Contrairement à la distribution de lestimateur 2SLS, dont nous avons vu quelle est sevèrement biaisee dans certains cas, la distribution de lestimateur LIML est generalement
centre sur une valeur proche de la veritable valeur. Mais, etant donne que
cette dernière distribution ne possède pas de moment fini, nous ne pouvons
pas conclure au moindre biais de lestimateur LIML.
La Figure 18.1 donne une illustration du fonctionnement du LIML avec
des echantillons finis. Elle montre les distributions de lestimateur 2SLS,
lestimateur LIML, et lestimateur modifie de Fuller avec = 1 (note LIMLF
sur la figure) dans le cas examine precedemment dans la Section 7.5. La
presence de 6 contraintes de suridentification et de seulement 25 observation
explique la divergence importante pour chaque estimateur par rapport à sa
distribution asymptotique. Dans ce cas, lestimateur 2SLS est sevèrement
biaise vers le bas. Par ailleurs, lestimateur LIML semble etre pratiquement
s
18.6 Les Triples Moindres Carre
1.0
0.8
0.6
0.4
0.2
0.0
653
...........................................
.................................. ...........................................
............
..
.
.
.
.
.
.
.
.
..............
.
.
.
.
.
.
.
....... ............................
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
....
...
....
....... .........
....
..... .............
.
.
.
.
.
.
... ...
...
.... ......
...
.... ........
.
.
.
.
..
... ....
...
... ...... LIML
.
.....
.
. .
... .....
...
..
.
.....
.
. ... LIMLF
.
... .....
.
.....
.
.. ..
...
... ...
.....
..........
..
.. ..
2SLS ..... ..........
...
... ...
Vraie valeur
..
.. ..
...
......
..... ..........
... ......
... ..........
.
.
... ......
... .............
.
.
.
.
.
.... ..........
.....................
.
.
.
.
.
..........
.............................................
0.0
0.5
1.0
1.5
2.0
Figure 18.1 Distributions des estimateurs 2SLS et LIML
sans biais dans le sens o`

u sa mediane est très proche de la veritable valeur
de 1. La distribution de lestimateur modifie de Fuller se situe generalement
entre celles des estimateurs 2SLS et LIML. Sa queue de distribution superieure
est beaucoup plus fine que celle du LIML, mais sa mediane est quelque peu
inferieure à la veritable valeur.
Dans la pratique, il nest pas toujours aise de decider quel estimateur de
la classe K utiliser. Mariano (1982) aborde un certain nombre de resultats analytiques et donne des conseils sur lopportunite dune performance meilleure
du LIML par rapport aux 2SLS. Il faudrait eviter demployer ce dernier
lorsque le nombre des contraintes de suridentification est important, par exemple. Cependant, cela depend enormement des caracteristiques intrinsèques
du modèle et des donnees que lon utilise. Si les resultats des 2SLS et du LIML
sont très proches, alors le choix entre les deux est peu important. Sils sont
relativement differents, toutefois, ce choix devient important. Sans doute la
meilleure chose à faire dans ces circonstances consiste à realiser des experiences
Monte Carlo, qui sont typiquement concues pour departager les performances
relatives des differents estimateurs pour le modèle et les donnees en cause; se
reporter au Chapitre 21.
s
La dernière des quatre methodes principales pour lestimation des modèles
dequations simultanees dont nous allons discuter est celle des triples moindres carres, ou 3SLS. Tout comme le FIML, la methode des 3SLS est une
654

es
Mode
methode systemique, pour laquelle tous les paramètres du modèle sont estimes conjointement. Ainsi que son nom le suggère, on peut calculer les 3SLS
en trois etapes. Les deux premières sont celles des 2SLS classiques, appliquees
a chaque equation du système separement. La troisième etape est alors es`
sentiellement la meme que letape terminale de lestimation par GLS faisables
dun système SUR (Section 9.7). La methode fut propose par Zellner et Theil
(1962).
Le moyen le plus simple de deriver lestimateur des 3SLS, ainsi que ses
proprietes asymptotiques, consiste à appliquer les principes de la methode des
moments generalisee au système des modèles dequations simultanees lineaires
(18.01). Pour lobservation t, ce système peut se mettre sous la forme
Yt = Xt B + Ut .
Lhypothèse selon laquelle toutes les variables dans X sont soit exogènes soit
predeterminees implique que, pour toutes les observations t,
E Yt Xt B | Xt = 0.
On interprète immediatement les egalites comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous lavons
vu dans la Section 18.3, les variables exogènes constituent des instruments
efficaces pour les 2SLS si les aleas sont homoscedastiques et independants en
serie, il semble raisonnable denvisager lensemble suivant de conditions du
premier ordre:
E Xt>(Yt Xt B) = 0.
(18.56)
Etant donne que Xt possède k composantes et Yt Xt B en possède g, il
y a en tout gk conditions portant sur les moments. Si la condition dordre
pour lidetnification est satisfaite avec une egalite, il y aurait exactement
gk paramètres à estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments quil y a de paramètres dans le système,
et meme davantage si le système est suridentifie. Bien evidemment, lutilite
reelle de ces conditions sur les moments dans le processus didentification des
paramètres depend asymptotiquement de la validite de la condition de rang.
Il est pratique dordonner differemment les elements de la matrice de
dimension k g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque equation du système dans une notation comparable à
celle de (18.18):
yi = Zi i + ui , pour i = 1, . . . , g,
o`
u la matrice de regresseurs Zi qui apparat dans lequation i est [Xi Yi ],
avec ki variables exogènes Xi incluses et gi variables endogènes Yi incluses, et
.
o`
u le vecteur de paramètres de dimension (ki + gi ) i est [i ... i ]. Definissons
alors le vecteur ligne Ft compose de gk elements comme:
Ft [ut1 Xt utg Xt ],
s
655
o`
u uti yti (Zi )t i . Chaque composante de Ft est la contribution de
lobservation t `
a un des moments empiriques provenant de is the (18.56). La
matrice F de dimension n gk est definie pour avoir une ligne type Ft .
Pour obtenir des estimations GMM, il est necessaire de trouver une estimation de la matrice de covariance des gk moments (18.56). Nous ferons les
memes hypothèses preliminaires sur les aleas que pour le FIML et le LIML.
Nous supposons que chaque vecteur ui est homoscedastique et independant en
serie (lhypothèse dhomoscedasticite sera relachee plus tard). Nous supposons
egalement que, pour chaque observation t, les uti sont correles entre eux, avec
une matrice de covariance contemporaine de dimension g g , independante
de t. Nous noterons ij un element type de et ij un element type de 1.
Il est relativement aise de trouver la matrice de covariance du vecteur des
moments empiriques F >. Cest
n
> > X
E F F =
E Ft>Ft
t=1
n
X
E[ut1 Xt utg Xt ]>[ut1 Xt utg Xt ]. (18.57)
t=1
La dernière expression dans (18.57) est une matrice de dimension gk gk qui

apparat sous une forme plus lisible lorsquelle est partitionnee, chaque bloc
etant de dimension k k. Pour chaque t, E(uti utj ) = ij . Parce que les
elements de ij ne dependent pas de t, nous obtenons
11 X>X
..
.
>
g1 X X
..
.
1g X>X
..
,
.
(18.58)
>
gg X X
cest-`
a-dire une matrice dont le bloc type est ij X>X. Afin de construire une
fonction critère comparable à (17.54) et avec laquelle nous pourrons obtenir
des estimations des paramètres vectoriels i , i = 1, . . . , g, nous aurons be structure en bloc de (18.58) facilite cette
soin dinverser la matrice (18.58)La
manipulation. On peut verifer facilement par une simple multiplication de
matrices partitionnees que linverse est une matrice dont le bloc type est
ij (X>X)1 (souvenons-nous que ij est un element type de 1 ).
Il est pratique dexprimer le vecteur des moments empiriques F > sous
une forme partitionnee comparable à (18.58), comme une fonction des donnees
et des paramètres du modèle. Le resultat est un vecteur avec lelement type
X>(yi Zi i ), pour i = 1, . . . , g:
F > =

es
Mode
656
Alors, si nous elaborons une forme quadratique à parir du vecteur (18.59) et

de la matrice (18.58), nous aboutissons à la fonction critère
g X
g
X
i=1 j=1
g X
g
X
1
ij yi Zi i >X X>X X> yj Zj j
ij
yi Zi i >PX yj Zj j .
(18.60)
i=1 j=1
Puisque nous supposons tacitement quil nexiste aucune contrainte dequations croisees, les paramètres i napparaissent que dans le residus de lequation i. Ainsi les conditions du premier ordre pour un minimum de (18.60)
peuvent secrire assez simplement comme
g
X
ij Zi>PX yj Zj j = 0, pour i = 1, . . . , g.
(18.61)
j=1
Afin de rendre (18.61) operationnelle, nous avons besoin destimer la

matrice de covariance des aleas, . Dans le cas du modèle SUR, nous pourrions employer les OLS pour chaque equation individuellement. Puisque les
OLS sont non convergents pour les modèles dequations simultanees, nous
employons à la place les 2SLS sur chaque equation. Ainsi les deux premières
etapes des 3SLS correspondent exactement aux deux etapes des 2SLS, applique à chaque equation de (18.01). Les covariances des aleas sont alors
estimes à partir des residus 2SLS:
1
ij =
n
n
X
u
ti u
tj .
(18.62)
t=1
Bien s
ur, ces residus doivent correspondre aux veritables residus 2SLS, et non
aux residus de lestimation OLS de seconde etape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS, 1 à g doivent conjointement resoudre
les conditions du premier ordre:
g
X
ij Zi>PX yj Zj j = 0.
(18.63)
j=1
.
.
La solution est aisee à formuler. Si [1 ... ... g ] et si les matrices entre
crochets designent les matrices partitionnees caracterisees par lelement ype
a linterieur du crochet, lestimateur 3SLS se met sous la forme compacte
`
" g
#
ij >
1 X
=
Zi PXZj
ij Zi>PX yj .
(18.64)
j=1
s
657
Lecriture de lestimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus frequente; consulter la plupart des ouvrages deconometrie.
Bien que les produits de Kronecker soient bien souvent très utiles (Magnus et
Neudecker, (1988)), nous preferons la notation compacte de (18.64).
Lestimateur 3SLS est intimement relie à la fois à celui des 2SLS et à
celui des GLS pour les modèles SUR multivaries pour lequel les variables
explicatives sont toutes exogènes ou predeterminees. Si nous supposons que
est proportionnelle à une matrice identite, les conditions (18.63) se ramènent
a
`
ii Zi>PX yi Zi i = 0,
et ces conditions sont equivalentes aux conditions equation par equation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
numeriquement) equivalents lorsque les aleas contemporains de la forme structurelle sont non correles. Il est egalement aise de voir que lestimateur SUR
pour les modèles lineaires est juste un cas particulier de lestimateur 3SLS.
Etant donne que tous les regresseurs peuvent servir en tant quinstruments
dans le cas SUR, il nest plus du tout besoin demployer les 2SLS en première
etape. En correspondance, le fait que chaque matrice de regresseur Zi soit
une sous-matrice de la matrice de tous les regresseurs, X, implique que
PXZi = Zi . Ainsi (18.63) se ramène à
g
X
ij Zi> yj Zj j = 0,
j=1
et cest precisement ce que deviennent les equations definissantes (9.54) dans

le cas lineaire pour lestimateur des GLS faisables dun système SUR sans
contrainte dequations croisees. Nous voyons que la relation entre 3SLS et les
2SLS equation par equation est identique à celle quil existe entre lestimation
SUR par GLS faisables et lestimation OLS equation par equation.
Sur la base de (18.64), il est naturel de penser que lestimation de la
matrice de covariance de lestimateur 3SLS peut etre estimee par
[
ij Zi>PXZj ]1 .
(18.65)
Cest en realite le cas, comme on peut le montrer assez facilement à laide du

1
resultat general (17.55) pous lestimation GMM. Nous avons vu que pour
dans cette expression nous devions employer la matrice dont lelement type
la matrice des derivees des moments empiriques
est
ij (X>X)1. Pour D,
par rapport aux paramètres du modèle, nous voyons que la matrice adequate
doit etre bloc diagonale, avec des blocs types definis par X>Zi . (Nous ne
considerons pas volontairement les facteurs des puissances de n.) Puisque
ne depend daucun paramètre estime.
nous traitons dun système lineaire, D
Ainsi une estimation appropriee de la matrice de covariance asymptotique est
donnee par linverse de la matrice dont le bloc type est
1
ij Zi>PXZj ,
Zi>X
ij X>X X>Zj =
658

es
Mode
ce qui correspond precisement à (18.65).

Puisque le modèle dequations simultanees (18.01) est equivalent à la
forme reduite contrainte (18.02), on peut raisonnablement se demander pourquoi un estimateur tel que celui des 3SLS ne peut pas etre obtenu simplement à partir de (18.02), etant donne que sa forme est precisement celle dun
sustème SUR. La reponse est, bien s
ur, que cela est possible. Cependant,
a moins que chaque equation ne soit juste identifiee, les contraintes seront
`
non lineaires. Cette approche a ete essentiellement utilisee par Chamberlain
(1984). Lavantage de lapproche que nous suivons est quelle evite les difficultes associees au traitement des contraintes non lineaires.
Une autre similitude entre les estimations 3SLS et SUR est que les deux
sont numeriquement equivalentes à la procedure equation par equation si
chaque equation est juste identifiee. Pour les systèmes SUR, cela signifie
simplement que tous les regresseurs se confondent avec des variables explicatives dans chaque equation (sinon, il existerait des contraintes de suridentification impliquees par la necessaire orthogonalite entre leseeas des equations
o`
u certains regresseurs sont absents et les regresseurs absents et inclus dans
lequation). Nous avons vu dans la Section 9.8, à travers le Theorème de
Kruskal, que les estimations SUR sont numeriquement idetniques aux estimations OLS equation par equation dans ce cas. Cest un bon exercice que de
montrer la validite du meme resultat dans le contexte 3SLS.
Si nous supposons que les eas contenus dans la matrice U de (18.01) sont
normalement distribues, les proprietes asymptotiques de toutes les procedures
destimation ML garantissent lefficacite asymptotique de lestimateur FIML.
Il est par consequent naturel de se demander si lestimateur 3SLS partage la
propriete asymptotique defficacite avec le FIML, et la reponse est, comme
nous le verrons assez directement, affirmative. Nous pourrions directement
obtenir une demonstration de ce resultat si nous avions une expression de la
matrice de covariance asymptotique de lestimateur FIML, que nous pourrions comparer à (18.65). Toutefois, nous preferions ne pas obtenir une telle
expression dans la Section 18.4, parce quun moyen très simple dobtenir une
estimation de la matrice de covariance FIML consiste à utiliser lestimation
3SLS (18.65), evaluee avec les estimations FIML. Au lieu de cela, notre
demonstration de lequivalence asymptotique entre les 3SLS et le FIML se
base sur le fait que lestimateur FIML peut sinterpreter comme un estimateur des variables instrumentales.
Ce resultat, que Hausman (1975) demontra le premier, est dun interet
considerable en lui-meme, du fait quil fournit des instruments optimaux associes à lestimation ML du système (18.01). Comme nous pouvions nous y
attendre, on peut les trouver en considerant les conditions du premier ordre
pour la maximisation de la fonction de log-vraisemblance, que nous envisageons sous la forme (18.28). Si nous notons i ou Bi la colonne i de ou
B, respectivement, et notons une fois de plus ij lelement type de 1, alors
s
659
(18.28) peut sexprimer comme

ng
n
`(B, , ) = log(2) + n log |det |
log ||
2
g
g X
n X
X
ij Yt i Xt Bi Yt j Xt Bj .
(18.66)
t=1 i=1 j=1
La difficulte majeure dans lexplicitation des conditions du premier ordre pour

un maximum de (18.66) est que B et sont contraintes à posseder de nombreux elements nuls de sorte quun seul element de est egal à 1. Par
consequent, nous ne pourrions annuler les derivees de (18.66) par rapport à
aux elements de et B qui sont ainsi contraints. Pour contourner la difficulte,
nous pouvons tout dabord developper une matrice des derivees partielles de
`(B, , ) par rapport à B qui aura exactement la meme forme que la matrice B. Nous signifions que lelement ij de la matrice des derivees partielles
sera egal à la derivee partielle de ` par rapport à lelement ij de la matrice B.
Nous pouvons executer une operation similaire pour et annuler uniquement
les elements pertinents des deux matrices de derivees.
La matrice B nappart que dans le dernier terme de (18.66), aussi
pouvons-nous nous focaliser uniquement sur ce terme pour linstant. Il est
commode de calculer la matrice des derivees partielles element par element
et dordonner ces derivees par la suite dans une matrice de dimension k g.
Puisque chaque facteur dans le dernier terme de (18.66) est un scalaire, chaque
derivee est aisement calculable. Par rapport à lelement ij, nous obtenons
g
n X
X
im Xtj Yt m Xt Bm .
(18.67)
t=1 m=1
Nous souhaitons trouver une matrice dont lelement ij est (18.67). Puisque j
est lindice associe à lelement Xtj , nous pouvons developper la colonne j de
ladite matrice en ordonnant les elements Xtj en colonne. Cela donne
g
n X
X
im Xt> Yt m Xt Bm
t=1 m=1
g
X
im
X> Ym XBm
m=1
= X> Y XB ( 1 )i ,
(18.68)
o`
u ( 1 )i est la i ième colonne de 1. Observons maintenant que les expressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k g, et il est desormais evident que cette matrice
est X>(Y XB) 1.
660

es
Mode
Il nous faut maintenant calculer les derivees (18.66) par rapport à la

matrice de dimension g g . Des operations identiques à celles menees
pour B montrent que la matrice des derivees par rapport au dernier terme de
(18.66) est
Y >(Y XB) 1.
Cette matrice est de dimension g g, ce qui est coherent. Mais apparat egalement à travers son determinant dans le second terme de (18.66).
Souvenons-nous (ou bien consultons lAnnexe A) que la derive du logarithme
du determinant dune matrice par rapport à lelement ij de cette matrice est
lelement ji de linverse de la matrice. Par consequent, la matrice des derivees
partielles correspondant à est
n( 1 )> Y > Y XB 1.
(18.69)
Nous pouvons aboutir à une expression plus pratique que (18.69) en utilisant les conditions du premier ordre pour les elements de la matrice de covariance . De (18.29), nous voyons que ces conditions donnent
= n1 (Y XB)
>(Y XB),
(18.70)
,
et B
designent des estimations FIML. Si nous premultiplions cette
o`
u ,
1, la postmultiplions par 1, et la transposons, nous arequation par n
rivons à

1 ( 1 )>B
>X>(Y XB)

1.
n( 1 )> = Y >(Y XB)
(18.71)
1 est la matrice des valeurs ajustees de lestimation de la forme

Puisque XB
cela simplifiera la notation et aura le
reduite contrainte, nous la noterons Y:
merite de clarifier lanalyse ulterieure. Ainsi (18.71) peut secrire

1 Y >(Y XB)

1.
n( 1 )> = Y >(Y XB)
Par suite, la matrice (18.69), evaluee avec les estimations ML, devient

1.
Y >(Y XB)
Nous pouvons, après tant defforts, selectionner les elements de deux
matrices de derivees partielles qui sont veritablement nuls lorsque nous les
evaluons avec les estimations ML. Les paramètres qui apparaissent dans
lequation i proviennent de la colonne i des matrices et B, et les derivees
partielles correspondantes proviennent des colonnes i des matrices de derivees
partielles. En ce qui concerne la matrice B, cette colonne est X>(Y

1 )i . Nous souhaitons selectionner dans cette colonne uniquement
XB)(
les lignes pour lesquelles lelement correspondant de B
s
661
cest-`
a-dire les elements correspondant à la matrice de dimension n ki Xi .
Puisque pour selectionner les lignes dun produit matriciel, il nous suffit de
selectionner les lignes correspondant au facteur le plus à gauche, les elements

1 )i .
nuls sont ceux du vecteur de dimension ki Xi>(Y XB)(
Par un rasionnement en tous points identique, nous trouvons que, pour

1 )i de dimension gi est nul,
chaque i = 1, . . . , g, le vecteur Yi>(Y XB)(
o`
u Yi ne contient que les colonnes de Y qui correspondent à la matrice Yi
des variables endogènes incluses en tant que regresseurs dans lequation i. Si
i [Xi Yi ], alors nous pouvons ecrire toutes les conditions
nous definissons Z
du premier ordre correspondant aux paramètres de la i ième equation sous la
forme
i> Y XB
( 1 )i = 0.
Z
Ces conditions peuvent se simplifier grandement. Remarquons que

1 )i =
(Y XB)(
=
g
X
j=1
g
X
ij Y j XB
ij yj Zj j .
j=1
Lensemble complet des conditions du premier ordre definissant les estimations

FIML peuvent donc secrire
g
X
i> yj Zj j = 0,
ij Z
pour i = 1, . . . , g.
(18.72)
j=1
Les conditions (18.72) apparaissent desormais sous une forme très comparables à celle des conditions (18.63) qui definissent lestimateur 3SLS. En
realite, si nous notons Yi la matrice de dimension n gi des valeurs ajustees
de la forme reduite libre, de sorte que Yi = PX Yi for i = 1, . . . , g, alors
i .
PXZi = PX Xi Yi = Xi Yi Z
Ainsi la conditions (18.63) qui definit lestimateur 3SLS peut secrire comme
g
X
i> yj Zj j = 0.
ij Z
(18.73)
j=1
Les differences existant entre les conditions qui definissent les etsimations
3SLS et celles qui definissent les estimations FIML sont mises en evidence à
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) lestimation de la matrice de covariance provient des residus 2SLS equation par equation en ce qui concerne les 3SLS, et des residus FIML en ce
qui concerne le FIML;
662

es
Mode
(ii) Les valeurs ajustees de Y employees en tant quinstruments sont celles

de la forme reduite non contrainte en ce qui concerne les 3SLS et celle du
FIML en ce qui concerne le FIML.
Les deux differences reflètent le fait que, contrairement aux 3SLS, le FIML
est une procedure destimation jointe: il faut resoudre simultanement les conditions (18.72) et les conditions (18.70) pour si lon veut obtenir une quelconque estimation ML.
Une autre facon detablir la difference entre les deux procedures consiste
a dire quelles emploient des estimations differentes des memes instruments
`
optimaux. Ces instruments sont quelque peu delicats à ecrire. Afin de le faire
sans trop de difficulte, nous pouvons construire un vecteur de dimension ng
constitue de toutes les contributions des moments empiriques. Sous forme
partitionnee, ce vecteur peut secrire
.
.
y1 Z1 1 ... ... yg Zg g ,
(18.74)
et
Pgun element type est n--vector yi Zi i . Au total, il faut identifier p
etres, de sorte quil faut premultiplier le vecteur (18.74)
i=1 (gi + ki ) param`
par exactement le nombre de vecteurs lignes, chacun etant de dimesnion ng,
si lon veut obtenir les equations definissantes pour ces estimations. On peut
voir sans grande difficulte que la matrice de dimension p ng necessaire à
lobtention de (18.72) ou de (18.73) est constituee de blocs de la forme ij Wi>,
o`
u Wi indique une matrice de la forme [Xi Xi ] pour un choix donne des
matrices i de dimension n gi . Ce bloc type est une matrice de dimension
(gi + ki ) n, ce qui est coherent.
Les estimateurs 3SLS et FIML diffèrent selon la manière de choisir et
les matrices i . Les instruments optimaux reel, mais non observables, sont
donnes en posant egale à la veritable matrice de covariance des erreurs 0
et en posant i = B0 01, à laide des veritables matrices de paramètres. A
que
convergent vers 0 . Identiquement, les malevidence, aussi bien
obtenue de la forme reduite contrainte

trices telle que Y = PX Y = X
1 obtenue par lestimation FIML convergent vers B0 1.
que la matrice B
0
Les deux procedures emploient par consequent des estimations convergentes
des veritables instruments optimaux, de sorte que les deux sont asymptotiquement equivalentes et asymptotiquement efficaces. Remarquons que cette
conclusion ne sapplique quà lestimation de et B: les procedures ne sont
pas equivalentes en ce qui concerne lestimation de la matrice de covariance .
On peut obtenir lequivalence numerique entre le FIML et les 3SLS en
iterant ces derniers. A chaque iteration, les residus de la precedente etape
sont utilises pour generer les estimations actualisees de , alors que les estimations parametriques de la precedente etape sont utilisees pour generer
les estimations actualisees de . Une telle procedure iterative, dont linteret
reste surtout theorique, debute par les 3SLS et converge vers le FIML pour
tous les paramètres, incluant ceux de . Cette operation iterative, et de nombreuses autres, sont abordees par Hendry (1976), qui fournit egalement une
s
663
bibliographie exhaustive de la plupart des thèmes de la litterature consacree

aux equations simultanees existant à cette epoque.
Comme nous lavons suggere lors de la Section 18.4, un moyen pratique
de calculer une estimations de la matrice de covariance de lestimateur FIML
de et B consiste à employer une expression comparable à (18.65). Si nous
par lestimation FIML ,
et les matrices
remplacons lestimation 3SLS
PX

es
Mode
664
que lon peut ecrire plus simplement sous la forme

1 >
X ij X
n
(18.75)
ij = diag(
si lon pose la definition
uti u
tj ), pour i, j = 1, . . . , g. Si nous
employons cette expression pour elaborer une fonction critère basee sur les
conditions portant sur les moments empiriques (18.56), nous aboutissons à un
nouvel estimateur, defini par les equations
g
X
ij X 1X> yj Zj j = 0.
Zi>X X>
j=1
La resolution de ces equations nous conduit à lestimateur

" g
#
> >
1 > 1 X
ij X X Zj
ij X 1X>yj .
= Zi X X
Zi>X X>
(18.76)
j=1
Il nest pas surprenant de retrouver en (18.76) une structure très omparable à celle de lestimateur H2SLS (17.44), aussi lappellerons-nous estimateur
H3SLS. On peut estimer sa matrice de covariance asymptotique par linverse
de la matrice avec le bloc type
ij X 1X>Zj .
Zi>X X>
En presence dheteroscedasticite de forme inconnue, lestimateur H3SLS devrait etre plus efficace, asymptotiquement que celui des 3SLS ou du FIML.
Malgre tout, ses performances avec des echantillons finis sont pratiquement
inconnus à ce jour.
Il est evident que nous pourrions generaliser lestimateur H3SLS encore davantage à laide dun estimateur HAC de la matrice de covariance
a la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,
`
Chapitre 6). Cependant, cest une strategie adequate tant que la presence
de correlation en serie reste compatible avec le modèle correctement specifie
et que la taille dechantillon est relativement importante. Pour la plupart des
applications sur donnees chronologiques, le FIML ou les 3SLS restent les estimateurs systemiques preferes, du fait que lheteroscedasticite sera largement
absente, alors que la correlation en serie largement repandue si le modèle est
mal specifie. Quoi quil en soit, lorsque la taille de lechantillon est importante
et que lheteroscedasticite se manifeste fortement, comme cest le cas avec de
nombreuses applications sur donnees en coupe transversale, il est fort probable que lestimateur H3SLS soit lestimateur sysmetique le plus approprie.

es Non Line
aires
18.7 Mode
665

es Non Line
aires
18.7 Mode
A ce stade de lexpose, nous avons très peu parle des modèles dequations
simultanees non lineaires. Un modèle dequations simultanees peut etre non
lineaire de trois manières possibles. Pour la première, Yt peut dependre
de fonctions non lienaires de quelques variables exogènes ou predeterminees.
Comme dhabitude, ce type de non linearite nengendre pas de problème et
peut etre gere de facon simple en redefinissant Xt . Pour la deuxième, certains paramètres peuvent agir de manière non lineaire dans le modèle structurel pour Yt , sans doute parce quils sont soumis à des contraintes non
lineaires. Cest le genre de non linearite que nous avons traite frequemment
avec lestimation de modèles de regression non lienaire, et elle ne cause pas
de problème supplementaire dans le contexte des modèles dequations simultanees. Enfin, pour la troisième, il peut exister des non linearites provoquees
par les variables endogènes. Ce type de non linearite ne pose pas non plus de
problème serieux supplementaire.
Le problème avec les modèles qui sont non lineaires du fait des variables
endogènes est que pour de tels modèles il nexiste aucun equivalent à la forme
reduite non contrainte dun modèle dequations simultanees lineaire. Il est
habituellement difficile voire impossible dobtenir les variables endogènes en
fonction de svariables exogènes et des aleas. Meme lorsque cela est possible,
Yt dependra presque toujours de facon non lienaire à la fois des exogènes et
des aleas. Soit, par exemple, le modèle simple à deux equations
y1 = y2 + X1 1 + u1
y2 = 1 y1 + 2 y12 + X2 2 + u2 ,
(18.77)
o`
u la notation reste conventionnelle et o`
u lindice t a ete supprime pour ne
pas surcharger les expressions Si nous subsituons le membre de droite de la
première equation de (18.77) dans la seconde, nous obtenons
2
y2 = 1 y2 + X1 1 + u1 + 2 y2 + X1 1 + u1 + X2 2 + u2 .
Puisque cette equation est une forme quadratique en y2 , elle possèdera
habituellement deux solutions. Selon les valeurs parametriques et les valeurs
des Xi et des ui , les deux solutions peuvent etre reelles ou pas. Meme sil
existe une solution reelle, elle ne sera generalement pas lineaire en les variables
exogènes. Par consequent, le simple usage des composantes de X1 et de X2
en tant quinstruments ne sera pas optimal.
Cet exemple illustre la nature des problèmes que lon peut rencontrer-292(p)-28(our)-291(de)ave
endogènes. Nous sommes au moins confrontes à un problème de choix des instruments. Une approche, discutee dans la Section 7.6, consiste à employer
des puissances et meme des produits croises des des variables exogènes en
666

es
Mode
tant quinstruments, en meme temps que les variables exogènes elles-memes.

Si la taille de lechantillon est suffisamment importante, cette approche est
judicieuse, mais dans de nombreux cas il sera difficile de determiner le nombre dinstruments à employer, et meme de savoir lesquels employer. Lajout
dinstruments ameliorera generalement lefficacite asymptotique mais tendra
egalement à accrotre le biais avec des echantillons finis. Plus serieusement,
il est fort possible destimer un modèle qui ne peut pas etre resolu pour des
valeurs tout à fait raisonables des variables exogènes et des aleas. Ainsi il
faudrait probablement eviter demployer des modèles qui sont non lineaires
en les variables endogènes, si cela est possible.
Il semble que le LIML ne soit pas une procedure viable pour lestimation
de modèles dequations simultanees non lienaires. La procedure LIML classique discutee dans la Section 18.5 est concue exclusivement pour les modèles
lineaires. On peut imaginer obtenir des estimations LIML dune equation
structurelle non lineaire en employant un programme pour le FIML non
lineaire applique à un système constitue dune seule equation structurelle et
de g 1 equations lineaires sous forme reduite. Cela ne serait coherent que
si les equations sous forme reduite etaient en fait lineaires, ce qui ne sera
presque jamais le cas. Ainsi, pour lestimation dequations isolees, les seules
procedures adequates sont celles basees sur les variables instrumentales.
Nous avons discute de lestimation de modèles non lineaires constitues
dune seule equation par les methodes IV dans la Section 7.6, et il reste seulement quelques complements à livrer sur ce sujet. Supposons que lequation
structurelle qui nous interesse puisse secrire
y = x() + u,
o`
u est un vecteur compose de l paramètres, et le vecteur de fonctions non
lineaires x() depend implicitement dau moins une variable endogène et dun
certain nombre de variables exogènes et predeterminees. Alors si W designe
une matrice dinstruments de dimension n m, nous avons vu que les estimations IV peuvent etre calculees en minimisant la fonction critère
y x() >PW y x() .

(18.78)
Les estimations qui en resultent sont souvent nommees moindres carres non
lineaires en deux etapes ou estimations NL2SLS, si lon se refère à la terminologie dAmemiya (1974), bien que ces estimations ne soient pas obtenues en
deux etapes. Nous avons vu ce detail dans la Section 7.6.
La fonction critère (18.78) peut se deriver comme une procedure GMM
en debutant par les conditions portant sur les moments
E W > y x() = 0
et en supposant que E(uu> ) = 2 I. Cette hypothèse peut se reveler parfois
trop contraignante. Si elle etait correcte, la minimisation de (18.78) produirait

es Non Line
aires
18.7 Mode
667
des estimations non efficaces et une estimation non convergentes de la matrice

de covariance des paramètres estimes. Une hypothèse plus souple est que
E(uu> ) = , o`
u est une matrice diagonale dont les elements diagonaux
sont inconnus (mais finis). Nous pouvons obtenir des estimations analogues
aux estimations H2SLS de la Section 17.3 à laide dune procedure en deux
etapes. Dans la première etape, nous minimisons (18.78), de manière à obtenir
des estimations parametriques convergentes mais non efficaces et des residus
a
o`
u
u
t , et nous utilisons ces derniers pour construire la matrice W >W,
2
comme element type u
t . Dans la seconde etape, nous minimisons la fonction
critère
1 >
y x() >W W >W

W y x() .
Comme dhabitude, nous pourrions abandonner lhypothèse de diagonalite de
et employer un estimateur HAC, si cela saverait utile (voir les remarques
a la fin de la section precedente).
`
Lestimation systemique des modèles dequations simultanees non lineaires relève typiquement dune sorte de procedure IV (ou GMM) ou FIML.
Nous discuterons brièvement de ces deux approches à tour de role. Supposons
que la i ième equation du système puisse secrire pour toutes les observations
sous la forme
fi (Y, X, ) = ui ,
(18.79)
o`
u fi () est un vecteur de dimension n de fonctions non lineaires, ui est un
vecteur de dimension n daleas, et o`
u est un vecteur de dimension p de
paramètres quil sagit destimer. En general, toutes les variables endogènes
et exogènes et tous les paramètres peuvent apparatre dans nimporte quelle
equation, compte tenu des contraintes quelconques que lon peut vouloir leur
imposer pour identifier le système.
La première etape dans toute procedure IV consiste à choisir les instruments que lon va utiliser. Si le modèle est non lineaire seulement en les
paramètres, la matrice des instruments optimaux est X. Cependant, comme
nous lavons vu, il nexiste pas de moyen simple de choisir les instruments pour
les modèles qui sont non lineaires en une ou plusieurs variables endogènes. La
theorie de la Section 17.4 peut sappliquer, bien entendu, mais le resultat
quelle entrane nest pas dun grand interet pratique. Il apparat que sous les
hypothèses habituelles sur les termes derreur, à savoir leur homoscedasticite
et leur independance en serie mais pas entre les equations, la matrice des
instruments W sera optimale si S(W ) correspond à lunion des sous-espaces
engendres par les colonnes de E(fi /). Ce resultat est du à Amemiya
(1977). Il reste pertinent mais generalement, il nest pas utile dans la pratique. Pour linstant, nous supposons simplement quune certaine matrice
dinstruments W de dimension n m est disponible, avec m p.
Une procedure IV non lineaire pour lestimation systemique, comparable dans lesprit à la procedure equation par equation des NL2SLS basee sur
la minimisation de (18.78), fut proposee à lorigine par Jorgenson et Laffont (1974) et fut nommee moindres carres en trois etapes, ou NL3SLS.
668

es
Mode
Lappellation est quelque peu trompeuse, pour une raison identique à celle
qui fait que le nom`
u NL2SLS est egalement trompeuse. Par analogie avec
6.96T6163.1803.87od

es Non Line
aires
18.7 Mode
669
Lorsdque la taille de lechantillon est importante, il est peut etre plus

facile dobtenir des estimations efficaces en une etape plutot que de minimiser
(18.82). Supposons que lon note les estimations efficaces initiales, qui peuvent etre soit des estimations NL2SLS soit des estimations systemiques basees
sur (18.81). Un developpement en serie de Taylor de fi () fi (Y, X, ) autour de est
+ Fi ()(
fi ()
),
o`
u Fi est une matrice de dimension n p des derivees de fi () par rapport aux p elements de . Si quelques paramètres napparaissent pas dans
lequation i, les colonnes correspondantes de Fi seront identiquement nulles.
Les estimations en une etape, qui seront asymptotiquement equvalentes aux
o`
estimations NL3SLS, sont simplement ` = t,
u t designe le vecteur des
estimations 3SLS lineaires
" g
#
ij >
1 X
t =
Fi PW Fj
ij Fi>PW fj .
(18.83)
j=1
Cette expression doit etre comparee à (18.64).

Il est clair que lon peut generaliser les NL3SLS pour gerer une heteroscedasticite de forme inconnue, une correlation serielle de forme inconnue, ou les
deux simultanement. Par exemple, afin de tenir compte dune heteroscedasticite, nous remplacerions simplement la matrice PW dans (18.82) et (18.83)
par la matrice
ij W 1 W >,
W W >
ij = diag(
o`
u, par analmogie avec (18.76),
uti u
tj ) pour i, j = 1, . . . , g. Les
estimations initiales peuvent ne pas tenir compte de lheteroscedasticite.
pour une discussion plus detaillee sur cette sorte de procedure, et de NL3SLS
en general, consulter Gallant (1987, Chapitre 6).
Lautre methode destimation systemique qui est largement employee est
celle du FIML non lineaire. Pour lexaminer, il est judicieux decrire le système
dequations à estimer non pas sous la forme (18.79) mais plutot sous la forme
ht (Yt , Xt , ) = Ut ,
Ut NID(0, ),
(18.84)
o`
u demeure un vecteur de p paramètres, ht un vecteur de dimension 1 g
de fonctions non lineaires, et Ut un vecteur de dimension 1 g de termes
derreur. Pour admettre que (18.79) et (18.84) sont de formes comparables il
suffit dimaginer que le i ième element de ht () est identique au t ième element
de fi ().
La densite du vecteur Ut est
1
(2)g/2 ||1/2 exp
Ut 1 Ut> .
2

es
Mode
670
Pour se ramener à la densite de Yt , nous devons remplacer Ut par ht (Yt , Xt , )

et multiplier par le terme jacobien |det Jt |, o`
u Jt ht ()/Yt , cest-à-dire
la matrice de dimension g g des derivees de ht par rapport aux elements de
Yt . La resultat est
1
(2)g/2 |det Jt |||1/2 exp
ht (Yt , Xt , ) 1 ht>(Yt , Xt , ) .
2
Il sensuit immediatement que la fonction de logvraisemblance est

ng
`(, ) = log(2) +
2
n
X
n
log |det Jt |
log ||
2
t=1
n
X
(18.85)
ht (Yt , Xt , ) 1 ht>(Yt , Xt , ).
t=1
Cette expression peut etre maximisee par rapport à et le resultat injecte

pour mener à l fonction de logvraisemblance concentree
c
ng
` () = log(2) + 1 +
2
n
X
log |det Jt |
t=1
n
X
n
>
log
h
(Y
,
X
,
)h
(Y
,
X
,
)
.
t
t
t
t
t
t
n
2
(18.86)
t=1
De toute evidence, il existe une forte ressemblance entre (18.85) et (18.86) et

leurs contreparties (18.28) et (18.30) pour le cas lineaire. La difference majeure est que le terme jacobien dans (18.85) et (18.86) correspond à la somme
des logarithmes de n determinants differents. Ainsi à chaque evaluation de ces
fonctions de logvraisemblance, il faut calculer n determinants differents. Cela
peut saverer co
uteux lorsque g ou n est important. Bien s
ur, le problème
disparat si le modèle est lineaire n les variables endogènes, puisqualors Jt
sera constant.
Une difficulte avec le FIML non lineaire est que lon ne sait pas trop
bien comment tester les contraintes de suridentification, ni meme à quoi elles
peuvent ressembler dans de nombreux cas. Dans le contexte dun modèle
dequations simultanees lineaire, toute forme structurelle impose des contraintes non lineaires à la forme reduite non contrainte, et un test LR permet
de tester simplement ces contraintes. Cependant, dans le cas dun modèle
dequations simultanees non lineaire en les variables endogènes, nous ne pouvons en general pas meme ecrire la FRL, let alone estimate it. On peut
toujours tester nimporte quelle contrainte à laide des tests classiques, quil
sagisse de contraintes dequations croisees ou de contraintes portant sur une
equation isolee. Mais il sera en general impossible de tester toutes les contraintes de suridentification en meme temps. Il existe un problème connexe
18.8 Conclusion
671
avec lestimation NL3SLS, bien s

ur. Bien que la valeur minimisee de la fonction critère (18.82) fournisse une statistique de test, elle ne sera valable que
pour les contraintes de suridentification associees à une matrice dinstruments
particulière W, qui peut parfaitement ne pas procurer une approximation satisfaisante à la veritable forme reduite non contrainte, qui est inconnue.
La relation entre le FIML non lineaire et les NL3SLS nest pas de nature comparable à celle qui existe entre le FIML lineaire et les 3SLS. Les
deux methodes non lineaires seront asymptotiquement equivalentes lorsque le
modèle est lineaire en les variables endogènes. Toutefois, dans la majorite des
situations, elles ne le seront pas. Dans leventualite dune non equivalence,
le FIML non lineaire sera plus efficace, asymptotiquement, que les NL3SLS.
Mais cette plus grande efficacite se paye. Lorsque le FIML non lineaire et les
NL3SLS ne sont pas equivalents, le premier peut etre non convergent si les
aleas sont en realite distribues autrement que suivant la loi normale multivariee. Au contraire, comme nous lavons vu, lhypothèse de normalite nest
pas necessaire pour assurer la convergence du FIML lineaire. Pour plus de
details sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya
(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plus
explicites du FIML non lineaire que le notre.
Il existe une litterature veritablement vaste sur le calcul des estuiimations
par le FIML non lineaire. Comme dhabitude, on peut employer de nombreux algorithmes differents pour maximiser la fonction de logvraisemblance
et la fonction de logvraisemblance concentree, dont certains exploitent des caracteristiques speciales des classes particulières de modèles. Le references classiques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),
Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).
18.8 Conclusion
Le fait que nous traitions un thème aussi important que les modèles dequations simultanees aussi tard peut heurter certains lecteurs. Nous avons bien
evidemment aborde certains aspects du problème dans le Chapitre 7, en tant
que contribution à notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
comprehension claire de lestimation et des tests de specification par maximum
de vraisemblance et de la methode des moments generalisee. Cela nous a alors
permis de developper toutes les methodes destimation et de test discutees
dans ce chapitre en tant quapplications immediates du ML et de la GMM.
Si lon admet cela, il est beaucoup plus facile de comprendre les modèles
dequations simultanees et les techniques statistiques qui leur sont associees.
Termes et Concepts
672
causalite au sens de Granger
condition dordre pour lidentification
condition de rang pour lidentification
contraintes dequation croisees
contraintes de suridentification
doubles moindres carres non lineaires
(NL2SLS)
estimateur de classe K
estimateur du ratio de moindre
variance
estimateur H3SLS
exogeneite
exogeneite faible
exogeneite stricte
FIML non lineaire
fonction de logvraisemblance partielle
forme reduite contrainte (FRC)
forme reduite libre (FRL)
maximum de vraisemblance en
information complète (FIML)

es
Mode
maximum de vraisemblance en
information limitee (LIML)
modèles dequations simultanees
modèles dequations simultanees
lineaire
modèles dequations simultanees non
lineaire
non causalite au sens de Granger
paramètres de nuisance
paramètre dinteret
super exogeneite
système recursif
triples moindres carres (3SLS)
triples moindres carres non lineaires
(NL3SLS)
variable endogène
variable exclue
variable exogène
variable incluse
variable predeterminee

Equat Simul

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Equat Simul

Enviado por

Direitos autorais:

Formatos disponíveis

Chapitre 18

Mod`eles dEquations Simultanees

Ici, Y designe une matrice de dimension n g de variables endog`enes, X

Lexpression (18.02) est la forme reduite contrainte, ou FRC, et lexpression

`les dEquations Simultane

moins de lui imposer des contrantes, le mod`ele (18.01) a beaucoup trop de

predeterminees. De plus, le concept de predetermination se rev`ele etre plus

`les dEquations Simultane

Le symbole k est ici employe pour exprimer lindependance statistique. La

Considerons à present lesperance de yt conditionnellement à xt et à tous

Nous pouvons par consequent ecrire

`les dEquations Simultane

M Y, peut dependre de . La maximisation de la fonction de log-vraisemblance

par rapport `a . De la meme facon, en ce qui concerne linference, le gradient

`les dEquations Simultane

et `a la variance des aleas vt dans (18.08)autant qu`a b, ne peut pas etre

On deduit immediatement de (18.05) et (18.06) que

`les dEquations Simultane

xt ne contient aucune information sur yt qui ne soit dej`a contenue dans t ,

Dans cette section, 6ous traiterons de lidentification asymptotique dune

`les dEquations Simultane

lon veuille tenter. Il nous faut egalement abandonner lestimateur 2SLS si

Si on adment la possibilite de contraintes dequations croisees, cette condition

`les dEquations Simultane

Ainsi lajout dinstruments W `

`les dEquations Simultane

Alors la condition de rang est satisfaite si et seulement si cette matrice est de

`les dEquations Simultane

avec une notation qui est desormais famili`ere. Souvenons-nous simplement

Puis nous remplacons Ut par Yt Xt B et multiplions per un terme Jacobien

De l`a, nous voyons que la fonction de log-vraisemblance est

`t (B, , ) = log(2) + n log |det |

(voir Annexe A) il est evident que

Nous pouvons substituer (18.29) `a dans (18.28) pour obetnir

Dans ce chapitre, nois notons |A| le determinant de A et |det A| la velru

Cette fonction de log-vraisemblance concentree ressemble etroitement `a (9.65),

Ce syst`eme dequations est juste un cas particulier du mod`ele de regression

`les dEquations Simultane

maximum global si la region dans laquelle lalgorithme debute ne le contient

`les dEquations Simultane

delements dans la matrice de la FRL, gk, moins le nombre de param`etres

designe les estimations OLS des param`etres de la FRL. Comme

Supposons que lon evalue ce determinant avec un ensemble destimations

`les dEquations Simultane

Remarquons que Y2 napparat plus du tout dans ce syst`eme dequations.

Dans la pratique, on calcule rarement les estimations LIML de cette facon,

(Y XB 1 )>(Y XB 1 ) = (Y XB)>(Y XB). (18.40)

`les dEquations Simultane

Ce determinant ne depend que des param`etres et B22 . La prochaine etape

(Y )>(Y ) (Y1 X B22 )>Mv (Y1 X B22 ),

onal de S(Mv X ). Observons `a present que MMv X Mv = Mv, X , `a savoir

(v>MX v) (Y1 )>Mv, X Y1 .

Y MXY >Y >MXY1 > >

La premi`ere egalite est ici aisement verifiee en exploitant lexpression (18.39)

(Y1 ) Mv, X Y1 = |Y MXY | = |Y MXY | .

Ainsi, en utilisant (18.43), le determinant dorigine (18.40) doit etre egal `a

Puisque |Y >MXY | ne depend pas du tout de , il y a equivalence entre

. Lorsque les estimations LIML sont

La valeur maximisee de la fonction de log-vraisemblance concentree pour

qui fournit egalement 1 . Alors si nous definissons Z par [X1 Y1 ] et par

`les dEquations Simultane

Le resultat selon lequel les estimateurs de la classe K sont convergents

Figure 18.1 Distributions des estimateurs 2SLS et LIML