Você está na página 1de 253

Econom

etrie lin

eaire appliqu

ee
Bruno Crepon Nicolas Jacquemet
Septembre 2006
2
Sommaire
Sommaire 3
1 Introduction 1
1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3
1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Lestimateur des moindres carres ordinaires 11
2.1 Denition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Mod`ele et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Les MCO sous lhypoth`ese de normalite des perturbations 21
3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Ecart-types estimes, tests et intervalles de conance . . . . . . . . . . . . . . . . 23
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29
3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Estimation sous contraintes lineaires 31
4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 34
4.3 Esperance et variance de

b
mcc
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 Estimateur de la variance des residus
2
. . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37
4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39
4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40
4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Proprietes asymptotiques de lestimateur des MCO 47
5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49
5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
4 Sommaire
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 Evaluation : Les estimateurs de dierence 61
6.1 Le Mod`ele causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Lestimateur des Dierences de Dierences . . . . . . . . . . . . . . . . . . . . . . 66
7 Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite 71
7.1 Le mod`ele heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77
7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8 Le modele heteroscedastique en coupe 85
8.1 Inference robuste `a lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 86
8.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9 Correlation des observations 99
9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99
9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104
9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 106
9.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10 Evaluation : Regressions `a variables de contr ole 123
10.1 Independance conditionnelles `a des observables . . . . . . . . . . . . . . . . . . . 123
10.2 Le mod`ele de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134
11 Variables instrumentales 143
11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 144
11.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146
11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152
11.4 Interpretation de la condition : limrangE (z

i
x
i
) = K + 1 . . . . . . . . . . . . . . 155
11.5 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161
11.7 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12 La Methode des moments generalisee 169
12.1 Mod`ele structurel et contrainte identiante : restriction sur les moments . . . . . 169
12.2 Denir un mod`ele par le biais de conditions dorthogonalite . . . . . . . . . . . . 171
12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Sommaire 5
12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178
12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181
12.7 Test de specication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13 Variables dependantes limitees 197
13.1 Mod`ele dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.3 Estimation des mod`eles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202
13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206
13.5 Selectivite : le mod`ele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.6 Estimation du mod`ele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.7 Mod`eles de choix discrets : le Mod`ele Logit Multinomial . . . . . . . . . . . . . . 224
13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
A Rappels de statistiques 229
A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Liste des Graphiques 235
Liste des Tableaux 237
Liste des Applications 239
Table des Mati`eres 241
6 Sommaire
Chapitre 1
Introduction
A la dierence de la statistique, qui est une branche des mathematiques, leconometrie est
une branche de leconomie, destinee `a developper des outils danalyse des donnees permettant de
nourrir la reexion theorique. Au del`a de la terminologie, cette dierence distingue de fa con fon-
damentale les elements qui seront traites ici de lanalyse statistique des donnees. Cette dierence
se traduit, notamment, par le fait que lanalyse econometrique repose sur une modelisation du
probl`eme auquel on sinteresse et qui servira au traitement des donnees dont on dispose.
1.1 Analyse econometrique : presentation
Lanalyse econometrique dun ensemble de donnees a, dans la grande majorite des cas,
pour objectif de tester la validite et devaluer lampleur des explications fournies par lanalyse
economique. A ce titre, elle sinteresse donc `a leet dun ensemble de variables dites va-
riables explicatives et notees x sur une ou plusieurs autres appelees variables expliquees,
y. Le choix de ces variables et leur role dans le mod`ele econometrique est deduit de lanalyse
economique du probl`eme auquel on sinteresse. Une meme variable peut ainsi jouer le role de va-
riable expliquee dans un mod`ele econometrique donne par exemple, leducation dans un mod`ele
dinvestissement en capital humain et le role de variable explicative dans un mod`ele dierent
leducation dans un mod`ele de formation des salaires. La theorie sugg`ere ainsi une relation
de causalite specique au probl`eme considere entre les variables auxquelles on sinteresse. Pour
cette raison, la variable expliquee est egalement souvent qualiee de dependante ou endog`ene,
au sens o` u une relation causale la lie aux variables explicatives considerees ; et les variables ex-
plicatives qualiees de variables independantes ou exog`enes, au sens o` u leur niveau peut etre
considere comme une donnee dans le cadre du probl`eme auquel on sinteresse.
1.1.1 Mod`ele econometrique
Un mod`ele econometrique est constitue de plusieurs ingredients. Lanalyse empirique de
la relation qui lie les variables explicatives `a la (aux) variable(s) expliquee(s) passe dabord
par la specication dune fonction telle que : y = f(x). Cette fonction re`ete la relation cau-
sale quentretiennent les variables. Il est cependant impossible pour un observateur exterieur
de connatre et dobserver parfaitement lensemble des determinants dun phenom`ene social. Le
moral des menages est ainsi souvent presente comme un determinant important du compor-
tement de consommation. Dans le cadre dune analyse empirique du comportement individuel
1
2 Chapitre 1. Introduction
de consommation, il est cependant inimaginable de pouvoir observer de fa con certaine cette va-
riable (chaque lecteur de ce manuel constitue ou appartient `a un menage : pouvez-vous mesurer
votre moral ?). Il convient donc de distinguer dans lanalyse lensemble des elements observables,
contenus dans la liste des variables explicatives, des determinants qui echappent `a lobservation ;
soit par meconnaissance du probl`eme, soit, le plus souvent, en raison des dicultes `a les mesurer.
Ces elements inobservables ecartent la variable y du niveau que laissent attendre les variables
observees x. Lampleur de cette erreur ne peut pas, par denition, etre caracterisee. Elle est
donc consideree comme une variable aleatoire, notee u, qui sajoute au mod`ele : y = f(x, u).
Les variations de u ainsi que la fonction f elle meme se combinent pour expliquer les va-
riations de la (les) variable(s) expliquee(s). Un certain nombre de param`etres inconnus inter-
viennent dans cette combinaison. Le multiplicateur dinvestissement keynesien relie par exemple
linvestissement I et le PIB, Y , selon une relation lineaire telle que : Y = I. Lintensite de cette
relation, mesuree par , est inconnue et nest pas observable directement dans la vie economique.
Les param`etres qui denissent la fonction f, notes b, doivent donc etre estimes, cest `a dire etre
deduits des observations disponibles dans les donnees en sappuyant sur le mod`ele. Pour ce faire,
il est necessaire dimposer un certain nombre dhypoth`eses sur la fonction f et sur le terme
derreur u. Comme nous le verrons plus bas (Section ??), les hypoth`eses retenues determient
de fa con importante les outils qui pourront etre mobilises ainsi que les proprietes de lanalyse.
Au total, un mod`ele econometrique se denit ainsi comme (i) une relation causale
entre des variables, (ii) perturbee par un ensemble delements inobservables, (iii)
determinee par des param`etres inobservables (iv) et (v) sur laquelle sont imposees
un certain nombre dhypoth`eses necessaires `a lestimation.
1.1.2 Le mod`ele lineaire
Une hypoth`ese particuli`erement concerne la forme imposee `a la fonction f. Bien quil soit
possible de denir un mod`ele econometrique en conservant une forme generale `a la fonction on
parle alors de mod`ele non param`etrique le procede le plus courant consiste `a imposer une
forme fonctionnelle pour f. On deni alors un mod`ele param`etrique. Lensemble des choix pos-
sibles est extremement vaste. On pourrait ainsi utiliser une forme exponentielle, logarithmique,
un ratio de polyn omes ou toute combinaison imaginable de ces fonctions. Le mod`ele `a la fois
le plus simple et le plus etudie est le mod`ele qui impose une forme lineaire `a cette relation. Le
mod`ele econometrique considere secrit alors :
y = +
1
x
1
+ +
K
x
K
+u = xb +u
On retrouve ici les elements qui denissent un mod`ele econometrique : une variable ex-
pliquee, K variables explicatives (qui sont toutes observees), K + 1 param`etres (`a estimer) et
un terme derreur (inobservable). Il convient detre tr`es vigilant quant au crit`ere qui caracterise
la linearite du mod`ele. La forme fonctionnelle utilisee est en eet qualiee en fonction de la
position quoccupent les param`etres et non les variables dans le mod`ele.
Denition 1.1 Un mod`ele econometrique est dit lineaire si la relation entre les variables
explicatives et la (les) variable(s) expliquee(s) est lineaire dans les param`etres.
Le mod`ele econometrique qui consiste `a expliquer le salaire par une fonction lineaire de lage
pris au carre (ou toute autre transformation non lineiare de cette variable) sera ainsi considere
1.2. Principales etapes de lanalyse econometrique 3
comme un mod`ele lineaire. A lexception du dernier chapitre, les resultats presentes dans cet
ouvrage se concentrent sur ce mod`ele. Plusieurs facteurs expliquent son succ`es et la quantite des
travaux qui lui sont consacres.
En raison de sa simplicite, dabord, le mod`ele lineaire est historiquement `a lorigine de
lanalyse econometrique. Les developpements ulterieurs de lanalyse et notamment lanalyse non
lineaire qui sera introduite `a la n de cet ouvrage sappuient donc naturellement sur les
resultats obtenus dans le cadre du mod`ele lineaire. Leur connaissance est ainsi indispensable `a
une bonne comprehension de th`emes plus avances, et toute formation `a leconometrie commence
dailleurs, pour cette raison, par une presentation de leconometrie lineaire. Cette simplicite
explique egalement le succ`es de ce mod`ele parmi les praticiens (professionnels, chercheurs, . . . )
de leconomie appliquee. Comme nous le verrons au cours de louvrage, une part tr`es importante
des travaux realises dans ce domaine repose en eet sur lanalyse lineaire, et peut par consequence
etre comprise en se limitant au elements presentes dans cet ouvrage. Une derni`ere raison, plus
fondamentale, tient `a ce que de tr`es nombreux mod`eles peuvent etre exprimes sous forme lineaire.
Il sagit de la premi`ere etape de lanalyse econometrique, dont un certain nombre dexemples
sont presentes ci-dessous.
1.2 Principales etapes de lanalyse econometrique
Le passage de la theorie economique `a un mod`ele econometrique consistue en eet la premi`ere
etape de lanalyse. Le mod`ele peut ensuite etre mis en uvre `a condition de disposer dobsevation
sur le phenom`ene considere et ses determinants. Il sagit alors de proceder `a lestimation du
mod`ele, et ce `a des ns de validation, devaluation ou de prevision.
1.2.1 Do` u vient le mod`ele ? - 1 de la theorie economique
Comme nous lavons vu, cest la theorie economique qui sugg`ere une relation de causalite
entre la (les) variable(s) expliquee(s) et les variables explicatives. Il faut cependant entendre le
terme theorie economique au sens large. Bien que preferable, il nest pas indispensable, en
eet, de disposer dun mod`ele economique au sens propre du terme pour mettre en uvre un
mod`ele econometrique. Les quelques exemples proposes ci-dessous illustrent les divers degres
dintimite qui peuvent exister entre la theorie et la specication dun mod`ele econometrique.
1
(i) Fonction de production
Dans sa variation la plus simple, lanalyse economique du processus de production consid`ere
le niveau du produit, Y , qomme le resultat de la combinaison de deux facteurs : le capital, K,
et le travail, L :
Y = F (K, L)
Un mod`ele non param`etrique de production consisterait `a conserver la forme generale de
F(). Seuls sont consideres dans cet ouvrage les mod`eles param`etriques qui imposent une forme
particuli`ere `a la fonction dinteret. On se restreint alors `a un ensemble de fonctions de productions
ne dependant que dun nombre ni de param`etres. Une specication frequemment retenue est la
fonction de production Cobb-Douglas. Imposer une forme fonctionnelle nest jamais neutre sur le
1
Certains de ces exemples seront developpes au cours de louvrage.
4 Chapitre 1. Introduction
phenom`ene etudie. La fonction de production Cobb-Douglas impose par exemple une restriction
forte sur les possibilites de substitution entre facteurs :
Y = AK

et sont des param`etres `a estimer. On remarque immediatement que le mod`ele ainsi


specie nest pas lineaire au sens de la Denition 1.1. Une simple operation algebrique permet
cependant de se ramener `a ce cadre :
log(Y ) = log(AK

)
y = a +k +l
La seconde equation denit ainsi un mod`ele lineaire dans les param`etres. Loperation a
necessitre un changement de variables : on sinteresse desormais au logarithme du produit
y = log(Y ) comme des facteurs (k = log(K) et l = log(L)). La quantite a correspond `a une
quantite inobservee, qui sinterprete comme le logarithem du param`etre dechelle de la fonction
de production. Suivant les cas, on pourrra donc la considerer comme un param`etre `a estimer
(constant) ou comme le terme derreur du mod`ele. Lorsque lon sinteresse `a la fonction d epro-
duction de dierentes entrprises, le niveau de la technologie est ainsi susceptible de varier dune
entrprise `a lautre et il paratra alors naturelle de considerer cette quantite comme lerreur du
mod`ele. Pour les autres coecients, en revacnhe, le mod`ele specie impose une homogeneite du
processus de production dans la population dentreprises.
(ii) Demande de facteurs
La theorie economique a montre que la demande de facteurs qui emane des entreprises
se deduit directement de la fonction de co ut associee au processus de production. En toute
generalite, cette fonction secrit : C (Q, p
X
, u), o` u Q est le niveau de production, p
X
le vecteur
des prix des facteurs X et u le niveau de la technologie. La demande pour un facteur donne X
d
o
est donnee par le Lemme de Shephard :
X
d
0
=
C (Q, p
X
, u)
p
X
0
Comme dans le cas precedent on se restreint en general `a une forme parametrique de la
fonction de co ut. Une specication standard est la fonction de co ut translog avec deux facteurs :
le capital de co ut exp(c) et travail de co ut exp(w) :
log(C) = a +c +w + 0.5
c
c
2
+
w,c
cw + 0.5
w
w
2
+ log(Q) log(u)
Par application du lemme de Shephard, ce type de specication conduit `a des fonctions de
demande speciant la part optimal de chaque facteur dans le co ut global. Pour la demande de
travail, on a par exemple :
wL
Q
= +
w,c
c +
w
w
Dans cette specication, la perturbation na pas dinterpretation aussi naturelle que dans le
cas precedent. Il faut considerer que soit le param`etre est heterog`ene, soit la part observee
secarte de la part theorique pour des raisons non expliquees.
1.2. Principales etapes de lanalyse econometrique 5
Le mod`ele peut aussi provenir dune relation moins structurelle entre les variables. Par
exemple un type dequations tr`es souvent estime est lequation de Mincer qui fait dependre le
salaire du nombre dannees detude et de lexperience. Par exemple :
log (w
i
) = a
0
+a
s
s
i
+a
e
e
i
+u
i
o` u a
s
represente le gain lie `a une annee detude supplementaire et a
e
le gain lie `a une annee
dexperience supplementaire. Les param`etres economiques auxquels on sinteresse alors sont le
rendement de leducation ou le rendement de lexperience. La modelisation sous-jacente est
celle du capital humain : le capital humain saccumule dabord durant la periode des etudes
puis durant la vie active par lexperience, en apprenant sur le tas. Si on fait lhypoth`ese dun
marche du travail concurrentiel, les dierences de remunerations entre les agents traduiront des
dierences dans le capital humain. On peut remarquer concernant cette equation que lon ne
sinteresse pas seulement `a expliquer les dierences moyennes de revenus entre les agents mais
que lon souhaite aussi parvenir `a une estimation plus ambitieuse qui puisse conduire `a une
interpretation causale : si on augmente la duree des etudes de un an dun individu quel sera son
gain en terme de remuneration ?
Un autre exemple dans lequel le mod`ele entretient des rapports encore plus tenus avec des
param`etres structurels mais poss`ede une interpretation causale est celui de lincidence de la
taille dune classe sur le taux de reussite des el`eves de la classe. On peut legitimement se poser
la question de savoir si la reduction de la taille des classes conduit `a une amelioration du taux
de reussite scolaire. On peut ainsi considerer un mod`ele du type :

i
= a
0
+a
t
taille
i
+x
i
a
x
+u
i
o` u
i
represente le taux de reussite dune classe. Dans cette specication que lon pourrait appeler
fonction de production scolaire, on introduit un ensemble dautres variables. En eet on se doute
bien que de nombreux facteurs aectent la reussite dune classe. Par exemple lenvironnement
scolaire est certainement un facteur important. On pourrait se dire que comme on ne sinteresse
pas `a la variable denvironnement on ne la met pas dans la regression. Dun cote on y gagne car
on na pas `a faire leort de mesurer cette variable, mais dun autre cote cette variable contribue
aussi `a determiner la taille de la classe. Il est possible que dans certains milieux defavorises la
taille des classes soit plus petites. Si on ignore le role de lenvironnement scolaire et quon ne
lint`egre pas dans la regression, on risque de mesurer un eet de la taille de la classe qui soit un
mixte de leet propre de la taille et de leet de lenvironnement. Il donc important dans ce type
de mod`ele, entretenant des rapports larges avec la theorie, dintroduire des facteurs annexes qui
permettront disoler leet propre de la taille de la classe. On cherche `a controler pour un certain
nombre de facteurs exterieurs.
Enn, on peut avoir une approche descriptive des donnees. Il est important de remarquer
que dans ce cas les param`etres nont pas dinterpretation structurelle.
1.2.2 Les donnees
Les donnees constituent le cur de leconometrie. Leur recueil et leur examen descriptif
constituent aussi en general une part importante de tout travail econometrique. Il y a principa-
lement trois grands types de donnees :
6 Chapitre 1. Introduction
1. Donnees temporelles ou longitudinales. Elles sont indicees par le temps t. On dispose ainsi
de series dites temporelles : y
t
, x
t
, par exemple les series trimestrielles de la consommation
et du revenu, de lination... En general le nombre dobservation T est assez reduit, de
lordre de la cinquantaine. On note en general y le vecteur T 1 (y
1
, . . . , y
T
)

et x la matrice
T (K + 1) : (x

1
, . . . , x

T
)

o` u x
t
est le vecteur ligne forme des valeurs des dierentes
variables explicatives (dont la constante) `a la date t.
2. Donnees en coupe. y
i
, x
i
. Leur indice correspond `a lidentiant dun individu ou dune
entreprise. Ces donnees peuvent representer par exemple le salaire dun individu pour y
et son diplome, son experience... pour les variables explicatives. Les echantillons dont on
dispose sont en general de beaucoup plus grande taille : le nombre dobservation N depasse
le plus souvent la centaine et peut aller jusqu`a plusieurs dizaines de milliers. On note l` a
encore en general y le vecteur N1 (y
1
, . . . , y
N
)

et x la matrice N(K + 1) : (x

1
, . . . , x

N
)

o` u x
i
est le vecteur ligne forme des valeurs des dierentes variables explicatives (dont la
constante) pour lindividu i.
3. Donnees `a double indice, dites de panel : y
it
, x
it
. On dispose dinformations sur des indivi-
dus i = 1, . . . , N que lon suit sur plusieurs periodes, t = 1, . . . , T. Les NT observations z
it
correspondent `a N observations vectorielles individuelles z
i1
, . . . z
iT
. On note en general
y
i
le vecteur T 1 (y
i1
, . . . , y
iT
)

et x
i
la matrice T (K + 1) : (x

i1
, . . . , x

iT
)

et y le vecteur
NT 1
_
y
1
, . . . , y
N
_

et x la matrice NT (K + 1) : (x

1
, . . . , x

N
)

o` u x
i
est la matrice
formee des valeurs des dierentes variables explicatives (dont la constante) pour lindividu
i aux dierentes dates.
1.2.3 Lestimation
Estimer le mod`ele cest trouver une fonction des observations y et x

b = b
_
y, x
_
dont on souhaite quelle verie certaines conditions. Par exemple lestimateur peut etre choisi
tel
quil soit sans biais E
_

b
_
=
_
b
_
y, x
_
f
_
y, x
_
dydx = b
quil satisfasse un crit`ere : minimisation de la somme des carres des residus

b = arg min

(y xb)
2
;
maximisation de la log-vraisemblance

b = arg max

log l (y, x)
quil soit de variance minimale
quil soit convergent, cest `a dire quil se rapproche de la vraie valeur du param`etre lorsque
le nombre dobservations devient grand.
1.2.4 Pourquoi estimer le mod`ele ?
tester lexistence dun eet, i.e. verier quune variable x a un eet specique sur une va-
riable y. Par exemple on peut sinterroger sur leet des taux dinteret sur linvestissement,
cest `a dire sur lexistence dun canal monetaire de la politique monetaire. Dans le cadre
dun mod`ele accelerateur prot standard, I = Q
t
+ + r + v, on peut sinterroger
sur le fait que le coecient du taux dinteret soit nul ou non. On sinteresse donc `a
lhypoth`ese H
0
: = 0, et on souhaite que les donnees permettent de repondre `a cette
1.2. Principales etapes de lanalyse econometrique 7
question. De fa con similaire, dans le cas de la fonction de production scolaire on peut
sinterroger sur lexistence dun eet de la taille de la classe sur le taux de reussite. On
va alors sinteresser `a lhypoth`ese H
0
: a
t
= 0, et l` a aussi on souhaite que les donnees
nous permettent de choisir entre oui ou non. Lestimation du mod`ele et la confrontation
du param`etre `a zero est la voie la plus naturelle pour prendre cette decision. La question
est ici de savoir si le param`etre est signicatif au sens statistique du terme.
quantier cet eet, ce qui est utile `a des ns de simulations. Par exemple dans les deux
cas precedents on est aussi interesse par donner un ordre de grandeur de leet `a attendre
dune variation de la variable. Si on voulait par exemple prendre une decision de politique
economique consistant `a baisser la taille des classes, ce qui est tr`es co uteux, on est interesse
certes `a savoir si cela aura un eet non nul mais aussi `a savoir lordre de grandeur de cet
eet. Sil est tr`es faible on ne prendra pas alors aussi facilement la decision de reduire la
taille des classes. Lordre de grandeur du param`etre est aussi important. La question est
ici de savoir si le param`etre est signicatif au sens economique du terme.
prevoir. Dans le mod`ele y
t
= x
t
+u
t
, le param`etre peut etre estime sur les observations
t = 1, . . . , T :

. Connaissant x
T+1
on calcule la prevision de y `a la date T + 1 : y
T+1
=
x
T+1

1.2.5 Do` u vient le mod`ele ? - 2 de relations stochastiques


Le mod`ele provient aussi de relations stochastiques entre les variables. Lecriture de la relation
y = xb +u
ne constitue pas en fait un mod`ele econometrique. Comme on la vu il sagit dune relation plus
ou moins fondee. Si on ladmet fondee, le param`etre b a un sens en lui-meme. Il a une denition
economique, par exemple lelasticite de la production au capital. Pour que ce mod`ele soit un
mod`ele econometrique il faut lui adjoindre une restriction stochastique. Une fa con naturelle de
proceder est de specier la loi jointe des observations l (y, x; b) . Ceci revient `a specier la loi du
residu sachant les variables explicatives : l (u[x) . La situation de base est celle dans laquelle
cette loi est choisie comme une loi normale ne dependant pas des variables x. On impose donc
dans ce cas une restriction stochastique essentielle pour lanalyse econometrique
l (u[x) = l (u) = (u/) /
o` u est la densite de la loi normale. Imposer cette restriction permet de denir la densite des
observations
l (y, x; b) = l (y [x; b) l (x) = ((y xb) /) l (x) /
et donc destimer les param`etres en appliquant par exemple la methode du maximum de vraisem-
blance. Lestimateur auquel on parvient est alors celui des moindres carres ordinaires. On peut
aussi faire des hypoth`eses sur la loi de u sachant x qui soient moins fortes que la specication
de la loi compl`ete. Par exemple on peut se contenter de specier :
E (u[x) = E (u) = 0
Cette propriete est satisfaite si on specie la loi conditionnelle de u sachant x comme une loi
normale independante de x. Linverse est faux et cette specication est donc moins exigeante que
8 Chapitre 1. Introduction
la precedente. Elle permet, elle aussi, destimer le mod`ele. Elle implique en eet des restrictions
du type E (x

(y xb)) = 0 appelees intuitivement conditions dorthogonalite dont on verra


quelles sont susantes pour estimer les param`etres du mod`ele. On remarque `a ce stade que
dans cette specication il y a dores et dej` a un param`etre de moins : la variance des residus
nintervient plus.
Ces restrictions stochastiques denissent un param`etre statistique. On pourrait ainsi denir
autant de param`etres b quil y a de restrictions stochastiques envisageables, cest `a dire une
innite. On pourrait par exemple considerer le param`etre b
Z
associe `a des restrictions stochas-
tiques E (z

(y xb
Z
)) = 0 dont on verra quelles aussi peuvent etre utilisees souvent pour
conduire `a une estimation du param`etre. Il nest pas certain que le param`etre statistique associe
`a une restriction stochastique concide avec le param`etre economique. Lestimation peut ainsi
etre non convergente, cest `a dire que la valeur du param`etre estimee ne se rapprochera pas
de la vraie valeur (economique) du param`etre lorsque le nombre dobservation augmente, ou
etre biaisee, cest `a dire que lesperance du param`etre nest pas la vraie valeur (economique) du
param`etre. Une partie importante de leconometrie, qui passe par une reexion sur le mod`ele,
les donnees et les methodes consiste ` a rechercher des conditions dans lesquelles le param`etre
statistique concide avec le param`etre economique. La question est-ce que p lim

b = b
0
, la vraie
valeur economique du param`etre, est en dernier ressort la question la plus centrale et la plus
importante de leconometrie, et assez naturelle : est-ce que jai bien mesure ce que je voulais ?
Cest beaucoup moins facile quil ny parat, car de nombreux facteurs aectent les decisions
individuelles et il est dicile disoler leet dune unique cause.
1.3 Plan de louvrage
Le cours debute dans le chapitre 2 par lestimateur des moindres carres, cest `a dire le vecteur
des coecients de la projection orthogonale de y sur lespace vectoriel engendre par les variables
explicatives. On presente dabord les proprietes algebriques de cet estimateur et ses proprietes
statistiques sous des hypoth`eses minimales telles que lindependance et lequidistribution des ob-
servations (Theor`eme de Frish-Waugh, Theor`eme de Gauss-Markov, estimation des param`etres
du second ordre, le R
2
et lanalyse de la variance). On montre ensuite dans le chapitre 3 comment
la specication de la loi des residus comme une loi normale permet de completer lanalyse en
particulier en permettant dobtenir la loi des estimateurs, etape incontournable pour proceder `a
des tests dhypoth`eses simples (test de Student) ou denir des intervalles de conance pour les
param`etres. On examine ensuite dans le chapitre 4 et dans le meme cadre o` u la loi des residus
est supposee normale, le cas important des estimations sous contraintes lineaires (dans les pa-
ram`etres). On presente alors les tests dhypoth`eses lineaires sur les param`etres par le biais des
tests de Fisher. Ces resultats sont obtenus sous des hypoth`eses fortes :
Independance des residus et des variables explicatives : l (u[x) = l (u)
Homoscedasticite V (u[x) =
2
I
Specication de la loi des residus : l (u) normale.
Les chapitres suivants vont progressivement revenir sur chacune de ces hypoth`eses. On va
dabord examiner dans un cadre tr`es proche la loi asymptotique des estimateurs, cest `a dire
lorsque le nombre dobservations devient grand. On va chercher `a developper le meme genre de
proprietes permettant de faire de linference mais sans specier la loi des residus. Les resultats
1.3. Plan de louvrage 9
seront obtenus sous les hypoth`eses :
Absence de correlation entre les residus et les variables explicatives E (ux

) = 0
Homoscedasticite V (u[x) =
2
I
Le comportement asymptotique des estimateurs est examine dans le chapitre 5.
Dans le chapitre 6 on revient sur les hypoth`eses dindependance et dequidistribution des
param`etres. On presente lestimateur des moindres carres generalisee ainsi que dierentes fa cons
de traiter la situation dite dheteroscedasticite, i.e. situation dans laquelle la variance des residus
depend des variables explicatives. On aborde aussi succinctement la question des donnees de
panel et de lestimation de mod`eles faisant intervenir des syst`emes dequations. Le cadre dans
lequel on se situe est juste base sur
Absence de correlation entre les residus et les variables explicatives E (ux

) = 0
Les chapitres 7, 8 et 9 utilisent la methode des moindres carres generalises en sappuyant sur
une connaissance a priori de la structure de correlation des residus. Le chapitre 7 sinteresse plus
particuli`erement au cas des regressions empilees. Dans le chapitre 8, on consid`ere le cas dune
regression en coupe dans laquelle on a heteroscedascticite du residu, ce qui peut etre le cas par
exemple pour une equation de salaire, la variance du residu etant generalement croissante avec
le revenu. Dans le chapitre 9, on consid`ere le cas destimations o` u le residu peut etre modelise
comme une serie temporelle de comportement connu. On construit lestimateur les moindres
carres quasi-generalises en sappuyant sur la connaissance de la forme de lautocorrelation du
residu.
Dans le chapitre 10, on consid`ere la situation dans laquelle E (ux

) ,= 0. On aborde la ques-
tion de lidentication, fondamentale en econometrie. On montre comment `a laide de variables
exterieures z, dites instrumentales, il est possible destimer le param`etre dinteret. On revient
donc en partie sur certains aspects des generalisations precedentes pour mieux se concentrer sur
lhypoth`ese didentication. Les resultats sont obtenus sous les hypoth`eses
Absence de correlation entre les residus et des variables z : E (uz

) = 0,
Rg (z

x) = dimx
Homoscedasticite V (u[x, z ) =
2
I
On presente aussi deux tests importants : le test dexogeneite et le test de suridentication
qui sont des guides importants dans le choix des variables instrumentales.
Dans le chapitre 11 on presente une generalisation importante de la methode `a variable
instrumentale et qui englobe la plupart des methodes econometriques standards. Il sagit de la
methode des moments generalisee et on montre en particulier comment elle permet detendre la
methode `a variables instrumentales au cas dans lequel les perturbations sont heteroscedastiques
et `a dautres cas tels que celui de leconometrie des donnees de panel ou lestimation de syst`emes
dequations. Les hypoth`eses secrivent un peu dieremment ce qui souligne le caract`ere general
de cette methode
E (g (z, )) = 0
o` u z represente lensemble des variables du mod`ele, cest `a dire inclus les y et les x.
Dans le chapitre 12, on presente succinctement certains mod`eles non lineaires proches des
mod`ele lineaires. On sinteresse ainsi au mod`eles dits probit pour lesquels la variable `a expliquer
na plus un support continu sur R mais prend ses valeurs dans 0, 1 . La modelisation sous-
jacente consiste `a introduire une variable latente, i.e. non observee compl`etement
I

= zc +u
10 Chapitre 1.
et dont les realisations gouvernent lobservation de la variable I :
I = 1 I

> 0
On aborde egalement dautres situations importantes permettant daborder la questions de
la selectivite des echantillons, cest `a dire la situation dans laquelle on nobserve la variable
dependante que sous une condition liee par ailleurs `a la variable dependante elle-meme :
y

= xb +u
I

= zc +u
les realisations de I

gouvernent lobservation de la variable I et de la variable y :


I

> 0
_
I = 1
y = y

0 I = 0
Ce type de mod`ele appele mod`ele Tobit est souvent utilise, en particulier pour aborder len-
dogeneite de variables explicatives prenant la valeur 0 ou 1 dans des mod`eles `a coecients
variables
y
i
=
i
I
i
+v
i
Ce type de mod`ele est souvent utilise pour aborder levaluation des eets microeconomiques des
politiques de lemploi comme les stages de formations.
Dans le chapitre 13, on sinteresse `a levaluation des politiques publiques. On introduit no-
tamment lestimateur par dierence de dierences qui sapplique `a une experience naturelle. On
parle dexperience naturelle lorsquune partie de la population a fait lobjet dune nouvelle poli-
tique, tandis quune autre partie de la population na pas fait lobjet de cette politique et donc
peut servir de population temoin. On ne peut observer le comportement des individus touches
par une mesure sils navaient pas ete touches, on verra comment on peut neanmoins construire
des estimateurs evaluant limpact dune nouvelle politique.
Exercices
1. Linearite. Pour chacune des relations suivantes, proposer une transformation qui rende
le mod`ele lineaire.
Y
i
=
1

1
+
2
.X
i
(1.1)
Y
i
=
X
i

1
+
2
.X
i
(1.2)
Y
i
=
1
1 +e

1
+
2
.X
i
(1.3)
Chapitre 2
Lestimateur des moindres carres
ordinaires
Lestimateur des moindres carres ordinaires reste lun des estimateurs les plus frequemment
utilises. Il a de nombreux usage. On peut lutiliser par exemple pour proceder `a une descrip-
tion des donnees : quelles sont les variables rendant compte le mieux de la variabilite dune
variable dinteret. On peut aussi lutiliser dans de nombreuses autres situations pour estimer un
param`etre auquel on donne un sens causal : que se passerait-il si on faisait varier une variable
donnee dun montant donne. Il est base sur lhypoth`ese essentielle que les residus et les variables
explicatives sont orthogonaux. Il faut dautres hypoth`eses pour deriver les principales proprietes
de lestimateur. On verra dabord les proprietes algebriques puis les proprietes statistiques. Une
partie du cours correspondra `a lextension et la reformulation des proprietes de lestimateur des
mco lorsque lon remet en cause ces hypoth`eses. On generalise ou adapte le plus souvent les
proprietes de lestimateur `a la condition que lhypoth`ese centrale dabsence de correlation entre
perturbations et variables explicatives soit maintenue.
On va voir dans ce chapitre la denition de lestimateur des mco et son interpretation
algebrique comme vecteur des coecients de la projection orthogonale de la variable dependante
sur les variables explicatives. On va egalement obtenir deux proprietes importantes de cet esti-
mateur qui sont : la propriete de sans biais et une propriete doptimalite concernant la variance
de lestimateur, connue sous le nom de Theor`eme de Gauss-Markov.
2.1 Denition et proprietes algebriques
2.1.1 Denition
On consid`ere une variable dinteret y appelee variable dependante et un ensemble de K
variables dites explicatives auquel on adjoint une constante. On dispose de N observations. On
note y = (y
1
, . . . , y
N
) lempilement des N observations de la variable dependante. On denit
de meme les vecteurs x
1
, . . . , x
K
et x la matrice des variables explicatives `a laquelle on adjoint
le vecteur constant e = (1, . . . , 1)

: x =
_
e, x
1
, . . . , x
K
_
est donc une matrice de dimension
N (K + 1).
Denition 2.1 Lestimateur des moindres carres ordinaires est deni comme le vecteur b de
dimension K + 1, b = (b
0
, . . . , b
K
)

, des coecients de la combinaison lineaire de e, x


1
, . . . , x
K
11
12 Chapitre 2. Lestimateur des moindres carres ordinaires
realisant le minimum de la distance de y ` a lespace vectoriel de R
N
engendre par e, x
1
, . . . , x
K
,
pour la norme euclidienne :

b
mco
= arg min
_
_
y xb
_
_
2
Proposition 2.1 Sous lhypoth`ese
H1 : les vecteurs e, x
1
, . . . , x
K
sont independants,
lestimateur des moindres carres existe, est unique et a pour expression

b
mco
=
_
x

x
_
1
x

y
Demonstration Lobjectif `a minimiser est Ob (b) =
_
_
y xb
_
_
2
=
_
y xb
_

_
y xb
_
. La condition du premier
ordre secrit
dOb
db
= 2x

_
y xb
_
= 0
et la condition du second ordre
d
2
Ob
dbdb

= 2x

x denie positive
Lhypoth`ese dindependance de e, x
1
, . . . , x
K
revient `a faire lhypoth`ese que x

x est denie positive. La condition


du second ordre est ainsi satisfaite et la condition du premier ordre admet une solution
2.1.2 Interpretation geometrique
On associe deux grandeurs importantes `a lestimateur des moindres carres :
1. Le vecteur predit y = x

b
2. Le vecteur residuel u = y y
On voit immediatement compte tenu de la denition de lestimateur des moindres carres
ordinaires que le vecteur residuel est orthogonal aux variables explicatives et donc aussi au
vecteur predit :
x

u = 0
y

u = 0
y sinterpr`ete donc comme la projection orthogonale de y sur lespace engendre par e, x
1
, . . . , x
K
et lestimateur des moindres carres ordinaires comme le vecteur des coecients de cette projec-
tion.
Remarque 2.1 Comme la constante appartient ` a lensemble des regresseurs, on a immediatement
e

u = 0, soit u =
1
N

u
i
= 0 : la moyenne du vecteur residuel est nulle.
Les vecteurs predits et residuels peuvent secrire directement `a partir du vecteur y. On a en
eet
y = x

b = x
_
x

x
_
1
x

y = P
x
y
u = y y =
_
I
N
P
x
_
y = M
x
y
Les matrices P
x
et M
x
sont les matrices des projecteurs orthogonaux sur respectivement lespace
engendre par
_
e, x
1
, . . . , x
K
_
et son orthogonal. Comme on le verie directement on a en eet
P
2
x
= P
x
M
2
x
= M
x
P
x
+M
x
= I
N
et en outre
P
x
v = v tq v = x
2.1. Denition et proprietes algebriques 13
2.1.3 Theor`eme de Frish-Waugh
Le theor`eme de Frish-Waugh est une propriete algebrique de lestimateur des moindres carres
qui explicite linterdependance des coecients de dierentes variables dans une regression. Il
permet de repondre `a la question : dans quel cas est-il necessaire dintroduire toutes les variables
dun mod`ele dans la liste des regresseurs ?
Proposition 2.2 (Theor`eme de Frish-Waugh). Dans la regression de y sur un ensemble de
variables explicatives x, si x se decomposent en deux sous-ensembles x
1
et x
2
: x =
_
x
1
, x
2
_
, les
coecients des variables x
1
peuvent etre obtenus indirectement en regressant les residus M
x
2
y
de la regression de la variable dependante y sur les variables explicatives x
2
, sur les residus
M
x
2
x
1
des regressions des variables x
1
sur les variables explicatives x
2
:

b
1
=
_
_
M
x
2
x
1
_

M
x
2
x
1
_
1 _
M
x
2
x
1
_

M
x
2
y
on peut alors retrouver les coecients des variables x
2
en regressant la partie inexpliquee yx
1

b
1
sur x
2
:

b
2
=
_
x
2

x
2
_
1
x
2

_
y x
1

b
1
_
avec M
x
2
= I
N
x
2
_
x
2

x
2
_
1
x
2

Demonstration Les coecients de la regression de y sur x =


_
x
1
, x
2
_
satisfont
x
1

_
y x
1

b
1
x
2

b
2
_
= 0
x
2

_
y x
1

b
1
x
2

b
2
_
= 0
De la deuxi`eme equation on tire directement la deuxi`eme partie du theor`eme

b
2
=
_
x
2

x
2
_
1
x
2

_
y x
1

b
1
_
Lorsque lon reintroduit cette expression dans la premi`ere equation il vient
x
1

_
y x
1

b
1
x
2
_
x
2

x
2
_
1
x
2

_
y x
1

b
1
__
= 0
soit
x
1

M
x
2
_
y x
1

b
1
_
= 0
x
1

M
x
2
_
M
x
2
y M
x
2
x
1

b
1
_
= 0
compte tenu de M
2
x
2
= M
x
2
. Do` u lexpression de

b
1

Remarque 2.2 La caracteristique importante est dutiliser les residus des regressions de x
1
sur x
2
. Il nest pas necessaire dutiliser aussi les residus de la regression de y sur x
2
.
Applications du Theor`eme de Frish-Waugh
1. Dans la regression de y sur x
1
et x
2
on peut regresser separement y sur x
1
et y sur x
2
lorsque x
1
et x
2
sont orthogonaux.
2. Donnees de panel. Lorsque la regression introduit des indicatrices speciques `a chaque
individu (donc N variables, specication dite `a eets xes) en plus dun ensemble de
regresseurs dinteret x
1
, on peut dabord regresser les variables dinteret et la variable
14 Chapitre 2. Lestimateur des moindres carres ordinaires
dependante sur les variables indicatrices puis utiliser les residus des regressions correspon-
dantes. Dans ces operations puisque les variables indicatrices sont orthogonales les unes
aux autres on peut eectuer les regressions sur les indicatrices separement. On verie
aisement que le coecient de la regression dune variable sur une variable indicatrice din-
dividu est la moyenne des observations pour cet individu. Les residus des regressions sont
donc les ecarts aux moyennes individuelles des dierentes variables dinteret. Lestimateur
obtenu en regressant les ecarts des variables explicatives aux moyennes individuelles sur
la quantite analogue pour la variable dependante est tr`es populaire et connu sous le nom
destimateur Within (ou Intra).
3. Pour obtenir les coecients de x
1
dans la regression de y sur x
1
et x
2
, on peut regresser
y sur x
1
et la prevision de x
1
par x
2
: P
x
2
x
1
.
2.2 Mod`ele et proprietes statistiques
Lestimateur des moindres carres ordinaires a une denition mathematique. Il sagit du vec-
teur des coecients de la projection orthogonale de la variable dependante sur les variables ex-
plicatives. Dans le cadre de leconometrie on sinteresse neanmoins `a lestimation des param`etres
dun mod`ele econometrique. On consid`ere ainsi le mod`ele lineaire suivant :
y = b
0
+b
1
x
1
+ +b
K
x
K
+u
Pour lequel on dispose de N observations. Le mod`ele secrit aussi sous forme matricielle :
y = xb +u
On sinteresse aux proprietes statistiques de lestimateur des mco : quelle est son esperance,
sa variance... Comme lestimateur est une fonction des observations, ses proprietes statistiques
dependent de la loi des observations l (y, x). On les caracterise a partir dhypoth`eses sur la
loi conditionnelle de y sachant x, cest `a dire dans le cadre du mod`ele precedent comme des
hypoth`eses concernant la loi de la perturbation u conditionnellement aux variables explicatives.
2.2.1 Quand lestimateur des mco est-il sans biais ?
On sinteresse dabord aux conditions sous lesquelles lesperance de lestimateur des mco
concide avec la vraie valeur du param`etre. On dit alors que lestimateur est sans biais.
Denition 2.2 On dit quun estimateur

b
_
y, x
_
est sans biais lorsque : E
_

b
_
y, x
_
_
= b.
Dans cette denition E
_

b
_
y, x
_
_
=
_

b
_
y, x
_
f
_
y, x
_
dydx o` u f
_
y, x
_
represente la densite
jointe des variables explicatives et dependantes.
Proposition 2.3 Sous lhypoth`ese
H2 : E (u
n
[x) = 0 n
lestimateur des mco est sans biais.
2.2. Mod`ele et proprietes statistiques 15
Demonstration Lestimateur des mco secrit

b
mco
=
_
x

x
_
1
x

y
=
_
x

x
_
1
x

(xb +u)
= b +
_
x

x
_
1
x

u
on sinteresse `a E
_

b
_
y, x
_
|x
_
. On a clairement E
_

b
_
y, x
_
|x
_
= b + (x

x)
1
x

E (u|x) . Comme E (u|x) = 0


par hypoth`ese on a bien E
_

b
_
y, x
_
|x
_
= b. On en deduit immediatement E
_

b
_
y, x
_
_
= E
_
E
_

b
_
y, x
_
|x
__
= b

Lhypoth`ese H2 est extemement forte, puisquelle signie que lorsque les residus changent,
les variables explicatives ne changent pas. Dans de nombreuses situations cette hypoth`eses ne
peut pas etre tenu. Cest par exemple le cas si on prend un mod`ele ore-demande dans lequel
on observe les prix et les quantites. Si on consid`ere lequation de demande par exemple, elle
correspond `a lexistence dune relation decroissante entre la variable dependante, la quantite, et
la variable explicative, le prix. Si il y a un choc de demande, le desequilibre sur le marche va
se resoudre par une hausse de la quantite echangee et une hausse du prix. Dans ce mod`ele on
ne peut donc pas tenir lhypoth`ese H2 par nature meme du mod`ele auquel on sinteresse. Dans
dautres cas la situation peut etre plus favorable. Par exemple dans le cas de la taille de la classe
et du taux de reussite scolaire, il est vrai que lon peut contester le fait que E (u[taille) = 0,
mais il est possible quil existe un ensemble de variables explicatives x tel que lon ait u =
xc + v et E (v [taille, x) = 0. Autrement dit, on peut identier, mesurer et introduire dans
la regression les sources de variabilite communes `a la taille et au residu. Le mod`ele devient
tx = a
0
+a
t
taille +xb +v.
2.2.2 Quelle est la precision de lestimateur des mco ?
Le fait que la propriete dabsence de biais soit satisfaite est tr`es interessant mais on a be-
soin dinformations plus precises. On souhaite savoir si la vraie valeur peut se trouver loin de
lestimateur. Une telle information est donnee par la precision de lestimateur et on letudie en
considerant la variance :
Proposition 2.4 sous les hypoth`eses H1, H2,
H3 : V (u
n
[x) =
2
n
H4 : E (u
n
u
m
[x) = 0 n, m
la variance de lestimateur des mco conditionnellement au variables explicatives est donnee
par
V
_

b
mco
[x
_
=
2
_
x

x
_
1
La variance non conditionnelle est donnee par
V
_

b
mco
_
=
2
E
_
_
x

x
_
1
_
Demonstration La variance conditionnelle est denie comme
V
_

b
mco
|x
_
= E
__

b
mco
E
_

b
mco
|x
__ _

b
mco
E
_

b
mco
|x
__

|x
_
Comme E
_

b
mco
|x
_
= b et

b
mco
b = (x

x)
1
x

u,
V
_

b
mco
|x
_
=
_
x

x
_
1
x

E
_
uu

|x
_
x
_
x

x
_
1
16 Chapitre 2. Lestimateur des moindres carres ordinaires
La matrice E (uu

|x) a pour elements n, m E (u


n
u
m
|x) . On deduit directement des hypoth`eses que E (uu

|x) =

2
I
N

La matrice de variance a deux composantes :
2
et E
_
(x

x)
1
_
. Plus
2
, i.e. la variance
residuelle, est grande, moins lestimateur est precis. Ceci implique que lon peut accrotre la
precision des estimateurs de variables dinteret en introduisant des variables additionnelles, sa-
tisfaisant les hypoth`eses du mod`ele lineaire H1 H4, d`es lors quelles contribuent `a reduire
la variance residuelle. La matrice x

x joue un role central dans la variance de lestimateur. On


peut lecrire `a partir des observations individuelles comme x

x =

n
x

n
x
n
. On voit quune
ecriture plus adaptee est x

x = N
_
1
N

n
x

n
x
n
_
. Dans le cas du mod`ele lineaire simple avec une
unique variable explicative centree la matrice
_
1
N

n
x

n
x
n
_
1
secrit simplement comme 1/x
2
=
1/V (x). On voit que dans ce cas la variance de lestimateur secrit V
_

b
_
=
2
/ (NV (x)) . Les-
timateur est donc dautant plus precis que le nombre dobservations est grand. On sinteresse en
general `a lecart-type des param`etres estimes. La formule precedente implique que lecart type
decrot comme

N. Lorsque la taille de lechantillon est multipliee par 4 lecart-type nest divise


que par 2. On imagine donc bien que dans un echantillon de petite taille la precision de lesti-
mateur est un probl`eme important. On voit aussi que dans de grands echantillons de plusieurs
centaines de milliers dobservations, la precision des estimations sera tr`es grande. La formule
precedente montre aussi que lestimateur est dautant plus precis que la variance de la variable
explicative est importante. Cest parce que lon observe des situations dierentes au regard des
variables explicatives qui ne soient pas correlees avec les residus du mod`ele economique que lon
peut identier leet de ces variables. Enn un dernier cas permettant dillustrer les implications
de la formule precedente est le cas dans lequel il y a deux variables explicatives par exemple de
meme variance
2
et ayant un coecient de correlation . Dans ce cas on calcule simplement
_
1
N

n
x

n
x
n
_
1
=
1

2
x
(1
2
)
_
1
1
_
On voit que dans ce cas la precision de lestimateur est dautant plus faible que les variables
sont correlees. Au total, on voit que si les variables sont presque colineaires la precision de
lestimateur sera faible.
2.2.3 Lestimateur des mco est-il le plus precis : le theor`eme de Gauss-
Markov
On sinteresse naturellement `a la question de loptimalite de lestimation du param`etre b. Ce
param`etre, comme on la vu, est sans biais et il est en outre deni comme une fonction lineaire
des observations. Ceci forme une classe destimateurs. La question `a laquelle repond le theor`eme
de Gauss-Markov est celle de loptimalite (au sens de la precision) de lestimateur dans la classe
des estimateurs lineaires sans biais.
Denition 2.3 Un estimateur

b
1
est optimal dans une classe destimateurs

b si toute esti-
mation dune combinaison lineaire du param`etre est estimee plus precisement avec

b
1
quavec
nimporte quel estimateur de la classe consideree :
, V
_

b
1
_
V
_

b
_
2.2. Mod`ele et proprietes statistiques 17
Cette propriete signie que la matrice de variance V
_

b
1
_
de

b
1
verie

V
_

b
1
_

V
_

b
_

, cest `a dire que V


_

b
1
_
V
_

b
_
est semi-denie negative.
Proposition 2.5 Theor`eme de Gauss-Markov. Sous les hypoth`eses H1-H4 lestimateur des
moindres carres ordinaires du mod`ele
y = xb +u
est optimal dans la classe des estimateurs sans biais conditionnellement aux variables x.
Demonstration Soit

b un estimateur lineaire sans biais du param`etre b. Il existe donc une matrice A tel que
cet estimateur secrit

b = Ay. Lhypoth`ese dabsence de biais signie E
_

b |x
_
= b ce qui implique E
_
Ay |x
_
=
E (A(xb +u) |x) = Axb + AE (u|x) = b Comme E (u|x) = 0. Labsence de biais signie Axb = b. Ce resultat
est vrai pour b quelconque donc pour tout b, cest-`a-dire :
Ax = I
K+1
On a en outre

bE
_

b |x
_
= A
_
y E (y |x)
_
= Au. La variance dun estimateur lineaire sans biais quelconque est
donc de la forme V
_

b |x
_
= V (Au|x) = AV (u|x) A

=
2
AA

compte tenu de lhypoth`ese cruciale V (u|x) =

2
I
N
. Comme I
N
= P
x
+M
x
= x(x

x)
1
x

+M
x
, on a
V
_

b |x
_
=
2
AA

=
2
A
_
x
_
x

x
_
1
x

+M
x
_
A

=
2
_
Ax
_
x

x
_
1
x

+AM
x
A

_
comme Ax = I
K+1
et V
_

b |x
_
=
2
(x

x)
1
, on a
V
_

b |x
_
= V
_

b |x
_
+
2
AM
x
A

et la matrice AM
x
A

est necessairement semi-denie negative


2.2.4 Estimation des param`etres du second ordre
La variance des residus, intervenant dans lhypoth`eses H4, est un param`etre dit du second
ordre car il correspond aux moments dordre 2 de la variable y conditionnellement aux variables
explicatives. Cest un param`etre important `a plus dun titre. Dabord, il permet de mesurer la
qualite de lajustement. En outre, comme on la vu, il intervient dans la matrice de variance-
covariance des estimateurs et est `a lorigine de nombreux tests dhypoth`eses. Il est donc legitime
de sinteresser `a son estimation. Cette estimation fait intervenir le vecteur des residus estimes
u = y x

b
Proposition 2.6 Sous les hypoth`eses H1 ` a H4, lestimateur

2
=
u

u
N K 1
=

n
u
2
n
N K 1
est un estimateur sans biais du param`etre du second ordre
2
.
Demonstration Comme on la vu u = M
x
y = M
x
u. On a donc
u

u = u

M
x
u = Tr
_
u

M
x
u
_
= Tr
_
M
x
uu

_
18 Chapitre 2. Lestimateur des moindres carres ordinaires
On a donc
E
_
u

u|x
_
= E
_
Tr
_
M
x
uu

_
|x
_
= Tr
_
E
_
M
x
uu

|x
__
= Tr
_
M
x
E
_
uu

|x
__
=
2
Tr (M
x
)
et M
x
= I
N
x(x

x)
1
x

do` u
Tr (M
x
) = Tr
_
I
N
x
_
x

x
_
1
x

_
= N Tr
_
x
_
x

x
_
1
x

_
= N Tr
_
_
x

x
_
1
x

x
_
= N K 1

Exemple 1 Application ` a la prevision. On consid`ere le mod`ele y


n
= x
n
b +u
n
pour lequel on a
n = 1, . . . , N observations et satisfaisant les hypoth`eses H1 ` a H5. Connaissant x
N+1
et faisant
lhypoth`ese que le mod`ele reste valide pour cette observation, on souhaite estimer y
N+1
.
Dire que le mod`ele reste valide signie que non seulement la relation entre y
n
et x
n
peut
etre etendue ` a lobservation N + 1 : y
N+1
= x
N+1
b + u
N+1
mais encore que les hypoth`eses
stochastiques peuvent etre etendues ` a linclusion de lobservation N+1 en particulier ceci impose
E (u
N+1
[x, x
N+1
) = 0, V (u
N+1
[x, x
N+1
) =
2
, E (u
N+1
u
n
[x, x
N+1
) = 0.
La prevision de y
N+1
est
y
N+1
= x
N+1

b
mco
Conditionnellement aux variables explicatives la prevision est sans biais :
E ( y
N+1
y
N+1
[x, x
N+1
) = E
_
x
N+1
_

b
mco
b
_
u
N+1
[x, x
N+1
_
= 0
y
N+1
est le meilleur estimateur sans biais de y
N+1
, lineaire dans les observations y
1
, . . . , y
N
. Ceci
constitue une application directe du Theor`eme de Gauss Markov : si on consid`ere un estimateur
lineaire sans biais y
N+1
de y
N+1
. La variance de lerreur de prevision secrit E (y
N+1
y
N+1
[x, x
N+1
)
2
=
E (x
N+1
b +u
N+1
y
N+1
[x, x
N+1
)
2
= E (x
N+1
b y
N+1
[x, x
N+1
)
2
+ E
_
u
2
N+1
[x, x
N+1
_
puisque
lestimateur est lineaire en y et que y nest pas correle ` a u
N+1
conditionnellement aux observa-
tions de x. Le probl`eme se resume donc ` a chercher lestimateur lineaire sans biais de variance
minimale de la combinaison lineaire x
N+1
b du param`etre b. Le theor`eme de Gauss-Markov in-
dique quil sagit de x
N+1

b
mco
La variance de lerreur de prevision est
E ( y
N+1
y
N+1
)
2
=
2
_
x

N+1
_
x

x
_
1
x
N+1
+ 1
_
2.2.5 Analyse de la variance
Lanalyse de la variance est fondee sur lorthogonalite entre le vecteur des residus estimes et
de la variable predite.
y = y + u
Les regressions que lon consid`ere ayant un terme constant on a y = y dont on tire :
y ye = y ye + u
compte tenu de lorthogonalite on peut donc ecrire lequation dite equation danalyse de la
variance

n
(y
n
y)
2
=

n
_
y
n

y
_
2
+

n
u
n
2
2.2. Mod`ele et proprietes statistiques 19
ou encore
V (y) = V ( y) +V ( u)
La variance totale est la somme de la variance expliquee et de la variance residuelle. On introduit
une quantite tr`es couramment utilisee qui mesure la part de la variance expliquee par le mod`ele.
R
2
=
_
_
_ y ye
_
_
_
2
|y ye|
2
= 1
| u|
2
|y ye|
2

_
0 1
_
Le R
2
est frequemment utilise pour mesurer la qualite de lajustement. Neanmoins deux precautions
doivent etre prises :
Le R
2
depend du calibrage des observations. Par exemple si on consid`ere une fonction de
production
y = +l +k +u
lestimation va fournir un R
2
beaucoup plus important que celui obtenu avec le mod`ele
identique mais expliquant la productivite
y l = + ( 1) l +k +u
On montre facilement que plus on etend lensemble des variables explicatives plus le R
2
est grand. Ce nest donc pas necessairement un bon crit`ere de choix de mod`ele. Pour cette
raison on a introduit une quantite proche mais pas directement reliee qui est le R
2
ajuste.
Il est deni d

une fa con tr`es voisine du R


2
R
2
a
= 1

2
V (y)
= 1
| u|
2
/ (N K 1)
|y ye|
2
/N 1
= 1
_
1 R
2
_
N 1
N K 1
Remarque 2.3 Cette equation danalyse de la variance permet de preciser lexpression de la
variance de chacune des composantes de lestimateur. Dans la formule generale V
_

b
mco
[x
_
=

2
(x

x)
1
, la variance de la ki`eme composante de lestimateur des mco correspond au ki`eme
elements diagonal. Si on utilise les formules dinversion par bloc
A =
_
A
11
A
12
A
21
A
22
_
, A
1
=
_
A
11
A
12
A
21
A
22
_
, A
11
=
_
A
11
A
12
A
1
22
A
21
_
1
Si on consid`ere une variable x
k
particuli`ere, alors, quitte ` a reorganiser lordre des variables
explicatives : x = (x
k
, x
k
), o` u x
k
represente lensemble des variables explicatives autres que
la ki`eme,
x

x =
_
x
k

x
k
x

k
x
k
x

k
x
k
x

k
x
k
_
et on a donc (x

x)
1
11
= x
k

x
k
x

k
x
k
_
x

k
x
k
_
1
x

k
x
k
= x
k

M
x
k
x
k
= (N.V (x
k
[x
k
))
1
.
V (x
k
[x
k
) est la variance residuelle de la variable x
k
une fois pris en compte la part de la
variance de la variable x
k
expliquee par les autres variables explicatives du mod`ele. La variance
de chacune des composante de lestimation du param`etre secrit donc
V
_

b
k
_
=
2
/ (NV (x
k
[x
k
)) =
2
/NV
k|k
20 Chapitre 2. Lestimateur des moindres carres ordinaires
2.3 Variable omise et regresseur additionnel
2.4 Resume
1. On a vu dans ce chapitre la denition algebrique de lestimateur des mco comme vecteur des
coecients de la projection orthogonale de la variables dependante sur lespace engendre
par les variables explicatives.
2. Cet estimateur existe est unique sous lhypoth`ese H1 que les vecteurs des variables expli-
catives soient lineairement independant.
3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du pa-
ram`etre economique b dans le mod`ele lineaire y = xb +u. : Il sagit de lhypoth`ese H2 que
lesperance des residus conditionnellement aux variables observables est nulle.
4. Sous les hypoth`eses H3 et H4 que dans ce mod`ele les perturbations sont conditionnelle-
ment aux variables explicatives des variances identiques et sont non correlees les unes avec
les autres, on peut donner lexpression classique de la matrice de variance de lestimateur
V
_

b [x
_
=
2
(x

x)
1
.
5. Sous ces meme hypoth`eses lestimateur des mco est le meilleur estimateur lineaire sans
biais, au sens de la minimisation de la variance.
6. Linterpretation de cette formule conduit `a la conclusion que plus le nombre dobservations
est grand, plus la variance residuelle
2
est faible, plus les variables explicatives presentent
de variabilite propre, plus lestimateur est precis.
7. Le param`etre du second ordre
2
peut etre estime sans biais comme la moyenne des carres
des residus tenant compte des degres de liberte :
2
=

u
2
n
_
(N K 1) .
8. Le R
2
est une mesure de la qualite de lajustement du mod`ele aux donnees : il mesure la
part de la variance totale expliquee par le mod`ele.
Ces resultats sont importants : ils etablissent les conditions sous lesquelles les estimateurs
sont sans biais et ils permettent de determiner la precision des estimations. Ils sont neanmoins
insusants pour donner des intervalles de conance sur les param`etres estimes et realiser des
tests dhypoth`ese. Pour aller plus loin il faut faire des hypoth`eses supplementaires. On peut
proceder de deux fa cons :
1. Lorsque le nombre dobservations est faible, on peut specier la loi des observations condi-
tionnellement aux variables explicatives. Ceci est fait dans la majeure partie des cas en
speciant les residus comme suivant une loi normale. On peut alors caracteriser la loi de
lestimateur. On peut aussi dans ce cas estimer le mod`ele par maximum de vraisemblance.
On peut alors tester des hypoth`eses dites simples (nullite dun param`etre). Ces tests sont
appeles test de Student. Ce cas est examine dans le chapitre 3. On peut aussi sur la base de
cette hypoth`ese estimer le mod`ele en imposant des contraintes lineaires sur les param`etres
et tester lhypoth`ese que ces contraintes sont acceptees. Les tests mis en oeuvres sont alors
des test dits de Fisher. Ces aspects sont presentes dans le chapitre 4.
2. La deuxi`eme fa con est detudier les proprietes asymptotiques de lestimateur, cest `a dire
lorsque le nombre dobservations devient grand. On montre dans le chapitre 5 que sans
specier la loi des residus mais en faisant des hypoth`eses susamment fortes sur lepaisseur
des queues de distribution des residus, on peut specier la loi asymptotique de lestimateur.
Chapitre 3
Les MCO sous lhypoth`ese de
normalite des perturbations
Dans ce chapitre on examine les proprietes de lestimateur des mco lorsque lon fait lhy-
poth`ese de normalite des perturbations. Plus precisement on fait lhypoth`ese H
n
suivante.
H
n
: la loi de u conditionnellement aux variables explicatives x est une loi normale de
moyenne nulle et de matrice de variance
2
I
N
.
l (u[x) =
1
_

2
_
N

_

u
2
n
/2
2
_
u[x N
_
0,
2
I
N
_
Remarque 3.1 Cette hypoth`ese est plus forte que les hypoth`eses H
2
H
4
puisquelle implique
que le moment dordre 1 de u conditionnellement ` a x est nul. cest ` a dire lesperance
On va voir que dans ce cas on peut preciser la loi de lestimateur du param`etre ainsi que celle
de lestimateur de la variance des residus. On va aussi obtenir un resultat central, le theor`eme
de Cochrane, `a la base de tous les tests eectues `a partir de lestimateur des mco.
3.1 Normalite de lestimateur des mco
Proposition 3.1 Sous lhypoth`ese H
n
, on peut specier la loi jointe de lestimateur des mco et
de lestimateur de la variance des residus conditionnellement aux variables explicatives :
1. Lestimateur du param`etre des mco

b
mco
est distribue comme une loi normale de moyenne
b, la vraie valeur du param`etre, et de matrice de variance
2
(x

x)
1
:

b
mco
N
_
b,
2
(x

x)
1
_
2. Lestimateur
2
, convenablement normalise, est distribue suivant une loi du
2
[N (K + 1)]

2

2

2
(N (K + 1))
3.

b
mco
et
2
sont independants (Theor`eme de Cochran)
Demonstration Le resultat concernant la normalite de lestimateur est immediat. Il provient du fait que les-
timateur des mco est lineaire dans les observations de la variable dependante. Comme conditionnellement `a x la
variable dependante est normale, lestimateur des mco est une combinaison lineaire de variables normales et est
21
22 Chapitre 3. Les MCO sous lhypoth`ese de normalite des perturbations
donc lui meme un vecteur normal, caracterise par ces deux premiers moments : son esperance dont on a vu quelle
etait egale `a la vraie valeur du param`etre, et sa matrice de variance dont on a donne lexpression au chapitre
precedent, sous des hypoth`eses plus generales que celle de la loi normale.
De meme, les residus estimes sont eux memes normaux. On a en eet u = M
x
y = M
x
u. Par ailleurs, on a aussi
directement

b b = (x

x)
1
x

u. Finalement on peut specier la loi jointe des residus estimes et de lestimateur


des mco :
_

b b
u
_
=
_
(x

x)
1
x

M
x
_
u
On en deduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne visiblement nulle et dont on
peut preciser la variance :
V
_

b b
u

x
_
=
_
(x

x)
1
x

M
x
_
V
_

b b
u

x
__
(x

x)
1
x

M
x
_

=
2
_
(x

x)
1
x

M
x
_
_
x(x

x)
1
M
x
_
=
2
_
(x

x)
1
x

x(x

x)
1
x(x

x)
1
M
x
M
x
x(x

x)
1
M
x
_
Comme M
x
x = 0, on en deduit
V
_

b b
u

x
_
=
2
_
(x

x)
1
0
0 M
x
_
Dont on deduit
1. lexpression de la variance de lestimateur des mco
2. lestimateur des mco et les residus estimes sont independants (car etant tous les deux normaux et non
correles). Lestimateur des mco et lestimateur de la variance
2
= u

u/ (N K 1) sont donc independants.


3. Les residus estimes suivent une loi normale de matrice de variance
2
M
x
.
Rappel :
Si Z N (0, I
L
) , alors par denition
_
_
Z
2
_
_
= Z

Z =

L
l=1
Z
2
l

2
(L)
Si P est un projecteur orthogonal sur un sous espace de dimension L
1
alors Z

PZ
2
(L
1
) (Voir annexe)
On applique ce resultat `a Z = u/ N (0, I
N
) et P = M
x
. On a : ( u/)

( u/) = (u/)

x
M
x
(u/) =
(u/)

M
x
(u/) . On en deduit que u

u/
2

2
(N K 1) , puisque M
x
est le projecteur orthogonal sur
lorthogonal de lespace vectoriel engendre par les x donc de dimension N K 1. Finalement, comme u

u =
(N K 1)
2
, [N (K + 1)]

2

2

2
(N (K + 1))
On rappelle quune loi du
2
(L) `a L degres de libertes a pour premier et second moments
E
_

2
(L)
_
= L, V
_

2
(L)
_
= 2L. On verie donc que E
_
[N (K + 1)]

2

2
_
= N K 1.
On verie donc que lon a bien E
_

2
_
=
2
: lestimateur de la variance est sans biais. On
apprend maintenant, gr ace `a la specication normale la distribution de lestimateur de la variance
des residus et donc sa variance : on a V
_
[N (K + 1)]

2

2
_
= 2 (N K 1), soit V
_

2
_
=
2
4
/ (N K 1) . On voit donc que comme pour lestimateur des mco, lorsque le nombre
dobservations devient grand la variance de lestimateur tend vers zero. Le rythme de convergence
est en outre identique `a celui de lestimateur des mco. On remarque en revanche une specicite
de lestimateur de la variance : plus la dispersion des residus est importante, plus lestimateur
est imprecis.
Lestimation de la variance des residus peut etre interessante pour elle-meme, mais elle nous
interesse en premier lieu car cest un param`etre important de la matrice de variance de lesti-
mateur du param`etre de premier interet b. En eet, on a vu que

b
mco
[x N
_
b,
2
(x

x)
1
_
,
mais ce resultat reste insusant dans la mesure o` u on ne connat pas la variance des residus.
3.2. Ecart-types estimes, tests et intervalles de conance 23
3.2 Ecart-types estimes, tests et intervalles de conance
3.2.1 Ecart-type
La formule de la matrice de variance de lestimateur est utile V
_

b
mco
[x
_
=
2
(x

x)
1
,
mais elle nest pas directement exploitable car on ne connat pas la variance des residus
2
.
Un estimateur naturel de cette matrice consiste `a remplacer la quantite inconnue
2
par un
estimateur.

V
_

b
mco
[x
_
=
2
_
x

x
_
1
On a immediatement le resultat que

V
_

b
mco
[x
_
est un estimateur sans biais de la matrice de
variance de lestimateur mco du param`etre.
On sinteresse en fait plus speciquement `a la variance de chaque composante de lestimateur

2
k
= V
_

b
k
_
=
2
_
(x

x)
1
_
kk
=
2
x
kk
o` u dans cette notation x
kk
est le ki`eme element diagonal
de (x

x)
1
. Dans le chapitre precedent on a vu que ce ki`eme element etait en fait linverse de la
variance residuelle de la projection de x
k
sur les autres variables du mod`ele (la variance propre
de la ki`eme variable) divisee par le nombre dobservations. Un estimateur naturel de
2
k
est

2
k
=
2
x
kk
La quantite
k
=
_

2
k
est systematiquement associe `a nimporte quelle estimation par les mco.
Gr ace aux resultats portant sur la loi de
2
on peut directement donner la loi de
2
k
:
Proposition 3.2 Sous lhypoth`ese H
n
lestimateur de la variance de la ki`eme composante du
vecteur des param`etre suit, convenablement normalisee une loi du
2
(N K 1) :
[N (K + 1)]

2
k

2
k

2
(N (K + 1))
et est independant de lestimateur des mco

b
mco
.
3.2.2 Un resultat central
On sinteresse `a lobtention dintervalles de conance et `a des tests dhypoth`ese simple du
type H
0
: b
k
= b
0
k
pour une valeur donnee de b
0
k
. Un cas tr`es frequemment examine est par
exemple celui de la nullite dun param`etre (b
0
k
= 0). Pour obtenir des intervalles de conance ou
pour eectuer des tests, on a besoin dobtenir une fonction des estimateurs qui ne depende pas
des param`etres.
Proposition 3.3 Sous lhypoth`ese de normalite des perturbations H
n
, pour une composante
donnee k du param`etre on a

b
k
b
k

k
Student (N K 1)
Demonstration Ce resultat decoule directement de la denition des lois de Student : Si X
1
suit une loi normale
N (0, 1) et X
2
suit une loi du
2
(H) `a H degres de liberte, et si X
1
et X
2
sont independants alors
S =
X
1
_
X
2
/H
Student (H)
24 Chapitre 3. Les MCO sous lhypoth`ese de normalite des perturbations
Ici

b
k
N
_
b
k
,
2
k
_
. On en deduit donc que
_

b
k
b
k
_
/
k
N (0, 1) . En outre le resultat precedent etablit
que [N (K + 1)]

2
k

2
k

2
(N (K + 1)) et est independant de

b
k
. On a donc par application directe de la
denition
_

b
k
b
k
_
/
k
_
_
[N (K + 1)]

2
k

2
k
_
/ [N (K + 1)]
=

b
k
b
k

k
Student (N K 1)

Les lois de Student sont des lois symetriques de moyenne nulle et de variance H/ (H 2)
o` u H est le nombre de degres de liberte. Plus H est faible, plus les queues de distribution sont
epaisses. On voit quil y a un nombre minimal de degres de liberte pour que le moment dordre
2 existe : H > 2.
3.2.3 Intervalle de conance
Denition 3.1 Un intervalle de conance pour le param`etre b
k
au niveau est un intervalle
[a, a] tq P (b
k
[a, a]) = 1 .
Lemme 1 Soit z une variable aleatoire dont la distribution f est symetrique autour de zero,
croissante pour z < 0, continue et de fonction de repartition F, tout intervalle [z, z] tel que
P (z [z, z]) = p
0
donne, de longueur minimale est symetrique.
Demonstration Ce resultat se montre tr`es facilement. La symetrie de la distribution secrit f (z) = f (z)
et implique F (z) = 1 F (z). On a F (z) F (z) = p
0
, donc la longueur de lintervalle est L = z z =
F
1
(F (z) +p
0
) z. La derivee de la longueur de lintervalle par rapport `a z est dL/dz = f (z) /f (z) 1. Si
f (z) < f (z) , alors dL/dz < 0. On pourra diminuer la longueur de lintervalle en augmentant z. Comme f est
croissante dans le domaine negatif accrotre z conduit `a accrotre f (z) /f (z) 1. Lextremum de la longueur,
obtenu pour f (z) /f (z) 1 = 0 est donc bien un minimum.
Pour trouver un intervalle de conance pour le param`etre b
k
on applique directement les
resultats du lemme :
Proposition 3.4 Sous les hypoth`eses H
n
, soit

b
k
la ki`eme composante de lestimateur des mco
et
k
=
_

2
k
lestimateur de son ecart-type, alors lintervalle de conance de longueur minimale
du param`etre b
k
au niveau est
_

b
k

k
t
NK1
(1 /2) ,

b
k
+
k
t
NK1
(1 /2)
_
o` u t
NK1
(1 /2) est le quantile dordre 1 /2 dune loi de Student ` a N K1 degres de
liberte.
Le quantile dordre 1/2 dune loi de Student `a NK1 degres de liberte est la quantite
t telle que pour une variable S suivant une loi de Student `a N K 1 degres de liberte,
P (S < t) = 1 /2, et de fa con similaire P (S > t) = /2
Demonstration Par application des resultats precedents, on a immediatement que S =

b
k
b
k

k
Student (N K 1).
Comme la loi de Student est symetrique, on en deduit que lintervalle de longueur minimale auquel S appartienne
avec probabilite 1 est
P (S [t
NK1
(1 /2) , t
NK1
(1 /2)]) = 1
dont on deduit immediatement lexpression des bornes de lintervalle de conance.
3.2. Ecart-types estimes, tests et intervalles de conance 25
Remarque 3.2 Ce resultat setend directement au cas dans lequel on cherche un intervalle de
conance pour une combinaison lineaire donnee des param`etres :

b. En eet, on trouve directe-


ment la loi de lestimateur de la combinaison lineaire

b
mco
:

b
mco
N
_

b,
2

(x

x)
1

_
.
En notant
b
=
_

(x

x)
1
et
b
=
_

2

(x

x)
1
, on verie aisement que lintervalle
de conance pour la combinaison lineaire donnee des param`etres est
_

b
mco

b
t
NK1
(1 /2) ,

b
mco
+
3.2.4 Tests de la forme

b =
On rappelle dabord des elements basiques concernant les tests. On se ref`ere pour cela `a
Gourieroux-Monfort. Les notions importantes sont celles dhypoth`ese nulle, notee H
0
, et dhy-
poth`ese alternative, notee H
1
. Elles correspondent `a une partition de lensemble des lois possibles
des observations. Ici compte tenu du fait quon se situe dans un cadre parametrique (la loi des
observations est speciee integralement), lensemble des lois possibles est decrit par lensemble
des valeurs possibles de tous les param`etres : b,
2
. Les hypoth`eses que lon va considerer ici
portent sur la valeur dune composante du param`etre ou dune combinaison lineaire du pa-
ram`etre : b
k
= b
0
k
pour une valeur donnee de b
0
k
, un cas tr`es frequent etant celui de la nullite,
b
0
k
= 0. On examinera dans le chapitre suivant des hypoth`eses portant sur plusieurs param`etres,
mais les rappels que lon eectue ici valent pour lune et lautre situation. Dune fa con generale,
elles vont secrire sous la forme H
0
:
0
et H
1
:
1
.
Un test pur est une r`egle de decision pure cest `a dire une fonction des observations conduisant
`a choisir entre la decision d
0
: H
0
est vraie, et d
1
: H
1
est vraie. A un test pur est associe une
region critique, en general notee W denie comme lensemble des realisations des observations
conduisant `a prendre la decision d
1
. Les tests peuvent aussi en theorie etre mixtes. Dans ce cas la
r`egle de decision est mixte. Il sagit alors dune fonction des observations associant `a la decision d
1
une probabilite : compte tenu des observations y on accepte lhypoth`ese H
1
avec une probabilite
(y). Il y a trois grandeurs essentielles associees `a un test : le risque de premi`ere esp`ece, le
risque de deuxi`eme esp`ece et la puissance du test. Le risque de premi`ere esp`ece correspond `a
la probabilite de de rejeter H
0
alors que H
0
est vraie (i.e. rejeter H
0
`a tort). Pour un test pur
caracterise par une region critique W, il sagit de la fonction P

(W) denie sur


0
Pour un test
aleatoire, elle est denie par E

((y)). On la note (, ) . Dans cette notation, represente


le test et la valeur du param`etre. Le risque de deuxi`eme esp`ece est `a linverse la probabilite
daccepter `a tort lhypoth`ese nulle (i.e. la probabilite de rejeter H
1
alors que H
1
est vraie. Il est
deni comme 1 E

((y)) pour
1
et dans le cas dun test pur par 1 P

(W). On note
en general cette quantite (, ) Enn la puissance du test represente la probabilite de rejeter
`a raison lhypoth`ese nulle. On la note (, ). Cette fonction est denie sur
1
et etroitement
liee `a la fonction de risque de deuxi`eme esp`ece (, ) = 1 (, ). On prefererait des tests
pour lesquels les risques de premi`eres et seconde esp`ece soient les plus faibles possibles. Cest `a
dire quun test est prefere `a un autre si les fonctions de risque de premi`ere et seconde esp`ece
sont plus faibles. Il existe clairement des tests minimisant separement chacun des risques (le test
correspondant au rejet systematique de H
1
minimise le risque de premi`ere esp`ece). Neanmoins
on montre facilement quil ny a pas de test annulant simultanement les deux risques : il est
donc necessaire de se referer `a un principe permettant de selectionner un test. Le principe retenu
est celui de Neyman qui consiste `a privilegier la minimisation du risque de seconde esp`ece. On
consid`ere des classes de tests caracterises par un seuil (ou encore niveau) donne . Ces tests
26 Chapitre 3. Les MCO sous lhypoth`ese de normalite des perturbations
sont tels que le risque de premi`ere esp`ece soit uniformement inferieur `a . Parmi ces tests,
on souhaiterait selectionne ceux maximisant la puissance. Cest ce que lon appelle des tests
uniformement plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la
puissance pour toute valeur du param`etre correspondant `a lhypoth`ese alternative. De tels tests
nexiste en general pas et on adjoint dautres proprietes : tests sans biais, tests invariants... qui
permettent de restreindre encore la classe des tests examines. La propriete de tests sans biais
au niveaux correspond pour les tests de niveau au fait que la puissance du test pour toute
valeur du param`etre sous lhypoth`ese alternative soit superieure `a . On consid`ere le test de
lhypoth`ese nulle
H
0
: b
k
= b
0
k
contre lhypoth`ese
H
1
: b
k
,= b
0
k
On a alors le resultat suivant
Proposition 3.5 Considerant la statistique

S =

b
k
b
0
k

k
le test deni par la region critique
W =
_

S < t
NK1
(1 /2)
_

S > t
NK1
(1 /2)
_
o` u t
NK1
(1 /2) est le quantile dordre 1 /2 dune loi de Student ` a N K1 degres de
liberte est un test uniformement plus puissant sans biais au niveau de lhypoth`ese H
0
contre
H
1
.
On verie aisement que ce test est un test au niveau . En eet sous lhypoth`ese nulle on a
vu que

b
k
b
0
k

k
suit une loi de Student `a N K 1 degres de liberte. La probabilite de rejeter
lhypoth`ese nulle (la probabilite de la region critique) dans ce cas est donc bien . Montrer
la propriete de sans biais et la propriete concernant la puissance est plus complique (voir les
resultats dans Gourieroux et Monfort sur le mod`ele exponentiel). On peut aussi denir la region
critique par W =
_

> t
NK1
(1 /2)
_
Mise en oeuvre du test : on calcule la statistique de Student

b
k
b
0
k

k
. Suivant les valeurs prises
par cette statistique, on accepte ou rejette lhypoth`ese nulle. Si la statistique prend des valeurs
extremes on rejette lhypoth`ese, sinon on laccepte. Le seuil de rejet dependent du niveau du
test. On consid`ere en general des tests au seuil de 5%. Le quantile dordre 97, 5% = 1 2, 5%
dune loi de Student depend du nombre de degres de liberte. lorsque ce nombre devient grand,
ce quantile est 1.96. On sera donc amene `a rejeter au seuil de 5% une hypoth`ese d`es lors que la
statistique de Student en valeur absolue est superieur `a 1.96. Lorsque le nombre de degres de
liberte est plus faible, cest `a dire lorsque le nombre de variables explicatives est plus important
ou lorsque le nombre dobservations est plus faible, le seuil augmente. Par exemple pour 5 degres
de liberte, le seuil de la region critique est de 2,56 ; pour 500 degres de liberte de 1,96 (voire
gure 3.1)
3.3. Un exemple 27
Fig.3.1 Distribution de Student pour 5 et 500 degr es de libert e
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-5 -3 -1 1 3 5
Ce test est parfois caracterise par ce que lon appelle la p-value. Il sagit `a contrario du
niveau du test pour lequel la statistique observee serait le seuil. Elle est donc denie par la
quantite p value = P
_
[S[ >

_
= 2
_
1 F
_

__
lorsque S suit une loi de Student `a N-
K-1 degres de liberte. On acceptera lhypoth`ese nulle pour un test au niveau si la p value
est superieure `a . En eet compte tenu du fait que F (t
NK1
(1 /2)) = 1 /2, on a
2 (1 F (t
NK1
(1 /2))) =
p value >

< t
NK1
(1 /2)
Un test systematiquement mis en oeuvre est le test dit de signicativite des param`etres. Il
correspond `a lhypoth`ese nulle b
k
= 0. La statistique de Student associee `a ce test, nommee t
de Student est denie par

b
k
/
k
. En general nimporte quelle estimation dun mod`ele lineaire
fait par defaut lhypoth`ese de normalite des residus. Elle produit la valeur estimee du param`etre
la valeur estimee de lecart-type, la valeur du t de Student (correspondant `a lhypoth`ese de
signicativite du param`etre) et la p-value correspondant `a ce test.
3.3 Un exemple
Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du test
lorsque la vraie valeur du param`etre varie. On va considerer un mod`ele `a une unique variable
y = 1 +xb
0
+u
et on va simuler ce mod`ele pour dierente vraie valeur du param`etre, allant de 0 `a 2. On va
sinteresser au test de lhypoth`ese H
0
: b = 1. Pour calculer la fonction de puissance en un point
donne b
0
, on utilise des simulations. On titre un echantillon Ech
1
avec b
0
comme vraie valeur
du param`etre. Sur cet echantillon on applique le test. On retient la decision d
1
= 1 si on rejette
et d
1
= 0 sinon. On replique cette operation avec la meme vraie valeur sur M echantillons, avec
M grand. On a ainsi un ensemble de valeur (d
i
)
iM
. On approxime la valeur de la fonction de
28 Chapitre 3. Les MCO sous lhypoth`ese de normalite des perturbations
puissance par (b
0
) = d
i
. Cest bien un estimateur du nombre de fois ou on a rejete `a raison
lhypoth`ese. Bien sur, lorsque b
0
= 1, la quantite calculee nest pas la puissance mais le risque
de premi`ere esp`ece. On peut proceder ainsi pour dierentes taille dechantillons. On consid`ere
le cas dans lequel il ny a que 20 observations, puis on augmente progressivement ce nombre.
On consid`ere respectivement N = 50, 100, 500, 2000. La gure 3.2 montre le resultat de ces
estimations. On voit que le graphe de la fonction de puissance a une forme de vasque. Si on
se situe au niveau de la valeur testee b
0
= 1, on trouve bien que la proportion de rejet est de
5%, correspondant au risque de premi`ere esp`ece, et ce quelque soit le nombre dobservations.
Lorsque lon secarte de la vraie valeur on voit que la courbe crot : on rejette de plus en plus
souvent le param`etre. La croissance est tr`es vive lorsque le nombre dobservation est grand : si
la vraie valeur est de 0.95, on va rejeter lhypoth`ese dans 60% des cas. Par contre, dans le cas
de 20 observations, il faut que la vraie valeur secarte de plus de 0.5 pour que lon atteigne des
taux de rejet similaire. Ce resultat merite detre note : avec un petit nombre dobservations,
on est amene `a accepter `a tort lhypoth`ese dans 40% des cas meme lorsque la vraie valeur est
assez eloignee. Lorsque lecart `a la valeur testee augmente, la probabilite de rejet tend vers 1.
Cette valeur est tr`es rapidement atteinte lorsque le nombre dobservations est grand, pour des
nombres plus petits il faut des ecarts plus importants.
Remarque 3.3 Dans le cas o` u la variance des residus est connu, on peut tr`es facilement
calculer la fonction de puissance. En eet dans ce cas

b b
0
/
x
^ (0,1)
Sous H
0
: b
0
= 1, on a donc

b 1
/
x
^ (0,1)
et a region critique du test est
W =
_

b 1
/
x
< q
n,/2
_

b 1
/
x
> q
n,1/2
_
cest ` a dire en faisant intervenir la vraie valeur du param`etre
W =
_

b b
0
/
x
< q
n,/2
+

N
b
0
1
/
x
_

b b
0
/
x
> q
n,1/2
+

N
b
0
1
/
x
_
On en deduit facilement la fonction de puissance
P (b
0
) =
_
q
n,/2
+

N
b
0
1
/
x
_
+ 1
_
q
n,1/2
+

N
b
0
1
/
x
_
On voit quau voisinage de b
0
= 1, la fonction de puissance se developpe en
P (b
0
) = +q
n,1/2

_
q
n,1/2
_
N
_
b
0
1
/
x
_
2
Comme la fonction x(x) est decroissante pour x > 1, que pour des valeurs de faibles q
n,1/2
est plus grand que 1 et que q
n,1/2
croit avec , plus est eleve, plus q
n,1/2

_
q
n,1/2
_
est
3.4. Comparaison avec lestimateur du Maximum de Vraisemblance 29
Fig.3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions
0%
20%
40%
60%
80%
100%
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
n=20 n=50 n=100 n=500 n=2000 5%
grand. On voit que dans ces conditions, les tests ayant des risques de premi`ere esp`ece faibles
auront peu de puissance pour des vraies valeurs au voisinage de la valeur traitee. On voit aussi
que la dependance dans la taille de lechantillon est en N. Il est clair que lorsque N tend vers
linni la puissance du test tend vers 1. Pour etudier la puissance dun test on sinteresse en
general ` a ce que lon appelle des alternatives locales en determinant la puissance pour
b
0
(N) = 1 +/

N
o` u 1 est la valeur testee et une direction donnee dans lespace des param`etre (ici comme le
param`etre est de dimension 1 cette caracteristique tombe).
3.4 Comparaison avec lestimateur du Maximum de Vraisem-
blance
On peut aussi directement appliquer lestimateur du maximum de vraisemblance aux donnees.
La vraisemblance secrit :
L
_
y, x, b,
2
_
= 0.5N log (2) 0.5N log
_

2
_
+ 0.5 (y xb)

(y xb) /
2
30 Chapitre 3. Les MCO sous lhypoth`ese de normalite des perturbations
Proposition 3.6 Lestimateur du maximum de vraisemblance du param`etre b est identique ` a
lestimateur des mco. Il a les memes proprietes que lestimateur des mco : sous les hypoth`eses
H1 H4 & H
n
, il suit une loi normale centree sur la vraie valeur du param`etre et ayant pour
matrice de variance V
b
=
2
E (x

x)
1
. Lestimateur du maximum de vraisemblance du param`etre
du second ordre
2
se deduit lineairement de lestimateur des mco de ce param`etre par application
dun facteur (N K 1) /N. Cet estimateur nest donc pas sans biais, mais il est independant
de lestimateur du MV du param`etre b.
3.5 Resume
1. Dans ce chapitre on a examine les proprietes de lestimateur des mco lorsque la loi de u
conditionnellement aux variables explicatives x est une loi normale de moyenne nulle et
de matrice de variance
2
I
N
.
2. On a montre que lestimateur des mco suit une loi normale, que lestimateur de la variance
des residus suit convenablement normalise une loi du
2
et que ces deux estimateurs sont
independants.
3. On a vu que lon pouvait utiliser ces resultats pour obtenir un estimateur sans biais de la
matrice de variance de lestimation du param`etre.
4. On a vu que pour une composante donnee k du param`etre

b
k
b
k

k
Student (N K 1)
5. On a applique ce resultat pour denir une region de conance pour le param`etre et mettre
en oeuvre des tests.
6. On a vu en particulier que la region critique pour le test de signicativite dun param`etre
correspondait `a des valeurs extremes du t de Student. Le caract`ere extreme sappreciant
par rapport au niveau du test.
Chapitre 4
Estimation sous contraintes lineaires
On peut souhaiter estimer un mod`ele econometrique lineaire en incorporant une information
a priori sur les param`etres prenant la forme de contraintes lineaires. On peut aussi vouloir tester si
certaines relations entre les param`etres sont bien acceptees par les donnees. Les resultats obtenus
au chapitre precedent ont montre comment tester des hypoth`eses tr`es simples, secrivant sous la
forme H
0
: b
k
= b
0
k
, o` u b
0
k
est une valeur donnee. On va examiner ici un cas un peu plus general
dans lequel les hypoth`eses que lon veut tester, ou bien les contraintes que lon veut imposer
font intervenir une ou plusieurs combinaisons lineaires des param`etres. On va montrer obtenir
un estimateur dierent de celui des moindres carres ordinaires, appele estimateur des moindres
carres contraints (mcc) et on va montrer ses deux proprietes principales : lestimateur des mcc
est toujours plus precis que lestimateur des mco ; lestimateur des mcc est non biaise seulement
si la vraie valeur du param`etre satisfait les contraintes imposees. Il y a donc un arbitrage entre
robustesse et precision des estimateurs. Un tel arbitrage est tr`es frequent en econometrie. On
va aussi introduire un test tr`es utilise permettant de tester des contraintes lineaire. Ce test est
connu sous le nom de test de Fisher, et on va voir comment le mettre en oeuvre simplement `a
partir de deux regressions, lune par les mcc et autre par les mco.
Exemple 2 Homogeneite du progr`es technique. On consid`ere une fonction de production faisant
intervenir le capital et le travail. On fait lhypoth`ese que le facteur travail nest pas homog`ene.
Il fait intervenir dierents types de main doeuvre, pas tous aussi ecace les uns que les autres.
Y = F (A
CI
CI, A
K
K, A
1
L
1
, . . . , A
M
L
M
)
La derivee logarithmique secrit donc
d log Y =
d log F
d log CI
(d log CI +d log A
CI
) +
d log F
d log K
(d log K +d log A
K
) +
d log F
d log L
1
(d log L
1
+d log A
1
) + +
d log F
d log L
M
(d log L
M
+d log A
M
)
Sous lhypoth`ese de rendements constants et de concurrence parfaite sur le marche des biens
et des produits, la part de la remuneration de chaque facteur dans la production est egale ` a
lelasticite de la production. On peut donc mesurer
d log F
d log CI
=
CI
=
c
CI
CI
Y
,
d log F
d log K
=
K
=
c
k
K
Y
et
d log F
d log L
m
=
m
=
w
m
L
m
Y
. On a donc lequation :
d log SR =
CI
d log A
CI
+
K
d log A
k
+
1
d log A
1
+ +
M
d log A
M
31
32 Chapitre 4. Estimation sous contraintes lineaires
o` u d log SR = d log Y
CI
d log CI
K
d log K
1
d log L
1

M
d log L
M
mesure le Residu
de Solow, cest ` a dire la part de la croissance qui nest pas expliquee par celle des facteurs de
production. On suppose que les entreprises peuvent ou non adopter une innovation. On consid`ere
I une variable indicatrice prenant la valeur 1 si une entreprise a adopte une innovation et 0
sinon. On modelise
d log A
m
= a
0m
+a
Im
I +u
Les gains decacite des facteurs de production font donc intervenir un terme xe propre au
facteur, un terme dependant du fait que lentreprise ait innove et un terme aleatoire commun ` a
tous les facteurs. On obtient alors lequation
d log SR =
K
. (a
0K
a
0CI
) +
1
. (a
01
a
0CI
) + +
M
(a
0M
a
0CI
) +
+I
CI
.a
ICI
+I
K
.a
IK
+I
1
.a
I1
+ +Ia
IM
+u
o` u on utilise le fait que la somme des parts vaut 1. Les regresseurs sont donc les parts des
facteurs et les parts des facteurs interragies avec la variable dinnovation. On peut sur cette base
formuler un certain nombre dhypoth`eses :
H0(L) : Homogeneite de leet de linnovation sur le facteur travail.
a
I1
= = a
IM
H0(L,K,CI) : Homogeneite de leet de linnovation sur les facteurs.
a
ICI
= a
IK
= a
I1
= = a
IM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs.
a
ICI
= a
IK
= a
I1
= = a
IM
= 0
H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations in-
termediaires.
a
ICI
= a
IK
= 0
H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations in-
termediaires et homogeneite sur le travail.
a
CI
= a
IK
= 0, a
I1
= = a
IM
Le nombre de contraintes est bien s ur dierent dune hypoth`ese ` a lautre
Hypoth`ese Nombre de contraintes
H0(L) M 1
H0(L, K, CI) M + 1
H0(L = K = CI = 0) M + 2
H0(K = CI = 0) 2
H0(K = CI = 0, L) M + 1
Plusieurs questions se posent :
4.1. Formulation 33
1. Comment tenir compte de cette information a priori dans la procedure destimation des
param`etres du mod`ele ?
On va introduire un nouvel estimateur : lestimateur des moindres carres contraints :

b
mcc
2. Quelles sont les consequences de cette prise en compte pour les estimations obtenues ?
On va voir que les estimations obtenues sont toujours plus precises que celles des
mco mais que par contre elles ne sont sans biais que si la contrainte imposee est veriee
par la vraie valeur du param`etre. Il y a donc un arbitrage que lon retrouve souvent en
econometrie, entre robustesse et ecacite. La robustesse correspond `a lobtention desti-
mateurs non biaises sous des hypoth`eses plus faibles. Ici lestimateur des mco est robuste
car il est sans biais que les contraintes soient satisfaites ou non par la vraie valeur du
param`etre. Lecacite correspond `a lobtention destimateurs les plus precis possibles. Ici
lestimateur des mco nest pas le plus ecace puisque lestimateur des mcc a une variance
plus faible.
3. Peut-on tester linformation a priori ?
Dans le cas present, on pourrait tester lhypoth`ese de constance des rendements avec
un test de Student. Neanmoins, on va voir que dans le cas general, lorsquil y a plus
dune contrainte, un tel test nest plus susant. On va introduire un test tr`es courant qui
generalise le test de Student : le test de Fisher. Comme precedemment, alors que lon peut
repondre aux deux questions precedentes dans un cadre general ne faisant des hypoth`eses
que sur les moments dordre 1 et 2 des perturbations conditionnellement aux variables
explicatives, la possibilite deectuer des tests requi`ere de specier la loi conditionnelle des
perturbations
4.1 Formulation
On consid`ere le mod`ele lineaire :
y = x b +u
dans lequel on fait les hypoth`eses H1-H4 et pour lequel la vraie valeur du param`etre verie
le syst`eme de p contraintes lineaires :
Rb = r
R est une matrice donnee p (K + 1), et r un vecteur donne p 1.
Il y a de toutes evidences des contraintes qui p`esent sur cette formulation.
1. Il ne doit pas y avoir de contraintes redondantes. Ceci impose que R

= 0 = = 0
2. Il doit y avoir une solution non unique `a lequation Rb = r
Ces deux contraintes imposent que R soit de rang p et que le nombre de contraintes p soit au
maximum egal `a (K + 1) 1. En eet si on en avait K +1 ou plus, on pourrait en selectionner
K +1 par exemple R
1
b = r
1
et on pourrait alors calculer le param`etre b = R
1
1
r
1
. il ny aurait
plus de probl`eme destimation.
34 Chapitre 4. Estimation sous contraintes lineaires
Exemple 3 Considerons ` a nouveau lexemple precedent. Le mod`ele secrit
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+
+I
CI
.a
ICI
+I
K
.a
IK
+I
1
.a
I1
+ +Ia
IM
+u
Dans le cas de lhypoth`ese H0L : a
I1
= = a
IM
, on peut ecrire les contraintes sur les
param`etres comme a
I2
a
I1
= 0, , a
IM
a
I1
= 0, cest ` a dire :
_
_
_
0 1 1 0 0
0
.
.
. 0
.
.
.
0
0 1 0 0 1
_
_
_
_
_
_
_
_
_
_
_
(b

, a
ICI
, a
IK
)

a
I1
a
I2
.
.
.
a
IM
_
_
_
_
_
_
_
_
= 0
4.2 LEstimateur des Moindres Carres Contraints (MCC)
Denition 4.1 Lestimateur

b
mcc
de b est deni comme le param`etre minimisant la somme
des carres des residus et satisfaisant les contraintes Rb = r :
min
b
(y x b)

(y x b)
Sc : Rb = r
Proposition 4.1 Lestimateur des MCC a pour expression

b
mcc
= (x

x)
1
x

y (x

x)
1
R

_
R(x

x)
1
R

1
_
R(x

x)
1
x

y r

et sexprime simplement ` a partir de



b
mco

b
mcc
=

b
mco
(x

x)
1
R

_
R(x

x)
1
R

1
_
R

b
mco
r
_
On voit directement sur cette expression que lestimateur des MCC apporte une correction `a
lestimateur

b
mco
et que cette correction est dautant plus importante que R

b
mco
r ,= 0. Dans
le cas o` u R

b
mco
= r, les deux estimateurs sont identiques.
Demonstration Pour trouver lexpression de lestimateur on ecrit le Lagrangien :
L =
1
2
(y xb)

(y xb) + (Rb r)

multiplicateur de Lagrange : vecteur de dimension p 1


L
b

mcc
= x

y + (x

x)

b
mcc
+ R

= 0
L

mcc
= R

b
mcc
r = 0
De la premi`ere condition on tire :

b
mcc
= (x

x)
1
_
x

y R

_
Introduit dans la deuxi`eme condition il vient lexpression R (x

x)
1
_
x

y R

_
= r soit R (x

x)
1
R

=
R (x

x)
1
x

y r
dont on tire

=
_
R (x

x)
1
R

1
_
R (x

x)
1
x

y r

reintroduit dans on trouve lexpression de



b
mcc

b
mcc
= (x

x)
1
x

y (x

x)
1
R

_
R(x

x)
1
R

1
_
R(x

x)
1
x

y r


4.3. Esperance et variance de

b
mcc
35
4.3 Esperance et variance de

b
mcc
Proposition 4.2 Sous lhypoth`ese H2 et sous lhypoth`ese H
c
: Rb = r, lestimateur des mcc
est sans biais. En revanche, sous lhypoth`ese H2 seule, lestimateur est biaise et le biais depend
lineairement de Rb r
E
_

b
mcc
[x
_
= b (x

x)
1
R

_
R(x

x)
1
R

1
[Rb r]
Sa variance est donnee sous H2 H4 par
V
_

b
mcc
[x
_
=
2
_
(x

x)
1
(x

x)
1
R

_
R (x

x)
1
R

1
R (x

x)
1
_
independamment de lhypoth`ese H
c
Ainsi lestimateur des moindres carres contraints est potentiellement biaise, mais on voit
quil est aussi plus precis que lestimateur des mco. Sa variance est en eet donnee par :
V
_

b
mcc
[x
_
= V
_

b
mcoc
[x
_

2
(x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
et comme (x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
est une matrice symetrique et positive on en
conclut que
V
_

b
mcc
[x
_
_ V
_

b
mco
[x
_
Il y a donc un arbitrage entre robustesse et ecacite. Introduire plus de contraintes ameliore
la precision des estimations mais risque de conduire `a des estimateurs biaise. A linverse, moins
de contraintes produit des estimateurs plus robustes mais moins precis.
Demonstration Compte tenu de lexpression

b
mcc
=

b
mco
(x

x)
1
R

_
R(x

x)
1
R

1
_
R

b
mco
r
_
et du fait que

b
mco
est un estimateur lineaire sans biais de b sous lhypoth`ese H2 :
E
_

b
mcc
|x
_
= b (x

x)
1
R

_
R(x

x)
1
R

1
[Rb r]
On voit donc que sous lhypoth`ese H
c
: Rb = r, on a E
_

b
mcc
|x
_
= b. En revanche si les contraintes ne sont pas
satisfaites il existe un biais
E
_

b
mcc
|x
_
= b +B
avec B = (x

x)
1
R

_
R(x

x)
1
R

1
[Rb r]
On verie que ce biais est systematiquement dierent de 0. En eet, si Rbr = 0 alors =
_
R(x

x)
1
R

1
[Rb
r] est aussi dierent de 0 et donc B = (x

x)
1
R

. Comme les contraintes sont non redondantes, et = 0, on


ne peut avoir R

= 0.
On a en outre

b
mcc
E
_

b
mcc
|x
_
=
_

b
mco
b
_
(x

x)
1
R

_
R(x

x)
1
R

1
R
_

b
mco
b
_
=
_
I (x

x)
1
R

_
R(x

x)
1
R

1
R
_
(x

x)
1
x

u
On introduit H = (x

x)
1
R

_
R(x

x)
1
R

1
R. Cette matrice verie les proprietes suivantes
H
2
= H
H(x

x)
1
= (x

x)
1
H

H(x

x)
1
H

= H
2
(x

x)
1
= H(x

x)
1
36 Chapitre 4. Estimation sous contraintes lineaires
On a donc

b
mcc
E
_

b
mcc
|x
_
= [I H] (x

x)
1
x

u
Par consequent comme E [uu

|x] =
2
I :
V
_

b
mcc
|x
_
= E
__

b
mcc
E
_

b
mcc
|x
__ _

b
mcc
E
_

b
mcc
|x
__

|x
_
= E
_
[ I H] (x

x)
1
x

uu

x(x

x)
1
_
I H

|x

=
2
[ I H] (x

x)
1
_
I H

En developpant, compte tenu des proprietes de H


V
_

b
mcc
|x
_
=
2
_
(x

x)
1
H(x

x)
1
H

(x

x)
1
+H(x

x)
1
H

=
2
_
(x

x)
1
H(x

x)
1

Le resultat provient de lexpression H(x

x)
1
= (x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1

4.4 Estimateur de la variance des residus


2
Comme pour lestimateur des mco, on peut denir le vecteur des residus estimes
u
c
= y x

b
mcc
On peut comme dans le cas des mco denir un estimateur de la variance des residus `a partir de
la somme des carres de ces residus.
Lemme 2 On peut ecrire le vecteur des residus estimes dans le mod`ele contraint comme la
somme de deux termes orthogonaux, le vecteur des residus estimes par les mco dune part et un
terme appartenant ` a lespace engendre par les x dautre part
u
c
= u +P
c
u = u + u
o` u P
c
= x(x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
x

est un projecteur orthogonal sur un sous espace


de lespace engendre par les x.
Demonstration On a lexpression de u
c
u
c
= xb +u x

b
mcc
=
_
I x[I H] (x

x)
1
x

u
=
_
M
x
+xH(x

x)
1
x

u
avec M
x
=
_
I x(x

x)
1
x

_
. On introduit
P
c
= xH(x

x)
1
x

= x(x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
x

On a directement P
2
c
= P
c
et P

c
= P
c
. En outre P
c
z = x
_
H(x

x)
1
x

z
_
appartient `a lespace engendre par
les x.
Proposition 4.3 Sous les hypoth`eses H2 H4, et H
c
, lestimateur de la variance des residus

2
c
=
u

c
u
c
N (K + 1) +p
=

n
u

nc
u
nc
N (K + 1) +p
est sans biais.
4.5. Loi de lestimateur des moindres carres contraints 37
Une dierence importante avec lestimateur issu des mco correspond au nombre de degres
de liberte. Ici il sagit de N K 1 + p. Avec lestimateur des mco, le nombre de degres de
liberte est plus faible : N K 1.
Demonstration Lexpression de u
c
: u
c
= u +P
c
u = u + u conduit directement `a
u

c
u
c
= u

u + u

u
u et u sont en eet orthogonaux puisque u est la projection de u sur lorthogonal de x et u une projection de u
sur un sous espace de lespace engendre par les x. Donc
E
_
u

c
u
c
|x
_
= E
_
u

u|x
_
+E
_
u

u|x
_
=
2
[(N K 1) +Tr (P
c
)]
En outre
Tr (P
c
) = TR
_
x(x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
x

_
= TR
_
_
R(x

x)
1
R

1
R(x

x)
1
x

x(x

x)
1
R

_
= Tr (I
p
) = p

4.5 Loi de lestimateur des moindres carres contraints


Comme dans le cas non contraint, on peut preciser la loi de lestimateur des moindres carres
contraints lorsque les residus sont distribues suivant une loi normale. On fait ici lhypoth`ese
que les contraintes sont satisfaites, cest `a dire que la vraie valeur du param`etre b
0
satisfait
eectivement Rb
0
= r
Les resultats du Theor`eme de Cochran se generalisent
Proposition 4.4 Sous lhypoth`ese H
n
:
1. Lestimateur du param`etre des mco

b
mcc
est distribue comme une loi normale de moyenne b,
la vraie valeur du param`etre, et de matrice de variance V
_

b
mcc
[x
_
=
2
_
(x

x)
1
H(x

x)
1

2. Lestimateur
2
mcc
, convenablement normalise, est distribue suivant une loi du
2
[N (K + 1) +p]

2
mcc

2

2
(N (K + 1) +p)
3.

b
mcc
et
2
mcc
sont independants
4. Considerant la k
i` eme
composante de lestimateur, on a

b
mcc
(k) b
0
(k)
_

mcc
(k) suit une
loi de Student ` a N (K + 1) +p degres de liberte
Demonstration Compte tenu de lexpression de

b
mcc

b
mcc
= (x

x)
1
x

y (x

x)
1
R

_
R(x

x)
1
R

1
_
R(x

x)
1
x

y r

= b + (x

x)
1
x

u (x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
x

u
lorsque les contraintes sont satisfaites, on voit directement que lestimateur est normal lorsque les residus sont
normaux puisque lestimateur est une combinaison lineaire du residu. On a en outre

b
mcc
b = (I H) (x

x)
1
x

u
et
u
c
= [M
x
+P
c
] u
38 Chapitre 4. Estimation sous contraintes lineaires
avec M
x
=
_
I x(x

x)
1
x

_
et P
c
= xH(x

x)
1
x

. On verie donc sans peine que



b
mcc
et u
c
sont non correles
et donc independants :
E
__

b
mcc
b
_
u

c
_
= E
_
(I H) (x

x)
1
x

uu

_
M
x
+P

c
_
=
2
(I H) (x

x)
1
x

_
M
x
+P

=
2
(I H) (x

x)
1
x

c
=
2
(I H) (x

x)
1
x

xH(x

x)
1
x

=
2
(I H) H(x

x)
1
x

= 0
puisque H
2
= H. Les points qui suivent sont immediats.
Exemple 4 On peut mettre en oeuvre les estimations de la fonction de production avec inno-
vation. On dispose dun echantillon de 3627 observations. On a introduit une distinction entre
travailleurs jeunes et vieux. Le nombre de categorie de travailleurs considere est donc M = 2.
On consid`ere la regression sous lhypoth`ese alternative H1
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+I
CI
a
ICI
+I
K
.a
IK
+I
L
a
IL
+Xd +u
ainsi que les dierentes specications contraintes introduites precedemment :
H0(L) : Homogeneite de leet de linnovation sur le facteur travail. a
I1
= = a
IM
H0(L,K,CI) : Homogeneite de leet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
= 0
H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations in-
termediaires. a
ICI
= a
IK
= 0
H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations in-
termediaires et homogeneite sur le travail. a
IK
= 0, a
I1
= = a
IM
Les resultats sont reportes dans le tableau 4.1. Pour chacune des specications on reporte
la valeur estimee du coecient ainsi que lecart-type estime. Ces deux informations permettent
de faire des tests dhypoth`eses simples (en particulier de nullite de chaque coecient pris indi-
viduellement). La loi suivie par les t de Student que lon peut former est une loi de Student ` a
3627-12 degres de liberte pour la specication alternative H1. Il varie ensuite dune colonne ` a
lautre suivant le nombre de contraintes introduites. Dans la premi`ere specication, le nombre
de contrainte est de 1, le nombre de degres de liberte est donc 3627-12+1. En theorie les va-
leurs critiques des t de Student pour un test ` a un niveau donne di`erent dune colonne ` a
lautre puisque la loi nest pas la meme. Neanmoins ici le nombre de degres de liberte est grand
et dans ce cas la distribution dune loi de Student se confond avec celle dune loi normale : la
valeur critique est donc la meme pour chaque regression. Dans le cas dun test ` a 5% la valeur
critique est ainsi de 1.96. On acceptera donc lhypoth`ese de nullite de chaque param`etre pris
individuellement si le ratio entre le coecient et son ecart-type est en valeur absolue inferieur
` a 1.96.
On voit sur les estimations du mod`ele non contraint que leet de linnovation sur lecacite
des facteurs semble assez dierentes dun facteur ` a lautre. Le coecient du capital apparat
negatif et grand en valeur absolue alors que le coecient pour les jeunes est positif et grand.
Neanmoins on voit que les estimations sont imprecises et les tests degalite des coecients
pris individuellement sont souvent acceptes. En fait seul le coecient pour la part des jeunes
est signicativement dierent de zero. On est typiquement dans une situation dans laquelle les
resultats sont robustes mais peu precis. On sent bien quil y a l` a moyen de gagner en precision
de facon importante en imposant des contraintes supplementaires.
4.6. Estimation par integration des contraintes 39
Fig.4.1 R esultats des estimations par les MCC
Constante 0.00 (0.01) 0.00 (0.01) -0.01 (0.01) 0.00 (0.01) -0.01 (0.01) -0.01 (0.01)
part capital 0.08 (0.04) 0.08 (0.04) 0.04 (0.03) 0.04 (0.03) 0.04 (0.03) 0.04 (0.03)
part jeunes 0.15 (0.06) 0.18 (0.05) 0.21 (0.05) 0.20 (0.05) 0.17 (0.05) 0.20 (0.05)
part vieux -0.03 (0.03) -0.04 (0.03) -0.01 (0.03) -0.01 (0.03) -0.01 (0.03) -0.02 (0.03)
I*part capital -0.11 (0.06) -0.11 (0.06) 0.01 (0.01) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00)
I*part CI -0.01 (0.02) -0.01 (0.02) 0.01 (0.01) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00)
I*part jeunes 0.19 (0.09) 0.09 (0.03) 0.01 (0.01) 0.00 (0.00) 0.12 (0.09) 0.05 (0.02)
I*part vieux 0.06 (0.05) 0.09 (0.03) 0.01 (0.01) 0.00 (0.00) 0.02 (0.04) 0.05 (0.02)
Sect1 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01)
Sect2 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01)
Sect3 -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01)
Sect4 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02)
H0(K=CI=0) H0(K=CI=0,L) H1 H0(L) H0(L,K,CI) H0(L=K=CI=0)
On voit neanmoins que chacune des specications contraintes conduit ` a des modications
importantes des coecients : si on impose lhomogeneite sur lensemble des facteurs, on parvient
` a une ecacite tr`es faible pour chaque facteur. Si on impose en revanche la nullite pour le capital
et les consommations intermediaires et lhomogeneite sur le travail, on voit que leet sur le
travail est important, de lordre de 0.05, signicativement dierent de zero. Face ` a cette forte
sensibilite des resultats aux hypoth`eses eectuees il est important de pouvoir mettre en oeuvre
des tests qui permettront de guider le choix vers une specication plus quune autre.
4.6 Estimation par integration des contraintes
Le probl`eme destimation sous contraintes peut se ramener au resultat classique destimation
par la methode des moindres carres en integrant directement les contraintes dans le mod`ele. On
peut en eet utiliser les p contraintes pour exprimer p param`etres parmi les k + 1 `a estimer en
fonction des (k + 1 p) autres param`etres.
Par exemple, on re-ecrit les contraintes Rb = r comme :
r = [R
1
, R
2
]
_
b
1
b
2
_
avec R
1
une sous matrice de R de dimension pp supposee inversible, R
2
une autre sous matrice
de dimension p (K + 1 p) , b
1
un vecteur de dimension p 1 et b
2
un vecteur de dimension
K + 1 p 1
On peut alors ecrire r = R
1
b
1
+R
2
b
2
soit encore :
b
1
= R
1
1
[r R
2
b
2
]
Par consequent, le mod`ele peut se reecrire :
y = x
1
b
1
+x
2
b
2
+u = x
1
_
R
1
1
(r R
2
b
2
)

+x
2
b
2
+u
Ceci revient `a estimer :
y x
1
R
1
1
r =
_
x
2
x
1
R
1
1
R
2

b
2
+u
Le mod`ele ainsi ecrit ne depend plus alors que de (K + 1 p) param`etres `a estimer sans
contraintes. Les p autres param`etres se deduisent de ceux-ci par la relation : b
1
= R
1
1
r R
2
b
2
40 Chapitre 4. Estimation sous contraintes lineaires
Exemple 5 Cette integration peut en pratique etre extremement simple. Si on reprend le cas
de lexemple precedent, dans le cas de la specication H0L : a
I1
= = a
IM
, on ecrit a
I2
=
a
I1
, . . . , a
IM
= a
I1
. On a ainsi
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+I
CI
.a
ICI
+I
K
.a
IK
+
I
1
.a
I1
+I
2
a
I1
+ +I
M
a
I1
+u
=
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+I
CI
.a
ICI
+I
K
.a
IK
+
(I
1
+I
2
+ +I
M
)a
I1
+u
On voit donc que lestimation par integration des contraintes dans ce cas specique consiste ` a
introduire la somme de toutes les variables concernees par la restriction.
4.7 Tester les contraintes : le test de Fisher
Les resultats precedents sont valables sous les hypoth`eses H1 H4, qui ne specient que
les deux premiers moments de la loi des residus conditionnellement aux variables explicatives.
On peut comme dans le cas des mco vouloir apprendre plus sur les param`etres estimes et en
particulier sur leur loi pour pouvoir faire des test dhypoth`eses. Parmi ces tests potentiels gure
naturellement lhypoth`ese imposee aux param`etres :
H
0
= H
c
: = Rb r = 0
Une fa con naturelle de tester lhypoth`ese consiste `a examiner si lestimateur des mco satisfait
approximativement les contraintes. On construit donc la quantite

= R

b r, et on examine si
elle est proche de zero. Sous lhypoth`ese nulle on sait que

N
_
0,
2
R(x

x)
1
R

_
.
Rappel : Z N (0, V ) avec V inversible, alors Z

V
1
Z
2
(dim(Z))
On sait donc que sous H
0
on a

_
R(x

x)
1
R

/
2

2
(p) . Toutefois, cette relation
ne peut etre utilisee directement puisque
2
est inconnue. Comme pour le test de Student, on
remplace cette quantite inconnue par un estimateur :
2
. Cette statistique convenablement
normalisee suit comme on la vu une loi du
2
.
Denition 4.2 La loi de Fisher ` a q
1
et q
2
degres de liberte, notee F(q
1
, q
2
) est denie comme
le ratio de deux lois du
2
, divisees par leurs degres de liberte : Si Q
1

2
(q
1
) et Q
2

2
(q
2
)
et Q
1
Q
2
alors Z =
Q
1
/q
1
Q
2
/q
2
F(q
1
, q
2
)
Proposition 4.5 Lorsque les hypoth`eses H1, H2, H3&H4 ainsi que lhypoth`ese H
n
de normalite
des residus, on peut eectuer un test de lhypoth`ese H
0
: Rb r = 0 en considerant la statistique
de Fisher :

F =
1
p

_
R(x

x)
1
R


2
F(p, N (k + 1))
o` u

= R

b
mco
r . Sous lhypoth`ese H
0

F suit une loi de Fisher ` a p et N (k + 1) degres de
liberte. Le test caracterise par la region critique
W =
_

F > q
1
(F(p, N (k + 1)))
_
est un test UPP dans la classe des tests invariants, o` u q
1
(F(p, N (k + 1))) est le quantile
dordre 1 de la loi de Fisher ` a p et N (K + 1) degres de liberte.
4.8. Applications du test de Fisher 41
Demonstration La preuve du resultat concernant la distribution de la statistique sous H
0
decoule directement
de Q
1
=

_
R(x

x)
1
R

/
2

2
(p) , de Q
2
= (N (K + 1))

2

2

2
N(K+1)
, et du fait que comme

_
R(x

x)
1
R

/
2
est issu de

b
mco
qui est independant de
2
Q
1
et Q
2
sont independants. On a alors par
denition de la loi de Fisher

_
R(x

x)
1
R

/
2
p
_
(N (K + 1))

2

2
N K 1
=

_
R(x

x)
1
R

p
2
F(p, N (k + 1))
On voit aussi directement que le test est un test au seuil puisque le risque de premi`ere esp`ece P (W, ) pour

0
est par denition de la region critique . Pour le resultat doptimalite, il faut noter que le test est optimal
dans la classe des tests invariants, cest `a dire dans la classe des tests ne changeant pas lorsque on applique une
transformation bijective aux donnees.
On peut obtenir une expression de la statistique du test de Fisher la rendant tr`es simple `a
mettre en pratique. Cette expression ne fait plus intervenir lecart R

b
mco
r mais uniquement les
sommes des carres des residus dans les estimations du mod`ele contraint SCR
C
et non contraint
SCR.
Proposition 4.6 La statistique de Fisher

F =
1
p

[R(x

x)
1
R

]
1


2
se reecrit simplement ` a partir
des sommes des carres des residus dans le mod`ele contraint et non contraint

F =
1
p

_
R(x

x)
1
R


2
=
SCR
C
SCR
SCR

N (k + 1)
p
Demonstration En eet :

b = (x

x)
1
x

y = b + (x

x)
1
x

u donc sous H
0
, on a :

= R

b r = R(x

x)
1
x

u.
La quantite

_
R(x

x)
1
R

secrit donc simplement :

_
R(x

x)
1
R

= u

x(x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
x

u
On reconnat dans cette expression la matrice P
C
= x(x

x)
1
R

_
R(x

x)
1
R

1
R(x

x)
1
x

introduite dans le
lemme decomposant le residu dans le mod`ele contraint comme
u
c
= u +P
c
u = u + u
On a donc

_
R(x

x)
1
R

= u

P
C
u = u

u. On en deduit donc

_
R(x

x)
1
R

= u

P
C
u = u

C
u
C
u

u
Do` u lexpression de la statistique communement utilisee :

F =
SCR
C
SCR
SCR

N (k + 1)
p
F(p, N (k + 1))
SCR est la somme des carres des residus estimes sans contraintes et SCR
C
est la somme des carres des residus
estimes sous contrainte.
4.8 Applications du test de Fisher
4.8.1 Un test en deux etapes
La mise en oeuvre du test de Fisher dun ensemble de contraintes H
0
: Rb r = 0 se fait en
plusieurs etapes.
1. On estime le mod`ele avec et sans contraintes. Dans chacun des cas on recup`ere les residus
estimes ou directement la somme des carres des residus SCR
C
= u

C
u
C
et SCR = u

u.
42 Chapitre 4. Estimation sous contraintes lineaires
2. On calcule alors la statistique

F et on la compare au fractile dordre (1 ) de la loi
F(p, N (K + 1)), note F(1 ).
3. Si

F > F(1 ) alors on rejette H
0
: la somme des carres des residus estimes sous
contraintes di`ere trop de celle des carres des residus estimes sans contrainte pour accepter
que H
0
est vraie.
4. Si

F F(1 ), on accepte lhypoth`ese H
0
.
Exemple 6 Homogeneite du progr`es technique. On consid`ere la regression non contrainte :
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+ (4.1)
+I
CI
.a
ICI
+I
K
.a
IK
+I
1
.a
I1
+ +Ia
IM
+Xc +u
o` u on introduit en plus des variables de contr ole.
H0(L) : Homogeneite de leet de linnovation sur le facteur travail. a
I1
= = a
IM
H0(L,K,CI) : Homogeneite de leet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
= 0
H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations in-
termediaires. a
ICI
= a
IK
= 0
H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations in-
termediaires et homogeneite sur le travail. a
IK
= 0, a
I1
= = a
IM
Pour tester chacune de ces hypoth`eses contre lhypoth`ese nulle H
1
(pas de restrictions sur
les coecients a
ICI
, a
IK
, a
I1
, , a
IM
) on peut considerer la regression sous lhypoth`ese alter-
native ainsi que les regressions integrant les dierentes contraintes. Pour mettre en oeuvre le
test de lhypoth`ese dune specication contrainte, on consid`ere la somme des carres des residus
sous lhypoth`ese nulle la somme des carres des residus sous lhypoth`ese alternative ainsi que
le nombre de degres de liberte et le nombre de contraintes. Le tableau 4.2 reporte les informa-
tions pertinentes pour mettre en oeuvre le test. Si on prend par exemple le cas de la derni`ere
specication la somme des carres des residus vaut 97.266 sous lhypoth`ese nulle et 97.099 sous
lhypoth`ese alternative. Le nombre de contraintes introduites est 3 et le nombre de degres de
liberte sous lhypoth`ese alternative est N K + 1 = 3616. La statistique de Fisher vaut donc

F =
SCR
C
SCR
SCR

N (k + 1)
p
=
97.266 97.099
97.099

3616
3
= 2.07
Sous lhypoth`ese nulle cette quantite est distribuee suivant une loi de Fisher ` a 3 et 3616 degres
de liberte dont le quantile dordre 95% est 3.53. Comme la valeur estimee est inferieure ` a cette
valeur seuil, on accepte lhypoth`ese. On peut aussi regarder la p-value qui est la probabilite pour
quune loi de Fisher ` a ` a 3 et 3616 degres de liberte exc`ede la valeur obtenue (2.07). On trouve
une probabilite de 10%que lon compare ` a la valeur seuil choisie.
On voit que parmi toutes les contraintes essayees certaines sont rejetees. Statistiquement
on ne peut accepter en particulier lhypoth`ese que leet est homog`ene entre tous les facteurs
(specication H0 (L, K, CI)). Cette specication conduisait on la vu ` a des coecients tr`es
faible, loin des valeurs calculees dans la specication non contrainte. Par contre on voit que
les hypoth`eses dhomogeneite de leet sur le travail H0 (L) et de nullite de leet sur le capi-
tal et les consommations intermediaires H0 (k = CI = 0) sont acceptees. En outre lhypoth`ese
4.8. Applications du test de Fisher 43
Fig.4.2 Test de Fisher
SCR p F Seuil 5% p-value
H1 97.099 3616
H0(L) 97.13 1 1.15 3.84 0.28
H0(L,K,CI) 97.384 3 3.53 2.6 0.01
H0(L=K=CI=0) 97.491 4 3.63 2.37 0.005
H0(K=CI=0) 97.246 2 2.73 2.99 0.065
H0(K=CI=0,L) 97.266 3 2.07 3.53 0.10
globale reunissant ces deux contraintes H0 (K = CI = 0, L) : homogeneite de leet sur le tra-
vail et nullite de leet sur le capital et les consommations intermediaires, est acceptee. Il est
interessant de remarquer que le test de lhypoth`ese globale H0 (K = CI = 0, L) passe un peu
mieux que le test de lhypoth`ese H0 (K = CI = 0) comme en temoigne les p-values (10% contre
6.5%). On aurait pu ` a la limite rejeter lhypoth`ese H (K = CI = 0) mais accepter lhypoth`ese
plus contraignante H0 (K = CI = 0, L) .
4.8.2 Test de la nullite globale des param`etres
Dans le mod`ele
y = b
0
e +
k=J

k=1
x
k
b
k
+
k=K

k=J+1
x
k
b
k
+u
on veut tester lhypoth`ese de legalite `a une valeur donnee de plusieurs coecients. H
0
: b
1
= b
0
1
,
b
2
= b
0
2
, . . . , b
J
= b
0
J
. La dierence avec le test de Student standard est quon souhaite faire un
test global, sur lidentite simultanee des coecients. Avec le test de Fisher il sut destimer le
mod`ele non contraint
y = xb +u
de calculer la somme SCR des carres des residus estimes, destimer le mod`ele contraint
y
k=J

k=1
x
k
b
0
k
= b
0
e +
k=K

k=J+1
x
k
b
k
+u
de calculer la somme SCRC des carres des residus estimes et de former la statistique

F =
N (K + 1)
J
SCRC SCR
SCR
F (J, N (K + 1))
Pour un test au niveau on refusera lhypoth`ese nulle si

F est superieur au fractile dordre
(1 ) de la loi F(J, N (K + 1)), note F(1 ).
On deduit de lexemple precedent un test systematiquement associe `a toute regression et
dutilisation tr`es courante : le test de la signicativite globale des coecients dune
regression
H
0
: b
1
= b
2
= b
3
= ... = b
K
= 0
Il obeit `a la meme logique que precedemment, mais on montre que dans ce cas la statistique de
Fisher est seulement fonction du R
2
dans lestimation non contrainte du mod`ele.
44 Chapitre 4. Estimation sous contraintes lineaires
Proposition 4.7 Dans le mod`ele
y = xb +u
la statistique de Fisher du test de nullite globale des param`etres H
0
sexprime simplement ` a
partir du R
2

F =
R
2
1 R
2

N (K + 1)
K
F (K, N (K + 1))
Demonstration Sous H
0
, le mod`ele secrit : y = b
0
e+u, do` u

b
0
= y et u
c
= y y e. La SCRC est donc donnee
par : SCRC =
n
(y
n
y)
2
. Sous H
1
: SCR = u

u. Or R
2
= 1
u

n
(y
n
y)
2
, soit u

u =
n
(y
n
y)
2
_
1 R
2
_
, on
a donc SCR = SCR
C
_
1 R
2
_
, par consequent, la statistique de Fisher secrit
N (K + 1)
K
SCR
C
SCR
SCR
=
N (K + 1)
K
SCR
C
SCR
C
_
1 R
2
_
SCR
C
(1 R
2
)
do` u le resultat
4.8.3 Le Test de Chow de stabilite des param`etres
Une question naturelle est celle de lhomogeneite des param`etres sur deux sous population.
On peut sinterroger sur lexistence de rupture temporelle dans les comportements. On peut se
demander par exemple si le comportement de consommation estime sur serie temporelles est
homog`ene dans le temps. On peut se demander aussi si les technologies de production, estimees
sur un panel dentreprises sont homog`enes entre secteurs. Le Test de Chow formalise ce probl`eme
de test et applique les resultat du test de Fisher pour lobtention de statistique de test.
Supposons que lon dispose de deux echantillons (y
1
, x
1
) et (y
2
, x
2
) de tailles respectives
N
1
et N
2
, relatifs `a deux groupes dobservations dierents (par exemple deux periodes, deux
categories dentreprises,...) de la variable dependante y et des variables explicatives x.
Le mod`ele relatif au 1er groupe secrit
y
1
= x
1
b
1
+u
1
o` u y
1
vecteur N
1
1 des observations de la variable dependante pour le premier groupe et
x
1
la matriceN
1
(K + 1) des variables explicatives (1, x
1
, . . . , x
K
) pour le premier groupe.
De meme, pour le deuxi`eme groupe :
y
2
= x
2
b
2
+u
2
On fait les hypoth`eses stochastique l (u
1
, u
2
[x
1
, x
2
) N(0,
2
I
N
1
+N
2
).
Ce mod`ele se reecrit dans le cadre du mod`ele lineaire standard en introduisant les matrices
x (N
1
+N
2
) (2 (K + 1)) et x (N
1
+N
2
) (K + 1)
x =
_
x
1
0
0 x
2
_
et x =
_
x
1
x
2
_
sous la forme
y = x
_
b
1
b
2
_
+u
4.9. Resume 45
avec l (u[ x) N(0,
2
I
N
). Lhypoth`ese dhomogeneite secrit alors simplement dans ce cadre :
H
0
: b
1
= b
2
et on peut clairement aborder cette question avec le formalisme du test de Fisher. On eectue
la regression dans le mod`ele contraint
y = xb +u
pour lequel on recup`ere la somme des carres des residus SCR
C
= SCRT. On eectue la
regression dans le mod`ele non contraint et on recup`ere aussi la somme des carres des residus
SCR. La statistique de Fisher du test dhomogeneite des coecients est donc

F =
SCR
C
SCR
SCR

(N
1
+N
2
) 2(K + 1)
(K + 1)
et on rejettera lhypoth`ese nulle lorsque cette statistique est trop eleve : pour un test au niveau
la region critique est ainsi

F > f
(1)
(K + 1, N
1
+N
2
2(K + 1))
La statistique se simplie en fait car on montre facilement que la somme SCR est la somme
SCR1 +SCR2 des sommes des carres des residus sur les mod`eles estimes librement sur chacun
des sous-echantillons. Pour sen convaincre il sut de calculer M
x
= I x
_
x

x
_
1
x

puisque
SCR = u

M
x
u. On verie aisement que M
x
= Diag
_
M
x
1
,x
2
_
. La statistique est donc nalement

F =
SCRT (SCR1 +SCR2)
SCR1 +SCR2

(N
1
+N
2
) 2(K + 1)
(K + 1)
et se calcule tr`es simplement `a partir des trois regressions : 1) contrainte 2) et 3) sur chacun des
sous echantillons pris separement.
4.9 Resume
1. Dans ce chapitre on a vu comment etendre lestimateur des mco au cas dans lequel on
impose des contraintes lineaires sur les param`etres du type Rb = r.
2. On a vu que lorsque lon fait les hypoth`eses H1 H2, lestimateur est sans biais lorsque
les contraintes sont satisfaites par la vraie valeur du param`etre. En revanche, lestimateur
est biaise lorsque les contraintes sont imposees `a tort.
3. On a obtenu sous les hypoth`eses H1 H4 lexpression de la matrice de variance de lesti-
mateur. On a vu que cette matrice etait toujours plus petite que celle de lestimateur des
mco, que les contraintes soient imposees `a tort ou `a raison.
4. On en a conclu quil y a un arbitrage entre precision des estimations et robustesse.
5. On a egalement obtenu un estimateur sans biais de la variance des residus.
6. On a montre comment les resultats sur la loi de lestimateur pouvaient etre etendus dans
le cas destimations contraintes lorsque la loi des perturbations est speciee.
7. On a montre comment dans ce cadre il etait possible de tester les contraintes imposees au
param`etre.
46 Chapitre 4. Estimation sous contraintes lineaires
8. Le test correspondant porte le nom de Test de Fisher, il est base sur la comparaison des
residus dans le mod`ele contraint et le mod`ele non contraint.
9. On a vu deux exemples importants de mise en oeuvre de ce test
(a) Le test de signicativite globale des param`etres
(b) Le test dit de Chow de stabilite des param`etres sur deux sous-echantillons.
Chapitre 5
Proprietes asymptotiques de
lestimateur des MCO
Les chapitres precedents ont permis detablir les proprietes de lestimateur des MCO. Nous
avons vu `a cette occasion que lhypoth`ese de normalite des residus est centrale pour obtenir la
loi des estimateurs et, par consequent, pour deriver un certain de nombre de statistiques de test.
Orir des tests exacts au mod`ele de regression lineaire est le principal avantage de cette hypoth`ese
de normalite. Le prix `a payer est cependant que ces resultats ne sont valides qu`a condition que
lhypoth`ese soit veriee par les donnees. Dans le cas contraire, les resultats presentes dans le
chapitre precedent ne sont plus valides et lapplication des tests proposes conduit `a de fausses
conclusions quant aux caracteristiques des vrais param`etres.
Lobjectif de ce chapitre est devaluer la mesure dans laquelle les proprietes obtenues sous
hypoth`ese de normalite des residus peuvent etre generalisees `a un mod`ele qui ne la respecte
pas. De fa con plus precise, nous chercherons la loi des estimateurs sans faire dhypoth`ese sur
la loi des perturbations. Nous verrons en eet que lhypoth`ese de normalite de la distribution
conditionnelle peut etre remplacee par des hypoth`eses sur lexistence de moments des variables
du mod`ele lorsque le nombre dobservations devient grand. Cest ainsi aux proprietes asympto-
tiques plut ot quexactes que nous nous interesserons ici. Lobtention de ces resultats repose
sur des outils de theorie asymptotique comme, par exemple, la notion de convergence, la Loi des
Grands Nombres ou encore le Theor`eme Central Limite. Lensemble de ces resultats est presente
et demontre dans lAnnexe A. Lillustration proposee ci-dessous ore une presentation intuitive
de ces resultats.
Principaux resultats de convergence : une illustration
La theorie asymptotique ore un certain nombre de resultats quant au comportement dune
variable aleatoire et de statistiques sy rapportant, telles que la moyenne `a la limite,
cest `a dire lorsque la taille de lechantillon dobservations saccrot (ces resultats sont donc
asymptotiques). An dillustrer les resultats utilises dans la suite de ce chapitre, nous nous
interessons au comportement asymptotique des moyennes dun nombre donne dobservations
tirees independamment dans une meme loi. La moyenne theorique de la loi de ce nombre (i.e.
son esperance theorique) est notee E et connue dans le cadre des illustrations qui suivent.
47
48 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Fig.5.1 Convergence en probabilit e
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
N=10 N=100 N=100000
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
N=10 N=100 N=100000
(a) Loi du
2
(b) Loi Uniforme
Note. Les intervalles consideres sont indiques en abscisse de chaque graphique. Lordonnee presente la proportion de
moyennes se situant dans lintervalle correspondant. Pour chaque intervalle, les barres representent les resultats obtenus
pour une taille dechantillon de, respectivement, 10, 1000 et 100 000 observations.
La loi des grands nombres
1
, dabord, etablit que, pour un intervalle [E ; E +] de
longueur 2 donnee, la proportion de moyennes empiriques tombant dans lintervalle crot avec
la taille de lechantillon en se rapprochant de (converge vers) 1. Autrement dit, la loi des
grands nombre assure donc que la moyenne empirique dune variable converge vers son esperance
theorique. Il sut ainsi de disposer dun nombre important dobservations de la moyenne empi-
rique pour approcher la vraie valeur de lesperance dune variable.
Lexercice de simulation que nous utilisons pour le verier est realise de la fa con suivante.
Pour une taille dechantillon donnee (de 10, 1.000 puis 100.000 observations), on tire un grand
nombre dechantillons (5.000 ici). En calculant la moyenne empirique de chaque echantillon,
on dipose ainsi dun echantillon de 5000 observations de la moyenne empirique de la variable
aleatoire consideree. Lesperance theorique de cette variable est xee `a E = 1, et on examine
des intervalles de taille =, 0.1, 0.05, 0.02 et 0.01. Nous retenons en outre deux cas dierents
pour la loi vraie de cette variable (dans laquelle sont tires de fa con i.i.d. les echantillons). On
consid`ere dabord une loi symetrique, la loi uniforme sur linteralle [0; 2]. Son esperance est bien
egale `a 1 (= (2 0)/2) et sa variance est de 1/3. On prend ensuite une loi dissymetrique, la loi
du
2
(1). Cette loi a, elle aussi, une moyenne de 1, mais sa variance est de 2. Pour la rendre
plus facilement comparable `a la loi precedente, on la normalise de telle sorte que sa variance soit
elle aussi de 1/3, sa moyenne restant de 1. On consid`ere ainsi y = 1 +
_

2
(1) 1
_
1

6
.
Le Fig.5.1 donne les proportions de moyenne empirique tombant dans les intervalles consideres.
On voit que ces proportions croissent avec la largeur de lintervalle et avec la taille de lechantillon.
Pour les plus grandes tailles dechantillon, toutes les moyennes empiriques tombent dans linter-
valle considere, aussi etroit soit-il, conrmant ainsi la convergence asymptotique de la moyenne
empirique vers sa valeur theorique. On voit aussi quil ny a pas grande dierence entre la loi
du
2
et la loi uniforme. La loi des grands nombres sapplique en eet quelles que soient les
proprietes de la loi de la variables aleatoire.
1
Voir Annexe, Proposition A.3.
5.1. Proprietes asymptotiques de lestimateur des MCO 49
Le Theor`eme Central Limite
2
va plus loin que la loi des grands nombres. Il permet en
eet de caracteriser la loi asymptotique dune transformation lineaire de la variable aleatoire.
La transformation utilisee consiste `a centrer la variable `a laquelle on sinteresse, notee y, `a la
reduire (en la rapportant `a sa variance, ) et `a la dilater par le facteur

N. Le Thero`eme
Central Limite etablit alors que la loi asymptotique de la variable aleatoire

N
y E

est une
loi normale centree reduite (^(0, 1)).
Pour voir ce theor`eme `a luvre dans les simulations proposees, nous examinons mainte-
nant la distribution des ecarts `a lesperance theorique, en etudiant la distribution empirique de

N (y
i
E) /. Pour cela on met en oeuvre un estimateur non parametrique de la densite, dit
`a noyau. Si la theorie asymptotique est satisfaite, cette distribution doit etre approximativement
normale pour un grand echantillon. Les resultats sont presentes dans le Fig.5.2. On voit l` a des
dierences importantes entre les deux types de loi. Dans les deux cas pour de grands echantillons,
lapproximation normale fonctionne bien. Par contre pour les petits echantillons, lapproxima-
tion normale marche tr`es bien pour la loi uniforme, mais beaucoup moins bien, pour la loi du
2
.
La loi des grands nombres et le Theor`eme Central Limite sont des resultats fondamentaux
de la theorie asymptotique. Ils permettent detudier les proprietes dune variable aleatoire (un
estimateur, par exemple. . . ) en labsence de toute hypoth`ese quant `a sa distribution vraie.
5.1 Proprietes asymptotiques de lestimateur des MCO
Ces resultats sont appliques ici `a lestimateur des MCO. Le mod`ele considere reste inchange :
y
i
= x
i
b +u
i
; nous retenons en revanche des hypoth`eses moins restrcitives, puisque la normalite
des residus nest plus imposee a priori. Nous retenons donc les hypoth`eses :
H
1
: Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont IID;
H
2
: N, x

x est non singuli`ere ;


H
3
: Les moments de [x
ki
x
li
[ existent et E(x
i
x

i
) est inversible ;
H
3bis
. x

x/N
P
Q inversible ;
H
4
: E (u
i
[x
i
) = 0 ;
H
5
: V (u
i
[x
i
) = V (u
i
) =
2
.
Sous ces hypoth`eses, lestimateur des MCO est denit comme :

b
mco
=
_
x

x
_
1
x

y =
_
x

i
x
i
_
1
x

i
y
i
(5.1)
Les propositions qui suivent exploitent cette expression an de decrire les proprietes asymp-
totiques de lestimateur. Pour ce faire, nous utiliserons lecart entre la vraie valeur du param`etre
et le param`etre estime,

b b =
_
x

i
x
i
_
1
x

i
u
i
. Lanalyse consiste `a etudier le comportement
asymptotique de chacune des deux composantes. Dune fa con generale, il sagira de montrer que
x

i
x
i
P
Q, constante. Nous donnerons, en particulier, des conditions sous lesquelles cette matrice
Q est E (x

i
x
i
) et, surtout, nous montrerons que cette matrice converge en probabilite vers une
matrice xe. Letude du deuxi`eme terme consiste `a appliquer le theor`eme central limite `a x

i
u
i
.
Nous allons donc etudier

Nx

i
u
i
et exploiter le fait que E (x

i
u
i
.) = 0.
2
Voir Annexe, Propositions A.5 et A.6.
50 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Fig.5.2 Convergence en Loi
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=10 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=10 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100000 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100000 Normal
(a) Loi du
2
(b) Loi Uniforme
Note. Chaque graphique contient la distribution empirique de la moyenne dilatee (trait plein) ainsi que la distribution
normale (trait pointille) dans le cas dun echantillon de variables tirees dans respectivement dans la loi du
2
(gauche) et
dans la loi Uniforme (droite). De bas en haut, chaque ligne correspond ` a des tirages de N = 10, 100 puis 100 000 observations.
5.1. Proprietes asymptotiques de lestimateur des MCO 51
Proposition 5.1 Sous les hypoth`eses H1 ` a H5, lestimateur des MCO (8.1) est convergent :

b
mco
P
b.
Demonstration Lestimateur des mco secrit

b
mco
=
_
x

x
_
1
x

y =
_
x

i
x
i
_
1
x

i
y
i
= x

i
x
i
1
x

i
y
i
On remplace y
i
par sa valeur : y
i
= x
i
b +u
i
. On a donc

b
mco
= x

i
x
i
1
x

i
(x
i
b +u
i
) = x

i
x
i
1
_
x

i
x
i
b +x

i
u
i
_
= b +x

i
x
i
1
x

i
u
i
Comme les moments |x
ki
x
li
| des variables explicatives existent, on peut appliquer la loi des grands nombres
`a x

i
x
i
. De meme on peut appliquer la loi des grands nombre `a x

i
u
i
, si E(x

i
u
i
) et V (x

i
u
i
) existent. Comme
E(x

i
u
i
) = E (E(x

i
u
i
|x
i
)) = 0 et V (x

i
u
i
) = E (V (x

i
u
i
|x
i
)) +V (E(x

i
u
i
|x
i
)) =
2
E (x

i
x
i
), on a
x

i
x
i
=
1
N
N

i=1
x

i
x
i
P
E(x

i
x
i
), et x

i
u
i
=
1
N
N

i=1
x

i
u
i
P
E(x

i
u
i
).
On en deduit que
x

i
x
i
1 P
E(x

i
x
i
)
1
x

i
x
i
1
x

i
u
i
P
E(x

i
x
i
)
1
E(x

i
u
i
)

b
mco
= b +x

i
x
i
1
x

i
u
i
P
b +E(x

i
x
i
)
1
E(x

i
u
i
)
car les esperances E(x

i
x
i
) et E(x

i
u
i
) sont par denition des constantes, que lapplication A A
1
est continue
et enn que le produit et la somme de suite de variables aleatoires convergent en probabilite vers des constantes
converge en probabilite.
Comme par ailleurs E(x
i
u
i
) = E [x
i
E(u
i
|x
i
)] = 0, on a bien :

b
MCO
P
b
Proposition 5.2 Sous les hypoth`eses H1 ` a H5, la variance asymptotique de lestimateur des
MCO (8.1) est V
as
=
2
E(x
i
x

i
)
1
(o` u
2
Q
1
), et lestimateur est asymptotiquement normal :

N
_

b
mco
b
_
L
^ (0, V
as
).
Demonstration De la formulation precedente :

b
mco
= b +x

i
x
i
1
x

i
u
i
on deduit

N
_

b
mco
b
_
=

Nx

i
x
i
1
x

i
u
i
= x

i
x
i
1

Nx

i
u
i
On veut appliquer le Theor`eme Central Limite `a

Nx

i
u
i
. Les variables aleatoires x

i
u
i
sont independantes et
equidistribuees. On pourra appliquer le Theor`eme Central limite si les deux premiers moments de cette variable
existent. On sait que
E
_
x

i
u
i
_
= 0
V
_
x

i
u
i
_
= V
_
E
_
x

i
u
i
|x
i
__
+E
_
V
_
x

i
u
i
|x
i
__
= E
_
x

i
V (u
i
|x
i
) x
i
_
=
2
E
_
x

i
x
i
_
Les moments dordre 1 et 2 de x

i
u
i
existent donc. On sait qualors le Theor`eme Central limite permet
darmer

Nx

i
u
i
L
N
_
0,
2
E(x

i
x
i
)
_
Comme
x

i
x
i
1 P
E(x

i
x
i
)
1
.
qui est une matrice constante, on peut appliquer le theor`eme de Slutsky `a x

i
x
i
1
et

Nx

i
u
i
:
x

i
x
i
1

Nx

i
u
i
L
E(x

i
x
i
)
1
N
_
0,
2
E(x

i
x
i
)
_
= N
_
0, E(x
i
x

i
)
1

2
E(x

i
x
i
)E(x

i
x
i
)
1
_
= N
_
0,
2
E(x

i
x
i
)
1
_
on a donc bien :

N
_

b
MCO
b
_
L
N
_
0,
2
E(x
i
x

i
)
1
_
.
52 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Remarque 5.1 On peut se passer de lhypoth`ese dequidistribution au prix dun renforcement
des hypoth`eses sur les moments des variables. Pour pouvoir appliquer le Theor`eme Central Li-
mite de Liapounov ` a x

i
u
i
, il sut par exemple que lon ait E
_

u
3
i

_
=
3
< + et pour chaque
variable explicative E
_

x
3
ki

_
=
k3
< +. La condition de Liapounov est alors satisfaite et on
obtient alors la normalite asymptotique de

Nx

i
u
i
.
Les Propositions 5.1 et 5.2 etablissent que

b est un estimateur convergent et asymptoti-
quement normal. La theorie asymptotique permet ainsi de caracteriser la loi de lestimateur
meme en labsence de toute contrainte sur la distribution des residus. Elle permet egalement de
caracteriser les proprietes de lestimation de la variance de lestimateur, qui indique la precision
de lestimation et sav`ere, en consequence, particuli`erement utile pour realiser des tests sur la
valeur vraie des param`etres.
Proposition 5.3 Sous les hypoth`eses H1 ` a H5, la variance de lestimateur des MCO (8.1) peut
etre estimee par :
2
=
1
NK1
_
y x

b
mco
_

_
y x

b
mco
_
P

2
.
Demonstration Lestimateur de la variance des residus,
2
=
1
N
_
y x

b
mco
_

_
y x

b
mco
_
, secrit, compte tenu
de y = xb +u :

2
=
1
N
_
x
_
b

b
mco
_
+u
_

_
x
_
b

b
mco
_
+u
_
=
_
x
i
_
b

b
mco
_
+u
i
_ _
x
i
_
b

b
mco
_
+u
i
_
=
_
b

b
mco
_

i
x
i
_
b

b
mco
_
+ 2u
i
x
i
_
b

b
mco
_
+u
2
i
=
__
b

b
mco
_

i
x
i
_
b

b
mco
_
+ 2u
i
x
i
_
b

b
mco
_
+u
2
i
_
P

2
puisque

b
mco
P
b, x

i
x
i
P
E (x

i
x
i
) , x

i
u
i
P
E (x

i
u
i
) et u
2
i
P
E
_
u
2
i
_
=
2
. Puisque u
2
i
est une variable positive
identiquement distribuee sur les individus. On remarque quil est ici necessaire davoir recours `a la loi forte des
grands nombres dans L1, on devrait sinon faire lhypoth`ese que E
_
u
4
i
_
existe.
Proposition 5.4 Sous les hypoth`eses H1 ` a H5, la matrice de variance-covariance asymptotique
de lestimateur des MCO (8.1) peut etre estimee par :
N

V
_

b
mco
_
=

V
as
=
2
_
x
i
x

i
_
1
P
V
as
Cet estimateur est asymptotiquement normal :

V
1/2
as
_

b
mco
b
_
=

V
1/2
_

b
mco
b
_
L

^ (0, I
K+1
).
Demonstration On lobtient directement par le fait que
2
P

2
et x

i
x
i
1 P
E (x

i
x
i
)
1
. Enn en appliquant
le theor`eme de Slutsky `a

V
as
=
2
_
x

i
x
i
_
1
P
V
as
,.et

N
_

b
mco
b
_
L
N (0, V
as
) , on a directement le dernier
point.
Remarque 5.2

V
as
est un estimateur de V
as
, la variance asymptotique de lestimateur dilate
par

N qui est une matrice constante. En revanche



V
_

b
mco
_
est un estimateur de la variance
de lestimateur. Cest une quantite qui tend vers 0 quand N tend vers linni : N

V
_

b
mco
_
=

V
as
P
V
as
5.2. Tests asymptotiques 53
On a vu dans les chapitres precedents que connatre la loi de lestimateur etait parti-
culi`erement utile pour realiser des tests sur la valeur vraie des coecients `a partir des estimations
obtenues. La distribution asymptotique de lestimateur MCO permet de la fa con de denir des
tests asymptotiques.
5.2 Tests asymptotiques
Les tests que lon consid`ere ici sont des test dits asymptotiques. La dierence essentielle avec
les cas precedents est quils sont bases sur une statistique dont on ne connat la loi quasympto-
tiquement, alors que dans le cadre des chapitres precedents, on connaissait exactement la loi de
la statistique `a distance nie (Student, Fisher,. . . ), gr ace `a lhypoth`ese de normalite. En lab-
sence dhypoth`ese de normalite, les proprietes des tests presentees dans les chapitres precedents
doivent donc etre adaptees au cas asqymptotique. La distribution asymptotique de lestimateur
des MCO permet ensuite de deriver la loi asymptotique dune certain nombre de statistiques
usuelles.
5.2.1 Denitions
Comme precedemment, les tests que lon va considerer sont denis par une region critique
W pour une statistique

S telle que

S W on rejette H
0
contre H
1
Comme nous lavons vu, la region critique de seuil correspond `a lespace de valeurs de la
statistique conduisant `a rejeter H
0
avec une probabilite de se tromper :
W =
_

S > q (1 , S
0
)
_
o` u q (1 , S
0
) est le quantile dordre 1 de S
0
, tel que : Pr (S
0
> q (1 , S
0
)) = .
A cette region critique sont associes un risque de premi`ere et de seconde esp`ece ainsi quune
puissance :
Le risque de premi`ere esp`ece, p limPr
_

S W [H
0
_
, represente asymptotiquement la
probabilite de rejeter H
0
`a tort.
Le risque de deuxi`eme esp`ece, p limPr
_

S / W [H
a
_
, correspond `a la probabilite dac-
cepter H
0
`a tort.
La puissance du test, denie comme 1risque de deuxi`eme esp`ece , est puissance=p limPr
_

S W [H
a
_
.
La dierence concerne aussi la notion doptimalite que lon retient. Le principe du test est
comme precedemment de minimiser le risque de seconde esp`ece en controlant `a un niveau donne
le risque de premi`ere esp`ece. Ce niveau maximal du risque de premi`ere esp`ece est appele la
encore le seuil ou le niveau du test. Dans le cas normal, loptimalite etait denie en reourant
`a la notion de tests Uniformement Plus Puissants, cest `a dire de tests qui, en maintenant
`a un niveau donne le risque de premi`ere esp`ece, conduisent pour toute valeur de lhypoth`ese
alternative `a une probabilite de rejet maximale. Cette proprie te est trop forte et nous avons vu
quon ne peut pas trouver en toute generalite un tel test. Nous avions alors introduit des classes
de tests plus restreintes, telles que les tests sans biais et les tests invariants, pour lesquels on
pouvait trouver un test optimal.
54 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Pour les meme raisons, la notion que lon retient ici est celle de test convergent. Elle rejoint la
notion de test uniformement plus puissant puisquun test convergent est un test dont la puissance
tend vers 1.
Denition 5.1 Le test de region critique W est asymptotique si ses proprietes sont valables
pour N grand ; quil est de niveau asymptotique si lim
N
Pr
_

S W [H
0
_
= ; quil est
convergent si sa puissance tend vers 1 : lim
N
Pr
_

S W [H
a
_
= 1.
On denit aussi de fa con alternative la p-value. La statistique

S est choisie de telle sorte
que sous H
0

S S
0
dont la loi est connue et `a support positif (par exemple, valeur absolue
dune loi normale, loi du khi deux,. . . ). On denit la p-value p
_

S
_
comme la probabilite telle
que

S soit la valeur seuil de la region critique de seuil

S :

S = q
_
1 p
_

S
_
, S
0
_
, soit encore :
p
_

S
_
= Pr
_
S
0
>

S
_
.
Il existe un lien entre la p-value et le risque de premi`ere espece. Pour tout seuil , on rejette
en eet H
0
au seuil si et seulement si p
_

S
_
. Si p
_

S
_
on a bien :
= Pr S
0
> q (1 , S
0
) Pr
_
S
0
>

S
_

S > q (1 , S
0
)
_
Tous les tests dhypoth`ese ont une structure commune, denie par les proprietes decrites
ci-dessus. Chaque test repose sur une specication particuli`ere de la statitistique

S, dont la
distribution depend de la relation entre

S et les estimateurs. Nous decrivons ci-dessous un
certain nombre de tests usuels.
5.2.2 Test dhypoth`eses lineaires
(i) Test de Student asymptotique
Il sagit du test dune hypoth`ese lineaire unidimensionnelle de la forme :
H
0
: c

b = r
o` u c R
K+1
et r R. Un cas particuli`erement important est utilise pour tester la signicativite
du coecient b
k
= 0.
Proposition 5.5 Si les hypoth`eses H1-H5 sont satisfaites, sous lhypoth`ese nulle H
0
: c

b = r
on a

S =

N
c

b
mco
r
_
c

V
as
_

b
mco
_
c
=
c

b
mco
r
_
c

V
_

b
mco
_
c
L
^(0, 1).
Le test deni par la region critique : W =
_

> q
_
1

2
_
_
o` u q
_
1

2
_
est le quantile
1

2
de la loi normale ^(0, 1) est un test convergent au niveau .
Demonstration Sous les hypoth`eses H1-H5, on a

N
_

b
mco
b
_
L
N
_
0,
2
E(x
i
x

i
)
1
_
. Sous lhypoth`ese nulle,
H
0
: c

b = r, on a donc

N
_
c

b
mco
r
_
L
N
_
0, c

V
as
_

b
mco
_
c
_
ou encore :

N
c

b
mco
r
_
c

V
as
_

b
mco
_
c
L
N(0, 1)
5.2. Tests asymptotiques 55
On rencontre le meme probl`eme que dans le cas normal : il faut diviser c

b
mco
r par lecart-type de c

b
mco
r
qui est inconnu. Comme dans le cas normal on va diviser par un estimateur de cet ecart-type. Dans le cas normal
la statistique consideree suivait une loi de Student quel que soit le nombre dobservation. Ici on tient compte du
fait quon divise par un estimateur convergent en probabilite. Le theor`eme de Slutsky permet alors de denir la
loi asymptotique de la statistique. Comme

V
as
_

b
mco
_
=
2
_
x

i
x
i
_
1
=
2
1
N
_
x

x
_
1 P
V
as
_

b
mco
_
=
2
_
E(x

i
x
i
)

1
on en deduit que la statistique de Student :

S =

N
c

b
mco
r
_
c

V
as
_

b
mco
_
c
=
c

b
mco
r
_
c

V
_

b
mco
_
c
L
N(0, 1).
puisque N

V
_

b
mco
_
=

V
as
_

b
mco
_
. On denit la region critique comme W =
_

> q
_
1

2
_
_
, o` u q
_
1

2
_
est le quantile 1

2
de la loi normale N(0, 1). Sous H
0
on a :
Pr
_

S W |H
0
_
Pr
_
|N(0, 1)| > q
_
1

2
__
=
Le test deni par la region critique W est donc un test au niveau . Comme on est dans le cas asymptotique,
on etudie beaucoup plus facilement le comportement de la statistique sous lhypoth`ese alternative. Sous H
1
on a
c

b
mco
r c

b r = m = 0 donc

N =

_
c

b
mco
r
_

__
c

V
as
_

b
mco
_
c |m|
__
c

V
as
_

b
mco
_
c do` u

+. Il en resulte que Pr
_

S W |H
1
_
1. Le test est donc convergent.
Remarque 5.3 On generalise directement ces resultats au cas du test unilateral H
0
: c

br = 0
contre H
1
: c

b r > 0. On denit la region critique comme : W =


_

S > q (1 )
_
, o` u
q (1 ) est le quantile 1 de la loi normale ^(0, 1). Sous H
0
on a : Pr
_

S W [H
0
_

Pr ^(0, 1) > q (1 ) = . Sous H
1
on a c

b r c

b r = m > 0 donc

S
_

N =
_
c

b r
_
__
c

V
as
_

b
_
c m
__
c

V
as
_

b
_
c, do` u

+ et Pr
_

S W [H
1
_
1.
On retrouve donc un test tr`es proche de celui obtenu dans le cas o` u on specie la loi des
residus. Le test presente ici a linteret detre valable quelle que soit la loi des residus, quelle
soit normale ou non, tant quelle verie les hypoth`eses garantissant les proprietes asymptotiques
de lestimateur des MCO. Le test de Student vu dans le chapitre precedent nest valable que
pour le cas de residus suivant une loi normale. Il est en revanche valable `a distance nie. Les
dierences entre ces deux versions du test de Student sont donc que 1/ le resultat nest valable
quasymptotiquement, alors quil etait valable `a distance nie dans le cas normal et 2/ la loi
consideree est une loi normale et non plus une loi de Student. On peut facilement montrer,
cependant, que les deux tests concident asymptotiquement, car une suite de variables aleatoires
X
n
suivant une loi de Student `a n degres de liberte converge en loi vers une loi normale. Les
regions critiques sont donc asymptotiquement les memes.
Demonstration Si X
n
suit une loi de Student, elle peut secrire sous la forme dun ratio Z
1n
/
_
Z
2n
/n avec Z
1n
suivant une loi normale et Z
2n
, independante de Z
1n
suivant une loi du
2
(n) . Une loi du
2
(n) a pour variance
2n. On en deduit que E (Z
2n
/n) = 1 et V (Z
2n
/n) = 2/n. On voit donc que
_
Z
2n
/n
m.q.
1. Donc
_
Z
2n
/n
p
1
On en deduit donc que Z
1n
/
_
Z
2n
/n converge en Loi vers une loi normale.
56 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Application 5.1
Test de Student asymptotique de nullite dun param`etre `a 5%
Le cas dapplication le plus direct est celui du test de la nullite dun param`etre dune regression.
Dans ce cas le vecteur c

= (0, . . . , 0, 1, 0, . . . , 0), c

b = b
k
, r = 0, car on sinteresse `a lhypoth`ese
nulle de nullite de la ki`eme composante du param`etre et
_
c

as

V
as
_

b
_
c/N =
_
c

V
_

b
_
c =
_

V
_

b
k
_
=
k
. Le resultat de la proposition stipule donc quun test asymptotique au seil de
lhypoth`ese de nullite du param`etre peut etre fait en considerant le t de Student
t
k
=

b
k

k
Sous lhypoth`ese nulle, cette quantite suit asymptotiquement une loi normale. Un Test au seuil
peut etre eectue en comparant la valeur du t au quantile dordre 1 /2 de la loi normale.
Ainsi on rejettera H
0
`a % si [t
k
[ > q (1 /2, N (0, 1)) .
En pratique on sinteresse souvent `a des tests `a 5%. Dans ce cas le quantile auquel on compare
est le quantile dordre 97,5% dont la valeur est de 1,96. En dautres termes : on rejette `a
5% lhypoth`ese de nullite dun param`etre si le ratio de la valeur estimee du param`etre `a son
ecart-type estime, le t de Student, est en valeur absolue superieur `a 1,96.
(ii) Test de Wald dune hypoth`ese multi-dimensionnelle.
Comme precedemment, on souhaite tester un syst`eme de contraintes lineaires :
H
0
: Rb = r contre H
a
: Rb ,= r.
On a vu que dans le cas o` u les residus etaient species comme normaux, on pouvait faire
un test de Fisher. Ce test permettait de controler le risque de premi`ere esp`ece et avait de
bonnes proprietes doptimalite. Ici on va considerer une statistique analogue et on va etudier
son comportement asymptotiquement. Pour la meme raison que pour le test de Student, la
statistique ne suivra pas une loi de Fisher mais une loi du
2
.
Proposition 5.6 Lorsque les hypoth`eses H1-H5 sont satisfaites, la statistique

S denie par

S = N
_
R

b
mco
r
_

_
R

V
as
_

b
mco
_
R

_
1
_
R

b r
_
=
_
R

b
mco
r
_

_
R(x

x)
1
R

_
1
_
R

b
mco
r
_

2
converge en loi vers un
2
p
, sous lhypoth`ese nulle H
0
. Le test deni par la region critique
W =
_

S > q
_
(1 ),
2
(p)
_
_
est un test convergent au niveau . La statistique peut aussi
e tre calculee comme

S = p

F = (N (K + 1))
SCRC SCR
SCR
N

2
c

2

2
5.2. Tests asymptotiques 57
Application 5.2
Test asymptotique de nullite de lensemble des param`etres
On a vu que lorsque lon speciait la loi des residus comme une loi normale, on avait

F =
(SCR
C
SCR) /K)
SCR/(N K 1)
=
R
2
1 R
2
N K 1
K
.
Do` u

S = K

F =
R
2
1R
2
(N K 1). Sous H
0
il est facile de voir que R
2
P
0 quand N .
On a donc :

S NR
2
. On peut utiliser la statistique NR
2
et rejeter lhypoth`ese nulle si :
NR
2
> q
_
(1 ),
2
(K)
_
Demonstration On a :

N
_
R

b
mco
r
_
L
N
_
0, V
as
_
R

b
mco
_
=
2
R[E(x

i
x
i
)]
1
R

_
. On en deduit
N
_
R

b
mco
r
_

_
RV
as
_

b
mco
_
R

_
1
_
R

b
mco
r
_
L

2
p
.
On peut remplacer V
as
_

b
mco
_
par un estimateur convergent et appliquer Slutsky. Do` u, sous lhypoth`ese nulle,
H
0
: Rb
0
= r, et apr`es simplication des N,

S = N
_
R

b
mco
r
_

_
R

V
as
_

b
mco
_
R

_
1
_
R

b
mco
r
_
=
_
R

b
mco
r
_

_
R

V
_

b
mco
_
R

_
1
_
R

b
mco
r
_
=
_
R

b
mco
r
_

_
R(x

x)
1
R

_
1
_
R

b
mco
r
_

2
= p

F
L

2
(p) , sous H
0
Ce resultat permet de montrer que le test deni par la region critique donnee est un test au niveau .
Sous H
1
on a en revanche R

b r Rb r = m = 0 et donc :

S/N =
_
R

b
mco
r
_

_
R

V
as
_

b
mco
_
R

_
1
_
R

b
mco
r
_
constante
et

S . La puissance du test converge par consequent vers 1.
5.2.3 Test dhypoth`eses non lineaires
La theorie asymptotique permet de traiter des questions qui ne pouvaient pas etre abordees
auparavant. En eet, on peut vouloir tester des hypoth`eses non lineaires dans les param`etres.
Le mod`ele dit `a retards echelonnes en constitue un exemple. Dans ce mod`ele on a une variable
dependante y
t
dependant dune variable x
t
et de ses retards : x
t1
, x
t2
, . . . , x
tL
: y
t
= +

0
x
t
+
L
x
tL
+u
t
. Une restriction frequemment imposee sur ces param`etres est quils soient
de la forme :
k
=
0

k
. Cela revient `a imposer L 1 contraintes de la forme :

1
=

1

0
, . . . ,

L
1

L2
=

1

0
,

L

L1
=

1

0
qui sont typiquement non lineaires et ne peuvent donc etre testees dans le cadre precedent.
58 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Dune fa con plus generale, on sinteresse si `a des hypoth`eses de la forme : H
0
: g(b
0
) = 0, o` u
g(b) est un vecteur de p contraintes non lineaires sur les param`etres telle que
g(b
0
)
b

est de plein
rang (i.e.
g(b
0
)
b

_
g(b
0
)
b

inversible, o` u b
0
est la vraie valeur du param`etre).
Remarque 5.4 Si g(b) = Rb r, alors
g(b)
b

= R. On retrouve donc la condition sur le rang


de R.
Le resultat suivant permet de generaliser les tests precedents au cas non lineaire.
Proposition 5.7 Si

b
N
est un estimateur asymptotiquement normal de b :

N
_

b
N
b
_
L
^
_
0, V
as
_

b
__
et si on dispose dun estimateur convergent de la matrice de variance de lestimateur,

V
as
_

b
_
P

V
as
_

b
_
, alors :

N
_
g(

b)
b

V
as
_

b
_
g(

b)
b

_
1/2
_
g(

b) g(b)
_
L
^ (0, I
p
)
pour toute fonction g continue, derivable et ` a derivee continue, de dimension p 1.
Demonstration On applique la methode delta
3
. On sait que

N
_
g(

b) g(b)
_
L
N
_
0,
g(b)
b

V
as
_

b
_
g(b)
b

_
Cest `a dire

N
_
g(b)
b

V
as
_

b
_
g(b)
b

_
1/2 _
g(

b) g(b)
_
L
N (0, I)
Comme
g(

b)
b

V
as
_

b
_
g(

b)
b

g(b)
b

V
as
_

b
_
g(b)
b

, on obtient le resultat par application du theor`eme de Slutsky.


Ce resultat permet detendre directement les tests precedents au cas dhypoth`eses non
lineaires :
(i) Cas dune seule contrainte, p = 1. On forme la statistique de Student :

T =

N
g(

b)
_
g(

b)
b

V
as
_

b
__
g(

b)
b

=
g(

b)
_
g(

b)
b

V
_

b
__
g(

b)
b

et on proc`ede comme dans le cas dune contrainte lineaire.


(ii) Cas de plusieurs contraintes, p < K + 1. On calcule la statistique de Wald :

S = Ng(

b)

_
g(

b)
b

V
as
_

b
_
_
g(

b)
b

_
1
g(

b) = g(

b)

_
g(

b)
b

V
_

b
_
_
g(

b)
b

_
1
g(

b)
que lon compare au quantile 1 de la loi du chi-deux `a p (le nombre de contraintes)
degres de liberte. On est contraint dans ce cas `a la mise en oeuvre du test de Wald. Il ny
a pas danalogue simple du test de Fisher puisque lestimation du mod`ele sous lhypoth`ese
nulle ne peut etre faite simplement.
3
Voir Annexe, Proposition A.11
5.3. Exemple 59
5.3 Exemple
Pour illustrer les proprietes asymptotiques des tests, on reprend le meme cadre que celui
utilise pour etudier la puissance du test de Student. On simule donc un mod`ele un grand nombre
de fois avec des vraies valeurs dierentes sur lintervalle [0, 2] et on fait le test de legalite du
param`etre `a 1. On va examiner comment les resultats sont modies lorsque lon met en oeuvre
le test de Student asymptotique, base sur la distribution dune loi normale et non plus le test de
Student base sur la loi de Student. On va aussi examiner comment ces resultats sont modies
lorsque les perturbations ne suivent plus une loi normale. On prendra lexemple dune loi de
Fisher `a 1 et 5 degres de liberte, normalisee pour que son esperance soit nulle et sa variance
unitaire. On choisit cette loi car elle est asymetrique et que les lois de Fisher nont un moment
dordre 2 que si le deuxi`eme degres de liberte est superieur `a 4. On est donc dans un cas o` u les
hypoth`eses de convergence sont juste satisfaites.
[A FAIRE]
Resume
Ce chapitre est consacre `a letude des proprietes de lestimateur des MCO en labsence dhy-
poth`ese de normalite des residus. Dans ce cas plus general que celui que nous avons retenu
jusqu`a present nous avons montre les resultats suivants :
Proprietes asymptotiques de lestimateur des MCO. Sous les hypoth`eses H1 `a H5,
lestimateur des MCO,

b
MCO
= (x

x)
1
x

y, est :
Convergent :

b
mco
P
b ;
Asymptotiquement normal :

N
_

b
mco
b
_
L
^ (0, V
as
) avec V
as
=
2
E(x
i
x

i
)
1
.
Estimation de la variance. Lestimateur
2
=
1
NK1
_
y x

b
mco
_

_
y x

b
mco
_
est
convergent :
2
P

2
. En outre :
N

V
_

b
mco
_
=

V
as
=
2
_
x
i
x

i
_
1
P
V
as
;

V
1/2
as
_

b
mco
b
_
=

V
1/2
_

b
mco
b
_
L
^ (0, I
K+1
).
Tests asymptotiques dhypoth`eses lineaires. Le test de region critique W est de
niveau asymptotique si lim
N
Pr
_

S W [H
0
_
= .
Test de Student asymptotique :

S =

N
c

b
mco
r
_
c

V
as
_

b
mco
_
c
=
c

b
mco
r
_
c

V
_

b
mco
_
c
L
^(0, 1).
Test de Wald asymptotique :

S =
_
R

b
mco
r
_

_
R(x

x)
1
R

_
1
_
R

b
mco
r
_

2
L

2
p
.
Test dhypoth`ese non-lineaire :

S =

N
_
g(

b)
b

V
as
_

b
_
g(

b)
b

_
1/2
_
g(

b) g(b)
_
L
^ (0, I
p
),
pour toute fonction g() de classe C
2
.
60 Chapitre 5.
Chapitre 6
Evaluation : Les estimateurs de
dierence
Levaluation des politiques publiques necessite souvent la connaissance de param`etres de
comportements des agents qui sont inconnus. La mesure de leet dune politique instaurant une
taxe sur certains produits fait ainsi intervenir les elasticites dore et de demande de ces biens.
De meme, leet dune politique favorisant le retour `a lemploi, tel que lEarning Income Taxe
Credit aux Etats Unis ou la Prime pour lEmploi en France font intervenir lelasticite de lore
de travail. La mesure de ces param`etres est une preoccupation importante de leconometrie. Les
chapitres precedents ont montre la diculte de lestimation de ces param`etres et la necessite de
contextes observationnels tr`es exigeants. La connaissance de ces param`etres permet dapporter de
nombreux eclairages sur les eets des politiques publiques. Par exemple lestimation dequations
dore de travail permet de mesurer la valeur que les agents accordent au temps libre. Levolution
dune telle valeur et sa dispersion dans la population est bien sur interessante dans le contexte
de la reduction du temps de travail. Connatre les param`etres structurels du comportements des
agents permet de mesurer ex ante les eets probables dune mesure de politique economique.
Elle permet aussi de mesurer leet de politiques ayant dej` a ete mises en oeuvre.
Exemple 7 Laroque Salanie (2000) Modelisation de lore de travail en fonction de la remuneration
et des transferts(modelisation dun salaire de reserve), modelisation de la demande de travail
(productivite dun travailleur). Il y a emploi si le salaire oert (la productivite) est superieur au
salaire de reserve et au smic. On peut alors examiner leet dun rel`evement du smic ou leet
dune modication des transferts.
Ces evaluations reposent sur la specication de mod`eles de comportement et leur estimation.
De nombreux param`etres structurels sont susceptibles dintervenir et il est probable que les
conditions de lidentication de ces param`etres ne soient pas reunies pour chacun dentre eux.
On peut etre tente dapporter une reponse plus precise ` a une question plus generale. Plut ot que
levaluation dune politique basee sur la decomposition et la mesure des dierentes composantes
dune politique (eet via lore et via la demande par exemple) et qui necessitent lestimation de
tous les param`etres structurels (elasticites dore et de demande par exemple) on peut chercher
`a repondre `a la question globale quel a ete leet de la politique au total ? Ceci ne necessite que
lestimation de combinaisons des param`etres structurels et pas leur identication individuelle.
Une branche de leconometrie sest developpee fortement au cours des derni`eres annees qui
61
62 Chapitre 6. Evaluation : Les estimateurs de dierence
cherche `a repondre `a cette question. Cest essentiellement aux travaux de James Heckman que
lon doit ces avancees. Elle ne sinteresse qu`a des evaluations ex-post et aux situations dans
laquelle la politique in ne a concerne une partie de la population seulement. Par exemple
eet du rel`evement du salaire minimum dans certains etats aux Etats Unis. Mise en place dun
syst`eme de formation pour les chomeurs, ou dun syst`eme daide `a la recherche demploi (PAP)
etc... Lidee centrale est quune partie de la population benecie de la mesure et lautre non.
On peut sous certaines hypoth`eses, l` a aussi parfois exigeantes, retrouver leet de la politique
sur les individus qui en ont benecies, `a partir de comparaisons entre les deux populations.
On voit bien que mesurer leet global de la politique mise en oeuvre de cette fa con est moins
exigeant que la mesure de lensemble des param`etres structurels sous-jacents. Seule la fa con dont
ils se combinent pour conduire au resultat nal compte. En pratique, on consid`ere des politiques
se traduisant par le fait que la population va etre repartie dans dierents etats. On introduit
ainsi une variable appelee variable de traitement T prenant ses valeurs dans 0, 1, ..., M . Letat
T = 0 correspondant au fait de netre pas directement touche par la politique. On va sinteresser
principalement `a la situation dans laquelle il ny a que deux etats : T 0, 1 . Les evaluations
auxquelles on proc`ede sont des evaluations ex post : elles concernent les politiques qui ont ete
dej` a mises en oeuvre et ont dej` a produit leurs eets. Le but est de denir et de mesurer lampleur
de ces eets sur la base des information dont on dispose pour les individus traites et les individus
non traites. Cette approche est ainsi dite observationnelle car ancree dans lobservation des
eets dune politique.
Exemple 8 Stage de formation. La population va se decomposer en deux types dindividus :
ceux beneciant du stage T = 1,dits traites, et ceux nen beneciant pas T = 0, dits non traites.
Il sagit en fait du cas type qui a ete largement etudie par Heckman (voir Heckman Lalonde et
Smith (1999))
Exemple 9 Modication de certains param`etres de la legislation. Certains individus ne sont
pas concernes par le changement de legislation, dautres le sont. Un exemple pourrait etre le
rel`evement du Smic : les individus dont la remuneration avant le rel`evement se trouve entre
lancien et le nouveau smic sont dits traites et ceux dont la remuneration se trouve au del` a du
nouveau smic avant son rel`evement sont dits non traites. Abowd, Kramarz et Margolis (1999)
utilisent les augmentations successives du Smic depuis 1981 pour comparer chaque annee les
pertes demploi des salaries rattrapes par le Smic avec celle des autres salaries.
6.1 Le Mod`ele causal
On denit pour chaque individu deux outputs potentiels y
1
et y
0
. y
1
est la variable aleatoire
caracterisant la situation de lindividu sil benecie de la mesure, par exemple sil suit le stage
de formation. y
0
est la situation de lindividu lorsquil ne benecie pas de la mesure par exemple
sil ne suit pas le stage.
Ces deux grandeurs existent pour chaque individu, quil benecie ou non de la mesure. On
denit leet causal comme etant :
= y
1
y
0
Il sagit donc de la dierence entre la situation dun individu lorsquil suit le stage avec sa
situation lorsquil ne le suit pas.
6.1. Le Mod`ele causal 63
6.1.1 Choix de la variable dinteret et choix de letat de reference
Le choix de la variable y est important. Lorsquil sagit devaluer une politique il est necessaire
de denir un crit`ere. Concernant les stages de formation ce crit`ere nest pas necessairement
evident. Il peut sagir de la situation vis `a vis de lemploi, du salaire, de la valeur dun individu
sur le marche du travail, du bien etre de lindividu... Chacune de ces caracteristiques correspond
`a une valorisation dierente du passage par un stage de formation et qui represente aussi le
point de vue de dierents agents.
La denition de letat de reference est aussi une question importante. On peut au moins
distinguer deux types de denitions pour letat de reference :
le traitement existe et on ny participe pas y
0
.
le traitement nexiste pas y
0
.
On pourrait denir un eet causal

= y
1
y
0
= (y
1
y
0
) + (y
0
y
0
) = + (y
0
y
0
) .
Le fait que y
0
puisse etre dierent de y
0
correspond `a lexistence deets indirects. Le fait
quune mesure de politique economique soit prise peut aecter un individu meme sil nest pas
directement concerne par la mesure. Si on consid`ere la situation dans laquelle deux individus
sont en concurrence pour un emploi et quil y a un stage disponible seulement, on con coit que
les deux grandeurs y
0
et y
0
soient dierentes, et quomettre les eets indirects puisse conduire
`a une evaluation erronnee de la politique mise en oeuvre. Dans le cas du rel`evement du smic
examine par Abowd Kramarz et Margolis, il est possible que la situation des individus non
concernes directement par le rel`evement du smic, cest `a dire les individus dont la remuneration
avant le rel`evement du smic est au dessus de la nouvelle valeur soient aectes malgre tout par
le rel`evement du smic. En eet ils ne sont plus en concurrence avec ceux dont la remuneration
etait en dessous du nouveau smic.
6.1.2 Param`etres dinteret
On sinteresse en general `a deux types de param`etres :

TT
(x) = E (y
1
y
0
[T = 1, x)

ATE
(x) = E (y
1
y
0
[x)
Le premier param`etre est leet moyen du traitement sur les individus de caracteristiques x
ayant benecie de la mesure (Average Treatment Eect). Le second param`etre est leet moyen
du traitement sur les individus de caracteristiques x quils aient ou non benecie de la mesure
(Treatment on the Treated). Linterpretation des ces deux param`etres est dierente. Le premier
ne concerne que la mesure des gains pour les individus ayant benecie du traitement alors que le
second mesure leet du traitement sil etait etendu `a lensemble de la population. Ils ont toutes
les chances detre dierents puisque vraisemblablement le gain que lon retire du traitement
conditionne la decision de participation.
Ces param`etres ne sont pas directement identies. Dans lideal on souhaiterait pouvoir iden-
tier la distribution jointe :
l (y
1
, y
0
, T)
Ceci permettrait didentier la loi jointe de leet causal et du traitement l (, T) , `a la source
du calcul de nombreux param`etres presentant un interet. On observe en eet un individu soit
sil benecie du traitement soit sil nen benecie pas, mais jamais dans les deux situations `a la
64 Chapitre 6. Evaluation : Les estimateurs de dierence
fois. Les observations sont ainsi :
_
T 1, 0
y = Ty
1
+ (1 T) y
0
Les donnees ne permettent didentier que l (T) , l (y
1
[T = 1) = l (y [T = 1) et l (y
0
[T = 0) =
l (y [T = 0) . On voit que cest toujours insusant pour estimer nimporte lequel des deux pa-
ram`etres. En eet le premier param`etre secrit
ATE
= E (y
1
y
0
[T = 1, x) = E (y [T = 1, x)
E (y
0
[T = 1, x) , de telle sorte quil est necessaire didentier E (y
0
[T = 1, x) qui est inobserve.
Le second param`etre necessite lidentication non seulement de E (y
0
[T = 1, x) mais aussi de
E (y
1
[T = 0, x) .
Remarque 6.1 Ces param`etres sinterpr`etent comme les gains de surplus lies ` a la mise en
oeuvre de la politique ou ` a son extension. Si on consid`ere les trois outputs potentiels pertinents :
y
1
, y
0
et y
0
, et les surplus

W
0
, W, W
T
, associes respectivement aux situations sans la politique,
avec la politique telle quelle a ete mise en oeuvre et lorsque la politique est etendue. On calcule
simplement les gains associes aux deux situations :
W

W
0
= N
_
P (T = 1) E
_

TT
(x) [T = 1
_
+E (y
0
) E ( y
0
) E (c [T = 1)
_
Lorsque la politique est mise en oeuvre et que les individus y participent librement, et
W
T

W
0
= N
_
E
_

ATE
(x)
_
+E (y
0
) E ( y
0
) E (c)
_
Lorsque la politique est etendue ` a toute la population. On voit que le premier param`etre est
pertinent pour juger de lecacite de la politique telle quelle a ete mise en oeuvre alors que
le second est pertinent pour juger de lopportunite de son extension. On voit egalement quune
evaluation compl`ete doit aussi prendre en compte les eets indirects : la situation de reference
change par linstauration meme du dispositif. De meme une evaluation compl`ete doit aussi faire
intervenir les co uts du traitement. Les deux param`etres consideres, bien que centraux napporte
donc quune partie de linformation necessaire ` a des evaluations compl`etes. Enn on remarque
que pour la premi`ere situation, la probabilite de suivre le traitement intervient aussi de facon
importante.
Remarque 6.2 Modelisation des outputs potentiels Une modelisation permet de mieux
comprendre la nature des param`etres
TT
(x) et
ATE
(x) et leurs dierences. On modelise :
_
y
1
=
1
+x
1
+u
1
y
0
=
0
+x
0
+u
0
o` u on fait lhypoth`ese que (u
1
, u
0
) x. Les coecients
0
et
1
sont des param`etres sus-
ceptibles de recevoir une interpretation economique : ce sont des param`etres structurels
caracterisant le comportement des agents. Les deux param`etres sont alors :

ATE
(x) = E (y
1
y
0
[x) =
1

0
+x(
1

0
)
et

TT
(x) = E (y
1
y
0
[x, T = 1) =
1

0
+x(
1

0
) +E (u
1
u
0
[x, T = 1)
6.1. Le Mod`ele causal 65
On voit que le premier param`etre ne fait intervenir que les variables observees et les pa-
ram`etres structurels et est donc de ce fait un param`etre standard de leconometrie. Il nen
est pas de meme en revanche du second param`etre qui fait intervenir les caracteristiques
inobservees u
1
et u
0
. Les deux param`etres ne sont identiques que lorsquil y na pas
dheterogeneite inobservable dans leet du traitement, soit u
1
= u
0
ou lorsquune telle
heterogeneite existe mais nest pas prise en compte par les individus lors de la decision de
participation au programme T(u
1
u
0
) [x = 1.
6.1.3 Biais de selectivite
Denition 6.1 Lestimateur naf est celui qui correspond ` a la comparaison de la situation
moyenne des individus ayant fait lobjet dun traitement et celle de ceux nen ayant pas fait
lobjet

0
= y
T=1
y
T=0
Cest estimateur est tr`es populaire, largement repandu mais potentiellement biaise. En eet
la situation moyenne des individus ne beneciant pas du traitement nest pas necessairement
la meme que celle qui est pertinente : la situation moyenne des individus ayant benecie du
traitement sil nen avait pas benecie.
Proposition 6.1 Pour que lestimateur naf soit un estimateur convergent de TT il faut que
laectation au traitement soit independante de loutput potentiel y
0
. Pour quil soit un esti-
mateur convergent de ATE, il faut que laectation au traitement soit independante des deux
outputs potentiels y
0
et y
1
.
Demonstration

0

0
= E (y
1
|T = 1) E (y
0
|T = 0)
= E (y
1
|T = 1) E (y
0
|T = 1) +E (y
0
|T = 1) E (y
0
|T = 0)
=
TT
+B
TT
On voit quil apparat un biais de selectivite : B
TT
= E (y
0
|T = 1) E (y
0
|T = 0) . Il est nul si y
0
T. Pour

ATE
on a
E (y
1
) = P (T = 1) E (y
1
|T = 1) + (1 P (T = 1)) E (y
1
|T = 0)
do` u
E (y
1
|T = 1) = E (y
1
) + (1 P (T = 1)) [E (y
1
|T = 1) E (y
1
|T = 0)]
de meme
E (y
0
|T = 0) = E (y0) P (T = 1) [E (y
0
|T = 1) E (y
0
|T = 0)]
do` u

0
(x) =
ATE
+ (1 P (T = 1)) [E (y
1
|T = 1) E (y
1
|T = 0)] +
P (T = 1) [E (y
0
|T = 1) E (y
0
|T = 0)]
=
ATE
+B
ATE
Il est necessaire davoir lindependance de T et du couple doutput potentiels (y
1
, y
0
) conditionnellement aux x.

Remarque 6.3 On voit en outre que


B
ATE
= B
TT
+ (1 P (T = 1)) [E (y
1
y
0
[T = 1) E (y
1
y
0
[T = 0)]
La deuxi`eme source de biais provient de lheterogeneite du traitement, alors que la premi`ere
source de biais provient du probl`eme classique dendogeneite de la variable de traitement.
66 Chapitre 6. Evaluation : Les estimateurs de dierence
6.2 Lestimateur des Dierences de Dierences
Le cadre des regressions precedentes permet de presenter certains estimateurs standards tr`es
frequemment utilises. Il sagit de lestimateur Avant-Apr`es ou Before-After, de lestimateur
en coupe Cross section et de lestimateur par double dierence Dierence in dierence
Les estimateurs Avant Apr`es et par Dierence de dierence font intervenir le temps. On
suppose donc que le traitement est mis en oeuvre `a une date t
0
et que lon dispose dinformations
sur les individus en t< t et en t > t pas necessairement pour des individus similaires.
6.2.1 Estimateur en coupe
Lestimateur en coupe est tr`es proche de celui que lon pourrait deduire du mod`ele de
regression precedent. Le mod`ele sous sa forme generale secrirait comme :
y
t
=
0
+x
t

0
+T (
1

0
+x(
1

0
)) +u
0,t
+T
_
u
1,t
u
0,t
_
. .
v
t
Les estimateurs standards en coupe ignorent lheterogeneite de leet du traitement. Lequation
precedente se reecrit donc :
y
t
= +x
t
+Tc +u
t
Dans ce cadre le biais est simplement lie au fait que lon na pas forcement E (u
t
[x, T ) = 0. Le
biais a pour expression :
B
Cross
= E (u
t
[x, T = 1) E (u
t
[x, T = 0)
La mise en oeuvre de cet estimateur ne necessite que des informations en coupe sur une periode
suivant le traitement. Une version encore plus simple de cet estimateur consiste `a negliger les
variables de conditionnement. Dans ce cas lestimateur est simplement

Cross
= y
t
T=1
y
t
T=0
6.2.2 Estimateur Avant-Apr`es
Lestimateur avant apr`es est base sur des informations sur des donnees temporelles dindivi-
dus ayant fait lobjet du traitement. Lidee generale est que les informations dont on dispose sur
les individus avant le traitement permettent de reconstituer ce quaurait ete leur situation en
labsence de traitement. Lestimateur est deni comme la dierence des moyennes des individus
traites apr`es et avant le traitement. Dans sa forme la plus simple son expression est donnee par :

BA
= y
t
T=1
y
t
T=1
Dans le cadre des regressions precedentes il secrirait `a partir des regressions :
y
t
= +x
t
+c +u
t
pour T = 1
y
t
= +xt +u
t
pour T = 1
Soit le mod`ele de regression :
6.2. Lestimateur des Dierences de Dierences 67
y
t
= +x
t
+c1
_
t = t
_
+u
t
1
_
t = t
_
+u
t
1 (t = t) pour T = 1
Il y a deux probl`emes principaux avec cet estimateur. Le premier probl`eme provient du biais
classique dej` a analyse. Le biais pour cet estimateur est donne par :
B
BA
= E (u
t
[x, T = 1) E
_
u
t
[x, T = 1
_
Supposons que le terme de perturbation soit la somme de deux elements : u
t
= u +
t
avec
t
non correle dans le temps, alors le terme de biais precedent se reecrit :
E (u
t
[x, T = 1) E
_
u
t
[x, T = 1
_
= E (u[x, T = 1) +E (
t
[x, T = 1)
E (u[x, T = 1) E
_

t
[x, T = 1
_
= E (
t
[x, T = 1) E
_

t
[x, T = 1
_
Si la decision de participation depend de la chronique des elements inobserves alors ce terme
est non nul. En particulier on a observe que la participation `a des programme de formation aux
Etats-Unis etait en general associee `a une baisse des revenus passes, cest `a dire `a des elements

t
faibles.
Le second terme de biais est encore plus radical. Supposons quen labsence de politique le
mod`ele secrive
y
t
=
t
+x
t
+u
t
Le
t
represente par exemple des chocs macroeconomiques. Alors le mod`ele precedent se reecrit :
y
t
=
t
+x
t
+
_
c +
t

t
_
1
_
t = t
_
+
_
u
t
1
_
t = t
_
+u
t
1 (t = t)
_
pour T = 1
Il est impossible de separer leet du traitement de leet de chocs macroeconomiques.
Remarquons que si le traitement sadresse `a des individus qui sont reperables ex ante :
T = z Z , alors lestimateur precedent ne necessite pas de donnees temporelles. Seules des
coupes successives pour les individus tels que z Z sont necessaires.
6.2.3 Estimateur par dierence de dierence.
Cet estimateur combine les deux estimateurs precedents. Il correspond `a la situation dans
laquelle le traitement correspond `a la realisation `a partir dune date donne dun certain nombre
de conditions deligibilite qui sont observables. On peut donc denir une variable T correspondant
aux conditions deligibilite, sur des observations temporelles. Elle ne correspond au traitement
que pour t = t posterieur `a la date de traitement. Dans le cadre du mod`ele de regression
precedent, il correspond `a la situation dans laquelle on introduit une indicatrice correspondant `a
la date, une indicatrice correspondant aux conditions deligibilite et le produit croise indicatrice
temporelle post et conditions deligibilite :
y
t
= x
t
+
c
+
t
1
_
t = t
_
+
T
T +
t,T
T1
_
t = t
_
+v
t
68 Chapitre 6. Evaluation : Les estimateurs de dierence
Proposition 6.2 Lorsque le biais dune estimation en coupe est constant dans le temps ce qui
est equivalent au fait que le biais avant-apr`es soit le meme pour les eligibles et les non eligibles, la
regression introduisant comme variables une indicatrice temporelle post, une indicatrice pour les
conditions deligibilite et le produit de ces deux variables permet destimer leet du traitement.
Demonstration On peut examiner `a quoi correspondent ces dierents termes dans le cadre du mod`ele precedent :
y
t
= x
t
+
t
+cT +u
t
On a
E (y
t
|x
t
, t, T ) = x
t
+
t
+cT +E (u
t
|x
t
, t, T ) = x
t
+
t
+cT +E (u
t
|t, T )
On introduit m
t,T
= E (v
t
|t, T ) , on a
E (u
t
|t, T ) = m
t,1
T1
_
t = t
_
+m
t,0
(1 T) 1
_
t = t
_
+m
t,1
T1 (t = t) +m
t,0
(1 T) 1 (t = t)
= m
t,0
1
_
t = t
_
+m
t,0
1 (t = t) +
_
m
t,1
m
t,0
_
T1
_
t = t
_
+ (m
t,1
m
t,0
) T1 (t = t)
= m
t,0
+
_
m
t,0
m
t,0
_
1
_
t = t
_
+ (m
t,1
m
t,0
) T
+
__
m
t,1
m
t,0
_
(m
t,1
m
t,0
)

T1
_
t = t
_
On voit donc que les coecients de la regression secrivent :

c
= m
t,0

t
=
_
m
t,0
m
t,0
_
= B
BA
(T = 0)

T
= (m
t,1
m
t,0
) = B
Cross
_
t
_

t,T
=
__
m
t,1
m
t,0
_
(m
t,1
m
t,0
)

= B
Cross
_
t
_
B
Cross
(t)

t,T
=
__
m
t,1
m
t,1
_

_
m
t,0
m
t,0
_
= B
BA
(T = 1) B
BA
(T = 0)
Lestimateur par dierence de dierence resout donc directement le probl`eme precedent dinstabilite du mod`ele
sous-jacent.
On en conclut que la regression en incluant une indicatrice correspondant au traitement, capture le biais
de selectivite de la coupe, en incluant une indicatrice temporelle capture le biais de lestimation Before After,
et quen introduisant le produit croise condition deligibilite indicatrice post elle va estimer le coecient +
B
Cross,t
B
Cross,t
= + B
BA,T=1
B
BA,T=0
. Le biais est donc nul dans le cas de lestimateur par dierence
de dierence lorsque B
Cross,t
B
Cross,t
= 0 ou encore si B
BA,T=1
B
BA,T=0
.
Si on reprend la modelisation simple des perturbations presentees pour lestimateur Avant
Apr`es : u
t
= u +
t
La dierence des termes de biais secrit :
B
BA,T=1
B
BA,T=0
=
_
E (
t
[x, T = 1) E
_

t
[x, T = 1
__

_
E (
t
[x, T = 0) E
_

t
[x, T = 0
__
On voit que si la participation au traitement est conditionnee par des chocs negatifs sur la
variable doutput, alors ce terme nest pas nul.
On appelle cet estimateur dierence de dierence car dans le cas o` u il ny a pas de variables
explicatives il secrit simplement. Il necessite aussi en general des informations longitudinales sur
les individus traites et non traites. Dans sa forme la plus simple cet estimateur secrit simplement

DD
=
_
y
t
T=1
y
t
T=1
_

_
y
t
T=0
y
t
T=0
_
=

BA,T=1

BA,T=0
=
_
y
t
T=1
y
t
T=0
_

_
y
t
T=1
y
t
T=0
_
=

Cross,t

Cross,t
6.2. Lestimateur des Dierences de Dierences 69
6.2.4 Exemple : La Contribution Delalande
La contribution Delalande est une taxe sur le licenciement des travailleurs ages. Elle a ete
creee en 1987 `a linstigation du depute Delalande. Dans le schema initial, le licenciement dun
salarie de plus de 50 ans conduisait `a une taxe correspondant `a 3 mois de salaire. Ce schema
initial a ete profondement modie `a deux reprises, une fois en 1992 et une fois en 1998. Le
schema nal est particuli`erement desincitatif puis quil conduit `a une taxe correspondant `a un
an de salaire pour les salaries de plus de 56 ans. d`es 1992 lage seuil dentree dans le dispositif a
ete abaisse `a 50 ans. Ce type de politique est susceptible davoir deux eets, lun direct et lautre
indirect. Leet direct correspond au fait que le licenciement des travailleurs ages deviennent
moins attractif et donc se reduise. Leet indirect correspond au fait que ce type de politique
est susceptible de rendre lembauche de salaries moins attractive et donc reduise les embauches.
A ce titre la modication du dispositif Delalande en 1992 introduisait une specicite qui permet
de mesurer lampleur de ce phenom`ene. A partir de 1992 les employeurs embauchant un salarie
de plus de 50 ans ne sont plus redevable de la contribution Delalande en cas de licenciement de
ce salarie. Une fa con naturelle detudier leet desincitatif de la contribution Delalande consiste
donc `a comparer les taux dembauche de salaries de plus de 50 ans et de moins de 50 ans autour
de 1992. Lidee est que le renforcement important du dispositif en 1992 a conduit reduire les
embauches de salaries de moins de 50 ans. Dans la mesure o` u les demandeurs demploi de plus
de 50 ans ont ete exclus de ce dispositif, on ne doit pas observer de degradation similaire de
lembauche de chomeurs de plus de 50 ans. On peut donc examiner leet de la contribution
Delalande de dierentes fa cons :
Avant apr`es : Comparaison de la variation du taux dembauche des moins de 50 ans entre
avant et apr`es 1992
En coupe : Comparaison des taux dembauche des moins de 50 ans et des plus de 50 ans
apr`es 1992
En Dierence de Dierence : Comparaison de la variation du taux dembauche des moins
de 50 ans et des plus de 50 ans avant et apr`es 1992
On peut examiner cette question `a partir des transitions Chomage-Emploi. LEnquete Emploi
fournit les informations necessaires. Dans lideal on souhaiterait comparer les taux dembauche
de chomeurs de juste moins de 50 ans et de juste plus de 50 ans. En pratique ceci nest pas
possible car il ny a pas susamment dobservations de ce type dans lenquete emploi. On est
amene `a considerer des fenetres plus larges. On parvient aux resultats reportes dans le tableaux
6.1
Le tableau se presente en deux parties droite et gauche. La partie droite reporte les resultats
portant sur des comparaisons brutes, celle de gauche ceux obtenus lorsque lon corrige des
caracteristiques inobservables des agents. Chaque partie comprend trois colonnes correspon-
dant aux dierentes fenetres considerees : etroite, moyenne, large. Les quatre premi`eres lignes
presentent les taux de retour `a lemploi en CDI pour les moins de 50 ans et pour les plus de
cinquante ans avant 1992, puis apr`es 1992.
On constate que le taux annuel de retour `a lemploi des hommes de 48 ans, avant 1992,
etait de 20% en moyenne, quantite estimee de fa con peu precise comme en temoigne lecart-
type (2,9%). Le taux de retour `a lemploi des plus de cinquante ans sel`eve alors `a 20,5% et est
lui aussi peu precisement estime. Cette imprecision tient largement `a la taille de lechantillon
mobilise (1 211 individus-annees). Introduire des variables de controle ne change les ordres de
70 Chapitre 6. Evaluation : Les estimateurs de dierence
Fig.6.1 Estimation de leffet indirect de la contribution Delalande
48-51 ans 46-53 ans 44-55 ans 48-51 ans 46-53 ans 44-55 ans
20,0 20,3 19,7 19,4 20,0 18,8
2,9 1,7 1,3 2,8 1,7 1,2
20,5 14,9 13,7 19,1 14,5 13,9
2,9 1,4 1,0 2,7 1,4 1,0
14,3 14,6 14,9 14,6 14,7 14,8
1,7 1,0 0,8 1,7 1,0 0,8
14,6 15,2 13,0 15,3 15,5 13,4
1,8 1,1 0,8 1,8 1,1 0,8
-0,5 5,4 6,0 0,3 5,5 4,9
4,1 2,2 1,6 3,9 2,1 1,6
-0,3 -0,7 2,0 -0,6 -0,8 1,4
2,5 1,5 1,1 2,5 1,5 1,1
0,2 -6,1 -4,1 -0,9 -6,3 -3,5
4,7 2,7 2,0 4,6 2,6 1,9
Nombre d'observations 1 211 3 661 6 179 1 211 3 661 6 179
Avant 1992, diffrence -
50/+50
Aprs 1992, diffrence -
50/+50
Diffrence de diffrence
Sans contrles
Avant 1992, <50 ans
Avant 1992, >50 ans
Aprs 1992, <50 ans
Aprs 1992, >50 ans
Avec contrles
grandeur ni des param`etres, ni des ecarts-type. Cest cette imprecision qui motive le choix de
fenetres plus larges. Ceci conduit `a introduire des individus moins directement representatifs
de la comparaison eectuee mais permet dobtenir des ecarts-type plus reduits. Lelargissement
conduit au resultat attendu : les taux bruts ou nets estimes sont beaucoup plus precis
Les cinqui`emes et sixi`emes lignes presentent les dierences entre les taux de retour `a lemploi
des plus et des moins de 50 ans, avant et apr`es 1992. Avant 1992, le taux de retour `a lemploi
des moins de 50 ans est generalement plus eleve que celui des plus de 50 ans (dierence de 5,4
points pour la fenetre 46-53 ans). On constate que les ecarts-type sont beaucoup plus importants
que pour les estimations des taux eux-memes, ce qui provient du fait que (pour les taux bruts)
les estimateurs sont independants et que de ce fait la variance de leur dierence est la somme
des variances. Limprecision est tr`es sensible pour la fenetre etroite si bien que la dierence
entre les taux nest pas statistiquement signicative. Dans les echantillons plus larges (pour les
deux autres fenetres), on voit apparatre un ecart positif et signicatif entre les taux de retour
`a lemploi des plus et moins de 50 ans, avant 1992. Ce resultat nest pas totalement satisfaisant,
dans la mesure o` u le choix des fenetres dobservation etait motive par le fait que les deux
categories dindividus devaient etre tr`es proches. Les dierences de taux de retour `a lemploi
sinversent ou sattenuent apr`es 1992, et restent plus sensibles au choix de la fenetre.
La derni`ere ligne du tableau presente les resultats en dierence de dierence, cest-`a-dire
compare la fa con dont les ecarts de taux de retour `a lemploi des plus et des moins de 50 ans
ont evolue entre les periodes anterieures et posterieures `a 1992. La fenetre de 46-53 ans est
un bon compromis entre taille et comparabilite des echantillons. Selon cet estimateur, le taux
relatif de retour `a lemploi se serait degrade pour les moins de 50 ans de 6,1 points (6,3 points
apr`es controle des eets de structure). Cet eet est statistiquement dierent de 0, et il est dune
ampleur consequente. Il convient neanmoins de noter que leet napparat pas sur une petite
fenetre d age, peut-etre en raison dechantillons trop petits (les ecarts-type sont plus eleves), et
apparat attenue et `a la limite de la signicativite si on consid`ere la fenetre d ages elargie.
Chapitre 7
Le mod`ele lineaire sans lhypoth`ese
dhomoscedasticite
Nous avons considere jusqu`a present le mod`ele lineaire y
i
= x
i
b+u
i
en supposant que les ob-
servations sont Independantes et Identiquement Distribuees (IID). Sous cette hypoth`ese, nous
avons obtenu des resultats de convergence de distribution et doptimalite de lestimateur des
MCO. Nous avons vu egalement quil etait possible dassouplir cette hypoth`ese et de relacher
lhypoth`ese ID pour quelle ne porte que sur les moments dordre 1 et 2 de la loi des per-
turbations conditionnellement aux variables explicatives (Chapitre 5). Les hypoth`eses centrales
portaient dans ce cas sur lesperance des perturbations, E (u
i
[x) = 0 qui est une condition
didentication et sur leur matrice de variance-covariance, V (u
i
[x) =
2
et Cov (u
i
, u
j
[x) = 0
soit V (u[x) =
2
I cest `a dire une variance des perturbations conditionnelle aux variables
explicative independante des variables explicatives ainsi que labsence de correlation entre les
perturbations. Ces hypoth`eses sont appelees hypoth`eses dhomoscedasticite. Elles restent as-
sez restrictives puisquelles imposent que les residus de regression sont caracterises par une meme
variance et sont independants entre eux. Comme nous le verrons, beaucoup dapplications du
mod`ele lineaire sont susceptibles de ne pas respecter ces hypoth`eses. Ce chapitre etudie ces
situations, dites dheteroscedasticite.
7.1 Le mod`ele heteroscedastique
Formellement, on parle de mod`ele heteroscedastique lorsque lhypoth`ese H
2
: V (u[x) =

2
I nest pas veriee. La matrice de variance-covariance du residu de regression nest donc plus
une matrice diagonale dont les elements non-nuls sont egaux entre eux.
Denition 7.1 On appelle mod`ele lineaire heteroscedastique le mod`ele dans lequel un vecteur
de variables aleatoires y depend lineairement de K +1 variables explicatives x, y = xb +u, sous
les hypoth`eses :
H
H
1
: E (u[x) = 0 ;
H
H
2
: V (u[x) = = (x, ) inversible ;
H
H
3
: x

x inversible.
Le mod`ele heteroscedasticique decrit donc toute situation dans laquelle la matrice de va-
riance covariance du residu est dierente de
2
I. Il existe de nombreuses fa con de secarter de
71
72 Chapitre 7. Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
cette matrice : les elements diagonaux peuvent etre dierents entre eux, les elements hors dia-
gonale peuvent etre non nuls et dierents les uns des autres ou encore lies entre eux, etc. On
distingue en ourte lheteroscedasticite relative aux perturbations : V (u[x) = V (u) ,=
2
I de
lheteroscedasticite relative aux variables explicatives V (u[x) ,= V (u). Il y a en consequence
de tr`es nombreuses formes dheteroscedasticite, en fonction de la matrice de variance covariance
induite par le probl`eme auquel on sinteresse. Les exemples ci-dessous presentent un certain
nombre de cas types dheteroscedasticite.
7.1.1 Mod`ele `a coecients aleatoires
On sinteresse pour simplier `a un mod`ele ne comportant quune seule variable explicative :
dim(x
i
) = 1. Le mod`ele est dit `a coecents aleatoires si le param`etre qui guide la relation
entre x et y, b, nest pas considere comme un scalaire mais comme une variable aleatoire. Ce
sont alors les moments de la loi supposee pour b typiquement, moyenne et ecart-type qui
sont estimes plut ot que le param`etre lui-meme. Cette specication permet de prendre en compte
lheterogeneite de la relation au sein de la population. On peut alors interpreter la loi estimee
comme la distribution de b au sein de la population. Le mod`ele secrit dans ce cas :
y
i
= a +x
i
b
i
+v
i
b
i
= b +v
bi
On retient en general les hypoth`eses classiques pour chacun des deux termes derreur du mod`ele :
_

_
E (v
i
[X) = 0
E (v
i
v
j
[X) = 0 pour i ,= j
E
_
v
2
i
[X
_
=
2
v
_

_
E (v
bi
[X) = 0
E (v
bi
v
bj
[X) = 0 pour i ,= j
E
_
v
2
bi
[X
_
=
2
b
Pour simplier, on se limite egalement au cas o` u les termes derreur sont independants, soit :
E (v
bi
v
j
[X) = 0 i, j. En utilisant la forme particuli`ere de b, le mod`ele secrit :
y
i
= a +x
i
b
i
+v
i
= a +x
i
(b +v
bi
) +v
i
= a +x
i
b +x
i
v
bi
+v
i

y
i
= a +x
i
b +u
i
o` u u
i
= x
i
v
bi
+v
i
Le terme derreur du mod`ele reecrit de cette fa con poss`ede les proprietes suivantes :
E (u
i
[x) = E (x
i
v
bi
+v
i
[x)
= x
i
E (v
bi
[x) +E (v
i
[x)
= 0
E (u
i
u
j
[x) = E ((x
i
v
bi
+v
i
) (x
j
v
bj
+v
j
) [x)
= x
i
x
j
E (v
bi
v
bj
[x) +x
i
E (v
bi
v
j
[x) +x
j
E (v
i
v
bj
[x) +E (v
i
v
j
[x)
= 0 i ,= j
E
_
u
2
i
[x
_
= E
_
(x
i
v
bi
+v
i
)
2
[x
_
= E
__
x
2
i
v
2
bi
+ 2x
i
v
bi
v
i
+v
2
i
_
[x
_
= x
2
i

2
b
+
2
v
7.1. Le mod`ele heteroscedastique 73
La matrice de variance covariance resume ces proprietes :
V (u[x) = Diag
_

2
v
+x
2
i

2
b
_
,=
2
I
N
Dans le cas de ce mod`ele `a coecients aleatoires, la matrice est bien diagonale. Les elements
diagonaux sont en revanche des fonctions de x
i
, de sorte que la variance du terme derreur di`ere
dune observation `a lautre.
7.1.2 Series temporelles
On parle de mod`ele de series temporelles lorsque les observations proviennent de dierentes
dates successives t 1, ..., T (annees, semaines, jours, . . . ). Le mod`ele considere secrit donc :
y
t
= x
t
b+u
t
. En raison de cette liaison temporelle entre les observations, on observe frequemment
dans ce type de mod`ele une correlation entre les residus. On maintient en general lhypoth`ese
E (u
t
[X) = 0, mais le terme derreur est caracterise par une structure de correlation qui diere
de 0. La matrice de variance covariance est alors quelconque. On peut adopter une specication
plus contrainte, en supposant que la variance des residus est constante et que le coecient de
correlation entre deux periodes ne depend que de lecart entre ces deux periodes : Cov (u
t
, u
ts
) =

2
u

s
. Pour un echantillon de taille T, la matrice de variance covariance du terme derreur du
mod`ele secrit alors :
V (u[x) =
2
_
_
_
_
_
_
_
_
_
1
1

2

T

1
.
.
.
.
.
.
.
.
.
.
.
.

2
.
.
.
.
.
.

2
.
.
.
.
.
.
.
.
.
.
.
.

1

T

2
1
_
_
_
_
_
_
_
_
_
,=
2
I
T
Le nombre de param`etre de la matrice de variance tend vers linni lorsque la taille de lechantillon
augmente. Pour cette raison, on adopte en general des specications du terme derreur moins
generales, qui imposent une structure particuli`ere aux correlations. Il existe plusieurs fa cons de
modeliser cette correlation.
1
On peut dabord considerer que les erreurs sont distribuees suivant une moyenne mobile.
Le terme derreur de lequation lineaire dinteret secrit alors : u
t
=
t
+
t1
avec : E (
t
[X) = 0,
E (
t

t
[X) = 0 pour t ,= t

et E
_

2
t
[X
_
=
2

. Le terme derreur `a la date t subit donc linuence


de la realisation `a la periode precedente du bruit blanc . On a alors :
E
_
u
2
t
[X
_
= E (
t
+
t1
)
2
= E
_

2
t
+ 2
t

t1
+
2

2
t1
_
=
2

_
1 +
2
_
E (u
t
u
t1
[X) = E (
t
+
t1
) (
t1
+
t2
) =
2

E (u
t
u
t
[X) = 0 t

t t

> 1
1
Les processus utilises dans le cadre des mod`eles de series temporelles sont etudies de facon plus approfondie
dans le Chapitre 9.
74 Chapitre 7. Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
Pour un echantillon de taille T, la matrice de variance covariance secrit donc :
V (u[x) =
2

_
_
_
_
_
_
_
_
_
_
1 +
2
_
0 0

.
.
.
.
.
.
.
.
.
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.

0 0
_
1 +
2
_
_
_
_
_
_
_
_
_
_
,=
2
I
T
Le second mod`ele le plus frequemment utilise consiste `a supposer que les erreurs sont dis-
tribuees suivant un processus autoregressif. Le terme derreur `a la date t subit alors lin-
uence de sa propre realisation `a la periode precedente, u
t1
. Le mod`ele secrit dans ce cas :
u
t
= u
t1
+
t
et on suppose l` a encore E (
t
[X) = 0, E (
t

t
[X) = 0 pour t ,= t

et
E
_

2
t
[X
_
=
2

. De simples manipulations permettent de montrer que le terme derreur u peut


secrire comme une somme innie des realisations passees du bruit blanc : u
t
=

s=0

ts
. Un
calcul similaire au precedent premet alors dobtenir :
E (u
t
u
tk
[X) = E
__

s=0

ts
__

s=0

tks
__
= E
___

k1
s=0

ts
_
+
_

s=k

ts
_
_
_

s=0

tks
_
_
= E
_

k
_

s=k

ts
__

s=0

tks
__
=
2

k
__
1
2
_
Pour un echantillon de taille T, la matrice de variance covariance secrit donc :
V (u[x) =
2

__
1
2
_
_
_
_
_
_
_
_
_
_
1
2

T

.
.
.
.
.
.
.
.
.
.
.
.

2
.
.
.
.
.
.

2
.
.
.
.
.
.
.
.
.
.
.
.

T

2
1
_
_
_
_
_
_
_
_
_
,=
2
I
T
Contrairement au cas precedent, les mod`eles de serie temporelle maintiennent donc legalite
des termes de la diagonale, mais introduisent des correlations entre les periodes dobservation.
7.1.3 Mod`ele heteroscedastique en coupe
Un mod`ele est dit en coupe sil porte sur dierentes observations i 1, ..., N (pays, indivi-
dus, entreprises, . . . ) `a une meme date. Le mod`ele considere secrit alors : y
i
= a +x
i
b +u
i
. Ce
type de probl`eme est parfois caracterise par des variances dierentes dune observation `a lautre.
En toute generalite, on a alors : E (u
i
[x) = 0, E (u
i
u
j
[x) = 0 pour i ,= j et E
_
u
2
i
[x
_
=
2
i
. La
matrice de variance covariance du terme derreur de la regression est alors :
V (u[x) = Diag
_

2
i
_
,=
2
I
N
A mesure que le nombre dobservations (N) saccrot, le nombre de param`etres inconnus tend
donc vers linni. Une solution frequemment retenue consiste `a donner une forme particuli`ere `a
lheteroscedasticite. On suppose alors quil existe un nombre ni de param`etres, note , et une
fonction g (x
i
, ) tels que : E
_
u
2
i
[x
_
= g (x
i
, ). La matrice de variance covariance devient :
V (u[x) = Diag (g (x
i
, )) ,=
2
I
N
7.1. Le mod`ele heteroscedastique 75
Bien que la matrice reste diagonale, ce mod`ele di`ere donc du cas homoscedastique en raison
de variances dierentes dune observation `a lautre.
7.1.4 Donnees de panel
Les mod`eles de donnees de panel cumulent les dicultes des donnees en coupe et des
series temporelles. Ils portent en eet sur des donnees `a double indice, au sens o` u sont utilisees
des observations sur dierents individus, i = 1, . . . , N, observes pendant plusieurs periodes
succesives t = 1, . . . , T. Le nombre dindividus observes est en general grand ; le nombre de
periodes relativement faible. Le mod`ele secrit comme dhabitude :
y
it
= x
it
b +u
it
ou encore, en empilant les observations relatives `a un meme individu :
y
i
1T
= x
i
1T
b + u
i
1T
On retient en general les hypoth`eses qui assurent dune part que la condition didentication
soit satisfaite, E (u
i
[x) = 0, et, dautre part, que les observations relatives `a deux individus
dierents sont non correlees, E
_
u
i
u

j
[x
_
= 0 i ,= j. On nimpose pas, en revanche, lhypoth`ese
dabsence de correlation entre dierentes observations dun meme individu, E (u
i
u

i
[x) ,=
2
I
T
.
Le residu u
it
incorpore donc des elements inobserves permanents dans le temps.
Pour en tenir compte, le residu dun mod`ele de donnees de panel est frequemment modelise
suivant le mod`ele `a erreurs composees, qui secrit : u
it
=
i
+w
it
avec E (w
i
w

i
[x) =
2
W
I
T
,
E (
i
w

i
[x) = 0 et E
_

2
i
[x
_
=
2

. On determine facilement la matrice de variance


= V (u
i
[x) =
_
_
_
_
_
_

+
2
W

2

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2

+
2
W
_
_
_
_
_
_
ainsi que la matrice de variance covariance des residus empiles :
V (u[x) = I
N
,=
2
I
NT
Une transformation interessante du mod`ele consiste `a considerer les dierences premi`eres
y
it
= y
it
y
it1
, qui permet deliminer leet individuel. En notant :
y
i
=
_
_
_
_
_
_
y
iT
y
iT1
y
iT1
y
iT2
.
.
.
y
i2
y
i1
_
_
_
_
_
_
; x
i
=
_
_
_
_
_
_
x
iT
x
iT1
x
iT1
x
iT2
.
.
.
x
i2
x
i1
_
_
_
_
_
_
; u
i
=
_
_
_
_
_
_
u
iT
u
iT1
u
iT1
u
iT2
.
.
.
u
i2
u
i1
_
_
_
_
_
_
le mod`ele se reecrit : y
i
= x
i
b + u
i
et la matrice de variance des perturbations devient
alors :
= V (u
i
[x) =
2

_
_
_
_
_
_
2 1 0 0
1 2
.
.
.
0
0
.
.
.
.
.
.
1
0 0 1 2
_
_
_
_
_
_
76 Chapitre 7. Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
Bien quelle ne soit pas conforme au cas homoscedasctique (un certain nombre delements
hors-diagonale sont non nuls), cette matrice sen rapproche considerablement puisquelle est
connue `a une constante multiplicative pres,
2

.
7.1.5 Regressions empilees
Les mod`eles consideres jusqu`a present de comportent quune seule equation `a estimer. On
est pourtant parfois amene `a sinteresser `a un ensemble dequations, reliant dierentes variables
expliquees `a un meme ensemble de variables explicatives. Cest la cas, par exemple, si lon
sinteresse aux quantites echangees sur un marche : lore et la demande du bien considere sont
expliquees simultanement par une meme variable explicative, le prix.
2
On pourrait en toute
generalite vouloir estimer ces equations une par une. Ce serait possible mais cela peut ne pas
etre susant si lon souhaite, par exemple, examiner si certaines proprietes faisant intervenir des
coecients de dierentes equations sont satisfaites. Pour ce faire, on peut facilement generaliser
le cadre developpe jusqu`a present au cas dequations multiples. On parle alors de regressions
empliees.
Le mod`ele comporte dans ce cas M variables `a expliquer, indicees m = 1, . . . , M et K + 1
variables explicatives. Pour chaque observation i = 1, . . . , N et pour chaque variable dependante,
le mod`ele secrit : y
mi
= x
i
b
m
+u
mi
. Lensemble du mod`ele considere est alors :
_
_
_
y
1i
.
.
.
y
Mi
_
_
_
=
_
_
_
x
i
0
0
.
.
.
0
0 x
i
_
_
_
_
_
_
b
1
.
.
.
b
M
_
_
_
+
_
_
_
u
1i
.
.
.
u
Mi
_
_
_
y
i
M1
= Diag
_
x
i
_
MM
b
M1
+ u
i
M1
On retient les hypoth`eses suivantes : E (u
i
[x) = 0, Cov
_
u
i
u
j
[x
_
= 0 i ,= j et V (u
i
[x) = .
Les residus u
mi
nont pas necessairement la meme variance et peuvent en outre etre correles entre
eux. La matrice de variance covariance des residus empiles a alors pour expression :
E
_
uu

[x
_
= I
N
,=
2
I
NT
Tel quil est ecrit ce mod`ele nimpose pas de contraintes entre les param`etres des dierentes
equations. On pourrait neanmoins se trouver dans une situation dans laquelle les param`etres
de la regression sont fonction dun param`etre alternatif de dimension plus faible : b = Hc, avec
dimb > dimc et H une matrice. Le mod`ele secrit dans ce cas :
y
i
= Diag
_
x
i
_
Hc +u
i
= x
i
c +u
i
Comme le montre lensemble de ces exemples, il existe une grande diversite de mod`ele po-
sant un probl`eme dheteroscedasticite. A chacune de ces situations est associee une matrice de
variance-covariance particuli`ere, dont la forme decoule du probl`eme etudie. Les probl`emes poses
par cette situation et les methodes permettant de la resoudre ont cependant un certain nombre
2
Cet exemple est developpe plus en detail dans le Chapitre 11.
7.2. Estimation en presence dheteroscedasticite 77
de points commun, qui sont developpes dans ce chapitre. Le Chapitre 8 traitera ensuite des as-
pects speciques lies aux mod`eles dans lesquels la matrice de variance covariance est diagonale
mais o` u les elements de la diagonale ne sont pas egaux entre eux ; le Chapitre 9 traitera quant
`a lui des cas dautocorrelation, qui recouvre les situations dans lesquelles les elements hors
diagonale sont non nuls.
7.2 Estimation en presence dheteroscedasticite
Lheteroscedasticite conduit `a remettre en cause lune des hypoth`eses sous lesquelles les MCO
ont ete etudies. Les proprietes de lestimateur en sont donc modiees.
Proposition 7.1 Sous les hypoth`eses H
H
, lestimateur des MCO,

b
MCO
= (x

x)
1
x

y, est sans
biais : E
_

b
MCO
[x
_
= 0 et sa variance est : V
_

b
MCO
[x
_
= (x

x)
1
x

x(x

x)
1
.
Demonstration On sait que

b
MCO
= (x

x)
1
x

y = (x

x)
1
x

(xb +u) = b + (x

x)
1
x

u. On a donc :
E
_

b
MCO
|x
_
= b +E
_
(x

x)
1
x

u|x
_
= b + (x

x)
1
x

E (u|x) = b
V
_

b
MCO
|x
_
= V
_
(x

x)
1
x

u|x
_
= (x

x)
1
x

V (u|x) x(x

x)
1
= (x

x)
1
x

x(x

x)
1

Proposition 7.2 (Proprietes asymptotiques.) Sous les hypoth`eses H


H
, auxquelles sajoute :
H
H
4
: Les moments [x
ki
x
li
[ existent.
lestimateur des MCO est convergent et asymptotiquement normal :

N(

b
MCO
b)
L
^(0, V
as
(

b
MCO
)), avec : V
as
(

b
MCO
) = [E(x

i
x
i
)]
1
E(u
2
i
x

i
x
i
) [E(x

i
x
i
)]
1
.
Demonstration Dans lexpression de lestimateur,

b
MCO
= b+(x

i
x
i
)
1
x

i
u
i
, lexistence des moments |x
ki
x
li
| de
x
i
garantie la convergence de x

i
x
i
P
E (x

i
x
i
). La seule chose quil y ait `a montrer est donc la convergence de x

i
u
i
vers E (x

i
u
i
). Lexistence des moments dordre 1 et 2 de x

i
u
i
: E (x

i
u
i
) = 0 et V (x

i
u
i
) = E(u
2
i
x

i
x
i
) reunissent
les conditions dapplication de la loi des grands nombres. On a donc : x

i
u
i
P
E (x

i
u
i
) = 0 et par consequent :

b
MCO
P
b.
Pour demontrer la normalite asymptotique, la seule question est suspens est l`a encore celle de la convergence
de

Nx

i
u
i
. Lexistence des moments dordre 1 et 2 de x

i
u
i
permettent dappliquer le Theor`eme Central Limite qui
garanti que

Nx

i
u
i
L
N
_
0, E(u
2
i
x

i
x
i
)
_
. Par le theor`eme de Slutsky, on sait en outre que : (x

i
x
i
)
1
P
E(x

i
x
i
)
1
.
Il en resulte que :

N
_

b
MCO
b
_
=

Nx

i
x
i
1
x

i
u
i
L
N
_
0, E
_
x

i
x
i
_
1
E(u
2
i
x

i
x
i
)E
_
x

i
x
i
_
1
_

Lune des proprietes importantes des MCO, labsence de biais, reste donc valide en presence
dheteroscedasticite. La formule de la variance de lestimateur, en revanche, est considerablement
modiee. Lorsque les MCO sont appliques `a un mod`ele heteroscedastique, ce sont donc les
78 Chapitre 7. Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
ecarts-type des param`etres qui sont aectes. Dans le cadre du mod`ele lineaire, lexistence
dheteroscedasticite remet donc en cause le calcul de la precision des estimateurs et, correlati-
vement, la validite des dierents tests que lon peut mettre en uvre en transposant directement
les procedures issues de lhypoth`ese IID. Lestimateur des Moindres Carres Generalises permet
de remedier `a ce probl`eme.
7.2.1 La methode des Moindres Carres Generalises
Lestimateur des Moindres Carres Generalises (MCG) consiste `a prendre explicitement en
compte la forme particuli`ere de la matrice de variance-covariance du residu. Compte tenu des
proprietes doptimalite de lestimateur des MCO (Theor`eme de Gauss-Markov), la methode des
MCG consiste `a chercher une transformation du mod`ele telle que le mod`ele transforme respecte
lensemble des hypoth`eses de validite de lestimateur des MCO. Pour ce faire, on sappuie sur
une methode dite de sphericisation des observations.
3
La sphericisation repose sur une matrice
1/2
, associee `a la matrice de variance-covariance
du residu, , telle que :
1/2

1/2
= I. Loperation de sphericisation consiste alors `a pre-
multiplier le mod`ele par cette matrice :

1/2
y =
1/2
x b +
1/2
u
y = x b + u
Remarque 7.1 La decomposition de sphericisation nest pas unique. On peut par exemple
choisir
1/2
semi-denie positive ; mais on peut aussi la choisir de telle sorte quelle ait dautres
proprietes. Un choix qui peut etre utile est celui dans lequel la matrice est triangulaire inferieure.
Gr ace `a cette operation, le mod`ele transforme respecte alors toutes les conditions de validite
de lestimateur des MCO.
Proposition 7.3 Soit
1/2
une matrice telle que :
1/2

1/2
= I. Le mod`ele sphericise
par cette matrice : y = xb + u, o` u y =
1/2
y, x =
1/2
x et u =
1/2
u, est tel que :
H
H
1
: E ( u[ x) = 0 ;
H
H
2
: E ( u u

[ x) = I ;
H
H
3
: x

x est inversible.
Demonstration En sappuyant sur les proprietes de la matrice de sphericisation
1/2
, on a :
E ( u| x) = E
_

1/2
u

1/2
x
_
E ( u u

| x) = E
_

1/2
uu

1/2

1/2
x
_
=
1/2
E (u|x) = 0 =
1/2
E (uu

|X)
1/2
=
1/2

1/2
= I
et : x

x = x

1/2

1/2
x = x

1
x.
Sous ces hypoth`eses, on sait que lestimateur des MCO est lestimateur lineaire sans biais `a va-
riance minimale. Cest donc le meilleur estimateur lineaire des param`etres du mod`ele transforme.
Lestimateur des MCG du mod`ele non transforme (y = xb +u) est precisement lestimateur des
MCO des coecients de la regression de y sur les colonnes de x :

b
MCO
=
_
x

x
_
1
x

y =
_
x

1
x
_
1
x
1/2

1/2
y
=
_
x

1
x
_
1
x
1
y =

b
MCG
(7.1)
3
Voir lAnnexe, Section A.1.2, pour une presentation formelle de la sphericisation de matrices.
7.2. Estimation en presence dheteroscedasticite 79
Intuitivement, lestimateur des MCG apparat donc comme lestimateur des MCO dun
mod`ele transforme de telle fa con que toutes les hypoth`eses de validite des MCO soient res-
pectees. Formellement, on peut aussi comprendre lestimateur des MCG comme la solution du
programme de minimisation de la distance entre les observations et lespace engendre par les va-
riables explicatives, non plus dans la metrique canonique de R
N
, mais dans celle correspondant
`a
1
.
Denition 7.2 Lestimateur des MCG,

b
MCG
, est la solution du probl`eme : min
_
_
y xb
_
_
2

1
.
Proposition 7.4 Sous les hypoth`eses H
H
lestimateur des MCG existe, il est unique et est
donne par :

b
MCG
=
_
x

1
x
_
1
x

1
y.
Demonstration Les conditions du premier ordre du programmme de minimisation presente dans la Denition
7.2 secrivent :

_
_
_y x

b
_
_
_
2

1
b
= 2x

1
_
y x

b
_
= 0 x

1
x

b = x

1
y
La matrice hessienne de lobjectif a pour expression :
yx

b
2

1
bb

= 2x

1
x. Sous les hypoth`eses H
H
, la
matrice x

1
x est inversible, symetrique et positive. On a donc a = 0 R
K+1
, xa = 0 sans quoi la matrice
x

x ne serait pas inversible. Comme est inversible on a en outre (xa)

1
xa > 0. Do` u :
yx

b
2

1
bb

< 0. Les
conditions du premier ordre sont donc necessaires et susantes pour que la solution du programme soit bien un
minimum. Cette solution est egale `a :

b
MCG
= (x

1
x)
1
x

1
y dont lexistence est garantie par le fait que
x

1
x est inversible.
7.2.2 Proprietes de lestimateur des MCG
Proposition 7.5 Sous les hypoth`eses H
H
, lestimateur des MCG est sans biais :
E(

b
MCG
[x) = b.
Demonstration Par denition, on a

b
MCG
= (x

1
x)
1
x

1
y = (x

1
x)
1
x
1
(xb +u) et donc :

b
MCG
=
b + (x

1
x)
1
x
1
u. En utilisant cette expression, on a donc :
E
_

b
MCG
|x
_
= b +E
_
(x

1
x)
1
x
1
u|x
_
= b + (x

1
x)
1
x
1
uE (u|x) = b

Proposition 7.6 (Th. de Gauss Markov) Sous les hypoth`eses H


S
, lestimateur des MCG
est lestimateur lineaire sans biais de variance minimale, egale ` a : V(

b
MCG
[x) = (x

1
x)
1
.
Demonstration A partir de lexpression developpee de lestimateur des MCG,

b
MCG
= b + (x

1
x)
1
x
1
u,
on a :
V
_

b
MCG
|X
_
= V
_
(X

1
X)
1
X

1
U |X
_
= (X

1
X)
1
X

1
V (U |X)
1
X(X

1
X)
1
= (X

1
X)
1
X

1
X(X

1
X)
1
= (X

1
X)
1
Loptimalite provient quant `a elle directement du fait que nimporte quel estimateur lineaire sans biais du pa-
ram`etre est aussi un estimateur lineaire sans biais du param`etre dans le mod`ele sphericise. Or dans ce mod`ele
lestimateur des MCO est optimal et cet estimateur est celui des MCG :

b
MCG
=

b
MCO
et

b
MCO
est optimal.
80 Chapitre 7. Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
Les proprietes algebriques de lestimateur des MCO du cas homoscedastique se transposent
donc directement au cas des MCG. Cest tout linteret de loperation de sphericisation du mod`ele.
An de voir concretement comment trouver la matrice
1/2
, nous proposons ci-dessous un
certain nombre dexemples tires des applications presentes dans la Section 7.1.
7.2.3 Applications
(i) Sphericisation du mod`ele heteroscedastique en coupe.
On a vu que, lorsque la forme de lhetroscedasticite est connue (Section 7.1.3), la matrice
de variance des perturbations de ce mod`ele secrit : V (u[x) = Diag (g (x
i
, )). On verie di-
rectement que pour sphericiser le mod`ele on peut utiliser la matrice
1/2
= Diag
_
g (x
i
, )

1
2
_
.
(ii) Sphericisation du mod`ele `a perturbation AR(1).
Pour ce mod`ele, nous avons vu (Section 7.1.2) que la matrice de variance covariance est :
V (u[x) =

2

1
2
_
_
_
_
_
_
_
_
_
1
2

T

.
.
.
.
.
.
.
.
.
.
.
.

2
.
.
.
.
.
.

2
.
.
.
.
.
.
.
.
.
.
.
.

T

2

_
1 +
2
_
_
_
_
_
_
_
_
_
_
Une matrice de sphericisation associee `a cette matrice de variance covariance est :

1/2
=
_
_
_
_
_
_
_
_
_
_
_
_
_
1
2
0 0
1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 0
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Lestimateur des MCG peut alors etre calcule comme lestimateur des MCO du mod`ele :
_
_
_
_
_
_
y
1
_
1
2
y
2
y
1
.
.
.
y
T
y
T1
_
_
_
_
_
_
=
_
_
_
_
_
_
x
1
_
1
2
x
2
x
1
.
.
.
x
T
x
T1
_
_
_
_
_
_
b +
_
_
_
_
_
_
u
1
_
1
2
u
2
u
1
.
.
.
u
T
u
T1
_
_
_
_
_
_
(iii) Sphericisation du mod`ele `a erreurs composees.
Nous avons vu (Section 7.1.4) que pour un mod`ele de donnees de panel dans lequel les residus
sont modelises comme u
it
=
i
+
it
avec independance des
i
et des w
it
, la matrice de variance
7.2. Estimation en presence dheteroscedasticite 81
secrit
V (u
i
) =
_
_
_
_
_
_

+
2

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2

+
2

_
_
_
_
_
_
Les mod`eles de donnees de panel sont en general etudies en sappuyant sur deux operateurs
speciques : loperateur Between et loperateur Within.
4
Pour les denir, on note J
T
la matrice
T T dont tous les elements sont egaux `a 1, et e

T
= (1, . . . , 1) le vecteur ligne forme de T
colonnes de 1. Les deux objets sont lies par la relation : J
T
= e
T
e

T
.
Loperateur Between consiste `a multiplier la matrice dobservations par la matrice : B =
J
T
T
.
Lorsquil est applique aux observations, cet observateur produit la moyenne individuelle des
observations de lindividu i, notee z
i
= (z
i1
+ +z
iT
) /T. On a donc : Bz
i
= e
T
z
i
. Loperateur
Within, deni par la matrice W = I
T
B, produit le vecteur forme des ecarts `a la moyenne
individuelle Wz
i
= ((z
i1
z
i
) + + (z
iT
z
i
))

. Les matrices W et B sont symetriques et


semi-denies positives. Elles verient en outre les proprietes suivantes :
B
2
= B ; W
2
= W
BW = WB = 0
Par extension, on appelle estimateur Between (Within) lestimateur des MCO applique au
mod`ele transforme par la matrice B (W). Outre leur interet pour lestimation de mod`eles de
donnees de panel, ces operateurs permettent egalement de decomposer la matrice de variance
covariance des perturbations du mod`ele `a erreurs composees. On a en eet :
V (u
i
) =
2

J
T
+
2

I
T
=
_

+T
2

_
B +
2

W
Les matrices de la forme B + W sont stables par multiplication (B +W) (

B +

W) =

B +

W. On en deduit que :
V (u
i
)
1/2
=
1
_
(
2

+T
2

)
B +
1
_

W W +

(
2

+T
2

)
B = I +B
o` u =
_

/ (
2

+T
2

) 1. Par denition, cette matrice permet de sphericiser le mod`ele


an dappliquer la methode des MCG. En raison de la forme particuli`ere de cette matrice,
V (u
i
)
1/2
= I +B, loperation de sphericisation consiste ici `a ajouter aux observations (y
it
et
x
it
) le produit de et de la moyenne individuelle des observations (resp. y
i
et x
i
).
Si loperation de sphericisation qui denit lestimateur des MCG permet de retrouver les
proprietes doptimalite de lestimateur des MCO, cette operation peut etre dun interet pratique
limite : les param`etres de la matrice de sphericisation sont en general inconnus, ce qui interdit
la mise en pratique directe de la methode des MCG. Dans lillustration precedente, le param`etre
sur lequel repose la sphericisation depend ainsi de la variance des termes derreur du mod`ele,
qui sont inconnus. Lestimateur des Moindres Carres Quasi-Generalises permet de resoudre cette
diculte.
4
Voir Dormont (1989) pour une presentation detaillee des techniques propres aux mod`eles de donnees de panel.
82 Chapitre 7. Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
Application 7.1
Estimation MCQG du mod`ele `a erreurs composees
La matrice de sphericisation du mod`ele `a erreurs composees est : V (u
i
)
1/2
= I + B, o` u
=
_

/ (
2

+T
2

) 1. Le param`etre est inconnu. Il existe cependant plusieurs fa cons


dobtenir un estimateur de . La premi`ere consiste `a exploiter la forme de la matrice de variance
covariance des residus : la matrice de variance covariance des residus de lequation estimee par
les MCO constitue en eet un estimateur de cette matrice, qui permet de remonter aux variances
estimees des residus.
Une autre solution consiste `a exploiter les regressions annexes fournies par les estimateurs
Between et Within. La variance residuelle de lestimateur Between est
2
B
=
2

+
2

/T, celle
de lestimateur Within est
2
W
=
2

(T 1) /T. On a donc :

2
=

2

(
2

+T
2

)
=

2
W
T/ (T 1)

2
B
T
=

2
W
(T 1)
2
B
Les variances estimees des residus de chacun de ces mod`eles fournissent donc une estimation
de ,

, et lestimateur des MCQG peut alors mis en uvre `a partir de la matrice

V (u
i
)
1/2
=
I +

B.
7.3 Lestimateur des Moindres Carres Quasi-Generalises
La matrice de variance des perturbations est en general inconnue. Il en resulte que lestima-
teur des MCG et la matrice de variance des MCO ne sont pas calculables. Une fa con naturelle
de contourner cette diculte consiste `a un estimateur de cette matrice et `a remplacer dans
lexpression de lestimateur des MCG la matrice par son estimateur.
Denition 7.3 Soit

un estimateur de . On appelle estimateur des Moindres Carres
Quasi-Generalises lestimateur :

b
MCQG
= (x

1
x)
1
x

1
y.
Lestimateur des MCQG nest en general pas sans biais ni lineaire en y puisque

depend
de y. Les proprietes de

b
MCQG
ne peuvent donc etre quasymptotiques. On sinteresse donc `a la
convergence et `a la distribution asymptotique des estimateurs. Comme lont montre les exemples
presentes dans la Section 7.1, lheteroscedasticite recouvre une grande diversite de situations.
Lestimateur de la matrice de variance covariance utilise dans le cadre des MCQG varie donc
considerablement dune situation `a lautre. Les proprietes asymptotiques de lestimateur des
MCQG vont donc dependre du cas considere, et il faudra examiner les proprietes asymptotiques
au cas par cas, suivant la nature de lheteroscedasticite.
Les deux prochains chapitres sont consacres `a letude des proprietes de lestimateur des
MCQG pour les les trois grandes formes dheteroscedasticite que nous avons presente ici. Nous
nous interesserons ainsi aux cas o` u la matrice de variance des perturbations :
Chapitre 8 :
depend des variables explicatives (mod`ele ` a coecients aleatoires, mod`ele heteroscedasti-
que avec heteroscedasticite de forme connue). La matrice de variance covariance du
residu est alors de la forme : = I
N
h(x
i
, ).
Resume 83
depend de param`etres additionnels de dimension innie (mod`ele heteroscedastique pur
en coupe, series temporelles avec structure de correlation quelconque).
Chapitre 9 :
depend de param`etres additionnels de dimension nie. Lheteroscedasticite est alors
relative `a des correlations entre observations, mais qui sont susamment reguli`eres
(donnees de panel, regressions empilees, series temporelles). La matrice de variance
covariance du residu est alors de la forme : = I
N
() o` u est de dimension nie.
Resume
Le mod`ele y
i
= x
i
b +u
i
est dit heteroscedastique si V (u[x) ,=
2
I
N
.
Proprietes de lestimateur des MCO. Lestimateur des MCO du mod`ele heterosceda-
stique est sans biais ; sa variance est : V
_

b
MCO
[x
_
= (x

x)
1
x

x(x

x)
1
.
Estimateur des Moindres Carres Generalises. Il est denit comme lestimateur des
MCO du mod`ele sphericise (
1/2
y =
1/2
x b+
1/2
u), soit :

b
MCG
=
_
x

1
x
_
1
x

1
y.
Il partage donc les proprietes de lestimateur des MCO applique au mod`ele transforme.
En particulier, lestimateur des MCG est :
Sans biais : E
_

b
MCG
[x
_
= b ;
Lestimateur lineaire sans biais de variance minimale, egale `a : V(

b
MCG
[x) = (x

1
x)
1
.
Estimateur des Moindres Carres Quasi-Generalises. Soit

un estimateur de .
Lestimateur des MCQG est :

b
MCQG
=
_
x

1
x
_
1
x

1
y.
84 Chapitre 7.
Chapitre 8
Le modele heteroscedastique en
coupe
Ce chapitre est consacre `a lanalyse des mod`eles o` u lheteroscedasticite est liee aux variables
explicatives dun mod`ele de regression en coupe, y
i
= x
i
b+u
i
, sous hypoth`ese dheteroscedasticite.
On retient en particulier les hypoth`eses suivantes :
H
HP
2
: E (u
i
[x
i
) = 0 ;
H
HP
3
: V (x

i
u
i
) = E
_
u
2
i
x

i
x
i
_
existe ;
H
HP
4
: N x

i
x
i
et E(x

i
x
i
) sont inversibles.
Ce mod`ele se departit de lhypoth`ese dhomoscedasticite puisque lon impose plus lhy-
poth`ese H
3
: V (u
i
[x
i
) =
2
. Comme la montre le Chapitre 7, les hypoth`eses H
HP
garantissent
neanmoins lexistence de lestimateur des MCO ainsi que son absence de bais. Le calcul des
ecart-types est en revanche aecte. La presence dheteroscedasticite modie donc la variance
estimee de lestimateur. Nous avons vu egalement quil existe dautres estimateurs plus precis
que celui des MCO. Ce chapitre repondra en consequence `a deux questions distinctes :
1. Comment faire de linference robuste `a cette situation dheteroscedasticite ?
Cette question revient `a sinterroger sur lestimation de la matrice de variance de lestima-
teur des MCO. On peut y repondre sous des hypoth`eses generales en faisant un eort de
specication minimal du mod`ele, i.e. en laissant la variance des residus pour chaque obser-
vation etre specique `a lindividu : V (u
i
[x
i
) =
2
i
. Repondre `a cette question revient donc `a
traiter le mod`ele heteroscedastique pur.
2. Comment mettre en uvre lestimateur des MCQG?
Cette question porte donc sur la mise en oeuvre destimateurs plus ecaces que les MCO. Pour y
repondre, il est necessaire de specier la forme de la variance `a partir dun nombre de param`etre
restreint : V (u
i
[x
i
) = h(x
i
, ). Nous verrons que, dans ce cas, il est alors possible sous certaines
hypoth`eses de mettre en oeuvre des estimateurs asymptotiquement equivalents `a lestimateur
des MCG. Les resultats des estimations sont neanmoins faiblement aectes par la mise en uvre
de cette procedure et la specication de la variance ; linference (le resultat des tests) est quant `a
elle fortement liee `a ces hypoth`eses. Dans la mesure o` u ces estimations sont en general realisees
dans de grands echantillons, le gain decacite est parfois modeste par rapport aux risques lies
`a une mauvaise specication de la variance conditionnelle des residus. En consequence, la mise
85
86 Chapitre 8. Le modele heteroscedastique en coupe
en uvre de lestimateur des MCQG est dans ce cadre assez rare et la pratique se limite la
plupart du temps `a appliquer les MCO pour obtenir une estimation des param`etres, puis `a faire
de linference robuste `a la presence dheteroscedasticite.
8.1 Inference robuste `a lheteroscedasticite
Les resultats presentes ici sont vrais sous des hypoth`eses tr`es generales, autorisant par
exemple que les observations ne soient pas equidistribuees ou encore que les regresseurs ne
sont pas distribues suivant une meme loi (voir Remarque 8.1). Par souci de simplication, on
se situe neanmoins dans un cadre plus proche de celui des chapitres precedents qui retient des
hypoth`eses dhomogeneite plus fortes :
H
HP
1
: Les observations (y
i
, x
i
) RR
K+1
sont independantes et equidistribuees ;
H
HP
5
: Les moments [x
ki
x
li
[ existent ;
H
HP
6
: Pour tout indice des variables explicatives l
1
, . . . , l
4
les moments u
2
i
[x
l
1
i
x
l
2
i
[,
[u
i
[ [x
l
1
i
x
l
2
i
x
l
3
i
[ et [x
l
1
i
x
l
2
i
x
l
3
i
x
l
4
i
[ existent.
La situation etudiee ici est donc beaucoup plus generale que le cadre homoscedastique et
admet, par exemple, que V (u
i
[x
i
) = g (x
i
) avec g quelconque pourvu que E(g (x
i
) x

i
x
i
) existe,
ce qui est garanti d`es lors que V (u
i
x
i
) existe. Cette plus grande generalite est neanmoins payee
par une exigence plus forte sur la distribution des variables puisquil faut que les moments
des variables existent jusqu`a lordre 4 (Hypoth`ese H
HP
6
). Cette derni`ere hypoth`ese est utile
pour lestimation de la matrice de variance. Elle permet dobtenir la convergence en probabilite
des moments dordre 4. On voit quelle est exigeante et que, meme si elle est satisfaite, il sera
necessaire vraisemblablement quil y ait un grand nombre dobservations pour que la moyenne
empirique dun polyn ome de degre 4 des observations soit proche de sa valeur limite. Nimporte
quelle observation dans les queues de distributions aura en eet un impact important sur ces
moments qui ne sera resorbe que si le nombre dobservations est grand. Cest pourquoi la notion
de proprietes asymptotiques signie ici plus quailleurs que le nombre dobservations est grand.
8.1.1 Estimation robuste `a lheteroscedascticite
Proposition 8.1 Sous les hypoth`eses H
HP
, lestimateur

V
_

b
MCO
_
= (x

i
x
i
)
1
u
2
i
x

i
x
i
x

i
x
i
1
est :
1. Convergent :

V (

b
MCO
)
P
V (

b
MCO
) ;
2. Asymptotiquement normal :

N

V (

b
MCO
)
1/2
(

b
MCO
b)
L
^ (0, I).
Demonstration La demonstration de la convergence de lestimation de la matrice de variance repose sur la
preuve de ce que : u
2
i
x

i
x
i
P
E
_
u
2
i
x

i
x
i
_
. En utilisant lexpression du residu, on a :
u
2
i
x

i
x
i
=
_
x
i
_
b

b
MCO
_
+u
i
_
2
x

i
x
i
= u
2
i
x

i
x
i
+
_
x
i
_
b

b
MCO
__
2
x

i
x
i
+ 2
_
b

b
MCO
_
x

i
u
i
x

i
x
i
Pour que le premier terme converge en probabilite vers son esperance, il est necessaire que les elements qui le
composent (u
2
i
x
l
1
i
x
l
2
i
) satisfassent la loi de grands nombres. Cette propriete est garantie par lHypoth`ese H
HP
6
.
Le troisi`eme terme tend alors vers zero en probabilite puisque x

i
u
i
x

i
x
i
P
E (x

i
u
i
x

i
x
i
) = 0. Les elements qui
8.1. Inference robuste `a lheteroscedasticite 87
Application 8.1
Correction de White dans les mod`eles de donnees de panel
Les resultats presentes se generalisent sans modication au cas des donnees de panel (ou, de
fa con equivalente, au cas de regressions empilees). Le mod`ele considere est alors
y
i
M1
= x
i
MK+1
b
K+11
+ u
i
M1
Sous lanalogue des hypoth`eses H
HP
(condition didentication E (u
i
[x
i
) = 0, exis-
tence de E (x

i
u
i
u

i
x
i
) ainsi que des moments des x
i
), lestimateur

V (

b
MCO
) =
(x

i
x
i
)
1
x

i
u
i
u

i
x
i
x

i
x
i
1
est convergent :

V (

b
MCO
)
P
V (

b
MCO
) et asymptotiquement nor-
mal :

N

V (

b
MCO
)
1/2
(

b
MCO
b)
L
^ (0, I).
constituent le second terme sont de la forme (b
k


b
kMCO
)(b
l


b
lMCO
)x
li
x
ki
x
l
1
i
x
l
2
i
. Les moments dordre 4
existent (Hypoth`ese H
HP
5
), on a donc : x
li
x
ki
x
l
1
i
x
l
2
i
P
E (x
li
x
ki
x
l
1
i
x
l
2
i
). Par ailleurs, on a : b
kMCO
b
k
P
0.
Le second terme tend donc lui aussi vers zero.
Remarque 8.1 Les resultats peuvent ` a nouveau etre generalises au cas dans lequel on ne fait
plus lhypoth`ese dequidistribution des residus, qui inclut notamment le mod`ele heteroscedastique
pur, dans lequel : V (u
i
[x
i
) =
2
i
.
Demonstration Tous les resultats decoulent de lapplication du theor`eme central limite de Liapounov `a x

i
u
i
.
Il faut donc que la condition de Liapounov soit satisfaite. Si on consid`ere
2
N
=

N
n=1

2
n
/N et si on consid`ere

3
i
= E
_

u
3
i

|x
i
_
ainsi que
3
N
=

N
n=1

3
n
N, il sut que

3
N
(N
1
6
2
N
)
0, si par exemple les variables explicatives
sont IID. On sait qualors :
_

2
N
E (x

i
x
i
)
_
1
Nx

i
u
i
L
N (0, I).
Cet estimateur de la matrice de variance de lestimateur des MCO est connu sous le nom
de matrice de variance de White robuste `a lheteroscedasticite. Il est tr`es couramment
utilise et systematiquement propose dans les logiciels standards.
1
Cette correction consiste `a
modier lexpression de lestimateur de la matrice de variance covariance des MCO an de
tenir compte de la presence dheteroscedasticite. En lappliquant, lestimation de la precision de
lestimateur des MCO devient convergente, ce qui permet en particulier dutiliser les ecart-types
estimes pour realiser des tests de signicativite des param`etres. La correction de White permet
ainsi, plus generalement, de retrouver les resultats dinference, tels que les tests dhypoth`eses.
8.1.2 Test dhypoth`eses
On sinteresse au test de q contraintes lineaires sur les param`etres : H
0
: Rb = r contre
lhypoth`ese alternative H
1
: Rb ,= r. Rappelons quun test est deni par une statistique de test,
S, dont la loi sous H
0
, L, permet de denir une region critique W =
_

S > q (L(p) , 1 )
_
o` u q (L(p) , 1 ) est le quantile dordre 1 de la loi L.
1
Le logiciel SAS fait exception `a cette r`egle.
88 Chapitre 8. Le modele heteroscedastique en coupe
Proposition 8.2 Sous les hypoth`eses H
HP
:

N
_
R(x

i
x
i
)
1
u
2
i
x

i
x
i
x

i
x
i
1
R

_
1/2
_
R

b
MCO
r
_
L
^ (0, I
p
)
Un test de H
0
: Rb = r contre H
1
: Rb ,= r peut alors etre realise ` a partir de la region critique :
W =
_

S > q
_

2
(q) , 1
_
_
o` u :

S = N
_
R

b
MCO
r
_

_
R(x

i
x
i
)
1
u
2
i
x

i
x
i
x

i
x
i
1
R

_
1
_
R

b
MCO
r
_
L

2
(p)
Remarque 8.2 Ici encore, le principe du test se generalise au test dhypoth`eses non-lineaires
de la forme H
0
: g (b) = 0. La demonstration repose ` a nouveau sur la methode Delta. La statis-
tique de test est alors de la forme

S = Ng(

b)

_
g(

b)
b

V
as
(

b)
_
g(

b)
b

_
1
g(

b). La seule dierence


avec le cas homoscedastique est donc que la matrice de variance ` a prendre en compte est la
matrice de variance robuste.
Le principe du test de Fisher se generalise donc sans diculte au cas heteroscedastique.
Il consiste dans les deux cas `a evaluer si R

b
MCO
r est proche ou non de zero. Dans le cas
homoscedastique, il etait possible de reecrire la statistique `a partir des sommes des carres des
residus sous les hypoth`eses nulle et alternative. Cette simplication nest plus possible ici. En
pratique, il convient donc de verier la forme du test mise en uvre. La plupart des logiciels
proposent ainsi une fonction permettant dappliquer facilement le Test de Fisher, mais utilisent
pour ce faire la forme simpliee de la statistique. Lusage de cette fonction doit en consequence
etre reserve au cas homoscedastique.
8.1.3 Estimation sous contraintes lineaires
Soit Rb = r un ensemble de q contraintes lineaires sur les param`etres. Lestimateur des
moindres carres contraints est deni comme (Section 4.2) :

b
MCC
= (x

x)
1
x

y (x

x)
1
R

_
R(x

x)
1
R

1
_
R(x

x)
1
x

y r

La presence dheteroscedasticite dans le mod`ele ne modie pas lexpression de lestimateur,


qui peut egalement secrire comme une fonction de lestimateur des MCO :

b
MCC
=

b
MCO

(x

x)
1
R

[R(x

x)
1
R

]
1
[R

b
MCO
r]. Lestimateur des MCC partage donc de fa con naturelle
les proprietes presentees ci-dessus. En consequence, nous nous limitons ici `a une presentation des
resultats, dont les demonstrations sobtiennent en adaptant les preuves fournies dans le Chapitre
?? au cas heteroscedastique.
Rappelons que les proprietes de lestimateur des MCC se deduisent de :

b
MCC
b =
_
I

H
_
x

i
x
i
1
x

i
u
i
, o` u

H = x

i
x
i
1
R

_
Rx

i
x
i
1
R

_
1
R. A partir de cette expression, on peut
montrer que lestimateur des MCC reste convergent et asymptotiquement normal sous les hy-
poth`eses H
HP
(auxquelles sajoutent la validite des contraintes imposees) :

N(

b
MCC
b)
L

^
_
0, V
as
(

b
MCC
)
_
. Comme dans le cas des MCO, la variance asymptotique est quant `a elle
modiee par la presence dheteroscedasticite :
V
as
(

b
MCC
) = [I H] E(x

i
x
i
)
1
E(u
2
i
x

i
x
i
)E(x

i
x
i
)
1
_
I H

8.2. Test dheteroscedasticite de Breush-Pagan 89


o` u H = E(x

i
x
i
)
1
R

_
R E(x

i
x
i
)
1
R

1
R. Un estimateur convergent de cette matrice est
obtenu en appliquant la correction de White :

V
as
(

b
MCC
) =
_
I

H
_
(x

i
x
i
)
1
u
2
i
x

i
x
i
x

i
x
i
1
_
I

H
_
P
V
as
(

b
MCC
)
Cet estimateur est convergent et asymptotiquement normal,

V
as
(

b
MCC
)
1/2
_

b
MCC
b
_
L

^ (0, I).
Si la presence dheteroscedasticite aecte la precision de lestimateur des MCO, nous avons
vu au Chapitre 7 quil reste convergent et asymptotiquement normal. La correction de White tire
parti de cette propriete et redonne `a lutilisation des MCO sa validite gr ace `a la modication de la
matrice de variance estimee. Cette correction permet alors de retrouver les resultats dinference
(tests dhypoth`eses, estimation contrainte) obtenus sous lhypoth`ese dhomoscedasticite.
Il convient cependant de rappeler que lapplication de cette correction est tr`es exigente
quant aux hypoth`eses qui assurent la convergence de lestimation. Contrairement au mod`ele ho-
moscedastique, la convergence repose en eet sur celle des moments dordre 4 des variables expli-
catives. Les propreietes asymptotiques ne sont donc valides que dans de tr`es grands echantillons.
En labsence dheteroscedasticite, `a echantillon donne, les estimateurs des MCO convergent donc
beaucoup plus rapidement que ceux qui utilisent la correction de White. Cest pourquoi il est
preferable dappliquer la correction de White seulement dans les cas o` u les donnees sugg`erent la
presence eective dheteroscedasticite. Cest le role du Test de Breush-Pagan.
8.2 Test dheteroscedasticite de Breush-Pagan
Lune des consequences de la presence dheteroscedasticite est que E
_
u
2
i
x
i
x

i
_
,= E
_
u
2
i
_
E (x
i
x

i
). Un test naturel dhomoscedasticite consiste donc `a tester si legalite E
_
u
2
i
x
i
x

i
_
=
E
_
u
2
i
_
E (x
i
x

i
) est veriee dans les donnees. Cette egalite est veriee si et seulement si le vecteur
de residu est orthogonal `a x
i
x

i
. La mise en uvre de ce test peut donc utiliser la nullite globale du
vecteur des coecients de la projection orthogonale de u
2
i
sur lensemble des variables explicatives
x
li
x
mi
, l, m K + 1, `a lexception de la constante. On sinteresse donc au test de :
_
H
0
: E
_
u
2
i
x
i
x

i
_
= E
_
u
2
i
_
E (x
i
x

i
)
H
1
: E
_
u
2
i
x
i
x

i
_
,= E
_
u
2
i
_
E (x
i
x

i
)
Le test peut donc etre realise en testant la nullite jointe des coecients de la regression des
residus sur les termes : x
li
x
mi
, l, m K + 1.
2
Proposition 8.3 (Test de Breush-Pagan.) Dans le mod`ele de regression y
i
= x
i
b + u
i
sous les hypoth`eses H
HP
, le test de lhypoth`ese H
0
: E
_
u
2
i
x
li
x
mi
_
) = E
_
u
2
i
_
E (x
li
x
mi
) peut
2
Le test ne fait intervenir que la projection de u
2
i
et pas une modelisation particuli`ere de la forme de
lheteroscedasticite. Il ne sagit donc pas, en particulier, de tester lhypoth`ese nulle H
0
: E
_
u
2
i
|x
i
_
=
2
contre la presence dune heteroscedasticite liee aux variables explicatives de la forme : H
1
: E
_
u
2
i
|x
i
_
=

K+1
l=1

K+1
m=1
x
li
x
mi

lm
. Lutilisation de cette specication permet au contraire de tester toute forme
dheteroscedasticite, en exploitant les proprietes dorthogonalite liees `a la labsence dheteroscedasticite.
90 Chapitre 8. Le modele heteroscedastique en coupe
etre realise comme un test de nullite jointe de lensemble des coecients ` a lexception de la
constante dans le mod`ele de regression :
u
2
i
=
K+1

l=1
K+1

m=1
x
li
x
mi

lm
+v
i
(8.1)
sous les hypoth`eses de regularite : E (v
i
x
li
x
mi
) = 0 et E
_
v
2
i
x
li
x
mi
x
l

i
x
m

i
_
=
2
E (x
li
x
mi
x
l

i
x
m

i
).
Demonstration Nous montrons que, pour une variable z
1
de dimension 1 et une variable z
2
de dimension q, la
condition E (z
1
z
2
) = E (z
1
) E (z
2
) est analogue `a la nullite de la valeur limite de lensemble des coecients, sauf
la constante, de la projection orthogonale de z
1
sur (1, z
2
).
Pour ce faire, il faut remarquer que les coecients de z
2
sauf la constante sont obtenus directement comme
ceux de la regression centree, cest `a dire de la variable z
1
E (z
1
) sur z
2
E (z
2
). Lestimateur des MCO
de ces coecients a pour esperance E
_
__
z
2
E (z
2
)

[z
2
E (z
2
)]

1
_
E
_
(z
2
E (z
2
))

(z
1
E (z
1
))

= V
_
z
1
2
_
E
_
(z
2
E (z
2
))

(z
1
E (z
1
))
_
= V
_
z
1
2
_ _
E (z

2
z
1
) E (z
2
)

E (z
1
)
_
. Si cette expression est nulle (nullite des
coecients), on a donc bien : E (z

2
z
1
) = E (z
2
)

E (z
1
).
La realisation de ce test dheteroscedasticite requiert donc de connatre la loi asympto-
tique de lestimateur de . Cette loi pourrait etre derivee sous des conditions tr`es generales,
nimposant pas en particulier de restriction sur les moments dordre 2, qui sont de la forme
E
_
v
2
i
x
li
x
mi
x
l

i
x
m

i
_
. En pratique, le test est cependant le plus souvent realise sous lhypoth`ese
dhomoscedasticite des residus v
i
, cest `a dire en imposant que : E
_
v
2
i
x
li
x
mi
x
l

i
x
m

i
_
= E
_
v
2
i
_
E (x
li
x
mi
x
l

i
x
m

i
). Sous cette hypoth`ese, le mod`ele de regression (8.1) verie les hypoth`eses des
MCO et le test se reduit donc simplement `a un test de la nullite globale des coecients dans
une regression lineaire. Un dernier probl`eme pratique provient de ce que le vecteur de residus
nest pas observe. Le test est donc realise `a partir du vecteur des residus estimes.
Proposition 8.4 Le test de Breush-Pagan (Proposition 8.3) peut etre mis en oeuvre ` a partir
dun test de nullite jointe des coecients sauf la constante du mod`ele de regression :
u
2
i
=
K+1

l=1
K+1

m=1
x
li
x
mi

lm
+v
i
incluant (K + 1) (K + 2) /2 variables. Sous H
0
, la statistique NR
2
suit un
2
((K + 1) (K + 2) /2 1).
Un test dheteroscedasticite convergent au niveau est deni par la region critique
_
NR
2

NR
2
>
q
_

2
((K + 1) (K + 2) /2 1) , 1 ).
Demonstration Nous montrons que lestimateur des coecients dans le mod`ele portant sur u est asympto-
tiquement equivalent `a celui portant sur u. En notant z les elements du type x
li
x
mi
, il sut pour ce faire de
montrer que

N(z
i
u
2
i
z
i
u
2
i
)
P
0. On sait que u
i
= u
i
+x
i
(b

b) do` u lon deduit que z


i
u
2
i
= z
i
u
2
i
+2z
i
u
i
x
i
(b

b) + z
i
x
2
i
(b

b)
2
. Il en resulte que

N(z
i
u
2
i
z
i
u
2
i
) = 2z
i
u
i
x
i

N(b

b) + z
i
x
2
i

N(b

b)
2
. Sous les hypoth`eses
H
HP
, on sait que z
i
u
i
x
i
P
E (z
i
u
i
x
i
) = E (z
i
x
i
E (u
i
|x
i
)) = 0 et donc z
i
u
i
x
i
= o (1) et z
i
x
2
i
P
E
_
z
i
x
2
i
_
. On
sait en outre que

N(b

b)
L
N(0, V
as
), on a donc

N(b

b) = O(1) et z
i
x
2
i

N(b

b) = O(1). Comme
(b

b) = o(1), il vient que z


i
x
2
i

N(b

b)
2
= o(1). Enn, sachant que : z
i
u
i
x
i
= o(1) et

N(b

b) = O(1), on a
bien : z
i
u
i
x
i

N(b

b) = o(1).
En pratique, linteret de ce test dheteroscedasticite est dinformer sur les situations dans
lesquelles il est necessaire deectuer la correction de White. Si lhypoth`ese dhomoscedasticite est
acceptee, on pourra alors estimer la matrice de variance des estimateurs sous sa forme standard,
et eectuer les tests dhypoth`eses lineaires (Test de Fisher) `a partir des sommes des carres des
residus, ce qui presente un interet pratique certain. Dans le cas contraire, il convient dutiliser
la matrice robuste de White et les tests doivent etre adaptes au cadre heteroscedastique.
8.2. Test dheteroscedasticite de Breush-Pagan 91
Application 8.2
Test de Breush-Pagan dheteroscedasticite lineaire dans les explicatives
lSi lon suspecte la presence dune heteroscedasticite lineaire dans un sous-ensemble des variables
explicatives, z, le test prend la forme :
_
H
0
: E
_
u
2
i
[x
i
_
=
2
H
1
: E
_
u
2
i
[x
i
_
=
2
+z
Le test de cette forme particuli`ere dheteroscedasticite peut etre mis en uvre comme un test
de nullite jointe de tous les param`etres `a lexception de la constante exceptee la constante dans
la regression :
u
2
i
= a
0
+z +v
i
incluant K
Z
variables (vecteur z). Sous H
0
, la statistique NR
2
suit un

2
(K
Z
). Un test convergent au niveau est donc deni par la region critique
_
NR
2

NR
2
> q
_

2
(K
Z
) , 1
__
.
Remarque 8.3 Sil existe de tr`es nombreux tests dheteroscedasticite, le test de Breush-Pagan
reste de tr`es loin le plus utile et le plus utilise en pratique. Un autre test assez populaire est
le Test de Goldfeld-Quandt, qui repose sur une partition des observations, classees par ordre
croissant de la variable explicative supposee causer lheteroscedasticite. Ce test est cependant de
moins ne moins utilise. Sa capacite ` a tester reellement labsence dheteroscedasticite est en outre
douteuse. Plut ot quune homoscedasticite pure, lhypoth`ese nulle du test est en eet labsence
de correlation entre le variable explicative et la variance des residus.
Tel que presente dans les Propositions 8.3 et 8.4, le test de Beush-Pagan permet de statuer sur
la presence dheteroscedasticite, remettant en cause les hypoth`ees des MCO, independamment
dune forme particuli`ere `a lorigine de cette propriete. Le test setend cependant facilement au
cas dans lequel on specie un mod`ele pour lheteroscedasticite. On pourrait ainsi supposer une
forme dheteroscedasticite particuli`ere, telle que E
_
u
2
i
[x
i
_
=
2
+

x
li
x
mi

lm
, l, m K + 1
ou, plus generalement, E
_
u
2
i
[x
i
_
=

d<D
P
d
(x)
d
o` u P
d
designe un ensemble de fonction. Tester
la presence dune heteroscedasticite de cette forme reviendrait alors `a tester la nullite jointe des
param`etres dans le mod`ele : u
2
i
=

d<D
P
d
(x)
d
.
Lorsquil est applique `a une specication particuli`ere dheteroscedasticite, le sens du test est
neanmoins dierent. Ce type de test porte en eet sur un parametrage de lheteroscedasticite,
tandis que le premier test ne porte que sur labsence de covariance entre le carre du residu et
les polyn omes dordre 2 des variables explicatives, dont le rejet sugg`ere la presence de toute
forme dheteroscedasticite. Comme nous lavons vu, la connaisance de la forme particuli`ere
dheteroscedasticite qui aecte les donnees nest pas necessaire pour apliquer la correction de
White. Postuler une forme particuli`ere dheteroscedasticite est en revanche utile pour pour
mettre en uvre lestimateur des MCQG.
92 Chapitre 8. Le modele heteroscedastique en coupe
8.3 Lestimateur des MCQG
Lapplication de lestimateur des MCG necessite de connatre la forme de la matrice de
variance-covariance des residus. Pour ce faire, il convient donc de specier les moments dordre
1 (mod`ele lineaire) et 2 (matrice de variance-covariance) de la variable endog`ene conditionnel-
lement aux variables explicatives. On sinteresse alors ` a un mod`ele dans lequel :
E (y
i
[x
i
) = x
i
b
V (y
i
[x
i
) = h(, x
i
) > 0
o` u h est une fonction connue, mais un param`etre inconnu.
On sait que, dans ce cas, lestimateur des MCG est lestimateur lineaire sans biais le plus ef-
cace du param`etre b (Chapitre 7). Cet estimateur pourrait etre obtenu en appliquant les MCO
au mod`ele sphericise, cest `a dire apr`es avoir diviser les variables explicatives et la variable
dependante par
_
h(x
i
, ). Comme nous lavons vu, il nest pas possible de mettre en uvre
cette methode directement car le param`etre est inconnu. La methode des MCQG consiste alors
`a substituer `a ce param`etre inconnu un estimateur convergent

et de mettre en uvre lesti-
mation en divisant les variables par
_
h(x
i
,

). Le mod`ele est donc etudie sous les hypoth`eses


suivantes :
H

HP
2
: V (u
i
[x
i
) = h(, x
i
), o` u h(.) est une fonction mesurable et derivable ;
H

HP
6
: Il existe

=
0
+O
_
1/

N
_
o` u
0
est la vraie valeur du param`etre.
Denition 8.1 Dans le mod`ele heteroscedastique denit par les Hypoth`eses H

HP
, lestimateur
des MCQG est :

b
MCQG
=
_
_
x

i
x
i
h
_
x
i
,

_
_
_
1_
_
x

i
y
i
h
_
x
i
,

_
_
_
(8.2)
En raison de cette substitution du param`etre , les proprietes de lestimateur des MCQG
dependent des proprietes de lestimateur

. Cest pourquoi nous navons jusqualors pu obtenir
aucun resultat general sur les proprietes asymptotiques de lestimateur des MCQG. Pour la
forme particuli`ere de matrice de variance-covariance retenue dans cette section, il sagit donc ici
detudier les conditions sous lesquelles lestimateur obtenu est asymptotiquement equivalent `a
lestimateur des MCG et sera donc lestimateur de variance minimale. La demonstration de ce
resultat repose sur une hypoth`ese supplementaire.
H

HP
7
: Il existe une fonction d (x
i
) telle que E (d (x
i
)) < et :
Max
_
[x

li
u
i
[

h
1
(, x
i
)

, [x

li
u
i
[ h
1
(, x
i
) ,

l
1
i
x
l
2
i

h
1
(, x
i
)
_
< d (x
i
).
Cette hypoth`ese garantie la convergence uniforme en des moyennes empiriques de fonctions
de vers leur esperance : h
1
(, x
i
) x

i
x
i
P
E(h
1
(, x
i
) x

i
x
i
), h
1
(, x
i
) x

i
u
i
P
E(h
1
(, x
i
) x

i
u
i
)
et h
1
(, x
i
) x

i
u
i
P
E(h
1
(, x
i
) x

i
u
i
). Sous ces conditions, lestimateur des MCQG fonde
sur

est asymptotiquement equivalent `a lestimateur des MCG.
8.3. Lestimateur des MCQG 93
Application 8.3
Estimation des MCQG dans le mod`ele en coupe
On consid`ere le mod`ele en coupe y
i
= x
i
b + u
i
, sous hypoth`ese dheteroscedasticite. Lappli-
cation de la methode des MCQG necessite de connatre la matrice de variance-covariance.
Il faut donc specier la forme de lheterogeneite. Quelle que soit la specication consideree,
la premi`ere etape de lestimation des MCQG consiste `a estimer le param`etre inconnu, ,
intervenant dans la matrice de variance covariance. Il en general obtenu en regressant le residu
estime de lequation dinteret sur les variables explicatives :
1 Calcul de

b
MCO
et des residus estimes : u
i
= y
i
x
i

b
MCO
.
Lestimation de depend quant `a elle de la forme dheteroscedascticite consideree. Le
premier cas considere ici est celui dune heteroscedasticite lineaire dans k K + 1 variables
explicatives : E (u
i
[x
i
) =

k
l=1

k
m=1
x
li
x
mi

lm
. Lestimation de en decoule :
2 Regression de u
2
i
sur les variables x
li
x
mi
: u
2
i
=

k
l=1

k
m=1
x
li
x
mi

lm
+w
i
;
3 Construction dun estimateur de
i
par
i
=
_

k
l=1

k
m=1
x
li
x
mi

lm
.
La Proposition 8.3 a isole les conditions sous lesquelles lestimateur converge vers la vraie
valeur du param`etre. Cette specication a neanmoins linconvenient de ne pas imposer la
positivite de u
2
i
. Bien quelle soit naturelle, on lui pref`ere souvent pour cette raison dautres
traitement de lheteroscedasticite. Une forme privilegiee permettant de regler cette diculte est
la forme exponentielle : u
i
= v
i
exp(

k
l=1

k
m=1
x
li
x
mi

lm
). On suppose que v
i
est independant
de x
i
et que : E (v
i
) = 0, V (v
i
) = 1. On a donc E
_
u
2
i
[x
i
_
= exp(2

k
l=1

m=1
x
li
x
mi

lm
).
Avec cette forme, lestimation du param`etre est realisee `a partir du logarithme des residus
estimes. On a en eet E
_
ln
_
u
2
i
_
[x
i
_
= E (2 ln ([v
i
[) [x
i
) + 2

k
l=1

k
m=1
x
li
x
mi

lm
. Les
coecients
l,m
`a lexception de la constante sont donc estimes de fa con convergente `a
partir dune regression de ln
_
u
2
i
_
.
2

Regression de ln
_
u
2
i
_
sur les variables z
i
: ln
_
u
2
i
_
= x
li
x
mi

lm
+w
i
;
3

Construction dun estimateur de


i
par
i
= exp z

i
;
Les etapes 1 `a 3 fournissent une estimation convergente de la matrice de variance covariance.
La mise en uvre des MCQG correspond alors `a lapplication des MCO au mod`ele
sphericise :
4 Calcul des donnees sphericisees : y
i
= y
i
/
i
, x
i
= x
i
/
i
;
5 Calcul de lestimateur des MCO sur les donnees transformees.
94 Chapitre 8. Le modele heteroscedastique en coupe
Proposition 8.5 Sous les hypoth`eses H

HP
, lestimateur des MCQG (8.2) est :
1. Convergent :

b
MCQG
P
b ;
2. Asymptotiquement Normal :

N(

b
MCQG
b)
L
^(0, V
as
(

b
MCQG
)) ;
3. Asymptotiquement equivalent ` a lestimateur des MCG : V
as
(

b
MCQG
) =
_
E(
x

i
x
i
h(x
i
,
0
)
)
_
1
=
V(

b
MCG
).
Demonstration Soit

h
i
= h(

, x
i
). Lestimateur des MCQG peut encore secrire :

b
MCQG
= b +
_

h
1
i
x

i
x
i
_
1

h
1
i
x

i
u
i
. On sait que : h
1
(x
i
,

)x

i
z
i
P
E
_
h
1
(x
i
,
0
) x

i
z
i
_
puisque
P

0
. Par lhypoth`ese H

HP
7
, qui ga-
rantit la convergence uniforme, on a donc :

h
1
i
x

i
z
i
P
E
_
h
1
i
x

i
z
i
_
. La convergence en decoule puisque
E
_
h
1
(x
i
,
0
) x

i
u
i
_
= 0.
Pour obtenir la normalite asymptotique de lestimateur, le seul point `a montrer est que

N

h
1
i
x

i
u
i
L

N
_
0, E(
x

i
x
i
h(x
i
,
0
)
)
_
. On a :

N

h
1
i
x

i
u
i
=

N
_

h
1
i
h
1
(x
i
,
0
)
_
x

i
u
i
+

N h
1
(x
i
,
0
) x

i
u
i
. Le deuxi`eme
terme converge en loi puisque les moments dordre 1 et 2 de h
1
(x
i
,
0
) x

i
u
i
existent (le moment dordre
2 est : V
_
h
1
(x
i
,
0
) x

i
u
i
_
= E(
x

i
x
i
h(x
i
,
0
)
)). En appliquant le theor`eme de la valeur moyenne, on a :

h
1
i

h
1
(x
i
,
0
) = h
1
_

, x
i
_ _


_
, avec

<

. On peut donc ecrire

N
_

h
1
i
h
1
(x
i
,
0
)
_
x

i
u
i
=
x

i
u
i
h
1
_

, x
i
_

N
_


_
, o` u

N
_


_
est borne en probabilite. Enn, par lhypoth`ese H

HP
7
, on a
x

i
u
i
h
1
_

, x
i
_
P
E
_
x

i
u
i
h
1
_

0
, x
i
__
= 0.
On peut en outre trouver un estimateur convergent de la matrice de variance covariance de
lestimateur.
Proposition 8.6 Sous les hypoth`eses H

HP
, lestimateur de la variance asymptotique,

V
as
_

b
MCQG
_
=
x

i
x
i
h(x
i
,
0
)
1
, est :
1. Convergent :

V
as
(

b
MCQG
)
P
V
as
(

b
MCQG
) ;
2. Asymptotiquement normal :

V
as
(

b
MCQG
)
1/2
(

b
MCQG
b)
L
^(0, I).
Demonstration Ces resultats sont demontres de la meme facon que dans la proposition precedente.
D`es lors que lon dispose dun estimateur convergent des param`etres intervenant dans la
matrice de variance covariance du residu, la methode des MCQG fournit donc un estimateur
plus precis que la methode des MCO quand bien meme la variance de lestimateur est-elle
ajustee par la correction de White. Cette demarche est neanmoins rarement mise en uvre.
Le choix de la methode de traitement de lheteroscedasticite concerne non pas la robustesse
de lestimateur du param`etre b mais la robustesse et la convergence de lestimateur de la variance
de ce param`etre. Les resultats de linference lorsquon specie les deux moments (methode des
MCQG) sont en outre necessairement plus fragiles que lorsquon nen specie quun seul (cor-
rection de White). On a donc tendance, en pratique, `a privilegier la robustesse des estimations
comme, dailleurs, incitent `a le faire les tailles importantes dechantillon dont on dispose en
general.
8.4. Illustration : Estimation dune equation de salaire 95
Fig.8.1 Estimateur des mco avec ecart-types robustes et standards
bmco s(bmco) sw(bmco) sw(bmco)/s(bmco)
Cste 4.11090 (0.02932) (0.03587) 1.224
scolarit 0.06346 (0.00182) (0.00218) 1.196
exprience 0.02568 (0.00078) (0.00089) 1.144
exprience -0.00052 (0.00004) (0.00004) 1.049
homme 0.15131 (0.00829) (0.00832) 1.004
8.4 Illustration : Estimation dune equation de salaire
On illustre les resultats de ce chapitre en estimant une equation de salaire. Le niveau
deducation est mesure par le nombre dannee de scolarite, et lexperience en nombre dannees
ecoulees depuis la n des etudes. La specication retenue est quadratique :
w
i
=
0
+
s
sco
i
+
e
exp
i
+
e
(exp
i
10)
2
+
h
homme +u
i
Le coecient
s
correspond donc `a laccroissement de salaire oert par une augmenta-
tion dune unite du niveau deducation, appele rendement de leducation. Le param`etre

s
represente donc le rendement de leducation au bout de 12 annees detude. De meme, on
a :
w
i
sco
i
=
e
+ 2
e
(exp
i
20) cette quantite mesure donc le rendement de lexperience. Le
coecient
e
sinterpr`ete donc comme le rendement de lexperience `a 20 ans, et le coecients

e
re`ete quant `a lui la nature croissante ou non des rendements de lexperience.
Lequation est dabord estimee par les mco. On calcule pour cette estimation les ecarts-
type de deux fa cons : dabord avec la formule standard des mco

V
as
(1) =
2
x

i
x
i
1
et

V
b
(1) =

V
as
(1) /N puis avec la formule robuste de White

V
as
(2) = x

i
x
i
1
u
2
i
x

i
x
i
x

i
x
i
1
et

V
b
(2) =

V
as
/N.
Les resultats sont presentes dans le tableau 8.1
La premi`ere colonne donne la valeur estimee du param`etre. La deuxi`eme lecart-type es-
time par la formule ignorant lheteroscedasticite, la troisi`eme colonne donne lecart-type ro-
buste calcule avec la matrice de White. Enn la derni`ere colonne donne le ratio entre les deux
ecarts-type. Les resultats sont obtenus sur un echantillon de 6975 salaries dans le commerce en
2002. Les resultats montrent que le rendement de leducation est 6.3%. Une annee deducation
supplementaire conduit donc `a un accroissement du salaire de 6.2%. On observe que le rende-
ment de lexperience est decroissant avec lage. Il est de 2.6% pour une annee supplementaire
`a 10 ans danciennete et de 2.0% `a 20 ans. Enn on voit que les hommes sont payes 15% plus
que les femmes. Linteret principal de ce tableau reside neanmoins dans les ecarts-type estimes.
On voit quen general les ecarts-type tenant compte de lheteroscedasticite sont plus eleves et
quen terme relatif les dierences sont elevees. Ainsi pour le coecient de la scolarite lerreur
est de 20%. On voit neanmoins que dans labsolu les ecarts-type ne sont pas fondamentalement
dierents. Ainsi pour la scolarite lintervalle de conance `a 95% calcule avec le premier ecart-type
est de [5.98 , 6.71] alors quavec le second il est de [5.91 , 6.78] .
Malgre cette faible dierence, on peut faire un test dheteroscedasticite. Pour cela on regresse
le residu au carre sur les variables explicatives leurs carres et leurs produits croises : cest `a dire
sur les treize variables explicatives x
i
= 1, sco
i
, exp
i
, exp
2
i
, Homme, sco
2
i
, sco
i
exp
i
, sco
i
exp
2
i
,
sco
i
Homme, exp
3
i
, exp
i
Homme, exp
2
i
Homme. On parvient au resultats reportes dans le tableau
8.2 pour cette regression.
96 Chapitre 8. Le modele heteroscedastique en coupe
Fig.8.2 R egression du carr e du r esidu sur les variables et leurs produits crois es
parametre cart-type student
Cste 0.8783 (0.1262) 6.96
scolarit -0.1024 (0.0158) -6.50
exprience -0.0352 (0.0044) -8.04
exprience 0.0028 (0.0003) 8.21
homme -0.0101 (0.0524) -0.19
scolarit 0.0028 (0.0005) 5.45
scolarit x exprience 0.0030 (0.0003) 10.03
scolarit x exprience -0.0001 (0.0000) -5.95
scolarit x homme 0.0029 (0.0033) 0.88
exprience3 -0.0001 (0.0000) -5.50
exprience x homme -0.0018 (0.0014) -1.29
exprience4 0.0000 (0.0000) 4.00
exprience x homme 0.0001 (0.0001) 1.24
R F
0.0287605 187.51859
Le tableau donne le param`etre estime ainsi que son ecart-type. On voit que de nombreux coef-
cients sont signicatifs : la scolarite, lexperience, lexperience au carre.... Le test dheteroscedasticite
consiste `a faire un test de nullite globale mis `a part la constante. Ce test peut se faire `a partir du
R
2
de la regression en examinant la statistique F = NR
2
. La statistique suit est un
2
(12) . Bien
que le R
2
soit tr`es faible, la statistique est tr`es elevee et exc`ede tr`es largement la valeur seuil dun
test `a 5% : 21.03. On rejette donc lhypoth`ese de nullite globale. Lhypoth`ese dhomoscedasticite
est ainsi tr`es fortement rejetee.
Si on specie la forme de lheteroscedasticite, on peut mettre en oeuvre lestimateur des
mCQG. On specie comme cela est fait en general cette heterogeneite sous la forme dune
exponentielle. On specie alors la perturbation comme
u
i
= v
i
exp ( x
i
)
o` u x
i
represente lensemble des variables explicatives, de leurs carres et de leurs produits croises.
On fait lhypoth`ese
v
i
x
i
Sous cette hypoth`ese
ln
_
u
2
i
_
= x
i
+ ln
_
v
2
i
_
Le param`etre est estime `a la constante pr`es `a partir de la regression
E
_
ln
_
u
2
i
_
[x
i
_
= x
i

puisque E
_
ln
_
v
2
i
_
[x
i
_
= E
_
ln
_
v
2
i
_
[x
i
_
. Les resultats auxquels on parvient sont reportes dans
le tableau 8.3.
On voit que l` a aussi de nombreux param`etres sont signicatifs, et on pourrait comme
precedemment faire un test dheteroscedasticite correspondant au test de la nullite globale des
param`etres, `a partir du R
2
de la regression. On parviendrait `a la statistique de 255.30, plus elevee
que la precedente mais conduisant `a la meme conclusion que lon rejette fortement lhypoth`ese
dhomoscedasticite. Toutefois linteret de cette regression est de recuperer la valeur predite et
den deduire une estimation de la variance conditionnelle. A partir de ces estimations on peut
en eet calculer
2
(x
i
) = exp
_
x
i

_
, et on sphericise les donnees en divisant le mod`ele par
8.4. Illustration : Estimation dune equation de salaire 97
Fig.8.3 R egression du logarithme du carr e du r esidu sur les variables et leurs produits crois es
parametre cart-type
Cste -0.1030 (0.9749)
scolarit -0.5734 (0.1216)
exprience -0.2728 (0.0338)
exprience 0.0220 (0.0026)
homme 0.0779 (0.4043)
scolarit 0.0170 (0.0039)
scolarit x exprience 0.0235 (0.0023)
scolarit x exprience -0.0008 (0.0001)
scolarit x homme 0.0018 (0.0256)
exprience3 -0.0004 (0.0001)
exprience x homme -0.0007 (0.0109)
exprience4 0.0000 (0.0000)
exprience x homme 0.0000 (0.0005)
257.72443 12
Fig.8.4 Estimateur des MCQG
bmcqg s(bmcqg) sw(bmcqg) s(bmcqg)/sw(bmco) sw(bmcqg)/sbmcqg)
Cste 4.26942 (0.03118) (0.03152) 0.869 1.011
scolarit 0.05496 (0.00194) (0.00197) 0.892 1.015
exprience 0.02275 (0.00080) (0.00079) 0.899 0.988
exprience -0.00046 (0.00003) (0.00004) 0.904 1.044
homme 0.14501 (0.00769) (0.00781) 0.924 1.015
exp
_
x
i

/2
_
. On consid`ere ainsi y
isph
= y
i
/ (x
i
) et x
isph
= x
i
/ (x
i
) , y compris la constante.
Pour trouver lestimateur des mCQG, on proc`ede alors `a la regression par les mco. Bien sur il
est l` a aussi possible de calculer un estimateur robuste de la matrice de variance du param`etre
exactement comme on le fait en labsence de correction dheteroscedasticite. Normalement les
ecarts-type doivent etre tr`es proches, si la correction `a retire toute lheteroscedasticite du mod`ele.
On parvient aux resultats reportes dans le tableau 8.4.
On voit que les resultats sont un peu changes. On remarque en particulier une baisse du
rendement de leducation qui passe de 6.3% `a 5,5%. Cette dierence faible est inquietante car l` a
encore les deux param`etres devraient etre tr`es proches et l` a il di`erent plus que ce quimplique
lordre de grandeurs de la precision des estimations. Ceci nest donc pas une bonne nouvelle
en ce qui concerne la convergence des estimateurs. On voit neanmoins que les ecarts-type sont
modies. On verie bien la propriete des mCQG que les ecarts-type correspondants sont plus
petits que ceux des mco : le gain est ici de lordre de 10%. Toutefois compte tenu de la taille
de lechantillon, cela ne represente quun gain modeste en terme de largeur de lintervalle de
conance. Les changements ne sont pas bouleversants. On observe par ailleurs une plus grande
similitude entre les ecarts-type du mod`ele sphericise robuste et directement obtenus que dans le
cas precedent.
En conclusion de cet exemple, lheteroscedasticite est bien presente ici, mais les dierentes
fa cons de la prendre en compte soit dans le calcul des ecarts-type, soit par la mise en oeuvre des
MCQG, ne conduisent pas `a des modications considerables dans la precision des estimateurs
et leur estimation. L` a encore on se rend compte que la vraie question est plus lexistence de
biais dans les estimations que celle de la possibilite de gains importants dans la precision des
98 Chapitre 8.
estimateurs. On verra par la suite que lorsque lon aborde cette question, les estimateurs que
lon pourra mettre en oeuvre vont devenir beaucoup moins precis. Dans ce cas, la correction de
lheteroscedasticite pourra representer un gain appreciable de precision.
Resume
Ce chapitre est consacre au traitement de lheteroscedasticite dans le mod`ele en coupe, i.e.
portant sur dierents individus observes `a une meme date.
Mod`ele heteroscedastique pur. La variance du residu est : V (x

i
u
i
) = E
_
u
2
i
x

i
x
i
_
.
Correction de White. La matrice de variance covariance de lestimateur des MCO
est estimee par :

V
_

b
MCO
_
= (x

i
x
i
)
1
u
2
i
x

i
x
i
x

i
x
i
1
.
Test de Breush-Pagan. La presence dheteroscedasticite (H
0
: E
_
u
2
i
x
li
x
mi
_
) = E
_
u
2
i
_
E (x
li
x
mi
)) peut-etre testee par un test de nullite jointe des coecients de la regression :
u
2
i
=

K+1
l=1

K+1
m=1
x
li
x
mi

lm
+v
i
.
Forme particuli`ere dheteroscedasticite : V (y
i
[x
i
) = h(, x
i
). Si lon dispose dun estima-
teur

, cette specication permet de mettre en uvre la methode des MCQG.
Estimateur des MCQG :

b
MCQG
=
_
x

i
x
i
h(x
i
,

)
_1_
x

i
y
i
h(x
i
,

)
_
.
Lestimateur des MCQG est asymptotiquement equivalent ` a lestimateur des MCG,
convergent et asymptotiquement normal.


V
as
_

b
MCQG
_
=
x

i
x
i
h(x
i
,
0
)
1
est un estimateur convergent et asymptotiquement normal
de la matrice de variance-covariance de

b
MCQG
.
Exercices
1. Dans le mod`ele y
i
= x
i
b +u
i
, soit z un sous-ensemble de variables explicatives. Appliquer
le test de Breush-Pagan `a une heteroscedasticite lineaire en z.
Solution: Application 8.2.
Chapitre 9
Correlation des observations
Ce chapitre est consacre aux situtations dheteroscedasticite dans lesquelles la matrice de
variance-covariance des residus depend dun nombre ni de param`etres : V (u
i
[x
i
) = V (u
i
) =
(). Parmi les mod`eles presentant frequemment un probl`eme dheteroscedasticite (presentes
au Chapitre 7, Section 7.1), le cas le plus general correspondant `a cette situation est celui des
regressions empilees (dont les mod`eles de donnees de panel peuvent etre consideres comme un
cas particulier). Sans perte de generalite, cette situation est donc etudiee en sappuyant sur un
mod`ele de regression empilee.
Un cas particulier de cette situation est souvent rencontre lors de lanalyse de mod`eles
de series temporelles. La structure de correlation est dans ce cas determinee par le processus
temporel qui decrit le residu du mod`ele. On parle alors dautocorrelation. Bien que les resultats
associes au mod`ele general restent valident, ce processus impose une structure supplementaire
`a la matrice () qui permet dutiliser des techniques propres `a ce cas.
9.1 Estimation en presence de correlations entre observations
On sinteresse `a un mod`ele de regression dans lequel la matrice de variance-covariance est
non scalaire unite et depend dun nombre ni de param`etres, notes . Lanalyse de cette situation
est illustree en utilisant un mod`ele de regressions empilees, specie en termes des vecteurs y
i
, x
i
et u
i
(voir Chapitre 7, Section 7.1.5 pour une presentation detaillee du mod`ele) :
y
i
M1
= Diag
_
x
i
_
MM
b
M1
+ u
i
M1
La matrice de variance covariance de ce mod`ele est notee (), o` u est une matrice (MM).
Le param`etre inconnu, , est donc necessairement un param`etre de dimension nie, de taille au
plus egale `a M (M + 1) /2. A lexception de cette matrice de variance-covariance (Hypoth`ese
H
C
3
), le mod`ele est etudie sous les hypoth`eses habituelles :
H
C
1
: Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont IID;
H
C
2
: E (u
i
[x
i
) = 0 ;
H
C
3
: V (u
i
[x
i
) = V (u
i
) = () ;
H
C
4
: Nx

x et E(x

i
x
i
) sont inversibles ;
H
C
5
: Les moments de [x
ki
x
li
[ et de [u
ti
u
si
[ existent.
99
100 Chapitre 9. Correlation des observations
Comme nous allons le voir, ce cas apparat en fait comme une generalisation directe du
mod`ele heteroscedastique, etudie au Chapitre 8.
9.1.1 Estimation robuste `a la correlation entre obervations
Les proprietes asymptotiques de lestimateur des MCO, etudiees au Chapitre 7, sappliquent
evidemment au cas etudie ici. Lestimateur des MCO est donc convergent et asymptotiquement
normal quelle que soit la forme de la matrice de variance-covariance du mod`ele etudie. On peut
en outre montrer quil existe un estimateur convergent de la matrice de variance-covariance.
Proposition 9.1 Sous les hypoth`eses H
C
, lestimateur de la variance des perturbations :

= (y
i
x
i

b
MCO
)(y
i
x
i

b
MCO
)

= u
i
u

i
est convergent :

P
. Lestimateur

V
as
(

b
MCO
) = (x

i
x
i
)
1
x

x
i
x

i
x
i
1
, est :
1. Convergent :

V
as
(

b
MCO
)
P
V
as
(

b
MCO
) ;
2. Asymptotiquement normal :

N

V
as
(

b
MCO
)
1/2
(

b
MCO
b)
L
^(0, I).
Demonstration Estimation de . Lestimateur de considere dans la proposition a pour expression :

=
(y
i
x
i

b
MCO
)(y
i
x
i

b
MCO
)

= u
i
u

i
. Par denition, on a : u
i
= y
i
x
i

b
MCO
= x
i
(b

b
MCO
)+u
i
. Par substitution,
on a donc :

=
_
x
i
(b

b
MCO
) +u
i
_ _
x
i
(b

b
MCO
) +u
i
_

= u
i
u

i
+x
i
(b

b
MCO
)(b

b
MCO
)

i
+x
i
(b

b
MCO
)u

i
+u
i
(b

b
MCO
)

i
Le premier terme converge vers par la loi des grands nombres puisque les moments |u
si
u
ti
| existent. Le deuxi`eme
terme est une matrice dont les elements sont une somme de termes de la forme : x
k
li
(b

b
MCO
)
m
(b

b
MCO
)
m
x
k

i
=
(b

b
MCO
)
m
(b

b
MCO
)
m
x
k
li
x
k

i
. Ce terme tend vers zero en probabilite puisque (b

b
MCO
)
P
0 et que
x
k
li
x
k

i
P
E(x
k
li
x
k

i
). Il en est de meme pour le troisi`eme et le quatri`eme terme.
Convergence de lestimation de la variance de

b
MCO
. Dans lexpression de lestimateur de la variance
de lestimateur des MCO, V (

b
MCO
) = (x

i
x
i
)
1
x

x
i
x

i
x
i
1 P
V (

b
MCO
), le seul terme qui pose probl`eme est :
x

x
i
. On a : x

x
i
E (x

i
x
i
) = (x

x
i
x

i
x
i
)+(x

i
x
i
E (x

i
x
i
)) = (x

i
_


_
x
i
)+(x

i
x
i
E (x

i
x
i
)).
Le deuxi`eme terme de cette expression tend vers zero en probabilite par la loi forte des grands nombres. Le premier
terme tend egalement vers zero en probabilite par le meme genre argument que precedemment, puisque

P
.
Normalite asymptotique. Comme

V (

b
MCO
)
P
V (

b
MCO
) et

N (

b
MCO
b)
L
N(0, V (

b
MCO
)), on a
directement par le theor`eme de Slutsky :

N

V (

b
MCO
)
1/2
(

b
MCO
b)
L
N(0, I).
Remarque 9.1 Une fois de plus, ces resultats peuvent etendus au cas o` u seules les Hypoth`eses
H
C
2
` a H
C
5
sont satisfaites (en particulier identite des moments dordre 2), cest ` a dire au cas o` u
les observations ne sont pas equidistribuees. Cette situtation correspondrait par exemple au cas
dans lequel les moments dordre superieur ` a deux sont speciques ` a chaque individu. Comme
dans le cas des MCO du mod`ele homoscedastique, il faut pour ce faire imposer des restrictions
sur les moments dordre 3 de la valeur absolue de chaque composante du residu.
A partir des residus estimes de lequation des MCO, il est donc possible de denir un estima-
teur convergent de la matrice de variance-covariance des residus. Lexistence de cet estimateur
permet alors de corriger lestimation de la variance de lestimateur des MCO. Comme nous le
savons (Chapitre 7), lestimateur des MCO nest pas cependant le meilleur estimateur lineaire
sans biais. Il existe un estimateur plus ecace, lestimateur des MCG, fonde sur la matrice de
variance-covariance des residus. Lestimateur

peut alors etre utilise pour mettre en uvre cet
estimateur, par la methode des MCQG.
9.1. Estimation en presence de correlations entre observations 101
9.1.2 Estimateur des MCQG
Formellement, lapplication de la methode des MCQG necessite dajouter une hypoth`ese
supplementaire au mod`ele, portant sur la possibilite destimer les param`etres de la matrice de
variance-covariance :
H
C
6
:

tel que :

P
.
Comme nous lavons vu dans la section precedente, cette hypoth`ese est rendue superue
par les Hypoth`eses H
C
1
`a H
C
5
. Sous ces hypoth`eses, on peut en eet construire un estimateur
convergent de la matrice de variance (Proposition 9.1). On peut donc, a fortiori, obtenir un
estimateur convergent du param`etre sous jacent . Dans ces conditions, lestimateur des MCQG
correspond `a la substitution de la valeur vraie de la matrice, , par cet estimateur dans lex-
pression de lestimateur des MCG (7.1) :

b
MCQG
=
_
x

i
(

)
1
x
i
_
1
x

i
(

)
1
y
i
(9.1)
Les proprietes de cet estimateur dependent de la forme particuli`ere dheteroscedasticite
etudiee. On retrouve cependant, dans le cas present, les proprietes demontrees dans le chapitre
precedent.
Proposition 9.2 Sous les hypoth`eses H
C
, lestimateur des MCQG (9.1) est :
1. Convergent :

b
MCQG
P
b ;
2. Asymptotiquement normal :

N(

b
MCQG
b)
L
^
_
0, V
as
(

b
MCQG
)
_
;
3. Asymptotiquement equivalent ` a lestimateur des MCG : V
as
(

b
MCQG
) =
_
E(x

1
x
i
)

1
=
V (

b
MCG
).
Demonstration On note

= (

). Sous lHypoth`ese H
C
6

P
et cet estimateur est donc convergent :

P
.
Convergence. Lestimateur des MCQG peut encore secrire

b
MCQG
= b + (x

1
x
i
)
1
x

1
u
i
. Chaque
terme de x

1
x
i
est somme de termes de la forme x
k
li

1
m,m

x
k

i
=

1
m,m

x
k
li
x
k

i
, qui sont tous convergents :

1
m,m

x
k
li
x
k

i
P

1
m,m

E
_
x
k
li
x
k

i
_
. Cette esperance est le le terme correspondant de E
_
x

1
x
i
_
. On a donc
x

1
x
i
P
E
_
x

1
x
i
_
. On a de la meme facon : x

1
u
i
P
E
_
x

1
u
i
_
= E
_
x

1
E (u
i
|x
i
)
_
= 0, do` u la
convergence de lestimateur.
Normalite asymptotique. Le seul point `a montrer est que

N x

1
u
i
L
N
_
0, E
_
x

1
x
i
__
. Le terme
considere peut etre ecrit comme un somme de termes :

N x

1
u
i
=

N x

i
(

1
)u
i
+

N x

1
u
i
.
Chaque terme de

N x

i
(

1
)u
i
est de la forme

N x
k
li
(

1
m,m


1
m,m

)u
l

i
= (

1
m,m

1
m,m

N x
k
li
u
l

i
.
Le premier terme converge en probabilite vers 0. Le deuxi`eme terme converge en loi vers une loi normale. Comme
le montre lAnnexe, Section A.2.4, une suite de variables aleatoires convergentes en loi est borne en probabilite.
Cette suite deni un O(1), dont lune des proprietes est que o(1) O(1) = o(1). Le comportement asymptotique de

N x

1
u
i
est donc le meme que celui de

N x

1
u
i
. Comme V
_
x

1
u
i
_
= E
_
x

1
x
i
_
, il converge donc
en loi vers une loi normale N
_
0, E
_
x

1
x
i
__
.
Proposition 9.3 Sous les hypoth`eses H
C
, lestimateur de la variance asymptotique,

V
as
(

b
MCQG
) = x

1
x
i
1
, est :
1. Convergent :

V
as
(

b
MCQG
)
P
V (

b
MCG
) ;
2. Asymptotiquement normal :

N

V
as
(

b
MCQG
)
1/2
(

b
MCQG
b)
L
^(0, I).
102 Chapitre 9. Correlation des observations
Application 9.1
Mise en uvre de lestimateur des MCQG dans les mod`eles empiles
Lestimateur de la matrice de variance-covariance denit dans la Proposition 9.1 est tr`es
general, puisquil ne depend que des residus estimes par application des MCO. Il sapplique en
particulier aux mod`eles empiles (mod`ele de donnees de panel ou regressions empilees) et rend
tr`es facile la mise en uvre de lestimateur des MCG. La premi`ere etape consiste `a obtenir
lestimateur

.
1 Estimation des MCO du mod`ele y
i
= x
i
b +u
i
,

b
MCO
= (x

x)
1
(x

y) ;
2 Calcul du residu pour chaque individu : u
i
= y
i
x
i

b
MCO
;
3 Construction de lestimateur de la matrice de variance des residus :

= u
i
u

i
;
Lobtention de cet estimateur peut dabord permettre de corriger la variance estimee de
lestimateur des MCO, an que les resultats destimation soient robustes `a labsence
dhomoscedasticite.
4 Estimation de la variance asymptotique de lestimateur des MCO :

V
as
(

b
MCO
) =
(x

i
x
i
)
1
x

x
i
x

i
x
i
1
; et de sa variance :

V
as
(

b
MCO
) =
1
N

V
as
(

b
MCO
) ;
Cette meme matrice peut egalement etre utilisee pour mettre en uvrelestimateur des
MCQG. La methode directe consiste `a utiliser lexpression (9.1) pour calculer lestimateur.
Sil est possible de denir simplement une matrice de sphericisation

1/2
, la methode indirecte
consiste `a appliquer les MCO au mod`ele sphericise.
5 Calcul direct de lestimateur des MCQG :

b
MCQG
= (x

1
x
i
)
1
x

1
y
i
;
5

Calcul de lestimateur des MCQG par sphericisation du mod`ele. La variance est alors
donnee par :

V
as
(

b
MCQG
) = x

1
x
i
1
et

V (

b
MCQG
) =
1
N

V
as
(

b
MCQG
).
9.1. Estimation en presence de correlations entre observations 103
Demonstration Ces resultats sont demontres de la meme facon que dans la proposition precedente.
Sous les Hypoth`eses H
C
1
`a H
C
5
ou, de fa con equivalente, sous lHypoth`ese H
C
6
lexistence
dun estimateur convergent

permet donc de mettre en uvre une estimation robuste cor-
rection de la matrice de variance de lestimateur des MCO ainsi quune estimation ecace
mise en uvre de lestimateur des MCQG. Suivant les cas, le nombre de param`etres `a estimer
contenus dans la matrice peut etre plus ou moins important. Dans le cas dun mod`ele de
donnees de panel `a erreurs composees, nous avons vu (Section 7.1.4) que la matrice de variance
ne depend que de deux param`etres : la variance de leet individuel et la variance de leet
temporel. Dierentes methodes peuvent etre utilisees pour estimer ces param`etres et mettre en
oeuvre les estimateurs presentes ici. La convergence de lestimateur du param`etre correspon-
dant `a lHypoth`ese H
C
6
est en eet la seule condition necessaire pour pouvoir appliquer ces
resultats.
9.1.3 Methode des MCG dans les mod`eles de regressions empilees
Contrairement aux mod`eles de donnees de panel, les mod`eles de regressions empilees peuvent
ne pas imposer de restriction entre les param`etres. Le nombre de param`etres `a estimer dans la
matrice de variance des residus est alors tr`es important, et tend vers linni `a mesure que la
taille de lechantillon saccrot. Le Theor`eme de Zellner facilite considerablement lestimation
dans de telles circonstances.
Proposition 9.4 (Theor`eme de Zellner.) Dans un mod`ele de regressions empilees tel que :
(i) Il nexiste pas de contraintes sur les param`etres entre equations ;
(ii) Les regresseurs sont les memes dans toutes les equations ;
lestimateur des MCG est identique ` a lestimateur des MCO eectue equation par equation. La
matrice de variance de lestimateur a alors pour expression : V
as
= x

i
x
i
1
.
Demonstration Le mod`ele deni par les conditions (i) et (ii) secrit : y
i
= I
M
x
i
b+u
i
. Lestimateur des MCG
de ce mod`ele est donc :

b
MCG
= (I
M
x

i
)
1
(I
M
x
i
)
1
(I
M
x

i
)
1
y
i
.
Sans perte de generalite, on peut reecrire la matrice de variance des residus comme
1
=
1
1. Le vecteur
x

i
est de dimension (K+1) 1). On a donc (I
M
x

i
)
1
= (I
M
x

i
)
_

1
1
_
=
1
x

i
, puisque le produit
de Kronecker est tel que (AB) (C D) = AB CD (pour des dimensions adequates des matrices A, B, C et
D). Par substitution, on a : (I
M
x

i
)
1
(I
M
x
i
) =
1
x

i
x
i
.
On a en outre :
(I
M
x

i
)
1
y
i
= (I
M
x

i
)
_

1
y
i
1
_
=
1
y
i
x

i
= (
1
I
K
)
_
y
i
x

i
_
=
_

1
I
K
_
_
y
i
x

i
_
Apr`es substitution de ces termes, lestimateur des MCG secrit donc :

b
MCG
= x

i
x
i
1
_

1
I
K
_
_
y
i
x

i
_
= I
M
x

i
x
i
1
_
y
i
x

i
_
= I
M
x

i
x
i
1
V ec
_
x

i
y

i
_
= V ec
_
x

i
x
i
1
x

i
y

i
_
o` u le passage `a la derni`ere ligne utilise la propriete suivante de loperateur V ec : V ec(ABC) = C

A V ec(B).
Ce dernier terme correspond par denition `a lestimateur des MCO applique separement `a chaque equation du
mod`ele.
104 Chapitre 9. Correlation des observations
Bien que les resultats presentes ici soient tr`es generaux, leur mise en uvre pratique peut etre
dicile en labsence de restrictions imposant une structure `a la matrice de variance-covariance
des residus. Le theor`eme de Zellner que nous venons de voir permet de surmonter cette diculte
pour le cas particulier des mod`eles de regressions empilees. Les mod`eles de donnees de panel
imposent quant `a eux une structure forte `a la matrice de variance-covariance puisque le mod`ele
`a erreur composee ninclut, par exemple, que deux param`etres `a estimer. Lanalyse des mod`eles
de series temporelles repose egalement, en general, sur des restrictions importantes quant `a la
structure devolution au cours du temps du residu. Cette structure est imposee en choisissant
un processus dautocorrelation pour les residus du mod`eles.
9.2 Illustration : estimation dune fonction de production sur
donnees individuelles
On consid`ere un echantillon de 381 entreprises observees sur les annees 1986-1989, pour
lesquelles on dispose de la valeur ajoutee, des eectifs du stock de capital et du stock de capital
recherche. On consid`ere une technologie de production de Cobb-Douglas
y = +
L
l +
C
c +
K
k +v
les coecients sont donc les elasticites de la production aux eectifs, au capital et au capital de
recherche. Les observations dont on dispose sont des donnees de panel puisque chacun des 381
individus est suivi sur 4 ans : y

i
= (y
i86
, y
i87
, y
i88
, y
i89
) . On estime le mod`ele par les mco. Il est
alors possible destimer la matrice de variance des perturbations

= u
i
u

i
on peut alors calculer les ecarts-type de deux fa cons : soit en ignorant la nature de donnees
de panel des donnees, i.e. en faisant comme si la matrice etait diagonale, soit en prenant
cette information en compte. Dans un cas les ecarts-type sont simplement donnes par la formule
standard

V
as
=
2
_
x

i
x
i
_
1
et

V
b
(1) =

V
as
/N. Dans lautre cas les ecarts-type sont calcules
suivant la formule

V
as
=
_
x

i
x
i
_
1
x

x
i
_
x

i
x
i
_
1
et toujours

V
b
(2) =

V
as
/N. Le tableau suivant
presente les resultats de cette estimation par les mco et les ecarts-type calcules suivant les deux
modes de calcul :
b (1) (2)
un 4.78 (0.120) (0.226)
l 0.509 (0.023) (0.044)
c 0.235 (0.022) (0.040)
k 0.229 (0.017) (0.026)
On voit que les ecarts-type sont nettement plus eleve avec la formule qui tient compte des
correlations entre les residus aux dierentes dates. On peut regarder la matrice de variance des
perturbations estimee. On parvient `a la matrice symetrique suivante :
9.2. Illustration : estimation dune fonction de production sur donnees individuelles 105
86 87 88 89
86 0.209 . . .
87 0.191 0.214 . .
88 0.184 0.186 0.203 .
89 0.176 0.177 0.192 0.210
et on voit quelle est tr`es loin detre une matrice diagonale. Les elements sur la diagonale sont
plus ou moins constants, mais on voit aussi que les elements hors de la diagonale sont certes plus
faibles que ceux sur la diagonale mais dun ordre de grandeur comparable. Lheteroscedasticite
est ainsi une caracteristique essentielle et lomettre serait une grave erreur. Compte tenu de
lordre de grandeur des coecients de la matrice de variance covariance on voit quon est beau-
coup plus pres dune situation dans laquelle les observations seraient repetees quatre fois que
dune situation dans laquelle les quatre observations de chaque individu constitueraient quatre
tirages independants. Le nombre total dobservations est donc 381x4=1524 mais on est tr`es
loin davoir linformation de 1524 observations independantes. On est bien plus pres davoir 381
observations repliquees 4 fois. De fait les estimateurs etant convergent en

N. Comme la di-
mension temporelle est de 4, on doit se tromper approximativement dun facteur

4 = 2 dans
les ecarts-type. Cest bien ce que lon observe en gros. La conclusion que lon doit tirer de cet
exemple est que la correction des ecarts-type tenant compte de lheteroscedasticite est essentielle
pour les donnees de panel.
On peut aussi chercher `a mettre en oeuvre lestimateur des MCQG la formule est :

b
mcqg
=
_
x

1
x
i
_
1
x

1
y
i
et la matrice de variance peut etre estimees par

V
asmcqg
=
_
x

1
x
i
_
1
et

V
b
(3) =

V
asmcqg
/N.
Les resultats sont donnes dans le tableau suivant :

b
mcqg

mcqg
C
ste
4.67 (0.193)
l 0.505 (0.032)
c 0.352 (0.026)
k 0.086 (0.009)
On voit que par rapport `a lestimateur des mco, cet estimateur est sensiblement plus precis.
Le coecient du capital recherche en particulier est environ 3 fois plus precis. La mise en oeuvre
de ce type destimation est donc dans ce cas un gain precieux. On remarque aussi que les
deux estimateurs sont en fait assez dierents en particulier les coecients concernant le capital
physique et le capital de recherche. Le coecient du capital physique augmente fortement alors
que celui du capital recherche baisse au contraire. Ces dierences importantes sont en outre
grandes devant lordre de grandeur des ecarts-type. Bien quil ny est pas de test formel ici, il
est vraisemblable que ces dierences soient signicatives. Ceci nest pas un bon signe, comme
on le verra plus tard. En eet on peut remarquer d`es maintenant une sorte dincoherence :
normalement sous les hypoth`eses faites lestimateur des mco et celui de mCQG sont tous les
deux convergents : les valeurs estimees devraient donc etre assez proches.
106 Chapitre 9. Correlation des observations
Application 9.2
Stationnarite de processus classiques
Tendance temporelle. Une variable z est dite trendee si elle est decrite par un processu de
la forme : z
t
= a + bt. Bien que tr`es classiquement utilise, ce processus nest pas stationnaire
au premier ordre. On a en eet : E(z
t
) = a +bt.
Marche aleatoire. Une variable z suit un processus de marche aleatoire si : z
t
= z
t1
+
t
,
o` u les
t
sont des variables aleatoires IID de moyenne nulle et de variance
2
. Ce processus est
stationnaire au premier ordre puisque : E(z
t
) = E(z
t1
) + E(
t
) = E(z
t1
). Il nest pas, en
revanche, stationnaire au second ordre : E(z
2
t
) = E(z
2
t1
) +2E(z
t1

t
) +E(
2
t
) = E(z
2
t1
) +
2
.
Non seulement ce processus nest pas stationnaire, mais sa variance tend meme vers linni.
9.3 Processus dautocorrelation des perturbations
Un processus est une serie temporelle, notee (z
t
). Il correspond `a une structure devolution
particuli`ere de la variable z au cours du temps. La stationnarite est lune des proprietes les plus
importantes des processus temporels.
Denition 9.1 Un processus (z
t
) est :
Stationnaire au premier ordre si ses moments dordre 1 sont independants de t :
E (z
t
) = t ;
Stationnaire au second ordre sil est stationnaire au premier ordre et que ses mo-
ments dordre 2 ne dependent que du nombre de dates separant les deux observations :
Cov(z
t
, z
s
) =
ts
t, s ; s < t.
De fait, on ne considerera ici que des processus stationnaires au premier et au second ordre.
Nous nous restreignons ainsi `a des processus qui imposent une structure susante `a la matrice
de variance-covariance de la variable z en limitant le nombre de param`etres qui interviennent
dans les moments de la variable.
Cette restriction nest cependant pas neutre sur le prol temporel des variables considerees.
Il existe en eet de nombreux processus utilises de fa con classique mais qui ne respectent pas
ces conditions de stationnarite (lApplication 9.3 en fournit une illustration).
9.3.1 Perturbations suivant une moyenne mobile dordre q MA(q)
Soit
t
une variable aleatoire IID desperance nulle et decart-type constant. Un processus
moyenne mobile est deni comme la somme des q valeurs retardees de ce terme derreur.
Denition 9.2 La perturbation u
t
suit un processus de moyenne mobile dordre q, note MA(q),
si : u
t
=
t
+
1

t1
+ +
q

tq
, avec E(
t
) = 0, V (
t
) =
2

et cov(
t
,
t
) = 0 t ,= t

.
Dans un processus MA(q), les perturbations u
t
ne sont donc plus IID, mais ces hypoth`eses
sont transposees `a la variable aleatoire
t
. Un processus de ce cette forme est bien stationnaire.
A lordre 1, on a en eet : E(u
t
[X) = E(
t
) +E(
1

t1
) + +E(
q

tq
) = 0.
9.3. Processus dautocorrelation des perturbations 107
Application 9.3
Processus moyenne mobile dordre 1 MA(1)
Soit
t
une variable aleatoire IID telle que : E(
t
) = 0, V (
t
) =
2

et cov(
t
,
t
) = 0 t ,= t

. La
perturbation u
t
suit un processus moyenne mobile dordre 1, note MA(1), si : u
t
=
t
+
1

t1
.
Les processus MA(1) partagent les proprietes des processus MA(q). Ils sont en particulier
stationnaires `a lordre 2. On a en eet E (u
t
[x) = 0, V (u
t
[x) =
_
1 +
2
_

, E (u
t
u
t1
[x) =

et E (u
t
u
ts
[x) = 0 pour tout s > 1. Au total, la matrice de variance covariance des
perturbations a donc pour expression :
V (u) =
2

_
_
_
_
_
_
_
_
_
_
1 +
2
0 0
1 +
2

.
.
.
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.

0 0 1 +
2
_
_
_
_
_
_
_
_
_
_
Une perturbation MA(1) et, plus generalement, tout processus MA(q) pose donc bien un
probl`eme dautocorrelation pure : les elements diagonaux de la matrice de variance covariance
du residu sont egaux entre eux, mais certains des elements hors-diagonale sont non nuls.
La stationnarite `a lordre 2 necessite de caracteriser la matrice de variance-covariance de la
perturbation. Un calcul direct permet dabord dobtenir directement la forme de la variance :
V (u
t
[x) = (1 +
2
1
+ +
2
q
)
2

. Pour tout s > q, on a : E(u


t
u
ts
[x) = 0. Enn, pour tout
s q :
E (u
t
u
ts
[x) = E ((
t
+
1

t1
+ +
q

tq
) (
ts
+
1

ts1
+ +
q

tsq
))
= E ((
s

ts
+
s+1

ts1
+ +
q

tq
) (
ts
+
1

ts1
+ +
qs

tq
))
= (
s
+
s+1

1
+ +
q

qs
)
2

Ce terme ne depend que de s, conrmant donc la stationnarite du processus `a lordre 2.


Une generalisation importante de ce processus est le processus moyenne mobile dordre inni.
Conformement `a la Denition 9.2, il secrit : u
t
=
t
+

q=1

tq
. En raison de cette somme
innie de termes aleatoires, letude de la stationnarite du processus est plus complexe que dans
le cas dun MA(q).
Proposition 9.5 Un processus moyenne mobile inni, u
t
=
t
+

q=1

tq
, est stationnaire
` a lordre 2 si et seulement si (1 +

q=1

2
q
) < .
Demonstration En utilisant lexpression du processus, on obtient directement : V (u
t
|x) =
_
1 +

q=1

2
q
_

.
Cette quantite est nie d`es que la serie
2
q
converge. Pour les covariances, on a aussi directement : E (u
t
u
ts
|x) =
_

s
+

q=1

s+q

q
_

. Cette quantite ne depend pas de t. Linegalite de Cauchy etablit en outre que

q=1
a
q
b
q

q=1
a
2
q

q=1
b
2
q
. Ces covariances sont donc nies d`es lors que la serie
2
q
converge.
108 Chapitre 9. Correlation des observations
9.3.2 Perturbations suivant un processus autoregressif AR
Un processus est dit autoregressif sil est deni comme une somme de ses propres valeurs re-
tardees. Avant detudier les proprietes generales dun processus autoregressif dordre p AR(p)
les principales intuitions sont presentes si-cessous `a partir de lexemple dun processus au-
toregressif dordre 1, tr`es utilise dans les applications pratiques.
(i) Perturbations suivant un processus autoregressif dordre 1 AR(1)
Une perturbation u
t
suit un processus AR(1) sil depend de sa propre realisation `a la periode
precedente. Il sagit donc dun processus dans lequel les perturbations sont engendrees selon
lexpression : u
t
= u
t1
+
t
t = 1, . . . , T, o` u
t
est une variable aleatoire IID telle que E(
t
[x) =
0, V (
t
[x) =
2

et cov(
t
,
t
[X) = 0, t ,= t

. Comme dans le cas de processus moyenne mobile,


les hypoth`eses dhomoscedasticite et dindependance des perturbations du mod`ele sont donc ici
encore transferees aux
t
, cest `a dire aux innovations du processus. Une condition importante
de validite du processus est que : [[ < 1.
Un processus AR(1) secrit facilement comme une somme des realisations passees de la
perturbation IID :
u
t
= u
t1
+
t
= ( u
t2
+
t1
) +
t
=
t
+
t1
+
2
( u
t3
+
t2
)
=
t
+
t1
+ +
t1

1
+
t
u
0
(9.2)
Cette expression facilite considerablement letude de la matrice de variance-covariance du
processus et, en particulier, de la stationnarite du processus.
Proposition 9.6 Un processus u
t
suivant un AR(1) est stationnaire si E (u
0
[X) = 0, V (u
0
[X) =

/
_
1
2
_
et Cov (
t
, u
0
) = 0. Ces conditions sont satisfaites si le processus engendrant u
t
debute en .
Demonstration En utilisant lexpression (9.2), on a : E (u
t
|X) = E (
t
|X)+ +
t1
E (
1
|X)+
t
E (u
0
|X).
Par denition, E(
t
) = 0 t. Le processus est donc stationnaire au premier ordre si et seulement si : E (u
0
|X) = 0.
La perturbation u
t
est non correlee avec les perturbations futures. Pour t

> t, on a en eet : E (u
t

t
|X) =
E
_

t
(
t
+ +
t1

1
+
t
u
0
) |X
_
= 0 puisque E (
t

tl
|x) = 0 et E (
t
u
0
|x) = 0. Pour toute date passee s,
le processus peut encore secrire : u
t
=
t
+ +
ts1

s+1
+
ts
u
s
. En utlisant le resultat precedent, on a donc :
E (u
t
u
s
|x) = E
_
(
t
+ +
ts1)

s+1
+
ts
u
s
)u
s
|x
_
=
ts
E
_
u
2
s
|x
_
. Lorsque le processus est stationnaire
`a lordre 1, cette derni`ere expression correspond `a la variance de u
s
, qui secrit :
V (u
t
|x) = V (
t
|x) +
2
V (
t1
|x) + +
2(t1)
V (
1
|x) +
2t
V (u
0
|x)
=
2

(1 +
2
+ +
2(t1)
) +
2t

2
u
0
=
2

1
2t
1
2
+
2t

2
u
0
=

2

1
2
+
2t
_

2
u
0


2

1
2
_
Cette expression depend de t. Si
2
u
0
=
2

/
_
1
2
_
, cependant, les moments dordre 2 sont :
V (u
t
|x) =
2

/
_
1
2
_
Cov (u
t
, u
s
) =
ts

/
_
1
2
_
et le processus est donc stationnaire `a lordre 2.
Si le processus remonte en , lexpression (9.2) devient : u
t
=

s=0

ts
. On a donc bien V (u
t
|x) =

s=0

2s

=
2

/
_
1
2
_
.
9.3. Processus dautocorrelation des perturbations 109
Un processus AR(1) qui respecte les conditions decrites dans la Proposition 9.6 est station-
naire au second ordre. Sa matrice de variance-covariance a alors pour expression :
V (u[x) =

2

1
2
_
_
_
_
_
_
_
_
1
2

T1
1
T2
.
.
.
.
.
.
.
.
.

T2
1

T1

T2
1
_
_
_
_
_
_
_
_
Ce type de processus est tr`es frequemment utilise en pratique car il traduit lidee simple et
importante quun choc exog`ene `a une date donnee peut avoir un eet persistant, mais decroissant
de fa con exponentielle avec le temps. En raison de la simplicite de lexpression de la matrice de
variance, cette specication permet en outre une mise en oeuvre facile de methodes destimation
plus ecaces que les MCO, telles que les MCQG.
(ii) Perturbations suivant un processus autoregressif dordre p AR(p)
Le processus AR(p) est une generalisation du processus precedent au cas o` u la perturbation
u
t
depend de ses p realisations precedentes.
Denition 9.3 Une variable aleatoire u
t
suit un processus autoregressif dordre p, note AR(p),
si elle est engendree par : u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
, o` u est une variable aleatoire
IID telle que : E (
t
[x) = 0, V (
t
[X) =
2

et Cov(
t
,
t
[X) = 0 t ,= t

.
On utilise frequemment une expression plus compacte du processus, formee en utillisant
loperateur retard. Loperateur retard, note L, est tel que : L
p
z
t
= z
tp
. On denit en outre le
polyn ome A(.) tel que : A(Z) = 1
1
Z
2
Z
2

p
Z
p
. Un processus AR(p) peut alors
etre represente sous forme compacte par lexpression : A(L) u
t
=
t
. Compte tenu des recursions
multiples contenues implicitement dans lexpression du processus, le passage par cette forme est
necessaire pour etudier les proprietes de la perturbation.
Proposition 9.7 Un processus AR(p) est stationnaire ` a lordre 2 si les racines du polyn ome
A(X) sont de module superieur ` a 1.
Demonstration En utilisant la forme compacte dun AR(p), on a en eet
u
t
=

t
A(L)
=

t
1
1
L
2
L
2

p
L
p
=

t

p
s=1
(1 r
s
L)
=
_

p
s=1

k=0
r
k
s
L
k
_

t
=
_

k=0

k
L
k
_

t
o` u r
s
est linverse de la s
i` eme
racine (eventuellement complexe) du polynome A(Z) et est donc de module stric-
tement inferieur `a 1. Le processus apparat ainsi comme un processus moyenne mobile inni dont les coe-
cients sont directement deduit des racines r
s
. Chacun des processus moyenne mobile

k=0
r
k
s
L
k
est stationnaire
puisque |r
s
| < 1. En outre on montre facilement que si on consid`ere deux MA() (

a
q
L
q
) et (

b
q
L
q
) tels que
(

|a
q
|) < et (

|b
q
|) < alors le produit de ces deux MA() est un MA() ayant la meme propriete de
sommabilite.
_

a
q
L
q
_ _

b
q
L
q
_
=
_

s
b
s
a
qs
_
L
q
_
et

s
b
s
a
qs

s
|b
s
| |a
qs
| =
_

|a
q
|
_ _

|b
q
|
_
<
On en deduit que
_

k=0
|
k
|
_
< et donc
_

k=0
|
k
|
2
_
< . Le processus est donc stationnaire.
110 Chapitre 9. Correlation des observations
Malgr`e la stationnarite du processus, lexpression de la matrice de variance covariance peut
etre relativement complexe. A titre dillustration, les moments dordre 2 dun AR(2) sont :
V (u
t
) =
2
u
=
1
2
(1 +
2
)
_
(1
2
)
2

2
1

=
0
, t
Cov(u
t
, u
t1
) =

1
1
2

2
u
=
1
Cov(u
t
, u
t2
) =
2

2
u
+

2
1
1
2

2
u
=
2
=
2

0
+
1

1
Cov(u
t
, u
ts
) =
s
=
1

s1
+
2

s2
, s > 2
On voit toutefois emerger une certaine regularite dans la determination des covariances, qui se
generalise au cas dun AR(p). Pour des valeurs s susamment elevees ( p), un AR(p) verie en
eet : E (u
t
u
ts
) =
1
E (u
t1
u
ts
)+ +
p
E (u
tp
u
ts
)+E (
t
u
ts
). En notant
s
= E(u
t
u
ts
),
cette equation est connue sous le nom dequation de Yule-Walker :

s
=
1

s1
+ +
p

sp
Elle est egalement vraie pour les correlations dun processus AR(p) (cest `a dire la covariance
divisee par la variance puisque le processus est stationnaire).
9.3.3 Perturbations suivant un processus ARMA(p,q)
Les processus ARMA correspondent `a un niveau de generalisation supplementaire puisquils
combinent les deux processus etudies jusqu`a present. An de simplier la denition du processus,
on utilise un nouveau polyn ome, B(L), tel que : B(L) = 1 +
1
L +
2
L
2
+ +
q
L
q
.
Denition 9.4 Une perturbation u
t
suit un processus ARMA(p,q) si elle est engendree par :
A(L)u
t
= B(L)
t
o` u est une variable aleatoire IID telle que : E (
t
[x) = 0, V (
t
[X) =
2

et
Cov(
t
,
t
[X) = 0 t ,= t

.
On peut `a nouveau montrer que le processus est stationnaire si les racines du polyn ome A(Z)
sont `a lexterieur du cercle unite. La complexite des processus AR(p) est cependant ampliee
dans le cas des processus ARMA(p,q). A titre dillustration, nous nous limitons donc ici au
processus ARMA(1,1), dont la perturbation est generee par : u
t
= u
t1
+
t
+
t1
. La matrice
de variance covariance a dans ce cas une expression relativement simple :
V (u
t
) =
2

_
_
_
_
_
_
_
_
_
_
_
_
w
0
w
1
w
1

2
w
1

T2
w
1
w
1
w
0
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.

2
w
1

2
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.
w
1
w
0
w
1

T2
w
1

2
w
1
w
1
w
1
w
0
_
_
_
_
_
_
_
_
_
_
_
_
;
w
0
=
1 +
2
+ 2
1
2
w
1
=
(1 +)( +)
1
2
9.4. Autocorrelation des residus dans les series temporelles 111
Demonstration En utilisant lexpression du processus, on a :
2
u
= V (u
t
) =
2
E
_
u
2
t1
_
+E
_

2
t
_
+
2
E
_

2
t1
_
+
2E (u
t1

t1
). On sait en outre que E (u
t

t
) = E
_

2
t
_
=
2

, do` u
2
u
=
2

2
u
+
2

+
2

+ 2
2

et par
consequent :
V (u
t
) =
2

_
1 +
2
+ 2
1
2
_
=
2

w
0
, t
De la meme facon :
Cov(u
t
, u
t1
) = E
_
u
2
t1
_
+E (u
t1

t1
)
=
2
u
+
2

=
2

(1 +)( +)
1
2
=
2

w
1
et, s > 1 : Cov(u
t
, u
ts
) = Cov(u
t1
, u
ts
) = Cov(u
t
, u
t(s1)
) =
s1

w
1
.
9.4 Autocorrelation des residus dans les series temporelles
Dans les mod`eles en serie temporelles, lhypoth`ese de non-autocorrelation des perturbations
est assez forte et frequemment invalidee. Nous considerons donc un mod`ele de serie temporelle :
y
t
= x
t
b + u
t
, t = 1, . . . , T dans lequel lhypoth`ese dindependance des observations est levee
an detudier les methodes de traitement des probl`emes dautocorrelation des residus.
Comme nous lavons vu dans le Chapitre 7, la presence dautocorrelation naecte pas les
proprietes de dabsence de biais, de convergence et de normalite asymptotique de lestimateur
des MCO. Seule la forme de la matrice de variance covariance de lestimateur est aectee. Les-
timation de cette matrice de variance pourrait etre obtenue dans de tr`es nombreuses situations,
cest `a dire pour dierentes specications du processus engendrant les perturbations. Lexpres-
sion de la matrice de variance de lestimateur depend en eet de la specication du processus.
Dans toutes les specications presentees dans la Section 9.3, toutefois, la matrice de variance
des perturbations depend dun nombre limite de param`etres, et ces param`etres pourraient donc
etre estimes `a partir des residus de lestimation. Cette approche sera illustree `a la n de cette
section dans le cas le plus classiquement utilise de perturbations suivant un AR(1).
Il est donc possible, en theorie, dobtenir une estimation convergente de la matrice , `a partir
de laquelle on peut estimer la matrice de variance de lestimateur des MCO. La qualite de cette
estimation va cependant dependre de ladequation de la specication. Une approche plus generale
consiste donc `a chercher un estimateur de la matrice de variance covariance de lestimateur des
MCO qui soit robuste au choix plus ou moins arbitraire dune specication du processus
engendrant les perturbations. Lapproche precedente fait en outre lhypoth`ese que la correlation
entre les residus `a dierentes dates ne depend pas des valeurs prises par les variables explicatives.
Le Chapitre 8 a pourtant mis laccent sur la possibilite quune relation existe entre les moments
dordre 2 et les variables explicatives. Cette question se pose dans les memes termes dans le
cadre des series temporelles. Lestimateur de Newey-West est un estimateur non param`etrique
qui permet de surmonter ces deux dicultes.
9.4.1 Estimateur de Newey-West
Lestimateur de Newey-West sappuie sur les residus estimes de lequation des MCO. La
diculte centrale pour obtenir les proprietes de cet estimateur concerne donc la variance du
produit
1

T
x

u =
1

T
t=1
x

t
u
t
. Quelle que soit la specication choisie pour les perturbations
112 Chapitre 9. Correlation des observations
et en labsence meme de specication cette variance secrit :
E
_
x

uu

x
_
/T = E
_
_
T

t=1
x

t
x
t
u
2
t
/T +

t,s=0
x

t
x
ts
u
t
u
ts
/T +x

ts
x
t
u
ts
u
t
/T
_
_
= E
_
T

t=1
x

t
x
t
u
2
t
/T
_
+E
_
T

t=2
x

t
x
t1
u
t
u
t1
/T +x

t1
x
t
u
t1
u
t
/T
_
+ E
_
T

t=3
x

t
x
t2
u
t
u
t2
/T +x

t2
x
t
u
t2
u
t
/T
_
+ +E
_
T

t=q
x

t
x
tq+1
u
t
u
tq+1
/T +x

tq+1
x
t
u
tq+1
u
t
/T
_
+ +E
_
T

t=T
x

T
x
1
u
T
u
1
/T +x

1
x
T
u
1
u
T
/T
_
E
_
x

uu

x
_
/T = E
_
x

t
x
t
u
2
t
_
+

s=0
_
E
_
x

t
x
ts
u
t
u
ts
_
+E
_
x

ts
x
t
u
ts
u
t
_
(T s + 1) /T
Pour tout s donne,

t
x

t
x
ts
u
t
u
ts
/T est un estimateur convergent de E (x

t
x
ts
u
t
u
ts
)
(T s + 1) /T. Cette propriete devrait en theorie permettre destimer le terme E (x

uu

x) /T.
Il faut cependant estimer cette quantite pour toutes les valeurs de s de s = 1 jusqu`a s = T
ce qui est impossible dans un echantillon de taille T.
Loptique choisie par Newey-West est de nestimer ces termes que pour les valeurs de s les
plus faibles, le nombre de valeurs retenues dependant de la taille de lechantillon. Ce calcul est
exact si la serie x
t
u
t
est distribuee suivant une moyenne mobile dordre ni. Il sagit, dans le cas
contraire, dune approximation. On peut montrer que cette matrice est convergente d`es lors que
(i) le degre de correlation temporelle de x
t
u
t
decrot susemment vite et que (ii) lestimateur
retenu int`egre un nombre de retard croissant avec la taille de lechantillon. Cette propriete est
conforme `a lidee que les correlations entre les perturbations disparaissent `a un taux relativement
eleve. Dans le cadre dun mod`ele AR(1), par exemple, ces correlations disparaissent de fa con
exponentielle.
Lestimateur de Newey West estime donc le terme E (x

uu

x) /T par :
T

t=1
x

t
x
t
u
2
t
/T +

s=0

s
(T)

t
_
x

t
x
ts
u
t
u
ts
+x

ts
x
t
u
ts
u
t
_
/T
o` u
s
(T) est un terme de ponderation decroissant avec s et croissant avec T. Plus speciquement,
le poids propose par Newey-West est lineaire en s, de la forme :
s
(T) = (1 s/(q (T) + 1))
1 (s q (T)). Ce prol de ponderation fait crotre q (T) vers linni lorsque T augmente, mais `a
un rythme beaucoup plus faible que T lui-meme. Sous des hypoth`eses de regularite satisfaisantes,
cet estimateur converge vers E (x

uu

x) /T.
Denition 9.5 (Estimateur de Newey-West). Un estimateur de la matrice de variance co-
variance de lestimateur des MCO robuste ` a lheteroscedasticite temporelle et ` a lheteroscedasticite
liee aux variables explicatives est :
9.4. Autocorrelation des residus dans les series temporelles 113

V
as
_

b
mco
_
=
_
x

x
T
_
1
_
_

0
+
q(T)

s=1
_
1
s
q (T) + 1
_
_

s
+

s
_
_
_
_
x

x
T
_
1
o` u

0
=
T

t=1
x

t
x
t
u
2
t
T
et

s
=
T

t=s+1
x

t
x
ts
u
t
u
ts
T
Lestimateur de Newey-West est un estimateur non param`etrique de la matrice de variance
covariance de lestimateur des MCO. Il nimpose en eet aucune structure `a cette matrice et
sappuie uniquement sur les residus estimes de lequation de MCO. Pour cette raison, cette
matrice est robuste `a la fois `a la correlation temporelle des residus pourvu quelle sestompe
assez vite et `a lexistence dheteroscedasticite relative aux x. En ce sens, lestimateur de
Newey-West est une generalisation de la correction de White (voir Section 8.1.1) au cas o` u il
existe des correlations entre observations. On verie dailleurs facilement que sous lhypoth`ese
dabsence de correlation temporelle des perturbations ou des variables explicatives la formule
de Newey-West correspond `a la formule de White : seul
0
subsiste alors dans le terme central.
9.4.2 Estimation du mod`ele `a perturbations AR(1)
Lestimateur de Newey-West fournit une estimation robuste de la matrice de variance cova-
riance de lestimateur des MCO qui est independante de la forme particuli`ere dautocorrelation
des perturbations. Cette methode ne permet pas, cependant, de mettre en uvre lestimateur
des MCQG puisquelle ne fournit pas destimatio de la matrice de variance covariance des per-
turbations. Il est necessaire pour ce faire dimposer une structure `a cette matrice, en adoptant
un processus temporel particulier. Parmi les processus presentes dans la Section 9.3, le processus
AR(1) est de tr`es loin le plus utilise en pratique. On sinteresse donc ici `a un mod`ele lineaire
temporel, de la forme : y
t
= x
t
b + u
t
dans lequel les perturbations suivent un processus AR(1)
et sont independantes des variables explicatives. On a donc :
H
AR
1
: E (u[x) = 0 ;
H
AR
2
: V (u[x) = de dimension T T.
Plus speciquement, nous avons vu (Section 9.3.2) que :
V (u[x) = () =

2

1
2
_
_
_
_
_
_
_
_
1
2

T1
1
T2
.
.
.
.
.
.
.
.
.

T2
1

T1

T2
1
_
_
_
_
_
_
_
_
Comme dans toutes les situations etudiees jusqu`a present, lapplication des MCO necessite
que :
H
AR
3
:
1
T
x

x
P
Q
XX
, et que x

x et Q
X
sont inversibles.
114 Chapitre 9. Correlation des observations
Il faut remarquer que cette hypoth`ese nest pas systematiquement garantie en pratique. Dans
le cas de la presence dun trend ou dans le cas de la presence de variables explicatives distribuees
suivant une marche aleatoire, en particulier, les moments dordre 2 nexistent pas. Letude des
proprietes asymptotiques de lestimateur repose enn sur lhypoth`ese suivante :
H
AR
4
: la matrice
1
T
x

x
P
Q
XX
.
Supposer un processus AR(1) pour les perturbations du mod`ele impose une forme parti-
culi`ere `a leur matrice de variance covariance. Cette forme aecte celle de lestimateur des MCO
et permet donc de defnir de nouvelles methodes destimation robuste `a lautocorrelation. Par
lestimation de la matrice de variance des perturbations elle-meme, elle permet en outre de
mettre en uvre lestimateur des MCQG.
(i) Estimation robuste
Sous les hypoth`eses H
AR
, nous avons montre dans le Chapitre 7 que lestimateur des MCO,

b
MCO
= (x

x)
1
x

y, est sans biais, convergent et asymptotiquement normal.


Remarque 9.2 En utilisant les notations introduites dans les Hypoth`eses H
AR
3
et H
AR
4
, on sait
egalement que : V
as
(

b
MCO
) = Q
1
XX
Q
XX
Q
1
XX
. Cette expression permet de preciser limportance
de lhypoth`ese H
AR
4
. A titre dillustration, la matrice
1
T
x

x secrit dans le cas dune seule


variable explicative :
1
T
x

x =

2

1
2
_

t
x
2
t
T
+ 2

t
x
t
x
ts
T
_
Si le processus engendrant les x est stationnaire et de moyenne nulle, et que lon denit
s
comme Cov (x
t
, x
ts
) =
s
V (x
t
), ce terme secrit :
1
T
x

x
P

1
2
V (x
t
)
_
1 + 2

s
_
= V (u
t
) V (x
t
)
_
1 + 2

s
_
et la matrice de variance de lestimateur est alors :
V
as
_

b
mco
[X
_
=
V (u
t
)
V (x
t
)
_
1 + 2

s
_
Lerreur sur la matrice de variance est donc dun facteur multiplicatif (1 + 2

s
). Cette
erreur est donc dautant plus importante que le coecient dautocorrelation est fort. Si = 0 on
retrouve en eet la formule standard de la variance des MCO. Lerreur est egalement dautant
plus importante que les variables explicatives sont elles-memes correlees dans le temps. Le terme
de correction tend ainsi ` a sannuler lorsque les
s
tendent vers 0.
La mise en uvre dune estimation robuste `a lautocorrelation necessite destimer les pa-
ram`etres de la matrice de variance covariance de lestimateur des MCO. Il convient donc de
denir un estimateur convergent de la variance des residus,
2
, et du coecient de correlation
.
9.4. Autocorrelation des residus dans les series temporelles 115
Estimation de la variance des residus. On utilise en general lestimateur habituel :
2
=
1
T

T
t=1
u
2
t
, qui est un estimateur convergent de la variance des residus :
2
P

2
.
Estimation du coecient de correlation des residus. La construction de lestimateur
repose sur lequation de regression de lestimateur des MCO. Lidee est dutiliser les residus
estimes, u
t
= y
t
x
t

b
MCO
, comme une estimation de la vraie valeur des residus. Cette estimation
est sans biais gr ace aux proprietes de lestimateur des MCO. Un estimateur du coecient de
correlation des residus peut alors etre obtenu par application des MCO au mod`ele de regression
u
t
= u
t1
+
t
. Lestimateur utilise est alors :
=

T
t=2
u
t
u
t1

T
t=2
u
2
t1
(9.3)
Cet estimateur est convergent,
P
, et asymptotiquement normal :

T ( )
L
^(0, 1

2
). La demonstration de ces proprietes est tgr`es complexe en raison de la presence de residus
estimes dans son expression. Si ces residus netaient pas estimes, on pourrait obtenir directement
sa loi asymptotique en appliquant les resultats standards quant aux proprietes de lestimateur des
MCO :

T( )
L
^(0, V ), o` u V = V (u
t1
)
1
V (
t
). Sachant que V (u
t
) =
2
V (u
t1
) +V (
t
)
et que V (u
t
) = V (u
t1
), on aurait en outre : V (u
t1
)
1
V (
t
) = (1
2
).
Tous les param`etres de la matrice de variance covariance dess residus peuvent ainsi etre
estimes de fa con convergente. La matrice ( ,
2
) constitue donc un estimateur convergent de
: ( ,
2
)
P
(,
2
). Cette premi`ere etape permet de denir un estimateur convergent de
la matrice de variance covariance de lestimateur des MCO et ainsi de mettre en uvre une
estimation robuste `a lautocorrelation.
Proposition 9.8 Lestimateur :

V
as
(

b
MCO
[x) =
_
x

x
T
_
1
x

( ,
2
)x
T
_
x

x
T
_
1
, sous les Hypoth`eses
H
AR
, est :
1. Convergent :

V
as
(

b
mco
)
P
Q
1
XX
Q
XX
Q
1
XX
= V
as
(

b
MCO
) ;
2. Asymptotiquement normal :

T

V
as
(

b
MCO
[x)
1/2
(

b
MCO
b)
L
^(0, I).
Demonstration Lobtention de ces resultats repose sur des theor`emes de convergence etudiant la moyenne de
variable dependante dans le temps. Seuls les deux principaux theor`emes sont presentes ici. Soit z
t
un processus
stationnaire dont la moyenne est notee E(z
t
) = m et dont les covariances sont notees E(z
t
z
tk
) =
k
, pour k allant
de `a +. On fait en outre lhypoth`ese que ces covariances sont absolument sommables :

|
k
| < . On
a alors :
1. z
t
P
m et limTE (z
t
m)
2

k
;
2. si z
t
= m+

ts
, avec

s
|
s
| < et
t
IID, alors :

T (z
t
m)
L
N(0,

k
).
Le premier resultat (limT E(z
t
m)
2

k
) re`ete le changement le plus important par rapport au
cas etudie jusqu`a present dabsence de correlation entre les observations. Nous avions dans ce cas N E(z
t
)
2
=
2
,
avec dans les notations adoptees ici :
0
=
2
. La dierence provient du fait quil est necessaire de prendre en
compte la correlation entre les observations aux dierentes dates. Le resultat na toutefois rien de tr`es surprenant.
Dans le cas dune variable de moyenne nulle, on a par exemple :
Tz
t
2
=
1
T
(z
1
+ +z
T
)
2
=
1
T

T
t=1
z
2
t
+ 2
1
T

T
t=2
z
t
z
t1
+ + 2
1
T

T
t=T
z
t
z
tT+1
=
1
T

T
t=1
z
2
t
+ 2
T 1
T
1
T 1

T
t=2
z
t
z
t1
+ + 2
1
T
T
T 1

T
t=T
z
t
z
tT+1
116 Chapitre 9. Correlation des observations
et donc
TE
_
z
t
2
_
=
0
+ 2
T 1
T

1
+ + 2
1
T

T1
TE
_
z
t
2
_
(
0
+ 2
1
+ + 2
T1
) = 2(
1
T

1
+ +
T 1
T

T1
)
qui tend vers zero puisque la serie

|
k
| converge.
Pour que la loi des grands nombres soit satisfaite, il faut donc que la dependance temporelle sestompe
susamment rapidement. La variance de lestimateur de la moyenne prend dailleurs en compte cette dependance
temporelle : plus la dependance temporelle est forte, moins les estimations sont precises.
(ii) Mise en uvre des MCQG : lestimateur de Prais-Watson
Sous les Hypoth`eses H
AR
, lestimateur des MCO nest pas lestimateur optimal. Le meilleur
estimateur lineaire sans biais de b est en eet lestimateur des MCG, deni par :

b
MCG
=
(x

1
x)
1
x

1
y, dont la variance est donnee par : V (

b
MCG
) = (x


1
x)
1
. Il correspond
`a lestimateur des MCO du mod`ele sphericise :
1/2
y =
1/2
xb +
1/2
u, o` u
1/2
est
la matrice de sphericisation telle que :
1/2

1/2

= I
T
. Dans le cas du mod`ele AR(1),
cette operation de sphericisation rend les perturbations independantes. Tout le probl`eme est
de trouver une matrice respectant ces proprietes. Dans le cas o` u les perturbations suivent un
processus AR(1), la transformation peut etre fondee sur la matrice :

1/2
=
_
_
_
_
_
_
_
_
_
_
_
_
_
1
2
0 0
1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 0
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Lestimateur des MCG peut alors etre calcule comme estimateur des MCO du mod`ele :
_
_
_
_
_
_
y
1
_
1
2
y
2
y
1
.
.
.
y
T
y
T1
_
_
_
_
_
_
=
_
_
_
_
_
_
x
1
_
1
2
x
2
x
1
.
.
.
x
T
x
T1
_
_
_
_
_
_
b +
_
_
_
_
_
_
u
1
_
1
2
u
2
u
1
.
.
.
u
T
u
T1
_
_
_
_
_
_
Remarque 9.3 Cette matrice de transformation est specique au mod`ele considere. Dans le
cas plus general dun mod`ele AR(p) (ou dun MA(q)) les formules de sphericisation sont beau-
coup plus complexes, et font intervenir les p (q) param`etres de la matrice de variance. La sim-
plicite de la transformation participe ` a expliquer le succ`es du mod`ele AR(1).
Lapplication de cette transformation necessite de connatre le param`etre . En labsence
dinformation sur ce param`etre, on utilise une estimation de convergente de an de mettre en
uvre lestimateur des MCQG. Le param`etre est alors remplace par dans la premultiplication
du mod`ele par
1/2
(), et la transformation utilise donc
1/2
( ). En toute generalite, la mise
en uvre de lestimateur des MCQG repose donc sur une hypoth`ese supplementaire :
9.4. Autocorrelation des residus dans les series temporelles 117
Application 9.4
Estimateur de Prais-Watson
On appelle estimateur de Prais-Watson lestimateur des MCQG dans le mod`ele AR(1). Sa mise
en uvre est facilitee par la transformation proposee dans cette section. Il convient dabord
dobtenir lestimateur du coecient de correlation :
1 Estimation par les MCO du mod`ele y
t
= x
t
b +u
t
, t = 1, ..., T ;
2 Calcul des residus estimes : u
t
= y
t
x
t

b
MCO
;
3 Estimation de par application des MCO au mod`ele : u
t
= u
t1
+
t
, t = 2, ..., T.
Cette premi`ere etape fournit lestimateur deni en (9.3). Il permet alors de mettre en uvre
les MCQG par shericisation du mod`ele :
4 Construction des donnees transformees :
y
1
=
_
1
2
y
1
et y
t
= y
t
y
t1
, t = 2, ..., T
x
1
=
_
1
2
x
1
et x
t
= x
t
x
t1
, t = 2, ..., T
5 Estimation par les MCO des param`etres du mod`ele transforme : y
t
= x
t
b+ u
t
, t = 1, ..., T.
Lestimateur

b ainsi obtenu est convergent et asymptotiquement aussi ecace que lestimateur
des MCG. Les ecarts-type fournis par les logiciels standards peuvent en outre etre directement
utilises. Pour ce faire, il faut cependant prendre bien garde `a retirer la constante du mod`ele
et ne pas omettre dappliquer la transformation `a toutes les variables du mod`ele initial, y
compris la constante sil en comprend une.
118 Chapitre 9. Correlation des observations
H
AR
5
: Il existe

, tel que

P
.
Une fois de plus, cette hypoth`ese est en realite redondante avec les Hypoth`eses H
AR
1
`a H
AR
4
,
sous lesquelles lestimateur des MCO fournit lestimateur convergent du coecient de correlation
(9.3). On peut donc utiliser cet estimateur,

= , an de calculer lestimateur des MCQG :

b
MCQG
=
_
x

)
1
x
_
1
x

)
1
y (9.4)
Proposition 9.9 Sous les Hypoth`eses H
AR
lestimateur des MCQG (9.4) est :
1. Convergent :

b
MCQG
P
b ;
2. Asymptotiquement normal :

T (

b
MCQG
b)
L
^(0, V
as
(

b
MCQG
)) ;
3. Asymptotiquement equivalent ` a lestimateur des MCG : V
as
(

b
MCQG
) = Q
1
X
1
X
=
plim T V (

b
MCG
).
Lestimateur

V
as
(MCQG) =
_
1
T
x

)
1
x
_
1
est un estimateur convergent de la matrice de
variance de

b
MCQG
:

V
as
(MCQG)
P
V
as
(MCQG).
(iii) Detection de lautocorrelation
Dans le cadre du mod`ele AR(1), la presence dautocorelation se traduit par lexistence dun
coecient dautocorrelation non nul liant entres elles les perturbations. Dans ce cadre, tester
labsence dautocorrelation revient donc `a sinteresser aux hypoth`eses :
_
H
0
: = 0
H
1
: ,= 0
Un premier test est fourni par un test de signicativite de lestimateur du coecient de correlation
(9.3). On sait en eet que lestimateur est asymptotiquement normal :

T( )
L
^(0, 1
2
).
Sous H
0
on a donc :

T
L
^(0, 1). Cette propriete est asymptotique, et lutilisation de cet
estimateur fournit donc un test asymptotique dautocorrelation.
Proposition 9.10 Soit la statistique de test S =

T . La region critique W =
_
S

[S[ > t
1/2
_
deni un test asymptotique dautocorrelation convergent au seuil .
On se trouve cependant assez frequemment dans des echantillons de petite taille, pour les-
quels lapproximation asymptotique ne vaut pas parfaitement. Cest pourquoi on utilise tr`es
frequemment le test de Durbin-Watson qui repose sur la statistique :
1

d =

T
t=2
( u
t
u
t1
)
2

T
t=1
u
2
t
(9.5)
Cette statistique est liee asymptotiquement au param`etre , selon la relation : plim

d =
2(1 ).
1
En pratique, le test de Durbin-Watson tend, par inertie, `a etre utilise systematiquement quelle que soit la
taille de lechantillon.
9.4. Autocorrelation des residus dans les series temporelles 119
Demonstration En decomposant la statistique (9.5), on a : plim

d = plim
1
T

T
t=2
u
2
t
2
1
T

T
t=2
u
t
u
t1
+
1
T

T
t=2
u
2
t1
1
T

T
t=1
u
2
t
.
Par denition on sait que plim
1
T

T
t=2
u
2
t
= plim
1
T

T
t=2
u
2
t1
= plim
1
T

T
t=1
u
2
t
. On a par ailleurs :
p lim
1
T
u
t
u
t1
p lim
1
T

T
t=1
u
2
t
=
Cov (u
t
, u
t1
)
V (u
t
)
=
et donc : plim

d = 1 2 + 1 = 2(1 ).
Cette relation permet de caracteriser le lien entre la statistique de Durbin-Watson et le
coecient dautocorrelation des perturbations. On a en eet :
Absence dautocorrelation : si est nul,

d est proche de 2 ;
Forte autocorrelation positive : si est proche de 1,

d est proche de 0 ;
Forte autocorrelation negative : si est proche de -1,

d est proche de 4.
La loi de probabilite de la statistique

d est toutefois dicile `a etablir car elle depend des
residus estimes et donc des valeurs prises par les variables explicatives du mod`ele. On peut
neanmoins montrer quil existe deux statistiques, d

et d
u
, qui encadrent toujours

d sous lhy-
poth`ese nulle (H
0
: = 0). La loi de ces statistiques ne depend que de T le nombre dobser-
vations et K le nombre de variables explicatives. Sous H
0
, on a donc :
d

<

d < d
u
(9.6)
Cette propriete permet dexploiter la relation entre la statistique de test et la vraie valeur du
coecient de correlation an de tester la presence dautocorrelation dans le processus generateur
des perturbations.
Test de correlation positive. On sinteresse au test unilateral :
_
H
0
: = 0
H
1
: > 0
Compte tenu des relations decrites ci-dessus, on sait que la probabilite de se tromper en acceptant
H
0
est dautant plus faible que

d est proche de 2 ; il convient donc de laccepter dans ce cas et
de rejetter lhypoth`ese nulle si

d est faible. Si la loi, d
0
, de

d etait connue, un test au seuil
pourrait etre conduit en determinant le fractile dordre d

() de cette loi, tel que : P(d


0
<
d

()) = , an de conclure au rejet ou `a lacceptation de lhypoth`ese H


0
. Ne connaissant pas
la loi asymptotique de

d, cest sur les statistiques (9.6) que le test est fonde. Pour ce faire, on
utilise les fractiles correspondants d

() de d

et d

u
() de d
u
:
P (d
l
< d

l
()) =
P (d
u
< d

u
()) =
Compte tenu de la relation (9.6), on a bien : d

l
() < d

() < d

u
(). La r`egle de decision du
test unilateral de correlation positive de Durbin-Watson est donc :
Si

d est inferieure `a d

(), alors

d < d

() et on refuse H
0
;
Si

d est superieure `a d

u
(), alors

d > d

() et on accepte H
0
;
Si d

<

d < d

u
, la valeur de la statistique de test ne permet pas de conclure. La statistique
se trouve alors dans la zone dite inconclusive.
120 Chapitre 9.
Test de correlation negative. Le test considere est :
_
H
0
: = 0
H
1
: < 0
Ce test est conduit en sappuyant sur la statistique 4

d, qui est comparee `a 2. On rejette ainsi
lhypoth`ese nulle pour des valeurs faibles de la statistique et on laccepte si elle prend des valeurs
susamment importantes, puisque : 4 d

u
< 4 d

< 4 d

. La r`egle de decision du test


unilateral de correlation negative de Durbin-Watson est donc :
Si 4

d > 4 d

, alors 4

d > 4 d

et on refuse H
0
;
Si 4

d < 4 d

u
, alors 4

d < 4 d

et on accepte H
0
;
Si 4 d

u
< 4

d < 4 d

, la valeur de la statistique de test ne permet pas de conclure :


la statistique se trouve dans la zone inconclusive.
Les lois de de d

et d
u
ont ete tabulees par Durbin et Watson (REF) pour un mod`ele
avec constante et perturbations AR(1). Ces tables permettent de mettre en uvre le test. La
pratique courante tend `a inclure la zone inconclusive dans la zone de rejet de lhypoth`ese H
0
an de se garantir contre le risque daccepter `a tort lhypoth`ese dabsence dautocorrelation. Il
faut noter que lamplitude de la zone inconclusive, d

u
d

, est dautant plus importante que


le nombre T dobservations est faible et que le nombre de variables explicatives est important.
Cette accroissement de la zone inconclusive aaiblit la pertinence du test. Lorsque le nombre
dobservations devient tr`es grand, on peut cependant sappuyer sur le test asymptotique decrit
dans la Proposition 9.10.
Remarque 9.4 Bien quil soit speciquement destine ` a tester labsence dautocorrelation contre
lhypoth`ese alternative dune autocorrelation issue dun processus AR(1), le test de D.W. se
rev`ele capable de detecter dautres formes dautocorrelations, telles que des processus MA(1) ou
AR(2). Dans les autres situations, il est preferable de recourir ` a dautres tests.
Resume
Ce chapitre est consacre au traitement de la correlation entre observations, qui remet en
cause lhypoth`ese dhomoscedasticite des residus. On a dans ce cas : V (u
i
[x
i
) = V (u
i
) = ().
Estimation en presence dautocorrelation. Quelle que soit la forme de la matrice de
variance covariance des perturbations, on a :
Lestimateur des MCO est convergent, sa matrice de variance-covariance peut etre es-
timee de fa con convergente par :

V
as
(

b
MCO
) = (x

i
x
i
)
1
x

i
u
i
u
i

x
i
x

i
x
i
1
;
La matrice de Newey-West generalise la correction de White (Chapitre 8) au cas o` u
lheteroscedasticite est relative aux x et issue dune correlation des observations.
Pour tout estimateur convergent

de , lestimateur des MCQG

b
MCQG
= (x

i
(

)
1
x
i
)
1
x

i
(

)
1
y
i
est convergent et asymptotiquement equivalent `a lestimateur des MCG.
Specications du processus generateur dautocorrelation.
Un processus temporel z
t
est stationnaire `a lordre 2 si son esperance est constante et
que la covariance entre deux realisations ne depend que du nombre de dates les separant ;
Exercices 121
Les processus suivants sont stationnaires `a lordre 2 et frequemment utilises en pratique :
MA(q) : u
t
=
t
+
1

t1
+ +
q

tq
;
AR(p) : u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
;
ARMA(p,q) : u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
+
1

t1
+ +
q

tq
.
Le mod`ele AR(1) est de loin le plus utilise et mod`elise lidee que les innovations dun
processus peuvent avoir des eets durables mais qui sestompent progressivement.
Estimation du mod`ele AR(1). Un cas frequemment rencontre en pratique est celui
dun mod`ele temporel : y
t
= x
t
b +u
t
avec perturbations AR(1) : u
t
=
1
u
t1
+
t
.
Lestimateur de la matrice de variance covariance ( ,
2
), o` u
2
=
1
T

T
t=1
u
2
t
et =

T
t=2
u
t
u
t1

T
t=2
u
2
t1
est convergent.
Lestimation robuste `a lautocorrelation et la methode des MCQG peuvent etre fondees
sur lestimateur ( ,
2
).
Le test de Durbin-Watson, fonde sur la statistique

d =

T
t=2
( u
t
u
t1
)
2

T
t=1
u
2
t
fournit un test
exact dautocorrelation suivant un processus AR(1). Un test asymptotique peut etre
realise `a partir de la statistique S =

T .
Exercices
1. Soit
t
une variable aleatoire IID de moyenne nulle et decart-type . Etudier les proprietes
de stationnarite des processus suivants :
Tendance temporelle : z
t
= a +bt ;
Marche aleatoire : z
t
= z
t1
+
t
.
Solution: Application 9.3.
2. Denir et deriver la matrice de variance-covariance dun processus MA(1). Le processus
est-il stationnaire ?
Solution: Application 9.3.1.
3. Decrire les etapes de mise en uvre de lestimateur des MCQG par sphericisation dans le
cas dun mod`ele AR(1).
Solution: Application (ii).
122 Chapitre 9.
Chapitre 10
Evaluation : Regressions `a variables
de controle
10.1 Independance conditionnelles `a des observables
10.1.1 Identication sous lhypoth`ese dindependance conditionnelles `a des
observables
Leet moyen du traitement pour les individus de caracteristiques x nest pas identie
sans hypoth`eses sur la loi jointe des outputs potentiels et du traitement conditionnellement
`a x. En eet, pour estimer leet moyen du traitement sur les traites E (y
1
y
0
[x, T = 1) ,il
est necessaire didentier E (y
0
[x, T = 1) alors que les donnees ne permettent didentier que
E (y
0
[x, T = 0) = E (y [x, T = 0) . De meme pour identier leet du traitement dans la po-
pulation, il est necessaire didentier E (y
0
[x, T = 1) et egalement E (y
1
[x, T = 0) , alors que
concernant y
1
seul E (y
1
[x, T = 1) = E (y [x, T = 1) est identiable.
Un premier ensemble dhypoth`eses identiantes consiste ` a faire lhypoth`ese que ces quantites
sont egales :
Denition 10.1 On dit quil y a independance forte conditionnellement ` a des observables sil
existe un ensemble de variables observables x tel que :
l (y
1
, y
0
[T, x) = l (y
1
, y
0
[ x)
On dit quil y a independance faible conditionnellement ` a des observables sil existe un ensemble
de variables observables x tel que :
l (y
0
[T, x) = l (y
0
[ x)
Proposition 10.1 Lhypoth`eses dindependance faible est susante pour identier le param`etre

TT
, en revanche, pour identier le param`etre
ATE
il est necessaire davoir recours ` a lhy-
poth`ese dindependance forte.
Proposition 10.2 En eet dans ces conditions, l (y
0
[ x) = l (y
0
[T, x) = l (y
0
[T = 0, x) =
l (y [T = 0, x) la densite de loutput potentiel est identiee et on peut donc estimer E (y
0
[ x, T = 1) =
E (y [ x, T = 0)
123
124 Chapitre 10. Evaluation : Regressions `a variables de controle
Pour comprendre la signication de cette hypoth`ese, on peut revenir `a la modelisation des
outputs precedentes :
_
y
1
=
1
+x
1
+u
1
y
0
=
0
+x
0
+u
0
On a pour y
0
par exemple :
E (y
0
[T, x) =
0
+x
0
+E (u
0
[T, x) = g
0
(x, T)
si il existe une source de variabilite commune `a u
0
et T conditionnellement `a x alors on aura
E (y
0
[T = 1, x) ,= E (y
0
[T = 0, x) . Si neanmoins on est capable detendre lensemble des va-
riables observables en x de telles sorte que lon puisse epuiser les sources de variabilite commune
entre u
0
et T alors on aura
E (y
0
[T, x) =
0
+x
0
+E (u
0
[T, x) = g
0
( x)
Lhypoth`ese dindependance conditionnellement `a des observables consiste `a supposer que lon
est capable de controler pour ces sources de variabilite. Remarquons qualors la fonction g
0
( x)
ne re coit plus dinterpretation economique alors que cela pouvait etre le cas pour
0
+ x
0
.
Dans cette approche on accepte de perdre des informations sur le comportement des individus :
on ne peut plus distinguer leet specique de x sur y
0
de son eet transitant par E (u
0
[ x) .
Le point important est qu`a ce prix, il est possible de construire pour chaque individu traite de
caracteristique x un contrefactuel, cest `a dire une estimation de ce quaurait pu etre sa situation
en labsence de traitement, par le biais de g
0
( x).
10.1.2 Le score de propension (propensity score)
La dimension de lensemble des variables de controle `a introduire pour assurer lindependance
entre le traitement et les outputs potentiels est souvent eleve, ce qui peut conduire `a des com-
plications importantes, notamment pour la mise en oeuvre de version semi parametrique des
estimateurs. Rubin et Rosenbaum (1983) ont montre un resultat important permettant de nom-
breuses simplications pratiques :
Proposition 10.3 Sil y a independance conditionnellement ` a des observable, alors il y a independance
conditionnellement au score : P (T
i
= 1 [x
i
) :
y
0
T [ x =y
0
T [P (T = 1 [ x)
Demonstration On note s = P (T = 1 | x)
P (T = 1 |s, y
0
) =
_
P (T = 1 | x, y
0
) l ( x|s, y
0
) dx =
_
P (T = 1 | x) l ( x|s, y
0
) d x
=
_
sl ( x|s, y
0
) d x = s
De meme, P (T = 1 |s) = s
On a donc : P (T = 1 |s, y
0
) = P (T = 1 |s)
10.1. Independance conditionnelles `a des observables 125
Ainsi le probl`eme de la dimension peut etre resolu de fa con drastique : il est seulement
necessaire de conditionner par une unique variable quelque soit la dimension de lensemble
initialement introduit.
Ainsi une etape initiale de toute evaluation consiste en une regression expliquant laectation
au traitement. Elle est faite par exemple en utilisant un mod`ele Logit.
Remarque 10.1 Si s est un ensemble dinformation plus large que s, par exemple s = s, g ( x) ,
le resultat demeure : P (T = 1 [ s, y
0
) = P (T = 1 [ s) . un tel ensemble dinformation est appele
balancing score. La propriete de Rosenbaum et Rubin est en toute generalite que lorsquil y
a independance conditionnelle ` a des observables, il y a aussi independance conditionnellement ` a
nimporte quel balancing score.
10.1.3 Methodes destimation
Il y a principalement trois methodes destimation. Une basee sur des regressions, une basee
sur des appariements entre individus traite et individus non traites et une basee sur des ponderations.
Toutes ces methodes mettent laccent sur lheterogeneite de leet du traitement au sein de la
population.
Les deux premi`eres estimations ont des caracteristiques communes. Pour chaque individu
traite de caracteristique x
i
on cherche un estimateur de ce quaurait pu etre sa situation en
labsence de traitement, i.e E (y
0
[T = 1, x = x
i
) . La propriete dindependance permet decrire
E (y
0
[T = 1, x = x
i
) = E (y
0
[T = 0, x = x
i
) = E (y [T = 0, x = x
i
) . Les procedures destima-
tion consiste `a estimer de fa con aussi peu restrictive que possible la fonction E (y [T = 0, x = x
i
).
Lestimateur calcule in ne est alors deni par

E ([T = 1, x
i
X) =
1
N
1,X

{T
i
=1,x
i
X}
y
i


E (y [T = 0, x = x
i
)
La fonction E (y [T = 0, x = x
i
) peut etre estimee de dierente fa con correspondant aux ap-
proche par regression ou par appariement.
(i) Regression :
Une premi`ere fa con destimer leet du traitement consiste `a proceder `a la regression de la
variable doutput observee sur le traitement et les variables de controle.
Proposition 10.4 Dans la regression
E (y [T, x) = h(x) +Tg (x)
La propriete dindependance faible E (y
0
[T, x) = E (y
0
[x) permet didentier g (x) = E (y
1
y
0
[T = 1, x) .
On peut estimer
TT
= E (g (x) [T = 1) ` a partir dune estimation convergente de g comme

TT
=
1
N
1

T
i
=1
g (x
i
)
La propriete dindependance forte E (y
0
[T, x) = E (y
0
[x) et E (y
1
[T, x) = E (y
1
[x) permet
didentier g (x) = E (y
1
y
0
[T = 1, x) = E (y
1
y
0
[T = 1, x) . On peut estimer
TT
=
126 Chapitre 10. Evaluation : Regressions `a variables de controle
E (g (x) [T = 1) ` a partir dune estimation convergente de g comme precedemment et
ATE
=
E (g (x))

ATE
=
1
N

g (x
i
)
Demonstration Comme y = y
0
(1 T) +y
1
T = y
0
+T (y
1
y
0
) , on a :
E (y |T, x) = E (y
0
|T, x) +TE (y
1
y
0
|T, x) = E (y
0
|T, x) +TE (y
1
y
0
|T = 1, x)
Comme E (y
0
|T, x) = E (y
0
|x) , on a donc
E (y |T, x) = E (y
0
|x) +TE (y
1
y
0
|T = 1, x)
et on a bien g (x) = E (y
1
y
0
|T = 1, x)
Une estimation non parametrique de y sur la variable de traitement et les variables de
conditionnement permet donc en presence de la seule hypoth`ese y
0
T [x didentier le param`etre

TT
(x) . En pratique : si la propriete dindependance est vraie, elle est aussi vraie pour le score
(propriete de Rosenbaum et Rubin) Les regressions peuvent donc etre basees sur le score et non
sur lensemble des variables explicatives. On peut en pratique proceder aux regressions suivantes
sur les populations separees :
y =
J

j=1

1
j
f
j
(s) +w
1
pour T = 1
y =
J

j=1

0
j
f
j
(s) +w
0
pour T = 0
o` u s est le score. Pour leet du traitement sur les traites, on estime alors :

E ([T = 1) =
1
N
1

T
i
=1
y
1i

j=1

0
j
f
j
(s
i
)
ou aussi :

E ([T = 1) =
1
N
1

T
i
=1
J

j=1
_

1
j

0
j
_
f
j
(s
i
)
Le deuxi`eme estimateur est un peu moins precis puisquil incorpore la variance du residu mais
il evite davoir `a specier et estimer lequation doutput pour les individus traites.
Remarque 10.2 Linteret de cette methode est quelle apparat comme un prolongement na-
turel de la regression ` a variables de contr ole y = xb + T +u.
(ii) Appariement
Pour chaque individu traite

i, ayant des caracteristiques x

i
, on cherche un individu non
traite j
_

i
_
, ayant les memes caracteristiques observables, i.e j
_

i
_

_
j

T
j
= 0, x
j
= x

i
_
.On
estime alors leet du traitement pour lindividu i par

i
= y
i
y
j(

i)
. On compare ainsi loutput
de lindividu considere et loutput dun individu non traite ayant les memes caracteristiques
10.1. Independance conditionnelles `a des observables 127
observables. Le terme dappariement provient de lidee que chaque individu traite est apparie
avec son jumeau non traite.
La quantite y
j(

i)
est un estimateur (non parametrique) de
E
_
y

T = 0, x = x

i
_
= E
_
y
0

T = 0, x = x

i
_
= E
_
y
0

x = x

i
_
= E
_
y
0

T = 1, x = x

i
_
Lestimateur calcule nalement est obtenu en prenant la moyenne de la quantite c

i
= y

i
y
j(

i)
sur la population traitee `a laquelle on sinteresse :

E ([T = 1) =
1
N
1

T
i
=1
y
i
y
j(i)
En pratique il nest pas toujours possible de trouver pour chaque individu traite, un individu
non traite ayant les memes caracteristiques que lindividu traite considere. On peut alors choisir
lindividu apparie de telle sorte que
_
_
_x

i
x
j(

i)
_
_
_

soit minimal, pour une metrique donnee.


Une metrique naturelle dans ce cas est la metrique de Mahalanobis = V (x)
1
.
Neanmoins la qualite de cet appariement peut etre mauvaise en pratique : pour certains
individus traites, il nexiste pas dindividu proche non traite notamment dans le cas o` u il y
a un grand nombre de variables de conditionnement. La propriete de Rosenbaum et Rubin
simplie beaucoup lappariement dans ce cas. En eet cette propriete permet de proceder `a des
appariements sur la base du seul resume des variables de conditionnement que constitue le score.
On peut ainsi apparier des individus dont les caracteristiques peuvent etre tr`es eloignees, mais
qui ont des scores proches.
Ceci constitue le principe de lappariement tel quil a ete developpe par les statisticiens.
De nombreuses questions restent neanmoins non resolues : doit on faire lappariement avec
ou sans rejet ? Un individu non traite une fois apparie doit-il etre evince de lensemble des
individus susceptibles detre apparies avec les individus non traites restants. Si on choisit quun
individu ne peut etre apparie quune seule fois alors la qualite de lappariement se degradera
progressivement. La question est alors de savoir par o` u commencer. De meme, si on dispose dun
echantillon dindividu non traite tr`es vaste, ne peut on pas tirer partie des individus qui in ne
nauront pas ete apparies. Enn, ce principe dappariement tel quil est exprime ne permet pas
de preciser le comportement asymptotique de lestimateur propose.
Extension Kernel matching estimator Les methodes dappariement se generalisent direc-
tement d`es lors que lon interpr`ete y
j(

i)
comme un estimateur non parametrique de E
_
y
0

T = 0, x = x

i
_
.
Dierents autres types destimateurs non parametriques peuvent etre envisages. Ils consistent
tous `a remplacer y
j(

i)
par une moyenne ponderee des observations de lechantillon de controle :

E
_
y
0

T = 1, x = x

i
_
=

T
j
=0
w
N
_

i, j
_
y
j
On peut ainsi considerer une moyenne ponderee dun nombre donne n, `a choisir, de voisins les
plus proches. n nearest neighbours. Lestimateur propose par Rubin est en fait celui du voisin
le plus proche. Considerer un nombre plus important de voisins aecte lerreur quadratique
moyenne de lestimateur, elle meme somme du carre du biais et de la variance de lestimateur.
Lorsque le nombre dindividus considere augmente le biais augmente : on prend en compte des
128 Chapitre 10. Evaluation : Regressions `a variables de controle
individus dont les caracteristiques sont plus eloignees que celle de lindividu traite. En revanche
la variance baisse car on prend la moyenne sur un ensemble plus important dindividus. On
peut montrer que le nombre optimal dindividus `a prendre en compte crot avec la taille de
lechantillon.
Lestimateur propose par Heckmann Ichimura and Todd (1998) est un estimateur `a noyau
de la quantite E
_
y
0

T = 1, x = x

i
_
.

E
_
y
0

T = 1, x = x

i
_
=

T
j
=0
K
h
(x
j
x
i
) y
j

T
j
=0
K
h
(x
j
x
i
)
=

T
j
=0
K
h
(x
j
x
i
)

T
j
=0
K
h
(x
j
x
i
)
y
j
=

T
j
=0
w
N
_
j,

i
_
y
j
dans cette expression K
h
(z) =
1
h
K
_
z
h
_
ou K est un noyau et h un param`etre appele la fenetre.
Le noyau est une fonction maximale en zero, positive en zero, symetrique autour de zero et
dintegrale unitaire (cette condition ne joue pas de role dans le cas de lestimation dune fonction
de regression). Il existe de multiples exemples de noyau, par exemple le noyau uniforme valant
0.5 sur [1, 1] , Dans ce cas lestimateur non parametrique correspondant consiste simplement `a
prendre la moyenne des observations pour des individus dont les caracteristiques se situent dans
lintervalle [x h
N
, x +h
N
] . Un autre exemple correspond `a (z) la densite de la loi normale.
Ce noyau presente lavantage davoir pour support Un noyau frequemment choisi en pratique
dans le cas unidimensionnel est le noyau quartique : K (z) =
15
16
_
1 z
2
_
2
1 [z[ 1
Dans les expressions precedentes, h est la fenetre. Plus elle est faible, moins on prend en
compte les observations seloignant de x
i
. Dans ce cas lestimateur sera tr`es peu precis mais
le biais sera en revanche faible. A linverse, lorsque la fenetre selargit lestimateur considere
devient plus precis autour de sa valeur limite, mais cette valeur limite tend elle meme `a secarter
de la quantite que lon cherche `a estimer. Le choix de la fenetre est tel quil minimise lerreur
quadratique moyenne, somme du carre du biais et de la variance de lestimateur. On peut mon-
trer que lorsque elle est choisie comme une fonction croissante de la dispersion des variables x
et decroissante du nombre dindividu. Un choix possible pour la fenetre est dans le cas unidi-
mensionnel : h(N) =
x
/N
1/5
. En general les estimateurs non parametriques ont une vitesse de
convergence plus faible que les estimateurs parametriques. Ici le rythme de convergence est en

Nh soit une vitesse de convergence en N


2
5
.
Finalement lestimateur de leet moyen du traitement sur les traites est estime par :

E ([T = 1) =
1
N T
i
= 1

{T
i
=1}
_
_
y
i

T
j
=0
w
N
(j, i) y
j
_
_
Bien que base sur des estimateurs non parametriques qui donc convergent lentement, Heckman
Ichimura et Todd ont montre que la vitesse de convergence de cet estimateur est en

N. Ceci
tient au fait que lestimateur nal est une moyenne destimateurs non parametriques. Il est dit
semi -parametrique. Lexpression de la variance de cet estimateur est complexe et son estimation
`a partir de sa formule litterale necessite l` a aussi le calcul dintermediaires non parametrique. En
pratique, on determine la variance de cet estimateur par bootstrap. Ceci consiste `a tirer avec
remise un grand nombre dechantillons aleatoires dans la population, et `a appliquer sur chacun
de ces echantillons toute la procedure destimation. La distribution des estimateurs que lon
10.1. Independance conditionnelles `a des observables 129
obtient in ne est la distribution exacte de lestimateur. On peut lutiliser pour determiner les
ecarts-type ou les intervalles de conance.
L` a aussi la propriete de Rubin est tr`es importante. En eet elle autorise `a proceder `a la
regression non parametrique sur la seule variable que constitue le score s (x) . On est ainsi amene
`a calculer pour chaque individu :

E
_
y
0

T = 1, s (x) = s
_
x

i
__
et non plus

E
_
y
0

T = 1, x = x

i
_
.
Cette simplication ne remet pas en cause la validite de lestimateur alternatif base sur lappa-
riement sur chacune des caracteristiques. La vitesse de convergence nest pas plus elevee avec
lun quavec lautre estimateur. Neanmoins le nombre dobservations necessaires pour que ce
comportement asymptotique soit obtenu est vraisemblablement plus faible avec lappariement
sur le score. Cet estimateur apparat plus able `a ce titre.
Remarque 10.3 : Les resultats precedents peuvent etre appliques en sens inverse pour ap-
paries chaque individu non traite avec un (des) individus traites. On estime alors E ([T = 0, x
i
X) .
On peut donc par appariement estimer leet moyen du traitement.
(iii) Ponderations
Une derni`ere methode destimation est basee sur des ponderations.
Proposition 10.5 Sous lhypoth`ese dindependance faible conditionnelle aux observables, leet
moyen du traitement verie la relation
E (c) = E
_
y
_
T
P (x)

(1 T)
(1 P (x))
__
Sous lhypoth`ese dindependance faible conditionnelle aux observables, leet du traitement sur
les traites verie la relation
E (c [T = 1) = E
_
y
P (x)
P (T = 1)
_
T
P (x)

(1 T)
(1 P (x))
__
Demonstration En eet, les proprietes dindependance conditionnelles permettent didentier tr`es simplement
les esperances des outputs potentiels.
y
k
T |x =E (y
k
1 (T = k) |x) = E (y
k
|x) E ((1 (T = k)) |x) = E (y
k
|x) P (T = k |x)
On a donc :
E (y
k
|x) = E
_
y
k
1 (T = k)
P (T = k |x)
|x
_
Do` u la premi`ere relation. Par ailleurs on a
E (y
0
T |x) = P (x) E (y
0
|T = 1, x) = P (x) E (y
0
|T = 1, x) E
_
1 T
1 P (x)
|x
_
= E
_
P (x) E (y
0
|T = 1, x)
1 T
1 P (x)
|x
_
Do` u
E (y
0
T) = E (y
0
|T = 1) P (T = 1) = E
_
P (x) E (y
0
|T = 1, x)
1 T
1 P (x)
_
Comme E (y
0
|T = 1, x) = E (y
0
|T = 0, x)
E (y
0
|T = 1) = E
_
P (x) E (y
0
|T = 1, x)
1 T
1 P (x)
__
P (T = 1)
= E
_
P (x) E (y
0
|T = 0, x)
1 T
1 P (x)
__
P (T = 1)
= E
_
E
_
P (x) y
0
1 T
1 P (x)
|T = 0, x
___
P (T = 1)
= E
_
P (x) y
0
1 T
1 P (x)
__
P (T = 1)
130 Chapitre 10. Evaluation : Regressions `a variables de controle

10.1.4 Vraisemblance de lhypoth`ese dindependance conditionnelle `a des ob-


servables.
Plusieurs questions se posent concernant la methode par appariement. La premi`ere concerne
de savoir sil est raisonnable de faire lhypoth`ese dindependance conditionnelle `a des observables.
La deuxi`eme est comment choisir en pratique les variables de conditionnement ? Faut-il retenir
toute linformation `a disposition ? On presente dabord un resultat permettant de repondre en
partie `a ces questions :
Proposition 10.6 z
1
z
2
[w
1
, w
2
et w
2
z
2
[w
1
=z
1
z
2
[w
1
Demonstration En eet :
l (z
1
, z
2
|w
1
) =
_
l (z
1
, z
2
|w
1
, w
2
) l (w
2
|w
1
) dw
2
en outre : l (z
1
, z
2
|w
1
, w
2
) = l (z
1
|w
1
, w
2
) l (z
2
|w
1
, w
2
) = l (z
1
|w
1
, w
2
) l (z
2
|w
1
) , do` u :
l (z
1
, z
2
|w
1
) =
_
l (z
1
|w
1
, w
2
) l (z
2
|w
1
) l (w
2
|w
1
) dw
2
= l (z
2
|w
1
)
_
l (z
1
|w
1
, w
2
) l (w
2
|w
1
) dw
2
= l (z
2
|w
1
) l (z
1
|w
1
)

(i) Prise en compte deets individuels : lapport de donnees temporelles


Lhypoth`ese dindependance conditionnelle `a des observables a en fait peu de chance detre
satisfaite d`es lors que les variables sont en niveau. Il y a en eet une heterogeneite tr`es forte
dans les situations individuelles. Il est peu vraisemblable que lon puisse par adjonction de va-
riable de controle epuiser toute la partie de cette heterogeneite qui est prise en compte dans
la decision de participation. La majeur partie de cette heterogeneite correspond `a la presence
de caracteristiques inobservees permanentes dans le temps semblable `a un eet individuel. Les
resultats dont on dispose en econometrie des donnees de panel montrent bien que premi`erement,
les eets individuels ont une tr`es forte variance, meme dans les mod`eles dans lesquels on a
cherche `a introduire de nombreux controles et que deuxi`emement lhypoth`ese dindependance
entre les variables explicatives et les eets individuels est tr`es frequemment rejetee. Une hy-
poth`ese plus vraisemblable consisterait `a introduire dans les variables de conditionnement un
terme dheterogeneite constant dans le temps :
H
Forte
: y
0
, y
1
T [x, u
H
Faible
: y
0
T [x, u
Prendre en compte cette heterogeneite dans le cadre precedent nest pas directement possible
justement parce quelle est inobservable.
Neanmoins, `a linstar de ce qui est eectue dans le cadre de leconometrie des donnees de
panel, elle peut etre eliminee par dierentiation. Plus precisement, prenant par exemple le cas
de lindependance faible, on a la proposition suivante qui decoule directement de la proposition
precedente :
10.1. Independance conditionnelles `a des observables 131
Proposition 10.7 Dans le cas o` u il existe un element inobserve u tel que la condition
y
0
T [x, u
est veriee. Si :
1. Il existe des observations disponibles y
p
de loutput anterieures au traitement
2. y
0
y
p
T [x, u , ce qui est vrai d`es lors que y
p
x dans la condition y
0
T [x, u
3. y
0
y
p
u[x ,
alors la condition dindependance,
y
0
y
p
T [x
est veriee
On voit que dans ce cas leet individuel peut etre elimine par dierentiation et on retrouve
une propriete dindependance conditionnelle `a des observables. En pratique, ceci revient `a in-
troduire les variables passees de loutput dans la liste des variables de conditionnement et `a
considerer comme variable doutput non les outputs eux memes, mais leur evolutions. Notant
y
1
= y
1
y
p
et y
0
= y
0
y
p
, on estime
E (y
1
y
0
[T = 1, x) = E ((y
1
y
p
) (y
0
y
p
) [T = 1, x) = E (y
1
y
0
[T = 1, x)
qui est donc bien le param`etre cherche.
(ii) Selection des observables
On peut etre tente de considerer un grand nombre de variables de conditionnement. Ceci nest
pas necessairement une bonne propriete comme on le verra et il vaut mieux chercher lensemble
de variables de conditionnement le plus petit possible tel que la condition dindependance soit
satisfaite.
Proposition 10.8 Supposons
y
0
, y
1
T [x
1
, x
2
Si seule une partie de ces variables aecte la variable de traitement :
Tx
2
[x
1
Alors on a
y
0
, y
1
T [x
1
La liste des variables de conditionnement peut etre amputee de toutes les variables qui
naectent pas la variable de traitement, ce qui peut etre aisement teste sur les donnees.
132 Chapitre 10. Evaluation : Regressions `a variables de controle

1 0
f(s)

1 0
f(s)
Support commun
f(s|T=0) f(s|T=1)
(iii) Probl`eme de support
La question du support des distributions du score conditionnellement au traitement est
essentielle dans ce type danalyse. Son importance a ete soulignee par Heckman et al. (1998)
qui ont montre quelle constitue une source forte de biais dans lestimation de leet causal du
traitement.
Dans les methodes destimation par appariement ou par regression, il est necessaire de pou-
voir construire pour chaque individu traite un contrefactuel `a partir des individus non traites,
cest-`a-dire de pouvoir estimer E (y [s, T = 0) pour determiner leet causal du traitement sur
la population des individus traites. En outre, il est necessaire destimer E (y [s, T = 1) d`es quon
sinteresse `a leet causal du traitement dans la population totale.
Une estimation non parametrique de cette quantite, donc sans restriction sur la forme quelle
prend, impose que lon dispose pour un individu traite de score s dindividus non traites ayant
des valeurs du score proche de s. Dit dune autre mani`ere, la densite du score pour les individus
non traites ne doit pas etre nulles pour les valeurs du score des individus traites consideres.
On ne peut donc construire de contrefactuel que pour les individus dont le score appartient `a
lintersection des supports de la distribution du score des individus traites et des individus non
traites.
Ceci conduit `a la conclusion que meme sous lhypoth`ese dindependance conditionnelle `a des
observables, on ne peut pas systematiquement estimer E () ou E ([T = 1) dans la mesure o` u
E ([s) ne peut etre estime que pour les individus dont le score appartient au support commun
de la distribution du score pour les individus traites et non traites. Lestimateur obtenu in ne
est alors un estimateur local : E (c [s S

) ou E (c [s S

, T = 1), avec S

le support commun
deni par S

= S
T=1
S
T=0
avec S
T=1
le support de la distribution du score des individus
traites et S
T=0
celui des individus non traites.
Cette condition du support a une autre implication : le mod`ele servant `a la construction du
score, cest `a dire expliquant le traitement `a partir des variables de conditionnement, ne doit pas
etre trop bon. Dans le cas extreme o` u on expliquerait parfaitement le traitement, les densites
du score conditionnellement au traitement seraient toutes deux des masses de Dirac, lune en
zero pour les individus non traites, lautre en 1 pour les individus traites. Les supports seraient
alors disjoints et aucun appariement ne serait possible.
Pour bien comprendre cette condition importante du score, il faut garder presente `a lesprit
lidee initiale de Rubin : conditionnellement `a un ensemble de variables explicatives x (ou le
10.1. Independance conditionnelles `a des observables 133
score), on se trouve dans le cas dune experience controlee, cest `a dire dans laquelle on dispose
dindividus traites et non traites qui sont aectes aleatoirement `a chacun de ces groupes. Il
faut dans chaque cellule dans laquelle on se trouve dans des conditions dexperience quil y
ait un fort alea sur laectation au traitement. La persistance de cette composante aleatoire
de laectation au traitement conditionnellement `a des observables est ainsi essentielle dans la
procedure dappariement.
Remarque 10.4 Il peut etre utile dutiliser des restrictions a priori. Les mod`eles precedents
sont en eet purement statistiques. Frequemment on a une idee de modelisation de la variable
doutput ` a partir dun ensemble de variables explicatives.
y
0
= r +u
0
avec r u
0
Le probl`eme dendogeneite provient alors du fait que la variable de traitement est correlee ` a la
perturbation conditionnellement ` a r. On peut supposer que la propriete dindependance est vraie
lorsque lon adjoint un ensemble de variables z ` a r.
u
0
T [r, z
On fait lhypoth`ese r T [z , ce qui revient ` a supposer P (T = 1 [r, z ) = P (T = 1 [z ) = P (z) .
En outre on etend la condition dindependance : r u
0
` a r u
0
[z . Dans ces conditions on a
le resultat suivant
E (y
0
[T, r, P (z)) = r +h(P (z))
En eet
E (y
0
[T, r, P (z)) = r +E (u
0
[T, r, P (z))
Comme u
0
T [r, z on a en raison de la propriete de Rubin et Rosenbaum u
0
T [P (T = 1 [r, z ).
et P (T = 1 [r, z ) = P (T = 1 [z ). On a donc :
u
0
T [P (z) , r
do` u
E (u
0
[T, r, P (z)) = E (u
0
[r, P (z)) = E (u
0
[P (z))
o` u la derni`ere egalite provient du fait que r u
0
[z . On peut donc transposer tous les estimateurs
precedents au cas present. On peut en particulier proceder comme suit. On estime dabord le
param`etre . Pour cela on remarque que comme :
E (y [T = 0, r, P (z)) = r +h(P (z))
on a
E (y [T = 0, P (z)) = E (r [T = 0, P (z)) +h(P (z))
En prenant la dierence des deux equations, on en deduit :
E (y E (y [T = 0, P (z)) [T = 0, r, P (z)) = (r E (r [T = 0, P (z)))
Dont on deduit que
E (y E (y [T = 0, P (z)) [T = 0, r ) = (r E (r [T = 0, P (z)))
134 Chapitre 10. Evaluation : Regressions `a variables de controle
Ce qui signie quon peut estimer en regressant simplement les residus des regressions non
parametriques y

E (y [T = 0, P (z)) et r

E (r [T = 0, P (z)) lun sur lautre. La fonction h
peut alors etre estimee ` a partir y r. En eet :
E (y r [T = 0, r, P (z)) = h(P (z)) = E (y r [T = 0, P (z))
Le contrefactuel pour un individu traite i de caracteristiques r
i
et P
i
est alors

E (y
0i
[T = 1, r
i
, P
i
) = r
i

+
1
N
0

T
j
=0
_
y
j
r
j

_
K
h
(P
j
P
i
)

T
j
=0
K
h
(P
j
P
i
)
et lestimateur de leet du traitement est alors

TT
=
1
N
1

T
i
=1
_

_
y
i
r
i


1
N
0

T
j
=0
_
y
j
r
j

_
K
h
(P
j
P
i
)

T
j
=0
K
h
(P
j
P
i
)
_

_
10.2 Le mod`ele de selectivite sur inobservables
Lapproche precedente presente des attraits non negligeables. Le premier est quelle est assez
naturelle : on compare des individus traites et non traites aussi similaires que possible. Le
second avantage est quelle ne necessite pas la modelisation du comportement des agents. En
revanche, elle presente des limites certaines. Ainsi elle nest pas toujours realisable. Lobtention
de la condition dindependance peut requerir lintroduction dun grand nombre de variables de
conditionnement qui ne sont pas toujours accessibles d

une part et reduisent aussi la pertinence


de lanalyse dans la mesure o` u les possibilites de comparaison dun individu `a lautre se reduisent
lorsque lon explique de mieux en mieux laectation au traitement, i.e. lorsque crot le nombre
de variables de conditionnement. Enn et surtout, les methodes dappariement sur observables
presentent un caract`ere mecanique qui fait reposer levaluation sur une propriete purement
statistique, en pratique dicile `a justier `a partir du comportement des agents. Dans une certaine
mesure linteret que presente le fait de ne pas modeliser les comportements comporte aussi un
revers qui est celui de conduire `a des evaluations dont les fondements peuvent paratre peu
etayes. Il peut etre preferable de modeliser les output potentiel et la decision de participation
de fa con jointe. On parvient alors au mod`ele de selectivite sur inobservable. On lecrit sous la
forme suivante. Les deux outputs potentiels y
1
et y
0
sont modelises sous la forme :
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
On modelise egalement laectation au traitement par le biais dune variable latente, T

:
T

= zc +v
T = 1 T

0
T

peut representer par exemple le gain net du co ut du traitement c (z, ) + : T

= y
1
y
0

c (z, )
10.2. Le mod`ele de selectivite sur inobservables 135
La principale hypoth`ese identiante eectuee consiste ` a supposer lindependance entre les
variables de conditionnement et les elements inobserves.
(u
1
, u
0
, v) (x, z)
Denition 10.2 Le mod`ele de selectivite sur inobservable est deni par la modelisation jointe
des outputs potentiels et de laectation au traitement
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
T = 1 zc +v 0
avec en outre lhypoth`ese dindependance
(u
1
, u
0
, v) (r, z)
Remarque 10.5 Ces hypoth`ese sont tr`es dierentes de celle du mod`ele de selectivite sur ob-
servables. Dans le mod`ele de selectivite sur observables, on faisait lhypoth`ese que la correlation
entre la variable de traitement T et les elements inobserves u
0
pouvait etre eliminee par en in-
troduisant des variables de conditionnement supplementaires. Ces variables etaient par denition
des variables aectant ` a la fois le traitement et la perturbation. Lhypoth`ese est ici diametralement
opposee dans la mesure ou elle consiste ` a dire qu` a linverse il existe une variable z aectant le
traitement mais pas les elements inobserves. Elle est donc tr`es proche dune variable instrumen-
tale, alors que dans lapproche precedente il sagissait de variable de contr ole.
Dans cette approche, le score P (T = 1 [r, z ) est encore amene `a joue un role central. Sous
les hypoth`eses eectuees le score ne depend que des variables z. En eet
P (T = 1 [r, z ) = P (zc +v > 0 [r, z ) = P (zc +v > 0 [z ) = P (z)
Toutefois, ces hypoth`eses ne sont pas susantes pour assurer lidentication des param`etres
dinteret et il existe en fait une dierence importante avec les variables instrumentales, sur
laquelle on reviendra plus tard. Les param`etres dinteret sont denis par :

ATE
= E (y
1
y
0
) = E (
1

0
+r (
1

0
))

TT
= E (y
1
y
0
[T = 1) = E (y
1
(
0
+r
0
+u
0
) [T = 1)
10.2.1 Expression des param`etres dinteret dans le cas general
Proposition 10.9 Dans le cas du mod`ele de selectivite sur inobservables, si les fonctions de
repartition de v est strictement croissante, il existe deux fonctions K
0
(P (zc)) et K
1
(P (zc))
telles que
E (y
0
[T = 0, r, z ) =
0
+r
0
+K
0
(P (zc))
E (y
1
[T = 1, r, z ) =
1
+r
1
+K
1
(P (zc))
136 Chapitre 10. Evaluation : Regressions `a variables de controle
Les param`etres dinteret sont alors denis par

TT
= E
_
y
_

0
+r
0

1 P (z)
P (z)
K
0
(P (zc))
_

T = 1
_

ATE
= E (
1

0
+r (
1

0
))
o` u
P (zc) = P (T = 1 [r, z )
Demonstration La forme des fonctions retenues est une application directe du mod`ele de selection sur inobser-
vables vu precedemment. Pour ce qui concerne le param`etre
TT
, lidentication porte donc essentiellement sur
loutput potentiel y
0
. Les donnees sur cet output concernent les individus pour lesquels T = 0. On a :
E (y
0
|T = 0, r, z ) =
0
+r
0
+E (u
0
|T = 0, r, z ) =
0
+r
0
+K
0
(P (zc))
et on souhaite identier
E (y
0
|T = 1, r, z ) =
0
+r
0
+E (u
0
|T = 1, r, z )
Les quantites E (u
0
|T = 0, r, z ) et E (u
0
|T = 1, r, z ) sont liees par :
0 = E (u
0
|r, z ) = E (u
0
|T = 0, r, z ) (1 P (zc)) +E (u
0
|T = 1, r, z ) P (zc)
do` u
E (u
0
|T = 1, r, z ) =
(1 P (zc))
P (zc)
K
0
(P (zc))

En toute generalite on ne peut donner la forme des fonctions K


0
et K
1
. Elle font en eet
intervenir la loi jointe des element (u
0
, v) et (u
1
, v) . Ceci est `a lorigine dun probl`eme impor-
tant pour lestimation puisque comme les expressions precedentes le montrent clairement, il est
necessaire de pouvoir separer les fonctions K des constantes .
On va voir dabord comment il est possible de resoudre ce probl`eme en speciant la loi jointes
des observations. Puis on examinera le cas dans lequel on ne fait pas dhypoth`ese et on verra
quil faut des conditions particuli`eres et au total assez restrictives pour identier chacun des
deux param`etres dinteret.
10.2.2 Le cas Normal
La specication de la loi jointe des observations comme des lois normales permet diden-
tier aisement le mod`ele. On peut soit recourir `a la methode du maximum de vraisemblance
soit recourir `a une methode en deux etapes due `a lorigine `a Heckman, basee sur les resultats
precedents. Cest cette derni`ere methode que lon presente car elle est dun emploi plus facile et
est directement liee `a la presentation precedente. Elle presente en outre un degres de generalite
leg`erement superieure. On reprend le mod`ele doutputs potentiels precedents :
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
avec la r`egle daectation au traitement basee sur la variable latente, T

:
T

= zc +v
T = 1 T

0
10.2. Le mod`ele de selectivite sur inobservables 137
Outre lhypoth`ese dindependance dej` a evoquee, on fait lhypoth`ese que les deux couples (u
0
, v)
et (u
1
, v) suivent une loi normale.
Les resultats precedents permettent decrire que :
E (y
0
[r, z, T = 0) =
0
+r
0

1
(zc)
E (y
1
[r, z, T = 1) =
1
+r
1
+
1

(zc)
Par rapport aux expressions obtenues dans le cas general
E (y
0
[T = 0, r, z ) =
0
+r
0
+K
0
(P (zc))
et compte tenu du fait que P (zc) = (zc) , on voit que le fait de specier la loi des observations
comme une loi normale revient `a imposer que les fonctions K
0
(P (zc)) et K
1
(P (zc)) ont pour
expressions :
K
0
(P (zc)) =
0

0

1
(P (zc))
1 P (zc)
K
0
(P (z)) =
1

1

1
(P (zc))
P (zc)
Elle ne depend donc que dun param`etre supplementaire
0

0
. Les param`etres dinteret
TT
et

ATE
ont alors pour expressions :

TT
= E
_
y
_

0
+r
0

1 P (z)
P (z)
K
0
(P (zc))
_

T = 1
_
= E
_
y
_

0
+r
0
+
0

0

1
(P (zc))
P (zc)
_

T = 1
_
= E
_
y
_

0
+r
0
+
0

(zc)
_

T = 1
_

ATE
= E (
1

0
+r (
1

0
))
Mise en oeuvre :
1. Estimation du mod`ele probit associe au traitement et determination des variables de biais

(zc) et

1
(zc)
2. Estimation des regressions sur chacune des populations traitees et non traitees : identi-
cation des param`etres
1
,
0
,
1
,
0
et des param`etres
1

u
1
et
0

u0
.
3. Estimation des param`etres dinteret

TT
=
1
N
1

d
i
=1
_
y
i

_

0
+r
i

0
+
0

(z
i
c)
__

ATE
=
1
N

_

1

0
+r
i
_

0
__
4. Calcul des ecarts-type, on doit prendre en compte le fait que le param`etres du mod`ele
Probit a ete estime dans une premi`ere etape.
138 Chapitre 10. Evaluation : Regressions `a variables de controle
10.2.3 Des extensions parametriques simples
Comme dans le cas du mod`ele de selection du chapitre precedent, on peut etendre dabord
les resultats obtenus avec la loi normale `a des familles de lois plus generales.
(i) Loi quelconque donnee pour le residu de lequation de selection.
On a vu dans le chapitre precedent que le mod`ele de selection pouvait etre facilement etendu
en considerant une loi quelconque pour lequation de selection. Elle donne alors lieu `a une
probabilite de selection notee P (z)
E (y [I = 1, x, z ) = xb +
u

1
P (z)
P (z)
Ce resultats se transposent directement au cas du mod`ele causal. Les equations des outputs
potentiels sont :
P (T = 1 [z ) = P (z)
E (y
0
[T = 0, r, z ) =
0
+r
0

0

1
P (z)
1 P (z)
E (y
1
[T = 1, r, z ) =
1
+r
1
+
1

1

1
P (z)
P (z)
Les param`etres dinteret ont alors pour expression :

TT
= E
_
y
_

0
+r
0
+
0

0

1
(P (z))
P (z)
_

T = 1
_

ATE
= E (
1

0
+r (
1

0
))
(ii) Des lois plus generales que la loi normale
On peut considerer le mod`ele de selection precedent en faisant lhypoth`ese que les elements
inobserves ont pour loi jointe une loi de Student de degres et non pas une loi normale. On
a vu dans le chapitre precedent que ceci conduisait `a la specication suivante pour lequation
doutput :
E (y [d = 1, x, z ) = xb +
+G
1

(P (z))
2
1
g

G
1

(P (z))
P (z)
L` a aussi les resultats se transposent directement au cas du mod`ele causal. Les equations des
outputs potentiels sont :
P (T = 1 [z ) = P (z)
E (y
0
[T = 0, r, z ) =
0
+r
0

0
+G
1

(P (z))
2
1
g

G
1

(P (z))
1 P (z)
E (y
1
[T = 1, r, z ) =
1
+r
1
+
1

1
+G
1

(P (z))
2
1
g

G
1

(P (z))
P (z)
Les param`etres dinteret ont alors pour expression :

TT
= E
_
y
_

0
+r
0
+
0

0
+G
1

(P (z))
2
1
g

G
1

(P (z))
P (z)
_

T = 1
_

ATE
= E (
1

0
+r (
1

0
))
10.2. Le mod`ele de selectivite sur inobservables 139
On dispose ainsi dun ensemble tr`es vaste de possibilites destimation des param`etres correspon-
dant `a dierentes hypoth`eses sur la loi des perturbations. Ces choix reviennent tous `a introduire
des termes dierents dans les equations des outputs potentiels. Ils ont des consequences impor-
tantes sur lestimation des param`etres dinteret. Il est en outre dicile de realiser des tests per-
mettant dexaminer quelle specication est preferable dans la mesure o` u les hypoth`eses ne sont
pas embotees. On peut donc souhaiter estimer ces mod`eles sans avoir recours `a la specication
de la loi jointe des perturbations.
10.2.4 Le mod`ele de selection semi parametrique.
On reprend le mod`ele de selectivite sur inobservables :
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
avec la modelisation de laectation au traitement :
T

= zc +v
T = 1 T

0
on suppose comme precedemment lindependance entre les variables de conditionnement et les
elements inobserves.
(u
1
, u
0
, v) (x, z)
On a vu quen labsence dhypoth`eses sur la loi jointe des perturbations, les equations des
outputs potentiels prenaient la forme :
E (y
0
[T = 0, r, z ) =
0
+r
0
+K
0
(P (z))
E (y
1
[T = 1, r, z ) =
1
+r
1
+K
1
(P (z))
avec K
0
et K
1
des fonctions non speciees. Les param`etres dinteret secrivent simplement
comme :

TT
= E
_
y
_

0
+r
0

1 P (z)
P (z)
K
0
(P (z))
_

T = 1
_

ATE
= E (
1

0
+r (
1

0
))
La diculte de lestimation est double. Dune part il est necessaire destimer les param`etres
et en laissant la fonction K non speciee. En deuxi`eme lieu il faut estimer la fonction K elle
meme. On proc`ede en plusieurs etapes. Dans un premier temps, on estime le param`etre . Dans
un deuxi`eme temps, on estime la fonction G = +K. Enn dans un dernier temps on separe
de K.
140 Chapitre 10. Evaluation : Regressions `a variables de controle
(i) Identication des param`etres
Pour les param`etres
0
et
1
, on applique la methode destimation de Robinson vue dans le
chapitre precedent. Ceci consiste `a prendre rappelons comme dans le theor`eme de Frish-Waugh,
lecart des variables y et r `a leur esperance conditionnellement au score (la dierence avec le
theor`eme de Frish-Waugh est quil ne sagit plus dune simple projection lineaire). Il sut ensuite
de regresser le residus obtenu pour y sur ceux obtenus pour les variables r.
(ii) Identication des constantes et des termes de biais de selectivite K
0
et K
1
.
Dans un premier temps on identie les quantites

K
0
(P (z)) =
0
+ K
0
(P (z)) et

K
1
(P (z)) =

1
+ K
1
(P (z)). Pour cela on forme le residu v
0
= y r

0
et on utilise le fait que
E (v
0
[T = 0, P (z)) = E (y r
0
[T = 0, P (z)) =
0
+K
0
(P (z)) =

K
0
(P (z))
la regression non parametrique du residu sur le score fournit un estimateur de

K
0
. Par exemple
pour une valeur donnee de p
0
de P (z) on estime :

K
0
(p
0
) =

jI
0
K
h
(P (z
j
) p
0
) v
0i

jI
0
K
h
(P (z
j
) p
0
)
Pour identier les constantes p.e.
0
il est necessaire de disposer de valeurs de P (z) telle que
K
0
(P (z)) = 0.
Il existe une possibilite didentication naturelle. On a les relations :
K
0
(0) = 0 et K
1
(1) = 0
En eet, on utilise le fait que E (u
0
[z ) = 0 et E (u
1
[z ) = 0. Pour la fonction K
0
par exemple,
on a
E (u
0
[z ) = 0 = E (u
0
[z , T = 1) P (z) +E (u
0
[z , T = 0) (1 P (z))
et la fonction K
0
est denie par :
K
0
(P (z)) = E (u
0
[z, T = 0)
On a donc :
E (u
0
[z , T = 1) P (z) +K
0
(P (z)) (1 P (z)) = 0
On a donc bien K (0) = 0 :
Une fa con de tirer parti de ces restrictions est de considerer la moyenne desresidus y r

0
pour les individus non traites ayant une faible probabilite detre traite. Plus precisement, un
estimateur de la constante
0
pourrait etre :

0
=

i
_
y
i
r
i

0
_
(1 T
i
) 1 (z
i
c <

n
)

i
(1 T
i
) 1
_
z
i
c <

n
_
o` u

n
est une suite tendant vers .
10.2. Le mod`ele de selectivite sur inobservables 141
Remarque 10.6 Ces hypoth`eses permettent didentier ` a linni la constante
0
, et donc
la fonction K
0
() . Il est possible didentier ainsi E (y
0
) et E (y
0
[T = 1) . Ces hypoth`eses suf-
sent donc pour identier . On peut remarquer que dans ce cas la determination du param`etre
dinteret fait intervenir la determination de la fonction K
0
en chaque point du support du score
pour les individus traites. La forme nale de lestimateur est ainsi

TT
=
1
N
1

T
i
=1
_

_
y
i

0
r
i

0
+
1 P (z
i
)
P (z
i
)
_
_
_
_

jI
0
K
h
(P (z
j
) P (z
i
))
_
y
j
r
j

0
_

jI
0
K
h
(P (z
j
) P (z
i
))

0
_
_
_
_
_

_
=
1
N
1

T
i
=1
_

_
y
i


0
P (z
i
)
r
i

0
+
1 P (z
i
)
P (z
i
)
_
_
_
_

jI
0
K
h
(P (z
j
) P (z
i
))
_
y
j
r
j

0
_

jI
0
K
h
(P (z
j
) P (z
i
))
_
_
_
_
_

_
Dans ce cas il est possible didentier la constante
1
et donc la fonction K
1
. On peut sous
lensemble de ces hypoth`eses identier le param`etre E (y
1
) et donc leet moyen du traitement
qui sera simplement deni comme

ATE
=
1
N

i
_

1

0
+r
i
_

0
__
En pratique la probabilite de recevoir le traitement est souvent concentree vers des valeurs
faibles. Si les hypoth`eses sur les queues de distribution, concernant lidentication de
0
sont
vraisemblables, il nen est pas de meme de celles concernant lidentication de
1
. Il est donc
vraisemblable quen general lidentication de leet moyen du traitement echappe `a ce type
dapproche.
142 Chapitre 10. Evaluation : Regressions `a variables de controle
Chapitre 11
Variables instrumentales
On a considere jusqu`a present le cas de mod`eles secrivant
y
i
= b
0
+x
1
i
b
1
+ +x
K
i
b
K
+u
i
avec lhypoth`ese
E
_
x

i
u
i
_
= 0 ou E (u
i
[x
i
) = 0
Cette hypoth`ese peut aussi constituer une denition statistique du param`etre b. Le coe-
cient b sinterpr`ete alors comme le vecteur des coecients de la regression lineaire de y
i
sur le
vecteur de variables x
i
. Une telle denition presente un interet dans une approche descriptive des
donnees. Neanmoins on est frequemment amene `a estimer des mod`eles structurels dans lesquels
les param`etres ont un sens economique. Le plus simple dentre eux est certainement la fonction
de production
y
i
= a +k
i
+l
i
+u
i
le param`etre mesure en pourcentage lincidence dune augmentation de 1% du stock de capital
sur la production. Ce param`etre economique na pourtant aucune raison de concider avec celui
de la regression lineaire, et on peut meme avancer de nombreuses raisons pour lesquelles il
pourrait ne pas concider. On est ainsi frequemment amene `a considerer des mod`eles structurels
pour lesquels on a une equation lineaire entre une variable dinteret et des variables explicatives
mais pour laquelle on a des raisons de remettre en doute lhypoth`ese E (u
i
[x
i
) = 0. Ce chapitre
est consacre `a la presentation des methodes destimations elementaires adaptees `a lestimation
des param`etres structurels dans ce cas. On va voir que lon peut identier le param`etre dinteret
en ayant recours `a des hypoth`eses alternatives `a E (u
i
[x
i
) = 0 qui mobilisent des informations
exterieures. Elles vont prendre la forme suivante : il existent des variables exterieures dites
instrumentales telles que E (u
i
[z
i
) = 0 et E (z

i
x
i
) de rang K + 1. On va voir aussi deux tests
tr`es importants dits tests de specications qui permettent de guider dans le choix des variables
exterieures (test de Sargan) et de tester lhypoth`ese des mco : E (u
i
[x
i
) = 0 (test dexogeneite).
Si dans les chapitres precedents on mettait beaucoup laccent sur lecacite des estimateurs
(le Theor`eme de Gauss-Markov), ici on va mettre au contraire laccent sur lidentication des
param`etres et sur la robustesse des estimations, et on va voir quil y a un arbitrage entre
robustesse et ecacite.
143
144 Chapitre 11. Variables instrumentales
11.1 Trois exemples types dendogeneite des regresseurs
11.1.1 Erreur de mesure sur les variables
On consid`ere la situation dans laquelle on a un mod`ele structurel
y
i
= x

i
b +u
i
La variable x

i
est supposee pour simplier de dimension 1 et centree comme la variable y
i
et on fait l

hypoth`ese E (u
i
[x

i
) = 0.
On suppose en outre que la variable x

i
est mesuree avec erreur :
x
i
= x

i
+e
i
avec E (e
i
[x

i
) = 0 et u
i
et e
i
non correles.
Dans ces conditions le mod`ele dont on dispose est
y
i
= x
i
b +u
i
be
i
On est dans une situation dans laquelle le residu de lequation v
i
= u
i
be
i
est correle avec la
variable explicative
E (v
i
x
i
) = E ((u
i
be
i
) (x

i
+e
i
))
= E (u
i
x

i
) +E (u
i
e
i
) bE (e
i
x

i
) bE
_
e
2
i
_
= b
2
e
,= 0
On voit alors tr`es facilement qu`a la limite le param`etre de la regression lineaire ne concide pas
avec celui du mod`ele : lestimateur des mco nest pas convergent.
b
mco
P
b +
E
_
x

i
v
i
_
E
_
x

i
x
i
_ = b
_
1

2
e

2
e
+
2
x

_
11.1.2 Simultaneite
La simultaneite est la situation dans laquelle certains des regresseurs et la variable `a expliquer
sont determines simultanement. Un exemple typique est celui dun equilibre ore demande. Une
equation de demande va ainsi secrire
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
La variable de prix p
i
ne peut pas etre consideree comme exog`ene. En eet, il y a aussi une
equation dore
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
On peut resoudre ce syst`eme pour exprimer
p
i
=
1

s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
un choc de demande u
d
i
est transmis dans les prix : E
_
u
d
i
p
i
_
,= 0. On peut voir aisement que
lestimateur des mco de lequation de demande ou dore sera biaise. On peut pour cela considerer
11.1. Trois exemples types dendogeneite des regresseurs 145
Fig.11.1 Diff erents equilibre offre-demande

Y*
p
y
Demande
Offre
P*

Equilibre Offre-Demande

Uniquement des chocs doffre
p
y

p
y
Uniquement des chocs de demande

Chocs doffre et de demande
p
y
Droite de rgression
le graphe representant lequilibre ore demande represente sur la gure 11.1. Les observations
correspondent `a lensemble des intersections des courbes dore et de demande. Ces courbes se
deplacent, sous laction des variations des variables explicatives et aussi sous laction des chocs
de demande et dore. On voit que sil ny a que des chocs de demande, lensemble des points
dintersection des courbes dore et de demande va decrire la courbe de demande, de meme, sil
ny a que des chocs de demande, lensemble des points dequilibre va decrire la courbe dore.
Dans le cas general, il y a des chocs dore et de demande, et lensemble des equilibres ne decrit
ni la courbe dore ni la courbe de demande, la droite de regression passe au milieu.
11.1.3 Omission de regresseurs, heterogeneite inobservee
On consid`ere le mod`ele
y
i
= x
i
b +z
i
c +u
i
Il y a donc un facteur z
i
dont on sait quil explique la variable y
i
. On consid`ere la situation dans
laquelle cette variable nest pas observee.
146 Chapitre 11. Variables instrumentales
Lomission de cette variable conduit `a une estimation non convergente du mod`ele par les
mco d`es lors quelle est correlee avec les regresseurs. On a en eet

b
mco
P
b +E
_
x

i
x
i
_
1
E
_
x

i
(z
i
c +u
i
)
_
= b +E
_
x

i
x
i
_
1
E
_
x

i
z
i
_
c
= b +
z
i
/x
i
c
Avec E
_
x

i
u
i
_
= 0 et
z
i
/x
i
le coecient de la regression lineaire de z
i
sur x
i
.
Un exemple important est donne par les equations dites de Mincer reliant le salaire `a
leducation
w
i
=
0
+
s
s
i
+u
i
Le param`etre
s
mesure leet dune annee detude supplementaire sur le niveau de salaire. Dans
lensemble des causes inobservees aectant le salaire se trouve entre autres le niveau daptitude
de lindividu. Le choix dun niveau detude s
i
est une decision rationnelle de la part de lagent,
fonction de laptitude de lindividu.
On peut considerer aussi le cas dune fonction de production agricole : y
i
est le rendement
de la terre, x
i
la quantite dengrais b est le rendement des epandages et z
i
la qualite de la terre.
Lomission de cette variable biaise lestimation du param`etre technologique b si les decisions
depandages dengrais dependent de la qualite de la terre. Le param`etre estime nidentie pas
seulement le param`etre structurel mais une combinaison non desiree de ce param`etre et de celui
reetant le comportement de lagriculteur.
11.2 La methode des variables instrumentales
11.2.1 Mod`ele `a variables endog`enes et non convergence de lestimateur des
mco
Le mod`ele
y
i
= x
i
b +u
i
est dit `a variables endog`enes si on na pas la propriete
E
_
x

i
u
i
_
= 0
Les variables x
k
i
pour lesquelles E
_
u
i
x
k
i
_
,= 0 sont dites endog`enes, les autres sont dites
exog`enes
Dans ce mod`ele lestimateur des mco nest pas convergent. En eet, il est donne par :

b
mco
=
_
N

i=1
x

i
x
i
_
1
N

i=1
x

i
y
i
=
_
N

i=1
x

i
x
i
_
1
N

i=1
x

i
(x
i
b +u
i
)
= b +
_
N

i=1
x

i
x
i
_
1
N

i=1
x

i
u
i
b +E
_
x

i
x
i
_
1
E
_
x

i
u
i
_
.
comme E (x

i
u
i
) ,= 0 on a E (x

i
x
i
)
1
E (x

i
u
i
) ,= 0 et donc
p lim

b
mco
,= b
11.2. La methode des variables instrumentales 147
Remarque 11.1 On a introduit une distinction entre variable endog`ene et variable exog`ene,
neanmoins lensemble des coecients est biaise et pas seulement ceux des variables endog`enes.
Pour le voir on peut considerer lexemple de la fonction de production que lon consid`ere en taux
de croissance
y
i
= l
i
+k
i
+u
i
On fait en general lhypoth`ese que le stock de capital sajuste lentement et nest de ce fait pas
correle avec la perturbation. Par contre le travail est un facteur variable, positivement correle ` a
la perturbation : E (l
i
u
i
) = > 0. On calcule sans peine la valeur limite du param`etre :
p limbiais
mco
=
1
V (l
i
) V (k
i
) cov (l
i
k
i
)
_
V (k
i
) cov (l
i
k
i
)
cov (l
i
k
i
) V (l
i
)
__

0
_
=
_
V (k
i
)
cov (l
i
k
i
)
__
V (l
i
) V (k
i
) cov (l
i
k
i
)
On constate donc que les deux coecients sont biaises : celui du travail sans ambigute ` a la
hausse, et celui du capital ` a la baisse si comme cest probable le capital et le travail sont correles
positivement.
11.2.2 Resoudre le probl`eme de lidentication par lutilisation de variables
instrumentales
Sans pretendre produire ici des estimateurs, on sinteresse aux conditions didentication.
On consid`ere pour cela `a nouveau le mod`ele dore et de demande
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
On note x
i
=
_
x
d
i
, x
s
i
_
, certains elements peuvent etre commun aux deux ensembles et ninter-
viennent dans ce cas quune fois dans x
i
. On fait les hypoth`eses
E
_
x

i
u
d
i
_
= 0, E
_
x

i
u
s
i
_
= 0 (11.1)
c.-` a-d. que les variables observables qui deplacent lore et la demande sont exog`enes pour u
d
i
et u
s
i
. On peut resoudre comme precedemment en p
i
mais aussi en y
i
:
p
i
=
1

s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
y
i
=

s

s
+
d
x
d
i
b
d
+

d

s
+
d
x
s
i
b
s
+

s

s
+
d
u
d
i
+

d

s
+
d
u
s
i
Compte tenu des relations 11.1, on peut exprimer les coecients des regressions lineaires de
y
i
et p
i
sur x
i
`a partir des param`etres structurels.
La modelisation, cest `a dire la specication dune fonction dore et de demande et des
restrictions stochastiques (exogeneite de x
i
), conduit `a des restrictions sur les param`etres des
regressions lineaires des variables endog`enes qui sont susceptibles de permettre lidentication
des param`etres structurels du mod`ele.
148 Chapitre 11. Variables instrumentales
Proposition 11.1 Sil existe une variable exog`ene intervenant speciquement dans lequation
dore, lequation de demande est identiee.
De meme, sil existe une variable exog`ene intervenant speciquement dans lequation de
demande, lequation dore est identiee
Demonstration Si x
s
1i
est une telle variable, le coecient de cette variable dans la regression lineaire de p
i
sur
x
s
i
et x
d
i
est
1

s
+
d
b
s
1
, et le coecient de cette variable dans la regression lineaire de y
i
sur x
s
i
et x
d
i
est

d

s
+
d
b
s
1
.
La comparaison de ces deux coecients permet lidentication de
d

Ce resultat est obtenu en ayant recours `a une modelisation de lensemble des variables en-
dog`enes du mod`ele : la production et le prix, ou de fa con equivalente le syst`eme dequations qui
les determine simultanement. Dans de nombreuses situations on ne sinteresse qu`a une des deux
equations, par exemple lequation de demande, les hypoth`eses identicatrices peuvent etre as-
souplies. Il sut quil existe au moins une variable x
s
1i
entrant dans lequation dore et veriant
E
_
_
x
d
i
x
s
1i

u
d
i
_
= 0. Dans ce cas si on consid`ere les coecients
y
et
p
des regressions lineaires
de y
i
et p
i
sur x
i
=
_
x
d
i
x
s
1i

sont

y
= E
_
x

i
x
i
_
1
E
_
x

i
y
i
_
= E
_
x

i
x
i
_
1
E
_
x

i
_

d
p
i
+x
d
i
b
d
+u
d
i
__
=
d
E
_
x

i
x
i
_
1
E
_
x

i
p
i
_
+E
_
x

i
x
i
_
1
E
_
x

i
x
d
i
_
b
d
=
d

p
+
_
b
d
0
_

Le vecteur
y
est identie par les donnees : il sagit du vecteur des coecients de la regression
lineaire de y
i
sur x
i
. Il en est de meme pour le vecteur
p
. d`es lors que le coecient de la
variable x
s
1i
dans la regression de la variable de prix sur x
i
, element de
p
, est non nul, et que
la variable x
s
1i
ne gure pas dans la liste des regresseurs exog`enes (structurels) de lequation
de demande, on voit que les coecients de lequation de demande sont identies. Il nen est
pas necessairement de meme pour lequation dore, soit parce que lon ne mesure pas toutes
les variables x
s
i
garantissant E (u
s
i
x
s
i
) = 0, soit parce quil ny a pas de variables aectant la
demande qui naecte pas directement lore. Enn on remarque quil nest pas necessaire de
specier lequation dore.
Cet exemple illustre bien la demarche des variables instrumentales. Celle-ci correspond `a
la mobilisation de variables exterieures au mod`ele qui poss`edent la particularite de ne pas etre
correlees avec le residu de lequation structurelle et qui sont neanmoins correlees avec la variable
endog`ene. Lidentication vient alors du fait que leet de la variable instrumentale sur la variable
dependante ne fait que reeter celui de la variable endog`ene.
Dire quune variable est une variable instrumentale revient `a postuler une relation dexclu-
sion : il existe une variable aectant la variable `a expliquer et la variable explicative endog`ene
et dont tout leet sur la variable `a expliquer transite par son eet sur la variable explicative
endog`ene.
On voit donc quune variable instrumentale ne tombe pas du ciel. Dans lexemple on justie
le choix de la variable comme etant une variable appartenant `a un mod`ele plus general, le
syst`eme ore-demande, conduisant `a lequation structurelle de demande et `a une equation reduite
expliquant la formation de la variable endog`ene.
11.2. La methode des variables instrumentales 149
11.2.3 Identication
On consid`ere le mod`ele structurel
y
i
= x
1i
b
1
+x
2i
b
2
+u
i
les variables x
2i
, (dim = K
2
+ 1) contiennent la constante et sont exog`enes, mais on ne fait
pas lhypoth`ese dexogeneite de la variable x
1i
(dimx
1i
= K
1
= K K
2
) .
Denition 11.1 Un ensemble de variables z
i
= (z
e
i
, x
2i
) , de dimension H+1, non parfaitement
correlees (limrangE
_
z

i
z
i
_
= H + 1), est dit ensemble de variables instrumentales si les deux
conditions suivantes sont satisfaites :
E
_
z

i
u
i
_
= 0. (11.2)
et
limrangE
_
z

i
x
i
_
= K + 1
La premi`ere condition, appelee condition dorthogonalite, consiste `a supposer que le vecteur
des variables instrumentales nest pas correle avec le residu de lequation structurelle. Il fait
intervenir les K
2
+1 variables exog`enes x
2
ainsi que (H + 1) (K
2
+ 1) = H K
2
instruments
exterieurs z
e
i
.
Lhypoth`ese (11.2) est parfois introduite sous la forme :
E(u
i
[z
i
) = 0
qui est plus forte que la precedente (non correlation) puisquelle implique en particulier E (g (z
i
) u
i
) =
0 pour toute fonction g.
La deuxi`eme condition est dite condition de rang. Elle joue un role essentiel, parfois oublie,
et que lon detaillera par la suite.
La condition (11.2) peut etre reecrite comme suit :
E
_
z

i
(y
i
x
i
b)
_
= 0
Soit encore :
E
_
z

i
y
i
_
= E
_
z

i
x
i
_
b (11.3)
Cette condition denit un syst`eme de H + 1 equations `a K + 1 inconnues b.
Le mod`ele est identie si le syst`eme (11.3) admet pour unique solution le param`etre structurel
b
On distingue trois situations
Si H < K, le mod`ele est sous identie, puisquil y a moins dequations que de variables. Il
ny a pas susamment de variables instrumentales
Si H = K et limrangE
_
z

i
x
i
_
= K + 1 le mod`ele est juste identie.
Si H > K, limrangE
_
z

i
x
i
_
= K + 1 le mod`ele est dit sur-identie. Dans ce cas il y a
plus de variables instrumentales quil nest necessaire
La condition de rang garantit que lon se trouve dans lune des deux derni`eres situations.
150 Chapitre 11. Variables instrumentales
Proposition 11.2 Considerant le mod`ele
y
i
= x
i
b +u
i
Sous les hypoth`eses
z
i
tel que E (z

i
u
i
) = 0
E (z

i
x
i
) est de rang K+1,
Le param`etre b est identie.
Demonstration En multipliant le mod`ele par z

i
et en prenant lesperance, il vient
E
_
z

i
y
i
_
= E
_
z

i
x
i
_
b +E
_
z

i
u
i
_
= E
_
z

i
x
i
_
b
Comme E (z

i
x
i
) est de rang K+1, il existe necessairement une matrice A de dimension (K + 1) dimz
i
telle que
AE (z

i
x
i
) de dimension (K + 1) (K + 1) soit inversible (il sut par exemple de considerer A = E (z

i
x
i
)

). On
en deduit donc que
b =
_
AE
_
z

i
x
i
__
1
AE
_
z

i
y
i
_
b sexprime donc comme la limite dune fonction ne dependant que des observations par exemple
_
Az

i
x
i
_
1
A
_
z

i
y
i
_

11.2.4 Moindres carres indirects


Si H = K et si E
_
z

i
x
i
_
est inversible, ce qui est le cas d`es lors que la condition de rang est
satisfaite, alors on peut resoudre b = E
_
z

i
x
i
_
1
E
_
z

i
y
i
_
. On obtient un estimateur de b appele
Estimateur des Moindres Carres Indirects en rempla cant les esperances par leurs contreparties
empiriques :

b
mci
=
_
1
N
N

i=1
z

i
x
i
_
1
1
N
N

i=1
z

i
y
i
= (z

x)
1
z

y
o` u z est la matrice dont la i-i`eme ligne est z
i
, x la matrice dont la i-i`eme ligne est x
i
et y le
vecteur dont la i-i`eme composante est y
i
.
Si H > K, on se ram`ene au cas precedent en selectionnant K + 1 combinaisons lineaires
des instruments : Az
i
, o` u A est une matrice K + 1 H + 1, de rang K + 1. Lhypoth`ese que
lensemble des H +1 variables dans z
i
est un ensemble de variables instrumentales conduit `a la
propriete que pour A tel que AE (z

i
x
i
) est inversible,
b =
_
AE
_
z

i
x
i
__
1
AE
_
z

i
y
i
_
.
On en deduit une classe destimateur :

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
= (Az

x)
1
Az

y
11.2. La methode des variables instrumentales 151
11.2.5 Propriete asymptotiques des estimateurs des MCI
Proposition 11.3 Dans le mod`ele
y
i
= x
i
b +u
i
` a K + 1 variables explicatives. Sous les hypoth`eses :
H1 E (z

i
u
i
) = 0 avec z
i
de dim 1 H + 1
H2 Les observations (x
i
, z
i
, y
i
) sont iid
H3 E(u
2
i
[z
i
) =
2
H4 Les moments de (x
i
, z
i
, y
i
) existent jusqu` a un ordre susant
H5 E
_
z

i
x
i
_
et z

i
x
i
sont de rang K + 1
Alors, il existe au moins une matrice A de dimension K+1H+1 pour laquelle lestimateur

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
existe, et pour toute matrice A telle que lestimateur des MCI existe
et toute suite de matrice, eventuellement dependant des donnees A
n
p
A, on a :
1.

b
mci
(A) est convergent : p lim

b
mci
(A) = b
2.

b
mci
(A) est asymptotiquement normal :

N
_

b
mci
(A) b
_
L
N(0, (A)),
avec
(A) =
2
_
AE
_
z

i
x
i
__
1
AE
_
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1
3.

(A) =
2
_
Az

i
x
i
_
1
Az

i
z
i
A

_
x

i
z
i
A

_
1
o` u
2
= u(A)
2
i
, est un estimateur convergent de
(A)
Demonstration Existence dau moins un estimateur des MCI : Il sut de prendre A = E
_
z

i
x
i
_

on a alors
E
_
z

i
x
i
_

i
x
i
E
_
z

i
x
i
_

E
_
z

i
x
i
_
qui est inversible puisque limrangE
_
z

i
x
i
_
= K+1. Comme le determinant
est une fonction continue det Az

i
x
i
det AA

= 0 et donc la matrice Az

i
x
i
est inversible pour N assez grand.
Convergence :

b
mci
(A
N
) =
_
A
N
z

i
x
i
_
1
A
N
z

i
y
i
= b +
_
A
N
z

i
x
i
_
1
A
N
z

i
u
i
.
La convergence decoule simplement de la loi des grands nombres :
z

i
u
i
p
E
_
z

i
u
i
_
= 0.
et du fait que A
N
p
A et z

i
x
i
p
E
_
z

i
x
i
_
Normalite asymptotique

N
_

b
mci
(A) b
_
=
_
A
N
z

i
x
i
_
1
A
N

Nz

i
u
i
Comme V
_
z

i
u
i
_
= E(z

i
z
i
u
2
i
) = E
_
z

i
z
i
E(u
2
i
| z
i
)
_
=
2
E
_
z

i
z
i
_
, la normalite asymptotique decoule directement
du theor`eme central limite :

Nz

i
u
i
L
N(0,
2
E
_
z
i
z

i
_
)
et
_
A
N
z

i
x
i
_
1
A
N
p

_
AE
_
z

i
x
i
__
1
A
Estimation de la matrice de variance-covariance asymptotique
Comme pour lestimateur des mco, on verie facilement que u(A)
2
i
=
_
u
i
+x
i
_
b

b (A)
__
2

2
puisque
b

b (A) 0
152 Chapitre 11. Variables instrumentales
Remarque 11.2 Estimation robuste de la matrice de variance : Comme pour lestimateur des
mco, il existe une version de la matrice de variance-covariance (A) pour le cas de residus
heteroscedastiques, i.e. lorsque E(u
2
i
[z
i
) depend de z
i
. On peut donc supprimer lhypoth`ese H3.
Les conclusions sont simplement modiees en :

b
mci
(A) est asymptotiquement normal :

N
_

b
mci
(A) b
_
L
N(0,
het
(A)),
avec

het
(A) =
_
AE
_
z

i
x
i
__
1
AE
_
u
2
i
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1
et

het
(A) =
_
Az

i
x
i
_
1
A u(A)
2
i
z

i
z
i
A

_
x

i
z
i
A

_
1
est un estimateur convergent de la matrice de
variance.
11.3 Lestimateur des doubles moindres carres
11.3.1 Existence dun estimateur optimal
On peut se demander sil nexiste pas une matrice A

qui conduise `a un estimateur de


variance minimale, cest `a dire tel que pour toute combinaison lineaire b, on ait V
_

b (A

)
_

V
_

b (A)
_
. Une telle matrice existe et m`ene `a lestimateur des doubles moindres carres.
Proposition 11.4 Il existe une matrice A

optimale au sens o` u pour toute suite de matrice


A
N
A

, la variance asymptotique de

b
mci
(A
N
) est de variance minimale dans la classe des
estimateurs

b
mci
(A). Cette matrice a pour expression :
A

= E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
La matrice de variance correspondante a pour expression
(A

) =
2
_
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
Demonstration Pour montrer que (A) (A

) au sens des matrices, i.e. on a

((A) (A

)) 0
on peut clairement eliminer le facteur
2
. La matrice de variance (A

) secrit :
(A

) =
_
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
=
_
C

C
_
1
avec C = E (z

i
z
i
)
1/2
E
_
z

i
x
i
_
de dim H + 1 K + 1.La matrice (A) secrit :
(A) =
_
AE
_
z

i
x
i
__
1
AE
_
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1
= BB

avec B =
_
AE
_
z

i
x
i
__
1
AE (z

i
z
i
)
1/2
de dim K + 1 H + 1.On a la relation
BC =
_
AE
_
z

i
x
i
__
1
AE
_
z

i
z
i
_
1/2
E
_
z

i
z
i
_
1/2
E
_
z

i
x
i
_
=
_
AE
_
z

i
x
i
__
1
AE
_
z

i
x
i
_
= I
K+1
On a donc
(A) (A

) = BB

_
C

C
_
1
= BB

BC
_
C

C
_
1
C

puisque BC = I. On a donc :
(A) (A

) = B
_
I C
_
C

C
_
1
C

_
B

Comme I C (C

C)
1
C

est une matrice semi-denie positive, (A) (A

) est aussi une matrice semi-denie


positive
11.3. Lestimateur des doubles moindres carres 153
Remarque 11.3 On a vu que dans le cas heteroscedastique, la variance de lestimateur des
moindres carres indirects secrivait :
het
(A) =
_
AE
_
z

i
x
i
__
1
AE
_
u
2
i
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1
.
O voit par analogie avec le cas precedent homoscedastique que dans ce cas aussi il y a un
estimateur optimal et quil correspond ` a la matrice A = E
_
x

i
z
i
_
E
_
u
2
i
z

i
z
i
_
1
.
11.3.2 Lestimateur optimal comme estimateur des doubles moindres carres
La matrice A

= E
_
x

i
z
i
_
E (z

i
z
i
)
1
est inconnue. Pour mettre l

estimateur en oeuvre, on la
remplace par un estimateur convergent. A
N
= x

i
z
i
z

i
z
i
1
est un choix naturel.

b
mci
(A
N
) =
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
y
i
=
_
x

z
_
z

z
_
1
z

x
_
1
x

z
_
z

z
_
1
z

y
Cet estimateur a les memes proprietes asymptotiques que lestimateur

b
mci
(A

) puisque
A
N
A

.
On peut reecrire lestimateur en faisant intervenir la matrice de projection orthogonale sur
z, P
z
= z (z

z)
1
z

b
2mc
(A

) =
_
x

P
z
x
_
1
x

P
z
y = ((P
z
x)

P
z
x)
1
(P
z
x)

y
On voit que la projection des variables explicatives sur les variables instrumentales joue un role
tr`es important. Il correspond de fa con evidente `a lestimateur des mco de la variable endog`ene
y sur la projection x = P
z
x des variables explicatives sur lensemble des instruments. On peut
verier directement ce point en considerant `a nouveau le mod`ele et en decomposant les variables
explicatives en x= P
z
x +M
z
x. Le mod`ele secrit :
y = xb +u
= P
z
xb +M
z
xb +u = P
z
xb +v
Ici la perturbation comprend le vrai residu mais aussi la partie des variables explicatives orthogo-
nales aux variables instrumentales : v= M
z
x+u. On voit que pour ce nouveau mod`ele dans lequel
les regresseurs ont ete remplaces par leurs projections sur les variables explicatives, il y a ortho-
gonalite entre le residu et les variables explicatives puisque (P
z
x)

u/N = x

z/N (z

z/N)
1
z

u/N
E (x

z) E (z

z)
1
E (z

u) = 0 et (P
z
x)

M
z
x = x

P
z
M
z
x = 0. On en deduit que lestimateur
des mco de la regression de y sur P
z
x est bien convergent.
Cest pourquoi on appelle cet estimateur estimateur des doubles moindres carres et on le note

b
2mc
puisquil pourrait etre obtenu `a partir dune premi`ere regression des variables explicatives
sur les variables instrumentales puis par regression de la variable endog`ene sur les variables
predites de cette regression.
Lestimateur peut etre determine en deux etapes :
1. On regresse x sur z et on recup`ere x la valeur predite.
2. On regresse y sur x
154 Chapitre 11. Variables instrumentales
La matrice de variance asymptotique de

b
2mc
est
V
as
(

b
2mc
) =
2
_
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
et la matrice de variance de lestimateur dans un echantillon de taille N est
V (

b
2mc
) = V
as
/N =
2
_
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
/N
On peut lestimer par

V (

b
2mc
) =
2
_
x

z
_
z

z
_
1
z

x
_
1
=
2
(x

P
z
x)
1
=
2
_
x

x
_
1
Lecart-type des residus `a retenir est celui du mod`ele
y
i
= x
i
b +u
i
et peut etre estime par
_
y
i
x
i

b
2mc
_
2
. Il faut remarquer quici il sagit du residu u
i
= y
i
x
i

b
2mc
et non du residu de la deuxi`eme etape y
i
x
i

b
2mc
.
Cette ecriture de lestimateur `a variables instrumentales montre quon peut linterpreter
comme operant un ltrage de linformation. On ne retient de la variabilite des variables expli-
catives que la partie qui correspond `a des chocs non correles avec la perturbation. Ce ltrage
est opere en projetant les variables explicatives sur un ensemble de variables non correlees avec
la perturbation. La condition de rang garantit que lon ne perd pas le minimum dinformation
requis pour identier le param`etre.
On voit aussi que dans cette operation de ltrage on perd de linformation et que cette perte
dinformation conduit `a une moins grande precision de lestimateur :
V
as
_

b
2mc
_
= p lim
2
((P
z
x)

P
z
x/N)
1

2
(x

x/N)
1
= V
as
_

b
mco
_
La precision de lestimateur `a variables instrumentales ne peut donc depasser celle quau-
rait lestimateur des mco si les variables explicatives etaient exog`enes. On voit que lorsque la
dimension de lespace sur lequel on projette augmente, la precision de lestimateur `a variables
instrumentales saccrot. A la limite, si la taille de lespace sur lequel on projette augmente
susamment, on retrouve la precision de lestimateur des mco, mais alors on retrouve aussi
lestimateur des mco. Dans la decision dintroduire ou non telle ou telle variable dans la liste des
variables instrumentales, il y a donc un arbitrage entre precision de lestimateur et convergence
de lestimateur : plus il y a de variables instrumentales plus lestimateur est precis, mais plus
les risques de biais sont importants.
11.3.3 Cas des residus heteroscedastiques
Dans ce cas lestimateur des doubles moindres carres nest plus optimal, et la formule de sa
variance nest plus correcte.
La formule exacte est donnee comme dans le cas general par
V
as,het
(A

) =
_
A

E
_
z

i
x
i
__
1
A

E
_
u
2
i
z

i
z
i
_
A

_
E
_
x

i
z
i
_
A

_
1
=
_
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
u
2
i
z

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
= E
_
x

i
x
i
_
1
E
_
u
2
i
x

i
x
i
_
E
_
x

i
x
i
_
1
11.4. Interpretation de la condition : limrangE (z

i
x
i
) = K + 1 155
o` u x
i
= z
i
E (z

i
z
i
)
1
E
_
z

i
x
i
_
.
La matrice de variance de lestimateur des doubles moindres carres est
V
het
_

b
2mc
_
= V
as,het
(A

)/N
Elle peut etre estimee par

V
het
_

b
2mc
_
=
V
as,het
(A

)
N
=
_

x
i

i
_
1
_
N

i=1
u
2
i

x
i

i
__
N

i=1

x
i

i
_
1
o` u

x
i
= z
i
_
z

i
z
i
_
1
_
z

i
x
i
_
qui est exactement la matrice de White.
11.4 Interpretation de la condition : limrangE (z

i
x
i
) = K + 1
La mise en oeuvre de la methode des variables instrumentales repose sur la condition
limrangE (z

i
x
i
) = K + 1. Les variables du mod`ele sont scindees en K
1
variables endog`enes
x
1i
et K
2
+1 variables exog`enes. Ces variables interviennent egalement dans la liste des instru-
ments qui contient en outre H K
2
variables exterieures z
i
: z
i
=
_
z
i
x
2i
_
. Compte tenu de
lhypoth`ese E
_
z

i
z
i
_
inversible, la condition limrangE (z

i
x
i
) = K+1 est analogue `a la condition
limrangE
_
z

i
z
i
_
1
E (z

i
x
i
) = K +1. Cette matrice correspond `a la matrice des coecients des
regressions des variables explicatives sur les instruments. Comme les variables du mod`ele et les
instruments ont les variables x
2
en commun, on a :
E
_
z

i
z
i
_
1
E
_
z

i
x
i
_
=
_
E
_
z

i
z
i
_
1
E (z

i
x
1i
)
0
I
K
2
+1
_
=
_

1 z
0

1x
2
I
K
2
+1
_
o` u
1 z
et
1x
2
sont les coecients de z et x
2
des regressions des variables endog`enes sur les ins-
truments. La condition limrangE
_
z

i
z
i
_
1
E (z

i
x
i
) = K +1 est donc equivalente `a la condition
limrang
1 z
= K
1
Cette condition sinterpr`ete comme le fait que les variables instrumentales exterieures expliquent
susamment bien les variables endog`enes. Il nexiste pas de test formel de cette condition qui
puisse etre facilement mis en oeuvre. Neanmoins il est important de regarder la fa con dont les
variables instrumentales expliquent les variables endog`enes, meme si on peut mettre en oeuvre
lestimateur des doubles moindres carres directement sans faire cette regression intermediaire.
On peut par exemple, bien que cela ne garantisse pas que la condition est satisfaite d`es quil y a
plus dune variable endog`ene, eectuer chaque regression des variables endog`enes sur lensemble
des variables instrumentales et faire un test de la nullite globale des coecients des variables
instrumentales exterieures.
Dans le cas o` u la condition limrangE (z

i
x
i
) = K +1 nest pas satisfaite, on aura neanmoins
en general `a distance nie limrangz

i
x
i
= K +1 et lestimateur pourra etre numeriquement mis
en oeuvre. La consequence du fait que limrangE (z

i
x
i
) < K + 1 est que
x

z
_
z

z
_
1
z

x E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
_
156 Chapitre 11. Variables instrumentales
non inversible. Lestimateur sera donc tr`es instable et presentera des ecarts-type tr`es eleves sur
certains coecients, `a linstar de ce qui se produit avec les mco dans le cas de multicolinearite.
Lorsque lon est `a la limite de cette situation, cest `a dire lorsque lon dispose de variables
instrumentales expliquant tr`es mal les variables endog`enes on parle dinstruments faibles.
On peut etre tente de pallier ce manque de pouvoir explicatif des instruments par lutilisation
dun grand nombre dentre eux : on est dans la situation ou il y a beaucoup de variables instru-
mentales mais ou toutes, prises ensemble ont un pouvoir explicatif faible. Cette situation presente
des eets indesirables dont on peut avoir facilement lintuition. Lorsque le nombre dinstruments
sur lequel on projette les variables devient grand et mecaniquement, sans que cela resulte dune
propriete statistique, la prediction de la variable explicative va devenir meilleure : elle va se
rapprocher des variables explicatives simplement parce que lespace sur lequel on projette de-
vient plus grand. On comprend alors que dans ce cas lestimateur `a variables instrumentales se
rapproche de lestimateur des mco. Lutilisation dun grand nombre de variables instrumentales
au pouvoir explicatif mediocre est donc une situation peu souhaitable. On consid`ere pour sen
premunir quil faut que le F de Fisher testant la nullite globale des coecients des variables
instrumentales dans la regression des variables explicatives endog`enes soit plus grand que 1.
11.5 Test de suridentication
En pratique, on est souvent amene `a eectuer des estimations dune meme equation en
etendant ou restreignant la liste des variables instrumentales. On a vu en eet que lon pouvait
avoir interet `a accrotre le nombre de variables instrumentales dans la mesure o` u cela conduit
`a des estimateurs plus precis. On a vu aussi quaccrotre ind ument lensemble des variables
instrumentales pouvait conduire `a faire apparatre des biais dans lestimation. On va presenter
dans cette section un test tr`es important et tr`es couramment utilise permettant de controler
quil ny a pas dincoherence dans le choix des variables instrumentales. Ce test, appele test de
Suridentication, ou test de Sargan constitue un guide incontournable dans le choix des variables
instrumentales. On presente dabord lidee et le sens du test de Sargan dune fa con informelle,
on aborde ensuite la question plus formellement et de fa con plus pratique.
11.5.1 Idee du test
Lorsquil y a plus dinstruments que de variables explicatives le mod`ele est suridentie. On
a vu que dans le mod`ele
y
i
= x
i
b +u
i
avec pour restriction identiante
E
_
z

i
u
i
_
= 0,
on pouvait estimer le mod`ele par les MCI de tr`es nombreuses fa cons, lestimateur le plus per-
formant etant celui des doubles moindres carres. On avait

b
mci
(A) =
_
Az

i
x
i
_
1
Az

i
y
i
contrepartie empirique de la relation
b =
_
AE
_
z

i
x
i
__
1
AE
_
z

i
y
i
_
11.5. Test de suridentication 157
Cette derni`ere relation doit etre vraie pour toute matrice A telle que AE (z

i
x
i
) est inversible.
Elle montre bien que le mod`ele impose plus de structure entre les donnees quil nest necessaire
pour identier le mod`ele : tous les param`etres

b
mci
(A) doivent converger vers une meme valeur.
Considerons par exemple le cas dun mod`ele ne presentant quune variable explicative et
pour lequel il existe h variables instrumentales. On pourrait considerer h estimateurs `a variables
instrumentales obtenus en utilisant `a chaque fois une seule des variables instrumentales.

b
V I
(k) =
z
i
(k) y
i
z
i
(k) x
i
Si toutes ces variables sont compatibles entre elles, les estimateurs obtenus doivent tous etre
proches les uns des autres on doit avoir p lim

b
V I
(k) independant de k. Lidee du test de suri-
dentication est de comparer entre eux les dierents estimateurs et de juger sils sont ou non
proches. Ceci constitue lidee du test de suridentication, cela ne represente nullement la fa con
dont on le met en oeuvre. On va voir ulterieurement une procedure permettant de tester directe-
ment lhypoth`ese que pour un jeu de variables instrumentales donne lensemble des estimateurs

b
mci
(A) convergent tous vers la meme valeur, sans avoir `a calculer tous ces estimateurs.
Remarquons que ce test nest pas `a proprement parle un test de validite des instruments mais
un test de compatibilite des instruments. Il signie en eet uniquement

b tq

b
mci
(A)

b .
Ceci est une propriete statistique des donnees, qui peut etre testee. Il ne signie pas neanmoins

b
mci
(A)

b = b le param`etre structurel que lon souhaite identier.


11.5.2 Approche formelle
La convergence de chaque estimateur des moindres carres indirects provient de la propriete
E (z

i
u
i
) = 0. Cest elle que lon pourrait souhaiter tester directement. Il sagirait du test de
lhypoth`ese nulle
H
00
: E
_
z

i
u
i
_
= 0
Si le residu etait connu un tel test serait tr`es facile `a mettre en oeuvre. Il consisterait simplement
`a regarder si la moyenne empirique z

i
u
i
de z

i
u
i
est proche de zero, cest `a dire si la norme de ce
vecteur est proche de zero.
Neanmoins comme on la dit, le test que lon peut esperer mettre en oeuvre nest pas le test
de H
00
, soit le test de
H
00
: E
_
z

i
(y
i
x
i
b)
_
= 0
ou b est le param`etre structurel mais simplement le test de

b tq E
_
z

i
_
y
i
x
i

b
__
= 0
Il est clair que sous H
00
: p lim

b
2mc
=

b et donc que la fa con naturelle de tester une telle
hypoth`ese est dexaminer si z

i
u
i
est proche de zero.
Remarque 11.4 1. Sous lhypoth`ese H
00
on aurait donc en appliquant le theor`eme centrale
limite, et compte tenu de lhypoth`ese dhomoscedasticite

Nz

i
u
i
N
_
0,
2
E
_
z

i
z
i
__
158 Chapitre 11. Variables instrumentales
et donc
N

2
z

i
u
i

E
_
z

i
z
i
_
1
z

i
u
i

2
(dim(z
i
))
ou encore
N

2
z

i
u
i

i
z
i
1
z

i
u
i

2
(dim(z
i
))
2. On rappelle le resultat suivant
W N (0, V (W)) W

V (W)


2
(limrang (V (W)))
o` u V (W)

est un inverse generalise de la matrice V (W) , i.e. tel que


V (W) V (W)

V (W) = V (W)
Ici on ne peut pas utiliser u
i
le residu structurel mais u
i
.
La statistique de test va rester la meme `a ceci pret que :
1. on utilise u
i
et non u
i
2. le nombre de degres de liberte nest pas le nombre de variables instrumentales dim(z
i
) =
H + 1 , mais H K, cest `a dire le nombre dinstruments en exc`es.
Ce dernier point exprime bien le fait quune partie des conditions dorthogonalite est mobi-
lisee pour identier le param`etre et illustre bien le nom de suridentication donne au test.
Proposition 11.5 Sous les hypoth`eses de regularite garantissant la convergence et la normalite
asymptotique de lestimateur ` a variables instrumentales, dans le cas de residus homoscedastiques
(V
_
_
y
i
x
i

b
_
2
[z
i
_
=
2
),
Sous H
0
:

btqE
_
z

i
_
y
i
x
i

b
__
= 0, la statistique

S

S = Nz

i
u
i

_
z

i
z
i
_
1

2
z

i
u
i

2
(H K)
o` u u
i
= y
i
x
i

b
2mc
et
2
= u
2
i
.
Le test de H
0
contre H
1
:

b tq E
_
z

i
_
y
i
x
i

b
__
= 0 base sur la region critique
W =
_

S > q
_
1 ,
2
(H K)
_
_
o` u q
_
1 ,
2
(H K)
_
est le quantile dordre 1 dun
2
(H K) est un test convergent
au seuil .
Demonstration Sous H
0
, soit

b la valeur du param`etre telle que E
_
z

i
_
y
i
x
i

b
__
= 0 et soit u
i
le residu
correspondant. Ces grandeurs sont a priori distinctes rappelons le des quantites ayant sens sur le plan economique

b et u
i
. Neanmoins, pour ne pas alourdir, on les note b et u
i
,
u
i
= y
i
x
i

b
2mc
= x
i
b +u
i
x
i

b
2mc
= u
i
x
i
_

b
2mc
b
_
do` u
z

i
u
i
=
1
N
z

u = z

i
u
i
z

i
x
i
_

b
2mc
b
_
11.5. Test de suridentication 159
comme

b
2mc
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
y
i
= b +
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
u
i
on a :
z

i
u
i
=
_
I
H+1
z

i
x
i
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
_
z

i
u
i
= (I
H+1
M
N
) z

i
u
i
et M
N
M = E
_
z

i
x
i
_ _
E
_
x

i
z
i
_
E (z

i
z
i
)
1
E
_
z

i
x
i
__
1
E
_
x

i
z
i
_
E (z

i
z
i
)
1
. M verie en outre M
2
= M
On en deduit que

Nz

i
u
i
= (I
H+1
M)

Nz

i
u
i
+o
p
(1)
L
N (0, )
avec = (I
H+1
M) V
_
z

i
u
i
_
(I
H+1
M

) =
2
(I
H+1
M) E
_
z

i
z
i
_
(I
H+1
M

) . On verie que (I
H+1
M)
E
_
z

i
z
i
_
= E
_
z

i
z
i
_
(I
H+1
M

) si bien que V
as
_

Nz

i
u
i
_
=
2
(I
H+1
M) E
_
z

i
z
i
_
Comme M
2
= M on verie immediatement que MV
as
_

Nz

i
u
i
_
= 0 et donc que V
as
_

Nz

i
u
i
_
nest pas
de plein rang. Comme V
as
_

Nz

i
u
i
_
=
2
(I
H+1
M) E
_
z

i
z
i
_
, le rang de V
as
_

Nz

i
u
i
_
est clairement celui
de (I
H+1
M) et comme M
2
= M, les valeurs propres de M sont soit 1 soit 0. On en deduit que
rangV
as
_

Nz

i
u
i
_
= Tr (I
H+1
M) = rang (I
H+1
M) = H + 1 Tr (M)
= H + 1
Tr
_
E
_
z

i
x
i
_ _
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
_
= H + 1
Tr
_
_
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
__
1
E
_
x

i
z
i
_
E
_
z

i
z
i
_
1
E
_
z

i
x
i
_
_
= H K
On a aussi
V
as
_

Nz

i
u
i
_
1

2
E
_
z

i
z
i
_
1
V
as
_

Nz

i
u
i
_
=
2
(I
H+1
M) E
_
z

i
z
i
_
1

2
E
_
z

i
z
i
_
1

2
(I
H+1
M) E
_
z

i
z
i
_
=
2
(I
H+1
M) (I
H+1
M) E
_
z

i
z
i
_
=
2
(I
H+1
M) E
_
z

i
z
i
_
= V
as
_

Nz

i
u
i
_
on en deduit que
1

2
E
_
z

i
z
i
_
1
est un inverse generalise de la matrice de variance asymptotique

Nz

i
u
i
. On a
donc
N u
i
z
i
1

2
E
_
z

i
z
i
_
1
z

i
u
i
L

2
(H K)
et on peut clairement remplacer en appliquant le theor`eme de Slutsky E
_
z

i
z
i
_
par z

i
z
i
et
2
par
2
.
Donc, sous H
0
:

S = z

i
u
i
(z

i
z
i)
1

2
z

i
u
i
L

2
(H K) .
En outre sous H
1
, z

i
u
i
= z

i
_
y
i
x
i

b
2mc
_
= z

i
_
y
i
x
i
p lim

b
2mc
_
+ o
p
(1)
P
= 0, comme
(z

i
z
i)
1

2
P

inversible, z

i
u
i
(z

i
z
i)
1

2
z

i
u
i
P

, sous H
1
, donc

S et il en resulte que P (W |H
1
) 1.
11.5.3 Mise en oeuvre du test
Le test de suridentication est tr`es simple `a mettre en oeuvre. Il correspond au test de la
nullite globale des coecients de la regression de u
i
sur les variables instrumentales, y compris
la constante. En eet, si on consid`ere le mod`ele
u
i
= z
i
+w
i
160 Chapitre 11. Variables instrumentales
lestimateur des mco de est

=
_
z

i
z
i
_
1
z

i
u
i
, V
_

_
= V (w
i
)
_
z

i
z
i
_
1
/N. Sous lhypoth`ese
H

: = 0, V (w
i
) = V ( u
i
) =
2
et donc le test de = 0 doit etre mene `a partir de

V
_

_
1

= u
i
z
i
_
z

i
z
i
_
1
_
N
_
z

i
z
i
_
/
2
__
z

i
z
i
_
1
z

i
u
i
= N u
i
z
i
_
z

i
z
i
_
1
z

i
u
i
/
2
qui est la
statistique. Le test est donc formellement equivalent au test de la nullite globale des coecients
de la regression de u
i
sur les variables instrumentales z
i
. On sait que ce meme test peut etre
eectue (asymptotyiquement) `a partir du R
2
de la regression. La statistique de test est NR
2
et
est equivalente sous lhypoty`ese nulle au F de la regression. Le test peut donc etre eectue `a
partir du F de cette regression. Neanmoins il convient detre prudent en ce qui concerne le calcul
de cette statistique et celui de la p value. Ceci tient au nombre de degres de liberte retenu
dans le calcul. Considerons

S la statistique de test de la proposition precedente. La statistique
donnee par le logiciel F
Log
est reliee `a cette statistique

S par la formule F
Log
=

S/H. On divise
par H car le logiciel prend en compte le nombre de regresseurs. La p value qui accompagne
le F de la regression donne dans tous les logiciels, fait lhypoth`ese que cette statistique suit
une loi F (H, N H 1) degres de liberte, o` u H est le nombre de variables explicatives non
constantes de la regression, ici on a N . Pour N F (k, N k 1)
2
(k) /k. La
p value indiquee correspond donc `a une statistique
2
(H) /H. Elle nest donc pas correcte,
la statistique non plus. On sait que HF
Log

2
(H K) et donc F
Rec
= (H/ (H K)) F
Log
suit une loi F (H K, N (H K) 1) . On doit donc considerer soit la statistique HF
Log
et
calculer la p-value `a partir dune loi du
2
(H K) , soit considerer F
Rec
et calculer la p-value
`a partir dune loi F (H K, ) .
Remarque 11.5 1. On a a priori toujours interet ` a avoir un ensemble dinstrument le plus
large possible. En eet retirer une variable instrumentale et mettre en oeuvre lestimateur
des doubles moindres carres correspond ` a selectionner une matrice particuli`ere pour les-
timateur des moindres carres indirects avec le jeu complet dinstruments. Comme on la
montre cet estimateur est alors necessairement moins ou aussi bon que lestimateur des
doubles moindres carres avec lensemble dinstrument complet. Quand on etend lensemble
des variables instrumentales, il est important de bien verier la compatibilite globale des
instruments utilises et de mettre en oeuvre le test de suridentication.
2. La matrice de variance de lestimateur des doubles moindres carres est toujours plus grande
que celle de lestimateur des mco. Ceci se voit immediatement en examinant lexpression
des variances
V (b
mco
) =
2
_
x

x
_
1
et V (b
2mc
) =
2
_
x

P
z
x
_
1
En outre, on voit aussi en comparant les expressions des estimateurs
b
mco
=
_
x

x
_
1
x

y et b
2mc
=
_
x

P
z
x
_
1
x

P
z
y
que lorsque lon etend la liste des variables instrumentales la dimension de lespace sur le-
quel on projette les variables du mod`ele augmente et quon en a donc une representation de
plus en plus d`ele. La variance de lestimateur des doubles moindres carres va sameliorer,
mais lestimateur des doubles moindres carres va se rapprocher de lestimateur des moindres
carres ordinaires. Il y a donc un risque ` a etendre trop la liste des instruments. A distance
nie, on pourrait avoir une mise en oeuvre fallacieuse conduisant ` a un estimateur proche
de celui des mco. Il est utile pour se premunir de ce risque de regarder la regression des
11.6. Test dexogeneite des variables explicatives 161
variables endog`enes sur les instruments et de contr oler la signicativite globales des ins-
truments.
11.6 Test dexogeneite des variables explicatives
11.6.1 Interet et idee du test
Ayant estime le mod`ele par les doubles moindre carres, cest `a dire sous lhypoth`ese
H
1
: c tq E
_
z

i
(y
i
x
i
c)
_
= 0
on peut vouloir tester lhypoth`ese que les regresseurs x
i
sont exog`enes.
On consid`ere donc lhypoth`ese
H
0
: c tq E
_
z

i
(y
i
x
i
c)
_
= 0 et E
_
x

i
(y
i
x
i
c)
_
= 0
Linteret de tester une telle hypoth`ese est immediat compte tenu du fait que sous cette hypoth`ese
lestimateur optimal sera lestimateur des mco qui domine nimporte quel estimateur `a variables
instrumentales. Une idee naturelle consiste `a examiner si les coecients estimes sous lhypoth`ese
nulle et sous lhypoth`ese alternative sont identiques, cest `a dire si p lim

b
2mc
= p lim

b
mco
. Notons
que l` a encore il ne sagit que dun test de compatibilite des conditions dorthogonalite entre elles
et non pas un test de leur validite dans le cadre de lestimation dun param`etre structurel.
11.6.2 Approche formelle
(i) Test de Hausman
Lidee precedemment avancee de tester lhypoth`ese p lim

b
2mc
= p lim

b
mco
peut etre mise en
oeuvre en se fondant sur la comparaison de

b
2mc

b
mco
avec 0. Pour faire ce test on va donc
examiner N
_

b
2mc

b
mco
_

V
as
_

b
2mc

b
mco
_

b
2mc

b
mco
_
. Plusieurs questions se posent na-
turellement. On a vu quau sein des variables explicatives x soperait une distinction naturelle
entre les K
1
variables endog`enes x
1
et les 1 + K
2
variables exog`enes x
2
. On peut sattendre `a
ce que le test ne porte que sur les coecients des variables potentiellement endog`enes. En outre
se pose les questions du rang de la matrice de variance V
as
_

b
2mc

b
mco
_
qui conditionne le
nombre de degres de liberte de la loi limite de la statistique et de la determination dun inverse
generalise. On examine tour `a tour chacune de ces questions.
Le test peut etre base sur les coecients des endog`enes
Lemme 3 On a
_

b
2mc

b
mco
_
=
_
x

x
_
1
_
_
_
_
x

x
_
11
_
1
0
K
2
+1,K
1
_
_
_

b
(1)
2mc

b
(1)
mco
_
Le test de p lim

b
2mc
= p lim

b
mco
est identique ` a celui de p lim

b
(1)
2mc
= p lim

b
(1)
mco
. En outre

b
(1)
2mc

b
(1)
mco
=
_
x

x
_
11
x

1
M
x
y
162 Chapitre 11. Variables instrumentales
Demonstration En eet

b
2mc
=
_
x

x
_
1
x

y et

b
mco
= (x

x)
1
x

y donc
x

x
_

b
2mc

b
mco
_
= x

x
_
_
x

x
_
1
x

y
_
x

x
_
1
x

y
_
=
_
x

y x

x
_
x

x
_
1
x

y
_
=
_
x

y x

x
_
x

x
_
1
x

y
_
= x

M
x
y
Puisque x

x = (P
z
x)

(P
z
x) = x

P
z
P
z
x = (P
z
x)

x = x

x et avec M
x
= I
N
x(x

x)
1
x

.
Comme x
2
z, x
2
= (P
z
x
2
) = x
2
et donc x

2
M
x
= x

2
M
x
= 0.
x

x
_

b
2mc

b
mco
_
=
_
x

1
M
x
y
0
_
Dont on en deduit que
_

b
2mc

b
mco
_
=
_
x

x
_
1
_
x

1
M
x
y
0
_
soit, avec b
(1)
le vecteurs des coecients de x
1i
et symetriquement pour b
(2)
, et les notations standards
_
_
x

x
_
11
_
x

x
_
12
_
x

x
_
21
_
x

x
_
22
_
1
=
_
_
x

x
_
11
_
x

x
_
12
_
x

x
_
21
_
x

x
_
22
_
_
x

x
_
21
_

b
(1)
2mc

b
(1)
mco
_
+
_
x

x
_
22
_

b
(2)
2mc

b
(2)
mco
_
= 0
et

b
(1)
2mc

b
(1)
mco
=
_
x

x
_
11
x

1
M
x
y
Le test de p lim

b
2mc
= p lim

b
mco
et donc equivalent `a celui de p lim

b
(1)
2mc
= p lim

b
(1)
mco
. Ce test peut en outre etre
pratique `a partir de lexpression

b
(1)
2mc

b
(1)
mco
=
_
x

x
_
11
x

1
M
x
y
Rang de la matrice de variance de

b
(1)
2mc

b
(1)
mco
Lemme 4 Sous lhypoth`ese limrang
_
z

x
_
= K + 1, le rang de la matrice de variance de

b
(1)
2mc

b
(1)
mco
est K
1
, le nombre de variables explicatives endog`enes.
Demonstration Lexpression precedente montre que la matrice de variance de

b
(1)
2mc

b
(1)
mco
est
2
_
x

x
_
11
x

1
M
x
x
1
_
x

x
_
11
.
Son rang est donc egal `a celui de x

1
M
x
x
1
, donc `a celui de M
x
x
1
. Supposons que lon ait pour un vecteur
: M
x
x
1
= 0 alors P
x
x
1
= x
1
il existe donc un vecteur tel que x
1
= x. Comme x
1
appartient `a lespace
engendre par z = [ z, x
2
] , la combinaison lineaire x est necessairement une combinaison lineaire des seules va-
riables explicatives exog`enes : x = x
2

2
. Notant comme precedemment
1
= [
1 z
,
1x
2
] , o` u
1 z
et
1x
2
sont les
coecients de z et x
2
des regressions des variables endog`enes sur les instruments. Lequation x
1
= x
2

2
, secrit
z
1 z
+ x
2
(
1x
2

2
) = 0. Comme Z est de rang K + 1 ceci necessite
1 z
= 0. Et on a vu que la condition
limrang
_
z

x
_
= K +1 est equivalente `a
1 z
de rang K
1
on a donc necessairement sous cette condition = 0 et
donc la matrice de variance de

b
(1)
2mc

b
(1)
mco
est inversible : le nombre de degres de liberte du test dexogeneite est
egal `a K
1
.
Le test de Hausman
Proposition 11.6 Lorsque lhypoth`ese dhomoscedasticite, E(u
2
i
[x
i
, z
i
) =
2
est satisfaite, sous
lhypoth`ese nulle dexogeneite de x
i
, la statistique

S =
N

2
_

b
(1)
2mc

b
(1)
mco
_

_
_
x

x
N
_
11

_
x

x
N
_
11
_
1
_

b
(1)
2mc

b
(1)
mco
_
L

2
(K
1
)
Un test convergent au niveau de H
0
peut etre eectue en comparant la valeur de la statistique

S au quantile dordre 1 dune loi du


2
` a K
1
degres de liberte
11.7. Illustrations 163
Demonstration Sous lhypoth`ese dhomoscedasticite et sous lhypoth`ese nulle,

b
mco
est lestimateur de variance
minimale dans la classe des estimateurs sans biais dont fait parti lestimateur des doubles moindres carres. On a
donc
V
as
_

b
2mc

b
mco
_
= V
as
_

b
2mc
_
V
as
_

b
mco
_
Un estimateur convergent de la matrice de variance de la dierence

b
2mc

b
mco
est donc donne par

V
as
_

b
2mc

b
mco
_
=
2
_
_
x

x
_
N
11

(x

x)
N
11
_
On en deduit que

S suit une loi du
2
`a K
1
degres de liberte sous H
0
. Sous lhypoth`ese alternative p lim

b
(1)
2mc

p lim

b
(1)
mco
= 0 et donc

S +
(ii) Test dexogeneite par le biais de la regression augmentee
Le test dexogeneite peut etre mis en oeuvre tr`es simplement par le biais dune simple
regression de la variable dependante y sur les variables potentiellement endog`enes du mod`ele
et les variables exog`enes x
1
et x
2
et sur la projection des variables endog`enes sur les variables
instrumentales x
1
:
y = x
1
c
1
+x
2
c
2
+ x
1
+w
Lestimateur MCO du coecient de sobtient aisement `a partir de theor`eme de Frish-Waugh :
il sagit du coecient de la regression des mco sur le residu de la regression de x
1
sur les autres
variables, cest `a dire x. On a donc
=
_
x

1
M
x
x
1
_
1
x

1
M
x
y
or on a vu precedemment

b
(1)
2mc

b
(1)
mco
= ( x x)
11
x

1
M
x
y
On en deduit que lon a :

b
(1)
2mc

b
(1)
mco
= ( x x)
11
_
x

1
M
x
x
1
_

le test de p lim

b
(1)
2mc
p lim

b
(1)
mco
= 0 est donc equivalent au test de = 0 et peut etre eectue `a
partir de lestimateur . Il peut donc etre eectue tr`es simplement par lintermediaire dun test
de Wald ou dun test de Fisher.
Remarquons enn que le test peut etre mene de fa con analogue sur les residus des regressions
des variables explicatives endog`enes sur les instruments (x
1
) = x
1
x
1
. Lequation
y = x
1
c
1
+x
2
c
2
+ x
1
+w
se reecrit de fa con analogue comme
y = x
1
(c
1
+) +x
2
c
2
(x
1
) +w
11.7 Illustrations
11.7.1 Reduction du temps de travail et gains de productivite
Une des questions importantes dans leet du passage `a 35 heures sur leconomie est son eet
sur les gains de productivite. Par exemple si on consid`ere que la production reste inchangee,
leet sur lemploi sera important si il y a peu de gains de productivite. Les resultats presentes ici
164 Chapitre 11. Variables instrumentales
ne sont quillustratifs et ne pretendent pas donner un avis sur la reduction du temps de travail.
Ils montrent neanmoins si besoin etait que leconometrie permet de repondre `a des questions
importantes et soulignent le role essentiel des hypoth`eses identicatrices dans la reponse que
lon apporte. On peut considerer le mod`ele suivant :
ln y
i
= ln l
i
+ (1 ) ln k
i
+RTT
i
+u
i
o` u l
i
represente levolution des eectifs entre 1997 et 2000, k
i
celle capital et RTT
i
une indi-
catrice correspondant au fait que lentreprise ait signe un accord de reduction du temps de travail
sur cette periode. u
i
represente un choc de productivite ou de demande. Ce mod`ele est structurel,
cest `a dire que lon sinteresse `a leet de la reduction du temps de travail et des variations des
facteurs sur lactivite. Dans un tel contexte il est clair que dimportants probl`emes dendogeneite
des facteurs se posent : ln l
i
en premier lieu, mais aussi ln k
i
sont susceptibles dincorporer
les nouvelles conditions dactivite u
i
: ces variables sont tr`es certainement endog`enes. La va-
riable RTT
i
est, elle aussi, probablement endog`ene : toutes les entreprises sont sensees passer `a
terme `a 35 heures. Les entreprises ayant de bonnes perspectives de productivite peuvent plus
facilement et donc plus rapidement trouver un moyen avantageux de le faire. Ceci a pu etre
particuli`erement vrai dans le contexte de la n des annees 1990 o` u apr`es une longue stagnation,
la croissance qui avait dej` a soutenu longuement lactivite aux USA, arrivait en France. Compte
tenu des declarations des dirigeants politiques, il ny avait aucun doute quun jour ou lautre il
faudrait passer aux 35 heures. La question netait donc pas faut-il ou non passer `a la reduction
du temps de travail, mai quand faut-il passer aux 35 heures. Pour se concentrer sur leet de la
RTT on elimine le probl`eme de lestimation du param`etre en le mesurant comme la part des
salaires dans la valeur ajoutee dans le secteur. Lequation secrit alors :
ln y
i
ln l
i
(1 ) ln k
i
= PGF
i
= RTT
i
+u
i
Pour attenuer lendogeneite potentielle de la variable RTT
i
on peut introduire certains regresseurs
X
i
: le secteur, la taille, la part des salaires dans la valeur ajoutee, la structure des qualications...
Le mod`ele secrit alors
PGF
i
= X
i
b +RTT
i
+v
i
o` u v
i
represente le choc de productivite residuel, cest `a dire une fois pris en compte les facteurs
X
i
.
Pour estimer ce mod`ele on fait lhypoth`ese que les aides potentiellement re cue par les entre-
prises si elles signent un accord de reduction du temps de travail Aide
i
aectent sa decision de
passer `a la RTT, mais pas les gains de productivite. On consid`ere aussi que linformation dont
disposaient les entreprises sur la reduction du temps de travail aecte la decision de passage
mais pas la productivite. On mesure cette variable par la part des entreprises Robien dans le
secteur Inf
i
. On consid`ere de meme que le taux dendettement des entreprises aecte la decision
de passage mais pas la productivite Endt
i
. Enn, on consid`ere que la part des femmes dans len-
treprise Pf
i
naecte pas les gains de productivite mais inuence la decision de passage. On a
ainsi quatre variables instrumentales potentielles : Aide
i
, Inf
i
, Endt
i
et Pf
i
.
On verie dabord la condition de rang en regressant la variable RTT
i
sur X
i
et les va-
riables instrumentales. On voit clairement sur le tableau 11.2 que les coecients des variables
instrumentales sont signicatifs ce qui garantit que la condition de rang soit satisfaite.
11.7. Illustrations 165
Fig.11.2 Condition de rang
Instruments parametres cart-type Student Pvalue
un -0.801 0.082 -9.732 0.000
N16b 0.163 0.017 9.868 0.000
N16c 0.205 0.015 13.568 0.000
N16d 0.065 0.032 2.034 0.042
N16e 0.027 0.014 1.940 0.052
N16f 0.055 0.012 4.448 0.000
N16g 0.510 0.053 9.680 0.000
N16h 0.096 0.014 7.072 0.000
N16j 0.119 0.011 10.544 0.000
N16k -0.014 0.015 -0.945 0.344
N16n 0.167 0.013 12.483 0.000
taille1 -0.240 0.027 -8.856 0.000
taille2 -0.187 0.027 -6.909 0.000
taille3 -0.164 0.027 -6.011 0.000
taille4 -0.077 0.032 -2.433 0.015
eja1 0.413 0.037 11.203 0.000
eja2 0.211 0.026 8.132 0.000
eja3 0.294 0.031 9.508 0.000
ejq1 0.022 0.018 1.209 0.227
ejq2 0.000 0.019 0.021 0.983
pi97 -0.031 0.014 -2.223 0.026
Taux d'endettement 0.013 0.006 2.211 0.027
robien 1.466 0.161 9.095 0.000
aide 0.113 0.009 12.711 0.000
part des hommes -0.086 0.015 -5.772 0.000
Rgression de la variable RTT sur les instruments
Le tableau 11.3 donnent le resultat des estimations par les mco et par les variables instru-
mentales. On ne fait gurer que la variable RTT, mais les regressions comprennent toutes les
variables de controle qui gurent dans le tableaux precedent. On observe deux resultats im-
portants sur ces tableaux : dune part les coecients estimes pour la variable RTT sont tr`es
dierents suivant la methode destimation. Dans le cas mco on a -0.036, ce qui signie que les
entreprises ayant signe un accord de reduction du temps de travail on vu leur production baisser
de 3.6% `a facteurs inchanges. Pour une baisse de 10.3% (4/39) de la duree du travail, cest assez
peu et cela correspondrait `a lexistence dimportant gains de productivite dans les entreprises
passees aux 35 heures. Le coecient estime par la methode des variables instrumentales est
tr`es dierent. Il est de -0.107 ce qui correspond `a une baisse de la production de 10.7%. Ceci
signierait quil ny a pas eu de gains de productivite associes au passage `a 35 heures. On voit
donc que la conclusion `a laquelle on parvient depend tr`es fortement des hypoth`eses identica-
trices eectuees. Un autre enseignement des deux tableaux est la dierence importante entre les
ecarts-type estimes : lecart-type est de 0.003 pour la regression par les mco et de 0.032 pour
les variables instrumentales. Il y a donc un facteur 10 dans la precision. Il faudrait pour obtenir
un estimateur aussi precis que celui des mco multiplie la taille de lechantillon par 100 ! Les
regressions presentees sont eectuees sur 30.000 observations. On voit donc clairement le prix
des variables instrumentales en terme de precision.
Le tableaux 11.4 presentent le test de suridentication. Il est realise en regressant le residu
de la regression `a variable instrumentale sur les variables exog`enes du mod`ele cest `a dire les
instruments et les regresseurs exog`enes. On recup`ere le F de cette regression donne par le
logiciel F
Log
, et on applique la correction presentee F
Rec
= (H/ (H K)) F
Log
. Ici H est le
nombre de variables exog`enes (regresseurs plus instruments) i.e. H = 25, et K est le nombre de
variables explicatives exog`ene et endog`enes du mod`ele. Ici K = 22, la regression inclue en eet
166 Chapitre 11. Variables instrumentales
Fig.11.3 Estimation pas les MCO et le VI
variables parametres cart-type Student Pvalue
RTT -0.036 0.003 144.387 0.000
variables parametres cart-type Student Pvalue
RTT -0.107 0.032 11.564 0.001
Estimation par les mco
Estimation par les variables instrumentales
Fig.11.4 Test de Sargan
Instruments parametres cart-types
Taux d'endettement -0.00201 0.00329
robien 0.17451 0.06910
aide -0.00826 0.00373
part des hommes -0.00254 0.00753
Statistique degrs p-value
7.57 3 5.6%
Test de Sargan
les variables de controle qui ne sont pas montrees ici. La correction est donc tr`es importante
puisquon multiplie la statistique du logiciel par 25/3 = 8.33. Le nombre de degres de liberte est
le nombre dinstrument en exc`es cest `a dire 3. On voit que ce test nest que leg`erement accepte,
puisque la statistique est de 7.57 ce qui conduit `a une p-value de 5.6% pour 3 degres de liberte.
Notons que si on accepte lhypoth`ese (5.6% 5% on pourrait donc accepter `a la limite pour
un test `a 5%) ce que lon accepte nest pas le fait que les instruments sont valides, cest `a dire
quils verient la condition E (z
i
u
i
) = 0, autrement dit que le param`etre estime converge vers le
vrai param`etre. Ce que lon accepte cest que les estimateurs auxquels conduirait chacune des
variables instrumentales prise separement ne seraient pas statistiquement dierents : en resume
on accepte que si il y a biais, le biais sera le meme avec nimporte lequel de ces instruments.
On insiste ici `a dessein sur le fait quil sagit dun test de compatibilite des instruments et pas
un test de validite des instruments. Lidentication repose necessairement sur une hypoth`ese
non testable. On peut en verier la coherence interne le cas echeant, cest `a dire lorsquil y a
suridentication, mais pas la validite. Les tests de specication sont un guide tr`es utile mais pas
une reponse denitive.
Le tableau 11.5 presente le resultat du test dexogeneite. Lhypoth`ese testee est : condition-
nellement au fait que lon accepte la validite des instruments (ce qui na de sens que si le test de
suridentication a ete accepte, et qui nest le cas qu`a 5,6% ici) peut on accepter que la variable
supposee endog`ene est en fait exog`ene. Cest `a dire peut on se baser sur lestimateur des mco.
La dierence de precision des estimations motive de fa con convaincante lutilite de se poser cette
question. Le test est eectue par le biais de la regression augmentee. On introduit la variable
supposee endog`ene et la variable predite par la regression de la variable endog`ene sur les instru-
ments (celle du tableau1) lhypoth`ese est rejetee si cette derni`ere variable est signicative. Cest
nettement le cas ici. Ce test signie que si on croit `a la validite des instruments, on ne peut pas
croire `a lexogeneite de la variable de RTT.
Le tableau 11.6 montre le resultat des estimations lorsque lon retire la variable Inf
i
de la
liste des instruments. Le hypoth`ese de compatibilite des variables instrumentales est beaucoup
11.8. Resume 167
Fig.11.5 Test dexog en eit e
variables parametres cart-type Chi2 Pvalue
RTT prdit -0.072 0.031 5.208 0.022
RTT -0.036 0.003 136.164 0.000
Test d'Exognit
Fig.11.6 R esultat sans la part des Robien
Variables BIV SBIV0 CHIBIV0 PROBBIV0
RTT -0.161 0.039 17.317 0.000
Instruments parametres cart-types
Endt -0.0012 0.0033
aide -0.0026 0.0030
Hommes -0.0075 0.0074
Statistique degrs p-value
1.152 2 56.2%
variables parametres cart-type Chi2 Pvalue
RTT prdit -0.126 0.038 10.993 0.001
RTT -0.035 0.003 135.507 0.000
Variables Instrumentales
Test de Sargan
Test d'Exognit
plus largement acceptee. Lhypoth`ese dexogeneite est quant `a elle rejetee et le coecient estime
pour la variable de RTT est un peu modie. Il atteint un niveau de -16%, ce qui est tr`es eleve
et signie quil ny a pas eu de gains de productivite horaire mais plut ot des pertes. Il est aussi
moins precis.
11.8 Resume
Dans ce chapitre, on a etudie
1. Dierentes raisons de remettre en cause lhypoth`ese identicatrice fondamentale E (x

i
u
i
) =
0
2. Certaines variables apparaissent ainsi endog`enes et dautres restent exog`enes.
3. On a montre que lon peut recourir `a des hypoth`eses identiantes alternatives `a celle des
moindres carres ordinaires basees sur des variables instrumentales. Il sagit de variables
correlees avec les variables explicatives mais non correlees avec les perturbations.
4. On a vu que parmi lensemble des estimateurs possibles il en existait, dans le cadre ho-
moscedastique etudie, un plus ecace que les autres appele estimateur `a variables instru-
mentales.
5. Cet estimateur sinterpr`ete comme lestimateur obtenus en regressant la variable dependante
sur la ; projection des variables explicatives sur les variables instrumentales.
6. Cet estimateur est toujours moins precis que lestimateur des moindres carres ordinaires
168 Chapitre 11. Variables instrumentales
7. On a vu un test tr`es courant : le test de suridentication, ou test de Sargan, qui teste
la compatibilite des variables instrumentales. Il ne sagit pas dun test de validite des
instruments mais dun test permettant de verier quil ny a pas dincompatibilite entre
les dierents instruments utilises.
8. On a vu aussi quil etait possible de tester lexogeneite des variables instrumentales ce qui
permet davoir recours, le cas echeant, `a lestimateur des moindres carres ordinaires.
Chapitre 12
La Methode des moments generalisee
12.1 Mod`ele structurel et contrainte identiante : restriction
sur les moments
Les methodes destimation que lon a vu jusqu`a present exploitaient sans le dire explici-
tement lexistence de fonctions des param`etres et des variables du mod`ele dont lesperance est
nulle. Par exemple dans le cas du mod`ele lineaire vu jusqu`a present
y
i
= x
i
b +u
i
On a vu que lestimateur des mco exploitait largement lhypoth`ese de non covariance entre les
variables explicatives et le residu :
E
_
x

i
u
i
_
= 0
Cette restriction se reecrit de fa con analogue comme
E
_
x

i
(y
i
x
i
b)
_
= 0
Elle est directement liee `a lexpression de lestimateur des mco. Celui-ci peut en eet etre vu
comme la valeur du param`etre qui annule la contrepartie empirique des conditions dorthogona-
lite :
x

i
_
y
i
x
i

b
mco
_
= 0
Il en va de meme pour les variables instrumentales. La contrainte identiante centrale prenait
en eet la forme :
E
_
z
V I
i
u
i
_
= 0
et on a alors des relations du type
E
_
z
V I
i
(y
i
x
i
b)
_
= 0
Les estimateurs de mci sont caracterises par le fait quils annulent une combinaison lineaire
donnee de la contrepartie empirique des conditions dorthogonalite :
A.z
V I
i
_
y
i
x
i

b
mci
(A)
_
= 0
169
170
Ces restrictions ont en commun le fait quun vecteur de fonctions des observations et des pa-
ram`etres dont lesperance est egale `a zero pour la vraie valeur du param`etre. Dans le premier
cas il sagit de x

i
(y
i
x
i
b) et dans le second cas de z

i
(y
i
x
i
b) . La methode des moments
generalisee est la methode adaptee pour estimer des mod`eles econometriques denis par lexis-
tence de fonctions des observations et des param`etres desperance nulle. La methode des moments
generalisee va avoir pour nous plusieurs avantages :
On va pouvoir etendre les procedure destimation et de test `a des domaines plus generaux.
Dans le cas des variables instrumentales par exemple, on va pouvoir denir des estimateurs
optimaux ne reposant que sur les contraintes identiantes E
_
z
V I
i
(y
i
x
i
b)
_
= 0. En
particulier, ils ne feront pas dhypoth`eses de regularite sur la constance des moments
dordres superieurs. On va aussi pouvoir etendre les procedures de tests de suridentication
et dexogeneite au cas dans lequel les residus sont heteroscedastiques.
On va aussi pouvoir aborder des situations plus generales que celle examinees jusqu`a
present en considerant pas exemple des syst`emes dequations `a variables instrumentales.
Ce type de generalisation est essentiel dans leconometrie des donnees de panel. L` a aussi on
va pouvoir discuter les conditions didentication des param`etres, denir des estimateurs
optimaux, developper des procedure de tests de suridentication.
La methode des moments generalisee va aussi etre loccasion destimer et detudier des
mod`eles se presentant sous des formes moins standards que celle dune equation ou dun
syst`eme dequation avec residu. Dans certains cas, cest spontanement sous la forme de
fonctions des param`etres et des variables desperance nulle quun mod`ele emerge de la
theorie. Cest le cas en particulier des equations dEuler. Considerons par exemple le
cas dune entreprise decidant de son investissement. Notons F (K
t
, L
t
, ) la fonction de
production, et M (K
t
, I
t
, ) la fonction de co ut dajustement. Lequation daccumulation
du capital secrit K
t
= (1 ) K
t1
+I
t
. La fonction de prot de lentreprise secrit
E
t
_
+

=0
1
(1 +r)

(p

F (K

, L

, ) w

p
I
I

M (K
t
, I
t
, ))
_
Lentreprise cherche `a maximiser ce prot sous contrainte daccumulation. Le Lagrangien
de lobjectif de lentreprise secrit
E
t
_
+

=0
1
(1 +r)

(p

F (K

, L

, ) w

p
I
I

M (K

, I

, )) +

(K

(1 ) K
1
I
t
)
_
On en deduit les conditions du premier ordre :
E
t
_
p

F (K

, L

, )
K

M (K

, I

, )
K


+1
1
1 +r
_
= 0
E
t
_
p
I
+
M (K

, I
t
, )
I

_
= 0
E
t
_
p

F (K

, L

, )
L

_
= 0
On en deduit en particulier pour la date = t la relation
0 = E
t
_
p
t
F (K
t
, L
t
, )
K
t

M (K
t
, I
t
, )
K
t
+p
It
+
M (K
t
, I
t
, )
I
t

__
1
1 +r
__
p
It+1
+
M (K
t+1
, I
t+1
, )
I
t+1
___
12.2. Denir un mod`ele par le biais de conditions dorthogonalite 171
Ce qui signie que pour nimporte quelle variable z
t
appartenant `a lensemble dinformation
de la date t, on a
0 = E
__
p
t
F (K
t
, L
t
, )
K
t

M (K
t
, I
t
, )
K
t
+p
It
+
M (K
t
, I
t
, )
I
t

__
1
1 +r
__
p
It+1
+
M (K
t+1
, I
t+1
, )
I
t+1
___
z
t
_
On voit donc que dans ce cas le mod`ele conduit `a un grand nombre (a priori inni) de
relations entre les variables et les param`etres dont lesperance est egale `a zero. Lun des
interets de la methode des moments generalisee est justement associe `a cette particularite
du mod`ele. Si le mod`ele est juste alors on doit avoir la propriete quil existe un param`etre de
dimension nie annulant les conditions dorthogonalite bien quelles soient en tr`es grand
nombre. Dans une certaine mesure peu importe la valeur du param`etre, ce qui compte
vraiment est de savoir si lensemble des restrictions que la theorie economique impose aux
donnees sont bien veriees empiriquement ; cest `a dire que lon puisse trouver une valeur
du param`etre telle que lon accepte lhypoth`ese de nullite de la contrepartie empirique des
conditions dorthogonalite lorsquelles sont evaluees en ce point.
12.2 Denir un mod`ele par le biais de conditions dorthogonalite
La methode des moments generalisee concerne la situation dans laquelle on dispose dun
vecteur de fonctions g de dimension dimg dun param`etre dinteret de dimension dim et
de variables aleatoires observables, z
i
dont lesperance est nulle pour =
0
la vraie valeur du
param`etre :
E (g (z
i
, )) = 0 =
0
et pour
0
seulement. De telles relations portent le nom de conditions dorthogonalite.
Cest un cadre tr`es general englobant de nombreuses situations speciques :
12.2.1 Maximum de vraisemblance
On a des observations z
i
et un mod`ele dont la vraisemblance secrit LogL(z
i
, ) . Comme
E
_
L(z
i
, )
L(z
i
,
0
)
_
=
_
L(z
i
, )
L(z
i
,
0
)
L(z
i
,
0
) dz
i
=
_
L(z
i
, ) dz
i
= 1
et que du fait de linegalite de Jensen
log
_
E
_
L(z
i
, )
L(z
i
,
0
)
__
> E
_
log
_
L(z
i
, )
L(z
i
,
0
)
__
pour ,=
0
, on a
0 > E (log L(z
i
, )) E (log L(z
i
,
0
))
Lesperance de la vraisemblance est maximale pour =
0
:
E
log L(z
i
, )

= 0 =
0
172
12.2.2 Mod`ele desperance conditionnelle, moindres carres non lineaires
Il sagit de la situation dans laquelle le mod`ele deni lesperance dune variable aleatoire y
i
conditionnellement `a des variables explicatives x
i
:
E (y
i
[x
i
) = f (x
i
,
0
)
Les moindres carres non lineaires denissent le param`etre comme celui minimisant la somme
des carres des residus :
_
(y
i
f (x
i
, ))
2
_
. On peut montrer que la vraie valeur du param`etre
0
minimise E
_
(y
i
f (x
i
, ))
2
_
En eet, comme
E
_
(y
i
f (x
i
, ))
2
_
= E [y
i
f (x
i
,
0
) +f (x
i
,
0
) f (x
i
, )]
2
= E
_
(y
i
f (x
i
,
0
))
2
_
+2E [(y
i
f (x
i
,
0
)) (f (x
i
,
0
) f (x
i
, ))]
+E
_
(f (x
i
,
0
) f (x
i
, ))
2
_
> E
_
(y
i
f (x
i
,
0
))
2
_
on en deduit que E
_
(y
i
f (x
i
, ))
2
_
est minimal pour =
0
. On en deduit que la vraie valeur
du param`etre et la vraie valeur seulement verie
E
_
(y
i
f (x
i
, ))
f (x
i
, )

_
= 0 =
0
12.2.3 Methode `a variables instrumentales pour une equation seule
Il sagit de la generalisation du cas vu au chapitre precedent dans lequel on fait lhypoth`ese
quil existe un syst`eme de variables exterieures dites instrumentales, non correles avec les residus :
E
_
z
V I
i
(y
i
x
i

0
)
_
= 0
o` u y
i
est la variable dependante, x
i
le vecteur ligne des variables explicatives de dimension
1 dim() et z
i
le vecteur ligne des instruments de dimension 1 H.
On a
E
_
z

i
(y
i
x
i
)
_
= E
_
z

i
x
i
_
(
0
)
d`es lors que E
_
z

i
x
i
_
est de rang dim()
E
_
z

i
(y
i
x
i
)
_
= 0 =
0
Il sagit dune generalisation du cas du chapitre precedent dans la mesure o` u on ne fait plus
que les hypoth`eses minimales : existence des conditions dorthogonalite et condition de rang.
En particulier on ne fait plus lhypoth`ese dhomoscedasticite. De ce fait comme on va le voir
lestimateur optimal ne sera plus lestimateur des doubles moindres carres, le test de suridenti-
cation se generalise mais ne prend plus la meme forme, le test dexogeneite peut etre mis en
oeuvre mais fait partie dune classe plus generale de tests de specication. Le but principal de ce
chapitre est tout en presentant les elements generaux de la methode des variables instrumentales
de presenter lextension des resultats precedents `a cette situation plus generale.
12.2. Denir un mod`ele par le biais de conditions dorthogonalite 173
12.2.4 Methode `a variables instrumentales pour un syst`eme d equations.
La situation precedente peut etre generalisee `a un syst`eme dequations. On consid`ere ainsi
le cas o` u les conditions dorthogonalite sont donnees par :
E
_
Z

i
_
y
i
x
i

0
__
= 0
o` u y
i
est un vecteur de variables dependantes de dimension M 1, x
i
une matrice de variables
explicatives de dimension Mdim() et Z
i
une matrice dinstruments de dimension MH o` u
la ligne m contient les instruments z
m
de lequation m : Z
i
= diag (z
mi
) de telle sorte que
Z

i
=
_

_
z

1i
.
.
.
z

Mi
_

_
_

1i
.
.
.

Mi
_

_
=
_

_
z

1i

1i
.
.
.
z

Mi

Mi
_

_
On a
E
_
Z

i
_
y
i
x
i

__
= E
_
Z

i
x
i
_
(
0
)
d`es lors que E
_
Z

i
x
i
_
est de rang dim()
E
_
Z

i
_
y
i
x
i

__
= 0 =
0
Ce cas simple, lineaire, englobe lui-meme de tr`es nombreuses situations, comme celles vues
jusqu`a present mco, variables instrumentales dans le cas univarie mais bien dautres encore
comme leconometrie des donnees de panel, lestimation de syst`eme de demande, ou encore
lestimation de syst`emes ore-demande.
12.2.5 Leconometrie des donnees de panel
Le cadre precedent constitue un cadre general dans lequel il est possible de traiter leconometrie
des donnees de panel. Le mod`ele considere est le suivant :
y
it
= x
it
b +
i
+
it
Les perturbations suivent donc le mod`ele `a erreurs composees. On sinteresse aux dierentes
possibilites de correlation entre les variables explicatives et les perturbations, cest `a dire `a la
matrice
= E
_
u
i
V ec (x
i
)

_
Loperateur V ec est loperateur qui transforme une matrice en vecteur en empilant les colonnes
de la matrice les unes en dessous des autres. Dune fa con generale, les dierentes possibilite
de correlation vont conduire `a des parametrages dierents de la matrice . On aura des ma-
trices () dierentes suivant la nature des correlations entre les variables explicatives et les
perturbations. Lensemble de conditions dorthogonalite que lon consid`ere est
E
__
y
i
x
i
b
_
V ec (x
i
)

_
= ()
Tel quel cet ensemble est exprime comme une matrice. On peut le transformer pour lexprimer
sous forme vectorielle en appliquant loperateur V ec. On voit que mis sous cette forme, il y a
174
toujours le meme nombre de conditions dorthogonalite : dimg = (K + 1) T
2
et un nombre de
param`etre variant dune specication `a lautre. On voit bien que plus on va parametrer la matrice
de variance () , moins on va conserver dinformation pour estimer le param`etre dinteret b.
Des situations dans lesquelles la matrice () est nulle par exemple vont exploiter toutes les
covariances entre les perturbations et les variables explicatives `a toutes les dates pour estimer le
param`etre. Cette situation est tr`es exigeante vis `a vis des donnees. En revanche, dans la situation
extreme dans laquelle la matrice () serait laissee totalement libre, on voit que le param`etre
b ne serait plus identie. En pratique les param`etres sont des param`etres de nuisance et on
na pas toujours envie de les estimer car ils peuvent etre nombreux et leur examen serait long
fastidieux et pas necessairement tr`es utile. Dans les cas consideres il est en general possible
deliminer tout ou partie de ces param`etres de nuisance en appliquant des transformations aux
donnees. On a ainsi en general des relations prenant la forme
E
_
H
_
y
i
x
i
b
_
V ec (x
i
)

_
= 0
On voit que formellement, la situation consideree est analogue `a celle dun syst`eme dequations
avec variables instrumentales. Les instruments ici sont dits internes dans la mesure o` u ce sont
les valeurs passees presentes ou futures des variables explicatives qui sont utilisees comme ins-
truments. On voit aussi que ce cadre est tr`es general, et quil est susceptible de delivrer des
estimateurs des param`etres dans des situations nouvelles pour lesquelles il netait pas possible
de le faire auparavant, dans le cadre standard. On detaille maintenant les dierentes situations
possibles et on donne lensemble de conditions dorthogonalite correspondant.
(i) Exogeneite forte
La premi`ere situation que lon consid`ere est celle dite dexogeneite forte et correspond au
cas dans lequel il ny a pas de correlations entre les perturbations et les variables explicatives
passees presentes et futures, soit
E (
i
x
ks,i
) = 0 s = 1, . . . , T
E (
t,i
x
ks,i
) = 0 s, t = 1, . . . , T
Ces hypoth`eses sont autant de restrictions intervenant explicitement dans les estimations. Sous
ces hypoth`eses ne nombreux estimateurs standards : MCO, Between, Within, MCQG, sont tous
convergents. On va voir comment ces estimateurs sinterpr`etent maintenant dans le cadre plus
general considere ici. On peut remarquer quil y a ici (K + 1) T
2
conditions dorthogonalite :
E (u
t,i
x
ks,i
) = 0, t, s
et que ces conditions dorthogonalite peuvent de reecrire de fa con equivalente comme
E (u
1i
x
ks,i
) = 0, s
E (u
ti
x
ks,i
) = 0t > 1, s
(ii) Eets correles
Une deuxi`eme situation correspond au cas o` u lon ne souhaite pas faire reposer les estimations
sur lhypoth`ese E (
i
x
ks,i
) = 0. On introduit donc des param`etres de nuisance
ks
= E (
i
x
ks,i
) .
12.2. Denir un mod`ele par le biais de conditions dorthogonalite 175
On autorise donc le fait que les elements dheterogeneite individuelles soient correles avec les va-
riables explicatives, do` u le nom deets correles. Il y a donc (K + 1) T param`etres de nuisance.
On maintient par contre lhypoth`ese E (
t,i
x
ks,i
) = 0. On a donc comme condition dorthogo-
nalite :
E (u
t,i
x
ks,i
) =
ks
, t, s
De fa con equivalente, on peut eliminer les param`etres de nuisance, eliminant au passage certaines
conditions dorthogonalite. Les (K + 1) T
2
conditions dorthogonalite peuvent ainsi etre reecrites
apr`es elimination des (K + 1) T param`etres de nuisance comme
E (u
t,i
x
ks,i
) = 0, t > 1, s
Il y a alors (K + 1) T (T 1) conditions dorthogonalite. On remarque en outre quil sagit aussi
du deuxi`eme ensemble de conditions dorthogonalite identie dans le cas de lexogeneite forte.
(iii) Exogeneite faible
Lhypoth`ese E (
t,i
x
ks,i
) = 0 s, t = 1, . . . , T peut paratre excessive elle aussi. Ainsi
dans le cas des conditions dEuler on est plut ot amene `a utiliser comme variables instrumen-
tales des variables passees. On peut ainsi preferer ne retenir comme restriction identiante que
E (
t,i
x
ks,i
) = 0 t = 1, . . . , T et s < t. On autorise ainsi que les chocs passes aectent les
decisions concernant le niveau de la variable x
ks,i
. Cest cette specication qui porte le nom
dexogeneite faible. Elle consiste donc ` a introduire (K + 1) T +(K + 1) T (T + 1) /2 param`etres
de nuisance :
E (
i
x
ks,i
) =
ks
E (
t,i
x
ks,i
) =
t,ks
pour s t
On maintient en revanche
E (
t,i
x
ks,i
) = 0 t = 1, . . . , T et s < t
Finalement les conditions dorthogonalite secrivent dans ce cas sous la forme
E (u
t,i
x
ks,i
) =
ks
+
t,ks
1 (t s) , t, s
L` a aussi on peut de fa con equivalente reecrire ces conditions dorthogonalite pour eliminer les
param`etres de nuisance. Les (K + 1) T
2
conditions dorthogonalite peuvent ainsi etre reecrites
apr`es elimination des param`etres de nuisance comme
E (u
t,i
x
ks,i
) = 0, t > s + 1, s
Il y a alors (K + 1) T (T 1) /2 conditions dorthogonalite. On remarque en outre quil sagit
aussi dune sous partie de lensemble de conditions dorthogonalite de celui obtenu dans le cas
des eets correles.
176
Exogeneite forte Eets Correles Exogeneite faible
Restrictions - E (
i
x
ks,i
) = 0 E(
i
x
ks,i
) =0,
rel achees E(
t,i
x
ks,i
) = 0 s t
Restrictions E(
i
x
ks,i
) =0, E (
t,i
x
ks,i
) = 0 E (
t,i
x
ks,i
) = 0
maintenues E (
t,i
x
ks,i
) = 0 s, t s < t s, t
Conditions g
F
= g
C
=
_
g
C/f
, g
f
_
g
f
dorthogonalite
_
g
F/C
, g
C/f
, g
f
_
Tab.12.1 Conditions dorthogonalit e et choix dune sp ecification
(iv) Synth`ese
On voit que lon peut synthetiser les resultats precedents en introduisant trois ensembles de
conditions dorthogonalite :
g
f
= (u
t,i
x
ks,i
)
t>s+1
g
C/f
= (u
t,i
x
ks,i
)
ts+1
g
F/C
= (u
1i
x
ks,i
)
Le tableau 12.1 recapitule les trois situations examinees. Les dierentes specications sont
embotees les unes dans les autres. La plus generale est la specication exogeneite faible. Dans ce
cas les estimations ne reposent que sur un ensemble minimal dinformation. La specication ef-
fets correles introduit plus dinformation. Lensemble des conditions dorthogonalite inclus outre
celles dej` a presentes dans la specication exogeneite faible certaines conditions supplementaires
speciques aux eets correles. Enn dans le cas de lexogeneite forte, on adjoint `a lensemble
de conditions dorthogonalite precedent des conditions additionnelles, speciques `a lexogeneite
forte. On va pouvoir denir des estimateurs ne reposant que sur ces dierents sous-ensembles de
conditions dorthogonalite. On va aussi pouvoir, comme dans le cas des variables instrumentales,
tester la coherence de chacun de ces sous-ensembles de conditions dorthogonalite. Le test ef-
fectue sera analogue au test de Sargan. Enn, on va pouvoir tester la compatibilite des dierents
sous-ensembles dinformation entre eux. Ainsi on va pourvoir tester si par exemple lorsque lon
a estime le mod`ele sous lhypoth`ese eets correles, les conditions dorthogonalite additionnelles
speciques `a lexogeneite fortes sont compatibles avec les conditions dej` a mobilisees. Le test
sapparente alors au test dexogeneite examine dans le cas homoscedastique univarie.
12.3 Principe de la methode :
Le principe des GMM est de trouver

, rendant
g
_
z
i
,

_
la contrepartie empirique de E (g (z
i
, )) aussi proche que possible de zero.
- Si dim(g) = dim() on peut exactement annuler g
_
z
i
,

_
: le mod`ele est juste identie
(cas des mco, du maximum de vraisemblance, des moindres carres non lineaires, de la methode
des variables instrumentales lorsquil y a autant dinstruments que de variables endog`enes)
12.3. Principe de la methode : 177
- Si dim(g) > dim() On ne peut pas annuler exactement la contrepartie empirique des
conditions dorthogonalite. Le mod`ele est dit suridentie. Cest le cas le plus frequent lorsque
lon met en oeuvre des methodes de type variables instrumentales.
Remarque 12.1 lecriture du mod`ele signie quon peut annuler exactement lesperance E (g (z
i
, ))
meme dans le cas de la suridentication, alors que cest en general impossible ` a distance nie
pour la contrepartie empirique des conditions dorthogonalite.
Dans le cas de la suridentication, la methode consiste `a rendre aussi proche de zero que
possible la norme de la contrepartie empirique des conditions dorthogonalite dans une certaine
metrique :
_
_
_g (z
i
, )
_
_
_
S
N
= g (z
i
, )

S
N
g (z
i
, )
Lestimateur est alors deni par :

S
N
= Arg min

g (z
i
, )

S
N
g (z
i
, )
Remarque 12.2 Dans le cas des variables instrumentales, on reglait le probl`eme de la su-
ridentication en considerant des combinaisons lineaires des conditions dorthogonalite. Ceci
conduisait aux estimateurs des moindres carres indirects

b
mci
(A) , denis par
Az
V I
i
_
y
i
x
i

b
mci
(A)
_
= 0
Ici on aurait pu proceder de meme et denir des estimateurs bases sur une combinaison lineaire
des conditions dorthogonalite. On aurait alors deni des estimateurs de la forme
Ag
_
z
i
,

A
N
_
= 0
Les deux approches sont en fait analogues.
Exemple 10 Cas o` u les conditions dorthogonalite sont lineaires dans le param`etre dinteret.
Cest par exemple le cas des variables instrumentales dans un syst`eme dequations puisqualors
g (z
i
, ) = Z

i
_
y
i
x
i

_
= Z

i
y
i
Z

i
x
i
= g
1
(z
i
) g
2
(z
i
)
On note g
1
= g
1
(z
i
) et g
2
= g
2
(z
i
). Lestimateur est alors deni par :

S
= Arg min

(g
1
g
2
)

S
N
(g
1
g
2
)
Il existe dans ce cas une solution explicite :

S
=
_
g
2

S
N
g
2
_
1
g
2

S
N
g
1
Dans le cas des variables instrumentales, on a par exemple

S
=
_
x

i
Z
i
S
N
Z

i
x
i
_
1
Z

i
x
i
S
N
Z

i
y
i
Dans le cas dune seule equation, les estimateurs obtenus par la methode des moments generalisee
sont ainsi :

S
=
_
x

i
z
i
S
N
z

i
x
i
_
1
x

i
z
i
S
N
z

i
y
i
178
Si on prend par exemple pour metrique S
N
= z

i
z
i
1
On obtient lestimateur des doubles moindres
carres. On en conclut que dans le cas o` u les conditions dorthogonalite sont E
_
z

i
(y
i
x
i

0
)
_
=
0, cest ` a dire celles vues dans le chapitre precedent sur les variables instrumentales, on retrouve
comme estimateur GMM particulier lestimateur des doubles moindres carres. Neanmoins le
cadre dans lequel on se situe est plus general puisquon ne fait plus lhypoth`ese dhomoscedasticite.
On va voir que pour cette raison, lestimateur des doubles moindres carres nest plus lestimateur
de variance minimal.
12.4 Convergence et proprietes asymptotiques
Comme dans les cas examines precedemment on va voir que les estimateurs GMM presentes
sont convergents et asymptotiquement normaux. Comme precedemment lobtention de ces resultats
necessite des hypoth`eses. Elles vont porter ici sur les moments des variables z
i
mis aussi sur la
regularite de la fonction g (z
i
, ) .
Proposition 12.1 Sous les hypoth`eses
1. H1 Lespace des param`etres est compact. La vraie valeur est
0
interieure ` a ,
2. H2 E (g (z
i
, )) = 0 =
0
,
3. H3 g (z
i
, ) est contin ument derivable en ,
4. H4 E
_
sup

[g (z
i
, )[ +sup

[g (z
i
, )[
2
+sup

g (z
i
, )[
_
< ,
5. H5 g
k
(z
i
,
0
) a des moments nis dordre 1 et 2,
6. H6 Le Jacobien G = E (

g (z
i
,
0
)) de dimension dimg dim est de limrang dim,
7. H7 S
N
P
S
0
denie positive.
Lestimateur GMM

SN
minimisant Q
N
() deni par Q
N
() = g (z
i
, )

S
N
g (z
i
, ), est
convergent et asymptotiquement normal. Sa matrice de variance asymptotique est fonction de
S
0
et de la matrice de variance des conditions dorthogonalite. Elle peut etre estimee de facon
convergente.
1.

S
P

0
convergence
2.

N
_

0
_
L
N
_
0, V
as
_

(S)
__
normalite asymptotique
3. V
as
_

S
_
= [G

S
0
G]
1
G

S
0
V (g (z
i
,
0
)) S
0
G[G

S
0
G]
1
o` u S
0
= p limS
N
et V (g (z
i
,
0
)) =
E
_
g (z
i
,
0
) g (z
i
,
0
)

_
4.

V (g (z
i
,
0
)) = g
_
z
i
,

S
_
g
_
z
i
,

S
_
V (g (z
i
,
0
)) et

G =
g

_
z
i
,

S
_
G
5.

V
as
_

S
_
=
_

S
0

G
_
1

S
N

V (g (z
i
,
0
)) S
N

G
_

S
0

G
_
1
V
as
_

(S)
_
Parmi ces conditions la deuxi`eme est de loin la plus importante puisque cest elle qui denit
lidentication du param`etre. Cest sur le choix des fonctions g (z
i
, ) que porte le travail du
modelisateur. La condition 3 est essentielle pour obtenir la loi asymptotique des param`etres. En
eet il est central de pouvoir lineariser autour de la vraie valeur du param`etre. La condition
12.5. Estimateur optimal 179
4 est technique. Elle garantit quil y a convergence uniforme en probabilite de g (z
i
, ) vers
E (g (z
i
, )) (et pareil pour les autres fonctions concernees

g (z
i
, ) et g (z
i
, ) g (z
i
, )

). La
condition 5 est lanalogue de la condition z
i
u
i
a des moments dordre 1 et 2, dans le cas des
variables instrumentales. Elle est essentielle dans lapplication du theor`eme central limite dans
la derivation de lexpression de la matrice de variance. La condition 6 sert aussi pour deriver
lexpression de la matrice de variance. Dans le cas lineaire, elle est analogue `a la condition
didentication 2.
Demonstration Convergence : Soit Q
N
() = g (z
i
, )

S
N
g (z
i
, ) et Q() = E (g (z
i
, ))

S
0
E (g (z
i
, )) . On
peut ecrire
Q
_

S
_
Q(
0
) =
_
Q
N
_

S
_
+
_
Q
_

S
_
Q
N
_

S
___

[Q
N
(
0
) + (Q(
0
) Q
N
(
0
))]
comme Q
N
_

S
_
Q
N
(
0
) et Q(
0
) Q
_

S
_
,on a
0 Q
_

S
_
Q(
0
)
_
Q
_

S
_
Q
N
_

S
__
(Q(
0
) Q
N
(
0
))
2sup

|Q() Q
N
()|
La condition E
_
sup

|g (z
i
, )|
_
< +permet de montrer quil y a convergence uniforme de g (z
i
, ) vers E (g (z
i
, )) ,et
donc de Q
N
() vers Q() = E (g (z
i
, ))

S
0
E (g (z
i
, )) . On en deduit donc que Q
_

S
_
P
Q(
0
) . Comme la
fonction Q est continue, que est compact, que Q(
0
) = 0 et Q() = 0 E (g (z
i
, )) = 0 =
0
on en
deduit

S
P

0
.
Normalite asymptotique
La condition du premier ordre denissant le param`etre

S
est denie par

g
_
z
i
,

S
_

S
N
g
_
z
i
,

S
_
= 0. En
appliquant le theor`eme de la valeur moyenne `a g
_
z
i
,

S
_
, on a 0 =

Ng
_
z
i
,

S
_

Ng (z
i
,
0
) +

g
_
z
i
,

S
_

N
_

S

0
_
,
o` u

S
se trouve entre

S
et
0
converge donc aussi en probabilite vers
0
. En multipliant par

g
_
z
i
,

S
_

S
N
, on
a

g
_
z
i
,

S
_

S
N

g
_
z
i
,

S
_

N
_

S

0
_
=

g
_
z
i
,

S
_

S
N

Ng (z
i
,
0
)
La condition E
_
sup

g (z
i
, )|
_
< + garantit la convergence uniforme en probabilite de

g (z
i
, ) vers
E (

g (z
i
, )) . On en deduit que

g
_
z
i
,

S
_

S
N
P
G

S et que
_

g
_
z
i
,

S
_

S
N

g
_
z
i
,

S
_
_
P
G

S
0
G,
matrice dim dim inversible compte tenu de limrangG = dim. La condition que g
k
(z
i
,
0
) a des moments
dordre 1 et 2 permet dappliquer le theor`eme central limite `a

Ng (z
i
,
0
) :

Ng (z
i
,
0
)
Loi
N (0, V (g (z
i
,
0
))) .
On en deduit la normalite asymptotique de lestimateur et lexpression de sa matrice de variance. Remarquons
que le developpement precedent conduit aussi `a une approximation de lecart entre lestimateur et la vraie valeur :

N
_

S

0
_
=
_
G

S
N
G
_
1
G

S
N

Ng (z
i
,
0
) +o (1)
Estimation de la matrice de variance asymptotique
Le seul point `a montrer est que g
_
z
i
,

S
_
g
_
z
i
,

S
_
V (g (z
i
,
0
)) . La condition E
_
sup

|g (z
i
, )|
2
_
< ,
permet de montrer quil y a convergence uniforme de g (z
i
, ) g (z
i
, )

vers E
_
g (z
i
, ) g (z
i
, )

_

12.5 Estimateur optimal
Comme dans les cas precedemment abordes, on montre quil existe un estimateur GMM
optimal.
180
12.5.1 Existence dun estimateur optimal
Proposition 12.2 Les estimateurs

obtenus ` a partir de matrice de poids S

N
S

avec
S

= V (g (z
i
,
0
))
1
sont optimaux, au sens o` u dans la classe des estimateurs GMM, ils conduisent ` a des estimateurs
de variance minimale. La matrice de variance asymptotique de cet estimateur est
V
as
_

_
=
_
G

1
=
_
G

V (g (z
i
,
0
))
1
G
_
1
et peut etre estimee par

V
as
_

_
=
_

N

G
_
1
ou

G est comme precedemment un estimateur convergent de G.
Demonstration La demonstration se fait comme dans le cas des variables instrumentales. La variance asymp-
totique de lestimateur optimal secrit
V
as
_

_
=
_
G

V
1
G

1
=
_
C

C
_
1
avec C = V
1/2
G de dimension dimg dim
La variance asymptotique de lestimateur general secrit
V
as
_

S
_
=
_
G

S
0
G

1
G

S
0
V S
0
G
_
G

S
0
G

1
= BB

avec B = [G

S
0
G]
1
G

S
0
V
1/2
de dimension dim dimg. On a
BC =
_
G

S
0
G

1
G

S
0
V
1/2
V
1/2
G = I
dim
do` u
V
as
_

S
_
V
as
_

_
= BB

_
C

C
_
1
= BB

BC
_
C

C
_
1
C

puisque BC = I
dim
. On voit donc que
V
as
_

S
_
V
as
_

_
= B
_
I
dimg
C
_
C

C
_
1
C

_
B

est une matrice semi-denie positive, do` u loptimalite.


12.5.2 Mise en oeuvre de lestimateur optimal : deux etapes
Dans le cas general, la mise en oeuvre de la methode des moments generalisee pour obtenir
un estimateur optimal presente un probl`eme : la metrique optimale faire intervenir le param`etre
`a estimer et est donc inconnue.
S

0
= V (g (z
i
,
0
))
1
Pour mettre cet estimateur en oeuvre on a recours `a une methode en deux etapes :
Premi`ere etape : On utilise une metrique quelconque ne faisant pas intervenir le param`etre.
En fait on a interet `a reechir et `a chercher une matrice qui ne soit pas trop loin de la matrice
optimale. S
N
= I
dimg
est un choix possible mais certainement pas le meilleur. La mise en oeuvre
des GMM avec cette metrique permet dobtenir un estimateur convergent mais pas ecace

1
.
A partir de cet estimateur on peut determiner un estimateur de la matrice de variance des
conditions dorthogonalite :

V (g)
N
= g
_
z
i
,

1
_
g
_
z
i
,

1
_
P
V (g (z
i
,
0
))
12.6. Application aux Variables Instrumentales 181
ainsi que

G =

g
_
z
i
,

1
_
P
E (

g (z
i
,
0
))
On peut d`es lors determiner un estimateur de la matrice de variance asymptotique de ce premier
estimateur

V
as
_

1
_
N
=
_

S
N

G
_
1

S
N

V (g)
N
S
N

G
_

S
N

G
_
1
Deuxi`eme etape : On met `a nouveau en oeuvre lestimateur des GMM avec la metrique S

N
=

V (g)
1
N
. On obtient ainsi un estimateur convergent et asymptotiquement ecace dont on peut
estimer la matrice de variance asymptotique

V
as
_

_
N
=
_

N

G
_
1
12.6 Application aux Variables Instrumentales
12.6.1 Variables instrumentales dans un syst`eme dequations - cas general
On consid`ere le cas dun syst`eme dequations avec variables instrumentales
g (z
i
, ) = Z

i
_
y
i
x
i

_
= Z

i
y
i
Z

i
x
i

(i) Verication des hypoth`eses de convergence des estimateurs GMM


H2 E
_
Z

i
y
i
_
E
_
Z

i
x
i
_
= 0 admet une unique solution si limrangE
_
Z

i
x
i
_
= dim. Il
sagit l` a dune simple generalisation de la condition dej` a vue dans le cadre univarie.
H3 est satisfaite du fait de la linearite.
H4 et H5 sont satisfaites si E
_
_
sup

i
y
i

+ sup

i
x
i

_
2
_
< +, cest `a dire si les moments
de Z
i
, x
i
et y
i
existent jusqu`a un ordfre susant.
H6

g (z
i
,
0
) = Z

i
x
i
. Si E
_
Z

i
x
i
_
est de rang dim G = E (

g (z
i
,
0
)) = E
_
Z

i
x
i
_
est de rang dim
(ii) Expression de la matrice de variance des conditions dorthogonalite :
La variance des conditions dorthogonalite secrit :
V (g (z
i
,
0
)) = E
_
Z

i
_
y
i
x
i

0
__
y
i
x
i

0
_
Z
i
_
= E
_
Z

i
u
i
u

i
Z
i
_
Cette expression est tr`es proche de celle vue dans le cadre des variables instrumentales. Neanmoins,
comme on le voit elle fait en general intervenir le param`etre . Il est donc souvent necessaire de
mettre en oeuvre une methode en deux etapes.
182
(iii) Mise en oeuvre de lestimation
Premi`ere etape : Il faut choisir une metrique pour lestimateur de premi`ere etape. La metrique
optimale est linverse de la matrice de variance des conditions dorthogonalite. Elle a lexpression
donnee precedemment. On a interet `a choisir pour metrique de premi`ere etape une metrique qui
soit proche de la metrique optimale. Pour cela on peut choisir pour metrique ce quaurait ete
la metrique optimale en presence dhypoth`eses de regularite supplementaires. Une hypoth`ese de
regularite importante pourrait etre lhomoscedasticite
E
_
u
i
u

i
[Z
i
_
= E
_
u
i
u

i
_
Qui pourra etre utilisee si
E
_
u
i
u

i
_
=
2
D
o` u D est une matrice donnee. Par exemple D = I
M
, ce qui correspondrait `a lhypoth`ese que les
residus des equations sont independants et equidistribues. On utiliserait alors pour metrique de
premi`ere etape
S
N
= Z

i
DZ
i
On peut se trouver dans des situations ou spontanement la matrice de variance des residus aurait
une allure dierente. Cest en particulier le cas parfois dans le cas de leconometrie des donnees
de panel. Quel que soit le choix eectue, lestimateur de premi`ere etape a pour expression :

S
=
_
x

i
Z
i
S
N
Z

i
x
i
_
1
x

i
Z
i
S
N
Z

i
y
i
La matrice de variance des conditions dorthogonalite peut etre alors etre estimee par

V (g) = Z

i
_
y
i
x
i

S
__
y
i
x
i

S
_
Z
i
= Z

i
u
i
u

i
Z
i
A partir de cette estimation, on peut aussi estimer la variance de lestimateur de premi`ere etape :

V
_

(S)
_
=
_
x

i
Z
i
S
N
Z

i
x
i
_
1
Z

i
x
i
S
N

V (g) S
N
x

i
Z
i
_
Z

i
x
i
S
N
Z

i
x
i
_
1
ainsi que lestimateur optimal :

S
=
_
x

i
Z
i

V (g)
1
Z

i
x
i
_
1
x

i
Z
i

V (g)
1
Z

i
y
i
et sa variance asymptotique :

V
as
_

S
_
=
_
x

i
Z
i

V (g)
1
Z

i
x
i
_
1
12.6.2 Regressions `a variables instrumentales dans un syst`eme homoscedastique
On a vu que dans le cas de M regressions empilees homoscedastiques, lorsque les regresseurs
etaient les memes et quil nexistait pas de restrictions sur les param`etres, la mise en oeuvre
de la methode des MCQG conduit aux memes estimateurs que ceux obtenus par les moindres
carres ordinaires equation par equation. On peut voir que ce resultat se generalise au cas des
variables instrumentales dans un syst`eme dequation.
Si les regresseurs sont les memes, si il nexiste pas de contraintes entre les param`etres
des equations (x
i
= I
M
x
i
) , et si les instruments sont les memes dune equation `a lautre
12.6. Application aux Variables Instrumentales 183
(Z
i
= I
M
z
i
), dans le cas dhomoscedasticite des perturbations : E (u
i
u

i
[Z
i
) = , lestima-
teur GMM optimal est identique `a lestimateur `a variables instrumentales equation par equation.
Sous lhypoth`ese dhomoscedasticite, la matrice de variance des conditions dorthogonalite a
pour expression E
_
Z

i
Z
i
_
= E
_
z

i
z
i
_
. (Rappel : pour des matrices aux tailles appro-
priees (AB) (C D) = AC BD). On a donc Z
i
= ( 1) (I
M
z
i
) = z
i
. Do` u
Z

i
Z
i
=
_
I
M
z

i
_
( z
i
) = z

i
z
i
. On a donc
x

i
Z
i
S

i
x
i
=
_
I
M
x

i
z
i
__
E
_
z

i
z
i
__
1
_
I
M
z

i
x
i
_
=
1

_
x

i
z
i
E
_
z
i
z

i
_
1
z

i
x
i
_
et
x

i
Z
i
S

i
y
i
=
_
I
M
x

i
z
i
__
E
_
z

i
z
i
__
1 _
I
M
z

i
_
y
i
=
_

_
x

i
z
i
E
_
z
i
z

i
_
1
__
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
puisque
_
I
M
z

i
_
y
i
=
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
. Lestimateur optimal a donc pour expression

S
=
_
x

i
z
i
E
_
z
i
z

i
_
1
z

i
x
i
_
1

_
x

i
z
i
E
_
z
i
z

i
_
1
_
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
= I
M
x

i
z
i
_
E
_
z
i
z

i
__
1
_

_
z

i
y
1i
.
.
.
z

i
y
Mi
_

_
=
_

b
2mc1
.
.
.

b
2mcM
_

_
On voit que dans ce cas, lestimateur optimal est identique `a lestimateur des doubles moindres carres
eectue equation par equation. Il ny a donc pas non plus dans ce cas de methode en deux etapes
`a mettre en oeuvre. La matrice de variance des param`etres a pour expression
V
_

_
=
_
E
_
x

i
z
i
_
E
_
z
i
z

i
_
1
E
_
z

i
x
i
_
_
1
on voit donc que les estimateurs ne sont pas independants les uns des autres d`es que la matrice
de variance nest pas diagonale.
12.6.3 Application aux donnees de panel
Le cas des variables instrumentales dans un syst`eme dequation correspond aussi donnees de
panel. On a vu dans la premi`ere section Les dierents types de specication que lon pouvait
retenir. On a examine le cas de lexogeneite forte, des eets correles et de lexogeneite faible.
Dans ce dernier cas, on a vu que le mod`ele etait mis en dierence premi`ere et que lon utilisait les
184
variables explicatives retardees `a partir de lordre 2 comme instrument. On a ainsi la specication
matricielle suivante :
Z

i
u
i
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
1i
0 0
0 x
1i
0
x
2i
x
1i
0 x
2i
x
3i
.
.
. 0
.
.
.
0 0 0
x
1i
.
.
.
x
T2i
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
u
3i
u
4i
u
5i
.
.
.
u
Ti
_
_
_
_
_
_
_
_
De meme pour les eets correles, on a
Z

i
u
i
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
i
0 0
0 x
i
0
0 x
i
0
.
.
.
.
.
.
0 0 0
0
x
i
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
u
2i
u
4i
u
5i
.
.
.
u
Ti
_
_
_
_
_
_
_
_
et enn pour lexogeneite forte on a
_
Z

i
_
u
1i
u
i
__
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
i
0 0
0 x
i
0
0 x
i
0
.
.
.
.
.
.
0 0 0
0
x
i
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
u
1i
u
2i
u
4i
u
5i
.
.
.
u
Ti
_
_
_
_
_
_
_
_
_
_
Pour mettre en oeuvre lestimateur optimal on applique la methode exposee precedemment.
On peut remarquer que dans le cas de lexogeneite faible et des eets correles, la structure
des conditions dorthogonalite est telle quelle ne fait intervenir que la dierence premi`ere des
residus. Ceci est `a lorigine dune possibilite dun choix judicieux de la matrice de variance de
premi`ere etape. En eet, sous lhypoth`ese dhomoscedasticite des residus On aurait
E
_
Z

i
u
i
u

i
Z
i
_
= E
_
Z

i
E
_
u
i
u

i
_
Z
i
_
12.6. Application aux Variables Instrumentales 185
Or E (u
i
u

i
) =
2

D, o` u
D =
_
_
_
_
_
_
2 1 0
1
.
.
.
.
.
.
.
.
.
.
.
.
1
0 1 2
_
_
_
_
_
_
ne depend pas des param`etres. On va que dans ce cas on peut choisir comme matrice de premi`ere
etape une matrice approximant `a lhypoth`ese dhomoscedasticite pres la matrice de variance des
conditions dorthogonalite. La matrice S
1
a ainsi pour expression
S
1
= Z

i
DZ
i
12.6.4 Estimateur VI optimal dans le cas univarie et heteroscedastique
On consid`ere la situation dun mod`ele lineaire univarie
y
i
= x
i
+u
i
avec un ensemble dinstruments z
i
. Les conditions dorthogonalite sont donc
E
_
z

i
(y
i
x
i
)
_
= 0
Les resultats du chapitre precedent montre que dans le cas univarie homoscedastique, i.e.
E
_
u
2
i
[z
i
_
= E
_
u
2
i
_
, lestimateur GMM optimal concide avec lestimateur des 2mc. On examine
la situation dans laquelle il ny a plus homoscedasticite. La matrice de variance des conditions
dorthogonalite est donnee par
V (g) = E
_
(y
i
x
i

0
)
2
z

i
z
i
_
= E
_
u
2
i
z

i
z
i
_
et lestimateur optimal a pour expression

S
=
_
x

i
z
i
V (g)
1
z

i
x
i
_
1
x

i
z
i
V (g)
1
z

i
y
i
on voit quil est dierent de lestimateur des 2mc dont lexpression est

2mc
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
y
i
L` a aussi il faut mettre en oeuvre la methode en deux etapes. Un bon choix dans ce cas est
lestimateur des 2mc, qui est certainement proche de lestimateur optimal. On peut alors calculer
un estimateur de la matrice de variance des conditions dorthogonalite :

V (g) = u
2
2mci
z

i
z
i
puis determiner lestimateur optimal,

S
=
_
x

i
z
i
u
2
2mci
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
u
2
2mci
z

i
z
i
1
z

i
y
i
ainsi que les matrice de variance de chacun des estimateurs :
V
as
_

2mc
_
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
u
2
i
z

i
z
i
z

i
z
i
1
x
i
z

i
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
pour lestimateur des doubles moindres carres, et
V
as
_

_
=
_
x

i
z
i
u
2
i
z

i
z
i
1
z

i
x
i
_
1
pour lestimateur optimal.
186
12.7 Test de specication
12.7.1 Test de suridentication
Comme pour les variables instrumentales, dans le cas o` u il y a plus de conditions dorthogo-
nalite que de param`etres `a estimer, le mod`ele impose des restrictions aux donnees. Elles doivent
verier la propriete :
[ E (g (z
i
, )) = 0
Tous les estimateurs obtenus avec dierentes metriques doivent converger vers une meme
valeur. Le principe est ici analogue `a celui des variables instrumentales. La suridentication
exprime la meme idee qu`a la limite lestimateur ne depend pas de limportance que lon ac-
corde `a telle condition dorthogonalite, tout comme le test de specication avec les variables
instrumentales exprimait qu`a la limite lestimateur ne depend pas de telle variable instrumen-
tale. Il ne sagit en fait que dune generalisation valable pour des cas dans lesquels les conditions
dorthogonalite prennent une forme dierente de celle du produit dun residu et dun instrument.
Le principe du test reste le meme que celui que lon appliquerait pour tester la nullite
de lesperance dune variable aleatoire : regarder si la moyenne empirique est proche de zero
g (z
i
,
0
) est proche de 0, mais on ne connat pas
0
. Plus precisement : on regarde si g
i
=
g
_
z
i
,

_
est proche de 0, cest `a dire si la contrepartie empirique des conditions dorthogonalite
evaluee avec lestimateur optimal est proche de zero.
Le resultat general sapplique
N g
i

V
as
_
g
i
_

g
i

2
_
limrangV
_
g
i
__
Pour eectuer le test il faut donc determiner le rang de V
as
_
g
i
_
ainsi quun inverse generalise et
un estimateur convergent de cet inverse. Pour ce qui est du rang, on retrouve la meme idee que
pour les variables instrumentales : on teste la suridentication, cest `a dire la compatibilite du
surcrot dinformation introduit dans le mod`ele par rapport au minimum requis pour estimer le
param`etre. Le rang va donc etre la dierence entre le nombre de conditions dorthogonalite et
la dimension du param`etre `a estimer.
Proposition 12.3 Sous H
0
: [ E (g (z
i
, )) = 0, on a
NQ

N
(

) = N g
i

N
g
i
L

2
(dim(g) dim())
o` u g
i
= g
_
z
i
,

_
et S

N
=

V (g (z
i
,
0
))
1
= g
_
z
i
,

_
g
_
z
i
,

_
1
. On remarque que la statis-
tique utilisee pour le test est N fois la valeur de lobjectif ` a loptimum.
Demonstration Comme

N g
i

Ng
i
0
+G

N
_

0
_
et

N
_

0
_

_
G

S
N
G
_
1
G

Ng
i
0
on a

N g
i

_
I
dimg
G
_
G

G
_
1
G

Ng
i
0
= (I
dimg
P
G
)

Ng
i
0
12.7. Test de specication 187
avec P
G
= G
_
G

G
_
1
G

. P
2
G
= P
G
. P
G
est donc un projecteur dont le rang est celui de G, i.e. dim par
hypoth`ese. Comme en outre P
G
S
1
P

G
= P
G
S
1
, et V
as
(g
i
0
) = S
1
, on a
V
as
_
g
i
_
= (I
dimg
P
G
) S
1
(I P
G
)

= (I
dimg
P
G
) S
1
On en deduit immediatement le rang de V
as
_
g
i
_
:
limrangV
_
g
i
_
= dimg dim
et un inverse generalise :
V
as
_
g
i
_
S

V
as
_
g
i
_
= (I
dimg
P
G
) S
1
S

(I
dimg
P
G
) S
1
= (I
dimg
P
G
)
2
S
1
= (I
dimg
P
G
) S
1
= V
as
_
g
i
_
do` u
S

= V
as
_
g
i
_

Estimation convergente de linverse generalisee : Comme la matrice g (z


i
, ) g (z
i
, )

est une fonction continue de


convergent uniformement vers E
_
g (z
i
, ) g (z
i
, )

_
, S

N
= g
_
z
i
,

_
g
_
z
i
,

_
converge vers S

12.7.2 Tester la compatibilite de conditions dorthogonalite additionnelles


On peut etre amener `a vouloir adjoindre `a un ensemble de conditions dorthogonalite des
conditions additionnelles. Cette adjonction peut en eet conduire `a des estimations plus precises.
Lexemple le plus manifeste est celui dans lequel on adjoint `a une liste de variables instrumen-
tales supposees verier les conditions dorthogonalite, des conditions dorthogonalite formees en
utilisant les variables explicatives comme instrument. Dans le cas homoscedastique on avait dej` a
envisage ce type de test que lon avait appele test dexogeneite. Cette notion peut en fait se
generaliser.
Proposition 12.4 On sinteresse au test de lhypoth`ese nulle
H
0
:
0
tq E (g
1
(z
i
,
0
)) = 0 et E (g
2
(z
i
,
0
)) = 0
soit

0
tq E (g (z
i
,
0
)) = 0
o` u g

= (g

1
, g

2
) contre lhypoth`ese alternative
H
1
:
0
tq E (g
1
(z
i
,
0
)) = 0
Sous H
0
la statistique

S = Ng
_
z
i
,

V (g (z
i
,
0
))
1
g
_
z
i
,

_
Ng
1
_
z
i
,

1
_

V (g
1
(z
i
,
0
))
1
g
1
_
z
i
,

1
_
= Q
0
N
_

_
Q
1
N
_

1
_

2
(dimg dimg
1
)
o` u

est lestimateur GMM optimal sous H


0
et Q
0
N
_

_
= Ng
_
z
i
,

V (g (z
i
,
0
))
1
g
_
z
i
,

_
la valeur atteinte par lobjectif ` a loptimum sous H
0
, et

1
lestimateur GMM optimal sous H
1
188
et Q
1
N
_

1
_
= Ng
_
z
i
,

1
_

V (g
1
(z
i
,
0
))
1
g
_
z
i
,

1
_
la valeur atteinte par lobjectif ` a loptimum
sous H
1
.
Le test deni par la region critique
_

S > q
1
_

2
(dimg dimg
1
)
_
_
est un test convergent
au niveau .
Ce type de test est proche des tests du rapport des maxima de vraisemblance. On pourrait
en donner des equivalents correspondants au test de Hausman ou au test du multiplicateur de
Lagrange.
12.7.3 Application test de suridentication et dexogeneite pour un estima-
teur `a variables instrumentales dans le cas univarie et heteroscedastique
(i) Test de suridentication
Le test est eectue sur la contrepartie empirique des conditions dorthogonalite evaluees en
=

, lestimateur optimal. On calcule donc :


z

i
_
y
i
x
i

_
= z

i
u
i

et sa norme
z

i
u
i

u
i
2
z

i
z
i
1
z

i
u
i

o` u u
i
= y
i
x
i

1
est le residu de lequation estime `a partir dune premi`ere etape
Corollaire Sous lhypoth`ese nulle, H
0
: [ E
_
z

i
(y
i
x
i
)
_
= 0, la statistique

= Nz

i
u
i

u
i
2
z

i
z
i
1
z

i
u
i


2
(dimz dimx)
On rejettera lhypoth`ese nulle si

S

est trop grand, i.e. pour un test au niveau



S

>
Q
_
1 ,
2
(dimz dimx)
_
. On voit que lexpression de la statistique est tr`es proche de celle
vue precedemment dans le cas homoscedastique mais neanmoins dierente car : elle nest pas
basee sur le meme estimateur, elle na pas exactement la meme expression, faisant intervenir
u
i
2
z

i
z
i
1
et non z

i
z
i
1
_
u
i
2
, ce qui est une consequence directe de labandon de lhypoth`ese
dhomoscedasticite et enn quelle ne peut plus etre mise en oeuvre de fa con aussi directe et
simple que precedemment par le biais de la regression des residus estimes sur les variables
instrumentales.
(ii) Test dexogeneite des variables explicatives.
Lhypoth`ese nulle secrit
H
0
: b
0
tq E
_
z

i
(y
i
x
i
b
0
)
_
= 0 et E
_
x

1i
(y
i
x
i
b
0
)
_
= 0
et lhypoth`ese alternative
H
1
: b
0
tq E
_
z

i
(y
i
x
i
b
0
)
_
= 0
o` u x
1i
represente les variables endog`enes. On lui associe

b

0
lestimateur GMM base sur len-
semble les conditions dorthogonalite de H
0
ainsi que la valeur

S
0
atteinte par lobjectif `a
12.7. Test de specication 189
loptimum. Dans la mesure o` u on ne fait plus lhypoth`ese dhomoscedasticite, cet estimateur
nest pas necessairement lestimateur des mco : les conditions dorthogonalite portant sur les
variables instrumentales exterieures peuvent apporter une information ne se trouvant pas dans
les conditions dorthogonalite fondees sur les seules variables explicatives. On consid`ere aussi

1
lestimateur GMM base sur les conditions dorthogonalite sous H1 ainsi que la valeur

S
1
atteinte
par lobjectif `a loptimum. Le resultat stipule que la statistique

S
0


S
1

2
(K
1
)
o` u K
1
est le nombre de variables explicatives endog`enes.
12.7.4 Application aux donnees de panel
On peut appliquer ces resultats `a leconometrie des donnees de panel. On a vu en eet que les
specications que lon etait susceptible de retenir etaient embotees. Il est ainsi possible desti-
mer le mod`ele avec lensemble dinformation minimal, cest `a dire avec la specication exogeneite
faible. On obtient alors des estimateurs robustes `a de nombreuses sources de correlations entre
variables explicatives et perturbations. En revanche, les estimateurs nincluant que peu de res-
trictions ont de grandes chances detre imprecis. On peut donc chercher `a ameliorer leur precision
en faisant des hypoth`eses restrictives supplementaires comme lhypoth`ese deets correles. On
peu tester les hypoth`eses restrictives supplementaires par la methode que lon vient de detailler.
Ici elle prendra la forme suivante :
1. Estimation du mod`ele sous la specication exogeneite faible : On retient la valeur de
lobjectif `a loptimum : V
f
=
_
_
_Z

fi
u
f
i
_
_
_
2
S

f
, o` u S

f
est la metrique optimale pour cette
specication.
2. Sous lhypoth`ese nulle que la specication est adaptee, la statistique V
f
suit un
2
dont le
nombre de degres de liberte d est la dierence entre le nombre de conditions dorthogonalite
et le nombre de param`etres `a estimer. On peut donc calculer la p-value associee `a la
statistique de test
_
1 F
1
(V
f
, d)
_
et on accepte lhypoth`ese nulle si la p-value exc`ede
la valeur seuil retenue. Si on rejette lhypoth`ese nulle, il faut reechir `a une specication
alternative. Si en revanche lhypoth`ese nulle est acceptee, on peut tester si des contraintes
additionnelles sont compatibles avec celles dores et dej` a retenues.
3. Estimation du mod`ele sous la specication deets correles : On retient la valeur de lob-
jectif `a loptimum : V
C
=
_
_
Z

Ci
u
C
i
_
_
2
S

C
,
4. On forme la dierence V
C
V
f
qui suit sous lhypoth`ese nulle de compatibilite des condi-
tions dorthogonalite additionnelles un
2
dont le nombre de degres de liberte est la
dierence entre les nombre de conditions dorthogonalite dans les deux specications. On
calcule la p-value de cette statistique et on accepte lhypoth`ese nulle si la p-value exc`ede
le seuil retenu.
5. Si on rejette lhypoth`ese on conserve lestimateur avec exogeneite faible, sinon on peut
estimer le mod`ele avec lhypoth`ese dexogeneite forte. On retient la valeur de lobjectif `a
loptimum : V
F
=
_
_
Z

Fi
u
F
i
_
_
2
S

F
,
6. On proc`ede comme au 3 et 4 en comparant les valeurs atteintes `a loptimum. On peut
remarquer quil est possible de tester lhypoth`ese de compatibilite avec soit les conditions
190
de lexogeneite faible soit celles des eets correles. Si ceci naecte pas la puissance du test,
il nen est pas de meme avec le risque de premi`ere esp`ece.
12.8 Illustrations
12.8.1 Reduction du temps de travail et gains de productivite
On reprend lillustration du chapitre precedent et on montre comment les resultats sont mo-
dies. Par la mise en oeuvre de la methode des moments generalisee. On rappelle que lequation
que lon estime secrit :
PGF
i
= X
i
b +RTT
i
+v
i
o` u v
i
represente le choc de productivite residuel, cest `a dire une fois pris en compte les facteurs
X
i
.
Les variables instrumentales retenues sont : Aide
i
, Inf
i
, Endt
i
et Pf
i
. Linteret de la mise
en oeuvre de la methode des moments generalise est de pouvoir traiter le cas dune possible (et
vraisemblable) heteroscedasticite du residu.
On ne presente pas la condition de rang qui est la meme que dans le cas precedent (tableau
11.2 du chapitre precedent). On ne presente pas de tableau de resultat mais seulement certains
dentre eux. Lestimateur `a variable instrumentale usuel sert destimateur de premi`ere etape.
Il est identique `a celui du chapitre precedent : le coecient de la variable de RTT est -0.107
et son ecart-type est de 0.032, calcule avec la methode standard. On peut aussi calculer cet
ecart-type sans faire lhypoth`ese dhomoscedasticite comme on la explique plus haut. On voit
quil ny a pas de dierence dans le calcul de cet ecart-type : On trouve `a nouveau 0.032. Le
biais lie `a la presence dheteroscedasticite dans lestimation des ecarts-type de lestimateur `a
variables instrumentales est tr`es faible dans le cas present. On peut aussi calculer lestimateur
GMM optimal et son ecart-type. L` a aussi on ne trouve pas de dierence les coecients estimes
sont les meme et lecart-type egalement. La seule dierence notable entre les deux estimations
reside en fait dans la statistique de Sargan : elle est plus faible lorsque lon prend en compte
lheteroscedasticite. La statistique avec lestimateur standard (base sur la regression du residus
sur toutes les variables exog`enes) donne une statistique de 7.57 soit une p-value de 5.6% pour un

2
(3) . Avec lestimateur optimal elle est de 6.58 soit une p-value de 8.7% : on accepte beaucoup
plus facilement lhypoth`ese de compatibilite des instruments. On peut aussi mettre en oeuvre le
test dexogeneite. Avec la methode du chapitre precedent, sous hypoth`ese dhomoscedasticite,
on procedait `a une regression augmentee. Ici on fait une regression par VI par la methode des
GMM en incluant la variable de RTT dans la liste des instruments. On sinteresse dabord au
test de compatibilite des instruments Cette hypoth`ese est tr`es fortement rejetee la statistique
est de 11.53 pour 4 degres de liberte soit une p-value tr`es faible de 2%. La statistique du test
dexogneite est la dierence entre les deux statistiques de suridentication de la regression GMM
avec et sans la variable de RTT. On trouve une statistique de 11.53-6.58=4.95 la aussi fortement
rejete pour un degres de liberte de 1 (4-1).
12.8.2 Salaires et heures
On peut aussi aborder la question de la relation entre productivite et heures en examinant un
equation de salaire sur des donnees de salarie. En eet, sous lhypoth`ese que la remuneration est
12.8. Illustrations 191
Fig.12.1 R egression par les MCO
parametres std robuste std sandards
Constante 3.8236 (0.1138) (0.0803)
scolarit 0.0541 (0.0030) (0.0026)
exprience 0.0197 (0.0012) (0.0011)
(exprience-10) -0.0004 (0.0001) (0.0000)
heures (log) 1.1422 (0.0315) (0.0210)
egale `a la productivite marginale le salaire peut etre utilise comme une mesure de la productivite
marginale. On peut donc considerer lequation
w
i
= h
i
+x
i
b +u
i
(12.1)
o` u w
i
represente le logarithme du salaire et h
i
le logarithme des heures. Les variable x
i
sont
celles qui aectent le niveau de productivite et donc les variables de capital humain : niveau
deducation et experience. Neanmoins dans cette regression la variable dheure est, elle aussi,
endog`ene. Le salaire et le nombre dheure re`etent egalement un choix du salarie qui arbitre
entre remuneration et loisir. Parmi toutes les ores demploi qua re cu lindividu, celle que lon
observe est celle qui est preferee (on naborde pas ici la question pourtant centrale du choix entre
emploi et non emploi qui sera traitee dans le chapitre suivant). Pour la remuneration proposee les
agents sont prets `a travailler un certain nombre dheures qui leur est propre. Dans les preferences
des salaries interviennent les caracteristiques familiales : nombre denfants, revenus alternatifs
(conjoint, autres membres du menage), celibataire... Ces variables sont susceptibles de jouer le
role de variables instrumentales dans la regression 12.1.
On consid`ere un echantillon de femmes employees dans le commerce. On se restreint `a la
population feminine car cest sur elle que les variables instrumentales retenues ont le plus de
chance de jouer fortement. Lechantillon retenu provient de lEnquete Emploi faite par lINSEE et
comprend 3192 individus. Le tableau 12.1 presente les resultats de la regression par les moindres
carres ordinaires. La premi`ere colonne presente le param`etre, la seconde lecart-type robuste
et la derni`ere lecart-type obtenu avec la formule standard. Linteret principal de ce tableau
est de fournir la valeur du coecient des heures, qui sel`eve ici `a 1.14. Ceci signie quune
augmentation des heures de 1% conduit `a une hausse du salaire (et donc de la productivite de
1,14%). Le coecient est signicativement dierent de 1, ce qui implique quil y a de legers gains
de productivite horaire lorsque les heures augmentent.
Le tableau 12.2 presente la regression de la variable explicative endog`ene, le logarithme
des heures, sur les variables explicatives exog`enes : le nombre dannee detude, lexperience et
lexperience au carre et les variables instrumentales : le nombre denfant, lexistence de revenus
alternatifs dans le foyer (salaire du conjoint, allocations chomage), le logarithme de ce revenu le
cas echeant (zero sinon), le nombre de revenus salaries dans le menage et une indicatrice indi-
quant si lindividu vit seule ou non. Le tableau donne le coecient estime, son ecart-type et son
ecart-type robuste. On examine lapport des dierentes variables instrumentales `a lexplication
de la variable endog`ene. On observe comme on sy attend que plus le nombre denfants est eleve,
plus lincitation `a travailler est faible. On observe aussi que le fait detre celibataire conduit `a
des heures plus elevees. Leet du salaire annexe sur les heures est en revanche non signicatif,
bien que positif.
192
Fig.12.2 R egression de la variable dheure sur les exog` enes et les instruments
parametres std robuste std sandards
Constante 3.3186 (0.0380) (0.0360)
scolarit 0.0102 (0.0022) (0.0021)
exprience 0.0045 (0.0010) (0.0010)
(exprience-10) -0.0002 (0.0000) (0.0000)
nombre d'enfants -0.0568 (0.0070) (0.0061)
vit seule 0.0609 (0.0167) (0.0164)
revenu alternatif 0.0026 (0.0015) (0.0015)
Fig.12.3 R egression par les variables instrumentales
parametres std robuste std sandards
Constante 2.5613 (0.4393) (0.3891)
scolarit 0.0494 (0.0034) (0.0031)
exprience 0.0193 (0.0013) (0.0011)
(exprience-10) -0.0004 (0.0001) (0.0001)
heures (log) 1.5252 (0.1312) (0.1173)
Le tableau 12.3 presente les resultats de lestimation du mod`ele par les variables instrumen-
tale, en ignorant lheteroscedasticite dans la determination de lestimateur. Lexpression de les-
timateur est donc

b
IV
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
z

i
y
i
. La deuxi`eme colonne presente lecart-
type robuste et la derni`ere lecart-type obtenu avec la formule valable pour lhomoscedasticite du
residu. Les matrices de variance correspondantes secrivent

V
homo
_

b
IV
_
=
2
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
et

V
hetero
_

b
IV
_
=
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
x

i
z
i
z

i
z
i
1
u
2
i
z

i
z
i
z

i
z
i
1
z

i
x
i
_
x

i
z
i
z

i
z
i
1
z

i
x
i
_
1
. On ob-
serve que la variable dheure est sensiblement plus eleve que dans la regression par les mco. Alors
que la regression par les mco donne un coecient de 1.14, le chire obtenu ici est nettement
plus eleve puisquil sel`eve `a 1.52. Cela signie que lorsque lallongement du temps de travail
saccompagne de gains de productivite horaire important : une augmentation de 1% des heures
conduit `a une augmentation des remunerations de 1.5%. On peut noter que ce coecient nest
pas eloigne de celui trouve dans lapproche par les fonctions de production lorsque lon nutili-
sait pas la variable Robien, comme instrument. On remarque aussi que le coecient est l` a aussi
statistiquement dierent de 1 mais que lecart-type estime est quatre fois plus important que
celui des moindres carres ordinaires. On remarque quil existe des dierences liees `a la prise en
compte de lheteroscedasticite mais quelles ne sont pas phenomenales.
Le tableau 12.4 presente les resultats obtenus par la methode des moments generalisee. Les-
timateur est donc

b
IV
=
_
x

i
z
i

i
x
i
_
1
x

i
z
i

i
y
i
, avec

= E
_
u
2
i
z

i
z
i
_
1
et

= u
2
i
z

i
z
i
1
, o` u
u
i
est le residu estime obtenu `a partir dune premi`ere etape utilisant une matrice de ponderation
quelconque. Le choix naturel qui est celui qui a ete eectue ici consiste `a se baser sur lestimateur
par variable instrumentale. On voit que les changements sont modestes par rapport au tableau
precedent. Cest une bonne nouvelle `a priori. Si entre la premi`ere et la deuxi`eme etape, il y
avait des changements importants, cela signierait que vraisemblablement les conditions dor-
thogonalite ne sont pas compatibles entre elles. Ici le fait que les resultats soient tr`es proches
signie aussi peut etre que lheteroscedasticite nest pas un phenom`ene de premier ordre. Le
coecient auquel on parvient est de 1.51 et on observe quil nest pas beaucoup plus precis que
lestimateur precedent. Dans le cas present, les gains lies `a lutilisation de lestimateur GMM
12.8. Illustrations 193
Fig.12.4 R egression par la m ethode des moments g en eralis ee
parametres std robuste
Constante 2.6139 (0.4373)
scolarit 0.0498 (0.0034)
exprience 0.0195 (0.0013)
(exprience-10) -0.0004 (0.0001)
heures (log) 1.5081 (0.1305)
Fig.12.5 Tests de sp ecification
Test Statistique degrs pvalue
Suridentification 2.522 2.000 0.283
Exognit 8.650 1.000 0.003
Suridentification 2.805 2.000 0.246
Exognit 1.128
(0.021)
GMM
VI
sont assez faibles.
Enn, on peut examiner la question de la specication, en procedant aux tests de suri-
dentication et dexogeneite. Les tests ont la meme interpretation que dans le cas variables
instrumentales, mais la mise en oeuvre est dierente. Les tests dans le cas homoscedastiques,
sont eectues `a partir de regressions auxiliaires : regression du residu estime sur les instruments
et test de la nullite globale des coecients pour le test de suridentication et regression etendue
dans laquelle on introduit en plus des variables explicatives la prevision des variables endog`enes
par les instruments et les variables exog`enes. Dans le cas GMM, on na pas ce genre de simpli-
cation et les tests sont bases sur lobjectif atteint par lestimateur optimal : S = z

i
u

i
u

i
. Les
tests de suridentication compare la valeur obtenue de S `a la valeur seuil pour un test de niveau
donne. Le test dexogeneite compare quant `a lui la valeur S `a la valeur S
e
, obtenue avec pour
ensemble dinstruments z, x
end
. La statistique de test S
e
S suit un
2
dont le nombre de degres
de liberte est le nombre de variables endog`enes. On voit dans le tableau 12.5 que lhypoth`ese
de suridentication est acceptee mais pas celle dexogeneite. Il y a en outre l` a aussi peu de
dierence entre la methode `a variables instrumentales et la methode des moments generalisee.
Les statistiques de suridentication sont tr`es proches et les statistiques pour le test dexogeneite,
bien que non directement comparables, conduisent aux memes conclusions.
Enn le tableau 12.6 presente les resultats pour dierents secteurs. Les deux premi`eres
colonnes donnent la valeur du param`etre et son ecart-type en utilisant pour instruments le
fait detre celibataire, le nombre denfants et le revenu alternatif. Les deux colonnes suivantes
presentent le test de Sargan et sa p-value. On presente le test dexogeneite. Ceci nest pas ef-
fectue pour les Industries Agricoles, le Transport et la Finance puisque dans ces secteurs, le test
de validite de suridentication conduit au rejet de lhypoth`ese de compatibilite des instruments.
On ne peut donc pas tester la compatibilite de restrictions identiantes supplementaires. Les
colonnes 7 et 8 presentent la valeur du param`etre estime en utilisant comme instruments les
trois variables retenues et la variable dheure. Enn les deux derni`eres colonnes presentent le
test de suridentication lorsque lon utilise tous ces instruments. On verie que la valeur de la
statistique est la somme des statistiques obtenus dans les colonnes (3) et (5). Ce que montre ce
194
Fig.12.6 R esultats Sectoriels
Par std S p S(e) p(e) Par std S p
Industries Agricoles 0.51 (0.67) 8.33 0.02
Biens de consommation 1.68 (0.71) 2.85 0.24 0.91 0.34 1.13 (0.09) 3.76 0.29
Automobiles et Equipements 0.79 (0.38) 4.13 0.13 2.01 0.16 1.22 (0.07) 6.15 0.10
Biens Intermdiaires 1.04 (0.26) 0.77 0.68 0.08 0.77 0.98 (0.05) 0.85 0.84
Commerce 1.51 (0.13) 2.52 0.28 8.65 0.00
Transport 1.92 (0.52) 2.42 0.30 2.76 0.10 1.19 (0.08) 5.18 0.16
Finance 1.20 (0.24) 6.02 0.05
Services Entreprises 1.23 (0.16) 10.09 0.01
Services Particuliers 2.69 (0.48) 0.14 0.93 82.10 0.00
Education Sant 1.18 (0.11) 4.76 0.09 18.02 0.00
Administration 1.30 (0.15) 3.13 0.21 4.87 0.03
tableau est que les instruments ne sont pas toujours consideres comme compatibles. Lorsquils
le sont les valeurs sont assez dierentes dun secteur `a lautre, quoique toujours superieure `a 1.
On voit aussi que les estimations sont peu precises et que lorsque lhypoth`ese dexogeneite est
acceptee, on obtient des gains decacite non negligeables.
12.9 Resume
Dans ce chapitre on a presente une methode destimation tr`es generale, englobant la totalite
des methodes vues jusqu`a present. Elle permet aussi de considerer facilement des generalisations
utiles des situations envisagees jusqu`a present. En particulier elle permet de generaliser la
methode des variables instrumentales aux cas heteroscedastiques et au cas de syst`emes dequations.
1. Cette methode est basee sur lexploitation de conditions dorthogonalite, qui sont des
fonctions des variables et des param`etres du mod`ele dont lesperance est nulle.
2. Le principe de la methode des moments generalisee consiste `a choisir le param`etre de
telle sorte que la contrepartie empirique des conditions dorthogonalite soit le plus proche
possible de zero.
3. Lorsquil y a juste identication, cest `a dire lorsque le nombre de param`etre `a estimer
est le meme que le nombre de conditions dorthogonalite, on peut exactement annuler (en
general) les contreparties empiriques des conditions dorthogonalite.
4. Lorsquil y a plus de conditions dorthogonalite que de param`etres `a estimer, on est dans
la situation dite de suridentication. On ne peut en general pas annuler directement la
contrepartie empirique des conditions dorthogonalite. On minimise alors la norme de ces
contreparties.
5. Les estimateurs auxquels on parvient sont sous certaines hypoth`eses de regularite conver-
gents et asymptotiquement normaux. La convergence ne depend pas de la metrique choisie
pour estimer mais la matrice de variance de lestimateur si.
6. Parmi tous les estimateurs envisageable, il en existe un plus precis que tous les autres :
cest lestimateur GMM optimal. Il est obtenu en utilisant pour metrique linverse de la
matrice de variance des conditions dorthogonalite.
7. La methode des moments generalisee permet comme la methode des variables instrumen-
tale de proceder `a des tests de specication. Il est ainsi possible de tester la compatibilite
12.9. Resume 195
des conditions dorthogonalite entre elles (`a linstar des tests de compatibilite des variables
instrumentales). Ce test est un test de compatibilite et pas un test de validite.
8. La methode permet aussi de tester la compatibilite dun ensemble de conditions dortho-
gonalite additionnel avec un ensemble de conditions dorthogonalite initial dont la validite
constitue lhypoth`ese alternative.
196
Chapitre 13
Variables dependantes limitees
On a examine jusqu`a present le cas de mod`eles lineaires pour lesquels la variable dependante
y
i
avait pour support . On examine dans ce chapitre trois types de mod`eles aux applications tr`es
nombreuses et qui sont des extensions directes du mod`ele lineaire : Les mod`eles dichotomiques,
les mod`eles Tobit et le mod`ele Logit Multinomial
Mod`ele dichotomique : y
i
0, 1 . Par exemple : participation au marche du travail,
`a un programme de formation, faillite dune entreprise, defaut de paiement, signature
dun accord de passage aux 35 heures etc.... Les informations dont on dispose dans les
enquetes sont souvent de cette nature : avez vous au cours de la periode du tant au
tant eectue telle ou telle action. On va presenter dix mod`eles tr`es couramment utilises
pour modeliser ce type de situation : les mod`eles Logit et les mod`eles Probit et on va
insister sur la relation entre la modelisation statistique des variables prenant leurs valeurs
dans 0, 1 et la modelisation economique. Ceci va nous conduire `a introduire la notion
importante de variable latente : une variable dont le support peut etre mais qui nest
quen partie observee. On est ainsi conduit `a modeliser cette variable, ce qui correspond
`a une modelisation economique (dans le cas de la faillite dune entreprise il peut sagir de
la valeur des prots futurs de lentreprise), et `a modeliser aussi la fa con dont une censure
sop`ere dans les observations, ce qui peut resulter l` a aussi dun comportement economique
(dans le cas de la faillite il peut sagir du fait que la valeur de lentreprise passe sous un
certain seuil) mais aussi dune caracteristique statistique des donnees.
Le mod`ele logit Multinomial Mod`ele de choix discret comme par exemple le choix du
lieu de vacances (pas de vacances, montagne, mer, campagne) ou le choix du moyen de
transport domicile-travail (bus, auto, metro, `a pied). Ces situations conduisent `a des va-
riables prenant un nombre ni de modalites y
i
0, 1, 2, . . . , M . Le mod`ele que lon va
introduire est tr`es utilise dans de nombreux domaines appliques. Il insiste lui aussi sur la
modelisation economique. Lidee generale est qu`a chaque modalite est associee une va-
leur dependant des preferences intrins`eques dun individu mais aussi de caracteristiques
economiques telles que les prix ou le revenu. Le choix selectionne par un individu est ce-
lui correspondant `a la valorisation maximale. Ce type de modelisation, du `a lorigine `a
Mac Fadden, est tr`es utilise dans la modelisation des syst`emes de demande pour des biens
dierencies et intervient souvent en economie industrielle empirique.
Le Mod`ele Tobit est un mod`ele central dans lanalyse economique. Il correspond `a la prise
en compte de selectivite dans les observations : le fait que lon observe un phenom`ene nest
197
198 Chapitre 13. Variables dependantes limitees
pas independant de ce phenom`ene. Pour lanalyser il faut donc modeliser le phenom`ene
et les conditions qui conduisent `a son observation. Par exemple le salaire nest observe
que conditionnellement au fait que lindividu ait un emploi. On a alors deux variables
`a modeliser : la variable de censure I
i
0, 1 indiquant si le salaire est observe ou
non et la variable de salaire w
i
lorsquil est observe. Cette modelisation fait comme le
mod`ele Probit appelle `a des variables latentes. Il existe dierents types de mod`eles Tobit
qui correspondent `a autant de situations economiques. Le classement de ces situations en
dierents types de mod`eles Tobit est du `a Amemiya. Il y a ainsi des mod`eles Tobit de type
I, de type II, de type III, IV et V. On va voir dans ce chapitre les mod`eles de type I `a III.
13.1 Mod`ele dichotomique
On souhaite expliquer une variable endog`ene y
i
prenant les valeurs 1 ou 0 en fonction de
variables explicatives exog`enes x
i
,
Dune fa con generale on specie la probabilite dobserver y
i
= 1 conditionnellement aux
variables explicatives x
i
.
P (y
i
= 1 [x
i
) =

G(x
i
)
qui denit compl`etement la loi conditionnelle de y
i
sachant x
i
. Cette probabilite est aussi
lesperance conditionnelle de la variable y
i
:
E (y
i
[x
i
) =

y
i
{0,1}
y
i
_
1
(y
i
=1)
P (y
i
= 1 [x
i
) + 1
(y
i
=0)
(1 P (y
i
= 1 [x
i
))

= P (y
i
= 1 [x
i
) =

G(x
i
)
On specie en general cette fonction comme dependant dun indice lineaire en x
i
:

G(x
i
) = G(x
i
b)
Les dierentes solutions que lon peut apporter `a la modelisation de la variable dichotomique y
i
correspondent `a dierents choix pour la fonction G.
13.1.1 Mod`ele `a probabilites lineaires
Cest la situation dans laquelle on specie simplement
E (y
i
[x
i
) = P (y
i
= 1 [x
i
) = x
i
b
Le mod`ele peut alors etre estime par les MCO.
En depit de sa simplicite attractive, ce choix de modelisation presente neanmoins lin-
convenient majeur que le mod`ele ne peut contraindre P (y
i
= 1 [x
i
) = x
i
b `a appartenir `a linter-
valle [0, 1]. Il y a donc une incoherence dans cette modelisation.
Un autre probl`eme vient de lestimation. Compte tenu du fait que y
2
i
= y
i
, toute estimation
de mod`ele de choix discret par les moindres carres, lineaire dans le cas present ou non lineaire
dans le cas general, cest `a dire basee sur la specication E (y
i
[x
i
) = G(x
i
b) , doit prendre en
compte le fait que le mod`ele de regression correspondant
y
i
= G(x
i
b) +u
i
13.1. Mod`ele dichotomique 199
est heteroscedastique. En eet on a :
V (y
i
[x
i
) = E
_
y
2
i
[x
i
_
E (y
i
[x
i
)
2
= E (y
i
[x
i
) E (y
i
[x
i
)
2
= E (y
i
[x
i
) [1 E (y
i
[x
i
)] = G(x
i
b) [1 G(x
i
b)]
Lestimateur des mco dans le cas lineaire a donc pour variance
V
as
_

b
mco
_
= E
_
x

i
x
i
_
1
E
_
u
2
i
x

i
x
i
_
E
_
x

i
x
i
_
1
que lon estime par la methode de White

V
as
_

b
mco
_
= x

i
x
i
1
u
2
i
x

i
x
i
x

i
x
i
1
On pourrait etre tente destimer plus directement cette matrice compte tenu de la forme de
lheteroscedasticite, ou meme `a mettre en oeuvre lestimateur des MCQG puisque lon connat
lexpression de la matrice de variance des residus conditionnellement `a x
i
: E
_
u
2
i
[x
i
_
= G(x
i
b) (1 G(x
i
b)) =

2
(x
i
b) . Par exemple pour lestimateur des MCQG

b
mcqg
= x

i
x
i
1
x

i
y
i
avec z
i
= z
i
__

2
_
x
i

b
mco
_
. Ceci est en pratique impossible avec le mod`ele de probabilite
lineaire puisquil nest pas exclu que x
i
b (1 x
i
b) soit negatif.
13.1.2 Les mod`eles probit et logit.
Il est preferable de faire un autre choix que lidentite pour la fonction G. On souhaite que
cette fonction soit croissante, quelle tende vers 1 en + et vers 0 en . En principe, la
fonction de repartition de nimporte quelle loi de probabilite pourrait convenir. En pratique les
mod`eles de choix discret sont species en utilisant deux fonctions de repartition :
, la fonction de repartition de la loi normale :
G(z) =
_
z

(t)dt = (z)
o` u (t) =
1

2
exp
_

1
2
t
2
_
. On a donc dans ce cas
P (y
i
[x
i
) = (x
i
b)
Un tel mod`ele est appele Mod`ele Probit.
F, la fonction logistique
F (z) =
1
1 + exp (z)
Dans ce cas
P (y
i
[x
i
) = F (x
i
b) =
1
1 + exp (x
i
b)
Un tel mod`ele est appele Mod`ele Logit
200 Chapitre 13. Variables dependantes limitees
(i) Eet marginal dune variation dun regresseur continu x
Lun des avantages majeurs du mod`ele de probabilite lineaire est quune variation marginale
dun regresseur a un eet constant dans la population. Cette propriete simple et attractive
nexiste plus dans le cas des mod`eles probit ou logit. On peut neanmoins preciser leet dune
variable sur la probabilite conditionnelle dobserver levenement modelise. Comme E (y
i
[x
i
) =
G(x
i
b) , on a
E (y
i
[x
i
)
x
k
i
= G

(x
i
b) b
k
et lelasticite
LogE (y
i
[x
i
)
x
k
i
=
G

(x
i
b)
G(x
i
b)
b
k
Pour le mod`ele Probit on a ainsi :
E (y
i
[x
i
)
x
k
i
= (x
i
b) b
k
,
LogE (y
i
[x
i
)
x
k
i
=
(x
i
b)
(x
i
b)
b
k
et pour le mod`ele Logit
E (y
i
[x
i
)
x
k
i
= F (x
i
b) (1 F (x
i
b)) b
k
LogE (y
i
[x
i
)
x
k
i
= (1 F (x
i
b)) b
k
puisquon verie facilement F

= F (1 F) .
Leet marginal de laccroissement dun facteur depend donc du point o` u lon se situe. En
pratique on est amene `a considerer une situation de reference qui peut etre un groupe dindividus
lorsque les variables explicatives sont elles memes des variables de categories, ou bien le point
moyen de lechantillon. Dans ce cas par exemple, on calculerait
E (y
i
[x
i
)
x
k
i
= G

(x
i
b) b
k
13.2 Variables latentes
La modelisation precedente est une modelisation statistique. Les mod`eles `a variables dependantes
discr`etes peuvent souvent etre introduits en rendant plus explicites les hypoth`eses economiques
sous-jacentes `a la modelisation. Ceci est eectue par le biais de ce que lon appelle une variable
latente, cest `a dire une variable inobservee mais qui determine compl`etement la realisation de
la variable indicatrice etudiee. Dans le cas present, on modelise la realisation de la variable
indicatrice etudiee par le biais dune variable :
y

i
= x
i
b +u
i
Dans cette modelisation on suppose que le residu intervenant dans lexpression de la variable
latente est independant des variables explicatives. La variable latente y

i
nest jamais observee
compl`etement mais elle est liee `a la realisation de la variable dinteret par :
y
i
= 1 y

i
> 0 x
i
b +u
i
> 0
13.2. Variables latentes 201
Lorsque lon specie la loi du residu u
i
, on est capable de denir compl`etement la probabilite
P (y
i
= 1 [x
i
) . Si on suppose que le residu intervenant dans modelisation de la variable latente
est normal, on obtient le mod`ele Probit. Supposons u
i
N
_
0,
2
_
y
i
= 1 x
i
b

+
u
i

> 0
et v
i
= u
i
/ N (0, 1) . Les param`etres b sont identiables `a un facteur multiplicatif pret. Si
on pose c = b/, on a
P (y
i
= 1 [x
i
) = P
_
x
i
b

+
u
i

> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= (x
i
c)
o` u on utilise le fait que la loi normale est symetrique, et que donc P (v > a) = P (v < a) .
Exemple 11 Decision de participer ` a un stage de formation. Ce stage represente un gain futur
G
i
pour lindividu, dont le capital humain aura augmente. Supposons que lon soit capable de
modeliser ce gain ` a partir de variables explicatives
G
i
= x
g
i
b
g
+u
g
i
La participation au stage comporte aussi un co ut ` a court-terme C
i
, incluant le fait quil faut
dabord apprendre, et donc fournir un eort, mais aussi souvent payer pour la formation et
subir des co uts indirects comme des co uts de transport. Supposons l` a encore que lon soit capable
de modeliser ce co ut
C
i
= x
c
i
b
c
+u
c
i
Le gain net pour lindividu est donc y

i
= G
i
C
i
.
y

i
= x
g
i
b
g
x
c
i
b
c
+u
g
i
u
c
i
= x
i
b +u
i
On peut modeliser la participation comme le fait que le gain net soit positif :
y
i
= 1 y

i
> 0 x
i
b +u
i
> 0
y

i
est alors la variable latente associee au mod`ele.
Le mod`ele logit est lui aussi compatible avec cette modelisation. On suppose alors que u
i
suit une loi logistique de variance . La variable u
i
/ suit alors une loi logistique de densite
f (x) = exp (x) / (1 + exp (x))
2
et de fonction de repartition F (x) = 1/ (1 + exp (x)) . Cette
densite est l` a encore symetrique en zero, et on aura
P (y
i
= 1 [x
i
) = P
_
x
i
b

+
u
i

> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= F (x
i
c)
On pourrait considerer dautres cas comme par exemple le fait que la loi de u
i
suive une loi de
Student, on obtiendrait alors dautres expressions pour P (y
i
= 1 [x
i
) .
202 Chapitre 13. Variables dependantes limitees
13.3 Estimation des mod`eles dichotomiques
Mis `a part le mod`ele de probabilite lineaire qui sestime directement par les MCO, les mod`eles
dichotomiques sestiment par le maximum de vraisemblance. En eet la specication de la pro-
babilite conditionnelle conduit `a specier enti`erement la loi des observations. Compte tenu dune
modelisation conduisant `a
P (y
i
= 1 [x
i
) = G(x
i
b)
avec G une fonction de repartition connue, de densite g. La probabilite dobserver y
i
pour un
individu peut secrire comme
P (y
i
[x
i
) = P (y
i
= 1 [x
i
)
y
i
[1 P (y
i
= 1 [x
i
)]
1y
i
= G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
La vraisemblance de lechantillon secrit donc
L(y [x) =
N

i=1
P (y
i
[x
i
) =
N

i=1
G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
compte tenu de lhypoth`ese dindependance. La log vraisemblance s

ecrit alors
log L
N
=
N

i=1
[y
i
log G(x
i
b) + (1 y
i
) log (1 G(x
i
b))]
Lorsque lon fait lhypoth`ese que les observations sont independantes, la maximisation de la
vraisemblance conduit `a des estimations convergentes. On a vu en eet dans le chapitre precedent
que la methode du maximum de vraisemblance, basee sur la nullite de lesperance du score
E
log L(z
i
, )

= 0 =
0
est une methode de type GMM et que lon peut etudier les proprietes asymptotiques des es-
timateurs dans le cadre general de la convergence des estimateurs GMM. On rappelle ici les
principaux resultats de la methode des moments generalisee et leur transcription au cas et leur
transcription au cas du maximum de vraisemblance.
On consid`ere un mod`ele dont la vraisemblance secrit L(z
i
, )
Proposition 13.1 Sous les hypoth`eses
1. H1 Lespace des param`etres est compact. La vraie valeur est
0
interieure ` a ,
2. H2 ,
0
tq L(z
i
,
0
) est la vraie densite des observations
3. H3 L(z
i
, ) est deux fois contin ument derivable en ,
4. H4 E
_
sup

[ log L(z
i
, )/ [ +sup

[ log L(z
i
, )/ [
2
+sup

2
log L(z
i
, )
_

_
<
,
5. H5 log L(z
i
, )/
k
a des moments nis dordre 1 et 2,
6. H6 Le Jacobien J = E
_

2
log L(z
i
,
0
)
_

_
de dimension dimdim est de limrang dim,
Alors lestimateur du maximum de vraisemblance

SN
maximisant Q
N
() = LogL(z
i
, ),
verie les proprietes :
13.3. Estimation des mod`eles dichotomiques 203
1.

S
P

0
convergence
2.

N
_

0
_
L
N
_
0, V
as
_

(S)
__
normalite asymptotique
3. V
as
_

S
_
= J
1
= I
1
o` u I = E [ log L(z
i
, )/ log L(z
i
, )/

]
4.

I = log L
_
z
i
,

__
log L
_
z
i
,

__

I et

J =
2
log L
_
z
i
,

__

J
Demonstration Il sagit dune transcription directe des resultats concernant la convergence de lestimateur de
la methode des moments generalisee au cas du score E
log L(z
i
,)

= 0, `a quelques exception pres. On a vu


que si le mod`ele est bien specie, cest `a dire si eectivement la densite des observations peut etre param`etree
par le mod`ele utilise, alors la vraisemblance est maximale pour la vraie valeur des param`etres. Cest le sens
de la condition HMV 2 analogue de la condition H2 de la methode des moments generalisee. Par rapport `a la
methode des moments generalisee, une caracteristique importante provient du fait que le mod`ele est juste identie.
Lexpression de la matrice de variance en est simpliee.
Dans le cas general son expression est V
as
_

S
_
= [G

S
0
G]
1
G

S
0
V (g (z
i
,
0
)) S
0
G[G

S
0
G]
1
. Ici les nota-
tions sont dierentes, G = J et V = I et en outre G est de dimension dim dim puisque dimg = dim et de
rang dim par hypoth`ese. G est donc inversible, do` u une expression plus simple V
as
_

S
_
= J
1
IJ
1
.
Une simplication supplementaire provient du fait quil sagit dune vraisemblance. On a alors :
E
_

2
log L(z
i
, )

_
= E
_
log L(z
i
, )

log L(z
i
, )

_
.
Cette derni`ere relation provient simplement du fait que pour une famille de densite de probabilite f (x, ) ,
_
f (x, ) dx = 1
donc
_
f

(x, ) dx = 0 soit
_
f (x, )
Logf

(x, ) = 0, i.e.E

_
Logf

_
= 0
En derivant `a nouveau en , il vient
_
f (x, )

2
Logf

(x, ) dx +
_
Logf

(x, )
f

(x, ) dx = 0
_
f (x, )

2
Logf

(x, ) dx +
_
Logf

(x, )
Logf

(x, ) f (x, ) dx = 0
E

2
log f (x, )

_
+E

_
log f (x, )

log f (x, )

_
= 0
Finalement on retrouve a `a partir des formules GMM que dans le cas du maximum de vraisemblance
V
as
_

_
= E
_

2
log L(z
i
, )

_
1
= E
_
log L(z
i
, )

log L(z
i
, )

_
1

13.3.1 Conditions de 1er ordre pour la maximisation


Lestimateur du maximum de vraisemblance est deni par :
log L
N

=
N

i=1
_
_
y
i
g
_
x
i

b
_
G
_
x
i

b
_ + (1 y
i
)
g
_
x
i

b
_
1 G
_
x
i

b
_
_
_
x

i
= 0
soit
log L
N
b
=
N

i=1
_
y
i
G
_
x
i

b
__ g
_
x
i

b
_
G
_
x
i

b
__
1 G
_
x
i

b
__x

i
= 0
204 Chapitre 13. Variables dependantes limitees
Ces equations sont en general non lineaires et necessitent la mise en oeuvre dun algorithme
doptimisation.
On voit que ces equations dans le cas general sexpriment sous la forme
N

i=1

_
x
i
,

b
__
y
i
E
_
y
i

x
i
,

b
__
x

i
= 0
Elles sont donc assez similaires aux conditions vues pour les moindres carres, mis `a part la
ponderation et la non linearite. On remarque egalement que la ponderation sinterpr`ete natu-
rellement par le fait que V (y
i
[x
i
) = G(x
i
, b) (1 G(x
i
, b)) , et que g (x
i
, b) x

i
est la derivee par
rapport `a b de G(x
i
b) . La ponderation est donc analogue `a la sphericisation pratiquee dans la
methode des mCQG du mod`ele linearise autour de la vraie valeur du param`etre.
Pour le mod`ele Logit on a G(z) = F (z) = 1/ (1 + exp (z)) , et g (z) = exp (z) / (1 + exp (z))
2
=
F (z) (1 F (z)) . On a donc simplement
log L
N
b

Logit
=
N

i=1
_
y
i
F
_
x
i

b
__
x

i
= 0
Pour le mod`ele Probit on a G(z) = (z) , et g (z) = (z) . On a donc simplement
log L
N
b

Pr obit
=
N

i=1
_
y
i

_
x
i

b
__
_
x
i

b
_

_
x
i

b
__
1
_
x
i

b
__x

i
= 0
13.3.2 Derivees secondes de la log-vraisemblance - condition de concavite
On sait quasymptotiquement, la vraisemblance a un maximum global unique. Ceci ne signie
pas quil ny ait pas de maximum local. Ceci ne signie pas non plus quil ny ait pas `a distance ni
des maxima locaux. Il est donc important dexaminer les conditions du second ordre de lobjectif
maximise qui permettent detudier lexistence doptima multiples. On montre que dans le cas du
mod`ele probit et du mod`ele logit on est dans un cas favorable dans lequel la matrice hessienne
est toujours negative : la log-vraisemblance est donc globalement concave. Ceci garantit donc
que loptimum trouve est bien celui quil faut considerer.
Pour le mod`ele Logit, on le verie directement aisement. La matrice des derivees secondes
de lobjectif a en eet pour expression :
H =

2
log L
N
bb

Logit
=
N

i=1
_
1 F
_
x
i

b
__
F
_
x
i

b
_
x
i
x

i
Pour le mod`ele probit on montre plus generalement une proposition basee sur la log concavite
de la densite. On presente dabord un lemme :
Lemme 5 Si log (g) est concave, alors le ratio g (z) /G(z) est une fonction decroissante de z.
Demonstration
g(z)
G(Z)
est decroissant si g

G < g
2
cest `a dire si
g

g
G < g. Si log (g) est concave alors
g

g
decroissante. Dans ce cas g

(t) =
g

(t)
g(t)
g (t) >
g

(z)
g(z)
g (t) pour t z donc
_
z

(t) dt >
g

(z)
g(z)
_
z

g (t) soit
g (z) >
g

(z)
g(z)
G(z) .
13.3. Estimation des mod`eles dichotomiques 205
Proposition 13.2 Si log (g) est concave et si g est symetrique, alors le hessien de la vraisem-
blance du mod`ele dichotomique ` a probabilite G(x
ib
) est deni negatif.
Demonstration On peut reecrire la log vraisemblance en separant les observations pour lesquelles y
i
= 1 de
celles pour lesquelles y
i
= 0, on note I
1
et I
0
les ensembles dindividus correspondants. En notant g
i
= g (x
i
b) et
G
i
= G(x
i
b) , on a alors
log L
N
b
=
N

i=1
[y
i
G
i
]
g
i
G
i
[1 G
i
]
x

i
=

I
1
[1 G
i
]
g
i
G
i
[1 G
i
]
x

i
+

I
0
[0 G
i
]
g
i
G
i
[1 G
i
]
x

i
=

I
1
g
i
G
i
x

i
+

I
0

g
i
1 G
i
x

i
On a alors :

2
log L
N
bb

I
1
_
g
i
G
i
_

i
x
i
+

I
0
_

g
i
1 G
i
_

i
x
i
Comme g est symetrique G(z) = 1 G(z) , on a
g(z)
1G(z)
=
g(z)
G(z)
, il en resulte que si
g
G
est une fonction
decroissante, alors
g(z)
1G(z)
est aussi une fonction decroissante. Le Hessien est negatif puisque les derivees des
ratios
g
i
G
i
et
g
i
1G
i
sont negatives.
Dans le cas Probit, g (z) =
1

2
exp
_

1
2
z
2
_
, cest bien une fonction symetrique et log g (z) =
log

2
1
2
z
2
, est bien une fonction concave. Lobjectif est donc globalement concave.
13.3.3 Matrice de variance-covariance de

b
La matrice de variance covariance asymptotique est egale `a
V
as
_

b
_
=
_
E
_

2
log L
bb

__
1
=
_
E
_
log L
b
log L
b

__
1
Elle peut etre estimee `a partir des derivee secondes evaluees en

b :

V
as
(

b) =
_
_
_

2
log L
_
y
i
, x
i
,

b
_
bb

_
_
_
1
ou des derivees premi`eres evaluee en

:

V
as
(

b) =
_
_
_
_
log L
_
y
i
, x
i
,

b
_
b
_
_
log L
_
y
i
, x
i
,

b
_
b
_
_

_
_
_
_
1
Compte tenu de lexpression donnee plus haut
log L
_
y
i
, x
i
,

b
_
b
=
_
x
i
,

b
__
y
i
E
_
y
i

x
i
,

b
__
x

i
avec
_
x
i
,

b
_
= g
_
x
i

b
__
G
_
x
i

b
__
1 G
_
x
i

b
__
, on note que dans ce cas la matrice de variance
secrit sous une forme sapparentant `a celle des mCQG

V
as
(

b) =
_

2
i

2
i
x

i
x
i
_
1
206 Chapitre 13. Variables dependantes limitees
o` u
i
= y
i
G
_
x
i
,

b
_
La matrice de variance covariance de lestimateur est dans tous les cas estimee par

V (

b) =

V
as
(

b)/N
13.4 Illustration : participation des femmes sur le marche du
travail
On peut mettre en oeuvre les methodes destimation precedentes en examinant le compor-
tement de participation des femmes sur le marche du travail. La modelisation de la decision de
participation fait intervenir le salaire de marche w
i
et le salaire de reservation w
i
. Le salaire de
marche est modelise comme une fonction du capital humain, cest `a dire comme une fonction
de la scolarite et lexperience sur le marche du travail. Le salaire de reservation est fonction lui
de la situation familiale : revenu alternatif, celibat, nombre denfants... Au lieu de modeliser le
capital humain par lexperience, fonction des decisions passees de participation sur le marche du
travail, on peut faire intervenir directement lage. Au total on a une decision de participation
prenant la forme :
I = 1 w
i
> w
i
w
i
=
0
+
1
sco
i
+
2
age
i
+
3
age
2
i
+u
i
w
i
=
0
+
1
wa
i
+
2
sin gle
i
+
3
nenf
i
+
4
age
i
+
5
age
2
i
v
i
On a donc la modelisation de participation :
I = 1
0
+
1
sco
i
+
2
age
i
+
3
age
2
i
+
4
wa
i
+
5
sin gle
i
+
6
nenf
i
+
i
> 0
On peut estimer ce mod`ele en faisant lhypoth`ese que les residus sont distribues de telle sorte
que lon ait un mod`ele Probit, Logit ou `a probabilite lineaire. On met en oeuvre cette estimation
sur un echantillon de femmes en 2002, tire de lenquete emploi. Lechantillon comprend 36249
femmes. Les resultats sont presentes dans le tableau 13.1. On voit que les param`etres sont
distincts dune regression `a lautre mais que les sens de variations sont toujours les memes. On
note aussi que les estimations sont tr`es precises, ce qui tient `a la taille importante de lechantillon.
Les resultats sont bien ceux auxquels on sattend : plus le capital humain est important : age
et scolarite eleves, plus la participation est importante. De meme plus le nombre denfants est
eleve, moins la participation est elevee. Le celibat conduit aussi comme on sy attend `a une
participation plus importante. On remarque enn que le revenu alternatif (celui du conjoint) na
pas le signe attendu. On aurait pu penser en eet que le salaire du conjoint conduisait `a une
participation plus faible. Ceci pourrait etre lie au fait que dans la decision de mise en couple les
capacites sur le marche du travail des deux individus sont correlees positivement.
Pour aller plus loin dans la comparaison des estimateurs entre eux, il faudrait comparer
les eets marginaux, cest `a dire calculer en chaque point leet predit par le mod`ele dun
accroissement marginal de la variable.
13.5. Selectivite : le mod`ele Tobit 207
Fig.13.1 Estimation du mod` ele de participation des femmes
b sb b sb b sbh sb
Constante -0.207 (0.057) -0.379 (0.095) 0.441 (0.020) (0.019)
Nenf -0.317 (0.008) -0.530 (0.013) -0.108 (0.002) (0.002)
wa 0.043 (0.002) 0.071 (0.003) 0.015 (0.001) (0.001)
single 0.297 (0.024) 0.490 (0.039) 0.103 (0.008) (0.008)
scolarit 0.089 (0.003) 0.151 (0.005) 0.029 (0.001) (0.001)
age -0.006 (0.001) -0.010 (0.001) -0.002 (0.000) (0.000)
age/1000 -0.237 (0.008) -0.401 (0.013) -0.081 (0.003) (0.003)
Probit Logit Linaire
13.5 Selectivite : le mod`ele Tobit
13.5.1 Presentation de la selectivite
La selectivite est une des causes principales de biais dans les estimations des mod`eles lineaires.
Elle correspond `a la situation dans laquelle le phenom`ene que lon etudie est observe uniquement
sous certaines conditions qui ne sont pas independantes du phenom`ene etudie. Pour certains indi-
vidus, on nobserve pas le phenom`ene etudie, il y a donc un probl`eme de donnees manquantes,
et la raison pour laquelle on nobserve pas le phenom`ene est elle meme liee `a ce phenom`ene.
Le fait de ne pas observer le phenom`ene apporte donc paradoxalement une information sur le
phenom`ene lui-meme. On dit dans ce cas que le processus de selection nest pas ignorable.
Exemple 12 Le mod`ele dore de travail dHeckman. Pour illustrer le probl`eme de la selectivite
on presente le mod`ele dore de travail dHeckman. On modelise le salaire de marche dun
individu comme :
w

i
= x
i
b +u
i
avec x
i
comprenant les variables aectant le capital humain : la scolarite et l age (` a la place de
lexperience) et le salaire de reserve comme
w
i
= x
ri
b
r
+u
ri
avec x
ri
comprenant le nombre denfant, une indicatrice valant 1 en cas de celibat, le cas echeant,
le revenu du conjoint. On introduit en plus de ces variables un polyn ome de l age pour prendre
en compte les specicites du marche du travail fran cais qui subventionne le retrait dactivite
des travailleurs ages. On introduit en outre une modelisation des heures. Les heures de travail
oertes dependent de lecart entre le salaire de marche et le salaire de reserve :
h

i
= (w

i
w
i
)
et on a donc un nombre dheures non nul, donc observe si w

i
> w
i
. Le param`etre est parti-
culi`erement interessant puisquil correspond ` a lelasticite de lore de travail au salaire. A cette
modelisation correspond dierentes possibilites dobservation.
1. On nobserve que la decision de participation :
_
p
i
= 1
p
i
= 0
si h

i
> 0
si h

i
0
Il sagit du mod`ele Probit dej` a examine.
208 Chapitre 13. Variables dependantes limitees
2. On observe la decision de participation et le nombre dheures :
_

_
_
h
i
= h

i
= x
i
b x
ri
b
r
+u u
ri
= z
ic
+v
i
p
i
= 1
p
i
= 0
si h

i
> 0
si h

i
0
Il sagit du mod`ele Tobit dit simple ou de type I car la variable denissant la censure est
aussi celle qui est observee lorsquil ny a pas censure. Dans le cas considere ici, il est clair
que lestimation de ce mod`ele ne permet pas lestimation simple du param`etre delasticite
dore de travail au salaire. On peut identier l (h

i
[z
i
, h

i
> 0) qui est bien sur dierente de
l (h

i
[z
i
) . Le processus de selection nest donc pas ignorable dans ce cas de facon evidente.
3. On observe le salaire et la decision de participation
_

_
_
w
i
= x
i
b +u
i
p
i
= 1
p
i
= 0
si h

i
> 0
si h

i
0
Il sagit du mod`ele Tobit dit de type II car la variable denissant la censure nest pas celle
qui est observee lorsquil ny a pas censure. On peut identier ici l (w

i
[z
i
, h

i
> 0) qui peut
etre dierente ou non de l (w

i
[z
i
) . Le processus de selection peut donc etre ignorable ou
non dans ce cas. On voit que si l (w

i
[z
i
, h

i
) = l (w

i
[z
i
) , cest ` a dire si la variable realisant
la censure est independante de la variable etudiee conditionnellement aux variables expli-
catives, le processus de selection sera ignorable.
4. On observe le salaire, le nombre dheures et la decision de participation
_

_
_

_
w
i
= x
i
b +u
i
h
i
= h

i
= x
i
b x
ri
b
r
+u
i
u
ri
p
i
= 1
p
i
= 0
si h

i
> 0
si h

i
0
Ce mod`ele est dit mod`ele Tobit de Type III. Il permet sous certaines conditions destimer
le param`etre delasticite de lore de travail aux heures.
Lestimation de ce type de mod`eles est en general complexe lorsque lon ne specie pas la loi
des residus. On va examiner ici la situation dans laquelle la loi jointe des deux residus u
wi
de
lequation de salaire et u
hi
de lequation dheure, conditionnellement aux variables explicatives,
est une loi normale bivariee :
_
u
wi
u
hi
_
N
__
0
0
_
,
_

2
w

w

h

2
h
__
Une caracterisitique importante de cette modelisation est de laisser possible une correlation entre
les deux equations de salaire et de participation. Cest justement dans le cas o` u il y a correlation
que le processus de selection nest pas ignorable dans le cas du mod`ele de type II.
Denition 13.1 1. On appelle Mod`ele Tobit de type I, ou mod`ele Tobit simple le mod`ele
dans lequel une variable dinteret modelisee comme
y

i
= x
i
b +u
i
13.5. Selectivite : le mod`ele Tobit 209
avec u
i
^
_
0,
2
u
_
, est observee sous la condition, elle meme observee,
y

i
> 0
Cest ` a dire, on observe :
_
y
i
= y

i
= x
i
b +u
i
I
i
= 1
I
i
= 0
si y

i
> 0
sin on
2. On appelle Mod`ele Tobit de type II, le mod`ele dans lequel une variable dinteret, modelisee
comme
y

i
= x
i
b +u
i
est observee sous la condition elle meme observee
I

i
= z
i
c +v
i
> 0
avec (u
i
, v
i
) distribues suivant une loi normale de moyennes nulle et de variance
2
u
et
2
v
et de correlation . On observe donc
_
y
i
= y

i
= x
i
b +u
i
I
i
= 1
I
i
= 0
si I

i
> 0
sin on
Pour mesurer limportance potentielle des biais auquel peut conduire une information in-
compl`ete, on consid`ere la situation dans laquelle il y a deux variables aleatoires
_
y

1
= x +u
1
y

2
= x +u
2
Les variables x, u
1
et u
2
sont toutes trois normales, centree et reduites. x est choisie independante
de u
1
et u
2
. En revanche on envisage deux situations polaires pour la correlation de u
1
et u
2
:
correlation nulle et correlation de 0.9. On sinteresse `a la relation entre y
1
et x, et on consid`ere
deux cas. Dans le premier cas on observe y

1
et x sans restriction, dans le second cas on observe
y

1
et x uniquement pour y

2
positif. Les graphiques reportes dans le tableau 13.2 montrent les
nuages de points observes.
On voit que les nuages de points dans les echantillons non tronques se ressemblent beaucoup,
que la correlation soit nulle ou de 0.9. Les droites de regressions lineaires donnent toutes deux
des coecients proches des vraies valeurs : 1 pour la variable x et 0 pour la constante. On voit
aussi que la troncature par la variable y

2
ne change pas beaucoup lallure de lechantillon dans
le cas de la correlation nulle. On observe neanmoins que comme on a selectionne les observations
pour lesquelles x +u
2
> 0, on a eu tendance `a retenir plus de valeurs elevees de x. Neanmoins,
cette selection des variables explicatives naecte pas la propriete dindependance des variables
explicatives et du residu dans lequation de y
1
. On verie que les coecients de la droite de
regression sont l` a encore tr`es proches des vraies valeurs. En revanche les changements pour
le cas = 0.9 en presence de troncature sont tr`es importants. On a ete amene `a ne retenir
que les observations pour lesquelles x + u
2
> 0. L` a encore on a eu tendance `a retenir plus
210 Chapitre 13. Variables dependantes limitees
Fig.13.2 Nuages de points et troncatures : diff erentes configurations
y = - 0,01+1,01x
-5
0
5
-4 0 4
y = 0,01+1,00x+
-5
0
5
-4 0 4
(a) Complet = 0 (b) Complet = 0.9
y = - 0,03+1,03x
-5
0
5
-4 0 4
y = 0,75+0,58x
-5
0
5
-4 0 4
(c) Tronque = 0 (d) Tronque = 0.9
13.5. Selectivite : le mod`ele Tobit 211
souvent les observations de x avec des valeurs elevees. Pour une observation retenue pour une
valeur de x donnee, on na retenu que les observations avec une valeur importante de u
2
et
donc de u
1
puisque ces variables sont fortement correlees. On en deduit que `a x donne, on a
retenu des observations pour lesquelles u
1
est susamment important. Pour une valeur donnee
de x la moyenne des residus des observations selectionnees sera donc positive contrairement
`a ce quimplique lhypoth`ese dindependance. En outre, si on consid`ere une valeur de x plus
importante, on sera amene `a selectionner des observations de u
2
de fa con moins stricte, et la
moyenne des residus de u
1
selectionnes sera donc toujours positive, mais plus faible. On en
deduit que lesperance des residus conditionnelle `a une valeur donnee de x est une fonction
decroissante de x : le residu de lequation de y
1
sur les observations selectionnes ne sont plus
independants de la variable explicative. Ce resultat se materialise par une droite de regression
de pente beaucoup plus faible que dans le cas precedent : le biais dit de selectivite est ici tr`es
important. Une autre consequence que lon peut voir sur le graphique et qui est intimement liee
dans ce cas `a la selection, est que la relation entre y
1
et x est heteroscedastique.
13.5.2 Rappels sur les lois normales conditionnelles.
Quelques rappels sur les lois normales sont necessaires pour etudier le mod`ele de selectivite.
(i) Densite
La densite dune loi normale centree reduite est notee et a pour expression
(u) =
1

2
exp
_

u
2
2
_
La fonction de repartition est notee (u) =
_
u

(t) dt. Compte tenu de la symetrie de la


fonction on a (u) = 1 (u)
Une variable aleatoire de dimension k suivant une loi normale multivariee de moyenne et
de variance : y N(, ) a pour densite :
f(y) ==
1
_
(2)
k
det()
exp
_

1
2
(y )

1
(y )
_
On consid`ere une loi normale bivariee
_
y
1
y
2
_
N
__

1

2
_
,
_

2
1

1

2

2
2
__
la densite de la loi jointe de u
1
et u
2
est donc donnee par
f(y
1
, y
2
) =
1
2
1

2
_
1
2
exp
_

(
2
1
+
2
2
2
1

2
)
2(1
2
)
_
avec
1
=
y
1

1
et
2
=
y
2

2
.
La loi marginale de y
1
est donnee par
f(u
1
) =
1

2
exp
_

1
2

2
1
_
212 Chapitre 13. Variables dependantes limitees
un calcul simple permet de montrer que la loi y
2
conditionnelle `a y
1
donnee par f(y
2
[y
1
) =
f(y
1
,y
2
)
f(y
1
)
est aussi une loi normale, mais de moyenne et de variance dierente. La moyenne depend de la
valeur prise par y
1
, mais pas la variance :
f(y
2
[y
1
) N
_

2
+

2

1
(y
1

1
) ,
2
2
(1
2
)
_
Moments dune loi normale tronquee
Denition 13.2 On appelle inverse du ratio de Mills la quantite
M (c) =

(c)
Ce ratio est central dans lanalyse des biais de selectivite. On a vu precedemment en etudiant le
mod`ele probit que ce ratio est une fonction decroissante de c.
Proposition 13.3 Soit u N (0, 1) , et c un scalaire. On sinteresse aux moments de la loi
normale tronquee E(u[u > c) et E(u[u < c), ainsi que V (u[u > c) et V (u[u < c). On a
E(u[u > c) = M (c)
E(u[u < c) = M (c)
et
V (u[u > c) = 1 +cM (c) M (c)
2
< 1
V (u[u < c) = 1 cM (c) M (c)
2
< 1
Demonstration u a pour densite (u) . Compte tenu de

(u) = u(u) , on a :
E(u|u > c) =
_

c
u(u)du
1 (c)
=
[(u)]

c
1 (c)
=
(c)
1 (c)
=
(c)
(c)
= M (c)
de meme
E(u|u < c) = E(u| u > c) = M (c)
Pour les moments dordre 2 on a :
E
_
u
2
|u > c
_
=
_

c
u
2
(u)du
1 (c)
= 1 +cM (c)
o` u on int`egre par partie
_

c
u
2
(u)du = [u(u)]

c
+
_

c
(u)du = c(c) + 1 (c) . On en deduit la variance
conditionnelle
V (u|u > c) = E(u
2
|u > c) [E(u|u > c)]
2
= 1 +cM (c) M (c)
2
de facon similaire on a pour la loi normale tronquee superieurement
E(u
2
|u < c) = E((u)
2
| u > c) = 1 cM (c)
V (u|u < c) = 1 cM (c) M (c)
2
Le lemme 6que lon avait pour une loi normale z+

(z) > 0 et aussi z+



1
(z) > 0 soit encore zM (z)+M (z)
2
>
0 et zM (z) M (z)
2
< 0 on en deduit que lon a toujours, comme on sy attend V (u|u c) < 1.
Lemme 6 Quelque soit z, on a
z +

(z) > 0
et
z +

1
(z) > 0
13.5. Selectivite : le mod`ele Tobit 213
Demonstration Compte tenu de

(z) = z(z) on deduit de / decroissant

(z) /
2
/
2
< 0, soit
z(z) /
2
/
2
< 0. En multipliant cette inegalite par

(z) , on en deduit un resultat qui sera utile par la


suite : z +

(z) > 0. En appliquant cette inegalite `a z, on en deduit aussi z +



1
(z) > 0.
Remarque 13.1 Dans le cas dune variable non centree reduite v N
_
,
2
_
, on peut deduire
des resultats precedents les moments des lois tronquees en notant que (v ) / suit une loi
N (0, 1) et que v c u = (v ) / c = (c ) /. on a donc
E(v[v > c) = E(u +[u > c) = +M
_

_
E(v[v < c) = E(u +[u < c) = M
_
c

_
et
V (v[v > c) =
2
_
1 +
c

M
_

_
M
_

_
2
_
Pour les moments de la loi tronquee superieurement on a egalement
V (v[v < c) =
2
_
1
c

M
_
c

_
M
_
c

_
2
_
On a aussi comme on sy attend pour toute transformation lineaire
V (a +bv[v > c) = b
2
V (v[v > c)
V (a +bv[v < c) = b
2
V (v[v < c)
(ii) Moments dune variable normale tronquee par une autre variable normale
On sinteresse au cas dune variable aleatoire suivant une loi normale bivariee
_
y
1
y
2
_
N
__

1

2
_
,
_

2
1

1

2

2
2
__
et on cherche les moments dordre 1 et 2 de la variable y
2
tronquee par y
1
> 0.
Proposition 13.4 On a
E (y
2
[y
1
> 0) =
2
+
2
M
_

1
_
E (y
2
[y
1
> 0) =
2

2
M
_

1
_
et
V (y
2
[y
1
> 0) =
2
2

2
2
_

1
M
_

1
_
+M
_

1
_
2
_
V (y
2
[y
1
< 0) =
2
2

2
2
_

1
M
_

1
_
+M
_

1
_
2
_
214 Chapitre 13. Variables dependantes limitees
Demonstration On a vu que la loi de y
2
conditionnelle `a y
1
est une loi normale de moyenne
2
+

1
(y
1

1
)
et de variance
2
2
_
1
2
_
. On en deduit que
E (y
2
|y
1
> 0) = E
_

2
+

1
(y
1

1
) |y
1
> 0
_
=
2
+
2
E
_
y
1

1
|y
1
> 0
_
=
2
+
2
E
_
y
1

y
1

1
>

1
_
=
2
+
2
M
_

1
_
De meme,
V (y
2
|y
1
> 0) = V (E (y
2
|y
1
) |y
1
> 0) +E (V (y
2
|y
1
) |y
1
> 0)
= V
_

2
+

1
(y
1

1
) |y
1
> 0
_
+
_
1
2
_

2
2
=
2

2
2
V
_
y
1

y
1

1
>

1
_
=
2

2
2
_
1

1

1
M
_

1
_
M
_

1
_
2
_
+
_
1
2
_

2
2
=
2
2

2

2
2
_

1
M
_

1
_
+M
_

1
_
2
_
Compte tenu du resultat precedent sur la loi normale unidimensionnelle et puisque V (y
2
|y
1
) =
_
1
2
_

2
2
.
On obtient directement les moments de la loi normale y
2
tronquee par y
1
< 0 en remplacant
1
par
1
et
par
13.6 Estimation du mod`ele Tobit
On consid`ere `a nouveau le mod`ele Tobit
y

i
= x
i
b +u
i
I

i
= zc +v
i
dans lequel la loi jointe des residus conditionnellement aux variables explicatives est une loi
normale bivariee
_
u
i
v
i
_
N
__
0
0
_
,
_

2
u

u

v

2
v
__
Les observations sont regies par :
_

_
_
y
i
= y

i
I
i
= 1
I
i
= 0
si I

i
> 0
si I

i
0
13.6.1 Pourquoi ne pas estimer un mod`ele Tobit par les MCO?
Si on se restreint aux observations pour lesquelles le salaire est renseigne, on a
E (y
i
[x
i
, z
i
, I
i
= 1) = E (y

i
[x
i
, z
i
, I

i
> 0)
13.6. Estimation du mod`ele Tobit 215
En appliquant les resultats precedents `a y
2
= y

, et y
1
= I

on a directement :
E (y

i
[x
i
, z
i
, I

i
> 0) = x
i
b +
u
M
_
z
i
c

v
_
On voit donc que d`es lors que la correlation entre les elements inobserves de lequation de
salaire et de lequation de participation sont correles, cest `a dire d`es que ,= 0, ne pas prendre
en compte la selectivite revient `a oublier une variable dans la regression : M
_
z
i
c

v
_
. Cet oubli est
donc susceptible de conduire `a une estimation biaisee des param`etres d`es lors que les variables
M
_
z
i
c

v
_
et x
i
sont correlees.
Si on consid`ere `a titre illustratif que lequation de selection secrit y

i
> y, on a = 1 et
z
i
c

v
=
x
i
by

u
. Lequation precedente secrit alors
E (y

i
[x
i
, z
i
, I

i
> 0) = x
i
b +
u
M
_
x
i
b y

u
_
Dans ce cas comme M (z) =
(z)
(z)
est une fonction decroissante de z le biais est negatif. Dans le
cas general tout depend de et de la correlation entre le ratio de Mills et M
_
z
i
c

v
_
les variables
explicative entrant dans la modelisation de y

i
.
Si on introduit egalement les observations pour lesquelles y
i
= 0, on a
E (y
i
[x
i
, z
i
) = E (y
i
[x
i
, z
i
, I
i
= 1) P (I
i
= 1 [x
i
, z
i
) +
E (y
i
[x
i
, z
i
, I
i
= 0) P (I
i
= 0 [x
i
, z
i
)
= E (w
i
[x
i
, z
i
, I
i
= 1) P (I
i
= 1 [x
i
, z
i
)
= (x
i
b)
_
z
i
c

v
_
+
u

_
z
i
c

v
_
et on voit que la forme lineaire nest pas non plus adaptee.
13.6.2 Estimation par le maximum de vraisemblance
Comme on a specie la loi des perturbations, on a specie la loi des observations. Lestimateur
du maximum de vraisemblance est donc le plus ecace. Les estimations vont etre basees sur la
densite des observations. celle-ci se calcule de la fa con suivante : on ecrit la probabilite dobserver
chaque realisation du couple (y
i
, I
i
) .
Pour I
i
= 0 on nobserve pas y
i
la seule probabilite est P (I

i
< 0) , cest `a dire P (z
i
c +v
i
< 0) =

zc

v
_
= 1
_
zc

v
_
Pour I
i
= 1 on observe y
i
= y

i
et I

i
> 0. La densite correspondante est
f (y

i
= w
i
, i
i
= 1) =
_
I

i
>0
f (y
i
, I

i
) dI

i
= f (y
i
)
_
I

i
>0
f (I

i
[y
i
) dI

i
et la loi de I

i
conditionnelle `a y

i
= y
i
est pas denition une loi normale de moyenne
I
(y
i
) =

I
+
v
y
i

u
et de variance
2
v
=
2
v
_
1
2
_
la probabilite pour quune telle variable aleatoire
216 Chapitre 13. Variables dependantes limitees
soit positive est
_

I
(y
i
)

v
_
=
_

I
+
v
y
i

(1
2
)
_
. Finalement, la densite des observations est
L =

I
i
=0
_
1
_
zc

v
__

I
i
=1
1

_
y
i
x
i
b

u
_

_
z
i
c +
v
y
i
x
i
b

v
_
(1
2
)
_
=

i
_
1
_
zc

v
__
1I
i

_
_
1

_
y
i
x
i
b

u
_

_
z
i
c +
v
y
i
x
i
b

v
_
(1
2
)
_
I
i
_
_
On voit que comme dans le cas du mod`ele Probit, on ne peut pas identier la totalite des
param`etres de lequation de selection : seul le param`etre c =
c

u
est identiable. Compte tenu
de cette redenition des param`etres du mod`ele, la vraisemblance secrit :
L =

i
[1 (z
i
c)]
1I
i

_
_
1

_
y
i
x
i
b

u
_

_
z
i
c +
y
i
x
i
b

u
_
(1
2
)
_
I
i
_
_
Remarque 13.2 1. Dans le cas o` u = 0 on voit que la vraisemblance est separable entre
une contribution correspondant ` a lobservation de I
i
= 0/1 et une contribution associee
aux observations de w
i
:
L =
_

i
[1 (z
i
c)]
1I
i
(z
i
c)
I
i
_

i
_
1

_
y
i
x
i
b

u
__
I
i
_
On retrouve donc le fait que dans le cas = 0 on peut ignorer la selection des observations.
On voit aussi que dans le cas general o` u ,= 0 la selectivite importe.
2. La fonction de vraisemblance nest pas globalement concave en (,
u
, b, c).Elle est concave
globalement en = (
u
, b, c) pour xe.
3. Une solution consiste ` a xer la valeur de et estimer les param`etre correspondant

() et
` a balayer sur les valeur possible de .
13.6.3 Estimation en deux etapes par la methode dHeckman
Il existe une methode destimation tr`es simple et tr`es largement utilisee dans le cas o` u
les perturbations sont normales. Elle ouvre aussi la voie `a des specications plus generales dans
lesquelles on laisse non speciees la loi des perturbations. Cette methode est basee sur lequation
precedente
E (y
i
[x
i
, z
i
, I
i
= 1) = x
i
b +
u
M (z
i
c) = x
i
b +
u
M
i
(c)
Le principe de la methode dHeckman consiste `a estimer dabord le mod`ele Probit associe `a I
i
.
De lestimation de c = c/
v
on tire un estimateur M
i
_

c
_
= M
_
z
i

c
_
. On proc`ede ensuite `a la
regression augmentee sur les seules observations pour lesquelles les donnees sont disponibles :
y
i
= x
i
b +
u
M
i
_

c
_
+
i
Ces estimateurs sont asymptotiquement sans biais, mais ils ne sont pas asymptotiquement
ecaces. Par exemple, cette methode permet destimer seulement le produit
u
, alors que la
methode du maximum de vraisemblance permet destimer et
u
separement.
13.6. Estimation du mod`ele Tobit 217
Remarque 13.3 Le calcul des ecarts-type est un peu complique. Il fait intervenir deux as-
pects. Dune part le mod`ele est heteroscedastique. En eet, compte tenu des resultats obtenus
precedemment pour V (y
2
[y
1
> 0) , on a :
V (y
i
[x
i
, z
i
, I
i
= 1) = V (y

i
[x
i
, z
i
, I

i
> 0)
=
2
u

2
u
_
z
i
cM
i
(c) +M
i
(c)
2
_
Cette formule montre bien la presence dheteroscedasticite. Elle donne aussi une voie pour es-
timer le mod`ele de facon plus ecace en utilisant lestimateur des mCQG. Neanmoins ce nest
pas le seul probl`eme, en eet la variable additionnelle introduite dans la regression fait inter-
venir le param`etre c qui nest pas connu et est remplace par une estimation. Lintroduction de
ce param`etre estime est aussi une source de complication dans le calcul des ecarts-type. Plus
precisement, le param`etre est lui meme issu dune estimation (par le MV) que lon peut resumer
par lannulation de la contrepartie empirique de conditions dorthogonalite
E (h
c
(I
i
, z
i
, c)) = 0
Lestimation du mod`ele par les mco conduit quant ` a elle ` a lannulation de la contrepartie empi-
rique de
E
__
x

i
M
i
(c)
_
[y
i
x
i
b
u
M
i
(c)] 1
I
i
=1
_
= E (h
b,
u
(I
i
, y
i
, x
i
, b,
u
)) = 0
Le calcul des ecarts-type doit se faire en considerant les formules de lestimation par la methode
des moments generalisee associee ` a la totalite des conditions dorthogonalite, cest ` a dire
E
_
h
c
(I
i
, z
i
, c)
h
b,
u
(I
i
, y
i
, x
i
, b,
u
)
_
= 0
On utilise parfois lestimateur de Heckman comme une premi`ere valeur pour le calcul de
lestimateur du maximum de vraisemblance. On utilise lestimateur du mod`ele Probit, lestima-
teur du mod`ele de Heckman et lexpression de la variance des residus qui permet dobtenir une
estimation convergente de et
w
.
13.6.4 Des extensions parametriques simples
Le cas normal conduit `a des specications particuli`erement simple. La loi normale peut
neanmoins paratre trop restrictive et on peut vouloir specier encore la loi des residus mais
dans des ensembles de lois plus generales.
(i) Loi quelconque donnee pour le residu de lequation de selection.
Tant que la loi du terme de lequation de selection a une fonction de repartition F strictement
croissante, on peut reformuler le mod`ele de telle sorte quil entre dans le cadre precedent. Cette
reformulation repose sur la propriete suivante :
Proposition 13.5 Si une variable aleatoire ` a une fonction de repartition F strictement crois-
sante, alors la variable aleatoire v = F (v) suit une loi uniforme sur [0, 1] .
218 Chapitre 13. Variables dependantes limitees
Demonstration En eet, comme F est `a valeurs dans [0, 1] le support de v est bien [0, 1] . De plus on a
P ( v t) = P (F (v) t) = P
_
v F
1
(t)
_
= F F
1
(t) = t

On en deduit alors la proposition suivante concernant le mod`ele de selection : En appliquant


ce resultat `a la transformation : v =
1
F (v) , on en deduit que v suit une loi normale. Le
mod`ele de selection I = 1 I

= zc+v 0 est donc equivalent `a I = 1 v =


1
F (v)

1
F (zc) soit encore `a
1
F (zc) + v 0, avec dans ce cas v normal. On peut donc
generaliser les resultats precedents en substituant
1
F (zc) `a zc. On parvient alors au
resultat que
E (y [I = 1, x, z ) = xb +
u

1
F (zc)
_
Compte tenu du fait que
P (z) = P (zc +v 0) = P (v zc) = 1 F (zc)
on a
E (y [I = 1, x, z ) = xb +
u

1
(1 P (z))
_
En utilisant le fait que (x) = 1 (x) , soit
1
(P) =
1
(1 P) , on a :
E (y [I = 1, x, z ) = xb +
u

1
P (z)
P (z)
(ii) Des lois plus generales que la loi normale
On peut considerer le mod`ele de selection precedent en faisant lhypoth`ese que les elements
inobserves ont pour loi jointe une loi de Student de degres et non pas une loi normale.
La densite de la loi jointe des elements inobserves secrit alors :
h(u, v) =
1
2 (1
2
)
1/2

2
_
1 +
1
( 2) (1
2
)
_
u
2
2uv +v
2
_
_
(1/2)(+2)
On peut montrer la propriete suivante sur la loi jointe de u et v :
E (u[v ) = v
La loi de u, g

(u) a pour expression :


g

(u) =

(( + 1)/2)
(/2)
_
1 +t
2
_
(+1)/2
On note G

(u) sa fonction de repartition.


On peut montrer que lexpression de lesperance de la loi de Student de degres tronquee
est :
E (v [v < t ) =
+t
2
1
g

(t)
13.6. Estimation du mod`ele Tobit 219
Do` u
E (v [v > t ) = E (v [v < t )
G

(t)
(1 G

(t))
=
G

(t)
(1 G

(t))
+t
2
1
g

(t)
=
+t
2
1
g

1 G

(t) =
+t
2
1
g

(t)
Ceci permet de generaliser les resultats obtenus precedemment pour le mod`ele de selection
E (y [I = 1, x, z ) = xb +E (u[d = 1, x, z )
= xb +E (u[zc +v > 0, x, z )
= xb +E (E (u[v, x, z ) [zc +v > 0, x, z )
= xb +E (v [v > zc)
= xb +
+zc
2
1
g

(zc)
On peut obtenir une generalisation supplementaire en combinant les deux approches et en
considerant que lequation de selection `a un residu dune loi quelconque connue. Par le meme
genre dargument que dans la premi`ere situation envisagee, on a
E (y [I = 1, x, z ) = xb +
+G
1

(P (z))
2
1
g

G
1

(P (z))
P (z)
13.6.5 Le mod`ele de selection semi parametrique.
On reprend le mod`ele de selectivite sur inobservables :
y = xb +u
avec la modelisation de laectation au traitement :
T

= zc +v
T = 1 T

0
on suppose comme precedemment lindependance entre les variables de conditionnement et les
elements inobserves.
(u, v) (x, z)
mais on ne fait plus dhypoth`ese sur la loi jointe des perturbations. On montre que lon ob-
tient une relation pour lesperance conditionnelle qui sapparente `a celles obtenues dans les cas
precedents :
Proposition 13.6 Dans le cas du mod`ele de selectivite sur inobservables, si les fonctions de
repartition de v est strictement croissante, il existe une fonction K (P (zc)) telle que
E (y [I = 1, x, z ) = xb +K (P (zc))
o` u
P (zc) = P (T = 1 [r, z )
220 Chapitre 13. Variables dependantes limitees
Demonstration On montre dabord que P (I = 1 |r, z ) = P (zc) . On a
P (I = 1 |r, z ) = E (1 (zc +v > 0) |r, z ) =
_
v>zc
f (v |r, z ) =
_
v>zc
f (v) = 1 F (zc) = P (zc)
On en deduit en outre que zc = H
1
(P (zc)) , puisque F est strictement croissante. On ecrit ensuite lesperance de
la variable dinteret
E (y |I = 1, x, z ) = xb +E (u|I = 1, x, z )
et on montre que E (u|I = 1, x, z ) est une fonction de P (zc)
E (u|I = 1, x, z ) = E (uI |x, z ) P (I = 1 |r, z )
1
=
_
1 (zc +v 0) uf (u, v) dudvP (I = 1 |zc )
1
= H
2
(zc) = K (P (zc))

Remarque 13.4 On peut voir ` a partir des expressions precedentes un point tr`es important.
Dans le cas de la normalite, on a une relation non lineaire determinee entre lesperance de
la variable ` a laquelle on sinteresse et la probabilite de selection. Cette non linearite permet
lobtention destimation meme dans le cas o` u les variables entrant dans lequation de selection
et lequation dinteret principal sont identiques. Dans le cas plus general, on voit neanmoins que
ce nest plus le cas. En eet quelque soit la fonction de probabilite retenue P, si la fonction K est
quelconque, et que x
p
est identique ` a x
w
, on ne pourra dissocier leet des variables intervenant
au travers de la selectivite de leur eet intervenant directement : le mod`ele nest pas identie.
Ce nest que lorsque lon introduit dans lequation de selectivite une variable intervenant dans la
selectivite mais pas dans lequation principale que lon peut identier le mod`ele. Le raisonnement
est ici tr`es proche de celui fait dans le cas des variables instrumentales : il faut postuler une
relation dexclusion. Cette necessite est un peu masquee dans le cas de la normalite par la non
linearite du mod`ele, mais elle nen est pas moins essentielle.
Ce type de mod`ele peut etre estime sans faire dhypoth`ese sur la forme de la fonction K. On
consid`ere lequation :
E (y [I = 1, x, z ) = xb +K (P (zc))
Une premi`ere fa con destimer le mod`ele consiste `a utiliser des series. Lidee est tr`es simple
elle consiste `a introduire dierentes puissance du score : P (zc) , P (zc)
2
, . . . . Les proprietes
asymptotiques de ce type destimateur ont ete etudiee par Andrews (1991).
E (y [I = 1, x, z ) = xb +
1
P (zc) + +
d
N
P (zc)
d
N
Cette methode est tr`es simple `a mettre en oeuvre, et de ce fait tr`es utile. Ses proprietes asympto-
tiques ont ete clairement etablies, par Newey (1999) qui montre en particulier que les param`etres
dinteret de la partie lineaire du mod`ele sont convergent en

N. Le probl`eme de ce type de
methode reside dans le choix du degre du polyn ome retenu.
Une methode destimation alternative est fournie par la methode destimation de (Robinson
1988) cest une sorte de super methode de Frish-Waugh. LIdee de la methode de Robinson est
de projeter cette equation sur lensemble des fonctions de P (zc)
E (y [I = 1, P (zc)) = E (E (y [I = 1, x, z ) [I = 1, P (zc))
= E (x[I = 1, P (zc)) b +K (P (zc))
13.6. Estimation du mod`ele Tobit 221
En prenant la dierence avec lequation precedente on peut eliminer la fonction K (P (zc)) . On
a alors :
E (y E (y [I = 1, P (zc)) [I = 1, x, z ) = (x E (x[I = 1, P (zc))) b
En notant
P
y
= yE (y [I = 1, P (zc)) et
P
x
= xE (x[T = 1, P (zc)) les residus des regressions
non parametriques de y et des variables explicatives r sur le score P (zc) , on a clairement
E
_

P
y

P
r
_
=
P
r
b
On peut estimer le param`etre b en regressant
P
y
sur
P
r
. Dans ce cas, on peut montrer que
lestimateur de b obtenu est convergent en

N bien quil incorpore un intermediaire de calcul


non parametrique. Toutefois sa variance est dicile `a calculer et on est amene `a utiliser des
methodes de bootstrap tr`es intensives en calculs, notamment pour ce type destimateur par
noyaux.
Remarque 13.5 Cette methode permet destimer le param`etre b. Neanmoins ceci nest pas
vrai pour tous les param`etres : la constante du mod`ele nest pas identiee. Ceci se voit tr`es bien
puisque la fonction K est estimee en toute generalite, donc ` a une constante pres. Ceci nest en
general pas grave car on naccorde que peu dinteret ` a la constante, sauf dans certains cas precis
qui peuvent etre tr`es importants. Cest en particulier le cas de levaluation des politique publiques
que lon aborde dans le chapitre suivant. On reviendra alors sur cette question delicate.
13.6.6 Illustration : le mod`ele dore de travail dHeckman
Pour illustrer les resultats du cadre precedent on estime le mod`ele dore de travail presente
dans lexemple de la page 207. Il sagit dun mod`ele Tobit dit de TypeIII, dans la terminologie
de Amemiya. La forme reduite de ce mod`ele secrit :
w

i
= x
i
b +u
i
h

i
= x
i
b x
ri
b
r
+u
i
u
ri
= z
i
c +v
i
En appliquant le formalisme de la methode dHeckman, on voit que lon a :
E (w
i
[z
i
, h

i
> 0) = x
i
b + (u
i
[z
i
, h

i
> 0)
= x
i
b +

(z
i
c)
E (h
i
[z
i
, h

i
> 0) = x
i
b x
ri
b
r
+
h

(z
i
c)
On voit clairement que les param`etres b, et b
r
sont identies. En eet, le mod`ele Probit identie
le param`etre c, la regression de salaire identie b et , la regression dheure identie b, b
r
et

h
. On voit que lon peut en deduire une estimation de d`es lors quil y a une variable entrant
dans la liste des variables aectant le salaire de marche mais pas le salaire de reserve. La variable
retenue ici assurant cette identication est la variable de scolarite. En eet on fait intervenir la
variable d age dans le salaire de reserve et dans le salaire de marche. Neanmoins lidentication
du param`etre est liee ici `a la forme fonctionnelle, cest `a dire `a la forme du ratio de Mills. On
voit que si on avait retenu une autre loi et que pour cette loi le terme analogue au ratio de Mills
avait ete lineaire le mod`ele ne serait pas identie puisquil impose que z
i
c soit proportionnel `a
222 Chapitre 13. Variables dependantes limitees
x
i
b x
ri
b
r
. Meme si le mod`ele impose des restrictions qui peuvent etre testees comme le fait
que les param`etres de la partie x
i
b x
ri
b
r
sont bien proportionnels `a ceux de la partie z
i
c, on
ne peut en deduire destimateur de ces param`etres, sauf `a faire une hypoth`ese comme celle faite
ici que les variables inobservees sont distribuees suivant une loi normale. On peut noter que le
mod`ele de salaire de marche peut lui aussi faire intervenir les heures. Dans ce cas lidentication
porte comme pour le mod`ele dheures oertes sur la forme fonctionnelle. Enn, on voit aussi que
lestimation sapparente ici `a une estimation par la methode des moments generalisee. En eet,
on peut reecrire lequation dore de travail par exemple sous la forme
E (h

i
w

i
+x
ri
b
r
[z
i
, h

i
0) = E (u
ri
[z
i
, h

i
0) =
h

h

(z
i
c)
Soit
E
_
h

i
w

i
+x
ri
b
r

h

h

(z
i
c) [z
i
, h

i
0
_
= 0
avec
h

h
= cov(u
ri
, u
i
u
ri
)/ (u
i
u
ri
) . Il en resulte que les param`etres peuvent etre
estimes en utilisant comme conditions dorthogonalite
E
_
_
h

i
w

i
+x
ri
b
r

h

h

(z
i
c)
_
_
z
i

(z
i
c)
_

i
0
_
= 0
De meme, pour lequation de salaire, on a
E
_
_
wh

i
h

i
x
i
b

(z
i
c)
_
_
z
i

(z
i
c)
_

i
0
_
= 0
qui peut etre utilisee avec contraint ` a 1 (lidentication des autres param`etres est alors garanti
quelle que soit la forme fonctionnelle retenue) ou librement estime (lidentication des param`etres
repose alors sur lhypoth`ese de normalite).
Remarque 13.6 Pour la determination des ecarts-type, il faut tenir compte de deux aspects
importants. Le premier est que le mod`ele est heteroscedastique. Lutilisation de la methode des
moments generalisee permet de traiter ce probl`eme. Le deuxi`eme est que le ratio de Mills fait
intervenir lestimation de lequation de participation. Il faut en theorie corriger les ecarts-type
pour cette estimation intermediaire. Ceci peut etre fait en considerant lestimation comme un
probl`eme destimation par la methode des moments generalisee. On adjoint ` a lensemble de
condition dorthogonalite precedent les conditions dorthogonalite correspondant ` a lestimation
preliminaire, et qui sont les conditions du premier ordre du maximum de vraisemblance. Ici,
compte tenu du fait que le mod`ele Probit est estime sur 36249 femmes et que les estimations
sont eectues dans le secteur du commerce sur seulement 3164 femmes, on neglige le probl`eme.
On presente dans le tableau 13.3 les resultats obtenus pour lestimation de lequation de
salaire. On voit que le ratio de Mills joue signicativement et que son coecient est negatif. Le
signe est celui de la correlation entre u
i
u
ri
et u
i
. Si on ecrit u
ri
= u
i
+
i
, avec u
i
et
i
non correle, on a cov(u
i
u
ri
, u
i
) = ( )
2
u
. Le signe negatif sinterpr`ete donc comme le
fait que les elements inobserves dans lequation de salaire et lequation de salaire de reserve sont
fortement correles. On voit quignorer la selectivite, oublier la variable de ratio de Mills, conduit
`a biaiser les coecients. Ici il sagit surtout de celui de la scolarite. Le coecient est en eet de
13.6. Estimation du mod`ele Tobit 223
Fig.13.3 Estimation de l equation de salaire avec et sans prise en compte de la s electivit e, avec
et sans prise en compte des heures
b sb b sb
Constante 4.6368 (0.0768) 4.4496 (0.0555)
Age 0.0096 (0.0008) 0.0098 (0.0008)
Age -0.0004 (0.0001) -0.0005 (0.0001)
Scolarit 0.0333 (0.0034) 0.0414 (0.0026)
Ratio de mills -0.1662 (0.0456) -- --
Constante 3.7674 (0.8199) 2.6204 (0.5044)
Age 0.0094 (0.0008) 0.0094 (0.0008)
Age -0.0004 (0.0001) -0.0005 (0.0001)
Scolarit 0.0346 (0.0035) 0.0369 (0.0029)
Ratio de mills -0.0967 (0.0708) -- --
h 0.2380 (0.2251) 0.5454 (0.1496)
Avec les heures
Sans les heures
Avec Slectivit Sans Slectivit
Fig.13.4 Estimation de l equation doffre de travail avec et sans prise en compte de la s electivit e
b sb b sb
Constante -0.0805 (1.1674) 2.3980 (0.2713)
Age -0.0051 (0.0015) -0.0019 (0.0004)
Age -0.0002 (0.0001) -0.0001 (0.0001)
Nenf -0.0665 (0.0150) -0.0349 (0.0054)
wa 0.0071 (0.0025) 0.0022 (0.0012)
single 0.0672 (0.0133) 0.0554 (0.0133)
Ratio de mills 0.3055 (0.1421) -- --
w 0.4124 (0.1314) 0.1332 (0.0309)
Avec Slectivit Sans Slectivit
0.03 avec prise en compte de la selectivite au lieu de 0.04 lorsquon lignore. On voit que lorsque
lon introduit la variable dheures comme regresseur lerreur liee au fait doublier la variable de
selectivite est encore plus forte. En eet lelasticite du salaire de marche (donc de la productivite)
aux heures est elevee et signicativement dierente de 0 lorsque lon ignore la selectivite. Par
contre lorsquon prend en compte la selectivite, on voit que cette variable est deux fois plus faible
et quelle nest plus signicativement dierente de 0. Ceci est susceptible de remettre fortement en
cause les resultats presentes dans le chapitre sur la methode des moments generalisee. Toutefois,
il ne faut pas oublier que lorsque lon introduit la variable dheure, lidentication des param`etres
repose sur le choix de la normalite pour distribution jointe des residus.
Le tableau 13.4 presente les resultats de lequation dore de travail. On voit l` a aussi que
la variable de selectivite est signicativement dierente de zero. Son signe est celui de
h

h
=
cov(u
ri
, u
i
u
ri
). Soit pour u
ri
= u
i
+
i
, celui de
2

+( )
2
u
. Le signe obtenu est donc
compatible avec le precedent. On voit que l` a aussi les changements sont importants lorsque lon
estime le mod`ele avec et sans prise en compte de la selectivite. En eet sans prise en compte
de la selectivite, on a un coecient faible de lordre de 0.10. Une baisse de la remuneration de
10% conduit `a une baisse des heures oertes de 1%. Lorsque lon prend en compte la selectivite,
on parvient `a une valeur beaucoup plus elevee de 0.4 : une baisse de la remuneration de 10%
conduit `a une baisse des heures de 4%.
224 Chapitre 13. Variables dependantes limitees
13.7 Mod`eles de choix discrets : le Mod`ele Logit Multinomial
On sinteresse dans cette derni`ere section `a un mod`ele de choix entre dierentes alternatives.
Le choix dun type de vehicule, dun lieu de vacances, etc... Ce mod`ele, appele mod`ele Logit
Multinomial est tr`es simple et tr`es facile `a estimer. Il est tr`es largement employe. Il est en outre
susceptible de generalisations importantes qui permettent notamment de prendre en compte
lexistence de caracteristiques inobservees des individus operant les choix. Le developpement et
lestimation de ce type de mod`ele est aujourdhui un th`eme de recherche tr`es actif aux nombreuses
applications.
Supposons quun individu i ait `a choisir, parmi un ensemble de K modalites, une et une
seule de ces modalites, notee k.
Pour modeliser cette situation on associe `a chaque modalite un niveau dutilite
U
ik
=
ik
+
ik
= x
i
b
k
+
ik
k = 1, ...K
o` u
ik
est une variable aleatoire non observable. Lindividu choisit la modalite que lui procure
lutilite maximale.
y
i
= Arg max
k
(U
ik
)
Proposition 13.7 Si les
ik

k=1,...K
sont des v.a. independantes et identiquement distribuees
selon une loi des valeurs extremes de fonction de repartition.
G(x) = exp[exp(x)],
de support ], +[ alors la probabilite de choisir la modalite k secrit :
P[y
i
= k] =
exp(
ik
)

K
l=1
exp (
il
)
=
exp(x
i
b
k
)

K
l=1
exp (x
i
b
l
)
Ce mod`ele est appele mod`ele logit multinomial.
Demonstration Notons g la fonction de densite des :
g (z) = G

(z) =
d
dz
exp [exp (z)] = exp (z) exp (exp (z)) = exp (z) G(z)
On peut remarquer en preliminaire la propriete suivante :
E exp (t exp (z)) =
1
1 +t
En eet :
E exp (t exp (z)) =
_
+

exp (t exp (z)) exp (z) exp (exp (z)) dz


en faisant le changement de variable v = exp (z) , on a
E exp (t exp (z)) =
_
+
0
exp (tv) v exp (v) v =
1
1 +t
On peut ecrire par exemple la probabilite de choisir la premi`ere solution
P (y = 1) = E
_
K

k=2
1 (U
k
< U
1
)
_
= E
_
E
_
K

k=2
1 (U
k
< U
1
|U
1
)
__
= E
_
K

k=2
E (1 (U
k
< U
1
|U
1
))
_
13.7. Mod`eles de choix discrets : le Mod`ele Logit Multinomial 225
Puisque les valeurs des dierentes options sont independantes les unes des autres. Comme P (
k
+
k
<
1
+
1
|
1
) =
G(
1

k
+
1
) = exp [exp (
1
+
k

1
)] , on a
P (y = 1) = E
_
K

k=2
exp [exp (
1
+
k

1
)]
_
= E
_
exp
_

k=2
exp (
1
+
k

1
)
__
= E (exp [t exp (
1
)])
avec t =
K

k=2
exp (
1
+
k
) . On en deduit que
P (y = 1) =
1
1 +t
=
1
K

k=1
exp (
1
+
k
)

Remarque 13.7 1. Les probabilites ne dependent que des dierences

k
= x(b
l
b
k
), l ,= k
Elles ne sont pas modiees si tous les b
l
sont translates en

b
l
= b
l
+c.
2. En consequence, les b
k
sont non identiables sauf ` a poser par exemple b
1
= 0
3. Les param`etres estimes sinterpr`etent alors comme des ecarts ` a la reference b
1
. Un signe
positif signie que la variable explicative accrot la probabilite de la modalite associee rela-
tivement ` a la probabilite de la modalite de reference.
13.7.1 Estimation du mod`ele logit multinomial :
Proposition 13.8 Posons
y
ki
= 1 (y
i
= k)
P
ki
= P (y
i
= k [x
i
) =
exp(x
ki
b
k
)
K

l=1
exp(x
li
b
l
)
b
1
= 0
La log-vraisemblance de lechantillon secrit :
log L =
n

i=1
K

k=1
y
ik
log P
ik
Cette fonction est globalement concave. Les conditions du premier ordre pour la determination
du param`etre b

= (b
2
, ..., b
K
)

, secrivent simplement sous la forme


log L
b
=
n

i=1
_
_
_
(y
i2
P
i2
) x

2i
.
.
.
(y
iK
P
iK
) x

Ki
_
_
_
= 0
226 Chapitre 13. Variables dependantes limitees
Demonstration La vraisemblance secrit log L =

n
i=1

K
k=1
y
ik
log P
ik
= log L =

n
i=1
_

K
k=2
y
ik
x
ki
b
k
log
_
1 +
K

l=2
exp(x
li
b
l
)
__
On calcule facilement la derivee par rapport `a b
l
:
log L
b
l
=
n

i=1
y
il
x

li

exp(x
li
b
l
)
_
1 +
K

l=2
exp(x
li
b
l
)
_x

li
=
n

i=1
(y
il
P
li
) x

li
On determine ensuite la derivee seconde

2
log L
b
l
b

m
=
n

i=1

m
_
_
_
_
y
il
x

li

exp(x
li
b
l
)
_
1 +
K

l=2
exp(x
li
b
l
)
_x

li
_
_
_
_
=
n

i=1

m
exp(x
li
b
l
)
_
1 +
K

l=2
exp(x
li
b
l
)
_x

li
Pour m = l, on a

m
exp(x
li
b
l
)
_
1 +
K

l=2
exp(x
li
b
l
)
_x

li
=
exp(x
li
b
l
) exp(x
mi
b
m
)
_
1 +
K

l=2
exp(x
li
b
l
)
_
2
x

li
x
mi
= P
mi
P
li
x

li
x
mi
Pour m = l, on a

l
exp(x
li
b
l
)
_
1 +
K

l=2
exp(x
li
b
l
)
_x

li
=
exp(x
li
b
l
)
_
1 +
K

l=2
exp(x
li
b
l
)
_x

li
x
li

exp(x
li
b
l
)
2
_
1 +
K

l=2
exp(x
li
b
l
)
_
2
x

li
x
li
=
_
P
li
P
2
li
_
x

li
x
li
Pour montrer la concavite de lobjectif, on calcule

H, pour un vecteur quelconque. La matrice H a pour


dimension dimb
2
+ +dimb
K
. On peut donc ecrire

= (

2
, . . . ,

K
) . Comme H est une matrice bloc dont les
blocs sont de la forme : H
l,m
=
mli
x

li
x
mi
, avec
mli
= P
mi
P
li
et
mmi
= P
mi
+P
2
mi
,

H =

l,m

l
H
l,m

m
=

l,m

mli

l
x

li
x
mi

m
. En denissant v
i
le vecteur de dimension K1 dont la mi`eme composante est x
mi

m
, on a

H =

l,m

mli
v
mi
v
li
et compte tenu de lexpression de
mli
, on a

l,m

mli
v
mi
v
li
=

m
_
P
mi
+P
2
mi
_
v
2
mi
+
2

m=l
P
mi
P
li
v
mi
v
li
=
_

m
P
mi
v
2
mi

_
m
P
mi
v
mi
_
2
_
0 et egal `a zero seulement si v
i
= 0. On en deduit
que

H 0 et

H = 0 si et seulement si v
i
= 0i, ce qui signie que tel que i x
mi

m
= 0 ce qui
correspond au fait que les variables explicatives ne sont pas independantes.
13.8 Resume
Dans ce chapitre on a presente trois exemples de mod`eles non lineaires generalisant directe-
ment les mod`eles lineaires vus precedemment. On a ainsi examine
1. Les mod`eles dichotomiques, caracterises par le fait que la variable explicative prend ses va-
leurs dans 0, 1 . On a vu que des modelisations adaptees faisaient intervenir des variables
latentes i.e. des variables dont seulement une partie de la realisation est observee.
2. Deux exemples types sont les mod`eles Logit et les mod`eles Probit. Ces deux mod`eles
sestiment par le maximum de vraisemblance et necessitent une etape doptimisation.
3. On a egalement presente les mod`eles Tobit. Ce sont des mod`eles dans lesquels on observe
une variable conditionnellement `a la valeur prise par une autre variable.
4. La situation standard est celle dans laquelle il y a une variable dinteret et une variable
decrivant la selection.
5. Un exemple typique est celui du salaire : on nobserve le salaire que conditionnellement au
fait que le nombre dheures de travail soit strictement positif.
13.8. Resume 227
6. Ces mod`eles necessitent en general des hypoth`eses sur la loi des residus des equations de
selection et de la variable dinteret.
7. On fait en souvent lhypoth`ese de residus normaux. Dans ce cas le mod`ele peut etre estime
simplement soit par la methode du maximum de vraisemblance, soit par une methode
alternative, dite de Heckman. Cette methode donne simplement des estimateurs mais est
moins ecace que la methode de maximum de vraisemblance. Elle consiste `a estimer
dabord un mod`ele Probit pour lequation de selection, puis `a partir des estimations `a
calculer un terme correctif dit ratio de Mills introduit ensuite dans la regression de la
variable dinteret.
8. Dans ces mod`eles `a selection endog`ene il faut traiter la selection comme on traiterait
un regresseur endog`ene dans une equation lineaire. Il est ainsi necessaire de disposer
dune variable intervenant dans lequation de selection et nintervenant pas dans lequation
dinteret, faute de quoi les param`etres ne sont estimes que sur la non linearite de la forme
fonctionnelle.
9. Dierentes generalisations ont ete proposees pour obtenir des estimations avec des lois
plus generales que la loi normale. Le mod`ele de selection semiparametrique generalise ainsi
lapproche de Heckman. Une fonction polymeries de la probabilite de selection est ainsi
introduite au lieu du ratio de Mills. Ces mod`eles ne permettent pas en general lestimation
de la constante et necessitent une fois abandonnee lhypoth`ese de normalite lexclusion
dun regresseur de la liste des variables explicatives aectant la variable dinteret.
10. Enn on a presente succinctement les mod`eles de choix discrets qui orent une modelisation
de la situation dans laquelle un individu doit arbitrer entre plusieurs choix possibles.
Linteret de ces mod`eles est de presenter un lien etroit entre la theorie des choix et
leconometrie.
228 Chapitre 13. Variables dependantes limitees
Annexe A
Rappels de statistiques
A.1 Calcul matriciel
A.1.1 Distribution de la norme de la projection dun vecteur normal
Considerons Z N (0, I
L
) , et P est un projecteur orthogonal sur un sous espace de dimen-
sion L
1
alors Z

PZ
2
(L
1
).
Lhypoth`ese sur P revient `a dire que P est une matrice symetrique et que ses valeurs propres
sont 0 ou 1. Comme P est symetrique, on peut la diagonaliser dans le groupe orthogonal. On
peut donc ecrire P = Q

PQ, avec Q

Q = I
L
et

P = Diag( 1, . . . , 1
. .
L
1
elements non nuls
, 0, . . . 0)
On denit Z

= QZ.
Z

est aussi un vecteur normal N (0, I


L
) puisque
1. Cest un vecteur normal puisquil est combinaison lineaire dun vecteur normal
2. Il est desperance nulle puisque E (Z

) = E (QZ) = QE (Z) = 0
3. Il est de variance identite puisque V (Z

) = E (Z

) = E (QZZ

) = QE (ZZ

) Q

=
QI
L
Q

= QQ

= I
L
On a alors Z

PZ = Z

PQZ = Z

PZ

L
1
l=1
Z
2
l
. Cest donc la somme du carre de L
1
variables normales independantes de moyenne nulle et de variance 1. Par denition elle suit un

2
(L
1
)
A.1.2 Sphericisation
Proposition A.1 Pour toute matrice symetrique et denie positive W il existe une matrice
W
1/2
telle que
W
1/2
WW
1/2
= I
Cette matrice verie aussi
W
1/2
W
1/2
= W
1
Demonstration Comme W est symetrique denie positive, elle est diagonalisable dans le groupe orthogonal. Il
existe donc une matrice orthogonale P
_
P

P = P
1
P = I
_
telle que W = P

DP, o` u D est diagonale, les elements


de la diagonale etant strictement positifs puisque W est denie positive. On peut considerer W
1/2
= P

D
1/2
P,
o` u D
1/2
est la matrice diagonale dont les element diagonaux sont les inverses de la racine des elements diagonaux
de D. On a
229
230 Annexe A. Rappels de statistiques
W
1/2
WW
1/2
= P

D
1/2
PP

DPP

D
1/2
P
= P

D
1/2
DD
1/2
P = P

P = I
En outre si W
1/2
WW
1/2
= I, alors W
1/2
W
1/2
WW
1/2
W
1/2
= W
1/2
W
1/2
et donc WW
1/2
W
1/2
=
I do` u W
1/2
W
1/2
= W
1

A.2 Rappel sur les convergences


Soit (X
n
) une suite de variables aleatoires. Soit F
n
la fonction de repartition de X
n
. Soit X
une variable aleatoire de fonction de repartition F.
Toutes ces va sont denies sur le meme espace probabilise, cest `a dire quun meme evenement
determine les valeurs des X
n
() pour tous les n et de X().
A.2.1 Denitions
Denition A.1 On dit que (X
n
) converge en probabilite vers X (X
n
P
X ou limplim
n
X
n
=
X) si
> 0, Pr [X
n
X[ >
n
0.
(NB : Pr [X
n
X[ > = Pr , [X
n
() X()[ > .)
Cette notion de convergence nous interessera pour la convergence ponctuelle des estimateurs.
Dans ce cas lelement est un etat de la nature qui engendre un nombre inni de realisation
du processus etudie. Les suites X
n
() sont les suites destimateurs que lon peut construire en
utilisant lechantillons des n premi`eres observations du processus. La limite X est une constante.
La notion de convergence signie que pour nimporte quelle boule centree sur la limite, les
etats de la nature tels quil existe des estimateurs hors de la boule consideree pour des tailles
arbitrairement grandes des echantillons sont de mesure nulle.
Denition A.2 On dit que (X
n
) converge en moyenne quadratique vers X (X
n
mq
X ) si
E |X
n
X|
2

n
0.
Proposition A.2 La convergence en moyenne quadratique implique la convergence en proba-
bilite et la convergence en moyenne quadratique vers une constante resulte de la convergence
du moment dordre 1 vers cette constante et du moment dordre 2 vers 0 : E (X
n
) a, et
V (X
n
) 0
Demonstration La premi`ere partie resulte de linegalite de Bienayme-Tchebitchev
Pr {X
n
X > } <
E X
n
X
2

2
qui exprime simplement
E X
n
X
2
= E
_
X
n
X
2
|X
n
X >
_
Pr {X
n
X > }
+E
_
X
n
X
2
|X
n
X
_
Pr {X
n
X }

2
Pr {X
n
X > }
A.2. Rappel sur les convergences 231
la deuxi`eme partie resulte de
E X
n
a
2
= E
_
(X
n
EX
n
)

(X
n
EX
n
)
_
+ (EX
n
a)

(EX
n
a)
= EX
n
a
2
+TraceV (X
n
)

Denition A.3 On dit que (X


n
) converge en loi vers X (X
n
L
X) si la suite des fonctions
de repartition associees (F
n
) converge, point par point, vers F la fonction de repartition de X
en tout point o` u F est continue :
x, F
n
(x) F(x).
A.2.2 Loi des Grands Nombres et Theor`eme Central Limite
On donne maintenant les deux theor`emes centraux sur lesquels reposent toutes les pro-
prietes asymptotiques des estimateurs usuels : la loi des grand nombre qui stipule que sous
des hypoth`eses assez faible la moyenne empirique converge en probabilite vers lesperance, et le
theor`eme central limite qui precise la loi de lecart entre la moyenne empirique et lesperance.
Proposition A.3 Loi des grands nombres (Chebichev) : Soit (x
i
) une suite de va independantes
telles que EX
i
= m
i
et V X
i
=
2
i
existent. On consid`ere X
N
=
1
N

N
i=1
X
i
la moyenne empi-
rique si la variance de cette moyenne empirique tend vers 0,
N
=
1
N
2

N
i=1

2
i
0, alors
X
N
m
N
=
1
N
N

i=1
X
i

1
N
N

i=1
m
i
P
0 qd N .
Demonstration
1
N

N
i=1
X
i

1
N

N
i=1
m
i
=
1
N

N
i=1
(X
i
m
i
) . Pour montrer la convergence en probabilite
vers zero, il sut de montrer la convergence en moyenne quadratique vers 0, qui resulte de la convergence vers 0
de la variance. Ce qui est acquis par hypoth`ese.
Corollaire 1. Soit (X
i
) une suite de va independantes telles que EX
i
= m et V X
i
=
existent, alors
X
N
=
1
N
N

i=1
X
i
P
m qd N .
Demonstration La variance de la moyenne empirique est dans ce cas /N. Elle tend bien vers zero.
On peut etendre la loi faible des grands nombres au cas o` u les variables X
n
sont dans L
1
,
mais au prix dune demonstration beaucoup plus compliquee.
Proposition A.4 Soit (X
i
) une suite de va independantes et equidistribuees telles que EX
i
= m
et E [X
i
[ existent, alors
X
N
=
1
N
N

i=1
X
i
P
m qd N .
Proposition A.5 Theor`eme central limite (Lindeberg-Levy) : Soit (X
i
) une suite de variables
aleatoires independantes et equidistribuees telles que EX
i
= m et V X
i
= existent,

N
_
X
N
m
_
L
^(0, ).
232 Annexe A. Rappels de statistiques
Remarque A.1 On sait dej` a que E
_

N
_
X
N
m
_
_
= 0, et egalement que V
_

N
_
X
N
m
_
_
=
NV
_
X
N
_
= V (X
n
) . Le resultat important vient du fait que lon connat la loi de la moyenne
empirique dilatee

N
_
X
N
m
_
.
Demonstration La demonstration se fait `a partir des fonctions caracteristiques. On appelle fonction caracteristique
dune variable aleatoire Z la fonction

Z
(t) = E
_
exp
_
it

Z
__
Les fonctions caracteristiques ont une propriete dinjectivite : si
Z
1
(t) =
Z
2
(t) alors F
Z
1
= F
Z
2
soit Z
1
d
= Z
2
.
On peut calculer la fonction de repartition dune loi normale
z N (0, )
z
(t) = exp
_

t
2
_
On a alors directement avec
n
(t) = E
_
exp it

N
_
N
i=1
X
i
N
m
__

n
(t) = E
_
exp
N

i=1
it

(X
i
m)

N
_
= E
_
i=n

i=1
exp
it

(X
i
m)

N
_
=
i=N

i=1
E
_
exp
it

(X
i
m)

N
_
=
_
E
_
exp
it

(X
i
m)

N
__
N
do` u lapproximation

n
(t)
_
E
_
1 +
it

(X
i
m)

1
2N
_
t

(X
i
m) (X
i
m)

t
_
__
N
=
_
1
1
2N
t

t
_
N
exp
t

t
2

Ce theor`eme est susant dans la majeure partie des cas. Neanmoins il fait lhypoth`ese
que les variables sont equidistribuees et quelles ont en particulier des moments dordre 1 et
2 identiques. Ce theor`eme peut etre reformule sous une autre forme. En eet E
_
X
n
_
= m et
V
_
X
n
_
= V/N. Le theor`eme ne stipule donc rien dautre que V
_
X
n
_
1/2
_
X
n
E
_
X
n
__
L

^ (0, 1) . L` a aussi on peut etendre le theor`eme centrale limite pour traite des cas plus generaux.
En particulier on peut obtenir un theor`eme de convergence pour des donnees independantes
mais non equidistribuees. Cest au prix dune condition supplementaire appelee condition de
Liapounov et qui concerne les moments dordre 3 de la variable.
Proposition A.6 Theor`eme central limite (Liapounov) : Soit (X
n
) une suite de variables aleatoires
independantes de moyenne
n
, de variance
2
n
et telle que w
3N
= E
_
[X
n

n
[
3
_
existent. Si
lim
_

N
1
w
3n
_
1/3
_
_

N
1

2
n
_
1/2
= 0 alors
V
_
X
n
_
1/2
_
X
n
E
_
X
n
__
L
^ (0, 1)
Remarque A.2 V
_
X
n
_
=
1
N

2
n
, cest ` a dire la variance moyenne divisee par N.
A.2. Rappel sur les convergences 233
Application A.1
Produit de lois normales
Application : On consid`ere deux variables aleatoires z
1i
et z
2i
telles que E (z
1i
) = m
1
et
E (z
2i
) = 0. Alors pour un echantillon iid, par application de la loi des grands nombres, z
1i
P
m
1
et par application du theor`eme central limite

N z
2i
L
N (0, V
2
) . Par application du theor`eme
de Slutsky on a

Nz
1i
z
2i
L
N (0, m
1
V
2
m

1
)
A.2.3 Proprietes des operateurs de convergence
On donne maintenant dierents resultats, utiles lorsque lon souhaite deriver les proprietes
asymptotiques des estimateurs.
X
n
P
X X
n
L
X.
a constant, X
n
P
a X
n
L
a.
Pour toute fonction g continue, X
n
L
X g(X
n
)
L
g(X) et X
n
P
a g(X
n
)
P
g(a).
Proposition A.7 (Theor`eme de Slutsky). Si X
n
L
X et Y
n
P
a alors on a :
1. X
n
Y
n
L
Xa ;
2. X
n
+Y
n
L
X +a ;
3. X
n
/Y
n
L
X/a si a ,= 0.
A.2.4 Ordres en probabilite
Soit X
n
une suite de variable aleatoire et a
n
une suite de reel.
On dit que X
n
est un petit o de a
n
et on le note o (a
n
) si a
1
n
X
n
P
0. Ainsi par exemple,
X
n
est un o (1) si X
n
P
0, X
n
est un o (1/n) si nX
n
P
0.
On dit que X
n
est un grand O de a
n
et on le note O(a
n
) si a
1
n
X
n
est borne en
probabilite. Ceci signie que pour nimporte quel niveau de probabilite il existe une
valeur nie M

telle que les realisations de satisfaisant


_
_
a
1
n
X
n
_
_
< M

pour tout n
sont de mesure superieure `a : n, P
__
_
a
1
n
X
n
_
_
< M

_
> . Ce qui signie que pour
nimporte quel niveau de probabilite aussi eleve soit il, on peut trouver une quantite
bornant a
1
n
X
n
avec probabilite uniformement en n. On peut aussi denir cette notion
`a partir des fonction de repartition F
n
de |X
n
| : F
n
(t) = P (|X
n
| < t) . Dire que X
n
est
un grand O(a
n
) consiste `a dire que pour tout niveau de probabilite , M

tel que n
F
n
(a
n
M

) > , soit a
1
n
F
1
n
() < M

. Donc X
n
= O(a
n
) si Sup
n
a
1
n
F
1
n
() < , o` u
encore, si , Sup
n
Q
n
() /a
n
< o` u Q
n
est la fonction de quantile.
Proposition A.8 Si X
n
L
X alors X
n
= O(1)
234 Annexe A. Rappels de statistiques
Demonstration On consid`ere F (t) la fonction de repartition de |X| et F
n
(t) celle de |X
n
|. F
n
(t) converge en
tout point de continuite de F vers F. Pour donne, on peut denir M
1
() tel que F (M
1
()) = 2. Il existe
donc un n() tel que pour n > n() F
n
(M
1
()) > . Pour n < n() , on peut denir M
2
() = supp
n<n()
F
1
n
() .
On peut prendre pour M () le maximum de M
1
() et de M
2
() .
Proposition A.9 Si Y
n
= O(1) et X
n
= o (1) , alors Y
n
X
n
= o (1)
Demonstration
P (|X
n
Y
n
| > ) = P (|X
n
Y
n
| > ||Y
n
| > M ) P (|Y
n
| > M) +P (|X
n
Y
n
| > ||Y
n
| M ) P (|Y
n
| M)
< P (|Y
n
| > M) +P (|X
n
| > /M) = 1 P (|Y
n
| < M) +P (|X
n
| > /M)
Comme Y
n
est bornee en probabilite, on peut trouver M tel que P (|Y
n
| < M) > pour tout n et donc 1
P (|Y
n
| < M) < . Comme X
n
est un o (1) , P (|X
n
| > /M) 0
Proposition A.10 Si X
n
est un O(a
n
) alors X
n
est un o (a
n
b
n
) pour nimporte quelle suite b
n
tendant vers +.
Demonstration En eet M

tq P
__
_
a
1
n
X
n
_
_
> M

_
< i.e. P
__
_
a
1
n
b
1
n
X
n
_
_
> b
1
n
M

_
< , et b
1
n
M

0.
Pour donne il existe n() tel que pour n > n() b
1
n
M

< et donc P
__
_
a
1
n
b
1
n
X
n
_
_
>
_
< P
__
_
a
1
n
b
1
n
X
n
_
_
> b
1
n
M

_
<

Le theor`eme de Slutsky a une implication importante :
Denition A.4 Deux suites de variables aleatoires X
1n
et X
2n
sont dites asymptotiquement
equivalentes si X
1n
X
2n
P
0, i.e. X
1n
X
2n
= o (1) .
Corollaire du theor`eme de Slutsky : si X
1n
et X
2n
sont asymptotiquement equivalentes et
X
1n
L
X, alors X
2n
L
X
Demonstration Ceci resulte directement du fait que suivant le Theor`eme de Slutsky si X
1n
X
2n
P
0 et
X
1n
L
X alors X
2n
= X
1n
(X
1n
X
2n
)
L
X
On presente enn un dernier resultat tr`es utile, qui permet dobtenir la loi dune combinaison
derivable quelconque de param`etres convergeant en loi.
Proposition A.11 (Methode delta). Pour toute fonction g continue, dierentiable, si

n(X
n
m)
L

N(0, ),alors

n(g(X
n
) g(m))
L
^
_
0,
_
g(m)
m

_
g(m)
m

_
.
Demonstration On a dabord X
n
P
m : puisque

N (X
N
m)
L
N(0, ),

N (X
N
m) = O(1) et donc
(X
N
m) = O
_
1/

N
_
= o (1). On applique le theor`eme de la valeur moyenne :
n
[0, 1] tq
g(X
n
) = g(m) +
g
m

(m+
n
(X
n
m)) (X
n
m) .

n(g(X
n
) g(m)) =
g
m

(m+
n
(X
n
m))

n(X
n
m)
m+
n
(X
n
m)
P
m donc Z
n
=
g
m

(m+
n
(X
n
m))
P

g
m

(m) .
Comme

n(X
n
m)
L
N(0, ), et Z
n
P

g
m

(m), on applique le theor`eme de Slutsky et on en deduit

n(g(X
n
) g(m)) = Z
n

n(X
n
m)
L
N
_
0,
_
g(m)
m

_
g(m)
m

_
.

Liste des Graphiques


3.1 Distribution de Student pour 5 et 500 degres de liberte . . . . . . . . . . . . . . . 27
3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions . 29
4.1 Resultats des estimations par les MCC . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Convergence en probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.1 Estimation de leet indirect de la contribution Delalande . . . . . . . . . . . . . 70
8.1 Estimateur des mco avec ecart-types robustes et standards . . . . . . . . . . . . . 95
8.2 Regression du carre du residu sur les variables et leurs produits croises . . . . . . 96
8.3 Regression du logarithme du carre du residu sur les variables et leurs produits
croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.4 Estimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.1 Dierents equilibre ore-demande . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
11.2 Condition de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11.3 Estimation pas les MCO et le VI . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.4 Test de Sargan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.5 Test dexogeneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
11.6 Resultat sans la part des Robien . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.1 Regression par les MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
12.2 Regression de la variable dheure sur les exog`enes et les instruments . . . . . . . 192
12.3 Regression par les variables instrumentales . . . . . . . . . . . . . . . . . . . . . . 192
12.4 Regression par la methode des moments generalisee . . . . . . . . . . . . . . . . . 193
12.5 Tests de specication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
12.6 Resultats Sectoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13.1 Estimation du mod`ele de participation des femmes . . . . . . . . . . . . . . . . . 207
13.2 Nuages de points et troncatures : dierentes congurations . . . . . . . . . . . . 210
13.3 Estimation de lequation de salaire avec et sans prise en compte de la selectivite,
avec et sans prise en compte des heures . . . . . . . . . . . . . . . . . . . . . . . 223
13.4 Estimation de lequation dore de travail avec et sans prise en compte de la
selectivite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
235
236 Liste des Graphiques
Liste des Tableaux
12.1 Conditions dorthogonalite et choix dune specication . . . . . . . . . . . . . . . 176
237
238 Liste des Tableaux
Liste des Applications
1 Introduction
2 Lestimateur des moindres carres ordinaires
3 Les MCO sous lhypoth`ese de normalite des perturbations
4 Estimation sous contraintes lineaires
5 Proprietes asymptotiques de lestimateur des MCO
5.1 Test de Student asymptotique de nullite dun param`etre `a 5% . . . . . . . . . . . 56
5.2 Test asymptotique de nullite de lensemble des param`etres . . . . . . . . . . . . . 57
6 Evaluation : Les estimateurs de dierence
7 Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite
7.1 Estimation MCQG du mod`ele `a erreurs composees . . . . . . . . . . . . . . . . . 82
8 Le modele heteroscedastique en coupe
8.1 Correction de White dans les mod`eles de donnees de panel . . . . . . . . . . . . . 87
8.2 Test de Breush-Pagan dheteroscedasticite lineaire dans les explicatives . . . . . . 91
8.3 Estimation des MCQG dans le mod`ele en coupe . . . . . . . . . . . . . . . . . . . 93
9 Correlation des observations
9.1 Mise en uvre de lestimateur des MCQG dans les mod`eles empiles . . . . . . . 102
9.2 Stationnarite de processus classiques . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.3 Processus moyenne mobile dordre 1 MA(1) . . . . . . . . . . . . . . . . . . . . 107
9.4 Estimateur de Prais-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10 Evaluation : Regressions `a variables de contr ole
239
240 Liste des Applications
11 Variables instrumentales
12 La Methode des moments generalisee
13 Variables dependantes limitees
A Rappels de statistiques
A.1 Produit de lois normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Table des Mati`eres
Sommaire 3
1 Introduction 1
1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Mod`ele econometrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Le mod`ele lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Do` u vient le mod`ele ? - 1 de la theorie economique . . . . . . . . . . . . . 3
(i) Fonction de production . . . . . . . . . . . . . . . . . . . . . . . 3
(ii) Demande de facteurs . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Lestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Pourquoi estimer le mod`ele ? . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.5 Do` u vient le mod`ele ? - 2 de relations stochastiques . . . . . . . . . . . . 7
1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Lestimateur des moindres carres ordinaires 11
2.1 Denition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Interpretation geometrique . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Theor`eme de Frish-Waugh . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Mod`ele et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Quand lestimateur des mco est-il sans biais ? . . . . . . . . . . . . . . . . 14
2.2.2 Quelle est la precision de lestimateur des mco ? . . . . . . . . . . . . . . . 15
2.2.3 Lestimateur des mco est-il le plus precis : le theor`eme de Gauss-Markov . 16
2.2.4 Estimation des param`etres du second ordre . . . . . . . . . . . . . . . . . 17
2.2.5 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Les MCO sous lhypoth`ese de normalite des perturbations 21
3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Ecart-types estimes, tests et intervalles de conance . . . . . . . . . . . . . . . . 23
3.2.1 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
241
242 Table des Mati`eres
3.2.2 Un resultat central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.3 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.4 Tests de la forme

b = . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29
3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Estimation sous contraintes lineaires 31
4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 34
4.3 Esperance et variance de

b
mcc
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 Estimateur de la variance des residus
2
. . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37
4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39
4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40
4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.8.1 Un test en deux etapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.8.2 Test de la nullite globale des param`etres . . . . . . . . . . . . . . . . . . . 43
4.8.3 Le Test de Chow de stabilite des param`etres . . . . . . . . . . . . . . . . 44
4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Proprietes asymptotiques de lestimateur des MCO 47
5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49
5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Test dhypoth`eses lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 54
(i) Test de Student asymptotique . . . . . . . . . . . . . . . . . . . 54
(ii) Test de Wald dune hypoth`ese multi-dimensionnelle. . . . . . . 56
5.2.3 Test dhypoth`eses non lineaires . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 Evaluation : Les estimateurs de dierence 61
6.1 Le Mod`ele causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.1 Choix de la variable dinteret et choix de letat de reference . . . . . . . . 63
6.1.2 Param`etres dinteret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.3 Biais de selectivite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Lestimateur des Dierences de Dierences . . . . . . . . . . . . . . . . . . . . . . 66
6.2.1 Estimateur en coupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.2 Estimateur Avant-Apr`es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.3 Estimateur par dierence de dierence. . . . . . . . . . . . . . . . . . . . 67
6.2.4 Exemple : La Contribution Delalande . . . . . . . . . . . . . . . . . . . . 69
Table des Mati`eres 243
7 Le mod`ele lineaire sans lhypoth`ese dhomoscedasticite 71
7.1 Le mod`ele heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.1.1 Mod`ele `a coecients aleatoires . . . . . . . . . . . . . . . . . . . . . . . . 72
7.1.2 Series temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.1.3 Mod`ele heteroscedastique en coupe . . . . . . . . . . . . . . . . . . . . . . 74
7.1.4 Donnees de panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.1.5 Regressions empilees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77
7.2.1 La methode des Moindres Carres Generalises . . . . . . . . . . . . . . . . 78
7.2.2 Proprietes de lestimateur des MCG . . . . . . . . . . . . . . . . . . . . . 79
7.2.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
(i) Sphericisation du mod`ele heteroscedastique en coupe. . . . . . . 80
(ii) Sphericisation du mod`ele `a perturbation AR(1). . . . . . . . . . 80
(iii) Sphericisation du mod`ele `a erreurs composees. . . . . . . . . . . 80
7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8 Le modele heteroscedastique en coupe 85
8.1 Inference robuste `a lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 86
8.1.1 Estimation robuste `a lheteroscedascticite . . . . . . . . . . . . . . . . . . 86
8.1.2 Test dhypoth`eses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.1.3 Estimation sous contraintes lineaires . . . . . . . . . . . . . . . . . . . . . 88
8.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9 Correlation des observations 99
9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99
9.1.1 Estimation robuste `a la correlation entre obervations . . . . . . . . . . . . 100
9.1.2 Estimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.1.3 Methode des MCG dans les mod`eles de regressions empilees . . . . . . . . 103
9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104
9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 106
9.3.1 Perturbations suivant une moyenne mobile dordre q MA(q) . . . . . . . 106
9.3.2 Perturbations suivant un processus autoregressif AR . . . . . . . . . . . 108
(i) Perturbations suivant un processus autoregressif dordre 1 AR(1)108
(ii) Perturbations suivant un processus autoregressif dordre p AR(p)109
9.3.3 Perturbations suivant un processus ARMA(p,q) . . . . . . . . . . . . . . . 110
9.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111
9.4.1 Estimateur de Newey-West . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.4.2 Estimation du mod`ele `a perturbations AR(1) . . . . . . . . . . . . . . . . 113
(i) Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . 114
(ii) Mise en uvre des MCQG : lestimateur de Prais-Watson . . . . 116
244 Table des Mati`eres
(iii) Detection de lautocorrelation . . . . . . . . . . . . . . . . . . . 118
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10 Evaluation : Regressions `a variables de contr ole 123
10.1 Independance conditionnelles `a des observables . . . . . . . . . . . . . . . . . . . 123
10.1.1 Identication sous lhypoth`ese dindependance conditionnelles `a des ob-
servables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10.1.2 Le score de propension (propensity score) . . . . . . . . . . . . . . . . . . 124
10.1.3 Methodes destimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
(i) Regression : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
(ii) Appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
(iii) Ponderations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.1.4 Vraisemblance de lhypoth`ese dindependance conditionnelle `a des obser-
vables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
(i) Prise en compte deets individuels : lapport de donnees tem-
porelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
(ii) Selection des observables . . . . . . . . . . . . . . . . . . . . . . 131
(iii) Probl`eme de support . . . . . . . . . . . . . . . . . . . . . . . . 132
10.2 Le mod`ele de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134
10.2.1 Expression des param`etres dinteret dans le cas general . . . . . . . . . . 135
10.2.2 Le cas Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.2.3 Des extensions parametriques simples . . . . . . . . . . . . . . . . . . . . 138
(i) Loi quelconque donnee pour le residu de lequation de selection. 138
(ii) Des lois plus generales que la loi normale . . . . . . . . . . . . . 138
10.2.4 Le mod`ele de selection semi parametrique. . . . . . . . . . . . . . . . . . . 139
(i) Identication des param`etres . . . . . . . . . . . . . . . . . . . 140
(ii) Identication des constantes et des termes de biais de selectivite
K
0
et K
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
11 Variables instrumentales 143
11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 144
11.1.1 Erreur de mesure sur les variables . . . . . . . . . . . . . . . . . . . . . . 144
11.1.2 Simultaneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
11.1.3 Omission de regresseurs, heterogeneite inobservee . . . . . . . . . . . . . . 145
11.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146
11.2.1 Mod`ele `a variables endog`enes et non convergence de lestimateur des mco 146
11.2.2 Resoudre le probl`eme de lidentication par lutilisation de variables ins-
trumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.3 Identication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
11.2.4 Moindres carres indirects . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.2.5 Propriete asymptotiques des estimateurs des MCI . . . . . . . . . . . . . 151
11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152
11.3.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . . . . 152
11.3.2 Lestimateur optimal comme estimateur des doubles moindres carres . . . 153
Table des Mati`eres 245
11.3.3 Cas des residus heteroscedastiques . . . . . . . . . . . . . . . . . . . . . . 154
11.4 Interpretation de la condition : limrangE (z

i
x
i
) = K + 1 . . . . . . . . . . . . . . 155
11.5 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.5.1 Idee du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.5.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
11.5.3 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161
11.6.1 Interet et idee du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
11.6.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
(i) Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . 161
(ii) Test dexogeneite par le biais de la regression augmentee . . . . 163
11.7 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.7.1 Reduction du temps de travail et gains de productivite . . . . . . . . . . . 163
11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12 La Methode des moments generalisee 169
12.1 Mod`ele structurel et contrainte identiante : restriction sur les moments . . . . . 169
12.2 Denir un mod`ele par le biais de conditions dorthogonalite . . . . . . . . . . . . 171
12.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 171
12.2.2 Mod`ele desperance conditionnelle, moindres carres non lineaires . . . . . 172
12.2.3 Methode `a variables instrumentales pour une equation seule . . . . . . . . 172
12.2.4 Methode `a variables instrumentales pour un syst`eme d equations. . . . . 173
12.2.5 Leconometrie des donnees de panel . . . . . . . . . . . . . . . . . . . . . 173
(i) Exogeneite forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
(ii) Eets correles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
(iii) Exogeneite faible . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
(iv) Synth`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178
12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
12.5.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . . . . 180
12.5.2 Mise en oeuvre de lestimateur optimal : deux etapes . . . . . . . . . . . . 180
12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181
12.6.1 Variables instrumentales dans un syst`eme dequations - cas general . . . . 181
(i) Verication des hypoth`eses de convergence des estimateurs GMM181
(ii) Expression de la matrice de variance des conditions dorthogo-
nalite : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
(iii) Mise en oeuvre de lestimation . . . . . . . . . . . . . . . . . . . 182
12.6.2 Regression VI dans un syst`eme homoscedastique . . . . . . . . . . . . . . 182
12.6.3 Application aux donnees de panel . . . . . . . . . . . . . . . . . . . . . . 183
12.6.4 Estimateur VI optimal dans le cas univarie et heteroscedastique . . . . . . 185
12.7 Test de specication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.7.1 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.7.2 Tester la compatibilite de conditions dorthogonalite additionnelles . . . . 187
246 Table des Mati`eres
12.7.3 Application test de suridentication et dexogeneite pour un estimateur `a
variables instrumentales dans le cas univarie et heteroscedastique . . . . . 188
(i) Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . 188
(ii) Test dexogeneite des variables explicatives. . . . . . . . . . . . . 188
12.7.4 Application aux donnees de panel . . . . . . . . . . . . . . . . . . . . . . 189
12.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.8.1 Reduction du temps de travail et gains de productivite . . . . . . . . . . . 190
12.8.2 Salaires et heures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13 Variables dependantes limitees 197
13.1 Mod`ele dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
13.1.1 Mod`ele `a probabilites lineaires . . . . . . . . . . . . . . . . . . . . . . . . 198
13.1.2 Les mod`eles probit et logit. . . . . . . . . . . . . . . . . . . . . . . . . . . 199
(i) Eet marginal dune variation dun regresseur continu x . . . . . 200
13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.3 Estimation des mod`eles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202
13.3.1 Conditions de 1er ordre pour la maximisation . . . . . . . . . . . . . . . . 203
13.3.2 Derivees secondes de la log-vraisemblance - condition de concavite . . . . 204
13.3.3 Matrice de variance-covariance de

b . . . . . . . . . . . . . . . . . . . . . . 205
13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206
13.5 Selectivite : le mod`ele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.5.1 Presentation de la selectivite . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.5.2 Rappels sur les lois normales conditionnelles. . . . . . . . . . . . . . . . . 211
(i) Densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
(ii) Moments dune variable normale tronquee par une autre variable
normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
13.6 Estimation du mod`ele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.6.1 Pourquoi ne pas estimer un mod`ele Tobit par les MCO? . . . . . . . . . . 214
13.6.2 Estimation par le maximum de vraisemblance . . . . . . . . . . . . . . . . 215
13.6.3 Estimation en deux etapes par la methode dHeckman . . . . . . . . . . . 216
13.6.4 Des extensions parametriques simples . . . . . . . . . . . . . . . . . . . . 217
(i) Loi quelconque donnee pour le residu de lequation de selection. 217
(ii) Des lois plus generales que la loi normale . . . . . . . . . . . . . 218
13.6.5 Le mod`ele de selection semi parametrique. . . . . . . . . . . . . . . . . . . 219
13.6.6 Illustration : le mod`ele dore de travail dHeckman . . . . . . . . . . . . 221
13.7 Mod`eles de choix discrets : le Mod`ele Logit Multinomial . . . . . . . . . . . . . . 224
13.7.1 Estimation du mod`ele logit multinomial : . . . . . . . . . . . . . . . . . . 225
13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
A Rappels de statistiques 229
A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.1.1 Distribution de la norme de la projection dun vecteur normal . . . . . . . 229
A.1.2 Sphericisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Table des Mati`eres 247
A.2.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
A.2.2 Loi des Grands Nombres et Theor`eme Central Limite . . . . . . . . . . . 231
A.2.3 Proprietes des operateurs de convergence . . . . . . . . . . . . . . . . . . 233
A.2.4 Ordres en probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Liste des Graphiques 235
Liste des Tableaux 237
Liste des Applications 239
Table des Mati`eres 241

Você também pode gostar