Econometrie Applique Cours

Econom
etrie lin
eaire appliqu
ee
Bruno Crepon Nicolas Jacquemet
Septembre 2006
2
Sommaire
Sommaire 3
1 Introduction 1
1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3
1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Lestimateur des moindres carres ordinaires 11
2.1 Denition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Modèle et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Les MCO sous lhypothèse de normalite des perturbations 21
3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Ecart-types estimes, tests et intervalles de conance . . . . . . . . . . . . . . . . 23
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29
3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Estimation sous contraintes lineaires 31
4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 34
4.3 Esperance et variance de

b
mcc
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 Estimateur de la variance des residus
2
. . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37
4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39
4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40
4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Proprietes asymptotiques de lestimateur des MCO 47
5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49
5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
4 Sommaire
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 Evaluation : Les estimateurs de dierence 61
6.1 Le Modèle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Lestimateur des Dierences de Dierences . . . . . . . . . . . . . . . . . . . . . . 66
7 Le modèle lineaire sans lhypothèse dhomoscedasticite 71
7.1 Le modèle heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77
7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8 Le modele heteroscedastique en coupe 85
8.1 Inference robuste à lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 86
8.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9 Correlation des observations 99
9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99
9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104
9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 106
9.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10 Evaluation : Regressions à variables de contr ole 123
10.1 Independance conditionnelles à des observables . . . . . . . . . . . . . . . . . . . 123
10.2 Le modèle de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134
11 Variables instrumentales 143
11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 144
11.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146
11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152
11.4 Interpretation de la condition : limrangE (z
i
x
i
) = K + 1 . . . . . . . . . . . . . . 155
11.5 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161
11.7 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12 La Methode des moments generalisee 169
12.1 Modèle structurel et contrainte identiante : restriction sur les moments . . . . . 169
12.2 Denir un modèle par le biais de conditions dorthogonalite . . . . . . . . . . . . 171
12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Sommaire 5
12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178
12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181
12.7 Test de specication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13 Variables dependantes limitees 197
13.1 Modèle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.3 Estimation des modèles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202
13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206
13.5 Selectivite : le modèle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.6 Estimation du modèle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.7 Modèles de choix discrets : le Modèle Logit Multinomial . . . . . . . . . . . . . . 224
13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
A Rappels de statistiques 229
A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Liste des Graphiques 235
Liste des Tableaux 237
Liste des Applications 239
Table des Matières 241
6 Sommaire
Chapitre 1
Introduction
A la dierence de la statistique, qui est une branche des mathematiques, leconometrie est
une branche de leconomie, destinee à developper des outils danalyse des donnees permettant de
nourrir la reexion theorique. Au delà de la terminologie, cette dierence distingue de fa con fon-
damentale les elements qui seront traites ici de lanalyse statistique des donnees. Cette dierence
se traduit, notamment, par le fait que lanalyse econometrique repose sur une modelisation du
problème auquel on sinteresse et qui servira au traitement des donnees dont on dispose.
1.1 Analyse econometrique : presentation
Lanalyse econometrique dun ensemble de donnees a, dans la grande majorite des cas,
pour objectif de tester la validite et devaluer lampleur des explications fournies par lanalyse
economique. A ce titre, elle sinteresse donc à leet dun ensemble de variables dites va-
riables explicatives et notees x sur une ou plusieurs autres appelees variables expliquees,
y. Le choix de ces variables et leur role dans le modèle econometrique est deduit de lanalyse
economique du problème auquel on sinteresse. Une meme variable peut ainsi jouer le role de va-
riable expliquee dans un modèle econometrique donne par exemple, leducation dans un modèle
dinvestissement en capital humain et le role de variable explicative dans un modèle dierent
leducation dans un modèle de formation des salaires. La theorie suggère ainsi une relation
de causalite specique au problème considere entre les variables auxquelles on sinteresse. Pour
cette raison, la variable expliquee est egalement souvent qualiee de dependante ou endogène,
au sens o` u une relation causale la lie aux variables explicatives considerees ; et les variables ex-
plicatives qualiees de variables independantes ou exogènes, au sens o` u leur niveau peut etre
considere comme une donnee dans le cadre du problème auquel on sinteresse.
1.1.1 Modèle econometrique
Un modèle econometrique est constitue de plusieurs ingredients. Lanalyse empirique de
la relation qui lie les variables explicatives à la (aux) variable(s) expliquee(s) passe dabord
par la specication dune fonction telle que : y = f(x). Cette fonction reète la relation cau-
sale quentretiennent les variables. Il est cependant impossible pour un observateur exterieur
de connatre et dobserver parfaitement lensemble des determinants dun phenomène social. Le
moral des menages est ainsi souvent presente comme un determinant important du compor-
tement de consommation. Dans le cadre dune analyse empirique du comportement individuel
1
2 Chapitre 1. Introduction
de consommation, il est cependant inimaginable de pouvoir observer de fa con certaine cette va-
riable (chaque lecteur de ce manuel constitue ou appartient à un menage : pouvez-vous mesurer
votre moral ?). Il convient donc de distinguer dans lanalyse lensemble des elements observables,
contenus dans la liste des variables explicatives, des determinants qui echappent à lobservation ;
soit par meconnaissance du problème, soit, le plus souvent, en raison des dicultes à les mesurer.
Ces elements inobservables ecartent la variable y du niveau que laissent attendre les variables
observees x. Lampleur de cette erreur ne peut pas, par denition, etre caracterisee. Elle est
donc consideree comme une variable aleatoire, notee u, qui sajoute au modèle : y = f(x, u).
Les variations de u ainsi que la fonction f elle meme se combinent pour expliquer les va-
riations de la (les) variable(s) expliquee(s). Un certain nombre de paramètres inconnus inter-
viennent dans cette combinaison. Le multiplicateur dinvestissement keynesien relie par exemple
linvestissement I et le PIB, Y , selon une relation lineaire telle que : Y = I. Lintensite de cette
relation, mesuree par , est inconnue et nest pas observable directement dans la vie economique.
Les paramètres qui denissent la fonction f, notes b, doivent donc etre estimes, cest à dire etre
deduits des observations disponibles dans les donnees en sappuyant sur le modèle. Pour ce faire,
il est necessaire dimposer un certain nombre dhypothèses sur la fonction f et sur le terme
derreur u. Comme nous le verrons plus bas (Section ??), les hypothèses retenues determient
de fa con importante les outils qui pourront etre mobilises ainsi que les proprietes de lanalyse.
Au total, un modèle econometrique se denit ainsi comme (i) une relation causale
entre des variables, (ii) perturbee par un ensemble delements inobservables, (iii)
determinee par des paramètres inobservables (iv) et (v) sur laquelle sont imposees
un certain nombre dhypothèses necessaires à lestimation.
1.1.2 Le modèle lineaire
Une hypothèse particulièrement concerne la forme imposee à la fonction f. Bien quil soit
possible de denir un modèle econometrique en conservant une forme generale à la fonction on
parle alors de modèle non paramètrique le procede le plus courant consiste à imposer une
forme fonctionnelle pour f. On deni alors un modèle paramètrique. Lensemble des choix pos-
sibles est extremement vaste. On pourrait ainsi utiliser une forme exponentielle, logarithmique,
un ratio de polyn omes ou toute combinaison imaginable de ces fonctions. Le modèle à la fois
le plus simple et le plus etudie est le modèle qui impose une forme lineaire à cette relation. Le
modèle econometrique considere secrit alors :
y = +
1
x
1
+ +
K
x
K
+u = xb +u
On retrouve ici les elements qui denissent un modèle econometrique : une variable ex-
pliquee, K variables explicatives (qui sont toutes observees), K + 1 paramètres (à estimer) et
un terme derreur (inobservable). Il convient detre très vigilant quant au critère qui caracterise
la linearite du modèle. La forme fonctionnelle utilisee est en eet qualiee en fonction de la
position quoccupent les paramètres et non les variables dans le modèle.
Denition 1.1 Un modèle econometrique est dit lineaire si la relation entre les variables
explicatives et la (les) variable(s) expliquee(s) est lineaire dans les paramètres.
Le modèle econometrique qui consiste à expliquer le salaire par une fonction lineaire de lage
pris au carre (ou toute autre transformation non lineiare de cette variable) sera ainsi considere
1.2. Principales etapes de lanalyse econometrique 3
comme un modèle lineaire. A lexception du dernier chapitre, les resultats presentes dans cet
ouvrage se concentrent sur ce modèle. Plusieurs facteurs expliquent son succès et la quantite des
travaux qui lui sont consacres.
En raison de sa simplicite, dabord, le modèle lineaire est historiquement à lorigine de
lanalyse econometrique. Les developpements ulterieurs de lanalyse et notamment lanalyse non
lineaire qui sera introduite à la n de cet ouvrage sappuient donc naturellement sur les
resultats obtenus dans le cadre du modèle lineaire. Leur connaissance est ainsi indispensable à
une bonne comprehension de thèmes plus avances, et toute formation à leconometrie commence
dailleurs, pour cette raison, par une presentation de leconometrie lineaire. Cette simplicite
explique egalement le succès de ce modèle parmi les praticiens (professionnels, chercheurs, . . . )
de leconomie appliquee. Comme nous le verrons au cours de louvrage, une part très importante
des travaux realises dans ce domaine repose en eet sur lanalyse lineaire, et peut par consequence
etre comprise en se limitant au elements presentes dans cet ouvrage. Une dernière raison, plus
fondamentale, tient à ce que de très nombreux modèles peuvent etre exprimes sous forme lineaire.
Il sagit de la première etape de lanalyse econometrique, dont un certain nombre dexemples
sont presentes ci-dessous.
1.2 Principales etapes de lanalyse econometrique
Le passage de la theorie economique à un modèle econometrique consistue en eet la première
etape de lanalyse. Le modèle peut ensuite etre mis en uvre à condition de disposer dobsevation
sur le phenomène considere et ses determinants. Il sagit alors de proceder à lestimation du
modèle, et ce à des ns de validation, devaluation ou de prevision.
1.2.1 Do` u vient le modèle ? - 1 de la theorie economique
Comme nous lavons vu, cest la theorie economique qui suggère une relation de causalite
entre la (les) variable(s) expliquee(s) et les variables explicatives. Il faut cependant entendre le
terme theorie economique au sens large. Bien que preferable, il nest pas indispensable, en
eet, de disposer dun modèle economique au sens propre du terme pour mettre en uvre un
modèle econometrique. Les quelques exemples proposes ci-dessous illustrent les divers degres
dintimite qui peuvent exister entre la theorie et la specication dun modèle econometrique.
1
(i) Fonction de production
Dans sa variation la plus simple, lanalyse economique du processus de production considère
le niveau du produit, Y , qomme le resultat de la combinaison de deux facteurs : le capital, K,
et le travail, L :
Y = F (K, L)
Un modèle non paramètrique de production consisterait à conserver la forme generale de
F(). Seuls sont consideres dans cet ouvrage les modèles paramètriques qui imposent une forme
particulière à la fonction dinteret. On se restreint alors à un ensemble de fonctions de productions
ne dependant que dun nombre ni de paramètres. Une specication frequemment retenue est la
fonction de production Cobb-Douglas. Imposer une forme fonctionnelle nest jamais neutre sur le
1
Certains de ces exemples seront developpes au cours de louvrage.
phenomène etudie. La fonction de production Cobb-Douglas impose par exemple une restriction
forte sur les possibilites de substitution entre facteurs :
Y = AK
et sont des paramètres à estimer. On remarque immediatement que le modèle ainsi

specie nest pas lineaire au sens de la Denition 1.1. Une simple operation algebrique permet
cependant de se ramener à ce cadre :
log(Y ) = log(AK
)
y = a +k +l
La seconde equation denit ainsi un modèle lineaire dans les paramètres. Loperation a
necessitre un changement de variables : on sinteresse desormais au logarithme du produit
y = log(Y ) comme des facteurs (k = log(K) et l = log(L)). La quantite a correspond à une
quantite inobservee, qui sinterprete comme le logarithem du paramètre dechelle de la fonction
de production. Suivant les cas, on pourrra donc la considerer comme un paramètre à estimer
(constant) ou comme le terme derreur du modèle. Lorsque lon sinteresse à la fonction d epro-
duction de dierentes entrprises, le niveau de la technologie est ainsi susceptible de varier dune
entrprise à lautre et il paratra alors naturelle de considerer cette quantite comme lerreur du
modèle. Pour les autres coecients, en revacnhe, le modèle specie impose une homogeneite du
processus de production dans la population dentreprises.
(ii) Demande de facteurs
La theorie economique a montre que la demande de facteurs qui emane des entreprises
se deduit directement de la fonction de co ut associee au processus de production. En toute
generalite, cette fonction secrit : C (Q, p
X
, u), o` u Q est le niveau de production, p
X
le vecteur
des prix des facteurs X et u le niveau de la technologie. La demande pour un facteur donne X
d
o
est donnee par le Lemme de Shephard :
X
d
0
=
C (Q, p
X
, u)
p
X
0
Comme dans le cas precedent on se restreint en general à une forme parametrique de la
fonction de co ut. Une specication standard est la fonction de co ut translog avec deux facteurs :
le capital de co ut exp(c) et travail de co ut exp(w) :
log(C) = a +c +w + 0.5
c
c
2
+
w,c
cw + 0.5
w
w
2
+ log(Q) log(u)
Par application du lemme de Shephard, ce type de specication conduit à des fonctions de
demande speciant la part optimal de chaque facteur dans le co ut global. Pour la demande de
travail, on a par exemple :
wL
Q
= +
w,c
c +
w
w
Dans cette specication, la perturbation na pas dinterpretation aussi naturelle que dans le
cas precedent. Il faut considerer que soit le paramètre est heterogène, soit la part observee
secarte de la part theorique pour des raisons non expliquees.
Le modèle peut aussi provenir dune relation moins structurelle entre les variables. Par
exemple un type dequations très souvent estime est lequation de Mincer qui fait dependre le
salaire du nombre dannees detude et de lexperience. Par exemple :
log (w
i
) = a
0
+a
s
s
i
+a
e
e
i
+u
i
o` u a
s
represente le gain lie à une annee detude supplementaire et a
e
le gain lie à une annee
dexperience supplementaire. Les paramètres economiques auxquels on sinteresse alors sont le
rendement de leducation ou le rendement de lexperience. La modelisation sous-jacente est
celle du capital humain : le capital humain saccumule dabord durant la periode des etudes
puis durant la vie active par lexperience, en apprenant sur le tas. Si on fait lhypothèse dun
marche du travail concurrentiel, les dierences de remunerations entre les agents traduiront des
dierences dans le capital humain. On peut remarquer concernant cette equation que lon ne
sinteresse pas seulement à expliquer les dierences moyennes de revenus entre les agents mais
que lon souhaite aussi parvenir à une estimation plus ambitieuse qui puisse conduire à une
interpretation causale : si on augmente la duree des etudes de un an dun individu quel sera son
gain en terme de remuneration ?
Un autre exemple dans lequel le modèle entretient des rapports encore plus tenus avec des
paramètres structurels mais possède une interpretation causale est celui de lincidence de la
taille dune classe sur le taux de reussite des elèves de la classe. On peut legitimement se poser
la question de savoir si la reduction de la taille des classes conduit à une amelioration du taux
de reussite scolaire. On peut ainsi considerer un modèle du type :
i
= a
0
+a
t
taille
i
+x
i
a
x
+u
i
o` u
i
represente le taux de reussite dune classe. Dans cette specication que lon pourrait appeler
fonction de production scolaire, on introduit un ensemble dautres variables. En eet on se doute
bien que de nombreux facteurs aectent la reussite dune classe. Par exemple lenvironnement
scolaire est certainement un facteur important. On pourrait se dire que comme on ne sinteresse
pas à la variable denvironnement on ne la met pas dans la regression. Dun cote on y gagne car
on na pas à faire leort de mesurer cette variable, mais dun autre cote cette variable contribue
aussi à determiner la taille de la classe. Il est possible que dans certains milieux defavorises la
taille des classes soit plus petites. Si on ignore le role de lenvironnement scolaire et quon ne
lintègre pas dans la regression, on risque de mesurer un eet de la taille de la classe qui soit un
mixte de leet propre de la taille et de leet de lenvironnement. Il donc important dans ce type
de modèle, entretenant des rapports larges avec la theorie, dintroduire des facteurs annexes qui
permettront disoler leet propre de la taille de la classe. On cherche à controler pour un certain
nombre de facteurs exterieurs.
Enn, on peut avoir une approche descriptive des donnees. Il est important de remarquer
que dans ce cas les paramètres nont pas dinterpretation structurelle.
1.2.2 Les donnees
Les donnees constituent le cur de leconometrie. Leur recueil et leur examen descriptif
constituent aussi en general une part importante de tout travail econometrique. Il y a principa-
lement trois grands types de donnees :
1. Donnees temporelles ou longitudinales. Elles sont indicees par le temps t. On dispose ainsi
de series dites temporelles : y
t
, x
t
, par exemple les series trimestrielles de la consommation
et du revenu, de lination... En general le nombre dobservation T est assez reduit, de
lordre de la cinquantaine. On note en general y le vecteur T 1 (y
1
, . . . , y
T
)
et x la matrice
T (K + 1) : (x
1
, . . . , x
T
)
o` u x
t
est le vecteur ligne forme des valeurs des dierentes
variables explicatives (dont la constante) à la date t.
2. Donnees en coupe. y
i
, x
i
. Leur indice correspond à lidentiant dun individu ou dune
entreprise. Ces donnees peuvent representer par exemple le salaire dun individu pour y
et son diplome, son experience... pour les variables explicatives. Les echantillons dont on
dispose sont en general de beaucoup plus grande taille : le nombre dobservation N depasse
le plus souvent la centaine et peut aller jusquà plusieurs dizaines de milliers. On note l` a
encore en general y le vecteur N1 (y
1
, . . . , y
N
)
et x la matrice N(K + 1) : (x
1
, . . . , x
N
)
o` u x
i
est le vecteur ligne forme des valeurs des dierentes variables explicatives (dont la
constante) pour lindividu i.
3. Donnees à double indice, dites de panel : y
it
, x
it
. On dispose dinformations sur des indivi-
dus i = 1, . . . , N que lon suit sur plusieurs periodes, t = 1, . . . , T. Les NT observations z
it
correspondent à N observations vectorielles individuelles z
i1
, . . . z
iT
. On note en general
y
i
le vecteur T 1 (y
i1
, . . . , y
iT
)
et x
i
la matrice T (K + 1) : (x
i1
, . . . , x
iT
)
et y le vecteur
NT 1
_
y
1
, . . . , y
N
_
et x la matrice NT (K + 1) : (x
1
, . . . , x
N
)
o` u x
i
est la matrice
formee des valeurs des dierentes variables explicatives (dont la constante) pour lindividu
i aux dierentes dates.
1.2.3 Lestimation
Estimer le modèle cest trouver une fonction des observations y et x
b = b
_
y, x
_
dont on souhaite quelle verie certaines conditions. Par exemple lestimateur peut etre choisi
tel
quil soit sans biais E
_
b
_
=
_
b
_
y, x
_
f
_
y, x
_
dydx = b
quil satisfasse un critère : minimisation de la somme des carres des residus
b = arg min
(y xb)
2
;
maximisation de la log-vraisemblance

b = arg max
log l (y, x)
quil soit de variance minimale
quil soit convergent, cest à dire quil se rapproche de la vraie valeur du paramètre lorsque
le nombre dobservations devient grand.
1.2.4 Pourquoi estimer le modèle ?
tester lexistence dun eet, i.e. verier quune variable x a un eet specique sur une va-
riable y. Par exemple on peut sinterroger sur leet des taux dinteret sur linvestissement,
cest à dire sur lexistence dun canal monetaire de la politique monetaire. Dans le cadre
dun modèle accelerateur prot standard, I = Q
t
+ + r + v, on peut sinterroger
sur le fait que le coecient du taux dinteret soit nul ou non. On sinteresse donc à
lhypothèse H
0
: = 0, et on souhaite que les donnees permettent de repondre à cette
question. De fa con similaire, dans le cas de la fonction de production scolaire on peut
sinterroger sur lexistence dun eet de la taille de la classe sur le taux de reussite. On
va alors sinteresser à lhypothèse H
0
: a
t
= 0, et l` a aussi on souhaite que les donnees
nous permettent de choisir entre oui ou non. Lestimation du modèle et la confrontation
du paramètre à zero est la voie la plus naturelle pour prendre cette decision. La question
est ici de savoir si le paramètre est signicatif au sens statistique du terme.
quantier cet eet, ce qui est utile à des ns de simulations. Par exemple dans les deux
cas precedents on est aussi interesse par donner un ordre de grandeur de leet à attendre
dune variation de la variable. Si on voulait par exemple prendre une decision de politique
economique consistant à baisser la taille des classes, ce qui est très co uteux, on est interesse
certes à savoir si cela aura un eet non nul mais aussi à savoir lordre de grandeur de cet
eet. Sil est très faible on ne prendra pas alors aussi facilement la decision de reduire la
taille des classes. Lordre de grandeur du paramètre est aussi important. La question est
ici de savoir si le paramètre est signicatif au sens economique du terme.
prevoir. Dans le modèle y
t
= x
t
+u
t
, le paramètre peut etre estime sur les observations
t = 1, . . . , T :

. Connaissant x
T+1
on calcule la prevision de y à la date T + 1 : y
T+1
=
x
T+1
1.2.5 Do` u vient le modèle ? - 2 de relations stochastiques

Le modèle provient aussi de relations stochastiques entre les variables. Lecriture de la relation
y = xb +u
ne constitue pas en fait un modèle econometrique. Comme on la vu il sagit dune relation plus
ou moins fondee. Si on ladmet fondee, le paramètre b a un sens en lui-meme. Il a une denition
economique, par exemple lelasticite de la production au capital. Pour que ce modèle soit un
modèle econometrique il faut lui adjoindre une restriction stochastique. Une fa con naturelle de
proceder est de specier la loi jointe des observations l (y, x; b) . Ceci revient à specier la loi du
residu sachant les variables explicatives : l (u[x) . La situation de base est celle dans laquelle
cette loi est choisie comme une loi normale ne dependant pas des variables x. On impose donc
dans ce cas une restriction stochastique essentielle pour lanalyse econometrique
l (u[x) = l (u) = (u/) /
o` u est la densite de la loi normale. Imposer cette restriction permet de denir la densite des
observations
l (y, x; b) = l (y [x; b) l (x) = ((y xb) /) l (x) /
et donc destimer les paramètres en appliquant par exemple la methode du maximum de vraisem-
blance. Lestimateur auquel on parvient est alors celui des moindres carres ordinaires. On peut
aussi faire des hypothèses sur la loi de u sachant x qui soient moins fortes que la specication
de la loi complète. Par exemple on peut se contenter de specier :
E (u[x) = E (u) = 0
Cette propriete est satisfaite si on specie la loi conditionnelle de u sachant x comme une loi
normale independante de x. Linverse est faux et cette specication est donc moins exigeante que
la precedente. Elle permet, elle aussi, destimer le modèle. Elle implique en eet des restrictions
du type E (x
(y xb)) = 0 appelees intuitivement conditions dorthogonalite dont on verra

quelles sont susantes pour estimer les paramètres du modèle. On remarque à ce stade que
dans cette specication il y a dores et dej` a un paramètre de moins : la variance des residus
nintervient plus.
Ces restrictions stochastiques denissent un paramètre statistique. On pourrait ainsi denir
autant de paramètres b quil y a de restrictions stochastiques envisageables, cest à dire une
innite. On pourrait par exemple considerer le paramètre b
Z
associe à des restrictions stochas-
tiques E (z
(y xb
Z
)) = 0 dont on verra quelles aussi peuvent etre utilisees souvent pour
conduire à une estimation du paramètre. Il nest pas certain que le paramètre statistique associe
à une restriction stochastique concide avec le paramètre economique. Lestimation peut ainsi
etre non convergente, cest à dire que la valeur du paramètre estimee ne se rapprochera pas
de la vraie valeur (economique) du paramètre lorsque le nombre dobservation augmente, ou
etre biaisee, cest à dire que lesperance du paramètre nest pas la vraie valeur (economique) du
paramètre. Une partie importante de leconometrie, qui passe par une reexion sur le modèle,
les donnees et les methodes consiste ` a rechercher des conditions dans lesquelles le paramètre
statistique concide avec le paramètre economique. La question est-ce que p lim
b = b
0
, la vraie
valeur economique du paramètre, est en dernier ressort la question la plus centrale et la plus
importante de leconometrie, et assez naturelle : est-ce que jai bien mesure ce que je voulais ?
Cest beaucoup moins facile quil ny parat, car de nombreux facteurs aectent les decisions
individuelles et il est dicile disoler leet dune unique cause.
1.3 Plan de louvrage
Le cours debute dans le chapitre 2 par lestimateur des moindres carres, cest à dire le vecteur
des coecients de la projection orthogonale de y sur lespace vectoriel engendre par les variables
explicatives. On presente dabord les proprietes algebriques de cet estimateur et ses proprietes
statistiques sous des hypothèses minimales telles que lindependance et lequidistribution des ob-
servations (Theorème de Frish-Waugh, Theorème de Gauss-Markov, estimation des paramètres
du second ordre, le R
2
et lanalyse de la variance). On montre ensuite dans le chapitre 3 comment
la specication de la loi des residus comme une loi normale permet de completer lanalyse en
particulier en permettant dobtenir la loi des estimateurs, etape incontournable pour proceder à
des tests dhypothèses simples (test de Student) ou denir des intervalles de conance pour les
paramètres. On examine ensuite dans le chapitre 4 et dans le meme cadre o` u la loi des residus
est supposee normale, le cas important des estimations sous contraintes lineaires (dans les pa-
ramètres). On presente alors les tests dhypothèses lineaires sur les paramètres par le biais des
tests de Fisher. Ces resultats sont obtenus sous des hypothèses fortes :
Independance des residus et des variables explicatives : l (u[x) = l (u)
Homoscedasticite V (u[x) =
2
I
Specication de la loi des residus : l (u) normale.
Les chapitres suivants vont progressivement revenir sur chacune de ces hypothèses. On va
dabord examiner dans un cadre très proche la loi asymptotique des estimateurs, cest à dire
lorsque le nombre dobservations devient grand. On va chercher à developper le meme genre de
proprietes permettant de faire de linference mais sans specier la loi des residus. Les resultats
1.3. Plan de louvrage 9
seront obtenus sous les hypothèses :
Absence de correlation entre les residus et les variables explicatives E (ux
) = 0
Homoscedasticite V (u[x) =
2
I
Le comportement asymptotique des estimateurs est examine dans le chapitre 5.
Dans le chapitre 6 on revient sur les hypothèses dindependance et dequidistribution des
paramètres. On presente lestimateur des moindres carres generalisee ainsi que dierentes fa cons
de traiter la situation dite dheteroscedasticite, i.e. situation dans laquelle la variance des residus
depend des variables explicatives. On aborde aussi succinctement la question des donnees de
panel et de lestimation de modèles faisant intervenir des systèmes dequations. Le cadre dans
lequel on se situe est juste base sur
Absence de correlation entre les residus et les variables explicatives E (ux
) = 0
Les chapitres 7, 8 et 9 utilisent la methode des moindres carres generalises en sappuyant sur
une connaissance a priori de la structure de correlation des residus. Le chapitre 7 sinteresse plus
particulièrement au cas des regressions empilees. Dans le chapitre 8, on considère le cas dune
regression en coupe dans laquelle on a heteroscedascticite du residu, ce qui peut etre le cas par
exemple pour une equation de salaire, la variance du residu etant generalement croissante avec
le revenu. Dans le chapitre 9, on considère le cas destimations o` u le residu peut etre modelise
comme une serie temporelle de comportement connu. On construit lestimateur les moindres
carres quasi-generalises en sappuyant sur la connaissance de la forme de lautocorrelation du
residu.
Dans le chapitre 10, on considère la situation dans laquelle E (ux
) ,= 0. On aborde la ques-
tion de lidentication, fondamentale en econometrie. On montre comment à laide de variables
exterieures z, dites instrumentales, il est possible destimer le paramètre dinteret. On revient
donc en partie sur certains aspects des generalisations precedentes pour mieux se concentrer sur
lhypothèse didentication. Les resultats sont obtenus sous les hypothèses
Absence de correlation entre les residus et des variables z : E (uz
) = 0,
Rg (z
x) = dimx
Homoscedasticite V (u[x, z ) =
2
I
On presente aussi deux tests importants : le test dexogeneite et le test de suridentication
qui sont des guides importants dans le choix des variables instrumentales.
Dans le chapitre 11 on presente une generalisation importante de la methode à variable
instrumentale et qui englobe la plupart des methodes econometriques standards. Il sagit de la
methode des moments generalisee et on montre en particulier comment elle permet detendre la
methode à variables instrumentales au cas dans lequel les perturbations sont heteroscedastiques
et à dautres cas tels que celui de leconometrie des donnees de panel ou lestimation de systèmes
dequations. Les hypothèses secrivent un peu dieremment ce qui souligne le caractère general
de cette methode
E (g (z, )) = 0
o` u z represente lensemble des variables du modèle, cest à dire inclus les y et les x.
Dans le chapitre 12, on presente succinctement certains modèles non lineaires proches des
modèle lineaires. On sinteresse ainsi au modèles dits probit pour lesquels la variable à expliquer
na plus un support continu sur R mais prend ses valeurs dans 0, 1 . La modelisation sous-
jacente consiste à introduire une variable latente, i.e. non observee complètement
I
= zc +u
10 Chapitre 1.
et dont les realisations gouvernent lobservation de la variable I :
I = 1 I
> 0
On aborde egalement dautres situations importantes permettant daborder la questions de
la selectivite des echantillons, cest à dire la situation dans laquelle on nobserve la variable
dependante que sous une condition liee par ailleurs à la variable dependante elle-meme :
y
= xb +u
I
= zc +u
les realisations de I
gouvernent lobservation de la variable I et de la variable y :

I
> 0
_
I = 1
y = y
0 I = 0
Ce type de modèle appele modèle Tobit est souvent utilise, en particulier pour aborder len-
dogeneite de variables explicatives prenant la valeur 0 ou 1 dans des modèles à coecients
variables
y
i
=
i
I
i
+v
i
Ce type de modèle est souvent utilise pour aborder levaluation des eets microeconomiques des
politiques de lemploi comme les stages de formations.
Dans le chapitre 13, on sinteresse à levaluation des politiques publiques. On introduit no-
tamment lestimateur par dierence de dierences qui sapplique à une experience naturelle. On
parle dexperience naturelle lorsquune partie de la population a fait lobjet dune nouvelle poli-
tique, tandis quune autre partie de la population na pas fait lobjet de cette politique et donc
peut servir de population temoin. On ne peut observer le comportement des individus touches
par une mesure sils navaient pas ete touches, on verra comment on peut neanmoins construire
des estimateurs evaluant limpact dune nouvelle politique.
Exercices
1. Linearite. Pour chacune des relations suivantes, proposer une transformation qui rende
le modèle lineaire.
Y
i
=
1
1
+
2
.X
i
(1.1)
Y
i
=
X
i
1
+
2
.X
i
(1.2)
Y
i
=
1
1 +e
1
+
2
.X
i
(1.3)
Chapitre 2
Lestimateur des moindres carres
ordinaires
Lestimateur des moindres carres ordinaires reste lun des estimateurs les plus frequemment
utilises. Il a de nombreux usage. On peut lutiliser par exemple pour proceder à une descrip-
tion des donnees : quelles sont les variables rendant compte le mieux de la variabilite dune
variable dinteret. On peut aussi lutiliser dans de nombreuses autres situations pour estimer un
paramètre auquel on donne un sens causal : que se passerait-il si on faisait varier une variable
donnee dun montant donne. Il est base sur lhypothèse essentielle que les residus et les variables
explicatives sont orthogonaux. Il faut dautres hypothèses pour deriver les principales proprietes
de lestimateur. On verra dabord les proprietes algebriques puis les proprietes statistiques. Une
partie du cours correspondra à lextension et la reformulation des proprietes de lestimateur des
mco lorsque lon remet en cause ces hypothèses. On generalise ou adapte le plus souvent les
proprietes de lestimateur à la condition que lhypothèse centrale dabsence de correlation entre
perturbations et variables explicatives soit maintenue.
On va voir dans ce chapitre la denition de lestimateur des mco et son interpretation
algebrique comme vecteur des coecients de la projection orthogonale de la variable dependante
sur les variables explicatives. On va egalement obtenir deux proprietes importantes de cet esti-
mateur qui sont : la propriete de sans biais et une propriete doptimalite concernant la variance
de lestimateur, connue sous le nom de Theorème de Gauss-Markov.
2.1 Denition et proprietes algebriques
2.1.1 Denition
On considère une variable dinteret y appelee variable dependante et un ensemble de K
variables dites explicatives auquel on adjoint une constante. On dispose de N observations. On
note y = (y
1
, . . . , y
N
) lempilement des N observations de la variable dependante. On denit
de meme les vecteurs x
1
, . . . , x
K
et x la matrice des variables explicatives à laquelle on adjoint
le vecteur constant e = (1, . . . , 1)
: x =
_
e, x
1
, . . . , x
K
_
est donc une matrice de dimension
N (K + 1).
Denition 2.1 Lestimateur des moindres carres ordinaires est deni comme le vecteur b de
dimension K + 1, b = (b
0
, . . . , b
K
)
, des coecients de la combinaison lineaire de e, x

1
, . . . , x
K
11
12 Chapitre 2. Lestimateur des moindres carres ordinaires
realisant le minimum de la distance de y ` a lespace vectoriel de R
N
engendre par e, x
1
, . . . , x
K
,
pour la norme euclidienne :

b
mco
= arg min
_
_
y xb
_
_
2
Proposition 2.1 Sous lhypothèse
H1 : les vecteurs e, x
1
, . . . , x
K
sont independants,
lestimateur des moindres carres existe, est unique et a pour expression
b
mco
=
_
x
x
_
1
x
y
Demonstration Lobjectif à minimiser est Ob (b) =
_
_
y xb
_
_
2
=
_
y xb
_
_
y xb
_
. La condition du premier
ordre secrit
dOb
db
= 2x
_
y xb
_
= 0
et la condition du second ordre
d
2
Ob
dbdb
= 2x
x denie positive
Lhypothèse dindependance de e, x
1
, . . . , x
K
revient à faire lhypothèse que x
x est denie positive. La condition

du second ordre est ainsi satisfaite et la condition du premier ordre admet une solution
2.1.2 Interpretation geometrique
On associe deux grandeurs importantes à lestimateur des moindres carres :
1. Le vecteur predit y = x
b
2. Le vecteur residuel u = y y
On voit immediatement compte tenu de la denition de lestimateur des moindres carres
ordinaires que le vecteur residuel est orthogonal aux variables explicatives et donc aussi au
vecteur predit :
x
u = 0
y
u = 0
y sinterprète donc comme la projection orthogonale de y sur lespace engendre par e, x
1
, . . . , x
K
et lestimateur des moindres carres ordinaires comme le vecteur des coecients de cette projec-
tion.
Remarque 2.1 Comme la constante appartient ` a lensemble des regresseurs, on a immediatement
e
u = 0, soit u =
1
N
u
i
= 0 : la moyenne du vecteur residuel est nulle.
Les vecteurs predits et residuels peuvent secrire directement à partir du vecteur y. On a en
eet
y = x
b = x
_
x
x
_
1
x
y = P
x
y
u = y y =
_
I
N
P
x
_
y = M
x
y
Les matrices P
x
et M
x
sont les matrices des projecteurs orthogonaux sur respectivement lespace
engendre par
_
e, x
1
, . . . , x
K
_
et son orthogonal. Comme on le verie directement on a en eet
P
2
x
= P
x
M
2
x
= M
x
P
x
+M
x
= I
N
et en outre
P
x
v = v tq v = x
2.1. Denition et proprietes algebriques 13
2.1.3 Theorème de Frish-Waugh
Le theorème de Frish-Waugh est une propriete algebrique de lestimateur des moindres carres
qui explicite linterdependance des coecients de dierentes variables dans une regression. Il
permet de repondre à la question : dans quel cas est-il necessaire dintroduire toutes les variables
dun modèle dans la liste des regresseurs ?
Proposition 2.2 (Theorème de Frish-Waugh). Dans la regression de y sur un ensemble de
variables explicatives x, si x se decomposent en deux sous-ensembles x
1
et x
2
: x =
_
x
1
, x
2
_
, les
coecients des variables x
1
peuvent etre obtenus indirectement en regressant les residus M
x
2
y
de la regression de la variable dependante y sur les variables explicatives x
2
, sur les residus
M
x
2
x
1
des regressions des variables x
1
sur les variables explicatives x
2
:
b
1
=
_
_
M
x
2
x
1
_
M
x
2
x
1
_
1 _
M
x
2
x
1
_
M
x
2
y
on peut alors retrouver les coecients des variables x
2
en regressant la partie inexpliquee yx
1
b
1
sur x
2
:
b
2
=
_
x
2
x
2
_
1
x
2
_
y x
1
b
1
_
avec M
x
2
= I
N
x
2
_
x
2
x
2
_
1
x
2
Demonstration Les coecients de la regression de y sur x =

_
x
1
, x
2
_
satisfont
x
1
_
y x
1
b
1
x
2
b
2
_
= 0
x
2
_
y x
1
b
1
x
2
b
2
_
= 0
De la deuxième equation on tire directement la deuxième partie du theorème
b
2
=
_
x
2
x
2
_
1
x
2
_
y x
1
b
1
_
Lorsque lon reintroduit cette expression dans la première equation il vient
x
1
_
y x
1
b
1
x
2
_
x
2
x
2
_
1
x
2
_
y x
1
b
1
__
= 0
soit
x
1
M
x
2
_
y x
1
b
1
_
= 0
x
1
M
x
2
_
M
x
2
y M
x
2
x
1
b
1
_
= 0
compte tenu de M
2
x
2
= M
x
2
. Do` u lexpression de

b
1

Remarque 2.2 La caracteristique importante est dutiliser les residus des regressions de x
1
sur x
2
. Il nest pas necessaire dutiliser aussi les residus de la regression de y sur x
2
.
Applications du Theorème de Frish-Waugh
1. Dans la regression de y sur x
1
et x
2
on peut regresser separement y sur x
1
et y sur x
2
lorsque x
1
et x
2
sont orthogonaux.
2. Donnees de panel. Lorsque la regression introduit des indicatrices speciques à chaque
individu (donc N variables, specication dite à eets xes) en plus dun ensemble de
regresseurs dinteret x
1
, on peut dabord regresser les variables dinteret et la variable
dependante sur les variables indicatrices puis utiliser les residus des regressions correspon-
dantes. Dans ces operations puisque les variables indicatrices sont orthogonales les unes
aux autres on peut eectuer les regressions sur les indicatrices separement. On verie
aisement que le coecient de la regression dune variable sur une variable indicatrice din-
dividu est la moyenne des observations pour cet individu. Les residus des regressions sont
donc les ecarts aux moyennes individuelles des dierentes variables dinteret. Lestimateur
obtenu en regressant les ecarts des variables explicatives aux moyennes individuelles sur
la quantite analogue pour la variable dependante est très populaire et connu sous le nom
destimateur Within (ou Intra).
3. Pour obtenir les coecients de x
1
dans la regression de y sur x
1
et x
2
, on peut regresser
y sur x
1
et la prevision de x
1
par x
2
: P
x
2
x
1
.
2.2 Modèle et proprietes statistiques
Lestimateur des moindres carres ordinaires a une denition mathematique. Il sagit du vec-
teur des coecients de la projection orthogonale de la variable dependante sur les variables ex-
plicatives. Dans le cadre de leconometrie on sinteresse neanmoins à lestimation des paramètres
dun modèle econometrique. On considère ainsi le modèle lineaire suivant :
y = b
0
+b
1
x
1
+ +b
K
x
K
+u
Pour lequel on dispose de N observations. Le modèle secrit aussi sous forme matricielle :
y = xb +u
On sinteresse aux proprietes statistiques de lestimateur des mco : quelle est son esperance,
sa variance... Comme lestimateur est une fonction des observations, ses proprietes statistiques
dependent de la loi des observations l (y, x). On les caracterise a partir dhypothèses sur la
loi conditionnelle de y sachant x, cest à dire dans le cadre du modèle precedent comme des
hypothèses concernant la loi de la perturbation u conditionnellement aux variables explicatives.
2.2.1 Quand lestimateur des mco est-il sans biais ?
On sinteresse dabord aux conditions sous lesquelles lesperance de lestimateur des mco
concide avec la vraie valeur du paramètre. On dit alors que lestimateur est sans biais.
Denition 2.2 On dit quun estimateur

b
_
y, x
_
est sans biais lorsque : E
_
b
_
y, x
_
_
= b.
Dans cette denition E
_
b
_
y, x
_
_
=
_

b
_
y, x
_
f
_
y, x
_
dydx o` u f
_
y, x
_
represente la densite
jointe des variables explicatives et dependantes.
Proposition 2.3 Sous lhypothèse
H2 : E (u
n
[x) = 0 n
lestimateur des mco est sans biais.
2.2. Modèle et proprietes statistiques 15
Demonstration Lestimateur des mco secrit
b
mco
=
_
x
x
_
1
x
y
=
_
x
x
_
1
x
(xb +u)
= b +
_
x
x
_
1
x
u
on sinteresse à E
_
b
_
y, x
_
|x
_
. On a clairement E
_
b
_
y, x
_
|x
_
= b + (x
x)
1
x
E (u|x) . Comme E (u|x) = 0

par hypothèse on a bien E
_
b
_
y, x
_
|x
_
= b. On en deduit immediatement E
_
b
_
y, x
_
_
= E
_
E
_
b
_
y, x
_
|x
__
= b
Lhypothèse H2 est extemement forte, puisquelle signie que lorsque les residus changent,
les variables explicatives ne changent pas. Dans de nombreuses situations cette hypothèses ne
peut pas etre tenu. Cest par exemple le cas si on prend un modèle ore-demande dans lequel
on observe les prix et les quantites. Si on considère lequation de demande par exemple, elle
correspond à lexistence dune relation decroissante entre la variable dependante, la quantite, et
la variable explicative, le prix. Si il y a un choc de demande, le desequilibre sur le marche va
se resoudre par une hausse de la quantite echangee et une hausse du prix. Dans ce modèle on
ne peut donc pas tenir lhypothèse H2 par nature meme du modèle auquel on sinteresse. Dans
dautres cas la situation peut etre plus favorable. Par exemple dans le cas de la taille de la classe
et du taux de reussite scolaire, il est vrai que lon peut contester le fait que E (u[taille) = 0,
mais il est possible quil existe un ensemble de variables explicatives x tel que lon ait u =
xc + v et E (v [taille, x) = 0. Autrement dit, on peut identier, mesurer et introduire dans
la regression les sources de variabilite communes à la taille et au residu. Le modèle devient
tx = a
0
+a
t
taille +xb +v.
2.2.2 Quelle est la precision de lestimateur des mco ?
Le fait que la propriete dabsence de biais soit satisfaite est très interessant mais on a be-
soin dinformations plus precises. On souhaite savoir si la vraie valeur peut se trouver loin de
lestimateur. Une telle information est donnee par la precision de lestimateur et on letudie en
considerant la variance :
Proposition 2.4 sous les hypothèses H1, H2,
H3 : V (u
n
[x) =
2
n
H4 : E (u
n
u
m
[x) = 0 n, m
la variance de lestimateur des mco conditionnellement au variables explicatives est donnee
par
V
_
b
mco
[x
_
=
2
_
x
x
_
1
La variance non conditionnelle est donnee par
V
_
b
mco
_
=
2
E
_
_
x
x
_
1
_
Demonstration La variance conditionnelle est denie comme
V
_
b
mco
|x
_
= E
__
b
mco
E
_
b
mco
|x
__ _
b
mco
E
_
b
mco
|x
__
|x
_
Comme E
_
b
mco
|x
_
= b et

b
mco
b = (x
x)
1
x
u,
V
_
b
mco
|x
_
=
_
x
x
_
1
x
E
_
uu
|x
_
x
_
x
x
_
1
La matrice E (uu
|x) a pour elements n, m E (u

n
u
m
|x) . On deduit directement des hypothèses que E (uu
|x) =
2
I
N

La matrice de variance a deux composantes :
2
et E
_
(x
x)
1
_
. Plus
2
, i.e. la variance
residuelle, est grande, moins lestimateur est precis. Ceci implique que lon peut accrotre la
precision des estimateurs de variables dinteret en introduisant des variables additionnelles, sa-
tisfaisant les hypothèses du modèle lineaire H1 H4, dès lors quelles contribuent à reduire
la variance residuelle. La matrice x
x joue un role central dans la variance de lestimateur. On

peut lecrire à partir des observations individuelles comme x
x =
n
x
n
x
n
. On voit quune
ecriture plus adaptee est x
x = N
_
1
N
n
x
n
x
n
_
. Dans le cas du modèle lineaire simple avec une
unique variable explicative centree la matrice
_
1
N
n
x
n
x
n
_
1
secrit simplement comme 1/x
2
=
1/V (x). On voit que dans ce cas la variance de lestimateur secrit V
_
b
_
=
2
/ (NV (x)) . Les-
timateur est donc dautant plus precis que le nombre dobservations est grand. On sinteresse en
general à lecart-type des paramètres estimes. La formule precedente implique que lecart type
decrot comme
N. Lorsque la taille de lechantillon est multipliee par 4 lecart-type nest divise

que par 2. On imagine donc bien que dans un echantillon de petite taille la precision de lesti-
mateur est un problème important. On voit aussi que dans de grands echantillons de plusieurs
centaines de milliers dobservations, la precision des estimations sera très grande. La formule
precedente montre aussi que lestimateur est dautant plus precis que la variance de la variable
explicative est importante. Cest parce que lon observe des situations dierentes au regard des
variables explicatives qui ne soient pas correlees avec les residus du modèle economique que lon
peut identier leet de ces variables. Enn un dernier cas permettant dillustrer les implications
de la formule precedente est le cas dans lequel il y a deux variables explicatives par exemple de
meme variance
2
et ayant un coecient de correlation . Dans ce cas on calcule simplement
_
1
N
n
x
n
x
n
_
1
=
1
2
x
(1
2
)
_
1
1
_
On voit que dans ce cas la precision de lestimateur est dautant plus faible que les variables
sont correlees. Au total, on voit que si les variables sont presque colineaires la precision de
lestimateur sera faible.
2.2.3 Lestimateur des mco est-il le plus precis : le theorème de Gauss-
Markov
On sinteresse naturellement à la question de loptimalite de lestimation du paramètre b. Ce
paramètre, comme on la vu, est sans biais et il est en outre deni comme une fonction lineaire
des observations. Ceci forme une classe destimateurs. La question à laquelle repond le theorème
de Gauss-Markov est celle de loptimalite (au sens de la precision) de lestimateur dans la classe
des estimateurs lineaires sans biais.
Denition 2.3 Un estimateur

b
1
est optimal dans une classe destimateurs

b si toute esti-
mation dune combinaison lineaire du paramètre est estimee plus precisement avec

b
1
quavec
nimporte quel estimateur de la classe consideree :
, V
_
b
1
_
V
_
b
_
Cette propriete signie que la matrice de variance V
_
b
1
_
de
b
1
verie
V
_
b
1
_

V
_
b
_
, cest à dire que V

_
b
1
_
V
_
b
_
est semi-denie negative.
Proposition 2.5 Theorème de Gauss-Markov. Sous les hypothèses H1-H4 lestimateur des
moindres carres ordinaires du modèle
y = xb +u
est optimal dans la classe des estimateurs sans biais conditionnellement aux variables x.
Demonstration Soit

b un estimateur lineaire sans biais du paramètre b. Il existe donc une matrice A tel que
cet estimateur secrit

b = Ay. Lhypothèse dabsence de biais signie E
_
b |x
_
= b ce qui implique E
_
Ay |x
_
=
E (A(xb +u) |x) = Axb + AE (u|x) = b Comme E (u|x) = 0. Labsence de biais signie Axb = b. Ce resultat
est vrai pour b quelconque donc pour tout b, cest-à-dire :
Ax = I
K+1
On a en outre
bE
_
b |x
_
= A
_
y E (y |x)
_
= Au. La variance dun estimateur lineaire sans biais quelconque est
donc de la forme V
_
b |x
_
= V (Au|x) = AV (u|x) A
=
2
AA
compte tenu de lhypothèse cruciale V (u|x) =
2
I
N
. Comme I
N
= P
x
+M
x
= x(x
x)
1
x
+M
x
, on a
V
_
b |x
_
=
2
AA
=
2
A
_
x
_
x
x
_
1
x
+M
x
_
A
=
2
_
Ax
_
x
x
_
1
x
+AM
x
A
_
comme Ax = I
K+1
et V
_
b |x
_
=
2
(x
x)
1
, on a
V
_
b |x
_
= V
_
b |x
_
+
2
AM
x
A
et la matrice AM
x
A
est necessairement semi-denie negative

2.2.4 Estimation des paramètres du second ordre
La variance des residus, intervenant dans lhypothèses H4, est un paramètre dit du second
ordre car il correspond aux moments dordre 2 de la variable y conditionnellement aux variables
explicatives. Cest un paramètre important à plus dun titre. Dabord, il permet de mesurer la
qualite de lajustement. En outre, comme on la vu, il intervient dans la matrice de variance-
covariance des estimateurs et est à lorigine de nombreux tests dhypothèses. Il est donc legitime
de sinteresser à son estimation. Cette estimation fait intervenir le vecteur des residus estimes
u = y x
b
Proposition 2.6 Sous les hypothèses H1 ` a H4, lestimateur

2
=
u
u
N K 1
=
n
u
2
n
N K 1
est un estimateur sans biais du paramètre du second ordre
2
.
Demonstration Comme on la vu u = M
x
y = M
x
u. On a donc
u
u = u
M
x
u = Tr
_
u
M
x
u
_
= Tr
_
M
x
uu
_
On a donc
E
_
u
u|x
_
= E
_
Tr
_
M
x
uu
_
|x
_
= Tr
_
E
_
M
x
uu
|x
__
= Tr
_
M
x
E
_
uu
|x
__
=
2
Tr (M
x
)
et M
x
= I
N
x(x
x)
1
x
do` u
Tr (M
x
) = Tr
_
I
N
x
_
x
x
_
1
x
_
= N Tr
_
x
_
x
x
_
1
x
_
= N Tr
_
_
x
x
_
1
x
x
_
= N K 1
Exemple 1 Application ` a la prevision. On considère le modèle y

n
= x
n
b +u
n
pour lequel on a
n = 1, . . . , N observations et satisfaisant les hypothèses H1 ` a H5. Connaissant x
N+1
et faisant
lhypothèse que le modèle reste valide pour cette observation, on souhaite estimer y
N+1
.
Dire que le modèle reste valide signie que non seulement la relation entre y
n
et x
n
peut
etre etendue ` a lobservation N + 1 : y
N+1
= x
N+1
b + u
N+1
mais encore que les hypothèses
stochastiques peuvent etre etendues ` a linclusion de lobservation N+1 en particulier ceci impose
E (u
N+1
[x, x
N+1
) = 0, V (u
N+1
[x, x
N+1
) =
2
, E (u
N+1
u
n
[x, x
N+1
) = 0.
La prevision de y
N+1
est
y
N+1
= x
N+1
b
mco
Conditionnellement aux variables explicatives la prevision est sans biais :
E ( y
N+1
y
N+1
[x, x
N+1
) = E
_
x
N+1
_
b
mco
b
_
u
N+1
[x, x
N+1
_
= 0
y
N+1
est le meilleur estimateur sans biais de y
N+1
, lineaire dans les observations y
1
, . . . , y
N
. Ceci
constitue une application directe du Theorème de Gauss Markov : si on considère un estimateur
lineaire sans biais y
N+1
de y
N+1
. La variance de lerreur de prevision secrit E (y
N+1
y
N+1
[x, x
N+1
)
2
=
E (x
N+1
b +u
N+1
y
N+1
[x, x
N+1
)
2
= E (x
N+1
b y
N+1
[x, x
N+1
)
2
+ E
_
u
2
N+1
[x, x
N+1
_
puisque
lestimateur est lineaire en y et que y nest pas correle ` a u
N+1
conditionnellement aux observa-
tions de x. Le problème se resume donc ` a chercher lestimateur lineaire sans biais de variance
minimale de la combinaison lineaire x
N+1
b du paramètre b. Le theorème de Gauss-Markov in-
dique quil sagit de x
N+1
b
mco
La variance de lerreur de prevision est
E ( y
N+1
y
N+1
)
2
=
2
_
x
N+1
_
x
x
_
1
x
N+1
+ 1
_
2.2.5 Analyse de la variance
Lanalyse de la variance est fondee sur lorthogonalite entre le vecteur des residus estimes et
de la variable predite.
y = y + u
Les regressions que lon considère ayant un terme constant on a y = y dont on tire :
y ye = y ye + u
compte tenu de lorthogonalite on peut donc ecrire lequation dite equation danalyse de la
variance
n
(y
n
y)
2
=
n
_
y
n
y
_
2
+
n
u
n
2
ou encore
V (y) = V ( y) +V ( u)
La variance totale est la somme de la variance expliquee et de la variance residuelle. On introduit
une quantite très couramment utilisee qui mesure la part de la variance expliquee par le modèle.
R
2
=
_
_
_ y ye
_
_
_
2
|y ye|
2
= 1
| u|
2
|y ye|
2

_
0 1
_
Le R
2
est frequemment utilise pour mesurer la qualite de lajustement. Neanmoins deux precautions
doivent etre prises :
Le R
2
depend du calibrage des observations. Par exemple si on considère une fonction de
production
y = +l +k +u
lestimation va fournir un R
2
beaucoup plus important que celui obtenu avec le modèle
identique mais expliquant la productivite
y l = + ( 1) l +k +u
On montre facilement que plus on etend lensemble des variables explicatives plus le R
2
est grand. Ce nest donc pas necessairement un bon critère de choix de modèle. Pour cette
raison on a introduit une quantite proche mais pas directement reliee qui est le R
2
ajuste.
Il est deni d
une fa con très voisine du R

2
R
2
a
= 1

2
V (y)
= 1
| u|
2
/ (N K 1)
|y ye|
2
/N 1
= 1
_
1 R
2
_
N 1
N K 1
Remarque 2.3 Cette equation danalyse de la variance permet de preciser lexpression de la
variance de chacune des composantes de lestimateur. Dans la formule generale V
_
b
mco
[x
_
=
2
(x
x)
1
, la variance de la kième composante de lestimateur des mco correspond au kième
elements diagonal. Si on utilise les formules dinversion par bloc
A =
_
A
11
A
12
A
21
A
22
_
, A
1
=
_
A
11
A
12
A
21
A
22
_
, A
11
=
_
A
11
A
12
A
1
22
A
21
_
1
Si on considère une variable x
k
particulière, alors, quitte ` a reorganiser lordre des variables
explicatives : x = (x
k
, x
k
), o` u x
k
represente lensemble des variables explicatives autres que
la kième,
x
x =
_
x
k
x
k
x
k
x
k
x
k
x
k
x
k
x
k
_
et on a donc (x
x)
1
11
= x
k
x
k
x
k
x
k
_
x
k
x
k
_
1
x
k
x
k
= x
k
M
x
k
x
k
= (N.V (x
k
[x
k
))
1
.
V (x
k
[x
k
) est la variance residuelle de la variable x
k
une fois pris en compte la part de la
variance de la variable x
k
expliquee par les autres variables explicatives du modèle. La variance
de chacune des composante de lestimation du paramètre secrit donc
V
_
b
k
_
=
2
/ (NV (x
k
[x
k
)) =
2
/NV
k|k
2.3 Variable omise et regresseur additionnel
2.4 Resume
1. On a vu dans ce chapitre la denition algebrique de lestimateur des mco comme vecteur des
coecients de la projection orthogonale de la variables dependante sur lespace engendre
par les variables explicatives.
2. Cet estimateur existe est unique sous lhypothèse H1 que les vecteurs des variables expli-
catives soient lineairement independant.
3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du pa-
ramètre economique b dans le modèle lineaire y = xb +u. : Il sagit de lhypothèse H2 que
lesperance des residus conditionnellement aux variables observables est nulle.
4. Sous les hypothèses H3 et H4 que dans ce modèle les perturbations sont conditionnelle-
ment aux variables explicatives des variances identiques et sont non correlees les unes avec
les autres, on peut donner lexpression classique de la matrice de variance de lestimateur
V
_
b [x
_
=
2
(x
x)
1
.
5. Sous ces meme hypothèses lestimateur des mco est le meilleur estimateur lineaire sans
biais, au sens de la minimisation de la variance.
6. Linterpretation de cette formule conduit à la conclusion que plus le nombre dobservations
est grand, plus la variance residuelle
2
est faible, plus les variables explicatives presentent
de variabilite propre, plus lestimateur est precis.
7. Le paramètre du second ordre
2
peut etre estime sans biais comme la moyenne des carres
des residus tenant compte des degres de liberte :
2
=
u
2
n
_
(N K 1) .
8. Le R
2
est une mesure de la qualite de lajustement du modèle aux donnees : il mesure la
part de la variance totale expliquee par le modèle.
Ces resultats sont importants : ils etablissent les conditions sous lesquelles les estimateurs
sont sans biais et ils permettent de determiner la precision des estimations. Ils sont neanmoins
insusants pour donner des intervalles de conance sur les paramètres estimes et realiser des
tests dhypothèse. Pour aller plus loin il faut faire des hypothèses supplementaires. On peut
proceder de deux fa cons :
1. Lorsque le nombre dobservations est faible, on peut specier la loi des observations condi-
tionnellement aux variables explicatives. Ceci est fait dans la majeure partie des cas en
speciant les residus comme suivant une loi normale. On peut alors caracteriser la loi de
lestimateur. On peut aussi dans ce cas estimer le modèle par maximum de vraisemblance.
On peut alors tester des hypothèses dites simples (nullite dun paramètre). Ces tests sont
appeles test de Student. Ce cas est examine dans le chapitre 3. On peut aussi sur la base de
cette hypothèse estimer le modèle en imposant des contraintes lineaires sur les paramètres
et tester lhypothèse que ces contraintes sont acceptees. Les tests mis en oeuvres sont alors
des test dits de Fisher. Ces aspects sont presentes dans le chapitre 4.
2. La deuxième fa con est detudier les proprietes asymptotiques de lestimateur, cest à dire
lorsque le nombre dobservations devient grand. On montre dans le chapitre 5 que sans
specier la loi des residus mais en faisant des hypothèses susamment fortes sur lepaisseur
des queues de distribution des residus, on peut specier la loi asymptotique de lestimateur.
Chapitre 3
Les MCO sous lhypothèse de
normalite des perturbations
Dans ce chapitre on examine les proprietes de lestimateur des mco lorsque lon fait lhy-
pothèse de normalite des perturbations. Plus precisement on fait lhypothèse H
n
suivante.
H
n
: la loi de u conditionnellement aux variables explicatives x est une loi normale de
moyenne nulle et de matrice de variance
2
I
N
.
l (u[x) =
1
_
2
_
N

_
u
2
n
/2
2
_
u[x N
_
0,
2
I
N
_
Remarque 3.1 Cette hypothèse est plus forte que les hypothèses H
2
H
4
puisquelle implique
que le moment dordre 1 de u conditionnellement ` a x est nul. cest ` a dire lesperance
On va voir que dans ce cas on peut preciser la loi de lestimateur du paramètre ainsi que celle
de lestimateur de la variance des residus. On va aussi obtenir un resultat central, le theorème
de Cochrane, à la base de tous les tests eectues à partir de lestimateur des mco.
3.1 Normalite de lestimateur des mco
Proposition 3.1 Sous lhypothèse H
n
, on peut specier la loi jointe de lestimateur des mco et
de lestimateur de la variance des residus conditionnellement aux variables explicatives :
1. Lestimateur du paramètre des mco
b
mco
est distribue comme une loi normale de moyenne
b, la vraie valeur du paramètre, et de matrice de variance
2
(x
x)
1
:
b
mco
N
_
b,
2
(x
x)
1
_
2. Lestimateur
2
, convenablement normalise, est distribue suivant une loi du
2
[N (K + 1)]

2
2

2
(N (K + 1))
3.

b
mco
et
2
sont independants (Theorème de Cochran)
Demonstration Le resultat concernant la normalite de lestimateur est immediat. Il provient du fait que les-
timateur des mco est lineaire dans les observations de la variable dependante. Comme conditionnellement à x la
variable dependante est normale, lestimateur des mco est une combinaison lineaire de variables normales et est
21
22 Chapitre 3. Les MCO sous lhypothèse de normalite des perturbations
donc lui meme un vecteur normal, caracterise par ces deux premiers moments : son esperance dont on a vu quelle
etait egale à la vraie valeur du paramètre, et sa matrice de variance dont on a donne lexpression au chapitre
precedent, sous des hypothèses plus generales que celle de la loi normale.
De meme, les residus estimes sont eux memes normaux. On a en eet u = M
x
y = M
x
u. Par ailleurs, on a aussi
directement

b b = (x
x)
1
x
u. Finalement on peut specier la loi jointe des residus estimes et de lestimateur

des mco :
_

b b
u
_
=
_
(x
x)
1
x
M
x
_
u
On en deduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne visiblement nulle et dont on
peut preciser la variance :
V
_

b b
u
x
_
=
_
(x
x)
1
x
M
x
_
V
_

b b
u
x
__
(x
x)
1
x
M
x
_
=
2
_
(x
x)
1
x
M
x
_
_
x(x
x)
1
M
x
_
=
2
_
(x
x)
1
x
x(x
x)
1
x(x
x)
1
M
x
M
x
x(x
x)
1
M
x
_
Comme M
x
x = 0, on en deduit
V
_

b b
u
x
_
=
2
_
(x
x)
1
0
0 M
x
_
Dont on deduit
1. lexpression de la variance de lestimateur des mco
2. lestimateur des mco et les residus estimes sont independants (car etant tous les deux normaux et non
correles). Lestimateur des mco et lestimateur de la variance
2
= u
u/ (N K 1) sont donc independants.

3. Les residus estimes suivent une loi normale de matrice de variance
2
M
x
.
Rappel :
Si Z N (0, I
L
) , alors par denition
_
_
Z
2
_
_
= Z
Z =
L
l=1
Z
2
l

2
(L)
Si P est un projecteur orthogonal sur un sous espace de dimension L
1
alors Z
PZ
2
(L
1
) (Voir annexe)
On applique ce resultat à Z = u/ N (0, I
N
) et P = M
x
. On a : ( u/)
( u/) = (u/)
x
M
x
(u/) =
(u/)
M
x
(u/) . On en deduit que u
u/
2

2
(N K 1) , puisque M
x
est le projecteur orthogonal sur
lorthogonal de lespace vectoriel engendre par les x donc de dimension N K 1. Finalement, comme u
u =
(N K 1)
2
, [N (K + 1)]

2
2

2
(N (K + 1))
On rappelle quune loi du
2
(L) à L degres de libertes a pour premier et second moments
E
_
2
(L)
_
= L, V
_
2
(L)
_
= 2L. On verie donc que E
_
[N (K + 1)]

2
2
_
= N K 1.
On verie donc que lon a bien E
_

2
_
=
2
: lestimateur de la variance est sans biais. On
apprend maintenant, gr ace à la specication normale la distribution de lestimateur de la variance
des residus et donc sa variance : on a V
_
[N (K + 1)]

2
2
_
= 2 (N K 1), soit V
_

2
_
=
2
4
/ (N K 1) . On voit donc que comme pour lestimateur des mco, lorsque le nombre
dobservations devient grand la variance de lestimateur tend vers zero. Le rythme de convergence
est en outre identique à celui de lestimateur des mco. On remarque en revanche une specicite
de lestimateur de la variance : plus la dispersion des residus est importante, plus lestimateur
est imprecis.
Lestimation de la variance des residus peut etre interessante pour elle-meme, mais elle nous
interesse en premier lieu car cest un paramètre important de la matrice de variance de lesti-
mateur du paramètre de premier interet b. En eet, on a vu que

b
mco
[x N
_
b,
2
(x
x)
1
_
,
mais ce resultat reste insusant dans la mesure o` u on ne connat pas la variance des residus.
3.2. Ecart-types estimes, tests et intervalles de conance 23
3.2 Ecart-types estimes, tests et intervalles de conance
3.2.1 Ecart-type
La formule de la matrice de variance de lestimateur est utile V
_
b
mco
[x
_
=
2
(x
x)
1
,
mais elle nest pas directement exploitable car on ne connat pas la variance des residus
2
.
Un estimateur naturel de cette matrice consiste à remplacer la quantite inconnue
2
par un
estimateur.
V
_
b
mco
[x
_
=
2
_
x
x
_
1
On a immediatement le resultat que

V
_
b
mco
[x
_
est un estimateur sans biais de la matrice de
variance de lestimateur mco du paramètre.
On sinteresse en fait plus speciquement à la variance de chaque composante de lestimateur
2
k
= V
_
b
k
_
=
2
_
(x
x)
1
_
kk
=
2
x
kk
o` u dans cette notation x
kk
est le kième element diagonal
de (x
x)
1
. Dans le chapitre precedent on a vu que ce kième element etait en fait linverse de la
variance residuelle de la projection de x
k
sur les autres variables du modèle (la variance propre
de la kième variable) divisee par le nombre dobservations. Un estimateur naturel de
2
k
est

2
k
=
2
x
kk
La quantite
k
=
_

2
k
est systematiquement associe à nimporte quelle estimation par les mco.
Gr ace aux resultats portant sur la loi de
2
on peut directement donner la loi de
2
k
:
n
lestimateur de la variance de la kième composante du
vecteur des paramètre suit, convenablement normalisee une loi du
2
(N K 1) :
[N (K + 1)]

2
k
2
k

2
(N (K + 1))
et est independant de lestimateur des mco

b
mco
.
3.2.2 Un resultat central
On sinteresse à lobtention dintervalles de conance et à des tests dhypothèse simple du
type H
0
: b
k
= b
0
k
pour une valeur donnee de b
0
k
. Un cas très frequemment examine est par
exemple celui de la nullite dun paramètre (b
0
k
= 0). Pour obtenir des intervalles de conance ou
pour eectuer des tests, on a besoin dobtenir une fonction des estimateurs qui ne depende pas
des paramètres.
Proposition 3.3 Sous lhypothèse de normalite des perturbations H
n
, pour une composante
donnee k du paramètre on a
b
k
b
k

k
Student (N K 1)
Demonstration Ce resultat decoule directement de la denition des lois de Student : Si X
1
suit une loi normale
N (0, 1) et X
2
suit une loi du
2
(H) à H degres de liberte, et si X
1
et X
2
sont independants alors
S =
X
1
_
X
2
/H
Student (H)
Ici

b
k
N
_
b
k
,
2
k
_
. On en deduit donc que
_
b
k
b
k
_
/
k
N (0, 1) . En outre le resultat precedent etablit
que [N (K + 1)]

2
k
2
k

2
(N (K + 1)) et est independant de

b
k
. On a donc par application directe de la
denition
_
b
k
b
k
_
/
k
_
_
[N (K + 1)]

2
k
2
k
_
/ [N (K + 1)]
=
b
k
b
k

k
Student (N K 1)
Les lois de Student sont des lois symetriques de moyenne nulle et de variance H/ (H 2)
o` u H est le nombre de degres de liberte. Plus H est faible, plus les queues de distribution sont
epaisses. On voit quil y a un nombre minimal de degres de liberte pour que le moment dordre
2 existe : H > 2.
3.2.3 Intervalle de conance
Denition 3.1 Un intervalle de conance pour le paramètre b
k
au niveau est un intervalle
[a, a] tq P (b
k
[a, a]) = 1 .
Lemme 1 Soit z une variable aleatoire dont la distribution f est symetrique autour de zero,
croissante pour z < 0, continue et de fonction de repartition F, tout intervalle [z, z] tel que
P (z [z, z]) = p
0
donne, de longueur minimale est symetrique.
Demonstration Ce resultat se montre très facilement. La symetrie de la distribution secrit f (z) = f (z)
et implique F (z) = 1 F (z). On a F (z) F (z) = p
0
, donc la longueur de lintervalle est L = z z =
F
1
(F (z) +p
0
) z. La derivee de la longueur de lintervalle par rapport à z est dL/dz = f (z) /f (z) 1. Si
f (z) < f (z) , alors dL/dz < 0. On pourra diminuer la longueur de lintervalle en augmentant z. Comme f est
croissante dans le domaine negatif accrotre z conduit à accrotre f (z) /f (z) 1. Lextremum de la longueur,
obtenu pour f (z) /f (z) 1 = 0 est donc bien un minimum.
Pour trouver un intervalle de conance pour le paramètre b
k
on applique directement les
resultats du lemme :
Proposition 3.4 Sous les hypothèses H
n
, soit

b
k
la kième composante de lestimateur des mco
et
k
=
_

2
k
lestimateur de son ecart-type, alors lintervalle de conance de longueur minimale
du paramètre b
k
au niveau est
_
b
k

k
t
NK1
(1 /2) ,

b
k
+
k
t
NK1
(1 /2)
_
o` u t
NK1
(1 /2) est le quantile dordre 1 /2 dune loi de Student ` a N K1 degres de
liberte.
Le quantile dordre 1/2 dune loi de Student à NK1 degres de liberte est la quantite
t telle que pour une variable S suivant une loi de Student à N K 1 degres de liberte,
P (S < t) = 1 /2, et de fa con similaire P (S > t) = /2
Demonstration Par application des resultats precedents, on a immediatement que S =

b
k
b
k

k
Student (N K 1).
Comme la loi de Student est symetrique, on en deduit que lintervalle de longueur minimale auquel S appartienne
avec probabilite 1 est
P (S [t
NK1
(1 /2) , t
NK1
(1 /2)]) = 1
dont on deduit immediatement lexpression des bornes de lintervalle de conance.
3.2. Ecart-types estimes, tests et intervalles de conance 25
Remarque 3.2 Ce resultat setend directement au cas dans lequel on cherche un intervalle de
conance pour une combinaison lineaire donnee des paramètres :
b. En eet, on trouve directe-

ment la loi de lestimateur de la combinaison lineaire
b
mco
:
b
mco
N
_
b,
2
(x
x)
1
_
.
En notant
b
=
_
(x
x)
1
et
b
=
_

2
(x
x)
1
, on verie aisement que lintervalle
de conance pour la combinaison lineaire donnee des paramètres est
_
b
mco

b
t
NK1
(1 /2) ,
b
mco
+
3.2.4 Tests de la forme
b =
On rappelle dabord des elements basiques concernant les tests. On se refère pour cela à
Gourieroux-Monfort. Les notions importantes sont celles dhypothèse nulle, notee H
0
, et dhy-
pothèse alternative, notee H
1
. Elles correspondent à une partition de lensemble des lois possibles
des observations. Ici compte tenu du fait quon se situe dans un cadre parametrique (la loi des
observations est speciee integralement), lensemble des lois possibles est decrit par lensemble
des valeurs possibles de tous les paramètres : b,
2
. Les hypothèses que lon va considerer ici
portent sur la valeur dune composante du paramètre ou dune combinaison lineaire du pa-
ramètre : b
k
= b
0
k
pour une valeur donnee de b
0
k
, un cas très frequent etant celui de la nullite,
b
0
k
= 0. On examinera dans le chapitre suivant des hypothèses portant sur plusieurs paramètres,
mais les rappels que lon eectue ici valent pour lune et lautre situation. Dune fa con generale,
elles vont secrire sous la forme H
0
:
0
et H
1
:
1
.
Un test pur est une règle de decision pure cest à dire une fonction des observations conduisant
à choisir entre la decision d
0
: H
0
est vraie, et d
1
: H
1
est vraie. A un test pur est associe une
region critique, en general notee W denie comme lensemble des realisations des observations
conduisant à prendre la decision d
1
. Les tests peuvent aussi en theorie etre mixtes. Dans ce cas la
règle de decision est mixte. Il sagit alors dune fonction des observations associant à la decision d
1
une probabilite : compte tenu des observations y on accepte lhypothèse H
1
avec une probabilite
(y). Il y a trois grandeurs essentielles associees à un test : le risque de première espèce, le
risque de deuxième espèce et la puissance du test. Le risque de première espèce correspond à
la probabilite de de rejeter H
0
alors que H
0
est vraie (i.e. rejeter H
0
à tort). Pour un test pur
caracterise par une region critique W, il sagit de la fonction P
(W) denie sur

0
Pour un test
aleatoire, elle est denie par E
((y)). On la note (, ) . Dans cette notation, represente

le test et la valeur du paramètre. Le risque de deuxième espèce est à linverse la probabilite
daccepter à tort lhypothèse nulle (i.e. la probabilite de rejeter H
1
alors que H
1
est vraie. Il est
deni comme 1 E
((y)) pour
1
et dans le cas dun test pur par 1 P
(W). On note
en general cette quantite (, ) Enn la puissance du test represente la probabilite de rejeter
à raison lhypothèse nulle. On la note (, ). Cette fonction est denie sur
1
et etroitement
liee à la fonction de risque de deuxième espèce (, ) = 1 (, ). On prefererait des tests
pour lesquels les risques de premières et seconde espèce soient les plus faibles possibles. Cest à
dire quun test est prefere à un autre si les fonctions de risque de première et seconde espèce
sont plus faibles. Il existe clairement des tests minimisant separement chacun des risques (le test
correspondant au rejet systematique de H
1
minimise le risque de première espèce). Neanmoins
on montre facilement quil ny a pas de test annulant simultanement les deux risques : il est
donc necessaire de se referer à un principe permettant de selectionner un test. Le principe retenu
est celui de Neyman qui consiste à privilegier la minimisation du risque de seconde espèce. On
considère des classes de tests caracterises par un seuil (ou encore niveau) donne . Ces tests
sont tels que le risque de première espèce soit uniformement inferieur à . Parmi ces tests,
on souhaiterait selectionne ceux maximisant la puissance. Cest ce que lon appelle des tests
uniformement plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la
puissance pour toute valeur du paramètre correspondant à lhypothèse alternative. De tels tests
nexiste en general pas et on adjoint dautres proprietes : tests sans biais, tests invariants... qui
permettent de restreindre encore la classe des tests examines. La propriete de tests sans biais
au niveaux correspond pour les tests de niveau au fait que la puissance du test pour toute
valeur du paramètre sous lhypothèse alternative soit superieure à . On considère le test de
lhypothèse nulle
H
0
: b
k
= b
0
k
contre lhypothèse
H
1
: b
k
,= b
0
k
On a alors le resultat suivant
Proposition 3.5 Considerant la statistique
S =
b
k
b
0
k

k
le test deni par la region critique
W =
_
S < t
NK1
(1 /2)
_
S > t
NK1
(1 /2)
_
o` u t
NK1
(1 /2) est le quantile dordre 1 /2 dune loi de Student ` a N K1 degres de
liberte est un test uniformement plus puissant sans biais au niveau de lhypothèse H
0
contre
H
1
.
On verie aisement que ce test est un test au niveau . En eet sous lhypothèse nulle on a
vu que
b
k
b
0
k

k
suit une loi de Student à N K 1 degres de liberte. La probabilite de rejeter
lhypothèse nulle (la probabilite de la region critique) dans ce cas est donc bien . Montrer
la propriete de sans biais et la propriete concernant la puissance est plus complique (voir les
resultats dans Gourieroux et Monfort sur le modèle exponentiel). On peut aussi denir la region
critique par W =
_
> t
NK1
(1 /2)
_
Mise en oeuvre du test : on calcule la statistique de Student
b
k
b
0
k

k
. Suivant les valeurs prises
par cette statistique, on accepte ou rejette lhypothèse nulle. Si la statistique prend des valeurs
extremes on rejette lhypothèse, sinon on laccepte. Le seuil de rejet dependent du niveau du
test. On considère en general des tests au seuil de 5%. Le quantile dordre 97, 5% = 1 2, 5%
dune loi de Student depend du nombre de degres de liberte. lorsque ce nombre devient grand,
ce quantile est 1.96. On sera donc amene à rejeter au seuil de 5% une hypothèse dès lors que la
statistique de Student en valeur absolue est superieur à 1.96. Lorsque le nombre de degres de
liberte est plus faible, cest à dire lorsque le nombre de variables explicatives est plus important
ou lorsque le nombre dobservations est plus faible, le seuil augmente. Par exemple pour 5 degres
de liberte, le seuil de la region critique est de 2,56 ; pour 500 degres de liberte de 1,96 (voire
gure 3.1)
3.3. Un exemple 27
Fig.3.1 Distribution de Student pour 5 et 500 degr es de libert e
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-5 -3 -1 1 3 5
Ce test est parfois caracterise par ce que lon appelle la p-value. Il sagit à contrario du
niveau du test pour lequel la statistique observee serait le seuil. Elle est donc denie par la
quantite p value = P
_
[S[ >
_
= 2
_
1 F
_
__
lorsque S suit une loi de Student à N-
K-1 degres de liberte. On acceptera lhypothèse nulle pour un test au niveau si la p value
est superieure à . En eet compte tenu du fait que F (t
NK1
(1 /2)) = 1 /2, on a
2 (1 F (t
NK1
(1 /2))) =
p value >
< t
NK1
(1 /2)
Un test systematiquement mis en oeuvre est le test dit de signicativite des paramètres. Il
correspond à lhypothèse nulle b
k
= 0. La statistique de Student associee à ce test, nommee t
de Student est denie par

b
k
/
k
. En general nimporte quelle estimation dun modèle lineaire
fait par defaut lhypothèse de normalite des residus. Elle produit la valeur estimee du paramètre
la valeur estimee de lecart-type, la valeur du t de Student (correspondant à lhypothèse de
signicativite du paramètre) et la p-value correspondant à ce test.
3.3 Un exemple
Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du test
lorsque la vraie valeur du paramètre varie. On va considerer un modèle à une unique variable
y = 1 +xb
0
+u
et on va simuler ce modèle pour dierente vraie valeur du paramètre, allant de 0 à 2. On va
sinteresser au test de lhypothèse H
0
: b = 1. Pour calculer la fonction de puissance en un point
donne b
0
, on utilise des simulations. On titre un echantillon Ech
1
avec b
0
comme vraie valeur
du paramètre. Sur cet echantillon on applique le test. On retient la decision d
1
= 1 si on rejette
et d
1
= 0 sinon. On replique cette operation avec la meme vraie valeur sur M echantillons, avec
M grand. On a ainsi un ensemble de valeur (d
i
)
iM
. On approxime la valeur de la fonction de
puissance par (b
0
) = d
i
. Cest bien un estimateur du nombre de fois ou on a rejete à raison
lhypothèse. Bien sur, lorsque b
0
= 1, la quantite calculee nest pas la puissance mais le risque
de première espèce. On peut proceder ainsi pour dierentes taille dechantillons. On considère
le cas dans lequel il ny a que 20 observations, puis on augmente progressivement ce nombre.
On considère respectivement N = 50, 100, 500, 2000. La gure 3.2 montre le resultat de ces
estimations. On voit que le graphe de la fonction de puissance a une forme de vasque. Si on
se situe au niveau de la valeur testee b
0
= 1, on trouve bien que la proportion de rejet est de
5%, correspondant au risque de première espèce, et ce quelque soit le nombre dobservations.
Lorsque lon secarte de la vraie valeur on voit que la courbe crot : on rejette de plus en plus
souvent le paramètre. La croissance est très vive lorsque le nombre dobservation est grand : si
la vraie valeur est de 0.95, on va rejeter lhypothèse dans 60% des cas. Par contre, dans le cas
de 20 observations, il faut que la vraie valeur secarte de plus de 0.5 pour que lon atteigne des
taux de rejet similaire. Ce resultat merite detre note : avec un petit nombre dobservations,
on est amene à accepter à tort lhypothèse dans 40% des cas meme lorsque la vraie valeur est
assez eloignee. Lorsque lecart à la valeur testee augmente, la probabilite de rejet tend vers 1.
Cette valeur est très rapidement atteinte lorsque le nombre dobservations est grand, pour des
nombres plus petits il faut des ecarts plus importants.
Remarque 3.3 Dans le cas o` u la variance des residus est connu, on peut très facilement
calculer la fonction de puissance. En eet dans ce cas
b b
0
/
x
^ (0,1)
Sous H
0
: b
0
= 1, on a donc
b 1
/
x
^ (0,1)
et a region critique du test est
W =
_
b 1
/
x
< q
n,/2
_
b 1
/
x
> q
n,1/2
_
cest ` a dire en faisant intervenir la vraie valeur du paramètre
W =
_
b b
0
/
x
< q
n,/2
+
N
b
0
1
/
x
_
b b
0
/
x
> q
n,1/2
+
N
b
0
1
/
x
_
On en deduit facilement la fonction de puissance
P (b
0
) =
_
q
n,/2
+
N
b
0
1
/
x
_
+ 1
_
q
n,1/2
+
N
b
0
1
/
x
_
On voit quau voisinage de b
0
= 1, la fonction de puissance se developpe en
P (b
0
) = +q
n,1/2
_
q
n,1/2
_
N
_
b
0
1
/
x
_
2
Comme la fonction x(x) est decroissante pour x > 1, que pour des valeurs de faibles q
n,1/2
est plus grand que 1 et que q
n,1/2
croit avec , plus est eleve, plus q
n,1/2
_
q
n,1/2
_
est
3.4. Comparaison avec lestimateur du Maximum de Vraisemblance 29
Fig.3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions
0%
20%
40%
60%
80%
100%
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
n=20 n=50 n=100 n=500 n=2000 5%
grand. On voit que dans ces conditions, les tests ayant des risques de première espèce faibles
auront peu de puissance pour des vraies valeurs au voisinage de la valeur traitee. On voit aussi
que la dependance dans la taille de lechantillon est en N. Il est clair que lorsque N tend vers
linni la puissance du test tend vers 1. Pour etudier la puissance dun test on sinteresse en
general ` a ce que lon appelle des alternatives locales en determinant la puissance pour
b
0
(N) = 1 +/
N
o` u 1 est la valeur testee et une direction donnee dans lespace des paramètre (ici comme le
paramètre est de dimension 1 cette caracteristique tombe).
3.4 Comparaison avec lestimateur du Maximum de Vraisem-
blance
On peut aussi directement appliquer lestimateur du maximum de vraisemblance aux donnees.
La vraisemblance secrit :
L
_
y, x, b,
2
_
= 0.5N log (2) 0.5N log
_
2
_
+ 0.5 (y xb)
(y xb) /
2
Proposition 3.6 Lestimateur du maximum de vraisemblance du paramètre b est identique ` a
lestimateur des mco. Il a les memes proprietes que lestimateur des mco : sous les hypothèses
H1 H4 & H
n
, il suit une loi normale centree sur la vraie valeur du paramètre et ayant pour
matrice de variance V
b
=
2
E (x
x)
1
. Lestimateur du maximum de vraisemblance du paramètre
du second ordre
2
se deduit lineairement de lestimateur des mco de ce paramètre par application
dun facteur (N K 1) /N. Cet estimateur nest donc pas sans biais, mais il est independant
de lestimateur du MV du paramètre b.
3.5 Resume
1. Dans ce chapitre on a examine les proprietes de lestimateur des mco lorsque la loi de u
conditionnellement aux variables explicatives x est une loi normale de moyenne nulle et
de matrice de variance
2
I
N
.
2. On a montre que lestimateur des mco suit une loi normale, que lestimateur de la variance
des residus suit convenablement normalise une loi du
2
et que ces deux estimateurs sont
independants.
3. On a vu que lon pouvait utiliser ces resultats pour obtenir un estimateur sans biais de la
matrice de variance de lestimation du paramètre.
4. On a vu que pour une composante donnee k du paramètre

b
k
b
k

k
Student (N K 1)
5. On a applique ce resultat pour denir une region de conance pour le paramètre et mettre
en oeuvre des tests.
6. On a vu en particulier que la region critique pour le test de signicativite dun paramètre
correspondait à des valeurs extremes du t de Student. Le caractère extreme sappreciant
par rapport au niveau du test.
Chapitre 4
Estimation sous contraintes lineaires
On peut souhaiter estimer un modèle econometrique lineaire en incorporant une information
a priori sur les paramètres prenant la forme de contraintes lineaires. On peut aussi vouloir tester si
certaines relations entre les paramètres sont bien acceptees par les donnees. Les resultats obtenus
au chapitre precedent ont montre comment tester des hypothèses très simples, secrivant sous la
forme H
0
: b
k
= b
0
k
, o` u b
0
k
est une valeur donnee. On va examiner ici un cas un peu plus general
dans lequel les hypothèses que lon veut tester, ou bien les contraintes que lon veut imposer
font intervenir une ou plusieurs combinaisons lineaires des paramètres. On va montrer obtenir
un estimateur dierent de celui des moindres carres ordinaires, appele estimateur des moindres
carres contraints (mcc) et on va montrer ses deux proprietes principales : lestimateur des mcc
est toujours plus precis que lestimateur des mco ; lestimateur des mcc est non biaise seulement
si la vraie valeur du paramètre satisfait les contraintes imposees. Il y a donc un arbitrage entre
robustesse et precision des estimateurs. Un tel arbitrage est très frequent en econometrie. On
va aussi introduire un test très utilise permettant de tester des contraintes lineaire. Ce test est
connu sous le nom de test de Fisher, et on va voir comment le mettre en oeuvre simplement à
partir de deux regressions, lune par les mcc et autre par les mco.
Exemple 2 Homogeneite du progrès technique. On considère une fonction de production faisant
intervenir le capital et le travail. On fait lhypothèse que le facteur travail nest pas homogène.
Il fait intervenir dierents types de main doeuvre, pas tous aussi ecace les uns que les autres.
Y = F (A
CI
CI, A
K
K, A
1
L
1
, . . . , A
M
L
M
)
La derivee logarithmique secrit donc
d log Y =
d log F
d log CI
(d log CI +d log A
CI
) +
d log F
d log K
(d log K +d log A
K
) +
d log F
d log L
1
(d log L
1
+d log A
1
) + +
d log F
d log L
M
(d log L
M
+d log A
M
)
Sous lhypothèse de rendements constants et de concurrence parfaite sur le marche des biens
et des produits, la part de la remuneration de chaque facteur dans la production est egale ` a
lelasticite de la production. On peut donc mesurer
d log F
d log CI
=
CI
=
c
CI
CI
Y
,
d log F
d log K
=
K
=
c
k
K
Y
et
d log F
d log L
m
=
m
=
w
m
L
m
Y
. On a donc lequation :
d log SR =
CI
d log A
CI
+
K
d log A
k
+
1
d log A
1
+ +
M
d log A
M
31
32 Chapitre 4. Estimation sous contraintes lineaires
o` u d log SR = d log Y
CI
d log CI
K
d log K
1
d log L
1

M
d log L
M
mesure le Residu
de Solow, cest ` a dire la part de la croissance qui nest pas expliquee par celle des facteurs de
production. On suppose que les entreprises peuvent ou non adopter une innovation. On considère
I une variable indicatrice prenant la valeur 1 si une entreprise a adopte une innovation et 0
sinon. On modelise
d log A
m
= a
0m
+a
Im
I +u
Les gains decacite des facteurs de production font donc intervenir un terme xe propre au
facteur, un terme dependant du fait que lentreprise ait innove et un terme aleatoire commun ` a
tous les facteurs. On obtient alors lequation
d log SR =
K
. (a
0K
a
0CI
) +
1
. (a
01
a
0CI
) + +
M
(a
0M
a
0CI
) +
+I
CI
.a
ICI
+I
K
.a
IK
+I
1
.a
I1
+ +Ia
IM
+u
o` u on utilise le fait que la somme des parts vaut 1. Les regresseurs sont donc les parts des
facteurs et les parts des facteurs interragies avec la variable dinnovation. On peut sur cette base
formuler un certain nombre dhypothèses :
H0(L) : Homogeneite de leet de linnovation sur le facteur travail.
a
I1
= = a
IM
H0(L,K,CI) : Homogeneite de leet de linnovation sur les facteurs.
a
ICI
= a
IK
= a
I1
= = a
IM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs.
a
ICI
= a
IK
= a
I1
= = a
IM
= 0
H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations in-
termediaires.
a
ICI
= a
IK
= 0
H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations in-
termediaires et homogeneite sur le travail.
a
CI
= a
IK
= 0, a
I1
= = a
IM
Le nombre de contraintes est bien s ur dierent dune hypothèse ` a lautre
Hypothèse Nombre de contraintes
H0(L) M 1
H0(L, K, CI) M + 1
H0(L = K = CI = 0) M + 2
H0(K = CI = 0) 2
H0(K = CI = 0, L) M + 1
Plusieurs questions se posent :
4.1. Formulation 33
1. Comment tenir compte de cette information a priori dans la procedure destimation des
paramètres du modèle ?
On va introduire un nouvel estimateur : lestimateur des moindres carres contraints :
b
mcc
2. Quelles sont les consequences de cette prise en compte pour les estimations obtenues ?
On va voir que les estimations obtenues sont toujours plus precises que celles des
mco mais que par contre elles ne sont sans biais que si la contrainte imposee est veriee
par la vraie valeur du paramètre. Il y a donc un arbitrage que lon retrouve souvent en
econometrie, entre robustesse et ecacite. La robustesse correspond à lobtention desti-
mateurs non biaises sous des hypothèses plus faibles. Ici lestimateur des mco est robuste
car il est sans biais que les contraintes soient satisfaites ou non par la vraie valeur du
paramètre. Lecacite correspond à lobtention destimateurs les plus precis possibles. Ici
lestimateur des mco nest pas le plus ecace puisque lestimateur des mcc a une variance
plus faible.
3. Peut-on tester linformation a priori ?
Dans le cas present, on pourrait tester lhypothèse de constance des rendements avec
un test de Student. Neanmoins, on va voir que dans le cas general, lorsquil y a plus
dune contrainte, un tel test nest plus susant. On va introduire un test très courant qui
generalise le test de Student : le test de Fisher. Comme precedemment, alors que lon peut
repondre aux deux questions precedentes dans un cadre general ne faisant des hypothèses
que sur les moments dordre 1 et 2 des perturbations conditionnellement aux variables
explicatives, la possibilite deectuer des tests requière de specier la loi conditionnelle des
perturbations
4.1 Formulation
On considère le modèle lineaire :
y = x b +u
dans lequel on fait les hypothèses H1-H4 et pour lequel la vraie valeur du paramètre verie
le système de p contraintes lineaires :
Rb = r
R est une matrice donnee p (K + 1), et r un vecteur donne p 1.
Il y a de toutes evidences des contraintes qui pèsent sur cette formulation.
1. Il ne doit pas y avoir de contraintes redondantes. Ceci impose que R
= 0 = = 0
2. Il doit y avoir une solution non unique à lequation Rb = r
Ces deux contraintes imposent que R soit de rang p et que le nombre de contraintes p soit au
maximum egal à (K + 1) 1. En eet si on en avait K +1 ou plus, on pourrait en selectionner
K +1 par exemple R
1
b = r
1
et on pourrait alors calculer le paramètre b = R
1
1
r
1
. il ny aurait
plus de problème destimation.
Exemple 3 Considerons ` a nouveau lexemple precedent. Le modèle secrit
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+
+I
CI
.a
ICI
+I
K
.a
IK
+I
1
.a
I1
+ +Ia
IM
+u
Dans le cas de lhypothèse H0L : a
I1
= = a
IM
, on peut ecrire les contraintes sur les
paramètres comme a
I2
a
I1
= 0, , a
IM
a
I1
= 0, cest ` a dire :
_
_
_
0 1 1 0 0
0
.
.
. 0
.
.
.
0
0 1 0 0 1
_
_
_
_
_
_
_
_
_
_
_
(b
, a
ICI
, a
IK
)
a
I1
a
I2
.
.
.
a
IM
_
_
_
_
_
_
_
_
= 0
4.2 LEstimateur des Moindres Carres Contraints (MCC)
Denition 4.1 Lestimateur

b
mcc
de b est deni comme le paramètre minimisant la somme
des carres des residus et satisfaisant les contraintes Rb = r :
min
b
(y x b)
(y x b)
Sc : Rb = r
Proposition 4.1 Lestimateur des MCC a pour expression
b
mcc
= (x
x)
1
x
y (x
x)
1
R
_
R(x
x)
1
R
1
_
R(x
x)
1
x
y r
et sexprime simplement ` a partir de

b
mco
b
mcc
=

b
mco
(x
x)
1
R
_
R(x
x)
1
R
1
_
R

b
mco
r
_
On voit directement sur cette expression que lestimateur des MCC apporte une correction à
lestimateur

b
mco
et que cette correction est dautant plus importante que R
b
mco
r ,= 0. Dans
le cas o` u R
b
mco
= r, les deux estimateurs sont identiques.
Demonstration Pour trouver lexpression de lestimateur on ecrit le Lagrangien :
L =
1
2
(y xb)
(y xb) + (Rb r)
multiplicateur de Lagrange : vecteur de dimension p 1

L
b
mcc
= x
y + (x
x)

b
mcc
+ R
= 0
L
mcc
= R
b
mcc
r = 0
De la première condition on tire :

b
mcc
= (x
x)
1
_
x
y R
_
Introduit dans la deuxième condition il vient lexpression R (x
x)
1
_
x
y R
_
= r soit R (x
x)
1
R
=
R (x
x)
1
x
y r
dont on tire

=
_
R (x
x)
1
R
1
_
R (x
x)
1
x
y r
reintroduit dans on trouve lexpression de

b
mcc
b
mcc
= (x
x)
1
x
y (x
x)
1
R
_
R(x
x)
1
R
1
_
R(x
x)
1
x
y r

4.3. Esperance et variance de

b
mcc
35

b
mcc
Proposition 4.2 Sous lhypothèse H2 et sous lhypothèse H
c
: Rb = r, lestimateur des mcc
est sans biais. En revanche, sous lhypothèse H2 seule, lestimateur est biaise et le biais depend
lineairement de Rb r
E
_
b
mcc
[x
_
= b (x
x)
1
R
_
R(x
x)
1
R
1
[Rb r]
Sa variance est donnee sous H2 H4 par
V
_
b
mcc
[x
_
=
2
_
(x
x)
1
(x
x)
1
R
_
R (x
x)
1
R
1
R (x
x)
1
_
independamment de lhypothèse H
c
Ainsi lestimateur des moindres carres contraints est potentiellement biaise, mais on voit
quil est aussi plus precis que lestimateur des mco. Sa variance est en eet donnee par :
V
_
b
mcc
[x
_
= V
_
b
mcoc
[x
_
2
(x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
et comme (x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
est une matrice symetrique et positive on en
conclut que
V
_
b
mcc
[x
_
_ V
_
b
mco
[x
_
Il y a donc un arbitrage entre robustesse et ecacite. Introduire plus de contraintes ameliore
la precision des estimations mais risque de conduire à des estimateurs biaise. A linverse, moins
de contraintes produit des estimateurs plus robustes mais moins precis.
Demonstration Compte tenu de lexpression
b
mcc
=

b
mco
(x
x)
1
R
_
R(x
x)
1
R
1
_
R

b
mco
r
_
et du fait que

b
mco
est un estimateur lineaire sans biais de b sous lhypothèse H2 :
E
_
b
mcc
|x
_
= b (x
x)
1
R
_
R(x
x)
1
R
1
[Rb r]
On voit donc que sous lhypothèse H
c
: Rb = r, on a E
_
b
mcc
|x
_
= b. En revanche si les contraintes ne sont pas
satisfaites il existe un biais
E
_
b
mcc
|x
_
= b +B
avec B = (x
x)
1
R
_
R(x
x)
1
R
1
[Rb r]
On verie que ce biais est systematiquement dierent de 0. En eet, si Rbr = 0 alors =
_
R(x
x)
1
R
1
[Rb
r] est aussi dierent de 0 et donc B = (x
x)
1
R
. Comme les contraintes sont non redondantes, et = 0, on

ne peut avoir R
= 0.
On a en outre
b
mcc
E
_
b
mcc
|x
_
=
_
b
mco
b
_
(x
x)
1
R
_
R(x
x)
1
R
1
R
_
b
mco
b
_
=
_
I (x
x)
1
R
_
R(x
x)
1
R
1
R
_
(x
x)
1
x
u
On introduit H = (x
x)
1
R
_
R(x
x)
1
R
1
R. Cette matrice verie les proprietes suivantes
H
2
= H
H(x
x)
1
= (x
x)
1
H
H(x
x)
1
H
= H
2
(x
x)
1
= H(x
x)
1
On a donc
b
mcc
E
_
b
mcc
|x
_
= [I H] (x
x)
1
x
u
Par consequent comme E [uu
|x] =
2
I :
V
_
b
mcc
|x
_
= E
__
b
mcc
E
_
b
mcc
|x
__ _
b
mcc
E
_
b
mcc
|x
__
|x
_
= E
_
[ I H] (x
x)
1
x
uu
x(x
x)
1
_
I H
|x
=
2
[ I H] (x
x)
1
_
I H
En developpant, compte tenu des proprietes de H

V
_
b
mcc
|x
_
=
2
_
(x
x)
1
H(x
x)
1
H
(x
x)
1
+H(x
x)
1
H
=
2
_
(x
x)
1
H(x
x)
1
Le resultat provient de lexpression H(x
x)
1
= (x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1

2
Comme pour lestimateur des mco, on peut denir le vecteur des residus estimes
u
c
= y x

b
mcc
On peut comme dans le cas des mco denir un estimateur de la variance des residus à partir de
la somme des carres de ces residus.
Lemme 2 On peut ecrire le vecteur des residus estimes dans le modèle contraint comme la
somme de deux termes orthogonaux, le vecteur des residus estimes par les mco dune part et un
terme appartenant ` a lespace engendre par les x dautre part
u
c
= u +P
c
u = u + u
o` u P
c
= x(x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
x
est un projecteur orthogonal sur un sous espace

de lespace engendre par les x.
Demonstration On a lexpression de u
c
u
c
= xb +u x

b
mcc
=
_
I x[I H] (x
x)
1
x
u
=
_
M
x
+xH(x
x)
1
x
u
avec M
x
=
_
I x(x
x)
1
x
_
. On introduit
P
c
= xH(x
x)
1
x
= x(x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
x
On a directement P
2
c
= P
c
et P
c
= P
c
. En outre P
c
z = x
_
H(x
x)
1
x
z
_
appartient à lespace engendre par
les x.
Proposition 4.3 Sous les hypothèses H2 H4, et H
c
, lestimateur de la variance des residus

2
c
=
u
c
u
c
N (K + 1) +p
=
n
u
nc
u
nc
N (K + 1) +p
est sans biais.
4.5. Loi de lestimateur des moindres carres contraints 37
Une dierence importante avec lestimateur issu des mco correspond au nombre de degres
de liberte. Ici il sagit de N K 1 + p. Avec lestimateur des mco, le nombre de degres de
liberte est plus faible : N K 1.
Demonstration Lexpression de u
c
: u
c
= u +P
c
u = u + u conduit directement à
u
c
u
c
= u
u + u
u
u et u sont en eet orthogonaux puisque u est la projection de u sur lorthogonal de x et u une projection de u
sur un sous espace de lespace engendre par les x. Donc
E
_
u
c
u
c
|x
_
= E
_
u
u|x
_
+E
_
u
u|x
_
=
2
[(N K 1) +Tr (P
c
)]
En outre
Tr (P
c
) = TR
_
x(x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
x
_
= TR
_
_
R(x
x)
1
R
1
R(x
x)
1
x
x(x
x)
1
R
_
= Tr (I
p
) = p
4.5 Loi de lestimateur des moindres carres contraints

Comme dans le cas non contraint, on peut preciser la loi de lestimateur des moindres carres
contraints lorsque les residus sont distribues suivant une loi normale. On fait ici lhypothèse
que les contraintes sont satisfaites, cest à dire que la vraie valeur du paramètre b
0
satisfait
eectivement Rb
0
= r
Les resultats du Theorème de Cochran se generalisent
n
:
1. Lestimateur du paramètre des mco
b
mcc
est distribue comme une loi normale de moyenne b,
la vraie valeur du paramètre, et de matrice de variance V
_
b
mcc
[x
_
=
2
_
(x
x)
1
H(x
x)
1
2. Lestimateur
2
mcc
, convenablement normalise, est distribue suivant une loi du
2
[N (K + 1) +p]

2
mcc
2

2
(N (K + 1) +p)
3.

b
mcc
et
2
mcc
sont independants
4. Considerant la k
i` eme
composante de lestimateur, on a

b
mcc
(k) b
0
(k)
_

mcc
(k) suit une
loi de Student ` a N (K + 1) +p degres de liberte
Demonstration Compte tenu de lexpression de

b
mcc
b
mcc
= (x
x)
1
x
y (x
x)
1
R
_
R(x
x)
1
R
1
_
R(x
x)
1
x
y r
= b + (x
x)
1
x
u (x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
x
u
lorsque les contraintes sont satisfaites, on voit directement que lestimateur est normal lorsque les residus sont
normaux puisque lestimateur est une combinaison lineaire du residu. On a en outre
b
mcc
b = (I H) (x
x)
1
x
u
et
u
c
= [M
x
+P
c
] u
avec M
x
=
_
I x(x
x)
1
x
_
et P
c
= xH(x
x)
1
x
. On verie donc sans peine que

b
mcc
et u
c
sont non correles
et donc independants :
E
__
b
mcc
b
_
u
c
_
= E
_
(I H) (x
x)
1
x
uu
_
M
x
+P
c
_
=
2
(I H) (x
x)
1
x
_
M
x
+P
=
2
(I H) (x
x)
1
x
c
=
2
(I H) (x
x)
1
x
xH(x
x)
1
x
=
2
(I H) H(x
x)
1
x
= 0
puisque H
2
= H. Les points qui suivent sont immediats.
Exemple 4 On peut mettre en oeuvre les estimations de la fonction de production avec inno-
vation. On dispose dun echantillon de 3627 observations. On a introduit une distinction entre
travailleurs jeunes et vieux. Le nombre de categorie de travailleurs considere est donc M = 2.
On considère la regression sous lhypothèse alternative H1
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+I
CI
a
ICI
+I
K
.a
IK
+I
L
a
IL
+Xd +u
ainsi que les dierentes specications contraintes introduites precedemment :
H0(L) : Homogeneite de leet de linnovation sur le facteur travail. a
I1
= = a
IM
H0(L,K,CI) : Homogeneite de leet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
= 0
termediaires. a
ICI
= a
IK
= 0
termediaires et homogeneite sur le travail. a
IK
= 0, a
I1
= = a
IM
Les resultats sont reportes dans le tableau 4.1. Pour chacune des specications on reporte
la valeur estimee du coecient ainsi que lecart-type estime. Ces deux informations permettent
de faire des tests dhypothèses simples (en particulier de nullite de chaque coecient pris indi-
viduellement). La loi suivie par les t de Student que lon peut former est une loi de Student ` a
3627-12 degres de liberte pour la specication alternative H1. Il varie ensuite dune colonne ` a
lautre suivant le nombre de contraintes introduites. Dans la première specication, le nombre
de contrainte est de 1, le nombre de degres de liberte est donc 3627-12+1. En theorie les va-
leurs critiques des t de Student pour un test ` a un niveau donne dièrent dune colonne ` a
lautre puisque la loi nest pas la meme. Neanmoins ici le nombre de degres de liberte est grand
et dans ce cas la distribution dune loi de Student se confond avec celle dune loi normale : la
valeur critique est donc la meme pour chaque regression. Dans le cas dun test ` a 5% la valeur
critique est ainsi de 1.96. On acceptera donc lhypothèse de nullite de chaque paramètre pris
individuellement si le ratio entre le coecient et son ecart-type est en valeur absolue inferieur
` a 1.96.
On voit sur les estimations du modèle non contraint que leet de linnovation sur lecacite
des facteurs semble assez dierentes dun facteur ` a lautre. Le coecient du capital apparat
negatif et grand en valeur absolue alors que le coecient pour les jeunes est positif et grand.
Neanmoins on voit que les estimations sont imprecises et les tests degalite des coecients
pris individuellement sont souvent acceptes. En fait seul le coecient pour la part des jeunes
est signicativement dierent de zero. On est typiquement dans une situation dans laquelle les
resultats sont robustes mais peu precis. On sent bien quil y a l` a moyen de gagner en precision
de facon importante en imposant des contraintes supplementaires.
4.6. Estimation par integration des contraintes 39
Fig.4.1 R esultats des estimations par les MCC
Constante 0.00 (0.01) 0.00 (0.01) -0.01 (0.01) 0.00 (0.01) -0.01 (0.01) -0.01 (0.01)
part capital 0.08 (0.04) 0.08 (0.04) 0.04 (0.03) 0.04 (0.03) 0.04 (0.03) 0.04 (0.03)
part jeunes 0.15 (0.06) 0.18 (0.05) 0.21 (0.05) 0.20 (0.05) 0.17 (0.05) 0.20 (0.05)
part vieux -0.03 (0.03) -0.04 (0.03) -0.01 (0.03) -0.01 (0.03) -0.01 (0.03) -0.02 (0.03)
I*part capital -0.11 (0.06) -0.11 (0.06) 0.01 (0.01) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00)
I*part CI -0.01 (0.02) -0.01 (0.02) 0.01 (0.01) 0.00 (0.00) 0.00 (0.00) 0.00 (0.00)
I*part jeunes 0.19 (0.09) 0.09 (0.03) 0.01 (0.01) 0.00 (0.00) 0.12 (0.09) 0.05 (0.02)
I*part vieux 0.06 (0.05) 0.09 (0.03) 0.01 (0.01) 0.00 (0.00) 0.02 (0.04) 0.05 (0.02)
Sect1 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01) 0.01 (0.01)
Sect2 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01) 0.03 (0.01)
Sect3 -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01) -0.01 (0.01)
Sect4 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02) 0.02 (0.02)
H0(K=CI=0) H0(K=CI=0,L) H1 H0(L) H0(L,K,CI) H0(L=K=CI=0)
On voit neanmoins que chacune des specications contraintes conduit ` a des modications
importantes des coecients : si on impose lhomogeneite sur lensemble des facteurs, on parvient
` a une ecacite très faible pour chaque facteur. Si on impose en revanche la nullite pour le capital
et les consommations intermediaires et lhomogeneite sur le travail, on voit que leet sur le
travail est important, de lordre de 0.05, signicativement dierent de zero. Face ` a cette forte
sensibilite des resultats aux hypothèses eectuees il est important de pouvoir mettre en oeuvre
des tests qui permettront de guider le choix vers une specication plus quune autre.
4.6 Estimation par integration des contraintes
Le problème destimation sous contraintes peut se ramener au resultat classique destimation
par la methode des moindres carres en integrant directement les contraintes dans le modèle. On
peut en eet utiliser les p contraintes pour exprimer p paramètres parmi les k + 1 à estimer en
fonction des (k + 1 p) autres paramètres.
Par exemple, on re-ecrit les contraintes Rb = r comme :
r = [R
1
, R
2
]
_
b
1
b
2
_
avec R
1
une sous matrice de R de dimension pp supposee inversible, R
2
une autre sous matrice
de dimension p (K + 1 p) , b
1
un vecteur de dimension p 1 et b
2
un vecteur de dimension
K + 1 p 1
On peut alors ecrire r = R
1
b
1
+R
2
b
2
soit encore :
b
1
= R
1
1
[r R
2
b
2
]
Par consequent, le modèle peut se reecrire :
y = x
1
b
1
+x
2
b
2
+u = x
1
_
R
1
1
(r R
2
b
2
)
+x
2
b
2
+u
Ceci revient à estimer :
y x
1
R
1
1
r =
_
x
2
x
1
R
1
1
R
2
b
2
+u
Le modèle ainsi ecrit ne depend plus alors que de (K + 1 p) paramètres à estimer sans
contraintes. Les p autres paramètres se deduisent de ceux-ci par la relation : b
1
= R
1
1
r R
2
b
2
Exemple 5 Cette integration peut en pratique etre extremement simple. Si on reprend le cas
de lexemple precedent, dans le cas de la specication H0L : a
I1
= = a
IM
, on ecrit a
I2
=
a
I1
, . . . , a
IM
= a
I1
. On a ainsi
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+I
CI
.a
ICI
+I
K
.a
IK
+
I
1
.a
I1
+I
2
a
I1
+ +I
M
a
I1
+u
=
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+I
CI
.a
ICI
+I
K
.a
IK
+
(I
1
+I
2
+ +I
M
)a
I1
+u
On voit donc que lestimation par integration des contraintes dans ce cas specique consiste ` a
introduire la somme de toutes les variables concernees par la restriction.
4.7 Tester les contraintes : le test de Fisher
Les resultats precedents sont valables sous les hypothèses H1 H4, qui ne specient que
les deux premiers moments de la loi des residus conditionnellement aux variables explicatives.
On peut comme dans le cas des mco vouloir apprendre plus sur les paramètres estimes et en
particulier sur leur loi pour pouvoir faire des test dhypothèses. Parmi ces tests potentiels gure
naturellement lhypothèse imposee aux paramètres :
H
0
= H
c
: = Rb r = 0
Une fa con naturelle de tester lhypothèse consiste à examiner si lestimateur des mco satisfait
approximativement les contraintes. On construit donc la quantite

= R
b r, et on examine si
elle est proche de zero. Sous lhypothèse nulle on sait que

N
_
0,
2
R(x
x)
1
R
_
.
Rappel : Z N (0, V ) avec V inversible, alors Z
V
1
Z
2
(dim(Z))
On sait donc que sous H
0
on a

_
R(x
x)
1
R
/
2

2
(p) . Toutefois, cette relation
ne peut etre utilisee directement puisque
2
est inconnue. Comme pour le test de Student, on
remplace cette quantite inconnue par un estimateur :
2
. Cette statistique convenablement
normalisee suit comme on la vu une loi du
2
.
Denition 4.2 La loi de Fisher ` a q
1
et q
2
degres de liberte, notee F(q
1
, q
2
) est denie comme
le ratio de deux lois du
2
, divisees par leurs degres de liberte : Si Q
1

2
(q
1
) et Q
2

2
(q
2
)
et Q
1
Q
2
alors Z =
Q
1
/q
1
Q
2
/q
2
F(q
1
, q
2
)
Proposition 4.5 Lorsque les hypothèses H1, H2, H3&H4 ainsi que lhypothèse H
n
de normalite
des residus, on peut eectuer un test de lhypothèse H
0
: Rb r = 0 en considerant la statistique
de Fisher :
F =
1
p
_
R(x
x)
1
R

2
F(p, N (k + 1))
o` u

= R
b
mco
r . Sous lhypothèse H
0

F suit une loi de Fisher ` a p et N (k + 1) degres de
liberte. Le test caracterise par la region critique
W =
_
F > q
1
(F(p, N (k + 1)))
_
est un test UPP dans la classe des tests invariants, o` u q
1
(F(p, N (k + 1))) est le quantile
dordre 1 de la loi de Fisher ` a p et N (K + 1) degres de liberte.
4.8. Applications du test de Fisher 41
Demonstration La preuve du resultat concernant la distribution de la statistique sous H
0
decoule directement
de Q
1
=

_
R(x
x)
1
R
/
2

2
(p) , de Q
2
= (N (K + 1))

2
2

2
N(K+1)
, et du fait que comme
_
R(x
x)
1
R
/
2
est issu de

b
mco
qui est independant de
2
Q
1
et Q
2
sont independants. On a alors par
denition de la loi de Fisher
_
R(x
x)
1
R
/
2
p
_
(N (K + 1))

2
2
N K 1
=
_
R(x
x)
1
R
p
2
F(p, N (k + 1))
On voit aussi directement que le test est un test au seuil puisque le risque de première espèce P (W, ) pour

0
est par denition de la region critique . Pour le resultat doptimalite, il faut noter que le test est optimal
dans la classe des tests invariants, cest à dire dans la classe des tests ne changeant pas lorsque on applique une
transformation bijective aux donnees.
On peut obtenir une expression de la statistique du test de Fisher la rendant très simple à
mettre en pratique. Cette expression ne fait plus intervenir lecart R
b
mco
r mais uniquement les
sommes des carres des residus dans les estimations du modèle contraint SCR
C
et non contraint
SCR.
Proposition 4.6 La statistique de Fisher

F =
1
p
[R(x
x)
1
R
]
1

2
se reecrit simplement ` a partir
des sommes des carres des residus dans le modèle contraint et non contraint
F =
1
p
_
R(x
x)
1
R

2
=
SCR
C
SCR
SCR

N (k + 1)
p
Demonstration En eet :

b = (x
x)
1
x
y = b + (x
x)
1
x
u donc sous H
0
, on a :

= R
b r = R(x
x)
1
x
u.
La quantite

_
R(x
x)
1
R
secrit donc simplement :
_
R(x
x)
1
R
= u
x(x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
x
u
On reconnat dans cette expression la matrice P
C
= x(x
x)
1
R
_
R(x
x)
1
R
1
R(x
x)
1
x
introduite dans le
lemme decomposant le residu dans le modèle contraint comme
u
c
= u +P
c
u = u + u
On a donc

_
R(x
x)
1
R
= u
P
C
u = u
u. On en deduit donc
_
R(x
x)
1
R
= u
P
C
u = u
C
u
C
u
u
Do` u lexpression de la statistique communement utilisee :
F =
SCR
C
SCR
SCR

N (k + 1)
p
F(p, N (k + 1))
SCR est la somme des carres des residus estimes sans contraintes et SCR
C
est la somme des carres des residus
estimes sous contrainte.
4.8 Applications du test de Fisher
4.8.1 Un test en deux etapes
La mise en oeuvre du test de Fisher dun ensemble de contraintes H
0
: Rb r = 0 se fait en
plusieurs etapes.
1. On estime le modèle avec et sans contraintes. Dans chacun des cas on recupère les residus
estimes ou directement la somme des carres des residus SCR
C
= u
C
u
C
et SCR = u
u.
2. On calcule alors la statistique

F et on la compare au fractile dordre (1 ) de la loi
F(p, N (K + 1)), note F(1 ).
3. Si

F > F(1 ) alors on rejette H
0
: la somme des carres des residus estimes sous
contraintes dière trop de celle des carres des residus estimes sans contrainte pour accepter
que H
0
est vraie.
4. Si

F F(1 ), on accepte lhypothèse H
0
.
Exemple 6 Homogeneite du progrès technique. On considère la regression non contrainte :
d log SR =
K
.b
0K
+
1
.b
01
+ +
M
b
0M
+ (4.1)
+I
CI
.a
ICI
+I
K
.a
IK
+I
1
.a
I1
+ +Ia
IM
+Xc +u
o` u on introduit en plus des variables de contr ole.
H0(L) : Homogeneite de leet de linnovation sur le facteur travail. a
I1
= = a
IM
H0(L,K,CI) : Homogeneite de leet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. a
ICI
= a
IK
= a
I1
=
= a
IM
= 0
termediaires. a
ICI
= a
IK
= 0
termediaires et homogeneite sur le travail. a
IK
= 0, a
I1
= = a
IM
Pour tester chacune de ces hypothèses contre lhypothèse nulle H
1
(pas de restrictions sur
les coecients a
ICI
, a
IK
, a
I1
, , a
IM
) on peut considerer la regression sous lhypothèse alter-
native ainsi que les regressions integrant les dierentes contraintes. Pour mettre en oeuvre le
test de lhypothèse dune specication contrainte, on considère la somme des carres des residus
sous lhypothèse nulle la somme des carres des residus sous lhypothèse alternative ainsi que
le nombre de degres de liberte et le nombre de contraintes. Le tableau 4.2 reporte les informa-
tions pertinentes pour mettre en oeuvre le test. Si on prend par exemple le cas de la dernière
specication la somme des carres des residus vaut 97.266 sous lhypothèse nulle et 97.099 sous
lhypothèse alternative. Le nombre de contraintes introduites est 3 et le nombre de degres de
liberte sous lhypothèse alternative est N K + 1 = 3616. La statistique de Fisher vaut donc
F =
SCR
C
SCR
SCR

N (k + 1)
p
=
97.266 97.099
97.099

3616
3
= 2.07
Sous lhypothèse nulle cette quantite est distribuee suivant une loi de Fisher ` a 3 et 3616 degres
de liberte dont le quantile dordre 95% est 3.53. Comme la valeur estimee est inferieure ` a cette
valeur seuil, on accepte lhypothèse. On peut aussi regarder la p-value qui est la probabilite pour
quune loi de Fisher ` a ` a 3 et 3616 degres de liberte excède la valeur obtenue (2.07). On trouve
une probabilite de 10%que lon compare ` a la valeur seuil choisie.
On voit que parmi toutes les contraintes essayees certaines sont rejetees. Statistiquement
on ne peut accepter en particulier lhypothèse que leet est homogène entre tous les facteurs
(specication H0 (L, K, CI)). Cette specication conduisait on la vu ` a des coecients très
faible, loin des valeurs calculees dans la specication non contrainte. Par contre on voit que
les hypothèses dhomogeneite de leet sur le travail H0 (L) et de nullite de leet sur le capi-
tal et les consommations intermediaires H0 (k = CI = 0) sont acceptees. En outre lhypothèse
4.8. Applications du test de Fisher 43
Fig.4.2 Test de Fisher
SCR p F Seuil 5% p-value
H1 97.099 3616
H0(L) 97.13 1 1.15 3.84 0.28
H0(L,K,CI) 97.384 3 3.53 2.6 0.01
H0(L=K=CI=0) 97.491 4 3.63 2.37 0.005
H0(K=CI=0) 97.246 2 2.73 2.99 0.065
H0(K=CI=0,L) 97.266 3 2.07 3.53 0.10
globale reunissant ces deux contraintes H0 (K = CI = 0, L) : homogeneite de leet sur le tra-
vail et nullite de leet sur le capital et les consommations intermediaires, est acceptee. Il est
interessant de remarquer que le test de lhypothèse globale H0 (K = CI = 0, L) passe un peu
mieux que le test de lhypothèse H0 (K = CI = 0) comme en temoigne les p-values (10% contre
6.5%). On aurait pu ` a la limite rejeter lhypothèse H (K = CI = 0) mais accepter lhypothèse
plus contraignante H0 (K = CI = 0, L) .
4.8.2 Test de la nullite globale des paramètres
Dans le modèle
y = b
0
e +
k=J
k=1
x
k
b
k
+
k=K
k=J+1
x
k
b
k
+u
on veut tester lhypothèse de legalite à une valeur donnee de plusieurs coecients. H
0
: b
1
= b
0
1
,
b
2
= b
0
2
, . . . , b
J
= b
0
J
. La dierence avec le test de Student standard est quon souhaite faire un
test global, sur lidentite simultanee des coecients. Avec le test de Fisher il sut destimer le
modèle non contraint
y = xb +u
de calculer la somme SCR des carres des residus estimes, destimer le modèle contraint
y
k=J
k=1
x
k
b
0
k
= b
0
e +
k=K
k=J+1
x
k
b
k
+u
de calculer la somme SCRC des carres des residus estimes et de former la statistique
F =
N (K + 1)
J
SCRC SCR
SCR
F (J, N (K + 1))
Pour un test au niveau on refusera lhypothèse nulle si

F est superieur au fractile dordre
(1 ) de la loi F(J, N (K + 1)), note F(1 ).
On deduit de lexemple precedent un test systematiquement associe à toute regression et
dutilisation très courante : le test de la signicativite globale des coecients dune
regression
H
0
: b
1
= b
2
= b
3
= ... = b
K
= 0
Il obeit à la meme logique que precedemment, mais on montre que dans ce cas la statistique de
Fisher est seulement fonction du R
2
dans lestimation non contrainte du modèle.
Proposition 4.7 Dans le modèle
y = xb +u
la statistique de Fisher du test de nullite globale des paramètres H
0
sexprime simplement ` a
partir du R
2
F =
R
2
1 R
2

N (K + 1)
K
F (K, N (K + 1))
Demonstration Sous H
0
, le modèle secrit : y = b
0
e+u, do` u

b
0
= y et u
c
= y y e. La SCRC est donc donnee
par : SCRC =
n
(y
n
y)
2
. Sous H
1
: SCR = u
u. Or R
2
= 1
u
n
(y
n
y)
2
, soit u
u =
n
(y
n
y)
2
_
1 R
2
_
, on
a donc SCR = SCR
C
_
1 R
2
_
, par consequent, la statistique de Fisher secrit
N (K + 1)
K
SCR
C
SCR
SCR
=
N (K + 1)
K
SCR
C
SCR
C
_
1 R
2
_
SCR
C
(1 R
2
)
do` u le resultat
4.8.3 Le Test de Chow de stabilite des paramètres
Une question naturelle est celle de lhomogeneite des paramètres sur deux sous population.
On peut sinterroger sur lexistence de rupture temporelle dans les comportements. On peut se
demander par exemple si le comportement de consommation estime sur serie temporelles est
homogène dans le temps. On peut se demander aussi si les technologies de production, estimees
sur un panel dentreprises sont homogènes entre secteurs. Le Test de Chow formalise ce problème
de test et applique les resultat du test de Fisher pour lobtention de statistique de test.
Supposons que lon dispose de deux echantillons (y
1
, x
1
) et (y
2
, x
2
) de tailles respectives
N
1
et N
2
, relatifs à deux groupes dobservations dierents (par exemple deux periodes, deux
categories dentreprises,...) de la variable dependante y et des variables explicatives x.
Le modèle relatif au 1er groupe secrit
y
1
= x
1
b
1
+u
1
o` u y
1
vecteur N
1
1 des observations de la variable dependante pour le premier groupe et
x
1
la matriceN
1
(K + 1) des variables explicatives (1, x
1
, . . . , x
K
) pour le premier groupe.
De meme, pour le deuxième groupe :
y
2
= x
2
b
2
+u
2
On fait les hypothèses stochastique l (u
1
, u
2
[x
1
, x
2
) N(0,
2
I
N
1
+N
2
).
Ce modèle se reecrit dans le cadre du modèle lineaire standard en introduisant les matrices
x (N
1
+N
2
) (2 (K + 1)) et x (N
1
+N
2
) (K + 1)
x =
_
x
1
0
0 x
2
_
et x =
_
x
1
x
2
_
sous la forme
y = x
_
b
1
b
2
_
+u
4.9. Resume 45
avec l (u[ x) N(0,
2
I
N
). Lhypothèse dhomogeneite secrit alors simplement dans ce cadre :
H
0
: b
1
= b
2
et on peut clairement aborder cette question avec le formalisme du test de Fisher. On eectue
la regression dans le modèle contraint
y = xb +u
pour lequel on recupère la somme des carres des residus SCR
C
= SCRT. On eectue la
regression dans le modèle non contraint et on recupère aussi la somme des carres des residus
SCR. La statistique de Fisher du test dhomogeneite des coecients est donc
F =
SCR
C
SCR
SCR

(N
1
+N
2
) 2(K + 1)
(K + 1)
et on rejettera lhypothèse nulle lorsque cette statistique est trop eleve : pour un test au niveau
la region critique est ainsi
F > f
(1)
(K + 1, N
1
+N
2
2(K + 1))
La statistique se simplie en fait car on montre facilement que la somme SCR est la somme
SCR1 +SCR2 des sommes des carres des residus sur les modèles estimes librement sur chacun
des sous-echantillons. Pour sen convaincre il sut de calculer M
x
= I x
_
x
x
_
1
x
puisque
SCR = u
M
x
u. On verie aisement que M
x
= Diag
_
M
x
1
,x
2
_
. La statistique est donc nalement
F =
SCRT (SCR1 +SCR2)
SCR1 +SCR2

(N
1
+N
2
) 2(K + 1)
(K + 1)
et se calcule très simplement à partir des trois regressions : 1) contrainte 2) et 3) sur chacun des
sous echantillons pris separement.
4.9 Resume
1. Dans ce chapitre on a vu comment etendre lestimateur des mco au cas dans lequel on
impose des contraintes lineaires sur les paramètres du type Rb = r.
2. On a vu que lorsque lon fait les hypothèses H1 H2, lestimateur est sans biais lorsque
les contraintes sont satisfaites par la vraie valeur du paramètre. En revanche, lestimateur
est biaise lorsque les contraintes sont imposees à tort.
3. On a obtenu sous les hypothèses H1 H4 lexpression de la matrice de variance de lesti-
mateur. On a vu que cette matrice etait toujours plus petite que celle de lestimateur des
mco, que les contraintes soient imposees à tort ou à raison.
4. On en a conclu quil y a un arbitrage entre precision des estimations et robustesse.
5. On a egalement obtenu un estimateur sans biais de la variance des residus.
6. On a montre comment les resultats sur la loi de lestimateur pouvaient etre etendus dans
le cas destimations contraintes lorsque la loi des perturbations est speciee.
7. On a montre comment dans ce cadre il etait possible de tester les contraintes imposees au
paramètre.
8. Le test correspondant porte le nom de Test de Fisher, il est base sur la comparaison des
residus dans le modèle contraint et le modèle non contraint.
9. On a vu deux exemples importants de mise en oeuvre de ce test
(a) Le test de signicativite globale des paramètres
(b) Le test dit de Chow de stabilite des paramètres sur deux sous-echantillons.
Chapitre 5
Proprietes asymptotiques de
lestimateur des MCO
Les chapitres precedents ont permis detablir les proprietes de lestimateur des MCO. Nous
avons vu à cette occasion que lhypothèse de normalite des residus est centrale pour obtenir la
loi des estimateurs et, par consequent, pour deriver un certain de nombre de statistiques de test.
Orir des tests exacts au modèle de regression lineaire est le principal avantage de cette hypothèse
de normalite. Le prix à payer est cependant que ces resultats ne sont valides quà condition que
lhypothèse soit veriee par les donnees. Dans le cas contraire, les resultats presentes dans le
chapitre precedent ne sont plus valides et lapplication des tests proposes conduit à de fausses
conclusions quant aux caracteristiques des vrais paramètres.
Lobjectif de ce chapitre est devaluer la mesure dans laquelle les proprietes obtenues sous
hypothèse de normalite des residus peuvent etre generalisees à un modèle qui ne la respecte
pas. De fa con plus precise, nous chercherons la loi des estimateurs sans faire dhypothèse sur
la loi des perturbations. Nous verrons en eet que lhypothèse de normalite de la distribution
conditionnelle peut etre remplacee par des hypothèses sur lexistence de moments des variables
du modèle lorsque le nombre dobservations devient grand. Cest ainsi aux proprietes asympto-
tiques plut ot quexactes que nous nous interesserons ici. Lobtention de ces resultats repose
sur des outils de theorie asymptotique comme, par exemple, la notion de convergence, la Loi des
Grands Nombres ou encore le Theorème Central Limite. Lensemble de ces resultats est presente
et demontre dans lAnnexe A. Lillustration proposee ci-dessous ore une presentation intuitive
de ces resultats.
Principaux resultats de convergence : une illustration
La theorie asymptotique ore un certain nombre de resultats quant au comportement dune
variable aleatoire et de statistiques sy rapportant, telles que la moyenne à la limite,
cest à dire lorsque la taille de lechantillon dobservations saccrot (ces resultats sont donc
asymptotiques). An dillustrer les resultats utilises dans la suite de ce chapitre, nous nous
interessons au comportement asymptotique des moyennes dun nombre donne dobservations
tirees independamment dans une meme loi. La moyenne theorique de la loi de ce nombre (i.e.
son esperance theorique) est notee E et connue dans le cadre des illustrations qui suivent.
47
48 Chapitre 5. Proprietes asymptotiques de lestimateur des MCO
Fig.5.1 Convergence en probabilit e
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
N=10 N=100 N=100000
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.99--1.01 0.98--1.02 0.95--1.05 0.90--1.10
N=10 N=100 N=100000
(a) Loi du
2
(b) Loi Uniforme
Note. Les intervalles consideres sont indiques en abscisse de chaque graphique. Lordonnee presente la proportion de
moyennes se situant dans lintervalle correspondant. Pour chaque intervalle, les barres representent les resultats obtenus
pour une taille dechantillon de, respectivement, 10, 1000 et 100 000 observations.
La loi des grands nombres
1
, dabord, etablit que, pour un intervalle [E ; E +] de
longueur 2 donnee, la proportion de moyennes empiriques tombant dans lintervalle crot avec
la taille de lechantillon en se rapprochant de (converge vers) 1. Autrement dit, la loi des
grands nombre assure donc que la moyenne empirique dune variable converge vers son esperance
theorique. Il sut ainsi de disposer dun nombre important dobservations de la moyenne empi-
rique pour approcher la vraie valeur de lesperance dune variable.
Lexercice de simulation que nous utilisons pour le verier est realise de la fa con suivante.
Pour une taille dechantillon donnee (de 10, 1.000 puis 100.000 observations), on tire un grand
nombre dechantillons (5.000 ici). En calculant la moyenne empirique de chaque echantillon,
on dipose ainsi dun echantillon de 5000 observations de la moyenne empirique de la variable
aleatoire consideree. Lesperance theorique de cette variable est xee à E = 1, et on examine
des intervalles de taille =, 0.1, 0.05, 0.02 et 0.01. Nous retenons en outre deux cas dierents
pour la loi vraie de cette variable (dans laquelle sont tires de fa con i.i.d. les echantillons). On
considère dabord une loi symetrique, la loi uniforme sur linteralle [0; 2]. Son esperance est bien
egale à 1 (= (2 0)/2) et sa variance est de 1/3. On prend ensuite une loi dissymetrique, la loi
du
2
(1). Cette loi a, elle aussi, une moyenne de 1, mais sa variance est de 2. Pour la rendre
plus facilement comparable à la loi precedente, on la normalise de telle sorte que sa variance soit
elle aussi de 1/3, sa moyenne restant de 1. On considère ainsi y = 1 +
_
2
(1) 1
_
1
6
.
Le Fig.5.1 donne les proportions de moyenne empirique tombant dans les intervalles consideres.
On voit que ces proportions croissent avec la largeur de lintervalle et avec la taille de lechantillon.
Pour les plus grandes tailles dechantillon, toutes les moyennes empiriques tombent dans linter-
valle considere, aussi etroit soit-il, conrmant ainsi la convergence asymptotique de la moyenne
empirique vers sa valeur theorique. On voit aussi quil ny a pas grande dierence entre la loi
du
2
et la loi uniforme. La loi des grands nombres sapplique en eet quelles que soient les
proprietes de la loi de la variables aleatoire.
1
Voir Annexe, Proposition A.3.
5.1. Proprietes asymptotiques de lestimateur des MCO 49
Le Theorème Central Limite
2
va plus loin que la loi des grands nombres. Il permet en
eet de caracteriser la loi asymptotique dune transformation lineaire de la variable aleatoire.
La transformation utilisee consiste à centrer la variable à laquelle on sinteresse, notee y, à la
reduire (en la rapportant à sa variance, ) et à la dilater par le facteur
N. Le Theroème
Central Limite etablit alors que la loi asymptotique de la variable aleatoire
N
y E
est une
loi normale centree reduite (^(0, 1)).
Pour voir ce theorème à luvre dans les simulations proposees, nous examinons mainte-
nant la distribution des ecarts à lesperance theorique, en etudiant la distribution empirique de
N (y
i
E) /. Pour cela on met en oeuvre un estimateur non parametrique de la densite, dit
à noyau. Si la theorie asymptotique est satisfaite, cette distribution doit etre approximativement
normale pour un grand echantillon. Les resultats sont presentes dans le Fig.5.2. On voit l` a des
dierences importantes entre les deux types de loi. Dans les deux cas pour de grands echantillons,
lapproximation normale fonctionne bien. Par contre pour les petits echantillons, lapproxima-
tion normale marche très bien pour la loi uniforme, mais beaucoup moins bien, pour la loi du
2
.
La loi des grands nombres et le Theorème Central Limite sont des resultats fondamentaux
de la theorie asymptotique. Ils permettent detudier les proprietes dune variable aleatoire (un
estimateur, par exemple. . . ) en labsence de toute hypothèse quant à sa distribution vraie.
5.1 Proprietes asymptotiques de lestimateur des MCO
Ces resultats sont appliques ici à lestimateur des MCO. Le modèle considere reste inchange :
y
i
= x
i
b +u
i
; nous retenons en revanche des hypothèses moins restrcitives, puisque la normalite
des residus nest plus imposee a priori. Nous retenons donc les hypothèses :
H
1
: Les observations (y
i
, x
i
) RR
K+1
, i = 1, ..., N, sont IID;
H
2
: N, x
x est non singulière ;

H
3
: Les moments de [x
ki
x
li
[ existent et E(x
i
x
i
) est inversible ;
H
3bis
. x
x/N
P
Q inversible ;
H
4
: E (u
i
[x
i
) = 0 ;
H
5
: V (u
i
[x
i
) = V (u
i
) =
2
.
Sous ces hypothèses, lestimateur des MCO est denit comme :
b
mco
=
_
x
x
_
1
x
y =
_
x
i
x
i
_
1
x
i
y
i
(5.1)
Les propositions qui suivent exploitent cette expression an de decrire les proprietes asymp-
totiques de lestimateur. Pour ce faire, nous utiliserons lecart entre la vraie valeur du paramètre
et le paramètre estime,

b b =
_
x
i
x
i
_
1
x
i
u
i
. Lanalyse consiste à etudier le comportement
asymptotique de chacune des deux composantes. Dune fa con generale, il sagira de montrer que
x
i
x
i
P
Q, constante. Nous donnerons, en particulier, des conditions sous lesquelles cette matrice
Q est E (x
i
x
i
) et, surtout, nous montrerons que cette matrice converge en probabilite vers une
matrice xe. Letude du deuxième terme consiste à appliquer le theorème central limite à x
i
u
i
.
Nous allons donc etudier
Nx
i
u
i
et exploiter le fait que E (x
i
u
i
.) = 0.
2
Voir Annexe, Propositions A.5 et A.6.
Fig.5.2 Convergence en Loi
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=10 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=10 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100000 Normal
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
N=100000 Normal
(a) Loi du
2
(b) Loi Uniforme
Note. Chaque graphique contient la distribution empirique de la moyenne dilatee (trait plein) ainsi que la distribution
normale (trait pointille) dans le cas dun echantillon de variables tirees dans respectivement dans la loi du
2
(gauche) et
dans la loi Uniforme (droite). De bas en haut, chaque ligne correspond ` a des tirages de N = 10, 100 puis 100 000 observations.
5.1. Proprietes asymptotiques de lestimateur des MCO 51
Proposition 5.1 Sous les hypothèses H1 ` a H5, lestimateur des MCO (8.1) est convergent :
b
mco
P
b.
Demonstration Lestimateur des mco secrit
b
mco
=
_
x
x
_
1
x
y =
_
x
i
x
i
_
1
x
i
y
i
= x
i
x
i
1
x
i
y
i
On remplace y
i
par sa valeur : y
i
= x
i
b +u
i
. On a donc
b
mco
= x
i
x
i
1
x
i
(x
i
b +u
i
) = x
i
x
i
1
_
x
i
x
i
b +x
i
u
i
_
= b +x
i
x
i
1
x
i
u
i
Comme les moments |x
ki
x
li
| des variables explicatives existent, on peut appliquer la loi des grands nombres
à x
i
x
i
. De meme on peut appliquer la loi des grands nombre à x
i
u
i
, si E(x
i
u
i
) et V (x
i
u
i
) existent. Comme
E(x
i
u
i
) = E (E(x
i
u
i
|x
i
)) = 0 et V (x
i
u
i
) = E (V (x
i
u
i
|x
i
)) +V (E(x
i
u
i
|x
i
)) =
2
E (x
i
x
i
), on a
x
i
x
i
=
1
N
N
i=1
x
i
x
i
P
E(x
i
x
i
), et x
i
u
i
=
1
N
N
i=1
x
i
u
i
P
E(x
i
u
i
).
On en deduit que
x
i
x
i
1 P
E(x
i
x
i
)
1
x
i
x
i
1
x
i
u
i
P
E(x
i
x
i
)
1
E(x
i
u
i
)
b
mco
= b +x
i
x
i
1
x
i
u
i
P
b +E(x
i
x
i
)
1
E(x
i
u
i
)
car les esperances E(x
i
x
i
) et E(x
i
u
i
) sont par denition des constantes, que lapplication A A
1
est continue
et enn que le produit et la somme de suite de variables aleatoires convergent en probabilite vers des constantes
converge en probabilite.
Comme par ailleurs E(x
i
u
i
) = E [x
i
E(u
i
|x
i
)] = 0, on a bien :

b
MCO
P
b
Proposition 5.2 Sous les hypothèses H1 ` a H5, la variance asymptotique de lestimateur des
MCO (8.1) est V
as
=
2
E(x
i
x
i
)
1
(o` u
2
Q
1
), et lestimateur est asymptotiquement normal :
N
_
b
mco
b
_
L
^ (0, V
as
).
Demonstration De la formulation precedente :

b
mco
= b +x
i
x
i
1
x
i
u
i
on deduit
N
_
b
mco
b
_
=
Nx
i
x
i
1
x
i
u
i
= x
i
x
i
1
Nx
i
u
i
On veut appliquer le Theorème Central Limite à
Nx
i
u
i
. Les variables aleatoires x
i
u
i
sont independantes et
equidistribuees. On pourra appliquer le Theorème Central limite si les deux premiers moments de cette variable
existent. On sait que
E
_
x
i
u
i
_
= 0
V
_
x
i
u
i
_
= V
_
E
_
x
i
u
i
|x
i
__
+E
_
V
_
x
i
u
i
|x
i
__
= E
_
x
i
V (u
i
|x
i
) x
i
_
=
2
E
_
x
i
x
i
_
Les moments dordre 1 et 2 de x
i
u
i
existent donc. On sait qualors le Theorème Central limite permet
darmer
Nx
i
u
i
L
N
_
0,
2
E(x
i
x
i
)
_
Comme
x
i
x
i
1 P
E(x
i
x
i
)
1
.
qui est une matrice constante, on peut appliquer le theorème de Slutsky à x
i
x
i
1
et
Nx
i
u
i
:
x
i
x
i
1
Nx
i
u
i
L
E(x
i
x
i
)
1
N
_
0,
2
E(x
i
x
i
)
_
= N
_
0, E(x
i
x
i
)
1
2
E(x
i
x
i
)E(x
i
x
i
)
1
_
= N
_
0,
2
E(x
i
x
i
)
1
_
on a donc bien :
N
_
b
MCO
b
_
L
N
_
0,
2
E(x
i
x
i
)
1
_
.
Remarque 5.1 On peut se passer de lhypothèse dequidistribution au prix dun renforcement
des hypothèses sur les moments des variables. Pour pouvoir appliquer le Theorème Central Li-
mite de Liapounov ` a x
i
u
i
, il sut par exemple que lon ait E
_
u
3
i
_
=
3
< + et pour chaque
variable explicative E
_
x
3
ki
_
=
k3
< +. La condition de Liapounov est alors satisfaite et on
obtient alors la normalite asymptotique de
Nx
i
u
i
.
Les Propositions 5.1 et 5.2 etablissent que

b est un estimateur convergent et asymptoti-
quement normal. La theorie asymptotique permet ainsi de caracteriser la loi de lestimateur
meme en labsence de toute contrainte sur la distribution des residus. Elle permet egalement de
caracteriser les proprietes de lestimation de la variance de lestimateur, qui indique la precision
de lestimation et savère, en consequence, particulièrement utile pour realiser des tests sur la
valeur vraie des paramètres.
Proposition 5.3 Sous les hypothèses H1 ` a H5, la variance de lestimateur des MCO (8.1) peut
etre estimee par :
2
=
1
NK1
_
y x
b
mco
_
_
y x
b
mco
_
P
2
.
Demonstration Lestimateur de la variance des residus,
2
=
1
N
_
y x
b
mco
_
_
y x
b
mco
_
, secrit, compte tenu
de y = xb +u :

2
=
1
N
_
x
_
b
b
mco
_
+u
_
_
x
_
b
b
mco
_
+u
_
=
_
x
i
_
b
b
mco
_
+u
i
_ _
x
i
_
b
b
mco
_
+u
i
_
=
_
b
b
mco
_
i
x
i
_
b
b
mco
_
+ 2u
i
x
i
_
b
b
mco
_
+u
2
i
=
__
b
b
mco
_
i
x
i
_
b
b
mco
_
+ 2u
i
x
i
_
b
b
mco
_
+u
2
i
_
P
2
puisque

b
mco
P
b, x
i
x
i
P
E (x
i
x
i
) , x
i
u
i
P
E (x
i
u
i
) et u
2
i
P
E
_
u
2
i
_
=
2
. Puisque u
2
i
est une variable positive
identiquement distribuee sur les individus. On remarque quil est ici necessaire davoir recours à la loi forte des
grands nombres dans L1, on devrait sinon faire lhypothèse que E
_
u
4
i
_
existe.
Proposition 5.4 Sous les hypothèses H1 ` a H5, la matrice de variance-covariance asymptotique
de lestimateur des MCO (8.1) peut etre estimee par :
N
V
_
b
mco
_
=

V
as
=
2
_
x
i
x
i
_
1
P
V
as
Cet estimateur est asymptotiquement normal :
V
1/2
as
_
b
mco
b
_
=

V
1/2
_
b
mco
b
_
L
^ (0, I
K+1
).
Demonstration On lobtient directement par le fait que
2
P
2
et x
i
x
i
1 P
E (x
i
x
i
)
1
. Enn en appliquant
le theorème de Slutsky à

V
as
=
2
_
x
i
x
i
_
1
P
V
as
,.et
N
_
b
mco
b
_
L
N (0, V
as
) , on a directement le dernier
point.
Remarque 5.2

V
as
est un estimateur de V
as
, la variance asymptotique de lestimateur dilate
par
N qui est une matrice constante. En revanche

V
_
b
mco
_
est un estimateur de la variance
de lestimateur. Cest une quantite qui tend vers 0 quand N tend vers linni : N
V
_
b
mco
_
=
V
as
P
V
as
5.2. Tests asymptotiques 53
On a vu dans les chapitres precedents que connatre la loi de lestimateur etait parti-
culièrement utile pour realiser des tests sur la valeur vraie des coecients à partir des estimations
obtenues. La distribution asymptotique de lestimateur MCO permet de la fa con de denir des
tests asymptotiques.
5.2 Tests asymptotiques
Les tests que lon considère ici sont des test dits asymptotiques. La dierence essentielle avec
les cas precedents est quils sont bases sur une statistique dont on ne connat la loi quasympto-
tiquement, alors que dans le cadre des chapitres precedents, on connaissait exactement la loi de
la statistique à distance nie (Student, Fisher,. . . ), gr ace à lhypothèse de normalite. En lab-
sence dhypothèse de normalite, les proprietes des tests presentees dans les chapitres precedents
doivent donc etre adaptees au cas asqymptotique. La distribution asymptotique de lestimateur
des MCO permet ensuite de deriver la loi asymptotique dune certain nombre de statistiques
usuelles.
5.2.1 Denitions
Comme precedemment, les tests que lon va considerer sont denis par une region critique
W pour une statistique

S telle que
S W on rejette H
0
contre H
1
Comme nous lavons vu, la region critique de seuil correspond à lespace de valeurs de la
statistique conduisant à rejeter H
0
avec une probabilite de se tromper :
W =
_
S > q (1 , S
0
)
_
o` u q (1 , S
0
) est le quantile dordre 1 de S
0
, tel que : Pr (S
0
> q (1 , S
0
)) = .
A cette region critique sont associes un risque de première et de seconde espèce ainsi quune
puissance :
Le risque de première espèce, p limPr
_
S W [H
0
_
, represente asymptotiquement la
probabilite de rejeter H
0
à tort.
Le risque de deuxième espèce, p limPr
_
S / W [H
a
_
, correspond à la probabilite dac-
cepter H
0
à tort.
La puissance du test, denie comme 1risque de deuxième espèce , est puissance=p limPr
_
S W [H
a
_
.
La dierence concerne aussi la notion doptimalite que lon retient. Le principe du test est
comme precedemment de minimiser le risque de seconde espèce en controlant à un niveau donne
le risque de première espèce. Ce niveau maximal du risque de première espèce est appele la
encore le seuil ou le niveau du test. Dans le cas normal, loptimalite etait denie en reourant
à la notion de tests Uniformement Plus Puissants, cest à dire de tests qui, en maintenant
à un niveau donne le risque de première espèce, conduisent pour toute valeur de lhypothèse
alternative à une probabilite de rejet maximale. Cette proprie te est trop forte et nous avons vu
quon ne peut pas trouver en toute generalite un tel test. Nous avions alors introduit des classes
de tests plus restreintes, telles que les tests sans biais et les tests invariants, pour lesquels on
pouvait trouver un test optimal.
Pour les meme raisons, la notion que lon retient ici est celle de test convergent. Elle rejoint la
notion de test uniformement plus puissant puisquun test convergent est un test dont la puissance
tend vers 1.
Denition 5.1 Le test de region critique W est asymptotique si ses proprietes sont valables
pour N grand ; quil est de niveau asymptotique si lim
N
Pr
_
S W [H
0
_
= ; quil est
convergent si sa puissance tend vers 1 : lim
N
Pr
_
S W [H
a
_
= 1.
On denit aussi de fa con alternative la p-value. La statistique

S est choisie de telle sorte
que sous H
0

S S
0
dont la loi est connue et à support positif (par exemple, valeur absolue
dune loi normale, loi du khi deux,. . . ). On denit la p-value p
_
S
_
comme la probabilite telle
que

S soit la valeur seuil de la region critique de seuil

S :

S = q
_
1 p
_
S
_
, S
0
_
, soit encore :
p
_
S
_
= Pr
_
S
0
>

S
_
.
Il existe un lien entre la p-value et le risque de première espece. Pour tout seuil , on rejette
en eet H
0
au seuil si et seulement si p
_
S
_
. Si p
_
S
_
on a bien :
= Pr S
0
> q (1 , S
0
) Pr
_
S
0
>

S
_
S > q (1 , S
0
)
_
Tous les tests dhypothèse ont une structure commune, denie par les proprietes decrites
ci-dessus. Chaque test repose sur une specication particulière de la statitistique

S, dont la
distribution depend de la relation entre

S et les estimateurs. Nous decrivons ci-dessous un
certain nombre de tests usuels.
5.2.2 Test dhypothèses lineaires
(i) Test de Student asymptotique
Il sagit du test dune hypothèse lineaire unidimensionnelle de la forme :
H
0
: c
b = r
o` u c R
K+1
et r R. Un cas particulièrement important est utilise pour tester la signicativite
du coecient b
k
= 0.
Proposition 5.5 Si les hypothèses H1-H5 sont satisfaites, sous lhypothèse nulle H
0
: c
b = r
on a
S =
N
c
b
mco
r
_
c

V
as
_
b
mco
_
c
=
c
b
mco
r
_
c

V
_
b
mco
_
c
L
^(0, 1).
Le test deni par la region critique : W =
_
> q
_
1

2
_
_
o` u q
_
1

2
_
est le quantile
1

2
de la loi normale ^(0, 1) est un test convergent au niveau .
Demonstration Sous les hypothèses H1-H5, on a
N
_
b
mco
b
_
L
N
_
0,
2
E(x
i
x
i
)
1
_
. Sous lhypothèse nulle,
H
0
: c
b = r, on a donc
N
_
c
b
mco
r
_
L
N
_
0, c
V
as
_
b
mco
_
c
_
ou encore :
N
c
b
mco
r
_
c
V
as
_
b
mco
_
c
L
N(0, 1)
On rencontre le meme problème que dans le cas normal : il faut diviser c
b
mco
r par lecart-type de c
b
mco
r
qui est inconnu. Comme dans le cas normal on va diviser par un estimateur de cet ecart-type. Dans le cas normal
la statistique consideree suivait une loi de Student quel que soit le nombre dobservation. Ici on tient compte du
fait quon divise par un estimateur convergent en probabilite. Le theorème de Slutsky permet alors de denir la
loi asymptotique de la statistique. Comme
V
as
_
b
mco
_
=
2
_
x
i
x
i
_
1
=
2
1
N
_
x
x
_
1 P
V
as
_
b
mco
_
=
2
_
E(x
i
x
i
)
1
on en deduit que la statistique de Student :
S =
N
c
b
mco
r
_
c

V
as
_
b
mco
_
c
=
c
b
mco
r
_
c

V
_
b
mco
_
c
L
N(0, 1).
puisque N
V
_
b
mco
_
=

V
as
_
b
mco
_
. On denit la region critique comme W =
_
> q
_
1

2
_
_
, o` u q
_
1

2
_
est le quantile 1

2
de la loi normale N(0, 1). Sous H
0
on a :
Pr
_
S W |H
0
_
Pr
_
|N(0, 1)| > q
_
1

2
__
=
Le test deni par la region critique W est donc un test au niveau . Comme on est dans le cas asymptotique,
on etudie beaucoup plus facilement le comportement de la statistique sous lhypothèse alternative. Sous H
1
on a
c
b
mco
r c
b r = m = 0 donc
N =
_
c
b
mco
r
_
__
c

V
as
_
b
mco
_
c |m|
__
c
V
as
_
b
mco
_
c do` u
+. Il en resulte que Pr
_
S W |H
1
_
1. Le test est donc convergent.
Remarque 5.3 On generalise directement ces resultats au cas du test unilateral H
0
: c
br = 0
contre H
1
: c
b r > 0. On denit la region critique comme : W =

_
S > q (1 )
_
, o` u
q (1 ) est le quantile 1 de la loi normale ^(0, 1). Sous H
0
on a : Pr
_
S W [H
0
_

Pr ^(0, 1) > q (1 ) = . Sous H
1
on a c
b r c
b r = m > 0 donc

S
_
N =
_
c
b r
_
__
c

V
as
_
b
_
c m
__
c
V
as
_
b
_
c, do` u
+ et Pr
_
S W [H
1
_
1.
On retrouve donc un test très proche de celui obtenu dans le cas o` u on specie la loi des
residus. Le test presente ici a linteret detre valable quelle que soit la loi des residus, quelle
soit normale ou non, tant quelle verie les hypothèses garantissant les proprietes asymptotiques
de lestimateur des MCO. Le test de Student vu dans le chapitre precedent nest valable que
pour le cas de residus suivant une loi normale. Il est en revanche valable à distance nie. Les
dierences entre ces deux versions du test de Student sont donc que 1/ le resultat nest valable
quasymptotiquement, alors quil etait valable à distance nie dans le cas normal et 2/ la loi
consideree est une loi normale et non plus une loi de Student. On peut facilement montrer,
cependant, que les deux tests concident asymptotiquement, car une suite de variables aleatoires
X
n
suivant une loi de Student à n degres de liberte converge en loi vers une loi normale. Les
regions critiques sont donc asymptotiquement les memes.
Demonstration Si X
n
suit une loi de Student, elle peut secrire sous la forme dun ratio Z
1n
/
_
Z
2n
/n avec Z
1n
suivant une loi normale et Z
2n
, independante de Z
1n
suivant une loi du
2
(n) . Une loi du
2
(n) a pour variance
2n. On en deduit que E (Z
2n
/n) = 1 et V (Z
2n
/n) = 2/n. On voit donc que
_
Z
2n
/n
m.q.
1. Donc
_
Z
2n
/n
p
1
On en deduit donc que Z
1n
/
_
Z
2n
/n converge en Loi vers une loi normale.
Application 5.1
Test de Student asymptotique de nullite dun paramètre à 5%
Le cas dapplication le plus direct est celui du test de la nullite dun paramètre dune regression.
Dans ce cas le vecteur c
= (0, . . . , 0, 1, 0, . . . , 0), c
b = b
k
, r = 0, car on sinteresse à lhypothèse
nulle de nullite de la kième composante du paramètre et
_
c
as
V
as
_
b
_
c/N =
_
c

V
_
b
_
c =
_
V
_
b
k
_
=
k
. Le resultat de la proposition stipule donc quun test asymptotique au seil de
lhypothèse de nullite du paramètre peut etre fait en considerant le t de Student
t
k
=
b
k

k
Sous lhypothèse nulle, cette quantite suit asymptotiquement une loi normale. Un Test au seuil
peut etre eectue en comparant la valeur du t au quantile dordre 1 /2 de la loi normale.
Ainsi on rejettera H
0
à % si [t
k
[ > q (1 /2, N (0, 1)) .
En pratique on sinteresse souvent à des tests à 5%. Dans ce cas le quantile auquel on compare
est le quantile dordre 97,5% dont la valeur est de 1,96. En dautres termes : on rejette à
5% lhypothèse de nullite dun paramètre si le ratio de la valeur estimee du paramètre à son
ecart-type estime, le t de Student, est en valeur absolue superieur à 1,96.
(ii) Test de Wald dune hypothèse multi-dimensionnelle.
Comme precedemment, on souhaite tester un système de contraintes lineaires :
H
0
: Rb = r contre H
a
: Rb ,= r.
On a vu que dans le cas o` u les residus etaient species comme normaux, on pouvait faire
un test de Fisher. Ce test permettait de controler le risque de première espèce et avait de
bonnes proprietes doptimalite. Ici on va considerer une statistique analogue et on va etudier
son comportement asymptotiquement. Pour la meme raison que pour le test de Student, la
statistique ne suivra pas une loi de Fisher mais une loi du
2
.
Proposition 5.6 Lorsque les hypothèses H1-H5 sont satisfaites, la statistique

S denie par
S = N
_
R
b
mco
r
_
_
R
V
as
_
b
mco
_
R
_
1
_
R
b r
_
=
_
R
b
mco
r
_
_
R(x
x)
1
R
_
1
_
R
b
mco
r
_

2
converge en loi vers un
2
p
, sous lhypothèse nulle H
0
. Le test deni par la region critique
W =
_
S > q
_
(1 ),
2
(p)
_
_
est un test convergent au niveau . La statistique peut aussi
e tre calculee comme
S = p
F = (N (K + 1))
SCRC SCR
SCR
N

2
c

2

2
Application 5.2
Test asymptotique de nullite de lensemble des paramètres
On a vu que lorsque lon speciait la loi des residus comme une loi normale, on avait
F =
(SCR
C
SCR) /K)
SCR/(N K 1)
=
R
2
1 R
2
N K 1
K
.
Do` u

S = K

F =
R
2
1R
2
(N K 1). Sous H
0
il est facile de voir que R
2
P
0 quand N .
On a donc :

S NR
2
. On peut utiliser la statistique NR
2
et rejeter lhypothèse nulle si :
NR
2
> q
_
(1 ),
2
(K)
_
Demonstration On a :
N
_
R
b
mco
r
_
L
N
_
0, V
as
_
R
b
mco
_
=
2
R[E(x
i
x
i
)]
1
R
_
. On en deduit
N
_
R
b
mco
r
_
_
RV
as
_
b
mco
_
R
_
1
_
R
b
mco
r
_
L
2
p
.
On peut remplacer V
as
_
b
mco
_
par un estimateur convergent et appliquer Slutsky. Do` u, sous lhypothèse nulle,
H
0
: Rb
0
= r, et après simplication des N,
S = N
_
R
b
mco
r
_
_
R
V
as
_
b
mco
_
R
_
1
_
R
b
mco
r
_
=
_
R
b
mco
r
_
_
R
V
_
b
mco
_
R
_
1
_
R
b
mco
r
_
=
_
R
b
mco
r
_
_
R(x
x)
1
R
_
1
_
R
b
mco
r
_

2
= p
F
L
2
(p) , sous H
0
Ce resultat permet de montrer que le test deni par la region critique donnee est un test au niveau .
Sous H
1
on a en revanche R
b r Rb r = m = 0 et donc :
S/N =
_
R
b
mco
r
_
_
R
V
as
_
b
mco
_
R
_
1
_
R
b
mco
r
_
constante
et

S . La puissance du test converge par consequent vers 1.
5.2.3 Test dhypothèses non lineaires
La theorie asymptotique permet de traiter des questions qui ne pouvaient pas etre abordees
auparavant. En eet, on peut vouloir tester des hypothèses non lineaires dans les paramètres.
Le modèle dit à retards echelonnes en constitue un exemple. Dans ce modèle on a une variable
dependante y
t
dependant dune variable x
t
et de ses retards : x
t1
, x
t2
, . . . , x
tL
: y
t
= +
0
x
t
+
L
x
tL
+u
t
. Une restriction frequemment imposee sur ces paramètres est quils soient
de la forme :
k
=
0
k
. Cela revient à imposer L 1 contraintes de la forme :
1
=

1
0
, . . . ,

L
1
L2
=

1
0
,

L
L1
=

1
0
qui sont typiquement non lineaires et ne peuvent donc etre testees dans le cadre precedent.
Dune fa con plus generale, on sinteresse si à des hypothèses de la forme : H
0
: g(b
0
) = 0, o` u
g(b) est un vecteur de p contraintes non lineaires sur les paramètres telle que
g(b
0
)
b
est de plein
rang (i.e.
g(b
0
)
b
_
g(b
0
)
b
inversible, o` u b
0
est la vraie valeur du paramètre).
Remarque 5.4 Si g(b) = Rb r, alors
g(b)
b
= R. On retrouve donc la condition sur le rang

de R.
Le resultat suivant permet de generaliser les tests precedents au cas non lineaire.
Proposition 5.7 Si

b
N
est un estimateur asymptotiquement normal de b :
N
_
b
N
b
_
L
^
_
0, V
as
_
b
__
et si on dispose dun estimateur convergent de la matrice de variance de lestimateur,

V
as
_
b
_
P
V
as
_
b
_
, alors :
N
_
g(
b)
b
V
as
_
b
_
g(
b)
b
_
1/2
_
g(
b) g(b)
_
L
^ (0, I
p
)
pour toute fonction g continue, derivable et ` a derivee continue, de dimension p 1.
Demonstration On applique la methode delta
3
. On sait que
N
_
g(
b) g(b)
_
L
N
_
0,
g(b)
b
V
as
_
b
_
g(b)
b
_
Cest à dire
N
_
g(b)
b
V
as
_
b
_
g(b)
b
_
1/2 _
g(
b) g(b)
_
L
N (0, I)
Comme
g(
b)
b
V
as
_
b
_
g(
b)
b
g(b)
b
V
as
_
b
_
g(b)
b
, on obtient le resultat par application du theorème de Slutsky.

Ce resultat permet detendre directement les tests precedents au cas dhypothèses non
lineaires :
(i) Cas dune seule contrainte, p = 1. On forme la statistique de Student :
T =
N
g(
b)
_
g(
b)
b
V
as
_
b
__
g(
b)
b
=
g(
b)
_
g(
b)
b
V
_
b
__
g(
b)
b
et on procède comme dans le cas dune contrainte lineaire.

(ii) Cas de plusieurs contraintes, p < K + 1. On calcule la statistique de Wald :
S = Ng(
b)
_
g(
b)
b
V
as
_
b
_
_
g(
b)
b
_
1
g(
b) = g(
b)
_
g(
b)
b
V
_
b
_
_
g(
b)
b
_
1
g(
b)
que lon compare au quantile 1 de la loi du chi-deux à p (le nombre de contraintes)
degres de liberte. On est contraint dans ce cas à la mise en oeuvre du test de Wald. Il ny
a pas danalogue simple du test de Fisher puisque lestimation du modèle sous lhypothèse
nulle ne peut etre faite simplement.
3
Voir Annexe, Proposition A.11
5.3. Exemple 59
5.3 Exemple
Pour illustrer les proprietes asymptotiques des tests, on reprend le meme cadre que celui
utilise pour etudier la puissance du test de Student. On simule donc un modèle un grand nombre
de fois avec des vraies valeurs dierentes sur lintervalle [0, 2] et on fait le test de legalite du
paramètre à 1. On va examiner comment les resultats sont modies lorsque lon met en oeuvre
le test de Student asymptotique, base sur la distribution dune loi normale et non plus le test de
Student base sur la loi de Student. On va aussi examiner comment ces resultats sont modies
lorsque les perturbations ne suivent plus une loi normale. On prendra lexemple dune loi de
Fisher à 1 et 5 degres de liberte, normalisee pour que son esperance soit nulle et sa variance
unitaire. On choisit cette loi car elle est asymetrique et que les lois de Fisher nont un moment
dordre 2 que si le deuxième degres de liberte est superieur à 4. On est donc dans un cas o` u les
hypothèses de convergence sont juste satisfaites.
[A FAIRE]
Resume
Ce chapitre est consacre à letude des proprietes de lestimateur des MCO en labsence dhy-
pothèse de normalite des residus. Dans ce cas plus general que celui que nous avons retenu
jusquà present nous avons montre les resultats suivants :
Proprietes asymptotiques de lestimateur des MCO. Sous les hypothèses H1 à H5,
lestimateur des MCO,

b
MCO
= (x
x)
1
x
y, est :
Convergent :

b
mco
P
b ;
Asymptotiquement normal :
N
_
b
mco
b
_
L
^ (0, V
as
) avec V
as
=
2
E(x
i
x
i
)
1
.
Estimation de la variance. Lestimateur
2
=
1
NK1
_
y x
b
mco
_
_
y x
b
mco
_
est
convergent :
2
P
2
. En outre :
N
V
_
b
mco
_
=

V
as
=
2
_
x
i
x
i
_
1
P
V
as
;
V
1/2
as
_
b
mco
b
_
=

V
1/2
_
b
mco
b
_
L
^ (0, I
K+1
).
Tests asymptotiques dhypothèses lineaires. Le test de region critique W est de
niveau asymptotique si lim
N
Pr
_
S W [H
0
_
= .
Test de Student asymptotique :

S =
N
c
b
mco
r
_
c

V
as
_
b
mco
_
c
=
c
b
mco
r
_
c

V
_
b
mco
_
c
L
^(0, 1).
Test de Wald asymptotique :

S =
_
R
b
mco
r
_
_
R(x
x)
1
R
_
1
_
R
b
mco
r
_

2
L
2
p
.
Test dhypothèse non-lineaire :

S =
N
_
g(
b)
b
V
as
_
b
_
g(
b)
b
_
1/2
_
g(
b) g(b)
_
L
^ (0, I
p
),
pour toute fonction g() de classe C
2
.
60 Chapitre 5.
Chapitre 6
Evaluation : Les estimateurs de
dierence
Levaluation des politiques publiques necessite souvent la connaissance de paramètres de
comportements des agents qui sont inconnus. La mesure de leet dune politique instaurant une
taxe sur certains produits fait ainsi intervenir les elasticites dore et de demande de ces biens.
De meme, leet dune politique favorisant le retour à lemploi, tel que lEarning Income Taxe
Credit aux Etats Unis ou la Prime pour lEmploi en France font intervenir lelasticite de lore
de travail. La mesure de ces paramètres est une preoccupation importante de leconometrie. Les
chapitres precedents ont montre la diculte de lestimation de ces paramètres et la necessite de
contextes observationnels très exigeants. La connaissance de ces paramètres permet dapporter de
nombreux eclairages sur les eets des politiques publiques. Par exemple lestimation dequations
dore de travail permet de mesurer la valeur que les agents accordent au temps libre. Levolution
dune telle valeur et sa dispersion dans la population est bien sur interessante dans le contexte
de la reduction du temps de travail. Connatre les paramètres structurels du comportements des
agents permet de mesurer ex ante les eets probables dune mesure de politique economique.
Elle permet aussi de mesurer leet de politiques ayant dej` a ete mises en oeuvre.
Exemple 7 Laroque Salanie (2000) Modelisation de lore de travail en fonction de la remuneration
et des transferts(modelisation dun salaire de reserve), modelisation de la demande de travail
(productivite dun travailleur). Il y a emploi si le salaire oert (la productivite) est superieur au
salaire de reserve et au smic. On peut alors examiner leet dun relèvement du smic ou leet
dune modication des transferts.
Ces evaluations reposent sur la specication de modèles de comportement et leur estimation.
De nombreux paramètres structurels sont susceptibles dintervenir et il est probable que les
conditions de lidentication de ces paramètres ne soient pas reunies pour chacun dentre eux.
On peut etre tente dapporter une reponse plus precise ` a une question plus generale. Plut ot que
levaluation dune politique basee sur la decomposition et la mesure des dierentes composantes
dune politique (eet via lore et via la demande par exemple) et qui necessitent lestimation de
tous les paramètres structurels (elasticites dore et de demande par exemple) on peut chercher
à repondre à la question globale quel a ete leet de la politique au total ? Ceci ne necessite que
lestimation de combinaisons des paramètres structurels et pas leur identication individuelle.
Une branche de leconometrie sest developpee fortement au cours des dernières annees qui
61
62 Chapitre 6. Evaluation : Les estimateurs de dierence
cherche à repondre à cette question. Cest essentiellement aux travaux de James Heckman que
lon doit ces avancees. Elle ne sinteresse quà des evaluations ex-post et aux situations dans
laquelle la politique in ne a concerne une partie de la population seulement. Par exemple
eet du relèvement du salaire minimum dans certains etats aux Etats Unis. Mise en place dun
système de formation pour les chomeurs, ou dun système daide à la recherche demploi (PAP)
etc... Lidee centrale est quune partie de la population benecie de la mesure et lautre non.
On peut sous certaines hypothèses, l` a aussi parfois exigeantes, retrouver leet de la politique
sur les individus qui en ont benecies, à partir de comparaisons entre les deux populations.
On voit bien que mesurer leet global de la politique mise en oeuvre de cette fa con est moins
exigeant que la mesure de lensemble des paramètres structurels sous-jacents. Seule la fa con dont
ils se combinent pour conduire au resultat nal compte. En pratique, on considère des politiques
se traduisant par le fait que la population va etre repartie dans dierents etats. On introduit
ainsi une variable appelee variable de traitement T prenant ses valeurs dans 0, 1, ..., M . Letat
T = 0 correspondant au fait de netre pas directement touche par la politique. On va sinteresser
principalement à la situation dans laquelle il ny a que deux etats : T 0, 1 . Les evaluations
auxquelles on procède sont des evaluations ex post : elles concernent les politiques qui ont ete
dej` a mises en oeuvre et ont dej` a produit leurs eets. Le but est de denir et de mesurer lampleur
de ces eets sur la base des information dont on dispose pour les individus traites et les individus
non traites. Cette approche est ainsi dite observationnelle car ancree dans lobservation des
eets dune politique.
Exemple 8 Stage de formation. La population va se decomposer en deux types dindividus :
ceux beneciant du stage T = 1,dits traites, et ceux nen beneciant pas T = 0, dits non traites.
Il sagit en fait du cas type qui a ete largement etudie par Heckman (voir Heckman Lalonde et
Smith (1999))
Exemple 9 Modication de certains paramètres de la legislation. Certains individus ne sont
pas concernes par le changement de legislation, dautres le sont. Un exemple pourrait etre le
relèvement du Smic : les individus dont la remuneration avant le relèvement se trouve entre
lancien et le nouveau smic sont dits traites et ceux dont la remuneration se trouve au del` a du
nouveau smic avant son relèvement sont dits non traites. Abowd, Kramarz et Margolis (1999)
utilisent les augmentations successives du Smic depuis 1981 pour comparer chaque annee les
pertes demploi des salaries rattrapes par le Smic avec celle des autres salaries.
6.1 Le Modèle causal
On denit pour chaque individu deux outputs potentiels y
1
et y
0
. y
1
est la variable aleatoire
caracterisant la situation de lindividu sil benecie de la mesure, par exemple sil suit le stage
de formation. y
0
est la situation de lindividu lorsquil ne benecie pas de la mesure par exemple
sil ne suit pas le stage.
Ces deux grandeurs existent pour chaque individu, quil benecie ou non de la mesure. On
denit leet causal comme etant :
= y
1
y
0
Il sagit donc de la dierence entre la situation dun individu lorsquil suit le stage avec sa
situation lorsquil ne le suit pas.
6.1. Le Modèle causal 63
6.1.1 Choix de la variable dinteret et choix de letat de reference
Le choix de la variable y est important. Lorsquil sagit devaluer une politique il est necessaire
de denir un critère. Concernant les stages de formation ce critère nest pas necessairement
evident. Il peut sagir de la situation vis à vis de lemploi, du salaire, de la valeur dun individu
sur le marche du travail, du bien etre de lindividu... Chacune de ces caracteristiques correspond
à une valorisation dierente du passage par un stage de formation et qui represente aussi le
point de vue de dierents agents.
La denition de letat de reference est aussi une question importante. On peut au moins
distinguer deux types de denitions pour letat de reference :
le traitement existe et on ny participe pas y
0
.
le traitement nexiste pas y
0
.
On pourrait denir un eet causal

= y
1
y
0
= (y
1
y
0
) + (y
0
y
0
) = + (y
0
y
0
) .
Le fait que y
0
puisse etre dierent de y
0
correspond à lexistence deets indirects. Le fait
quune mesure de politique economique soit prise peut aecter un individu meme sil nest pas
directement concerne par la mesure. Si on considère la situation dans laquelle deux individus
sont en concurrence pour un emploi et quil y a un stage disponible seulement, on con coit que
les deux grandeurs y
0
et y
0
soient dierentes, et quomettre les eets indirects puisse conduire
à une evaluation erronnee de la politique mise en oeuvre. Dans le cas du relèvement du smic
examine par Abowd Kramarz et Margolis, il est possible que la situation des individus non
concernes directement par le relèvement du smic, cest à dire les individus dont la remuneration
avant le relèvement du smic est au dessus de la nouvelle valeur soient aectes malgre tout par
le relèvement du smic. En eet ils ne sont plus en concurrence avec ceux dont la remuneration
etait en dessous du nouveau smic.
6.1.2 Paramètres dinteret
On sinteresse en general à deux types de paramètres :

TT
(x) = E (y
1
y
0
[T = 1, x)

ATE
(x) = E (y
1
y
0
[x)
Le premier paramètre est leet moyen du traitement sur les individus de caracteristiques x
ayant benecie de la mesure (Average Treatment Eect). Le second paramètre est leet moyen
du traitement sur les individus de caracteristiques x quils aient ou non benecie de la mesure
(Treatment on the Treated). Linterpretation des ces deux paramètres est dierente. Le premier
ne concerne que la mesure des gains pour les individus ayant benecie du traitement alors que le
second mesure leet du traitement sil etait etendu à lensemble de la population. Ils ont toutes
les chances detre dierents puisque vraisemblablement le gain que lon retire du traitement
conditionne la decision de participation.
Ces paramètres ne sont pas directement identies. Dans lideal on souhaiterait pouvoir iden-
tier la distribution jointe :
l (y
1
, y
0
, T)
Ceci permettrait didentier la loi jointe de leet causal et du traitement l (, T) , à la source
du calcul de nombreux paramètres presentant un interet. On observe en eet un individu soit
sil benecie du traitement soit sil nen benecie pas, mais jamais dans les deux situations à la
fois. Les observations sont ainsi :
_
T 1, 0
y = Ty
1
+ (1 T) y
0
Les donnees ne permettent didentier que l (T) , l (y
1
[T = 1) = l (y [T = 1) et l (y
0
[T = 0) =
l (y [T = 0) . On voit que cest toujours insusant pour estimer nimporte lequel des deux pa-
ramètres. En eet le premier paramètre secrit
ATE
= E (y
1
y
0
[T = 1, x) = E (y [T = 1, x)
E (y
0
[T = 1, x) , de telle sorte quil est necessaire didentier E (y
0
[T = 1, x) qui est inobserve.
Le second paramètre necessite lidentication non seulement de E (y
0
[T = 1, x) mais aussi de
E (y
1
[T = 0, x) .
Remarque 6.1 Ces paramètres sinterprètent comme les gains de surplus lies ` a la mise en
oeuvre de la politique ou ` a son extension. Si on considère les trois outputs potentiels pertinents :
y
1
, y
0
et y
0
, et les surplus

W
0
, W, W
T
, associes respectivement aux situations sans la politique,
avec la politique telle quelle a ete mise en oeuvre et lorsque la politique est etendue. On calcule
simplement les gains associes aux deux situations :
W
W
0
= N
_
P (T = 1) E
_
TT
(x) [T = 1
_
+E (y
0
) E ( y
0
) E (c [T = 1)
_
Lorsque la politique est mise en oeuvre et que les individus y participent librement, et
W
T

W
0
= N
_
E
_
ATE
(x)
_
+E (y
0
) E ( y
0
) E (c)
_
Lorsque la politique est etendue ` a toute la population. On voit que le premier paramètre est
pertinent pour juger de lecacite de la politique telle quelle a ete mise en oeuvre alors que
le second est pertinent pour juger de lopportunite de son extension. On voit egalement quune
evaluation complète doit aussi prendre en compte les eets indirects : la situation de reference
change par linstauration meme du dispositif. De meme une evaluation complète doit aussi faire
intervenir les co uts du traitement. Les deux paramètres consideres, bien que centraux napporte
donc quune partie de linformation necessaire ` a des evaluations complètes. Enn on remarque
que pour la première situation, la probabilite de suivre le traitement intervient aussi de facon
importante.
Remarque 6.2 Modelisation des outputs potentiels Une modelisation permet de mieux
comprendre la nature des paramètres
TT
(x) et
ATE
(x) et leurs dierences. On modelise :
_
y
1
=
1
+x
1
+u
1
y
0
=
0
+x
0
+u
0
o` u on fait lhypothèse que (u
1
, u
0
) x. Les coecients
0
et
1
sont des paramètres sus-
ceptibles de recevoir une interpretation economique : ce sont des paramètres structurels
caracterisant le comportement des agents. Les deux paramètres sont alors :
ATE
(x) = E (y
1
y
0
[x) =
1
0
+x(
1
0
)
et
TT
(x) = E (y
1
y
0
[x, T = 1) =
1
0
+x(
1
0
) +E (u
1
u
0
[x, T = 1)
6.1. Le Modèle causal 65
On voit que le premier paramètre ne fait intervenir que les variables observees et les pa-
ramètres structurels et est donc de ce fait un paramètre standard de leconometrie. Il nen
est pas de meme en revanche du second paramètre qui fait intervenir les caracteristiques
inobservees u
1
et u
0
. Les deux paramètres ne sont identiques que lorsquil y na pas
dheterogeneite inobservable dans leet du traitement, soit u
1
= u
0
ou lorsquune telle
heterogeneite existe mais nest pas prise en compte par les individus lors de la decision de
participation au programme T(u
1
u
0
) [x = 1.
6.1.3 Biais de selectivite
Denition 6.1 Lestimateur naf est celui qui correspond ` a la comparaison de la situation
moyenne des individus ayant fait lobjet dun traitement et celle de ceux nen ayant pas fait
lobjet
0
= y
T=1
y
T=0
Cest estimateur est très populaire, largement repandu mais potentiellement biaise. En eet
la situation moyenne des individus ne beneciant pas du traitement nest pas necessairement
la meme que celle qui est pertinente : la situation moyenne des individus ayant benecie du
traitement sil nen avait pas benecie.
Proposition 6.1 Pour que lestimateur naf soit un estimateur convergent de TT il faut que
laectation au traitement soit independante de loutput potentiel y
0
. Pour quil soit un esti-
mateur convergent de ATE, il faut que laectation au traitement soit independante des deux
outputs potentiels y
0
et y
1
.
Demonstration
0

0
= E (y
1
|T = 1) E (y
0
|T = 0)
= E (y
1
|T = 1) E (y
0
|T = 1) +E (y
0
|T = 1) E (y
0
|T = 0)
=
TT
+B
TT
On voit quil apparat un biais de selectivite : B
TT
= E (y
0
|T = 1) E (y
0
|T = 0) . Il est nul si y
0
T. Pour
ATE
on a
E (y
1
) = P (T = 1) E (y
1
|T = 1) + (1 P (T = 1)) E (y
1
|T = 0)
do` u
E (y
1
|T = 1) = E (y
1
) + (1 P (T = 1)) [E (y
1
|T = 1) E (y
1
|T = 0)]
de meme
E (y
0
|T = 0) = E (y0) P (T = 1) [E (y
0
|T = 1) E (y
0
|T = 0)]
do` u
0
(x) =
ATE
+ (1 P (T = 1)) [E (y
1
|T = 1) E (y
1
|T = 0)] +
P (T = 1) [E (y
0
|T = 1) E (y
0
|T = 0)]
=
ATE
+B
ATE
Il est necessaire davoir lindependance de T et du couple doutput potentiels (y
1
, y
0
) conditionnellement aux x.
Remarque 6.3 On voit en outre que

B
ATE
= B
TT
+ (1 P (T = 1)) [E (y
1
y
0
[T = 1) E (y
1
y
0
[T = 0)]
La deuxième source de biais provient de lheterogeneite du traitement, alors que la première
source de biais provient du problème classique dendogeneite de la variable de traitement.
6.2 Lestimateur des Dierences de Dierences
Le cadre des regressions precedentes permet de presenter certains estimateurs standards très
frequemment utilises. Il sagit de lestimateur Avant-Après ou Before-After, de lestimateur
en coupe Cross section et de lestimateur par double dierence Dierence in dierence
Les estimateurs Avant Après et par Dierence de dierence font intervenir le temps. On
suppose donc que le traitement est mis en oeuvre à une date t
0
et que lon dispose dinformations
sur les individus en t< t et en t > t pas necessairement pour des individus similaires.
6.2.1 Estimateur en coupe
Lestimateur en coupe est très proche de celui que lon pourrait deduire du modèle de
regression precedent. Le modèle sous sa forme generale secrirait comme :
y
t
=
0
+x
t
0
+T (
1
0
+x(
1
0
)) +u
0,t
+T
_
u
1,t
u
0,t
_
. .
v
t
Les estimateurs standards en coupe ignorent lheterogeneite de leet du traitement. Lequation
precedente se reecrit donc :
y
t
= +x
t
+Tc +u
t
Dans ce cadre le biais est simplement lie au fait que lon na pas forcement E (u
t
[x, T ) = 0. Le
biais a pour expression :
B
Cross
= E (u
t
[x, T = 1) E (u
t
[x, T = 0)
La mise en oeuvre de cet estimateur ne necessite que des informations en coupe sur une periode
suivant le traitement. Une version encore plus simple de cet estimateur consiste à negliger les
variables de conditionnement. Dans ce cas lestimateur est simplement
Cross
= y
t
T=1
y
t
T=0
6.2.2 Estimateur Avant-Après
Lestimateur avant après est base sur des informations sur des donnees temporelles dindivi-
dus ayant fait lobjet du traitement. Lidee generale est que les informations dont on dispose sur
les individus avant le traitement permettent de reconstituer ce quaurait ete leur situation en
labsence de traitement. Lestimateur est deni comme la dierence des moyennes des individus
traites après et avant le traitement. Dans sa forme la plus simple son expression est donnee par :
BA
= y
t
T=1
y
t
T=1
Dans le cadre des regressions precedentes il secrirait à partir des regressions :
y
t
= +x
t
+c +u
t
pour T = 1
y
t
= +xt +u
t
pour T = 1
Soit le modèle de regression :
6.2. Lestimateur des Dierences de Dierences 67
y
t
= +x
t
+c1
_
t = t
_
+u
t
1
_
t = t
_
+u
t
1 (t = t) pour T = 1
Il y a deux problèmes principaux avec cet estimateur. Le premier problème provient du biais
classique dej` a analyse. Le biais pour cet estimateur est donne par :
B
BA
= E (u
t
[x, T = 1) E
_
u
t
[x, T = 1
_
Supposons que le terme de perturbation soit la somme de deux elements : u
t
= u +
t
avec
t
non correle dans le temps, alors le terme de biais precedent se reecrit :
E (u
t
[x, T = 1) E
_
u
t
[x, T = 1
_
= E (u[x, T = 1) +E (
t
[x, T = 1)
E (u[x, T = 1) E
_
t
[x, T = 1
_
= E (
t
[x, T = 1) E
_
t
[x, T = 1
_
Si la decision de participation depend de la chronique des elements inobserves alors ce terme
est non nul. En particulier on a observe que la participation à des programme de formation aux
Etats-Unis etait en general associee à une baisse des revenus passes, cest à dire à des elements
t
faibles.
Le second terme de biais est encore plus radical. Supposons quen labsence de politique le
modèle secrive
y
t
=
t
+x
t
+u
t
Le
t
represente par exemple des chocs macroeconomiques. Alors le modèle precedent se reecrit :
y
t
=
t
+x
t
+
_
c +
t
t
_
1
_
t = t
_
+
_
u
t
1
_
t = t
_
+u
t
1 (t = t)
_
pour T = 1
Il est impossible de separer leet du traitement de leet de chocs macroeconomiques.
Remarquons que si le traitement sadresse à des individus qui sont reperables ex ante :
T = z Z , alors lestimateur precedent ne necessite pas de donnees temporelles. Seules des
coupes successives pour les individus tels que z Z sont necessaires.
6.2.3 Estimateur par dierence de dierence.
Cet estimateur combine les deux estimateurs precedents. Il correspond à la situation dans
laquelle le traitement correspond à la realisation à partir dune date donne dun certain nombre
de conditions deligibilite qui sont observables. On peut donc denir une variable T correspondant
aux conditions deligibilite, sur des observations temporelles. Elle ne correspond au traitement
que pour t = t posterieur à la date de traitement. Dans le cadre du modèle de regression
precedent, il correspond à la situation dans laquelle on introduit une indicatrice correspondant à
la date, une indicatrice correspondant aux conditions deligibilite et le produit croise indicatrice
temporelle post et conditions deligibilite :
y
t
= x
t
+
c
+
t
1
_
t = t
_
+
T
T +
t,T
T1
_
t = t
_
+v
t
Proposition 6.2 Lorsque le biais dune estimation en coupe est constant dans le temps ce qui
est equivalent au fait que le biais avant-après soit le meme pour les eligibles et les non eligibles, la
regression introduisant comme variables une indicatrice temporelle post, une indicatrice pour les
conditions deligibilite et le produit de ces deux variables permet destimer leet du traitement.
Demonstration On peut examiner à quoi correspondent ces dierents termes dans le cadre du modèle precedent :
y
t
= x
t
+
t
+cT +u
t
On a
E (y
t
|x
t
, t, T ) = x
t
+
t
+cT +E (u
t
|x
t
, t, T ) = x
t
+
t
+cT +E (u
t
|t, T )
On introduit m
t,T
= E (v
t
|t, T ) , on a
E (u
t
|t, T ) = m
t,1
T1
_
t = t
_
+m
t,0
(1 T) 1
_
t = t
_
+m
t,1
T1 (t = t) +m
t,0
(1 T) 1 (t = t)
= m
t,0
1
_
t = t
_
+m
t,0
1 (t = t) +
_
m
t,1
m
t,0
_
T1
_
t = t
_
+ (m
t,1
m
t,0
) T1 (t = t)
= m
t,0
+
_
m
t,0
m
t,0
_
1
_
t = t
_
+ (m
t,1
m
t,0
) T
+
__
m
t,1
m
t,0
_
(m
t,1
m
t,0
)
T1
_
t = t
_
On voit donc que les coecients de la regression secrivent :
c
= m
t,0
t
=
_
m
t,0
m
t,0
_
= B
BA
(T = 0)
T
= (m
t,1
m
t,0
) = B
Cross
_
t
_
t,T
=
__
m
t,1
m
t,0
_
(m
t,1
m
t,0
)
= B
Cross
_
t
_
B
Cross
(t)
t,T
=
__
m
t,1
m
t,1
_
_
m
t,0
m
t,0
_
= B
BA
(T = 1) B
BA
(T = 0)
Lestimateur par dierence de dierence resout donc directement le problème precedent dinstabilite du modèle
sous-jacent.
On en conclut que la regression en incluant une indicatrice correspondant au traitement, capture le biais
de selectivite de la coupe, en incluant une indicatrice temporelle capture le biais de lestimation Before After,
et quen introduisant le produit croise condition deligibilite indicatrice post elle va estimer le coecient +
B
Cross,t
B
Cross,t
= + B
BA,T=1
B
BA,T=0
. Le biais est donc nul dans le cas de lestimateur par dierence
de dierence lorsque B
Cross,t
B
Cross,t
= 0 ou encore si B
BA,T=1
B
BA,T=0
.
Si on reprend la modelisation simple des perturbations presentees pour lestimateur Avant
Après : u
t
= u +
t
La dierence des termes de biais secrit :
B
BA,T=1
B
BA,T=0
=
_
E (
t
[x, T = 1) E
_
t
[x, T = 1
__
_
E (
t
[x, T = 0) E
_
t
[x, T = 0
__
On voit que si la participation au traitement est conditionnee par des chocs negatifs sur la
variable doutput, alors ce terme nest pas nul.
On appelle cet estimateur dierence de dierence car dans le cas o` u il ny a pas de variables
explicatives il secrit simplement. Il necessite aussi en general des informations longitudinales sur
les individus traites et non traites. Dans sa forme la plus simple cet estimateur secrit simplement
DD
=
_
y
t
T=1
y
t
T=1
_
_
y
t
T=0
y
t
T=0
_
=

BA,T=1
BA,T=0
=
_
y
t
T=1
y
t
T=0
_
_
y
t
T=1
y
t
T=0
_
=

Cross,t
Cross,t
6.2. Lestimateur des Dierences de Dierences 69
6.2.4 Exemple : La Contribution Delalande
La contribution Delalande est une taxe sur le licenciement des travailleurs ages. Elle a ete
creee en 1987 à linstigation du depute Delalande. Dans le schema initial, le licenciement dun
salarie de plus de 50 ans conduisait à une taxe correspondant à 3 mois de salaire. Ce schema
initial a ete profondement modie à deux reprises, une fois en 1992 et une fois en 1998. Le
schema nal est particulièrement desincitatif puis quil conduit à une taxe correspondant à un
an de salaire pour les salaries de plus de 56 ans. dès 1992 lage seuil dentree dans le dispositif a
ete abaisse à 50 ans. Ce type de politique est susceptible davoir deux eets, lun direct et lautre
indirect. Leet direct correspond au fait que le licenciement des travailleurs ages deviennent
moins attractif et donc se reduise. Leet indirect correspond au fait que ce type de politique
est susceptible de rendre lembauche de salaries moins attractive et donc reduise les embauches.
A ce titre la modication du dispositif Delalande en 1992 introduisait une specicite qui permet
de mesurer lampleur de ce phenomène. A partir de 1992 les employeurs embauchant un salarie
de plus de 50 ans ne sont plus redevable de la contribution Delalande en cas de licenciement de
ce salarie. Une fa con naturelle detudier leet desincitatif de la contribution Delalande consiste
donc à comparer les taux dembauche de salaries de plus de 50 ans et de moins de 50 ans autour
de 1992. Lidee est que le renforcement important du dispositif en 1992 a conduit reduire les
embauches de salaries de moins de 50 ans. Dans la mesure o` u les demandeurs demploi de plus
de 50 ans ont ete exclus de ce dispositif, on ne doit pas observer de degradation similaire de
lembauche de chomeurs de plus de 50 ans. On peut donc examiner leet de la contribution
Delalande de dierentes fa cons :
Avant après : Comparaison de la variation du taux dembauche des moins de 50 ans entre
avant et après 1992
En coupe : Comparaison des taux dembauche des moins de 50 ans et des plus de 50 ans
après 1992
En Dierence de Dierence : Comparaison de la variation du taux dembauche des moins
de 50 ans et des plus de 50 ans avant et après 1992
On peut examiner cette question à partir des transitions Chomage-Emploi. LEnquete Emploi
fournit les informations necessaires. Dans lideal on souhaiterait comparer les taux dembauche
de chomeurs de juste moins de 50 ans et de juste plus de 50 ans. En pratique ceci nest pas
possible car il ny a pas susamment dobservations de ce type dans lenquete emploi. On est
amene à considerer des fenetres plus larges. On parvient aux resultats reportes dans le tableaux
6.1
Le tableau se presente en deux parties droite et gauche. La partie droite reporte les resultats
portant sur des comparaisons brutes, celle de gauche ceux obtenus lorsque lon corrige des
caracteristiques inobservables des agents. Chaque partie comprend trois colonnes correspon-
dant aux dierentes fenetres considerees : etroite, moyenne, large. Les quatre premières lignes
presentent les taux de retour à lemploi en CDI pour les moins de 50 ans et pour les plus de
cinquante ans avant 1992, puis après 1992.
On constate que le taux annuel de retour à lemploi des hommes de 48 ans, avant 1992,
etait de 20% en moyenne, quantite estimee de fa con peu precise comme en temoigne lecart-
type (2,9%). Le taux de retour à lemploi des plus de cinquante ans selève alors à 20,5% et est
lui aussi peu precisement estime. Cette imprecision tient largement à la taille de lechantillon
mobilise (1 211 individus-annees). Introduire des variables de controle ne change les ordres de
Fig.6.1 Estimation de leffet indirect de la contribution Delalande
48-51 ans 46-53 ans 44-55 ans 48-51 ans 46-53 ans 44-55 ans
20,0 20,3 19,7 19,4 20,0 18,8
2,9 1,7 1,3 2,8 1,7 1,2
20,5 14,9 13,7 19,1 14,5 13,9
2,9 1,4 1,0 2,7 1,4 1,0
14,3 14,6 14,9 14,6 14,7 14,8
1,7 1,0 0,8 1,7 1,0 0,8
14,6 15,2 13,0 15,3 15,5 13,4
1,8 1,1 0,8 1,8 1,1 0,8
-0,5 5,4 6,0 0,3 5,5 4,9
4,1 2,2 1,6 3,9 2,1 1,6
-0,3 -0,7 2,0 -0,6 -0,8 1,4
2,5 1,5 1,1 2,5 1,5 1,1
0,2 -6,1 -4,1 -0,9 -6,3 -3,5
4,7 2,7 2,0 4,6 2,6 1,9
Nombre d'observations 1 211 3 661 6 179 1 211 3 661 6 179
Avant 1992, diffrence -
50/+50
Aprs 1992, diffrence -
50/+50
Diffrence de diffrence
Sans contrles
Avant 1992, <50 ans
Avant 1992, >50 ans
Aprs 1992, <50 ans
Aprs 1992, >50 ans
Avec contrles
grandeur ni des paramètres, ni des ecarts-type. Cest cette imprecision qui motive le choix de
fenetres plus larges. Ceci conduit à introduire des individus moins directement representatifs
de la comparaison eectuee mais permet dobtenir des ecarts-type plus reduits. Lelargissement
conduit au resultat attendu : les taux bruts ou nets estimes sont beaucoup plus precis
Les cinquièmes et sixièmes lignes presentent les dierences entre les taux de retour à lemploi
des plus et des moins de 50 ans, avant et après 1992. Avant 1992, le taux de retour à lemploi
des moins de 50 ans est generalement plus eleve que celui des plus de 50 ans (dierence de 5,4
points pour la fenetre 46-53 ans). On constate que les ecarts-type sont beaucoup plus importants
que pour les estimations des taux eux-memes, ce qui provient du fait que (pour les taux bruts)
les estimateurs sont independants et que de ce fait la variance de leur dierence est la somme
des variances. Limprecision est très sensible pour la fenetre etroite si bien que la dierence
entre les taux nest pas statistiquement signicative. Dans les echantillons plus larges (pour les
deux autres fenetres), on voit apparatre un ecart positif et signicatif entre les taux de retour
à lemploi des plus et moins de 50 ans, avant 1992. Ce resultat nest pas totalement satisfaisant,
dans la mesure o` u le choix des fenetres dobservation etait motive par le fait que les deux
categories dindividus devaient etre très proches. Les dierences de taux de retour à lemploi
sinversent ou sattenuent après 1992, et restent plus sensibles au choix de la fenetre.
La dernière ligne du tableau presente les resultats en dierence de dierence, cest-à-dire
compare la fa con dont les ecarts de taux de retour à lemploi des plus et des moins de 50 ans
ont evolue entre les periodes anterieures et posterieures à 1992. La fenetre de 46-53 ans est
un bon compromis entre taille et comparabilite des echantillons. Selon cet estimateur, le taux
relatif de retour à lemploi se serait degrade pour les moins de 50 ans de 6,1 points (6,3 points
après controle des eets de structure). Cet eet est statistiquement dierent de 0, et il est dune
ampleur consequente. Il convient neanmoins de noter que leet napparat pas sur une petite
fenetre d age, peut-etre en raison dechantillons trop petits (les ecarts-type sont plus eleves), et
apparat attenue et à la limite de la signicativite si on considère la fenetre d ages elargie.
Chapitre 7
Le modèle lineaire sans lhypothèse
dhomoscedasticite
Nous avons considere jusquà present le modèle lineaire y
i
= x
i
b+u
i
en supposant que les ob-
servations sont Independantes et Identiquement Distribuees (IID). Sous cette hypothèse, nous
avons obtenu des resultats de convergence de distribution et doptimalite de lestimateur des
MCO. Nous avons vu egalement quil etait possible dassouplir cette hypothèse et de relacher
lhypothèse ID pour quelle ne porte que sur les moments dordre 1 et 2 de la loi des per-
turbations conditionnellement aux variables explicatives (Chapitre 5). Les hypothèses centrales
portaient dans ce cas sur lesperance des perturbations, E (u
i
[x) = 0 qui est une condition
didentication et sur leur matrice de variance-covariance, V (u
i
[x) =
2
et Cov (u
i
, u
j
[x) = 0
soit V (u[x) =
2
I cest à dire une variance des perturbations conditionnelle aux variables
explicative independante des variables explicatives ainsi que labsence de correlation entre les
perturbations. Ces hypothèses sont appelees hypothèses dhomoscedasticite. Elles restent as-
sez restrictives puisquelles imposent que les residus de regression sont caracterises par une meme
variance et sont independants entre eux. Comme nous le verrons, beaucoup dapplications du
modèle lineaire sont susceptibles de ne pas respecter ces hypothèses. Ce chapitre etudie ces
situations, dites dheteroscedasticite.
7.1 Le modèle heteroscedastique
Formellement, on parle de modèle heteroscedastique lorsque lhypothèse H
2
: V (u[x) =
2
I nest pas veriee. La matrice de variance-covariance du residu de regression nest donc plus
une matrice diagonale dont les elements non-nuls sont egaux entre eux.
Denition 7.1 On appelle modèle lineaire heteroscedastique le modèle dans lequel un vecteur
de variables aleatoires y depend lineairement de K +1 variables explicatives x, y = xb +u, sous
les hypothèses :
H
H
1
: E (u[x) = 0 ;
H
H
2
: V (u[x) = = (x, ) inversible ;
H
H
3
: x
x inversible.
Le modèle heteroscedasticique decrit donc toute situation dans laquelle la matrice de va-
riance covariance du residu est dierente de
2
I. Il existe de nombreuses fa con de secarter de
71
72 Chapitre 7. Le modèle lineaire sans lhypothèse dhomoscedasticite
cette matrice : les elements diagonaux peuvent etre dierents entre eux, les elements hors dia-
gonale peuvent etre non nuls et dierents les uns des autres ou encore lies entre eux, etc. On
distingue en ourte lheteroscedasticite relative aux perturbations : V (u[x) = V (u) ,=
2
I de
lheteroscedasticite relative aux variables explicatives V (u[x) ,= V (u). Il y a en consequence
de très nombreuses formes dheteroscedasticite, en fonction de la matrice de variance covariance
induite par le problème auquel on sinteresse. Les exemples ci-dessous presentent un certain
nombre de cas types dheteroscedasticite.
7.1.1 Modèle à coecients aleatoires
On sinteresse pour simplier à un modèle ne comportant quune seule variable explicative :
dim(x
i
) = 1. Le modèle est dit à coecents aleatoires si le paramètre qui guide la relation
entre x et y, b, nest pas considere comme un scalaire mais comme une variable aleatoire. Ce
sont alors les moments de la loi supposee pour b typiquement, moyenne et ecart-type qui
sont estimes plut ot que le paramètre lui-meme. Cette specication permet de prendre en compte
lheterogeneite de la relation au sein de la population. On peut alors interpreter la loi estimee
comme la distribution de b au sein de la population. Le modèle secrit dans ce cas :
y
i
= a +x
i
b
i
+v
i
b
i
= b +v
bi
On retient en general les hypothèses classiques pour chacun des deux termes derreur du modèle :
_
_
E (v
i
[X) = 0
E (v
i
v
j
[X) = 0 pour i ,= j
E
_
v
2
i
[X
_
=
2
v
_
_
E (v
bi
[X) = 0
E (v
bi
v
bj
[X) = 0 pour i ,= j
E
_
v
2
bi
[X
_
=
2
b
Pour simplier, on se limite egalement au cas o` u les termes derreur sont independants, soit :
E (v
bi
v
j
[X) = 0 i, j. En utilisant la forme particulière de b, le modèle secrit :
y
i
= a +x
i
b
i
+v
i
= a +x
i
(b +v
bi
) +v
i
= a +x
i
b +x
i
v
bi
+v
i
y
i
= a +x
i
b +u
i
o` u u
i
= x
i
v
bi
+v
i
Le terme derreur du modèle reecrit de cette fa con possède les proprietes suivantes :
E (u
i
[x) = E (x
i
v
bi
+v
i
[x)
= x
i
E (v
bi
[x) +E (v
i
[x)
= 0
E (u
i
u
j
[x) = E ((x
i
v
bi
+v
i
) (x
j
v
bj
+v
j
) [x)
= x
i
x
j
E (v
bi
v
bj
[x) +x
i
E (v
bi
v
j
[x) +x
j
E (v
i
v
bj
[x) +E (v
i
v
j
[x)
= 0 i ,= j
E
_
u
2
i
[x
_
= E
_
(x
i
v
bi
+v
i
)
2
[x
_
= E
__
x
2
i
v
2
bi
+ 2x
i
v
bi
v
i
+v
2
i
_
[x
_
= x
2
i
2
b
+
2
v
7.1. Le modèle heteroscedastique 73
La matrice de variance covariance resume ces proprietes :
V (u[x) = Diag
_
2
v
+x
2
i
2
b
_
,=
2
I
N
Dans le cas de ce modèle à coecients aleatoires, la matrice est bien diagonale. Les elements
diagonaux sont en revanche des fonctions de x
i
, de sorte que la variance du terme derreur dière
dune observation à lautre.
7.1.2 Series temporelles
On parle de modèle de series temporelles lorsque les observations proviennent de dierentes
dates successives t 1, ..., T (annees, semaines, jours, . . . ). Le modèle considere secrit donc :
y
t
= x
t
b+u
t
. En raison de cette liaison temporelle entre les observations, on observe frequemment
dans ce type de modèle une correlation entre les residus. On maintient en general lhypothèse
E (u
t
[X) = 0, mais le terme derreur est caracterise par une structure de correlation qui diere
de 0. La matrice de variance covariance est alors quelconque. On peut adopter une specication
plus contrainte, en supposant que la variance des residus est constante et que le coecient de
correlation entre deux periodes ne depend que de lecart entre ces deux periodes : Cov (u
t
, u
ts
) =
2
u
s
. Pour un echantillon de taille T, la matrice de variance covariance du terme derreur du
modèle secrit alors :
V (u[x) =
2
_
_
_
_
_
_
_
_
_
1
1

2

T
1
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.

2
.
.
.
.
.
.
.
.
.
.
.
.

1
T

2
1
_
_
_
_
_
_
_
_
_
,=
2
I
T
Le nombre de paramètre de la matrice de variance tend vers linni lorsque la taille de lechantillon
augmente. Pour cette raison, on adopte en general des specications du terme derreur moins
generales, qui imposent une structure particulière aux correlations. Il existe plusieurs fa cons de
modeliser cette correlation.
1
On peut dabord considerer que les erreurs sont distribuees suivant une moyenne mobile.
Le terme derreur de lequation lineaire dinteret secrit alors : u
t
=
t
+
t1
avec : E (
t
[X) = 0,
E (
t
t
[X) = 0 pour t ,= t
et E
_
2
t
[X
_
=
2
. Le terme derreur à la date t subit donc linuence

de la realisation à la periode precedente du bruit blanc . On a alors :
E
_
u
2
t
[X
_
= E (
t
+
t1
)
2
= E
_
2
t
+ 2
t
t1
+
2
2
t1
_
=
2
_
1 +
2
_
E (u
t
u
t1
[X) = E (
t
+
t1
) (
t1
+
t2
) =
2
E (u
t
u
t
[X) = 0 t
t t
> 1
1
Les processus utilises dans le cadre des modèles de series temporelles sont etudies de facon plus approfondie
dans le Chapitre 9.
Pour un echantillon de taille T, la matrice de variance covariance secrit donc :
V (u[x) =
2
_
_
_
_
_
_
_
_
_
_
1 +
2
_
0 0
.
.
.
.
.
.
.
.
.
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.

0 0
_
1 +
2
_
_
_
_
_
_
_
_
_
_
,=
2
I
T
Le second modèle le plus frequemment utilise consiste à supposer que les erreurs sont dis-
tribuees suivant un processus autoregressif. Le terme derreur à la date t subit alors lin-
uence de sa propre realisation à la periode precedente, u
t1
. Le modèle secrit dans ce cas :
u
t
= u
t1
+
t
et on suppose l` a encore E (
t
[X) = 0, E (
t
t
[X) = 0 pour t ,= t
et
E
_
2
t
[X
_
=
2
. De simples manipulations permettent de montrer que le terme derreur u peut

secrire comme une somme innie des realisations passees du bruit blanc : u
t
=
s=0
ts
. Un
calcul similaire au precedent premet alors dobtenir :
E (u
t
u
tk
[X) = E
__
s=0
ts
__
s=0
tks
__
= E
___
k1
s=0
ts
_
+
_
s=k
ts
_
_
_
s=0
tks
_
_
= E
_
k
_
s=k
ts
__
s=0
tks
__
=
2
k
__
1
2
_
Pour un echantillon de taille T, la matrice de variance covariance secrit donc :
V (u[x) =
2
__
1
2
_
_
_
_
_
_
_
_
_
_
1
2

T
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.

2
.
.
.
.
.
.
.
.
.
.
.
.

T

2
1
_
_
_
_
_
_
_
_
_
,=
2
I
T
Contrairement au cas precedent, les modèles de serie temporelle maintiennent donc legalite
des termes de la diagonale, mais introduisent des correlations entre les periodes dobservation.
7.1.3 Modèle heteroscedastique en coupe
Un modèle est dit en coupe sil porte sur dierentes observations i 1, ..., N (pays, indivi-
dus, entreprises, . . . ) à une meme date. Le modèle considere secrit alors : y
i
= a +x
i
b +u
i
. Ce
type de problème est parfois caracterise par des variances dierentes dune observation à lautre.
En toute generalite, on a alors : E (u
i
[x) = 0, E (u
i
u
j
[x) = 0 pour i ,= j et E
_
u
2
i
[x
_
=
2
i
. La
matrice de variance covariance du terme derreur de la regression est alors :
V (u[x) = Diag
_
2
i
_
,=
2
I
N
A mesure que le nombre dobservations (N) saccrot, le nombre de paramètres inconnus tend
donc vers linni. Une solution frequemment retenue consiste à donner une forme particulière à
lheteroscedasticite. On suppose alors quil existe un nombre ni de paramètres, note , et une
fonction g (x
i
, ) tels que : E
_
u
2
i
[x
_
= g (x
i
, ). La matrice de variance covariance devient :
V (u[x) = Diag (g (x
i
, )) ,=
2
I
N
7.1. Le modèle heteroscedastique 75
Bien que la matrice reste diagonale, ce modèle dière donc du cas homoscedastique en raison
de variances dierentes dune observation à lautre.
7.1.4 Donnees de panel
Les modèles de donnees de panel cumulent les dicultes des donnees en coupe et des
series temporelles. Ils portent en eet sur des donnees à double indice, au sens o` u sont utilisees
des observations sur dierents individus, i = 1, . . . , N, observes pendant plusieurs periodes
succesives t = 1, . . . , T. Le nombre dindividus observes est en general grand ; le nombre de
periodes relativement faible. Le modèle secrit comme dhabitude :
y
it
= x
it
b +u
it
ou encore, en empilant les observations relatives à un meme individu :
y
i
1T
= x
i
1T
b + u
i
1T
On retient en general les hypothèses qui assurent dune part que la condition didentication
soit satisfaite, E (u
i
[x) = 0, et, dautre part, que les observations relatives à deux individus
dierents sont non correlees, E
_
u
i
u
j
[x
_
= 0 i ,= j. On nimpose pas, en revanche, lhypothèse
dabsence de correlation entre dierentes observations dun meme individu, E (u
i
u
i
[x) ,=
2
I
T
.
Le residu u
it
incorpore donc des elements inobserves permanents dans le temps.
Pour en tenir compte, le residu dun modèle de donnees de panel est frequemment modelise
suivant le modèle à erreurs composees, qui secrit : u
it
=
i
+w
it
avec E (w
i
w
i
[x) =
2
W
I
T
,
E (
i
w
i
[x) = 0 et E
_
2
i
[x
_
=
2
. On determine facilement la matrice de variance

= V (u
i
[x) =
_
_
_
_
_
_
+
2
W

2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2
+
2
W
_
_
_
_
_
_
ainsi que la matrice de variance covariance des residus empiles :
V (u[x) = I
N
,=
2
I
NT
Une transformation interessante du modèle consiste à considerer les dierences premières
y
it
= y
it
y
it1
, qui permet deliminer leet individuel. En notant :
y
i
=
_
_
_
_
_
_
y
iT
y
iT1
y
iT1
y
iT2
.
.
.
y
i2
y
i1
_
_
_
_
_
_
; x
i
=
_
_
_
_
_
_
x
iT
x
iT1
x
iT1
x
iT2
.
.
.
x
i2
x
i1
_
_
_
_
_
_
; u
i
=
_
_
_
_
_
_
u
iT
u
iT1
u
iT1
u
iT2
.
.
.
u
i2
u
i1
_
_
_
_
_
_
le modèle se reecrit : y
i
= x
i
b + u
i
et la matrice de variance des perturbations devient
alors :
= V (u
i
[x) =
2
_
_
_
_
_
_
2 1 0 0
1 2
.
.
.
0
0
.
.
.
.
.
.
1
0 0 1 2
_
_
_
_
_
_
Bien quelle ne soit pas conforme au cas homoscedasctique (un certain nombre delements
hors-diagonale sont non nuls), cette matrice sen rapproche considerablement puisquelle est
connue à une constante multiplicative pres,
2
.
7.1.5 Regressions empilees
Les modèles consideres jusquà present de comportent quune seule equation à estimer. On
est pourtant parfois amene à sinteresser à un ensemble dequations, reliant dierentes variables
expliquees à un meme ensemble de variables explicatives. Cest la cas, par exemple, si lon
sinteresse aux quantites echangees sur un marche : lore et la demande du bien considere sont
expliquees simultanement par une meme variable explicative, le prix.
2
On pourrait en toute
generalite vouloir estimer ces equations une par une. Ce serait possible mais cela peut ne pas
etre susant si lon souhaite, par exemple, examiner si certaines proprietes faisant intervenir des
coecients de dierentes equations sont satisfaites. Pour ce faire, on peut facilement generaliser
le cadre developpe jusquà present au cas dequations multiples. On parle alors de regressions
empliees.
Le modèle comporte dans ce cas M variables à expliquer, indicees m = 1, . . . , M et K + 1
variables explicatives. Pour chaque observation i = 1, . . . , N et pour chaque variable dependante,
le modèle secrit : y
mi
= x
i
b
m
+u
mi
. Lensemble du modèle considere est alors :
_
_
_
y
1i
.
.
.
y
Mi
_
_
_
=
_
_
_
x
i
0
0
.
.
.
0
0 x
i
_
_
_
_
_
_
b
1
.
.
.
b
M
_
_
_
+
_
_
_
u
1i
.
.
.
u
Mi
_
_
_
y
i
M1
= Diag
_
x
i
_
MM
b
M1
+ u
i
M1
On retient les hypothèses suivantes : E (u
i
[x) = 0, Cov
_
u
i
u
j
[x
_
= 0 i ,= j et V (u
i
[x) = .
Les residus u
mi
nont pas necessairement la meme variance et peuvent en outre etre correles entre
eux. La matrice de variance covariance des residus empiles a alors pour expression :
E
_
uu
[x
_
= I
N
,=
2
I
NT
Tel quil est ecrit ce modèle nimpose pas de contraintes entre les paramètres des dierentes
equations. On pourrait neanmoins se trouver dans une situation dans laquelle les paramètres
de la regression sont fonction dun paramètre alternatif de dimension plus faible : b = Hc, avec
dimb > dimc et H une matrice. Le modèle secrit dans ce cas :
y
i
= Diag
_
x
i
_
Hc +u
i
= x
i
c +u
i
Comme le montre lensemble de ces exemples, il existe une grande diversite de modèle po-
sant un problème dheteroscedasticite. A chacune de ces situations est associee une matrice de
variance-covariance particulière, dont la forme decoule du problème etudie. Les problèmes poses
par cette situation et les methodes permettant de la resoudre ont cependant un certain nombre
2
Cet exemple est developpe plus en detail dans le Chapitre 11.
7.2. Estimation en presence dheteroscedasticite 77
de points commun, qui sont developpes dans ce chapitre. Le Chapitre 8 traitera ensuite des as-
pects speciques lies aux modèles dans lesquels la matrice de variance covariance est diagonale
mais o` u les elements de la diagonale ne sont pas egaux entre eux ; le Chapitre 9 traitera quant
à lui des cas dautocorrelation, qui recouvre les situations dans lesquelles les elements hors
diagonale sont non nuls.
7.2 Estimation en presence dheteroscedasticite
Lheteroscedasticite conduit à remettre en cause lune des hypothèses sous lesquelles les MCO
ont ete etudies. Les proprietes de lestimateur en sont donc modiees.
H
, lestimateur des MCO,
b
MCO
= (x
x)
1
x
y, est sans
biais : E
_
b
MCO
[x
_
= 0 et sa variance est : V
_
b
MCO
[x
_
= (x
x)
1
x
x(x
x)
1
.
Demonstration On sait que

b
MCO
= (x
x)
1
x
y = (x
x)
1
x
(xb +u) = b + (x
x)
1
x
u. On a donc :
E
_
b
MCO
|x
_
= b +E
_
(x
x)
1
x
u|x
_
= b + (x
x)
1
x
E (u|x) = b
V
_
b
MCO
|x
_
= V
_
(x
x)
1
x
u|x
_
= (x
x)
1
x
V (u|x) x(x
x)
1
= (x
x)
1
x
x(x
x)
1
Proposition 7.2 (Proprietes asymptotiques.) Sous les hypothèses H

H
, auxquelles sajoute :
H
H
4
: Les moments [x
ki
x
li
[ existent.
lestimateur des MCO est convergent et asymptotiquement normal :
N(
b
MCO
b)
L
^(0, V
as
(
b
MCO
)), avec : V
as
(
b
MCO
) = [E(x
i
x
i
)]
1
E(u
2
i
x
i
x
i
) [E(x
i
x
i
)]
1
.
Demonstration Dans lexpression de lestimateur,
b
MCO
= b+(x
i
x
i
)
1
x
i
u
i
, lexistence des moments |x
ki
x
li
| de
x
i
garantie la convergence de x
i
x
i
P
E (x
i
x
i
). La seule chose quil y ait à montrer est donc la convergence de x
i
u
i
vers E (x
i
u
i
). Lexistence des moments dordre 1 et 2 de x
i
u
i
: E (x
i
u
i
) = 0 et V (x
i
u
i
) = E(u
2
i
x
i
x
i
) reunissent
les conditions dapplication de la loi des grands nombres. On a donc : x
i
u
i
P
E (x
i
u
i
) = 0 et par consequent :
b
MCO
P
b.
Pour demontrer la normalite asymptotique, la seule question est suspens est là encore celle de la convergence
de
Nx
i
u
i
. Lexistence des moments dordre 1 et 2 de x
i
u
i
permettent dappliquer le Theorème Central Limite qui
garanti que
Nx
i
u
i
L
N
_
0, E(u
2
i
x
i
x
i
)
_
. Par le theorème de Slutsky, on sait en outre que : (x
i
x
i
)
1
P
E(x
i
x
i
)
1
.
Il en resulte que :
N
_
b
MCO
b
_
=
Nx
i
x
i
1
x
i
u
i
L
N
_
0, E
_
x
i
x
i
_
1
E(u
2
i
x
i
x
i
)E
_
x
i
x
i
_
1
_
Lune des proprietes importantes des MCO, labsence de biais, reste donc valide en presence
dheteroscedasticite. La formule de la variance de lestimateur, en revanche, est considerablement
modiee. Lorsque les MCO sont appliques à un modèle heteroscedastique, ce sont donc les
ecarts-type des paramètres qui sont aectes. Dans le cadre du modèle lineaire, lexistence
dheteroscedasticite remet donc en cause le calcul de la precision des estimateurs et, correlati-
vement, la validite des dierents tests que lon peut mettre en uvre en transposant directement
les procedures issues de lhypothèse IID. Lestimateur des Moindres Carres Generalises permet
de remedier à ce problème.
7.2.1 La methode des Moindres Carres Generalises
Lestimateur des Moindres Carres Generalises (MCG) consiste à prendre explicitement en
compte la forme particulière de la matrice de variance-covariance du residu. Compte tenu des
proprietes doptimalite de lestimateur des MCO (Theorème de Gauss-Markov), la methode des
MCG consiste à chercher une transformation du modèle telle que le modèle transforme respecte
lensemble des hypothèses de validite de lestimateur des MCO. Pour ce faire, on sappuie sur
une methode dite de sphericisation des observations.
3
La sphericisation repose sur une matrice
1/2
, associee à la matrice de variance-covariance
du residu, , telle que :
1/2
1/2
= I. Loperation de sphericisation consiste alors à pre-
multiplier le modèle par cette matrice :
1/2
y =
1/2
x b +
1/2
u
y = x b + u
Remarque 7.1 La decomposition de sphericisation nest pas unique. On peut par exemple
choisir
1/2
semi-denie positive ; mais on peut aussi la choisir de telle sorte quelle ait dautres
proprietes. Un choix qui peut etre utile est celui dans lequel la matrice est triangulaire inferieure.
Gr ace à cette operation, le modèle transforme respecte alors toutes les conditions de validite
de lestimateur des MCO.
Proposition 7.3 Soit
1/2
une matrice telle que :
1/2
1/2
= I. Le modèle sphericise
par cette matrice : y = xb + u, o` u y =
1/2
y, x =
1/2
x et u =
1/2
u, est tel que :
H
H
1
: E ( u[ x) = 0 ;
H
H
2
: E ( u u
[ x) = I ;
H
H
3
: x
x est inversible.
Demonstration En sappuyant sur les proprietes de la matrice de sphericisation
1/2
, on a :
E ( u| x) = E
_
1/2
u
1/2
x
_
E ( u u
| x) = E
_
1/2
uu
1/2
1/2
x
_
=
1/2
E (u|x) = 0 =
1/2
E (uu
|X)
1/2
=
1/2
1/2
= I
et : x
x = x
1/2
1/2
x = x
1
x.
Sous ces hypothèses, on sait que lestimateur des MCO est lestimateur lineaire sans biais à va-
riance minimale. Cest donc le meilleur estimateur lineaire des paramètres du modèle transforme.
Lestimateur des MCG du modèle non transforme (y = xb +u) est precisement lestimateur des
MCO des coecients de la regression de y sur les colonnes de x :
b
MCO
=
_
x
x
_
1
x
y =
_
x
1
x
_
1
x
1/2
1/2
y
=
_
x
1
x
_
1
x
1
y =
b
MCG
(7.1)
3
Voir lAnnexe, Section A.1.2, pour une presentation formelle de la sphericisation de matrices.
Intuitivement, lestimateur des MCG apparat donc comme lestimateur des MCO dun
modèle transforme de telle fa con que toutes les hypothèses de validite des MCO soient res-
pectees. Formellement, on peut aussi comprendre lestimateur des MCG comme la solution du
programme de minimisation de la distance entre les observations et lespace engendre par les va-
riables explicatives, non plus dans la metrique canonique de R
N
, mais dans celle correspondant
à
1
.
Denition 7.2 Lestimateur des MCG,

b
MCG
, est la solution du problème : min
_
_
y xb
_
_
2
1
.
H
lestimateur des MCG existe, il est unique et est
donne par :

b
MCG
=
_
x
1
x
_
1
x
1
y.
Demonstration Les conditions du premier ordre du programmme de minimisation presente dans la Denition
7.2 secrivent :
_
_
_y x
b
_
_
_
2
1
b
= 2x
1
_
y x
b
_
= 0 x
1
x
b = x
1
y
La matrice hessienne de lobjectif a pour expression :
yx
b
2
1
bb
= 2x
1
x. Sous les hypothèses H
H
, la
matrice x
1
x est inversible, symetrique et positive. On a donc a = 0 R
K+1
, xa = 0 sans quoi la matrice
x
x ne serait pas inversible. Comme est inversible on a en outre (xa)
1
xa > 0. Do` u :
yx
b
2
1
bb
< 0. Les
conditions du premier ordre sont donc necessaires et susantes pour que la solution du programme soit bien un
minimum. Cette solution est egale à :

b
MCG
= (x
1
x)
1
x
1
y dont lexistence est garantie par le fait que
x
1
x est inversible.
7.2.2 Proprietes de lestimateur des MCG
H
, lestimateur des MCG est sans biais :
E(
b
MCG
[x) = b.
Demonstration Par denition, on a
b
MCG
= (x
1
x)
1
x
1
y = (x
1
x)
1
x
1
(xb +u) et donc :
b
MCG
=
b + (x
1
x)
1
x
1
u. En utilisant cette expression, on a donc :
E
_
b
MCG
|x
_
= b +E
_
(x
1
x)
1
x
1
u|x
_
= b + (x
1
x)
1
x
1
uE (u|x) = b
Proposition 7.6 (Th. de Gauss Markov) Sous les hypothèses H

S
, lestimateur des MCG
est lestimateur lineaire sans biais de variance minimale, egale ` a : V(
b
MCG
[x) = (x
1
x)
1
.
Demonstration A partir de lexpression developpee de lestimateur des MCG,

b
MCG
= b + (x
1
x)
1
x
1
u,
on a :
V
_
b
MCG
|X
_
= V
_
(X
1
X)
1
X
1
U |X
_
= (X
1
X)
1
X
1
V (U |X)
1
X(X
1
X)
1
= (X
1
X)
1
X
1
X(X
1
X)
1
= (X
1
X)
1
Loptimalite provient quant à elle directement du fait que nimporte quel estimateur lineaire sans biais du pa-
ramètre est aussi un estimateur lineaire sans biais du paramètre dans le modèle sphericise. Or dans ce modèle
lestimateur des MCO est optimal et cet estimateur est celui des MCG :

b
MCG
=
b
MCO
et

b
MCO
est optimal.
Les proprietes algebriques de lestimateur des MCO du cas homoscedastique se transposent
donc directement au cas des MCG. Cest tout linteret de loperation de sphericisation du modèle.
An de voir concretement comment trouver la matrice
1/2
, nous proposons ci-dessous un
certain nombre dexemples tires des applications presentes dans la Section 7.1.
7.2.3 Applications
(i) Sphericisation du modèle heteroscedastique en coupe.
On a vu que, lorsque la forme de lhetroscedasticite est connue (Section 7.1.3), la matrice
de variance des perturbations de ce modèle secrit : V (u[x) = Diag (g (x
i
, )). On verie di-
rectement que pour sphericiser le modèle on peut utiliser la matrice
1/2
= Diag
_
g (x
i
, )
1
2
_
.
(ii) Sphericisation du modèle à perturbation AR(1).
Pour ce modèle, nous avons vu (Section 7.1.2) que la matrice de variance covariance est :
V (u[x) =

2
1
2
_
_
_
_
_
_
_
_
_
1
2

T
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.

2
.
.
.
.
.
.
.
.
.
.
.
.

T

2
_
1 +
2
_
_
_
_
_
_
_
_
_
_
Une matrice de sphericisation associee à cette matrice de variance covariance est :
1/2
=
_
_
_
_
_
_
_
_
_
_
_
_
_
1
2
0 0
1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 0
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Lestimateur des MCG peut alors etre calcule comme lestimateur des MCO du modèle :
_
_
_
_
_
_
y
1
_
1
2
y
2
y
1
.
.
.
y
T
y
T1
_
_
_
_
_
_
=
_
_
_
_
_
_
x
1
_
1
2
x
2
x
1
.
.
.
x
T
x
T1
_
_
_
_
_
_
b +
_
_
_
_
_
_
u
1
_
1
2
u
2
u
1
.
.
.
u
T
u
T1
_
_
_
_
_
_
(iii) Sphericisation du modèle à erreurs composees.
Nous avons vu (Section 7.1.4) que pour un modèle de donnees de panel dans lequel les residus
sont modelises comme u
it
=
i
+
it
avec independance des
i
et des w
it
, la matrice de variance
secrit
V (u
i
) =
_
_
_
_
_
_
+
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

2
+
2
_
_
_
_
_
_
Les modèles de donnees de panel sont en general etudies en sappuyant sur deux operateurs
speciques : loperateur Between et loperateur Within.
4
Pour les denir, on note J
T
la matrice
T T dont tous les elements sont egaux à 1, et e
T
= (1, . . . , 1) le vecteur ligne forme de T
colonnes de 1. Les deux objets sont lies par la relation : J
T
= e
T
e
T
.
Loperateur Between consiste à multiplier la matrice dobservations par la matrice : B =
J
T
T
.
Lorsquil est applique aux observations, cet observateur produit la moyenne individuelle des
observations de lindividu i, notee z
i
= (z
i1
+ +z
iT
) /T. On a donc : Bz
i
= e
T
z
i
. Loperateur
Within, deni par la matrice W = I
T
B, produit le vecteur forme des ecarts à la moyenne
individuelle Wz
i
= ((z
i1
z
i
) + + (z
iT
z
i
))
. Les matrices W et B sont symetriques et

semi-denies positives. Elles verient en outre les proprietes suivantes :
B
2
= B ; W
2
= W
BW = WB = 0
Par extension, on appelle estimateur Between (Within) lestimateur des MCO applique au
modèle transforme par la matrice B (W). Outre leur interet pour lestimation de modèles de
donnees de panel, ces operateurs permettent egalement de decomposer la matrice de variance
covariance des perturbations du modèle à erreurs composees. On a en eet :
V (u
i
) =
2
J
T
+
2
I
T
=
_
+T
2
_
B +
2
W
Les matrices de la forme B + W sont stables par multiplication (B +W) (
B +
W) =
B +
W. On en deduit que :
V (u
i
)
1/2
=
1
_
(
2
+T
2
)
B +
1
_
W W +
(
2
+T
2
)
B = I +B
o` u =
_
/ (
2
+T
2
) 1. Par denition, cette matrice permet de sphericiser le modèle

an dappliquer la methode des MCG. En raison de la forme particulière de cette matrice,
V (u
i
)
1/2
= I +B, loperation de sphericisation consiste ici à ajouter aux observations (y
it
et
x
it
) le produit de et de la moyenne individuelle des observations (resp. y
i
et x
i
).
Si loperation de sphericisation qui denit lestimateur des MCG permet de retrouver les
proprietes doptimalite de lestimateur des MCO, cette operation peut etre dun interet pratique
limite : les paramètres de la matrice de sphericisation sont en general inconnus, ce qui interdit
la mise en pratique directe de la methode des MCG. Dans lillustration precedente, le paramètre
sur lequel repose la sphericisation depend ainsi de la variance des termes derreur du modèle,
qui sont inconnus. Lestimateur des Moindres Carres Quasi-Generalises permet de resoudre cette
diculte.
4
Voir Dormont (1989) pour une presentation detaillee des techniques propres aux modèles de donnees de panel.
Application 7.1
Estimation MCQG du modèle à erreurs composees
La matrice de sphericisation du modèle à erreurs composees est : V (u
i
)
1/2
= I + B, o` u
=
_
/ (
2
+T
2
) 1. Le paramètre est inconnu. Il existe cependant plusieurs fa cons

dobtenir un estimateur de . La première consiste à exploiter la forme de la matrice de variance
covariance des residus : la matrice de variance covariance des residus de lequation estimee par
les MCO constitue en eet un estimateur de cette matrice, qui permet de remonter aux variances
estimees des residus.
Une autre solution consiste à exploiter les regressions annexes fournies par les estimateurs
Between et Within. La variance residuelle de lestimateur Between est
2
B
=
2
+
2
/T, celle
de lestimateur Within est
2
W
=
2
(T 1) /T. On a donc :
2
=

2
(
2
+T
2
)
=

2
W
T/ (T 1)
2
B
T
=

2
W
(T 1)
2
B
Les variances estimees des residus de chacun de ces modèles fournissent donc une estimation
de ,

, et lestimateur des MCQG peut alors mis en uvre à partir de la matrice

V (u
i
)
1/2
=
I +

B.
7.3 Lestimateur des Moindres Carres Quasi-Generalises
La matrice de variance des perturbations est en general inconnue. Il en resulte que lestima-
teur des MCG et la matrice de variance des MCO ne sont pas calculables. Une fa con naturelle
de contourner cette diculte consiste à un estimateur de cette matrice et à remplacer dans
lexpression de lestimateur des MCG la matrice par son estimateur.
Denition 7.3 Soit

un estimateur de . On appelle estimateur des Moindres Carres
Quasi-Generalises lestimateur :

b
MCQG
= (x
1
x)
1
x
1
y.
Lestimateur des MCQG nest en general pas sans biais ni lineaire en y puisque

depend
de y. Les proprietes de
b
MCQG
ne peuvent donc etre quasymptotiques. On sinteresse donc à la
convergence et à la distribution asymptotique des estimateurs. Comme lont montre les exemples
presentes dans la Section 7.1, lheteroscedasticite recouvre une grande diversite de situations.
Lestimateur de la matrice de variance covariance utilise dans le cadre des MCQG varie donc
considerablement dune situation à lautre. Les proprietes asymptotiques de lestimateur des
MCQG vont donc dependre du cas considere, et il faudra examiner les proprietes asymptotiques
au cas par cas, suivant la nature de lheteroscedasticite.
Les deux prochains chapitres sont consacres à letude des proprietes de lestimateur des
MCQG pour les les trois grandes formes dheteroscedasticite que nous avons presente ici. Nous
nous interesserons ainsi aux cas o` u la matrice de variance des perturbations :
Chapitre 8 :
depend des variables explicatives (modèle ` a coecients aleatoires, modèle heteroscedasti-
que avec heteroscedasticite de forme connue). La matrice de variance covariance du
residu est alors de la forme : = I
N
h(x
i
, ).
Resume 83
depend de paramètres additionnels de dimension innie (modèle heteroscedastique pur
en coupe, series temporelles avec structure de correlation quelconque).
Chapitre 9 :
depend de paramètres additionnels de dimension nie. Lheteroscedasticite est alors
relative à des correlations entre observations, mais qui sont susamment regulières
(donnees de panel, regressions empilees, series temporelles). La matrice de variance
covariance du residu est alors de la forme : = I
N
() o` u est de dimension nie.
Resume
Le modèle y
i
= x
i
b +u
i
est dit heteroscedastique si V (u[x) ,=
2
I
N
.
Proprietes de lestimateur des MCO. Lestimateur des MCO du modèle heterosceda-
stique est sans biais ; sa variance est : V
_
b
MCO
[x
_
= (x
x)
1
x
x(x
x)
1
.
Estimateur des Moindres Carres Generalises. Il est denit comme lestimateur des
MCO du modèle sphericise (
1/2
y =
1/2
x b+
1/2
u), soit :
b
MCG
=
_
x
1
x
_
1
x
1
y.
Il partage donc les proprietes de lestimateur des MCO applique au modèle transforme.
En particulier, lestimateur des MCG est :
Sans biais : E
_
b
MCG
[x
_
= b ;
Lestimateur lineaire sans biais de variance minimale, egale à : V(
b
MCG
[x) = (x
1
x)
1
.
Estimateur des Moindres Carres Quasi-Generalises. Soit

un estimateur de .
Lestimateur des MCQG est :

b
MCQG
=
_
x
1
x
_
1
x
1
y.
84 Chapitre 7.
Chapitre 8
Le modele heteroscedastique en
coupe
Ce chapitre est consacre à lanalyse des modèles o` u lheteroscedasticite est liee aux variables
explicatives dun modèle de regression en coupe, y
i
= x
i
b+u
i
, sous hypothèse dheteroscedasticite.
On retient en particulier les hypothèses suivantes :
H
HP
2
: E (u
i
[x
i
) = 0 ;
H
HP
3
: V (x
i
u
i
) = E
_
u
2
i
x
i
x
i
_
existe ;
H
HP
4
: N x
i
x
i
et E(x
i
x
i
) sont inversibles.
Ce modèle se departit de lhypothèse dhomoscedasticite puisque lon impose plus lhy-
pothèse H
3
: V (u
i
[x
i
) =
2
. Comme la montre le Chapitre 7, les hypothèses H
HP
garantissent
neanmoins lexistence de lestimateur des MCO ainsi que son absence de bais. Le calcul des
ecart-types est en revanche aecte. La presence dheteroscedasticite modie donc la variance
estimee de lestimateur. Nous avons vu egalement quil existe dautres estimateurs plus precis
que celui des MCO. Ce chapitre repondra en consequence à deux questions distinctes :
1. Comment faire de linference robuste à cette situation dheteroscedasticite ?
Cette question revient à sinterroger sur lestimation de la matrice de variance de lestima-
teur des MCO. On peut y repondre sous des hypothèses generales en faisant un eort de
specication minimal du modèle, i.e. en laissant la variance des residus pour chaque obser-
vation etre specique à lindividu : V (u
i
[x
i
) =
2
i
. Repondre à cette question revient donc à
traiter le modèle heteroscedastique pur.
2. Comment mettre en uvre lestimateur des MCQG?
Cette question porte donc sur la mise en oeuvre destimateurs plus ecaces que les MCO. Pour y
repondre, il est necessaire de specier la forme de la variance à partir dun nombre de paramètre
restreint : V (u
i
[x
i
) = h(x
i
, ). Nous verrons que, dans ce cas, il est alors possible sous certaines
hypothèses de mettre en oeuvre des estimateurs asymptotiquement equivalents à lestimateur
des MCG. Les resultats des estimations sont neanmoins faiblement aectes par la mise en uvre
de cette procedure et la specication de la variance ; linference (le resultat des tests) est quant à
elle fortement liee à ces hypothèses. Dans la mesure o` u ces estimations sont en general realisees
dans de grands echantillons, le gain decacite est parfois modeste par rapport aux risques lies
à une mauvaise specication de la variance conditionnelle des residus. En consequence, la mise
85
86 Chapitre 8. Le modele heteroscedastique en coupe
en uvre de lestimateur des MCQG est dans ce cadre assez rare et la pratique se limite la
plupart du temps à appliquer les MCO pour obtenir une estimation des paramètres, puis à faire
de linference robuste à la presence dheteroscedasticite.
8.1 Inference robuste à lheteroscedasticite
Les resultats presentes ici sont vrais sous des hypothèses très generales, autorisant par
exemple que les observations ne soient pas equidistribuees ou encore que les regresseurs ne
sont pas distribues suivant une meme loi (voir Remarque 8.1). Par souci de simplication, on
se situe neanmoins dans un cadre plus proche de celui des chapitres precedents qui retient des
hypothèses dhomogeneite plus fortes :
H
HP
1
i
, x
i
) RR
K+1
sont independantes et equidistribuees ;
H
HP
5
: Les moments [x
ki
x
li
[ existent ;
H
HP
6
: Pour tout indice des variables explicatives l
1
, . . . , l
4
les moments u
2
i
[x
l
1
i
x
l
2
i
[,
[u
i
[ [x
l
1
i
x
l
2
i
x
l
3
i
[ et [x
l
1
i
x
l
2
i
x
l
3
i
x
l
4
i
[ existent.
La situation etudiee ici est donc beaucoup plus generale que le cadre homoscedastique et
admet, par exemple, que V (u
i
[x
i
) = g (x
i
) avec g quelconque pourvu que E(g (x
i
) x
i
x
i
) existe,
ce qui est garanti dès lors que V (u
i
x
i
) existe. Cette plus grande generalite est neanmoins payee
par une exigence plus forte sur la distribution des variables puisquil faut que les moments
des variables existent jusquà lordre 4 (Hypothèse H
HP
6
). Cette dernière hypothèse est utile
pour lestimation de la matrice de variance. Elle permet dobtenir la convergence en probabilite
des moments dordre 4. On voit quelle est exigeante et que, meme si elle est satisfaite, il sera
necessaire vraisemblablement quil y ait un grand nombre dobservations pour que la moyenne
empirique dun polyn ome de degre 4 des observations soit proche de sa valeur limite. Nimporte
quelle observation dans les queues de distributions aura en eet un impact important sur ces
moments qui ne sera resorbe que si le nombre dobservations est grand. Cest pourquoi la notion
de proprietes asymptotiques signie ici plus quailleurs que le nombre dobservations est grand.
8.1.1 Estimation robuste à lheteroscedascticite
HP
, lestimateur

V
_
b
MCO
_
= (x
i
x
i
)
1
u
2
i
x
i
x
i
x
i
x
i
1
est :
1. Convergent :

V (
b
MCO
)
P
V (
b
MCO
) ;
2. Asymptotiquement normal :
N

V (
b
MCO
)
1/2
(
b
MCO
b)
L
^ (0, I).
Demonstration La demonstration de la convergence de lestimation de la matrice de variance repose sur la
preuve de ce que : u
2
i
x
i
x
i
P
E
_
u
2
i
x
i
x
i
_
. En utilisant lexpression du residu, on a :
u
2
i
x
i
x
i
=
_
x
i
_
b
b
MCO
_
+u
i
_
2
x
i
x
i
= u
2
i
x
i
x
i
+
_
x
i
_
b
b
MCO
__
2
x
i
x
i
+ 2
_
b
b
MCO
_
x
i
u
i
x
i
x
i
Pour que le premier terme converge en probabilite vers son esperance, il est necessaire que les elements qui le
composent (u
2
i
x
l
1
i
x
l
2
i
) satisfassent la loi de grands nombres. Cette propriete est garantie par lHypothèse H
HP
6
.
Le troisième terme tend alors vers zero en probabilite puisque x
i
u
i
x
i
x
i
P
E (x
i
u
i
x
i
x
i
) = 0. Les elements qui
8.1. Inference robuste à lheteroscedasticite 87
Application 8.1
Correction de White dans les modèles de donnees de panel
Les resultats presentes se generalisent sans modication au cas des donnees de panel (ou, de
fa con equivalente, au cas de regressions empilees). Le modèle considere est alors
y
i
M1
= x
i
MK+1
b
K+11
+ u
i
M1
Sous lanalogue des hypothèses H
HP
(condition didentication E (u
i
[x
i
) = 0, exis-
tence de E (x
i
u
i
u
i
x
i
) ainsi que des moments des x
i
), lestimateur

V (
b
MCO
) =
(x
i
x
i
)
1
x
i
u
i
u
i
x
i
x
i
x
i
1
est convergent :

V (
b
MCO
)
P
V (
b
MCO
) et asymptotiquement nor-
mal :
N

V (
b
MCO
)
1/2
(
b
MCO
b)
L
^ (0, I).
constituent le second terme sont de la forme (b
k

b
kMCO
)(b
l

b
lMCO
)x
li
x
ki
x
l
1
i
x
l
2
i
. Les moments dordre 4
existent (Hypothèse H
HP
5
), on a donc : x
li
x
ki
x
l
1
i
x
l
2
i
P
E (x
li
x
ki
x
l
1
i
x
l
2
i
). Par ailleurs, on a : b
kMCO
b
k
P
0.
Le second terme tend donc lui aussi vers zero.
Remarque 8.1 Les resultats peuvent ` a nouveau etre generalises au cas dans lequel on ne fait
plus lhypothèse dequidistribution des residus, qui inclut notamment le modèle heteroscedastique
pur, dans lequel : V (u
i
[x
i
) =
2
i
.
Demonstration Tous les resultats decoulent de lapplication du theorème central limite de Liapounov à x
i
u
i
.
Il faut donc que la condition de Liapounov soit satisfaite. Si on considère
2
N
=
N
n=1
2
n
/N et si on considère
3
i
= E
_
u
3
i
|x
i
_
ainsi que
3
N
=
N
n=1
3
n
N, il sut que

3
N
(N
1
6
2
N
)
0, si par exemple les variables explicatives
sont IID. On sait qualors :
_
2
N
E (x
i
x
i
)
_
1
Nx
i
u
i
L
N (0, I).
Cet estimateur de la matrice de variance de lestimateur des MCO est connu sous le nom
de matrice de variance de White robuste à lheteroscedasticite. Il est très couramment
utilise et systematiquement propose dans les logiciels standards.
1
Cette correction consiste à
modier lexpression de lestimateur de la matrice de variance covariance des MCO an de
tenir compte de la presence dheteroscedasticite. En lappliquant, lestimation de la precision de
lestimateur des MCO devient convergente, ce qui permet en particulier dutiliser les ecart-types
estimes pour realiser des tests de signicativite des paramètres. La correction de White permet
ainsi, plus generalement, de retrouver les resultats dinference, tels que les tests dhypothèses.
8.1.2 Test dhypothèses
On sinteresse au test de q contraintes lineaires sur les paramètres : H
0
: Rb = r contre
lhypothèse alternative H
1
: Rb ,= r. Rappelons quun test est deni par une statistique de test,
S, dont la loi sous H
0
, L, permet de denir une region critique W =
_
S > q (L(p) , 1 )
_
o` u q (L(p) , 1 ) est le quantile dordre 1 de la loi L.
1
Le logiciel SAS fait exception à cette règle.
HP
:
N
_
R(x
i
x
i
)
1
u
2
i
x
i
x
i
x
i
x
i
1
R
_
1/2
_
R
b
MCO
r
_
L
^ (0, I
p
)
Un test de H
0
: Rb = r contre H
1
: Rb ,= r peut alors etre realise ` a partir de la region critique :
W =
_
S > q
_
2
(q) , 1
_
_
o` u :
S = N
_
R
b
MCO
r
_
_
R(x
i
x
i
)
1
u
2
i
x
i
x
i
x
i
x
i
1
R
_
1
_
R
b
MCO
r
_
L
2
(p)
Remarque 8.2 Ici encore, le principe du test se generalise au test dhypothèses non-lineaires
de la forme H
0
: g (b) = 0. La demonstration repose ` a nouveau sur la methode Delta. La statis-
tique de test est alors de la forme

S = Ng(
b)
_
g(
b)
b
V
as
(
b)
_
g(
b)
b
_
1
g(
b). La seule dierence

avec le cas homoscedastique est donc que la matrice de variance ` a prendre en compte est la
matrice de variance robuste.
Le principe du test de Fisher se generalise donc sans diculte au cas heteroscedastique.
Il consiste dans les deux cas à evaluer si R
b
MCO
r est proche ou non de zero. Dans le cas
homoscedastique, il etait possible de reecrire la statistique à partir des sommes des carres des
residus sous les hypothèses nulle et alternative. Cette simplication nest plus possible ici. En
pratique, il convient donc de verier la forme du test mise en uvre. La plupart des logiciels
proposent ainsi une fonction permettant dappliquer facilement le Test de Fisher, mais utilisent
pour ce faire la forme simpliee de la statistique. Lusage de cette fonction doit en consequence
etre reserve au cas homoscedastique.
8.1.3 Estimation sous contraintes lineaires
Soit Rb = r un ensemble de q contraintes lineaires sur les paramètres. Lestimateur des
moindres carres contraints est deni comme (Section 4.2) :
b
MCC
= (x
x)
1
x
y (x
x)
1
R
_
R(x
x)
1
R
1
_
R(x
x)
1
x
y r
La presence dheteroscedasticite dans le modèle ne modie pas lexpression de lestimateur,

qui peut egalement secrire comme une fonction de lestimateur des MCO :

b
MCC
=

b
MCO

(x
x)
1
R
[R(x
x)
1
R
]
1
[R

b
MCO
r]. Lestimateur des MCC partage donc de fa con naturelle
les proprietes presentees ci-dessus. En consequence, nous nous limitons ici à une presentation des
resultats, dont les demonstrations sobtiennent en adaptant les preuves fournies dans le Chapitre
?? au cas heteroscedastique.
Rappelons que les proprietes de lestimateur des MCC se deduisent de :

b
MCC
b =
_
I

H
_
x
i
x
i
1
x
i
u
i
, o` u

H = x
i
x
i
1
R
_
Rx
i
x
i
1
R
_
1
R. A partir de cette expression, on peut
montrer que lestimateur des MCC reste convergent et asymptotiquement normal sous les hy-
pothèses H
HP
(auxquelles sajoutent la validite des contraintes imposees) :
N(
b
MCC
b)
L
^
_
0, V
as
(
b
MCC
)
_
. Comme dans le cas des MCO, la variance asymptotique est quant à elle
modiee par la presence dheteroscedasticite :
V
as
(
b
MCC
) = [I H] E(x
i
x
i
)
1
E(u
2
i
x
i
x
i
)E(x
i
x
i
)
1
_
I H
8.2. Test dheteroscedasticite de Breush-Pagan 89

o` u H = E(x
i
x
i
)
1
R
_
R E(x
i
x
i
)
1
R
1
R. Un estimateur convergent de cette matrice est
obtenu en appliquant la correction de White :
V
as
(
b
MCC
) =
_
I

H
_
(x
i
x
i
)
1
u
2
i
x
i
x
i
x
i
x
i
1
_
I

H
_
P
V
as
(
b
MCC
)
Cet estimateur est convergent et asymptotiquement normal,
V
as
(
b
MCC
)
1/2
_
b
MCC
b
_
L
^ (0, I).
Si la presence dheteroscedasticite aecte la precision de lestimateur des MCO, nous avons
vu au Chapitre 7 quil reste convergent et asymptotiquement normal. La correction de White tire
parti de cette propriete et redonne à lutilisation des MCO sa validite gr ace à la modication de la
matrice de variance estimee. Cette correction permet alors de retrouver les resultats dinference
(tests dhypothèses, estimation contrainte) obtenus sous lhypothèse dhomoscedasticite.
Il convient cependant de rappeler que lapplication de cette correction est très exigente
quant aux hypothèses qui assurent la convergence de lestimation. Contrairement au modèle ho-
moscedastique, la convergence repose en eet sur celle des moments dordre 4 des variables expli-
catives. Les propreietes asymptotiques ne sont donc valides que dans de très grands echantillons.
En labsence dheteroscedasticite, à echantillon donne, les estimateurs des MCO convergent donc
beaucoup plus rapidement que ceux qui utilisent la correction de White. Cest pourquoi il est
preferable dappliquer la correction de White seulement dans les cas o` u les donnees suggèrent la
presence eective dheteroscedasticite. Cest le role du Test de Breush-Pagan.
8.2 Test dheteroscedasticite de Breush-Pagan
Lune des consequences de la presence dheteroscedasticite est que E
_
u
2
i
x
i
x
i
_
,= E
_
u
2
i
_
E (x
i
x
i
). Un test naturel dhomoscedasticite consiste donc à tester si legalite E
_
u
2
i
x
i
x
i
_
=
E
_
u
2
i
_
E (x
i
x
i
) est veriee dans les donnees. Cette egalite est veriee si et seulement si le vecteur
de residu est orthogonal à x
i
x
i
. La mise en uvre de ce test peut donc utiliser la nullite globale du
vecteur des coecients de la projection orthogonale de u
2
i
sur lensemble des variables explicatives
x
li
x
mi
, l, m K + 1, à lexception de la constante. On sinteresse donc au test de :
_
H
0
: E
_
u
2
i
x
i
x
i
_
= E
_
u
2
i
_
E (x
i
x
i
)
H
1
: E
_
u
2
i
x
i
x
i
_
,= E
_
u
2
i
_
E (x
i
x
i
)
Le test peut donc etre realise en testant la nullite jointe des coecients de la regression des
residus sur les termes : x
li
x
mi
, l, m K + 1.
2
Proposition 8.3 (Test de Breush-Pagan.) Dans le modèle de regression y
i
= x
i
b + u
i
sous les hypothèses H
HP
, le test de lhypothèse H
0
: E
_
u
2
i
x
li
x
mi
_
) = E
_
u
2
i
_
E (x
li
x
mi
) peut
2
Le test ne fait intervenir que la projection de u
2
i
et pas une modelisation particulière de la forme de
lheteroscedasticite. Il ne sagit donc pas, en particulier, de tester lhypothèse nulle H
0
: E
_
u
2
i
|x
i
_
=
2
contre la presence dune heteroscedasticite liee aux variables explicatives de la forme : H
1
: E
_
u
2
i
|x
i
_
=
K+1
l=1
K+1
m=1
x
li
x
mi
lm
. Lutilisation de cette specication permet au contraire de tester toute forme
dheteroscedasticite, en exploitant les proprietes dorthogonalite liees à la labsence dheteroscedasticite.
etre realise comme un test de nullite jointe de lensemble des coecients ` a lexception de la
constante dans le modèle de regression :
u
2
i
=
K+1
l=1
K+1
m=1
x
li
x
mi
lm
+v
i
(8.1)
sous les hypothèses de regularite : E (v
i
x
li
x
mi
) = 0 et E
_
v
2
i
x
li
x
mi
x
l
i
x
m
i
_
=
2
E (x
li
x
mi
x
l
i
x
m
i
).
Demonstration Nous montrons que, pour une variable z
1
de dimension 1 et une variable z
2
de dimension q, la
condition E (z
1
z
2
) = E (z
1
) E (z
2
) est analogue à la nullite de la valeur limite de lensemble des coecients, sauf
la constante, de la projection orthogonale de z
1
sur (1, z
2
).
Pour ce faire, il faut remarquer que les coecients de z
2
sauf la constante sont obtenus directement comme
ceux de la regression centree, cest à dire de la variable z
1
E (z
1
) sur z
2
E (z
2
). Lestimateur des MCO
de ces coecients a pour esperance E
_
__
z
2
E (z
2
)
[z
2
E (z
2
)]
1
_
E
_
(z
2
E (z
2
))
(z
1
E (z
1
))
= V
_
z
1
2
_
E
_
(z
2
E (z
2
))
(z
1
E (z
1
))
_
= V
_
z
1
2
_ _
E (z
2
z
1
) E (z
2
)
E (z
1
)
_
. Si cette expression est nulle (nullite des
coecients), on a donc bien : E (z
2
z
1
) = E (z
2
)
E (z
1
).
La realisation de ce test dheteroscedasticite requiert donc de connatre la loi asympto-
tique de lestimateur de . Cette loi pourrait etre derivee sous des conditions très generales,
nimposant pas en particulier de restriction sur les moments dordre 2, qui sont de la forme
E
_
v
2
i
x
li
x
mi
x
l
i
x
m
i
_
. En pratique, le test est cependant le plus souvent realise sous lhypothèse
dhomoscedasticite des residus v
i
, cest à dire en imposant que : E
_
v
2
i
x
li
x
mi
x
l
i
x
m
i
_
= E
_
v
2
i
_
E (x
li
x
mi
x
l
i
x
m
i
). Sous cette hypothèse, le modèle de regression (8.1) verie les hypothèses des
MCO et le test se reduit donc simplement à un test de la nullite globale des coecients dans
une regression lineaire. Un dernier problème pratique provient de ce que le vecteur de residus
nest pas observe. Le test est donc realise à partir du vecteur des residus estimes.
Proposition 8.4 Le test de Breush-Pagan (Proposition 8.3) peut etre mis en oeuvre ` a partir
dun test de nullite jointe des coecients sauf la constante du modèle de regression :
u
2
i
=
K+1
l=1
K+1
m=1
x
li
x
mi
lm
+v
i
incluant (K + 1) (K + 2) /2 variables. Sous H
0
, la statistique NR
2
suit un
2
((K + 1) (K + 2) /2 1).
Un test dheteroscedasticite convergent au niveau est deni par la region critique
_
NR
2
NR
2
>
q
_
2
((K + 1) (K + 2) /2 1) , 1 ).
Demonstration Nous montrons que lestimateur des coecients dans le modèle portant sur u est asympto-
tiquement equivalent à celui portant sur u. En notant z les elements du type x
li
x
mi
, il sut pour ce faire de
montrer que
N(z
i
u
2
i
z
i
u
2
i
)
P
0. On sait que u
i
= u
i
+x
i
(b
b) do` u lon deduit que z

i
u
2
i
= z
i
u
2
i
+2z
i
u
i
x
i
(b
b) + z
i
x
2
i
(b
b)
2
. Il en resulte que
N(z
i
u
2
i
z
i
u
2
i
) = 2z
i
u
i
x
i
N(b
b) + z
i
x
2
i
N(b
b)
2
. Sous les hypothèses
H
HP
, on sait que z
i
u
i
x
i
P
E (z
i
u
i
x
i
) = E (z
i
x
i
E (u
i
|x
i
)) = 0 et donc z
i
u
i
x
i
= o (1) et z
i
x
2
i
P
E
_
z
i
x
2
i
_
. On
sait en outre que
N(b
b)
L
N(0, V
as
), on a donc
N(b
b) = O(1) et z
i
x
2
i
N(b
b) = O(1). Comme
(b
b) = o(1), il vient que z

i
x
2
i
N(b
b)
2
= o(1). Enn, sachant que : z
i
u
i
x
i
= o(1) et
N(b
b) = O(1), on a
bien : z
i
u
i
x
i
N(b
b) = o(1).
En pratique, linteret de ce test dheteroscedasticite est dinformer sur les situations dans
lesquelles il est necessaire deectuer la correction de White. Si lhypothèse dhomoscedasticite est
acceptee, on pourra alors estimer la matrice de variance des estimateurs sous sa forme standard,
et eectuer les tests dhypothèses lineaires (Test de Fisher) à partir des sommes des carres des
residus, ce qui presente un interet pratique certain. Dans le cas contraire, il convient dutiliser
la matrice robuste de White et les tests doivent etre adaptes au cadre heteroscedastique.
8.2. Test dheteroscedasticite de Breush-Pagan 91
Application 8.2
Test de Breush-Pagan dheteroscedasticite lineaire dans les explicatives
lSi lon suspecte la presence dune heteroscedasticite lineaire dans un sous-ensemble des variables
explicatives, z, le test prend la forme :
_
H
0
: E
_
u
2
i
[x
i
_
=
2
H
1
: E
_
u
2
i
[x
i
_
=
2
+z
Le test de cette forme particulière dheteroscedasticite peut etre mis en uvre comme un test
de nullite jointe de tous les paramètres à lexception de la constante exceptee la constante dans
la regression :
u
2
i
= a
0
+z +v
i
incluant K
Z
variables (vecteur z). Sous H
0
, la statistique NR
2
suit un
2
(K
Z
). Un test convergent au niveau est donc deni par la region critique
_
NR
2
NR
2
> q
_
2
(K
Z
) , 1
__
.
Remarque 8.3 Sil existe de très nombreux tests dheteroscedasticite, le test de Breush-Pagan
reste de très loin le plus utile et le plus utilise en pratique. Un autre test assez populaire est
le Test de Goldfeld-Quandt, qui repose sur une partition des observations, classees par ordre
croissant de la variable explicative supposee causer lheteroscedasticite. Ce test est cependant de
moins ne moins utilise. Sa capacite ` a tester reellement labsence dheteroscedasticite est en outre
douteuse. Plut ot quune homoscedasticite pure, lhypothèse nulle du test est en eet labsence
de correlation entre le variable explicative et la variance des residus.
Tel que presente dans les Propositions 8.3 et 8.4, le test de Beush-Pagan permet de statuer sur
la presence dheteroscedasticite, remettant en cause les hypothèes des MCO, independamment
dune forme particulière à lorigine de cette propriete. Le test setend cependant facilement au
cas dans lequel on specie un modèle pour lheteroscedasticite. On pourrait ainsi supposer une
forme dheteroscedasticite particulière, telle que E
_
u
2
i
[x
i
_
=
2
+
x
li
x
mi
lm
, l, m K + 1
ou, plus generalement, E
_
u
2
i
[x
i
_
=
d<D
P
d
(x)
d
o` u P
d
designe un ensemble de fonction. Tester
la presence dune heteroscedasticite de cette forme reviendrait alors à tester la nullite jointe des
paramètres dans le modèle : u
2
i
=
d<D
P
d
(x)
d
.
Lorsquil est applique à une specication particulière dheteroscedasticite, le sens du test est
neanmoins dierent. Ce type de test porte en eet sur un parametrage de lheteroscedasticite,
tandis que le premier test ne porte que sur labsence de covariance entre le carre du residu et
les polyn omes dordre 2 des variables explicatives, dont le rejet suggère la presence de toute
forme dheteroscedasticite. Comme nous lavons vu, la connaisance de la forme particulière
dheteroscedasticite qui aecte les donnees nest pas necessaire pour apliquer la correction de
White. Postuler une forme particulière dheteroscedasticite est en revanche utile pour pour
mettre en uvre lestimateur des MCQG.
8.3 Lestimateur des MCQG
Lapplication de lestimateur des MCG necessite de connatre la forme de la matrice de
variance-covariance des residus. Pour ce faire, il convient donc de specier les moments dordre
1 (modèle lineaire) et 2 (matrice de variance-covariance) de la variable endogène conditionnel-
lement aux variables explicatives. On sinteresse alors ` a un modèle dans lequel :
E (y
i
[x
i
) = x
i
b
V (y
i
[x
i
) = h(, x
i
) > 0
o` u h est une fonction connue, mais un paramètre inconnu.
On sait que, dans ce cas, lestimateur des MCG est lestimateur lineaire sans biais le plus ef-
cace du paramètre b (Chapitre 7). Cet estimateur pourrait etre obtenu en appliquant les MCO
au modèle sphericise, cest à dire après avoir diviser les variables explicatives et la variable
dependante par
_
h(x
i
, ). Comme nous lavons vu, il nest pas possible de mettre en uvre
cette methode directement car le paramètre est inconnu. La methode des MCQG consiste alors
à substituer à ce paramètre inconnu un estimateur convergent

et de mettre en uvre lesti-
mation en divisant les variables par
_
h(x
i
,
). Le modèle est donc etudie sous les hypothèses

suivantes :
H
HP
2
: V (u
i
[x
i
) = h(, x
i
), o` u h(.) est une fonction mesurable et derivable ;
H
HP
6
: Il existe

=
0
+O
_
1/
N
_
o` u
0
est la vraie valeur du paramètre.
Denition 8.1 Dans le modèle heteroscedastique denit par les Hypothèses H
HP
, lestimateur
des MCQG est :
b
MCQG
=
_
_
x
i
x
i
h
_
x
i
,
_
_
_
1_
_
x
i
y
i
h
_
x
i
,
_
_
_
(8.2)
En raison de cette substitution du paramètre , les proprietes de lestimateur des MCQG
dependent des proprietes de lestimateur

. Cest pourquoi nous navons jusqualors pu obtenir
aucun resultat general sur les proprietes asymptotiques de lestimateur des MCQG. Pour la
forme particulière de matrice de variance-covariance retenue dans cette section, il sagit donc ici
detudier les conditions sous lesquelles lestimateur obtenu est asymptotiquement equivalent à
lestimateur des MCG et sera donc lestimateur de variance minimale. La demonstration de ce
resultat repose sur une hypothèse supplementaire.
H
HP
7
: Il existe une fonction d (x
i
) telle que E (d (x
i
)) < et :
Max
_
[x
li
u
i
[
h
1
(, x
i
)
, [x
li
u
i
[ h
1
(, x
i
) ,
l
1
i
x
l
2
i
h
1
(, x
i
)
_
< d (x
i
).
Cette hypothèse garantie la convergence uniforme en des moyennes empiriques de fonctions
de vers leur esperance : h
1
(, x
i
) x
i
x
i
P
E(h
1
(, x
i
) x
i
x
i
), h
1
(, x
i
) x
i
u
i
P
E(h
1
(, x
i
) x
i
u
i
)
et h
1
(, x
i
) x
i
u
i
P
E(h
1
(, x
i
) x
i
u
i
). Sous ces conditions, lestimateur des MCQG fonde
sur

est asymptotiquement equivalent à lestimateur des MCG.
8.3. Lestimateur des MCQG 93
Application 8.3
Estimation des MCQG dans le modèle en coupe
On considère le modèle en coupe y
i
= x
i
b + u
i
, sous hypothèse dheteroscedasticite. Lappli-
cation de la methode des MCQG necessite de connatre la matrice de variance-covariance.
Il faut donc specier la forme de lheterogeneite. Quelle que soit la specication consideree,
la première etape de lestimation des MCQG consiste à estimer le paramètre inconnu, ,
intervenant dans la matrice de variance covariance. Il en general obtenu en regressant le residu
estime de lequation dinteret sur les variables explicatives :
1 Calcul de

b
MCO
et des residus estimes : u
i
= y
i
x
i
b
MCO
.
Lestimation de depend quant à elle de la forme dheteroscedascticite consideree. Le
premier cas considere ici est celui dune heteroscedasticite lineaire dans k K + 1 variables
explicatives : E (u
i
[x
i
) =
k
l=1
k
m=1
x
li
x
mi
lm
. Lestimation de en decoule :
2 Regression de u
2
i
sur les variables x
li
x
mi
: u
2
i
=
k
l=1
k
m=1
x
li
x
mi
lm
+w
i
;
3 Construction dun estimateur de
i
par
i
=
_
k
l=1
k
m=1
x
li
x
mi
lm
.
La Proposition 8.3 a isole les conditions sous lesquelles lestimateur converge vers la vraie
valeur du paramètre. Cette specication a neanmoins linconvenient de ne pas imposer la
positivite de u
2
i
. Bien quelle soit naturelle, on lui prefère souvent pour cette raison dautres
traitement de lheteroscedasticite. Une forme privilegiee permettant de regler cette diculte est
la forme exponentielle : u
i
= v
i
exp(
k
l=1
k
m=1
x
li
x
mi
lm
). On suppose que v
i
est independant
de x
i
et que : E (v
i
) = 0, V (v
i
) = 1. On a donc E
_
u
2
i
[x
i
_
= exp(2
k
l=1
m=1
x
li
x
mi
lm
).
Avec cette forme, lestimation du paramètre est realisee à partir du logarithme des residus
estimes. On a en eet E
_
ln
_
u
2
i
_
[x
i
_
= E (2 ln ([v
i
[) [x
i
) + 2
k
l=1
k
m=1
x
li
x
mi
lm
. Les
coecients
l,m
à lexception de la constante sont donc estimes de fa con convergente à
partir dune regression de ln
_
u
2
i
_
.
2
Regression de ln
_
u
2
i
_
sur les variables z
i
: ln
_
u
2
i
_
= x
li
x
mi
lm
+w
i
;
3
Construction dun estimateur de

i
par
i
= exp z
i
;
Les etapes 1 à 3 fournissent une estimation convergente de la matrice de variance covariance.
La mise en uvre des MCQG correspond alors à lapplication des MCO au modèle
sphericise :
4 Calcul des donnees sphericisees : y
i
= y
i
/
i
, x
i
= x
i
/
i
;
5 Calcul de lestimateur des MCO sur les donnees transformees.
HP
, lestimateur des MCQG (8.2) est :
1. Convergent :

b
MCQG
P
b ;
2. Asymptotiquement Normal :
N(
b
MCQG
b)
L
^(0, V
as
(
b
MCQG
)) ;
3. Asymptotiquement equivalent ` a lestimateur des MCG : V
as
(
b
MCQG
) =
_
E(
x
i
x
i
h(x
i
,
0
)
)
_
1
=
V(
b
MCG
).
Demonstration Soit

h
i
= h(
, x
i
). Lestimateur des MCQG peut encore secrire :

b
MCQG
= b +
_
h
1
i
x
i
x
i
_
1
h
1
i
x
i
u
i
. On sait que : h
1
(x
i
,
)x
i
z
i
P
E
_
h
1
(x
i
,
0
) x
i
z
i
_
puisque
P

0
. Par lhypothèse H
HP
7
, qui ga-
rantit la convergence uniforme, on a donc :

h
1
i
x
i
z
i
P
E
_
h
1
i
x
i
z
i
_
. La convergence en decoule puisque
E
_
h
1
(x
i
,
0
) x
i
u
i
_
= 0.
Pour obtenir la normalite asymptotique de lestimateur, le seul point à montrer est que
N

h
1
i
x
i
u
i
L
N
_
0, E(
x
i
x
i
h(x
i
,
0
)
)
_
. On a :
N

h
1
i
x
i
u
i
=
N
_
h
1
i
h
1
(x
i
,
0
)
_
x
i
u
i
+
N h
1
(x
i
,
0
) x
i
u
i
. Le deuxième
terme converge en loi puisque les moments dordre 1 et 2 de h
1
(x
i
,
0
) x
i
u
i
existent (le moment dordre
2 est : V
_
h
1
(x
i
,
0
) x
i
u
i
_
= E(
x
i
x
i
h(x
i
,
0
)
)). En appliquant le theorème de la valeur moyenne, on a :

h
1
i

h
1
(x
i
,
0
) = h
1
_
, x
i
_ _

_
, avec
<
. On peut donc ecrire
N
_
h
1
i
h
1
(x
i
,
0
)
_
x
i
u
i
=
x
i
u
i
h
1
_
, x
i
_
N
_

_
, o` u
N
_

_
est borne en probabilite. Enn, par lhypothèse H
HP
7
, on a
x
i
u
i
h
1
_
, x
i
_
P
E
_
x
i
u
i
h
1
_
0
, x
i
__
= 0.
On peut en outre trouver un estimateur convergent de la matrice de variance covariance de
lestimateur.
HP
, lestimateur de la variance asymptotique,
V
as
_
b
MCQG
_
=
x
i
x
i
h(x
i
,
0
)
1
, est :
1. Convergent :

V
as
(
b
MCQG
)
P
V
as
(
b
MCQG
) ;
V
as
(
b
MCQG
)
1/2
(
b
MCQG
b)
L
^(0, I).
Demonstration Ces resultats sont demontres de la meme facon que dans la proposition precedente.
Dès lors que lon dispose dun estimateur convergent des paramètres intervenant dans la
matrice de variance covariance du residu, la methode des MCQG fournit donc un estimateur
plus precis que la methode des MCO quand bien meme la variance de lestimateur est-elle
ajustee par la correction de White. Cette demarche est neanmoins rarement mise en uvre.
Le choix de la methode de traitement de lheteroscedasticite concerne non pas la robustesse
de lestimateur du paramètre b mais la robustesse et la convergence de lestimateur de la variance
de ce paramètre. Les resultats de linference lorsquon specie les deux moments (methode des
MCQG) sont en outre necessairement plus fragiles que lorsquon nen specie quun seul (cor-
rection de White). On a donc tendance, en pratique, à privilegier la robustesse des estimations
comme, dailleurs, incitent à le faire les tailles importantes dechantillon dont on dispose en
general.
8.4. Illustration : Estimation dune equation de salaire 95
Fig.8.1 Estimateur des mco avec ecart-types robustes et standards
bmco s(bmco) sw(bmco) sw(bmco)/s(bmco)
Cste 4.11090 (0.02932) (0.03587) 1.224
scolarit 0.06346 (0.00182) (0.00218) 1.196
exprience 0.02568 (0.00078) (0.00089) 1.144
exprience -0.00052 (0.00004) (0.00004) 1.049
homme 0.15131 (0.00829) (0.00832) 1.004
8.4 Illustration : Estimation dune equation de salaire
On illustre les resultats de ce chapitre en estimant une equation de salaire. Le niveau
deducation est mesure par le nombre dannee de scolarite, et lexperience en nombre dannees
ecoulees depuis la n des etudes. La specication retenue est quadratique :
w
i
=
0
+
s
sco
i
+
e
exp
i
+
e
(exp
i
10)
2
+
h
homme +u
i
Le coecient
s
correspond donc à laccroissement de salaire oert par une augmenta-
tion dune unite du niveau deducation, appele rendement de leducation. Le paramètre
s
represente donc le rendement de leducation au bout de 12 annees detude. De meme, on
a :
w
i
sco
i
=
e
+ 2
e
(exp
i
20) cette quantite mesure donc le rendement de lexperience. Le
coecient
e
sinterprète donc comme le rendement de lexperience à 20 ans, et le coecients
e
reète quant à lui la nature croissante ou non des rendements de lexperience.
Lequation est dabord estimee par les mco. On calcule pour cette estimation les ecarts-
type de deux fa cons : dabord avec la formule standard des mco

V
as
(1) =
2
x
i
x
i
1
et

V
b
(1) =
V
as
(1) /N puis avec la formule robuste de White

V
as
(2) = x
i
x
i
1
u
2
i
x
i
x
i
x
i
x
i
1
et

V
b
(2) =

V
as
/N.
Les resultats sont presentes dans le tableau 8.1
La première colonne donne la valeur estimee du paramètre. La deuxième lecart-type es-
time par la formule ignorant lheteroscedasticite, la troisième colonne donne lecart-type ro-
buste calcule avec la matrice de White. Enn la dernière colonne donne le ratio entre les deux
ecarts-type. Les resultats sont obtenus sur un echantillon de 6975 salaries dans le commerce en
2002. Les resultats montrent que le rendement de leducation est 6.3%. Une annee deducation
supplementaire conduit donc à un accroissement du salaire de 6.2%. On observe que le rende-
ment de lexperience est decroissant avec lage. Il est de 2.6% pour une annee supplementaire
à 10 ans danciennete et de 2.0% à 20 ans. Enn on voit que les hommes sont payes 15% plus
que les femmes. Linteret principal de ce tableau reside neanmoins dans les ecarts-type estimes.
On voit quen general les ecarts-type tenant compte de lheteroscedasticite sont plus eleves et
quen terme relatif les dierences sont elevees. Ainsi pour le coecient de la scolarite lerreur
est de 20%. On voit neanmoins que dans labsolu les ecarts-type ne sont pas fondamentalement
dierents. Ainsi pour la scolarite lintervalle de conance à 95% calcule avec le premier ecart-type
est de [5.98 , 6.71] alors quavec le second il est de [5.91 , 6.78] .
Malgre cette faible dierence, on peut faire un test dheteroscedasticite. Pour cela on regresse
le residu au carre sur les variables explicatives leurs carres et leurs produits croises : cest à dire
sur les treize variables explicatives x
i
= 1, sco
i
, exp
i
, exp
2
i
, Homme, sco
2
i
, sco
i
exp
i
, sco
i
exp
2
i
,
sco
i
Homme, exp
3
i
, exp
i
Homme, exp
2
i
Homme. On parvient au resultats reportes dans le tableau
8.2 pour cette regression.
Fig.8.2 R egression du carr e du r esidu sur les variables et leurs produits crois es
parametre cart-type student
Cste 0.8783 (0.1262) 6.96
scolarit -0.1024 (0.0158) -6.50
exprience -0.0352 (0.0044) -8.04
exprience 0.0028 (0.0003) 8.21
homme -0.0101 (0.0524) -0.19
scolarit 0.0028 (0.0005) 5.45
scolarit x exprience 0.0030 (0.0003) 10.03
scolarit x exprience -0.0001 (0.0000) -5.95
scolarit x homme 0.0029 (0.0033) 0.88
exprience3 -0.0001 (0.0000) -5.50
exprience x homme -0.0018 (0.0014) -1.29
exprience4 0.0000 (0.0000) 4.00
exprience x homme 0.0001 (0.0001) 1.24
R F
0.0287605 187.51859
Le tableau donne le paramètre estime ainsi que son ecart-type. On voit que de nombreux coef-
cients sont signicatifs : la scolarite, lexperience, lexperience au carre.... Le test dheteroscedasticite
consiste à faire un test de nullite globale mis à part la constante. Ce test peut se faire à partir du
R
2
de la regression en examinant la statistique F = NR
2
. La statistique suit est un
2
(12) . Bien
que le R
2
soit très faible, la statistique est très elevee et excède très largement la valeur seuil dun
test à 5% : 21.03. On rejette donc lhypothèse de nullite globale. Lhypothèse dhomoscedasticite
est ainsi très fortement rejetee.
Si on specie la forme de lheteroscedasticite, on peut mettre en oeuvre lestimateur des
mCQG. On specie comme cela est fait en general cette heterogeneite sous la forme dune
exponentielle. On specie alors la perturbation comme
u
i
= v
i
exp ( x
i
)
o` u x
i
represente lensemble des variables explicatives, de leurs carres et de leurs produits croises.
On fait lhypothèse
v
i
x
i
Sous cette hypothèse
ln
_
u
2
i
_
= x
i
+ ln
_
v
2
i
_
Le paramètre est estime à la constante près à partir de la regression
E
_
ln
_
u
2
i
_
[x
i
_
= x
i
puisque E
_
ln
_
v
2
i
_
[x
i
_
= E
_
ln
_
v
2
i
_
[x
i
_
. Les resultats auxquels on parvient sont reportes dans
le tableau 8.3.
On voit que l` a aussi de nombreux paramètres sont signicatifs, et on pourrait comme
precedemment faire un test dheteroscedasticite correspondant au test de la nullite globale des
paramètres, à partir du R
2
de la regression. On parviendrait à la statistique de 255.30, plus elevee
que la precedente mais conduisant à la meme conclusion que lon rejette fortement lhypothèse
dhomoscedasticite. Toutefois linteret de cette regression est de recuperer la valeur predite et
den deduire une estimation de la variance conditionnelle. A partir de ces estimations on peut
en eet calculer
2
(x
i
) = exp
_
x
i
_
, et on sphericise les donnees en divisant le modèle par
8.4. Illustration : Estimation dune equation de salaire 97
Fig.8.3 R egression du logarithme du carr e du r esidu sur les variables et leurs produits crois es
parametre cart-type
Cste -0.1030 (0.9749)
scolarit -0.5734 (0.1216)
exprience -0.2728 (0.0338)
exprience 0.0220 (0.0026)
homme 0.0779 (0.4043)
scolarit 0.0170 (0.0039)
scolarit x exprience 0.0235 (0.0023)
scolarit x exprience -0.0008 (0.0001)
scolarit x homme 0.0018 (0.0256)
exprience3 -0.0004 (0.0001)
exprience x homme -0.0007 (0.0109)
exprience4 0.0000 (0.0000)
exprience x homme 0.0000 (0.0005)
257.72443 12
Fig.8.4 Estimateur des MCQG
bmcqg s(bmcqg) sw(bmcqg) s(bmcqg)/sw(bmco) sw(bmcqg)/sbmcqg)
Cste 4.26942 (0.03118) (0.03152) 0.869 1.011
scolarit 0.05496 (0.00194) (0.00197) 0.892 1.015
exprience 0.02275 (0.00080) (0.00079) 0.899 0.988
exprience -0.00046 (0.00003) (0.00004) 0.904 1.044
homme 0.14501 (0.00769) (0.00781) 0.924 1.015
exp
_
x
i
/2
_
. On considère ainsi y
isph
= y
i
/ (x
i
) et x
isph
= x
i
/ (x
i
) , y compris la constante.
Pour trouver lestimateur des mCQG, on procède alors à la regression par les mco. Bien sur il
est l` a aussi possible de calculer un estimateur robuste de la matrice de variance du paramètre
exactement comme on le fait en labsence de correction dheteroscedasticite. Normalement les
ecarts-type doivent etre très proches, si la correction à retire toute lheteroscedasticite du modèle.
On parvient aux resultats reportes dans le tableau 8.4.
On voit que les resultats sont un peu changes. On remarque en particulier une baisse du
rendement de leducation qui passe de 6.3% à 5,5%. Cette dierence faible est inquietante car l` a
encore les deux paramètres devraient etre très proches et l` a il dièrent plus que ce quimplique
lordre de grandeurs de la precision des estimations. Ceci nest donc pas une bonne nouvelle
en ce qui concerne la convergence des estimateurs. On voit neanmoins que les ecarts-type sont
modies. On verie bien la propriete des mCQG que les ecarts-type correspondants sont plus
petits que ceux des mco : le gain est ici de lordre de 10%. Toutefois compte tenu de la taille
de lechantillon, cela ne represente quun gain modeste en terme de largeur de lintervalle de
conance. Les changements ne sont pas bouleversants. On observe par ailleurs une plus grande
similitude entre les ecarts-type du modèle sphericise robuste et directement obtenus que dans le
cas precedent.
En conclusion de cet exemple, lheteroscedasticite est bien presente ici, mais les dierentes
fa cons de la prendre en compte soit dans le calcul des ecarts-type, soit par la mise en oeuvre des
MCQG, ne conduisent pas à des modications considerables dans la precision des estimateurs
et leur estimation. L` a encore on se rend compte que la vraie question est plus lexistence de
biais dans les estimations que celle de la possibilite de gains importants dans la precision des
98 Chapitre 8.
estimateurs. On verra par la suite que lorsque lon aborde cette question, les estimateurs que
lon pourra mettre en oeuvre vont devenir beaucoup moins precis. Dans ce cas, la correction de
lheteroscedasticite pourra representer un gain appreciable de precision.
Resume
Ce chapitre est consacre au traitement de lheteroscedasticite dans le modèle en coupe, i.e.
portant sur dierents individus observes à une meme date.
Modèle heteroscedastique pur. La variance du residu est : V (x
i
u
i
) = E
_
u
2
i
x
i
x
i
_
.
Correction de White. La matrice de variance covariance de lestimateur des MCO
est estimee par :

V
_
b
MCO
_
= (x
i
x
i
)
1
u
2
i
x
i
x
i
x
i
x
i
1
.
Test de Breush-Pagan. La presence dheteroscedasticite (H
0
: E
_
u
2
i
x
li
x
mi
_
) = E
_
u
2
i
_
E (x
li
x
mi
)) peut-etre testee par un test de nullite jointe des coecients de la regression :
u
2
i
=
K+1
l=1
K+1
m=1
x
li
x
mi
lm
+v
i
.
Forme particulière dheteroscedasticite : V (y
i
[x
i
) = h(, x
i
). Si lon dispose dun estima-
teur

, cette specication permet de mettre en uvre la methode des MCQG.
Estimateur des MCQG :

b
MCQG
=
_
x
i
x
i
h(x
i
,
)
_1_
x
i
y
i
h(x
i
,
)
_
.
Lestimateur des MCQG est asymptotiquement equivalent ` a lestimateur des MCG,
convergent et asymptotiquement normal.

V
as
_
b
MCQG
_
=
x
i
x
i
h(x
i
,
0
)
1
est un estimateur convergent et asymptotiquement normal
de la matrice de variance-covariance de

b
MCQG
.
Exercices
1. Dans le modèle y
i
= x
i
b +u
i
, soit z un sous-ensemble de variables explicatives. Appliquer
le test de Breush-Pagan à une heteroscedasticite lineaire en z.
Solution: Application 8.2.
Chapitre 9
Correlation des observations
Ce chapitre est consacre aux situtations dheteroscedasticite dans lesquelles la matrice de
variance-covariance des residus depend dun nombre ni de paramètres : V (u
i
[x
i
) = V (u
i
) =
(). Parmi les modèles presentant frequemment un problème dheteroscedasticite (presentes
au Chapitre 7, Section 7.1), le cas le plus general correspondant à cette situation est celui des
regressions empilees (dont les modèles de donnees de panel peuvent etre consideres comme un
cas particulier). Sans perte de generalite, cette situation est donc etudiee en sappuyant sur un
modèle de regression empilee.
Un cas particulier de cette situation est souvent rencontre lors de lanalyse de modèles
de series temporelles. La structure de correlation est dans ce cas determinee par le processus
temporel qui decrit le residu du modèle. On parle alors dautocorrelation. Bien que les resultats
associes au modèle general restent valident, ce processus impose une structure supplementaire
à la matrice () qui permet dutiliser des techniques propres à ce cas.
9.1 Estimation en presence de correlations entre observations
On sinteresse à un modèle de regression dans lequel la matrice de variance-covariance est
non scalaire unite et depend dun nombre ni de paramètres, notes . Lanalyse de cette situation
est illustree en utilisant un modèle de regressions empilees, specie en termes des vecteurs y
i
, x
i
et u
i
(voir Chapitre 7, Section 7.1.5 pour une presentation detaillee du modèle) :
y
i
M1
= Diag
_
x
i
_
MM
b
M1
+ u
i
M1
La matrice de variance covariance de ce modèle est notee (), o` u est une matrice (MM).
Le paramètre inconnu, , est donc necessairement un paramètre de dimension nie, de taille au
plus egale à M (M + 1) /2. A lexception de cette matrice de variance-covariance (Hypothèse
H
C
3
), le modèle est etudie sous les hypothèses habituelles :
H
C
1
i
, x
i
) RR
K+1
, i = 1, ..., N, sont IID;
H
C
2
: E (u
i
[x
i
) = 0 ;
H
C
3
: V (u
i
[x
i
) = V (u
i
) = () ;
H
C
4
: Nx
x et E(x
i
x
i
) sont inversibles ;
H
C
5
: Les moments de [x
ki
x
li
[ et de [u
ti
u
si
[ existent.
99
100 Chapitre 9. Correlation des observations
Comme nous allons le voir, ce cas apparat en fait comme une generalisation directe du
modèle heteroscedastique, etudie au Chapitre 8.
9.1.1 Estimation robuste à la correlation entre obervations
Les proprietes asymptotiques de lestimateur des MCO, etudiees au Chapitre 7, sappliquent
evidemment au cas etudie ici. Lestimateur des MCO est donc convergent et asymptotiquement
normal quelle que soit la forme de la matrice de variance-covariance du modèle etudie. On peut
en outre montrer quil existe un estimateur convergent de la matrice de variance-covariance.
C
, lestimateur de la variance des perturbations :
= (y
i
x
i
b
MCO
)(y
i
x
i
b
MCO
)
= u
i
u
i
est convergent :

P
. Lestimateur

V
as
(
b
MCO
) = (x
i
x
i
)
1
x
x
i
x
i
x
i
1
, est :
1. Convergent :

V
as
(
b
MCO
)
P
V
as
(
b
MCO
) ;
N

V
as
(
b
MCO
)
1/2
(
b
MCO
b)
L
^(0, I).
Demonstration Estimation de . Lestimateur de considere dans la proposition a pour expression :

=
(y
i
x
i
b
MCO
)(y
i
x
i
b
MCO
)
= u
i
u
i
. Par denition, on a : u
i
= y
i
x
i
b
MCO
= x
i
(b
b
MCO
)+u
i
. Par substitution,
on a donc :
=
_
x
i
(b
b
MCO
) +u
i
_ _
x
i
(b
b
MCO
) +u
i
_
= u
i
u
i
+x
i
(b
b
MCO
)(b
b
MCO
)
i
+x
i
(b
b
MCO
)u
i
+u
i
(b
b
MCO
)
i
Le premier terme converge vers par la loi des grands nombres puisque les moments |u
si
u
ti
| existent. Le deuxième
terme est une matrice dont les elements sont une somme de termes de la forme : x
k
li
(b
b
MCO
)
m
(b
b
MCO
)
m
x
k
i
=
(b
b
MCO
)
m
(b
b
MCO
)
m
x
k
li
x
k
i
. Ce terme tend vers zero en probabilite puisque (b
b
MCO
)
P
0 et que
x
k
li
x
k
i
P
E(x
k
li
x
k
i
). Il en est de meme pour le troisième et le quatrième terme.
Convergence de lestimation de la variance de

b
MCO
. Dans lexpression de lestimateur de la variance
de lestimateur des MCO, V (
b
MCO
) = (x
i
x
i
)
1
x
x
i
x
i
x
i
1 P
V (
b
MCO
), le seul terme qui pose problème est :
x
x
i
. On a : x
x
i
E (x
i
x
i
) = (x
x
i
x
i
x
i
)+(x
i
x
i
E (x
i
x
i
)) = (x
i
_

_
x
i
)+(x
i
x
i
E (x
i
x
i
)).
Le deuxième terme de cette expression tend vers zero en probabilite par la loi forte des grands nombres. Le premier
terme tend egalement vers zero en probabilite par le meme genre argument que precedemment, puisque

P
.
Normalite asymptotique. Comme

V (
b
MCO
)
P
V (
b
MCO
) et
N (
b
MCO
b)
L
N(0, V (
b
MCO
)), on a
directement par le theorème de Slutsky :
N

V (
b
MCO
)
1/2
(
b
MCO
b)
L
N(0, I).
Remarque 9.1 Une fois de plus, ces resultats peuvent etendus au cas o` u seules les Hypothèses
H
C
2
` a H
C
5
sont satisfaites (en particulier identite des moments dordre 2), cest ` a dire au cas o` u
les observations ne sont pas equidistribuees. Cette situtation correspondrait par exemple au cas
dans lequel les moments dordre superieur ` a deux sont speciques ` a chaque individu. Comme
dans le cas des MCO du modèle homoscedastique, il faut pour ce faire imposer des restrictions
sur les moments dordre 3 de la valeur absolue de chaque composante du residu.
A partir des residus estimes de lequation des MCO, il est donc possible de denir un estima-
teur convergent de la matrice de variance-covariance des residus. Lexistence de cet estimateur
permet alors de corriger lestimation de la variance de lestimateur des MCO. Comme nous le
savons (Chapitre 7), lestimateur des MCO nest pas cependant le meilleur estimateur lineaire
sans biais. Il existe un estimateur plus ecace, lestimateur des MCG, fonde sur la matrice de
variance-covariance des residus. Lestimateur

peut alors etre utilise pour mettre en uvre cet
estimateur, par la methode des MCQG.
9.1. Estimation en presence de correlations entre observations 101
9.1.2 Estimateur des MCQG
Formellement, lapplication de la methode des MCQG necessite dajouter une hypothèse
supplementaire au modèle, portant sur la possibilite destimer les paramètres de la matrice de
variance-covariance :
H
C
6
:
tel que :

P
.
Comme nous lavons vu dans la section precedente, cette hypothèse est rendue superue
par les Hypothèses H
C
1
à H
C
5
. Sous ces hypothèses, on peut en eet construire un estimateur
convergent de la matrice de variance (Proposition 9.1). On peut donc, a fortiori, obtenir un
estimateur convergent du paramètre sous jacent . Dans ces conditions, lestimateur des MCQG
correspond à la substitution de la valeur vraie de la matrice, , par cet estimateur dans lex-
pression de lestimateur des MCG (7.1) :
b
MCQG
=
_
x
i
(
)
1
x
i
_
1
x
i
(
)
1
y
i
(9.1)
Les proprietes de cet estimateur dependent de la forme particulière dheteroscedasticite
etudiee. On retrouve cependant, dans le cas present, les proprietes demontrees dans le chapitre
precedent.
C
, lestimateur des MCQG (9.1) est :
1. Convergent :

b
MCQG
P
b ;
N(
b
MCQG
b)
L
^
_
0, V
as
(
b
MCQG
)
_
;
as
(
b
MCQG
) =
_
E(x
1
x
i
)
1
=
V (
b
MCG
).
Demonstration On note

= (
). Sous lHypothèse H
C
6

P
et cet estimateur est donc convergent :

P
.
Convergence. Lestimateur des MCQG peut encore secrire

b
MCQG
= b + (x
1
x
i
)
1
x
1
u
i
. Chaque
terme de x
1
x
i
est somme de termes de la forme x
k
li
1
m,m
x
k
i
=

1
m,m
x
k
li
x
k
i
, qui sont tous convergents :
1
m,m
x
k
li
x
k
i
P

1
m,m
E
_
x
k
li
x
k
i
_
. Cette esperance est le le terme correspondant de E
_
x
1
x
i
_
. On a donc
x
1
x
i
P
E
_
x
1
x
i
_
. On a de la meme facon : x
1
u
i
P
E
_
x
1
u
i
_
= E
_
x
1
E (u
i
|x
i
)
_
= 0, do` u la
convergence de lestimateur.
Normalite asymptotique. Le seul point à montrer est que
N x
1
u
i
L
N
_
0, E
_
x
1
x
i
__
. Le terme
considere peut etre ecrit comme un somme de termes :
N x
1
u
i
=
N x
i
(
1
)u
i
+
N x
1
u
i
.
Chaque terme de
N x
i
(
1
)u
i
est de la forme
N x
k
li
(
1
m,m

1
m,m
)u
l
i
= (
1
m,m
1
m,m
N x
k
li
u
l
i
.
Le premier terme converge en probabilite vers 0. Le deuxième terme converge en loi vers une loi normale. Comme
le montre lAnnexe, Section A.2.4, une suite de variables aleatoires convergentes en loi est borne en probabilite.
Cette suite deni un O(1), dont lune des proprietes est que o(1) O(1) = o(1). Le comportement asymptotique de
N x
1
u
i
est donc le meme que celui de
N x
1
u
i
. Comme V
_
x
1
u
i
_
= E
_
x
1
x
i
_
, il converge donc
en loi vers une loi normale N
_
0, E
_
x
1
x
i
__
.
C
, lestimateur de la variance asymptotique,
V
as
(
b
MCQG
) = x
1
x
i
1
, est :
1. Convergent :

V
as
(
b
MCQG
)
P
V (
b
MCG
) ;
N

V
as
(
b
MCQG
)
1/2
(
b
MCQG
b)
L
^(0, I).
Application 9.1
Mise en uvre de lestimateur des MCQG dans les modèles empiles
Lestimateur de la matrice de variance-covariance denit dans la Proposition 9.1 est très
general, puisquil ne depend que des residus estimes par application des MCO. Il sapplique en
particulier aux modèles empiles (modèle de donnees de panel ou regressions empilees) et rend
très facile la mise en uvre de lestimateur des MCG. La première etape consiste à obtenir
lestimateur

.
1 Estimation des MCO du modèle y
i
= x
i
b +u
i
,

b
MCO
= (x
x)
1
(x
y) ;
2 Calcul du residu pour chaque individu : u
i
= y
i
x
i
b
MCO
;
3 Construction de lestimateur de la matrice de variance des residus :

= u
i
u
i
;
Lobtention de cet estimateur peut dabord permettre de corriger la variance estimee de
lestimateur des MCO, an que les resultats destimation soient robustes à labsence
dhomoscedasticite.
4 Estimation de la variance asymptotique de lestimateur des MCO :

V
as
(
b
MCO
) =
(x
i
x
i
)
1
x
x
i
x
i
x
i
1
; et de sa variance :

V
as
(
b
MCO
) =
1
N
V
as
(
b
MCO
) ;
Cette meme matrice peut egalement etre utilisee pour mettre en uvrelestimateur des
MCQG. La methode directe consiste à utiliser lexpression (9.1) pour calculer lestimateur.
Sil est possible de denir simplement une matrice de sphericisation

1/2
, la methode indirecte
consiste à appliquer les MCO au modèle sphericise.
5 Calcul direct de lestimateur des MCQG :

b
MCQG
= (x
1
x
i
)
1
x
1
y
i
;
5
Calcul de lestimateur des MCQG par sphericisation du modèle. La variance est alors
donnee par :

V
as
(
b
MCQG
) = x
1
x
i
1
et

V (
b
MCQG
) =
1
N
V
as
(
b
MCQG
).
9.1. Estimation en presence de correlations entre observations 103
Demonstration Ces resultats sont demontres de la meme facon que dans la proposition precedente.
Sous les Hypothèses H
C
1
à H
C
5
ou, de fa con equivalente, sous lHypothèse H
C
6
lexistence
dun estimateur convergent

permet donc de mettre en uvre une estimation robuste cor-
rection de la matrice de variance de lestimateur des MCO ainsi quune estimation ecace
mise en uvre de lestimateur des MCQG. Suivant les cas, le nombre de paramètres à estimer
contenus dans la matrice peut etre plus ou moins important. Dans le cas dun modèle de
donnees de panel à erreurs composees, nous avons vu (Section 7.1.4) que la matrice de variance
ne depend que de deux paramètres : la variance de leet individuel et la variance de leet
temporel. Dierentes methodes peuvent etre utilisees pour estimer ces paramètres et mettre en
oeuvre les estimateurs presentes ici. La convergence de lestimateur du paramètre correspon-
dant à lHypothèse H
C
6
est en eet la seule condition necessaire pour pouvoir appliquer ces
resultats.
9.1.3 Methode des MCG dans les modèles de regressions empilees
Contrairement aux modèles de donnees de panel, les modèles de regressions empilees peuvent
ne pas imposer de restriction entre les paramètres. Le nombre de paramètres à estimer dans la
matrice de variance des residus est alors très important, et tend vers linni à mesure que la
taille de lechantillon saccrot. Le Theorème de Zellner facilite considerablement lestimation
dans de telles circonstances.
Proposition 9.4 (Theorème de Zellner.) Dans un modèle de regressions empilees tel que :
(i) Il nexiste pas de contraintes sur les paramètres entre equations ;
(ii) Les regresseurs sont les memes dans toutes les equations ;
lestimateur des MCG est identique ` a lestimateur des MCO eectue equation par equation. La
matrice de variance de lestimateur a alors pour expression : V
as
= x
i
x
i
1
.
Demonstration Le modèle deni par les conditions (i) et (ii) secrit : y
i
= I
M
x
i
b+u
i
. Lestimateur des MCG
de ce modèle est donc :

b
MCG
= (I
M
x
i
)
1
(I
M
x
i
)
1
(I
M
x
i
)
1
y
i
.
Sans perte de generalite, on peut reecrire la matrice de variance des residus comme
1
=
1
1. Le vecteur
x
i
est de dimension (K+1) 1). On a donc (I
M
x
i
)
1
= (I
M
x
i
)
_
1
1
_
=
1
x
i
, puisque le produit
de Kronecker est tel que (AB) (C D) = AB CD (pour des dimensions adequates des matrices A, B, C et
D). Par substitution, on a : (I
M
x
i
)
1
(I
M
x
i
) =
1
x
i
x
i
.
On a en outre :
(I
M
x
i
)
1
y
i
= (I
M
x
i
)
_
1
y
i
1
_
=
1
y
i
x
i
= (
1
I
K
)
_
y
i
x
i
_
=
_
1
I
K
_
_
y
i
x
i
_
Après substitution de ces termes, lestimateur des MCG secrit donc :
b
MCG
= x
i
x
i
1
_
1
I
K
_
_
y
i
x
i
_
= I
M
x
i
x
i
1
_
y
i
x
i
_
= I
M
x
i
x
i
1
V ec
_
x
i
y
i
_
= V ec
_
x
i
x
i
1
x
i
y
i
_
o` u le passage à la dernière ligne utilise la propriete suivante de loperateur V ec : V ec(ABC) = C
A V ec(B).
Ce dernier terme correspond par denition à lestimateur des MCO applique separement à chaque equation du
modèle.
Bien que les resultats presentes ici soient très generaux, leur mise en uvre pratique peut etre
dicile en labsence de restrictions imposant une structure à la matrice de variance-covariance
des residus. Le theorème de Zellner que nous venons de voir permet de surmonter cette diculte
pour le cas particulier des modèles de regressions empilees. Les modèles de donnees de panel
imposent quant à eux une structure forte à la matrice de variance-covariance puisque le modèle
à erreur composee ninclut, par exemple, que deux paramètres à estimer. Lanalyse des modèles
de series temporelles repose egalement, en general, sur des restrictions importantes quant à la
structure devolution au cours du temps du residu. Cette structure est imposee en choisissant
un processus dautocorrelation pour les residus du modèles.
9.2 Illustration : estimation dune fonction de production sur
donnees individuelles
On considère un echantillon de 381 entreprises observees sur les annees 1986-1989, pour
lesquelles on dispose de la valeur ajoutee, des eectifs du stock de capital et du stock de capital
recherche. On considère une technologie de production de Cobb-Douglas
y = +
L
l +
C
c +
K
k +v
les coecients sont donc les elasticites de la production aux eectifs, au capital et au capital de
recherche. Les observations dont on dispose sont des donnees de panel puisque chacun des 381
individus est suivi sur 4 ans : y
i
= (y
i86
, y
i87
, y
i88
, y
i89
) . On estime le modèle par les mco. Il est
alors possible destimer la matrice de variance des perturbations
= u
i
u
i
on peut alors calculer les ecarts-type de deux fa cons : soit en ignorant la nature de donnees
de panel des donnees, i.e. en faisant comme si la matrice etait diagonale, soit en prenant
cette information en compte. Dans un cas les ecarts-type sont simplement donnes par la formule
standard

V
as
=
2
_
x
i
x
i
_
1
et

V
b
(1) =

V
as
/N. Dans lautre cas les ecarts-type sont calcules
suivant la formule

V
as
=
_
x
i
x
i
_
1
x
x
i
_
x
i
x
i
_
1
et toujours

V
b
(2) =

V
as
/N. Le tableau suivant
presente les resultats de cette estimation par les mco et les ecarts-type calcules suivant les deux
modes de calcul :
b (1) (2)
un 4.78 (0.120) (0.226)
l 0.509 (0.023) (0.044)
c 0.235 (0.022) (0.040)
k 0.229 (0.017) (0.026)
On voit que les ecarts-type sont nettement plus eleve avec la formule qui tient compte des
correlations entre les residus aux dierentes dates. On peut regarder la matrice de variance des
perturbations estimee. On parvient à la matrice symetrique suivante :
9.2. Illustration : estimation dune fonction de production sur donnees individuelles 105
86 87 88 89
86 0.209 . . .
87 0.191 0.214 . .
88 0.184 0.186 0.203 .
89 0.176 0.177 0.192 0.210
et on voit quelle est très loin detre une matrice diagonale. Les elements sur la diagonale sont
plus ou moins constants, mais on voit aussi que les elements hors de la diagonale sont certes plus
faibles que ceux sur la diagonale mais dun ordre de grandeur comparable. Lheteroscedasticite
est ainsi une caracteristique essentielle et lomettre serait une grave erreur. Compte tenu de
lordre de grandeur des coecients de la matrice de variance covariance on voit quon est beau-
coup plus pres dune situation dans laquelle les observations seraient repetees quatre fois que
dune situation dans laquelle les quatre observations de chaque individu constitueraient quatre
tirages independants. Le nombre total dobservations est donc 381x4=1524 mais on est très
loin davoir linformation de 1524 observations independantes. On est bien plus pres davoir 381
observations repliquees 4 fois. De fait les estimateurs etant convergent en
N. Comme la di-
mension temporelle est de 4, on doit se tromper approximativement dun facteur
4 = 2 dans
les ecarts-type. Cest bien ce que lon observe en gros. La conclusion que lon doit tirer de cet
exemple est que la correction des ecarts-type tenant compte de lheteroscedasticite est essentielle
pour les donnees de panel.
On peut aussi chercher à mettre en oeuvre lestimateur des MCQG la formule est :
b
mcqg
=
_
x
1
x
i
_
1
x
1
y
i
et la matrice de variance peut etre estimees par

V
asmcqg
=
_
x
1
x
i
_
1
et

V
b
(3) =

V
asmcqg
/N.
Les resultats sont donnes dans le tableau suivant :
b
mcqg

mcqg
C
ste
4.67 (0.193)
l 0.505 (0.032)
c 0.352 (0.026)
k 0.086 (0.009)
On voit que par rapport à lestimateur des mco, cet estimateur est sensiblement plus precis.
Le coecient du capital recherche en particulier est environ 3 fois plus precis. La mise en oeuvre
de ce type destimation est donc dans ce cas un gain precieux. On remarque aussi que les
deux estimateurs sont en fait assez dierents en particulier les coecients concernant le capital
physique et le capital de recherche. Le coecient du capital physique augmente fortement alors
que celui du capital recherche baisse au contraire. Ces dierences importantes sont en outre
grandes devant lordre de grandeur des ecarts-type. Bien quil ny est pas de test formel ici, il
est vraisemblable que ces dierences soient signicatives. Ceci nest pas un bon signe, comme
on le verra plus tard. En eet on peut remarquer dès maintenant une sorte dincoherence :
normalement sous les hypothèses faites lestimateur des mco et celui de mCQG sont tous les
deux convergents : les valeurs estimees devraient donc etre assez proches.
Application 9.2
Stationnarite de processus classiques
Tendance temporelle. Une variable z est dite trendee si elle est decrite par un processu de
la forme : z
t
= a + bt. Bien que très classiquement utilise, ce processus nest pas stationnaire
au premier ordre. On a en eet : E(z
t
) = a +bt.
Marche aleatoire. Une variable z suit un processus de marche aleatoire si : z
t
= z
t1
+
t
,
o` u les
t
sont des variables aleatoires IID de moyenne nulle et de variance
2
. Ce processus est
stationnaire au premier ordre puisque : E(z
t
) = E(z
t1
) + E(
t
) = E(z
t1
). Il nest pas, en
revanche, stationnaire au second ordre : E(z
2
t
) = E(z
2
t1
) +2E(z
t1
t
) +E(
2
t
) = E(z
2
t1
) +
2
.
Non seulement ce processus nest pas stationnaire, mais sa variance tend meme vers linni.
9.3 Processus dautocorrelation des perturbations
Un processus est une serie temporelle, notee (z
t
). Il correspond à une structure devolution
particulière de la variable z au cours du temps. La stationnarite est lune des proprietes les plus
importantes des processus temporels.
Denition 9.1 Un processus (z
t
) est :
Stationnaire au premier ordre si ses moments dordre 1 sont independants de t :
E (z
t
) = t ;
Stationnaire au second ordre sil est stationnaire au premier ordre et que ses mo-
ments dordre 2 ne dependent que du nombre de dates separant les deux observations :
Cov(z
t
, z
s
) =
ts
t, s ; s < t.
De fait, on ne considerera ici que des processus stationnaires au premier et au second ordre.
Nous nous restreignons ainsi à des processus qui imposent une structure susante à la matrice
de variance-covariance de la variable z en limitant le nombre de paramètres qui interviennent
dans les moments de la variable.
Cette restriction nest cependant pas neutre sur le prol temporel des variables considerees.
Il existe en eet de nombreux processus utilises de fa con classique mais qui ne respectent pas
ces conditions de stationnarite (lApplication 9.3 en fournit une illustration).
9.3.1 Perturbations suivant une moyenne mobile dordre q MA(q)
Soit
t
une variable aleatoire IID desperance nulle et decart-type constant. Un processus
moyenne mobile est deni comme la somme des q valeurs retardees de ce terme derreur.
Denition 9.2 La perturbation u
t
suit un processus de moyenne mobile dordre q, note MA(q),
si : u
t
=
t
+
1
t1
+ +
q
tq
, avec E(
t
) = 0, V (
t
) =
2
et cov(
t
,
t
) = 0 t ,= t
.
Dans un processus MA(q), les perturbations u
t
ne sont donc plus IID, mais ces hypothèses
sont transposees à la variable aleatoire
t
. Un processus de ce cette forme est bien stationnaire.
A lordre 1, on a en eet : E(u
t
[X) = E(
t
) +E(
1
t1
) + +E(
q
tq
) = 0.
9.3. Processus dautocorrelation des perturbations 107
Application 9.3
Processus moyenne mobile dordre 1 MA(1)
Soit
t
une variable aleatoire IID telle que : E(
t
) = 0, V (
t
) =
2
et cov(
t
,
t
) = 0 t ,= t
. La
perturbation u
t
suit un processus moyenne mobile dordre 1, note MA(1), si : u
t
=
t
+
1
t1
.
Les processus MA(1) partagent les proprietes des processus MA(q). Ils sont en particulier
stationnaires à lordre 2. On a en eet E (u
t
[x) = 0, V (u
t
[x) =
_
1 +
2
_
, E (u
t
u
t1
[x) =
et E (u
t
u
ts
[x) = 0 pour tout s > 1. Au total, la matrice de variance covariance des
perturbations a donc pour expression :
V (u) =
2
_
_
_
_
_
_
_
_
_
_
1 +
2
0 0
1 +
2
.
.
.
.
.
.
0
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.

0 0 1 +
2
_
_
_
_
_
_
_
_
_
_
Une perturbation MA(1) et, plus generalement, tout processus MA(q) pose donc bien un
problème dautocorrelation pure : les elements diagonaux de la matrice de variance covariance
du residu sont egaux entre eux, mais certains des elements hors-diagonale sont non nuls.
La stationnarite à lordre 2 necessite de caracteriser la matrice de variance-covariance de la
perturbation. Un calcul direct permet dabord dobtenir directement la forme de la variance :
V (u
t
[x) = (1 +
2
1
+ +
2
q
)
2
. Pour tout s > q, on a : E(u

t
u
ts
[x) = 0. Enn, pour tout
s q :
E (u
t
u
ts
[x) = E ((
t
+
1
t1
+ +
q
tq
) (
ts
+
1
ts1
+ +
q
tsq
))
= E ((
s
ts
+
s+1
ts1
+ +
q
tq
) (
ts
+
1
ts1
+ +
qs
tq
))
= (
s
+
s+1
1
+ +
q
qs
)
2
Ce terme ne depend que de s, conrmant donc la stationnarite du processus à lordre 2.

Une generalisation importante de ce processus est le processus moyenne mobile dordre inni.
Conformement à la Denition 9.2, il secrit : u
t
=
t
+
q=1
tq
. En raison de cette somme
innie de termes aleatoires, letude de la stationnarite du processus est plus complexe que dans
le cas dun MA(q).
Proposition 9.5 Un processus moyenne mobile inni, u
t
=
t
+
q=1
tq
, est stationnaire
` a lordre 2 si et seulement si (1 +
q=1
2
q
) < .
Demonstration En utilisant lexpression du processus, on obtient directement : V (u
t
|x) =
_
1 +
q=1
2
q
_
.
Cette quantite est nie dès que la serie
2
q
converge. Pour les covariances, on a aussi directement : E (u
t
u
ts
|x) =
_
s
+
q=1
s+q
q
_
. Cette quantite ne depend pas de t. Linegalite de Cauchy etablit en outre que
q=1
a
q
b
q
q=1
a
2
q
q=1
b
2
q
. Ces covariances sont donc nies dès lors que la serie
2
q
converge.
9.3.2 Perturbations suivant un processus autoregressif AR
Un processus est dit autoregressif sil est deni comme une somme de ses propres valeurs re-
tardees. Avant detudier les proprietes generales dun processus autoregressif dordre p AR(p)
les principales intuitions sont presentes si-cessous à partir de lexemple dun processus au-
toregressif dordre 1, très utilise dans les applications pratiques.
(i) Perturbations suivant un processus autoregressif dordre 1 AR(1)
Une perturbation u
t
suit un processus AR(1) sil depend de sa propre realisation à la periode
precedente. Il sagit donc dun processus dans lequel les perturbations sont engendrees selon
lexpression : u
t
= u
t1
+
t
t = 1, . . . , T, o` u
t
est une variable aleatoire IID telle que E(
t
[x) =
0, V (
t
[x) =
2
et cov(
t
,
t
[X) = 0, t ,= t
. Comme dans le cas de processus moyenne mobile,

les hypothèses dhomoscedasticite et dindependance des perturbations du modèle sont donc ici
encore transferees aux
t
, cest à dire aux innovations du processus. Une condition importante
de validite du processus est que : [[ < 1.
Un processus AR(1) secrit facilement comme une somme des realisations passees de la
perturbation IID :
u
t
= u
t1
+
t
= ( u
t2
+
t1
) +
t
=
t
+
t1
+
2
( u
t3
+
t2
)
=
t
+
t1
+ +
t1
1
+
t
u
0
(9.2)
Cette expression facilite considerablement letude de la matrice de variance-covariance du
processus et, en particulier, de la stationnarite du processus.
Proposition 9.6 Un processus u
t
suivant un AR(1) est stationnaire si E (u
0
[X) = 0, V (u
0
[X) =
/
_
1
2
_
et Cov (
t
, u
0
) = 0. Ces conditions sont satisfaites si le processus engendrant u
t
debute en .
Demonstration En utilisant lexpression (9.2), on a : E (u
t
|X) = E (
t
|X)+ +
t1
E (
1
|X)+
t
E (u
0
|X).
Par denition, E(
t
) = 0 t. Le processus est donc stationnaire au premier ordre si et seulement si : E (u
0
|X) = 0.
La perturbation u
t
est non correlee avec les perturbations futures. Pour t
> t, on a en eet : E (u
t
t
|X) =
E
_
t
(
t
+ +
t1
1
+
t
u
0
) |X
_
= 0 puisque E (
t

tl
|x) = 0 et E (
t
u
0
|x) = 0. Pour toute date passee s,
le processus peut encore secrire : u
t
=
t
+ +
ts1
s+1
+
ts
u
s
. En utlisant le resultat precedent, on a donc :
E (u
t
u
s
|x) = E
_
(
t
+ +
ts1)
s+1
+
ts
u
s
)u
s
|x
_
=
ts
E
_
u
2
s
|x
_
. Lorsque le processus est stationnaire
à lordre 1, cette dernière expression correspond à la variance de u
s
, qui secrit :
V (u
t
|x) = V (
t
|x) +
2
V (
t1
|x) + +
2(t1)
V (
1
|x) +
2t
V (u
0
|x)
=
2
(1 +
2
+ +
2(t1)
) +
2t
2
u
0
=
2
1
2t
1
2
+
2t
2
u
0
=

2
1
2
+
2t
_
2
u
0

2
1
2
_
Cette expression depend de t. Si
2
u
0
=
2
/
_
1
2
_
, cependant, les moments dordre 2 sont :
V (u
t
|x) =
2
/
_
1
2
_
Cov (u
t
, u
s
) =
ts
/
_
1
2
_
et le processus est donc stationnaire à lordre 2.
Si le processus remonte en , lexpression (9.2) devient : u
t
=
s=0
ts
. On a donc bien V (u
t
|x) =
s=0
2s
=
2
/
_
1
2
_
.
9.3. Processus dautocorrelation des perturbations 109
Un processus AR(1) qui respecte les conditions decrites dans la Proposition 9.6 est station-
naire au second ordre. Sa matrice de variance-covariance a alors pour expression :
V (u[x) =

2
1
2
_
_
_
_
_
_
_
_
1
2

T1
1
T2
.
.
.
.
.
.
.
.
.
T2
1
T1
T2
1
_
_
_
_
_
_
_
_
Ce type de processus est très frequemment utilise en pratique car il traduit lidee simple et
importante quun choc exogène à une date donnee peut avoir un eet persistant, mais decroissant
de fa con exponentielle avec le temps. En raison de la simplicite de lexpression de la matrice de
variance, cette specication permet en outre une mise en oeuvre facile de methodes destimation
plus ecaces que les MCO, telles que les MCQG.
(ii) Perturbations suivant un processus autoregressif dordre p AR(p)
Le processus AR(p) est une generalisation du processus precedent au cas o` u la perturbation
u
t
depend de ses p realisations precedentes.
Denition 9.3 Une variable aleatoire u
t
suit un processus autoregressif dordre p, note AR(p),
si elle est engendree par : u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
, o` u est une variable aleatoire
IID telle que : E (
t
[x) = 0, V (
t
[X) =
2
et Cov(
t
,
t
[X) = 0 t ,= t
.
On utilise frequemment une expression plus compacte du processus, formee en utillisant
loperateur retard. Loperateur retard, note L, est tel que : L
p
z
t
= z
tp
. On denit en outre le
polyn ome A(.) tel que : A(Z) = 1
1
Z
2
Z
2

p
Z
p
. Un processus AR(p) peut alors
etre represente sous forme compacte par lexpression : A(L) u
t
=
t
. Compte tenu des recursions
multiples contenues implicitement dans lexpression du processus, le passage par cette forme est
necessaire pour etudier les proprietes de la perturbation.
Proposition 9.7 Un processus AR(p) est stationnaire ` a lordre 2 si les racines du polyn ome
A(X) sont de module superieur ` a 1.
Demonstration En utilisant la forme compacte dun AR(p), on a en eet
u
t
=

t
A(L)
=

t
1
1
L
2
L
2

p
L
p
=

t
p
s=1
(1 r
s
L)
=
_
p
s=1
k=0
r
k
s
L
k
_
t
=
_
k=0
k
L
k
_
t
o` u r
s
est linverse de la s
i` eme
racine (eventuellement complexe) du polynome A(Z) et est donc de module stric-
tement inferieur à 1. Le processus apparat ainsi comme un processus moyenne mobile inni dont les coe-
cients sont directement deduit des racines r
s
. Chacun des processus moyenne mobile
k=0
r
k
s
L
k
est stationnaire
puisque |r
s
| < 1. En outre on montre facilement que si on considère deux MA() (
a
q
L
q
) et (
b
q
L
q
) tels que
(
|a
q
|) < et (
|b
q
|) < alors le produit de ces deux MA() est un MA() ayant la meme propriete de
sommabilite.
_
a
q
L
q
_ _
b
q
L
q
_
=
_
s
b
s
a
qs
_
L
q
_
et
s
b
s
a
qs
s
|b
s
| |a
qs
| =
_
|a
q
|
_ _
|b
q
|
_
<
On en deduit que
_
k=0
|
k
|
_
< et donc
_
k=0
|
k
|
2
_
< . Le processus est donc stationnaire.
Malgrè la stationnarite du processus, lexpression de la matrice de variance covariance peut
etre relativement complexe. A titre dillustration, les moments dordre 2 dun AR(2) sont :
V (u
t
) =
2
u
=
1
2
(1 +
2
)
_
(1
2
)
2
2
1
=
0
, t
Cov(u
t
, u
t1
) =

1
1
2
2
u
=
1
Cov(u
t
, u
t2
) =
2
2
u
+

2
1
1
2
2
u
=
2
=
2
0
+
1
1
Cov(u
t
, u
ts
) =
s
=
1
s1
+
2
s2
, s > 2
On voit toutefois emerger une certaine regularite dans la determination des covariances, qui se
generalise au cas dun AR(p). Pour des valeurs s susamment elevees ( p), un AR(p) verie en
eet : E (u
t
u
ts
) =
1
E (u
t1
u
ts
)+ +
p
E (u
tp
u
ts
)+E (
t
u
ts
). En notant
s
= E(u
t
u
ts
),
cette equation est connue sous le nom dequation de Yule-Walker :
s
=
1
s1
+ +
p
sp
Elle est egalement vraie pour les correlations dun processus AR(p) (cest à dire la covariance
divisee par la variance puisque le processus est stationnaire).
9.3.3 Perturbations suivant un processus ARMA(p,q)
Les processus ARMA correspondent à un niveau de generalisation supplementaire puisquils
combinent les deux processus etudies jusquà present. An de simplier la denition du processus,
on utilise un nouveau polyn ome, B(L), tel que : B(L) = 1 +
1
L +
2
L
2
+ +
q
L
q
.
Denition 9.4 Une perturbation u
t
suit un processus ARMA(p,q) si elle est engendree par :
A(L)u
t
= B(L)
t
o` u est une variable aleatoire IID telle que : E (
t
[x) = 0, V (
t
[X) =
2
et
Cov(
t
,
t
[X) = 0 t ,= t
.
On peut à nouveau montrer que le processus est stationnaire si les racines du polyn ome A(Z)
sont à lexterieur du cercle unite. La complexite des processus AR(p) est cependant ampliee
dans le cas des processus ARMA(p,q). A titre dillustration, nous nous limitons donc ici au
processus ARMA(1,1), dont la perturbation est generee par : u
t
= u
t1
+
t
+
t1
. La matrice
de variance covariance a dans ce cas une expression relativement simple :
V (u
t
) =
2
_
_
_
_
_
_
_
_
_
_
_
_
w
0
w
1
w
1

2
w
1

T2
w
1
w
1
w
0
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.

2
w
1
2
w
1
w
1
.
.
.
.
.
.
w
1
w
1
.
.
.
.
.
.
.
.
.
w
1
w
0
w
1
T2
w
1

2
w
1
w
1
w
1
w
0
_
_
_
_
_
_
_
_
_
_
_
_
;
w
0
=
1 +
2
+ 2
1
2
w
1
=
(1 +)( +)
1
2
9.4. Autocorrelation des residus dans les series temporelles 111
Demonstration En utilisant lexpression du processus, on a :
2
u
= V (u
t
) =
2
E
_
u
2
t1
_
+E
_
2
t
_
+
2
E
_
2
t1
_
+
2E (u
t1
t1
). On sait en outre que E (u
t
t
) = E
_
2
t
_
=
2
, do` u
2
u
=
2
2
u
+
2
+
2
+ 2
2
et par
consequent :
V (u
t
) =
2
_
1 +
2
+ 2
1
2
_
=
2
w
0
, t
De la meme facon :
Cov(u
t
, u
t1
) = E
_
u
2
t1
_
+E (u
t1
t1
)
=
2
u
+
2
=
2
(1 +)( +)
1
2
=
2
w
1
et, s > 1 : Cov(u
t
, u
ts
) = Cov(u
t1
, u
ts
) = Cov(u
t
, u
t(s1)
) =
s1
w
1
.
9.4 Autocorrelation des residus dans les series temporelles
Dans les modèles en serie temporelles, lhypothèse de non-autocorrelation des perturbations
est assez forte et frequemment invalidee. Nous considerons donc un modèle de serie temporelle :
y
t
= x
t
b + u
t
, t = 1, . . . , T dans lequel lhypothèse dindependance des observations est levee
an detudier les methodes de traitement des problèmes dautocorrelation des residus.
Comme nous lavons vu dans le Chapitre 7, la presence dautocorrelation naecte pas les
proprietes de dabsence de biais, de convergence et de normalite asymptotique de lestimateur
des MCO. Seule la forme de la matrice de variance covariance de lestimateur est aectee. Les-
timation de cette matrice de variance pourrait etre obtenue dans de très nombreuses situations,
cest à dire pour dierentes specications du processus engendrant les perturbations. Lexpres-
sion de la matrice de variance de lestimateur depend en eet de la specication du processus.
Dans toutes les specications presentees dans la Section 9.3, toutefois, la matrice de variance
des perturbations depend dun nombre limite de paramètres, et ces paramètres pourraient donc
etre estimes à partir des residus de lestimation. Cette approche sera illustree à la n de cette
section dans le cas le plus classiquement utilise de perturbations suivant un AR(1).
Il est donc possible, en theorie, dobtenir une estimation convergente de la matrice , à partir
de laquelle on peut estimer la matrice de variance de lestimateur des MCO. La qualite de cette
estimation va cependant dependre de ladequation de la specication. Une approche plus generale
consiste donc à chercher un estimateur de la matrice de variance covariance de lestimateur des
MCO qui soit robuste au choix plus ou moins arbitraire dune specication du processus
engendrant les perturbations. Lapproche precedente fait en outre lhypothèse que la correlation
entre les residus à dierentes dates ne depend pas des valeurs prises par les variables explicatives.
Le Chapitre 8 a pourtant mis laccent sur la possibilite quune relation existe entre les moments
dordre 2 et les variables explicatives. Cette question se pose dans les memes termes dans le
cadre des series temporelles. Lestimateur de Newey-West est un estimateur non paramètrique
qui permet de surmonter ces deux dicultes.
9.4.1 Estimateur de Newey-West
Lestimateur de Newey-West sappuie sur les residus estimes de lequation des MCO. La
diculte centrale pour obtenir les proprietes de cet estimateur concerne donc la variance du
produit
1
T
x
u =
1
T
t=1
x
t
u
t
. Quelle que soit la specication choisie pour les perturbations
et en labsence meme de specication cette variance secrit :
E
_
x
uu
x
_
/T = E
_
_
T
t=1
x
t
x
t
u
2
t
/T +
t,s=0
x
t
x
ts
u
t
u
ts
/T +x
ts
x
t
u
ts
u
t
/T
_
_
= E
_
T
t=1
x
t
x
t
u
2
t
/T
_
+E
_
T
t=2
x
t
x
t1
u
t
u
t1
/T +x
t1
x
t
u
t1
u
t
/T
_
+ E
_
T
t=3
x
t
x
t2
u
t
u
t2
/T +x
t2
x
t
u
t2
u
t
/T
_
+ +E
_
T
t=q
x
t
x
tq+1
u
t
u
tq+1
/T +x
tq+1
x
t
u
tq+1
u
t
/T
_
+ +E
_
T
t=T
x
T
x
1
u
T
u
1
/T +x
1
x
T
u
1
u
T
/T
_
E
_
x
uu
x
_
/T = E
_
x
t
x
t
u
2
t
_
+
s=0
_
E
_
x
t
x
ts
u
t
u
ts
_
+E
_
x
ts
x
t
u
ts
u
t
_
(T s + 1) /T
Pour tout s donne,
t
x
t
x
ts
u
t
u
ts
/T est un estimateur convergent de E (x
t
x
ts
u
t
u
ts
)
(T s + 1) /T. Cette propriete devrait en theorie permettre destimer le terme E (x
uu
x) /T.
Il faut cependant estimer cette quantite pour toutes les valeurs de s de s = 1 jusquà s = T
ce qui est impossible dans un echantillon de taille T.
Loptique choisie par Newey-West est de nestimer ces termes que pour les valeurs de s les
plus faibles, le nombre de valeurs retenues dependant de la taille de lechantillon. Ce calcul est
exact si la serie x
t
u
t
est distribuee suivant une moyenne mobile dordre ni. Il sagit, dans le cas
contraire, dune approximation. On peut montrer que cette matrice est convergente dès lors que
(i) le degre de correlation temporelle de x
t
u
t
decrot susemment vite et que (ii) lestimateur
retenu intègre un nombre de retard croissant avec la taille de lechantillon. Cette propriete est
conforme à lidee que les correlations entre les perturbations disparaissent à un taux relativement
eleve. Dans le cadre dun modèle AR(1), par exemple, ces correlations disparaissent de fa con
exponentielle.
Lestimateur de Newey West estime donc le terme E (x
uu
x) /T par :
T
t=1
x
t
x
t
u
2
t
/T +
s=0
s
(T)
t
_
x
t
x
ts
u
t
u
ts
+x
ts
x
t
u
ts
u
t
_
/T
o` u
s
(T) est un terme de ponderation decroissant avec s et croissant avec T. Plus speciquement,
le poids propose par Newey-West est lineaire en s, de la forme :
s
(T) = (1 s/(q (T) + 1))
1 (s q (T)). Ce prol de ponderation fait crotre q (T) vers linni lorsque T augmente, mais à
un rythme beaucoup plus faible que T lui-meme. Sous des hypothèses de regularite satisfaisantes,
cet estimateur converge vers E (x
uu
x) /T.
Denition 9.5 (Estimateur de Newey-West). Un estimateur de la matrice de variance co-
variance de lestimateur des MCO robuste ` a lheteroscedasticite temporelle et ` a lheteroscedasticite
liee aux variables explicatives est :
V
as
_
b
mco
_
=
_
x
x
T
_
1
_
_
0
+
q(T)
s=1
_
1
s
q (T) + 1
_
_
s
+
s
_
_
_
_
x
x
T
_
1
o` u

0
=
T
t=1
x
t
x
t
u
2
t
T
et

s
=
T
t=s+1
x
t
x
ts
u
t
u
ts
T
Lestimateur de Newey-West est un estimateur non paramètrique de la matrice de variance
covariance de lestimateur des MCO. Il nimpose en eet aucune structure à cette matrice et
sappuie uniquement sur les residus estimes de lequation de MCO. Pour cette raison, cette
matrice est robuste à la fois à la correlation temporelle des residus pourvu quelle sestompe
assez vite et à lexistence dheteroscedasticite relative aux x. En ce sens, lestimateur de
Newey-West est une generalisation de la correction de White (voir Section 8.1.1) au cas o` u il
existe des correlations entre observations. On verie dailleurs facilement que sous lhypothèse
dabsence de correlation temporelle des perturbations ou des variables explicatives la formule
de Newey-West correspond à la formule de White : seul
0
subsiste alors dans le terme central.
9.4.2 Estimation du modèle à perturbations AR(1)
Lestimateur de Newey-West fournit une estimation robuste de la matrice de variance cova-
riance de lestimateur des MCO qui est independante de la forme particulière dautocorrelation
des perturbations. Cette methode ne permet pas, cependant, de mettre en uvre lestimateur
des MCQG puisquelle ne fournit pas destimatio de la matrice de variance covariance des per-
turbations. Il est necessaire pour ce faire dimposer une structure à cette matrice, en adoptant
un processus temporel particulier. Parmi les processus presentes dans la Section 9.3, le processus
AR(1) est de très loin le plus utilise en pratique. On sinteresse donc ici à un modèle lineaire
temporel, de la forme : y
t
= x
t
b + u
t
dans lequel les perturbations suivent un processus AR(1)
et sont independantes des variables explicatives. On a donc :
H
AR
1
: E (u[x) = 0 ;
H
AR
2
: V (u[x) = de dimension T T.
Plus speciquement, nous avons vu (Section 9.3.2) que :
V (u[x) = () =

2
1
2
_
_
_
_
_
_
_
_
1
2

T1
1
T2
.
.
.
.
.
.
.
.
.
T2
1
T1
T2
1
_
_
_
_
_
_
_
_
Comme dans toutes les situations etudiees jusquà present, lapplication des MCO necessite
que :
H
AR
3
:
1
T
x
x
P
Q
XX
, et que x
x et Q
X
sont inversibles.
Il faut remarquer que cette hypothèse nest pas systematiquement garantie en pratique. Dans
le cas de la presence dun trend ou dans le cas de la presence de variables explicatives distribuees
suivant une marche aleatoire, en particulier, les moments dordre 2 nexistent pas. Letude des
proprietes asymptotiques de lestimateur repose enn sur lhypothèse suivante :
H
AR
4
: la matrice
1
T
x
x
P
Q
XX
.
Supposer un processus AR(1) pour les perturbations du modèle impose une forme parti-
culière à leur matrice de variance covariance. Cette forme aecte celle de lestimateur des MCO
et permet donc de defnir de nouvelles methodes destimation robuste à lautocorrelation. Par
lestimation de la matrice de variance des perturbations elle-meme, elle permet en outre de
mettre en uvre lestimateur des MCQG.
(i) Estimation robuste
Sous les hypothèses H
AR
, nous avons montre dans le Chapitre 7 que lestimateur des MCO,
b
MCO
= (x
x)
1
x
y, est sans biais, convergent et asymptotiquement normal.

Remarque 9.2 En utilisant les notations introduites dans les Hypothèses H
AR
3
et H
AR
4
, on sait
egalement que : V
as
(
b
MCO
) = Q
1
XX
Q
XX
Q
1
XX
. Cette expression permet de preciser limportance
de lhypothèse H
AR
4
. A titre dillustration, la matrice
1
T
x
x secrit dans le cas dune seule

variable explicative :
1
T
x
x =

2
1
2
_
t
x
2
t
T
+ 2
t
x
t
x
ts
T
_
Si le processus engendrant les x est stationnaire et de moyenne nulle, et que lon denit
s
comme Cov (x
t
, x
ts
) =
s
V (x
t
), ce terme secrit :
1
T
x
x
P
1
2
V (x
t
)
_
1 + 2
s
_
= V (u
t
) V (x
t
)
_
1 + 2
s
_
et la matrice de variance de lestimateur est alors :
V
as
_
b
mco
[X
_
=
V (u
t
)
V (x
t
)
_
1 + 2
s
_
Lerreur sur la matrice de variance est donc dun facteur multiplicatif (1 + 2
s
). Cette
erreur est donc dautant plus importante que le coecient dautocorrelation est fort. Si = 0 on
retrouve en eet la formule standard de la variance des MCO. Lerreur est egalement dautant
plus importante que les variables explicatives sont elles-memes correlees dans le temps. Le terme
de correction tend ainsi ` a sannuler lorsque les
s
tendent vers 0.
La mise en uvre dune estimation robuste à lautocorrelation necessite destimer les pa-
ramètres de la matrice de variance covariance de lestimateur des MCO. Il convient donc de
denir un estimateur convergent de la variance des residus,
2
, et du coecient de correlation
.
Estimation de la variance des residus. On utilise en general lestimateur habituel :
2
=
1
T

T
t=1
u
2
t
, qui est un estimateur convergent de la variance des residus :
2
P
2
.
Estimation du coecient de correlation des residus. La construction de lestimateur
repose sur lequation de regression de lestimateur des MCO. Lidee est dutiliser les residus
estimes, u
t
= y
t
x
t
b
MCO
, comme une estimation de la vraie valeur des residus. Cette estimation
est sans biais gr ace aux proprietes de lestimateur des MCO. Un estimateur du coecient de
correlation des residus peut alors etre obtenu par application des MCO au modèle de regression
u
t
= u
t1
+
t
. Lestimateur utilise est alors :
=

T
t=2
u
t
u
t1
T
t=2
u
2
t1
(9.3)
Cet estimateur est convergent,
P
, et asymptotiquement normal :
T ( )
L
^(0, 1
2
). La demonstration de ces proprietes est tgrès complexe en raison de la presence de residus
estimes dans son expression. Si ces residus netaient pas estimes, on pourrait obtenir directement
sa loi asymptotique en appliquant les resultats standards quant aux proprietes de lestimateur des
MCO :
T( )
L
^(0, V ), o` u V = V (u
t1
)
1
V (
t
). Sachant que V (u
t
) =
2
V (u
t1
) +V (
t
)
et que V (u
t
) = V (u
t1
), on aurait en outre : V (u
t1
)
1
V (
t
) = (1
2
).
Tous les paramètres de la matrice de variance covariance dess residus peuvent ainsi etre
estimes de fa con convergente. La matrice ( ,
2
) constitue donc un estimateur convergent de
: ( ,
2
)
P
(,
2
). Cette première etape permet de denir un estimateur convergent de
la matrice de variance covariance de lestimateur des MCO et ainsi de mettre en uvre une
estimation robuste à lautocorrelation.
Proposition 9.8 Lestimateur :

V
as
(
b
MCO
[x) =
_
x
x
T
_
1
x
( ,
2
)x
T
_
x
x
T
_
1
, sous les Hypothèses
H
AR
, est :
1. Convergent :

V
as
(
b
mco
)
P
Q
1
XX
Q
XX
Q
1
XX
= V
as
(
b
MCO
) ;
T

V
as
(
b
MCO
[x)
1/2
(
b
MCO
b)
L
^(0, I).
Demonstration Lobtention de ces resultats repose sur des theorèmes de convergence etudiant la moyenne de
variable dependante dans le temps. Seuls les deux principaux theorèmes sont presentes ici. Soit z
t
un processus
stationnaire dont la moyenne est notee E(z
t
) = m et dont les covariances sont notees E(z
t
z
tk
) =
k
, pour k allant
de à +. On fait en outre lhypothèse que ces covariances sont absolument sommables :
|
k
| < . On
a alors :
1. z
t
P
m et limTE (z
t
m)
2
k
;
2. si z
t
= m+
ts
, avec
s
|
s
| < et
t
IID, alors :
T (z
t
m)
L
N(0,
k
).
Le premier resultat (limT E(z
t
m)
2
k
) reète le changement le plus important par rapport au
cas etudie jusquà present dabsence de correlation entre les observations. Nous avions dans ce cas N E(z
t
)
2
=
2
,
avec dans les notations adoptees ici :
0
=
2
. La dierence provient du fait quil est necessaire de prendre en
compte la correlation entre les observations aux dierentes dates. Le resultat na toutefois rien de très surprenant.
Dans le cas dune variable de moyenne nulle, on a par exemple :
Tz
t
2
=
1
T
(z
1
+ +z
T
)
2
=
1
T
T
t=1
z
2
t
+ 2
1
T
T
t=2
z
t
z
t1
+ + 2
1
T
T
t=T
z
t
z
tT+1
=
1
T
T
t=1
z
2
t
+ 2
T 1
T
1
T 1
T
t=2
z
t
z
t1
+ + 2
1
T
T
T 1
T
t=T
z
t
z
tT+1
et donc
TE
_
z
t
2
_
=
0
+ 2
T 1
T

1
+ + 2
1
T

T1
TE
_
z
t
2
_
(
0
+ 2
1
+ + 2
T1
) = 2(
1
T

1
+ +
T 1
T

T1
)
qui tend vers zero puisque la serie
|
k
| converge.
Pour que la loi des grands nombres soit satisfaite, il faut donc que la dependance temporelle sestompe
susamment rapidement. La variance de lestimateur de la moyenne prend dailleurs en compte cette dependance
temporelle : plus la dependance temporelle est forte, moins les estimations sont precises.
(ii) Mise en uvre des MCQG : lestimateur de Prais-Watson
Sous les Hypothèses H
AR
, lestimateur des MCO nest pas lestimateur optimal. Le meilleur
estimateur lineaire sans biais de b est en eet lestimateur des MCG, deni par :

b
MCG
=
(x
1
x)
1
x
1
y, dont la variance est donnee par : V (
b
MCG
) = (x

1
x)
1
. Il correspond
à lestimateur des MCO du modèle sphericise :
1/2
y =
1/2
xb +
1/2
u, o` u
1/2
est
la matrice de sphericisation telle que :
1/2
1/2
= I
T
. Dans le cas du modèle AR(1),
cette operation de sphericisation rend les perturbations independantes. Tout le problème est
de trouver une matrice respectant ces proprietes. Dans le cas o` u les perturbations suivent un
processus AR(1), la transformation peut etre fondee sur la matrice :
1/2
=
_
_
_
_
_
_
_
_
_
_
_
_
_
1
2
0 0
1
.
.
.
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 0
0 0 1
_
_
_
_
_
_
_
_
_
_
_
_
Lestimateur des MCG peut alors etre calcule comme estimateur des MCO du modèle :
_
_
_
_
_
_
y
1
_
1
2
y
2
y
1
.
.
.
y
T
y
T1
_
_
_
_
_
_
=
_
_
_
_
_
_
x
1
_
1
2
x
2
x
1
.
.
.
x
T
x
T1
_
_
_
_
_
_
b +
_
_
_
_
_
_
u
1
_
1
2
u
2
u
1
.
.
.
u
T
u
T1
_
_
_
_
_
_
Remarque 9.3 Cette matrice de transformation est specique au modèle considere. Dans le
cas plus general dun modèle AR(p) (ou dun MA(q)) les formules de sphericisation sont beau-
coup plus complexes, et font intervenir les p (q) paramètres de la matrice de variance. La sim-
plicite de la transformation participe ` a expliquer le succès du modèle AR(1).
Lapplication de cette transformation necessite de connatre le paramètre . En labsence
dinformation sur ce paramètre, on utilise une estimation de convergente de an de mettre en
uvre lestimateur des MCQG. Le paramètre est alors remplace par dans la premultiplication
du modèle par
1/2
(), et la transformation utilise donc
1/2
( ). En toute generalite, la mise
en uvre de lestimateur des MCQG repose donc sur une hypothèse supplementaire :
Application 9.4
Estimateur de Prais-Watson
On appelle estimateur de Prais-Watson lestimateur des MCQG dans le modèle AR(1). Sa mise
en uvre est facilitee par la transformation proposee dans cette section. Il convient dabord
dobtenir lestimateur du coecient de correlation :
1 Estimation par les MCO du modèle y
t
= x
t
b +u
t
, t = 1, ..., T ;
2 Calcul des residus estimes : u
t
= y
t
x
t
b
MCO
;
3 Estimation de par application des MCO au modèle : u
t
= u
t1
+
t
, t = 2, ..., T.
Cette première etape fournit lestimateur deni en (9.3). Il permet alors de mettre en uvre
les MCQG par shericisation du modèle :
4 Construction des donnees transformees :
y
1
=
_
1
2
y
1
et y
t
= y
t
y
t1
, t = 2, ..., T
x
1
=
_
1
2
x
1
et x
t
= x
t
x
t1
, t = 2, ..., T
5 Estimation par les MCO des paramètres du modèle transforme : y
t
= x
t
b+ u
t
, t = 1, ..., T.
Lestimateur

b ainsi obtenu est convergent et asymptotiquement aussi ecace que lestimateur
des MCG. Les ecarts-type fournis par les logiciels standards peuvent en outre etre directement
utilises. Pour ce faire, il faut cependant prendre bien garde à retirer la constante du modèle
et ne pas omettre dappliquer la transformation à toutes les variables du modèle initial, y
compris la constante sil en comprend une.
H
AR
5
: Il existe

, tel que

P
.
Une fois de plus, cette hypothèse est en realite redondante avec les Hypothèses H
AR
1
à H
AR
4
,
sous lesquelles lestimateur des MCO fournit lestimateur convergent du coecient de correlation
(9.3). On peut donc utiliser cet estimateur,

= , an de calculer lestimateur des MCQG :
b
MCQG
=
_
x
)
1
x
_
1
x
)
1
y (9.4)
Proposition 9.9 Sous les Hypothèses H
AR
lestimateur des MCQG (9.4) est :
1. Convergent :

b
MCQG
P
b ;
T (
b
MCQG
b)
L
^(0, V
as
(
b
MCQG
)) ;
as
(
b
MCQG
) = Q
1
X
1
X
=
plim T V (
b
MCG
).
Lestimateur

V
as
(MCQG) =
_
1
T
x
)
1
x
_
1
est un estimateur convergent de la matrice de
variance de

b
MCQG
:

V
as
(MCQG)
P
V
as
(MCQG).
(iii) Detection de lautocorrelation
Dans le cadre du modèle AR(1), la presence dautocorelation se traduit par lexistence dun
coecient dautocorrelation non nul liant entres elles les perturbations. Dans ce cadre, tester
labsence dautocorrelation revient donc à sinteresser aux hypothèses :
_
H
0
: = 0
H
1
: ,= 0
Un premier test est fourni par un test de signicativite de lestimateur du coecient de correlation
(9.3). On sait en eet que lestimateur est asymptotiquement normal :
T( )
L
^(0, 1
2
).
Sous H
0
on a donc :
T
L
^(0, 1). Cette propriete est asymptotique, et lutilisation de cet
estimateur fournit donc un test asymptotique dautocorrelation.
Proposition 9.10 Soit la statistique de test S =
T . La region critique W =
_
S
[S[ > t
1/2
_
deni un test asymptotique dautocorrelation convergent au seuil .
On se trouve cependant assez frequemment dans des echantillons de petite taille, pour les-
quels lapproximation asymptotique ne vaut pas parfaitement. Cest pourquoi on utilise très
frequemment le test de Durbin-Watson qui repose sur la statistique :
1
d =

T
t=2
( u
t
u
t1
)
2
T
t=1
u
2
t
(9.5)
Cette statistique est liee asymptotiquement au paramètre , selon la relation : plim

d =
2(1 ).
1
En pratique, le test de Durbin-Watson tend, par inertie, à etre utilise systematiquement quelle que soit la
taille de lechantillon.
Demonstration En decomposant la statistique (9.5), on a : plim

d = plim
1
T

T
t=2
u
2
t
2
1
T

T
t=2
u
t
u
t1
+
1
T

T
t=2
u
2
t1
1
T

T
t=1
u
2
t
.
Par denition on sait que plim
1
T

T
t=2
u
2
t
= plim
1
T

T
t=2
u
2
t1
= plim
1
T

T
t=1
u
2
t
. On a par ailleurs :
p lim
1
T
u
t
u
t1
p lim
1
T

T
t=1
u
2
t
=
Cov (u
t
, u
t1
)
V (u
t
)
=
et donc : plim

d = 1 2 + 1 = 2(1 ).
Cette relation permet de caracteriser le lien entre la statistique de Durbin-Watson et le
coecient dautocorrelation des perturbations. On a en eet :
Absence dautocorrelation : si est nul,

d est proche de 2 ;
Forte autocorrelation positive : si est proche de 1,

d est proche de 0 ;
Forte autocorrelation negative : si est proche de -1,

d est proche de 4.
La loi de probabilite de la statistique

d est toutefois dicile à etablir car elle depend des
residus estimes et donc des valeurs prises par les variables explicatives du modèle. On peut
neanmoins montrer quil existe deux statistiques, d
et d
u
, qui encadrent toujours

d sous lhy-
pothèse nulle (H
0
: = 0). La loi de ces statistiques ne depend que de T le nombre dobser-
vations et K le nombre de variables explicatives. Sous H
0
, on a donc :
d
<

d < d
u
(9.6)
Cette propriete permet dexploiter la relation entre la statistique de test et la vraie valeur du
coecient de correlation an de tester la presence dautocorrelation dans le processus generateur
des perturbations.
Test de correlation positive. On sinteresse au test unilateral :
_
H
0
: = 0
H
1
: > 0
Compte tenu des relations decrites ci-dessus, on sait que la probabilite de se tromper en acceptant
H
0
est dautant plus faible que

d est proche de 2 ; il convient donc de laccepter dans ce cas et
de rejetter lhypothèse nulle si

d est faible. Si la loi, d
0
, de

d etait connue, un test au seuil
pourrait etre conduit en determinant le fractile dordre d
() de cette loi, tel que : P(d

0
<
d
()) = , an de conclure au rejet ou à lacceptation de lhypothèse H

0
. Ne connaissant pas
la loi asymptotique de

d, cest sur les statistiques (9.6) que le test est fonde. Pour ce faire, on
utilise les fractiles correspondants d
() de d
et d
u
() de d
u
:
P (d
l
< d
l
()) =
P (d
u
< d
u
()) =
Compte tenu de la relation (9.6), on a bien : d
l
() < d
() < d
u
(). La règle de decision du
test unilateral de correlation positive de Durbin-Watson est donc :
Si

d est inferieure à d
(), alors

d < d
() et on refuse H
0
;
Si

d est superieure à d
u
(), alors

d > d
() et on accepte H
0
;
Si d
<

d < d
u
, la valeur de la statistique de test ne permet pas de conclure. La statistique
se trouve alors dans la zone dite inconclusive.
120 Chapitre 9.
Test de correlation negative. Le test considere est :
_
H
0
: = 0
H
1
: < 0
Ce test est conduit en sappuyant sur la statistique 4

d, qui est comparee à 2. On rejette ainsi
lhypothèse nulle pour des valeurs faibles de la statistique et on laccepte si elle prend des valeurs
susamment importantes, puisque : 4 d
u
< 4 d
< 4 d
. La règle de decision du test

unilateral de correlation negative de Durbin-Watson est donc :
Si 4

d > 4 d
, alors 4

d > 4 d
et on refuse H
0
;
Si 4

d < 4 d
u
, alors 4

d < 4 d
et on accepte H
0
;
Si 4 d
u
< 4

d < 4 d
, la valeur de la statistique de test ne permet pas de conclure :

la statistique se trouve dans la zone inconclusive.
Les lois de de d
et d
u
ont ete tabulees par Durbin et Watson (REF) pour un modèle
avec constante et perturbations AR(1). Ces tables permettent de mettre en uvre le test. La
pratique courante tend à inclure la zone inconclusive dans la zone de rejet de lhypothèse H
0
an de se garantir contre le risque daccepter à tort lhypothèse dabsence dautocorrelation. Il
faut noter que lamplitude de la zone inconclusive, d
u
d
, est dautant plus importante que

le nombre T dobservations est faible et que le nombre de variables explicatives est important.
Cette accroissement de la zone inconclusive aaiblit la pertinence du test. Lorsque le nombre
dobservations devient très grand, on peut cependant sappuyer sur le test asymptotique decrit
dans la Proposition 9.10.
Remarque 9.4 Bien quil soit speciquement destine ` a tester labsence dautocorrelation contre
lhypothèse alternative dune autocorrelation issue dun processus AR(1), le test de D.W. se
revèle capable de detecter dautres formes dautocorrelations, telles que des processus MA(1) ou
AR(2). Dans les autres situations, il est preferable de recourir ` a dautres tests.
Resume
Ce chapitre est consacre au traitement de la correlation entre observations, qui remet en
cause lhypothèse dhomoscedasticite des residus. On a dans ce cas : V (u
i
[x
i
) = V (u
i
) = ().
Estimation en presence dautocorrelation. Quelle que soit la forme de la matrice de
variance covariance des perturbations, on a :
Lestimateur des MCO est convergent, sa matrice de variance-covariance peut etre es-
timee de fa con convergente par :

V
as
(
b
MCO
) = (x
i
x
i
)
1
x
i
u
i
u
i
x
i
x
i
x
i
1
;
La matrice de Newey-West generalise la correction de White (Chapitre 8) au cas o` u
lheteroscedasticite est relative aux x et issue dune correlation des observations.
Pour tout estimateur convergent

de , lestimateur des MCQG
b
MCQG
= (x
i
(
)
1
x
i
)
1
x
i
(
)
1
y
i
est convergent et asymptotiquement equivalent à lestimateur des MCG.
Specications du processus generateur dautocorrelation.
Un processus temporel z
t
est stationnaire à lordre 2 si son esperance est constante et
que la covariance entre deux realisations ne depend que du nombre de dates les separant ;
Exercices 121
Les processus suivants sont stationnaires à lordre 2 et frequemment utilises en pratique :
MA(q) : u
t
=
t
+
1
t1
+ +
q
tq
;
AR(p) : u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
;
ARMA(p,q) : u
t
=
1
u
t1
+
2
u
t2
+ +
p
u
tp
+
t
+
1
t1
+ +
q
tq
.
Le modèle AR(1) est de loin le plus utilise et modèlise lidee que les innovations dun
processus peuvent avoir des eets durables mais qui sestompent progressivement.
Estimation du modèle AR(1). Un cas frequemment rencontre en pratique est celui
dun modèle temporel : y
t
= x
t
b +u
t
avec perturbations AR(1) : u
t
=
1
u
t1
+
t
.
Lestimateur de la matrice de variance covariance ( ,
2
), o` u
2
=
1
T

T
t=1
u
2
t
et =
T
t=2
u
t
u
t1
T
t=2
u
2
t1
est convergent.
Lestimation robuste à lautocorrelation et la methode des MCQG peuvent etre fondees
sur lestimateur ( ,
2
).
Le test de Durbin-Watson, fonde sur la statistique

d =

T
t=2
( u
t
u
t1
)
2
T
t=1
u
2
t
fournit un test
exact dautocorrelation suivant un processus AR(1). Un test asymptotique peut etre
realise à partir de la statistique S =
T .
Exercices
1. Soit
t
une variable aleatoire IID de moyenne nulle et decart-type . Etudier les proprietes
de stationnarite des processus suivants :
Tendance temporelle : z
t
= a +bt ;
Marche aleatoire : z
t
= z
t1
+
t
.
Solution: Application 9.3.
2. Denir et deriver la matrice de variance-covariance dun processus MA(1). Le processus
est-il stationnaire ?
Solution: Application 9.3.1.
3. Decrire les etapes de mise en uvre de lestimateur des MCQG par sphericisation dans le
cas dun modèle AR(1).
Solution: Application (ii).
122 Chapitre 9.
Chapitre 10
Evaluation : Regressions à variables
de controle
10.1 Independance conditionnelles à des observables
10.1.1 Identication sous lhypothèse dindependance conditionnelles à des
observables
Leet moyen du traitement pour les individus de caracteristiques x nest pas identie
sans hypothèses sur la loi jointe des outputs potentiels et du traitement conditionnellement
à x. En eet, pour estimer leet moyen du traitement sur les traites E (y
1
y
0
[x, T = 1) ,il
est necessaire didentier E (y
0
[x, T = 1) alors que les donnees ne permettent didentier que
E (y
0
[x, T = 0) = E (y [x, T = 0) . De meme pour identier leet du traitement dans la po-
pulation, il est necessaire didentier E (y
0
[x, T = 1) et egalement E (y
1
[x, T = 0) , alors que
concernant y
1
seul E (y
1
[x, T = 1) = E (y [x, T = 1) est identiable.
Un premier ensemble dhypothèses identiantes consiste ` a faire lhypothèse que ces quantites
sont egales :
Denition 10.1 On dit quil y a independance forte conditionnellement ` a des observables sil
existe un ensemble de variables observables x tel que :
l (y
1
, y
0
[T, x) = l (y
1
, y
0
[ x)
On dit quil y a independance faible conditionnellement ` a des observables sil existe un ensemble
de variables observables x tel que :
l (y
0
[T, x) = l (y
0
[ x)
Proposition 10.1 Lhypothèses dindependance faible est susante pour identier le paramètre
TT
, en revanche, pour identier le paramètre
ATE
il est necessaire davoir recours ` a lhy-
pothèse dindependance forte.
Proposition 10.2 En eet dans ces conditions, l (y
0
[ x) = l (y
0
[T, x) = l (y
0
[T = 0, x) =
l (y [T = 0, x) la densite de loutput potentiel est identiee et on peut donc estimer E (y
0
[ x, T = 1) =
E (y [ x, T = 0)
123
124 Chapitre 10. Evaluation : Regressions à variables de controle
Pour comprendre la signication de cette hypothèse, on peut revenir à la modelisation des
outputs precedentes :
_
y
1
=
1
+x
1
+u
1
y
0
=
0
+x
0
+u
0
On a pour y
0
par exemple :
E (y
0
[T, x) =
0
+x
0
+E (u
0
[T, x) = g
0
(x, T)
si il existe une source de variabilite commune à u
0
et T conditionnellement à x alors on aura
E (y
0
[T = 1, x) ,= E (y
0
[T = 0, x) . Si neanmoins on est capable detendre lensemble des va-
riables observables en x de telles sorte que lon puisse epuiser les sources de variabilite commune
entre u
0
et T alors on aura
E (y
0
[T, x) =
0
+x
0
+E (u
0
[T, x) = g
0
( x)
Lhypothèse dindependance conditionnellement à des observables consiste à supposer que lon
est capable de controler pour ces sources de variabilite. Remarquons qualors la fonction g
0
( x)
ne re coit plus dinterpretation economique alors que cela pouvait etre le cas pour
0
+ x
0
.
Dans cette approche on accepte de perdre des informations sur le comportement des individus :
on ne peut plus distinguer leet specique de x sur y
0
de son eet transitant par E (u
0
[ x) .
Le point important est quà ce prix, il est possible de construire pour chaque individu traite de
caracteristique x un contrefactuel, cest à dire une estimation de ce quaurait pu etre sa situation
en labsence de traitement, par le biais de g
0
( x).
10.1.2 Le score de propension (propensity score)
La dimension de lensemble des variables de controle à introduire pour assurer lindependance
entre le traitement et les outputs potentiels est souvent eleve, ce qui peut conduire à des com-
plications importantes, notamment pour la mise en oeuvre de version semi parametrique des
estimateurs. Rubin et Rosenbaum (1983) ont montre un resultat important permettant de nom-
breuses simplications pratiques :
Proposition 10.3 Sil y a independance conditionnellement ` a des observable, alors il y a independance
conditionnellement au score : P (T
i
= 1 [x
i
) :
y
0
T [ x =y
0
T [P (T = 1 [ x)
Demonstration On note s = P (T = 1 | x)
P (T = 1 |s, y
0
) =
_
P (T = 1 | x, y
0
) l ( x|s, y
0
) dx =
_
P (T = 1 | x) l ( x|s, y
0
) d x
=
_
sl ( x|s, y
0
) d x = s
De meme, P (T = 1 |s) = s
On a donc : P (T = 1 |s, y
0
) = P (T = 1 |s)
10.1. Independance conditionnelles à des observables 125
Ainsi le problème de la dimension peut etre resolu de fa con drastique : il est seulement
necessaire de conditionner par une unique variable quelque soit la dimension de lensemble
initialement introduit.
Ainsi une etape initiale de toute evaluation consiste en une regression expliquant laectation
au traitement. Elle est faite par exemple en utilisant un modèle Logit.
Remarque 10.1 Si s est un ensemble dinformation plus large que s, par exemple s = s, g ( x) ,
le resultat demeure : P (T = 1 [ s, y
0
) = P (T = 1 [ s) . un tel ensemble dinformation est appele
balancing score. La propriete de Rosenbaum et Rubin est en toute generalite que lorsquil y
a independance conditionnelle ` a des observables, il y a aussi independance conditionnellement ` a
nimporte quel balancing score.
10.1.3 Methodes destimation
Il y a principalement trois methodes destimation. Une basee sur des regressions, une basee
sur des appariements entre individus traite et individus non traites et une basee sur des ponderations.
Toutes ces methodes mettent laccent sur lheterogeneite de leet du traitement au sein de la
population.
Les deux premières estimations ont des caracteristiques communes. Pour chaque individu
traite de caracteristique x
i
on cherche un estimateur de ce quaurait pu etre sa situation en
labsence de traitement, i.e E (y
0
[T = 1, x = x
i
) . La propriete dindependance permet decrire
E (y
0
[T = 1, x = x
i
) = E (y
0
[T = 0, x = x
i
) = E (y [T = 0, x = x
i
) . Les procedures destima-
tion consiste à estimer de fa con aussi peu restrictive que possible la fonction E (y [T = 0, x = x
i
).
Lestimateur calcule in ne est alors deni par
E ([T = 1, x
i
X) =
1
N
1,X
{T
i
=1,x
i
X}
y
i

E (y [T = 0, x = x
i
)
La fonction E (y [T = 0, x = x
i
) peut etre estimee de dierente fa con correspondant aux ap-
proche par regression ou par appariement.
(i) Regression :
Une première fa con destimer leet du traitement consiste à proceder à la regression de la
variable doutput observee sur le traitement et les variables de controle.
Proposition 10.4 Dans la regression
E (y [T, x) = h(x) +Tg (x)
La propriete dindependance faible E (y
0
[T, x) = E (y
0
[x) permet didentier g (x) = E (y
1
y
0
[T = 1, x) .
On peut estimer
TT
= E (g (x) [T = 1) ` a partir dune estimation convergente de g comme
TT
=
1
N
1
T
i
=1
g (x
i
)
La propriete dindependance forte E (y
0
[T, x) = E (y
0
[x) et E (y
1
[T, x) = E (y
1
[x) permet
didentier g (x) = E (y
1
y
0
[T = 1, x) = E (y
1
y
0
[T = 1, x) . On peut estimer
TT
=
E (g (x) [T = 1) ` a partir dune estimation convergente de g comme precedemment et
ATE
=
E (g (x))
ATE
=
1
N
g (x
i
)
Demonstration Comme y = y
0
(1 T) +y
1
T = y
0
+T (y
1
y
0
) , on a :
E (y |T, x) = E (y
0
|T, x) +TE (y
1
y
0
|T, x) = E (y
0
|T, x) +TE (y
1
y
0
|T = 1, x)
Comme E (y
0
|T, x) = E (y
0
|x) , on a donc
E (y |T, x) = E (y
0
|x) +TE (y
1
y
0
|T = 1, x)
et on a bien g (x) = E (y
1
y
0
|T = 1, x)
Une estimation non parametrique de y sur la variable de traitement et les variables de
conditionnement permet donc en presence de la seule hypothèse y
0
T [x didentier le paramètre
TT
(x) . En pratique : si la propriete dindependance est vraie, elle est aussi vraie pour le score
(propriete de Rosenbaum et Rubin) Les regressions peuvent donc etre basees sur le score et non
sur lensemble des variables explicatives. On peut en pratique proceder aux regressions suivantes
sur les populations separees :
y =
J
j=1
1
j
f
j
(s) +w
1
pour T = 1
y =
J
j=1
0
j
f
j
(s) +w
0
pour T = 0
o` u s est le score. Pour leet du traitement sur les traites, on estime alors :
E ([T = 1) =
1
N
1
T
i
=1
y
1i
j=1

0
j
f
j
(s
i
)
ou aussi :
E ([T = 1) =
1
N
1
T
i
=1
J
j=1
_

1
j

0
j
_
f
j
(s
i
)
Le deuxième estimateur est un peu moins precis puisquil incorpore la variance du residu mais
il evite davoir à specier et estimer lequation doutput pour les individus traites.
Remarque 10.2 Linteret de cette methode est quelle apparat comme un prolongement na-
turel de la regression ` a variables de contr ole y = xb + T +u.
(ii) Appariement
Pour chaque individu traite

i, ayant des caracteristiques x
i
, on cherche un individu non
traite j
_
i
_
, ayant les memes caracteristiques observables, i.e j
_
i
_

_
j
T
j
= 0, x
j
= x
i
_
.On
estime alors leet du traitement pour lindividu i par

i
= y
i
y
j(
i)
. On compare ainsi loutput
de lindividu considere et loutput dun individu non traite ayant les memes caracteristiques
observables. Le terme dappariement provient de lidee que chaque individu traite est apparie
avec son jumeau non traite.
La quantite y
j(
i)
est un estimateur (non parametrique) de
E
_
y
T = 0, x = x
i
_
= E
_
y
0
T = 0, x = x
i
_
= E
_
y
0
x = x
i
_
= E
_
y
0
T = 1, x = x
i
_
Lestimateur calcule nalement est obtenu en prenant la moyenne de la quantite c
i
= y
i
y
j(
i)
sur la population traitee à laquelle on sinteresse :
E ([T = 1) =
1
N
1
T
i
=1
y
i
y
j(i)
En pratique il nest pas toujours possible de trouver pour chaque individu traite, un individu
non traite ayant les memes caracteristiques que lindividu traite considere. On peut alors choisir
lindividu apparie de telle sorte que
_
_
_x
i
x
j(
i)
_
_
_
soit minimal, pour une metrique donnee.

Une metrique naturelle dans ce cas est la metrique de Mahalanobis = V (x)
1
.
Neanmoins la qualite de cet appariement peut etre mauvaise en pratique : pour certains
individus traites, il nexiste pas dindividu proche non traite notamment dans le cas o` u il y
a un grand nombre de variables de conditionnement. La propriete de Rosenbaum et Rubin
simplie beaucoup lappariement dans ce cas. En eet cette propriete permet de proceder à des
appariements sur la base du seul resume des variables de conditionnement que constitue le score.
On peut ainsi apparier des individus dont les caracteristiques peuvent etre très eloignees, mais
qui ont des scores proches.
Ceci constitue le principe de lappariement tel quil a ete developpe par les statisticiens.
De nombreuses questions restent neanmoins non resolues : doit on faire lappariement avec
ou sans rejet ? Un individu non traite une fois apparie doit-il etre evince de lensemble des
individus susceptibles detre apparies avec les individus non traites restants. Si on choisit quun
individu ne peut etre apparie quune seule fois alors la qualite de lappariement se degradera
progressivement. La question est alors de savoir par o` u commencer. De meme, si on dispose dun
echantillon dindividu non traite très vaste, ne peut on pas tirer partie des individus qui in ne
nauront pas ete apparies. Enn, ce principe dappariement tel quil est exprime ne permet pas
de preciser le comportement asymptotique de lestimateur propose.
Extension Kernel matching estimator Les methodes dappariement se generalisent direc-
tement dès lors que lon interprète y
j(
i)
comme un estimateur non parametrique de E
_
y
0
T = 0, x = x
i
_
.
Dierents autres types destimateurs non parametriques peuvent etre envisages. Ils consistent
tous à remplacer y
j(
i)
par une moyenne ponderee des observations de lechantillon de controle :
E
_
y
0
T = 1, x = x
i
_
=
T
j
=0
w
N
_
i, j
_
y
j
On peut ainsi considerer une moyenne ponderee dun nombre donne n, à choisir, de voisins les
plus proches. n nearest neighbours. Lestimateur propose par Rubin est en fait celui du voisin
le plus proche. Considerer un nombre plus important de voisins aecte lerreur quadratique
moyenne de lestimateur, elle meme somme du carre du biais et de la variance de lestimateur.
Lorsque le nombre dindividus considere augmente le biais augmente : on prend en compte des
individus dont les caracteristiques sont plus eloignees que celle de lindividu traite. En revanche
la variance baisse car on prend la moyenne sur un ensemble plus important dindividus. On
peut montrer que le nombre optimal dindividus à prendre en compte crot avec la taille de
lechantillon.
Lestimateur propose par Heckmann Ichimura and Todd (1998) est un estimateur à noyau
de la quantite E
_
y
0
T = 1, x = x
i
_
.
E
_
y
0
T = 1, x = x
i
_
=
T
j
=0
K
h
(x
j
x
i
) y
j
T
j
=0
K
h
(x
j
x
i
)
=
T
j
=0
K
h
(x
j
x
i
)
T
j
=0
K
h
(x
j
x
i
)
y
j
=
T
j
=0
w
N
_
j,
i
_
y
j
dans cette expression K
h
(z) =
1
h
K
_
z
h
_
ou K est un noyau et h un paramètre appele la fenetre.
Le noyau est une fonction maximale en zero, positive en zero, symetrique autour de zero et
dintegrale unitaire (cette condition ne joue pas de role dans le cas de lestimation dune fonction
de regression). Il existe de multiples exemples de noyau, par exemple le noyau uniforme valant
0.5 sur [1, 1] , Dans ce cas lestimateur non parametrique correspondant consiste simplement à
prendre la moyenne des observations pour des individus dont les caracteristiques se situent dans
lintervalle [x h
N
, x +h
N
] . Un autre exemple correspond à (z) la densite de la loi normale.
Ce noyau presente lavantage davoir pour support Un noyau frequemment choisi en pratique
dans le cas unidimensionnel est le noyau quartique : K (z) =
15
16
_
1 z
2
_
2
1 [z[ 1
Dans les expressions precedentes, h est la fenetre. Plus elle est faible, moins on prend en
compte les observations seloignant de x
i
. Dans ce cas lestimateur sera très peu precis mais
le biais sera en revanche faible. A linverse, lorsque la fenetre selargit lestimateur considere
devient plus precis autour de sa valeur limite, mais cette valeur limite tend elle meme à secarter
de la quantite que lon cherche à estimer. Le choix de la fenetre est tel quil minimise lerreur
quadratique moyenne, somme du carre du biais et de la variance de lestimateur. On peut mon-
trer que lorsque elle est choisie comme une fonction croissante de la dispersion des variables x
et decroissante du nombre dindividu. Un choix possible pour la fenetre est dans le cas unidi-
mensionnel : h(N) =
x
/N
1/5
. En general les estimateurs non parametriques ont une vitesse de
convergence plus faible que les estimateurs parametriques. Ici le rythme de convergence est en
Nh soit une vitesse de convergence en N

2
5
.
Finalement lestimateur de leet moyen du traitement sur les traites est estime par :
E ([T = 1) =
1
N T
i
= 1
{T
i
=1}
_
_
y
i
T
j
=0
w
N
(j, i) y
j
_
_
Bien que base sur des estimateurs non parametriques qui donc convergent lentement, Heckman
Ichimura et Todd ont montre que la vitesse de convergence de cet estimateur est en
N. Ceci
tient au fait que lestimateur nal est une moyenne destimateurs non parametriques. Il est dit
semi -parametrique. Lexpression de la variance de cet estimateur est complexe et son estimation
à partir de sa formule litterale necessite l` a aussi le calcul dintermediaires non parametrique. En
pratique, on determine la variance de cet estimateur par bootstrap. Ceci consiste à tirer avec
remise un grand nombre dechantillons aleatoires dans la population, et à appliquer sur chacun
de ces echantillons toute la procedure destimation. La distribution des estimateurs que lon
obtient in ne est la distribution exacte de lestimateur. On peut lutiliser pour determiner les
ecarts-type ou les intervalles de conance.
L` a aussi la propriete de Rubin est très importante. En eet elle autorise à proceder à la
regression non parametrique sur la seule variable que constitue le score s (x) . On est ainsi amene
à calculer pour chaque individu :

E
_
y
0
T = 1, s (x) = s
_
x
i
__
et non plus

E
_
y
0
T = 1, x = x
i
_
.
Cette simplication ne remet pas en cause la validite de lestimateur alternatif base sur lappa-
riement sur chacune des caracteristiques. La vitesse de convergence nest pas plus elevee avec
lun quavec lautre estimateur. Neanmoins le nombre dobservations necessaires pour que ce
comportement asymptotique soit obtenu est vraisemblablement plus faible avec lappariement
sur le score. Cet estimateur apparat plus able à ce titre.
Remarque 10.3 : Les resultats precedents peuvent etre appliques en sens inverse pour ap-
paries chaque individu non traite avec un (des) individus traites. On estime alors E ([T = 0, x
i
X) .
On peut donc par appariement estimer leet moyen du traitement.
(iii) Ponderations
Une dernière methode destimation est basee sur des ponderations.
Proposition 10.5 Sous lhypothèse dindependance faible conditionnelle aux observables, leet
moyen du traitement verie la relation
E (c) = E
_
y
_
T
P (x)

(1 T)
(1 P (x))
__
Sous lhypothèse dindependance faible conditionnelle aux observables, leet du traitement sur
les traites verie la relation
E (c [T = 1) = E
_
y
P (x)
P (T = 1)
_
T
P (x)

(1 T)
(1 P (x))
__
Demonstration En eet, les proprietes dindependance conditionnelles permettent didentier très simplement
les esperances des outputs potentiels.
y
k
T |x =E (y
k
1 (T = k) |x) = E (y
k
|x) E ((1 (T = k)) |x) = E (y
k
|x) P (T = k |x)
On a donc :
E (y
k
|x) = E
_
y
k
1 (T = k)
P (T = k |x)
|x
_
Do` u la première relation. Par ailleurs on a
E (y
0
T |x) = P (x) E (y
0
|T = 1, x) = P (x) E (y
0
|T = 1, x) E
_
1 T
1 P (x)
|x
_
= E
_
P (x) E (y
0
|T = 1, x)
1 T
1 P (x)
|x
_
Do` u
E (y
0
T) = E (y
0
|T = 1) P (T = 1) = E
_
P (x) E (y
0
|T = 1, x)
1 T
1 P (x)
_
Comme E (y
0
|T = 1, x) = E (y
0
|T = 0, x)
E (y
0
|T = 1) = E
_
P (x) E (y
0
|T = 1, x)
1 T
1 P (x)
__
P (T = 1)
= E
_
P (x) E (y
0
|T = 0, x)
1 T
1 P (x)
__
P (T = 1)
= E
_
E
_
P (x) y
0
1 T
1 P (x)
|T = 0, x
___
P (T = 1)
= E
_
P (x) y
0
1 T
1 P (x)
__
P (T = 1)
10.1.4 Vraisemblance de lhypothèse dindependance conditionnelle à des ob-

servables.
Plusieurs questions se posent concernant la methode par appariement. La première concerne
de savoir sil est raisonnable de faire lhypothèse dindependance conditionnelle à des observables.
La deuxième est comment choisir en pratique les variables de conditionnement ? Faut-il retenir
toute linformation à disposition ? On presente dabord un resultat permettant de repondre en
partie à ces questions :
Proposition 10.6 z
1
z
2
[w
1
, w
2
et w
2
z
2
[w
1
=z
1
z
2
[w
1
Demonstration En eet :
l (z
1
, z
2
|w
1
) =
_
l (z
1
, z
2
|w
1
, w
2
) l (w
2
|w
1
) dw
2
en outre : l (z
1
, z
2
|w
1
, w
2
) = l (z
1
|w
1
, w
2
) l (z
2
|w
1
, w
2
) = l (z
1
|w
1
, w
2
) l (z
2
|w
1
) , do` u :
l (z
1
, z
2
|w
1
) =
_
l (z
1
|w
1
, w
2
) l (z
2
|w
1
) l (w
2
|w
1
) dw
2
= l (z
2
|w
1
)
_
l (z
1
|w
1
, w
2
) l (w
2
|w
1
) dw
2
= l (z
2
|w
1
) l (z
1
|w
1
)
(i) Prise en compte deets individuels : lapport de donnees temporelles

Lhypothèse dindependance conditionnelle à des observables a en fait peu de chance detre
satisfaite dès lors que les variables sont en niveau. Il y a en eet une heterogeneite très forte
dans les situations individuelles. Il est peu vraisemblable que lon puisse par adjonction de va-
riable de controle epuiser toute la partie de cette heterogeneite qui est prise en compte dans
la decision de participation. La majeur partie de cette heterogeneite correspond à la presence
de caracteristiques inobservees permanentes dans le temps semblable à un eet individuel. Les
resultats dont on dispose en econometrie des donnees de panel montrent bien que premièrement,
les eets individuels ont une très forte variance, meme dans les modèles dans lesquels on a
cherche à introduire de nombreux controles et que deuxièmement lhypothèse dindependance
entre les variables explicatives et les eets individuels est très frequemment rejetee. Une hy-
pothèse plus vraisemblable consisterait à introduire dans les variables de conditionnement un
terme dheterogeneite constant dans le temps :
H
Forte
: y
0
, y
1
T [x, u
H
Faible
: y
0
T [x, u
Prendre en compte cette heterogeneite dans le cadre precedent nest pas directement possible
justement parce quelle est inobservable.
Neanmoins, à linstar de ce qui est eectue dans le cadre de leconometrie des donnees de
panel, elle peut etre eliminee par dierentiation. Plus precisement, prenant par exemple le cas
de lindependance faible, on a la proposition suivante qui decoule directement de la proposition
precedente :
Proposition 10.7 Dans le cas o` u il existe un element inobserve u tel que la condition
y
0
T [x, u
est veriee. Si :
1. Il existe des observations disponibles y
p
de loutput anterieures au traitement
2. y
0
y
p
T [x, u , ce qui est vrai dès lors que y
p
x dans la condition y
0
T [x, u
3. y
0
y
p
u[x ,
alors la condition dindependance,
y
0
y
p
T [x
est veriee
On voit que dans ce cas leet individuel peut etre elimine par dierentiation et on retrouve
une propriete dindependance conditionnelle à des observables. En pratique, ceci revient à in-
troduire les variables passees de loutput dans la liste des variables de conditionnement et à
considerer comme variable doutput non les outputs eux memes, mais leur evolutions. Notant
y
1
= y
1
y
p
et y
0
= y
0
y
p
, on estime
E (y
1
y
0
[T = 1, x) = E ((y
1
y
p
) (y
0
y
p
) [T = 1, x) = E (y
1
y
0
[T = 1, x)
qui est donc bien le paramètre cherche.
(ii) Selection des observables
On peut etre tente de considerer un grand nombre de variables de conditionnement. Ceci nest
pas necessairement une bonne propriete comme on le verra et il vaut mieux chercher lensemble
de variables de conditionnement le plus petit possible tel que la condition dindependance soit
satisfaite.
Proposition 10.8 Supposons
y
0
, y
1
T [x
1
, x
2
Si seule une partie de ces variables aecte la variable de traitement :
Tx
2
[x
1
Alors on a
y
0
, y
1
T [x
1
La liste des variables de conditionnement peut etre amputee de toutes les variables qui
naectent pas la variable de traitement, ce qui peut etre aisement teste sur les donnees.

1 0
f(s)

1 0
f(s)
Support commun
f(s|T=0) f(s|T=1)
(iii) Problème de support
La question du support des distributions du score conditionnellement au traitement est
essentielle dans ce type danalyse. Son importance a ete soulignee par Heckman et al. (1998)
qui ont montre quelle constitue une source forte de biais dans lestimation de leet causal du
traitement.
Dans les methodes destimation par appariement ou par regression, il est necessaire de pou-
voir construire pour chaque individu traite un contrefactuel à partir des individus non traites,
cest-à-dire de pouvoir estimer E (y [s, T = 0) pour determiner leet causal du traitement sur
la population des individus traites. En outre, il est necessaire destimer E (y [s, T = 1) dès quon
sinteresse à leet causal du traitement dans la population totale.
Une estimation non parametrique de cette quantite, donc sans restriction sur la forme quelle
prend, impose que lon dispose pour un individu traite de score s dindividus non traites ayant
des valeurs du score proche de s. Dit dune autre manière, la densite du score pour les individus
non traites ne doit pas etre nulles pour les valeurs du score des individus traites consideres.
On ne peut donc construire de contrefactuel que pour les individus dont le score appartient à
lintersection des supports de la distribution du score des individus traites et des individus non
traites.
Ceci conduit à la conclusion que meme sous lhypothèse dindependance conditionnelle à des
observables, on ne peut pas systematiquement estimer E () ou E ([T = 1) dans la mesure o` u
E ([s) ne peut etre estime que pour les individus dont le score appartient au support commun
de la distribution du score pour les individus traites et non traites. Lestimateur obtenu in ne
est alors un estimateur local : E (c [s S
) ou E (c [s S
, T = 1), avec S
le support commun
deni par S
= S
T=1
S
T=0
avec S
T=1
le support de la distribution du score des individus
traites et S
T=0
celui des individus non traites.
Cette condition du support a une autre implication : le modèle servant à la construction du
score, cest à dire expliquant le traitement à partir des variables de conditionnement, ne doit pas
etre trop bon. Dans le cas extreme o` u on expliquerait parfaitement le traitement, les densites
du score conditionnellement au traitement seraient toutes deux des masses de Dirac, lune en
zero pour les individus non traites, lautre en 1 pour les individus traites. Les supports seraient
alors disjoints et aucun appariement ne serait possible.
Pour bien comprendre cette condition importante du score, il faut garder presente à lesprit
lidee initiale de Rubin : conditionnellement à un ensemble de variables explicatives x (ou le
score), on se trouve dans le cas dune experience controlee, cest à dire dans laquelle on dispose
dindividus traites et non traites qui sont aectes aleatoirement à chacun de ces groupes. Il
faut dans chaque cellule dans laquelle on se trouve dans des conditions dexperience quil y
ait un fort alea sur laectation au traitement. La persistance de cette composante aleatoire
de laectation au traitement conditionnellement à des observables est ainsi essentielle dans la
procedure dappariement.
Remarque 10.4 Il peut etre utile dutiliser des restrictions a priori. Les modèles precedents
sont en eet purement statistiques. Frequemment on a une idee de modelisation de la variable
doutput ` a partir dun ensemble de variables explicatives.
y
0
= r +u
0
avec r u
0
Le problème dendogeneite provient alors du fait que la variable de traitement est correlee ` a la
perturbation conditionnellement ` a r. On peut supposer que la propriete dindependance est vraie
lorsque lon adjoint un ensemble de variables z ` a r.
u
0
T [r, z
On fait lhypothèse r T [z , ce qui revient ` a supposer P (T = 1 [r, z ) = P (T = 1 [z ) = P (z) .
En outre on etend la condition dindependance : r u
0
` a r u
0
[z . Dans ces conditions on a
le resultat suivant
E (y
0
[T, r, P (z)) = r +h(P (z))
En eet
E (y
0
[T, r, P (z)) = r +E (u
0
[T, r, P (z))
Comme u
0
T [r, z on a en raison de la propriete de Rubin et Rosenbaum u
0
T [P (T = 1 [r, z ).
et P (T = 1 [r, z ) = P (T = 1 [z ). On a donc :
u
0
T [P (z) , r
do` u
E (u
0
[T, r, P (z)) = E (u
0
[r, P (z)) = E (u
0
[P (z))
o` u la dernière egalite provient du fait que r u
0
[z . On peut donc transposer tous les estimateurs
precedents au cas present. On peut en particulier proceder comme suit. On estime dabord le
paramètre . Pour cela on remarque que comme :
E (y [T = 0, r, P (z)) = r +h(P (z))
on a
E (y [T = 0, P (z)) = E (r [T = 0, P (z)) +h(P (z))
En prenant la dierence des deux equations, on en deduit :
E (y E (y [T = 0, P (z)) [T = 0, r, P (z)) = (r E (r [T = 0, P (z)))
Dont on deduit que
E (y E (y [T = 0, P (z)) [T = 0, r ) = (r E (r [T = 0, P (z)))
Ce qui signie quon peut estimer en regressant simplement les residus des regressions non
parametriques y

E (y [T = 0, P (z)) et r

E (r [T = 0, P (z)) lun sur lautre. La fonction h
peut alors etre estimee ` a partir y r. En eet :
E (y r [T = 0, r, P (z)) = h(P (z)) = E (y r [T = 0, P (z))
Le contrefactuel pour un individu traite i de caracteristiques r
i
et P
i
est alors
E (y
0i
[T = 1, r
i
, P
i
) = r
i
+
1
N
0
T
j
=0
_
y
j
r
j
_
K
h
(P
j
P
i
)
T
j
=0
K
h
(P
j
P
i
)
et lestimateur de leet du traitement est alors
TT
=
1
N
1
T
i
=1
_
_
y
i
r
i

1
N
0
T
j
=0
_
y
j
r
j
_
K
h
(P
j
P
i
)
T
j
=0
K
h
(P
j
P
i
)
_
_
10.2 Le modèle de selectivite sur inobservables
Lapproche precedente presente des attraits non negligeables. Le premier est quelle est assez
naturelle : on compare des individus traites et non traites aussi similaires que possible. Le
second avantage est quelle ne necessite pas la modelisation du comportement des agents. En
revanche, elle presente des limites certaines. Ainsi elle nest pas toujours realisable. Lobtention
de la condition dindependance peut requerir lintroduction dun grand nombre de variables de
conditionnement qui ne sont pas toujours accessibles d
une part et reduisent aussi la pertinence

de lanalyse dans la mesure o` u les possibilites de comparaison dun individu à lautre se reduisent
lorsque lon explique de mieux en mieux laectation au traitement, i.e. lorsque crot le nombre
de variables de conditionnement. Enn et surtout, les methodes dappariement sur observables
presentent un caractère mecanique qui fait reposer levaluation sur une propriete purement
statistique, en pratique dicile à justier à partir du comportement des agents. Dans une certaine
mesure linteret que presente le fait de ne pas modeliser les comportements comporte aussi un
revers qui est celui de conduire à des evaluations dont les fondements peuvent paratre peu
etayes. Il peut etre preferable de modeliser les output potentiel et la decision de participation
de fa con jointe. On parvient alors au modèle de selectivite sur inobservable. On lecrit sous la
forme suivante. Les deux outputs potentiels y
1
et y
0
sont modelises sous la forme :
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
On modelise egalement laectation au traitement par le biais dune variable latente, T
:
T
= zc +v
T = 1 T
0
T
peut representer par exemple le gain net du co ut du traitement c (z, ) + : T
= y
1
y
0
c (z, )
10.2. Le modèle de selectivite sur inobservables 135
La principale hypothèse identiante eectuee consiste ` a supposer lindependance entre les
variables de conditionnement et les elements inobserves.
(u
1
, u
0
, v) (x, z)
Denition 10.2 Le modèle de selectivite sur inobservable est deni par la modelisation jointe
des outputs potentiels et de laectation au traitement
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
T = 1 zc +v 0
avec en outre lhypothèse dindependance
(u
1
, u
0
, v) (r, z)
Remarque 10.5 Ces hypothèse sont très dierentes de celle du modèle de selectivite sur ob-
servables. Dans le modèle de selectivite sur observables, on faisait lhypothèse que la correlation
entre la variable de traitement T et les elements inobserves u
0
pouvait etre eliminee par en in-
troduisant des variables de conditionnement supplementaires. Ces variables etaient par denition
des variables aectant ` a la fois le traitement et la perturbation. Lhypothèse est ici diametralement
opposee dans la mesure ou elle consiste ` a dire qu` a linverse il existe une variable z aectant le
traitement mais pas les elements inobserves. Elle est donc très proche dune variable instrumen-
tale, alors que dans lapproche precedente il sagissait de variable de contr ole.
Dans cette approche, le score P (T = 1 [r, z ) est encore amene à joue un role central. Sous
les hypothèses eectuees le score ne depend que des variables z. En eet
P (T = 1 [r, z ) = P (zc +v > 0 [r, z ) = P (zc +v > 0 [z ) = P (z)
Toutefois, ces hypothèses ne sont pas susantes pour assurer lidentication des paramètres
dinteret et il existe en fait une dierence importante avec les variables instrumentales, sur
laquelle on reviendra plus tard. Les paramètres dinteret sont denis par :
ATE
= E (y
1
y
0
) = E (
1
0
+r (
1
0
))
TT
= E (y
1
y
0
[T = 1) = E (y
1
(
0
+r
0
+u
0
) [T = 1)
10.2.1 Expression des paramètres dinteret dans le cas general
Proposition 10.9 Dans le cas du modèle de selectivite sur inobservables, si les fonctions de
repartition de v est strictement croissante, il existe deux fonctions K
0
(P (zc)) et K
1
(P (zc))
telles que
E (y
0
[T = 0, r, z ) =
0
+r
0
+K
0
(P (zc))
E (y
1
[T = 1, r, z ) =
1
+r
1
+K
1
(P (zc))
Les paramètres dinteret sont alors denis par
TT
= E
_
y
_
0
+r
0
1 P (z)
P (z)
K
0
(P (zc))
_
T = 1
_
ATE
= E (
1
0
+r (
1
0
))
o` u
P (zc) = P (T = 1 [r, z )
Demonstration La forme des fonctions retenues est une application directe du modèle de selection sur inobser-
vables vu precedemment. Pour ce qui concerne le paramètre
TT
, lidentication porte donc essentiellement sur
loutput potentiel y
0
. Les donnees sur cet output concernent les individus pour lesquels T = 0. On a :
E (y
0
|T = 0, r, z ) =
0
+r
0
+E (u
0
|T = 0, r, z ) =
0
+r
0
+K
0
(P (zc))
et on souhaite identier
E (y
0
|T = 1, r, z ) =
0
+r
0
+E (u
0
|T = 1, r, z )
Les quantites E (u
0
|T = 0, r, z ) et E (u
0
|T = 1, r, z ) sont liees par :
0 = E (u
0
|r, z ) = E (u
0
|T = 0, r, z ) (1 P (zc)) +E (u
0
|T = 1, r, z ) P (zc)
do` u
E (u
0
|T = 1, r, z ) =
(1 P (zc))
P (zc)
K
0
(P (zc))
En toute generalite on ne peut donner la forme des fonctions K

0
et K
1
. Elle font en eet
intervenir la loi jointe des element (u
0
, v) et (u
1
, v) . Ceci est à lorigine dun problème impor-
tant pour lestimation puisque comme les expressions precedentes le montrent clairement, il est
necessaire de pouvoir separer les fonctions K des constantes .
On va voir dabord comment il est possible de resoudre ce problème en speciant la loi jointes
des observations. Puis on examinera le cas dans lequel on ne fait pas dhypothèse et on verra
quil faut des conditions particulières et au total assez restrictives pour identier chacun des
deux paramètres dinteret.
10.2.2 Le cas Normal
La specication de la loi jointe des observations comme des lois normales permet diden-
tier aisement le modèle. On peut soit recourir à la methode du maximum de vraisemblance
soit recourir à une methode en deux etapes due à lorigine à Heckman, basee sur les resultats
precedents. Cest cette dernière methode que lon presente car elle est dun emploi plus facile et
est directement liee à la presentation precedente. Elle presente en outre un degres de generalite
legèrement superieure. On reprend le modèle doutputs potentiels precedents :
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
avec la règle daectation au traitement basee sur la variable latente, T
:
T
= zc +v
T = 1 T
0
Outre lhypothèse dindependance dej` a evoquee, on fait lhypothèse que les deux couples (u
0
, v)
et (u
1
, v) suivent une loi normale.
Les resultats precedents permettent decrire que :
E (y
0
[r, z, T = 0) =
0
+r
0
1
(zc)
E (y
1
[r, z, T = 1) =
1
+r
1
+
1
(zc)
Par rapport aux expressions obtenues dans le cas general
E (y
0
[T = 0, r, z ) =
0
+r
0
+K
0
(P (zc))
et compte tenu du fait que P (zc) = (zc) , on voit que le fait de specier la loi des observations
comme une loi normale revient à imposer que les fonctions K
0
(P (zc)) et K
1
(P (zc)) ont pour
expressions :
K
0
(P (zc)) =
0
0

1
(P (zc))
1 P (zc)
K
0
(P (z)) =
1
1

1
(P (zc))
P (zc)
Elle ne depend donc que dun paramètre supplementaire
0
0
. Les paramètres dinteret
TT
et
ATE
ont alors pour expressions :
TT
= E
_
y
_
0
+r
0
1 P (z)
P (z)
K
0
(P (zc))
_
T = 1
_
= E
_
y
_
0
+r
0
+
0
0

1
(P (zc))
P (zc)
_
T = 1
_
= E
_
y
_
0
+r
0
+
0
(zc)
_
T = 1
_
ATE
= E (
1
0
+r (
1
0
))
Mise en oeuvre :
1. Estimation du modèle probit associe au traitement et determination des variables de biais
(zc) et

1
(zc)
2. Estimation des regressions sur chacune des populations traitees et non traitees : identi-
cation des paramètres
1
,
0
,
1
,
0
et des paramètres
1
u
1
et
0
u0
.
3. Estimation des paramètres dinteret
TT
=
1
N
1
d
i
=1
_
y
i
_

0
+r
i
0
+
0
(z
i
c)
__
ATE
=
1
N
_

1

0
+r
i
_
0
__
4. Calcul des ecarts-type, on doit prendre en compte le fait que le paramètres du modèle
Probit a ete estime dans une première etape.
10.2.3 Des extensions parametriques simples
Comme dans le cas du modèle de selection du chapitre precedent, on peut etendre dabord
les resultats obtenus avec la loi normale à des familles de lois plus generales.
(i) Loi quelconque donnee pour le residu de lequation de selection.
On a vu dans le chapitre precedent que le modèle de selection pouvait etre facilement etendu
en considerant une loi quelconque pour lequation de selection. Elle donne alors lieu à une
probabilite de selection notee P (z)
E (y [I = 1, x, z ) = xb +
u

1
P (z)
P (z)
Ce resultats se transposent directement au cas du modèle causal. Les equations des outputs
potentiels sont :
P (T = 1 [z ) = P (z)
E (y
0
[T = 0, r, z ) =
0
+r
0
0

1
P (z)
1 P (z)
E (y
1
[T = 1, r, z ) =
1
+r
1
+
1
1

1
P (z)
P (z)
Les paramètres dinteret ont alors pour expression :
TT
= E
_
y
_
0
+r
0
+
0
0

1
(P (z))
P (z)
_
T = 1
_
ATE
= E (
1
0
+r (
1
0
))
(ii) Des lois plus generales que la loi normale
On peut considerer le modèle de selection precedent en faisant lhypothèse que les elements
inobserves ont pour loi jointe une loi de Student de degres et non pas une loi normale. On
a vu dans le chapitre precedent que ceci conduisait à la specication suivante pour lequation
doutput :
E (y [d = 1, x, z ) = xb +
+G
1
(P (z))
2
1
g
G
1
(P (z))
P (z)
L` a aussi les resultats se transposent directement au cas du modèle causal. Les equations des
outputs potentiels sont :
P (T = 1 [z ) = P (z)
E (y
0
[T = 0, r, z ) =
0
+r
0
0
+G
1
(P (z))
2
1
g
G
1
(P (z))
1 P (z)
E (y
1
[T = 1, r, z ) =
1
+r
1
+
1
1
+G
1
(P (z))
2
1
g
G
1
(P (z))
P (z)
Les paramètres dinteret ont alors pour expression :
TT
= E
_
y
_
0
+r
0
+
0
0
+G
1
(P (z))
2
1
g
G
1
(P (z))
P (z)
_
T = 1
_
ATE
= E (
1
0
+r (
1
0
))
On dispose ainsi dun ensemble très vaste de possibilites destimation des paramètres correspon-
dant à dierentes hypothèses sur la loi des perturbations. Ces choix reviennent tous à introduire
des termes dierents dans les equations des outputs potentiels. Ils ont des consequences impor-
tantes sur lestimation des paramètres dinteret. Il est en outre dicile de realiser des tests per-
mettant dexaminer quelle specication est preferable dans la mesure o` u les hypothèses ne sont
pas embotees. On peut donc souhaiter estimer ces modèles sans avoir recours à la specication
de la loi jointe des perturbations.
10.2.4 Le modèle de selection semi parametrique.
On reprend le modèle de selectivite sur inobservables :
y
1
=
1
+r
1
+u
1
y
0
=
0
+r
0
+u
0
avec la modelisation de laectation au traitement :
T
= zc +v
T = 1 T
0
on suppose comme precedemment lindependance entre les variables de conditionnement et les
elements inobserves.
(u
1
, u
0
, v) (x, z)
On a vu quen labsence dhypothèses sur la loi jointe des perturbations, les equations des
outputs potentiels prenaient la forme :
E (y
0
[T = 0, r, z ) =
0
+r
0
+K
0
(P (z))
E (y
1
[T = 1, r, z ) =
1
+r
1
+K
1
(P (z))
avec K
0
et K
1
des fonctions non speciees. Les paramètres dinteret secrivent simplement
comme :
TT
= E
_
y
_
0
+r
0
1 P (z)
P (z)
K
0
(P (z))
_
T = 1
_
ATE
= E (
1
0
+r (
1
0
))
La diculte de lestimation est double. Dune part il est necessaire destimer les paramètres
et en laissant la fonction K non speciee. En deuxième lieu il faut estimer la fonction K elle
meme. On procède en plusieurs etapes. Dans un premier temps, on estime le paramètre . Dans
un deuxième temps, on estime la fonction G = +K. Enn dans un dernier temps on separe
de K.
(i) Identication des paramètres
Pour les paramètres
0
et
1
, on applique la methode destimation de Robinson vue dans le
chapitre precedent. Ceci consiste à prendre rappelons comme dans le theorème de Frish-Waugh,
lecart des variables y et r à leur esperance conditionnellement au score (la dierence avec le
theorème de Frish-Waugh est quil ne sagit plus dune simple projection lineaire). Il sut ensuite
de regresser le residus obtenu pour y sur ceux obtenus pour les variables r.
(ii) Identication des constantes et des termes de biais de selectivite K
0
et K
1
.
Dans un premier temps on identie les quantites

K
0
(P (z)) =
0
+ K
0
(P (z)) et

K
1
(P (z)) =
1
+ K
1
(P (z)). Pour cela on forme le residu v
0
= y r
0
et on utilise le fait que
E (v
0
[T = 0, P (z)) = E (y r
0
[T = 0, P (z)) =
0
+K
0
(P (z)) =

K
0
(P (z))
la regression non parametrique du residu sur le score fournit un estimateur de

K
0
. Par exemple
pour une valeur donnee de p
0
de P (z) on estime :
K
0
(p
0
) =
jI
0
K
h
(P (z
j
) p
0
) v
0i
jI
0
K
h
(P (z
j
) p
0
)
Pour identier les constantes p.e.
0
il est necessaire de disposer de valeurs de P (z) telle que
K
0
(P (z)) = 0.
Il existe une possibilite didentication naturelle. On a les relations :
K
0
(0) = 0 et K
1
(1) = 0
En eet, on utilise le fait que E (u
0
[z ) = 0 et E (u
1
[z ) = 0. Pour la fonction K
0
par exemple,
on a
E (u
0
[z ) = 0 = E (u
0
[z , T = 1) P (z) +E (u
0
[z , T = 0) (1 P (z))
et la fonction K
0
est denie par :
K
0
(P (z)) = E (u
0
[z, T = 0)
On a donc :
E (u
0
[z , T = 1) P (z) +K
0
(P (z)) (1 P (z)) = 0
On a donc bien K (0) = 0 :
Une fa con de tirer parti de ces restrictions est de considerer la moyenne desresidus y r
0
pour les individus non traites ayant une faible probabilite detre traite. Plus precisement, un
estimateur de la constante
0
pourrait etre :

0
=
i
_
y
i
r
i
0
_
(1 T
i
) 1 (z
i
c <
n
)
i
(1 T
i
) 1
_
z
i
c <
n
_
o` u
n
est une suite tendant vers .
Remarque 10.6 Ces hypothèses permettent didentier ` a linni la constante
0
, et donc
la fonction K
0
() . Il est possible didentier ainsi E (y
0
) et E (y
0
[T = 1) . Ces hypothèses suf-
sent donc pour identier . On peut remarquer que dans ce cas la determination du paramètre
dinteret fait intervenir la determination de la fonction K
0
en chaque point du support du score
pour les individus traites. La forme nale de lestimateur est ainsi
TT
=
1
N
1
T
i
=1
_
_
y
i

0
r
i
0
+
1 P (z
i
)
P (z
i
)
_
_
_
_
jI
0
K
h
(P (z
j
) P (z
i
))
_
y
j
r
j
0
_
jI
0
K
h
(P (z
j
) P (z
i
))

0
_
_
_
_
_
_
=
1
N
1
T
i
=1
_
_
y
i

0
P (z
i
)
r
i
0
+
1 P (z
i
)
P (z
i
)
_
_
_
_
jI
0
K
h
(P (z
j
) P (z
i
))
_
y
j
r
j
0
_
jI
0
K
h
(P (z
j
) P (z
i
))
_
_
_
_
_
_
Dans ce cas il est possible didentier la constante
1
et donc la fonction K
1
. On peut sous
lensemble de ces hypothèses identier le paramètre E (y
1
) et donc leet moyen du traitement
qui sera simplement deni comme
ATE
=
1
N
i
_

1

0
+r
i
_
0
__
En pratique la probabilite de recevoir le traitement est souvent concentree vers des valeurs
faibles. Si les hypothèses sur les queues de distribution, concernant lidentication de
0
sont
vraisemblables, il nen est pas de meme de celles concernant lidentication de
1
. Il est donc
vraisemblable quen general lidentication de leet moyen du traitement echappe à ce type
dapproche.
Chapitre 11
Variables instrumentales
On a considere jusquà present le cas de modèles secrivant
y
i
= b
0
+x
1
i
b
1
+ +x
K
i
b
K
+u
i
avec lhypothèse
E
_
x
i
u
i
_
= 0 ou E (u
i
[x
i
) = 0
Cette hypothèse peut aussi constituer une denition statistique du paramètre b. Le coe-
cient b sinterprète alors comme le vecteur des coecients de la regression lineaire de y
i
sur le
vecteur de variables x
i
. Une telle denition presente un interet dans une approche descriptive des
donnees. Neanmoins on est frequemment amene à estimer des modèles structurels dans lesquels
les paramètres ont un sens economique. Le plus simple dentre eux est certainement la fonction
de production
y
i
= a +k
i
+l
i
+u
i
le paramètre mesure en pourcentage lincidence dune augmentation de 1% du stock de capital
sur la production. Ce paramètre economique na pourtant aucune raison de concider avec celui
de la regression lineaire, et on peut meme avancer de nombreuses raisons pour lesquelles il
pourrait ne pas concider. On est ainsi frequemment amene à considerer des modèles structurels
pour lesquels on a une equation lineaire entre une variable dinteret et des variables explicatives
mais pour laquelle on a des raisons de remettre en doute lhypothèse E (u
i
[x
i
) = 0. Ce chapitre
est consacre à la presentation des methodes destimations elementaires adaptees à lestimation
des paramètres structurels dans ce cas. On va voir que lon peut identier le paramètre dinteret
en ayant recours à des hypothèses alternatives à E (u
i
[x
i
) = 0 qui mobilisent des informations
exterieures. Elles vont prendre la forme suivante : il existent des variables exterieures dites
instrumentales telles que E (u
i
[z
i
) = 0 et E (z
i
x
i
) de rang K + 1. On va voir aussi deux tests
très importants dits tests de specications qui permettent de guider dans le choix des variables
exterieures (test de Sargan) et de tester lhypothèse des mco : E (u
i
[x
i
) = 0 (test dexogeneite).
Si dans les chapitres precedents on mettait beaucoup laccent sur lecacite des estimateurs
(le Theorème de Gauss-Markov), ici on va mettre au contraire laccent sur lidentication des
paramètres et sur la robustesse des estimations, et on va voir quil y a un arbitrage entre
robustesse et ecacite.
143
144 Chapitre 11. Variables instrumentales
11.1 Trois exemples types dendogeneite des regresseurs
11.1.1 Erreur de mesure sur les variables
On considère la situation dans laquelle on a un modèle structurel
y
i
= x
i
b +u
i
La variable x
i
est supposee pour simplier de dimension 1 et centree comme la variable y
i
et on fait l
hypothèse E (u
i
[x
i
) = 0.
On suppose en outre que la variable x
i
est mesuree avec erreur :
x
i
= x
i
+e
i
avec E (e
i
[x
i
) = 0 et u
i
et e
i
non correles.
Dans ces conditions le modèle dont on dispose est
y
i
= x
i
b +u
i
be
i
On est dans une situation dans laquelle le residu de lequation v
i
= u
i
be
i
est correle avec la
variable explicative
E (v
i
x
i
) = E ((u
i
be
i
) (x
i
+e
i
))
= E (u
i
x
i
) +E (u
i
e
i
) bE (e
i
x
i
) bE
_
e
2
i
_
= b
2
e
,= 0
On voit alors très facilement quà la limite le paramètre de la regression lineaire ne concide pas
avec celui du modèle : lestimateur des mco nest pas convergent.
b
mco
P
b +
E
_
x
i
v
i
_
E
_
x
i
x
i
_ = b
_
1

2
e
2
e
+
2
x
_
11.1.2 Simultaneite
La simultaneite est la situation dans laquelle certains des regresseurs et la variable à expliquer
sont determines simultanement. Un exemple typique est celui dun equilibre ore demande. Une
equation de demande va ainsi secrire
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
La variable de prix p
i
ne peut pas etre consideree comme exogène. En eet, il y a aussi une
equation dore
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
On peut resoudre ce système pour exprimer
p
i
=
1
s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
un choc de demande u
d
i
est transmis dans les prix : E
_
u
d
i
p
i
_
,= 0. On peut voir aisement que
lestimateur des mco de lequation de demande ou dore sera biaise. On peut pour cela considerer
11.1. Trois exemples types dendogeneite des regresseurs 145
Fig.11.1 Diff erents equilibre offre-demande

Y*
p
y
Demande
Offre
P*

Equilibre Offre-Demande

Uniquement des chocs doffre
p
y

p
y
Uniquement des chocs de demande

Chocs doffre et de demande
p
y
Droite de rgression
le graphe representant lequilibre ore demande represente sur la gure 11.1. Les observations
correspondent à lensemble des intersections des courbes dore et de demande. Ces courbes se
deplacent, sous laction des variations des variables explicatives et aussi sous laction des chocs
de demande et dore. On voit que sil ny a que des chocs de demande, lensemble des points
dintersection des courbes dore et de demande va decrire la courbe de demande, de meme, sil
ny a que des chocs de demande, lensemble des points dequilibre va decrire la courbe dore.
Dans le cas general, il y a des chocs dore et de demande, et lensemble des equilibres ne decrit
ni la courbe dore ni la courbe de demande, la droite de regression passe au milieu.
11.1.3 Omission de regresseurs, heterogeneite inobservee
On considère le modèle
y
i
= x
i
b +z
i
c +u
i
Il y a donc un facteur z
i
dont on sait quil explique la variable y
i
. On considère la situation dans
laquelle cette variable nest pas observee.
Lomission de cette variable conduit à une estimation non convergente du modèle par les
mco dès lors quelle est correlee avec les regresseurs. On a en eet
b
mco
P
b +E
_
x
i
x
i
_
1
E
_
x
i
(z
i
c +u
i
)
_
= b +E
_
x
i
x
i
_
1
E
_
x
i
z
i
_
c
= b +
z
i
/x
i
c
Avec E
_
x
i
u
i
_
= 0 et
z
i
/x
i
le coecient de la regression lineaire de z
i
sur x
i
.
Un exemple important est donne par les equations dites de Mincer reliant le salaire à
leducation
w
i
=
0
+
s
s
i
+u
i
Le paramètre
s
mesure leet dune annee detude supplementaire sur le niveau de salaire. Dans
lensemble des causes inobservees aectant le salaire se trouve entre autres le niveau daptitude
de lindividu. Le choix dun niveau detude s
i
est une decision rationnelle de la part de lagent,
fonction de laptitude de lindividu.
On peut considerer aussi le cas dune fonction de production agricole : y
i
est le rendement
de la terre, x
i
la quantite dengrais b est le rendement des epandages et z
i
la qualite de la terre.
Lomission de cette variable biaise lestimation du paramètre technologique b si les decisions
depandages dengrais dependent de la qualite de la terre. Le paramètre estime nidentie pas
seulement le paramètre structurel mais une combinaison non desiree de ce paramètre et de celui
reetant le comportement de lagriculteur.
11.2 La methode des variables instrumentales
11.2.1 Modèle à variables endogènes et non convergence de lestimateur des
mco
Le modèle
y
i
= x
i
b +u
i
est dit à variables endogènes si on na pas la propriete
E
_
x
i
u
i
_
= 0
Les variables x
k
i
pour lesquelles E
_
u
i
x
k
i
_
,= 0 sont dites endogènes, les autres sont dites
exogènes
Dans ce modèle lestimateur des mco nest pas convergent. En eet, il est donne par :
b
mco
=
_
N
i=1
x
i
x
i
_
1
N
i=1
x
i
y
i
=
_
N
i=1
x
i
x
i
_
1
N
i=1
x
i
(x
i
b +u
i
)
= b +
_
N
i=1
x
i
x
i
_
1
N
i=1
x
i
u
i
b +E
_
x
i
x
i
_
1
E
_
x
i
u
i
_
.
comme E (x
i
u
i
) ,= 0 on a E (x
i
x
i
)
1
E (x
i
u
i
) ,= 0 et donc
p lim
b
mco
,= b
11.2. La methode des variables instrumentales 147
Remarque 11.1 On a introduit une distinction entre variable endogène et variable exogène,
neanmoins lensemble des coecients est biaise et pas seulement ceux des variables endogènes.
Pour le voir on peut considerer lexemple de la fonction de production que lon considère en taux
de croissance
y
i
= l
i
+k
i
+u
i
On fait en general lhypothèse que le stock de capital sajuste lentement et nest de ce fait pas
correle avec la perturbation. Par contre le travail est un facteur variable, positivement correle ` a
la perturbation : E (l
i
u
i
) = > 0. On calcule sans peine la valeur limite du paramètre :
p limbiais
mco
=
1
V (l
i
) V (k
i
) cov (l
i
k
i
)
_
V (k
i
) cov (l
i
k
i
)
cov (l
i
k
i
) V (l
i
)
__

0
_
=
_
V (k
i
)
cov (l
i
k
i
)
__
V (l
i
) V (k
i
) cov (l
i
k
i
)
On constate donc que les deux coecients sont biaises : celui du travail sans ambigute ` a la
hausse, et celui du capital ` a la baisse si comme cest probable le capital et le travail sont correles
positivement.
11.2.2 Resoudre le problème de lidentication par lutilisation de variables
instrumentales
Sans pretendre produire ici des estimateurs, on sinteresse aux conditions didentication.
On considère pour cela à nouveau le modèle dore et de demande
y
i
=
d
p
i
+x
d
i
b
d
+u
d
i
y
i
=
s
p
i
+x
s
i
b
s
+u
s
i
On note x
i
=
_
x
d
i
, x
s
i
_
, certains elements peuvent etre commun aux deux ensembles et ninter-
viennent dans ce cas quune fois dans x
i
. On fait les hypothèses
E
_
x
i
u
d
i
_
= 0, E
_
x
i
u
s
i
_
= 0 (11.1)
c.-` a-d. que les variables observables qui deplacent lore et la demande sont exogènes pour u
d
i
et u
s
i
. On peut resoudre comme precedemment en p
i
mais aussi en y
i
:
p
i
=
1
s
+
d
_
x
d
i
b
d
x
s
i
b
s
+u
d
i
u
s
i
_
y
i
=

s
s
+
d
x
d
i
b
d
+

d
s
+
d
x
s
i
b
s
+

s
s
+
d
u
d
i
+

d
s
+
d
u
s
i
Compte tenu des relations 11.1, on peut exprimer les coecients des regressions lineaires de
y
i
et p
i
sur x
i
à partir des paramètres structurels.
La modelisation, cest à dire la specication dune fonction dore et de demande et des
restrictions stochastiques (exogeneite de x
i
), conduit à des restrictions sur les paramètres des
regressions lineaires des variables endogènes qui sont susceptibles de permettre lidentication
des paramètres structurels du modèle.
Proposition 11.1 Sil existe une variable exogène intervenant speciquement dans lequation
dore, lequation de demande est identiee.
De meme, sil existe une variable exogène intervenant speciquement dans lequation de
demande, lequation dore est identiee
Demonstration Si x
s
1i
est une telle variable, le coecient de cette variable dans la regression lineaire de p
i
sur
x
s
i
et x
d
i
est
1
s
+
d
b
s
1
, et le coecient de cette variable dans la regression lineaire de y
i
sur x
s
i
et x
d
i
est

d
s
+
d
b
s
1
.
La comparaison de ces deux coecients permet lidentication de
d

Ce resultat est obtenu en ayant recours à une modelisation de lensemble des variables en-
dogènes du modèle : la production et le prix, ou de fa con equivalente le système dequations qui
les determine simultanement. Dans de nombreuses situations on ne sinteresse quà une des deux
equations, par exemple lequation de demande, les hypothèses identicatrices peuvent etre as-
souplies. Il sut quil existe au moins une variable x
s
1i
entrant dans lequation dore et veriant
E
_
_
x
d
i
x
s
1i
u
d
i
_
= 0. Dans ce cas si on considère les coecients
y
et
p
des regressions lineaires
de y
i
et p
i
sur x
i
=
_
x
d
i
x
s
1i
sont
y
= E
_
x
i
x
i
_
1
E
_
x
i
y
i
_
= E
_
x
i
x
i
_
1
E
_
x
i
_
d
p
i
+x
d
i
b
d
+u
d
i
__
=
d
E
_
x
i
x
i
_
1
E
_
x
i
p
i
_
+E
_
x
i
x
i
_
1
E
_
x
i
x
d
i
_
b
d
=
d
p
+
_
b
d
0
_
Le vecteur
y
est identie par les donnees : il sagit du vecteur des coecients de la regression
lineaire de y
i
sur x
i
. Il en est de meme pour le vecteur
p
. dès lors que le coecient de la
variable x
s
1i
dans la regression de la variable de prix sur x
i
, element de
p
, est non nul, et que
la variable x
s
1i
ne gure pas dans la liste des regresseurs exogènes (structurels) de lequation
de demande, on voit que les coecients de lequation de demande sont identies. Il nen est
pas necessairement de meme pour lequation dore, soit parce que lon ne mesure pas toutes
les variables x
s
i
garantissant E (u
s
i
x
s
i
) = 0, soit parce quil ny a pas de variables aectant la
demande qui naecte pas directement lore. Enn on remarque quil nest pas necessaire de
specier lequation dore.
Cet exemple illustre bien la demarche des variables instrumentales. Celle-ci correspond à
la mobilisation de variables exterieures au modèle qui possèdent la particularite de ne pas etre
correlees avec le residu de lequation structurelle et qui sont neanmoins correlees avec la variable
endogène. Lidentication vient alors du fait que leet de la variable instrumentale sur la variable
dependante ne fait que reeter celui de la variable endogène.
Dire quune variable est une variable instrumentale revient à postuler une relation dexclu-
sion : il existe une variable aectant la variable à expliquer et la variable explicative endogène
et dont tout leet sur la variable à expliquer transite par son eet sur la variable explicative
endogène.
On voit donc quune variable instrumentale ne tombe pas du ciel. Dans lexemple on justie
le choix de la variable comme etant une variable appartenant à un modèle plus general, le
système ore-demande, conduisant à lequation structurelle de demande et à une equation reduite
expliquant la formation de la variable endogène.
11.2.3 Identication
On considère le modèle structurel
y
i
= x
1i
b
1
+x
2i
b
2
+u
i
les variables x
2i
, (dim = K
2
+ 1) contiennent la constante et sont exogènes, mais on ne fait
pas lhypothèse dexogeneite de la variable x
1i
(dimx
1i
= K
1
= K K
2
) .
Denition 11.1 Un ensemble de variables z
i
= (z
e
i
, x
2i
) , de dimension H+1, non parfaitement
correlees (limrangE
_
z
i
z
i
_
= H + 1), est dit ensemble de variables instrumentales si les deux
conditions suivantes sont satisfaites :
E
_
z
i
u
i
_
= 0. (11.2)
et
limrangE
_
z
i
x
i
_
= K + 1
La première condition, appelee condition dorthogonalite, consiste à supposer que le vecteur
des variables instrumentales nest pas correle avec le residu de lequation structurelle. Il fait
intervenir les K
2
+1 variables exogènes x
2
ainsi que (H + 1) (K
2
+ 1) = H K
2
instruments
exterieurs z
e
i
.
Lhypothèse (11.2) est parfois introduite sous la forme :
E(u
i
[z
i
) = 0
qui est plus forte que la precedente (non correlation) puisquelle implique en particulier E (g (z
i
) u
i
) =
0 pour toute fonction g.
La deuxième condition est dite condition de rang. Elle joue un role essentiel, parfois oublie,
et que lon detaillera par la suite.
La condition (11.2) peut etre reecrite comme suit :
E
_
z
i
(y
i
x
i
b)
_
= 0
Soit encore :
E
_
z
i
y
i
_
= E
_
z
i
x
i
_
b (11.3)
Cette condition denit un système de H + 1 equations à K + 1 inconnues b.
Le modèle est identie si le système (11.3) admet pour unique solution le paramètre structurel
b
On distingue trois situations
Si H < K, le modèle est sous identie, puisquil y a moins dequations que de variables. Il
ny a pas susamment de variables instrumentales
Si H = K et limrangE
_
z
i
x
i
_
= K + 1 le modèle est juste identie.
Si H > K, limrangE
_
z
i
x
i
_
= K + 1 le modèle est dit sur-identie. Dans ce cas il y a
plus de variables instrumentales quil nest necessaire
La condition de rang garantit que lon se trouve dans lune des deux dernières situations.
Proposition 11.2 Considerant le modèle
y
i
= x
i
b +u
i
Sous les hypothèses
z
i
tel que E (z
i
u
i
) = 0
E (z
i
x
i
) est de rang K+1,
Le paramètre b est identie.
Demonstration En multipliant le modèle par z
i
et en prenant lesperance, il vient
E
_
z
i
y
i
_
= E
_
z
i
x
i
_
b +E
_
z
i
u
i
_
= E
_
z
i
x
i
_
b
Comme E (z
i
x
i
) est de rang K+1, il existe necessairement une matrice A de dimension (K + 1) dimz
i
telle que
AE (z
i
x
i
) de dimension (K + 1) (K + 1) soit inversible (il sut par exemple de considerer A = E (z
i
x
i
)
). On
en deduit donc que
b =
_
AE
_
z
i
x
i
__
1
AE
_
z
i
y
i
_
b sexprime donc comme la limite dune fonction ne dependant que des observations par exemple
_
Az
i
x
i
_
1
A
_
z
i
y
i
_
11.2.4 Moindres carres indirects

Si H = K et si E
_
z
i
x
i
_
est inversible, ce qui est le cas dès lors que la condition de rang est
satisfaite, alors on peut resoudre b = E
_
z
i
x
i
_
1
E
_
z
i
y
i
_
. On obtient un estimateur de b appele
Estimateur des Moindres Carres Indirects en rempla cant les esperances par leurs contreparties
empiriques :
b
mci
=
_
1
N
N
i=1
z
i
x
i
_
1
1
N
N
i=1
z
i
y
i
= (z
x)
1
z
y
o` u z est la matrice dont la i-ième ligne est z
i
, x la matrice dont la i-ième ligne est x
i
et y le
vecteur dont la i-ième composante est y
i
.
Si H > K, on se ramène au cas precedent en selectionnant K + 1 combinaisons lineaires
des instruments : Az
i
, o` u A est une matrice K + 1 H + 1, de rang K + 1. Lhypothèse que
lensemble des H +1 variables dans z
i
est un ensemble de variables instrumentales conduit à la
propriete que pour A tel que AE (z
i
x
i
) est inversible,
b =
_
AE
_
z
i
x
i
__
1
AE
_
z
i
y
i
_
.
On en deduit une classe destimateur :
b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
= (Az
x)
1
Az
y
11.2.5 Propriete asymptotiques des estimateurs des MCI
Proposition 11.3 Dans le modèle
y
i
= x
i
b +u
i
` a K + 1 variables explicatives. Sous les hypothèses :
H1 E (z
i
u
i
) = 0 avec z
i
de dim 1 H + 1
H2 Les observations (x
i
, z
i
, y
i
) sont iid
H3 E(u
2
i
[z
i
) =
2
H4 Les moments de (x
i
, z
i
, y
i
) existent jusqu` a un ordre susant
H5 E
_
z
i
x
i
_
et z
i
x
i
sont de rang K + 1
Alors, il existe au moins une matrice A de dimension K+1H+1 pour laquelle lestimateur
b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
existe, et pour toute matrice A telle que lestimateur des MCI existe
et toute suite de matrice, eventuellement dependant des donnees A
n
p
A, on a :
1.

b
mci
(A) est convergent : p lim
b
mci
(A) = b
2.

b
mci
(A) est asymptotiquement normal :
N
_
b
mci
(A) b
_
L
N(0, (A)),
avec
(A) =
2
_
AE
_
z
i
x
i
__
1
AE
_
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
3.

(A) =
2
_
Az
i
x
i
_
1
Az
i
z
i
A
_
x
i
z
i
A
_
1
o` u
2
= u(A)
2
i
, est un estimateur convergent de
(A)
Demonstration Existence dau moins un estimateur des MCI : Il sut de prendre A = E
_
z
i
x
i
_
on a alors
E
_
z
i
x
i
_
i
x
i
E
_
z
i
x
i
_
E
_
z
i
x
i
_
qui est inversible puisque limrangE
_
z
i
x
i
_
= K+1. Comme le determinant
est une fonction continue det Az
i
x
i
det AA
= 0 et donc la matrice Az
i
x
i
est inversible pour N assez grand.
Convergence :
b
mci
(A
N
) =
_
A
N
z
i
x
i
_
1
A
N
z
i
y
i
= b +
_
A
N
z
i
x
i
_
1
A
N
z
i
u
i
.
La convergence decoule simplement de la loi des grands nombres :
z
i
u
i
p
E
_
z
i
u
i
_
= 0.
et du fait que A
N
p
A et z
i
x
i
p
E
_
z
i
x
i
_
Normalite asymptotique
N
_
b
mci
(A) b
_
=
_
A
N
z
i
x
i
_
1
A
N
Nz
i
u
i
Comme V
_
z
i
u
i
_
= E(z
i
z
i
u
2
i
) = E
_
z
i
z
i
E(u
2
i
| z
i
)
_
=
2
E
_
z
i
z
i
_
, la normalite asymptotique decoule directement
du theorème central limite :
Nz
i
u
i
L
N(0,
2
E
_
z
i
z
i
_
)
et
_
A
N
z
i
x
i
_
1
A
N
p
_
AE
_
z
i
x
i
__
1
A
Estimation de la matrice de variance-covariance asymptotique
Comme pour lestimateur des mco, on verie facilement que u(A)
2
i
=
_
u
i
+x
i
_
b
b (A)
__
2

2
puisque
b
b (A) 0
Remarque 11.2 Estimation robuste de la matrice de variance : Comme pour lestimateur des
mco, il existe une version de la matrice de variance-covariance (A) pour le cas de residus
heteroscedastiques, i.e. lorsque E(u
2
i
[z
i
) depend de z
i
. On peut donc supprimer lhypothèse H3.
Les conclusions sont simplement modiees en :

b
mci
(A) est asymptotiquement normal :
N
_
b
mci
(A) b
_
L
N(0,
het
(A)),
avec
het
(A) =
_
AE
_
z
i
x
i
__
1
AE
_
u
2
i
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
et

het
(A) =
_
Az
i
x
i
_
1
A u(A)
2
i
z
i
z
i
A
_
x
i
z
i
A
_
1
est un estimateur convergent de la matrice de
variance.
11.3 Lestimateur des doubles moindres carres
11.3.1 Existence dun estimateur optimal
On peut se demander sil nexiste pas une matrice A
qui conduise à un estimateur de

variance minimale, cest à dire tel que pour toute combinaison lineaire b, on ait V
_
b (A
)
_
V
_
b (A)
_
. Une telle matrice existe et mène à lestimateur des doubles moindres carres.
Proposition 11.4 Il existe une matrice A
optimale au sens o` u pour toute suite de matrice

A
N
A
, la variance asymptotique de

b
mci
(A
N
) est de variance minimale dans la classe des
estimateurs

b
mci
(A). Cette matrice a pour expression :
A
= E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
La matrice de variance correspondante a pour expression
(A
) =
2
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
Demonstration Pour montrer que (A) (A
) au sens des matrices, i.e. on a
((A) (A
)) 0
on peut clairement eliminer le facteur
2
. La matrice de variance (A
) secrit :
(A
) =
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
=
_
C
C
_
1
avec C = E (z
i
z
i
)
1/2
E
_
z
i
x
i
_
de dim H + 1 K + 1.La matrice (A) secrit :
(A) =
_
AE
_
z
i
x
i
__
1
AE
_
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
= BB
avec B =
_
AE
_
z
i
x
i
__
1
AE (z
i
z
i
)
1/2
de dim K + 1 H + 1.On a la relation
BC =
_
AE
_
z
i
x
i
__
1
AE
_
z
i
z
i
_
1/2
E
_
z
i
z
i
_
1/2
E
_
z
i
x
i
_
=
_
AE
_
z
i
x
i
__
1
AE
_
z
i
x
i
_
= I
K+1
On a donc
(A) (A
) = BB
_
C
C
_
1
= BB
BC
_
C
C
_
1
C
puisque BC = I. On a donc :
(A) (A
) = B
_
I C
_
C
C
_
1
C
_
B
Comme I C (C
C)
1
C
est une matrice semi-denie positive, (A) (A
) est aussi une matrice semi-denie

positive
11.3. Lestimateur des doubles moindres carres 153
Remarque 11.3 On a vu que dans le cas heteroscedastique, la variance de lestimateur des
moindres carres indirects secrivait :
het
(A) =
_
AE
_
z
i
x
i
__
1
AE
_
u
2
i
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
.
O voit par analogie avec le cas precedent homoscedastique que dans ce cas aussi il y a un
estimateur optimal et quil correspond ` a la matrice A = E
_
x
i
z
i
_
E
_
u
2
i
z
i
z
i
_
1
.
11.3.2 Lestimateur optimal comme estimateur des doubles moindres carres
La matrice A
= E
_
x
i
z
i
_
E (z
i
z
i
)
1
est inconnue. Pour mettre l
estimateur en oeuvre, on la
remplace par un estimateur convergent. A
N
= x
i
z
i
z
i
z
i
1
est un choix naturel.
b
mci
(A
N
) =
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
y
i
=
_
x
z
_
z
z
_
1
z
x
_
1
x
z
_
z
z
_
1
z
y
Cet estimateur a les memes proprietes asymptotiques que lestimateur

b
mci
(A
) puisque
A
N
A
.
On peut reecrire lestimateur en faisant intervenir la matrice de projection orthogonale sur
z, P
z
= z (z
z)
1
z
b
2mc
(A
) =
_
x
P
z
x
_
1
x
P
z
y = ((P
z
x)
P
z
x)
1
(P
z
x)
y
On voit que la projection des variables explicatives sur les variables instrumentales joue un role
très important. Il correspond de fa con evidente à lestimateur des mco de la variable endogène
y sur la projection x = P
z
x des variables explicatives sur lensemble des instruments. On peut
verier directement ce point en considerant à nouveau le modèle et en decomposant les variables
explicatives en x= P
z
x +M
z
x. Le modèle secrit :
y = xb +u
= P
z
xb +M
z
xb +u = P
z
xb +v
Ici la perturbation comprend le vrai residu mais aussi la partie des variables explicatives orthogo-
nales aux variables instrumentales : v= M
z
x+u. On voit que pour ce nouveau modèle dans lequel
les regresseurs ont ete remplaces par leurs projections sur les variables explicatives, il y a ortho-
gonalite entre le residu et les variables explicatives puisque (P
z
x)
u/N = x
z/N (z
z/N)
1
z
u/N
E (x
z) E (z
z)
1
E (z
u) = 0 et (P
z
x)
M
z
x = x
P
z
M
z
x = 0. On en deduit que lestimateur
des mco de la regression de y sur P
z
x est bien convergent.
Cest pourquoi on appelle cet estimateur estimateur des doubles moindres carres et on le note
b
2mc
puisquil pourrait etre obtenu à partir dune première regression des variables explicatives
sur les variables instrumentales puis par regression de la variable endogène sur les variables
predites de cette regression.
Lestimateur peut etre determine en deux etapes :
1. On regresse x sur z et on recupère x la valeur predite.
2. On regresse y sur x
La matrice de variance asymptotique de

b
2mc
est
V
as
(
b
2mc
) =
2
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
et la matrice de variance de lestimateur dans un echantillon de taille N est
V (
b
2mc
) = V
as
/N =
2
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
/N
On peut lestimer par
V (
b
2mc
) =
2
_
x
z
_
z
z
_
1
z
x
_
1
=
2
(x
P
z
x)
1
=
2
_
x
x
_
1
Lecart-type des residus à retenir est celui du modèle
y
i
= x
i
b +u
i
et peut etre estime par
_
y
i
x
i
b
2mc
_
2
. Il faut remarquer quici il sagit du residu u
i
= y
i
x
i
b
2mc
et non du residu de la deuxième etape y
i
x
i
b
2mc
.
Cette ecriture de lestimateur à variables instrumentales montre quon peut linterpreter
comme operant un ltrage de linformation. On ne retient de la variabilite des variables expli-
catives que la partie qui correspond à des chocs non correles avec la perturbation. Ce ltrage
est opere en projetant les variables explicatives sur un ensemble de variables non correlees avec
la perturbation. La condition de rang garantit que lon ne perd pas le minimum dinformation
requis pour identier le paramètre.
On voit aussi que dans cette operation de ltrage on perd de linformation et que cette perte
dinformation conduit à une moins grande precision de lestimateur :
V
as
_
b
2mc
_
= p lim
2
((P
z
x)
P
z
x/N)
1

2
(x
x/N)
1
= V
as
_
b
mco
_
La precision de lestimateur à variables instrumentales ne peut donc depasser celle quau-
rait lestimateur des mco si les variables explicatives etaient exogènes. On voit que lorsque la
dimension de lespace sur lequel on projette augmente, la precision de lestimateur à variables
instrumentales saccrot. A la limite, si la taille de lespace sur lequel on projette augmente
susamment, on retrouve la precision de lestimateur des mco, mais alors on retrouve aussi
lestimateur des mco. Dans la decision dintroduire ou non telle ou telle variable dans la liste des
variables instrumentales, il y a donc un arbitrage entre precision de lestimateur et convergence
de lestimateur : plus il y a de variables instrumentales plus lestimateur est precis, mais plus
les risques de biais sont importants.
11.3.3 Cas des residus heteroscedastiques
Dans ce cas lestimateur des doubles moindres carres nest plus optimal, et la formule de sa
variance nest plus correcte.
La formule exacte est donnee comme dans le cas general par
V
as,het
(A
) =
_
A
E
_
z
i
x
i
__
1
A
E
_
u
2
i
z
i
z
i
_
A
_
E
_
x
i
z
i
_
A
_
1
=
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
u
2
i
z
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
= E
_
x
i
x
i
_
1
E
_
u
2
i
x
i
x
i
_
E
_
x
i
x
i
_
1
11.4. Interpretation de la condition : limrangE (z
i
x
i
) = K + 1 155
o` u x
i
= z
i
E (z
i
z
i
)
1
E
_
z
i
x
i
_
.
La matrice de variance de lestimateur des doubles moindres carres est
V
het
_
b
2mc
_
= V
as,het
(A
)/N
Elle peut etre estimee par
V
het
_
b
2mc
_
=
V
as,het
(A
)
N
=
_
x
i
i
_
1
_
N
i=1
u
2
i
x
i
i
__
N
i=1
x
i
i
_
1
o` u

x
i
= z
i
_
z
i
z
i
_
1
_
z
i
x
i
_
qui est exactement la matrice de White.
i
x
i
) = K + 1
La mise en oeuvre de la methode des variables instrumentales repose sur la condition
limrangE (z
i
x
i
) = K + 1. Les variables du modèle sont scindees en K
1
variables endogènes
x
1i
et K
2
+1 variables exogènes. Ces variables interviennent egalement dans la liste des instru-
ments qui contient en outre H K
2
variables exterieures z
i
: z
i
=
_
z
i
x
2i
_
. Compte tenu de
lhypothèse E
_
z
i
z
i
_
inversible, la condition limrangE (z
i
x
i
) = K+1 est analogue à la condition
limrangE
_
z
i
z
i
_
1
E (z
i
x
i
) = K +1. Cette matrice correspond à la matrice des coecients des
regressions des variables explicatives sur les instruments. Comme les variables du modèle et les
instruments ont les variables x
2
en commun, on a :
E
_
z
i
z
i
_
1
E
_
z
i
x
i
_
=
_
E
_
z
i
z
i
_
1
E (z
i
x
1i
)
0
I
K
2
+1
_
=
_

1 z
0
1x
2
I
K
2
+1
_
o` u
1 z
et
1x
2
sont les coecients de z et x
2
des regressions des variables endogènes sur les ins-
truments. La condition limrangE
_
z
i
z
i
_
1
E (z
i
x
i
) = K +1 est donc equivalente à la condition
limrang
1 z
= K
1
Cette condition sinterprète comme le fait que les variables instrumentales exterieures expliquent
susamment bien les variables endogènes. Il nexiste pas de test formel de cette condition qui
puisse etre facilement mis en oeuvre. Neanmoins il est important de regarder la fa con dont les
variables instrumentales expliquent les variables endogènes, meme si on peut mettre en oeuvre
lestimateur des doubles moindres carres directement sans faire cette regression intermediaire.
On peut par exemple, bien que cela ne garantisse pas que la condition est satisfaite dès quil y a
plus dune variable endogène, eectuer chaque regression des variables endogènes sur lensemble
des variables instrumentales et faire un test de la nullite globale des coecients des variables
instrumentales exterieures.
Dans le cas o` u la condition limrangE (z
i
x
i
) = K +1 nest pas satisfaite, on aura neanmoins
en general à distance nie limrangz
i
x
i
= K +1 et lestimateur pourra etre numeriquement mis
en oeuvre. La consequence du fait que limrangE (z
i
x
i
) < K + 1 est que
x
z
_
z
z
_
1
z
x E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
_
non inversible. Lestimateur sera donc très instable et presentera des ecarts-type très eleves sur
certains coecients, à linstar de ce qui se produit avec les mco dans le cas de multicolinearite.
Lorsque lon est à la limite de cette situation, cest à dire lorsque lon dispose de variables
instrumentales expliquant très mal les variables endogènes on parle dinstruments faibles.
On peut etre tente de pallier ce manque de pouvoir explicatif des instruments par lutilisation
dun grand nombre dentre eux : on est dans la situation ou il y a beaucoup de variables instru-
mentales mais ou toutes, prises ensemble ont un pouvoir explicatif faible. Cette situation presente
des eets indesirables dont on peut avoir facilement lintuition. Lorsque le nombre dinstruments
sur lequel on projette les variables devient grand et mecaniquement, sans que cela resulte dune
propriete statistique, la prediction de la variable explicative va devenir meilleure : elle va se
rapprocher des variables explicatives simplement parce que lespace sur lequel on projette de-
vient plus grand. On comprend alors que dans ce cas lestimateur à variables instrumentales se
rapproche de lestimateur des mco. Lutilisation dun grand nombre de variables instrumentales
au pouvoir explicatif mediocre est donc une situation peu souhaitable. On considère pour sen
premunir quil faut que le F de Fisher testant la nullite globale des coecients des variables
instrumentales dans la regression des variables explicatives endogènes soit plus grand que 1.
11.5 Test de suridentication
En pratique, on est souvent amene à eectuer des estimations dune meme equation en
etendant ou restreignant la liste des variables instrumentales. On a vu en eet que lon pouvait
avoir interet à accrotre le nombre de variables instrumentales dans la mesure o` u cela conduit
à des estimateurs plus precis. On a vu aussi quaccrotre ind ument lensemble des variables
instrumentales pouvait conduire à faire apparatre des biais dans lestimation. On va presenter
dans cette section un test très important et très couramment utilise permettant de controler
quil ny a pas dincoherence dans le choix des variables instrumentales. Ce test, appele test de
Suridentication, ou test de Sargan constitue un guide incontournable dans le choix des variables
instrumentales. On presente dabord lidee et le sens du test de Sargan dune fa con informelle,
on aborde ensuite la question plus formellement et de fa con plus pratique.
11.5.1 Idee du test
Lorsquil y a plus dinstruments que de variables explicatives le modèle est suridentie. On
a vu que dans le modèle
y
i
= x
i
b +u
i
avec pour restriction identiante
E
_
z
i
u
i
_
= 0,
on pouvait estimer le modèle par les MCI de très nombreuses fa cons, lestimateur le plus per-
formant etant celui des doubles moindres carres. On avait
b
mci
(A) =
_
Az
i
x
i
_
1
Az
i
y
i
contrepartie empirique de la relation
b =
_
AE
_
z
i
x
i
__
1
AE
_
z
i
y
i
_
11.5. Test de suridentication 157
Cette dernière relation doit etre vraie pour toute matrice A telle que AE (z
i
x
i
) est inversible.
Elle montre bien que le modèle impose plus de structure entre les donnees quil nest necessaire
pour identier le modèle : tous les paramètres
b
mci
(A) doivent converger vers une meme valeur.
Considerons par exemple le cas dun modèle ne presentant quune variable explicative et
pour lequel il existe h variables instrumentales. On pourrait considerer h estimateurs à variables
instrumentales obtenus en utilisant à chaque fois une seule des variables instrumentales.
b
V I
(k) =
z
i
(k) y
i
z
i
(k) x
i
Si toutes ces variables sont compatibles entre elles, les estimateurs obtenus doivent tous etre
proches les uns des autres on doit avoir p lim
b
V I
(k) independant de k. Lidee du test de suri-
dentication est de comparer entre eux les dierents estimateurs et de juger sils sont ou non
proches. Ceci constitue lidee du test de suridentication, cela ne represente nullement la fa con
dont on le met en oeuvre. On va voir ulterieurement une procedure permettant de tester directe-
ment lhypothèse que pour un jeu de variables instrumentales donne lensemble des estimateurs
b
mci
(A) convergent tous vers la meme valeur, sans avoir à calculer tous ces estimateurs.
Remarquons que ce test nest pas à proprement parle un test de validite des instruments mais
un test de compatibilite des instruments. Il signie en eet uniquement
b tq

b
mci
(A)
b .
Ceci est une propriete statistique des donnees, qui peut etre testee. Il ne signie pas neanmoins
b
mci
(A)
b = b le paramètre structurel que lon souhaite identier.

11.5.2 Approche formelle
La convergence de chaque estimateur des moindres carres indirects provient de la propriete
E (z
i
u
i
) = 0. Cest elle que lon pourrait souhaiter tester directement. Il sagirait du test de
lhypothèse nulle
H
00
: E
_
z
i
u
i
_
= 0
Si le residu etait connu un tel test serait très facile à mettre en oeuvre. Il consisterait simplement
à regarder si la moyenne empirique z
i
u
i
de z
i
u
i
est proche de zero, cest à dire si la norme de ce
vecteur est proche de zero.
Neanmoins comme on la dit, le test que lon peut esperer mettre en oeuvre nest pas le test
de H
00
, soit le test de
H
00
: E
_
z
i
(y
i
x
i
b)
_
= 0
ou b est le paramètre structurel mais simplement le test de
b tq E
_
z
i
_
y
i
x
i
b
__
= 0
Il est clair que sous H
00
: p lim
b
2mc
=

b et donc que la fa con naturelle de tester une telle
hypothèse est dexaminer si z
i
u
i
est proche de zero.
Remarque 11.4 1. Sous lhypothèse H
00
on aurait donc en appliquant le theorème centrale
limite, et compte tenu de lhypothèse dhomoscedasticite
Nz
i
u
i
N
_
0,
2
E
_
z
i
z
i
__
et donc
N
2
z
i
u
i
E
_
z
i
z
i
_
1
z
i
u
i

2
(dim(z
i
))
ou encore
N

2
z
i
u
i
i
z
i
1
z
i
u
i

2
(dim(z
i
))
2. On rappelle le resultat suivant
W N (0, V (W)) W
V (W)

2
(limrang (V (W)))
o` u V (W)
est un inverse generalise de la matrice V (W) , i.e. tel que

V (W) V (W)
V (W) = V (W)
Ici on ne peut pas utiliser u
i
le residu structurel mais u
i
.
La statistique de test va rester la meme à ceci pret que :
1. on utilise u
i
et non u
i
2. le nombre de degres de liberte nest pas le nombre de variables instrumentales dim(z
i
) =
H + 1 , mais H K, cest à dire le nombre dinstruments en excès.
Ce dernier point exprime bien le fait quune partie des conditions dorthogonalite est mobi-
lisee pour identier le paramètre et illustre bien le nom de suridentication donne au test.
Proposition 11.5 Sous les hypothèses de regularite garantissant la convergence et la normalite
asymptotique de lestimateur ` a variables instrumentales, dans le cas de residus homoscedastiques
(V
_
_
y
i
x
i
b
_
2
[z
i
_
=
2
),
Sous H
0
:
btqE
_
z
i
_
y
i
x
i
b
__
= 0, la statistique

S
S = Nz
i
u
i
_
z
i
z
i
_
1

2
z
i
u
i

2
(H K)
o` u u
i
= y
i
x
i
b
2mc
et
2
= u
2
i
.
Le test de H
0
contre H
1
:
b tq E
_
z
i
_
y
i
x
i
b
__
= 0 base sur la region critique
W =
_
S > q
_
1 ,
2
(H K)
_
_
o` u q
_
1 ,
2
(H K)
_
est le quantile dordre 1 dun
2
(H K) est un test convergent
au seuil .
Demonstration Sous H
0
, soit

b la valeur du paramètre telle que E
_
z
i
_
y
i
x
i
b
__
= 0 et soit u
i
le residu
correspondant. Ces grandeurs sont a priori distinctes rappelons le des quantites ayant sens sur le plan economique
b et u
i
. Neanmoins, pour ne pas alourdir, on les note b et u
i
,
u
i
= y
i
x
i
b
2mc
= x
i
b +u
i
x
i
b
2mc
= u
i
x
i
_
b
2mc
b
_
do` u
z
i
u
i
=
1
N
z
u = z
i
u
i
z
i
x
i
_
b
2mc
b
_
11.5. Test de suridentication 159
comme
b
2mc
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
y
i
= b +
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
u
i
on a :
z
i
u
i
=
_
I
H+1
z
i
x
i
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
_
z
i
u
i
= (I
H+1
M
N
) z
i
u
i
et M
N
M = E
_
z
i
x
i
_ _
E
_
x
i
z
i
_
E (z
i
z
i
)
1
E
_
z
i
x
i
__
1
E
_
x
i
z
i
_
E (z
i
z
i
)
1
. M verie en outre M
2
= M
On en deduit que
Nz
i
u
i
= (I
H+1
M)
Nz
i
u
i
+o
p
(1)
L
N (0, )
avec = (I
H+1
M) V
_
z
i
u
i
_
(I
H+1
M
) =
2
(I
H+1
M) E
_
z
i
z
i
_
(I
H+1
M
) . On verie que (I
H+1
M)
E
_
z
i
z
i
_
= E
_
z
i
z
i
_
(I
H+1
M
) si bien que V
as
_
Nz
i
u
i
_
=
2
(I
H+1
M) E
_
z
i
z
i
_
Comme M
2
= M on verie immediatement que MV
as
_
Nz
i
u
i
_
= 0 et donc que V
as
_
Nz
i
u
i
_
nest pas
de plein rang. Comme V
as
_
Nz
i
u
i
_
=
2
(I
H+1
M) E
_
z
i
z
i
_
, le rang de V
as
_
Nz
i
u
i
_
est clairement celui
de (I
H+1
M) et comme M
2
= M, les valeurs propres de M sont soit 1 soit 0. On en deduit que
rangV
as
_
Nz
i
u
i
_
= Tr (I
H+1
M) = rang (I
H+1
M) = H + 1 Tr (M)
= H + 1
Tr
_
E
_
z
i
x
i
_ _
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
_
= H + 1
Tr
_
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
__
1
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
_
_
= H K
On a aussi
V
as
_
Nz
i
u
i
_
1
2
E
_
z
i
z
i
_
1
V
as
_
Nz
i
u
i
_
=
2
(I
H+1
M) E
_
z
i
z
i
_
1
2
E
_
z
i
z
i
_
1
2
(I
H+1
M) E
_
z
i
z
i
_
=
2
(I
H+1
M) (I
H+1
M) E
_
z
i
z
i
_
=
2
(I
H+1
M) E
_
z
i
z
i
_
= V
as
_
Nz
i
u
i
_
on en deduit que
1
2
E
_
z
i
z
i
_
1
est un inverse generalise de la matrice de variance asymptotique
Nz
i
u
i
. On a
donc
N u
i
z
i
1
2
E
_
z
i
z
i
_
1
z
i
u
i
L
2
(H K)
et on peut clairement remplacer en appliquant le theorème de Slutsky E
_
z
i
z
i
_
par z
i
z
i
et
2
par
2
.
Donc, sous H
0
:

S = z
i
u
i
(z
i
z
i)
1

2
z
i
u
i
L
2
(H K) .
En outre sous H
1
, z
i
u
i
= z
i
_
y
i
x
i
b
2mc
_
= z
i
_
y
i
x
i
p lim
b
2mc
_
+ o
p
(1)
P
= 0, comme
(z
i
z
i)
1

2
P

inversible, z
i
u
i
(z
i
z
i)
1

2
z
i
u
i
P
, sous H
1
, donc

S et il en resulte que P (W |H
1
) 1.
11.5.3 Mise en oeuvre du test
Le test de suridentication est très simple à mettre en oeuvre. Il correspond au test de la
nullite globale des coecients de la regression de u
i
sur les variables instrumentales, y compris
la constante. En eet, si on considère le modèle
u
i
= z
i
+w
i
lestimateur des mco de est

=
_
z
i
z
i
_
1
z
i
u
i
, V
_
_
= V (w
i
)
_
z
i
z
i
_
1
/N. Sous lhypothèse
H
: = 0, V (w
i
) = V ( u
i
) =
2
et donc le test de = 0 doit etre mene à partir de
V
_
_
1
= u
i
z
i
_
z
i
z
i
_
1
_
N
_
z
i
z
i
_
/
2
__
z
i
z
i
_
1
z
i
u
i
= N u
i
z
i
_
z
i
z
i
_
1
z
i
u
i
/
2
qui est la
statistique. Le test est donc formellement equivalent au test de la nullite globale des coecients
de la regression de u
i
sur les variables instrumentales z
i
. On sait que ce meme test peut etre
eectue (asymptotyiquement) à partir du R
2
de la regression. La statistique de test est NR
2
et
est equivalente sous lhypotyèse nulle au F de la regression. Le test peut donc etre eectue à
partir du F de cette regression. Neanmoins il convient detre prudent en ce qui concerne le calcul
de cette statistique et celui de la p value. Ceci tient au nombre de degres de liberte retenu
dans le calcul. Considerons

S la statistique de test de la proposition precedente. La statistique
donnee par le logiciel F
Log
est reliee à cette statistique

S par la formule F
Log
=

S/H. On divise
par H car le logiciel prend en compte le nombre de regresseurs. La p value qui accompagne
le F de la regression donne dans tous les logiciels, fait lhypothèse que cette statistique suit
une loi F (H, N H 1) degres de liberte, o` u H est le nombre de variables explicatives non
constantes de la regression, ici on a N . Pour N F (k, N k 1)
2
(k) /k. La
p value indiquee correspond donc à une statistique
2
(H) /H. Elle nest donc pas correcte,
la statistique non plus. On sait que HF
Log

2
(H K) et donc F
Rec
= (H/ (H K)) F
Log
suit une loi F (H K, N (H K) 1) . On doit donc considerer soit la statistique HF
Log
et
calculer la p-value à partir dune loi du
2
(H K) , soit considerer F
Rec
et calculer la p-value
à partir dune loi F (H K, ) .
Remarque 11.5 1. On a a priori toujours interet ` a avoir un ensemble dinstrument le plus
large possible. En eet retirer une variable instrumentale et mettre en oeuvre lestimateur
des doubles moindres carres correspond ` a selectionner une matrice particulière pour les-
timateur des moindres carres indirects avec le jeu complet dinstruments. Comme on la
montre cet estimateur est alors necessairement moins ou aussi bon que lestimateur des
doubles moindres carres avec lensemble dinstrument complet. Quand on etend lensemble
des variables instrumentales, il est important de bien verier la compatibilite globale des
instruments utilises et de mettre en oeuvre le test de suridentication.
2. La matrice de variance de lestimateur des doubles moindres carres est toujours plus grande
que celle de lestimateur des mco. Ceci se voit immediatement en examinant lexpression
des variances
V (b
mco
) =
2
_
x
x
_
1
et V (b
2mc
) =
2
_
x
P
z
x
_
1
En outre, on voit aussi en comparant les expressions des estimateurs
b
mco
=
_
x
x
_
1
x
y et b
2mc
=
_
x
P
z
x
_
1
x
P
z
y
que lorsque lon etend la liste des variables instrumentales la dimension de lespace sur le-
quel on projette les variables du modèle augmente et quon en a donc une representation de
plus en plus dèle. La variance de lestimateur des doubles moindres carres va sameliorer,
mais lestimateur des doubles moindres carres va se rapprocher de lestimateur des moindres
carres ordinaires. Il y a donc un risque ` a etendre trop la liste des instruments. A distance
nie, on pourrait avoir une mise en oeuvre fallacieuse conduisant ` a un estimateur proche
de celui des mco. Il est utile pour se premunir de ce risque de regarder la regression des
11.6. Test dexogeneite des variables explicatives 161
variables endogènes sur les instruments et de contr oler la signicativite globales des ins-
truments.
11.6 Test dexogeneite des variables explicatives
11.6.1 Interet et idee du test
Ayant estime le modèle par les doubles moindre carres, cest à dire sous lhypothèse
H
1
: c tq E
_
z
i
(y
i
x
i
c)
_
= 0
on peut vouloir tester lhypothèse que les regresseurs x
i
sont exogènes.
On considère donc lhypothèse
H
0
: c tq E
_
z
i
(y
i
x
i
c)
_
= 0 et E
_
x
i
(y
i
x
i
c)
_
= 0
Linteret de tester une telle hypothèse est immediat compte tenu du fait que sous cette hypothèse
lestimateur optimal sera lestimateur des mco qui domine nimporte quel estimateur à variables
instrumentales. Une idee naturelle consiste à examiner si les coecients estimes sous lhypothèse
nulle et sous lhypothèse alternative sont identiques, cest à dire si p lim
b
2mc
= p lim
b
mco
. Notons
que l` a encore il ne sagit que dun test de compatibilite des conditions dorthogonalite entre elles
et non pas un test de leur validite dans le cadre de lestimation dun paramètre structurel.
11.6.2 Approche formelle
(i) Test de Hausman
Lidee precedemment avancee de tester lhypothèse p lim
b
2mc
= p lim
b
mco
peut etre mise en
oeuvre en se fondant sur la comparaison de

b
2mc
b
mco
avec 0. Pour faire ce test on va donc
examiner N
_
b
2mc
b
mco
_
V
as
_
b
2mc
b
mco
_
b
2mc
b
mco
_
. Plusieurs questions se posent na-
turellement. On a vu quau sein des variables explicatives x soperait une distinction naturelle
entre les K
1
variables endogènes x
1
et les 1 + K
2
variables exogènes x
2
. On peut sattendre à
ce que le test ne porte que sur les coecients des variables potentiellement endogènes. En outre
se pose les questions du rang de la matrice de variance V
as
_
b
2mc
b
mco
_
qui conditionne le
nombre de degres de liberte de la loi limite de la statistique et de la determination dun inverse
generalise. On examine tour à tour chacune de ces questions.
Le test peut etre base sur les coecients des endogènes
Lemme 3 On a
_
b
2mc
b
mco
_
=
_
x
x
_
1
_
_
_
_
x
x
_
11
_
1
0
K
2
+1,K
1
_
_
_
b
(1)
2mc
b
(1)
mco
_
Le test de p lim
b
2mc
= p lim
b
mco
est identique ` a celui de p lim
b
(1)
2mc
= p lim
b
(1)
mco
. En outre
b
(1)
2mc
b
(1)
mco
=
_
x
x
_
11
x
1
M
x
y
Demonstration En eet

b
2mc
=
_
x
x
_
1
x
y et

b
mco
= (x
x)
1
x
y donc
x
x
_
b
2mc
b
mco
_
= x
x
_
_
x
x
_
1
x
y
_
x
x
_
1
x
y
_
=
_
x
y x
x
_
x
x
_
1
x
y
_
=
_
x
y x
x
_
x
x
_
1
x
y
_
= x
M
x
y
Puisque x
x = (P
z
x)
(P
z
x) = x
P
z
P
z
x = (P
z
x)
x = x
x et avec M
x
= I
N
x(x
x)
1
x
.
Comme x
2
z, x
2
= (P
z
x
2
) = x
2
et donc x
2
M
x
= x
2
M
x
= 0.
x
x
_
b
2mc
b
mco
_
=
_
x
1
M
x
y
0
_
Dont on en deduit que
_
b
2mc
b
mco
_
=
_
x
x
_
1
_
x
1
M
x
y
0
_
soit, avec b
(1)
le vecteurs des coecients de x
1i
et symetriquement pour b
(2)
, et les notations standards
_
_
x
x
_
11
_
x
x
_
12
_
x
x
_
21
_
x
x
_
22
_
1
=
_
_
x
x
_
11
_
x
x
_
12
_
x
x
_
21
_
x
x
_
22
_
_
x
x
_
21
_
b
(1)
2mc
b
(1)
mco
_
+
_
x
x
_
22
_
b
(2)
2mc
b
(2)
mco
_
= 0
et
b
(1)
2mc
b
(1)
mco
=
_
x
x
_
11
x
1
M
x
y
Le test de p lim
b
2mc
= p lim
b
mco
et donc equivalent à celui de p lim
b
(1)
2mc
= p lim
b
(1)
mco
. Ce test peut en outre etre
pratique à partir de lexpression

b
(1)
2mc
b
(1)
mco
=
_
x
x
_
11
x
1
M
x
y
Rang de la matrice de variance de

b
(1)
2mc
b
(1)
mco
Lemme 4 Sous lhypothèse limrang
_
z
x
_
= K + 1, le rang de la matrice de variance de
b
(1)
2mc
b
(1)
mco
est K
1
, le nombre de variables explicatives endogènes.
Demonstration Lexpression precedente montre que la matrice de variance de
b
(1)
2mc
b
(1)
mco
est
2
_
x
x
_
11
x
1
M
x
x
1
_
x
x
_
11
.
Son rang est donc egal à celui de x
1
M
x
x
1
, donc à celui de M
x
x
1
. Supposons que lon ait pour un vecteur
: M
x
x
1
= 0 alors P
x
x
1
= x
1
il existe donc un vecteur tel que x
1
= x. Comme x
1
appartient à lespace
engendre par z = [ z, x
2
] , la combinaison lineaire x est necessairement une combinaison lineaire des seules va-
riables explicatives exogènes : x = x
2
2
. Notant comme precedemment
1
= [
1 z
,
1x
2
] , o` u
1 z
et
1x
2
sont les
coecients de z et x
2
des regressions des variables endogènes sur les instruments. Lequation x
1
= x
2
2
, secrit
z
1 z
+ x
2
(
1x
2

2
) = 0. Comme Z est de rang K + 1 ceci necessite
1 z
= 0. Et on a vu que la condition
limrang
_
z
x
_
= K +1 est equivalente à
1 z
de rang K
1
on a donc necessairement sous cette condition = 0 et
donc la matrice de variance de
b
(1)
2mc
b
(1)
mco
est inversible : le nombre de degres de liberte du test dexogeneite est
egal à K
1
.
Le test de Hausman
Proposition 11.6 Lorsque lhypothèse dhomoscedasticite, E(u
2
i
[x
i
, z
i
) =
2
est satisfaite, sous
lhypothèse nulle dexogeneite de x
i
, la statistique
S =
N

2
_
b
(1)
2mc
b
(1)
mco
_
_
_
x
x
N
_
11
_
x
x
N
_
11
_
1
_
b
(1)
2mc
b
(1)
mco
_
L
2
(K
1
)
Un test convergent au niveau de H
0
peut etre eectue en comparant la valeur de la statistique
S au quantile dordre 1 dune loi du

2
` a K
1
degres de liberte
11.7. Illustrations 163
Demonstration Sous lhypothèse dhomoscedasticite et sous lhypothèse nulle,
b
mco
est lestimateur de variance
minimale dans la classe des estimateurs sans biais dont fait parti lestimateur des doubles moindres carres. On a
donc
V
as
_
b
2mc
b
mco
_
= V
as
_
b
2mc
_
V
as
_
b
mco
_
Un estimateur convergent de la matrice de variance de la dierence

b
2mc
b
mco
est donc donne par
V
as
_
b
2mc
b
mco
_
=
2
_
_
x
x
_
N
11
(x
x)
N
11
_
On en deduit que

S suit une loi du
2
à K
1
degres de liberte sous H
0
. Sous lhypothèse alternative p lim
b
(1)
2mc
p lim
b
(1)
mco
= 0 et donc

S +
(ii) Test dexogeneite par le biais de la regression augmentee
Le test dexogeneite peut etre mis en oeuvre très simplement par le biais dune simple
regression de la variable dependante y sur les variables potentiellement endogènes du modèle
et les variables exogènes x
1
et x
2
et sur la projection des variables endogènes sur les variables
instrumentales x
1
:
y = x
1
c
1
+x
2
c
2
+ x
1
+w
Lestimateur MCO du coecient de sobtient aisement à partir de theorème de Frish-Waugh :
il sagit du coecient de la regression des mco sur le residu de la regression de x
1
sur les autres
variables, cest à dire x. On a donc
=
_
x
1
M
x
x
1
_
1
x
1
M
x
y
or on a vu precedemment
b
(1)
2mc
b
(1)
mco
= ( x x)
11
x
1
M
x
y
On en deduit que lon a :
b
(1)
2mc
b
(1)
mco
= ( x x)
11
_
x
1
M
x
x
1
_

le test de p lim
b
(1)
2mc
p lim
b
(1)
mco
= 0 est donc equivalent au test de = 0 et peut etre eectue à
partir de lestimateur . Il peut donc etre eectue très simplement par lintermediaire dun test
de Wald ou dun test de Fisher.
Remarquons enn que le test peut etre mene de fa con analogue sur les residus des regressions
des variables explicatives endogènes sur les instruments (x
1
) = x
1
x
1
. Lequation
y = x
1
c
1
+x
2
c
2
+ x
1
+w
se reecrit de fa con analogue comme
y = x
1
(c
1
+) +x
2
c
2
(x
1
) +w
11.7 Illustrations
11.7.1 Reduction du temps de travail et gains de productivite
Une des questions importantes dans leet du passage à 35 heures sur leconomie est son eet
sur les gains de productivite. Par exemple si on considère que la production reste inchangee,
leet sur lemploi sera important si il y a peu de gains de productivite. Les resultats presentes ici
ne sont quillustratifs et ne pretendent pas donner un avis sur la reduction du temps de travail.
Ils montrent neanmoins si besoin etait que leconometrie permet de repondre à des questions
importantes et soulignent le role essentiel des hypothèses identicatrices dans la reponse que
lon apporte. On peut considerer le modèle suivant :
ln y
i
= ln l
i
+ (1 ) ln k
i
+RTT
i
+u
i
o` u l
i
represente levolution des eectifs entre 1997 et 2000, k
i
celle capital et RTT
i
une indi-
catrice correspondant au fait que lentreprise ait signe un accord de reduction du temps de travail
sur cette periode. u
i
represente un choc de productivite ou de demande. Ce modèle est structurel,
cest à dire que lon sinteresse à leet de la reduction du temps de travail et des variations des
facteurs sur lactivite. Dans un tel contexte il est clair que dimportants problèmes dendogeneite
des facteurs se posent : ln l
i
en premier lieu, mais aussi ln k
i
sont susceptibles dincorporer
les nouvelles conditions dactivite u
i
: ces variables sont très certainement endogènes. La va-
riable RTT
i
est, elle aussi, probablement endogène : toutes les entreprises sont sensees passer à
terme à 35 heures. Les entreprises ayant de bonnes perspectives de productivite peuvent plus
facilement et donc plus rapidement trouver un moyen avantageux de le faire. Ceci a pu etre
particulièrement vrai dans le contexte de la n des annees 1990 o` u après une longue stagnation,
la croissance qui avait dej` a soutenu longuement lactivite aux USA, arrivait en France. Compte
tenu des declarations des dirigeants politiques, il ny avait aucun doute quun jour ou lautre il
faudrait passer aux 35 heures. La question netait donc pas faut-il ou non passer à la reduction
du temps de travail, mai quand faut-il passer aux 35 heures. Pour se concentrer sur leet de la
RTT on elimine le problème de lestimation du paramètre en le mesurant comme la part des
salaires dans la valeur ajoutee dans le secteur. Lequation secrit alors :
ln y
i
ln l
i
(1 ) ln k
i
= PGF
i
= RTT
i
+u
i
Pour attenuer lendogeneite potentielle de la variable RTT
i
on peut introduire certains regresseurs
X
i
: le secteur, la taille, la part des salaires dans la valeur ajoutee, la structure des qualications...
Le modèle secrit alors
PGF
i
= X
i
b +RTT
i
+v
i
o` u v
i
represente le choc de productivite residuel, cest à dire une fois pris en compte les facteurs
X
i
.
Pour estimer ce modèle on fait lhypothèse que les aides potentiellement re cue par les entre-
prises si elles signent un accord de reduction du temps de travail Aide
i
aectent sa decision de
passer à la RTT, mais pas les gains de productivite. On considère aussi que linformation dont
disposaient les entreprises sur la reduction du temps de travail aecte la decision de passage
mais pas la productivite. On mesure cette variable par la part des entreprises Robien dans le
secteur Inf
i
. On considère de meme que le taux dendettement des entreprises aecte la decision
de passage mais pas la productivite Endt
i
. Enn, on considère que la part des femmes dans len-
treprise Pf
i
naecte pas les gains de productivite mais inuence la decision de passage. On a
ainsi quatre variables instrumentales potentielles : Aide
i
, Inf
i
, Endt
i
et Pf
i
.
On verie dabord la condition de rang en regressant la variable RTT
i
sur X
i
et les va-
riables instrumentales. On voit clairement sur le tableau 11.2 que les coecients des variables
instrumentales sont signicatifs ce qui garantit que la condition de rang soit satisfaite.
Fig.11.2 Condition de rang
Instruments parametres cart-type Student Pvalue
un -0.801 0.082 -9.732 0.000
N16b 0.163 0.017 9.868 0.000
N16c 0.205 0.015 13.568 0.000
N16d 0.065 0.032 2.034 0.042
N16e 0.027 0.014 1.940 0.052
N16f 0.055 0.012 4.448 0.000
N16g 0.510 0.053 9.680 0.000
N16h 0.096 0.014 7.072 0.000
N16j 0.119 0.011 10.544 0.000
N16k -0.014 0.015 -0.945 0.344
N16n 0.167 0.013 12.483 0.000
taille1 -0.240 0.027 -8.856 0.000
taille2 -0.187 0.027 -6.909 0.000
taille3 -0.164 0.027 -6.011 0.000
taille4 -0.077 0.032 -2.433 0.015
eja1 0.413 0.037 11.203 0.000
eja2 0.211 0.026 8.132 0.000
eja3 0.294 0.031 9.508 0.000
ejq1 0.022 0.018 1.209 0.227
ejq2 0.000 0.019 0.021 0.983
pi97 -0.031 0.014 -2.223 0.026
Taux d'endettement 0.013 0.006 2.211 0.027
robien 1.466 0.161 9.095 0.000
aide 0.113 0.009 12.711 0.000
part des hommes -0.086 0.015 -5.772 0.000
Rgression de la variable RTT sur les instruments
Le tableau 11.3 donnent le resultat des estimations par les mco et par les variables instru-
mentales. On ne fait gurer que la variable RTT, mais les regressions comprennent toutes les
variables de controle qui gurent dans le tableaux precedent. On observe deux resultats im-
portants sur ces tableaux : dune part les coecients estimes pour la variable RTT sont très
dierents suivant la methode destimation. Dans le cas mco on a -0.036, ce qui signie que les
entreprises ayant signe un accord de reduction du temps de travail on vu leur production baisser
de 3.6% à facteurs inchanges. Pour une baisse de 10.3% (4/39) de la duree du travail, cest assez
peu et cela correspondrait à lexistence dimportant gains de productivite dans les entreprises
passees aux 35 heures. Le coecient estime par la methode des variables instrumentales est
très dierent. Il est de -0.107 ce qui correspond à une baisse de la production de 10.7%. Ceci
signierait quil ny a pas eu de gains de productivite associes au passage à 35 heures. On voit
donc que la conclusion à laquelle on parvient depend très fortement des hypothèses identica-
trices eectuees. Un autre enseignement des deux tableaux est la dierence importante entre les
ecarts-type estimes : lecart-type est de 0.003 pour la regression par les mco et de 0.032 pour
les variables instrumentales. Il y a donc un facteur 10 dans la precision. Il faudrait pour obtenir
un estimateur aussi precis que celui des mco multiplie la taille de lechantillon par 100 ! Les
regressions presentees sont eectuees sur 30.000 observations. On voit donc clairement le prix
des variables instrumentales en terme de precision.
Le tableaux 11.4 presentent le test de suridentication. Il est realise en regressant le residu
de la regression à variable instrumentale sur les variables exogènes du modèle cest à dire les
instruments et les regresseurs exogènes. On recupère le F de cette regression donne par le
logiciel F
Log
, et on applique la correction presentee F
Rec
= (H/ (H K)) F
Log
. Ici H est le
nombre de variables exogènes (regresseurs plus instruments) i.e. H = 25, et K est le nombre de
variables explicatives exogène et endogènes du modèle. Ici K = 22, la regression inclue en eet
Fig.11.3 Estimation pas les MCO et le VI
variables parametres cart-type Student Pvalue
RTT -0.036 0.003 144.387 0.000
variables parametres cart-type Student Pvalue
RTT -0.107 0.032 11.564 0.001
Estimation par les mco
Estimation par les variables instrumentales
Fig.11.4 Test de Sargan
Instruments parametres cart-types
Taux d'endettement -0.00201 0.00329
robien 0.17451 0.06910
aide -0.00826 0.00373
part des hommes -0.00254 0.00753
Statistique degrs p-value
7.57 3 5.6%
Test de Sargan
les variables de controle qui ne sont pas montrees ici. La correction est donc très importante
puisquon multiplie la statistique du logiciel par 25/3 = 8.33. Le nombre de degres de liberte est
le nombre dinstrument en excès cest à dire 3. On voit que ce test nest que legèrement accepte,
puisque la statistique est de 7.57 ce qui conduit à une p-value de 5.6% pour 3 degres de liberte.
Notons que si on accepte lhypothèse (5.6% 5% on pourrait donc accepter à la limite pour
un test à 5%) ce que lon accepte nest pas le fait que les instruments sont valides, cest à dire
quils verient la condition E (z
i
u
i
) = 0, autrement dit que le paramètre estime converge vers le
vrai paramètre. Ce que lon accepte cest que les estimateurs auxquels conduirait chacune des
variables instrumentales prise separement ne seraient pas statistiquement dierents : en resume
on accepte que si il y a biais, le biais sera le meme avec nimporte lequel de ces instruments.
On insiste ici à dessein sur le fait quil sagit dun test de compatibilite des instruments et pas
un test de validite des instruments. Lidentication repose necessairement sur une hypothèse
non testable. On peut en verier la coherence interne le cas echeant, cest à dire lorsquil y a
suridentication, mais pas la validite. Les tests de specication sont un guide très utile mais pas
une reponse denitive.
Le tableau 11.5 presente le resultat du test dexogeneite. Lhypothèse testee est : condition-
nellement au fait que lon accepte la validite des instruments (ce qui na de sens que si le test de
suridentication a ete accepte, et qui nest le cas quà 5,6% ici) peut on accepter que la variable
supposee endogène est en fait exogène. Cest à dire peut on se baser sur lestimateur des mco.
La dierence de precision des estimations motive de fa con convaincante lutilite de se poser cette
question. Le test est eectue par le biais de la regression augmentee. On introduit la variable
supposee endogène et la variable predite par la regression de la variable endogène sur les instru-
ments (celle du tableau1) lhypothèse est rejetee si cette dernière variable est signicative. Cest
nettement le cas ici. Ce test signie que si on croit à la validite des instruments, on ne peut pas
croire à lexogeneite de la variable de RTT.
Le tableau 11.6 montre le resultat des estimations lorsque lon retire la variable Inf
i
de la
liste des instruments. Le hypothèse de compatibilite des variables instrumentales est beaucoup
11.8. Resume 167
Fig.11.5 Test dexog en eit e
variables parametres cart-type Chi2 Pvalue
RTT prdit -0.072 0.031 5.208 0.022
RTT -0.036 0.003 136.164 0.000
Test d'Exognit
Fig.11.6 R esultat sans la part des Robien
Variables BIV SBIV0 CHIBIV0 PROBBIV0
RTT -0.161 0.039 17.317 0.000
Instruments parametres cart-types
Endt -0.0012 0.0033
aide -0.0026 0.0030
Hommes -0.0075 0.0074
Statistique degrs p-value
1.152 2 56.2%
variables parametres cart-type Chi2 Pvalue
RTT prdit -0.126 0.038 10.993 0.001
RTT -0.035 0.003 135.507 0.000
Variables Instrumentales
Test de Sargan
Test d'Exognit
plus largement acceptee. Lhypothèse dexogeneite est quant à elle rejetee et le coecient estime
pour la variable de RTT est un peu modie. Il atteint un niveau de -16%, ce qui est très eleve
et signie quil ny a pas eu de gains de productivite horaire mais plut ot des pertes. Il est aussi
moins precis.
11.8 Resume
Dans ce chapitre, on a etudie
1. Dierentes raisons de remettre en cause lhypothèse identicatrice fondamentale E (x
i
u
i
) =
0
2. Certaines variables apparaissent ainsi endogènes et dautres restent exogènes.
3. On a montre que lon peut recourir à des hypothèses identiantes alternatives à celle des
moindres carres ordinaires basees sur des variables instrumentales. Il sagit de variables
correlees avec les variables explicatives mais non correlees avec les perturbations.
4. On a vu que parmi lensemble des estimateurs possibles il en existait, dans le cadre ho-
moscedastique etudie, un plus ecace que les autres appele estimateur à variables instru-
mentales.
5. Cet estimateur sinterprète comme lestimateur obtenus en regressant la variable dependante
sur la ; projection des variables explicatives sur les variables instrumentales.
6. Cet estimateur est toujours moins precis que lestimateur des moindres carres ordinaires
7. On a vu un test très courant : le test de suridentication, ou test de Sargan, qui teste
la compatibilite des variables instrumentales. Il ne sagit pas dun test de validite des
instruments mais dun test permettant de verier quil ny a pas dincompatibilite entre
les dierents instruments utilises.
8. On a vu aussi quil etait possible de tester lexogeneite des variables instrumentales ce qui
permet davoir recours, le cas echeant, à lestimateur des moindres carres ordinaires.
Chapitre 12
La Methode des moments generalisee
12.1 Modèle structurel et contrainte identiante : restriction
sur les moments
Les methodes destimation que lon a vu jusquà present exploitaient sans le dire explici-
tement lexistence de fonctions des paramètres et des variables du modèle dont lesperance est
nulle. Par exemple dans le cas du modèle lineaire vu jusquà present
y
i
= x
i
b +u
i
On a vu que lestimateur des mco exploitait largement lhypothèse de non covariance entre les
variables explicatives et le residu :
E
_
x
i
u
i
_
= 0
Cette restriction se reecrit de fa con analogue comme
E
_
x
i
(y
i
x
i
b)
_
= 0
Elle est directement liee à lexpression de lestimateur des mco. Celui-ci peut en eet etre vu
comme la valeur du paramètre qui annule la contrepartie empirique des conditions dorthogona-
lite :
x
i
_
y
i
x
i
b
mco
_
= 0
Il en va de meme pour les variables instrumentales. La contrainte identiante centrale prenait
en eet la forme :
E
_
z
V I
i
u
i
_
= 0
et on a alors des relations du type
E
_
z
V I
i
(y
i
x
i
b)
_
= 0
Les estimateurs de mci sont caracterises par le fait quils annulent une combinaison lineaire
donnee de la contrepartie empirique des conditions dorthogonalite :
A.z
V I
i
_
y
i
x
i
b
mci
(A)
_
= 0
169
170
Ces restrictions ont en commun le fait quun vecteur de fonctions des observations et des pa-
ramètres dont lesperance est egale à zero pour la vraie valeur du paramètre. Dans le premier
cas il sagit de x
i
(y
i
x
i
b) et dans le second cas de z
i
(y
i
x
i
b) . La methode des moments
generalisee est la methode adaptee pour estimer des modèles econometriques denis par lexis-
tence de fonctions des observations et des paramètres desperance nulle. La methode des moments
generalisee va avoir pour nous plusieurs avantages :
On va pouvoir etendre les procedure destimation et de test à des domaines plus generaux.
Dans le cas des variables instrumentales par exemple, on va pouvoir denir des estimateurs
optimaux ne reposant que sur les contraintes identiantes E
_
z
V I
i
(y
i
x
i
b)
_
= 0. En
particulier, ils ne feront pas dhypothèses de regularite sur la constance des moments
dordres superieurs. On va aussi pouvoir etendre les procedures de tests de suridentication
et dexogeneite au cas dans lequel les residus sont heteroscedastiques.
On va aussi pouvoir aborder des situations plus generales que celle examinees jusquà
present en considerant pas exemple des systèmes dequations à variables instrumentales.
Ce type de generalisation est essentiel dans leconometrie des donnees de panel. L` a aussi on
va pouvoir discuter les conditions didentication des paramètres, denir des estimateurs
optimaux, developper des procedure de tests de suridentication.
La methode des moments generalisee va aussi etre loccasion destimer et detudier des
modèles se presentant sous des formes moins standards que celle dune equation ou dun
système dequation avec residu. Dans certains cas, cest spontanement sous la forme de
fonctions des paramètres et des variables desperance nulle quun modèle emerge de la
theorie. Cest le cas en particulier des equations dEuler. Considerons par exemple le
cas dune entreprise decidant de son investissement. Notons F (K
t
, L
t
, ) la fonction de
production, et M (K
t
, I
t
, ) la fonction de co ut dajustement. Lequation daccumulation
du capital secrit K
t
= (1 ) K
t1
+I
t
. La fonction de prot de lentreprise secrit
E
t
_
+
=0
1
(1 +r)
(p
F (K
, L
, ) w
p
I
I
M (K
t
, I
t
, ))
_
Lentreprise cherche à maximiser ce prot sous contrainte daccumulation. Le Lagrangien
de lobjectif de lentreprise secrit
E
t
_
+
=0
1
(1 +r)
(p
F (K
, L
, ) w
p
I
I
M (K
, I
, )) +
(K
(1 ) K
1
I
t
)
_
On en deduit les conditions du premier ordre :
E
t
_
p
F (K
, L
, )
K
M (K
, I
, )
K

+1
1
1 +r
_
= 0
E
t
_
p
I
+
M (K
, I
t
, )
I
_
= 0
E
t
_
p
F (K
, L
, )
L
_
= 0
On en deduit en particulier pour la date = t la relation
0 = E
t
_
p
t
F (K
t
, L
t
, )
K
t
M (K
t
, I
t
, )
K
t
+p
It
+
M (K
t
, I
t
, )
I
t
__
1
1 +r
__
p
It+1
+
M (K
t+1
, I
t+1
, )
I
t+1
___
12.2. Denir un modèle par le biais de conditions dorthogonalite 171
Ce qui signie que pour nimporte quelle variable z
t
appartenant à lensemble dinformation
de la date t, on a
0 = E
__
p
t
F (K
t
, L
t
, )
K
t
M (K
t
, I
t
, )
K
t
+p
It
+
M (K
t
, I
t
, )
I
t
__
1
1 +r
__
p
It+1
+
M (K
t+1
, I
t+1
, )
I
t+1
___
z
t
_
On voit donc que dans ce cas le modèle conduit à un grand nombre (a priori inni) de
relations entre les variables et les paramètres dont lesperance est egale à zero. Lun des
interets de la methode des moments generalisee est justement associe à cette particularite
du modèle. Si le modèle est juste alors on doit avoir la propriete quil existe un paramètre de
dimension nie annulant les conditions dorthogonalite bien quelles soient en très grand
nombre. Dans une certaine mesure peu importe la valeur du paramètre, ce qui compte
vraiment est de savoir si lensemble des restrictions que la theorie economique impose aux
donnees sont bien veriees empiriquement ; cest à dire que lon puisse trouver une valeur
du paramètre telle que lon accepte lhypothèse de nullite de la contrepartie empirique des
conditions dorthogonalite lorsquelles sont evaluees en ce point.
12.2 Denir un modèle par le biais de conditions dorthogonalite
La methode des moments generalisee concerne la situation dans laquelle on dispose dun
vecteur de fonctions g de dimension dimg dun paramètre dinteret de dimension dim et
de variables aleatoires observables, z
i
dont lesperance est nulle pour =
0
la vraie valeur du
paramètre :
E (g (z
i
, )) = 0 =
0
et pour
0
seulement. De telles relations portent le nom de conditions dorthogonalite.
Cest un cadre très general englobant de nombreuses situations speciques :
12.2.1 Maximum de vraisemblance
On a des observations z
i
et un modèle dont la vraisemblance secrit LogL(z
i
, ) . Comme
E
_
L(z
i
, )
L(z
i
,
0
)
_
=
_
L(z
i
, )
L(z
i
,
0
)
L(z
i
,
0
) dz
i
=
_
L(z
i
, ) dz
i
= 1
et que du fait de linegalite de Jensen
log
_
E
_
L(z
i
, )
L(z
i
,
0
)
__
> E
_
log
_
L(z
i
, )
L(z
i
,
0
)
__
pour ,=
0
, on a
0 > E (log L(z
i
, )) E (log L(z
i
,
0
))
Lesperance de la vraisemblance est maximale pour =
0
:
E
log L(z
i
, )
= 0 =
0
172
12.2.2 Modèle desperance conditionnelle, moindres carres non lineaires
Il sagit de la situation dans laquelle le modèle deni lesperance dune variable aleatoire y
i
conditionnellement à des variables explicatives x
i
:
E (y
i
[x
i
) = f (x
i
,
0
)
Les moindres carres non lineaires denissent le paramètre comme celui minimisant la somme
des carres des residus :
_
(y
i
f (x
i
, ))
2
_
. On peut montrer que la vraie valeur du paramètre
0
minimise E
_
(y
i
f (x
i
, ))
2
_
En eet, comme
E
_
(y
i
f (x
i
, ))
2
_
= E [y
i
f (x
i
,
0
) +f (x
i
,
0
) f (x
i
, )]
2
= E
_
(y
i
f (x
i
,
0
))
2
_
+2E [(y
i
f (x
i
,
0
)) (f (x
i
,
0
) f (x
i
, ))]
+E
_
(f (x
i
,
0
) f (x
i
, ))
2
_
> E
_
(y
i
f (x
i
,
0
))
2
_
on en deduit que E
_
(y
i
f (x
i
, ))
2
_
est minimal pour =
0
. On en deduit que la vraie valeur
du paramètre et la vraie valeur seulement verie
E
_
(y
i
f (x
i
, ))
f (x
i
, )
_
= 0 =
0
12.2.3 Methode à variables instrumentales pour une equation seule
Il sagit de la generalisation du cas vu au chapitre precedent dans lequel on fait lhypothèse
quil existe un système de variables exterieures dites instrumentales, non correles avec les residus :
E
_
z
V I
i
(y
i
x
i
0
)
_
= 0
o` u y
i
est la variable dependante, x
i
le vecteur ligne des variables explicatives de dimension
1 dim() et z
i
le vecteur ligne des instruments de dimension 1 H.
On a
E
_
z
i
(y
i
x
i
)
_
= E
_
z
i
x
i
_
(
0
)
dès lors que E
_
z
i
x
i
_
est de rang dim()
E
_
z
i
(y
i
x
i
)
_
= 0 =
0
Il sagit dune generalisation du cas du chapitre precedent dans la mesure o` u on ne fait plus
que les hypothèses minimales : existence des conditions dorthogonalite et condition de rang.
En particulier on ne fait plus lhypothèse dhomoscedasticite. De ce fait comme on va le voir
lestimateur optimal ne sera plus lestimateur des doubles moindres carres, le test de suridenti-
cation se generalise mais ne prend plus la meme forme, le test dexogeneite peut etre mis en
oeuvre mais fait partie dune classe plus generale de tests de specication. Le but principal de ce
chapitre est tout en presentant les elements generaux de la methode des variables instrumentales
de presenter lextension des resultats precedents à cette situation plus generale.
12.2.4 Methode à variables instrumentales pour un système d equations.
La situation precedente peut etre generalisee à un système dequations. On considère ainsi
le cas o` u les conditions dorthogonalite sont donnees par :
E
_
Z
i
_
y
i
x
i
0
__
= 0
o` u y
i
est un vecteur de variables dependantes de dimension M 1, x
i
une matrice de variables
explicatives de dimension Mdim() et Z
i
une matrice dinstruments de dimension MH o` u
la ligne m contient les instruments z
m
de lequation m : Z
i
= diag (z
mi
) de telle sorte que
Z
i
=
_
_
z
1i
.
.
.
z
Mi
_
_
_
1i
.
.
.
Mi
_
_
=
_
_
z
1i
1i
.
.
.
z
Mi
Mi
_
_
On a
E
_
Z
i
_
y
i
x
i
__
= E
_
Z
i
x
i
_
(
0
)
dès lors que E
_
Z
i
x
i
_
est de rang dim()
E
_
Z
i
_
y
i
x
i
__
= 0 =
0
Ce cas simple, lineaire, englobe lui-meme de très nombreuses situations, comme celles vues
jusquà present mco, variables instrumentales dans le cas univarie mais bien dautres encore
comme leconometrie des donnees de panel, lestimation de système de demande, ou encore
lestimation de systèmes ore-demande.
12.2.5 Leconometrie des donnees de panel
Le cadre precedent constitue un cadre general dans lequel il est possible de traiter leconometrie
des donnees de panel. Le modèle considere est le suivant :
y
it
= x
it
b +
i
+
it
Les perturbations suivent donc le modèle à erreurs composees. On sinteresse aux dierentes
possibilites de correlation entre les variables explicatives et les perturbations, cest à dire à la
matrice
= E
_
u
i
V ec (x
i
)
_
Loperateur V ec est loperateur qui transforme une matrice en vecteur en empilant les colonnes
de la matrice les unes en dessous des autres. Dune fa con generale, les dierentes possibilite
de correlation vont conduire à des parametrages dierents de la matrice . On aura des ma-
trices () dierentes suivant la nature des correlations entre les variables explicatives et les
perturbations. Lensemble de conditions dorthogonalite que lon considère est
E
__
y
i
x
i
b
_
V ec (x
i
)
_
= ()
Tel quel cet ensemble est exprime comme une matrice. On peut le transformer pour lexprimer
sous forme vectorielle en appliquant loperateur V ec. On voit que mis sous cette forme, il y a
174
toujours le meme nombre de conditions dorthogonalite : dimg = (K + 1) T
2
et un nombre de
paramètre variant dune specication à lautre. On voit bien que plus on va parametrer la matrice
de variance () , moins on va conserver dinformation pour estimer le paramètre dinteret b.
Des situations dans lesquelles la matrice () est nulle par exemple vont exploiter toutes les
covariances entre les perturbations et les variables explicatives à toutes les dates pour estimer le
paramètre. Cette situation est très exigeante vis à vis des donnees. En revanche, dans la situation
extreme dans laquelle la matrice () serait laissee totalement libre, on voit que le paramètre
b ne serait plus identie. En pratique les paramètres sont des paramètres de nuisance et on
na pas toujours envie de les estimer car ils peuvent etre nombreux et leur examen serait long
fastidieux et pas necessairement très utile. Dans les cas consideres il est en general possible
deliminer tout ou partie de ces paramètres de nuisance en appliquant des transformations aux
donnees. On a ainsi en general des relations prenant la forme
E
_
H
_
y
i
x
i
b
_
V ec (x
i
)
_
= 0
On voit que formellement, la situation consideree est analogue à celle dun système dequations
avec variables instrumentales. Les instruments ici sont dits internes dans la mesure o` u ce sont
les valeurs passees presentes ou futures des variables explicatives qui sont utilisees comme ins-
truments. On voit aussi que ce cadre est très general, et quil est susceptible de delivrer des
estimateurs des paramètres dans des situations nouvelles pour lesquelles il netait pas possible
de le faire auparavant, dans le cadre standard. On detaille maintenant les dierentes situations
possibles et on donne lensemble de conditions dorthogonalite correspondant.
(i) Exogeneite forte
La première situation que lon considère est celle dite dexogeneite forte et correspond au
cas dans lequel il ny a pas de correlations entre les perturbations et les variables explicatives
passees presentes et futures, soit
E (
i
x
ks,i
) = 0 s = 1, . . . , T
E (
t,i
x
ks,i
) = 0 s, t = 1, . . . , T
Ces hypothèses sont autant de restrictions intervenant explicitement dans les estimations. Sous
ces hypothèses ne nombreux estimateurs standards : MCO, Between, Within, MCQG, sont tous
convergents. On va voir comment ces estimateurs sinterprètent maintenant dans le cadre plus
general considere ici. On peut remarquer quil y a ici (K + 1) T
2
conditions dorthogonalite :
E (u
t,i
x
ks,i
) = 0, t, s
et que ces conditions dorthogonalite peuvent de reecrire de fa con equivalente comme
E (u
1i
x
ks,i
) = 0, s
E (u
ti
x
ks,i
) = 0t > 1, s
(ii) Eets correles
Une deuxième situation correspond au cas o` u lon ne souhaite pas faire reposer les estimations
sur lhypothèse E (
i
x
ks,i
) = 0. On introduit donc des paramètres de nuisance
ks
= E (
i
x
ks,i
) .
On autorise donc le fait que les elements dheterogeneite individuelles soient correles avec les va-
riables explicatives, do` u le nom deets correles. Il y a donc (K + 1) T paramètres de nuisance.
On maintient par contre lhypothèse E (
t,i
x
ks,i
) = 0. On a donc comme condition dorthogo-
nalite :
E (u
t,i
x
ks,i
) =
ks
, t, s
De fa con equivalente, on peut eliminer les paramètres de nuisance, eliminant au passage certaines
conditions dorthogonalite. Les (K + 1) T
2
conditions dorthogonalite peuvent ainsi etre reecrites
après elimination des (K + 1) T paramètres de nuisance comme
E (u
t,i
x
ks,i
) = 0, t > 1, s
Il y a alors (K + 1) T (T 1) conditions dorthogonalite. On remarque en outre quil sagit aussi
du deuxième ensemble de conditions dorthogonalite identie dans le cas de lexogeneite forte.
(iii) Exogeneite faible
Lhypothèse E (
t,i
x
ks,i
) = 0 s, t = 1, . . . , T peut paratre excessive elle aussi. Ainsi
dans le cas des conditions dEuler on est plut ot amene à utiliser comme variables instrumen-
tales des variables passees. On peut ainsi preferer ne retenir comme restriction identiante que
E (
t,i
x
ks,i
) = 0 t = 1, . . . , T et s < t. On autorise ainsi que les chocs passes aectent les
decisions concernant le niveau de la variable x
ks,i
. Cest cette specication qui porte le nom
dexogeneite faible. Elle consiste donc ` a introduire (K + 1) T +(K + 1) T (T + 1) /2 paramètres
de nuisance :
E (
i
x
ks,i
) =
ks
E (
t,i
x
ks,i
) =
t,ks
pour s t
On maintient en revanche
E (
t,i
x
ks,i
) = 0 t = 1, . . . , T et s < t
Finalement les conditions dorthogonalite secrivent dans ce cas sous la forme
E (u
t,i
x
ks,i
) =
ks
+
t,ks
1 (t s) , t, s
L` a aussi on peut de fa con equivalente reecrire ces conditions dorthogonalite pour eliminer les
paramètres de nuisance. Les (K + 1) T
2
conditions dorthogonalite peuvent ainsi etre reecrites
après elimination des paramètres de nuisance comme
E (u
t,i
x
ks,i
) = 0, t > s + 1, s
Il y a alors (K + 1) T (T 1) /2 conditions dorthogonalite. On remarque en outre quil sagit
aussi dune sous partie de lensemble de conditions dorthogonalite de celui obtenu dans le cas
des eets correles.
176
Exogeneite forte Eets Correles Exogeneite faible
Restrictions - E (
i
x
ks,i
) = 0 E(
i
x
ks,i
) =0,
rel achees E(
t,i
x
ks,i
) = 0 s t
Restrictions E(
i
x
ks,i
) =0, E (
t,i
x
ks,i
) = 0 E (
t,i
x
ks,i
) = 0
maintenues E (
t,i
x
ks,i
) = 0 s, t s < t s, t
Conditions g
F
= g
C
=
_
g
C/f
, g
f
_
g
f
dorthogonalite
_
g
F/C
, g
C/f
, g
f
_
Tab.12.1 Conditions dorthogonalit e et choix dune sp ecification
(iv) Synthèse
On voit que lon peut synthetiser les resultats precedents en introduisant trois ensembles de
g
f
= (u
t,i
x
ks,i
)
t>s+1
g
C/f
= (u
t,i
x
ks,i
)
ts+1
g
F/C
= (u
1i
x
ks,i
)
Le tableau 12.1 recapitule les trois situations examinees. Les dierentes specications sont
embotees les unes dans les autres. La plus generale est la specication exogeneite faible. Dans ce
cas les estimations ne reposent que sur un ensemble minimal dinformation. La specication ef-
fets correles introduit plus dinformation. Lensemble des conditions dorthogonalite inclus outre
celles dej` a presentes dans la specication exogeneite faible certaines conditions supplementaires
speciques aux eets correles. Enn dans le cas de lexogeneite forte, on adjoint à lensemble
de conditions dorthogonalite precedent des conditions additionnelles, speciques à lexogeneite
forte. On va pouvoir denir des estimateurs ne reposant que sur ces dierents sous-ensembles de
conditions dorthogonalite. On va aussi pouvoir, comme dans le cas des variables instrumentales,
tester la coherence de chacun de ces sous-ensembles de conditions dorthogonalite. Le test ef-
fectue sera analogue au test de Sargan. Enn, on va pouvoir tester la compatibilite des dierents
sous-ensembles dinformation entre eux. Ainsi on va pourvoir tester si par exemple lorsque lon
a estime le modèle sous lhypothèse eets correles, les conditions dorthogonalite additionnelles
speciques à lexogeneite fortes sont compatibles avec les conditions dej` a mobilisees. Le test
sapparente alors au test dexogeneite examine dans le cas homoscedastique univarie.
12.3 Principe de la methode :
Le principe des GMM est de trouver

, rendant
g
_
z
i
,
_
la contrepartie empirique de E (g (z
i
, )) aussi proche que possible de zero.
- Si dim(g) = dim() on peut exactement annuler g
_
z
i
,
_
: le modèle est juste identie
(cas des mco, du maximum de vraisemblance, des moindres carres non lineaires, de la methode
des variables instrumentales lorsquil y a autant dinstruments que de variables endogènes)
12.3. Principe de la methode : 177
- Si dim(g) > dim() On ne peut pas annuler exactement la contrepartie empirique des
conditions dorthogonalite. Le modèle est dit suridentie. Cest le cas le plus frequent lorsque
lon met en oeuvre des methodes de type variables instrumentales.
Remarque 12.1 lecriture du modèle signie quon peut annuler exactement lesperance E (g (z
i
, ))
meme dans le cas de la suridentication, alors que cest en general impossible ` a distance nie
pour la contrepartie empirique des conditions dorthogonalite.
Dans le cas de la suridentication, la methode consiste à rendre aussi proche de zero que
possible la norme de la contrepartie empirique des conditions dorthogonalite dans une certaine
metrique :
_
_
_g (z
i
, )
_
_
_
S
N
= g (z
i
, )
S
N
g (z
i
, )
Lestimateur est alors deni par :
S
N
= Arg min
g (z
i
, )
S
N
g (z
i
, )
Remarque 12.2 Dans le cas des variables instrumentales, on reglait le problème de la su-
ridentication en considerant des combinaisons lineaires des conditions dorthogonalite. Ceci
conduisait aux estimateurs des moindres carres indirects

b
mci
(A) , denis par
Az
V I
i
_
y
i
x
i
b
mci
(A)
_
= 0
Ici on aurait pu proceder de meme et denir des estimateurs bases sur une combinaison lineaire
des conditions dorthogonalite. On aurait alors deni des estimateurs de la forme
Ag
_
z
i
,
A
N
_
= 0
Les deux approches sont en fait analogues.
Exemple 10 Cas o` u les conditions dorthogonalite sont lineaires dans le paramètre dinteret.
Cest par exemple le cas des variables instrumentales dans un système dequations puisqualors
g (z
i
, ) = Z
i
_
y
i
x
i
_
= Z
i
y
i
Z
i
x
i
= g
1
(z
i
) g
2
(z
i
)
On note g
1
= g
1
(z
i
) et g
2
= g
2
(z
i
). Lestimateur est alors deni par :
S
= Arg min
(g
1
g
2
)
S
N
(g
1
g
2
)
Il existe dans ce cas une solution explicite :
S
=
_
g
2
S
N
g
2
_
1
g
2
S
N
g
1
Dans le cas des variables instrumentales, on a par exemple
S
=
_
x
i
Z
i
S
N
Z
i
x
i
_
1
Z
i
x
i
S
N
Z
i
y
i
Dans le cas dune seule equation, les estimateurs obtenus par la methode des moments generalisee
sont ainsi :
S
=
_
x
i
z
i
S
N
z
i
x
i
_
1
x
i
z
i
S
N
z
i
y
i
178
Si on prend par exemple pour metrique S
N
= z
i
z
i
1
On obtient lestimateur des doubles moindres
carres. On en conclut que dans le cas o` u les conditions dorthogonalite sont E
_
z
i
(y
i
x
i
0
)
_
=
0, cest ` a dire celles vues dans le chapitre precedent sur les variables instrumentales, on retrouve
comme estimateur GMM particulier lestimateur des doubles moindres carres. Neanmoins le
cadre dans lequel on se situe est plus general puisquon ne fait plus lhypothèse dhomoscedasticite.
On va voir que pour cette raison, lestimateur des doubles moindres carres nest plus lestimateur
de variance minimal.
12.4 Convergence et proprietes asymptotiques
Comme dans les cas examines precedemment on va voir que les estimateurs GMM presentes
sont convergents et asymptotiquement normaux. Comme precedemment lobtention de ces resultats
necessite des hypothèses. Elles vont porter ici sur les moments des variables z
i
mis aussi sur la
regularite de la fonction g (z
i
, ) .
Proposition 12.1 Sous les hypothèses
1. H1 Lespace des paramètres est compact. La vraie valeur est
0
interieure ` a ,
2. H2 E (g (z
i
, )) = 0 =
0
,
3. H3 g (z
i
, ) est contin ument derivable en ,
4. H4 E
_
sup
[g (z
i
, )[ +sup
[g (z
i
, )[
2
+sup
g (z
i
, )[
_
< ,
5. H5 g
k
(z
i
,
0
) a des moments nis dordre 1 et 2,
6. H6 Le Jacobien G = E (
g (z
i
,
0
)) de dimension dimg dim est de limrang dim,
7. H7 S
N
P
S
0
denie positive.
Lestimateur GMM

SN
minimisant Q
N
() deni par Q
N
() = g (z
i
, )
S
N
g (z
i
, ), est
convergent et asymptotiquement normal. Sa matrice de variance asymptotique est fonction de
S
0
et de la matrice de variance des conditions dorthogonalite. Elle peut etre estimee de facon
convergente.
1.

S
P
0
convergence
2.
N
_
0
_
L
N
_
0, V
as
_
(S)
__
normalite asymptotique
3. V
as
_
S
_
= [G
S
0
G]
1
G
S
0
V (g (z
i
,
0
)) S
0
G[G
S
0
G]
1
o` u S
0
= p limS
N
et V (g (z
i
,
0
)) =
E
_
g (z
i
,
0
) g (z
i
,
0
)
_
4.

V (g (z
i
,
0
)) = g
_
z
i
,
S
_
g
_
z
i
,
S
_
V (g (z
i
,
0
)) et

G =
g
_
z
i
,
S
_
G
5.

V
as
_
S
_
=
_
S
0
G
_
1
S
N
V (g (z
i
,
0
)) S
N

G
_
S
0
G
_
1
V
as
_
(S)
_
Parmi ces conditions la deuxième est de loin la plus importante puisque cest elle qui denit
lidentication du paramètre. Cest sur le choix des fonctions g (z
i
, ) que porte le travail du
modelisateur. La condition 3 est essentielle pour obtenir la loi asymptotique des paramètres. En
eet il est central de pouvoir lineariser autour de la vraie valeur du paramètre. La condition
12.5. Estimateur optimal 179
4 est technique. Elle garantit quil y a convergence uniforme en probabilite de g (z
i
, ) vers
E (g (z
i
, )) (et pareil pour les autres fonctions concernees
g (z
i
, ) et g (z
i
, ) g (z
i
, )
). La
condition 5 est lanalogue de la condition z
i
u
i
a des moments dordre 1 et 2, dans le cas des
variables instrumentales. Elle est essentielle dans lapplication du theorème central limite dans
la derivation de lexpression de la matrice de variance. La condition 6 sert aussi pour deriver
lexpression de la matrice de variance. Dans le cas lineaire, elle est analogue à la condition
didentication 2.
Demonstration Convergence : Soit Q
N
() = g (z
i
, )
S
N
g (z
i
, ) et Q() = E (g (z
i
, ))
S
0
E (g (z
i
, )) . On
peut ecrire
Q
_
S
_
Q(
0
) =
_
Q
N
_
S
_
+
_
Q
_
S
_
Q
N
_
S
___
[Q
N
(
0
) + (Q(
0
) Q
N
(
0
))]
comme Q
N
_
S
_
Q
N
(
0
) et Q(
0
) Q
_
S
_
,on a
0 Q
_
S
_
Q(
0
)
_
Q
_
S
_
Q
N
_
S
__
(Q(
0
) Q
N
(
0
))
2sup
|Q() Q
N
()|
La condition E
_
sup
|g (z
i
, )|
_
< +permet de montrer quil y a convergence uniforme de g (z
i
, ) vers E (g (z
i
, )) ,et
donc de Q
N
() vers Q() = E (g (z
i
, ))
S
0
E (g (z
i
, )) . On en deduit donc que Q
_
S
_
P
Q(
0
) . Comme la
fonction Q est continue, que est compact, que Q(
0
) = 0 et Q() = 0 E (g (z
i
, )) = 0 =
0
on en
deduit

S
P
0
.
Normalite asymptotique
La condition du premier ordre denissant le paramètre

S
est denie par
g
_
z
i
,
S
_
S
N
g
_
z
i
,
S
_
= 0. En
appliquant le theorème de la valeur moyenne à g
_
z
i
,
S
_
, on a 0 =
Ng
_
z
i
,
S
_
Ng (z
i
,
0
) +
g
_
z
i
,
S
_
N
_
S

0
_
,
o` u

S
se trouve entre

S
et
0
converge donc aussi en probabilite vers
0
. En multipliant par
g
_
z
i
,
S
_
S
N
, on
a
g
_
z
i
,
S
_
S
N
g
_
z
i
,
S
_
N
_
S

0
_
=
g
_
z
i
,
S
_
S
N
Ng (z
i
,
0
)
La condition E
_
sup
g (z
i
, )|
_
< + garantit la convergence uniforme en probabilite de
g (z
i
, ) vers
E (
g (z
i
, )) . On en deduit que
g
_
z
i
,
S
_
S
N
P
G
S et que
_
g
_
z
i
,
S
_
S
N
g
_
z
i
,
S
_
_
P
G
S
0
G,
matrice dim dim inversible compte tenu de limrangG = dim. La condition que g
k
(z
i
,
0
) a des moments
dordre 1 et 2 permet dappliquer le theorème central limite à
Ng (z
i
,
0
) :
Ng (z
i
,
0
)
Loi
N (0, V (g (z
i
,
0
))) .
On en deduit la normalite asymptotique de lestimateur et lexpression de sa matrice de variance. Remarquons
que le developpement precedent conduit aussi à une approximation de lecart entre lestimateur et la vraie valeur :
N
_
S

0
_
=
_
G
S
N
G
_
1
G
S
N
Ng (z
i
,
0
) +o (1)
Estimation de la matrice de variance asymptotique
Le seul point à montrer est que g
_
z
i
,
S
_
g
_
z
i
,
S
_
V (g (z
i
,
0
)) . La condition E
_
sup
|g (z
i
, )|
2
_
< ,
permet de montrer quil y a convergence uniforme de g (z
i
, ) g (z
i
, )
vers E
_
g (z
i
, ) g (z
i
, )
_

12.5 Estimateur optimal
Comme dans les cas precedemment abordes, on montre quil existe un estimateur GMM
optimal.
180
12.5.1 Existence dun estimateur optimal
Proposition 12.2 Les estimateurs

obtenus ` a partir de matrice de poids S
N
S
avec
S
= V (g (z
i
,
0
))
1
sont optimaux, au sens o` u dans la classe des estimateurs GMM, ils conduisent ` a des estimateurs
de variance minimale. La matrice de variance asymptotique de cet estimateur est
V
as
_
_
=
_
G
1
=
_
G
V (g (z
i
,
0
))
1
G
_
1
et peut etre estimee par
V
as
_
_
=
_
N

G
_
1
ou

G est comme precedemment un estimateur convergent de G.
Demonstration La demonstration se fait comme dans le cas des variables instrumentales. La variance asymp-
totique de lestimateur optimal secrit
V
as
_
_
=
_
G
V
1
G
1
=
_
C
C
_
1
avec C = V
1/2
G de dimension dimg dim
La variance asymptotique de lestimateur general secrit
V
as
_
S
_
=
_
G
S
0
G
1
G
S
0
V S
0
G
_
G
S
0
G
1
= BB
avec B = [G
S
0
G]
1
G
S
0
V
1/2
de dimension dim dimg. On a
BC =
_
G
S
0
G
1
G
S
0
V
1/2
V
1/2
G = I
dim
do` u
V
as
_
S
_
V
as
_
_
= BB
_
C
C
_
1
= BB
BC
_
C
C
_
1
C
puisque BC = I
dim
. On voit donc que
V
as
_
S
_
V
as
_
_
= B
_
I
dimg
C
_
C
C
_
1
C
_
B
est une matrice semi-denie positive, do` u loptimalite.

12.5.2 Mise en oeuvre de lestimateur optimal : deux etapes
Dans le cas general, la mise en oeuvre de la methode des moments generalisee pour obtenir
un estimateur optimal presente un problème : la metrique optimale faire intervenir le paramètre
à estimer et est donc inconnue.
S
0
= V (g (z
i
,
0
))
1
Pour mettre cet estimateur en oeuvre on a recours à une methode en deux etapes :
Première etape : On utilise une metrique quelconque ne faisant pas intervenir le paramètre.
En fait on a interet à reechir et à chercher une matrice qui ne soit pas trop loin de la matrice
optimale. S
N
= I
dimg
est un choix possible mais certainement pas le meilleur. La mise en oeuvre
des GMM avec cette metrique permet dobtenir un estimateur convergent mais pas ecace

1
.
A partir de cet estimateur on peut determiner un estimateur de la matrice de variance des
V (g)
N
= g
_
z
i
,
1
_
g
_
z
i
,
1
_
P
V (g (z
i
,
0
))
12.6. Application aux Variables Instrumentales 181
ainsi que
G =
g
_
z
i
,
1
_
P
E (
g (z
i
,
0
))
On peut dès lors determiner un estimateur de la matrice de variance asymptotique de ce premier
estimateur
V
as
_
1
_
N
=
_
S
N

G
_
1
S
N
V (g)
N
S
N

G
_
S
N

G
_
1
Deuxième etape : On met à nouveau en oeuvre lestimateur des GMM avec la metrique S
N
=
V (g)
1
N
. On obtient ainsi un estimateur convergent et asymptotiquement ecace dont on peut
estimer la matrice de variance asymptotique
V
as
_
_
N
=
_
N

G
_
1
12.6 Application aux Variables Instrumentales
12.6.1 Variables instrumentales dans un système dequations - cas general
On considère le cas dun système dequations avec variables instrumentales
g (z
i
, ) = Z
i
_
y
i
x
i
_
= Z
i
y
i
Z
i
x
i
(i) Verication des hypothèses de convergence des estimateurs GMM

H2 E
_
Z
i
y
i
_
E
_
Z
i
x
i
_
= 0 admet une unique solution si limrangE
_
Z
i
x
i
_
= dim. Il
sagit l` a dune simple generalisation de la condition dej` a vue dans le cadre univarie.
H3 est satisfaite du fait de la linearite.
H4 et H5 sont satisfaites si E
_
_
sup
i
y
i
+ sup
i
x
i
_
2
_
< +, cest à dire si les moments
de Z
i
, x
i
et y
i
existent jusquà un ordfre susant.
H6
g (z
i
,
0
) = Z
i
x
i
. Si E
_
Z
i
x
i
_
est de rang dim G = E (
g (z
i
,
0
)) = E
_
Z
i
x
i
_
est de rang dim
(ii) Expression de la matrice de variance des conditions dorthogonalite :
La variance des conditions dorthogonalite secrit :
V (g (z
i
,
0
)) = E
_
Z
i
_
y
i
x
i
0
__
y
i
x
i
0
_
Z
i
_
= E
_
Z
i
u
i
u
i
Z
i
_
Cette expression est très proche de celle vue dans le cadre des variables instrumentales. Neanmoins,
comme on le voit elle fait en general intervenir le paramètre . Il est donc souvent necessaire de
mettre en oeuvre une methode en deux etapes.
182
(iii) Mise en oeuvre de lestimation
Première etape : Il faut choisir une metrique pour lestimateur de première etape. La metrique
optimale est linverse de la matrice de variance des conditions dorthogonalite. Elle a lexpression
donnee precedemment. On a interet à choisir pour metrique de première etape une metrique qui
soit proche de la metrique optimale. Pour cela on peut choisir pour metrique ce quaurait ete
la metrique optimale en presence dhypothèses de regularite supplementaires. Une hypothèse de
regularite importante pourrait etre lhomoscedasticite
E
_
u
i
u
i
[Z
i
_
= E
_
u
i
u
i
_
Qui pourra etre utilisee si
E
_
u
i
u
i
_
=
2
D
o` u D est une matrice donnee. Par exemple D = I
M
, ce qui correspondrait à lhypothèse que les
residus des equations sont independants et equidistribues. On utiliserait alors pour metrique de
première etape
S
N
= Z
i
DZ
i
On peut se trouver dans des situations ou spontanement la matrice de variance des residus aurait
une allure dierente. Cest en particulier le cas parfois dans le cas de leconometrie des donnees
de panel. Quel que soit le choix eectue, lestimateur de première etape a pour expression :
S
=
_
x
i
Z
i
S
N
Z
i
x
i
_
1
x
i
Z
i
S
N
Z
i
y
i
La matrice de variance des conditions dorthogonalite peut etre alors etre estimee par
V (g) = Z
i
_
y
i
x
i
S
__
y
i
x
i
S
_
Z
i
= Z
i
u
i
u
i
Z
i
A partir de cette estimation, on peut aussi estimer la variance de lestimateur de première etape :
V
_
(S)
_
=
_
x
i
Z
i
S
N
Z
i
x
i
_
1
Z
i
x
i
S
N
V (g) S
N
x
i
Z
i
_
Z
i
x
i
S
N
Z
i
x
i
_
1
ainsi que lestimateur optimal :
S
=
_
x
i
Z
i
V (g)
1
Z
i
x
i
_
1
x
i
Z
i
V (g)
1
Z
i
y
i
et sa variance asymptotique :
V
as
_
S
_
=
_
x
i
Z
i
V (g)
1
Z
i
x
i
_
1
12.6.2 Regressions à variables instrumentales dans un système homoscedastique
On a vu que dans le cas de M regressions empilees homoscedastiques, lorsque les regresseurs
etaient les memes et quil nexistait pas de restrictions sur les paramètres, la mise en oeuvre
de la methode des MCQG conduit aux memes estimateurs que ceux obtenus par les moindres
carres ordinaires equation par equation. On peut voir que ce resultat se generalise au cas des
variables instrumentales dans un système dequation.
Si les regresseurs sont les memes, si il nexiste pas de contraintes entre les paramètres
des equations (x
i
= I
M
x
i
) , et si les instruments sont les memes dune equation à lautre
(Z
i
= I
M
z
i
), dans le cas dhomoscedasticite des perturbations : E (u
i
u
i
[Z
i
) = , lestima-
teur GMM optimal est identique à lestimateur à variables instrumentales equation par equation.
Sous lhypothèse dhomoscedasticite, la matrice de variance des conditions dorthogonalite a
pour expression E
_
Z
i
Z
i
_
= E
_
z
i
z
i
_
. (Rappel : pour des matrices aux tailles appro-
priees (AB) (C D) = AC BD). On a donc Z
i
= ( 1) (I
M
z
i
) = z
i
. Do` u
Z
i
Z
i
=
_
I
M
z
i
_
( z
i
) = z
i
z
i
. On a donc
x
i
Z
i
S
i
x
i
=
_
I
M
x
i
z
i
__
E
_
z
i
z
i
__
1
_
I
M
z
i
x
i
_
=
1
_
x
i
z
i
E
_
z
i
z
i
_
1
z
i
x
i
_
et
x
i
Z
i
S
i
y
i
=
_
I
M
x
i
z
i
__
E
_
z
i
z
i
__
1 _
I
M
z
i
_
y
i
=
_
_
x
i
z
i
E
_
z
i
z
i
_
1
__
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
puisque
_
I
M
z
i
_
y
i
=
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
. Lestimateur optimal a donc pour expression
S
=
_
x
i
z
i
E
_
z
i
z
i
_
1
z
i
x
i
_
1
_
x
i
z
i
E
_
z
i
z
i
_
1
_
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
= I
M
x
i
z
i
_
E
_
z
i
z
i
__
1
_
_
z
i
y
1i
.
.
.
z
i
y
Mi
_
_
=
_
b
2mc1
.
.
.
b
2mcM
_
_
On voit que dans ce cas, lestimateur optimal est identique à lestimateur des doubles moindres carres
eectue equation par equation. Il ny a donc pas non plus dans ce cas de methode en deux etapes
à mettre en oeuvre. La matrice de variance des paramètres a pour expression
V
_
_
=
_
E
_
x
i
z
i
_
E
_
z
i
z
i
_
1
E
_
z
i
x
i
_
_
1
on voit donc que les estimateurs ne sont pas independants les uns des autres dès que la matrice
de variance nest pas diagonale.
12.6.3 Application aux donnees de panel
Le cas des variables instrumentales dans un système dequation correspond aussi donnees de
panel. On a vu dans la première section Les dierents types de specication que lon pouvait
retenir. On a examine le cas de lexogeneite forte, des eets correles et de lexogeneite faible.
Dans ce dernier cas, on a vu que le modèle etait mis en dierence première et que lon utilisait les
184
variables explicatives retardees à partir de lordre 2 comme instrument. On a ainsi la specication
matricielle suivante :
Z
i
u
i
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
1i
0 0
0 x
1i
0
x
2i
x
1i
0 x
2i
x
3i
.
.
. 0
.
.
.
0 0 0
x
1i
.
.
.
x
T2i
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
u
3i
u
4i
u
5i
.
.
.
u
Ti
_
_
_
_
_
_
_
_
De meme pour les eets correles, on a
Z
i
u
i
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
i
0 0
0 x
i
0
0 x
i
0
.
.
.
.
.
.
0 0 0
0
x
i
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
u
2i
u
4i
u
5i
.
.
.
u
Ti
_
_
_
_
_
_
_
_
et enn pour lexogeneite forte on a
_
Z
i
_
u
1i
u
i
__
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
i
0 0
0 x
i
0
0 x
i
0
.
.
.
.
.
.
0 0 0
0
x
i
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
u
1i
u
2i
u
4i
u
5i
.
.
.
u
Ti
_
_
_
_
_
_
_
_
_
_
Pour mettre en oeuvre lestimateur optimal on applique la methode exposee precedemment.
On peut remarquer que dans le cas de lexogeneite faible et des eets correles, la structure
des conditions dorthogonalite est telle quelle ne fait intervenir que la dierence première des
residus. Ceci est à lorigine dune possibilite dun choix judicieux de la matrice de variance de
première etape. En eet, sous lhypothèse dhomoscedasticite des residus On aurait
E
_
Z
i
u
i
u
i
Z
i
_
= E
_
Z
i
E
_
u
i
u
i
_
Z
i
_
Or E (u
i
u
i
) =
2
D, o` u
D =
_
_
_
_
_
_
2 1 0
1
.
.
.
.
.
.
.
.
.
.
.
.
1
0 1 2
_
_
_
_
_
_
ne depend pas des paramètres. On va que dans ce cas on peut choisir comme matrice de première
etape une matrice approximant à lhypothèse dhomoscedasticite pres la matrice de variance des
conditions dorthogonalite. La matrice S
1
a ainsi pour expression
S
1
= Z
i
DZ
i
12.6.4 Estimateur VI optimal dans le cas univarie et heteroscedastique
On considère la situation dun modèle lineaire univarie
y
i
= x
i
+u
i
avec un ensemble dinstruments z
i
. Les conditions dorthogonalite sont donc
E
_
z
i
(y
i
x
i
)
_
= 0
Les resultats du chapitre precedent montre que dans le cas univarie homoscedastique, i.e.
E
_
u
2
i
[z
i
_
= E
_
u
2
i
_
, lestimateur GMM optimal concide avec lestimateur des 2mc. On examine
la situation dans laquelle il ny a plus homoscedasticite. La matrice de variance des conditions
dorthogonalite est donnee par
V (g) = E
_
(y
i
x
i
0
)
2
z
i
z
i
_
= E
_
u
2
i
z
i
z
i
_
et lestimateur optimal a pour expression
S
=
_
x
i
z
i
V (g)
1
z
i
x
i
_
1
x
i
z
i
V (g)
1
z
i
y
i
on voit quil est dierent de lestimateur des 2mc dont lexpression est
2mc
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
y
i
L` a aussi il faut mettre en oeuvre la methode en deux etapes. Un bon choix dans ce cas est
lestimateur des 2mc, qui est certainement proche de lestimateur optimal. On peut alors calculer
un estimateur de la matrice de variance des conditions dorthogonalite :
V (g) = u
2
2mci
z
i
z
i
puis determiner lestimateur optimal,
S
=
_
x
i
z
i
u
2
2mci
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
u
2
2mci
z
i
z
i
1
z
i
y
i
ainsi que les matrice de variance de chacun des estimateurs :
V
as
_
2mc
_
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
u
2
i
z
i
z
i
z
i
z
i
1
x
i
z
i
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
pour lestimateur des doubles moindres carres, et
V
as
_
_
=
_
x
i
z
i
u
2
i
z
i
z
i
1
z
i
x
i
_
1
pour lestimateur optimal.
186
12.7 Test de specication
12.7.1 Test de suridentication
Comme pour les variables instrumentales, dans le cas o` u il y a plus de conditions dorthogo-
nalite que de paramètres à estimer, le modèle impose des restrictions aux donnees. Elles doivent
verier la propriete :
[ E (g (z
i
, )) = 0
Tous les estimateurs obtenus avec dierentes metriques doivent converger vers une meme
valeur. Le principe est ici analogue à celui des variables instrumentales. La suridentication
exprime la meme idee quà la limite lestimateur ne depend pas de limportance que lon ac-
corde à telle condition dorthogonalite, tout comme le test de specication avec les variables
instrumentales exprimait quà la limite lestimateur ne depend pas de telle variable instrumen-
tale. Il ne sagit en fait que dune generalisation valable pour des cas dans lesquels les conditions
dorthogonalite prennent une forme dierente de celle du produit dun residu et dun instrument.
Le principe du test reste le meme que celui que lon appliquerait pour tester la nullite
de lesperance dune variable aleatoire : regarder si la moyenne empirique est proche de zero
g (z
i
,
0
) est proche de 0, mais on ne connat pas
0
. Plus precisement : on regarde si g
i
=
g
_
z
i
,
_
est proche de 0, cest à dire si la contrepartie empirique des conditions dorthogonalite
evaluee avec lestimateur optimal est proche de zero.
Le resultat general sapplique
N g
i
V
as
_
g
i
_
g
i

2
_
limrangV
_
g
i
__
Pour eectuer le test il faut donc determiner le rang de V
as
_
g
i
_
ainsi quun inverse generalise et
un estimateur convergent de cet inverse. Pour ce qui est du rang, on retrouve la meme idee que
pour les variables instrumentales : on teste la suridentication, cest à dire la compatibilite du
surcrot dinformation introduit dans le modèle par rapport au minimum requis pour estimer le
paramètre. Le rang va donc etre la dierence entre le nombre de conditions dorthogonalite et
la dimension du paramètre à estimer.
Proposition 12.3 Sous H
0
: [ E (g (z
i
, )) = 0, on a
NQ
N
(
) = N g
i
N
g
i
L
2
(dim(g) dim())
o` u g
i
= g
_
z
i
,
_
et S
N
=

V (g (z
i
,
0
))
1
= g
_
z
i
,
_
g
_
z
i
,
_
1
. On remarque que la statis-
tique utilisee pour le test est N fois la valeur de lobjectif ` a loptimum.
Demonstration Comme
N g
i

Ng
i
0
+G
N
_
0
_
et
N
_
0
_

_
G
S
N
G
_
1
G
Ng
i
0
on a
N g
i

_
I
dimg
G
_
G
G
_
1
G
Ng
i
0
= (I
dimg
P
G
)
Ng
i
0
12.7. Test de specication 187
avec P
G
= G
_
G
G
_
1
G
. P
2
G
= P
G
. P
G
est donc un projecteur dont le rang est celui de G, i.e. dim par
hypothèse. Comme en outre P
G
S
1
P
G
= P
G
S
1
, et V
as
(g
i
0
) = S
1
, on a
V
as
_
g
i
_
= (I
dimg
P
G
) S
1
(I P
G
)
= (I
dimg
P
G
) S
1
On en deduit immediatement le rang de V
as
_
g
i
_
:
limrangV
_
g
i
_
= dimg dim
et un inverse generalise :
V
as
_
g
i
_
S
V
as
_
g
i
_
= (I
dimg
P
G
) S
1
S
(I
dimg
P
G
) S
1
= (I
dimg
P
G
)
2
S
1
= (I
dimg
P
G
) S
1
= V
as
_
g
i
_
do` u
S
= V
as
_
g
i
_
Estimation convergente de linverse generalisee : Comme la matrice g (z

i
, ) g (z
i
, )
est une fonction continue de

convergent uniformement vers E
_
g (z
i
, ) g (z
i
, )
_
, S
N
= g
_
z
i
,
_
g
_
z
i
,
_
converge vers S
12.7.2 Tester la compatibilite de conditions dorthogonalite additionnelles

On peut etre amener à vouloir adjoindre à un ensemble de conditions dorthogonalite des
conditions additionnelles. Cette adjonction peut en eet conduire à des estimations plus precises.
Lexemple le plus manifeste est celui dans lequel on adjoint à une liste de variables instrumen-
tales supposees verier les conditions dorthogonalite, des conditions dorthogonalite formees en
utilisant les variables explicatives comme instrument. Dans le cas homoscedastique on avait dej` a
envisage ce type de test que lon avait appele test dexogeneite. Cette notion peut en fait se
generaliser.
Proposition 12.4 On sinteresse au test de lhypothèse nulle
H
0
:
0
tq E (g
1
(z
i
,
0
)) = 0 et E (g
2
(z
i
,
0
)) = 0
soit

0
tq E (g (z
i
,
0
)) = 0
o` u g
= (g
1
, g
2
) contre lhypothèse alternative
H
1
:
0
tq E (g
1
(z
i
,
0
)) = 0
Sous H
0
la statistique
S = Ng
_
z
i
,
V (g (z
i
,
0
))
1
g
_
z
i
,
_
Ng
1
_
z
i
,
1
_
V (g
1
(z
i
,
0
))
1
g
1
_
z
i
,
1
_
= Q
0
N
_
_
Q
1
N
_
1
_
2
(dimg dimg
1
)
o` u

est lestimateur GMM optimal sous H

0
et Q
0
N
_
_
= Ng
_
z
i
,
V (g (z
i
,
0
))
1
g
_
z
i
,
_
la valeur atteinte par lobjectif ` a loptimum sous H
0
, et

1
lestimateur GMM optimal sous H
1
188
et Q
1
N
_
1
_
= Ng
_
z
i
,
1
_
V (g
1
(z
i
,
0
))
1
g
_
z
i
,
1
_
la valeur atteinte par lobjectif ` a loptimum
sous H
1
.
Le test deni par la region critique
_
S > q
1
_
2
(dimg dimg
1
)
_
_
est un test convergent
au niveau .
Ce type de test est proche des tests du rapport des maxima de vraisemblance. On pourrait
en donner des equivalents correspondants au test de Hausman ou au test du multiplicateur de
Lagrange.
12.7.3 Application test de suridentication et dexogeneite pour un estima-
teur à variables instrumentales dans le cas univarie et heteroscedastique
(i) Test de suridentication
Le test est eectue sur la contrepartie empirique des conditions dorthogonalite evaluees en
=

, lestimateur optimal. On calcule donc :

z
i
_
y
i
x
i
_
= z
i
u
i
et sa norme
z
i
u
i
u
i
2
z
i
z
i
1
z
i
u
i
o` u u
i
= y
i
x
i
1
est le residu de lequation estime à partir dune première etape
Corollaire Sous lhypothèse nulle, H
0
: [ E
_
z
i
(y
i
x
i
)
_
= 0, la statistique
= Nz
i
u
i
u
i
2
z
i
z
i
1
z
i
u
i

2
(dimz dimx)
On rejettera lhypothèse nulle si

S
est trop grand, i.e. pour un test au niveau

S
>
Q
_
1 ,
2
(dimz dimx)
_
. On voit que lexpression de la statistique est très proche de celle
vue precedemment dans le cas homoscedastique mais neanmoins dierente car : elle nest pas
basee sur le meme estimateur, elle na pas exactement la meme expression, faisant intervenir
u
i
2
z
i
z
i
1
et non z
i
z
i
1
_
u
i
2
, ce qui est une consequence directe de labandon de lhypothèse
dhomoscedasticite et enn quelle ne peut plus etre mise en oeuvre de fa con aussi directe et
simple que precedemment par le biais de la regression des residus estimes sur les variables
instrumentales.
(ii) Test dexogeneite des variables explicatives.
Lhypothèse nulle secrit
H
0
: b
0
tq E
_
z
i
(y
i
x
i
b
0
)
_
= 0 et E
_
x
1i
(y
i
x
i
b
0
)
_
= 0
et lhypothèse alternative
H
1
: b
0
tq E
_
z
i
(y
i
x
i
b
0
)
_
= 0
o` u x
1i
represente les variables endogènes. On lui associe

b
0
lestimateur GMM base sur len-
semble les conditions dorthogonalite de H
0
ainsi que la valeur

S
0
atteinte par lobjectif à
12.7. Test de specication 189
loptimum. Dans la mesure o` u on ne fait plus lhypothèse dhomoscedasticite, cet estimateur
nest pas necessairement lestimateur des mco : les conditions dorthogonalite portant sur les
variables instrumentales exterieures peuvent apporter une information ne se trouvant pas dans
les conditions dorthogonalite fondees sur les seules variables explicatives. On considère aussi
1
lestimateur GMM base sur les conditions dorthogonalite sous H1 ainsi que la valeur

S
1
atteinte
par lobjectif à loptimum. Le resultat stipule que la statistique
S
0

S
1

2
(K
1
)
o` u K
1
est le nombre de variables explicatives endogènes.
12.7.4 Application aux donnees de panel
On peut appliquer ces resultats à leconometrie des donnees de panel. On a vu en eet que les
specications que lon etait susceptible de retenir etaient embotees. Il est ainsi possible desti-
mer le modèle avec lensemble dinformation minimal, cest à dire avec la specication exogeneite
faible. On obtient alors des estimateurs robustes à de nombreuses sources de correlations entre
variables explicatives et perturbations. En revanche, les estimateurs nincluant que peu de res-
trictions ont de grandes chances detre imprecis. On peut donc chercher à ameliorer leur precision
en faisant des hypothèses restrictives supplementaires comme lhypothèse deets correles. On
peu tester les hypothèses restrictives supplementaires par la methode que lon vient de detailler.
Ici elle prendra la forme suivante :
1. Estimation du modèle sous la specication exogeneite faible : On retient la valeur de
lobjectif à loptimum : V
f
=
_
_
_Z
fi
u
f
i
_
_
_
2
S
f
, o` u S
f
est la metrique optimale pour cette
specication.
2. Sous lhypothèse nulle que la specication est adaptee, la statistique V
f
suit un
2
dont le
nombre de degres de liberte d est la dierence entre le nombre de conditions dorthogonalite
et le nombre de paramètres à estimer. On peut donc calculer la p-value associee à la
statistique de test
_
1 F
1
(V
f
, d)
_
et on accepte lhypothèse nulle si la p-value excède
la valeur seuil retenue. Si on rejette lhypothèse nulle, il faut reechir à une specication
alternative. Si en revanche lhypothèse nulle est acceptee, on peut tester si des contraintes
additionnelles sont compatibles avec celles dores et dej` a retenues.
3. Estimation du modèle sous la specication deets correles : On retient la valeur de lob-
jectif à loptimum : V
C
=
_
_
Z
Ci
u
C
i
_
_
2
S
C
,
4. On forme la dierence V
C
V
f
qui suit sous lhypothèse nulle de compatibilite des condi-
tions dorthogonalite additionnelles un
2
dont le nombre de degres de liberte est la
dierence entre les nombre de conditions dorthogonalite dans les deux specications. On
calcule la p-value de cette statistique et on accepte lhypothèse nulle si la p-value excède
le seuil retenu.
5. Si on rejette lhypothèse on conserve lestimateur avec exogeneite faible, sinon on peut
estimer le modèle avec lhypothèse dexogeneite forte. On retient la valeur de lobjectif à
loptimum : V
F
=
_
_
Z
Fi
u
F
i
_
_
2
S
F
,
6. On procède comme au 3 et 4 en comparant les valeurs atteintes à loptimum. On peut
remarquer quil est possible de tester lhypothèse de compatibilite avec soit les conditions
190
de lexogeneite faible soit celles des eets correles. Si ceci naecte pas la puissance du test,
il nen est pas de meme avec le risque de première espèce.
12.8 Illustrations
12.8.1 Reduction du temps de travail et gains de productivite
On reprend lillustration du chapitre precedent et on montre comment les resultats sont mo-
dies. Par la mise en oeuvre de la methode des moments generalisee. On rappelle que lequation
que lon estime secrit :
PGF
i
= X
i
b +RTT
i
+v
i
o` u v
i
represente le choc de productivite residuel, cest à dire une fois pris en compte les facteurs
X
i
.
Les variables instrumentales retenues sont : Aide
i
, Inf
i
, Endt
i
et Pf
i
. Linteret de la mise
en oeuvre de la methode des moments generalise est de pouvoir traiter le cas dune possible (et
vraisemblable) heteroscedasticite du residu.
On ne presente pas la condition de rang qui est la meme que dans le cas precedent (tableau
11.2 du chapitre precedent). On ne presente pas de tableau de resultat mais seulement certains
dentre eux. Lestimateur à variable instrumentale usuel sert destimateur de première etape.
Il est identique à celui du chapitre precedent : le coecient de la variable de RTT est -0.107
et son ecart-type est de 0.032, calcule avec la methode standard. On peut aussi calculer cet
ecart-type sans faire lhypothèse dhomoscedasticite comme on la explique plus haut. On voit
quil ny a pas de dierence dans le calcul de cet ecart-type : On trouve à nouveau 0.032. Le
biais lie à la presence dheteroscedasticite dans lestimation des ecarts-type de lestimateur à
variables instrumentales est très faible dans le cas present. On peut aussi calculer lestimateur
GMM optimal et son ecart-type. L` a aussi on ne trouve pas de dierence les coecients estimes
sont les meme et lecart-type egalement. La seule dierence notable entre les deux estimations
reside en fait dans la statistique de Sargan : elle est plus faible lorsque lon prend en compte
lheteroscedasticite. La statistique avec lestimateur standard (base sur la regression du residus
sur toutes les variables exogènes) donne une statistique de 7.57 soit une p-value de 5.6% pour un
2
(3) . Avec lestimateur optimal elle est de 6.58 soit une p-value de 8.7% : on accepte beaucoup
plus facilement lhypothèse de compatibilite des instruments. On peut aussi mettre en oeuvre le
test dexogeneite. Avec la methode du chapitre precedent, sous hypothèse dhomoscedasticite,
on procedait à une regression augmentee. Ici on fait une regression par VI par la methode des
GMM en incluant la variable de RTT dans la liste des instruments. On sinteresse dabord au
test de compatibilite des instruments Cette hypothèse est très fortement rejetee la statistique
est de 11.53 pour 4 degres de liberte soit une p-value très faible de 2%. La statistique du test
dexogneite est la dierence entre les deux statistiques de suridentication de la regression GMM
avec et sans la variable de RTT. On trouve une statistique de 11.53-6.58=4.95 la aussi fortement
rejete pour un degres de liberte de 1 (4-1).
12.8.2 Salaires et heures
On peut aussi aborder la question de la relation entre productivite et heures en examinant un
equation de salaire sur des donnees de salarie. En eet, sous lhypothèse que la remuneration est
Fig.12.1 R egression par les MCO
parametres std robuste std sandards
Constante 3.8236 (0.1138) (0.0803)
scolarit 0.0541 (0.0030) (0.0026)
exprience 0.0197 (0.0012) (0.0011)
(exprience-10) -0.0004 (0.0001) (0.0000)
heures (log) 1.1422 (0.0315) (0.0210)
egale à la productivite marginale le salaire peut etre utilise comme une mesure de la productivite
marginale. On peut donc considerer lequation
w
i
= h
i
+x
i
b +u
i
(12.1)
o` u w
i
represente le logarithme du salaire et h
i
le logarithme des heures. Les variable x
i
sont
celles qui aectent le niveau de productivite et donc les variables de capital humain : niveau
deducation et experience. Neanmoins dans cette regression la variable dheure est, elle aussi,
endogène. Le salaire et le nombre dheure reètent egalement un choix du salarie qui arbitre
entre remuneration et loisir. Parmi toutes les ores demploi qua re cu lindividu, celle que lon
observe est celle qui est preferee (on naborde pas ici la question pourtant centrale du choix entre
emploi et non emploi qui sera traitee dans le chapitre suivant). Pour la remuneration proposee les
agents sont prets à travailler un certain nombre dheures qui leur est propre. Dans les preferences
des salaries interviennent les caracteristiques familiales : nombre denfants, revenus alternatifs
(conjoint, autres membres du menage), celibataire... Ces variables sont susceptibles de jouer le
role de variables instrumentales dans la regression 12.1.
On considère un echantillon de femmes employees dans le commerce. On se restreint à la
population feminine car cest sur elle que les variables instrumentales retenues ont le plus de
chance de jouer fortement. Lechantillon retenu provient de lEnquete Emploi faite par lINSEE et
comprend 3192 individus. Le tableau 12.1 presente les resultats de la regression par les moindres
carres ordinaires. La première colonne presente le paramètre, la seconde lecart-type robuste
et la dernière lecart-type obtenu avec la formule standard. Linteret principal de ce tableau
est de fournir la valeur du coecient des heures, qui selève ici à 1.14. Ceci signie quune
augmentation des heures de 1% conduit à une hausse du salaire (et donc de la productivite de
1,14%). Le coecient est signicativement dierent de 1, ce qui implique quil y a de legers gains
de productivite horaire lorsque les heures augmentent.
Le tableau 12.2 presente la regression de la variable explicative endogène, le logarithme
des heures, sur les variables explicatives exogènes : le nombre dannee detude, lexperience et
lexperience au carre et les variables instrumentales : le nombre denfant, lexistence de revenus
alternatifs dans le foyer (salaire du conjoint, allocations chomage), le logarithme de ce revenu le
cas echeant (zero sinon), le nombre de revenus salaries dans le menage et une indicatrice indi-
quant si lindividu vit seule ou non. Le tableau donne le coecient estime, son ecart-type et son
ecart-type robuste. On examine lapport des dierentes variables instrumentales à lexplication
de la variable endogène. On observe comme on sy attend que plus le nombre denfants est eleve,
plus lincitation à travailler est faible. On observe aussi que le fait detre celibataire conduit à
des heures plus elevees. Leet du salaire annexe sur les heures est en revanche non signicatif,
bien que positif.
192
Fig.12.2 R egression de la variable dheure sur les exog` enes et les instruments
Constante 3.3186 (0.0380) (0.0360)
scolarit 0.0102 (0.0022) (0.0021)
exprience 0.0045 (0.0010) (0.0010)
(exprience-10) -0.0002 (0.0000) (0.0000)
nombre d'enfants -0.0568 (0.0070) (0.0061)
vit seule 0.0609 (0.0167) (0.0164)
revenu alternatif 0.0026 (0.0015) (0.0015)
Fig.12.3 R egression par les variables instrumentales
Constante 2.5613 (0.4393) (0.3891)
scolarit 0.0494 (0.0034) (0.0031)
exprience 0.0193 (0.0013) (0.0011)
(exprience-10) -0.0004 (0.0001) (0.0001)
heures (log) 1.5252 (0.1312) (0.1173)
Le tableau 12.3 presente les resultats de lestimation du modèle par les variables instrumen-
tale, en ignorant lheteroscedasticite dans la determination de lestimateur. Lexpression de les-
timateur est donc
b
IV
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
z
i
y
i
. La deuxième colonne presente lecart-
type robuste et la dernière lecart-type obtenu avec la formule valable pour lhomoscedasticite du
residu. Les matrices de variance correspondantes secrivent

V
homo
_
b
IV
_
=
2
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
et

V
hetero
_
b
IV
_
=
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
x
i
z
i
z
i
z
i
1
u
2
i
z
i
z
i
z
i
z
i
1
z
i
x
i
_
x
i
z
i
z
i
z
i
1
z
i
x
i
_
1
. On ob-
serve que la variable dheure est sensiblement plus eleve que dans la regression par les mco. Alors
que la regression par les mco donne un coecient de 1.14, le chire obtenu ici est nettement
plus eleve puisquil selève à 1.52. Cela signie que lorsque lallongement du temps de travail
saccompagne de gains de productivite horaire important : une augmentation de 1% des heures
conduit à une augmentation des remunerations de 1.5%. On peut noter que ce coecient nest
pas eloigne de celui trouve dans lapproche par les fonctions de production lorsque lon nutili-
sait pas la variable Robien, comme instrument. On remarque aussi que le coecient est l` a aussi
statistiquement dierent de 1 mais que lecart-type estime est quatre fois plus important que
celui des moindres carres ordinaires. On remarque quil existe des dierences liees à la prise en
compte de lheteroscedasticite mais quelles ne sont pas phenomenales.
Le tableau 12.4 presente les resultats obtenus par la methode des moments generalisee. Les-
timateur est donc
b
IV
=
_
x
i
z
i
i
x
i
_
1
x
i
z
i
i
y
i
, avec
= E
_
u
2
i
z
i
z
i
_
1
et

= u
2
i
z
i
z
i
1
, o` u
u
i
est le residu estime obtenu à partir dune première etape utilisant une matrice de ponderation
quelconque. Le choix naturel qui est celui qui a ete eectue ici consiste à se baser sur lestimateur
par variable instrumentale. On voit que les changements sont modestes par rapport au tableau
precedent. Cest une bonne nouvelle à priori. Si entre la première et la deuxième etape, il y
avait des changements importants, cela signierait que vraisemblablement les conditions dor-
thogonalite ne sont pas compatibles entre elles. Ici le fait que les resultats soient très proches
signie aussi peut etre que lheteroscedasticite nest pas un phenomène de premier ordre. Le
coecient auquel on parvient est de 1.51 et on observe quil nest pas beaucoup plus precis que
lestimateur precedent. Dans le cas present, les gains lies à lutilisation de lestimateur GMM
Fig.12.4 R egression par la m ethode des moments g en eralis ee
parametres std robuste
Constante 2.6139 (0.4373)
scolarit 0.0498 (0.0034)
exprience 0.0195 (0.0013)
(exprience-10) -0.0004 (0.0001)
heures (log) 1.5081 (0.1305)
Fig.12.5 Tests de sp ecification
Test Statistique degrs pvalue
Suridentification 2.522 2.000 0.283
Exognit 8.650 1.000 0.003
Suridentification 2.805 2.000 0.246
Exognit 1.128
(0.021)
GMM
VI
sont assez faibles.
Enn, on peut examiner la question de la specication, en procedant aux tests de suri-
dentication et dexogeneite. Les tests ont la meme interpretation que dans le cas variables
instrumentales, mais la mise en oeuvre est dierente. Les tests dans le cas homoscedastiques,
sont eectues à partir de regressions auxiliaires : regression du residu estime sur les instruments
et test de la nullite globale des coecients pour le test de suridentication et regression etendue
dans laquelle on introduit en plus des variables explicatives la prevision des variables endogènes
par les instruments et les variables exogènes. Dans le cas GMM, on na pas ce genre de simpli-
cation et les tests sont bases sur lobjectif atteint par lestimateur optimal : S = z
i
u
i
u
i
. Les
tests de suridentication compare la valeur obtenue de S à la valeur seuil pour un test de niveau
donne. Le test dexogeneite compare quant à lui la valeur S à la valeur S
e
, obtenue avec pour
ensemble dinstruments z, x
end
. La statistique de test S
e
S suit un
2
dont le nombre de degres
de liberte est le nombre de variables endogènes. On voit dans le tableau 12.5 que lhypothèse
de suridentication est acceptee mais pas celle dexogeneite. Il y a en outre l` a aussi peu de
dierence entre la methode à variables instrumentales et la methode des moments generalisee.
Les statistiques de suridentication sont très proches et les statistiques pour le test dexogeneite,
bien que non directement comparables, conduisent aux memes conclusions.
Enn le tableau 12.6 presente les resultats pour dierents secteurs. Les deux premières
colonnes donnent la valeur du paramètre et son ecart-type en utilisant pour instruments le
fait detre celibataire, le nombre denfants et le revenu alternatif. Les deux colonnes suivantes
presentent le test de Sargan et sa p-value. On presente le test dexogeneite. Ceci nest pas ef-
fectue pour les Industries Agricoles, le Transport et la Finance puisque dans ces secteurs, le test
de validite de suridentication conduit au rejet de lhypothèse de compatibilite des instruments.
On ne peut donc pas tester la compatibilite de restrictions identiantes supplementaires. Les
colonnes 7 et 8 presentent la valeur du paramètre estime en utilisant comme instruments les
trois variables retenues et la variable dheure. Enn les deux dernières colonnes presentent le
test de suridentication lorsque lon utilise tous ces instruments. On verie que la valeur de la
statistique est la somme des statistiques obtenus dans les colonnes (3) et (5). Ce que montre ce
194
Fig.12.6 R esultats Sectoriels
Par std S p S(e) p(e) Par std S p
Industries Agricoles 0.51 (0.67) 8.33 0.02
Biens de consommation 1.68 (0.71) 2.85 0.24 0.91 0.34 1.13 (0.09) 3.76 0.29
Automobiles et Equipements 0.79 (0.38) 4.13 0.13 2.01 0.16 1.22 (0.07) 6.15 0.10
Biens Intermdiaires 1.04 (0.26) 0.77 0.68 0.08 0.77 0.98 (0.05) 0.85 0.84
Commerce 1.51 (0.13) 2.52 0.28 8.65 0.00
Transport 1.92 (0.52) 2.42 0.30 2.76 0.10 1.19 (0.08) 5.18 0.16
Finance 1.20 (0.24) 6.02 0.05
Services Entreprises 1.23 (0.16) 10.09 0.01
Services Particuliers 2.69 (0.48) 0.14 0.93 82.10 0.00
Education Sant 1.18 (0.11) 4.76 0.09 18.02 0.00
Administration 1.30 (0.15) 3.13 0.21 4.87 0.03
tableau est que les instruments ne sont pas toujours consideres comme compatibles. Lorsquils
le sont les valeurs sont assez dierentes dun secteur à lautre, quoique toujours superieure à 1.
On voit aussi que les estimations sont peu precises et que lorsque lhypothèse dexogeneite est
acceptee, on obtient des gains decacite non negligeables.
12.9 Resume
Dans ce chapitre on a presente une methode destimation très generale, englobant la totalite
des methodes vues jusquà present. Elle permet aussi de considerer facilement des generalisations
utiles des situations envisagees jusquà present. En particulier elle permet de generaliser la
methode des variables instrumentales aux cas heteroscedastiques et au cas de systèmes dequations.
1. Cette methode est basee sur lexploitation de conditions dorthogonalite, qui sont des
fonctions des variables et des paramètres du modèle dont lesperance est nulle.
2. Le principe de la methode des moments generalisee consiste à choisir le paramètre de
telle sorte que la contrepartie empirique des conditions dorthogonalite soit le plus proche
possible de zero.
3. Lorsquil y a juste identication, cest à dire lorsque le nombre de paramètre à estimer
est le meme que le nombre de conditions dorthogonalite, on peut exactement annuler (en
general) les contreparties empiriques des conditions dorthogonalite.
4. Lorsquil y a plus de conditions dorthogonalite que de paramètres à estimer, on est dans
la situation dite de suridentication. On ne peut en general pas annuler directement la
contrepartie empirique des conditions dorthogonalite. On minimise alors la norme de ces
contreparties.
5. Les estimateurs auxquels on parvient sont sous certaines hypothèses de regularite conver-
gents et asymptotiquement normaux. La convergence ne depend pas de la metrique choisie
pour estimer mais la matrice de variance de lestimateur si.
6. Parmi tous les estimateurs envisageable, il en existe un plus precis que tous les autres :
cest lestimateur GMM optimal. Il est obtenu en utilisant pour metrique linverse de la
matrice de variance des conditions dorthogonalite.
7. La methode des moments generalisee permet comme la methode des variables instrumen-
tale de proceder à des tests de specication. Il est ainsi possible de tester la compatibilite
12.9. Resume 195
des conditions dorthogonalite entre elles (à linstar des tests de compatibilite des variables
instrumentales). Ce test est un test de compatibilite et pas un test de validite.
8. La methode permet aussi de tester la compatibilite dun ensemble de conditions dortho-
gonalite additionnel avec un ensemble de conditions dorthogonalite initial dont la validite
constitue lhypothèse alternative.
196
Chapitre 13
Variables dependantes limitees
On a examine jusquà present le cas de modèles lineaires pour lesquels la variable dependante
y
i
avait pour support . On examine dans ce chapitre trois types de modèles aux applications très
nombreuses et qui sont des extensions directes du modèle lineaire : Les modèles dichotomiques,
les modèles Tobit et le modèle Logit Multinomial
Modèle dichotomique : y
i
0, 1 . Par exemple : participation au marche du travail,
à un programme de formation, faillite dune entreprise, defaut de paiement, signature
dun accord de passage aux 35 heures etc.... Les informations dont on dispose dans les
enquetes sont souvent de cette nature : avez vous au cours de la periode du tant au
tant eectue telle ou telle action. On va presenter dix modèles très couramment utilises
pour modeliser ce type de situation : les modèles Logit et les modèles Probit et on va
insister sur la relation entre la modelisation statistique des variables prenant leurs valeurs
dans 0, 1 et la modelisation economique. Ceci va nous conduire à introduire la notion
importante de variable latente : une variable dont le support peut etre mais qui nest
quen partie observee. On est ainsi conduit à modeliser cette variable, ce qui correspond
à une modelisation economique (dans le cas de la faillite dune entreprise il peut sagir de
la valeur des prots futurs de lentreprise), et à modeliser aussi la fa con dont une censure
sopère dans les observations, ce qui peut resulter l` a aussi dun comportement economique
(dans le cas de la faillite il peut sagir du fait que la valeur de lentreprise passe sous un
certain seuil) mais aussi dune caracteristique statistique des donnees.
Le modèle logit Multinomial Modèle de choix discret comme par exemple le choix du
lieu de vacances (pas de vacances, montagne, mer, campagne) ou le choix du moyen de
transport domicile-travail (bus, auto, metro, à pied). Ces situations conduisent à des va-
riables prenant un nombre ni de modalites y
i
0, 1, 2, . . . , M . Le modèle que lon va
introduire est très utilise dans de nombreux domaines appliques. Il insiste lui aussi sur la
modelisation economique. Lidee generale est quà chaque modalite est associee une va-
leur dependant des preferences intrinsèques dun individu mais aussi de caracteristiques
economiques telles que les prix ou le revenu. Le choix selectionne par un individu est ce-
lui correspondant à la valorisation maximale. Ce type de modelisation, du à lorigine à
Mac Fadden, est très utilise dans la modelisation des systèmes de demande pour des biens
dierencies et intervient souvent en economie industrielle empirique.
Le Modèle Tobit est un modèle central dans lanalyse economique. Il correspond à la prise
en compte de selectivite dans les observations : le fait que lon observe un phenomène nest
197
198 Chapitre 13. Variables dependantes limitees
pas independant de ce phenomène. Pour lanalyser il faut donc modeliser le phenomène
et les conditions qui conduisent à son observation. Par exemple le salaire nest observe
que conditionnellement au fait que lindividu ait un emploi. On a alors deux variables
à modeliser : la variable de censure I
i
0, 1 indiquant si le salaire est observe ou
non et la variable de salaire w
i
lorsquil est observe. Cette modelisation fait comme le
modèle Probit appelle à des variables latentes. Il existe dierents types de modèles Tobit
qui correspondent à autant de situations economiques. Le classement de ces situations en
dierents types de modèles Tobit est du à Amemiya. Il y a ainsi des modèles Tobit de type
I, de type II, de type III, IV et V. On va voir dans ce chapitre les modèles de type I à III.
13.1 Modèle dichotomique
On souhaite expliquer une variable endogène y
i
prenant les valeurs 1 ou 0 en fonction de
variables explicatives exogènes x
i
,
Dune fa con generale on specie la probabilite dobserver y
i
= 1 conditionnellement aux
variables explicatives x
i
.
P (y
i
= 1 [x
i
) =

G(x
i
)
qui denit complètement la loi conditionnelle de y
i
sachant x
i
. Cette probabilite est aussi
lesperance conditionnelle de la variable y
i
:
E (y
i
[x
i
) =
y
i
{0,1}
y
i
_
1
(y
i
=1)
P (y
i
= 1 [x
i
) + 1
(y
i
=0)
(1 P (y
i
= 1 [x
i
))
= P (y
i
= 1 [x
i
) =

G(x
i
)
On specie en general cette fonction comme dependant dun indice lineaire en x
i
:
G(x
i
) = G(x
i
b)
Les dierentes solutions que lon peut apporter à la modelisation de la variable dichotomique y
i
correspondent à dierents choix pour la fonction G.
13.1.1 Modèle à probabilites lineaires
Cest la situation dans laquelle on specie simplement
E (y
i
[x
i
) = P (y
i
= 1 [x
i
) = x
i
b
Le modèle peut alors etre estime par les MCO.
En depit de sa simplicite attractive, ce choix de modelisation presente neanmoins lin-
convenient majeur que le modèle ne peut contraindre P (y
i
= 1 [x
i
) = x
i
b à appartenir à linter-
valle [0, 1]. Il y a donc une incoherence dans cette modelisation.
Un autre problème vient de lestimation. Compte tenu du fait que y
2
i
= y
i
, toute estimation
de modèle de choix discret par les moindres carres, lineaire dans le cas present ou non lineaire
dans le cas general, cest à dire basee sur la specication E (y
i
[x
i
) = G(x
i
b) , doit prendre en
compte le fait que le modèle de regression correspondant
y
i
= G(x
i
b) +u
i
13.1. Modèle dichotomique 199
est heteroscedastique. En eet on a :
V (y
i
[x
i
) = E
_
y
2
i
[x
i
_
E (y
i
[x
i
)
2
= E (y
i
[x
i
) E (y
i
[x
i
)
2
= E (y
i
[x
i
) [1 E (y
i
[x
i
)] = G(x
i
b) [1 G(x
i
b)]
Lestimateur des mco dans le cas lineaire a donc pour variance
V
as
_
b
mco
_
= E
_
x
i
x
i
_
1
E
_
u
2
i
x
i
x
i
_
E
_
x
i
x
i
_
1
que lon estime par la methode de White
V
as
_
b
mco
_
= x
i
x
i
1
u
2
i
x
i
x
i
x
i
x
i
1
On pourrait etre tente destimer plus directement cette matrice compte tenu de la forme de
lheteroscedasticite, ou meme à mettre en oeuvre lestimateur des MCQG puisque lon connat
lexpression de la matrice de variance des residus conditionnellement à x
i
: E
_
u
2
i
[x
i
_
= G(x
i
b) (1 G(x
i
b)) =
2
(x
i
b) . Par exemple pour lestimateur des MCQG
b
mcqg
= x
i
x
i
1
x
i
y
i
avec z
i
= z
i
__
2
_
x
i
b
mco
_
. Ceci est en pratique impossible avec le modèle de probabilite
lineaire puisquil nest pas exclu que x
i
b (1 x
i
b) soit negatif.
13.1.2 Les modèles probit et logit.
Il est preferable de faire un autre choix que lidentite pour la fonction G. On souhaite que
cette fonction soit croissante, quelle tende vers 1 en + et vers 0 en . En principe, la
fonction de repartition de nimporte quelle loi de probabilite pourrait convenir. En pratique les
modèles de choix discret sont species en utilisant deux fonctions de repartition :
, la fonction de repartition de la loi normale :
G(z) =
_
z
(t)dt = (z)
o` u (t) =
1
2
exp
_
1
2
t
2
_
. On a donc dans ce cas
P (y
i
[x
i
) = (x
i
b)
Un tel modèle est appele Modèle Probit.
F, la fonction logistique
F (z) =
1
1 + exp (z)
Dans ce cas
P (y
i
[x
i
) = F (x
i
b) =
1
1 + exp (x
i
b)
Un tel modèle est appele Modèle Logit
(i) Eet marginal dune variation dun regresseur continu x
Lun des avantages majeurs du modèle de probabilite lineaire est quune variation marginale
dun regresseur a un eet constant dans la population. Cette propriete simple et attractive
nexiste plus dans le cas des modèles probit ou logit. On peut neanmoins preciser leet dune
variable sur la probabilite conditionnelle dobserver levenement modelise. Comme E (y
i
[x
i
) =
G(x
i
b) , on a
E (y
i
[x
i
)
x
k
i
= G
(x
i
b) b
k
et lelasticite
LogE (y
i
[x
i
)
x
k
i
=
G
(x
i
b)
G(x
i
b)
b
k
Pour le modèle Probit on a ainsi :
E (y
i
[x
i
)
x
k
i
= (x
i
b) b
k
,
LogE (y
i
[x
i
)
x
k
i
=
(x
i
b)
(x
i
b)
b
k
et pour le modèle Logit
E (y
i
[x
i
)
x
k
i
= F (x
i
b) (1 F (x
i
b)) b
k
LogE (y
i
[x
i
)
x
k
i
= (1 F (x
i
b)) b
k
puisquon verie facilement F
= F (1 F) .
Leet marginal de laccroissement dun facteur depend donc du point o` u lon se situe. En
pratique on est amene à considerer une situation de reference qui peut etre un groupe dindividus
lorsque les variables explicatives sont elles memes des variables de categories, ou bien le point
moyen de lechantillon. Dans ce cas par exemple, on calculerait
E (y
i
[x
i
)
x
k
i
= G
(x
i
b) b
k
13.2 Variables latentes
La modelisation precedente est une modelisation statistique. Les modèles à variables dependantes
discrètes peuvent souvent etre introduits en rendant plus explicites les hypothèses economiques
sous-jacentes à la modelisation. Ceci est eectue par le biais de ce que lon appelle une variable
latente, cest à dire une variable inobservee mais qui determine complètement la realisation de
la variable indicatrice etudiee. Dans le cas present, on modelise la realisation de la variable
indicatrice etudiee par le biais dune variable :
y
i
= x
i
b +u
i
Dans cette modelisation on suppose que le residu intervenant dans lexpression de la variable
latente est independant des variables explicatives. La variable latente y
i
nest jamais observee
complètement mais elle est liee à la realisation de la variable dinteret par :
y
i
= 1 y
i
> 0 x
i
b +u
i
> 0
13.2. Variables latentes 201
Lorsque lon specie la loi du residu u
i
, on est capable de denir complètement la probabilite
P (y
i
= 1 [x
i
) . Si on suppose que le residu intervenant dans modelisation de la variable latente
est normal, on obtient le modèle Probit. Supposons u
i
N
_
0,
2
_
y
i
= 1 x
i
b
+
u
i
> 0
et v
i
= u
i
/ N (0, 1) . Les paramètres b sont identiables à un facteur multiplicatif pret. Si
on pose c = b/, on a
P (y
i
= 1 [x
i
) = P
_
x
i
b
+
u
i
> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= (x
i
c)
o` u on utilise le fait que la loi normale est symetrique, et que donc P (v > a) = P (v < a) .
Exemple 11 Decision de participer ` a un stage de formation. Ce stage represente un gain futur
G
i
pour lindividu, dont le capital humain aura augmente. Supposons que lon soit capable de
modeliser ce gain ` a partir de variables explicatives
G
i
= x
g
i
b
g
+u
g
i
La participation au stage comporte aussi un co ut ` a court-terme C
i
, incluant le fait quil faut
dabord apprendre, et donc fournir un eort, mais aussi souvent payer pour la formation et
subir des co uts indirects comme des co uts de transport. Supposons l` a encore que lon soit capable
de modeliser ce co ut
C
i
= x
c
i
b
c
+u
c
i
Le gain net pour lindividu est donc y
i
= G
i
C
i
.
y
i
= x
g
i
b
g
x
c
i
b
c
+u
g
i
u
c
i
= x
i
b +u
i
On peut modeliser la participation comme le fait que le gain net soit positif :
y
i
= 1 y
i
> 0 x
i
b +u
i
> 0
y
i
est alors la variable latente associee au modèle.
Le modèle logit est lui aussi compatible avec cette modelisation. On suppose alors que u
i
suit une loi logistique de variance . La variable u
i
/ suit alors une loi logistique de densite
f (x) = exp (x) / (1 + exp (x))
2
et de fonction de repartition F (x) = 1/ (1 + exp (x)) . Cette
densite est l` a encore symetrique en zero, et on aura
P (y
i
= 1 [x
i
) = P
_
x
i
b
+
u
i
> 0
_
= P (v
i
> x
i
c) = P (v
i
< x
i
c)
= F (x
i
c)
On pourrait considerer dautres cas comme par exemple le fait que la loi de u
i
suive une loi de
Student, on obtiendrait alors dautres expressions pour P (y
i
= 1 [x
i
) .
13.3 Estimation des modèles dichotomiques
Mis à part le modèle de probabilite lineaire qui sestime directement par les MCO, les modèles
dichotomiques sestiment par le maximum de vraisemblance. En eet la specication de la pro-
babilite conditionnelle conduit à specier entièrement la loi des observations. Compte tenu dune
modelisation conduisant à
P (y
i
= 1 [x
i
) = G(x
i
b)
avec G une fonction de repartition connue, de densite g. La probabilite dobserver y
i
pour un
individu peut secrire comme
P (y
i
[x
i
) = P (y
i
= 1 [x
i
)
y
i
[1 P (y
i
= 1 [x
i
)]
1y
i
= G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
La vraisemblance de lechantillon secrit donc
L(y [x) =
N
i=1
P (y
i
[x
i
) =
N
i=1
G(x
i
b)
y
i
[1 G(x
i
b)]
1y
i
compte tenu de lhypothèse dindependance. La log vraisemblance s
ecrit alors
log L
N
=
N
i=1
[y
i
log G(x
i
b) + (1 y
i
) log (1 G(x
i
b))]
Lorsque lon fait lhypothèse que les observations sont independantes, la maximisation de la
vraisemblance conduit à des estimations convergentes. On a vu en eet dans le chapitre precedent
que la methode du maximum de vraisemblance, basee sur la nullite de lesperance du score
E
log L(z
i
, )
= 0 =
0
est une methode de type GMM et que lon peut etudier les proprietes asymptotiques des es-
timateurs dans le cadre general de la convergence des estimateurs GMM. On rappelle ici les
principaux resultats de la methode des moments generalisee et leur transcription au cas et leur
transcription au cas du maximum de vraisemblance.
On considère un modèle dont la vraisemblance secrit L(z
i
, )
Proposition 13.1 Sous les hypothèses
1. H1 Lespace des paramètres est compact. La vraie valeur est
0
interieure ` a ,
2. H2 ,
0
tq L(z
i
,
0
) est la vraie densite des observations
3. H3 L(z
i
, ) est deux fois contin ument derivable en ,
4. H4 E
_
sup
[ log L(z
i
, )/ [ +sup
[ log L(z
i
, )/ [
2
+sup
2
log L(z
i
, )
_
_
<
,
5. H5 log L(z
i
, )/
k
a des moments nis dordre 1 et 2,
6. H6 Le Jacobien J = E
_
2
log L(z
i
,
0
)
_
_
de dimension dimdim est de limrang dim,
Alors lestimateur du maximum de vraisemblance

SN
maximisant Q
N
() = LogL(z
i
, ),
verie les proprietes :
13.3. Estimation des modèles dichotomiques 203
1.

S
P
0
convergence
2.
N
_
0
_
L
N
_
0, V
as
_
(S)
__
normalite asymptotique
3. V
as
_
S
_
= J
1
= I
1
o` u I = E [ log L(z
i
, )/ log L(z
i
, )/
]
4.

I = log L
_
z
i
,
__
log L
_
z
i
,
__
I et

J =
2
log L
_
z
i
,
__
J
Demonstration Il sagit dune transcription directe des resultats concernant la convergence de lestimateur de
la methode des moments generalisee au cas du score E
log L(z
i
,)
= 0, à quelques exception pres. On a vu

que si le modèle est bien specie, cest à dire si eectivement la densite des observations peut etre paramètree
par le modèle utilise, alors la vraisemblance est maximale pour la vraie valeur des paramètres. Cest le sens
de la condition HMV 2 analogue de la condition H2 de la methode des moments generalisee. Par rapport à la
methode des moments generalisee, une caracteristique importante provient du fait que le modèle est juste identie.
Lexpression de la matrice de variance en est simpliee.
Dans le cas general son expression est V
as
_
S
_
= [G
S
0
G]
1
G
S
0
V (g (z
i
,
0
)) S
0
G[G
S
0
G]
1
. Ici les nota-
tions sont dierentes, G = J et V = I et en outre G est de dimension dim dim puisque dimg = dim et de
rang dim par hypothèse. G est donc inversible, do` u une expression plus simple V
as
_
S
_
= J
1
IJ
1
.
Une simplication supplementaire provient du fait quil sagit dune vraisemblance. On a alors :
E
_
2
log L(z
i
, )
_
= E
_
log L(z
i
, )
log L(z
i
, )
_
.
Cette dernière relation provient simplement du fait que pour une famille de densite de probabilite f (x, ) ,
_
f (x, ) dx = 1
donc
_
f
(x, ) dx = 0 soit
_
f (x, )
Logf
(x, ) = 0, i.e.E
_
Logf
_
= 0
En derivant à nouveau en , il vient
_
f (x, )

2
Logf
(x, ) dx +
_
Logf
(x, )
f
(x, ) dx = 0
_
f (x, )

2
Logf
(x, ) dx +
_
Logf
(x, )
Logf
(x, ) f (x, ) dx = 0
E
2
log f (x, )
_
+E
_
log f (x, )
log f (x, )
_
= 0
Finalement on retrouve a à partir des formules GMM que dans le cas du maximum de vraisemblance
V
as
_
_
= E
_
2
log L(z
i
, )
_
1
= E
_
log L(z
i
, )
log L(z
i
, )
_
1
13.3.1 Conditions de 1er ordre pour la maximisation

Lestimateur du maximum de vraisemblance est deni par :
log L
N

=
N
i=1
_
_
y
i
g
_
x
i
b
_
G
_
x
i
b
_ + (1 y
i
)
g
_
x
i
b
_
1 G
_
x
i
b
_
_
_
x
i
= 0
soit
log L
N
b
=
N
i=1
_
y
i
G
_
x
i
b
__ g
_
x
i
b
_
G
_
x
i
b
__
1 G
_
x
i
b
__x
i
= 0
Ces equations sont en general non lineaires et necessitent la mise en oeuvre dun algorithme
doptimisation.
On voit que ces equations dans le cas general sexpriment sous la forme
N
i=1
_
x
i
,
b
__
y
i
E
_
y
i
x
i
,
b
__
x
i
= 0
Elles sont donc assez similaires aux conditions vues pour les moindres carres, mis à part la
ponderation et la non linearite. On remarque egalement que la ponderation sinterprète natu-
rellement par le fait que V (y
i
[x
i
) = G(x
i
, b) (1 G(x
i
, b)) , et que g (x
i
, b) x
i
est la derivee par
rapport à b de G(x
i
b) . La ponderation est donc analogue à la sphericisation pratiquee dans la
methode des mCQG du modèle linearise autour de la vraie valeur du paramètre.
Pour le modèle Logit on a G(z) = F (z) = 1/ (1 + exp (z)) , et g (z) = exp (z) / (1 + exp (z))
2
=
F (z) (1 F (z)) . On a donc simplement
log L
N
b
Logit
=
N
i=1
_
y
i
F
_
x
i
b
__
x
i
= 0
Pour le modèle Probit on a G(z) = (z) , et g (z) = (z) . On a donc simplement
log L
N
b
Pr obit
=
N
i=1
_
y
i
_
x
i
b
__
_
x
i
b
_
_
x
i
b
__
1
_
x
i
b
__x
i
= 0
13.3.2 Derivees secondes de la log-vraisemblance - condition de concavite
On sait quasymptotiquement, la vraisemblance a un maximum global unique. Ceci ne signie
pas quil ny ait pas de maximum local. Ceci ne signie pas non plus quil ny ait pas à distance ni
des maxima locaux. Il est donc important dexaminer les conditions du second ordre de lobjectif
maximise qui permettent detudier lexistence doptima multiples. On montre que dans le cas du
modèle probit et du modèle logit on est dans un cas favorable dans lequel la matrice hessienne
est toujours negative : la log-vraisemblance est donc globalement concave. Ceci garantit donc
que loptimum trouve est bien celui quil faut considerer.
Pour le modèle Logit, on le verie directement aisement. La matrice des derivees secondes
de lobjectif a en eet pour expression :
H =

2
log L
N
bb
Logit
=
N
i=1
_
1 F
_
x
i
b
__
F
_
x
i
b
_
x
i
x
i
Pour le modèle probit on montre plus generalement une proposition basee sur la log concavite
de la densite. On presente dabord un lemme :
Lemme 5 Si log (g) est concave, alors le ratio g (z) /G(z) est une fonction decroissante de z.
Demonstration
g(z)
G(Z)
est decroissant si g
G < g
2
cest à dire si
g
g
G < g. Si log (g) est concave alors
g
g
decroissante. Dans ce cas g
(t) =
g
(t)
g(t)
g (t) >
g
(z)
g(z)
g (t) pour t z donc
_
z
(t) dt >
g
(z)
g(z)
_
z
g (t) soit
g (z) >
g
(z)
g(z)
G(z) .
13.3. Estimation des modèles dichotomiques 205
Proposition 13.2 Si log (g) est concave et si g est symetrique, alors le hessien de la vraisem-
blance du modèle dichotomique ` a probabilite G(x
ib
) est deni negatif.
Demonstration On peut reecrire la log vraisemblance en separant les observations pour lesquelles y
i
= 1 de
celles pour lesquelles y
i
= 0, on note I
1
et I
0
les ensembles dindividus correspondants. En notant g
i
= g (x
i
b) et
G
i
= G(x
i
b) , on a alors
log L
N
b
=
N
i=1
[y
i
G
i
]
g
i
G
i
[1 G
i
]
x
i
=
I
1
[1 G
i
]
g
i
G
i
[1 G
i
]
x
i
+
I
0
[0 G
i
]
g
i
G
i
[1 G
i
]
x
i
=
I
1
g
i
G
i
x
i
+
I
0
g
i
1 G
i
x
i
On a alors :
2
log L
N
bb
I
1
_
g
i
G
i
_
i
x
i
+
I
0
_
g
i
1 G
i
_
i
x
i
Comme g est symetrique G(z) = 1 G(z) , on a
g(z)
1G(z)
=
g(z)
G(z)
, il en resulte que si
g
G
est une fonction
decroissante, alors
g(z)
1G(z)
est aussi une fonction decroissante. Le Hessien est negatif puisque les derivees des
ratios
g
i
G
i
et
g
i
1G
i
sont negatives.
Dans le cas Probit, g (z) =
1
2
exp
_
1
2
z
2
_
, cest bien une fonction symetrique et log g (z) =
log
2
1
2
z
2
, est bien une fonction concave. Lobjectif est donc globalement concave.
13.3.3 Matrice de variance-covariance de

b
La matrice de variance covariance asymptotique est egale à
V
as
_
b
_
=
_
E
_
2
log L
bb
__
1
=
_
E
_
log L
b
log L
b
__
1
Elle peut etre estimee à partir des derivee secondes evaluees en

b :
V
as
(
b) =
_
_
_
2
log L
_
y
i
, x
i
,
b
_
bb
_
_
_
1
ou des derivees premières evaluee en

:
V
as
(
b) =
_
_
_
_
log L
_
y
i
, x
i
,
b
_
b
_
_
log L
_
y
i
, x
i
,
b
_
b
_
_
_
_
_
_
1
Compte tenu de lexpression donnee plus haut
log L
_
y
i
, x
i
,
b
_
b
=
_
x
i
,
b
__
y
i
E
_
y
i
x
i
,
b
__
x
i
avec
_
x
i
,
b
_
= g
_
x
i
b
__
G
_
x
i
b
__
1 G
_
x
i
b
__
, on note que dans ce cas la matrice de variance
secrit sous une forme sapparentant à celle des mCQG
V
as
(
b) =
_

2
i

2
i
x
i
x
i
_
1
o` u
i
= y
i
G
_
x
i
,
b
_
La matrice de variance covariance de lestimateur est dans tous les cas estimee par
V (
b) =

V
as
(
b)/N
13.4 Illustration : participation des femmes sur le marche du
travail
On peut mettre en oeuvre les methodes destimation precedentes en examinant le compor-
tement de participation des femmes sur le marche du travail. La modelisation de la decision de
participation fait intervenir le salaire de marche w
i
et le salaire de reservation w
i
. Le salaire de
marche est modelise comme une fonction du capital humain, cest à dire comme une fonction
de la scolarite et lexperience sur le marche du travail. Le salaire de reservation est fonction lui
de la situation familiale : revenu alternatif, celibat, nombre denfants... Au lieu de modeliser le
capital humain par lexperience, fonction des decisions passees de participation sur le marche du
travail, on peut faire intervenir directement lage. Au total on a une decision de participation
prenant la forme :
I = 1 w
i
> w
i
w
i
=
0
+
1
sco
i
+
2
age
i
+
3
age
2
i
+u
i
w
i
=
0
+
1
wa
i
+
2
sin gle
i
+
3
nenf
i
+
4
age
i
+
5
age
2
i
v
i
On a donc la modelisation de participation :
I = 1
0
+
1
sco
i
+
2
age
i
+
3
age
2
i
+
4
wa
i
+
5
sin gle
i
+
6
nenf
i
+
i
> 0
On peut estimer ce modèle en faisant lhypothèse que les residus sont distribues de telle sorte
que lon ait un modèle Probit, Logit ou à probabilite lineaire. On met en oeuvre cette estimation
sur un echantillon de femmes en 2002, tire de lenquete emploi. Lechantillon comprend 36249
femmes. Les resultats sont presentes dans le tableau 13.1. On voit que les paramètres sont
distincts dune regression à lautre mais que les sens de variations sont toujours les memes. On
note aussi que les estimations sont très precises, ce qui tient à la taille importante de lechantillon.
Les resultats sont bien ceux auxquels on sattend : plus le capital humain est important : age
et scolarite eleves, plus la participation est importante. De meme plus le nombre denfants est
eleve, moins la participation est elevee. Le celibat conduit aussi comme on sy attend à une
participation plus importante. On remarque enn que le revenu alternatif (celui du conjoint) na
pas le signe attendu. On aurait pu penser en eet que le salaire du conjoint conduisait à une
participation plus faible. Ceci pourrait etre lie au fait que dans la decision de mise en couple les
capacites sur le marche du travail des deux individus sont correlees positivement.
Pour aller plus loin dans la comparaison des estimateurs entre eux, il faudrait comparer
les eets marginaux, cest à dire calculer en chaque point leet predit par le modèle dun
accroissement marginal de la variable.
13.5. Selectivite : le modèle Tobit 207
Fig.13.1 Estimation du mod` ele de participation des femmes
b sb b sb b sbh sb
Constante -0.207 (0.057) -0.379 (0.095) 0.441 (0.020) (0.019)
Nenf -0.317 (0.008) -0.530 (0.013) -0.108 (0.002) (0.002)
wa 0.043 (0.002) 0.071 (0.003) 0.015 (0.001) (0.001)
single 0.297 (0.024) 0.490 (0.039) 0.103 (0.008) (0.008)
scolarit 0.089 (0.003) 0.151 (0.005) 0.029 (0.001) (0.001)
age -0.006 (0.001) -0.010 (0.001) -0.002 (0.000) (0.000)
age/1000 -0.237 (0.008) -0.401 (0.013) -0.081 (0.003) (0.003)
Probit Logit Linaire
13.5 Selectivite : le modèle Tobit
13.5.1 Presentation de la selectivite
La selectivite est une des causes principales de biais dans les estimations des modèles lineaires.
Elle correspond à la situation dans laquelle le phenomène que lon etudie est observe uniquement
sous certaines conditions qui ne sont pas independantes du phenomène etudie. Pour certains indi-
vidus, on nobserve pas le phenomène etudie, il y a donc un problème de donnees manquantes,
et la raison pour laquelle on nobserve pas le phenomène est elle meme liee à ce phenomène.
Le fait de ne pas observer le phenomène apporte donc paradoxalement une information sur le
phenomène lui-meme. On dit dans ce cas que le processus de selection nest pas ignorable.
Exemple 12 Le modèle dore de travail dHeckman. Pour illustrer le problème de la selectivite
on presente le modèle dore de travail dHeckman. On modelise le salaire de marche dun
individu comme :
w
i
= x
i
b +u
i
avec x
i
comprenant les variables aectant le capital humain : la scolarite et l age (` a la place de
lexperience) et le salaire de reserve comme
w
i
= x
ri
b
r
+u
ri
avec x
ri
comprenant le nombre denfant, une indicatrice valant 1 en cas de celibat, le cas echeant,
le revenu du conjoint. On introduit en plus de ces variables un polyn ome de l age pour prendre
en compte les specicites du marche du travail fran cais qui subventionne le retrait dactivite
des travailleurs ages. On introduit en outre une modelisation des heures. Les heures de travail
oertes dependent de lecart entre le salaire de marche et le salaire de reserve :
h
i
= (w
i
w
i
)
et on a donc un nombre dheures non nul, donc observe si w
i
> w
i
. Le paramètre est parti-
culièrement interessant puisquil correspond ` a lelasticite de lore de travail au salaire. A cette
modelisation correspond dierentes possibilites dobservation.
1. On nobserve que la decision de participation :
_
p
i
= 1
p
i
= 0
si h
i
> 0
si h
i
0
Il sagit du modèle Probit dej` a examine.
2. On observe la decision de participation et le nombre dheures :
_
_
_
h
i
= h
i
= x
i
b x
ri
b
r
+u u
ri
= z
ic
+v
i
p
i
= 1
p
i
= 0
si h
i
> 0
si h
i
0
Il sagit du modèle Tobit dit simple ou de type I car la variable denissant la censure est
aussi celle qui est observee lorsquil ny a pas censure. Dans le cas considere ici, il est clair
que lestimation de ce modèle ne permet pas lestimation simple du paramètre delasticite
dore de travail au salaire. On peut identier l (h
i
[z
i
, h
i
> 0) qui est bien sur dierente de
l (h
i
[z
i
) . Le processus de selection nest donc pas ignorable dans ce cas de facon evidente.
3. On observe le salaire et la decision de participation
_
_
_
w
i
= x
i
b +u
i
p
i
= 1
p
i
= 0
si h
i
> 0
si h
i
0
Il sagit du modèle Tobit dit de type II car la variable denissant la censure nest pas celle
qui est observee lorsquil ny a pas censure. On peut identier ici l (w
i
[z
i
, h
i
> 0) qui peut
etre dierente ou non de l (w
i
[z
i
) . Le processus de selection peut donc etre ignorable ou
non dans ce cas. On voit que si l (w
i
[z
i
, h
i
) = l (w
i
[z
i
) , cest ` a dire si la variable realisant
la censure est independante de la variable etudiee conditionnellement aux variables expli-
catives, le processus de selection sera ignorable.
4. On observe le salaire, le nombre dheures et la decision de participation
_
_
_
_
w
i
= x
i
b +u
i
h
i
= h
i
= x
i
b x
ri
b
r
+u
i
u
ri
p
i
= 1
p
i
= 0
si h
i
> 0
si h
i
0
Ce modèle est dit modèle Tobit de Type III. Il permet sous certaines conditions destimer
le paramètre delasticite de lore de travail aux heures.
Lestimation de ce type de modèles est en general complexe lorsque lon ne specie pas la loi
des residus. On va examiner ici la situation dans laquelle la loi jointe des deux residus u
wi
de
lequation de salaire et u
hi
de lequation dheure, conditionnellement aux variables explicatives,
est une loi normale bivariee :
_
u
wi
u
hi
_
N
__
0
0
_
,
_

2
w

w
h

2
h
__
Une caracterisitique importante de cette modelisation est de laisser possible une correlation entre
les deux equations de salaire et de participation. Cest justement dans le cas o` u il y a correlation
que le processus de selection nest pas ignorable dans le cas du modèle de type II.
Denition 13.1 1. On appelle Modèle Tobit de type I, ou modèle Tobit simple le modèle
dans lequel une variable dinteret modelisee comme
y
i
= x
i
b +u
i
avec u
i
^
_
0,
2
u
_
, est observee sous la condition, elle meme observee,
y
i
> 0
Cest ` a dire, on observe :
_
y
i
= y
i
= x
i
b +u
i
I
i
= 1
I
i
= 0
si y
i
> 0
sin on
2. On appelle Modèle Tobit de type II, le modèle dans lequel une variable dinteret, modelisee
comme
y
i
= x
i
b +u
i
est observee sous la condition elle meme observee
I
i
= z
i
c +v
i
> 0
avec (u
i
, v
i
) distribues suivant une loi normale de moyennes nulle et de variance
2
u
et
2
v
et de correlation . On observe donc
_
y
i
= y
i
= x
i
b +u
i
I
i
= 1
I
i
= 0
si I
i
> 0
sin on
Pour mesurer limportance potentielle des biais auquel peut conduire une information in-
complète, on considère la situation dans laquelle il y a deux variables aleatoires
_
y
1
= x +u
1
y
2
= x +u
2
Les variables x, u
1
et u
2
sont toutes trois normales, centree et reduites. x est choisie independante
de u
1
et u
2
. En revanche on envisage deux situations polaires pour la correlation de u
1
et u
2
:
correlation nulle et correlation de 0.9. On sinteresse à la relation entre y
1
et x, et on considère
deux cas. Dans le premier cas on observe y
1
et x sans restriction, dans le second cas on observe
y
1
et x uniquement pour y
2
positif. Les graphiques reportes dans le tableau 13.2 montrent les
nuages de points observes.
On voit que les nuages de points dans les echantillons non tronques se ressemblent beaucoup,
que la correlation soit nulle ou de 0.9. Les droites de regressions lineaires donnent toutes deux
des coecients proches des vraies valeurs : 1 pour la variable x et 0 pour la constante. On voit
aussi que la troncature par la variable y
2
ne change pas beaucoup lallure de lechantillon dans
le cas de la correlation nulle. On observe neanmoins que comme on a selectionne les observations
pour lesquelles x +u
2
> 0, on a eu tendance à retenir plus de valeurs elevees de x. Neanmoins,
cette selection des variables explicatives naecte pas la propriete dindependance des variables
explicatives et du residu dans lequation de y
1
. On verie que les coecients de la droite de
regression sont l` a encore très proches des vraies valeurs. En revanche les changements pour
le cas = 0.9 en presence de troncature sont très importants. On a ete amene à ne retenir
que les observations pour lesquelles x + u
2
> 0. L` a encore on a eu tendance à retenir plus
Fig.13.2 Nuages de points et troncatures : diff erentes configurations
y = - 0,01+1,01x
-5
0
5
-4 0 4
y = 0,01+1,00x+
-5
0
5
-4 0 4
(a) Complet = 0 (b) Complet = 0.9
y = - 0,03+1,03x
-5
0
5
-4 0 4
y = 0,75+0,58x
-5
0
5
-4 0 4
(c) Tronque = 0 (d) Tronque = 0.9
souvent les observations de x avec des valeurs elevees. Pour une observation retenue pour une
valeur de x donnee, on na retenu que les observations avec une valeur importante de u
2
et
donc de u
1
puisque ces variables sont fortement correlees. On en deduit que à x donne, on a
retenu des observations pour lesquelles u
1
est susamment important. Pour une valeur donnee
de x la moyenne des residus des observations selectionnees sera donc positive contrairement
à ce quimplique lhypothèse dindependance. En outre, si on considère une valeur de x plus
importante, on sera amene à selectionner des observations de u
2
de fa con moins stricte, et la
moyenne des residus de u
1
selectionnes sera donc toujours positive, mais plus faible. On en
deduit que lesperance des residus conditionnelle à une valeur donnee de x est une fonction
decroissante de x : le residu de lequation de y
1
sur les observations selectionnes ne sont plus
independants de la variable explicative. Ce resultat se materialise par une droite de regression
de pente beaucoup plus faible que dans le cas precedent : le biais dit de selectivite est ici très
important. Une autre consequence que lon peut voir sur le graphique et qui est intimement liee
dans ce cas à la selection, est que la relation entre y
1
et x est heteroscedastique.
13.5.2 Rappels sur les lois normales conditionnelles.
Quelques rappels sur les lois normales sont necessaires pour etudier le modèle de selectivite.
(i) Densite
La densite dune loi normale centree reduite est notee et a pour expression
(u) =
1
2
exp
_
u
2
2
_
La fonction de repartition est notee (u) =
_
u
(t) dt. Compte tenu de la symetrie de la

fonction on a (u) = 1 (u)
Une variable aleatoire de dimension k suivant une loi normale multivariee de moyenne et
de variance : y N(, ) a pour densite :
f(y) ==
1
_
(2)
k
det()
exp
_
1
2
(y )
1
(y )
_
On considère une loi normale bivariee
_
y
1
y
2
_
N
__

1
2
_
,
_

2
1

1
2

2
2
__
la densite de la loi jointe de u
1
et u
2
est donc donnee par
f(y
1
, y
2
) =
1
2
1
2
_
1
2
exp
_
(
2
1
+
2
2
2
1
2
)
2(1
2
)
_
avec
1
=
y
1
1
et
2
=
y
2
2
.
La loi marginale de y
1
est donnee par
f(u
1
) =
1
2
exp
_
1
2
2
1
_
un calcul simple permet de montrer que la loi y
2
conditionnelle à y
1
donnee par f(y
2
[y
1
) =
f(y
1
,y
2
)
f(y
1
)
est aussi une loi normale, mais de moyenne et de variance dierente. La moyenne depend de la
valeur prise par y
1
, mais pas la variance :
f(y
2
[y
1
) N
_
2
+

2
1
(y
1
1
) ,
2
2
(1
2
)
_
Moments dune loi normale tronquee
Denition 13.2 On appelle inverse du ratio de Mills la quantite
M (c) =

(c)
Ce ratio est central dans lanalyse des biais de selectivite. On a vu precedemment en etudiant le
modèle probit que ce ratio est une fonction decroissante de c.
Proposition 13.3 Soit u N (0, 1) , et c un scalaire. On sinteresse aux moments de la loi
normale tronquee E(u[u > c) et E(u[u < c), ainsi que V (u[u > c) et V (u[u < c). On a
E(u[u > c) = M (c)
E(u[u < c) = M (c)
et
V (u[u > c) = 1 +cM (c) M (c)
2
< 1
V (u[u < c) = 1 cM (c) M (c)
2
< 1
Demonstration u a pour densite (u) . Compte tenu de
(u) = u(u) , on a :
E(u|u > c) =
_
c
u(u)du
1 (c)
=
[(u)]
c
1 (c)
=
(c)
1 (c)
=
(c)
(c)
= M (c)
de meme
E(u|u < c) = E(u| u > c) = M (c)
Pour les moments dordre 2 on a :
E
_
u
2
|u > c
_
=
_
c
u
2
(u)du
1 (c)
= 1 +cM (c)
o` u on intègre par partie
_
c
u
2
(u)du = [u(u)]
c
+
_
c
(u)du = c(c) + 1 (c) . On en deduit la variance
conditionnelle
V (u|u > c) = E(u
2
|u > c) [E(u|u > c)]
2
= 1 +cM (c) M (c)
2
de facon similaire on a pour la loi normale tronquee superieurement
E(u
2
|u < c) = E((u)
2
| u > c) = 1 cM (c)
V (u|u < c) = 1 cM (c) M (c)
2
Le lemme 6que lon avait pour une loi normale z+
(z) > 0 et aussi z+

1
(z) > 0 soit encore zM (z)+M (z)
2
>
0 et zM (z) M (z)
2
< 0 on en deduit que lon a toujours, comme on sy attend V (u|u c) < 1.
Lemme 6 Quelque soit z, on a
z +

(z) > 0
et
z +

1
(z) > 0
Demonstration Compte tenu de
(z) = z(z) on deduit de / decroissant
(z) /
2
/
2
< 0, soit
z(z) /
2
/
2
< 0. En multipliant cette inegalite par
(z) , on en deduit un resultat qui sera utile par la

suite : z +

(z) > 0. En appliquant cette inegalite à z, on en deduit aussi z +

1
(z) > 0.
Remarque 13.1 Dans le cas dune variable non centree reduite v N
_
,
2
_
, on peut deduire
des resultats precedents les moments des lois tronquees en notant que (v ) / suit une loi
N (0, 1) et que v c u = (v ) / c = (c ) /. on a donc
E(v[v > c) = E(u +[u > c) = +M
_
_
E(v[v < c) = E(u +[u < c) = M
_
c
_
et
V (v[v > c) =
2
_
1 +
c
M
_
_
M
_
_
2
_
Pour les moments de la loi tronquee superieurement on a egalement
V (v[v < c) =
2
_
1
c
M
_
c
_
M
_
c
_
2
_
On a aussi comme on sy attend pour toute transformation lineaire
V (a +bv[v > c) = b
2
V (v[v > c)
V (a +bv[v < c) = b
2
V (v[v < c)
(ii) Moments dune variable normale tronquee par une autre variable normale
On sinteresse au cas dune variable aleatoire suivant une loi normale bivariee
_
y
1
y
2
_
N
__

1
2
_
,
_

2
1

1
2

2
2
__
et on cherche les moments dordre 1 et 2 de la variable y
2
tronquee par y
1
> 0.
Proposition 13.4 On a
E (y
2
[y
1
> 0) =
2
+
2
M
_
1
_
E (y
2
[y
1
> 0) =
2
2
M
_
1
_
et
V (y
2
[y
1
> 0) =
2
2
2
2
_
1
M
_
1
_
+M
_
1
_
2
_
V (y
2
[y
1
< 0) =
2
2
2
2
_
1
M
_
1
_
+M
_
1
_
2
_
Demonstration On a vu que la loi de y
2
conditionnelle à y
1
est une loi normale de moyenne
2
+
1
(y
1
1
)
et de variance
2
2
_
1
2
_
. On en deduit que
E (y
2
|y
1
> 0) = E
_
2
+
1
(y
1
1
) |y
1
> 0
_
=
2
+
2
E
_
y
1
1
|y
1
> 0
_
=
2
+
2
E
_
y
1
y
1
1
>
1
_
=
2
+
2
M
_
1
_
De meme,
V (y
2
|y
1
> 0) = V (E (y
2
|y
1
) |y
1
> 0) +E (V (y
2
|y
1
) |y
1
> 0)
= V
_
2
+
1
(y
1
1
) |y
1
> 0
_
+
_
1
2
_
2
2
=
2
2
2
V
_
y
1
y
1
1
>
1
_
=
2
2
2
_
1

1
1
M
_
1
_
M
_
1
_
2
_
+
_
1
2
_
2
2
=
2
2

2
2
2
_
1
M
_
1
_
+M
_
1
_
2
_
Compte tenu du resultat precedent sur la loi normale unidimensionnelle et puisque V (y
2
|y
1
) =
_
1
2
_
2
2
.
On obtient directement les moments de la loi normale y
2
tronquee par y
1
< 0 en remplacant
1
par
1
et
par
13.6 Estimation du modèle Tobit
On considère à nouveau le modèle Tobit
y
i
= x
i
b +u
i
I
i
= zc +v
i
dans lequel la loi jointe des residus conditionnellement aux variables explicatives est une loi
normale bivariee
_
u
i
v
i
_
N
__
0
0
_
,
_

2
u

u
v

2
v
__
Les observations sont regies par :
_
_
_
y
i
= y
i
I
i
= 1
I
i
= 0
si I
i
> 0
si I
i
0
13.6.1 Pourquoi ne pas estimer un modèle Tobit par les MCO?
Si on se restreint aux observations pour lesquelles le salaire est renseigne, on a
E (y
i
[x
i
, z
i
, I
i
= 1) = E (y
i
[x
i
, z
i
, I
i
> 0)
13.6. Estimation du modèle Tobit 215
En appliquant les resultats precedents à y
2
= y
, et y
1
= I
on a directement :
E (y
i
[x
i
, z
i
, I
i
> 0) = x
i
b +
u
M
_
z
i
c
v
_
On voit donc que dès lors que la correlation entre les elements inobserves de lequation de
salaire et de lequation de participation sont correles, cest à dire dès que ,= 0, ne pas prendre
en compte la selectivite revient à oublier une variable dans la regression : M
_
z
i
c
v
_
. Cet oubli est
donc susceptible de conduire à une estimation biaisee des paramètres dès lors que les variables
M
_
z
i
c
v
_
et x
i
sont correlees.
Si on considère à titre illustratif que lequation de selection secrit y
i
> y, on a = 1 et
z
i
c
v
=
x
i
by
u
. Lequation precedente secrit alors
E (y
i
[x
i
, z
i
, I
i
> 0) = x
i
b +
u
M
_
x
i
b y
u
_
Dans ce cas comme M (z) =
(z)
(z)
est une fonction decroissante de z le biais est negatif. Dans le
cas general tout depend de et de la correlation entre le ratio de Mills et M
_
z
i
c
v
_
les variables
explicative entrant dans la modelisation de y
i
.
Si on introduit egalement les observations pour lesquelles y
i
= 0, on a
E (y
i
[x
i
, z
i
) = E (y
i
[x
i
, z
i
, I
i
= 1) P (I
i
= 1 [x
i
, z
i
) +
E (y
i
[x
i
, z
i
, I
i
= 0) P (I
i
= 0 [x
i
, z
i
)
= E (w
i
[x
i
, z
i
, I
i
= 1) P (I
i
= 1 [x
i
, z
i
)
= (x
i
b)
_
z
i
c
v
_
+
u
_
z
i
c
v
_
et on voit que la forme lineaire nest pas non plus adaptee.
13.6.2 Estimation par le maximum de vraisemblance
Comme on a specie la loi des perturbations, on a specie la loi des observations. Lestimateur
du maximum de vraisemblance est donc le plus ecace. Les estimations vont etre basees sur la
densite des observations. celle-ci se calcule de la fa con suivante : on ecrit la probabilite dobserver
chaque realisation du couple (y
i
, I
i
) .
Pour I
i
= 0 on nobserve pas y
i
la seule probabilite est P (I
i
< 0) , cest à dire P (z
i
c +v
i
< 0) =
zc
v
_
= 1
_
zc
v
_
Pour I
i
= 1 on observe y
i
= y
i
et I
i
> 0. La densite correspondante est
f (y
i
= w
i
, i
i
= 1) =
_
I
i
>0
f (y
i
, I
i
) dI
i
= f (y
i
)
_
I
i
>0
f (I
i
[y
i
) dI
i
et la loi de I
i
conditionnelle à y
i
= y
i
est pas denition une loi normale de moyenne
I
(y
i
) =
I
+
v
y
i
u
et de variance
2
v
=
2
v
_
1
2
_
la probabilite pour quune telle variable aleatoire
soit positive est
_

I
(y
i
)

v
_
=
_
I
+
v
y
i
(1
2
)
_
. Finalement, la densite des observations est
L =
I
i
=0
_
1
_
zc
v
__
I
i
=1
1
_
y
i
x
i
b
u
_
_
z
i
c +
v
y
i
x
i
b
v
_
(1
2
)
_
=
i
_
1
_
zc
v
__
1I
i
_
_
1
_
y
i
x
i
b
u
_
_
z
i
c +
v
y
i
x
i
b
v
_
(1
2
)
_
I
i
_
_
On voit que comme dans le cas du modèle Probit, on ne peut pas identier la totalite des
paramètres de lequation de selection : seul le paramètre c =
c
u
est identiable. Compte tenu
de cette redenition des paramètres du modèle, la vraisemblance secrit :
L =
i
[1 (z
i
c)]
1I
i
_
_
1
_
y
i
x
i
b
u
_
_
z
i
c +
y
i
x
i
b
u
_
(1
2
)
_
I
i
_
_
Remarque 13.2 1. Dans le cas o` u = 0 on voit que la vraisemblance est separable entre
une contribution correspondant ` a lobservation de I
i
= 0/1 et une contribution associee
aux observations de w
i
:
L =
_
i
[1 (z
i
c)]
1I
i
(z
i
c)
I
i
_
i
_
1
_
y
i
x
i
b
u
__
I
i
_
On retrouve donc le fait que dans le cas = 0 on peut ignorer la selection des observations.
On voit aussi que dans le cas general o` u ,= 0 la selectivite importe.
2. La fonction de vraisemblance nest pas globalement concave en (,
u
, b, c).Elle est concave
globalement en = (
u
, b, c) pour xe.
3. Une solution consiste ` a xer la valeur de et estimer les paramètre correspondant

() et
` a balayer sur les valeur possible de .
13.6.3 Estimation en deux etapes par la methode dHeckman
Il existe une methode destimation très simple et très largement utilisee dans le cas o` u
les perturbations sont normales. Elle ouvre aussi la voie à des specications plus generales dans
lesquelles on laisse non speciees la loi des perturbations. Cette methode est basee sur lequation
precedente
E (y
i
[x
i
, z
i
, I
i
= 1) = x
i
b +
u
M (z
i
c) = x
i
b +
u
M
i
(c)
Le principe de la methode dHeckman consiste à estimer dabord le modèle Probit associe à I
i
.
De lestimation de c = c/
v
on tire un estimateur M
i
_
c
_
= M
_
z
i
c
_
. On procède ensuite à la
regression augmentee sur les seules observations pour lesquelles les donnees sont disponibles :
y
i
= x
i
b +
u
M
i
_
c
_
+
i
Ces estimateurs sont asymptotiquement sans biais, mais ils ne sont pas asymptotiquement
ecaces. Par exemple, cette methode permet destimer seulement le produit
u
, alors que la
methode du maximum de vraisemblance permet destimer et
u
separement.
Remarque 13.3 Le calcul des ecarts-type est un peu complique. Il fait intervenir deux as-
pects. Dune part le modèle est heteroscedastique. En eet, compte tenu des resultats obtenus
precedemment pour V (y
2
[y
1
> 0) , on a :
V (y
i
[x
i
, z
i
, I
i
= 1) = V (y
i
[x
i
, z
i
, I
i
> 0)
=
2
u
2
u
_
z
i
cM
i
(c) +M
i
(c)
2
_
Cette formule montre bien la presence dheteroscedasticite. Elle donne aussi une voie pour es-
timer le modèle de facon plus ecace en utilisant lestimateur des mCQG. Neanmoins ce nest
pas le seul problème, en eet la variable additionnelle introduite dans la regression fait inter-
venir le paramètre c qui nest pas connu et est remplace par une estimation. Lintroduction de
ce paramètre estime est aussi une source de complication dans le calcul des ecarts-type. Plus
precisement, le paramètre est lui meme issu dune estimation (par le MV) que lon peut resumer
par lannulation de la contrepartie empirique de conditions dorthogonalite
E (h
c
(I
i
, z
i
, c)) = 0
Lestimation du modèle par les mco conduit quant ` a elle ` a lannulation de la contrepartie empi-
rique de
E
__
x
i
M
i
(c)
_
[y
i
x
i
b
u
M
i
(c)] 1
I
i
=1
_
= E (h
b,
u
(I
i
, y
i
, x
i
, b,
u
)) = 0
Le calcul des ecarts-type doit se faire en considerant les formules de lestimation par la methode
des moments generalisee associee ` a la totalite des conditions dorthogonalite, cest ` a dire
E
_
h
c
(I
i
, z
i
, c)
h
b,
u
(I
i
, y
i
, x
i
, b,
u
)
_
= 0
On utilise parfois lestimateur de Heckman comme une première valeur pour le calcul de
lestimateur du maximum de vraisemblance. On utilise lestimateur du modèle Probit, lestima-
teur du modèle de Heckman et lexpression de la variance des residus qui permet dobtenir une
estimation convergente de et
w
.
13.6.4 Des extensions parametriques simples
Le cas normal conduit à des specications particulièrement simple. La loi normale peut
neanmoins paratre trop restrictive et on peut vouloir specier encore la loi des residus mais
dans des ensembles de lois plus generales.
(i) Loi quelconque donnee pour le residu de lequation de selection.
Tant que la loi du terme de lequation de selection a une fonction de repartition F strictement
croissante, on peut reformuler le modèle de telle sorte quil entre dans le cadre precedent. Cette
reformulation repose sur la propriete suivante :
Proposition 13.5 Si une variable aleatoire ` a une fonction de repartition F strictement crois-
sante, alors la variable aleatoire v = F (v) suit une loi uniforme sur [0, 1] .
Demonstration En eet, comme F est à valeurs dans [0, 1] le support de v est bien [0, 1] . De plus on a
P ( v t) = P (F (v) t) = P
_
v F
1
(t)
_
= F F
1
(t) = t
On en deduit alors la proposition suivante concernant le modèle de selection : En appliquant

ce resultat à la transformation : v =
1
F (v) , on en deduit que v suit une loi normale. Le
modèle de selection I = 1 I
= zc+v 0 est donc equivalent à I = 1 v =

1
F (v)
1
F (zc) soit encore à
1
F (zc) + v 0, avec dans ce cas v normal. On peut donc
generaliser les resultats precedents en substituant
1
F (zc) à zc. On parvient alors au
resultat que
E (y [I = 1, x, z ) = xb +
u
1
F (zc)
_
Compte tenu du fait que
P (z) = P (zc +v 0) = P (v zc) = 1 F (zc)
on a
E (y [I = 1, x, z ) = xb +
u
1
(1 P (z))
_
En utilisant le fait que (x) = 1 (x) , soit
1
(P) =
1
(1 P) , on a :
E (y [I = 1, x, z ) = xb +
u

1
P (z)
P (z)
(ii) Des lois plus generales que la loi normale
On peut considerer le modèle de selection precedent en faisant lhypothèse que les elements
inobserves ont pour loi jointe une loi de Student de degres et non pas une loi normale.
La densite de la loi jointe des elements inobserves secrit alors :
h(u, v) =
1
2 (1
2
)
1/2
2
_
1 +
1
( 2) (1
2
)
_
u
2
2uv +v
2
_
_
(1/2)(+2)
On peut montrer la propriete suivante sur la loi jointe de u et v :
E (u[v ) = v
La loi de u, g
(u) a pour expression :

g
(u) =
(( + 1)/2)
(/2)
_
1 +t
2
_
(+1)/2
On note G
(u) sa fonction de repartition.

On peut montrer que lexpression de lesperance de la loi de Student de degres tronquee
est :
E (v [v < t ) =
+t
2
1
g
(t)
Do` u
E (v [v > t ) = E (v [v < t )
G
(t)
(1 G
(t))
=
G
(t)
(1 G
(t))
+t
2
1
g
(t)
=
+t
2
1
g
1 G
(t) =
+t
2
1
g
(t)
Ceci permet de generaliser les resultats obtenus precedemment pour le modèle de selection
E (y [I = 1, x, z ) = xb +E (u[d = 1, x, z )
= xb +E (u[zc +v > 0, x, z )
= xb +E (E (u[v, x, z ) [zc +v > 0, x, z )
= xb +E (v [v > zc)
= xb +
+zc
2
1
g
(zc)
On peut obtenir une generalisation supplementaire en combinant les deux approches et en
considerant que lequation de selection à un residu dune loi quelconque connue. Par le meme
genre dargument que dans la première situation envisagee, on a
E (y [I = 1, x, z ) = xb +
+G
1
(P (z))
2
1
g
G
1
(P (z))
P (z)
13.6.5 Le modèle de selection semi parametrique.
On reprend le modèle de selectivite sur inobservables :
y = xb +u
avec la modelisation de laectation au traitement :
T
= zc +v
T = 1 T
0
on suppose comme precedemment lindependance entre les variables de conditionnement et les
elements inobserves.
(u, v) (x, z)
mais on ne fait plus dhypothèse sur la loi jointe des perturbations. On montre que lon ob-
tient une relation pour lesperance conditionnelle qui sapparente à celles obtenues dans les cas
precedents :
Proposition 13.6 Dans le cas du modèle de selectivite sur inobservables, si les fonctions de
repartition de v est strictement croissante, il existe une fonction K (P (zc)) telle que
E (y [I = 1, x, z ) = xb +K (P (zc))
o` u
P (zc) = P (T = 1 [r, z )
Demonstration On montre dabord que P (I = 1 |r, z ) = P (zc) . On a
P (I = 1 |r, z ) = E (1 (zc +v > 0) |r, z ) =
_
v>zc
f (v |r, z ) =
_
v>zc
f (v) = 1 F (zc) = P (zc)
On en deduit en outre que zc = H
1
(P (zc)) , puisque F est strictement croissante. On ecrit ensuite lesperance de
la variable dinteret
E (y |I = 1, x, z ) = xb +E (u|I = 1, x, z )
et on montre que E (u|I = 1, x, z ) est une fonction de P (zc)
E (u|I = 1, x, z ) = E (uI |x, z ) P (I = 1 |r, z )
1
=
_
1 (zc +v 0) uf (u, v) dudvP (I = 1 |zc )
1
= H
2
(zc) = K (P (zc))
Remarque 13.4 On peut voir ` a partir des expressions precedentes un point très important.
Dans le cas de la normalite, on a une relation non lineaire determinee entre lesperance de
la variable ` a laquelle on sinteresse et la probabilite de selection. Cette non linearite permet
lobtention destimation meme dans le cas o` u les variables entrant dans lequation de selection
et lequation dinteret principal sont identiques. Dans le cas plus general, on voit neanmoins que
ce nest plus le cas. En eet quelque soit la fonction de probabilite retenue P, si la fonction K est
quelconque, et que x
p
est identique ` a x
w
, on ne pourra dissocier leet des variables intervenant
au travers de la selectivite de leur eet intervenant directement : le modèle nest pas identie.
Ce nest que lorsque lon introduit dans lequation de selectivite une variable intervenant dans la
selectivite mais pas dans lequation principale que lon peut identier le modèle. Le raisonnement
est ici très proche de celui fait dans le cas des variables instrumentales : il faut postuler une
relation dexclusion. Cette necessite est un peu masquee dans le cas de la normalite par la non
linearite du modèle, mais elle nen est pas moins essentielle.
Ce type de modèle peut etre estime sans faire dhypothèse sur la forme de la fonction K. On
considère lequation :
E (y [I = 1, x, z ) = xb +K (P (zc))
Une première fa con destimer le modèle consiste à utiliser des series. Lidee est très simple
elle consiste à introduire dierentes puissance du score : P (zc) , P (zc)
2
, . . . . Les proprietes
asymptotiques de ce type destimateur ont ete etudiee par Andrews (1991).
E (y [I = 1, x, z ) = xb +
1
P (zc) + +
d
N
P (zc)
d
N
Cette methode est très simple à mettre en oeuvre, et de ce fait très utile. Ses proprietes asympto-
tiques ont ete clairement etablies, par Newey (1999) qui montre en particulier que les paramètres
dinteret de la partie lineaire du modèle sont convergent en
N. Le problème de ce type de
methode reside dans le choix du degre du polyn ome retenu.
Une methode destimation alternative est fournie par la methode destimation de (Robinson
1988) cest une sorte de super methode de Frish-Waugh. LIdee de la methode de Robinson est
de projeter cette equation sur lensemble des fonctions de P (zc)
E (y [I = 1, P (zc)) = E (E (y [I = 1, x, z ) [I = 1, P (zc))
= E (x[I = 1, P (zc)) b +K (P (zc))
En prenant la dierence avec lequation precedente on peut eliminer la fonction K (P (zc)) . On
a alors :
E (y E (y [I = 1, P (zc)) [I = 1, x, z ) = (x E (x[I = 1, P (zc))) b
En notant
P
y
= yE (y [I = 1, P (zc)) et
P
x
= xE (x[T = 1, P (zc)) les residus des regressions
non parametriques de y et des variables explicatives r sur le score P (zc) , on a clairement
E
_
P
y
P
r
_
=
P
r
b
On peut estimer le paramètre b en regressant
P
y
sur
P
r
. Dans ce cas, on peut montrer que
lestimateur de b obtenu est convergent en
N bien quil incorpore un intermediaire de calcul

non parametrique. Toutefois sa variance est dicile à calculer et on est amene à utiliser des
methodes de bootstrap très intensives en calculs, notamment pour ce type destimateur par
noyaux.
Remarque 13.5 Cette methode permet destimer le paramètre b. Neanmoins ceci nest pas
vrai pour tous les paramètres : la constante du modèle nest pas identiee. Ceci se voit très bien
puisque la fonction K est estimee en toute generalite, donc ` a une constante pres. Ceci nest en
general pas grave car on naccorde que peu dinteret ` a la constante, sauf dans certains cas precis
qui peuvent etre très importants. Cest en particulier le cas de levaluation des politique publiques
que lon aborde dans le chapitre suivant. On reviendra alors sur cette question delicate.
13.6.6 Illustration : le modèle dore de travail dHeckman
Pour illustrer les resultats du cadre precedent on estime le modèle dore de travail presente
dans lexemple de la page 207. Il sagit dun modèle Tobit dit de TypeIII, dans la terminologie
de Amemiya. La forme reduite de ce modèle secrit :
w
i
= x
i
b +u
i
h
i
= x
i
b x
ri
b
r
+u
i
u
ri
= z
i
c +v
i
En appliquant le formalisme de la methode dHeckman, on voit que lon a :
E (w
i
[z
i
, h
i
> 0) = x
i
b + (u
i
[z
i
, h
i
> 0)
= x
i
b +
(z
i
c)
E (h
i
[z
i
, h
i
> 0) = x
i
b x
ri
b
r
+
h
(z
i
c)
On voit clairement que les paramètres b, et b
r
sont identies. En eet, le modèle Probit identie
le paramètre c, la regression de salaire identie b et , la regression dheure identie b, b
r
et
h
. On voit que lon peut en deduire une estimation de dès lors quil y a une variable entrant
dans la liste des variables aectant le salaire de marche mais pas le salaire de reserve. La variable
retenue ici assurant cette identication est la variable de scolarite. En eet on fait intervenir la
variable d age dans le salaire de reserve et dans le salaire de marche. Neanmoins lidentication
du paramètre est liee ici à la forme fonctionnelle, cest à dire à la forme du ratio de Mills. On
voit que si on avait retenu une autre loi et que pour cette loi le terme analogue au ratio de Mills
avait ete lineaire le modèle ne serait pas identie puisquil impose que z
i
c soit proportionnel à
x
i
b x
ri
b
r
. Meme si le modèle impose des restrictions qui peuvent etre testees comme le fait
que les paramètres de la partie x
i
b x
ri
b
r
sont bien proportionnels à ceux de la partie z
i
c, on
ne peut en deduire destimateur de ces paramètres, sauf à faire une hypothèse comme celle faite
ici que les variables inobservees sont distribuees suivant une loi normale. On peut noter que le
modèle de salaire de marche peut lui aussi faire intervenir les heures. Dans ce cas lidentication
porte comme pour le modèle dheures oertes sur la forme fonctionnelle. Enn, on voit aussi que
lestimation sapparente ici à une estimation par la methode des moments generalisee. En eet,
on peut reecrire lequation dore de travail par exemple sous la forme
E (h
i
w
i
+x
ri
b
r
[z
i
, h
i
0) = E (u
ri
[z
i
, h
i
0) =
h

h
(z
i
c)
Soit
E
_
h
i
w
i
+x
ri
b
r

h

h
(z
i
c) [z
i
, h
i
0
_
= 0
avec
h

h
= cov(u
ri
, u
i
u
ri
)/ (u
i
u
ri
) . Il en resulte que les paramètres peuvent etre
estimes en utilisant comme conditions dorthogonalite
E
_
_
h
i
w
i
+x
ri
b
r

h

h
(z
i
c)
_
_
z
i
(z
i
c)
_
i
0
_
= 0
De meme, pour lequation de salaire, on a
E
_
_
wh
i
h
i
x
i
b
(z
i
c)
_
_
z
i
(z
i
c)
_
i
0
_
= 0
qui peut etre utilisee avec contraint ` a 1 (lidentication des autres paramètres est alors garanti
quelle que soit la forme fonctionnelle retenue) ou librement estime (lidentication des paramètres
repose alors sur lhypothèse de normalite).
Remarque 13.6 Pour la determination des ecarts-type, il faut tenir compte de deux aspects
importants. Le premier est que le modèle est heteroscedastique. Lutilisation de la methode des
moments generalisee permet de traiter ce problème. Le deuxième est que le ratio de Mills fait
intervenir lestimation de lequation de participation. Il faut en theorie corriger les ecarts-type
pour cette estimation intermediaire. Ceci peut etre fait en considerant lestimation comme un
problème destimation par la methode des moments generalisee. On adjoint ` a lensemble de
condition dorthogonalite precedent les conditions dorthogonalite correspondant ` a lestimation
preliminaire, et qui sont les conditions du premier ordre du maximum de vraisemblance. Ici,
compte tenu du fait que le modèle Probit est estime sur 36249 femmes et que les estimations
sont eectues dans le secteur du commerce sur seulement 3164 femmes, on neglige le problème.
On presente dans le tableau 13.3 les resultats obtenus pour lestimation de lequation de
salaire. On voit que le ratio de Mills joue signicativement et que son coecient est negatif. Le
signe est celui de la correlation entre u
i
u
ri
et u
i
. Si on ecrit u
ri
= u
i
+
i
, avec u
i
et
i
non correle, on a cov(u
i
u
ri
, u
i
) = ( )
2
u
. Le signe negatif sinterprète donc comme le
fait que les elements inobserves dans lequation de salaire et lequation de salaire de reserve sont
fortement correles. On voit quignorer la selectivite, oublier la variable de ratio de Mills, conduit
à biaiser les coecients. Ici il sagit surtout de celui de la scolarite. Le coecient est en eet de
Fig.13.3 Estimation de l equation de salaire avec et sans prise en compte de la s electivit e, avec
et sans prise en compte des heures
b sb b sb
Constante 4.6368 (0.0768) 4.4496 (0.0555)
Age 0.0096 (0.0008) 0.0098 (0.0008)
Age -0.0004 (0.0001) -0.0005 (0.0001)
Scolarit 0.0333 (0.0034) 0.0414 (0.0026)
Ratio de mills -0.1662 (0.0456) -- --
Constante 3.7674 (0.8199) 2.6204 (0.5044)
Age 0.0094 (0.0008) 0.0094 (0.0008)
Age -0.0004 (0.0001) -0.0005 (0.0001)
Scolarit 0.0346 (0.0035) 0.0369 (0.0029)
Ratio de mills -0.0967 (0.0708) -- --
h 0.2380 (0.2251) 0.5454 (0.1496)
Avec les heures
Sans les heures
Avec Slectivit Sans Slectivit
Fig.13.4 Estimation de l equation doffre de travail avec et sans prise en compte de la s electivit e
b sb b sb
Constante -0.0805 (1.1674) 2.3980 (0.2713)
Age -0.0051 (0.0015) -0.0019 (0.0004)
Age -0.0002 (0.0001) -0.0001 (0.0001)
Nenf -0.0665 (0.0150) -0.0349 (0.0054)
wa 0.0071 (0.0025) 0.0022 (0.0012)
single 0.0672 (0.0133) 0.0554 (0.0133)
Ratio de mills 0.3055 (0.1421) -- --
w 0.4124 (0.1314) 0.1332 (0.0309)
Avec Slectivit Sans Slectivit
0.03 avec prise en compte de la selectivite au lieu de 0.04 lorsquon lignore. On voit que lorsque
lon introduit la variable dheures comme regresseur lerreur liee au fait doublier la variable de
selectivite est encore plus forte. En eet lelasticite du salaire de marche (donc de la productivite)
aux heures est elevee et signicativement dierente de 0 lorsque lon ignore la selectivite. Par
contre lorsquon prend en compte la selectivite, on voit que cette variable est deux fois plus faible
et quelle nest plus signicativement dierente de 0. Ceci est susceptible de remettre fortement en
cause les resultats presentes dans le chapitre sur la methode des moments generalisee. Toutefois,
il ne faut pas oublier que lorsque lon introduit la variable dheure, lidentication des paramètres
repose sur le choix de la normalite pour distribution jointe des residus.
Le tableau 13.4 presente les resultats de lequation dore de travail. On voit l` a aussi que
la variable de selectivite est signicativement dierente de zero. Son signe est celui de
h

h
=
cov(u
ri
, u
i
u
ri
). Soit pour u
ri
= u
i
+
i
, celui de
2
+( )
2
u
. Le signe obtenu est donc
compatible avec le precedent. On voit que l` a aussi les changements sont importants lorsque lon
estime le modèle avec et sans prise en compte de la selectivite. En eet sans prise en compte
de la selectivite, on a un coecient faible de lordre de 0.10. Une baisse de la remuneration de
10% conduit à une baisse des heures oertes de 1%. Lorsque lon prend en compte la selectivite,
on parvient à une valeur beaucoup plus elevee de 0.4 : une baisse de la remuneration de 10%
conduit à une baisse des heures de 4%.
13.7 Modèles de choix discrets : le Modèle Logit Multinomial
On sinteresse dans cette dernière section à un modèle de choix entre dierentes alternatives.
Le choix dun type de vehicule, dun lieu de vacances, etc... Ce modèle, appele modèle Logit
Multinomial est très simple et très facile à estimer. Il est très largement employe. Il est en outre
susceptible de generalisations importantes qui permettent notamment de prendre en compte
lexistence de caracteristiques inobservees des individus operant les choix. Le developpement et
lestimation de ce type de modèle est aujourdhui un thème de recherche très actif aux nombreuses
applications.
Supposons quun individu i ait à choisir, parmi un ensemble de K modalites, une et une
seule de ces modalites, notee k.
Pour modeliser cette situation on associe à chaque modalite un niveau dutilite
U
ik
=
ik
+
ik
= x
i
b
k
+
ik
k = 1, ...K
o` u
ik
est une variable aleatoire non observable. Lindividu choisit la modalite que lui procure
lutilite maximale.
y
i
= Arg max
k
(U
ik
)
Proposition 13.7 Si les
ik
k=1,...K
sont des v.a. independantes et identiquement distribuees
selon une loi des valeurs extremes de fonction de repartition.
G(x) = exp[exp(x)],
de support ], +[ alors la probabilite de choisir la modalite k secrit :
P[y
i
= k] =
exp(
ik
)
K
l=1
exp (
il
)
=
exp(x
i
b
k
)
K
l=1
exp (x
i
b
l
)
Ce modèle est appele modèle logit multinomial.
Demonstration Notons g la fonction de densite des :
g (z) = G
(z) =
d
dz
exp [exp (z)] = exp (z) exp (exp (z)) = exp (z) G(z)
On peut remarquer en preliminaire la propriete suivante :
E exp (t exp (z)) =
1
1 +t
En eet :
E exp (t exp (z)) =
_
+
exp (t exp (z)) exp (z) exp (exp (z)) dz

en faisant le changement de variable v = exp (z) , on a
E exp (t exp (z)) =
_
+
0
exp (tv) v exp (v) v =
1
1 +t
On peut ecrire par exemple la probabilite de choisir la première solution
P (y = 1) = E
_
K
k=2
1 (U
k
< U
1
)
_
= E
_
E
_
K
k=2
1 (U
k
< U
1
|U
1
)
__
= E
_
K
k=2
E (1 (U
k
< U
1
|U
1
))
_
13.7. Modèles de choix discrets : le Modèle Logit Multinomial 225
Puisque les valeurs des dierentes options sont independantes les unes des autres. Comme P (
k
+
k
<
1
+
1
|
1
) =
G(
1
k
+
1
) = exp [exp (
1
+
k
1
)] , on a
P (y = 1) = E
_
K
k=2
exp [exp (
1
+
k
1
)]
_
= E
_
exp
_
k=2
exp (
1
+
k
1
)
__
= E (exp [t exp (
1
)])
avec t =
K
k=2
exp (
1
+
k
) . On en deduit que
P (y = 1) =
1
1 +t
=
1
K
k=1
exp (
1
+
k
)
Remarque 13.7 1. Les probabilites ne dependent que des dierences
k
= x(b
l
b
k
), l ,= k
Elles ne sont pas modiees si tous les b
l
sont translates en

b
l
= b
l
+c.
2. En consequence, les b
k
sont non identiables sauf ` a poser par exemple b
1
= 0
3. Les paramètres estimes sinterprètent alors comme des ecarts ` a la reference b
1
. Un signe
positif signie que la variable explicative accrot la probabilite de la modalite associee rela-
tivement ` a la probabilite de la modalite de reference.
13.7.1 Estimation du modèle logit multinomial :
Proposition 13.8 Posons
y
ki
= 1 (y
i
= k)
P
ki
= P (y
i
= k [x
i
) =
exp(x
ki
b
k
)
K
l=1
exp(x
li
b
l
)
b
1
= 0
La log-vraisemblance de lechantillon secrit :
log L =
n
i=1
K
k=1
y
ik
log P
ik
Cette fonction est globalement concave. Les conditions du premier ordre pour la determination
du paramètre b
= (b
2
, ..., b
K
)
, secrivent simplement sous la forme

log L
b
=
n
i=1
_
_
_
(y
i2
P
i2
) x
2i
.
.
.
(y
iK
P
iK
) x
Ki
_
_
_
= 0
Demonstration La vraisemblance secrit log L =
n
i=1
K
k=1
y
ik
log P
ik
= log L =
n
i=1
_
K
k=2
y
ik
x
ki
b
k
log
_
1 +
K
l=2
exp(x
li
b
l
)
__
On calcule facilement la derivee par rapport à b
l
:
log L
b
l
=
n
i=1
y
il
x
li
exp(x
li
b
l
)
_
1 +
K
l=2
exp(x
li
b
l
)
_x
li
=
n
i=1
(y
il
P
li
) x
li
On determine ensuite la derivee seconde
2
log L
b
l
b
m
=
n
i=1
m
_
_
_
_
y
il
x
li
exp(x
li
b
l
)
_
1 +
K
l=2
exp(x
li
b
l
)
_x
li
_
_
_
_
=
n
i=1
m
exp(x
li
b
l
)
_
1 +
K
l=2
exp(x
li
b
l
)
_x
li
Pour m = l, on a
m
exp(x
li
b
l
)
_
1 +
K
l=2
exp(x
li
b
l
)
_x
li
=
exp(x
li
b
l
) exp(x
mi
b
m
)
_
1 +
K
l=2
exp(x
li
b
l
)
_
2
x
li
x
mi
= P
mi
P
li
x
li
x
mi
Pour m = l, on a
l
exp(x
li
b
l
)
_
1 +
K
l=2
exp(x
li
b
l
)
_x
li
=
exp(x
li
b
l
)
_
1 +
K
l=2
exp(x
li
b
l
)
_x
li
x
li
exp(x
li
b
l
)
2
_
1 +
K
l=2
exp(x
li
b
l
)
_
2
x
li
x
li
=
_
P
li
P
2
li
_
x
li
x
li
Pour montrer la concavite de lobjectif, on calcule
H, pour un vecteur quelconque. La matrice H a pour

dimension dimb
2
+ +dimb
K
. On peut donc ecrire
= (
2
, . . . ,
K
) . Comme H est une matrice bloc dont les
blocs sont de la forme : H
l,m
=
mli
x
li
x
mi
, avec
mli
= P
mi
P
li
et
mmi
= P
mi
+P
2
mi
,
H =
l,m
l
H
l,m
m
=
l,m
mli
l
x
li
x
mi
m
. En denissant v
i
le vecteur de dimension K1 dont la mième composante est x
mi
m
, on a
H =
l,m
mli
v
mi
v
li
et compte tenu de lexpression de
mli
, on a
l,m
mli
v
mi
v
li
=
m
_
P
mi
+P
2
mi
_
v
2
mi
+
2
m=l
P
mi
P
li
v
mi
v
li
=
_
m
P
mi
v
2
mi
_
m
P
mi
v
mi
_
2
_
0 et egal à zero seulement si v
i
= 0. On en deduit
que
H 0 et
H = 0 si et seulement si v
i
= 0i, ce qui signie que tel que i x
mi
m
= 0 ce qui
correspond au fait que les variables explicatives ne sont pas independantes.
13.8 Resume
Dans ce chapitre on a presente trois exemples de modèles non lineaires generalisant directe-
ment les modèles lineaires vus precedemment. On a ainsi examine
1. Les modèles dichotomiques, caracterises par le fait que la variable explicative prend ses va-
leurs dans 0, 1 . On a vu que des modelisations adaptees faisaient intervenir des variables
latentes i.e. des variables dont seulement une partie de la realisation est observee.
2. Deux exemples types sont les modèles Logit et les modèles Probit. Ces deux modèles
sestiment par le maximum de vraisemblance et necessitent une etape doptimisation.
3. On a egalement presente les modèles Tobit. Ce sont des modèles dans lesquels on observe
une variable conditionnellement à la valeur prise par une autre variable.
4. La situation standard est celle dans laquelle il y a une variable dinteret et une variable
decrivant la selection.
5. Un exemple typique est celui du salaire : on nobserve le salaire que conditionnellement au
fait que le nombre dheures de travail soit strictement positif.
13.8. Resume 227
6. Ces modèles necessitent en general des hypothèses sur la loi des residus des equations de
selection et de la variable dinteret.
7. On fait en souvent lhypothèse de residus normaux. Dans ce cas le modèle peut etre estime
simplement soit par la methode du maximum de vraisemblance, soit par une methode
alternative, dite de Heckman. Cette methode donne simplement des estimateurs mais est
moins ecace que la methode de maximum de vraisemblance. Elle consiste à estimer
dabord un modèle Probit pour lequation de selection, puis à partir des estimations à
calculer un terme correctif dit ratio de Mills introduit ensuite dans la regression de la
variable dinteret.
8. Dans ces modèles à selection endogène il faut traiter la selection comme on traiterait
un regresseur endogène dans une equation lineaire. Il est ainsi necessaire de disposer
dune variable intervenant dans lequation de selection et nintervenant pas dans lequation
dinteret, faute de quoi les paramètres ne sont estimes que sur la non linearite de la forme
fonctionnelle.
9. Dierentes generalisations ont ete proposees pour obtenir des estimations avec des lois
plus generales que la loi normale. Le modèle de selection semiparametrique generalise ainsi
lapproche de Heckman. Une fonction polymeries de la probabilite de selection est ainsi
introduite au lieu du ratio de Mills. Ces modèles ne permettent pas en general lestimation
de la constante et necessitent une fois abandonnee lhypothèse de normalite lexclusion
dun regresseur de la liste des variables explicatives aectant la variable dinteret.
10. Enn on a presente succinctement les modèles de choix discrets qui orent une modelisation
de la situation dans laquelle un individu doit arbitrer entre plusieurs choix possibles.
Linteret de ces modèles est de presenter un lien etroit entre la theorie des choix et
leconometrie.
Annexe A
Rappels de statistiques
A.1 Calcul matriciel
A.1.1 Distribution de la norme de la projection dun vecteur normal
Considerons Z N (0, I
L
) , et P est un projecteur orthogonal sur un sous espace de dimen-
sion L
1
alors Z
PZ
2
(L
1
).
Lhypothèse sur P revient à dire que P est une matrice symetrique et que ses valeurs propres
sont 0 ou 1. Comme P est symetrique, on peut la diagonaliser dans le groupe orthogonal. On
peut donc ecrire P = Q
PQ, avec Q
Q = I
L
et

P = Diag( 1, . . . , 1
. .
L
1
elements non nuls
, 0, . . . 0)
On denit Z
= QZ.
Z
est aussi un vecteur normal N (0, I

L
) puisque
1. Cest un vecteur normal puisquil est combinaison lineaire dun vecteur normal
2. Il est desperance nulle puisque E (Z
) = E (QZ) = QE (Z) = 0
3. Il est de variance identite puisque V (Z
) = E (Z
) = E (QZZ
) = QE (ZZ
) Q
=
QI
L
Q
= QQ
= I
L
On a alors Z
PZ = Z
PQZ = Z
PZ
L
1
l=1
Z
2
l
. Cest donc la somme du carre de L
1
variables normales independantes de moyenne nulle et de variance 1. Par denition elle suit un
2
(L
1
)
A.1.2 Sphericisation
Proposition A.1 Pour toute matrice symetrique et denie positive W il existe une matrice
W
1/2
telle que
W
1/2
WW
1/2
= I
Cette matrice verie aussi
W
1/2
W
1/2
= W
1
Demonstration Comme W est symetrique denie positive, elle est diagonalisable dans le groupe orthogonal. Il
existe donc une matrice orthogonale P
_
P
P = P
1
P = I
_
telle que W = P
DP, o` u D est diagonale, les elements

de la diagonale etant strictement positifs puisque W est denie positive. On peut considerer W
1/2
= P
D
1/2
P,
o` u D
1/2
est la matrice diagonale dont les element diagonaux sont les inverses de la racine des elements diagonaux
de D. On a
229
230 Annexe A. Rappels de statistiques
W
1/2
WW
1/2
= P
D
1/2
PP
DPP
D
1/2
P
= P
D
1/2
DD
1/2
P = P
P = I
En outre si W
1/2
WW
1/2
= I, alors W
1/2
W
1/2
WW
1/2
W
1/2
= W
1/2
W
1/2
et donc WW
1/2
W
1/2
=
I do` u W
1/2
W
1/2
= W
1
A.2 Rappel sur les convergences

Soit (X
n
) une suite de variables aleatoires. Soit F
n
la fonction de repartition de X
n
. Soit X
une variable aleatoire de fonction de repartition F.
Toutes ces va sont denies sur le meme espace probabilise, cest à dire quun meme evenement
determine les valeurs des X
n
() pour tous les n et de X().
A.2.1 Denitions
Denition A.1 On dit que (X
n
) converge en probabilite vers X (X
n
P
X ou limplim
n
X
n
=
X) si
> 0, Pr [X
n
X[ >
n
0.
(NB : Pr [X
n
X[ > = Pr , [X
n
() X()[ > .)
Cette notion de convergence nous interessera pour la convergence ponctuelle des estimateurs.
Dans ce cas lelement est un etat de la nature qui engendre un nombre inni de realisation
du processus etudie. Les suites X
n
() sont les suites destimateurs que lon peut construire en
utilisant lechantillons des n premières observations du processus. La limite X est une constante.
La notion de convergence signie que pour nimporte quelle boule centree sur la limite, les
etats de la nature tels quil existe des estimateurs hors de la boule consideree pour des tailles
arbitrairement grandes des echantillons sont de mesure nulle.
n
) converge en moyenne quadratique vers X (X
n
mq
X ) si
E |X
n
X|
2
n
0.
Proposition A.2 La convergence en moyenne quadratique implique la convergence en proba-
bilite et la convergence en moyenne quadratique vers une constante resulte de la convergence
du moment dordre 1 vers cette constante et du moment dordre 2 vers 0 : E (X
n
) a, et
V (X
n
) 0
Demonstration La première partie resulte de linegalite de Bienayme-Tchebitchev
Pr {X
n
X > } <
E X
n
X
2
2
qui exprime simplement
E X
n
X
2
= E
_
X
n
X
2
|X
n
X >
_
Pr {X
n
X > }
+E
_
X
n
X
2
|X
n
X
_
Pr {X
n
X }

2
Pr {X
n
X > }
A.2. Rappel sur les convergences 231
la deuxième partie resulte de
E X
n
a
2
= E
_
(X
n
EX
n
)
(X
n
EX
n
)
_
+ (EX
n
a)
(EX
n
a)
= EX
n
a
2
+TraceV (X
n
)

n
) converge en loi vers X (X
n
L
X) si la suite des fonctions
de repartition associees (F
n
) converge, point par point, vers F la fonction de repartition de X
en tout point o` u F est continue :
x, F
n
(x) F(x).
A.2.2 Loi des Grands Nombres et Theorème Central Limite
On donne maintenant les deux theorèmes centraux sur lesquels reposent toutes les pro-
prietes asymptotiques des estimateurs usuels : la loi des grand nombre qui stipule que sous
des hypothèses assez faible la moyenne empirique converge en probabilite vers lesperance, et le
theorème central limite qui precise la loi de lecart entre la moyenne empirique et lesperance.
Proposition A.3 Loi des grands nombres (Chebichev) : Soit (x
i
) une suite de va independantes
telles que EX
i
= m
i
et V X
i
=
2
i
existent. On considère X
N
=
1
N
N
i=1
X
i
la moyenne empi-
rique si la variance de cette moyenne empirique tend vers 0,
N
=
1
N
2
N
i=1
2
i
0, alors
X
N
m
N
=
1
N
N
i=1
X
i
1
N
N
i=1
m
i
P
0 qd N .
Demonstration
1
N
N
i=1
X
i

1
N
N
i=1
m
i
=
1
N
N
i=1
(X
i
m
i
) . Pour montrer la convergence en probabilite
vers zero, il sut de montrer la convergence en moyenne quadratique vers 0, qui resulte de la convergence vers 0
de la variance. Ce qui est acquis par hypothèse.
Corollaire 1. Soit (X
i
) une suite de va independantes telles que EX
i
= m et V X
i
=
existent, alors
X
N
=
1
N
N
i=1
X
i
P
m qd N .
Demonstration La variance de la moyenne empirique est dans ce cas /N. Elle tend bien vers zero.
On peut etendre la loi faible des grands nombres au cas o` u les variables X
n
sont dans L
1
,
mais au prix dune demonstration beaucoup plus compliquee.
Proposition A.4 Soit (X
i
) une suite de va independantes et equidistribuees telles que EX
i
= m
et E [X
i
[ existent, alors
X
N
=
1
N
N
i=1
X
i
P
m qd N .
Proposition A.5 Theorème central limite (Lindeberg-Levy) : Soit (X
i
) une suite de variables
aleatoires independantes et equidistribuees telles que EX
i
= m et V X
i
= existent,
N
_
X
N
m
_
L
^(0, ).
Remarque A.1 On sait dej` a que E
_
N
_
X
N
m
_
_
= 0, et egalement que V
_
N
_
X
N
m
_
_
=
NV
_
X
N
_
= V (X
n
) . Le resultat important vient du fait que lon connat la loi de la moyenne
empirique dilatee
N
_
X
N
m
_
.
Demonstration La demonstration se fait à partir des fonctions caracteristiques. On appelle fonction caracteristique
dune variable aleatoire Z la fonction
Z
(t) = E
_
exp
_
it
Z
__
Les fonctions caracteristiques ont une propriete dinjectivite : si
Z
1
(t) =
Z
2
(t) alors F
Z
1
= F
Z
2
soit Z
1
d
= Z
2
.
On peut calculer la fonction de repartition dune loi normale
z N (0, )
z
(t) = exp
_
t
2
_
On a alors directement avec
n
(t) = E
_
exp it
N
_
N
i=1
X
i
N
m
__
n
(t) = E
_
exp
N
i=1
it
(X
i
m)
N
_
= E
_
i=n
i=1
exp
it
(X
i
m)
N
_
=
i=N
i=1
E
_
exp
it
(X
i
m)
N
_
=
_
E
_
exp
it
(X
i
m)
N
__
N
do` u lapproximation
n
(t)
_
E
_
1 +
it
(X
i
m)
1
2N
_
t
(X
i
m) (X
i
m)
t
_
__
N
=
_
1
1
2N
t
t
_
N
exp
t
t
2
Ce theorème est susant dans la majeure partie des cas. Neanmoins il fait lhypothèse
que les variables sont equidistribuees et quelles ont en particulier des moments dordre 1 et
2 identiques. Ce theorème peut etre reformule sous une autre forme. En eet E
_
X
n
_
= m et
V
_
X
n
_
= V/N. Le theorème ne stipule donc rien dautre que V
_
X
n
_
1/2
_
X
n
E
_
X
n
__
L
^ (0, 1) . L` a aussi on peut etendre le theorème centrale limite pour traite des cas plus generaux.
En particulier on peut obtenir un theorème de convergence pour des donnees independantes
mais non equidistribuees. Cest au prix dune condition supplementaire appelee condition de
Liapounov et qui concerne les moments dordre 3 de la variable.
Proposition A.6 Theorème central limite (Liapounov) : Soit (X
n
) une suite de variables aleatoires
independantes de moyenne
n
, de variance
2
n
et telle que w
3N
= E
_
[X
n
n
[
3
_
existent. Si
lim
_
N
1
w
3n
_
1/3
_
_
N
1

2
n
_
1/2
= 0 alors
V
_
X
n
_
1/2
_
X
n
E
_
X
n
__
L
^ (0, 1)
Remarque A.2 V
_
X
n
_
=
1
N
2
n
, cest ` a dire la variance moyenne divisee par N.
A.2. Rappel sur les convergences 233
Application A.1
Produit de lois normales
Application : On considère deux variables aleatoires z
1i
et z
2i
telles que E (z
1i
) = m
1
et
E (z
2i
) = 0. Alors pour un echantillon iid, par application de la loi des grands nombres, z
1i
P
m
1
et par application du theorème central limite
N z
2i
L
N (0, V
2
) . Par application du theorème
de Slutsky on a
Nz
1i
z
2i
L
N (0, m
1
V
2
m
1
)
A.2.3 Proprietes des operateurs de convergence
On donne maintenant dierents resultats, utiles lorsque lon souhaite deriver les proprietes
asymptotiques des estimateurs.
X
n
P
X X
n
L
X.
a constant, X
n
P
a X
n
L
a.
Pour toute fonction g continue, X
n
L
X g(X
n
)
L
g(X) et X
n
P
a g(X
n
)
P
g(a).
Proposition A.7 (Theorème de Slutsky). Si X
n
L
X et Y
n
P
a alors on a :
1. X
n
Y
n
L
Xa ;
2. X
n
+Y
n
L
X +a ;
3. X
n
/Y
n
L
X/a si a ,= 0.
A.2.4 Ordres en probabilite
Soit X
n
une suite de variable aleatoire et a
n
une suite de reel.
On dit que X
n
est un petit o de a
n
et on le note o (a
n
) si a
1
n
X
n
P
0. Ainsi par exemple,
X
n
est un o (1) si X
n
P
0, X
n
est un o (1/n) si nX
n
P
0.
On dit que X
n
est un grand O de a
n
et on le note O(a
n
) si a
1
n
X
n
est borne en
probabilite. Ceci signie que pour nimporte quel niveau de probabilite il existe une
valeur nie M
telle que les realisations de satisfaisant

_
_
a
1
n
X
n
_
_
< M
pour tout n
sont de mesure superieure à : n, P
__
_
a
1
n
X
n
_
_
< M
_
> . Ce qui signie que pour
nimporte quel niveau de probabilite aussi eleve soit il, on peut trouver une quantite
bornant a
1
n
X
n
avec probabilite uniformement en n. On peut aussi denir cette notion
à partir des fonction de repartition F
n
de |X
n
| : F
n
(t) = P (|X
n
| < t) . Dire que X
n
est
un grand O(a
n
) consiste à dire que pour tout niveau de probabilite , M
tel que n
F
n
(a
n
M
) > , soit a
1
n
F
1
n
() < M
. Donc X
n
= O(a
n
) si Sup
n
a
1
n
F
1
n
() < , o` u
encore, si , Sup
n
Q
n
() /a
n
< o` u Q
n
est la fonction de quantile.
Proposition A.8 Si X
n
L
X alors X
n
= O(1)
Demonstration On considère F (t) la fonction de repartition de |X| et F
n
(t) celle de |X
n
|. F
n
(t) converge en
tout point de continuite de F vers F. Pour donne, on peut denir M
1
() tel que F (M
1
()) = 2. Il existe
donc un n() tel que pour n > n() F
n
(M
1
()) > . Pour n < n() , on peut denir M
2
() = supp
n<n()
F
1
n
() .
On peut prendre pour M () le maximum de M
1
() et de M
2
() .
Proposition A.9 Si Y
n
= O(1) et X
n
= o (1) , alors Y
n
X
n
= o (1)
Demonstration
P (|X
n
Y
n
| > ) = P (|X
n
Y
n
| > ||Y
n
| > M ) P (|Y
n
| > M) +P (|X
n
Y
n
| > ||Y
n
| M ) P (|Y
n
| M)
< P (|Y
n
| > M) +P (|X
n
| > /M) = 1 P (|Y
n
| < M) +P (|X
n
| > /M)
Comme Y
n
est bornee en probabilite, on peut trouver M tel que P (|Y
n
| < M) > pour tout n et donc 1
P (|Y
n
| < M) < . Comme X
n
est un o (1) , P (|X
n
| > /M) 0
Proposition A.10 Si X
n
est un O(a
n
) alors X
n
est un o (a
n
b
n
) pour nimporte quelle suite b
n
tendant vers +.
Demonstration En eet M
tq P
__
_
a
1
n
X
n
_
_
> M
_
< i.e. P
__
_
a
1
n
b
1
n
X
n
_
_
> b
1
n
M
_
< , et b
1
n
M
0.
Pour donne il existe n() tel que pour n > n() b
1
n
M
< et donc P
__
_
a
1
n
b
1
n
X
n
_
_
>
_
< P
__
_
a
1
n
b
1
n
X
n
_
_
> b
1
n
M
_
<

Le theorème de Slutsky a une implication importante :
Denition A.4 Deux suites de variables aleatoires X
1n
et X
2n
sont dites asymptotiquement
equivalentes si X
1n
X
2n
P
0, i.e. X
1n
X
2n
= o (1) .
Corollaire du theorème de Slutsky : si X
1n
et X
2n
sont asymptotiquement equivalentes et
X
1n
L
X, alors X
2n
L
X
Demonstration Ceci resulte directement du fait que suivant le Theorème de Slutsky si X
1n
X
2n
P
0 et
X
1n
L
X alors X
2n
= X
1n
(X
1n
X
2n
)
L
X
On presente enn un dernier resultat très utile, qui permet dobtenir la loi dune combinaison
derivable quelconque de paramètres convergeant en loi.
Proposition A.11 (Methode delta). Pour toute fonction g continue, dierentiable, si
n(X
n
m)
L
N(0, ),alors
n(g(X
n
) g(m))
L
^
_
0,
_
g(m)
m
_
g(m)
m
_
.
Demonstration On a dabord X
n
P
m : puisque
N (X
N
m)
L
N(0, ),
N (X
N
m) = O(1) et donc
(X
N
m) = O
_
1/
N
_
= o (1). On applique le theorème de la valeur moyenne :
n
[0, 1] tq
g(X
n
) = g(m) +
g
m
(m+
n
(X
n
m)) (X
n
m) .
n(g(X
n
) g(m)) =
g
m
(m+
n
(X
n
m))
n(X
n
m)
m+
n
(X
n
m)
P
m donc Z
n
=
g
m
(m+
n
(X
n
m))
P
g
m
(m) .
Comme

n(X
n
m)
L
N(0, ), et Z
n
P
g
m
(m), on applique le theorème de Slutsky et on en deduit
n(g(X
n
) g(m)) = Z
n
n(X
n
m)
L
N
_
0,
_
g(m)
m
_
g(m)
m
_
.
Liste des Graphiques

3.1 Distribution de Student pour 5 et 500 degres de liberte . . . . . . . . . . . . . . . 27
3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions . 29
4.1 Resultats des estimations par les MCC . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Convergence en probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.1 Estimation de leet indirect de la contribution Delalande . . . . . . . . . . . . . 70
8.1 Estimateur des mco avec ecart-types robustes et standards . . . . . . . . . . . . . 95
8.2 Regression du carre du residu sur les variables et leurs produits croises . . . . . . 96
8.3 Regression du logarithme du carre du residu sur les variables et leurs produits
croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.4 Estimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.1 Dierents equilibre ore-demande . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
11.2 Condition de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
11.3 Estimation pas les MCO et le VI . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.4 Test de Sargan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
11.5 Test dexogeneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
11.6 Resultat sans la part des Robien . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.1 Regression par les MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
12.2 Regression de la variable dheure sur les exogènes et les instruments . . . . . . . 192
12.3 Regression par les variables instrumentales . . . . . . . . . . . . . . . . . . . . . . 192
12.4 Regression par la methode des moments generalisee . . . . . . . . . . . . . . . . . 193
12.5 Tests de specication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
12.6 Resultats Sectoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13.1 Estimation du modèle de participation des femmes . . . . . . . . . . . . . . . . . 207
13.2 Nuages de points et troncatures : dierentes congurations . . . . . . . . . . . . 210
13.3 Estimation de lequation de salaire avec et sans prise en compte de la selectivite,
avec et sans prise en compte des heures . . . . . . . . . . . . . . . . . . . . . . . 223
13.4 Estimation de lequation dore de travail avec et sans prise en compte de la
selectivite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
235
236 Liste des Graphiques
Liste des Tableaux
12.1 Conditions dorthogonalite et choix dune specication . . . . . . . . . . . . . . . 176
237
238 Liste des Tableaux
Liste des Applications
1 Introduction
2 Lestimateur des moindres carres ordinaires
3 Les MCO sous lhypothèse de normalite des perturbations
4 Estimation sous contraintes lineaires
5 Proprietes asymptotiques de lestimateur des MCO
5.1 Test de Student asymptotique de nullite dun paramètre à 5% . . . . . . . . . . . 56
5.2 Test asymptotique de nullite de lensemble des paramètres . . . . . . . . . . . . . 57
6 Evaluation : Les estimateurs de dierence
7 Le modèle lineaire sans lhypothèse dhomoscedasticite
7.1 Estimation MCQG du modèle à erreurs composees . . . . . . . . . . . . . . . . . 82
8 Le modele heteroscedastique en coupe
8.1 Correction de White dans les modèles de donnees de panel . . . . . . . . . . . . . 87
8.2 Test de Breush-Pagan dheteroscedasticite lineaire dans les explicatives . . . . . . 91
8.3 Estimation des MCQG dans le modèle en coupe . . . . . . . . . . . . . . . . . . . 93
9 Correlation des observations
9.1 Mise en uvre de lestimateur des MCQG dans les modèles empiles . . . . . . . 102
9.2 Stationnarite de processus classiques . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.3 Processus moyenne mobile dordre 1 MA(1) . . . . . . . . . . . . . . . . . . . . 107
9.4 Estimateur de Prais-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10 Evaluation : Regressions à variables de contr ole
239
240 Liste des Applications
11 Variables instrumentales
12 La Methode des moments generalisee
13 Variables dependantes limitees
A Rappels de statistiques
A.1 Produit de lois normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Table des Matières
Sommaire 3
1 Introduction 1
1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Modèle econometrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Le modèle lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Do` u vient le modèle ? - 1 de la theorie economique . . . . . . . . . . . . . 3
(i) Fonction de production . . . . . . . . . . . . . . . . . . . . . . . 3
(ii) Demande de facteurs . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Lestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Pourquoi estimer le modèle ? . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.5 Do` u vient le modèle ? - 2 de relations stochastiques . . . . . . . . . . . . 7
1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Lestimateur des moindres carres ordinaires 11
2.1 Denition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Denition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Interpretation geometrique . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Theorème de Frish-Waugh . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Modèle et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Quand lestimateur des mco est-il sans biais ? . . . . . . . . . . . . . . . . 14
2.2.2 Quelle est la precision de lestimateur des mco ? . . . . . . . . . . . . . . . 15
2.2.3 Lestimateur des mco est-il le plus precis : le theorème de Gauss-Markov . 16
2.2.4 Estimation des paramètres du second ordre . . . . . . . . . . . . . . . . . 17
2.2.5 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Les MCO sous lhypothèse de normalite des perturbations 21
3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Ecart-types estimes, tests et intervalles de conance . . . . . . . . . . . . . . . . 23
3.2.1 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
241
242 Table des Matières
3.2.2 Un resultat central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.3 Intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.4 Tests de la forme
b = . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29
3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Estimation sous contraintes lineaires 31
4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 34

b
mcc
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2
. . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37
4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39
4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40
4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.8.1 Un test en deux etapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.8.2 Test de la nullite globale des paramètres . . . . . . . . . . . . . . . . . . . 43
4.8.3 Le Test de Chow de stabilite des paramètres . . . . . . . . . . . . . . . . 44
4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Proprietes asymptotiques de lestimateur des MCO 47
5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49
5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Test dhypothèses lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 54
(i) Test de Student asymptotique . . . . . . . . . . . . . . . . . . . 54
(ii) Test de Wald dune hypothèse multi-dimensionnelle. . . . . . . 56
5.2.3 Test dhypothèses non lineaires . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 Evaluation : Les estimateurs de dierence 61
6.1 Le Modèle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.1 Choix de la variable dinteret et choix de letat de reference . . . . . . . . 63
6.1.2 Paramètres dinteret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.3 Biais de selectivite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Lestimateur des Dierences de Dierences . . . . . . . . . . . . . . . . . . . . . . 66
6.2.1 Estimateur en coupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.2 Estimateur Avant-Après . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.2.3 Estimateur par dierence de dierence. . . . . . . . . . . . . . . . . . . . 67
6.2.4 Exemple : La Contribution Delalande . . . . . . . . . . . . . . . . . . . . 69
7 Le modèle lineaire sans lhypothèse dhomoscedasticite 71
7.1 Le modèle heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.1.1 Modèle à coecients aleatoires . . . . . . . . . . . . . . . . . . . . . . . . 72
7.1.2 Series temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.1.3 Modèle heteroscedastique en coupe . . . . . . . . . . . . . . . . . . . . . . 74
7.1.4 Donnees de panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.1.5 Regressions empilees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77
7.2.1 La methode des Moindres Carres Generalises . . . . . . . . . . . . . . . . 78
7.2.2 Proprietes de lestimateur des MCG . . . . . . . . . . . . . . . . . . . . . 79
7.2.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
(i) Sphericisation du modèle heteroscedastique en coupe. . . . . . . 80
(ii) Sphericisation du modèle à perturbation AR(1). . . . . . . . . . 80
(iii) Sphericisation du modèle à erreurs composees. . . . . . . . . . . 80
7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8 Le modele heteroscedastique en coupe 85
8.1 Inference robuste à lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 86
8.1.1 Estimation robuste à lheteroscedascticite . . . . . . . . . . . . . . . . . . 86
8.1.2 Test dhypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.1.3 Estimation sous contraintes lineaires . . . . . . . . . . . . . . . . . . . . . 88
8.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9 Correlation des observations 99
9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99
9.1.1 Estimation robuste à la correlation entre obervations . . . . . . . . . . . . 100
9.1.2 Estimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.1.3 Methode des MCG dans les modèles de regressions empilees . . . . . . . . 103
9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104
9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 106
9.3.1 Perturbations suivant une moyenne mobile dordre q MA(q) . . . . . . . 106
9.3.2 Perturbations suivant un processus autoregressif AR . . . . . . . . . . . 108
(i) Perturbations suivant un processus autoregressif dordre 1 AR(1)108
(ii) Perturbations suivant un processus autoregressif dordre p AR(p)109
9.3.3 Perturbations suivant un processus ARMA(p,q) . . . . . . . . . . . . . . . 110
9.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111
9.4.1 Estimateur de Newey-West . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.4.2 Estimation du modèle à perturbations AR(1) . . . . . . . . . . . . . . . . 113
(i) Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . 114
(ii) Mise en uvre des MCQG : lestimateur de Prais-Watson . . . . 116
(iii) Detection de lautocorrelation . . . . . . . . . . . . . . . . . . . 118
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10 Evaluation : Regressions à variables de contr ole 123
10.1 Independance conditionnelles à des observables . . . . . . . . . . . . . . . . . . . 123
10.1.1 Identication sous lhypothèse dindependance conditionnelles à des ob-
servables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10.1.2 Le score de propension (propensity score) . . . . . . . . . . . . . . . . . . 124
10.1.3 Methodes destimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
(i) Regression : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
(ii) Appariement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
(iii) Ponderations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
10.1.4 Vraisemblance de lhypothèse dindependance conditionnelle à des obser-
vables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
(i) Prise en compte deets individuels : lapport de donnees tem-
porelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
(ii) Selection des observables . . . . . . . . . . . . . . . . . . . . . . 131
(iii) Problème de support . . . . . . . . . . . . . . . . . . . . . . . . 132
10.2 Le modèle de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134
10.2.1 Expression des paramètres dinteret dans le cas general . . . . . . . . . . 135
10.2.2 Le cas Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10.2.3 Des extensions parametriques simples . . . . . . . . . . . . . . . . . . . . 138
(i) Loi quelconque donnee pour le residu de lequation de selection. 138
(ii) Des lois plus generales que la loi normale . . . . . . . . . . . . . 138
10.2.4 Le modèle de selection semi parametrique. . . . . . . . . . . . . . . . . . . 139
(i) Identication des paramètres . . . . . . . . . . . . . . . . . . . 140
(ii) Identication des constantes et des termes de biais de selectivite
K
0
et K
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
11 Variables instrumentales 143
11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 144
11.1.1 Erreur de mesure sur les variables . . . . . . . . . . . . . . . . . . . . . . 144
11.1.2 Simultaneite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
11.1.3 Omission de regresseurs, heterogeneite inobservee . . . . . . . . . . . . . . 145
11.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146
11.2.1 Modèle à variables endogènes et non convergence de lestimateur des mco 146
11.2.2 Resoudre le problème de lidentication par lutilisation de variables ins-
trumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.3 Identication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
11.2.4 Moindres carres indirects . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.2.5 Propriete asymptotiques des estimateurs des MCI . . . . . . . . . . . . . 151
11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152
11.3.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . . . . 152
11.3.2 Lestimateur optimal comme estimateur des doubles moindres carres . . . 153
11.3.3 Cas des residus heteroscedastiques . . . . . . . . . . . . . . . . . . . . . . 154
i
x
i
) = K + 1 . . . . . . . . . . . . . . 155
11.5 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.5.1 Idee du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.5.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
11.5.3 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161
11.6.1 Interet et idee du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
11.6.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
(i) Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . 161
(ii) Test dexogeneite par le biais de la regression augmentee . . . . 163
11.7 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.7.1 Reduction du temps de travail et gains de productivite . . . . . . . . . . . 163
11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12 La Methode des moments generalisee 169
12.1 Modèle structurel et contrainte identiante : restriction sur les moments . . . . . 169
12.2 Denir un modèle par le biais de conditions dorthogonalite . . . . . . . . . . . . 171
12.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . 171
12.2.2 Modèle desperance conditionnelle, moindres carres non lineaires . . . . . 172
12.2.3 Methode à variables instrumentales pour une equation seule . . . . . . . . 172
12.2.4 Methode à variables instrumentales pour un système d equations. . . . . 173
12.2.5 Leconometrie des donnees de panel . . . . . . . . . . . . . . . . . . . . . 173
(i) Exogeneite forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
(ii) Eets correles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
(iii) Exogeneite faible . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
(iv) Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178
12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
12.5.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . . . . 180
12.5.2 Mise en oeuvre de lestimateur optimal : deux etapes . . . . . . . . . . . . 180
12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181
12.6.1 Variables instrumentales dans un système dequations - cas general . . . . 181
(i) Verication des hypothèses de convergence des estimateurs GMM181
(ii) Expression de la matrice de variance des conditions dorthogo-
nalite : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
(iii) Mise en oeuvre de lestimation . . . . . . . . . . . . . . . . . . . 182
12.6.2 Regression VI dans un système homoscedastique . . . . . . . . . . . . . . 182
12.6.3 Application aux donnees de panel . . . . . . . . . . . . . . . . . . . . . . 183
12.6.4 Estimateur VI optimal dans le cas univarie et heteroscedastique . . . . . . 185
12.7 Test de specication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.7.1 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.7.2 Tester la compatibilite de conditions dorthogonalite additionnelles . . . . 187
12.7.3 Application test de suridentication et dexogeneite pour un estimateur à
variables instrumentales dans le cas univarie et heteroscedastique . . . . . 188
(i) Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . 188
(ii) Test dexogeneite des variables explicatives. . . . . . . . . . . . . 188
12.7.4 Application aux donnees de panel . . . . . . . . . . . . . . . . . . . . . . 189
12.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.8.1 Reduction du temps de travail et gains de productivite . . . . . . . . . . . 190
12.8.2 Salaires et heures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13 Variables dependantes limitees 197
13.1 Modèle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
13.1.1 Modèle à probabilites lineaires . . . . . . . . . . . . . . . . . . . . . . . . 198
13.1.2 Les modèles probit et logit. . . . . . . . . . . . . . . . . . . . . . . . . . . 199
(i) Eet marginal dune variation dun regresseur continu x . . . . . 200
13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.3 Estimation des modèles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202
13.3.1 Conditions de 1er ordre pour la maximisation . . . . . . . . . . . . . . . . 203
13.3.2 Derivees secondes de la log-vraisemblance - condition de concavite . . . . 204
13.3.3 Matrice de variance-covariance de

b . . . . . . . . . . . . . . . . . . . . . . 205
13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206
13.5 Selectivite : le modèle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.5.1 Presentation de la selectivite . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.5.2 Rappels sur les lois normales conditionnelles. . . . . . . . . . . . . . . . . 211
(i) Densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
(ii) Moments dune variable normale tronquee par une autre variable
normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
13.6 Estimation du modèle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.6.1 Pourquoi ne pas estimer un modèle Tobit par les MCO? . . . . . . . . . . 214
13.6.2 Estimation par le maximum de vraisemblance . . . . . . . . . . . . . . . . 215
13.6.3 Estimation en deux etapes par la methode dHeckman . . . . . . . . . . . 216
13.6.4 Des extensions parametriques simples . . . . . . . . . . . . . . . . . . . . 217
(i) Loi quelconque donnee pour le residu de lequation de selection. 217
(ii) Des lois plus generales que la loi normale . . . . . . . . . . . . . 218
13.6.5 Le modèle de selection semi parametrique. . . . . . . . . . . . . . . . . . . 219
13.6.6 Illustration : le modèle dore de travail dHeckman . . . . . . . . . . . . 221
13.7 Modèles de choix discrets : le Modèle Logit Multinomial . . . . . . . . . . . . . . 224
13.7.1 Estimation du modèle logit multinomial : . . . . . . . . . . . . . . . . . . 225
13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
A Rappels de statistiques 229
A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.1.1 Distribution de la norme de la projection dun vecteur normal . . . . . . . 229
A.1.2 Sphericisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
A.2.1 Denitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
A.2.2 Loi des Grands Nombres et Theorème Central Limite . . . . . . . . . . . 231
A.2.3 Proprietes des operateurs de convergence . . . . . . . . . . . . . . . . . . 233
A.2.4 Ordres en probabilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Liste des Graphiques 235
Liste des Tableaux 237
Liste des Applications 239

Econometrie Applique Cours

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Econometrie Applique Cours

Enviado por

Direitos autorais:

Formatos disponíveis

Econom

et sont des paramètres à estimer. On remarque immediatement que le modèle ainsi

1.2.5 Do` u vient le mod`ele ? - 2 de relations stochastiques

(y xb)) = 0 appelees intuitivement conditions dorthogonalite dont on verra

gouvernent lobservation de la variable I et de la variable y :

, des coecients de la combinaison lineaire de e, x

x est denie positive. La condition

Demonstration Les coecients de la regression de y sur x =

E (u|x) . Comme E (u|x) = 0

|x) a pour elements n, m E (u

x joue un role central dans la variance de lestimateur. On

N. Lorsque la taille de lechantillon est multipliee par 4 lecart-type nest divise

, cest `a dire que V

compte tenu de lhypoth`ese cruciale V (u|x) =

est necessairement semi-denie negative

Exemple 1 Application ` a la prevision. On consid`ere le mod`ele y

une fa con tr`es voisine du R

u. Finalement on peut specier la loi jointe des residus estimes et de lestimateur

u/ (N K 1) sont donc independants.

b. En eet, on trouve directe-

(W) denie sur

((y)). On la note (, ) . Dans cette notation, represente

et sexprime simplement ` a partir de

multiplicateur de Lagrange : vecteur de dimension p 1

reintroduit dans on trouve lexpression de

. Comme les contraintes sont non redondantes, et = 0, on

En developpant, compte tenu des proprietes de H

Le resultat provient de lexpression H(x

4.4 Estimateur de la variance des residus

est un projecteur orthogonal sur un sous espace

4.5 Loi de lestimateur des moindres carres contraints

. On verie donc sans peine que

secrit donc simplement :

x est non singuli`ere ;

N qui est une matrice constante. En revanche

b r > 0. On denit la region critique comme : W =

= R. On retrouve donc la condition sur le rang

, on obtient le resultat par application du theor`eme de Slutsky.

et on proc`ede comme dans le cas dune contrainte lineaire.

Remarque 6.3 On voit en outre que

. Le terme derreur `a la date t subit donc linuence

. De simples manipulations permettent de montrer que le terme derreur u peut

. On determine facilement la matrice de variance

Proposition 7.2 (Proprietes asymptotiques.) Sous les hypoth`eses H

x ne serait pas inversible. Comme est inversible on a en outre (xa)

Proposition 7.6 (Th. de Gauss Markov) Sous les hypoth`eses H

. Les matrices W et B sont symetriques et

) 1. Par denition, cette matrice permet de sphericiser le mod`ele

) 1. Le param`etre est inconnu. Il existe cependant plusieurs fa cons

b). La seule dierence

La presence dheteroscedasticite dans le mod`ele ne modie pas lexpression de lestimateur,

8.2. Test dheteroscedasticite de Breush-Pagan 89

b) do` u lon deduit que z

b) = o(1), il vient que z

). Le mod`ele est donc etudie sous les hypoth`eses

Construction dun estimateur de

. On peut donc ecrire

. Pour tout s > q, on a : E(u

Ce terme ne depend que de s, conrmant donc la stationnarite du processus `a lordre 2.

. Cette quantite ne depend pas de t. Linegalite de Cauchy etablit en outre que

. Comme dans le cas de processus moyenne mobile,

y, est sans biais, convergent et asymptotiquement normal.

x secrit dans le cas dune seule

() de cette loi, tel que : P(d