Escolar Documentos
Profissional Documentos
Cultura Documentos
;
elles seront similaires pour les individus du m eme groupe mais
diff erentes entre les groupes.
Lh et erosc edasticit e se rencontre lorsque les donn ees sont agr eg ees,
cest-` a-dire lorsque chaque observation est la moyenne de donn ees
micro economiques telles que pour une r egion ou un Etat.
1.1 Lh et erosc edasticit e li ee ` a une echelle de grandeur.
La variance des erreurs d epend dune certaine echelle de grandeur
(ex: dispersion dans la consommation des m enages ou des in-
vestissements pour les entreprises) :
2
i
z
i
z
i
est une variable repr esentant l echelle de grandeur de la i` eme
unit e
il ne faut estimer que
z
i
le choix de z
i
et permettra de d enir lestimateur des moin-
dres carr es quasi g en eralis es ` a utiliser.
1.1.1 Test de lh et erosc edasticit e li ee ` a l echelle de grandeur
Apr` es avoir fait la r egression des moindres carr es ordinaires, on
peut faire un test dh et erosc edasticit e en prenant les r esidus de
la r egression.
H
0
: V ar[|X] =
2
(1)
Sous lhypoth` ese nulle, la variance conditionnelle des erreurs ne
d epend pas des variables explicatives.
Etant donn e que
E[] = 0
cette hypoth` ese nulle est equivalente ` a
E[
2
|X] =
2
|X] =
avec
=
2
I
N
En revanche, la m ethode des moindres carr es g en eralis es (MCG
ou GLRM - generalized linear regression model) permet de pren-
dre en compte les cons equences des erreurs non i.i.d sur lestimation
de la matrice de covariance des coefcients
.
Lorsque
=
2
I
N
, lestimateur des MCO de est sans biais,
de variance minimale et distribu e selon une loi normale lorsque les
echantillons sont grands, mais ils ne sont plus efcaces :
= (X
X)
1
X
y
= (X
X)
1
X
(X + )
= + (X
X)
1
X
E[
] = 0
etant donn e lhypoth` ese desp erance conditionnelle nulle des er-
reurs, la variance de lestimateur (conditionnel ` a X) s ecrit :
V ar[
|X] = E[(X
X)
1
X
X(X
X)
1
] (3)
= (X
X)
1
(X
X)(X
X)
1
(4)
La matrice des variances-covariances des estimateurs dans le cas
des MCO est egale ` a
2
(X
X)
1
avec
2
=
2
I
N
, cet estimateur de la matrice des variances-
covariances des estimateurs nest pas de variance minimale et
la proc edure destimation habituelle nest plus appropri ee. On ne
peut plus utiliser les tests dhypoth` eses et les intervals de conance
donn es par les MCO avec la commande regress dans Stata.
2.1 Les types de violation de lhypoth` ese i.i.d.
La m ethode des moindres carr es g en eralis es - MCG - permet de
consid erer des mod` eles pour lesquels
=
2
I
N
. Trois cas partic-
uliers peuvent etre consid er es comme pr ec edemment :
1. Pure h et erosc edasticit e
Lorsquil y a h et erosc edasticit e pure,
= E(
N
) =
_
2
1
0 . . . 0
0
2
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
N
_
_
Exemple : lorsque lon utilise des donn ees sur les m enages, la
variance des erreurs pour les individus ` a revenu elev e est plus
grande que la variance des erreurs pour les bas revenus.
2. Le regroupement dobservations
Les observations peuvent etre regroup ees en plusieurs groupes
s epar es, aussi appel es clusters au sein desquels les erreurs sont
corr el ees. Le regroupement a pour cons equence de rendre la
matrice
=
_
1
0 . . . 0
0
m
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
M
_
m
repr esente une matrice de covariance intra-cluster. Pour
chaque groupe (ou cluster) m constitu e de
m
observations,
m
sera de taille
m
m
. La covariance nulle entre les observa-
tions des M diff erents clusters donne ` a la matrice de covariance
=
2
_
1
1
. . .
2N1
1
1 . . .
2N3
.
.
.
.
.
.
.
.
.
.
.
.
N1
2N3
. . . 1
_
1
,
2
, . . . ,
[N(N1)]/2
repr esentent les corr elations entre les el ements
successifs des erreurs. Ce cas viole egalement lhypoth` ese de
distribution ind ependante des erreurs .
2.2 Un estimateur robust de la matrice des variance-covariances
des estimateurs
Lestimateur de Huber-White-sandwich de la variance permet
dappliquer une approche robuste aux erreurs qui sont condition-
nellement h et erosc edastiques.
Il nous faut estimer le terme (X
E[
X)
1
.
V ar[
|X] = (X
X)
1
(X
X)(X
X)
1
] (5)
= (X
X)
1
(X
E[
|X]X)(X
X)
1
(6)
Hubert (1967) et White (1980) ont montr e que
S
0
=
1
N
N
i=1
2
i
x
i
x
i
(7)
permet destimer (X
E[
|X]X) lorsque
i
est conditionnellement
h et erosc edastique.
Si lon substitue lestimateur (7) ` a son equivalent pour la popu-
lation ` a partir de (5), on obtient un estimateur de la matrice de
variance covariance des erreurs robuste.
V ar[
|X] =
N
N k
(X
X)
1
_
_
_
N
i=1
2
i
X
i
X
i
_
_
_
(X
X)
1
(8)
Loption robust dans stata applique lestimateur sandwich. Lorsque
lon calcule des ecart-types robustes cela affecte les ecart-types
des coefcients mais pas leur estimation
.
Le F de la table de lANOVA sera supprim ee de m eme que le
R
2
ajust e parce quaucun des deux nest plus valide apr` es cette
proc edure. Si lhypoth` ese dhomosc edasticit e est valide, le simple
estimateur de la matrice de variance et covariance est plus efcace
que celui de la version robuste.
1. Pour un echantillon de taille modeste avec homosc edasticit e,
on a plut ot int er et ` a utiliser la proc edure simple et voir dans
quelle mesure les estimations sont fragiles ou non.
2. Pour de grands echantillons, il est devenu courant dutiliser
syst ematiquement des estimateurs robustes pour la matrice de
variance-covariance.
2.2.1 Application
Soit des observations dune base de donn ees (fertil2) qui contient
des donn ees pour 4.361 femmes vivant dans des pays en voie de
d eveloppement. Nous souhaitons mod eliser le nombre denfants
quelles ont mis au monde ceb pour chaque femme en fonction de
leur age age, leur age lors de la premi` ere naissance (agefbrth),
dun indicateur dusage dun moyen contraceptif (usemeth)
2
.
2
Dans la mesure o` u la variable d ependante est un entier, il faudrait appliquer une proc edure de Poisson, mais dans ce cas, nous utiliseront une r egression lin eaire
. use http://www.stata-press.com/data/imeus/fertil2, clear
. regress ceb age agefbrth usemeth
Source | SS df MS Number of obs = 3213
----------+------------------------------ F( 3, 3209) = 1433.16
Model | 9202.53439 3 3067.51146 Prob > F = 0.0000
Residual | 6868.49331 3209 2.14038433 R-squared = 0.5726
----------+------------------------------ Adj R-squared = 0.5722
Total | 16071.0277 3212 5.00343328 Root MSE = 1.463
---------------------------------------------------------------------------
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .003448 64.89 0.000 .2169763 .2304974
agefbrth | -.2606634 .0087954 -29.64 0.000 -.2779085 -.2434184
usemeth | .1873702 .0554298 3.38 0.001 .0786888 .2960516
_cons | 1.358134 .1737828 7.82 0.000 1.017397 1.69887
---------------------------------------------------------------------------
. estimates store nonRobust
. summarize ceb age agefbrth usemeth children if e(sample)
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
ceb | 3213 3.230003 2.236836 1 13
age | 3213 29.93931 7.920432 15 49
agefbrth | 3213 19.00498 3.098121 10 38
usemeth | 3213 .6791161 .4668889 0 1
children | 3213 2.999378 2.055579 0 13
On apprend que les femmes ont en moyenne 30 ans, quelles ont
eu leur premier enfant ` a 19 ans et quelles ont donn e naissance ` a
3,2 enfants en moyenne et quun peu moins de 3 enfants vivent
dans le m enage.
Lusage de la contraception est suppos e r eduire le nombre denfants
mis au monde par une femme.
On proc` ede ` a lestimation du mod` ele par la m ethode robuste et
on sauvegarde les r esultats X
E[
|X]X.
. regress ceb age agefbrth usemeth, robust
Linear regression Number of obs = 3213
F( 3, 3209) = 874.06
Prob > F = 0.0000
R-squared = 0.5726
Root MSE = 1.463
----------------------------------------------------------------------------
| Robust
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .0046619 47.99 0.000 .2145962 .2328775
agefbrth | -.2606634 .0095616 -27.26 0.000 -.2794109 -.2419159
usemeth | .1873702 .0606446 3.09 0.002 .0684642 .3062762
_cons | 1.358134 .1675624 8.11 0.000 1.029593 1.686674
----------------------------------------------------------------------------
. estimates store Robust
. estimates table nonRobust Robust, se t style(oneline) title(Estimates
of CEB with OLS and Robust standard errors)
Estimates of CEB with OLS and Robust standard errors
----------------------------------------
Variable | nonRobust Robust
-------------+--------------------------
age | .22373685 .22373685
| .00344802 .00466191
| 64.89 47.99
agefbrth | -.26066343 -.26066343
| .00879535 .00956162
| -29.64 -27.26
usemeth | .18737022 .18737022
| .0554298 .06064456
| 3.38 3.09
_cons | 1.3581336 1.3581336
| .17378284 .16756239
| 7.82 8.11
----------------------------------------
legend: b/se/t
Contrairement ` a nos attentes, lusage dun contraceptif ne sem-
ble pas avoir deffet n egatif sur le nombre denfants n es alors m eme
que la variable apparat signicative. Par ailleurs, il ne semble pas
y avoir de diff erence notable entre la r egression robuste et la simple
r egression indiquant quil ny a pas dh et erosc edasticit e condition-
nelle.
3 Lestimateur des matrices de variances-covariances pour les
regroupements
Stata propose un estimateur robuste de la matrice des variances-
covariances des coefcients lorsque les erreurs sont corr el ees au
sein des groupes et non distribu ees de mani` ere ind ependante.
Cet estimateur est quali e de cluster-robust-VCE estimator.
La corr elation au sein des groupes produit une matrice
qui
est diagonale par blocs avec des el ements diff erents de z ero au
sein de chaque bloc sur la diagonale. Cette construction permet
lautocorr elation au sein des groupes mais les erreurs des diff erents
groupes ne sont pas corr el ees.
Lorsque lon ignore les corr elations au sein des groupes, les es-
timations produisent des estimateurs des variance-covariances non
convergents. Dans la mesure o` u lestimation robust de la matrice
des variance-covariances suppose que les erreurs sont distribu ees
de mani` ere ind ependante, son estimation (X
E[
|X] =
N 1
N k
M
M 1
(X
X)
1
_
_
_
M
j=1
j
j
_
_
_
(X
X)
1
(9)
o` u M repr esente le nombre de clusters,
j
=
N
k
i=1
i
x
i
, N
j
repr esente
le nombre dobservations du j` eme cluster,
i
est alors le i` eme r esidu
du j` eme cluster, et x
i
un vecteur de regresseurs de taille 1 k de la
i` eme observation du j` eme cluster.
3.0.2 Application
La variable de cluster children, indique le nombre denfants qui
vivent dans le m enage. On suppose que les erreurs des m enages
de taille similaire seront corr el ees entre elles, mais quelles seront
ind ependantes pour des m enages de taille diff erente.
. regress ceb age agefbrth usemeth, cluster(children)
Linear regression Number of obs = 3213
F( 3, 13) = 20.91
Prob > F = 0.0000
R-squared = 0.5726
Number of clusters (children) = 14 Root MSE = 1.463
---------------------------------------------------------------------------
| Robust
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .0315086 7.10 0.000 .1556665 .2918071
agefbrth | -.2606634 .0354296 -7.36 0.000 -.3372045 -.1841224
usemeth | .1873702 .0943553 1.99 0.069 -.016472 .3912125
_cons | 1.358134 .4248589 3.20 0.007 .4402818 2.275985
Lestimateur qui permet la corr elation des erreurs au sein des
clusters conduit ` a des ecart-types plus larges (et des t plus petits)
que dans le cas pr ec edent.
3.1 Lestimateur Newey-West de la matrice de variance-convariance
En pr esence dh et erosc edasticit e et dautocorr elation, il est pos-
sible dutiliser lestimateur Newey-West (1987). Cet estimateur a
la m eme forme que lestimateur robuste pour les clusters, mais il
utilise un estimateur diff erent pour (X
E[
Q =
S
0
+
1
T
l
l=1
T
t=l+1
l
t
t1
(x
t
x
tl
+ x
t+x
t
)
o` u
S
0
est lestimateur robust de la matrice de variances-covariances,
t
est le t` eme r esidu et x
t
est la t` eme ligne de la matrice des re-
gresseurs. La forme de Newey-West prend un nombre sp ecique
L pour engendrer les poids :
l
= 1
l
L + 1
La r` egle est de choisir L =
4
N.
Cet estimateur HAC (-heteroskedastic and autocorrelation con-
sistent) est disponible dans Stata ` a laide de la commande newey.
3.1.1 Application
Prenon lexemple dune base de donn ees mensuelle portant sur les
taux dint er et ` a court et long terme, allant de 1952, 3` eme mois ` a
1995, 12` eme mois.
. use http://www.stata-press.com/data/imeus/ukrates, clear
. summarize rs r20
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
rs | 526 7.651513 3.553109 1.561667 16.18
r20 | 526 8.863726 3.224372 3.35 17.18
Le mod` ele exprime la variation du taux dint er et ` a court terme
rs, qui est ici linstrument de politique mon etaire de la Banque
dAngleterre, comme une fonction de la variation mensuelle du
taux dint er et de long terme r20. Les variables sont obtenues ` a
laide des op erateurs D. et L.
Le tableau ci-dessous donne un exemple pour la variable r20.
. list r20 l20 d20 ld20
+---------------------------------------+
| r20 lr20 dr20 ldr20 |
|---------------------------------------|
1. | 4.33 . . . |
2. | 4.23 4.33 -.0999999 . |
3. | 4.36 4.23 .1300001 -.0999999 |
4. | 4.57 4.36 .21 .1300001 |
5. | 4.36 4.57 -.21 .21 |
|---------------------------------------|
6. | 4.11 4.36 -.25 -.21 |
7. | 4.2 4.11 .0899997 -.25 |
8. | 4.19 4.2 -.0099998 .0899997 |
9. | 4.15 4.19 -.04 -.0099998 |
10. | 4.22 4.15 .0699997 -.04 |
|---------------------------------------|
11. | 4.13 4.22 -.0899997 .0699997 |
12. | 4.1 4.13 -.0300002 -.0899997 |
On estime le mod` ele avec la m ethode des MCOet avec la m ethode
Newey-West. Comme il y a 524 observations, la r` egle pour d eterminer
les d ecalages recommande de prendre 5 ( L =
4
524) d ecalages.
. regress D.rs LD.r20
Source | SS df MS Number of obs = 524
----------+------------------------------ F( 1, 522) = 52.88
Model | 13.8769739 1 13.8769739 Prob > F = 0.0000
Residual | 136.988471 522 .262430021 R-squared = 0.0920
----------+------------------------------ Adj R-squared = 0.0902
Total | 150.865445 523 .288461654 Root MSE = .51228
---------------------------------------------------------------------------
D.rs | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
r20 |
LD. | .4882883 .0671484 7.27 0.000 .356374 .6202027
_cons | .0040183 .022384 0.18 0.858 -.0399555 .0479921
---------------------------------------------------------------------------
. estimates store nonHAC
. newey D.rs LD.r20, lag(5)
Regression with Newey-West standard errors Number of obs = 524
maximum lag: 5 F( 1, 522) = 36.00
Prob > F = 0.0000
---------------------------------------------------------------------------
| Newey-West
D.rs | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
r20 |
LD. | .4882883 .0813867 6.00 0.000 .3284026 .648174
_cons | .0040183 .0254102 0.16 0.874 -.0459004 .0539371
---------------------------------------------------------------------------
. estimates store NeweyWest
. estimates table nonHAC NeweyWest, b(%9.4f) se(%5.3f) t(%5.2f) title(
Estimation de D.rs avec les ecart-types MCO et Newey-West)
Estimation de D.rs avec les ecart-types MCO et Newey-West
--------------------------------------
Variable | nonHAC NeweyWest
-------------+------------------------
LD.r20 | 0.4883 0.4883
| 0.067 0.081
| 7.27 6.00
_cons | 0.0040 0.0040
| 0.022 0.025
| 0.18 0.16
--------------------------------------
legend: b/se/t
Les ecart-types sont plus grands dans le cas Newey-West que pour la methode
des MCO, les coefficients restent neanmoins significatifs.
4 Lestimateur des moindres carr es g en eralis es
Alors que lestimateur robuste utilise le coefcient des MCO et
calcule un estimateur pour la matrice des variance-covariances,
lestimateur des moindres carr es quasi g en eralis es permet en plus
de d eterminer une estimation du coefcient plus efcace.
y = X +
E[
|X] =
est d eni sym etrique et positif, ce qui implique que son inverse
= P
on obtient,
P
y = P
X + P
(10)
y
= X
(11)
avec
V ar[
] = E[
] = P
P = I
N
A partir dune matrice
connue, la r egression de y
sur X
est
asymptotiquement efcace suivant le th eor` eme de Gauss-Markov.
Cet estimateur est simplement une r egression lin eaire stan-
dard sur les donn ees transform ees :
GLS
= (X
)
1
(X
)
La matrice de variances-covariances de lestimateur des moindres
carr es g en eralis es
GLS
s ecrit :
V ar[
GLS
|X] = (X
X)
1
4.1 Lestimation dans le cas de lh et erosc edasticit e li ee ` a l echelle
de grandeur
Il faut estimer la matrice
i
=
0
+
1
x
i1
+ . . . +
k
x
ik
+
i
(14)
o` u
= 1/z
i
.
La signication economique des coefcients dans l equation
transform ee na pas chang e;
2
et son estimation
2
repr esentent
toujours y/x
2
.
Dans la mesure o` u la variable d ependante a et e transform ee,
les mesures telles que le R
2
ne sont plus comparables ` a ceux
dorigine. En particulier, l equation transform ee na pas de con-
stante.
Dans ce context, les moindres carr es quasi g en eralis es peuvent
etre estim es ` a laide des moindres carr es pond er es. La trans-
formation consiste ` a pond erer chaque observation (dans ce cas, il
sagit duns pond eration analytique -analytical weights (aw) 1/z
2
i
).
4.1.1 Application
On reprend lexemple de lestimation de la valeur m ediane dun
logement dans lagglom eration de Boston.
. generate rooms2 = rooms2
. regress lprice rooms crime ldist [aweight = 1/ rooms2]
(sum of wgt is 1.3317e+01)
Source | SS df MS Number of obs = 506
----------+------------------------------ F( 3, 502) = 159.98
Model | 39.6051883 3 13.2017294 Prob > F = 0.0000
Residual | 41.426616 502 .082523139 R-squared = 0.4888
----------+------------------------------ Adj R-squared = 0.4857
Total | 81.0318042 505 .160459018 Root MSE = .28727
---------------------------------------------------------------------------
lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
rooms | .2345368 .0194432 12.06 0.000 .1963367 .272737
crime | -.0175759 .0016248 -10.82 0.000 -.0207682 -.0143837
ldist | .0650916 .027514 2.37 0.018 .0110349 .1191483
_cons | 8.450081 .1172977 72.04 0.000 8.219626 8.680536
------------------------------------------------------------------------------
On pr ecise dans cette r egression la pond eration ` a adopter, ici il
sagit dune pond eration 1/rooms2. Ces estimations sont qualita-
tivement similaires ` a celles qui utilisent loption robust, avec des
mesures de signication globale l eg` erement plus faibles.
Les s eries que lon sp ecie comme pond eration analytique (aw)
doivent etre linverse de la variance de lobservation, et non son
ecart-type, et les donn ees originales sont multipli ees par la pond eration
analytique et non divis ees.
Dans les travaux econom etriques, il est courant destimer les
equations sous la forme de ratios. Ainsi, pour les donn ees de pays
ou de r egion, on utilise les variables d ependantes et ind ependantes
par t ete (par habitants ou travailleurs), de m eme que lon utilise
des ratios nanciers pour les entreprises ou les industries. Il nen
reste pas moins que m eme pour ces mod` eles il faudrait consid erer
lexistence dh et erosc edasticit e.
4.2 Lestimation dans le cas de lh et erosc edasticit e entre groupes
dobservations
Si diff erents groupes dobservations ont des erreurs avec des vari-
ances diff erentes, il est possible dappliquer la m ethode des moin-
dres carr es g en eralis es avec une pond eration analytique.
Dans le cadre des groupes, on d enit la pond eration analytique
comme une valeur constante pour chaque observation dans un groupe.
Cette valeur est calcul ee comme la variance estim ee des r esidus
MCO de ce groupe. A laide de la s erie des r esidus ainsi obtenus,
on peut construire une estimation de la variance pour chaque groupe,
chaque Etat ou r egion par exemple, avec la commande egen et en-
gendrer ainsi une s erie de poids analytique.
4.2.1 Application
On reprend lexemple ci-dessus et les residus \textsf{eps} dej`a calcules pour l
de la Nouvelle Angleterre.
. by state, sort : egen sd_eps = sd(eps)
. generate double gw_wt = 1/sd_eps2
. tabstat sd_eps gw_wt, by(state)
Summary statistics: mean
by categories of: state
state | sd_eps gw_wt
------+--------------------
CT | 1.359627 .5409545
MA | .8655014 1.334948
ME | .9379762 1.136623
NH | .611393 2.675218
RI | .6340872 2.48715
VT | .7147098 1.957675
------+--------------------
Total | .8538824 1.688761
---------------------------
La commande tabstat rev` ele que les ecart-types des r esidus pour
le New Hampshire (NH) et Rhode Island (RI) sont beaucoup plus
petits que pour les autres quatre Etats.
On r eestime cette fois l equation avec la m ethode des moindres
carr es quasi g en eralis es en utilisant des s eries de poids analytiques.
. regress dpipc year [aw=gw_wt]
(sum of wgt is 2.0265e+02)
Source | SS df MS Number of obs = 120
----------+------------------------------ F( 1, 118) = 698.19
Model | 2845.55409 1 2845.55409 Prob > F = 0.0000
Residual | 480.921278 118 4.07560405 R-squared = 0.8554
----------+------------------------------ Adj R-squared = 0.8542
Total | 3326.47537 119 27.9535745 Root MSE = 2.0188
---------------------------------------------------------------------------
dpipc | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
year | .8444948 .0319602 26.42 0.000 .7812049 .9077847
_cons | -1663.26 63.61705 -26.14 0.000 -1789.239 -1537.281
---------------------------------------------------------------------------
Si on compare ces r esultats avec ceux obtenus plus haut sur une
simple r egression sans pond eration en utilisant la commande regress,
Root MSE est bien plus petite que dans le cas pr ec edent.
4.3 Lestimation dans le cas des donn ees group ees
On peut consid erer dans ce cas que la pr ecision de la moyenne
(cest-` a-dire l ecart-type) pour chaque groupe d epend de la taille
du groupe ` a partir duquel la moyenne est calcul ee.
La pond eration analytique, proportionnelle ` a linverse de la vari-
ance de lobservation doit prendre en compte la taille du groupe.
Par exemple, si on a des donn ees par t ete ( epargne ou revenu par
t ete) pour une r egion, on pourra estimer :
regress saving income [aw=pop]
pour laquelle on sp ecie la pond eration analytique pop. Les
grandes r egions auront des pond erations plus importantes, re etant
ainsi la plus grande pr ecision de la moyenne du groupe.
4.3.1 Application
On peut illustrer ce dernier cas ` a laide de donn ees portant sur les
caract eristiques de 420 quartiers comportant des ecoles publiques.
La moyenne du score pour le test de lecture par el` eve (read scr)
est mod elis ee comme une fonction des d epenses par el` eve (expn stu),
le nombre dordinateurs par el` eve (comp stu), et le pourcentage
d el` eves recevant des repas gratuits (meal pct, il sagit dun in-
dicateur de pauvret e du quartier). Nous connaissons egalement le
nombre dinscriptions ` a l ecole par quartier (enrl tot).
. use http://www.stata-press.com/data/imeus/pubschl, clear
. summarize read_scr expn_stu comp_stu meal_pct enrl_tot
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
read_scr | 420 654.9705 20.10798 604.5 704
expn_stu | 420 5312.408 633.9371 3926.07 7711.507
comp_stu | 420 .1359266 .0649558 0 .4208333
meal_pct | 420 44.70524 27.12338 0 100
enrl_tot | 420 2628.793 3913.105 81 27176
Nous commencons par estimer le mod` ele sans tenir compte du
nombre dinscrits qui varie consid erablement dun quartier ` a lautre.
On sattend ` a ce que les scores des tests de lecture soient plus
elev es (relation positive) lorsque les d epenses par el` eve et le nom-
bre dordinateurs par el` eve sont plus importants et on sattent ` a une
relation n egative avec la pauvret e (scores moins bons).
. regress read_scr expn_stu comp_stu meal_pct
Source | SS df MS Number of obs = 420
----------+------------------------------ F( 3, 416) = 565.36
Model | 136046.267 3 45348.7558 Prob > F = 0.0000
Residual | 33368.3632 416 80.2124115 R-squared = 0.8030
----------+------------------------------ Adj R-squared = 0.8016
Total | 169414.631 419 404.330861 Root MSE = 8.9561
---------------------------------------------------------------------------
read_scr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
expn_stu | .0046699 .0007204 6.48 0.000 .0032538 .006086
comp_stu | 19.88584 7.168347 2.77 0.006 5.795143 33.97654
meal_pct | -.635131 .0164777 -38.54 0.000 -.667521 -.602741
_cons | 655.8528 3.812206 172.04 0.000 648.3592 663.3464
---------------------------------------------------------------------------
Nos hypoth` eses concernant les relations entre la variable read scr
et les facteurs explicatifs sont conrm ees par les r esultats. On va
n eanmoins r eestimer le mod` ele en utilisant le nombre dinscrits
comme pond eration analytique
. regress read_scr expn_stu comp_stu meal_pct [aw=enrl_tot]
(sum of wgt is 1.1041e+06)
Source | SS df MS Number of obs = 420
----------+------------------------------ F( 3, 416) = 906.75
Model | 123692.671 3 41230.8903 Prob > F = 0.0000
Residual | 18915.9815 416 45.4711093 R-squared = 0.8674
----------+------------------------------ Adj R-squared = 0.8664
Total | 142608.652 419 340.354779 Root MSE = 6.7432
---------------------------------------------------------------------------
read_scr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
expn_stu | .0055534 .0008322 6.67 0.000 .0039176 .0071892
comp_stu | 27.26378 8.197228 3.33 0.001 11.15063 43.37693
meal_pct | -.6352229 .013149 -48.31 0.000 -.6610696 -.6093762
_cons | 648.988 4.163875 155.86 0.000 640.8031 657.1728
---------------------------------------------------------------------------
Lorsque lon introduit les pond erations, les coefcients sont mod-
i es et le Root MSE est sensiblement r eduit.
En effet, si on donne le m eme poids aux grands et aux petits
etablissements, on donne en fait trop dimportance aux petits etablissements
et pas assez aux grands.
Ainsi, limpact du nombre dordinateurs par etudiant est presque
50% sup erieur dans le cas o` u lon tient compte de la pond eration,
et limpact des d epenses par el` eve est plus faible dans le mod` ele
MCO. La pond eration apporte egalement une meilleure pr ecision
dans les estimations.