Escolar Documentos
Profissional Documentos
Cultura Documentos
D. Talarowski
Universit e dArtois
novembre
Sommaire
1. Lasym etrie 1. Le principe de lasym etrie 2. Les indcateurs dasym etrie 3. Exemples 2. Laplatissement 1. Le principe de laplatissement 2. Les indcateurs daplatissement 3. Exemples 3. Les caract eristiques des distributions ` a deux caract` eres 1. Les moyennes et variances marginales 2. Les moyennes et variances conditionnelles
1.Lasym etrie
1.1.Le principe de lasym etrie
Lasym etire se d enit vis-` a-vis dune valeur centrale (Moyenne, m ediane ou mode) Lasym etrie sert ` a d eterminer si la distribution est :
1. Aplatie ` a droite par rapport ` a la valeur centrale ; 2. Aplatie ` a gauche par rapport ` a la valeur centrale ; 3. Ou tout simplement equir epartie de part et dautre de la valeur centrale.
Lexistence dune asym etrie entra ne la non-confusion des trois valeurs centrales.
1.Lasym etrie
1.1.Le principe de lasym etrie (suite)
1.Lasym etrie
1.1.Le principe de lasym etrie (suite)
Distribution Comportement des param` etres Asym etrique ` a gauche Mo > Me >X Sym etrique Mo = Me = X Asym etrique ` a droite Mo < Me < X
1.Lasym etrie I
1.2.Les indicateurs dasym etrie
A. Le coecient quartile dasym etrie ou coecient de Yule Ce coecient s ecrit : Cq = (Q3 Q2 ) (Q2 Q1 ) (Q3 Q2 ) (Q2 Q1 ) = (Q3 Q2 ) + (Q2 Q1 ) (Q3 Q1 )
Il est fond e sur la comparaison respectives des trois quartiles. Sur le m eme principe, on peut calculer ce coecient ` a partir des d eciles voire sur les centiles. Par exemple, un coecient d ecile dasym etrie serait : Cd = (D9 D5 ) (D5 D3 ) (D9 D5 ) (D5 D1 ) = (D9 D5 ) + (D5 D1 ) (D9 D1 )
1.Lasym etrie II
1.2.Les indicateurs dasym etrie
selon que lon sint eresse ` a lasym etrie ` a proximit e de la m ediane, au centre de la distribution (Cq ), ou au contraire, dans ses extr emit es, pour les valeurs plus eloign ees de sa m ediane (Cd , Cc ). Dans tous les cas : Coe. Distribution C =0 Sym etrique C < 0 Etal ee ` a gauche ee ` C > 0 Etal a droite
1.Lasym etrie
1.2.Les indicateurs dasym etrie
B. Le premier coecient dasym etrie de Pearson Il compare les positions respectives du mode et de la moyenne en tenant compte de la dispersion. Il s ecrit : CP 1 = Mo X 2
Comme pour le coecient pr ec edent : Coe. Distribution CP 1 = 0 Sym etrique CP 1 < 0 Etal ee ` a gauche CP 1 > 0 Etal ee ` a droite Ce coecient nest utilisable que si la distributions est faiblement asym etrique.
1.Lasym etrie I
1.2.Les indicateurs dasym etrie
C. Le second coecient dasym etrie de Pearson et le coecient dasym etrie de Fisher Le second coecient de Pearson s ecrit : CP 2 =
3 2 (MX ) 2 3 (MX )
Cest le rapport du carr e du moment centr e dordre 3 par rapport ` a la moyenne et le cub centr e dordre 2 par rapport ` a la moyenne (la variance), avec :
3 2 3 (MX ) = m3 + 3m1 m2 + 2(m1 )
1.Lasym etrie II
1.2.Les indicateurs dasym etrie
et,
2 3 2 (MX ) = V (x ) = m2 (m1 )
(mi etant le moment simple dordre i ). Une distribution sym etrique donnera un CP 2 nul et une distribution asym etrique un coecient CP 2 positif. Le coecient dasym etrie de Fisher est la racine carr e du second coecient de Pearson : CF = CP 2 =
3 MX 3
Cest le rapport du moment centr e dordre 3 par rapport ` a la moyenne et du cube de l ecart-type.
Sil est calcul e directement (et non par la racine carr e du second coe. de Pearson), le coecient de Fisher peut etre positif, n egatif ou nul. Il est nul si la distribution est sym etrique, n egatif si elle est etal ee ` a gauche, positif si elle est etal ee ` a droite.
1.Lasym etrie I
1.3.Exemples
Distribution dune population de 24 etudiants selon leur taille (en m` etres) : Taille (m) < 1, 60 [1, 60 ; 1, 70[ [1, 70 ; 1, 80[ [1, 80 ; 1, 90[ 1, 90 ni Ni xi ni xi ni (xi x )2 6 6 1,55 9,3 0,1134 7 13 1,65 11,55 0,0098 8 21 1,75 14 0,0312 2 23 1,85 3,7 0,0528 1 24 1,95 1,95 0,0689 24 40,5 0,2761 ni (xi x )3 -0.0156 -0,0003 0,0019 0,0085 0,0180 0,0125
1.Lasym etrie II
1.3.Exemples
Les quartiles n ecessaires sont les suivants : Q1 = 1, 60 m Q2 = 1, 60 + Q3 = 1, 70 + (18 13)(1, 80 1, 70) = 1, 685 m (13 6) (18 13)(1, 80 1, 70) = 1, 7625 m (21 6)
3 Mx =
et,
40, 5 = 1, 6875 m et , Mo = [1, 70 ; 1, 80[ m 24 Le coecient de Yule est : x = Cq = (Q3 Q2 ) (Q2 Q1 ) (Q3 Q2 ) (Q2 Q1 ) = (Q3 Q2 ) + (Q2 Q1 ) (Q3 Q1 )
1.Lasym etrie IV
1.3.Exemples
(1, 7625 1, 6850) (1, 685 1, 600) = 0, 0461 (1, 7325 1, 6000)
1.Lasym etrie V
1.3.Exemples
Le coecient de Fisher : CF =
3 MX 0, 0005 = = 0, 4058 3 (0, 1072)3
Les 4 indicateurs concordent et aboutissent tous ` ala conclusion que la distribution est asym etrique puisquils sont di erents de z ero. Toutefois, ils divergent sur le sens de lasym etrie. Le coecient de Yule et le premier coecient de Pearson concluent ` a un etalement ` a gauche de la distribution alors que le second coecient de Pearson et le coecient de Fisher vont dans le sens dun etalement de la distribution ` a droite. La divergence
1.Lasym etrie VI
1.3.Exemples
des r esultats est li ee au fait que ces indicateurs sont construits di eremment et quils envisagent de fait lasym etrie di eremment. La distribution etudi ee nest pas clairement etal ee ` a gauche ou ` a droite.
2.Laplatissement
2.2.Le principe de laplatissement
Une distribution statistique peut etre plus ou moins aplatie selon quune proportion plus ou moins grande des observations est proche de son mode. Plus une une forte proportion des individus prendra une valeur proche de celle du mode de la distribution, sera concentr ee autour du mode, plus laplatissement sera faible. Graphiquement on aura :
2.Laplatissement
2.1.Le principe de laplatissement (suite)
2.Laplatissement
2.1.Le principe de laplatissement (suite)
2.Laplatissement
2.1.Le principe de laplatissement (suite)
2.Laplatissement I
2.2.Les indicateurs daplatissement
A.Le coecient daplatissement Il utilise le 4` eme moment centr e par rapport ` a la moyenne 4 (MX ecart-type, et s ecrit : ) et l a1 =
4 MX ( )4
Il est parfois appel e coe. daplatissement de Pearson et indique : 1. une distribution normale si a1 = 3 2. une distribution platykurtique si a1 < 3 3. une distribution leptokurtique si a1 > 3
2.Laplatissement II
2.2.Les indicateurs daplatissement
4. Laplatissement est dautant plus fort que a1 est faible et proche de 1 5. Laplatissement est dautant plus faibel que a1 est fort. Compte tenu du fait que ce coe. a1 prend la valeur 3 pour une distribution normale, on propose souvent comme indicateur daplatissement ce coecient modi e sous la forme : a1 = (ai 3) =
4 MX 3 ( )4
Ce coe. de Pearson modi e, parfois appel e coe. de Fisher, prend la valeur 0 pour une distribution normale, est n egatif pour une distribution platykurtique et positif pour une distribution leptokurtique.
2.Laplatissement I
2.2.Les indicateurs daplatissement (suite)
B.Le coecient quantile daplatissement Il est fond e sur les quartiles et les d eciles et s ecrit : a2 = Q (Q3 Q1 ) avec Q = (D9 D1 ) 2
Il sinterpr ete comme suit : 1. a2 = 0, 263 pour une distribution normale 2. plus a2 est fort et plus la distribution est aplatie 3. a2 est toujours compris entre 0 et 1
2.Laplatissement I
2.3.Exemples
Distribution dune population de 24 etudiants selon leur taille (en m` etres) : Taille (m) < 1, 60 [1, 60 ; 1, 70[ [1, 70 ; 1, 80[ [1, 80 ; 1, 90[ 1, 90 ni Ni xi ni xi ni (xi x )2 6 6 1,55 9,3 0,1134 7 13 1,65 11,55 0,0098 8 21 1,75 14 0,0312 2 23 1,85 3,7 0,0528 1 24 1,95 1,95 0,0689 24 40,5 0,2761 ni (xi x )4 0,0021 0 0,0001 0,0014 0,0047 0,0083
2.Laplatissement II
2.3.Exemples
ni xi 40, 5 = = 1, 6875 N 24
)2 ni (xi X = N
0, 2761 = 0, 1072 m 24
ni (xi X = 0, 0003 m4 N
2.Laplatissement III
2.3.Exemples
Les deux quartiles (Q1 et Q3 ) sont : 3N N =6, = 18 , Q1 = 1, 60 m 4 4 Q3 = 1, 70 + (18 13)(1, 80 1, 70) = 1, 7625 m (21 13)
Les deux d eciles n ecessaires (D1 et D9 ) sont : N 9N = 2, 4 , = 21, 6 10 10 D1 = 1, 50 + (2, 4 0)(1, 60 1, 50) = 1, 54 m (6 0)
2.Laplatissement IV
2.3.Exemples
D9 = 1, 80 +
2.Laplatissement V
2.3.Exemples
La distribution appara t comme platykurtique, plus aplatie quune distribution normale, puisque : a1 < 3 et a1 < 0 Le coecient quantile daplatissement est : a2 =
Q3 Q1 2
(D9 D1 )
1,76251,60 2
(1, 83 1, 54)
= 0, 2801
Pour cet indicateur, la distribution appara t egalement plus apatie quune distribution normale, puisque a2 > 0, 263. Cependant, pour ces deux indicateurs, il faut noter que cet applatissement nest que l eg` erement plus important que celui dune distribution normale, dont il reste proche.
Les distributions statistiques ` a deux caract` eres sont pr esent ees sous forme de tableaux statistiques ` a deux dimensions dont les distributions marginales sont les distributions de chacun des deux caract` eres, etudi es s epar ement, sans condition quant ` a la modalit e prise par lautre caract` ere. Prenons par exemple la distribution de 29 salari es dune petite entreprise selon leur age (X ) et leur salaire mensuel en milliers deuros (Y ) pr esent ee dans le tableau statistique ` a deux dimensions suivant :
1 6 4 11 6 1 29
ni 4 5 5 9 6 29
De ces deux distributions marginales, on peut ensuite calculer les moyennes arithl etiques et les variances comme pour toute distribution statistique ` a un caract` ere, soit :
V (Y ) =
1 N
Ces caract eristiques marginales sont appel ees respectivement moyennes et variances marginales des deux caract` eres X et Y . Traditionnellement, on note : : la moyenne marginale dun caract` 1. X ere X ; 2. V (X ) : La variance marginale de X
Dans la notation compl` ete des modalit es des variables et des eectifs ` a deux dimensions, on a : = 1 X n V (X ) = avec : n =
i
ni xi =
i i
fi xi )2 fi (xi X
i
1 n
)2 = ni (xi X
i i fi
ni et : = 1 Y n
= 1 Pour Y : fj yj
j
nj yj =
j
V (X ) =
1 n
)2 = nj (yj Y
j j
)2 fj (xj Y
avec : n = j nj et : j fj = 1 Cependant, au-del` a de la lourdeur de ce syst` eme de notation, ce sont bien des moyennes et variances de distributions statistiques ` a une dimension qui sont calcul ees, et dans lexemple pr ec edent, on retrouve normalement : = 41, 20 ans et V (X ) = 147, 68 (ans )2 X
Les distributions statistiques ` a deux caract` eres sont pr esent ees sous la forme de tableaux statistiques ` a deux dimensions dont chaque distribution conditionnelle est la distribution dun caract` ere si lautre prend lune de ses modalit es. Par exemple, si on reprend lexemple de la section pr ec edente pour la distribution de 29 salari es dune petite entreprise selon leur age (X ) et leur salaire mensuel en milliers deuros (Y ), on aura 6 distributions conditionnelles de Y (correspondant ` a chacune des 6 modalit es de X ), et 5 distributions conditionnelles de X (correspondantes ` a chacune des 5 modalit es de Y ).
Par exemple, parmi les 11 distributions conditionnelles de X ou de Y envisageable, on a comme distribution conditionnelles : de l age (X ) si le salaire est compris entre 1000 euros et 1500 euros (de X si Y = y2 ) : xi ni <20 0 20-30 3 30-40 1 40-50 0 50-60 1 60 0 5
du salaire (Y ) si l age (X ) est compris entre 20 et 30 ans (de Y si X = x1 ) : yi ni <1 1 1-1,5 3 1,5-2 1 2-2,5 1 2, 5 0 6
De chacune de ces distributions conditionnelles possibles de la distribution ` a deux caract` eres (11 dan cet exemple), on peut ensuite calculer les moyennes arithm etiques et les variances comme pour une distribution statistique ` a un caract` ere. Soit, dans les deux exemples de distributions conditionnelles ci-dessus : Pour la distribution de l age (X ) des salari es si leur salaire est compris entre 1000 et 1500 euros (distribution de X si Y = y2 , on aura : = 1 X N ni xi = 33 ans
i
On les appelle respectivement moyenne et variance de X si Y = y2 . Pour le salaire (Y ) si l age est compris entre 20 et 30 ans (distribution de Y si X = x2 ), on aura : = 1 Y N nj yj = 1, 41 103 euros
j
que lon appelle alors moyenne de Y si X2 On note : pour X : j : la moyenne conditionnelle de X si Y = yj X Vj (X ) : la variance conditionnelle de X si Y = yj pour Y :
i : la moyenne conditionnelle de Y si X = xi Y Vi (Y ) : la variance conditionnelle de Y si X = xi Dans la notation compl` ete des modalit es des variables et des eectifs ` a deux dimensions, on a alors : Pour X : j = 1 X nj nij xi et Vj (X ) =
i
1 nj nij
j )2 nij (xi X
i
avec nj =
i
Pour Y : y i = 1 ni nij yj et Vi (Y ) =
j
1 ni nij
i )2 nij (yi Y
j
avec ni =
j
Encore une fois, il ne sagit pas ici que de simples calculs de moyennes et variances de distributions statistiques ` a une dimension.
Ainsi, dans es deux exemples pr ec edents, on trouve : 2 = 33 ans et V2 (X ) = 136(ans )2 X et, 2 = 1, 41 103 euros et V2 (Y ) = 0, 22 (103 euros )2 Y