Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUCTION GENERALE
I. INTRODUCTION
Le mot statistique a été créé au 18ème siècle par un professeur allemand GOTTERIED
ACHENWALL (1719-1772). Mais la statistique était utilisée bien avant, en effet, des
dénombrements de population humaine et de terres ont été réalisées depuis la plus haute
antiquité pour les besoins de la guerre et de l'impôt.
Au 19ème siècle, il y a eu apparition du calcul des probabilités qui est étroitement lié aux jeux
du hasard. Ceci a donné naissance à une discipline appelée statistique Mathématique. Durant
cette période, le Belge ADOLPHE QUETELET (1796-1874) a transposé le calcule des
probabilités à l'économie et à la démographie.
La vraie naissance de la statistique a été au cours du 20ème siècle, et ceci grâce à la naissance et
développement de l'informatique qui a provoqué une extension considérable des possibilités
d'utilisation des méthodes statistiques, du champ d'application de ces méthodes, du nombre
d'utilisateurs. L'informatique a aussi provoqué l'apparition de méthodes statistiques et de
procédures de calculs nouvelles.
La statistique joue un rôle de plus en plus important dans tous les domaines de l'activité
humaine. Elle intervient aujourd'hui dans l'agriculture, la biologie, les affaires, la chimie, les
communications, l'économie, l'éducation, l'électronique, la médecine, la pharmacie, la physique,
les sciences politiques, la psychologie, la sociologie, et d'autres branches encore de la science et
de la technologie. On désigne par exemple par économétrie, l'application de la statistique à
l'économie, par sociométrie, psychométrie et biométrie, l'application de la statistique
respectivement à la sociologie, à la psychologie et à la biologie.
La statistique est un instrument de la connaissance, elle est indispensable à celui qui veut
prendre une décision, porter un jugement, analyser une situation ou prévoir l'avenir.
La gestion moderne, c'est d'abord affaire de statistiques bien faites et bien interprétées,
l'informatique et les calculateurs n'interviennent qu'ensuite.
II. DEFINITION
Avant, la statistique était définie comme la science qui a pour but de faire connaître l'étendue, la
population, les ressources agricoles et industrielles d'un état. Plus généralement, science des
dénombrements et de leurs conséquences.
La statistique est une méthode qui vise la description quantitative des ensembles nombreux, elle
utilise le nombre comme moyen d'expression.
Utilisé au pluriel, le terme statistiques désigne tout ensemble cohérent de données numériques
relatives à un groupe quelconque d'individus ou des résultats obtenus à partir des données,
comme par exemple des moyennes. On parle ainsi des statistiques démographiques, des
statistiques des accidents de la circulation, des statistiques de la production agricole ou
industrielle, des statistiques de l'emploi, etc.…
1. Collecter tous les renseignements, les dépouiller, les coordonner, éliminer ou corriger ceux
jugés erronés, et les présenter sous forme exploitable (tableaux statistiques, graphiques,
diagrammes, etc.…). C'est ce qu'on appelle la statistique descriptive.
2. Substituer à cet ensemble de renseignements quelques données simples, comparer cette
représentation simplifiée à des répartitions théoriques, et tenter de donner une explication
du phénomène observé et en vérifier le bien fondé.
3. Interpréter, conclure et définir avec précision le degré de confiance à accorder aux
conclusions générales induites à partir des faits observés.
III. VOCABULAIRE
Comme n'importe quelle discipline, la statistique a son propre vocabulaire qu'il faut connaître.
• Population
En statistique, le mot population (univers ou ensemble statistique) prend un sens beaucoup plus
étendu qu'en langage courant. Il désigne un ensemble d'individus, d'objets, de concepts
abstraits, mais qui inclut tous les objets individuels auxquels on s'intéresse. On peut citer par
exemple, la population des étudiants, la population des entreprises, la population des ménages,
la population des arbres, la population appareils électroniques, la population des mammifères,
etc.
Une population peut être finie lorsqu'elle a une taille limitée, comme par exemple, la population
des étudiants de la faculté de droit. Une population est infinie lorsqu'elle a une taille illimitée ou
qui est considérée comme étant très grande, comme par exemple, la population des feuilles des
arbres.
• Unité statistique
Chaque élément appartenant à une population est appelé unité statistique. Par exemple dans la
population des habitants du Maroc, l'unité statistique est toute personne marocaine ou étrangère
habitant au Maroc. Par contre, dans la population des marocains, l'unité statistique est toute
personne de nationalité marocaine vivant au Maroc ou à l'étranger.
• Enquête
On appelle enquête l'ensemble des opérations qui ont pour but de collecter de façon organisée
des informations relatives à une population.
• Recensement
Lors d'une enquête, si toutes les unités statistiques de la population considérée sont observées
individuellement, l'enquête est dite complète ou exhaustive. On parle aussi de recensement. Par
exemple le recensement de la population d'un pays.
• Sondage
Lorsqu'on cherche à collecter des données relatives à une population infinie ou d'effectif très
grand, il est évident qu'il n'est pas possible d'étudier chaque unité statistique de la population.
Toutefois, on peut prendre seulement une partie des unités statistiques de la population qui sera
réellement observée, dans ce cas, l'enquête est dite partielle ou par échantillonnage. On parle
aussi de sondage.
• Échantillon
Lors d'un sondage, la partie des unités statistiques de la population réellement étudiée est
appelée échantillon. Pour que les résultats obtenus à partir d'un échantillon puissent être
extrapolés à l'ensemble de la population considérée, l'échantillon sélectionné doit être le plus
représentatif possible de la population étudiée.
• Échantillonnage
L'ensemble des méthodes qui permettent de choisir de façon organisée les unités statistiques de
la population qui constitueront l'échantillon. La méthode d'échantillonnage la plus utilisée est la
méthode aléatoire et simple.
• Caractère
Dans une population, chaque unité statistique est généralement distincte des autres. On
s'intéresse à certains aspects des unités statistiques, ainsi une unité statistique peut être étudiée
de point de vue un ou plusieurs caractéristiques. Cette caractéristique est appelée caractère. Par
exemple dans la population des étudiants, chaque étudiant peut être caractérisé par son âge, son
milieu d'origine, et par son niveau. Dans la population des fleurs d'un jardin, chaque fleur peut
être caractérisée par le caractère couleur.
Adil EL MARHOUM Page 4
COURS DE STATISTIQUES DESCRIPTIVES
• Modalités
Chaque caractère possède deux ou plusieurs modalités. Ce sont les différentes situations où les
unités statistiques peuvent se trouver à l'égard du caractère considéré. Par exemple le caractère
"nationalité" peut avoir comme modalités : marocaine, algérienne ou tunisienne. Le caractère
"nombre d'enfants par famille" peut avoir comme modalités : zéro enfant, un enfant, deux
enfants et plus de deux enfants.
Les modalités doivent être précises et complètes de telle sorte que chaque unité statistique
puisse être classée. Le nombre de modalités dépend du degré de détail du caractère.
• Caractère qualitatif
Lorsque les modalités d'un caractère ne peuvent s'exprimer par des nombres, le caractère est dit
qualitatif. C'est un caractère non mesurable. Par exemple, le caractère "sexe" est qualitatif, il a
comme modalités : masculin et féminin. Le caractère "marque de voiture" est qualitatif, il peut
avoir comme modalités : renaut, peugeot, mercedes, etc.
• Caractère quantitatif
Lorsque les modalités d'un caractère sont indissociables de la notion de nombre, le caractère est
dit quantitatif et on l'appelle variable statistique. C'est un caractère mesurable, à chaque
modalité correspond un nombre. Par exemple le caractère "nombre d'enfants par famille" est
quantitatif, il peut avoir comme modalités : 0, 1, 2, 3, etc. le caractère "âge" est quantitatif, il
peut avoir comme modalités : moins de 20 ans, entre 20 et 40 ans, entre 40 et 60 ans, plus de 60
ans.
Exemple :
Les notes obtenues par quatre étudiants sont : 12, 14, 16, 17.
L'indice i initial est toujours porté en dessous du symbole alors que l'indice i terminal est
placé au-dessus.
x
i =1
i = x1 + x2 + + xn
n x
i =1
i i = n1 x1 + n2 x2 + + nk xk
a = a + a ++ a = n a
i =1
n n
axi = a xi
i =1 i =1
n n n n
(axi + b) = axi + b = a xi + n b
i =1 i =1 i =1 i =1
V. STATISTIQUE DESCRIPTIVE
C'est le premier stade de la méthode statistique. Elle a pour but de résumer et de présenter les
données observées d'une manière telle que l'on puisse en prendre connaissance facilement.
La statistique descriptive peut faire l'objet d'une variable, et on parlera de statistique descriptive
à une variable ou à une dimension. Elle peut concerner deux variables, on parle alors de
statistique descriptive à deux dimensions. Elle peut concerner plusieurs variables, on parle alors
de statistique descriptive à plusieurs variables ou à plusieurs dimensions.
• Les tableaux statistiques permettent de présenter les données sous la forme numérique de
distributions de fréquences.
• Différents types de diagrammes permettent de représenter graphiquement ces distributions.
• Et enfin les données peuvent également être condensées sous forme de quelques paramètres
statistiques, le calcul de ces paramètres constitue ce qu'on appelle la réduction des données.
On appelle données brutes des données que l'on a rassemblées sans se soucier de la notion
d'ordre.
Exemple :
On a procédé au recensement des 50 salariés de la société STM en relevant les salaires horaires
perçus.
34 36 45 62 37 43 42 102 31 42
51 30 61 63 47 105 52 43 81 95
92 77 60 36 48 49 65 71 78 81
43 52 63 71 43 42 51 55 61 41
93 82 83 47 54 61 102 33 48 55
Effectif : n = 50
x1 x2 x3 xi xn
n est le nombre total d'observations, appelé aussi effectif. Une même observation peut se répéter
plusieurs fois. La différence entre la valeur la plus grande et la valeur la plus petite est
appelée étendue.
Étendue = xmax - xmin
Exemple :
La série statistique des salaires horaires perçus par les 50 salariés de l'entreprise STM est :
30 31 33 34 36 36 37 41 42 42
42 43 43 43 43 45 47 47 48 48
49 51 51 52 52 54 55 55 60 61
61 61 62 63 63 65 71 71 77 78
81 81 82 83 92 93 95 102 102 105
Étendue = 105 - 30 = 75
Lorsque les observations sont nombreuses, il est nécessaire de les condenser sous forme d ' un
tableau statistique appelé distribution de fréquences.
Une distribution de fréquences d'un caractère qualitatif se présente sous forme d'un tableau très
simple. La première colonne du tableau indique la nomenclature, c'est à dire la liste des
modalités Mi du caractère étudié. La deuxième colonne comporte une succession de nombres
entiers ni, appelés effectifs ou fréquences absolues. Une troisième colonne comporte une
succession de nombres décimaux fi, appelés pourcentages ou fréquences relatives.
M1 n1 f1
M2 n2 f2
. . .
. . .
. . .
Mi ni fi
. . .
. . .
. . .
Mk nk fk
Total n 1
k
n1 + n2 + nk = ni = n
i =1
n
fi = i
n est la proportion de la modalité Mi. fi est dite fréquence relative. Elle est le plus
souvent exprimée en pourcentage.
ni
fi = 100 %
n
k
n1 n2 n n
fi =1
i = f1 + f 2 + + f k + + f k = + ++ i ++ k
n n n n
k
n1 + n2 + + ni + + nk n
fi =1
i =
n
= =1
n
Exemple :
Une enquête sur la nationalité des touristes visitant le Maroc a concerné un échantillon de 500
touristes.
Parmi les 500 touristes rencontrés, 85 sont de nationalité française, ce qui correspond à 17 %
des touristes ; les Américains représentent 14 % des touristes rencontrés (70 touristes).
Une distribution de fréquences d'une variable statistique discrète se présente sous forme d'un
tableau. La première colonne du tableau indique les différentes valeurs distinctes Vi de la
variable statistique étudiée. Les autres colonnes comportent différents types de fréquences. De
la même façon que dans le cas d'un caractère qualitatif, on définit les fréquences absolues ni et
les fréquences relatives fi. En plus, on peut ajouter des fréquences cumulées croissantes ou
décroissantes.
V1 n1 f1 n1 n f1 1
V2 n2 f2 n1+n2 nk+…+n2 f1+f2 fk+…+f2
. . . . . . .
. . . . . . .
. . . . . . .
Vi ni fi n1+n2+…+ni nk+…+ni f1+f2+…+fi fk+…+fi
. . . . . . .
. . . . . . .
. . . . . . .
Vk nk fk n nk 1 fk
Total n 1
Les fréquences absolues ou relatives cumulées croissantes sont calculées en cumulant les
fréquences absolues ou relatives du haut du tableau vers le bas. Elles permettent de répondre
aux questions du genre : quel est le nombre ou la proportion au plus (au maximum ou moins de)
? . Par contre, Les fréquences absolues ou relatives cumulées décroissantes sont calculées en
cumulant les fréquences absolues ou relatives du bas du tableau vers le haut. Elles permettent
de répondre aux questions du genre : quel est le nombre ou la proportion au moins (au
minimum ou plus de) ?
Exemple :
Le nombre de commerçants n'employant aucun employé est 50, ce qui représente 5 % des
commerçants.
Lorsqu'on a une grande quantité de données brutes d'une variable statistique continue, il est
presque impossible de présenter les données sous forme d'une série statistique. Lorsque le
nombre d'observations distinctes est grand, il est plus facile de condenser les données dans une
distribution de fréquences groupée en classes et de déterminer le nombre d'observations
appartenant à chaque classe. Bien que le regroupement de données détruise une partie de
l'information initiale.
Une distribution de fréquences d'une variable statistique continue se présente sous forme d'un
tableau. La première colonne du tableau indique les différentes classes de la variable statistique
étudiée. De la même manière que pour les distributions de fréquences d'une variable statistique
discrète, on définit les fréquences absolues, les fréquences absolues cumulées croissantes, les
fréquences absolues cumulées décroissantes, les fréquences relatives, les fréquences relatives
cumulées croissantes, et les fréquences relatives cumulées décroissantes.
Chaque classe est caractérisée par une borne inférieure, une borne supérieure. Une classe qui n'a
pas de borne inférieure ou supérieure est dite classe ouverte.
L'amplitude d'une classe est égale à la différence entre les bornes supérieure et inférieure de la
classe. Les classes peuvent avoir une amplitude constante ou variable.
Le point central ou point médian d'une classe est le point correspondant au milieu de cette
classe et s'obtient en ajoutant les bornes inférieure et supérieure de la classe et en divisant par
deux.
Pour construire une distribution de fréquences groupée à partir des données brutes :
1. On détermine la plus grande et la plus petite valeur des données brutes et on calcule
l'étendue.
3. Dans chaque classe, on détermine le nombre d'observations, pour cela il suffit de compter, à
partir des données brutes, le nombre d'observations appartenant à la classe.
Exemple :
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
44
= 4,4 4
10
Le nombre de personnes pesant entre 60 et 64 kilogrammes est 11, ils représentent 13,75 % des
personnes pesées.
Dans la pratique, on s'intéresse le plus souvent à plus d'un caractère. La statistique descriptive à
deux dimensions a essentiellement pour but de caractériser les relations qui existent entre deux
séries d'observations considérées simultanément. Ces observations peuvent être de nature
qualitative ou quantitative, continue ou discontinue.
Les observations relatives à deux variables peuvent se présenter d'une manière simple sous la
forme d'une série statistique double.
Une série statistique double est une simple énumération des observations de deux variables
statistiques X et Y.
Exemple :
Numéro
étudiant 1 2 3 4 5 6 7 8 9 10 11 12
Note de
mathématique 11 14 09 12 10 06 15 12 10 10 08 13
Note de
statistique 10 15 11 11 09 08 14 13 11 12 10 12
Lorsque les observations sont nombreuses, il est nécessaire de les condenser sous forme d ' une
distribution de fréquences à deux variables appelée tableau de contingence.
Un tableau de contingence est un tableau à deux entrées, une entrée pour les modalités du
premier caractère et l'autre entrée pour le deuxième caractère. Les deux caractères peuvent être
tous les deux qualitatifs ou tous les deux quantitatifs, ou mixtes c'est à dire l'un qualitatif et
l'autre quantitatif. Pour la variable statistique, elle peut être discrète ou continue groupée en
classes. L'intérieur du tableau comporte des fréquences absolues ou relatives conjointes.
On peut représenter les observations sous forme d'une distribution de fréquences à deux
dimensions ou tableau de contingence.
nij est le nombre d'individus qui présentent en même temps la modalité xi et la modalité yj. elle
est dite fréquence absolue conjointe.
k p
n = nij
i =1 j =1
nij
f ij =
n
fij est une fréquence relative conjointe, elle correspond à la proportion des individus qui
présentent en même temps la modalité xi et la modalité yj.
p
ni = ni1 + ni 2 + + nij + + nip = nij
j =1
k
n j = n1 j + n2 j + + nij + + nkj = nij
i =1
ni. est le nombre d'individus qui possèdent la modalité xi quelle que soit la modalité de Y.
n.j est le nombre d'individus qui possèdent la modalité yj quelle que soit la modalité de X.
k p f p
n = nij = ni = n j
i =1 j =1 i =1 j =1
p
ni
f i = f i1 + f i 2 + + f ij + + f ip = f ij =
j =1 n
k n j
f j = f1 j + f 2 j + + f ij + + f kj = f ij =
i =1 n
fi. est la proportion des individus qui possèdent la modalité xi quelle que soit la modalité de Y.
f.j est la proportion des individus qui possèdent la modalité yj quelle que soit la modalité de X.
k p f p
fij = fi = f j = 1
i =1 j =1 i =1 j =1
Exemple :
La répartition de 300 salariés d'une entreprise selon l'âge et la situation familiale est représentée
dans le tableau de contingence suivant :
Parmi les 300 salariés, il y a 38 salariés célibataires âgés de 20 à 30 ans, ils représentent 12,7 %
de l'ensemble des salariés de l'entreprise.
11,7 % des salariés de l'entreprise sont mariés et âgés de 30 à 40 ans, ils sont au nombre de 35.
Les salariés divorcés et âgés de 40 à 50 ans sont au nombre de 8, ce qui correspond à 2,7 % des
salariés de l'entreprise.
Le nombre de salariés veufs et âgés de 50 à 60 ans est 12, soit 4 % des salariés de l'entreprise.
• Distributions marginales
DISTRIBUTION MARGINALE DE X
X ni. fi.
x1 n1. f1.
x2 n2. f2.
x3 n3. f3.
. . .
. . .
. . .
xi ni. fi.
. . .
. . .
. . .
xk nk. fk.
n 1
DISTRIBUTION MARGINALE DE Y
Y n.j f.j
Y1 n.1 f.1
y2 n.2 f.2
y3 n.3 f.3
. . .
. . .
. . .
yj n.j f.j
. . .
. . .
. . .
yp n.p f.p
n 1
Exemple :
Pour La répartition des 300 salariés d'une entreprise selon l'âge et la situation familiale, on a
deux distributions marginales :
Parmi les 300 salariés de l'entreprise, 84 salariés sont célibataires, 145 sont mariés, 36 sont des
divorcés, et 35 sont veufs. Ce qui représente respectivement, 28 %, 48,3 %, 12,1 %, et 11,6 %
des salariés de l'entreprise.
63 salariés de cette entreprise sont âgés entre 20 et 30 ans, 84 salariés sont âgés entre 30 et 40
ans, 87 salariés sont âgés entre 40 et 50 ans, et 66 salariés sont âgés entre 50 et 60 ans.
21 % des salariés de cette entreprise sont âgés entre 20 et 30 ans, 28 % des salariés sont âgés
entre 30 et 40 ans, 29 % des salariés sont âgés entre 40 et 50 ans, et 22 % des salariés sont âgés
entre 50 et 60 ans.
• Distributions conditionnelles
X nij fij
x1 n1j f1j
x2 n2j f2j
x3 n3j f3j
. . .
. . .
. . .
xi nij fij
. . .
. . .
. . .
xk nkj fkj
n.j f.j
Y nij fij
Y1 ni1 fi1
Y2 ni2 fi2
Y3 ni3 fi3
. . .
. . .
. . .
yj nij fij
. . .
. . .
. . .
yp nip fip
ni. fi.
Exemple :
Pour La répartition des 300 salariés d'une entreprise selon l'âge et la situation familiale, on a
deux distributions marginales :
DISTRIBUTION CODITIONNELLE DE LA SITUATION FAMILIALE DES SALARIES
AGES DE 20 A 30 ANS
Parmi les 63 salariés de l'entreprise âgés de 20 à 30 ans, 38 salariés sont célibataires, 13 sont
mariés, 8 sont des divorcés, et 4 sont veufs. Ce qui représente respectivement, 60 %, 21 %, 13
%, et 6 % des salariés âgés de 20 à 30 ans.
13 salariés mariés de cette entreprise sont âgés entre 20 et 30 ans, 35 salariés mariés sont âgés
entre 30 et 40 ans, 56 salariés mariés sont âgés entre 40 et 50 ans, et 41 salariés mariés sont
âgés entre 50 et 60 ans.
9 % des salariés mariés de cette entreprise sont âgés entre 20 et 30 ans, 24 % des salariés mariés
sont âgés entre 30 et 40 ans, 39 % des salariés mariés sont âgés entre 40 et 50 ans, et 28 % des
salariés mariés sont âgés entre 50 et 60 ans.
I. INTRODUCTION
Bien qu'un tableau statistique renferme toute l'information rassemblée, il est très utile de le
traduire par un graphique. La représentation graphique d'une distribution de fréquences permet
de visualiser et de déceler ses principales caractéristiques.
Exemple :
Une enquête sur la nationalité des touristes visitant le Maroc a concerné un échantillon de 500
touristes.
120
100
80
60
40
20
0
FR AL IT HOL BEL USA autres
Exemple :
Pour le même exemple précédent, on doit déterminer pour chaque nationalité l'angle
proportionnel à l'effectif correspondant.
85 français correspondent à 1
106 allemands correspondent à 2
62 italiens correspondent à 3
44 hollandais correspondent à 4
40 belges correspondent à 5
70 américains correspondent à 6
les 93 autres correspondent à 7
62 360 44 360
3 = = 44,64 4 = = 31,68
500 500
40 360 70 360
5 = = 28,8 6 = = 50,4
500 500
93 360
7 = = 66,96
500
Diagramme circulaire
FR
autres
USA
AL
HOL IT
BEL
autres 93
USA 70
BEL 40
HOL 44
IT 62
AL 106
FR 85
120
100
80
60
40
20
0
FR IT BEL autres
autres FR
USA
AL
BEL
HOL IT
Exemple :
Diagramme en bâtons
250
200
150
100
50
0
0 1 2 3 4 5 6 7
Polygone de fréquences
250
200
150
100
50
0
0 1 2 3 4 5 6 7
1200
1000
800
600
400
200
0
0 1 2 3 4 5 6 7
Quand les classes sont de même amplitude, la hauteur des rectangles est proportionnelle aux
fréquences des classes, elle est égale numériquement à la fréquence correspondante. Si les
classes n'ont pas la même amplitude, il est nécessaire d'ajuster la hauteur des rectangles de telle
sorte que la surface du rectangle soit proportionnelle à l'effectif correspondant.
Pour ajuster la hauteur d'un rectangle, on choisit une amplitude unitaire, généralement
l'amplitude la plus fréquente. Ensuite, on calcule pour chaque classe un coefficient d'ajustement
C:
amplitude unitaire
C=
amplitude de la classe
On ajuste la fréquence d'une classe en multipliant sa fréquence observée par son coefficient
d'ajustement.
Exemple :
L'amplitude des classes est constante, on peut représenter directement l'histogramme de cette
distribution.
Histogramme
25
21
20
15
12
11
10
9
10
6
4 4
5
2
1
0
50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99
Exemple :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
Les amplitudes des classes étant inégales, il convient d'ajuster les fréquences afin de représenter
l'histogramme. On choisit comme amplitude unitaire 20.
Surface en m² Nombre de Coefficient Fréquences
Adil EL MARHOUM Page 30
COURS DE STATISTIQUES DESCRIPTIVES
20-40
40-60
60-80
80-100
100-120
120-140
140-160
160-180
180-200
200-220
220-240
240-260
4.2. polygone de fréquences cumulées
De la même manière que pour les variables discrètes, Le polygone de fréquences cumulées est
construit en escalier.
Polygone de fréquences cumulées croissantes
120
100
80
60
40
20
0
0-20
20-40
40-60
60-80
80-100
100-120
120-140
140-160
160-180
180-200
200-220
220-240
240-260
20-40
40-60
60-80
80-100
100-120
120-140
140-160
160-180
180-200
200-220
220-240
240-260
I. INTRODUCTION
On a vu qu'on peut décrire les données brutes à l'aide des tableaux statistiques et des
graphiques. La réduction des données est une troisième méthode de statistique descriptive, elle
a pour objet le calcul de paramètres statistiques qui permettent de caractériser de façon simple
les séries statistiques et les distributions de fréquences. On distingue trois types de paramètres
statistiques :
Appelés aussi valeurs de tendance centrale, ils servent à caractériser l'ordre de grandeur des
observations. Les principaux paramètres de position sont : les moyennes, le mode, la médiane,
et la médiale.
Ces paramètres permettent de chiffrer la variabilité des valeurs observées autour d'un paramètre
de position. Les principaux paramètres de dispersion sont : la variance, l'écart type, le
coefficient de variation, et le coefficient de concentration.
Définition :
La moyenne arithmétique simple, qu'on appelle couramment moyenne, d'une série de plusieurs
observations est égale à la somme de toutes les observations divisée par le nombre de ces
observations.
− x i
x= i =1
− n x i i k
x= i =1
k
= f i xi
n
i =1
i
i =1
− n C i i k
x= i =1
k
= f iCi
n
i =1
i
i =1
Propriétés :
• Transformation linéaire
La transformation linéaire d'une variable statistique x est une autre variable y telle que :
n n n
− y i (ax i + b) a xi + n b
y= i =1
= i =1
= i =1
n n n
− x i
y = a i =1
+b
n
− −
y = a x+ b
La moyenne d'une transformation linéaire est donc une transformation linéaire de la moyenne.
n − n − − −
( x − x) = x − n x = n x − n x = 0
i =1
i
i =1
i
• La somme des carrées des écarts par rapport à la moyenne est minimale
n n − − n − − − −
( xi − a)2 = [( xi − x) + ( x− a)]2 = [( xi − x)2 + 2( xi − x)( x− a) + ( x− a)2 ]
i =1 i =1 i =1
n n − n − − n −
( xi − a)2 = ( xi − x)2 + 2( xi − x)( x− a) + ( x− a)2
i =1 i =1 i =1 i =1
n n − − n − n −
( x − a)
i =1
i
2
= ( xi − x) 2 + 2( x − a) ( xi − x) + ( x − a) 2
i =1 i =1 i =1
n n − −
( xi − a)2 = ( xi − x)2 + n ( x− a)2
i =1 i =1
− −
( x− a)2 = 0 c' est à dire lorsque a = x
Exemple 1:
On a procédé au recensement des 50 salariés de la société STM en relevant les salaires horaires
perçus.
34 36 45 62 37 43 42 102 31 42
51 30 61 63 47 105 52 43 81 95
92 77 60 36 48 49 65 71 78 81
43 52 63 71 43 42 51 55 61 41
93 82 83 47 54 61 102 33 48 55
50
− x i
2939
x= i =1
= = 58,78 dh par heure
50 50
Exemple 2 :
− n x i i 8
3640
x= i =1
8
= f i xi = = 3,64 employés par commerçant
n i =1 1000
i
i =1
Chaque commerçant emploie, en moyenne, trois à quatre employés.
Exemple 3:
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
− n C i i 6
6020
x= i =1
6
= f iCi = = 60,20 m² par logemnt
n i =1 100
i
i =1
La moyenne arithmétique simple suppose que toutes les observations ont la même importance,
ce qui n'est pas toujours le cas. La moyenne arithmétique pondérée intervient dans le cas où les
observations n'auraient pas la même importance. Il s'agit d'associer à chaque observation un
coefficient de pondération indiquant son poids parmi les autres observations.
− x i i
x= i =1
k
i =1
i
Exemple :
− x i i
1 14 + 2 12 + 4 13
x= i =1
= = 12,86
3
1+ 2 + 4
i =1
i
Définition :
La moyenne géométrique est calculée pour des observations positives. Elle est égale à la racine
nème du produit de toutes les observations. Elle est utilisée principalement lorsqu'on raisonne en
taux (taux de croissance).
1 1
− n
x g = n x1 x x = ( x1 x x ) n = [ x ] n
2 n 2 n i
i =1
1 1
−
n k k
x g = n x1 1 x n2 x nk = ( x1n1 x n2 x nk ) n = [ x ni ] n = x fi
2 n 2 n i i
i =1 i =1
k est le nombre d'observations distinctes que peut prendre la variable.
Dans le cas d'une variable statistique continue groupée en classes, la moyenne géométrique est :
1 1
−
n k k
x g = n C1 1 C n2 C nk = (C1n1 C n2 C nk ) n = [ C ni ] n = C fi
2 n 2 n i i
i =1 i =1
Propriétés :
n
1 Log xi
− n n
Log x g = Log[ x ] n = Log[ x ] = i = 1
1
i n i n
i =1 i =1
n
− Log xi
i =1
x g = exp( n
)
Exemple :
Période : 1960-1971
15358 − 11637
t1 = 100 = 32 %
11637
−
Le taux d'accroissement annuel moyen est t 1 tel que :
−
11637 (1 + t 1 )11 = 15358
− 15358
(1 + t 1 )11 = = 1,32
11637
−
t 1 = 11 1,32 − 1 = 0,0256 = 2,56 %
Entre 1960 et 1971, la population marocaine a augmenté en moyenne, de 2,56 % par an.
Période : 1971-1982
Entre 1971 et 1982, le taux d'accroissement de la population marocaine est :
20354 − 15358
t2 = 100 = 32,5 %
15358
−
Le taux d'accroissement annuel moyen est t 2 tel que :
−
15358 (1 + t 2 )11 = 20354
− 20354
(1 + t 2 )11 = = 1,325
15358
−
t 2 = 11 1,325 − 1 = 0,0259 = 2,59 %
Entre 1971 et 1982, la population marocaine a augmenté en moyenne, de 2,59 % par an.
Période : 1982-1994
26019 − 20354
t3 = 100 = 27,8 %
20354
−
Le taux d'accroissement annuel moyen est t 3 tel que :
−
20354 (1 + t 3 )12 = 26019
− 26019
(1 + t 3 )12 = = 1,28
20354
−
t 3 = 12 1,28 − 1 = 0,0207 = 2,07 %
Entre 1982 et 1994, la population marocaine a augmenté en moyenne, de 2,07 % par an.
Période : 1960-1994
Entre 1960 et 1994, le taux annuel moyen de l'accroissement de la population marocaine est
égal à la moyenne géométrique des trois taux d'accroissement pondérés par leurs durées
respectives.
−
t = 34 2,5611 2,5911 2,0712 = 2,39 %
Entre 1960 et 1994, la population marocaine a augmenté en moyenne, de 2,39 % par an.
La moyenne harmonique est égale à l'inverse de la moyenne arithmétique des inverses des
observations. Son usage s'impose lorsque la variable statistique est un quotient (coût moyen,
vitesse moyenne etc. …).
x
−1
− i 1
n
xh = [ i =1
] −1
= n
1
x
n
i =1 i
n k
ni xi n
−1
− 1 i
xh = [ i =1
k
] −1
= i =1
k
ni
n i =1
i x
i =1 i
niCi n
−1
− 1 i
xh = [ i =1
k
] −1
= i =1
k
ni
n i =1
i C
i =1 i
Exemple :
Un automobiliste a roulé sur un trajet de 100 Km à une vitesse de 90 Km/h, sur les 10 premiers
kilomètres; de 100 Km/h sur un trajet de 30 Km, et de 120 Km/h sur les 60 derniers kilomètres.
Vitesse Trajet
V1 = 90 n1 = 10
V2 = 100 n2 = 30
V3 = 120 n3 = 60
Total 100
La vitesse est un rapport entre la distance parcourue et le temps mis pour parcourir cette
distance.
La vitesse moyenne avec laquelle l'automobiliste a parcouru les 100 Km est le rapport entre la
distance totale (100 Km) et le temps total (somme des temps mis pour parcourir chaque partie
du trajet).
Le temps mis pour parcourir un trajet est égal au rapport de la distance du trajet sur la vitesse.
Distance totale 10 + 30 + 60
Vitesse moyenne = = = 109,8 Km/h
Temps total 10 30 60
+ +
90 100 120
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrées. Elle est
très rarement utilisée.
n n
x x
2 2
− i 1 i
La moyenne quadratique est : x q = [ i =1 ] = 2 i =1
n n
k k
ni xi n x
2 2
− 1 i i
x q = [ i =1k ] = 2 i =1
k
n i =1
i n i =1
i
k k
niCi n C
2 2
− 1 i i
x q = [ i =1k ] =
2 i =1
k
ni
i =1
n i =1
i
On peut montrer que la moyenne harmonique est inférieure ou égale à la moyenne géométrique
qui est inférieure ou égale à la moyenne arithmétique qui est inférieure ou égale à la moyenne
géométrique.
− − − −
xh x g x xq
2.2. Le mode
Le mode d'une série statistique est l'observation que l'on rencontre le plus fréquemment. Le
mode peut ne pas exister, et s'il existe, il peut ne pas être unique.
Exemple :
La série statistique : 3, 3, 9, 9, 9, 12, 12, 12, 12, 12, 15, 20, 24, 25, 25 a pour mode 12.
La série statistique : 5, 10, 12, 12, 12, 12, 15, 16, 20, 20, 20, 20, 25 a deux modes, 12 et 20.
La série statistique : 4, 10, 12, 15, 16, 20, 22, 24, 25, 28, 31, 34, 36 n'a pas de mode.
Le mode correspond, dans le cas d'une distribution de fréquences non groupée, à la valeur qui
possède la plus grande fréquence.
Exemple :
La variable nombre d'employés a pour mode 2, c'est à dire la plupart des commerçants ont deux
employés.
Dans le cas d'une variable statistique continue groupée en classes, on parle de classe modale,
elle correspond à la classe dont la fréquence est la plus élevée. Le mode correspond à la valeur
de la variable qui correspond au maximum de l'histogramme. C'est le point central de la classe
modale si les classes ont la même amplitude, dans le cas contraire, il faut travailler avec les
effectifs ajustés.
Exemple :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
Les amplitudes des classes étant inégales, il convient d'ajuster les fréquences, on choisit comme
amplitude unitaire 20.
Après ajustement des fréquences, la classe modale est la classe 40 à 60 m², le mode est égal à
50 m², c'est à dire la plupart des logements ont une superficie de 50 m².
2.3. La médiane
La médiane d'une variable statistique est une valeur pour laquelle, la moitié des observations lui
sont inférieure ou égales et la moitié supérieure ou égales. La médiane partage donc le nombre
total d'observations en deux parties égales. La médiane est un paramètre statistique qui ne
dépend que du nombre d'observations. pour déterminer la médiane, il faut raisonner en terme de
fréquences cumulées, la médiane est alors la valeur de la variable qui correspond à la moitié de
l'effectif total.
Adil EL MARHOUM Page 43
COURS DE STATISTIQUES DESCRIPTIVES
n +1
Si le nombre d'observation est impair, la médiane est l'observation de rang
2
Me = x n +1
2
n
Si le nombre d'observations est pair, la médiane est comprise entre l'observation de rang et
2
n
l'observation de rang + 1 . On prend comme valeur de la médiane la moyenne arithmétique
2
simple des deux observations.
xn M e x n
+1
2 2
xn + x n
+1
Me = 2 2
2
Exemple :
Le nombre d'observations, 1000, est pair, la médiane est comprise entre l'observation de rang
500 et l'observation de rang 501. On prend comme valeur de la médiane la moyenne
arithmétique simple des deux observations.
x500 M e x 501
x500 + x 501
Me =
2
3+ 4
Me = = 3,5
2
Pour des données groupées en classes, la classe médiane est la classe qui contient la médiane.
On détermine la médiane par interpolation linéaire.
Désignons par :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
En consultant les fréquences absolues cumulées croissantes, la classe médiane est la classe 40 à
60 m². La médiane est donc :
50 − 28
Me = 40 + 20 = 60 m²
22
La moitié des logements ont une superficie inférieure ou égale à 60 m² et la moitié des
logements ont une superficie supérieure ou égale à 60 m².
Remarque :
Lorsqu'une distribution est symétrique, on démontre que moyenne, mode et médiane sont alors
confondus. Dans le cas contraire, la distribution statistique est dite dissymétrique et la médiane
est alors comprise entre le mode et la moyenne et on a la relation suivante :
La médiale est calculée pour une variable statistique groupée en classes, la classe médiale est la
classe qui contient la médiale. On détermine la médiale par interpolation linéaire.
Désignons par :
Sn-1 : sommes des observations cumulées croissantes de la classe qui précède la classe
médiale ;
nixi : somme des observations de la classe médiale.
n x i i
i =1
− Si −1
Ml = L0 + ai 2
ni xi
Exemple :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
n x i i
6660
i =1
=
= 3330
2 2
En consultant les sommes cumulées croissantes, la classe médiale est la classe 60 à 100 m². La
médiale est donc :
3330 − 1740
Ml = 60 + 40 = 80,92 m²
3040
La moitié de la superficie totale des 100 logements est répartie sous forme de logements dont la
superficie est inférieure ou égale à 80,92 m² et l'autre moitié sous forme de logements dont la
superficie est supérieure ou égale à 80,92 m².
Exemple:
−
La moyenne de : 8, 10, 12 est x = 10
−
La moyenne de : 4, 6, 8, 10, 12, 14, 16 est x = 10
Les deux séries ont la même moyenne, mais les valeurs de la deuxième série sont plus étalées
autour de la moyenne, on dit qu'elles sont plus dispersées.
Les observations ont donc tendance à s'étaler autour d'une valeur centrale (moyenne), les
paramètres de dispersion permettent de mesurer la variabilité des valeurs observées autour de
cette valeur.
En statistique, le mot écart signifie la valeur absolue de la différence entre une valeur observée
et une valeur centrale (le plus souvent la moyenne).
−
Ecart à la moyenne = x i − x
Ecart à la médiane = x i − Me
L'écart moyen, désigné par Em, est donc la moyenne arithmétique simple des écarts.
n −
xi − x
L'écart à la moyenne moyen est : Em = i =1
n
n
x i − Me
L'écart à la médiane moyen est : Em = i =1
k − k
n i xi − x n i xi − Me
Em = i =1
k
ou Em = i =1
k
n
i =1
i n
i =1
i
Dans le cas d'une variable statistique continue groupée en classes, l'écart moyen est :
k − k
n C i i −x n C i i − Me
Em = i =1
k
ou Em = i =1
k
ni
i =1
n i =1
i
Exemple :
Les tableaux suivants présentent le salaire horaire des employés de deux entreprises.
Entreprise 1
Salaire Nombre Point −
ni Ci − Me
horaire d'employés central ni Ci − x
3 −
n C i i −x
1107,62
Écart à la moyenne moyen Em = i =1
3
= = 12,73 dh/h
n
87
i
i =1
n C i i − Me
1124
Écart à la médiane moyen Em = i =1
3
= = 12,92 dh/h
n
87
i
i =1
Entreprise 2
Salaire Nombre Point −
ni Ci − Me
horaire d'employés central ni Ci − x
5 −
n C i i −x
2075,42
Écart à la moyenne moyen Em = i =1
5
= = 23,86 dh/h
n
87
i
i =1
n C i i − Me
2089,5
Écart à la médiane moyen Em = i =1
5
= = 24,02 dh/h
n
87
i
i =1
Le salaire horaire moyen est le même pour les deux entreprises. L'écart moyen de l'entreprise 2
est plus élevé que celui de l'entreprise 1. Les salaires sont donc plus dispersés dans la deuxième
entreprise.
L'écart moyen est très rarement utilisé pour caractériser la dispersion, on lui préfère la variance
et l'écart type.
Définition :
La variance est égale à la moyenne arithmétique des carrées des écarts des observations par
rapport à la moyenne. La variance n'est pas homogène à la variable statistique, mais au carré de
cette variable. Pour cette raison, on préfère utiliser sa racine carrée appelée écart type.
n −
( xi − x)2
Écart type S= i =1
k −
n (x i i − x) 2
Variance S2 = i =1
k
n i =1
i
k −
ni ( xi − x)2
Écart type S= i =1
k
n
i =1
i
k −
n (C i i − x) 2
Variance S2 = i =1
k
n i =1
i
k −
ni (Ci − x)2
Écart type S= i =1
k
n
i =1
i
Propriétés :
n −
( xi − x)2
S2 = i =1
n − −2
( xi − 2 xi x+ x )
2
S2 = i =1
n − n n −2
xi − 2 x xi + x
2
S2 = i =1 i =1 i =1
n n
xi x
2
−2
− nx i
S2 = i =1
− 2 x i =1 +
n n n
x
2
i −2 −2
S =
2 i =1
− 2x + x
n
x
2
i −2
S =
2 i =1
−x
n
La variance est égale à la différence entre la moyenne des carrés et le carré de la moyenne.
Dans le cas d'une variable statistique discrète, la variance est :
n x
2
i i −2
S2 = i =1
k
−x
n i =1
i
La transformation linéaire d'une variable statistique x est une autre variable y telle que :
La variance de y est :
n −
( yi − y)2
Sy = i =1
2
n −
[(ax + b) − (a x+ b)]
i
2
Sy = i =1
2
n −
(ax + b − a x− b)
i
2
Sy = i =1
2
n −
(ax − a x) i
2
Sy = i =1
2
n −
( xi − x)2
S y = a2 i =1
2
S y = a2 Sx
2 2
La variance s'exprime au carré de l'unité de la variable. Elle n'a pas un sens très concret, elle ne
prend de signification que pour comparer deux ou plusieurs variables statistiques.
L'écart type mesure l'écart moyen quadratique des observations par rapport à la moyenne
arithmétique. Il s'exprime dans la même unité que la variable.
Remarque :
Exemple 1 :
Les tableaux suivants présentent le salaire horaire des employés de deux entreprises.
Entreprise 1
−
x = 56,78 dh/h
n x
2
i i −2 300400
S2 = i =1
3
−x = − 56,782 = 228,91
n
87
i
i =1
Entreprise 2
−
x = 56,78 dh/h
5
n x
2
i i −2 348400
S2 = i =1
5
−x = − 56,782 = 780,63
n
87
i
i =1
L'écart type de l'entreprise 2 est plus élevé que celui de l'entreprise 1. Les salaires sont donc
plus dispersés dans la deuxième entreprise.
Exemple 2 :
On effectue un changement de variable, c'est à dire, on remplace la variable longueur (C) par
une autre variable y de telle sorte que C soit une transformation linéaire de y.
C −b
C = ay + b Donc : y=
a
Il faut choisir les constantes a et b qui donnent des valeurs très simples de y. on choisit la
constante b parmi les valeurs de C, de préférence une valeur du milieu, pour avoir une valeur
nulle de y au milieu. On choisit la constante a comme étant le plus grand diviseur commun des
valeurs de (C-b) (le plus souvent a est l'amplitude constante des classes)pour avoir que des
valeurs entières de y.
C − 117
y=
2
Les valeurs de y sont très simples, on peut calculer facilement la moyenne et la variance de y.
8 8
ni yi n y
2
− 83 i i −2 551
y= i =1
= = 0,83 Sy = i =1
−y = − 0,832 = 4,82
2
8 8
n n
100 100
i i
i =1 i =1
− −
C = 2 y + 117 = 2 0,83 + 117 = 118,66 mm SC = 22 S y = 4 4,82 = 19,28
2 2
S
CV = −
100
x
Le coefficient de variation est indépendant des unités choisies, il est utile pour comparer des
distributions qui ont des unités différentes.
Exemple :
On a relevé le poids et la taille d'un échantillon de 200 personnes. Les résultats sont présentés
dans les tableaux 1 et 2.
Tableau 1
− n x i i
13490
x= i =1
5
= = 67,45 Kg
n
200
i
i =1
5
n x
2
i i −2 911606
S2 = i =1
5
−x = − 67,452 = 8,53
n
200
i
i =1
S = 8,53 = 2,92 Kg
S 2,92
CV = −
100 = 100 = 4,33 %
x 67,45
Tableau 2
− n x i i
29395
x= i =1
7
= = 146,98 cm
n
200
i
i =1
n x
2
i i −2 4357985
S2 = i =1
7
−x = − 146,982 = 188,27
n
200
i
i =1
S = 188,27 = 13,72 cm
S 13,72
CV = −
100 = 100 = 9,33 %
x 146,98
Le coefficient de variation de la taille est supérieur à celui du poids, la taille est donc plus
dispersée que le poids.
Les quartiles partagent le nombre total des observations en quatre parties égales, chaque partie
contient 25% des observations. On définit trois quartiles.
• Le premier quartile q1 : C'est une valeur pour laquelle un quart des observations (25%) lui
sont inférieures ou égales et trois quarts des observations (75%) lui sont supérieures ou
égales.
• Le deuxième quartile q2 : C'est une valeur pour laquelle deux quarts des observations (50%)
lui sont inférieures ou égales et deux quarts des observations (50%) lui sont supérieures ou
égales. Il est aussi égale à la médiane.
• Le troisième quartile q3 : C'est une valeur pour laquelle trois quarts des observations (75%)
lui sont inférieures ou égales et un quart des observations (25%) lui sont supérieures ou
égales.
L'intervalle interquartile [q1 , q3] contient 50% des observations qui sont au centre de la
distribution en laissant 25% des observations à droite et 25 % à gauche. L'amplitude de cet
intervalle est appelée écart interquartile :
Écart interquartile = q3 - q1
q3 − q1
Écart semi-interquartile =
2
Pour le calcul des quartiles, on utilise la même méthode de calcul que pour la médiane.
Pour des données groupées en classes, on détermine la médiane par interpolation linéaire.
Désignons par :
3n
− N i −1
q3 = L0 + ai 4
ni
Exemple :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
En consultant les fréquences absolues cumulées croissantes, q1, qui correspond à la 25 ème
observation, se trouve dans la classe 20 à 40 m². q3, qui correspond à la 75ème observation, se
trouve dans la classe 60 à 100 m².
100
− 10
q1 = 20 + 20 4 = 36,67 m 2
18
3 100
− 50
q3 = 60 + 40 4 = 86,32 m 2
38
50 % des logements ont une superficie comprise entre 36,67 m² et 86,32 m².
Les déciles partagent le nombre total des observations en dix parties égales, chaque partie
contient 10% des observations. On définit neuf déciles.
• Le premier décile d1 : C'est une valeur pour laquelle un dixième des observations (10%) lui
sont inférieures ou égales et neuf dixièmes des observations (90%) lui sont supérieures ou
égales.
• Le deuxième décile d2 : C'est une valeur pour laquelle deux dixièmes des observations
(20%) lui sont inférieures ou égales et huit dixièmes des observations (80%) lui sont
supérieures ou égales.
• L'ième décile di : C'est une valeur pour laquelle i dixième des observations lui sont
inférieures ou égales et (10-i) dixième des observations lui sont supérieures ou égales.
On peut définir plusieurs écarts interdécile qui correspondent à différents intervalles interdécile.
L'intervalle interdécile [d1 , d9] contient 80% des observations qui sont au centre de la
distribution en laissant 10% des observations à droite et 10 % à gauche.
L'intervalle interdécile [d2 , d8] contient 60% des observations qui sont au centre de la
distribution en laissant 20% des observations à droite et 20 % à gauche.
L'intervalle interdécile [d3 , d7] contient 40% des observations qui sont au centre de la
distribution en laissant 30% des observations à droite et 30 % à gauche.
L'intervalle interdécile [d4 , d6] contient 20% des observations qui sont au centre de la
distribution en laissant 40% des observations à droite et 40 % à gauche.
Pour le calcul des déciles, on utilise la même méthode de calcul que pour la médiane et les
quartiles. Pour des données groupées en classes, on détermine la médiane par interpolation
linéaire.
Désignons par :
in
− N i −1
di = L0 + ai 10
ni
Exemple :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
En consultant les fréquences absolues cumulées croissantes, d1, qui correspond à la 10 ème
observation, se trouve dans la classe 0 à 20 m². d9, qui correspond à la 90ème observation, se
trouve dans la classe 100 à 160 m².
100
−0
d1 = 0 + 20 10 = 20 m 2
10
9 100
− 88
d9 = 100 + 60 10 = 115 m 2
8
• Courbe de concentration
Cette courbe est obtenue en calculant les fréquences relatives cumulées croissantes des
observations après les avoir classées par ordre croissant et les masses relatives cumulées
croissantes.
ni
cumulées croissantes
n
n i xi
cumulées croissantes
n i xi
Adil EL MARHOUM Page 61
COURS DE STATISTIQUES DESCRIPTIVES
Dans le cas où toutes les observations seraient égales entre elles, la courbe de concentration
correspond à la bissectrice. Plus la courbe s'éloigne de la bissectrice plus la concentration est
élevée.
• Coefficient de concentration
• Indice de concentration
Médiale - Médiane
Indice de concentration = 100
Etendu
Exemple :
Courbe de concentration
100
croissantes
70
60
50
40
30
20
10
0
10,0 28,0 50,0 88,0 96,0 100,0
80,92 - 60
Indice de concentration = 100 = 8 %
260
n k
( x − a)
i =1
i
r
n ( x − a)
i =1
i i
r
ou k
n
n
i
i =1
C'est la moyenne des puissances rième des différences des observations par rapport à la constante
a.
• Les moments non centrés : on les appelle aussi moments par rapport à l'origine. Ce sont les
moments d'ordre r par rapport à 0.
n k
xi n x
r r
i i
mr = i =1
ou mr = i =1
k
n
n
i
i =1
x
0
i
m0 = i =1
=1
n
x
1
i −
m1 = i =1
=x
n
x
2
i −2
m2 = i =1
= S2 + x
n
• Les moments centrés : on les appelle aussi moments par rapport à la moyenne.
n − k −
( xi − x)r ni ( xi − x)r
Mr = i =1
ou Mr = i =1
k
n
n
i
i =1
n −
(x i − x) 0
M0 = i =1
=1
n
n −
(x i − x)1
M1 = i =1
=0
n
n −
( xi − x)2
M2 = i =1
= S 2 = m2 − m1
2
D'une manière générale, les moments centrés d'ordre pair M4, M6, …. Sont comme la variance
M2 des paramètres de dispersion. Par contre, les moments centrés d'ordre impair sont des
indices de dissymétrie, ils sont nuls pour les distributions symétriques et différents de zéro pour
les distributions dissymétriques.
Ce coefficient est sans dimension et il est nul pour les distributions symétriques. Son signe est
celui du moment centré d'ordre 3, ce signe indique le sens de la dissymétrie.
Exemple :
−
x = 66,6 m 2
S 2 = 1834,44
S = 1834,44 = 42,83 m 2
6 −
ni ( xi − x)3 11129059,25
M3 = i =1
6
= = 111290,59
n
100
i
i =1
6 −
ni ( xi − x)4 1958518165,93
M4 = i =1
6
= = 19585181,66
n
100
i
i =1
M 3 111290,59
Coefficient d'asymétrie : g1 = = = 1,42
S3 42,833
M4 19585181,66
Coefficient d'aplatissement : g 2 = 4
−3 = − 3 = 2,82
S 42,834
I. DEFINITION
Comme les paramètres étudiés pour les distributions, un indice est une grandeur qui
permet de résumer et d’exprimer par un chiffre unique un ensemble d’informations.
Un indice a pour objet de permettre des comparaisons entre grandeurs. Il peut s’agir
de comparaisons dans l’espace ou dans le temps.
Un indice est donc destiné à comparer deux grandeurs ou les valeurs d’une même
grandeur à deux moments différents. Ces grandeurs peuvent être soit simples, et
l’indice est dit élémentaire ou simple, soit des grandeurs complexes, et l’indice est dit
synthétique.
Gt
It /0 = 100
G0
L'interprétation d'un indice simple doit citer la grandeur étudiée, les périodes
concernées, le sens et la valeur de la variation.
Tout indice supérieur à 100 représente une augmentation d'une valeur relative égale à
la différence de l'indice par rapport à 100.
Tout indice inférieur à 100 représente une diminution d'une valeur relative égale à la
différence de l'indice par rapport à 100.
Exemple :
16777
I 1999/ 1995 = 100 = 111,7 %
15018
• Propriété d’identité
G0
I0/0 = 100 = 100 %
G0
• Propriété de circularité :
Considérons une grandeur G, mesurée aux dates 0, t’ et t, soient les indices simples :
Gt Gt ' Gt
It /0 = I t '/ 0 = I t / t' =
G0 G0 Gt '
I t / 0 = I t / t ' I t '/ 0
Elle est nécessairement satisfaite par un indice élémentaire puisqu’elle se traduit par :
Gt G G
= t t'
G 0 Gt ' G 0
On peut utiliser cette propriété pour comparer une situation à une date t à la situation
à la date 0, sans connaître Gt et Go, si l’on dispose des valeurs de It/t’ et de It’/0.
• Propriété de réversibilité
1
I0/t =
It /0
G0 1
=
Gt G t
G0
Cette propriété est d’un grand intérêt pratique, puisque, combinée avec la propriété
de circularité, elle permet de procéder à ce qu’on appelle un changement de base d’un
indice.
Exemple :
Sur 210 articles, les indices du coût de la vie ont été pour 1988 et 1992 respectivement de :
1994 1999
Pays 1 393,6 491,5
Pays 2 384,7 473,5
Base 100 1980
L'augmentation du coût de la vie qui a eu lieu entre 1994 et 1999, a-t-elle été plus élevée dans le pays 1 ou 2 ?
Pour comparer l'augmentation du coût de la vie qui a eu lieu entre 1994 et 1999 dans les deux pays,
il faut changer l'année de base 1980 en 1994 :
1
I 99 / 94 = I 99 / 80 I 80 / 94 = I 99 / 80
I 94 / 80
1
• Pays 1 : I 99 / 94 = 4,915 = 1,249 = 124,9 %
3,936
1
• Pays 2 : I 99 / 94 = 4,735 = 1,231 = 123,1 %
3,847
L'augmentation du coût de la vie qui a eu lieu entre 1994 et 1999, a été plus élevée dans le pays 1.
Posons Gi0 les valeurs des grandeurs simples pour les différents produits i relevées à
la date 0 et Git les valeurs des grandeurs simples pour les différents produits i
relevées à la date t ( i = 1,…., n). Deux situations peuvent se présenter :
G it n
−
Gt
i =1
n
G
i =1
it
It /0 = −
= n
= n
G0 G
i =1
i0 G
i =1
i0
Si au contraire les grandeurs simples Gi sont de même nature (même unité) mais n'ont
pas la même importance on associe à chaque grandeur Gi un poids différent dans le
−
calcul de la moyenne G , si on note i le coefficient de pondération affecté à la
− −
grandeur Gi , la formule retenue pour le calcul de G 0 et G t est celle de la moyenne
arithmétique pondérée, la formule de l'indice synthétique devient :
G i it n
−
Gt
i =1
n
G
i =1
i it
It /0 = −
= n
= n
G0 G
i =1
i i0 G
i =1
i i0
On peut aussi calculer une moyenne d’indices. Pour chaque produit i, on peut
déterminer la valeur de l’indice élémentaire à la date t par rapport à la date 0, et
exprimer l’indice synthétique comme une moyenne arithmétique des indices
élémentaires. On obtient :
n
Git
G
1
It /0 =
n i =1 i0
i =1
i
Il est évident que les deux formules (moyenne d’indices ou indice de moyennes) ne
sont pas équivalentes et par conséquent débouchent sur des résultats différents.
Cependant les différentes moyennes n’ont pas les mêmes propriétés (voir
caractéristiques de tendance centrale). Par conséquent le choix de type de moyenne à
utiliser en matière d’indice aura des répercussions relatives aux propriétés de
circularité et de réversibilité de l’indice synthétique obtenu.
• Moyenne arithmétique
i =1
i
• Moyenne harmonique
i =1
i
It /0 = n
Gi 0
( G
i =1
i
it
)
Par conséquent, l’indice synthétique obtenu à partir d’une moyenne harmonique des
indices élémentaires aura donc une valeur plus faible que celle qui résulte d’une
moyenne arithmétique.
• Moyenne géométrique
i
n
n
Git i
It /0 = i =1
(
Gi 0
) i =1
Malgré cet avantage, pour des raisons de commodité et de simplicité, les indices
reposant sur les moyennes arithmétique et harmonique lui sont préférés.
Les formules des indices les plus couramment utilisés se distinguent les unes des
autres, à la fois par le choix des moyennes sur lesquelles ils reposent, et par leur
système de pondération. Pour que l’indice reflète la structure de la situation étudiée,
les coefficients de pondération doivent exprimer l’importance relative des différents
éléments dont la combinaison engendre cette situation. Si par exemple, les dépenses
en nourriture d’un ménage représentent le triple des dépenses en éducation, le rapport
des coefficients de ces deux groupes de produits doit être de trois à un.
i =1
ti
Pt / 0 = n
Gi 0
i =1
it (
G it
)
i =1
i0
Cet indice traduit donc parfaitement la situation de la période de base dont il adopte
les coefficients de pondération. Cependant, au fur et à mesure que la structure de la
situation s’écarte de son origine, l’indice devient de moins en moins fidèle, de plus en
plus déformant. Il faut alors actualiser la pondération c’est à dire définir un nouvel
indice reposant sur une base nouvelle.
La durée de vie d’un indice de Paasche n’est pas nécessairement beaucoup plus
longue.
Dans cette optique, la durée de vie relativement courte des indices pose donc le
problème de la comparaison de deux situations très éloignées dans le temps. Si l’on
veut mesurer l’évolution d’une grandeur à long terme, on devra procéder à des
raccords d’indices, c’est à dire, connaissant les valeurs de deux indices successifs,
l’un de base 0 (It’/0), l’autre de base t’ (It/t’) calculer It/0 .
On écrira :
I t / 0 = I t / t ' I t '/ 0
Mais le résultat obtenu à l’aide des raccords d’indices n’est qu’une approximation, à
la fois pour des raisons théoriques et pratiques : problème de circularité, de champ
des indices et de pondération.
i =1
i0
1
P0 / t = n
=
Git Lt / 0
i =1
i0 (
Gi 0
)
Et réciproquement :
n
Gi 0
i =1
it (
Git
)
1
L0 / t = n
=
Pt / 0
i =1
it
Pour palier aux carences des deux indices et pour mieux rendre compte de la réalité,
il a été proposé de prendre comme indice une moyenne des indices de Paasche et de
Laspeyres. C’est ce qu’on appelle l’indice de Fisher, qui est une moyenne
géométrique des deux indices, soit :
Ft / 0 = Lt / 0 Pt / 0
1 1
F0 / t = L0 / t P0 / t =
Lt / 0 Pt / 0
1 1
F0 / t = =
Lt / 0 Pt / 0 Ft / 0
3.5. Les indices de prix, de quantités et de valeurs
Les indices de Laspeyres et de Paasche sont très souvent utilisés pour exprimer
l’évolution des prix et des quantités. Prenons l’exemple de la mesure des prix à la
consommation, et des quantités consommées par un ménage.
n
d0 = p
i =1
i0 qi0
n
dt = p
i =1
it q it
A la date t, les prix et les quantités ont varié. On peut calculer pour chaque produit :
p it
Pt i/ 0 =
pi0
q it
Qti / 0 =
qi0
p it q it
Dti / 0 = = Pt i/ 0 Qti / 0
pi0 qi0
Si l’on veut calculer des indices synthétiques, il serait judicieux d’affecter à chaque
indice élémentaire i un coefficient de pondération qui exprime la part du produit i
dans les dépenses totales du ménage, cette part est :
pi0 qi0
A la date 0 i0 = n
p
i =1
i0 qi0
p it q it
A la date t it = n
p
i =1
it q it
n n
i =1
i0 =
i =1
it =1
On peut dès lors écrire les indices de Laspeyres et de Paasche des prix et des
quantités.
n n
p it p i 0 q io p it
PLt / 0 = i0 ( )= ( )
i =1 pi0 i =1 p i0 qi0
pi0
p i =1
it q i 0
PLt / 0 = n
p i =1
i0 qi0
1 1
Ppt / 0 = n
= n
pi0 p it q it pi0
( ) ( )
p
it
i =1 p it i =1 it q it
p it
p
i =1
it q it
Ppt / 0 = n
p
i =1
i 0 q it
C’est le rapport des dépenses totales du ménage à la période t évaluées aux prix
courants, aux dépenses totales du ménage à cette même période évaluées aux prix de
la période de base. Les quantités sont celles de la période courante ; les prix quant à
eux, changent.
n n
q it p i 0 q io q it
Q Lt / 0 = i0 ( )= ( )
i =1 qi0 i =1 p i0 qi0
qi0
q
i =1
it pi0
Q Lt / 0 = n
q
i =1
i0 pi0
L’indice de Laspeyres des quantités est donc le rapport des dépenses totales du
ménage à la période t évaluées aux prix de la période de base, aux dépenses totales du
ménage à la période de base évaluées aux même prix. Les prix sont ceux de la
période de base, et les quantités varient.
1 1
Q pt / 0 = n
= n
qi0 p it q it qi0
( ) ( )
p
it
i =1 q it i =1 it q it
q it
q
i =1
it p it
Ppt / 0 = n
q
i =1
i0 p it
C’est le rapport des dépenses totales du ménage à la période t évaluées aux prix
courants, aux dépenses totales du ménage à la période de base évaluées aux même
prix. Les prix sont ceux de la période courante alors que les quantités varient.
Ces indices peuvent être combinés deux à deux pour retrouver l’indice des dépenses
totales ou indice des valeurs, qui lui est un indice de moyennes et non une moyenne
d’indices.
p
i =1
it q it
Dt / 0 = n
p
i =1
i0 qi0
Or
n n n
i =1
p it q i 0
i =1
q it p it p
i =1
it q it
PLt / 0 Q Pt / 0 = n
n
= n
= Dt / 0
p
i =1
i0 qi0 q
i =1
i0 p it p
i =1
i0 qi0
De même :
n n n
i =1
p i 0 q it
i =1
q it p it p
i =1
it q it
Q Lt / 0 PPt / 0 = n
n
= n
= Dt / 0
p
i =1
i0 qi0 q
i =1
it pi0 p
i =1
i0 qi0
Ainsi si l’on connaît l’indice des valeurs et l’indice des prix de Laspeyres, on peut
déduire l’indice de quantités de Paasche. Ou encore, si l’on connaît l’indice des
valeurs et l’indice des prix de Paasche, on peut en déduire l’indice des quantités de
Laspeyres.
• Soit un niveau : Les valeurs prises par la variable correspondent à des instants de temps. Yt
est alors la mesure du niveau atteint à cette date par la variable observée.
• Soit un flux : les valeurs prises par la variable correspondent à des périodes, des intervalles
de temps. Yt est alors la mesure d’un flux écoulé au cours de la période en question (par
exemple les ventes du mois de décembre de l’année n.
Les variations saisonnières correspondent aux fluctuations annuelles de la grandeur autour d’un
trend déterminé sur une période pas trop longue ; ce trend porte le nom de mouvement extra-
saisonnier. Ces variations se reproduisent chaque année, approximativement aux mêmes
Adil EL MARHOUM Page 80
COURS DE STATISTIQUES DESCRIPTIVES
moments, et dans le même sens, c’est à dire, au-dessus ou au-dessous du trend. L’étude de ces
fluctuations est indispensable pour la prévision à court terme. L’élimination du mouvement
saisonnier est nécessaire à la poursuite de l’étude de la série.
La composante cyclique rend compte des fluctuations longues que la variable peut parfois
présenter autour de la tendance de longue durée. Les fluctuations cycliques qui traduisent la vie
économique peuvent avoir une amplitude de plusieurs année.
Enfin, les séries chronologiques peuvent être marquées par des variations accidentelles,
appelées aussi variations aléatoires. Ce sont des variations de caractère souvent imprévisible et
modifient ponctuellement la série chronologique : grève, guerre, mesures fiscales, sécheresse
pour les productions agricoles…
La donnée observée à la date t ou donnée brute Yt d’une série chronologique peut donc
s’interpréter comme résultant de la superposition de ces quatre composantes.
Selon le premier schéma, la série brute résulte de la somme du mouvement de longue durée Tt,
du mouvement saisonnier St, du mouvement cyclique Ct et du mouvement accidentel ou
résiduel Rt :
Yt = Tt + St + Ct + Rt
St, Ct, et Rt sont alors les éléments que l’on doit ajouter à la valeur Tt de la tendance à la date t
pour obtenir la donnée observée Yt.
Ce modèle considère que les mouvements saisonnier et cyclique sont indépendants du niveau
Yt atteint sur le trend.
On peut au contraire penser que les variations cycliques et saisonnières suivent l’évolution
générale de la grandeur. On adopte alors un modèle multiplicatif :
Yt = Tt x St x Ct x Rt
Où St, Ct et Rt sont les coefficients par lesquels on doit multiplier Tt, position sur le Trend à la
date t, pour obtenir la donnée observée Yt.
On peut aussi noter que ces deux hypothèses ne sont pas incompatibles. Le schéma additif et le
schéma multiplicatif peuvent être combinés pour donner un schéma dit « mixte ».
Les modèles sus-indiqués sont tous acceptables. Cependant, il est fréquemment fait usage du
modèle multiplicatif pour étudier les techniques associées à l’analyse des séries chronologiques.
L’analyse des séries chronologiques rend donc nécessaire la mise au point d’instruments
spécifiques ayant pour objet de mettre à jour, et de mesurer, l’influence des mouvements
saisonniers. Ces instruments doivent permettre d’ «épurer » la série chronologique de l’effet
perturbateur des fluctuations saisonnières, de calculer une série dite « désaisonnalisée », ou
encore « corrigée des variations saisonnières » plus facile à interpréter, et plus utilisable si l’on
veut prolonger le mouvement constaté dans l’avenir et formuler des prévisions d’évolution.
L’objet de ce qui suit est de présenter les techniques de désaisonnalisation des séries
chronologiques.
La désaisonnalisation d’une série chronologique repose en effet sur une démarche générale qui
peut être décomposée en trois étapes essentielles :
• la deuxième étape consiste, par confrontation entre les valeurs de la série brute et
celles de la tendance, à calculer les valeurs du mouvement saisonnier ;
Exemple :
Dans le but d ‘étudier les ventes futures d’essence, un gérant de cinq stations d’essence a
enregistré les ventes trimestrielles d’essence pour les 4 dernières années. Celles-ci sont
représentées dans le tableau suivant :
Pour calculer les moyennes mobiles de longueur 3, on regroupe les ventes des périodes 1, 2, et
3, et on prend leur moyenne arithmétique. La première moyenne mobile sera donc :
39 + 37 + 61 137
= = 45,7
3 3
La deuxième moyenne mobile est obtenue en éliminant les ventes de la première période (39),
en ajoutant les ventes de la quatrième période (58), et ensuite en calculant la nouvelle moyenne.
37 + 61 + 58 156
= = 52
3 3
Le tableau ci-dessous donne les résultats pour les moyennes mobiles de longueur 3, MM3 et de
longueur 5, MM5 :
Il faut noter qu’on place les moyennes mobiles au centre du groupe de valeurs qui font l’objet
de la moyenne. C’est la raison pour laquelle, il est préférable d’utiliser un nombre impair de
périodes (longueur) dans les moyennes mobiles. Nous discuterons plus tard comment procéder
lors de l’utilisation d’un nombre pair de périodes.
Pour essayer de voir comment la méthode des moyennes mobiles réduit les fluctuations
aléatoires, examinons la représentation graphique suivante :
100
90
80
70 VENTES
VENTES
60
50 MM3
40
30 MM5
20
10
0
11
13
15
1
PERIODES
Il est à noter aussi que les moyennes mobiles de longueur 5 «lissent» la série brute plus que
lorsqu’on utilise les moyennes mobiles de longueur 3. En général, plus la période sur laquelle
nous faisons les moyennes est longue, plus la série brute devient lisse. Malheureusement, dans
ce cas, nous avons «lissé» un peu trop, du fait que le mouvement saisonnier n’est plus apparent
dans le cas de MM5. Tout ce qu’on peut discerner ou détecter est la tendance de longue durée.
Il est important de réaliser que notre objectif est de lisser la série chronologique suffisamment
pour éliminer ou du moins réduire les fluctuations aléatoires et de ressortir les autres
composantes (tendance, cycle, et/ou saison) présentes.
Période Série
1 15
2 27
3 20
4 14
5 25
6 11
15 + 27 + 20 + 14 76
= = 19
4 4
Cependant, puisque cette moyenne représente les périodes 1, 2, 3 et 4, nous devons positionner
cette valeur entre les périodes 2 et 3.
27 + 20 + 14 + 25 86
= = 21,5
4 4
Obtenir des moyennes mobiles qui se situent entre deux périodes cause des problèmes
notamment d’interprétation.
La méthode des moyennes mobiles centrées corrige ce problème. Cette méthode consiste à
calculer des moyennes mobiles d’ordre 2 aux moyennes mobiles déjà obtenues.
Le tableau résume les résultats obtenus par la méthode des moyennes mobiles centrées :
Où
S1 = y1
Ce qui donne :
Cette dernière formule indique que la série « lissée » à la date t, dépend de toutes les
observations antérieures de la série chronologique.
Le coefficient de lissage w est choisi en fonction du degré de lissage demandé. Une valeur de w
tendant vers 0 produit un degré de lissage assez important. Par contre, une valeur de w proche
de 1 résulte dans un lissage assez limité de la série en question.
Exemple :
S1 = y1 = 39
90
80
70
60
VENTES
w = 0,2
50
40 w = 0,7
30
20
10
0
PERIODES
Les moyennes mobiles et la méthode exponentielle sont des méthodes relativement assez
limitées de réduction ou d’élimination des fluctuations aléatoires dans le but de découvrir
l’existence d’autres composantes. Dans les sections qui suivent nous nous proposons de
mesurer avec plus de précision les composantes d’une série chronologique.
Comme nous l’avons déjà mentionné, le trend peut être soit linéaire ou non linéaire et par
conséquent peut prendre des formes fonctionnelles assez diverses. La méthode la plus facile à
adopter pour isoler la tendance de longue durée est la méthode de régression où la variable
indépendante est t.
Si nous estimons que la tendance de longue période est essentiellement linéaire, on utilisera la
modèle suivant :
Y = 0 + 1 t +
Quoique plusieurs modèles non linéaires sont possibles, nous nous limiterons dans le cadre de
cet ouvrage à deux :
Y = 0 + 1 t + 2 t² +
Ce type de modèle peut s’appliquer par exemple a un nouveau produit qui a connu une
croissance rapide au début de son introduction sur le marché suivi par une relative stabilité.
Y = 0 1t
Le modèle logarithmique ou exponentiel peut être appliqué dans le cas de séries chronologiques
qui connaissent des taux de croissance exponentiels avec le temps.
On peut utiliser soit le logarithme à base 10 ou celui à base e. Dans notre analyse, on utilise le
logarithme naturel. Les exemples qui suivent illustrent quand et comment ces modèles sont
appliqués.
Exemple :
Les chiffres d’affaires annuels (en millions de dirhams) d’une firme pharmaceutique ont été
consignés dans le tableau qui suit. La direction de la société estime que le « trend » ou tendance
sur cette période est linéaire.
La ligne de tendance obtenue par la méthode des moindres carrés ordinaires est la suivante :
30
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11
Exemple :
Les sociétés d’assurance voudraient avoir une idée sur les accidents de la route pour les
prochaines années. Se basant sur les statistiques des 9 dernières années, elles veulent analyser le
trend. Ces données sont listées dans le tableau ci-dessous. En raison de la croissance rapide
observée dans la période en question, un modèle de type logarithmique a été opté. Le modèle
proposé est de la forme :
Y = 0 1t
Désignons par :
• Y' = log y
• '0 = log 0
• '1 = log 1
• ' = log
Le modèle devient :
Pour calculer les coefficients de la droite de tendance, on prend le logarithme de Y pour chaque année
(Y’).
L’estimation du modèle sous sa dernière version nous donne les coefficients suivants :
Il s'ensuit que :
Y = (1,29) (1,75)t
250
200
150
y
100
50
0
1 2 3 4 5 6 7 8 9
^
2- Pour chaque période, on calcule la valeur du trend y .
valeur observée de y y
100 = ^ 100
valeur calculée de y
y
Exemple :
La demande annuelle en énergie dans un pays est affectée par divers facteurs : prix, offre et
l’état de l’économie du pays en question. Pour essayer d’étudier les changements qui ont eu lieu
au sein de ce pays et parvenir à faire des prévisions futures, la consommation annuelle de ce
pays est tablée ci-dessous pour la période 1983-1999. En supposant un trend linéaire, calculer le
rapport au trend pour chaque année de la série en question. L’équation de la ligne de tendance
est la suivante :
y = 71,313 + 0,2248 t
consommation annuelle
80
78
76
74
72
70
68
66
64
62
60
période
Rapports au trend
110
rapport au trend
105
100
95
90
85
période
Une condition nécessaire pour l’étude de la composante saisonnière est qu’on ait une série
chronologique suffisamment longue pour qu’on puisse observer l’existence de saisons.
• modèle multiplicatif Yt = Tt x Ct x St x Rt
MMt = Tt x Ct
• modèle additif Yt = Tt + Ct + St + Rt
MMt = Tt + Ct
yt
= St x Rt
MM
yt − MM = St + Rt
3. Pour chaque type de saison, calculer la moyenne des rapports ou des différences obtenus.
Cette procédure extrait ou élimine la majorité de la variation saisonnière. Cette moyenne est au
fait une mesure des différences saisonnières.
4- Les indices saisonniers sont les rapports moyens obtenus au 3ème point ajustés dans le cas du
modèle multiplicatif pour s’assurer que l’indice saisonnier moyen est égal à l’unité.
Exemple1 :
Puisqu’il y a 4 trimestre (saisons) par an, nous allons calculer la moyenne mobile centrée de
longueur 4 pour extraire l’effet des fluctuations saisonnières et aléatoires de la série.
Pour calculer les MMC4, nous déterminons en premier les MM4 et deuxièmement nous
calculons les MM2 de ces valeurs. Par exemple, la MM4 qui se situe entre le 2ème et 3ème
trimestre est :
0,658 + 0,661
= 0,660
2
l’étape suivante est de trouver les taux d’occupation divisés par les MMC4. Les résultats de ces
deux opérations sont consignés dans le tableau suivant :
1995 1 - -
2 - -
3 0,660 1,213
4 0,666 0,853
1996 1 0,679 0,847
2 0,692 1,067
3 0,699 1,242
4 0,701 0,863
1997 1 0,684 0,869
2 0,666 1,108
3 0,669 1,090
4 0,669 0,898
1998 1 0,675 0,922
2 0,688 1,029
3 0,697 1,156
4 0,719 0,879
1999 1 0,743 0,895
2 0,756 1,105
3 - -
4 - -
Si l’on regroupe les rapports par trimestre, nous pouvons constater les similarités pour chaque
type de trimestre et les différences entre les différents types de trimestre. Par exemple, les
rapports pour le premier trimestre de chaque année sont respectivement 0,847 ; 0,869 ; 0,922 et
0,895 alors que ceux du troisième trimestre sont respectivement : 1,213 ; 1,242 ; 1,090 et 1,156.
En prenant la moyenne de ces valeurs, on élimine ou épure la variation aléatoire.
La dernière étape consiste à ajuster les moyennes en divisant chacune d’elle par le total 4,008 et
en multipliant par 4,000. Les indices saisonniers sont ces dernières moyennes obtenues. Le
tableau suivant résume les étapes 3 et 4 :
Année 1 2 3 4 Total
1995 - - 1,213 0,853
1996 0,847 1,067 1,242 0,863
1997 0,869 1,108 1,090 0,898
1998 0,922 1,029 1,156 0,879
1999 0,895 1,105 - -
Moyenne 0,883 1,077 1,175 0,873 4,008
Indice saisonnier 0,881 1,075 1,173 0,871 4,000
Les indices saisonniers indiquent, qu’en moyenne, les taux d’occupation des 1er et 4ème
trimestres sont en dessous de la moyenne annuelle, il s'agit d'une basse saison, et les taux
d’occupation des 2ème et 3ème trimestre sont supérieurs à la moyenne annuelle, il s'agit d'une
haute saison.
taux d'occupation
0,9
0,8
0,7
0,6 Yt
0,5
0,4 MMC4
0,3
0,2
0,1
0
périodes
L’un des inconvénients que présente cette méthode est le nombre assez important de calculs à
opérer. Cependant, si la série chronologique ne présente pas de composante cyclique
discernable, on peut utiliser la méthode de régression au lieu des moyennes mobiles (étape 1).
En effet, quand la série semble ne pas être affectée par des variations cycliques, on peut
représenter le modèle comme :
• Modèle multiplicatif : Yt = Tt x St x Rt
• Modèle additif : Yt = Tt + St + Rt
^
Comme la droite de régression ( y t = 0 + 1 t) représente la tendance, il s’ensuit que :
yt
• Modèle multiplicatif : = St x Rt
^
yt
^
• Modèle additif : y t − y t = St + Rt
Ensuite, on prend les moyennes de ces valeurs pour éliminer la variation aléatoire comme dans
le cas de la méthode des moyennes mobiles. Enfin, on calcule les rapports pour chacune des
périodes.
Comme la série présentée dans l’exemple relatif aux taux d’occupation semble ne pas contenir
de cycle, on devrait aboutir aux mêmes résultats (approximatifs) que ceux obtenus par la
méthode des moyennes mobiles relatifs aux indices ou coefficients saisonniers.
L’équation de la droite de régression obtenue par la méthode des moindres carrés ordinaires
est :
^
y = 0,00525 t + 0,639
^ yt
Les valeurs de y, y et ^
sont ci-dessous :
yt
Année Trimestre Yt ^ yt
yt ^
yt
1995 1 0,561 0,644614 0,87029
2 0,702 0,649860 1,08023
3 0,800 0,655106 1,22118
4 0,568 0,660352 0,86015
1996 1 0,575 0,665598 0,86839
2 0,738 0,670844 1,10011
3 0,868 0,676089 1,28385
4 0,605 0,681335 0,88796
1997 1 0,594 0,686581 0,86516
2 0,738 0,691827 1,06674
3 0,729 0,697073 1,04580
4 0,600 0,702319 0,85431
1998 1 0,622 0,707565 0,87907
2 0,708 0,712811 0,99325
3 0,806 0,718056 1,12247
4 0,632 0,723302 0,87377
1999 1 0,665 0,728548 0,91277
2 0,835 0,733794 1,13792
3 0,873 0,739040 1,18126
4 0,670 0,744286 0,90019
Année 1 2 3 4 Total
1995 0,87029 1,08023 1,22118 0,86015
1996 0,86389 1,10011 1,28385 0,88796
1997 0,86516 1,06674 1,04580 0,85431
1998 0,87907 0,99325 1,12247 0,87377
1999 0,91277 1,13792 1,18126 0,90019
Moyenne 0,87824 1,07565 1,17091 0,87528 4,000
Indice saisonnier 0,87824 1,07565 1,17091 0,87528 4,000
Comme on peut le constater, les deux séries d’indices sont presque identiques.
Exemple 2 :
Calculer les indices saisonniers pour chaque trimestre pour mesurer le volume de variation
saisonnière de la série chronologique suivante :
t Yt MMC4 Yt Yt - MMC4 ^ yt ^
yt ^ Yt - yt
MMC 4
yt
1 190 - - - 165,1 1,1508 24,9
2 160 - - - 193,7 0,8260 -33,7
3 251 216,5 1,1594 34,5 222,3 1,1291 28,7
4 200 249 0,8032 -49 250,9 0,7971 -50,9
5 320 278,75 1,1480 41,25 279,5 1,1449 40,5
6 290 306,875 0,9450 -16,875 308,1 0,9413 -18,1
7 359 334,75 1,0724 24,25 336,7 1,0662 22,3
8 317 362,375 0,8748 -45,375 365,3 0,8678 -48,3
9 426 392,25 1,0860 33,75 393,9 1,0815 32,1
10 405 422,25 0,9591 -17,25 422,5 0,9586 -17,5
11 483 453,25 1,0656 29,75 451,1 1,0707 31,9
12 433 484,75 0,8932 -51,75 479,7 0,9026 -46,7
13 558 515,25 1,0830 42,75 508,3 1,0978 49,7
14 525 545,375 0,9626 -20,375 536,9 0,9778 -11,9
15 607 - - - 565,5 1,0734 41,5
16 550 - - - 594,1 0,9258 -44,1
Comme on peut le constater, les résultats obtenus par les quatre modèles sont presque
identiques.
Exemple 3 :
L’évolution du chiffre d’affaire trimestriel (en milliers de dhs) des petits outillages d’une
grande surface a été la suivante au cours des 3 dernières années :
Année
1997 1998 1999
Trimestre
1 880 810 740
2 960 880 800
3 1030 950 960
4 920 840 760
• Le calcul des coefficients saisonniers nécessite la détermination à chaque date des valeurs
au trend. Elles sont obtenues au moyen de l’équation :
y = -16 t + 972
Période Yt ^ yt
yt ^
yt
1 880 956 0,92
2 960 940 1,02
3 1030 924 1,11
4 920 908 1,01
5 810 892 0,90
6 880 876 1,00
7 950 860 1,10
8 840 844 0,99
9 740 828 0,89
10 800 812 0,98
11 960 796 1,20
12 760 780 0,97
Pour assurer une certaine stabilité aux coefficients saisonniers, de chaque trimestre, on retient
comme coefficient saisonnier la moyenne des rapports au trend correspondant à ces trimestres.
^
y15 = T15 S15 = (−16 15 + 972) 1,13 = 827