Bioinformatics For Dummies 2nd Ed

UNIVERSITE MOHAMMED V RABAT ‫جامعة محمد الخامس – الرباط‬
COURS DE STATISTIQUES DESCRIPTIVES
Professeur : Adil EL MARHOUM

INTRODUCTION GENERALE
I. INTRODUCTION
Le mot statistique a été créé au 18ème siècle par un professeur allemand GOTTERIED
ACHENWALL (1719-1772). Mais la statistique était utilisée bien avant, en effet, des
dénombrements de population humaine et de terres ont été réalisées depuis la plus haute
antiquité pour les besoins de la guerre et de l'impôt.
Au 19ème siècle, il y a eu apparition du calcul des probabilités qui est étroitement lié aux jeux
du hasard. Ceci a donné naissance à une discipline appelée statistique Mathématique. Durant
cette période, le Belge ADOLPHE QUETELET (1796-1874) a transposé le calcule des
probabilités à l'économie et à la démographie.
La vraie naissance de la statistique a été au cours du 20ème siècle, et ceci grâce à la naissance et
développement de l'informatique qui a provoqué une extension considérable des possibilités
d'utilisation des méthodes statistiques, du champ d'application de ces méthodes, du nombre
d'utilisateurs. L'informatique a aussi provoqué l'apparition de méthodes statistiques et de
procédures de calculs nouvelles.
La statistique joue un rôle de plus en plus important dans tous les domaines de l'activité
humaine. Elle intervient aujourd'hui dans l'agriculture, la biologie, les affaires, la chimie, les
communications, l'économie, l'éducation, l'électronique, la médecine, la pharmacie, la physique,
les sciences politiques, la psychologie, la sociologie, et d'autres branches encore de la science et
de la technologie. On désigne par exemple par économétrie, l'application de la statistique à
l'économie, par sociométrie, psychométrie et biométrie, l'application de la statistique
respectivement à la sociologie, à la psychologie et à la biologie.
La statistique est un instrument de la connaissance, elle est indispensable à celui qui veut
prendre une décision, porter un jugement, analyser une situation ou prévoir l'avenir.
La gestion moderne, c'est d'abord affaire de statistiques bien faites et bien interprétées,
l'informatique et les calculateurs n'interviennent qu'ensuite.
II. DEFINITION
Avant, la statistique était définie comme la science qui a pour but de faire connaître l'étendue, la
population, les ressources agricoles et industrielles d'un état. Plus généralement, science des
dénombrements et de leurs conséquences.
Actuellement, la statistique désigne l'ensemble des méthodes qui permettent de rassembler,

d'organiser, de résumer, de présenter et d'analyser un ensemble de données numériques, et qui
permettent d'en tirer des conclusions et de prendre les bonnes décisions.
Adil EL MARHOUM Page 2
La statistique est une méthode qui vise la description quantitative des ensembles nombreux, elle
utilise le nombre comme moyen d'expression.
Utilisé au pluriel, le terme statistiques désigne tout ensemble cohérent de données numériques
relatives à un groupe quelconque d'individus ou des résultats obtenus à partir des données,
comme par exemple des moyennes. On parle ainsi des statistiques démographiques, des
statistiques des accidents de la circulation, des statistiques de la production agricole ou
industrielle, des statistiques de l'emploi, etc.…
La méthode statistique comporte trois étapes successives :
1. Collecter tous les renseignements, les dépouiller, les coordonner, éliminer ou corriger ceux
jugés erronés, et les présenter sous forme exploitable (tableaux statistiques, graphiques,
diagrammes, etc.…). C'est ce qu'on appelle la statistique descriptive.
2. Substituer à cet ensemble de renseignements quelques données simples, comparer cette
représentation simplifiée à des répartitions théoriques, et tenter de donner une explication
du phénomène observé et en vérifier le bien fondé.
3. Interpréter, conclure et définir avec précision le degré de confiance à accorder aux
conclusions générales induites à partir des faits observés.
III. VOCABULAIRE
Comme n'importe quelle discipline, la statistique a son propre vocabulaire qu'il faut connaître.
• Population
En statistique, le mot population (univers ou ensemble statistique) prend un sens beaucoup plus
étendu qu'en langage courant. Il désigne un ensemble d'individus, d'objets, de concepts
abstraits, mais qui inclut tous les objets individuels auxquels on s'intéresse. On peut citer par
exemple, la population des étudiants, la population des entreprises, la population des ménages,
la population des arbres, la population appareils électroniques, la population des mammifères,
etc.
Une population peut être finie lorsqu'elle a une taille limitée, comme par exemple, la population
des étudiants de la faculté de droit. Une population est infinie lorsqu'elle a une taille illimitée ou
qui est considérée comme étant très grande, comme par exemple, la population des feuilles des
arbres.
• Unité statistique
Chaque élément appartenant à une population est appelé unité statistique. Par exemple dans la
population des habitants du Maroc, l'unité statistique est toute personne marocaine ou étrangère

habitant au Maroc. Par contre, dans la population des marocains, l'unité statistique est toute
personne de nationalité marocaine vivant au Maroc ou à l'étranger.
Le nombre d'unités statistiques composant une population est appelé effectif.
• Enquête
On appelle enquête l'ensemble des opérations qui ont pour but de collecter de façon organisée
des informations relatives à une population.
• Recensement
Lors d'une enquête, si toutes les unités statistiques de la population considérée sont observées
individuellement, l'enquête est dite complète ou exhaustive. On parle aussi de recensement. Par
exemple le recensement de la population d'un pays.
• Sondage
Lorsqu'on cherche à collecter des données relatives à une population infinie ou d'effectif très
grand, il est évident qu'il n'est pas possible d'étudier chaque unité statistique de la population.
Toutefois, on peut prendre seulement une partie des unités statistiques de la population qui sera
réellement observée, dans ce cas, l'enquête est dite partielle ou par échantillonnage. On parle
aussi de sondage.
• Échantillon
Lors d'un sondage, la partie des unités statistiques de la population réellement étudiée est
appelée échantillon. Pour que les résultats obtenus à partir d'un échantillon puissent être
extrapolés à l'ensemble de la population considérée, l'échantillon sélectionné doit être le plus
représentatif possible de la population étudiée.
• Échantillonnage
L'ensemble des méthodes qui permettent de choisir de façon organisée les unités statistiques de
la population qui constitueront l'échantillon. La méthode d'échantillonnage la plus utilisée est la
méthode aléatoire et simple.
• Caractère
Dans une population, chaque unité statistique est généralement distincte des autres. On
s'intéresse à certains aspects des unités statistiques, ainsi une unité statistique peut être étudiée
de point de vue un ou plusieurs caractéristiques. Cette caractéristique est appelée caractère. Par
exemple dans la population des étudiants, chaque étudiant peut être caractérisé par son âge, son
milieu d'origine, et par son niveau. Dans la population des fleurs d'un jardin, chaque fleur peut
être caractérisée par le caractère couleur.
• Modalités
Chaque caractère possède deux ou plusieurs modalités. Ce sont les différentes situations où les
unités statistiques peuvent se trouver à l'égard du caractère considéré. Par exemple le caractère
"nationalité" peut avoir comme modalités : marocaine, algérienne ou tunisienne. Le caractère
"nombre d'enfants par famille" peut avoir comme modalités : zéro enfant, un enfant, deux
enfants et plus de deux enfants.
Les modalités doivent être précises et complètes de telle sorte que chaque unité statistique
puisse être classée. Le nombre de modalités dépend du degré de détail du caractère.
• Caractère qualitatif
Lorsque les modalités d'un caractère ne peuvent s'exprimer par des nombres, le caractère est dit
qualitatif. C'est un caractère non mesurable. Par exemple, le caractère "sexe" est qualitatif, il a
comme modalités : masculin et féminin. Le caractère "marque de voiture" est qualitatif, il peut
avoir comme modalités : renaut, peugeot, mercedes, etc.
• Caractère quantitatif
Lorsque les modalités d'un caractère sont indissociables de la notion de nombre, le caractère est
dit quantitatif et on l'appelle variable statistique. C'est un caractère mesurable, à chaque
modalité correspond un nombre. Par exemple le caractère "nombre d'enfants par famille" est
quantitatif, il peut avoir comme modalités : 0, 1, 2, 3, etc. le caractère "âge" est quantitatif, il
peut avoir comme modalités : moins de 20 ans, entre 20 et 40 ans, entre 40 et 60 ans, plus de 60
ans.
• Variable statistique discrète

Les modalités d'un caractère quantitatif sont les différentes valeurs possibles de la variable
statistique. Si cette variable ne prend que des valeurs entières, elle est dite discrète. Elle
correspond le plus souvent aux opérations de dénombrements ou comptages. Par exemple la
variable statistique "nombre de pièces par logement" est discrète, elle a comme valeurs
possibles des nombres entiers : 1 pièce, 2 pièces, 3 pièces, etc.
• Variable statistique continue

Si les valeurs possibles d'une variable statistique peuvent prendre des valeurs décimales
quelconques dans un intervalle donné, la variable statistique est dite continue. Elle correspond
le plus souvent aux opérations de mesures ou mensurations. Il faut alors découper l'intervalle de
variation de la variable en tranches ou classes successives. Par exemple la variable statistique
"taille des individus" est continue, elle a comme valeurs possibles les classes : moins de 1,60
mètres, entre 1.60 et 1.70 mètres, entre 1,70 et 1,80 mètres, plus de 1,80 mètres.

IV. INDICE DE SOMMATION

Une variable statistique est très souvent désignée par une lettre majuscule X, Y, etc. les valeurs
possibles de la variable statistique sont désignées par la même lettre mais en minuscule, x i, yi,
etc., associée à une autre lettre minuscule, i, j, k, etc., qu'on appelle indice et qui indique le rang
de l'observation. L'indice prend les valeurs 1, 2, 3, …, n, où n est le nombre total de valeurs.
Exemple :
Les notes obtenues par quatre étudiants sont : 12, 14, 16, 17.
La variable statistique X est la note ;

Le nombre de valeurs est : n = 4 ;
Les observations sont : x1 = 12, x2 = 14, x3 = 16, et x4 = 17.
Les calculs statistiques nécessitent la manipulation de très nombreuses données; leur expression
pourra en être simplifiée en utilisant le symbole de sommation sigma .
L'opérateur , signifie la somme d'une suite d'observations d'une variable statistique.
L'indice i initial est toujours porté en dessous du symbole  alors que l'indice i terminal est
placé au-dessus.
x
i =1
i = x1 + x2 +  + xn
n x
i =1
i i = n1 x1 + n2 x2 +  + nk xk
a = a + a ++ a = n  a
i =1
n n
 axi = a   xi
i =1 i =1
n n n n
 (axi + b) = axi +  b = a   xi + n  b
i =1 i =1 i =1 i =1

V. STATISTIQUE DESCRIPTIVE
C'est le premier stade de la méthode statistique. Elle a pour but de résumer et de présenter les
données observées d'une manière telle que l'on puisse en prendre connaissance facilement.
La statistique descriptive peut faire l'objet d'une variable, et on parlera de statistique descriptive
à une variable ou à une dimension. Elle peut concerner deux variables, on parle alors de
statistique descriptive à deux dimensions. Elle peut concerner plusieurs variables, on parle alors
de statistique descriptive à plusieurs variables ou à plusieurs dimensions.
Le but de simplification de la statistique descriptive peut être atteint en condensent les

observations sous trois formes distinctes :
• Les tableaux statistiques permettent de présenter les données sous la forme numérique de
distributions de fréquences.
• Différents types de diagrammes permettent de représenter graphiquement ces distributions.
• Et enfin les données peuvent également être condensées sous forme de quelques paramètres
statistiques, le calcul de ces paramètres constitue ce qu'on appelle la réduction des données.

LES TABLEAUX STATISTIQUES
I. DISTRIBUTIONS DE FREQUENCES A UNE VARIABLE

1.1. DONNEES BRUTES
On appelle données brutes des données que l'on a rassemblées sans se soucier de la notion
d'ordre.
Exemple :
On a procédé au recensement des 50 salariés de la société STM en relevant les salaires horaires
perçus.
Unité statistique : un salarié de la société STM ;

Population : l'ensemble des 50 salariés de la société STM ;
Caractère : le salaire horaire ;
Type de caractère : caractère quantitatif ou variable statistique.
Les données brutes sont :
34 36 45 62 37 43 42 102 31 42
51 30 61 63 47 105 52 43 81 95
92 77 60 36 48 49 65 71 78 81
43 52 63 71 43 42 51 55 61 41
93 82 83 47 54 61 102 33 48 55
Effectif : n = 50
1.2. SERIE STATISTIQUE
Une série statistique est une simple énumération des observations
x1, x2, x3, ……xi, ......, xn
Ces observations étant rangées par ordre croissant :
x1  x2  x3    xi    xn
n est le nombre total d'observations, appelé aussi effectif. Une même observation peut se répéter
plusieurs fois. La différence entre la valeur la plus grande et la valeur la plus petite est
appelée étendue.
Étendue = xmax - xmin

Exemple :
La série statistique des salaires horaires perçus par les 50 salariés de l'entreprise STM est :
30 31 33 34 36 36 37 41 42 42
42 43 43 43 43 45 47 47 48 48
49 51 51 52 52 54 55 55 60 61
61 61 62 63 63 65 71 71 77 78
81 81 82 83 92 93 95 102 102 105
Étendue = 105 - 30 = 75
1.3. DISTRIBUTION DE FREQUENCES
Lorsque les observations sont nombreuses, il est nécessaire de les condenser sous forme d ' un
tableau statistique appelé distribution de fréquences.
• Cas d 'un caractère qualitatif
Une distribution de fréquences d'un caractère qualitatif se présente sous forme d'un tableau très
simple. La première colonne du tableau indique la nomenclature, c'est à dire la liste des
modalités Mi du caractère étudié. La deuxième colonne comporte une succession de nombres
entiers ni, appelés effectifs ou fréquences absolues. Une troisième colonne comporte une
succession de nombres décimaux fi, appelés pourcentages ou fréquences relatives.
Modalités Fréquences absolues ni Fréquences relatives fi
M1 n1 f1
M2 n2 f2
. . .
. . .
. . .
Mi ni fi
. . .
. . .
. . .
Mk nk fk
Total n 1
k est le nombre de modalités.

ni est le nombre de fois qu'on a observé la modalité Mi. ni est dite fréquence absolue.
La somme des fréquences absolues est évidemment égale à l'effectif n.

k
n1 + n2 + nk =  ni = n
i =1
n
fi = i
n est la proportion de la modalité Mi. fi est dite fréquence relative. Elle est le plus
souvent exprimée en pourcentage.
ni
fi =  100 %
n
La somme des fréquences relatives est toujours égale à 1.
k
n1 n2 n n
fi =1
i = f1 + f 2 +  + f k +  + f k = + ++ i ++ k
n n n n
k
n1 + n2 +  + ni +  + nk n
fi =1
i =
n
= =1
n
Exemple :
Une enquête sur la nationalité des touristes visitant le Maroc a concerné un échantillon de 500
touristes.
Unité statistique : un touriste ;

Population : l'ensemble des touristes visitant le Maroc ;
Caractère étudié : nationalité ;
Type de caractère : qualitatif.
Les résultats obtenus sont condensés dans la distribution de fréquences suivante :
Nationalité Nombre de touristes Pourcentage des touristes

(fréquences absolues) (fréquences relatives)
Française 85 17 %
Allemande 106 21,2 %
Italienne 62 12,4 %
Hollandaise 44 8,8 %
Belge 40 8%
américaine 70 14,0 %
Autres nationalités 93 18,6 %
Total 500 100 %
Parmi les 500 touristes rencontrés, 85 sont de nationalité française, ce qui correspond à 17 %
des touristes ; les Américains représentent 14 % des touristes rencontrés (70 touristes).

• Cas d'une variable statistique discrète

Lorsque l'effectif des données brutes d'une variable statistique discrète est très grand, il est
presque impossible de présenter les données sous forme d'une série statistique. Lorsque le
nombre d'observations qui se répètent est grand, il est plus facile de condenser les données dans
une distribution de fréquences.
Une distribution de fréquences d'une variable statistique discrète se présente sous forme d'un
tableau. La première colonne du tableau indique les différentes valeurs distinctes Vi de la
variable statistique étudiée. Les autres colonnes comportent différents types de fréquences. De
la même façon que dans le cas d'un caractère qualitatif, on définit les fréquences absolues ni et
les fréquences relatives fi. En plus, on peut ajouter des fréquences cumulées croissantes ou
décroissantes.
Valeurs Fréquences Fréquences Fréquences Fréquences Fréquences Fréquences

de la absolues ni relatives fi absolues absolues relatives relatives
variable cumulées cumulées cumulées cumulées
statistique croissantes décroissantes croissantes décroissantes
V1 n1 f1 n1 n f1 1
V2 n2 f2 n1+n2 nk+…+n2 f1+f2 fk+…+f2
. . . . . . .
. . . . . . .
. . . . . . .
Vi ni fi n1+n2+…+ni nk+…+ni f1+f2+…+fi fk+…+fi
. . . . . . .
. . . . . . .
. . . . . . .
Vk nk fk n nk 1 fk
Total n 1
k est le nombre de valeurs distinctes.
Les fréquences absolues ou relatives cumulées croissantes sont calculées en cumulant les
fréquences absolues ou relatives du haut du tableau vers le bas. Elles permettent de répondre
aux questions du genre : quel est le nombre ou la proportion au plus (au maximum ou moins de)
? . Par contre, Les fréquences absolues ou relatives cumulées décroissantes sont calculées en
cumulant les fréquences absolues ou relatives du bas du tableau vers le haut. Elles permettent
de répondre aux questions du genre : quel est le nombre ou la proportion au moins (au
minimum ou plus de) ?
Exemple :
Une enquête chez 1000 commerçants porte sur le nombre d'employés.
Unité statistique : un commerçant ;

Population : l'ensemble des 1000 commerçants ;

Caractère étudié : nombre d'employés ;
Type de caractère : variable statistique discrète.
Les résultats obtenus sont condensés dans la distribution de fréquences suivante :
Nombre Nombre de proportion Fréquences Fréquences Fréquences Fréquences

d'employés commerçants des absolues absolues relatives relatives
(ni) commerçants cumulées cumulées cumulées cumulées
(fi) croissantes décroissantes croissantes décroissantes
0 50 5% 50 1000 5% 100 %
1 100 10 % 150 950 15 % 95 %
2 200 20 % 350 850 35 % 85 %
3 150 15 % 500 650 50 % 65 %
4 120 12 % 620 500 62 % 50 %
5 160 16 % 780 380 78 % 38 %
6 130 13 % 910 220 91 % 22 %
7 90 9% 1000 90 100 % 9%
Total 1000 100 %
Le nombre de commerçants n'employant aucun employé est 50, ce qui représente 5 % des
commerçants.
Le nombre de commerçants employant au plus 5 employés (au maximum 5 employés ou moins

de 6 employés) est 780, ils représentent 78 % des commerçants.
Le nombre de commerçants employant au moins 3 employés (au minimum 3 employés ou plus

de 2 employés) est 650, ils représentent 65 % des commerçants.
• Cas d'une variable statistique continue
Lorsqu'on a une grande quantité de données brutes d'une variable statistique continue, il est
presque impossible de présenter les données sous forme d'une série statistique. Lorsque le
nombre d'observations distinctes est grand, il est plus facile de condenser les données dans une
distribution de fréquences groupée en classes et de déterminer le nombre d'observations
appartenant à chaque classe. Bien que le regroupement de données détruise une partie de
l'information initiale.
Une distribution de fréquences d'une variable statistique continue se présente sous forme d'un
tableau. La première colonne du tableau indique les différentes classes de la variable statistique
étudiée. De la même manière que pour les distributions de fréquences d'une variable statistique
discrète, on définit les fréquences absolues, les fréquences absolues cumulées croissantes, les
fréquences absolues cumulées décroissantes, les fréquences relatives, les fréquences relatives
cumulées croissantes, et les fréquences relatives cumulées décroissantes.

Chaque classe est caractérisée par une borne inférieure, une borne supérieure. Une classe qui n'a
pas de borne inférieure ou supérieure est dite classe ouverte.
L'amplitude d'une classe est égale à la différence entre les bornes supérieure et inférieure de la
classe. Les classes peuvent avoir une amplitude constante ou variable.
Amplitude = borne supérieure - borne inférieure
Le point central ou point médian d'une classe est le point correspondant au milieu de cette
classe et s'obtient en ajoutant les bornes inférieure et supérieure de la classe et en divisant par
deux.
borne inférieure + borne supérieure

Point central =
2
Pour construire une distribution de fréquences groupée à partir des données brutes :
1. On détermine la plus grande et la plus petite valeur des données brutes et on calcule
l'étendue.
2. On partage l'étendue en classes suffisamment nombreuses de même amplitude. Lorsque cela

est impossible, on considère des classes d'amplitudes variables ou des classes ouvertes. Le
nombre de classes est habituellement compris entre 5 et 20, cela dépend des données. Il est
préférable de choisir les classes de telle sorte que les points centraux coïncident avec des
données réellement observées et éviter que les bornes de classes coïncident avec des
données réellement observées. Ceci tend à diminuer l'erreur de groupement.
3. Dans chaque classe, on détermine le nombre d'observations, pour cela il suffit de compter, à
partir des données brutes, le nombre d'observations appartenant à la classe.
Exemple :
On a mesuré le poids en kilogramme de 80 personnes.
Unité statistique : une personne ;

Population : l'ensemble des 80 personnes ;
Caractère : poids en kilogramme ;
Type de caractère : variable statistique continue.

68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
La plus grande valeur est : 97

La plus petite valeur est : 53
L'étendue est : 97 - 53 = 44
En fixant le nombre de classes à 10, l'amplitude constante des classes est :
44
= 4,4  4
10
On construit la distribution de fréquences suivante :
Poids Point Fréquences Fréquences absolues Fréquences Fréquences relatives

central absolues cumulées relatives cumulées
(ni) croissantes décroissantes (fi ) croissantes décroissantes
50-54 52 1 1 80 1,25 % 1,25 % 100 %
55-59 57 2 3 79 2,5 % 3,75 % 98,75 %
60-64 62 11 14 77 13,75 % 17,5 % 96,25 %
65-69 67 10 24 66 12,5 % 30 % 82,5 %
70-74 72 12 36 56 15 % 45 % 70 %
75-79 77 21 57 44 26,25 % 71,25 % 55 %
80-84 82 6 63 23 7,5 % 78,75 % 28,75 %
85-89 87 9 72 17 11,25 % 90 % 21,25 %
90-94 92 4 76 8 5% 95 % 10 %
95-99 97 4 80 4 5% 100 % 5%
Total 80 100 %
Le nombre de personnes pesant entre 60 et 64 kilogrammes est 11, ils représentent 13,75 % des
personnes pesées.
Le nombre de personnes pesant au moins 70 kilogrammes (au minimum 70 ou plus de 69

kilogrammes) est 56, ils représentent 70 % des personnes pesées.
Le nombre de personnes pesant au plus 84 kilogrammes (au maximum 84 ou moins de 85

kilogrammes) est 63, ils représentent 78,75 % des personnes pesées.

II. DISTRIBUTIONS DE FREQUENCES A DEUX VARIABLES
Dans la pratique, on s'intéresse le plus souvent à plus d'un caractère. La statistique descriptive à
deux dimensions a essentiellement pour but de caractériser les relations qui existent entre deux
séries d'observations considérées simultanément. Ces observations peuvent être de nature
qualitative ou quantitative, continue ou discontinue.
Comme en statistique descriptive à une variable, l'élaboration de tableaux statistiques permet de

condenser les données brutes sous la forme de distributions de fréquences.
2.1. SERIE STATISTIQUE DOUBLE
Les observations relatives à deux variables peuvent se présenter d'une manière simple sous la
forme d'une série statistique double.
Une série statistique double est une simple énumération des observations de deux variables
statistiques X et Y.
x1, x2, x3, ……xi, ......, xn

y1, y2, y3, ……yi, ......, yn
Les observations correspondent à un couple de valeurs (xi , yi).
n est le nombre total d'observations, appelé aussi effectif.
Exemple :
On a relevé les notes de mathématiques et de statistique obtenues par 12 étudiants à un examen

final.
Unité statistique : un étudiant ;
Population : les 12 étudiants ;
Premier caractère : note de mathématique, c'est une variable statistique continue ;
deuxième caractère : note de statistique, c'est une variable statistique continue .
La série statistique double est :
Numéro
étudiant 1 2 3 4 5 6 7 8 9 10 11 12
Note de
mathématique 11 14 09 12 10 06 15 12 10 10 08 13
Note de
statistique 10 15 11 11 09 08 14 13 11 12 10 12

2.2. TABLEAU DE CONTINGENCE
Lorsque les observations sont nombreuses, il est nécessaire de les condenser sous forme d ' une
distribution de fréquences à deux variables appelée tableau de contingence.
Un tableau de contingence est un tableau à deux entrées, une entrée pour les modalités du
premier caractère et l'autre entrée pour le deuxième caractère. Les deux caractères peuvent être
tous les deux qualitatifs ou tous les deux quantitatifs, ou mixtes c'est à dire l'un qualitatif et
l'autre quantitatif. Pour la variable statistique, elle peut être discrète ou continue groupée en
classes. L'intérieur du tableau comporte des fréquences absolues ou relatives conjointes.
Considérons n individus décrits simultanément selon deux caractères X et Y.
X possède k modalités : x1, x2, x3, ……xi, ......, xk
Y possède p modalités : y1, y2, y3, ……yj, ......, yp
On peut représenter les observations sous forme d'une distribution de fréquences à deux
dimensions ou tableau de contingence.
X Y y1 y2 y3 …….… yj …….… yp ni.

x1 n11 n12 n13 ……… n1j ……… n1p n1.
x2 n21 n22 n23 ……… n2j ……… n2p n2.
x3 n31 n32 n33 ……… n3j ……… n3p n3.
. . . . ……… . ……… . .
. . . . ……… . ……… . .
. . . . ……… . ……… . .
xi ni1 ni2 ni3 ……… nij …..….. nip ni.
. . . . ……… . ……… . .
. . . . ……… . ……… . .
. . . . ……… . ……… . .
xk nk1 nk2 nk3 ……… nkj ……… nkp nk.
n.j n.1 n.2 n.3 n.j n.p n
nij est le nombre d'individus qui présentent en même temps la modalité xi et la modalité yj. elle
est dite fréquence absolue conjointe.
k p
n =  nij
i =1 j =1
nij
f ij =
n

fij est une fréquence relative conjointe, elle correspond à la proportion des individus qui
présentent en même temps la modalité xi et la modalité yj.
p
ni  = ni1 + ni 2 +  + nij +  + nip =  nij
j =1
k
n j = n1 j + n2 j +  + nij +  + nkj =  nij
i =1
ni. est le nombre d'individus qui possèdent la modalité xi quelle que soit la modalité de Y.
n.j est le nombre d'individus qui possèdent la modalité yj quelle que soit la modalité de X.
k p f p
n =  nij =  ni  =  n j
i =1 j =1 i =1 j =1
p
ni 
f i  = f i1 + f i 2 +  + f ij +  + f ip =  f ij =
j =1 n
k n j
f j = f1 j + f 2 j +  + f ij +  + f kj =  f ij =
i =1 n
fi. est la proportion des individus qui possèdent la modalité xi quelle que soit la modalité de Y.
f.j est la proportion des individus qui possèdent la modalité yj quelle que soit la modalité de X.
La somme des fréquences relatives est toujours égale à 1.
k p f p
 fij =  fi =  f j = 1
i =1 j =1 i =1 j =1
Exemple :
La répartition de 300 salariés d'une entreprise selon l'âge et la situation familiale est représentée
dans le tableau de contingence suivant :

Âge 20 à 30 ans 30 à 40 ans 40 à 50 ans 50 à 60 ans Total

Situation nij fij nij fij nij fij nij fij ni. fi.
familiale
Célibataire 38 12,7 % 31 10,3 10 3,3 % 5 1,7 % 84 28 %
%
Marié 13 4,3 % 35 11,7 56 18,7 41 13,6 145 48,3 %
% % %
Divorcé 8 2,7 % 12 4 % 8 2,7 % 8 2,7 % 36 12,1 %
Veuf 4 1,3 % 6 2% 13 4,3 % 12 4% 35 11,6 %
Total 63 21 % 84 28 % 87 29 % 66 22 % 300 100 %
Parmi les 300 salariés, il y a 38 salariés célibataires âgés de 20 à 30 ans, ils représentent 12,7 %
de l'ensemble des salariés de l'entreprise.
11,7 % des salariés de l'entreprise sont mariés et âgés de 30 à 40 ans, ils sont au nombre de 35.
Les salariés divorcés et âgés de 40 à 50 ans sont au nombre de 8, ce qui correspond à 2,7 % des
salariés de l'entreprise.
Le nombre de salariés veufs et âgés de 50 à 60 ans est 12, soit 4 % des salariés de l'entreprise.
2.3. DISTRIBUTIONS MARGINALES ET DISTRIBUTIONS

CONDITIONNELLES
Un tableau de contingence comporte plusieurs distributions de fréquences à une variable, il

s'agit des distributions marginales et distributions conditionnelles.
• Distributions marginales
On appelle distribution marginale du caractère X, la distribution à une dimension des individus

de la population qui présentent une modalité de X quelle que soit la modalité de Y.
On appelle distribution marginale du caractère Y la distribution à une dimension des individus

de la population qui présentent une modalité de Y quelle que soit la modalité de X.

DISTRIBUTION MARGINALE DE X
X ni. fi.
x1 n1. f1.
x2 n2. f2.
x3 n3. f3.
. . .
. . .
. . .
xi ni. fi.
. . .
. . .
. . .
xk nk. fk.
n 1
DISTRIBUTION MARGINALE DE Y
Y n.j f.j
Y1 n.1 f.1
y2 n.2 f.2
y3 n.3 f.3
. . .
. . .
. . .
yj n.j f.j
. . .
. . .
. . .
yp n.p f.p
n 1
Exemple :
Pour La répartition des 300 salariés d'une entreprise selon l'âge et la situation familiale, on a
deux distributions marginales :
DISTRIBUTION MARGINALE DE LA SITUATION FAMILIALE

Situation ni. fi.
familiale
Célibataire 84 28 %
Marié 145 48,3 %
Divorcé 36 12,1 %
Veuf 35 11,6 %
Total 300 100 %
Parmi les 300 salariés de l'entreprise, 84 salariés sont célibataires, 145 sont mariés, 36 sont des
divorcés, et 35 sont veufs. Ce qui représente respectivement, 28 %, 48,3 %, 12,1 %, et 11,6 %
des salariés de l'entreprise.
ISTRIBUTION MARGINALE DE L'AGE
Âge n.j f.j

20 à 30 ans 63 21 %
30 à 40 ans 84 28 %
40 à 50 ans 87 29 %
50 à 60 ans 66 22 %
Total 300 100 %
63 salariés de cette entreprise sont âgés entre 20 et 30 ans, 84 salariés sont âgés entre 30 et 40
ans, 87 salariés sont âgés entre 40 et 50 ans, et 66 salariés sont âgés entre 50 et 60 ans.
21 % des salariés de cette entreprise sont âgés entre 20 et 30 ans, 28 % des salariés sont âgés
entre 30 et 40 ans, 29 % des salariés sont âgés entre 40 et 50 ans, et 22 % des salariés sont âgés
entre 50 et 60 ans.
• Distributions conditionnelles
On appelle distribution conditionnelle de X sous la condition y = yj, la distribution à une

dimension de la variable X pour les individus de la population qui possèdent la modalité yj de la
variable Y.
On appelle distribution conditionnelle de Y sous la condition x = x i, la distribution à une

dimension de la variable Y pour les individus de la population qui possèdent la modalité x i de la
variable X.
DISTRIBUTION CONDITIONNELLE DE X SOUS CONDITION Y = yj
X nij fij
x1 n1j f1j
x2 n2j f2j
x3 n3j f3j
. . .
. . .
. . .
xi nij fij
. . .
. . .
. . .
xk nkj fkj
n.j f.j

DISTRIBUTION CONDITIONNELLE DE Y SOUS CONDITION X = xi
Y nij fij
Y1 ni1 fi1
Y2 ni2 fi2
Y3 ni3 fi3
. . .
. . .
. . .
yj nij fij
. . .
. . .
. . .
yp nip fip
ni. fi.
Il y a autant de distributions conditionnelles de X qu'il y a de modalités dans la variable Y et il y

a autant de distributions conditionnelles de Y qu'il y a de modalités dans la variable X.
Exemple :
Pour La répartition des 300 salariés d'une entreprise selon l'âge et la situation familiale, on a
deux distributions marginales :
DISTRIBUTION CODITIONNELLE DE LA SITUATION FAMILIALE DES SALARIES
AGES DE 20 A 30 ANS
Situation familiale nij fij

Célibataire 38 60 %
Marié 13 21 %
Divorcé 8 13 %
Veuf 4 6%
Total 63 100 %
Parmi les 63 salariés de l'entreprise âgés de 20 à 30 ans, 38 salariés sont célibataires, 13 sont
mariés, 8 sont des divorcés, et 4 sont veufs. Ce qui représente respectivement, 60 %, 21 %, 13
%, et 6 % des salariés âgés de 20 à 30 ans.
DISTRIBUTION CONDITIONNELLE DE L'AGE DES MARIES

Âge nij fij
20 à 30 ans 13 9%
30 à 40 ans 35 24 %
40 à 50 ans 56 39 %
50 à 60 ans 41 28 %
Total 145 100 %

13 salariés mariés de cette entreprise sont âgés entre 20 et 30 ans, 35 salariés mariés sont âgés
entre 30 et 40 ans, 56 salariés mariés sont âgés entre 40 et 50 ans, et 41 salariés mariés sont
âgés entre 50 et 60 ans.
9 % des salariés mariés de cette entreprise sont âgés entre 20 et 30 ans, 24 % des salariés mariés
sont âgés entre 30 et 40 ans, 39 % des salariés mariés sont âgés entre 40 et 50 ans, et 28 % des
salariés mariés sont âgés entre 50 et 60 ans.

LES REPRESENTATIONS GRAPHIQUES
I. INTRODUCTION
Bien qu'un tableau statistique renferme toute l'information rassemblée, il est très utile de le
traduire par un graphique. La représentation graphique d'une distribution de fréquences permet
de visualiser et de déceler ses principales caractéristiques.
Selon la nature du caractère étudié on utilise différents modes de représentations graphiques. Le

principe des différents graphiques est le respect de la proportionnalité entre les fréquences et les
surfaces.
II. REPRESENTATION D'UNE DISTRIBUTION A

CARACTERE QUALITATIF
Il existe plusieurs modes de représentation d'une distribution à caractère qualitatif, les plus
employés sont le diagramme en tuyaux d'orgue et le diagramme circulaire.
2.1. Diagramme en tuyaux d'orgue

Ce diagramme consiste à représenter chaque modalité du caractère qualitatif par un rectangle
dont la hauteur est proportionnelle à l'effectif correspondant et dont la base est constante.
Exemple :
Une enquête sur la nationalité des touristes visitant le Maroc a concerné un échantillon de 500
touristes.
Les résultats obtenus sont présentés dans le tableau suivant :
Nationalité Nombre de touristes Pourcentage des

(fréquences absolues) touristes
(fréquences relatives)
française 85 17 %
allemande 106 21,2 %
italienne 62 12,4 %
hollandaise 44 8,8 %
belge 40 8%
américaine 70 14,0 %
Autres nationalités 93 18,6 %
Total 500 100 %

Diagramme en tuyaux d'orgue
120
100
80
60
40
20
0
FR AL IT HOL BEL USA autres
2.2. Diagramme circulaire ou graphique à secteurs

Dans le diagramme à secteurs chaque modalité est représentée par un secteur dont l'angle est
proportionnel à l'effectif correspondant. La totalité de la circonférence correspond à l'effectif
total.
Exemple :
Pour le même exemple précédent, on doit déterminer pour chaque nationalité l'angle
proportionnel à l'effectif correspondant.
Effectif total 500 correspond à 360°
85 français correspondent à 1
106 allemands correspondent à 2
62 italiens correspondent à 3
44 hollandais correspondent à 4
40 belges correspondent à 5
70 américains correspondent à 6
les 93 autres correspondent à 7
à l'aide d'une règle de trois, on calcule les différents angles :
85  360 106  360

1 = = 61,2 2 = = 76,32
500 500
62  360 44  360
3 = = 44,64 4 = = 31,68
500 500
40  360 70  360
5 = = 28,8 6 = = 50,4
500 500

93  360
7 = = 66,96
500
Diagramme circulaire
FR
autres
USA
AL
HOL IT
BEL
2.3. Autres modes de représentations graphiques

d'autres types de graphiques peuvent être représentés :
autres 93
USA 70
BEL 40
HOL 44
IT 62
AL 106
FR 85
120
100
80
60
40
20
0
FR IT BEL autres

FR AL IT HOL BEL USA autres
autres FR
USA
AL
BEL
HOL IT
III. REPRESENTATION D'UNE VARIABLE STATISTIQUE

DISCRETE
Il existe plusieurs modes de représentation graphique d'une variable statistique discrète, les plus
employés sont le diagramme en bâtons, le polygone de fréquences, et le diagramme en escalier.
3.1. Diagramme en bâtons

Le diagramme en bâtons consiste à représenter les valeurs discrètes de la variable sur l'axe
horizontal du graphique et on élève en chaque point un bâton dont la hauteur est proportionnelle
à la fréquence correspondante.
Exemple :

Les résultats obtenus sont représentés dans le tableau suivant :
Nombre Nombre de proportion des Fréquences Fréquences Fréquences Fréquences

d'employés commerçants commerçants absolues absolues relatives relatives
(ni) (fi) cumulées cumulées cumulées cumulées
croissantes décroissantes croissantes décroissantes
0 50 5% 50 1000 5% 100 %
1 100 10 % 150 950 15 % 95 %
2 200 20 % 350 850 35 % 85 %
3 150 15 % 500 650 50 % 65 %
4 120 12 % 620 500 62 % 50 %
5 160 16 % 780 380 78 % 38 %
6 130 13 % 910 220 91 % 22 %
7 90 9% 1000 90 100 % 9%
Total 1000 100 %
Diagramme en bâtons
250
200
150
100
50
0
0 1 2 3 4 5 6 7
3.2. Polygone de fréquences

Les polygones de fréquences sont construits en joignant par une ligne les sommets des bâtons
du diagramme en bâtons.
Polygone de fréquences

250
200
150
100
50
0
0 1 2 3 4 5 6 7
3.3. Polygone de fréquences cumulées ou diagramme en escalier

Le polygone de fréquences cumulées est construit en escalier. On dessine des segments de
droites de longueurs proportionnelles aux fréquences cumulées correspondantes mais en les
décalant progressivement vers le haut, ensuite on joint les bâtons par des segments horizontaux.
Polygone de fréquences cumulées croissantes

1200
1000
800
600
400
200
0
0 1 2 3 4 5 6 7
Polygone de fréquences cumulées décroissantes

1200
1000
800
600
400
200
0
0 1 2 3 4 5 6 7
IV. REPRESENTATION D'UNE VARIABLE STATISTIQUE

GROUPEE EN CLASSES
4.1. Histogramme
Pour représenter une variable statistique continue, on utilise le plus souvent ce qu'on appelle
histogramme.
Un histogramme est un graphique constitué de bandes verticales jointives. On délimite en

abscisses les classes successives de la variable continue, en principe de même amplitude, et sur
chaque base ainsi délimitée, on élève un rectangle de hauteur proportionnelle à la fréquence
correspondante de telle sorte que la surface du rectangle soit proportionnelle à l'effectif
correspondant.
Quand les classes sont de même amplitude, la hauteur des rectangles est proportionnelle aux
fréquences des classes, elle est égale numériquement à la fréquence correspondante. Si les
classes n'ont pas la même amplitude, il est nécessaire d'ajuster la hauteur des rectangles de telle
sorte que la surface du rectangle soit proportionnelle à l'effectif correspondant.
Pour ajuster la hauteur d'un rectangle, on choisit une amplitude unitaire, généralement
l'amplitude la plus fréquente. Ensuite, on calcule pour chaque classe un coefficient d'ajustement
C:
amplitude unitaire
C=
amplitude de la classe
On ajuste la fréquence d'une classe en multipliant sa fréquence observée par son coefficient
d'ajustement.
Fréquence ajustée = Fréquence observée x Coefficient d'ajustement
Exemple :

On a mesuré le poids en kilogramme de 80 personnes, les résultats sont présentés dans le

tableau suivant :
Poids Point Fréquences

central absolues (ni)
50-54 52 1
55-59 57 2
60-64 62 11
65-69 67 10
70-74 72 12
75-79 77 21
80-84 82 6
85-89 87 9
90-94 92 4
95-99 97 4
L'amplitude des classes est constante, on peut représenter directement l'histogramme de cette
distribution.
Histogramme
25
21
20
15
12
11
10
9
10
6
4 4
5
2
1
0
50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99
Exemple :
La répartition de la surface, en m², de 100 logements est représentée dans le tableau suivant :
Surface en m² Nombre de logements

0 à 20 10
20 à 40 20
40 à 60 40
60 à 100 18
100 à 160 8
160 à 260 4
Les amplitudes des classes étant inégales, il convient d'ajuster les fréquences afin de représenter
l'histogramme. On choisit comme amplitude unitaire 20.
Surface en m² Nombre de Coefficient Fréquences
logements d'ajustement ajustées

0 à 20 10 1 10
20 à 40 20 1 20
40 à 60 40 1 40
60 à 100 18 0,5 9
100 à 160 8 0,33 2,67
160 à 260 4 0,2 0,8
Après ajustement des fréquences, on peut représenter l'histogramme :

45
40
35
30
25
20
15
10
5
0
0-20
20-40
40-60
60-80
80-100
100-120
120-140
140-160
160-180
180-200
200-220
220-240
240-260
4.2. polygone de fréquences cumulées
De la même manière que pour les variables discrètes, Le polygone de fréquences cumulées est
construit en escalier.
Polygone de fréquences cumulées croissantes
120
100
80
60
40
20
0
0-20
20-40
40-60
60-80
80-100
100-120
120-140
140-160
160-180
180-200
200-220
220-240
240-260
Polygone de fréquences cumulées décroissantes

120
100
80
60
40
20
0
0-20
20-40
40-60
60-80
80-100
100-120
120-140
140-160
160-180
180-200
200-220
220-240
240-260

LA REDUCTION DES DONNEES
I. INTRODUCTION
On a vu qu'on peut décrire les données brutes à l'aide des tableaux statistiques et des
graphiques. La réduction des données est une troisième méthode de statistique descriptive, elle
a pour objet le calcul de paramètres statistiques qui permettent de caractériser de façon simple
les séries statistiques et les distributions de fréquences. On distingue trois types de paramètres
statistiques :
• Les paramètres de position
Appelés aussi valeurs de tendance centrale, ils servent à caractériser l'ordre de grandeur des
observations. Les principaux paramètres de position sont : les moyennes, le mode, la médiane,
et la médiale.
• Les paramètres de dispersion
Ces paramètres permettent de chiffrer la variabilité des valeurs observées autour d'un paramètre
de position. Les principaux paramètres de dispersion sont : la variance, l'écart type, le
coefficient de variation, et le coefficient de concentration.
• Les paramètres de forme
Ces paramètres permettent de caractériser la forme d'une distribution. Les principaux

paramètres de forme sont : le coefficient d'asymétrie et le coefficient d'aplatissement.
II. LES PARAMETRES DE POSITION

2.1. Les Moyennes
On peut réduire un ensemble d'observations en une seule observation constante appelée
moyenne. La moyenne est donc une valeur telle que, c'est comme si toutes les observations
étaient égales à cette valeur.
On distingue plusieurs types de moyennes :
2.1.1. Moyenne arithmétique simple
Définition :

La moyenne arithmétique simple, qu'on appelle couramment moyenne, d'une série de plusieurs
observations est égale à la somme de toutes les observations divisée par le nombre de ces
observations.
Dans le cas d'une série statistique de n observations :
x1, x2, …, xi, …, xn
− x i
x= i =1
Dans le cas d'une variable statistique discrète :
− n x i i k
x= i =1
k
=  f i xi
n
i =1
i
i =1
k est le nombre d'observations distinctes que peut prendre la variable.
Dans le cas d'une variable statistique continue groupée en classes :

k
− n C i i k
x= i =1
k
=  f iCi
n
i =1
i
i =1
Ci est le point central de la classe i.
Propriétés :
• Transformation linéaire
La transformation linéaire d'une variable statistique x est une autre variable y telle que :
Y = ax + b avec a et b deux constantes quelconques
La moyenne de y peut être obtenu directement à partir de la moyenne de x :

n n n
− y i  (ax i + b) a  xi + n  b
y= i =1
= i =1
= i =1
n n n
− x i
y = a i =1
+b
n
− −
y = a x+ b
La moyenne d'une transformation linéaire est donc une transformation linéaire de la moyenne.
• La somme des différences par rapport à la moyenne est toujours nulle.
n − n − − −
 ( x − x) =  x − n  x = n  x − n  x = 0
i =1
i
i =1
i
• La somme des carrées des écarts par rapport à la moyenne est minimale
n n − − n − − − −
 ( xi − a)2 = [( xi − x) + ( x− a)]2 = [( xi − x)2 + 2( xi − x)( x− a) + ( x− a)2 ]
i =1 i =1 i =1
n n − n − − n −
 ( xi − a)2 =  ( xi − x)2 +  2( xi − x)( x− a) +  ( x− a)2
i =1 i =1 i =1 i =1
n n − − n − n −
 ( x − a)
i =1
i
2
=  ( xi − x) 2 + 2( x − a) ( xi − x) +  ( x − a) 2
i =1 i =1 i =1
n n − −
 ( xi − a)2 =  ( xi − x)2 + n  ( x− a)2
i =1 i =1
Cette expression est positive, elle est donc minimale lorsque :
− −
( x− a)2 = 0 c' est à dire lorsque a = x

Exemple 1:
On a procédé au recensement des 50 salariés de la société STM en relevant les salaires horaires
perçus.
34 36 45 62 37 43 42 102 31 42
51 30 61 63 47 105 52 43 81 95
92 77 60 36 48 49 65 71 78 81
43 52 63 71 43 42 51 55 61 41
93 82 83 47 54 61 102 33 48 55
50
− x i
2939
x= i =1
= = 58,78 dh par heure
50 50
Chaque salarié de la société touche, en moyenne, 58,78 dh par heure.
Exemple 2 :
Les résultats obtenus sont représentés dans le tableau suivant :
Nombre Nombre de proportion des

d'employés commerçants commerçants
(ni) (fi)
0 50 5%
1 100 10 %
2 200 20 %
3 150 15 %
4 120 12 %
5 160 16 %
6 130 13 %
7 90 9%
Total 1000 100 %
− n x i i 8
3640
x= i =1
8
=  f i xi = = 3,64 employés par commerçant
n i =1 1000
i
i =1
Chaque commerçant emploie, en moyenne, trois à quatre employés.

Exemple 3:
Surface en m² Nombre de logements Point central

0 à 20 10 10
20 à 40 20 30
40 à 60 40 50
60 à 100 18 80
100 à 160 8 130
160 à 260 4 210
− n C i i 6
6020
x= i =1
6
=  f iCi = = 60,20 m² par logemnt
n i =1 100
i
i =1
En moyenne, chaque logement a une superficie de 60,20 m².
2.1.2. Moyenne arithmétique pondérée
La moyenne arithmétique simple suppose que toutes les observations ont la même importance,
ce qui n'est pas toujours le cas. La moyenne arithmétique pondérée intervient dans le cas où les
observations n'auraient pas la même importance. Il s'agit d'associer à chaque observation un
coefficient de pondération indiquant son poids parmi les autres observations.
−  x i i
x= i =1
k

i =1
i
i est le poids affecté à l'observation i.
Exemple :
Un étudiant a eu 14 sur 20 au contrôle continu, 12 sur 20 à l'examen partiel et 13 sur 20 à

l'examen final. Les trois notes n'ont pas la même importance. On associe un coefficient de 1 à la
note du contrôle, un coefficient de 2 à la note de l'examen partiel, et un coefficient de 4 à la note
de l'examen final. La note moyenne de l'année obtenue par cet étudiant est :

−  x i i
1  14 + 2  12 + 4  13
x= i =1
= = 12,86
3
1+ 2 + 4

i =1
i
2.1.3. Moyenne géométrique
Définition :
La moyenne géométrique est calculée pour des observations positives. Elle est égale à la racine
nème du produit de toutes les observations. Elle est utilisée principalement lorsqu'on raisonne en
taux (taux de croissance).
La moyenne géométrique est :
• Cas d'une série statistique de n observations : x1, x2, …, xi, …, xn
1 1
− n
x g = n x1  x    x = ( x1  x    x ) n = [  x ] n
2 n 2 n i
i =1
• Cas d'une distribution de fréquences
Dans le cas d'une variable statistique discrète, la moyenne géométrique est :
1 1
−
n k k
x g = n x1 1  x n2    x nk = ( x1n1  x n2    x nk ) n = [  x ni ] n =  x fi
2 n 2 n i i
i =1 i =1
Dans le cas d'une variable statistique continue groupée en classes, la moyenne géométrique est :
1 1
−
n k k
x g = n C1 1  C n2    C nk = (C1n1  C n2    C nk ) n = [  C ni ] n =  C fi
2 n 2 n i i
i =1 i =1
Propriétés :
La moyenne géométrique est aussi égale à l'exponentielle de la moyenne arithmétique des

logarithmes.

n
1  Log xi
− n n
Log x g = Log[  x ] n = Log[  x ] = i = 1
1
i n i n
i =1 i =1
n
−  Log xi
i =1
x g = exp( n
)
Exemple :
Le tableau suivant donne l'évolution de la population marocaine :
Année 1960 1971 1982 1994

Population en 11637 15358 20354 26019
milliers
Période : 1960-1971
Entre 1960 et 1971, le taux d'accroissement de la population marocaine est :
15358 − 11637
t1 =  100 = 32 %
11637
−
Le taux d'accroissement annuel moyen est t 1 tel que :
−
11637  (1 + t 1 )11 = 15358
− 15358
(1 + t 1 )11 = = 1,32
11637
−
t 1 = 11 1,32 − 1 = 0,0256 = 2,56 %
Entre 1960 et 1971, la population marocaine a augmenté en moyenne, de 2,56 % par an.
Période : 1971-1982
20354 − 15358
t2 =  100 = 32,5 %
15358

−
−
15358  (1 + t 2 )11 = 20354
− 20354
(1 + t 2 )11 = = 1,325
15358
−
t 2 = 11 1,325 − 1 = 0,0259 = 2,59 %
Période : 1982-1994
26019 − 20354
t3 =  100 = 27,8 %
20354
−
−
20354  (1 + t 3 )12 = 26019
− 26019
(1 + t 3 )12 = = 1,28
20354
−
t 3 = 12 1,28 − 1 = 0,0207 = 2,07 %
Période : 1960-1994
Entre 1960 et 1994, le taux annuel moyen de l'accroissement de la population marocaine est
égal à la moyenne géométrique des trois taux d'accroissement pondérés par leurs durées
respectives.
−
t = 34 2,5611  2,5911  2,0712 = 2,39 %

2.1.4. Moyenne harmonique
La moyenne harmonique est égale à l'inverse de la moyenne arithmétique des inverses des
observations. Son usage s'impose lorsque la variable statistique est un quotient (coût moyen,
vitesse moyenne etc. …).
• Cas d'une série statistique
Soit une série statistique de n observations : x1, x2, …, xi, …, xn
La moyenne harmonique est :
x
−1
− i 1
n
xh = [ i =1
] −1
= n
1
x
n
i =1 i
Dans le cas d'une variable statistique discrète, la moyenne harmonique est :
n k
 ni xi n
−1
− 1 i
xh = [ i =1
k
] −1
= i =1
k
ni
n i =1
i x
i =1 i

Dans le cas d'une variable statistique continue groupée en classes, la moyenne harmonique est :
n k
 niCi n
−1
− 1 i
xh = [ i =1
k
] −1
= i =1
k
ni
n i =1
i C
i =1 i
Exemple :
Un automobiliste a roulé sur un trajet de 100 Km à une vitesse de 90 Km/h, sur les 10 premiers
kilomètres; de 100 Km/h sur un trajet de 30 Km, et de 120 Km/h sur les 60 derniers kilomètres.
L'automobiliste a parcouru le trajet de 100 Km avec trois vitesses différentes :

Vitesse Trajet
V1 = 90 n1 = 10
V2 = 100 n2 = 30
V3 = 120 n3 = 60
Total 100
La vitesse est un rapport entre la distance parcourue et le temps mis pour parcourir cette
distance.
La vitesse moyenne avec laquelle l'automobiliste a parcouru les 100 Km est le rapport entre la
distance totale (100 Km) et le temps total (somme des temps mis pour parcourir chaque partie
du trajet).
Le temps mis pour parcourir un trajet est égal au rapport de la distance du trajet sur la vitesse.
Distance totale 10 + 30 + 60
Vitesse moyenne = = = 109,8 Km/h
Temps total 10 30 60
+ +
90 100 120
L'automobiliste a parcouru le trajet de 100 Km à une vitesse moyenne (moyenne harmonique)

de 110 Km/h.
2.1.5. Moyenne quadratique
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrées. Elle est
très rarement utilisée.
n n
x x
2 2
− i 1 i
La moyenne quadratique est : x q = [ i =1 ] = 2 i =1
n n
Dans le cas d'une variable statistique discrète, la moyenne quadratique est :
k k
 ni xi n x
2 2
− 1 i i
x q = [ i =1k ] = 2 i =1
k
n i =1
i n i =1
i


Dans le cas d'une variable statistique continue groupée en classes, la moyenne quadratique est :
k k
 niCi n C
2 2
− 1 i i
x q = [ i =1k ] =
2 i =1
k
 ni
i =1
n i =1
i
On peut montrer que la moyenne harmonique est inférieure ou égale à la moyenne géométrique
qui est inférieure ou égale à la moyenne arithmétique qui est inférieure ou égale à la moyenne
géométrique.
− − − −
xh  x g  x  xq
2.2. Le mode
Le mode d'une série statistique est l'observation que l'on rencontre le plus fréquemment. Le
mode peut ne pas exister, et s'il existe, il peut ne pas être unique.
Exemple :
La série statistique : 3, 3, 9, 9, 9, 12, 12, 12, 12, 12, 15, 20, 24, 25, 25 a pour mode 12.
La série statistique : 5, 10, 12, 12, 12, 12, 15, 16, 20, 20, 20, 20, 25 a deux modes, 12 et 20.
La série statistique : 4, 10, 12, 15, 16, 20, 22, 24, 25, 28, 31, 34, 36 n'a pas de mode.
• Cas d'une distribution de fréquences d'une variable statistique discrète
Le mode correspond, dans le cas d'une distribution de fréquences non groupée, à la valeur qui
possède la plus grande fréquence.
Exemple :
Soit la distribution du nombre d'employés observés chez 1000 commerçants.
Nombre Nombre de proportion des

d'employés commerçants (ni) commerçants (fi)
0 50 5%
1 100 10 %
2 200 20 %
3 150 15 %
4 120 12 %
5 160 16 %
6 130 13 %
7 90 9%
Total 1000 100 %

La variable nombre d'employés a pour mode 2, c'est à dire la plupart des commerçants ont deux
employés.
• Cas d'une variable continue
Dans le cas d'une variable statistique continue groupée en classes, on parle de classe modale,
elle correspond à la classe dont la fréquence est la plus élevée. Le mode correspond à la valeur
de la variable qui correspond au maximum de l'histogramme. C'est le point central de la classe
modale si les classes ont la même amplitude, dans le cas contraire, il faut travailler avec les
effectifs ajustés.
Exemple :
Surface en m² Nombre de logements

0 à 20 10
20 à 40 18
40 à 60 22
60 à 100 38
100 à 160 8
160 à 260 4
Les amplitudes des classes étant inégales, il convient d'ajuster les fréquences, on choisit comme
amplitude unitaire 20.
Surface en m² Nombre de Coefficient Fréquences

logements d'ajustement ajustées
0 à 20 10 1 10
20 à 40 18 1 18
40 à 60 22 1 22
60 à 100 38 0,5 19
100 à 160 8 0,33 2,67
160 à 260 4 0,2 0,8
Après ajustement des fréquences, la classe modale est la classe 40 à 60 m², le mode est égal à
50 m², c'est à dire la plupart des logements ont une superficie de 50 m².
2.3. La médiane
La médiane d'une variable statistique est une valeur pour laquelle, la moitié des observations lui
sont inférieure ou égales et la moitié supérieure ou égales. La médiane partage donc le nombre
total d'observations en deux parties égales. La médiane est un paramètre statistique qui ne
dépend que du nombre d'observations. pour déterminer la médiane, il faut raisonner en terme de
fréquences cumulées, la médiane est alors la valeur de la variable qui correspond à la moitié de
l'effectif total.
• Cas d'une variable statistique discrète
Pour une série statistique de n observations :
x1, x2, …, xi, …, xn
n +1
Si le nombre d'observation est impair, la médiane est l'observation de rang
2
Me = x n +1
2
n
Si le nombre d'observations est pair, la médiane est comprise entre l'observation de rang et
2
n
l'observation de rang + 1 . On prend comme valeur de la médiane la moyenne arithmétique
2
simple des deux observations.
xn  M e  x n
+1
2 2
xn + x n
+1
Me = 2 2
2
Exemple :
Soit la distribution du nombre d'employés observés chez 1000 commerçants.
Nombre Nombre de Fréquences

d'employés commerçants cumulées
(ni) croissantes
0 50 50
1 100 150
2 200 350
3 150 500
4 120 620
5 160 780
6 130 910
7 90 1000
Total 1000
Le nombre d'observations, 1000, est pair, la médiane est comprise entre l'observation de rang
500 et l'observation de rang 501. On prend comme valeur de la médiane la moyenne
arithmétique simple des deux observations.

x500  M e  x 501
x500 + x 501
Me =
2
en consultant les fréquences absolues cumulées croissantes, x500 correspond à 3 et x501

correspond à 4. La médiane est donc :
3+ 4
Me = = 3,5
2
La moitié des commerçants emploient 3 employés ou moins, et la moitié emploient 4 employés

ou plus.
• Cas d'une variable statistique continue groupée en classes
Pour des données groupées en classes, la classe médiane est la classe qui contient la médiane.
On détermine la médiane par interpolation linéaire.
Désignons par :
L0 : borne inférieure de la classe médiane ;

ai : amplitude de la classe médiane ;
n : nombre total des observations ;
Nn-1 : fréquence absolue cumulée croissante de la classe qui précède la classe médiane ;
ni : fréquence absolue de la classe médiane.
n
− N i −1
Me = L0 + ai  2
ni
Exemple :
Surface en m² Nombre de Fréquences

logements cumulées
croissantes
0 à 20 10 10
20 à 40 18 28
40 à 60 22 50
60 à 100 38 88
100 à 160 8 96
160 à 260 4 100
Total 100

En consultant les fréquences absolues cumulées croissantes, la classe médiane est la classe 40 à
60 m². La médiane est donc :
50 − 28
Me = 40 + 20  = 60 m²
22
La moitié des logements ont une superficie inférieure ou égale à 60 m² et la moitié des
logements ont une superficie supérieure ou égale à 60 m².
Remarque :
Lorsqu'une distribution est symétrique, on démontre que moyenne, mode et médiane sont alors
confondus. Dans le cas contraire, la distribution statistique est dite dissymétrique et la médiane
est alors comprise entre le mode et la moyenne et on a la relation suivante :
Moyenne - Mode = 3(Moyenne - Médiane)

2.4. La médiale
La médiale est une valeur telle que la somme des observations qui lui sont inférieures est égale
à la somme des observations qui lui sont supérieures. La médiale partage donc la somme des
observations en deux parties égales. La médiale est un paramètre statistique qui dépend de la
somme de toutes les observations. pour déterminer la médiale, il faut raisonner en terme de
sommes cumulées, la médiale est alors la valeur de la variable qui correspond à la moitié de la
somme des observations.
La médiale est calculée pour une variable statistique groupée en classes, la classe médiale est la
classe qui contient la médiale. On détermine la médiale par interpolation linéaire.
Désignons par :
L0 : borne inférieure de la classe médiale ;

ai : amplitude de la classe médiale ;
k
 n x : somme des observations ;

i =1
i i
Sn-1 : sommes des observations cumulées croissantes de la classe qui précède la classe
médiale ;
nixi : somme des observations de la classe médiale.
n x i i
i =1
− Si −1
Ml = L0 + ai  2
ni xi

Exemple :
Surface en m² Nombre de Point Sommes Sommes cumulées

logements ni central xi nixi croissantes
0 à 20 10 10 100 100
20 à 40 18 30 540 640
40 à 60 22 50 1100 1740
60 à 100 38 80 3040 4780
100 à 160 8 130 1040 5820
160 à 260 4 210 840 6660
Total 100 6660
La moitié de la somme des observations :
n x i i
6660
i =1
=
= 3330
2 2
En consultant les sommes cumulées croissantes, la classe médiale est la classe 60 à 100 m². La
médiale est donc :
3330 − 1740
Ml = 60 + 40  = 80,92 m²
3040
La moitié de la superficie totale des 100 logements est répartie sous forme de logements dont la
superficie est inférieure ou égale à 80,92 m² et l'autre moitié sous forme de logements dont la
superficie est supérieure ou égale à 80,92 m².
III. LES PARAMETRES DE DISPERSION

Pour comparer deux distributions statistiques, un paramètre de position n'est pas suffisant. En
effet, deux distributions statistiques différentes peuvent avoir une même moyenne.
Exemple:
−
La moyenne de : 8, 10, 12 est x = 10
−
La moyenne de : 4, 6, 8, 10, 12, 14, 16 est x = 10
Les deux séries ont la même moyenne, mais les valeurs de la deuxième série sont plus étalées
autour de la moyenne, on dit qu'elles sont plus dispersées.

Les observations ont donc tendance à s'étaler autour d'une valeur centrale (moyenne), les
paramètres de dispersion permettent de mesurer la variabilité des valeurs observées autour de
cette valeur.
3.1. Écart absolu moyen
En statistique, le mot écart signifie la valeur absolue de la différence entre une valeur observée
et une valeur centrale (le plus souvent la moyenne).
−
Ecart à la moyenne = x i − x
Ecart à la médiane = x i − Me
L'écart moyen, désigné par Em, est donc la moyenne arithmétique simple des écarts.
n −
 xi − x
L'écart à la moyenne moyen est : Em = i =1
n
n
x i − Me
L'écart à la médiane moyen est : Em = i =1
L'écart à la médiane moyen est inférieur à l'écart à la moyenne moyen.

Dans le cas d'une variable statistique discrète, l'écart moyen est :
k − k
n i xi − x n i xi − Me
Em = i =1
k
ou Em = i =1
k
n
i =1
i n
i =1
i
Dans le cas d'une variable statistique continue groupée en classes, l'écart moyen est :

k − k
n C i i −x n C i i − Me
Em = i =1
k
ou Em = i =1
k
 ni
i =1
n i =1
i
Exemple :
Les tableaux suivants présentent le salaire horaire des employés de deux entreprises.
Entreprise 1
Salaire Nombre Point −
ni Ci − Me
horaire d'employés central ni Ci − x
30-50 33 40 553,74 528

50-70 35 60 112,70 140
70-90 19 80 441,18 456
Total 87 1107,62 1124
−
x = 56,78 dh/h
Me = 56 dh/h
3 −
n C i i −x
1107,62
Écart à la moyenne moyen Em = i =1
3
= = 12,73 dh/h
n
87
i
i =1
n C i i − Me
1124
Écart à la médiane moyen Em = i =1
3
= = 12,92 dh/h
n
87
i
i =1
Entreprise 2
Salaire Nombre Point −
ni Ci − Me
horaire d'employés central ni Ci − x
10-30 20 20 735,60 710

30-50 18 40 302,04 279
50-70 20 60 64,40 90
70-90 14 80 325,08 343
90-110 15 100 648,30 667,5
Total 87 2075,42 2089,5
−
x = 56,78 dh/h
Me = 55,5 dh/h

5 −
n C i i −x
2075,42
Écart à la moyenne moyen Em = i =1
5
= = 23,86 dh/h
n
87
i
i =1
n C i i − Me
2089,5
Écart à la médiane moyen Em = i =1
5
= = 24,02 dh/h
n
87
i
i =1
Le salaire horaire moyen est le même pour les deux entreprises. L'écart moyen de l'entreprise 2
est plus élevé que celui de l'entreprise 1. Les salaires sont donc plus dispersés dans la deuxième
entreprise.
3.2. La variance et l'écart type
L'écart moyen est très rarement utilisé pour caractériser la dispersion, on lui préfère la variance
et l'écart type.
Définition :
La variance est égale à la moyenne arithmétique des carrées des écarts des observations par
rapport à la moyenne. La variance n'est pas homogène à la variable statistique, mais au carré de
cette variable. Pour cette raison, on préfère utiliser sa racine carrée appelée écart type.

n −
 ( xi − x)2
Variance S2 = i =1
n −
 ( xi − x)2
Écart type S= i =1
Dans le cas d'une variable statistique discrète :

k −
 n (x i i − x) 2
Variance S2 = i =1
k
n i =1
i
k −
 ni ( xi − x)2
Écart type S= i =1
k
n
i =1
i

Dans le cas d'une variable statistique continue groupée en classes :
k −
 n (C i i − x) 2
Variance S2 = i =1
k
n i =1
i
k −
 ni (Ci − x)2
Écart type S= i =1
k
n
i =1
i
Propriétés :
• Formule développée de la variance

n −
 ( xi − x)2
S2 = i =1
n − −2
 ( xi − 2 xi x+ x )
2
S2 = i =1
n − n n −2
 xi − 2 x  xi +  x
2
S2 = i =1 i =1 i =1
n n
 xi x
2
−2
− nx i
S2 = i =1
− 2 x i =1 +
n n n
x
2
i −2 −2
S =
2 i =1
− 2x + x
n
x
2
i −2
S =
2 i =1
−x
n
La variance est égale à la différence entre la moyenne des carrés et le carré de la moyenne.
Dans le cas d'une variable statistique discrète, la variance est :
n x
2
i i −2
S2 = i =1
k
−x
n i =1
i

• Transformation linéaire
La transformation linéaire d'une variable statistique x est une autre variable y telle que :
Y = ax + b avec a et b deux constantes quelconques
La variance de y est :

n −
 ( yi − y)2
Sy = i =1
2
n −
[(ax + b) − (a x+ b)]
i
2
Sy = i =1
2
n −
 (ax + b − a x− b)
i
2
Sy = i =1
2
n −
 (ax − a x) i
2
Sy = i =1
2
n −
 ( xi − x)2
S y = a2 i =1
2
S y = a2  Sx
2 2
L'écart type de y est : S y = a  Sx
La variance s'exprime au carré de l'unité de la variable. Elle n'a pas un sens très concret, elle ne
prend de signification que pour comparer deux ou plusieurs variables statistiques.
L'écart type mesure l'écart moyen quadratique des observations par rapport à la moyenne
arithmétique. Il s'exprime dans la même unité que la variable.
Remarque :
La variance et l'écart type ne peuvent comparer la dispersion de deux ou plusieurs variables

statistiques que si elles sont de même nature, c'est à dire, elles ont les mêmes unités.
Exemple 1 :
Les tableaux suivants présentent le salaire horaire des employés de deux entreprises.

Entreprise 1
Salaire Nombre Point ni xi

2
horaire d'employé central

s
30-50 33 40 52800
50-70 35 60 126000
70-90 19 80 121600
Total 87 300400
−
x = 56,78 dh/h
n x
2
i i −2 300400
S2 = i =1
3
−x = − 56,782 = 228,91
n
87
i
i =1
S = 228,91 = 15,13 dh/h
Entreprise 2
Salaire Nombre Point ni xi

2
horaire d'employé central

s
10-30 20 20 8000
30-50 18 40 28800
50-70 20 60 72000
70-90 14 80 89600
90-110 15 100 150000
Total 87 348400
−
x = 56,78 dh/h
5
n x
2
i i −2 348400
S2 = i =1
5
−x = − 56,782 = 780,63
n
87
i
i =1
S = 780,63 = 27,94 dh/h
L'écart type de l'entreprise 2 est plus élevé que celui de l'entreprise 1. Les salaires sont donc
plus dispersés dans la deuxième entreprise.

Exemple 2 :
Le tableau suivant présente la longueur (en mm) de 100 pièces :
Longueur Nombre de Point central yi niyi niyi²

pièces (ni) (Ci)
110-112 9 111 -3 -27 81
112-114 10 113 -2 -20 40
114-116 10 115 -1 -10 10
116-118 14 117 0 0 0
118-120 16 119 1 16 16
120-122 14 121 2 28 56
122-124 12 123 3 36 108
124-126 15 125 4 60 240
Total 100 83 551
Pour calculer la moyenne et la variance de la longueur, on peut utiliser la propriété de la
transformation linéaire dans le but de simplifier les calculs.
On effectue un changement de variable, c'est à dire, on remplace la variable longueur (C) par
une autre variable y de telle sorte que C soit une transformation linéaire de y.
C −b
C = ay + b Donc : y=
a
Il faut choisir les constantes a et b qui donnent des valeurs très simples de y. on choisit la
constante b parmi les valeurs de C, de préférence une valeur du milieu, pour avoir une valeur
nulle de y au milieu. On choisit la constante a comme étant le plus grand diviseur commun des
valeurs de (C-b) (le plus souvent a est l'amplitude constante des classes)pour avoir que des
valeurs entières de y.
Pour la longueur, on choisit : b = 117 et a = 2
C − 117
y=
2
Les valeurs de y sont très simples, on peut calculer facilement la moyenne et la variance de y.
8 8
 ni yi n y
2
− 83 i i −2 551
y= i =1
= = 0,83 Sy = i =1
−y = − 0,832 = 4,82
2
8 8
n n
100 100
i i
i =1 i =1
On calcule facilement la moyenne et la variance grâce aux formules de la transformation

linéaire :
− −
C = 2  y + 117 = 2  0,83 + 117 = 118,66 mm SC = 22  S y = 4  4,82 = 19,28
2 2
3.3. Coefficient de variation

Le coefficient de variation est le rapport de l'écart type par rapport à la moyenne. Il est le plus
souvent exprimé sous la forme d'un pourcentage.
S
CV = −
 100
x
Le coefficient de variation est indépendant des unités choisies, il est utile pour comparer des
distributions qui ont des unités différentes.
Exemple :
On a relevé le poids et la taille d'un échantillon de 200 personnes. Les résultats sont présentés
dans les tableaux 1 et 2.
Tableau 1
Poids (en Kg) Nombre de personnes

60-62 10
63-65 36
66-68 84
69-71 54
72-74 16
Total 200
− n x i i
13490
x= i =1
5
= = 67,45 Kg
n
200
i
i =1
5
n x
2
i i −2 911606
S2 = i =1
5
−x = − 67,452 = 8,53
n
200
i
i =1
S = 8,53 = 2,92 Kg

S 2,92
CV = −
 100 =  100 = 4,33 %
x 67,45
Tableau 2
Taille (en cm) Nombre de personnes

118-126 15
127-135 25
136-144 45
145-153 60
154-162 25
163-171 20
172-180 10
Total 200
− n x i i
29395
x= i =1
7
= = 146,98 cm
n
200
i
i =1
n x
2
i i −2 4357985
S2 = i =1
7
−x = − 146,982 = 188,27
n
200
i
i =1
S = 188,27 = 13,72 cm
S 13,72
CV = −
 100 =  100 = 9,33 %
x 146,98
Le coefficient de variation de la taille est supérieur à celui du poids, la taille est donc plus
dispersée que le poids.
3.4. Les fractiles

De même que la médiane nous a permis de partager la population en deux parties égales, le
fractile d'ordre p permet de partager la population en p parties égales, chaque partie contient
100
% du nombre total des observations. Ainsi les quartiles, déciles, centiles vont
p
respectivement nous permettre de partager la population en quatre, dix et cent parties égales.

3.4.1. Les quartiles
Les quartiles partagent le nombre total des observations en quatre parties égales, chaque partie
contient 25% des observations. On définit trois quartiles.
• Le premier quartile q1 : C'est une valeur pour laquelle un quart des observations (25%) lui
sont inférieures ou égales et trois quarts des observations (75%) lui sont supérieures ou
égales.
• Le deuxième quartile q2 : C'est une valeur pour laquelle deux quarts des observations (50%)
lui sont inférieures ou égales et deux quarts des observations (50%) lui sont supérieures ou
égales. Il est aussi égale à la médiane.
• Le troisième quartile q3 : C'est une valeur pour laquelle trois quarts des observations (75%)
lui sont inférieures ou égales et un quart des observations (25%) lui sont supérieures ou
égales.
L'intervalle interquartile [q1 , q3] contient 50% des observations qui sont au centre de la
distribution en laissant 25% des observations à droite et 25 % à gauche. L'amplitude de cet
intervalle est appelée écart interquartile :
Écart interquartile = q3 - q1
q3 − q1
Écart semi-interquartile =
2
Pour le calcul des quartiles, on utilise la même méthode de calcul que pour la médiane.
Pour des données groupées en classes, on détermine la médiane par interpolation linéaire.
Désignons par :
L0 : borne inférieure de la classe qui contient le quartile ;

ai : amplitude de la classe qui contient le quartile ;
Nn-1 : fréquence absolue cumulée croissante de la classe qui précède la classe qui contient le
quartile;
ni : fréquence absolue de la classe qui contient le quartile.
n
− N i −1
q1 = L0 + ai  4
ni
3n
− N i −1
q3 = L0 + ai  4
ni

Exemple :

logements cumulées
croissantes
0 à 20 10 10
20 à 40 18 28
40 à 60 22 50
60 à 100 38 88
100 à 160 8 96
160 à 260 4 100
Total 100
En consultant les fréquences absolues cumulées croissantes, q1, qui correspond à la 25 ème
observation, se trouve dans la classe 20 à 40 m². q3, qui correspond à la 75ème observation, se
trouve dans la classe 60 à 100 m².
100
− 10
q1 = 20 + 20  4 = 36,67 m 2
18
3  100
− 50
q3 = 60 + 40  4 = 86,32 m 2
38
50 % des logements ont une superficie comprise entre 36,67 m² et 86,32 m².
Écart interquartile = 86,32 - 36,67 = 49,65 m²
3.4.2. Les déciles
Les déciles partagent le nombre total des observations en dix parties égales, chaque partie
contient 10% des observations. On définit neuf déciles.
• Le premier décile d1 : C'est une valeur pour laquelle un dixième des observations (10%) lui
sont inférieures ou égales et neuf dixièmes des observations (90%) lui sont supérieures ou
égales.
• Le deuxième décile d2 : C'est une valeur pour laquelle deux dixièmes des observations
(20%) lui sont inférieures ou égales et huit dixièmes des observations (80%) lui sont
supérieures ou égales.

• L'ième décile di : C'est une valeur pour laquelle i dixième des observations lui sont
inférieures ou égales et (10-i) dixième des observations lui sont supérieures ou égales.
Le cinquième décile correspond aussi à la médiane et au deuxième quartile.
On peut définir plusieurs écarts interdécile qui correspondent à différents intervalles interdécile.
L'intervalle interdécile [d1 , d9] contient 80% des observations qui sont au centre de la
distribution en laissant 10% des observations à droite et 10 % à gauche.
Pour le calcul des déciles, on utilise la même méthode de calcul que pour la médiane et les
quartiles. Pour des données groupées en classes, on détermine la médiane par interpolation
linéaire.
Désignons par :
L0 : borne inférieure de la classe qui contient le décile ;

ai : amplitude de la classe qui contient le décile ;
Nn-1 : fréquence absolue cumulée croissante de la classe qui précède la classe qui contient le
décile;
ni : fréquence absolue de la classe qui contient le décile.
in
− N i −1
di = L0 + ai  10
ni
Exemple :


logements cumulées
croissantes
0 à 20 10 10
20 à 40 18 28
40 à 60 22 50
60 à 100 38 88
100 à 160 8 96
160 à 260 4 100
Total 100
En consultant les fréquences absolues cumulées croissantes, d1, qui correspond à la 10 ème
observation, se trouve dans la classe 0 à 20 m². d9, qui correspond à la 90ème observation, se
trouve dans la classe 100 à 160 m².
100
−0
d1 = 0 + 20  10 = 20 m 2
10
9  100
− 88
d9 = 100 + 60  10 = 115 m 2
8
80 % des logements ont une superficie comprise entre 20 m² et 115 m².
Écart interdécile = 115 - 20 = 95 m²
3.5. Étude de la concentration

La concentration peut être étudiée graphiquement ou numériquement.
• Courbe de concentration
Cette courbe est obtenue en calculant les fréquences relatives cumulées croissantes des
observations après les avoir classées par ordre croissant et les masses relatives cumulées
croissantes.
ni
cumulées croissantes
n
n i xi
cumulées croissantes
 n i xi
La courbe de concentration ou courbe de LORENZ s'inscrit toujours dans un carré de côté

unitaire dont les abscisses sont les fréquences relatives cumulées croissantes et les ordonnées
sont les masses relatives cumulées croissantes.
Dans le cas où toutes les observations seraient égales entre elles, la courbe de concentration
correspond à la bissectrice. Plus la courbe s'éloigne de la bissectrice plus la concentration est
élevée.
• Coefficient de concentration
On mesure la concentration par la surface comprise entre la courbe de LORENZ et la

bissectrice. Le coefficient de concentration ou coefficient de GINI est égal à deux fois cette
surface.
• Indice de concentration
On peut étudier la concentration directement à partir de la différence entre la médiale et la

médiane d'une distribution.
Médiale - Médiane
Indice de concentration =  100
Etendu
Exemple :
La concentration la surface, en m², de 100 logements :
Surface en ni Point fi Sommes Sommes fi cumulées Sommes

m² central xi nixi cumulées croissantes relatives
croissantes cumulées
croissantes
0 à 20 10 10 10 % 100 100 10 % 1,50 %
20 à 40 18 30 18 % 540 640 28 % 9,61 %
40 à 60 22 50 22 % 1100 1740 50 % 26,13 %
60 à 100 38 80 38 % 3040 4780 88 % 71,78 %
100 à 160 8 130 8% 1040 5820 96 % 87,39 %
160 à 260 4 210 4% 840 6660 100 % 100 %
Total 100 100 % 6660

Courbe de concentration
100
sommes relatives cum

90
80
croissantes
70
60
50
40
30
20
10
0
10,0 28,0 50,0 88,0 96,0 100,0
fréquences relatives cum croissantes
Me = 60 m² Ml = 80,92 m² Étendue = 260 m²
80,92 - 60
Indice de concentration =  100 = 8 %
260
IV. LES PARAMETRES DE FORME

4.1. Moments
On appelle moment d'ordre r (r un nombre entier) par rapport à une valeur a, la quantité :
n k
 ( x − a)
i =1
i
r
 n ( x − a)
i =1
i i
r
ou k
n
n
i
i =1
C'est la moyenne des puissances rième des différences des observations par rapport à la constante
a.
En pratique on utilise deux types de moments :
• Les moments non centrés : on les appelle aussi moments par rapport à l'origine. Ce sont les
moments d'ordre r par rapport à 0.
n k
 xi n x
r r
i i
mr = i =1
ou mr = i =1
k
n
n
i
i =1

x
0
i
m0 = i =1
=1
n
x
1
i −
m1 = i =1
=x
n
x
2
i −2
m2 = i =1
= S2 + x
n
• Les moments centrés : on les appelle aussi moments par rapport à la moyenne.
n − k −
 ( xi − x)r  ni ( xi − x)r
Mr = i =1
ou Mr = i =1
k
n
n
i
i =1
n −
 (x i − x) 0
M0 = i =1
=1
n
n −
 (x i − x)1
M1 = i =1
=0
n
n −
 ( xi − x)2
M2 = i =1
= S 2 = m2 − m1
2
D'une manière générale, les moments centrés d'ordre pair M4, M6, …. Sont comme la variance
M2 des paramètres de dispersion. Par contre, les moments centrés d'ordre impair sont des
indices de dissymétrie, ils sont nuls pour les distributions symétriques et différents de zéro pour
les distributions dissymétriques.
4.2. coefficient d'asymétrie

Fisher a proposé comme coefficient d'asymétrie le coefficient suivant :

Moment centré d' ordre 3 M 3

g1 = = 3
Ecart typeau cube S
Ce coefficient est sans dimension et il est nul pour les distributions symétriques. Son signe est
celui du moment centré d'ordre 3, ce signe indique le sens de la dissymétrie.
4.3. Coefficient d'aplatissement

Fisher a proposé comme coefficient d'aplatissement le coefficient suivant :
Moment centré d' ordre 4 M

g2 = − 3 = 44 − 3
Variance au carré S
Ce coefficient est sans dimension.
Exemple :
Surface, en m², de 100 logements :
Surface ni Point central − − −

( xi − x) ni ( xi − x) 3 ni ( xi − x) 4
en m² xi
0 à 20 10 10 -56,6 -1813214,96 102627966,74

20 à 40 18 30 -36,6 -882502,13 32299577,88
40 à 60 22 50 -16,6 -100634,51 1670532,90
60 à 100 38 80 13,4 91432 1225188,16
100 à 160 8 130 63,4 2038720,83 129254900,75
160 à 260 4 210 143,4 11795258,02 1691439999,5
Total 100 11129059,25 1958518165,93
−
x = 66,6 m 2
S 2 = 1834,44
S = 1834,44 = 42,83 m 2

6 −
 ni ( xi − x)3 11129059,25
M3 = i =1
6
= = 111290,59
n
100
i
i =1
6 −
 ni ( xi − x)4 1958518165,93
M4 = i =1
6
= = 19585181,66
n
100
i
i =1
M 3 111290,59
Coefficient d'asymétrie : g1 = = = 1,42
S3 42,833
M4 19585181,66
Coefficient d'aplatissement : g 2 = 4
−3 = − 3 = 2,82
S 42,834

LES NOMBRES INDICES
I. DEFINITION
Comme les paramètres étudiés pour les distributions, un indice est une grandeur qui
permet de résumer et d’exprimer par un chiffre unique un ensemble d’informations.
Un indice a pour objet de permettre des comparaisons entre grandeurs. Il peut s’agir
de comparaisons dans l’espace ou dans le temps.
Un indice est donc destiné à comparer deux grandeurs ou les valeurs d’une même
grandeur à deux moments différents. Ces grandeurs peuvent être soit simples, et
l’indice est dit élémentaire ou simple, soit des grandeurs complexes, et l’indice est dit
synthétique.
II. LES INDICES ELEMENTAIRES

2.1. Définition
Soit une grandeur simple, G, mesurée par un nombre qui caractérise directement une
situation. G peut être par exemple le nombre d’étudiants en première année
d’économie, le nombre d’appartements construits, le prix d’un produit déterminé.
L’indice élémentaire de la grandeur G est défini par le rapport de deux valeurs de G,

ces valeurs étant relativement à deux dates ou deux périodes, différentes.
Si nous notons Go la valeur de la grandeur G à la date 0, et Gt sa valeur à la date t,

l’indice élémentaire de la grandeur G à la date t, par rapport à la date 0 est :
Gt
It /0 = 100
G0
Pour des raisons de simple commodité pratique de l’expression de la valeur de

l’indice, le résultat de ce rapport est généralement multiplié par 100.
On appelle date ou période de base ou de référence, la date 0 et période courante, la

date t.
It/o est la valeur de l’indice base 100 à la date 0, à la date t.
L'interprétation d'un indice simple doit citer la grandeur étudiée, les périodes
concernées, le sens et la valeur de la variation.

Tout indice supérieur à 100 représente une augmentation d'une valeur relative égale à
la différence de l'indice par rapport à 100.
Tout indice inférieur à 100 représente une diminution d'une valeur relative égale à la
différence de l'indice par rapport à 100.
Exemple :
Si G mesure les billets en circulation au Maroc, et si le montant de ces billets était de

15.018 millions de dirhams en 1995, et de 16.777 millions de dirhams en 1999,
l’indice de la monnaie fiduciaire, base 100 en 1995, était en 1999 :
16777
I 1999/ 1995 = 100 = 111,7 %
15018
L’interprétation de ce résultat est directe : les billets en circulation au Maroc entre

1995 et 1999 ont augmenté de 11,7 %.
2.2. Propriété d’un indice élémentaire
• Propriété d’identité
Elle s’exprime sous la forme :
Io/o = 1x100 = 100 %
Cette propriété est évidemment satisfaite par un indice élémentaire puisque :
G0
I0/0 = 100 = 100 %
G0
• Propriété de circularité :
Considérons une grandeur G, mesurée aux dates 0, t’ et t, soient les indices simples :
Gt Gt ' Gt
It /0 = I t '/ 0 = I t / t' =
G0 G0 Gt '
La propriété de circularité peut s’exprimer par la relation suivante :
I t / 0 = I t / t '  I t '/ 0

Elle est nécessairement satisfaite par un indice élémentaire puisqu’elle se traduit par :
Gt G G
= t  t'
G 0 Gt ' G 0
On peut utiliser cette propriété pour comparer une situation à une date t à la situation
à la date 0, sans connaître Gt et Go, si l’on dispose des valeurs de It/t’ et de It’/0.
• Propriété de réversibilité
Elle s’exprime par la relation :
1
I0/t =
It /0
Elle est satisfaite par un indice élémentaire puisque :
G0 1
=
Gt G t
G0
Cette propriété est d’un grand intérêt pratique, puisque, combinée avec la propriété
de circularité, elle permet de procéder à ce qu’on appelle un changement de base d’un
indice.
Exemple :
Sur 210 articles, les indices du coût de la vie ont été pour 1988 et 1992 respectivement de :
1994 1999
Pays 1 393,6 491,5
Pays 2 384,7 473,5
Base 100 1980
L'augmentation du coût de la vie qui a eu lieu entre 1994 et 1999, a-t-elle été plus élevée dans le pays 1 ou 2 ?
Pour comparer l'augmentation du coût de la vie qui a eu lieu entre 1994 et 1999 dans les deux pays,
il faut changer l'année de base 1980 en 1994 :
1
I 99 / 94 = I 99 / 80  I 80 / 94 = I 99 / 80 
I 94 / 80
1
• Pays 1 : I 99 / 94 = 4,915  = 1,249 = 124,9 %
3,936

1
• Pays 2 : I 99 / 94 = 4,735  = 1,231 = 123,1 %
3,847
L'augmentation du coût de la vie qui a eu lieu entre 1994 et 1999, a été plus élevée dans le pays 1.
III. LES INDICES SYNTHETIQUES

3.1. Définition
Les situations que l’on veut comparer peuvent être plus complexes. Une situation
économique est généralement constituée d’un grand nombre d’éléments qui peuvent
être mesurés isolement et exprimés par des grandeurs simples. On peut combiner ces
grandeurs élémentaires et définir une grandeur complexe.
3.2. Construction d’un indice synthétique, indice de moyennes

ou moyennes d’indices
Construire un indice synthétique, c’est résumer en une seule valeur un grand nombre
d’observations, exprimer leur tendance centrale. Le statisticien doit d’abord choisir
entre calculer un indice de moyennes ou une moyenne d’indices. Ensuite il doit
choisir entre les différents types de moyennes à priori possibles.
Posons Gi0 les valeurs des grandeurs simples pour les différents produits i relevées à
la date 0 et Git les valeurs des grandeurs simples pour les différents produits i
relevées à la date t ( i = 1,…., n). Deux situations peuvent se présenter :
3.2.1. Indice des moyennes
On peut déterminer les valeurs de la grandeur complexe G qui expriment les

−
situations aux dates 0 et t, en calculant une moyenne G 0 des valeurs Gi0 et une
− − −
moyenne G t des valeurs Git. Si la formule retenue pour le calcul de G 0 et G t est
celle de la moyenne arithmétique, l’indice synthétique est le rapport :
G it n
−
Gt
i =1
n
G
i =1
it
It /0 = −
= n
= n
G0 G
i =1
i0 G
i =1
i0

La formule précédente suppose implicitement que toutes les grandeurs simples Gi

sont de même nature (même unité) et ont la même importance, donc affectées d’un
coefficient de pondération unitaire.
Si au contraire les grandeurs simples Gi sont de même nature (même unité) mais n'ont
pas la même importance on associe à chaque grandeur Gi un poids différent dans le
−
calcul de la moyenne G , si on note i le coefficient de pondération affecté à la
− −
grandeur Gi , la formule retenue pour le calcul de G 0 et G t est celle de la moyenne
arithmétique pondérée, la formule de l'indice synthétique devient :
 G i it n
−
Gt
i =1
n
 G
i =1
i it
It /0 = −
= n
= n
G0  G
i =1
i i0  G
i =1
i i0
3.2.2. Moyennes des indices
On peut aussi calculer une moyenne d’indices. Pour chaque produit i, on peut
déterminer la valeur de l’indice élémentaire à la date t par rapport à la date 0, et
exprimer l’indice synthétique comme une moyenne arithmétique des indices
élémentaires. On obtient :
n
Git
G
1
It /0 =
n i =1 i0
Ou si l’on tient compte des coefficients de pondération variables :

n
G it
 (G
i =1
i )
It /0 = n
i0

i =1
i
Il est évident que les deux formules (moyenne d’indices ou indice de moyennes) ne
sont pas équivalentes et par conséquent débouchent sur des résultats différents.
3.3. Le choix du type de moyenne

L’étude de la tendance centrale d’une série statistique s’appuie sur le calcul de
moyennes. Le choix du type de moyenne à utiliser est purement conventionnel.
Cependant les différentes moyennes n’ont pas les mêmes propriétés (voir
caractéristiques de tendance centrale). Par conséquent le choix de type de moyenne à
utiliser en matière d’indice aura des répercussions relatives aux propriétés de
circularité et de réversibilité de l’indice synthétique obtenu.
• Moyenne arithmétique
L’utilisation de la moyenne arithmétique conduit à la formule suivante :

n
G it
 (G
i =1
i )
It /0 = n
i0

i =1
i
Mais un tel indice ne satisfait pas les propriétés de circularité et de réversibilité.
• Moyenne harmonique
Un indice synthétique basé sur une moyenne harmonique conduit à la formule

suivante :
n

i =1
i
It /0 = n
Gi 0
 ( G
i =1
i
it
)
La moyenne harmonique conduit à des résultats sensiblement différents de ceux de la

moyenne arithmétique. On sait que lorsque toutes les observations dont on calcule la
tendance centrale sont positive, la moyenne harmonique est inférieure à la moyenne
arithmétique.
Par conséquent, l’indice synthétique obtenu à partir d’une moyenne harmonique des
indices élémentaires aura donc une valeur plus faible que celle qui résulte d’une
moyenne arithmétique.
En raison de la relation qui existe entre la moyenne harmonique et la moyenne

arithmétique, l’indice obtenu à partir de la moyenne harmonique ne satisfait pas les
propriétés de circularité et de réversibilité.
• Moyenne géométrique
La formule de l’indice synthétique basée sur une moyenne géométrique se présente

de la façon suivante :

i
n
n
Git  i
It /0 = i =1
(
Gi 0
) i =1
On sait que la valeur de la moyenne géométrique est comprise entre celle de la

− − −
moyenne harmonique et de la moyenne arithmétique : x h  x g  x , par conséquent, la
valeur de l’indice synthétique basé sur une moyenne géométrique sera comprise entre
celle d’un indice basé sur une moyenne harmonique et celle d’un indice basé sur une
moyenne arithmétique.
Un indice synthétique basé sur une moyenne géométrique a l’avantage de satisfaire

les propriétés de circularité et de réversibilité.
Malgré cet avantage, pour des raisons de commodité et de simplicité, les indices
reposant sur les moyennes arithmétique et harmonique lui sont préférés.
3.4. Les principaux indices synthétiques

3.4.1. Indice de Paasche
Les formules des indices les plus couramment utilisés se distinguent les unes des
autres, à la fois par le choix des moyennes sur lesquelles ils reposent, et par leur
système de pondération. Pour que l’indice reflète la structure de la situation étudiée,
les coefficients de pondération doivent exprimer l’importance relative des différents
éléments dont la combinaison engendre cette situation. Si par exemple, les dépenses
en nourriture d’un ménage représentent le triple des dépenses en éducation, le rapport
des coefficients de ces deux groupes de produits doit être de trois à un.
On sait aussi que les structures économiques et sociales se modifient au cours du

temps. Pour prendre en considération ces modifications, il faudrait donc faire varier
les coefficients de pondération pour qu’ils reflètent à chaque instant la structure
actuelle. De ce point de vue, l’indice retenu serait celui dont les coefficients de
pondération sont ceux de la période courante, soit it. C’est le cas de l’indice de
Paasche, qui est la moyenne harmonique des indices élémentaires, pondérés par les
coefficients de la période courante. Sa formule est la suivante :
n

i =1
ti
Pt / 0 = n
Gi 0

i =1
it (
G it
)

3.4.2. Indice de Laspeyres
On peut aussi concevoir d’adopter des coefficients de pondération constants, par

exemple ceux qui reflètent la structure de la situation à la période de base. C’est le
cas de l’indice de Laspeyres, qui est la moyenne arithmétique des indices
élémentaires , pondérés par les coefficients de la période de référence. Sa formule est
donc :
n
G it

i =1
i0 (
Gi 0
)
Lt / 0 = n

i =1
i0
Cet indice traduit donc parfaitement la situation de la période de base dont il adopte
les coefficients de pondération. Cependant, au fur et à mesure que la structure de la
situation s’écarte de son origine, l’indice devient de moins en moins fidèle, de plus en
plus déformant. Il faut alors actualiser la pondération c’est à dire définir un nouvel
indice reposant sur une base nouvelle.
La durée de vie d’un indice de Paasche n’est pas nécessairement beaucoup plus
longue.
Dans cette optique, la durée de vie relativement courte des indices pose donc le
problème de la comparaison de deux situations très éloignées dans le temps. Si l’on
veut mesurer l’évolution d’une grandeur à long terme, on devra procéder à des
raccords d’indices, c’est à dire, connaissant les valeurs de deux indices successifs,
l’un de base 0 (It’/0), l’autre de base t’ (It/t’) calculer It/0 .
On écrira :
I t / 0 = I t / t '  I t '/ 0
Mais le résultat obtenu à l’aide des raccords d’indices n’est qu’une approximation, à
la fois pour des raisons théoriques et pratiques : problème de circularité, de champ
des indices et de pondération.
Les indices de Laspeyres et de Paasche qui ne satisfont ni la condition de circularité,

ni celle de réversibilité ont la propriété de s’échanger l’un contre l’autre lorsqu’on
permute la date de référence et la date courante . En effet :
n

i =1
i0
1
P0 / t = n
=
Git Lt / 0

i =1
i0 (
Gi 0
)

Et réciproquement :
n
Gi 0

i =1
it (
Git
)
1
L0 / t = n
=
Pt / 0

i =1
it
Puisque la moyenne harmonique est inférieure à la moyenne arithmétique, l’indice de

Paasche est inférieur à l’indice de Laspeyres lorsque les coefficients de pondération
sont identiques, c’est à dire lorsque la structure de la situation étudiée est stable .
Cependant, lorsqu’on s’éloigne de la période de base, et que les coefficients de
l’indice de Paasche varient, l’écart entre les deux indices s’accroît. Il est
généralement admis, concernant les indices de prix, que l’indice de Laspeyres tend à
surestimer les hausses de prix alors que l’indice de Paasche tend à les sous-estimer .
3.4.3. Indice de Fisher
Pour palier aux carences des deux indices et pour mieux rendre compte de la réalité,
il a été proposé de prendre comme indice une moyenne des indices de Paasche et de
Laspeyres. C’est ce qu’on appelle l’indice de Fisher, qui est une moyenne
géométrique des deux indices, soit :
Ft / 0 = Lt / 0  Pt / 0
L’indice de Fisher satisfait la propriété de réversibilité mais pas celle de circularité.
1 1
F0 / t = L0 / t  P0 / t = 
Lt / 0 Pt / 0
1 1
F0 / t = =
Lt / 0  Pt / 0 Ft / 0
3.5. Les indices de prix, de quantités et de valeurs
Les indices de Laspeyres et de Paasche sont très souvent utilisés pour exprimer
l’évolution des prix et des quantités. Prenons l’exemple de la mesure des prix à la
consommation, et des quantités consommées par un ménage.
Considérons les dépenses du ménage aux dates 0 et t. Soient pi le prix du produit i et

qi la quantité achetée.
A la date 0 les dépenses du ménage en produit i sont :
di0 = pi0 qi0

La dépense totale à la date 0 est donc :
n
d0 = p
i =1
i0 qi0
A la date t les dépenses du ménage en produit i sont :
dit = pit qit
La dépense totale à la date t est donc :
n
dt = p
i =1
it q it
A la date t, les prix et les quantités ont varié. On peut calculer pour chaque produit :
• des indices élémentaires de prix :
p it
Pt i/ 0 =
pi0
• des indices élémentaires de quantité :
q it
Qti / 0 =
qi0
• des indices élémentaires de dépenses :
p it q it
Dti / 0 = = Pt i/ 0  Qti / 0
pi0 qi0
Si l’on veut calculer des indices synthétiques, il serait judicieux d’affecter à chaque
indice élémentaire i un coefficient de pondération qui exprime la part du produit i
dans les dépenses totales du ménage, cette part est :

pi0 qi0
A la date 0  i0 = n
p
i =1
i0 qi0
p it q it
A la date t  it = n
p
i =1
it q it
La somme des coefficients de pondération étant égale à 1 :
n n

i =1
i0 = 
i =1
it =1
On peut dès lors écrire les indices de Laspeyres et de Paasche des prix et des
quantités.
3.5.1. Indices de prix
• Indice Laspeyres de prix :
n n
p it p i 0 q io p it
PLt / 0 =   i0 ( )= (  )
i =1 pi0 i =1 p i0 qi0
pi0
p i =1
it q i 0
PLt / 0 = n
p i =1
i0 qi0
L’indice de prix de Laspeyres représente le rapport des dépenses totales du ménage à

la période de base évaluées aux prix courants, aux dépenses totales de cette même
période évaluées aux prix de la période. Dans cette expression, les quantités sont
celles de la période de base et sont donc constantes ; les prix, par contre, varient
puisqu’il s’agit d’un indice de prix.

• Indice Paasche de prix :
1 1
Ppt / 0 = n
= n
pi0 p it q it pi0
 ( ) (  )
p
it
i =1 p it i =1 it q it
p it
p
i =1
it q it
Ppt / 0 = n
p
i =1
i 0 q it
C’est le rapport des dépenses totales du ménage à la période t évaluées aux prix
courants, aux dépenses totales du ménage à cette même période évaluées aux prix de
la période de base. Les quantités sont celles de la période courante ; les prix quant à
eux, changent.
3.5.2. Indices de quantités
• Indice Laspeyres de quantités :
n n
q it p i 0 q io q it
Q Lt / 0 =   i0 ( )= (  )
i =1 qi0 i =1 p i0 qi0
qi0
q
i =1
it pi0
Q Lt / 0 = n
q
i =1
i0 pi0
L’indice de Laspeyres des quantités est donc le rapport des dépenses totales du
ménage à la période t évaluées aux prix de la période de base, aux dépenses totales du
ménage à la période de base évaluées aux même prix. Les prix sont ceux de la
période de base, et les quantités varient.

• Indice Paasche de quantités :
1 1
Q pt / 0 = n
= n
qi0 p it q it qi0
 ( ) (  )
p
it
i =1 q it i =1 it q it
q it
q
i =1
it p it
Ppt / 0 = n
q
i =1
i0 p it
C’est le rapport des dépenses totales du ménage à la période t évaluées aux prix
courants, aux dépenses totales du ménage à la période de base évaluées aux même
prix. Les prix sont ceux de la période courante alors que les quantités varient.
Ces indices peuvent être combinés deux à deux pour retrouver l’indice des dépenses
totales ou indice des valeurs, qui lui est un indice de moyennes et non une moyenne
d’indices.
On peut en effet écrire :

n
p
i =1
it q it
Dt / 0 = n
p
i =1
i0 qi0
Or
n n n
i =1
p it q i 0 
i =1
q it p it p
i =1
it q it
PLt / 0  Q Pt / 0 = n
 n
= n
= Dt / 0
p
i =1
i0 qi0 q
i =1
i0 p it p
i =1
i0 qi0
De même :
n n n
i =1
p i 0 q it 
i =1
q it p it p
i =1
it q it
Q Lt / 0  PPt / 0 = n
 n
= n
= Dt / 0
p
i =1
i0 qi0 q
i =1
it pi0 p
i =1
i0 qi0
Ainsi si l’on connaît l’indice des valeurs et l’indice des prix de Laspeyres, on peut
déduire l’indice de quantités de Paasche. Ou encore, si l’on connaît l’indice des
valeurs et l’indice des prix de Paasche, on peut en déduire l’indice des quantités de
Laspeyres.

LES SERIES CHRONOLOGIQUES

I. NOTIONS GENERALES
1.1. Définition
Une série chronologique ou temporelle, est une suite d’observations, échelonnées dans le
temps, d’une variable quelconque, mesurable ou repérable. Si on note Y la grandeur à laquelle
se rapportent les observations, une série chronologique est donc une suite de valeurs Yt de la
variable étudiée, t étant un indice exprimant le temps.
Une série chronologique peut représenter :
• Soit un niveau : Les valeurs prises par la variable correspondent à des instants de temps. Yt
est alors la mesure du niveau atteint à cette date par la variable observée.
• Soit un flux : les valeurs prises par la variable correspondent à des périodes, des intervalles
de temps. Yt est alors la mesure d’un flux écoulé au cours de la période en question (par
exemple les ventes du mois de décembre de l’année n.
1.2. Représentation graphique
La représentation graphique des séries chronologiques se fait en utilisant les modes de

représentation graphique déjà étudiés ou des modes plus élaborés tel : diagramme polaire,
diagramme logarithmique ou semi-logarithmique.
1.3. Composantes fondamentales : les principaux mouvements des séries

chronologiques.
La succession des données observées ou série brute, résulte de quatre composantes ou

mouvements : un mouvement de longue durée, une composante cyclique, un mouvement
saisonnier et des variations accidentelles.
Le mouvement de longue durée ou «trend» traduit l’allure d’ensemble du phénomène. La série

chronologique peut être globalement croissante, décroissante ou stable. La connaissance du
trend permet la comparaison des séries chronologiques. De plus c’est à partir de la tendance que
seront étudiées les autres composantes de la série. En effet, la grandeur étudiée ne suit pas
généralement un mouvement régulier, mais fluctue au cours du temps. Ces fluctuations sont de
natures différentes selon leur périodicité.
Les variations saisonnières correspondent aux fluctuations annuelles de la grandeur autour d’un
trend déterminé sur une période pas trop longue ; ce trend porte le nom de mouvement extra-
saisonnier. Ces variations se reproduisent chaque année, approximativement aux mêmes
moments, et dans le même sens, c’est à dire, au-dessus ou au-dessous du trend. L’étude de ces
fluctuations est indispensable pour la prévision à court terme. L’élimination du mouvement
saisonnier est nécessaire à la poursuite de l’étude de la série.
La composante cyclique rend compte des fluctuations longues que la variable peut parfois
présenter autour de la tendance de longue durée. Les fluctuations cycliques qui traduisent la vie
économique peuvent avoir une amplitude de plusieurs année.
Enfin, les séries chronologiques peuvent être marquées par des variations accidentelles,
appelées aussi variations aléatoires. Ce sont des variations de caractère souvent imprévisible et
modifient ponctuellement la série chronologique : grève, guerre, mesures fiscales, sécheresse
pour les productions agricoles…
La donnée observée à la date t ou donnée brute Yt d’une série chronologique peut donc
s’interpréter comme résultant de la superposition de ces quatre composantes.
1.4. Modèles des séries chronologiques

Deux schémas sont alors possibles : un schéma additif ou un schéma multiplicatif.
Selon le premier schéma, la série brute résulte de la somme du mouvement de longue durée Tt,
du mouvement saisonnier St, du mouvement cyclique Ct et du mouvement accidentel ou
résiduel Rt :
Yt = Tt + St + Ct + Rt
St, Ct, et Rt sont alors les éléments que l’on doit ajouter à la valeur Tt de la tendance à la date t
pour obtenir la donnée observée Yt.
Ce modèle considère que les mouvements saisonnier et cyclique sont indépendants du niveau
Yt atteint sur le trend.
On peut au contraire penser que les variations cycliques et saisonnières suivent l’évolution
générale de la grandeur. On adopte alors un modèle multiplicatif :
Yt = Tt x St x Ct x Rt
Où St, Ct et Rt sont les coefficients par lesquels on doit multiplier Tt, position sur le Trend à la
date t, pour obtenir la donnée observée Yt.
On peut aussi noter que ces deux hypothèses ne sont pas incompatibles. Le schéma additif et le
schéma multiplicatif peuvent être combinés pour donner un schéma dit « mixte ».

Les modèles sus-indiqués sont tous acceptables. Cependant, il est fréquemment fait usage du
modèle multiplicatif pour étudier les techniques associées à l’analyse des séries chronologiques.
L’analyse des séries chronologiques rend donc nécessaire la mise au point d’instruments
spécifiques ayant pour objet de mettre à jour, et de mesurer, l’influence des mouvements
saisonniers. Ces instruments doivent permettre d’ «épurer » la série chronologique de l’effet
perturbateur des fluctuations saisonnières, de calculer une série dite « désaisonnalisée », ou
encore « corrigée des variations saisonnières » plus facile à interpréter, et plus utilisable si l’on
veut prolonger le mouvement constaté dans l’avenir et formuler des prévisions d’évolution.
L’objet de ce qui suit est de présenter les techniques de désaisonnalisation des séries
chronologiques.
La désaisonnalisation d’une série chronologique repose en effet sur une démarche générale qui
peut être décomposée en trois étapes essentielles :
• la première étape consiste à estimer la tendance générale : La détermination de la

tendance «trend» peut se faire de plusieurs manières. Toutes les techniques
consistent à réduire les fluctuations et à dégager une évolution à long terme.
• la deuxième étape consiste, par confrontation entre les valeurs de la série brute et
celles de la tendance, à calculer les valeurs du mouvement saisonnier ;
• La troisième étape consiste à extraire des valeurs de la série brute l’influence du

mouvement saisonnier, afin d’obtenir la série corrigée des variations saisonnières.
II. Les méthodes d’ajustement et de lissage
2.1. La méthode des moyennes mobiles

Une moyenne mobile pour une période de temps est une moyenne arithmétique simple des
valeurs de cette période et de celle avoisinantes. Par exemple, pour calculer les moyennes
mobiles de longueur 3 pour une période quelconque, nous sommons la valeur de la série
chronologique de la période en question aux valeurs de celle qui précède et de celle qui suit et
nous divisons par 3. Nous calculons les moyennes mobiles pour toutes les périodes exceptés la
première et la dernière.
Exemple :
Dans le but d ‘étudier les ventes futures d’essence, un gérant de cinq stations d’essence a
enregistré les ventes trimestrielles d’essence pour les 4 dernières années. Celles-ci sont
représentées dans le tableau suivant :

Période Année Trimestre Ventes d’essence

1 1 1 39
2 2 37
3 3 61
4 4 58
5 2 1 18
6 2 56
7 3 82
8 4 27
9 3 1 41
10 2 69
11 3 49
12 4 66
13 4 1 54
14 2 42
15 3 90
16 4 66
Calculez les moyennes mobiles de longueur 3 et 5. Représentez graphiquement les ventes

trimestrielles et les moyennes mobiles.
Pour calculer les moyennes mobiles de longueur 3, on regroupe les ventes des périodes 1, 2, et
3, et on prend leur moyenne arithmétique. La première moyenne mobile sera donc :
39 + 37 + 61 137
= = 45,7
3 3
La deuxième moyenne mobile est obtenue en éliminant les ventes de la première période (39),
en ajoutant les ventes de la quatrième période (58), et ensuite en calculant la nouvelle moyenne.
La deuxième moyenne mobile sera donc :
37 + 61 + 58 156
= = 52
3 3
Le tableau ci-dessous donne les résultats pour les moyennes mobiles de longueur 3, MM3 et de
longueur 5, MM5 :

Période Ventes MM 3 MM5

1 39 -- --
2 37 45,7 --
3 61 52,0 42,6
4 58 45,7 46,0
5 18 44,0 55,0
6 56 52,0 48,2
7 82 55,0 44,8
8 27 50,0 55,0
9 41 45,7 53,6
10 69 53,0 50,4
11 49 61,3 55,8
12 66 56,3 56,0
13 54 54,0 60,2
14 42 62,0 63,6
15 90 66,0 --
16 66 -- --
Il faut noter qu’on place les moyennes mobiles au centre du groupe de valeurs qui font l’objet
de la moyenne. C’est la raison pour laquelle, il est préférable d’utiliser un nombre impair de
périodes (longueur) dans les moyennes mobiles. Nous discuterons plus tard comment procéder
lors de l’utilisation d’un nombre pair de périodes.
Pour essayer de voir comment la méthode des moyennes mobiles réduit les fluctuations
aléatoires, examinons la représentation graphique suivante :
100
90
80
70 VENTES
VENTES
60
50 MM3
40
30 MM5
20
10
0
11
13
15
1
PERIODES
Il est difficile de discerner les composantes de la série chronologique si l’on se réfère

uniquement au graphe représentatif de la série brute et ce en raison du large volume ou effet de
la variation aléatoire présente. Cependant si on se réfère au graphe représentant les moyennes
mobiles de longueur 3, on peut détecter un mouvement saisonnier qui fait ressortir des sommets
au 3ème trimestre de chaque année (périodes 3, 7, 11 et 15) et des minima locaux au 1 er trimestre
de chaque année (périodes 5, 9, et 13). Il existe aussi une tendance (petite mais visible) de
longue période d’évolution (à la hausse) des ventes d’essence.
Il est à noter aussi que les moyennes mobiles de longueur 5 «lissent» la série brute plus que
lorsqu’on utilise les moyennes mobiles de longueur 3. En général, plus la période sur laquelle
nous faisons les moyennes est longue, plus la série brute devient lisse. Malheureusement, dans
ce cas, nous avons «lissé» un peu trop, du fait que le mouvement saisonnier n’est plus apparent
dans le cas de MM5. Tout ce qu’on peut discerner ou détecter est la tendance de longue durée.
Il est important de réaliser que notre objectif est de lisser la série chronologique suffisamment
pour éliminer ou du moins réduire les fluctuations aléatoires et de ressortir les autres
composantes (tendance, cycle, et/ou saison) présentes.
Le choix de la longueur utilisée influe sur les résultats.
2.2. La méthode des moyennes mobiles centrées

Si l’on décide d’adopter un nombre pair de périodes pour calculer les moyennes mobiles, nous
serons confrontés au problème de la place ou position des moyennes mobiles calculées. Par
exemple, supposons que nous calculons les MM4 des données suivantes :
Période Série
1 15
2 27
3 20
4 14
5 25
6 11
La première moyenne mobile est :
15 + 27 + 20 + 14 76
= = 19
4 4
Cependant, puisque cette moyenne représente les périodes 1, 2, 3 et 4, nous devons positionner
cette valeur entre les périodes 2 et 3.
La moyenne suivante est :
27 + 20 + 14 + 25 86
= = 21,5
4 4
elle doit être placée entre les périodes 3 et 4.
Obtenir des moyennes mobiles qui se situent entre deux périodes cause des problèmes
notamment d’interprétation.

La méthode des moyennes mobiles centrées corrige ce problème. Cette méthode consiste à
calculer des moyennes mobiles d’ordre 2 aux moyennes mobiles déjà obtenues.
Le tableau résume les résultats obtenus par la méthode des moyennes mobiles centrées :
Période Série MM4 MMC4

1 15 -
-
2 27 -
19,0
3 20 20,25
21,5
4 14 19,50
17,5
5 25 -
-
6 11 -
2.3. La méthode exponentielle

Deux inconvénients sont associés à la méthode des moyennes mobiles de lissage d’une série
chronologique : Premièrement, nous n’avons pas de moyennes mobiles pour le premier et
dernier groupes de périodes de la série. Au cas où la série chronologique serait composée d’un
nombre limité d’observations, les valeurs omises peuvent représenter une importante perte
d’information. Deuxièmement, les moyennes mobiles «négligent» la plupart des valeurs
précédentes de la série chronologique. Par exemple, l’exercice traité dans la première section
relatif aux ventes d’essence, la moyenne mobile d’ordre 5 pour le 4ème mois reflète des 2ème,
3ème, 4ème, 5ème et 6ème mois mais n’est pas affectées par le 1er mois.
Ces deux inconvénients sont adressés par la méthode exponentielle.

La méthode exponentielle de lissage d’une série chronologique est définie de la façon suivante :
St = w yt + (1-w) S t-1 Pour t> 2
Où
• St : série chronologique lissée exponentiellement à la date t.
• Yt : série chronologique à la date t .
• S t-1 : série chronologique lissée exponentiellement à la datte t-1.
• w : constante ou coefficient de lissage avec 0  w  1 .

On commence par poser :
S1 = y1
Ce qui donne :
S2 = w y2 + (1-w) S1 = wy2 + (1-w ) y1
S3 = w y3 + (1-w) S2 = w y3 + (1-w) (w y2 + (1-w) y1) = w y3 + w (1-w) y2 + (1-w)2 y1
En règle générale, on obtient :
St = w yt + w (1-w) y t-1 + w (1-w)2 y t-2 + ….. + (1-w) t-1 y 1
Cette dernière formule indique que la série « lissée » à la date t, dépend de toutes les
observations antérieures de la série chronologique.
Le coefficient de lissage w est choisi en fonction du degré de lissage demandé. Une valeur de w
tendant vers 0 produit un degré de lissage assez important. Par contre, une valeur de w proche
de 1 résulte dans un lissage assez limité de la série en question.
Exemple :
Appliquer la méthode exponentielle de lissage avec w = 0,2 et w = 0,7 aux données de

l’exercice relatif aux ventes d’essence, et représenter graphiquement les résultats.
Les valeurs lissées exponentiellement sont obtenues à partir de la formule suivante :
St = w yt + (1-w) S t-1 Pour t  2
On commence par poser :
S1 = y1 = 39

Période Ventes Lissage exponentielle Lissage exponentielle

w = 0,2 w = 0,7
1 39 39,0 39,0
2 37 38,6 37,6
3 61 43,1 54,0
4 58 46,1 56,8
5 18 40,5 29,6
6 56 43,6 48,1
7 82 51,2 71,8
8 27 46,4 40,4
9 41 45,3 40,8
10 69 50,1 60,6
11 49 49,8 52,5
12 66 53,1 61,9
13 54 53,3 56,4
14 42 51,0 46,3
15 90 58,8 76,9
16 66 60,2 69,3
90
80
70
60
VENTES
w = 0,2
50
40 w = 0,7
30
20
10
0
PERIODES
Les moyennes mobiles et la méthode exponentielle sont des méthodes relativement assez
limitées de réduction ou d’élimination des fluctuations aléatoires dans le but de découvrir
l’existence d’autres composantes. Dans les sections qui suivent nous nous proposons de
mesurer avec plus de précision les composantes d’une série chronologique.
III. MESURE DES COMPOSANTES D’UNE SERIE CHRONOLOGIQUE
3.1. Détermination du trend

Dans la section précédente, nous avons décrit comment lisser une série chronologique peut nous
donner une image plus claire sur les composantes présentes. Cependant, nous avons besoin de
mesures beaucoup plus précises relatives à la tendance, aux effets cycliques et aux effets
saisonniers. Dans les sections qui suivent, nous présenterons les méthodes de mesure des effets
cycliques et saisonniers.

Comme nous l’avons déjà mentionné, le trend peut être soit linéaire ou non linéaire et par
conséquent peut prendre des formes fonctionnelles assez diverses. La méthode la plus facile à
adopter pour isoler la tendance de longue durée est la méthode de régression où la variable
indépendante est t.
Si nous estimons que la tendance de longue période est essentiellement linéaire, on utilisera la
modèle suivant :
Y = 0 + 1 t + 
Quoique plusieurs modèles non linéaires sont possibles, nous nous limiterons dans le cadre de
cet ouvrage à deux :
3.1.1. Modèle polynomial de la tendance
Y = 0 + 1 t + 2 t² + 
Ce type de modèle peut s’appliquer par exemple a un nouveau produit qui a connu une
croissance rapide au début de son introduction sur le marché suivi par une relative stabilité.
3.1.2. Modèle logarithmique du trend
Qui peut être traduit en termes de log de la façon suivante :
Y = 0  1t  
Le modèle logarithmique peut être traduit en termes de log de la façon suivante :
Log Y = log 0 + (log 1) t + log 
Le modèle logarithmique ou exponentiel peut être appliqué dans le cas de séries chronologiques
qui connaissent des taux de croissance exponentiels avec le temps.
On peut utiliser soit le logarithme à base 10 ou celui à base e. Dans notre analyse, on utilise le
logarithme naturel. Les exemples qui suivent illustrent quand et comment ces modèles sont
appliqués.

Exemple :
Les chiffres d’affaires annuels (en millions de dirhams) d’une firme pharmaceutique ont été
consignés dans le tableau qui suit. La direction de la société estime que le « trend » ou tendance
sur cette période est linéaire.
Mesurer le trend en utilisant la méthode de régression.
Année Chiffre d’affaires

(en millions de dhs)
1990 18,0
1991 19,4
1992 18,0
1993 19,9
1994 19,3
1995 21,1
1996 23,5
1997 23,2
1998 20,4
1999 24,4
La ligne de tendance obtenue par la méthode des moindres carrés ordinaires est la suivante :
Y = 17,28 + 0,62545 t avec R2 = 0,688
L’ajustement de la droite de régression est relativement « bon » avec R2 = 68,8 %. Il est

important de noter que du fait de la présence probable d’effets cycliques et saisonniers et aussi
fluctuations aléatoires, nous nous n’attendons pas à un très bon ajustement. Il faudrait se
rappeler qu’on est seulement entrain de mesurer le trend dans cette analyse et pas les autres
composantes.
30
25
20
15
10
0
1 2 3 4 5 6 7 8 9 10 11
La droite de régression montre clairement une tendance croissante vers la droite.

Exemple :
Les sociétés d’assurance voudraient avoir une idée sur les accidents de la route pour les
prochaines années. Se basant sur les statistiques des 9 dernières années, elles veulent analyser le
trend. Ces données sont listées dans le tableau ci-dessous. En raison de la croissance rapide
observée dans la période en question, un modèle de type logarithmique a été opté. Le modèle
proposé est de la forme :
Y = 0  1t  
Qui peut être présenté par :
Log Y = log 0 + (log 1) t + log 
Désignons par :
• Y' = log y
• '0 = log 0
• '1 = log 1
• ' = log 
Le modèle devient :
Y' = '0 + '1 t + '
Année Période t Nombre (Y) d’accidents Y’ = log Y

(en 1000)
1991 1 1 0
1992 2 6 1,792
1993 3 10 2,303
1994 4 14 2,636
1995 5 25 3,219
1996 6 48 3,871
1997 7 63 4,143
1998 8 108 4,682
1999 9 161 5,081
Pour calculer les coefficients de la droite de tendance, on prend le logarithme de Y pour chaque année
(Y’).
L’estimation du modèle sous sa dernière version nous donne les coefficients suivants :
'0 = 0,255 '1 = 0,561

On peut donc écrire :
Y' = 0,255 + 0,561 t
Puisque '0 = log 0 et '1 = log 1
Il s'ensuit que :
0 = e'0 = e 0,255 = 1,29
1 = e'1 = e 0,561 = 1,75
La ligne de tendance exprimée dans la version initiale du modèle devient :
Y = (1,29) (1,75)t
250
200
150
y
100
50
0
1 2 3 4 5 6 7 8 9
3.2. Étude de la composante cyclique

La différence fondamentale entre les variations cycliques et les variations saisonnières réside
dans la durée de la période en considération. Cependant, les variations saisonnières sont
« censées » être prévisibles. Par contre, les variations cycliques, sauf dans des cas connues des
cycles économiques et commerciaux, sont souvent imprévisibles et varient aussi bien par
rapport à leur durée qu’à leur amplitude et ne sont pas nécessairement répétitives. Malgré ces
problèmes, les cycles doivent être « isolés » et la procédure qu’on utilisera pour identifier les
variations cycliques sera celle des « rapports au trend ». Les étapes pour obtenir le rapport au
trend sont les suivantes :
1- Détermination de la ligne de tendance (à l’aide d’une régression)
^
2- Pour chaque période, on calcule la valeur du trend y .
3- Le rapport au trend est égal à :

valeur observée de y y
 100 = ^  100
valeur calculée de y
y
Exemple :
La demande annuelle en énergie dans un pays est affectée par divers facteurs : prix, offre et
l’état de l’économie du pays en question. Pour essayer d’étudier les changements qui ont eu lieu
au sein de ce pays et parvenir à faire des prévisions futures, la consommation annuelle de ce
pays est tablée ci-dessous pour la période 1983-1999. En supposant un trend linéaire, calculer le
rapport au trend pour chaque année de la série en question. L’équation de la ligne de tendance
est la suivante :
y = 71,313 + 0,2248 t
Période t Consommation Trend Rapport au trend

Année annuelle yt ^ yt
yt ^
 100
yt
1983 1 66,4 71,5378 92,819
1984 2 69,7 71,7626 97,127
1985 3 72,2 71,9874 100,296
1986 4 74,3 72,2122 102,892
1987 5 72,5 72,4370 100,088
1988 6 70,6 72,6618 97,164
1989 7 74,4 72,8866 102,078
1990 8 76,3 73,1114 104,363
1991 9 78,1 73,3362 106,497
1992 10 78,9 73,5610 107,259
1993 11 76,0 73,7858 103,002
1994 12 74,0 74,0106 99,897
1995 13 70,8 74,2354 95,374
1996 14 70,5 74,4602 94,683
1997 15 74,1 74,6850 99,218
1998 16 74,0 74,9098 98,787
1999 17 73,9 75,1346 98,358

Série chronologique et droite de tendance
consommation annuelle
80
78
76
74
72
70
68
66
64
62
60
période
Rapports au trend
110
rapport au trend
105
100
95
90
85
période
Le premier graphe décrit la série chronologique et la droite de tendance. Le rapport au trend

représente le montant par lequel la consommation observée d’énergie dépasse ou se situe en
dessous de la droite de tendance. Le deuxième graphe est une autre façon pour rendre compte
de ces valeurs. La droite de tendance apparaît comme la droite parallèle à l’axe des abscisses au
niveau 100 %.
Le problème que nous rencontrons habituellement en essayant d’interpréter le deuxième graphe

est celui de la distinction entre la variation aléatoire et celle cyclique. S’il apparaît qu’il existe
une collection de rapports au trend qui se situent en dessus et au-dessous de la droite (100%),
on peut conclure que la cause est accidentelle et pas cyclique. Cependant, s’il apparaît sur le
graphe des variations assez régulières qui se produisent de part et d’autre de la droite de
tendance, on peut identifier le mouvement cyclique.
3.3. Étude de la composante saisonnière

Les fluctuations saisonnières correspondent à des variations qui peuvent avoir lieu durant une
année ou même sur un intervalle de temps plus court : mois, semaine, jour. Dans le but de
mesurer l’effet saisonnier, nous allons construire (établir) des indices ou coefficients
saisonniers, qui ont pour objet de mesurer le degré de différence entre les saisons.
Une condition nécessaire pour l’étude de la composante saisonnière est qu’on ait une série
chronologique suffisamment longue pour qu’on puisse observer l’existence de saisons.

Les indices saisonniers sont calculés de la façon suivante :
1. Extraire l’effet des fluctuations saisonnières et aléatoires en calculant les moyennes

mobiles.
Si on utilise par exemple un modèle multiplicatif de série chronologique, on aura :
• modèle multiplicatif Yt = Tt x Ct x St x Rt
les moyennes mobiles éliminent St et Rt :
MMt = Tt x Ct
• modèle additif Yt = Tt + Ct + St + Rt
les moyennes mobiles éliminent St et Rt :
MMt = Tt + Ct
2. selon le modèle utilisé on calcule :
• le rapport de la série sur la moyenne mobile, pour le modèle multiplicatif, on obtient :
yt
= St x Rt
MM
• la différence entre la série et la moyenne mobile, pour le modèle additif :
yt − MM = St + Rt
Le résultat obtenu est une mesure de la variation saisonnière et aléatoire.
3. Pour chaque type de saison, calculer la moyenne des rapports ou des différences obtenus.
Cette procédure extrait ou élimine la majorité de la variation saisonnière. Cette moyenne est au
fait une mesure des différences saisonnières.
4- Les indices saisonniers sont les rapports moyens obtenus au 3ème point ajustés dans le cas du
modèle multiplicatif pour s’assurer que l’indice saisonnier moyen est égal à l’unité.

Exemple1 :
L’industrie touristique est sujette à d’énormes variations saisonnières. Un hôtel au Maroc a

enregistré les taux d’occupation trimestriels pour les cinq dernières années comme consignés
dans le tableau ci-dessous. Calculer les indices saisonniers pour chaque trimestre pour mesurer
le volume de variation saisonnière.
Année Trimestre Taux d’occupation

1995 1 0,561
2 0,702
3 0,800
4 0,568
1996 1 0,575
2 0,738
3 0,868
4 0,605
1997 1 0,594
2 0,738
3 0,729
4 0,600
1998 1 0,622
2 0,708
3 0,806
4 0,632
1999 1 0,665
2 0,835
3 0,873
4 0,670
Puisqu’il y a 4 trimestre (saisons) par an, nous allons calculer la moyenne mobile centrée de
longueur 4 pour extraire l’effet des fluctuations saisonnières et aléatoires de la série.
Pour calculer les MMC4, nous déterminons en premier les MM4 et deuxièmement nous
calculons les MM2 de ces valeurs. Par exemple, la MM4 qui se situe entre le 2ème et 3ème
trimestre est :
0,561+ 0,702 + 0,800 + 0,568

= 0,658
4
La MM4 qui se trouve entre 3 et 4 est :
0,702 + 0,800 + 0,568 + 0,575

= 0,661
4
Par conséquent, la MMC4 pour le 3ème trimestre est :

0,658 + 0,661
= 0,660
2
l’étape suivante est de trouver les taux d’occupation divisés par les MMC4. Les résultats de ces
deux opérations sont consignés dans le tableau suivant :
Année Trimestre MMC4 Rapport Yt/MMC4
1995 1 - -
2 - -
3 0,660 1,213
4 0,666 0,853
1996 1 0,679 0,847
2 0,692 1,067
3 0,699 1,242
4 0,701 0,863
1997 1 0,684 0,869
2 0,666 1,108
3 0,669 1,090
4 0,669 0,898
1998 1 0,675 0,922
2 0,688 1,029
3 0,697 1,156
4 0,719 0,879
1999 1 0,743 0,895
2 0,756 1,105
3 - -
4 - -
Si l’on regroupe les rapports par trimestre, nous pouvons constater les similarités pour chaque
type de trimestre et les différences entre les différents types de trimestre. Par exemple, les
rapports pour le premier trimestre de chaque année sont respectivement 0,847 ; 0,869 ; 0,922 et
0,895 alors que ceux du troisième trimestre sont respectivement : 1,213 ; 1,242 ; 1,090 et 1,156.
En prenant la moyenne de ces valeurs, on élimine ou épure la variation aléatoire.
La dernière étape consiste à ajuster les moyennes en divisant chacune d’elle par le total 4,008 et
en multipliant par 4,000. Les indices saisonniers sont ces dernières moyennes obtenues. Le
tableau suivant résume les étapes 3 et 4 :
Année 1 2 3 4 Total
1995 - - 1,213 0,853
1996 0,847 1,067 1,242 0,863
1997 0,869 1,108 1,090 0,898
1998 0,922 1,029 1,156 0,879
1999 0,895 1,105 - -
Moyenne 0,883 1,077 1,175 0,873 4,008
Indice saisonnier 0,881 1,075 1,173 0,871 4,000
Les indices saisonniers indiquent, qu’en moyenne, les taux d’occupation des 1er et 4ème
trimestres sont en dessous de la moyenne annuelle, il s'agit d'une basse saison, et les taux

d’occupation des 2ème et 3ème trimestre sont supérieurs à la moyenne annuelle, il s'agit d'une
haute saison.
Le graphe suivant illustre les situations sus-indiquées :
taux d'occupation
0,9
0,8
0,7
0,6 Yt
0,5
0,4 MMC4
0,3
0,2
0,1
0
périodes
L’un des inconvénients que présente cette méthode est le nombre assez important de calculs à
opérer. Cependant, si la série chronologique ne présente pas de composante cyclique
discernable, on peut utiliser la méthode de régression au lieu des moyennes mobiles (étape 1).
En effet, quand la série semble ne pas être affectée par des variations cycliques, on peut
représenter le modèle comme :
• Modèle multiplicatif : Yt = Tt x St x Rt
• Modèle additif : Yt = Tt + St + Rt
^
Comme la droite de régression ( y t = 0 + 1 t) représente la tendance, il s’ensuit que :
yt
• Modèle multiplicatif : = St x Rt
^
yt
^
• Modèle additif : y t − y t = St + Rt
Ensuite, on prend les moyennes de ces valeurs pour éliminer la variation aléatoire comme dans
le cas de la méthode des moyennes mobiles. Enfin, on calcule les rapports pour chacune des
périodes.
Comme la série présentée dans l’exemple relatif aux taux d’occupation semble ne pas contenir
de cycle, on devrait aboutir aux mêmes résultats (approximatifs) que ceux obtenus par la
méthode des moyennes mobiles relatifs aux indices ou coefficients saisonniers.

L’équation de la droite de régression obtenue par la méthode des moindres carrés ordinaires
est :
^
y = 0,00525 t + 0,639
^ yt
Les valeurs de y, y et ^
sont ci-dessous :
yt
Année Trimestre Yt ^ yt
yt ^
yt
1995 1 0,561 0,644614 0,87029
2 0,702 0,649860 1,08023
3 0,800 0,655106 1,22118
4 0,568 0,660352 0,86015
1996 1 0,575 0,665598 0,86839
2 0,738 0,670844 1,10011
3 0,868 0,676089 1,28385
4 0,605 0,681335 0,88796
1997 1 0,594 0,686581 0,86516
2 0,738 0,691827 1,06674
3 0,729 0,697073 1,04580
4 0,600 0,702319 0,85431
1998 1 0,622 0,707565 0,87907
2 0,708 0,712811 0,99325
3 0,806 0,718056 1,12247
4 0,632 0,723302 0,87377
1999 1 0,665 0,728548 0,91277
2 0,835 0,733794 1,13792
3 0,873 0,739040 1,18126
4 0,670 0,744286 0,90019
Les indices saisonniers sont calculés et reportés dans le tableau ci-après :
Année 1 2 3 4 Total
1995 0,87029 1,08023 1,22118 0,86015
1996 0,86389 1,10011 1,28385 0,88796
1997 0,86516 1,06674 1,04580 0,85431
1998 0,87907 0,99325 1,12247 0,87377
1999 0,91277 1,13792 1,18126 0,90019
Moyenne 0,87824 1,07565 1,17091 0,87528 4,000
Indice saisonnier 0,87824 1,07565 1,17091 0,87528 4,000
Comme on peut le constater, les deux séries d’indices sont presque identiques.

Exemple 2 :
Calculer les indices saisonniers pour chaque trimestre pour mesurer le volume de variation
saisonnière de la série chronologique suivante :
Trimestres Trim 1 Trim 2 Trim 3 Trim 4

Années
Année 1 190 160 251 200
Année 2 320 290 359 317
Année 3 426 405 483 433
Année 4 558 525 607 550
Utilisons quatre modèles de calcul des coefficients saisonniers :
• Moyennes mobiles et modèle multiplicatif ;
• Moyennes mobiles et modèle additif ;
• Tendance linéaire et modèle multiplicatif ;
• Tendance linéaire et modèle additif.
Le tableau suivant présente tous les calculs nécessaires :
t Yt MMC4 Yt Yt - MMC4 ^ yt ^
yt ^ Yt - yt
MMC 4
yt
1 190 - - - 165,1 1,1508 24,9
2 160 - - - 193,7 0,8260 -33,7
3 251 216,5 1,1594 34,5 222,3 1,1291 28,7
4 200 249 0,8032 -49 250,9 0,7971 -50,9
5 320 278,75 1,1480 41,25 279,5 1,1449 40,5
6 290 306,875 0,9450 -16,875 308,1 0,9413 -18,1
7 359 334,75 1,0724 24,25 336,7 1,0662 22,3
8 317 362,375 0,8748 -45,375 365,3 0,8678 -48,3
9 426 392,25 1,0860 33,75 393,9 1,0815 32,1
10 405 422,25 0,9591 -17,25 422,5 0,9586 -17,5
11 483 453,25 1,0656 29,75 451,1 1,0707 31,9
12 433 484,75 0,8932 -51,75 479,7 0,9026 -46,7
13 558 515,25 1,0830 42,75 508,3 1,0978 49,7
14 525 545,375 0,9626 -20,375 536,9 0,9778 -11,9
15 607 - - - 565,5 1,0734 41,5
16 550 - - - 594,1 0,9258 -44,1

• Moyennes mobiles et modèle multiplicatif :
Trimestres Trim 1 Trim 2 Trim 3 Trim 4 Total

Années
Année 1 - - 1,1594 0,8032
Année 2 1,1480 0,9450 1,0724 0,8748
Année 3 1,0860 0,9591 1,0656 0,8932
Année 4 1,0830 0,9626 - -
Moyenne 1,1057 0,9556 1,0991 0,8571 4,0175
Indice saisonnier 1,1009 0,9514 1,0943 0,8534 4
• Moyennes mobiles et modèle additif :

Années
Année 1 - - 34,5 -49
Année 2 41,25 -16,875 24,25 -45,375
Année 3 33,75 -17,25 29,75 -51,75
Année 4 42,75 -20,375 - -
Indice saisonnier 39,25 -18,17 29,5 -48,71
• Tendance linéaire et modèle multiplicatif :
Trimestres Trim 1 Trim 2 Trim 3 Trim 4 Total

Années
Année 1 1,1508 0,8260 1,1291 0,7971
Année 2 1,1449 0,9413 1,0662 0,8678
Année 3 1,0815 0,9586 1,0707 0,9026
Année 4 1,0978 0,9778 1,0734 0,9258
Moyenne 1,1188 0,9259 1,0849 0,8733 4,0029
Indice saisonnier 1,1180 0,9252 1,0841 0,8727 4
• Tendance linéaire et modèle additif :

Années
Année 1 24,9 -33,7 28,7 -50,9
Année 2 40,5 -18,1 22,3 -48,3
Année 3 32,1 -17,5 31,9 -46,7
Année 4 49,7 -11,9 41,5 -44,1
Indice saisonnier 36,8 -20,3 31,1 -47,5
Comme on peut le constater, les résultats obtenus par les quatre modèles sont presque
identiques.

Exemple 3 :
L’évolution du chiffre d’affaire trimestriel (en milliers de dhs) des petits outillages d’une
grande surface a été la suivante au cours des 3 dernières années :
Année
1997 1998 1999
Trimestre
1 880 810 740
2 960 880 800
3 1030 950 960
4 920 840 760
1- Déterminer le trend linéaire à l’aide de la méthode des moindres carrées.

2- Calculer les coefficients saisonniers de chaque trimestre.
3- Désaisonnaliser la série.
4- Prévoir la valeur de la série au troisième trimestre de l'an 2000.
• Trend linéaire : y = -16 t + 972
• Le calcul des coefficients saisonniers nécessite la détermination à chaque date des valeurs
au trend. Elles sont obtenues au moyen de l’équation :
y = -16 t + 972
Période Yt ^ yt
yt ^
yt
1 880 956 0,92
2 960 940 1,02
3 1030 924 1,11
4 920 908 1,01
5 810 892 0,90
6 880 876 1,00
7 950 860 1,10
8 840 844 0,99
9 740 828 0,89
10 800 812 0,98
11 960 796 1,20
12 760 780 0,97
Pour assurer une certaine stabilité aux coefficients saisonniers, de chaque trimestre, on retient
comme coefficient saisonnier la moyenne des rapports au trend correspondant à ces trimestres.


Années
1997 0,92 1,02 1,11 1,01
1998 0,90 1,00 1,10 0,99
1999 0,89 0,98 1,20 0,97
Indice saisonnier 0,90 1,00 1,13 0,99
• A partir des coefficients saisonniers, on obtient les valeurs désaisonnalisées, ou encore

corrigées des variations saisonnières.
Période Yt (observée) Coef. Sais. yt

Valeurs corrigées
Coef. Sais
1 880 0,90 978
2 960 1,00 960
3 1030 1,13 912
4 920 0,99 929
5 810 0,90 900
6 880 1,00 880
7 950 1,13 841
8 840 0,99 849
9 740 0,90 822
10 800 1,00 800
11 960 1,13 850
12 760 0,99 768
• Le troisième trimestre de l'an 2000 correspond à la période : t = 15
^
y15 = T15  S15 = (−16  15 + 972)  1,13 = 827

Bioinformatics For Dummies 2nd Ed

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioinformatics For Dummies 2nd Ed

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSITE MOHAMMED V RABAT ‫جامعة محمد الخامس – الرباط‬

COURS DE STATISTIQUES DESCRIPTIVES

Professeur : Adil EL MARHOUM

Actuellement, la statistique désigne l'ensemble des méthodes qui permettent de rassembler,

La méthode statistique comporte trois étapes successives :

Adil EL MARHOUM Page 3

Le nombre d'unités statistiques composant une population est appelé effectif.

• Variable statistique discrète

• Variable statistique continue

Adil EL MARHOUM Page 5

IV. INDICE DE SOMMATION

La variable statistique X est la note ;

Adil EL MARHOUM Page 6

Le but de simplification de la statistique descriptive peut être atteint en condensent les

Adil EL MARHOUM Page 7

LES TABLEAUX STATISTIQUES

I. DISTRIBUTIONS DE FREQUENCES A UNE VARIABLE

Unité statistique : un salarié de la société STM ;

Les données brutes sont :

1.2. SERIE STATISTIQUE

Une série statistique est une simple énumération des observations

x1, x2, x3, ……xi, ......, xn

Ces observations étant rangées par ordre croissant :

Adil EL MARHOUM Page 8

1.3. DISTRIBUTION DE FREQUENCES

• Cas d 'un caractère qualitatif

Modalités Fréquences absolues ni Fréquences relatives fi

k est le nombre de modalités.

La somme des fréquences absolues est évidemment égale à l'effectif n.

Adil EL MARHOUM Page 9

La somme des fréquences relatives est toujours égale à 1.

Unité statistique : un touriste ;

Nationalité Nombre de touristes Pourcentage des touristes

Adil EL MARHOUM Page 10

• Cas d'une variable statistique discrète

Valeurs Fréquences Fréquences Fréquences Fréquences Fréquences Fréquences

k est le nombre de valeurs distinctes.

Une enquête chez 1000 commerçants porte sur le nombre d'employés.

Unité statistique : un commerçant ;

Population : l'ensemble des 1000 commerçants ;

Les résultats obtenus sont condensés dans la distribution de fréquences suivante :

Nombre Nombre de proportion Fréquences Fréquences Fréquences Fréquences

Le nombre de commerçants employant au plus 5 employés (au maximum 5 employés ou moins

Le nombre de commerçants employant au moins 3 employés (au minimum 3 employés ou plus

• Cas d'une variable statistique continue

Adil EL MARHOUM Page 12

Amplitude = borne supérieure - borne inférieure

borne inférieure + borne supérieure

2. On partage l'étendue en classes suffisamment nombreuses de même amplitude. Lorsque cela

On a mesuré le poids en kilogramme de 80 personnes.

Unité statistique : une personne ;

Les données brutes sont :

Adil EL MARHOUM Page 13

La plus grande valeur est : 97

On construit la distribution de fréquences suivante :

Poids Point Fréquences Fréquences absolues Fréquences Fréquences relatives

Le nombre de personnes pesant au moins 70 kilogrammes (au minimum 70 ou plus de 69

Le nombre de personnes pesant au plus 84 kilogrammes (au maximum 84 ou moins de 85

Adil EL MARHOUM Page 14

II. DISTRIBUTIONS DE FREQUENCES A DEUX VARIABLES

Comme en statistique descriptive à une variable, l'élaboration de tableaux statistiques permet de

2.1. SERIE STATISTIQUE DOUBLE

x1, x2, x3, ……xi, ......, xn