Você está na página 1de 34

*

*
Eléments de statistique :
- Définition :
La statistique est une science d’observation, de classement, de synthèse et
d’interprétation des grandeurs observées.

Notion de base
Population statistique :
On appelle population statistique ou univers statistique, un ensemble d’éléments
sur lesquels porte l’étude statistique envisagée.

- Echantillon :
On appelle échantillon statistique, un sous ensemble prélevé dans la population,
dont il présente un minimum de caractéristiques. Pour des raisons de cout, temps
ou commodité, on est souvent amené à faire l’étude statistique sur une partie
seulement de la population.

- Unité statistique :
On appelle unité statistique ou individu statistique un élément quelconque de la
population.
Exemple :
L’ensemble des factures émises dans le mois constitue la population. Une facture
quelconque de cette population constitue l’individu.

- Caractère statistique :
Un individu donné dans la population peut être étudié suivant un deux ou plusieurs
caractères.
Exemple :

*
Si nous considérons l’ensemble des employés d’une entreprise, un employé peut
être étudié suivant son AGE, SEXE, ANCIENNETE, SALAIRE, MENSUEL,
etc.…

- Caractère quantitatif & qualitatif :


A chaque individu, on attribue un ou plusieurs caractères qui peuvent être soit
quantitatifs (s'ils sont mesurables, exemple : salaire, nb d’enfants par ménage...)
ou qualitatifs (sinon, exemple : sexe, état matrimonial…). Une valeur que peut
prendre un caractère s'appelle modalité.
• Un caractère qualitatif peut être soit :
–Ordinal : si ses modalités peuvent être naturellement ordonnées exemple :
satisfaction plus ou moins grande après l’achat d’un produit.
–Nominal : si ses modalités ne peuvent être naturellement ordonnées exemple :
état matrimoniale.
• On appelle variable statistique, un caractère quantitatif.
– On distingue deux sortes de variables statistiques :
• Les variables statistiques discrètes (notées : v.s.d.) : ce sont des variables dont
l'ensemble des modalités est un ensemble discret (la variable ne peut prendre
que des valeurs isolées d'un intervalle).
–Exemple : Pour le nombre d'enfants par ménage l’ensemble des modalités
peut être {0, 1, 2, 3, 4}.
• Les variables statistiques continues (v.s.c.) : dans ce cas, l'ensemble des
modalités est continu, la variable peut prendre toutes les valeurs d'un intervalle.
–Exemple : Salaire, âge, taille, poids …etc.

- Tableau Récapitulatif :

*
- L’effectif :

Exemple :
• Variable x étudiée : les étudiants en économie
• Echantillon n = 1000 Etudiants
• Effectif des étudiants en économie ni = 250
• Fréquence fi = ni/n = 250 / 1000 = 0.25
Donc 25% des étudiants études l'économie

APPLICATION 1
On relève la situation familiale de 20 personnes âgées de plus de 40 ans et on
obtient la série suivante :
10 4 8 8 4 8 10 10 10 10
0 10 4 4 8 10 10 4 10 10

T.A.F. : déterminer :
Population, sa taille et l’individu statistique ;
Caractère et sa nature ;
Modalités, leur nombre, l’effectif et la fréquence de chaque modalité.

*
- Cas d’une seule variable :
Le tableau brut se présente sous la forme suivante :
Individu Variable
1 X1
2 X2
3 X3
. .
. .
. .
n Xn

- Cas de deux variables :

Individu Variable 1 Variable 2


1 X1 Y1
2 X2 Y2
3 X3 Y3
. . .
. . .
. . .
n Xn Yn

Représentation de la distribution d’un caractère X par un Tableau :


Cas d’un caractère qualitatif :
– Soit la distribution d’un caractère qualitatif X étudié sur une population de n
individus :
{(x1, n1), (x2, n2), …, (xk, nk)}

*
• Sa représentation par tableau est alors comme suit :

Modalité xi Effectif ni Fréquence fi


X1 n1 f1
X2 n2 f2
. . .
. . .
Xi ni fi
. . .
. . .
. . .
XK nK fK
Total n=∑ni 1=∑fi

Effectifs et fréquences cumulés :


Effectifs et fréquences cumulés croissants :
– Soit Ni le i ème effectif cumulé croissant associé à xi

Ni est le nombre d’individus présentant au plus la modalité xi.


Effectifs et fréquences cumulés décroissants :
En sommant cette fois à partir du i ème effectif jusqu’au dernier, on obtient
le i ème effectif cumulé décroissant,
par exemple :

• Le tableau complet est comme suit :


xi ni Ni Ni Fi Fi
x1 n1 n1 n f1 1
x2 n2 n1+ n2 n2+n3+...+nk f1 + f2 f2 + f3+...+ fk
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
Xi ni n1+n2+...+ni ni+ni+1+...+nk f1+ f2+...+fi fi+ fi+1+...+ fk
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
xk nk n nk 1 fk
Total n

*
2. Comment calculer les effectifs cumulés ?
Exemple :
Dans un centre de vacances, l'âge des adolescents se répartit de la
façon suivante :

Âge Effectif
[13 ; 14[ 8
[14 ; 15[ 12
[15 ; 16[ 16
[16 ; 17[ 14

● Calcul des effectifs cumulé croissants (ECC) :


Âge Effectif ECC
[13 ; 14[ 8 8
[14 ; 15[ 12 20
[15 ; 16[ 16 36
[16 ; 17[ 14 50
TOTAL …
● Calcul des effectifs cumulé décroissants (ECD) :
Âge Effectif ECD
[13 ; 14[ 8 …
[14 ; 15[ 12 …
[15 ; 16[ 16 30
[16 ; 17[ 14 14
TOTAL …

*
Dans ce chapitre, on analysera quatre de ces paramètres qui sont : les moyennes,
le mode, la médiane et le quantile.

1. Le mode
Définition :
On appelle Mode d'une série statistique une valeur du caractère dont l'effectif
associé est le plus grand. Dans un nuage de points, le mode est la valeur dont le
point est le plus haut.

1 .2 Détermination de la valeur du monde d’une série statistique :

A) Caractère ou variable discontinue :


Le mode se détermine très simplement, ainsi que l’on peut le voir dans l’exemple
suivant :
A partir d’un tableau :
Procédure pour « identifier » le mode :
1°) Dans le tableau, on recherche l’effectif le plus important
2°) Faire correspondre la valeur du « xi » qui indiquera la valeur du monde :

*
Xi Effectif ni
10 2
15 3
20 8 Ici « 25 » Mode
25 17
30 13
35 5
40 3
TOTAL

A partir d’un graphique :


Sur le graphique de distribution, le mode correspond au « bâton » le plus élevé .sa
valeur est donnée par l’axe des abscisses.
Lorsqu’il n’y a qu’un mode. La série est dit « uninominale »

B) Caractère ou variable continue :


Le mode s’applique à la classe qui correspond à l’effectif maximal. Celle - ci
s’appelle « classe modale ».

Xi Effectif ni
100 à 110 8
110 à 120 22
La classe modale
120 à 130 38
130 à 140 12
140 à 150 6
TOTAL 86

*
2. médiane
Définition :
La médiane est la mesure de tendance centrale qui indique le centre de la
série de données. En d'autres mots, c'est la valeur qui sépare
une distribution ordonnée en deux groupes qui contiennent le même nombre
de données.

2 .1) Détermination de la valeur de la médiane par le calcul.


- On distinguera deux cas : la variable est continue (dit aussi :
caractère quantitatif continu) ou la variable est discontinue
(dit aussi : caractère quantitatif discret).
- C'est le milieu d'une distribution lorsque les résultats sont
placés par ordre croissant ou décroissant. Si le nombre de
données est impair, la médiane est la donnée située au
milieu. Utilisez la formule (n+1)/2

A) Détermination de la médiane dans une série statistique,


dans le cas d’une variable continue :(organisation des
données par classes).
Exemple :
Valeurs 2 ; 3 ;5 ;7 ;7 ;9 ; 11 ;15 ;15 ;17 ;19 20 ;23 ;25 ;27
Classe [0 ; 10 [ [ 10 ; 20 [ [ 20 ;30 [
Effectif : N = 14 6 5 4

11+15
La médiane de la série est = 13
2

La classe médiane est donc [10 ; 20 [ ; 13 appartenant à cet intervalle

*
2 .2) Détermination de la médiane par
le graphique.
La médiane partage l’histogramme en deux
aires égales à ½.
Elle dépend plus du rang des unités
statistiques observées que des valeurs de la
variable, et se trouve peu affectée par les
variations des termes extrêmes.
Ce que vous pouvez observer sur les deux représentations graphiques
complémentaires.
Prenons un exemple : une distribution statistique a été après un contrôle
radar sur autoroute, on a classé les données ( regroupées en classes ) dans le
tableau suivant :
Vitesse ( km/h ) Nombre de véhicules
[80 ; 100 [ 120
[100 ; 120 [ 90
[120 ; 130 [ 100
[130 ; 140 [ 120
[140 ; 150 [ 40
[150 ; 170 [ 20
[170 ; 190 [ 10

Total 500

Si on complète ce tableau à l’aide des ECD et ECC


Vitesse Nombre de véhicules ECC ECD
( km/h )
[80 ; 100 [ 120 120 500
[100 ; 120 [ 90 210 380
[120 ; 130 [ 100 310 290
[130 ; 140 [ 120 430 190
[140 ; 150 [ 40 470 70
[150 ; 170 [ 20 490 30
[170 ; 190 [ 10 500 10

Total 500

*
3) moyenne
3 .1) Moyenne Arithmétique.
En général, la moyenne se calcule en faisant la somme de toutes
les données et en la divisant par le nombre de données de la
distribution.

Formule :

Exemple Moyenne pour des données condensées:

*
Dans une équipe sportive, l'âge des 30 athlètes est représenté dans le tableau
suivant.

À la lumière de ces informations, quelle est la moyenne d'âge de ce groupe?

En d'autres mots, l'âge 7 revient à 13 reprises (7×13), l'âge 8 revient à 9 reprises


(8×9), l'âge 9 est présent 6 fois (9×6) et l'âge 10 est présent à 2 reprises (10×2).

(7×13)+(8×9)+(9×6)+(10×2)
Moyenne =
30
91+72+54+20
Moyenne =
30
237
Moyenne =
30
Moyenne = 7,9 ans par élève

Finalement, l'âge moyen des élèves de ce groupe est de 7,9 ans. (Ce qui équivaut
à 7 ans et presque 11 mois.)

Exemple Moyenne pour des données groupées en classes :

Voici la durée (en minute) du trajet en autobus effectué par 337


élèves pour se rendre à leur école.

*
Lorsque les données sont présentées en classes, il faut utiliser le
milieu de chacune d'elles. Par la suite, c'est avec ces nouvelles
valeurs médianes qu'il faudra faire les calculs.

Avec ces nouvelles données centrales, on est en mesure d'interpréter que la


donnée 12,5 est présente 44 fois (12,5×44), 17,5 est apparue 58 fois dans la
distribution (17,5×58) et ainsi de suite. De cette énumération, on en déduit
l'équation suivante:

(12,5×44)+(17,5×58)+(22,5×70)+(27,5×81)+(32,5×54)+(37,5×30)
Moyenne =
337

550+1015+1575+2227,5+1755+1125
Moyenne =
337

8247,5
Moyenne =
337

Moyenne ≈ 24,47 minutes par élève

En moyenne, chaque élève effectue un trajet d'autobus qui


dure approximativement 24,47 minutes (ce qui correspond à 24 minutes et 28,2
secondes).

Exemple Moyenne pondérée :

Formule

*
Voici un tableau qui présente les résultats du Hamza El Hamdaoui lors de ces
derniers examens ainsi que leur pondération respective.

Résultats d'Alexandre Pondération


Examen 1 82% 20%
Examen 2 75% 35%
Examen 3 86 % 45 %

Afin d'avoir la note finale du Hamza El Hamdaoui, calcule la moyenne associée


à ces trois résultats.
Pour faciliter le reste de la démarche, il est idéal d'écrire chacun des
pourcentages en nombre décimale. Ainsi, 20% = 0,20, 35% =
0,35 et 45% = 0,45.

Ainsi, la note globale du Hamza El Hamdaoui serait de :

Moyenne pondérée = (82×0,20)+(75×0,35)+(86×0,45)

Moyenne pondérée = 16,4+26,25+38,7

Moyenne pondérée = 81,35

Au final , la note du Hamza El Hamdaoui sera de 81,35%.

3 .2) Moyenne Géométrique.


Définition :

On appelle moyenne géométrique de la distribution{(xi, ni) 1≤


i≤ k} que l’on note G, la racine 𝒏 è𝒎𝒆 du produit des 𝒙𝒊𝒏𝒊 .

Formule

*
Corrigé :
Première Méthode :
4
𝐺 = √22 ∗ 12 ∗ 50 = 6,999

Deuxième Méthode :
4 4
1 1
𝐥𝐨𝐠 (𝑮) = ∑ 𝑓𝑖 𝐿𝑜𝑔 (𝑥𝑖 ) = ∑ 𝑛𝑖 𝐿𝑜𝑔 (𝑥𝑖 ) = [2𝐿𝑜𝑔2 + 𝐿𝑜𝑔12 +
𝐼=1 4 𝐼=1 4
𝐿𝑜𝑔 50]=1,946
D’où G= 𝑒 1,946 = 7

*
3 .3) La moyenne harmonique :
Définition et propriété:
La moyenne harmonique , notée H, d’une distribution {(xi, ni)
1≤ i≤ k} est l’inverse de la moyenne arithmétique de la
𝟏
distribution : {(𝒙𝒊 , 𝒏𝒊) 𝟏 ≤ 𝐢 ≤ 𝐤}

Formule

Corrigé :
4
H= 1 1 1 = 3,625
(2∗ + + )
2 12 50

3 .4) La moyenne quadratique:


Définition et propriété :
La moyenne quadratique, notée Q , d’une distribution {(xi, ni)
1≤ i≤ k} est la racine carrée de la moyenne arithmétique de la
distribution {(𝑿𝟐𝒊 , 𝒏𝒊 ) 1≤ i≤ k }.

Formule

*
Corrigé :
1
Q=√ (2 ∗ 4 + 144 + 2500)=25,749
4

4) les Quartiles :
Définition :
Les quartiles permettent de séparer une série statistique en quatre groupes de
même effectif (à une unité près).
• Un quart des valeurs sont inférieures au premier quartile Q1.
• Un quart des valeurs sont supérieures au troisième quartile Q3.
On appelle intervalle interquartile l'intervalle ]Q1; Q3[.
On appelle écart interquartile la différence Q3 – Q1.

- Le premier quartile (noté Q1) : est la valeur d'une série qui est supérieure ou
égale à au moins 25 % des données de la série ordonnée de valeurs statistiques.
Appelons N le nombre des valeurs d'une série, et calculons 0,25*N = N/4.

Lorsque N/4 est entier, la valeur représentant le premier quartile est la 0,25ème
valeur.

Lorsque N/4 est un décimal non entier, on l'arrondit à l'entier supérieur p et alors
la valeur représentant le premier quartile est la p-ième valeur.

*
Exemple 2:

Si N/4=4,25, Q1 est égale à la cinquième valeur (attention, ce


n'est pas 5).

- Le troisième quartile (noté Q3) : est la valeur d'une série qui est
supérieure ou égale à au moins 75 % des données de la série
ordonnée de valeurs statistiques.

Lorsque 3N/4 est entier, la valeur représentant le premier


quartile est la 0,75ème valeur.

Lorsque 3N/4 est un décimal non entier, on l'arrondit à l'entier supérieur p et alors
la valeur représentant le troisième quartile est la p-ième valeur.

Exemple 2:

Si 3N/4=0,75N=15,25, Q3 est égale à la seizième valeur


(attention, ce n'est pas 16).

*
1) Etendue d’une série statistique :

L’étendue d’une série statistique est la différence entre la valeur


la plus grande et la valeur la plus petite de cette série.

Exemple :
Dans une classe de 25 élèves, on a répertorié le nombre de frères
et sœurs de chaque élève dans un tableau :

Nombre de frères et 0 1 2 3 4
sœurs
Effectifs 2 8 9 5 1

Etendue = 4 – 0 = 4.
L’étendue de cette série statistique est donc de 4.

2) L'intervalle interquartile .

Définition :
L'écart interquartile représente la différence entre Q3 et Q1.

*
3) variance et écart-type .

Définition :

Soit la série statistique définie dans le tableau suivant :

Valeur x1 x2 …. Xp
Effectif n1 n2 …. np
Fréquence n1 f2 …. Fp
𝑛𝑖
Effectif total : N=n1+n2+…+np et fi=
𝑁

Soit 𝑥̅ la moyenne de cette série.


1
Le réel V= [𝑛1 (𝑥1 − 𝑥̅ )2 + 𝑛2 (𝑥2 − 𝑥̅ )2 + ⋯ + 𝑛𝑝 (𝑥𝑝 − 𝑥̅ )2 ] est appelé
𝑁
variance de cette série statistique.

La racine carrée de la variance 𝜎 = √𝑣 est l’écart type de cette série.

Exemples :

Calculs de la variance et de l’écart type des séries précédentes


1°) Soit la série statistique répertoriant la taille en mètres de 100
requins blancs

Taille ( en m) Effectif (e)


1.5 8
2 10
2.5 25
3 32
3.5 19
4 4
4.5 2
TOTAL 100

*
La taille moyenne est :
15∗8+2∗10+2.5∗25+3∗32+3.5∗19+4∗4+4.5∗2
𝑥̅ = = 2.82
100
1.52 ∗8+22 ∗10+2.52∗25+32 ∗32+3.52 ∗19+42 ∗4+4.52 ∗2
La variance V= − (2.822 )= 0.4426
100

L’écart type 𝜎 = √0.4426 = 0.665

4) COEFFICIENT DE VARIATION .

Définition
Le coefficient de variation (désigné par ) se définit par la relation
suivante :

Le coefficient de variation est une mesure relative de dispersion (puisque


l'écart-type est rapporté à la moyenne). Il s'exprime généralement en %.

*
Les 2 distributions (groupées) ayant pratiquement le même
écart-type, on pourrait avoir tendance à penser qu'elles
présentent la même dispersion. Mais, en y regardant de plus
près, on se convainc aisément qu'une perte ou un gain
de dhs n'aura pas le même impact pour le premier
magasin (pour lequel le bénéfice hebdomadaire moyen n'est
que de dhs et pour le second (pour lequel le bénéfice
hebdomadaire moyen s'élève à dhs.
Dans ces conditions, on peut penser recourir à la mesure de
dispersion relative qu'est le coefficient de variation.

Ces 2 coefficients de variation montrent mieux l'influence


réelle d'un gain ou d'une perte équivalent(e) à l'écart-type
pour chacun des magasins.

*
1) Valeurs globales .

𝑥𝑖 Représentent les valeurs ponctuelles ou les centres des


classes, 𝑛𝑖 les effectifs correspondants.

Les valeurs globales de la série (𝑥𝑖 , 𝑛𝑖 ) sont les quantités


𝑔𝑖= 𝑛𝑖 𝑥𝑖 .

2) Médiale .

La médiale de la série ( 𝑥𝑖 , 𝑛𝑖 ) est la médiane de la série (𝑥𝑖 , 𝑔𝑖 )

3) COURBE DE CONCENTRATION OU DE LORENZ .

La courbe de Lorenz permet de représenter graphiquement une


dispersion.

*
La courbe de Lorenz est située en dessous de cette diagonale de
référence. Plus la courbe est éloignée de la diagonale, plus la
répartition des revenus est inégalitaire

Exemple :

L’étude de la répartition des revenus au Maroc. Le premier point


indique le revenu maximum des 10 % les plus pauvres. Le
deuxième point indique le revenu maximum des 20 % les plus
pauvres. Etc. Le 9ème point indique le revenu minimum des 10
% les plus riches.

Lecture : la courbe de Lorenz (en vert) représente la part de


patrimoine détenue par les ménages lorsqu’on les classe par
ordre de patrimoine croissant. Plus les courbes s’éloignent de la
diagonale (en noir), plus la distribution est inégalitaire .

4)indice de Gini.

Définition
L'indice (ou coefficient) de Gini est un indicateur synthétique
d'inégalités de salaires (de revenus, de niveaux de vie...). Il varie
entre 0 et 1. Il est égal à 0 dans une situation d'égalité parfaite où
tous les salaires, les revenus, les niveaux de vie... seraient
égaux. A l'autre extrême, il est égal à 1 dans une situation la

*
plus inégalitaire possible, celle où tous les salaires (les revenus,
les niveaux de vie...) sauf un seraient nuls. Entre 0 et 1,
l'inégalité est d'autant plus forte que l'indice de Gini est élevé.
L’indice de géni se calcule en faisant le rapport :

Exercice :

Les salaires des employés d’une entreprise sont répartis de la


manière suivante :

Classes Ni
[3000 . 4000[ 22
[4000.5000[ 18
[5000.7000[ 47
[7000.10000[ 13
Total 100

TAF :

Tracez la courbe de concentration Et calculer l’indice de Gini ?

Corrigé :

Classes Ni fi fi Ci Xi Ni Xi Ni Xi Ni Xi
Cumulé Cumulé Cumulé%
[3000 . 4000[ 22 0.22 0.22 3500 77000 77000 14
[4000.5000[ 18 0.18 0.40 4500 81000 158000 28.7
[5000.7000[ 47 0.47 0.87 6000 282000 440000 79.9
[7000.10000[ 13 0.13 1 8500 110500 550500 100
Total 100 1 550500

*
1+2+3+4=1/2[(22x14) + (42.7 x18) + (108.6x 47) + (179.9x 13)]

=1/2 [308 + 768.6 + 5104.2 + 2338.7]

=4259.75

S= 5000-4259.75 = 740.25

Donc I=740.25 /5000 = 0.148

La concentration est faible puisque l’indice de Gini est proche de 0.

La masse salariale est répartie de manière égalitaire.

*
*
*
*
*
*
*

Você também pode gostar