Você está na página 1de 17

Chapitre 1.

Statistiques descriptives
1. Introduction.
Pour rsoudre des problmes en gnie, des donnes doivent tre recueillies,
dcrites et analyses pour produire des informations sommaires. Le rle des
statistiques descriptives est de donner une ide sommaire sur les donnes
par le calcul dun nombre de statistiques et par des reprsentations
graphiques.
2. Concepts de base. Population, chantillon et variable.
Une tude statistique se base sur des donnes. Cependant, il est souvent
impossible davoir les donnes compltes surtout sil y a un grand nombre de
possibilits ou si lanalyse des donnes utilise un test destructif.

Par

exemple, il serait impossible de dterminer la rsistance moyenne dun type


de contenants en testant jusqu rupture chaque contenant sortant de la
ligne de production.
Mme si on nest pas dans les situations ci-dessus, tudier toutes les donnes
serait onreux en temps et en argent.
Un ingnieur qui sintresse vrifier si un procd de fabrication respecte
les spcifications va inspecter suivant un plan tabli un certain nombre
dunits produites chaque jour.
La diffrence entre toutes les donnes possibles et un nombre restreint de
donnes recueillies est important dans la comprhension des statistiques.

Population.

Une population en statistique est lensemble des observations possibles


dune caractristique dintrt.

chantillon

Un chantillon dune population est un sous ensemble de la population qui


sera recueilli dans le cadre de ltude concerne.

Variable

La variable est la caractristique observe. En gnie, en gnral les variables


tudies sont quantitatives, c'est--dire mesurables. On distingue deux
variables quantitatives :
-

Variables discrtes : Une variable est dite discrte si elle prend un

nombre fini de valeurs ou un nombre infini de valeurs mais isoles.


Variables continues : Une variable est dite continue si elle prend ses
valeurs dans un intervalle rel.

Exemple.
Variable : Rsistance
Type : Continue
Population : Toutes les mesures des rsistances produites.
chantillon : Mesures de 50 rsistances.
Exemple.
Variable : Nombre de paquets qui arrivent un serveur dans une priode
dune minute
Type : discrte
Population : Tout nombre possible de paquets qui arrivent dans une priode
dune minute
chantillon : Nombre de paquets qui arrivent dans une minute pendant 50
priodes dune minute.

chantillon alatoire

Un chantillon alatoire est un chantillon o toutes les units de la


population ont la mme chance dtre slectionnes. Si par exemple, un
ingnieur slectionne les 10 premires units produites, son chantillon nest
2

pas alatoire. Pour slectionner un chantillon alatoire, il faut utiliser un


gnrateur de nombres alatoires.

Statistique

Une statistique est une mesure faite sur un chantillon.

Paramtre.

Un paramtre est une caractristique de la population que la statistique va


nous permettre destimer.
3. Statistiques de base.
Statistiques de tendance centrale.

Moyenne dchantillon.

La moyenne dchantillon est une mesure centrale autour de laquelle


gravitent les donnes de lchantillon.
n

X
La moyenne est donne par

X
i 1

Xi

, o

est la

ime donne et n le

nombre de donnes dans lchantillon.


Exemple.
La moyenne de la srie de donnes suivantes : 2

2 3.5 6 2 1.5
3
5

3.5

1.5 est

En gnral, le nombre de donnes est grand pour faire les calculs la main,
on utilise alors un logiciel comme Excel ou un logiciel spcialis en
statistiques.

Exemple.
Dans un procd de fabrication de cartes pour circuits imprims, on a mesur
lpaisseur en mils du placage en cuivre dun chantillon de 100 cartes et on
a obtenu :
3,468

3,428

3,516

3,509

3,461

3,492

3,478

3,482

3,49

3,467

3,519

3,498

3,504

3,469

3,497

3,466

3,458

3,478

3,5

3,443

3,449

3,525

3,461

3,5

3,561

3,506

3,479

3,444

3,524

3,531

3,501

3,539

3,481

3,497

3,513

3,461

3,528

3,496

3,533

3,496

3,512

3,55

3,541

3,441

3,569

3,531

3,468

3,513

3,505

3,523

3,47

3,475

3,457

3,536

3,528

3,458

3,469

3,461

3,502

3,431

3,491

3,506

3,439

3,443

3,517

3,481

3,535

3,515

3,46

3,575

3,488

3,495

3,51

3,483

3,467

3,467

3,502

3,471

3,516

3,556

3,482

3,512

3,45

3,516

3,476

3,515

3,495

3,518

3,523

3,564

3,522

3,52

3,474

3,489

3,514

3,47

3,477

3,536

3,491

3,484

En utilisant la fonction moyenne dExcel par exemple, on obtient

X 3.495

Mdiane.

Une autre statistique de mesure centrale utilise est la mdiane. Si la srie


de donnes est ordonne, la mdiane est un nombre rel qui spare la srie
en deux.
Si le nombre de donnes est impair, la mdiane est la valeur de la srie
ordonne qui spare la srie en deux et si le nombre de donnes est pair, la
mdiane est la moyenne des deux valeurs qui se trouvent au centre de la
srie ordonne.
La mdiane est en gnral diffrente de la moyenne moins que les donnes
de part et dautre de la mdiane soient la mme distance de celle-ci.
4

Exemples.

4
La mdiane de la srie ordonne 2

La mdiane de la srie ordonne 1

4 4

5 est 4.

4
4

6 est la moyenne

de 2 et 4 qui est 3.
La mdiane des donnes sur lpaisseur du placage des cartes se fait avec un
logiciel et on obtient 3.496.
La srie 1 1 2 2 3

4 pour moyenne 2.428 et pour mdiane 2. Si

on reprend la mme srie en changeant la dernire valeur par 9, la moyenne


change pour 3.143 et la mdiane reste toujours 2. La moyenne est donc plus
sensible que la mdiane.
Statistiques de variabilit ou de dispersion.

Variance dchantillon.

Les statistiques centrales ne sont pas suffisantes elles seules de rsumer


les donnes. Pour cela regardons de prs les deux sries de donnes
suivantes;
Srie 1 : 2
Srie 2 : 44

2
44

50
50

98

98
56

56

Ces deux sries ont la mme moyenne qui est 50 et la mme mdiane qui
est 50. Cependant il y a une diffrence fondamentale savoir que la srie 1
set plus tendue que la srie 2. Pour mesurer cette dispersion des donnes
par rapport la moyenne, on utilise une statistique qui tient compte des
carts entre chaque donne et la moyenne. La variance est la statistique qui
mesure cette dispersion. On la calcule comme une moyenne des carres des
carts entre les donnes et la moyenne.

(X
i 1

X )2

n 1

La variance est donne par

et a pour unit celle de la variable au

carr. On utilise aussi la racine carre de la variance qui est une forme de
distance moyenne entre les donnes et la moyenne, cette statistique sera
appele cart type dchantillon S et a les mmes units que la variable
tudie. On a alors
n

(X
i 1

X )2

S 2

n 1
ou

(X
i 1

X )2

n 1

Exemples.

S2
Srie

1:

(2 50) 2 (2 50)2 (50 50)2 (98 50)2 (98 50) 2


2304
4

et

S 2304 48

S2
Srie

2:

(44 50) 2 (44 50) 2 (50 50) 2 (56 50) 2 (59 50) 2
36
4

et

S 36 6
.
La srie 1 a une plus grande variance que la srie 2.
Exemple.
La variance des donnes sur lpaisseur de placage est obtenue avec la

formule var d Excel. On obtient

S 2 0.00103

Coefficient de variation.

et

S 0.0321

Pour comparer deux sries nayant pas la mme moyenne ou ayant des
units diffrentes, on utilise une statistique qui mesure la dispersion relative
qui est le coefficient de variation. On le dfinit par

CV

S
100%
X

Un coefficient de variation faible indique une faible dispersion et une forte


homognit.
Exemple.
Le coefficient de variation dans lexemple de lpaisseur du placage est
0.92%. ce coefficient est trs faible, on en dduit que les donnes sont peu
disperses.
4. Distribution dune variable
Effectif et Frquence.
- Cas dune variable discrte : Leffectif dune valeur est le nombre de
fois que la valeur est observe dans lchantillon. La frquence dune
-

valeur est la proportion quelle est observe dans lchantillon.


Cas dune variable continue. La srie de donnes est partage en
intervalles appeles classes. Leffectif dune classe est le nombre
dobservations de lchantillon qui sont dans cette classe. La frquence
dune classe est la proportion dobservations de lchantillon qui sont

dans cette classe.


Distribution dune variable.

Un rsum qui peut prendre la forme dun tableau ou dun graphique qui met
en vidence les donnes individuelles dans le cas dune variable discrte ou
sous forme de classes dans le cas dune variable continue en prcisant leurs
effectifs ou leurs frquences.
Exemple.
Les donnes suivantes reprsentent la rsistance la traction de tiges
dacier.
Rsistance la

traction
103779

103633

103779

103633

103799

97383

105087

102325

102906

102616

101162

107848

103488

101162

106395

105377

104796

106831

102470

99563

102906

98110

100872

104796

103197

102325

105232

105813

101017

104651

104360

106831

100872

104651

103924

108430

104651

102906

101453

105087

103197

105337

101744

106104

100726

106540

101744

101598

103799

100145

Les rsultats suivants ont t obtenus par Stagraphics.

Tableau des frquences.

Exemple.
Les donnes suivantes reprsentent des dures de vie dun certain dispositif.
Dure de vie
12411

272005

108561

46684

233254

40479

93241

21491

89601

116729

16263

150011

59067

118077

33771

6171

60266

399071

82273

87592

95291

72435

28637

313879

46252

53533

173580

199458

27668

78954

162792

149432

102947

77084

137149

220413

45771

7400

50668

43911

182737

61894

10291

58526

49022

Les rsultats suivants ont t obtenus par Stagraphics.

5. Graphiques.
Histogramme.

Un histogramme est un graphique qui rsume le tableau des effectifs ou des


frquences.
Exemples.
On reprend les exemples prcdents. Les histogrammes qui suivent ont t
obtenus avec Statgraphics.

10

6. Diagramme en bote.
Une srie ordonne de donnes peut tre partage en quatre par trois

Q1
nombres appeles quartiles. Le plus petit est not

Q2
, le deuxime

qui est

Q3
la mdiane et le plus grand est

Q1

. La moiti des valeurs se trouvent entre

Q3
et

Q3 Q1
La quantit

est lintervalle interquartile et not IQR. Les donnes

Q1 1.5 IQR
infrieures

Q3 1.5 IQR
ou

suprieures

extrmes.

11

sont dites donnes

Le diagramme en bote est un graphique qui montre la mdiane, les quartiles


et les donnes extrmes. Une application frquente du diagramme en bote
est la comparaison de plusieurs sries de donnes.

Exemples.
On reprend les exemples prcdents. Les diagrammes en bote ont t
obtenus avec Statgraphics

12

13

Asymtrie dune distribution.

Les asymtries Classiques sont exposes dans les graphiques suivants :

14

7. Densits.
Les histogrammes de la rsistance la traction et de la dure de vie
prsentent des formes diffrentes. Celui de la rsistance la traction
ressemble une cloche alors que celui de la dure de vie une forme avec
une forte asymtrie droite.
Si on construit un histogramme de telle sorte que laire de chaque rectangle
soit gale la frquence de chaque classe (se fait en prenant pour unit la
longueur de la classe et pour hauteur la frquence ou si on veut conserver les
units, on prend pour hauteur la frquence divise par la longueur de la
classe). Lhistogramme ainsi construit une aire gale 1 et laire de chaque
classe est la frquence de la classe. Cependant, avec lhistogramme on ne
peut calculer que des aires dintervalles dont les extrmits sont des
extrmits de classe.

15

Afin davoir un modle pour toute la population et qui permettrait de calculer


la frquence de tout intervalle, on ajuste une fonction lhistogramme quon
appelle fonction de densit. Nous verrons plus loin lutilisation des densits.

16

17

Você também pode gostar