Statistiques Descriptives Et Inf Rentielles Avec Excel WWW - VosBooks.NeT PDF

STATISTIQUE DESCRIPTIVE
ET INFRENTIELLE AVEC EXCEL

Approche par lexemple
dbut 28/04/06 16:05 Page 2

Didact Statistique
Une collection dirige par Gildas Brossier

Lanalyse des donnes. Mode demploi,
Thierry FOUCART, 1997, 200 p.

Initiation aux traitements statistiques. Mthodes, mthodologie,
Brigitte ESCOFFIER et Jrme PAGS, 1997, 264 p.

Statistique infrentielle. Ides, dmarches, exemples,
Jean-Jacques DAUDIN, Stphane ROBIN et Colette VUILLET, 1999, 185 p.

Analyse interactive des donnes (ACP, AFP) avec Excel 2000,
Jean-Pierre GEORGIN, 2002, 188 p.

Analyser les sries chronologiques avec S-Plus : une approche paramtrique,
Laurent FERRARA, Dominique GUGUAN, 2002, 160 p.
dbut 28/04/06 16:05 Page 2
Argentine VIDAL
ET INFRENTIELLE AVEC EXCEL
Approche par l'exemple
Collection Didact Statistique
PRESSES UNIVERSITAIRES DE RENNES
2,004
dbut 28/04/06 16:05 Page 2
1. INTRODUCTION
Aujourd'hui, grce la facilit d'utilisation de l'informatique, sa dmocratisation, au
dveloppement d'Internet, nous sommes confronts un impressionnant volume d'information
quantifie, chiffre. Cela couvre pratiquement tous les domaines : social, politique, biologie,
sant, scurit... On remarque la multiplicit d'enqutes entreprises dans le but d'approcher au
mieux la ralit. Internet permet notamment de raliser des enqutes grande chelle. On
dispose maintenant de grandes bases de donnes.
Ensuite apparat l'exploitation de cette information et l intervient la statistique
applique, objet de notre ouvrage.
La premire tape consiste classer les donnes, les dcrire, "les faire parler". C'est
l'objet de la statistique descriptive. Les donnes sont rsumes l'aide de paramtres,
synthtises au moyen de tableaux et de graphiques. Dans cette tape, on se limite l'espace
de ses donnes. On peut dcrire une population. Indpendamment, on peut dcrire un
chantillon. Mais on ne fait aucune relation "chantillon, population". L'tude peut n'tre que
descriptive, soit parce que c'est la seule possible, soit par choix personnel (pour diverses
raisons, on considre qu'elle est suffisante). Ce type d'tudes est d'ailleurs trs frquent ; il
suffit de penser aux nombreux rsultats d'enqutes publies dans les mdias.
Frquemment, il est ncessaire de replacer ses donnes dans un environnement
"population, chantillon" : c'est la statistique infrentielle. Soit on connat bien la population
dans un "bon tat" et le prlvement priodique d'un chantillon permet de vrifier
prcisment le "bon tat" de la population, soit on ne connat pas une population et on
l'approche partir d'chantillons. C'est ici qu'intervient la prise de conscience de l'existence
de risques, parfois difficiles valuer.
Cet ouvrage, plus destin aux utilisateurs professionnels qu'aux chercheurs, vise
fournir les principaux outils de la statistique descriptive et surtout de la statistique
infrentielle. Aprs que l'utilisateur ait bien dfini son objectif, il s'agit de lui indiquer
comment aborder son problme, comment fiabiliser ses rsultats, et quels risques sont
attachs ses conclusions. L'objectif est de fournir les premiers outils indispensables, souples
et mallables.
Notre ambition est d'apprendre l'utilisateur "apprivoiser les donnes". Par exemple,
les variables se prtent divers recodages, donc diverses "dformations". De prime abord,
cette diversit peut inquiter, car spontanment, chacun aspire une rponse binaire certaine :
oui ou non. La realit est cependant beaucoup plus complexe, la diversit des "dformations"
est une richesse. Les divers recodages possibles fournissent un outil souple permettant de
s'adapter plus facilement l'originalit de son cas, un outil favorisant les initiatives.
L'utilisateur "apprivoise" ses donnes.
L'outil de calcul propos est Excel, logiciel prsent un peu partout, particulirement
convivial, et, de plus, pourvu de nombreuses fonctions statistiques et mathmatiques. Il
permet de tester en direct la stabilit des rsultats : on peut modifier ou carter une ou
plusieurs valeurs, et visualiser instantanment les consquences. C'est aussi un outil de
simulation particulirement intressant. Excel permet de "piloter" ses donnes, d'adapter ses
calculs, ses feuilles ses besoins.
C'est dans un esprit de communication "vivante" avec ses propres donnes que nous
faisons le choix de privilgier l'utilisation des fonctions Excel plutt que celle de l'utilitaire
d'analyse (complment statistique des macros complmentaires). Ce choix favorise l'initiative
et la cration approprie son propre type de problme ainsi que la rutilisation des
procdures de calcul. Il permet galement de profiter pleinement de la convivialit de ces
fonctions.
Il est vrai que l'utilitaire d'analyse fournit rapidement de nombreux rsultats numriques
ce qui peut tre prcieux dans certains cas. Cependant, ses rsultats sont figs. De plus,
quelques maladresses de traduction entranent parfois des erreurs d'interprtation. Nous
dcrirons nanmoins les rsultats fournis par l'utilitaire mais nous les prsenterons de faon
presque systmatique comme une "dernire mthode".
A l'inverse, aucune macro n'est prsente dans cet ouvrage. Nous considrons que
l'intrt n'est pas de crer un logiciel de statistique, le march en offre dj suffisamment.
Nous invitons les lecteurs peu familiers des calculs scientifiques avec Excel consulter
l'annexe qui recense les principales fonctionnalits utilises dans cet ouvrage. Nous indiquons
par exemple le systme de rfrences adopt et la diffrence entre rfrences absolues et
rfrences relatives. Nous rappelons comment on utilise la poigne de recopie, les fonctions et
leurs botes de dialogue et comment on introduit une fonction matricielle. Nous donnons
galement quelques notions sur les tableaux croiss dynamiques.
En ce qui concerne les tests statistiques, pour guider les praticiens vers le test le plus
appropri au problme qui leur est soumis, nous proposons un tableau rcapitulatif des tests
associs aux exemples tudis dans cet ouvrage.
Principalement destin aux utilisateurs, l'ouvrage est conu pour faciliter la pratique
statistique. Chaque technique statistique est introduite partir d'un exemple. Ensuite, sont
exposs l'outil thorique et la dmarche statistique. Ces concepts sont suivis des calculs
raliss au moyen d'Excel. Gnralement, plusieurs rsolutions sont proposes : une premire
solution de type "manuel", destine comprendre l'outil, suivie de solutions plus rapides. Ce
choix, vise pdagogique, permet l'utilisateur de matriser la mthode statistique sous-
jacente.
Les exemples sont divers : tudes techniques, problmes commerciaux, tudes d'images
et d'valuation, etc... La plupart des exemples et tudes de cas sont inspires d'tudes relles
proposes par divers organismes (Chambres d'Agriculture, laboratoires d'analyse physico-
chimiques, INRA, laboratoires d'analyses sensorielles, banques, socits agro-alimentaires,
PME, etc...). Pour des raisons videntes de confidentialit, l'intgralit des donnes, les
donnes prcises, les noms des socits, des produits,... n'ont pu tre indiqus.
Cet ouvrage est destin aux professionnels (ingnieurs et techniciens en agriculture et
agro-alimentaire, responsables marketing et tudes de march, ...), aux tudiants en
agriculture et agronomie (coles d'Ingnieurs et BTS), aux tudiants en Commerce (coles
Suprieures et BTS) et aussi mes collgues professeurs de statistique et autres matires.
10
Premire Partie
dbut 28/04/06 16:05 Page 2
2. STATISTIQUE DESCRIPTIVE UNIVARIEE
2.1. INTRODUCTION
Dans toute tude concrte, ds que la collecte des donnes est termine, on en organise
la saisie : d'abord mise en ordre de l'information, classement par thme puis par type de
variable.
L'exploitation des rsultats dbute gnralement par la description de chacune des
variables, considre isolment. On ralise une "photo" de chacune des variables. C'est ce que
l'on appelle "Analyse statistique descriptive univarie (ou unidimensionnelle)".
On distingue diffrents types de variables.
Les variables qualitatives comme par exemple le sexe, les questions rponse "oui"
ou "non", mais aussi la rgion gographique, la varit ou la race (levage),
professions, etc.
Les variables quantitatives, parmi lesquelles on peut encore distinguer :
- les variables discrtes (nombre d'enfants par foyer, nombre de grappes de raisin
par souche, etc.) Entre deux valeurs successives, aucune autre valeur n'est
possible. L'ensemble des valeurs prises par de telles variables alatoires est
dnombrable.
- les variables continues comme la taille, le poids, la teneur en sucre d'un fruit et,
de faon gnrale, toutes les variables mesurables l'aide d'un instrument.
Entre deux valeurs successives, il peut exister une infinit de valeurs.
L'ensemble des valeurs prises par de telles variables est une partie de R.
R emarque : entre ces diffrentes familles de variables, les frontires sont rarement
infranchissables. Par exemple, les variables quantitatives continues, de type mesure,
pourront tre considres comme discrtes si l'on prend en compte la prcision de
l'instrument de mesure. Les variables discrtes prenant un trs grand nombre de
valeurs pourront tre traites comme les variables continues.
Toutes les variables quantitatives pourront tre dcoupes en classes et ainsi
transformes en variables qualitatives (comme par exemple les "tranches" d'imposition).
Les variables qualitatives ordinales comme le niveau d'apprciation d'un produit ("pas
apprci", "peu apprci", "apprci", "trs apprci") peuvent tre codes selon une note
exprimant le gradient et, par suite, traites statistiquement comme des variables quantitatives.
EXEMPLE
Crises
alimentaires
Nombre de
grappes de raisins
par souche
Poids de 100
baies de raisin
TYPE DE
VARIABLE
qualitative
quantitative
discrte
quantitative
continue
OUTILS
RESUME TABLEAUX
Distributions des frquences
absolues et relatives
- Paramtres statistiques
- Distributions de
frquences absolues et
relatives
Paramtres statistiques
spcifiques (covariance,
corrlation)
GRAPHIQUES
Diagrammes
secteurs, en btons,
barres
Diagrammes en
btons
Histogrammes
Tableau 2.1 Outils de statistique descriptive univarie selon le type de variable.
Dans ce chapitre, les principaux lments de statistique descriptive univarie sont
introduits partir d'exemples concrets.
La description d'une variable quantitative est illustre par la variable "catgorie socio-
professionnelle" prsente dans une enqute sur les crises alimentaires.
Celle des variables quantitatives discrte et continue est illustre respectivement par les
variables "nombre de grappes de raisin par souche" et "poids de 100 baies" observes dans
une mme tude de terrain.
Les principaux outils statistiques choisis pour dcrire ces trois types de variables sont
synthtiss dans le tableau rcapitulatif 2.1.
2.2. VARIABLE QUALITATIVE
Exemple : les crises alimentaires
2.2.1. Prsentation des donnes et position du problme
En 2002, l'auteur a propos aux tudiants de l'cole Suprieure d'Agriculture de Purpan
(ESAP) de raliser une enqute de thme "Les crises alimentaires". Un premier objectif
consiste valuer l'intrt, le niveau de culture et le degr de sensibilisation des tudiants
pour de tels problmes d'actualit (ESB, OGM, dioxine, listeria, etc...). Un deuxime objectif,
corollaire du prcdent, est d'en dduire, pour l'quipe enseignante, une stratgie
d'amlioration et de progrs tant au niveau de la formation que de l'ducation.
Dans cet exemple, nous n'aborderons que deux questions trs simples permettant
d'illustrer la description statistique de variables qualitatives.
Pour approfondir le dpouillement de l'enqute et voir si les rponses aux questions
importantes de cette enqute pouvaient tre lies l'origine sociale de la famille, il a t
demand d'indiquer la profession des parents (chef de famille). Aprs avoir parcouru les
fiches des participants, ce caractre intituls CSP (catgorie socio-professionnelle) a t
recod selon 6 modalits ou classes suivantes :
- Ouvrier
- Employ
- Agriculteur
- Professions intermdiaires
- Chef d'entreprise
- Retrait.
278 tudiants ont repondu l'enqute et on a obtenu les rsultats indiqus sur le
tableau 2.2 suivant.
CSP
effectifs
OUVRIER
3
EMPLOYE
17
AGRICULTEUR
86
PROFESSION
INTERMEDIAIRE
156
CHEF
D'ENTREPRISE
10
RETRAITE
6
Tableau 2.2 Effectifs selon les CSP
Dans cet exemple, nous nous intresserons une autre question pose aux tudiants qui,
rappelons-le, deviendront, pour une bonne partie d'entre eux, ingnieurs dans des secteurs
agricoles, agro-alimentaires, etc. Quel doit tre, selon eux, le degr de responsabilit des
gouvernements face de telles questions de salubrit publique ? La rponse possible a t
propose sous la forme d'une chelle croissante de 1 (trs peu important) 5 (trs important,
fondamental).
Le tableau 2.3 indique les rsultats obtenus.
14
Opinion
Effectifs
trs peu
important
(1)
5
peu important
(2)
23
important
(3)
67
important
(4)
104
trs important
(5)
79
Tableau 2.3 Effectifs selon l' opinion.
Question : raliser une analyse descriptive de chacune de ces variables.
2.2.2. Outils statistiques et notations
2.2.2.1. Variable qualitative nominale
Notations
Le critre CSP dfinit une variable qualitative X k modalits (ou classes) x1, x2,..., Xk ;
dans notre exemple : x1 = ouvrier, x2 = employ, X3 = agriculteur, X4 = professions
intermdiaires, x5 = chef d'entreprise et x6 = retrait.
L'ordre et le codage des modalits n'ont aucune importance.
La variable qualitative X est dite nominale.
Outil statistique
Pour dcrire statistiquement une variable qualitative, on utilise les outils lmentaires de
distributions de frquence absolues (effectifs) et relatives visualises par des graphiques
lmentaires de son choix (diagrammes en btons, en barres, en secteurs, etc...).
avec n = n1 + n2 + . . . + nk
Effectifs
X1
X2
Xk
Frquences
absolues
n1
n2
nk
Frquences
relatives
n1/ n
n2/ n
nk/ n
R emarque : tout le monde connat ce type de description de variables qualitatives, la
plupart des mdias utilisant ce mode de communication d'informations, clair et
convivial.
2.2.2.2. Variable qualitative ordinale
Notations
Le critre tudi est l'opinion relative l'importance de la responsabilit que doivent
assumer les gouvernements face aux questions de scurit alimentaire. Ce critre dfinit une
variable qualitative Y p modalits ou classes : y1, y2, ..., yp. Dans notre exemple p est gal
5, les modalits proposes tant y1 = trs peu important, y2 = peu important, y3 = assez
important, y4 = important et y5 = trs important.
Cette fois, les modalits sont ordonnes selon un gradient (ici, gradient d'importance
croissante).
La variable qualitative Y est dite ordinale (ou encore de type "chelle").
Les distributions de frquence, identiques celles prsentes pour une variable
qualitative nominale, constituent l'outil statistique.
Il est important de remarquer la nuance entre les deux types de variables nominales et
ordinales. La prsence d'un gradient dans la variable qualitative ordinale permet d'enrichir les
exploitations statistiques des cas concrets en assimilant la variable selon les cas une variable
quantitative de type note ou rang ou mesure. La description statistique d'une variable
quantitative est prsente dans le paragraphe suivant.
15
2.2.3. Mise en uvre sur Excel et rsultats
2.2.3.1. Variable CSP des parents (X)
Le tableau 2.4 montre les distributions de frquences absolues et relatives.
Les frquences absolues
sont les effectifs
observs pour chaque
modalit.
CSP
OUVR IER
EMPLOYE
AGR ICULTEUR
PR OFESSION
INTER MEDIAIR E
CHEF D'ENTR EPR ISE
R ETR AITE
TOTAUX
FR EQUENCES
ABSOLUES
3
17
86
156
10
6
278
FR EQUENCES
R ELATIVES
1%
6%
31%
56%
4%
2%
100%
Les frquences relatives
sont les effectifs
observs pour chaque
modalit diviss par
l'effectif total (278)
exprimes ici en
Tableau 2.4 Frquences absolues et relatives de la variable CSP. pourcentage
R emarque : lorsque l'enqute a t saisie
dans Excel sous la forme d'une base de
donnes du type ci-contre, la distribution des
effectifs peut tre obtenue au moyen d'un
tableau crois Excel (guidage par assistant)
ou l'aide de la fonction NB.SI qui
permet de calculer le nombre d'occurrences
d'une valeur donne (texte ou nombre) dans
une plage de cellules.
Numro de
l'enqut
1
2
3
Profession Chef de
famille
Employ
Agriculteur
Employ
Dans cette bote, la plage dsigne la colonne grise du tableau ci-dessus. Le critre est la
valeur de la CSP que l'on dsire compter, ici "ouvrier" : on trouve 3. Cela qui signifie que
trois enqutes parmi les 278 sont issus d'un milieu ouvrier. Il suffit de tirer vers le bas la
poigne de recopie pour obtenir les autres valeurs 17, 86, etc...
(faae te
~3;-;.aHtrS'retralfj
'"^'...-' i.wlBr-:^'^'''^':
'.' Critre :; est'ia c^ntftwh, KEySl'Os farffi^'d'Trant^d'eitression ou tfe
:
.',l
\
-.
!

!
,:
!:
tfiteqi^'ye*rBHh6*'^nês'eltA'!S seront eontie$.^::', ;^ ':,:'-'
Reprsentations graphiques
Diagrammes en btons et en barres
- slectionner la colonne des intituls de CSP et celle des frquences relatives
- appeler l'assistant graphique
- choisir un histogramme group
- choisir les options "esthtiques" voulues.
On obtient les diagrammes reprsents sur les Figures 2.1 et 2.2.
16
Distribution des frquences
50%
10%
0%
(-
...
!
, a , H
S ? S
- i"
^
0 o
0;
v>
<
4
UJ
Z0:
0<
% 5
<fl ni
111 -
11 ^
0
u
-
["
"-z
relatives
H
LU LU
M t
LU & ?
X (E Ul
01- n:
z
UJ
o CSP
Figure 2.1 Diagramme en btons de la variable CSP.
Figure 2.2 Diagramme en barres de la variable CSP.
distribution des frquences relatives
BOUVRIER
BEMPLOYE
OAGRICULTEUR
BPROFESSION
INTERMEDIAIRE
CHEF D'ENTREPRISE
QRETRAITE
Figure 2.3 Diagramme en secteurs de la variable CSP.
17
Diagramme en secteurs
Le logiciel se souciant souvent peu d'esthtique, ce type de diagramme souvent appel
"camembert" par les amateurs est quelquefois trs alourdi par les couleurs et les mentions de
valeurs. Cela les rend illisibles ds que le nombre de modalits devient trop imponant ou que
l' importance de certaines d'entre elles est faible comme l'illustre la Figure 2.3.
Commentaires
II nous parat superflu de commenter longuement des tableaux et graphiques trs
expressifs par nature. Remarquons seulement que deux origines sociales se dmarquent.
La CSP "professions intermdiaires" (56%) rassemble plusieurs professions. Cela peut
expliquer ce fort pourcentage
En ce qui concerne la CSP "agriculteurs" (31%), il n'est pas tonnant de trouver ce
rsultat dans l'chantillon enqut puisqu'une forte proportion d'tudiants est issue de ce
milieu.
2.2.3.2. Variable "opinion sur l'importance souhaite des responsabilits
gouvernementales" (Y)
L'analyse descriptive est ralise de manire identique la prcdente.
R emarque : rappelons que les classes (ou modalits) tant ordonnes selon un
gradient de codage de 1 (trs peu important) 5 (trs important), la variable
qualitative peut tre assimile une variable quantitative du type "note sur 5".
D'autres analyses statistiques tudies dans la suite peuvent alors enrichir
l'exploitation des rsultats.
Rsultats
Le tableau des frquences absolues et relatives se prsente sous la forme suivante :
Opinion
1. trs peu important
2. peu important
3. assez important
4- important
5. trs important, fondamental
TOTAUX
Frquences
absolues
5
23
67
104
79
278
Frquences
relatives
2%
8%
24%
37%
29%
100%
Tableau 2.5 Frquences absolues et relatives de l'opinion.
Les figures 2.4 et 2.5 reprsentent deux types de graphiques correspondant.
Figure 2.4 Diagramme en btons de l'opinion.
18
11 convient de noter que cette
prsentation en 3D peut fausser
par distorsion visuelle la lecture
de ce type de graphique.
L'paisseur des secteurs offre un
attrait esthtique mais
dangereux !
0 -1 - trs peu
important
S-2- peu important
Q -3- assez important
D -4- important
-5- trs important ,
fondamental
Figure 2.5 Diagramme en secteurs de l'opinion.
Ces reprsentation se passent de commentaires dtaills. Notons simplement que prs de
66%des enquts pensent que les gouvernements doivent prendre une part importante, voire
trs importante l'examen des problmes de scurit alimentaire. L'importance de ce score
peut d'autant plus se comprendre si l'on indique au lecteur que, lors d'une question prcdente,
il tait demand aux enquts s'ils pensaient que les gouvernements avaient une part de
responsabilit dans les crises alimentaires passes. Le dpouillement avait montr que prs de
80%des interrogs en taient convaincus.
2.3. VARIABLEQUANTITATIVE DISCRETE
Exemple : nombre de grappes de raisin par souche
Lors d'une tude de qualit d'un vin du Sud-Ouest, on est conduit examiner la
productivit de la vigne ; dans un premier temps, on s'intresse au nombre de grappes par
souche.
120 souches ont t tires au hasard dans des parcelles semblables et on a compt le
nombre de grappes portes par chacune d'elles. On observe les rsultats suivants :
15
12
20
13
17
16
15
12
20
14
19
15
13
14
16
13
19
14
15
12
16
13
20
14
15
17
15
19
20
14
13
17
13
19
12
12
16
15
16
18
12
12
16
15
19
17
14
19
16
17
19
12
14
19
13
17
12
12
16
17
13
18
12
12
16
17
14
18
15
15
17
17
15
13
13
13
17
12
15
13
14
13
18
12
14
19
13
14
19
15
14
19
18
14
19
16
16
18
18
15
12
17
14
18
19
15
12
17
12
12
17
16
13
16
13
12
17
17
15
17
Tableau 2.6 Nombre de grappes par souche (NGS).
Question : raliser une analyse statistique descriptive des donnes observes.
2.3.2. Approche statistique et notations
Nous distinguerons deux familles d'outils de statistique descriptive appropries cet
exemple :
- les distributions de frquences, tableaux et graphiques
- les paramtres statistiques.
On note n le nombre d'observations et X la variable statistique "nombre de grappes par
souche". X ne prend que des valeurs entires. Entre deux valeurs distinctes successives
aucune valeur n'est possible. Par consquent, X est une variable quantitative discrte.
19
2.3.3. Distribution des frquences : tableaux et graphiques (diagrammes
en btons)
2.3.3.1. Dfinition des outils statistiques
Un tri des donnes permet de dgager l'ensemble des valeurs .
La frquence absolue est le nombre de fois ni (effectif) qu'une valeur x, de X est observe
n1 +n2 + ... + ni + ... + nk = n
Valeurs xi
Effectif ni
X1
n1
X2
n2
Xi
ni
Xk
nk
La srie x1, x2, . . . e s t crite au sens strict X1 <X2 < . . . <Xk.
La frquence relative associe xi est . La frquence cumule associe xi est Y.
n .-' n
Xi
X1
X2
Xk
Frquences
absolues
n1
n2
nk
Frquences
relatives
n1 / n
n 2 / n
n k / n
Frquences
cumules
n1 / n
(n1 + n2) / n
1
Les reprsentations graphiques des frquences absolues se font gnralement au travers
de diagrammes en btons. Les frquences cumules sont visualises au moyen d'une courbe
polygonale.
2.3.3.2. Mise en uvre au moyen des fonctions Excel et interprtation des
rsultats
Afin de simplifier l'expos, on nomme NGS la plage des valeurs
observes saisies sur une colonne de 120 lignes.
NGS
15
15
13
16
17
Aprs avoir ralis un tri de ces valeurs, on saisit la matrice des k
valeurs distinctes prises par X. On observe toutes les valeurs distinctes de
12 20, soit 9 valeurs. Cette plage des valeurs de xi sera dite "matrice des
classes". On la nomme x, .
Xi
12
13
14
15
16
17
18
19
20
Totaux
Frquences
absolues
19
16
14
16
13
17
8
13
4
120
Frquences
relatives
16%
13%
12%
13%
11%
14%
7%
11%
3%
100%
Frquences
cumules
16%
29%
41%
54%
65%
79%
86%
97%
100%
Tableau 2.7 Frquences absolues, relatives et cumules de NGS
20
La distribution des frquences absolues est obtenue au moyen de la fonction
FREQUENCE. Les distributions des frquences relatives et cumules sont calcules l'aide
du clavier
Pour calculer les frquences absolues, il faut
- slectionner la plage d'accueil des rsultats (2
e
colonne ci-dessus, de mme
dimension que celle des classes en 1re colonne)
- appeler la fonction FREQUENCE et renseigner la bote de dialogue ci-dessous
3 ~ 115;lSt3;15;15;13
"3- {12;13;M;15;t6;17
Tabteau_donnes |NGS
Matrice JnterealB, p
.:; .. ^''.^'"..Y: "./^ ' ' ' ' . .l..:-:'-: :.- : -. -' s : -- " .
> 1
' ' --, . , - -,li9jli;Mii6.! i3iW ;8;i: -
Cateufe ia frquence faqudte tes vateurs apparaissent dans une ptag de vateurs, puis renvoie une :
iîce^KaledehcNyesântunlnrtdepfusquerargtfrentrhatriCTJntBrya^
\
' .
Mah'ice.JntrvaBes estune matrice ou une rfrence correspondant SKK intervalles ;
.'! " '": . . ? : " , permettant de groier les valeurs de l'argument tabteaUJdonnes.
Attention : ne pas cliquer OK ! La fonction FREQUENCE tant une fonction
matricielle, la validation de la bote de dialogue se fait par appui simultan des trois
touches Ctrl + MAJ + Entre (cf. Guide Excel en annexe). A l'aide de la fonction
"SOMME" (ou par double-clic sur le bouton |[]s'il est install dans une barre
d'outils), on calcule les totaux et l'on vrifie que n est bien gal 120.
En ce qui concerne les frquences relatives, la procdure est la suivante :
- dterminer la premire valeur partir des donnes prcdemment calcules
(frquences absolues et total) : 19 (rf. relative) / 20 (rf. absolue). On adopte
le format de son choix (par exemple en %)
- tirer vers le bas la poigne de recopie jusqu' la dernire classe. On vrifiera
que le total est bien gal 1 ou 100%selon le format adopt.
Enfin, on dterminera les frquences cumules de la faon suivante :
- pour la 1re valeur, recopier la 1re frquence relative
- la 2
e
valeur est la somme (en rfrences relatives) de la 1re frquence cumule
et de la 2
e
frquence relative.
En tirant vers le bas la poigne de recopie jusqu' la dernire classe, on obtient les autres
valeurs. On vrifie que la dernire est gale 1 ou 100%selon le format adopt.
Reprsentations graphiques
Diagramme en btons de la distribution des frquences absolues
- choisir l'onglet "Types standard" et le type "Histogramme"
- cliquer "Suivant" pour obtenir la bote de dialogue "Donnes source... "
- dans l'onglet "Plage de donnes", slectionner la plage des Frquences absolues
(titre compris) ; en dessous, le type de srie ("en colonnes") est
automatiquement valid. Dans l'onglet "Srie", la fentre "Srie" est renseigne
"Frquence absolue" ; les zones "Nom" et "Valeurs" portent les adresses du
nom et de la plage de valeurs correspondantes. Dans la zone "Etiquettes des
abscisses (X), il convient de saisir (en la slectionnant) la plage des valeurs des
classes (les xi, de 12 20)
21
- cliquer sur "Suivant" pour obtenir la bote des options du graphique dans
laquelle les diffrents onglets permettent de choisir les options souhaites (titre
du graphique par exemple).
Le diagramme en btons que l'on a vu s'laborer au fur et mesure dans les botes de
dialogue s'affiche (sur la mme feuille ou sur une feuille part selon l'option choisie). Bien
entendu, le graphique obtenu peut toujours tre repris pour en modifier certaines options et . . .
l'embellir ! On peut obtenir un graphique ressemblant celui de la Figure 2.6.
Frquence absolue
15 16 17
nbgrappesfeouche
Figure 2.6 Diagramme en btons de NGS (frquences absolues).
A premire vue, la distribution tudie ne prsente aucune structure remarquable.
Diagramme en btons de la distribution des frquences relatives
La procdure d'laboration de ce diagramme est identique la prcdente sauf que la
"plage des donnes" slectionner est bien entendu celle des frquences relatives
Frquence relative
16%
12%
10%
8%
6%
4%
NBGRAPPES/ SOUCHE
12 13 14 15 16 17 18 19 20
i
.. .
1
-.
-
.
.
-. .
.-..
-
-.-.-.- , ,.,.
' '
r "
-..-
-|-
Figure 2.7 Diagramme en btons de NGS (frquences relatives).
Les ordonnes tant proportionnelles, ce diagramme est identique au prcdent. Mais sa
lecture est plus explicite, plus gnrale puisqu'on y lit des pourcentages.
Polygone des frquences cumules
- choisir l'onglet "Types standard" et le type "Courbe"
- cliquer "Suivant" pour obtenir la bote de dialogue "Donnes source... "
- dans l'onglet "Plage de donnes", slectionner la plage des Frquences
cumules (titre compris).
La suite est identique la procdure prcdente. On obtient le graphique de la
Figure 2.8.
22
Frquence cumule
100%
80%
A nu.
20%
nfti.
120% J - - - - --
..^-
1
*-
^^'"^
--*'
^^
12 13 14 15 16 17 18 19 20
E
-*Frquence |
cumule |
Figure 2.8 Courbe de frquence cumule
> Remarques relatives aux distributions de frquences et diagrammes en btons
Matrice des classes (xi)
Cette matrice (appele matrice-intervalles dans la bote de dialogue) a t ici
parfaitement dfinie. Dans ce type d'tude, il est souvent intressant d'ouvrir la dernire
classe. Pour cela, on saisit dans cette cellule "> 18"). Cette procdure peut, entre autre, faciliter
l'utilisation de la feuille Excel pour d'autres donnes de mme type, sans avoir rechercher les
valeurs suprieures l'avant-dernire.
Dcoupage en classes
Lorsque le nombre de valeurs distinctes observes pour xi est important, on ralise un
dcoupage en classes. Bien que cet exemple ne l'exige pas, nous allons effectuer un
dcoupage pour illustrer cette remarque et expliquer la procdure. Nous choisissons par
exemple les classes X < 14 , 14 < X < 16 ,16 < X < 18 , X > 18. Ceci se traduit par le choix de
la plage de classes 14 / 16 /18 / X> 18.
Comme prcdemment, la fonction
FREQUENCE permet d'obtenir la nouvelle
distribution des frquences absolues indique sur
le tableau 2.8 ci-contre. L'histogramme
correspondant se trouve sur la Figure 2.9.
Classes
14
16
18
X> 18
Total
Frquences
49
29
25
17
120
Tableau 2.8 Frquences absolues de la
variable NGS en classes
Distribution des frquences absolues
Nombre de
grappes par
souche
Figure 2.9 Histogramme de NGS
23
Cette pratique, trs utilise, est dpendante du choix des classes. L'interactivit avec les
donnes et la facilit des "copier-coller" permet cependant de comparer rapidement plusieurs
types de dcoupages et de choisir le plus adapt.
Intrt des dmarches proposes
L'intrt majeur des approches prcdentes rside dans l'interactivit avec les donnes et
dans le choix des classes. Ceci permet de construire trs facilement et rapidement le "modle"
de la (ou des) feuilles Excel appropri son besoin spcifique. A chaque nouvelle tude, il
suffit de "dverser" les nouvelles donnes la place des autres. Les tableaux et les graphiques
s'actualisent automatiquement.
2.3.3.3. Mise en uvre au moyen de l'utilitaire d'analyse d'Excel
A partir de la barre de menu (Outils / Macro complmentaires / Utilitaire d'analyse ou
directement Outils / Utilitaire d'analyse si ce dernier a dj t valid), cet outil permet
d'obtenir plusieurs rsultats statistiques.
On slectionne "Histogramme" et l'on renseigne la bote de dialogue en indiquant la
plage d'entre, la plage des classes et en validant "Pourcentage cumul" et "reprsentation
graphique". Les "frquences" (c'est dire les frquences absolues), les pourcentages cumuls
ainsi que le diagramme en btons s'affichent.
R emarque : cette mthode est rapide mais n'offre pas l'interactivit avec les donnes
et avec les classes. Cette interactivit est particulirement intressante dans le cadre
d'applications professionnelles.
2.3.4. Rsum de l'information : paramtres statistiques
Paramtres de position (ou de tendance centrale)
Moyenne
C'est le rsum le plus connu de l'information. On note x la moyenne observe. Cette
valeur peut s'exprimer sous 2 formes :
1 "
x = V x, . En considrant la srie observe et aprs avoir ralis un tri des donnes, la
n i i
srie ordonne s'crit "au sens large" : x1 < x2 <. . . < xi <... < x n . Ceci correspond la gestion
habituelle des donnes dans les logiciels.
- 1
k
x = y n x , o k est le nombre de valeurs distinctes prises par X et ni la frquence
n 1. 1
absolue de xi La srie est crite au sens strict : x1 < x2 <...< xk
Valeurs xi
Effectifs ni
X1
n1
X2
n2
Xk
nk
avec
Cela revient considrer la distribution des frquences absolues.
crite sous cette forme, la moyenne est le centre de gravit des "points" x1, x2, ... ,Xk
affects des poids respectifs , , . . . ,
k
- . On dit parfois que la moyenne traduit un point
n n n
d'quilibre.
24
Examinons les proprits de la moyenne.
La moyenne des carts la moyenne est nulle.
Transformation affine : y = ax + b => y = a x + b (a et b, coefficients rels).
L'intrt de la moyenne est d'tre peu sensible aux fluctuations d'chantillonnage.
Ses inconvnients sont d'tre sensible aux valeurs extrmes et de fournir un trs
mauvais rsum des donnes dans le cas de distributions trs disperses ou
dissymtriques.
Mdiane
Considrons la srie observe, ordonne, crite au sens large : x, < x i + 1 On appelle
mdiane de la srie statistique tout nombre M tel qu'il y ait autant de valeurs qui lui soient
infrieures que de valeurs suprieures ou gales.
1
er
cas : si l'effectif n est impair (n = 2p + 1), la mdiane est la (p+1)ie valeur soit Xp+i.
2
e
cas : si l'effectif n est pair (n = 2p), il y a 2 valeurs centrales Xp et Xp+1. Gnralement,
on adopte pour mdiane leur demi-somme M = On peut galement prendre pour
mdiane toute valeur du segment [Xp , Xp+1].
Considrons la srie statistique , ordonne, crite au sens strict, les xi tant pondrs par
les effectifs ni (distribution des frquences absolues). On appelle mdiane toute valeur M
partageant la srie en 2 parties telles que :
pour Me r Xp . x ^, 1, on ait : n1 +n 2 +. . . +n < <n 1 + n 2 + . . . + n p + 1
La mdiane a l'avantage d'tre peu sensible aux valeurs extrmes (robustesse) mais
l'inconvnient de se prter assez peu aux calculs mathmatiques.
Mode
On appelle mode de la srie statistique la valeur associe la plus grande frquence
(absolue ou relative). On peut avoir plusieurs modes associs la mme frquence absolue ni
(ou relative ).
n
Par extension (modes relatifs), on appelle mode toute valeur x, prcde et suivie de
valeurs de frquences infrieures : xi est un mode si ni-1 < ni > ni +1.
Si la srie est classe avec des classes de mme tendue, on appelle classe modale la
classe de la plus grande frquence. Comme pour les modes, on peut avoir plusieurs classes
modales.
Comparaison des trois indicateurs
Dans le cas de distributions symtriques (Figure 2.10), les trois caractristiques de
centralit (mode, mdiane et moyenne) concident ; en cas de dissymtries (Figure 2.11), elles
sont dcales. Les figures 2.10 et 2.11 montrent les positions respectives de ces trois
indicateurs dans ces diffrents cas.
Figure 2.10 Distribution symtrique
Mode, mdiane, moyenne
25
m
ode |
\
Mode | Moyenne
Mdiane
- \Mode Moyenne |Mode
Mdiane
Figure 2.11 Distributions dissymtriques
La moyenne est toujours situe du cot de la plus longue queue de la distribution La
mdiane est situe entre le mode et la moyenne.
Paramtres de dispersion
Valeur minimale et valeur maximale observes
L'tendue d'une srie statistique est la diffrence entre les valeurs maximale et minimale.
C'est l'indicateur de dispersion le plus simple mais il est dangereux car les valeurs
intermdiaires sont occultes et il peut tre dilat par des valeurs extrmes pouvant tre
aberrantes.
Dans le mme ordre d'ide que la mdiane, les quartiles partagent la srie ordonne en 4
sous-ensembles de mme effectif (ou sensiblement de mme effectif).
- Le 1
er
quartile est la valeur Q1 telle que 25%des valeurs de la srie sont
infrieures (et donc 75%suprieures)
- le 2
e
quartile Q2 est la mdiane M
- le 3e quartile est la valeur Q3 telle que 75% des valeurs de la srie sont
infrieures (et donc 25%suprieures).
R emarque : selon les valeurs de n, comme on ne peut pas toujours obtenir
exactement Q1 et Q3, on utilise frquemment des formules approches. On indique
ainsi que Q1 est la valeur dont le rang correspond sensiblement ( n+1) et Q3 la
4
valeur dont le rang correspond sensiblement (n +1) .
4
Intervalle (ou distance) inter-quartile
C'est l'cart Q3-Q1. Cet intervalle contient 50% des valeurs observes. On le note
frquemment IQR.
Quantits (ou fractiles) d'ordre k
Ce sont les (k-1) valeurs segmentant la srie en k sous-ensembles de mmes effectifs ou
d'effectifs approximativement identiques. Les fractiles d'ordre 10 et d'ordre 100 sont
respectivement des dciles et des centiles. Les dterminations approches sont du mme type
que celles indiques pour les quartiles.
Variance
C'est un indicateur de dispersion par rapport la moyenne.
La moyenne des carts la moyenne tant nulle, on considre la moyenne des cartes de
ces carts. On l'appelle variance et on la note Var x.
26
Lorsque la srie statistique ordonne est crite au sens large,
l x^, -
2
., SCE
Va r x=y( x, -x) ou encore Var x =
;
n , ~r n
SCE dsigne la Somme des Carrs des carts la moyenne ^(x, - x) .
1^1
Lorsque la srie statistique ordonne est crite au sens strict (ou srie dcrite par la
distribution des frquences absolues) :
1 k _
2
Var x =V n,(x, - x) o k est le nombre de valeurs distinctes de X.
La variance a pour unit de mesure le carr de l'unit de x ce qui permet d'introduire
fcr'p
l'cart-type qui est la racine carre de la variance .( ; il a donc la mme unit de mesure
V n
que X.
Quant au Coefficient de Variation (CV), c'est le rapport de l'cart-type la moyenne et
donc l'expression de l'cart-type en pourcentage de la moyenne. Son intrt est l'absence
d'unit : il peut donc permettre de comparer l'homognit de variables d'units diffrentes. Il
n'a vraiment de sens que pour les variables valeurs positives.
R emarque : le coefficient de variation n'est pas dfini si la moyenne est nulle.
Paramtres de forme : coefficients d'aplatissement et d'asymtrie
Ces paramtres sont nombreux et pas facilement utilisables dans les tudes concrtes
courantes. Excel propose un coefficient d'aplatissement et un coefficient de forme.
Le coefficient d'aplatissement de Kurtosis renseigne sur l'aplatissement relatif d'une
distribution compare la distribution de la loi normale ; sa formule est indique dans l'aide
d'Excel. Pour une distribution normale, ce coefficient est nul ; une valeur positive indique une
distribution plus pointue que la loi normale ; une valeur ngative indique l'inverse une
distribution plus aplatie.
Comme son nom l'indique, le coefficient d'asymtrie dont la formule est galement
indique dans l'aide d'Excel renseigne sur l'asymtrie de la distribution par rapport sa
moyenne. Une valeur nulle ou approximativement nulle de ce coefficient indique une
symtrie de la distribution par rapport la moyenne. Une valeur positive indique une queue
de distribution tale vers la droite (valeurs plus leves que la moyenne). Une valeur
ngative indique l'inverse.
2.3.4.2. Mise en uvre au moyen des fonctions Excel
Le tableau ci-dessous indique les valeurs des paramtres statistiques obtenus dans
l'exemple propos dans un ordre que nous trouvons intressant pour rsumer rapidement une
srie statistique concrte quelconque. Cet ordre est lgrement diffrent de l'ordre plus
conventionnel adopt dans la prsentation des outils statistiques de donnes de mme type.
Nous avons rajout NBVAL en 1re ligne de sorte que le nombre d'observations est calcul
automatiquement.
En bon franais, on dira par exemple que le plus petit "chargement" d'une souche est de
12 grappes (MIN), que 25%des souches ont un nombre de grappes infrieur ou gal 13
(Q1). Pour ce rsultat, on appelle la fonction QUARTILE et l'on renseigne la bote de
dialogue:
- dans la zone "Matrice", il faut saisir la zone des valeurs observes que nous
avons nomm ici NGS
27
- dans la zone "Quart", on saisit le numro du quartile dsir.
Rappelons que le 2e quartile n'est autre que la mdiane que l'on pourrait videmment
obtenir avec la fonction MEDIANE Sa valeur montre que la moiti des souches ne portent
pas plus de 15 grappes. Le 3
e
quartile indique que 75%des souches n'ont pas plus de 17
grappes. Cela donne une formule du type =QUARTILE(zone;2)
Nom statistique
n
Minimum
Quartile 1 (Qi)
Mdiane
Quartile 3 (03)
Maximum
Centile ( 2,5%)
Centile( 97,5%)
Mode
Moyenne
cart-type
Coefficient de
variation (CV)
Vanance
Coefficient de
KURTOSIS
Coefficient
d'asymtrie
PARAMETRES STATISTIQUES de
NGS
Fonctions Excel
NBVAL
MIN
QUARTILE
MEDIANE
QUARTILE
MAX
CENTILE
CENTILE
MODE
MOYENNE
ECARTYPEP
(Calcul)
VAR.P
KURTOSIS
COEFFICIENTASY
METRIE
Valeurs
120
12
13
15
17
20
12
20
12
15,333
2,409
15,71%
5,806
-1,105
n onc
U,r0b
Tableau 2.9 Paramtres statistiques de NGS
En Analyse exploratoire des donnes,
l'ensemble des cinq valeurs ci-contre est appel
"peigne". Il fournit un premier rsum prcis et net
des donnes observes.
MIN
QUARTILE 1
MEDIANE
QUARTILE 3
MAX
Le nombre de grappes par souche est compris entre 12 (MIN) et 20 (MAX). 50%des
souches ont entre 13 et 17 grappes (Q1, Q3) et 50%des souches portent moins de 15 grappes.
En principe, les centiles 2,5%et 97,5%dmarquent les valeurs les plus basses et les
plus leves, c'est dire 5%de valeurs "marginales". Dans notre exemple o il y a beaucoup
d'ex-aequo, ces valeurs sont peu significatives.
Rappelons que le mode donne la valeur la plus frquente. Il convient ici de noter que s'il
y a plusieurs modes de mme frquence, Excel ne fournit que le plus petit. Lorsque l'on
s'intresse cet indicateur, il faut examiner la distribution des frquences absolues, complte,
prcise et qui indique de plus les modes relatifs. Ainsi, dans notre exemple, il n'y a qu'un
mode "12" de frquence absolue 19. La fonction MODE indique ici un rsultat correct.
L'examen de cette distribution montre les modes "relatifs" 15, 17 et 19.
R emarque : la fonction RANG ne prsentant aucune difficult de mise en uvre
peut, dans certains cas, s'avrer intressante. En particulier, comme elle affiche les
ex aequo, elle permet entre autre de retrouver les modes.
28
Le nombre moyen de grappes est 12.
/SCE
Pour obtenir l'cart-type observ ( . /) , on doit appeler la fonction Excel
n
SCE
ECARTYPEP et non ECARTYPE qui donne la valeur . ( , estimation de l'cart-type
V n-1
d'une population partir d'un chantillon que nous utiliserons dans la partie Statistique
Infrentielle. Concrtement, la valeur de l'cart-type (2) est peu interprtable pour un non
spcialiste de la vigne. En effet, la distribution des frquences est tout fait quelconque et
sans rapport avec une distribution normale. De tels exemples sont relativement courants.
Cependant, pour une personne connaissant bien le domaine tudi, l'cart-type peut tre plus
parlant et indiquer tout de suite une bonne ou une mauvaise homognit des donnes.
Le rle du coefficient de variation est voisin de celui de l'cart-type. Il permet aux
spcialistes de juger de la pertinence de la moyenne ; ce coefficient est cependant plus
pratique car dpourvu d'unit. Malheureusement, il n'y a pas de rfrence standard, un seuil au
del duquel on dirait que la moyenne n'a pas de sens. Dans certains domaines de recherche, un
CV suprieur 8% "condamne" la moyenne alors que dans d'autres la pertinence de la
moyenne sera rejete pour un CV suprieur 18%par exemple.
En ce qui concerne la variance, il convient comme prcdemment d'utiliser la fonction
VAR.P ; la fonction VAR sera elle aussi d'actualit en statistique infrentielle. Cette valeur de
5,8 n'est pas facile interprter.
La valeur ngative du coefficient de Kurtosis indique une distribution plus aplatie que
la loi Normale alors que le coefficient d'asymtrie (0,206) montre un dcalage des donnes
vers la droite.
En rsum, dans la pratique, pour dcrire une srie statistique valeurs isoles, nous
trouvons que la distribution des frquences et sa visualisation au moyen d'un diagramme en
btons est particulirement instructive. Bien que, par nature moins synthtique que les
paramtres statistiques, elle a l'avantage de bien reflter la ralit.
Dans le mme ordre d'ide, les dcoupages en classes sont souvent d'un grand intrt.
Pour rsumer numriquement les donnes, le "peigne", dfini ci-dessus (min, Q1,
mdiane, Q3 et max) offre une bonne segmentation des donnes.
Enfin, nous retiendrons que moyenne, cart-type et coefficient de variation sont plus
intressants pour le spcialiste du sujet tudi mais surtout pour des tudes futures allant au-
del de la statistique descriptive univarie.
2.3.4.3. Mise en uvre au moyen de l'utilitaire d'analyse
On slectionne "Statistiques descriptives" et l'on renseigne facilement la bote de
dialogue. Nous ne retiendrons pas le "Niveau de confiance pour la moyenne" car nous
choisissons de rester dans un cadre de statistique descriptive.
R emarque : on peut regretter que l'utilitaire ne fournisse pas les quartiles,
indicateurs prcieux en analyse descriptive, ni les centiles. Comme nous l'avons
prcis prcdemment, l'utilitaire donne rapidement des rsultats, mais, en revanche,
on ne peut utiliser l'interactivit des donnes ni les "copier-coller" pour des calculs
similaires relatifs d'autres jeux de variables.
29
Dans les rsultats affichs sur le tableau
ci-contre, nous constatons une diffrence
pour l'cart-type puisque l'utilitaire
/SCtf
fournit l'cart-type "estim" . ! .
Notons la prsence d'un paramtre
intitul "erreur-type" : il s'agit de l'cart-
1 SCE
type de la moyenne fque nous
^n(n -1)
utiliserons en statistique infrentielle
NGS
Moyenne
Erreur-type
Mdiane
Mode
Ecart-type
Variance de l'chantillon
Kurtosis (aplatissement)
Coefficient d'asymtrie
Plage
Mi ni mum
Maximum
Somme
Nombre d'chantillons
15,33
0,22
15
12
2,42
5,85
-1,10
0,21
8
12
20
1840
120
2.4. VARIABLEQUANTITATIVE CONTINUE
Exemple : poids de 100baies de raisins
On poursuit l'tude prcdente de la qualit du vin et on examine maintenant le poids de
100 baies. Le recueil de donnes a fourni 120 observations et on a not pour chacune d'elles le
poids de 100 baies (PCB) exprim en grammes. Les rsultats apparaissent sous forme d'une
srie classique valeurs isoles comme sur le tableau 2.10
345
339
278
375
403
294
288
282
358
351
365
372
308
343
269
380
401
289
292
309
376
371
345
380
281
345
320
280
341
315
319
295
374
368
321
284
350
355
280
278
348
291
315
298
395
382
311
286
340
340
355
382
325
288
393
296
403
399
319
334
345
335
358
385
324
274
394
302
291
389
295
351
367
360
328
374
338
360
362
312
283
288
284
362
310
364
330
370
391
365
391
314
301
295
389
371
367
270
358
291
397
381
285
320
298
312
386
356
340
275
349
285
294
386
275
352
342
354
374
373
Tableau 2.1 0 Poids (en g) de 100 baies pour 120 observations
Question : raliser une tude statistique descriptive de ces donnes.
2.4.2. Approche statistique et notations
Nous utiliserons les deux familles d'outils prsentes dans le paragraphe prcdent : tout
d'abord les distributions de frquences par le biais de tableaux et de graphiques et ensuite le
calcul des paramtres statistiques.
On note X la variable alatoire PCB (en grammes) et on appelle n le nombre total
d'observations.
30
Type de variables
Aprs avoir ordonn la srie statistique, on peut dire qu'entre deux valeurs successives
distinctes, il peut thoriquement exister une infinit de valeurs possibles pour X ( la prcision
de l'appareil de mesure prs). X varie de faon continue : la variable est dite "variable
quantitative continue". On dcrit gnralement ce type de variable aprs avoir effectu une
rpartition en classes.
R emarque : les donnes sont parfois recueillies ds le dpart sous forme de classes.
Inversement, en considrant la prcision de la mesure, on pourrait " la limite" considrer
la srie statistique comme issue d'une variable discrte.
2.4.3. Distribution des frquences, tableaux et graphiques
On trie les donnes et, si ce n'est dj fait, on les rpartit ensuite dans des classes ; ces
dernires sont gnralement ouvertes aux extrmits infrieures et suprieures mais peuvent
tre fermes. On note :
- Cl1 : Xâ ,
- C l 2 : a , <X<a ; ,
- Clk-i : a^;, < X â^ ,
- Cl k:X>a, ,
Ce choix de classes tant fait, on construit ensuite les outils "frquences" du mme type
que ceux que nous avons dfinis dans le paragraphe prcdent.
Classes
Cl,
Clz
Clk
Frquences absolues
(effectifs par classe)
ni
n2
nk
Frquences relatives
ni/n
nz/n
nk/n
Frquences cumules
ni /n
(ni+n2)/n
1
5- R emarque sur le choix des classes : il n'existe pas une recette type pour choisir des
classes. Divers choix sont possibles : classes de mme amplitude, d'amplitudes
diffrentes, compromis entre ces deux choix (classes plus larges aux petites et grandes
valeurs et de mme amplitude "au milieu", etc...). Il n'y a donc pas de nombre "idal" de
classes. On peut cependant indiquer qu'un nombre trs important de classes, par son
dfaut de "synthse" a tendance "touffer" l'allure de la distribution. On conseille
d'avoir, l'intrieur des classes, une distribution uniforme. Le plus souvent, ce point
n'est pas facile vrifier et, de plus, peut tre antagoniste avec la remarque prcdente :
lorsqu'on restreint le nombre de classes, ces dernires sont relativement vastes, ce qui
favorise l'htrognit l'intrieur de chacune d'entre elles. Nous conseillons d'essayer
plusieurs choix de dcoupages en classes afin d'enrichir l'analyse descriptive.
2.4.3.2. Mise en uvre au moyen d'Excel et interprtation des rsultats
Un tri des donnes montre que le PCB varie de 270 g environ 400 g. Nous proposons
de limiter le nombre de classes une dizaine en adoptant une amplitude de classe de 20 g en
commenant par 280 g. Nous construisons ainsi la matrice des classes, qualifie de "matrice-
intervalles" dans la bote de dialogue de la fonction FREQUENCE et occupant sur notre
feuille la plage dnomme CLAPCB.
280 300 320 400 >400
31
Rappelons ce que signifie cette prsentation.
- Cl1 : X<2 8 0
- Cl2 : 280 < X < 300
- Cl8 : X > 400 (laisser vide cette dernire classe signifie galement X> 400).
Les diverses frquences s'obtiennent de la mme manire que dans le paragraphe
prcdent. On appelle la fonction matricielle FREQUENCE pour obtenir la frquence absolue
de chaque classe. On calcule ensuite les frquences relatives et cumules. Nous obtenons les
rsultats du tableau 2.11.
CLAPCB
280
300
320
340
360
380
400
>400
Total
Frquences
absolues
9
23
15
12
22
20
16
3
120
Frquences
relatives
8%
19%
13%
10%
18%
17%
13%
2%
100%
Frquences
relatives cumules
8%
27%
40%
50%
68%
85%
98%
100%
Tableau 2.1 1 Frquences absolues, relatives et cumules de PCB classe.
Au moyen de l'assistant
graphique, nous pouvons
obtenir l'histogramme ci-contre
qui permet de visualiser la
distribution de PCB. Avec un
tel dcoupage de classes, la
distribution apparat comme
bimodale (en considrant les
modes relatifs).
S
25%
i 20%
0
o tS
04
u
g 10%
3
.g" 5%
"' 0%
280 300 320
POK
340
dsde
360
100 b
380
aies
400 >400
Figure 2.12 Histogramme de PCB.
La 1re classe modale Cl2 ( 280<X<300) contient 19%des observations. La 2
e
classe
modale Cl5 (34 0<X<360) contient 18%des observations. Nous remarquons que cette
classe contient la mdiane puisque la frquence cumule y atteint 50%.
2.4.4. Rsum de l'information. Paramtres statistiques
2.4.4.1. 1re stratgie, partir de la srie valeurs isoles.
Outils statistiques
Cette partie est identique celle que nous avons vue dans le paragraphe prcdent relatif
une variable discrte. Nous conseillons de calculer les paramtres statistiques partir de la
srie statistique observe. Ceci nous parat plus prcis puisque le dcoupage en classes se
prte divers choix. De plus, c'est trs facile raliser. Enfin, comme voqu dans
32
l'introduction, une telle srie peut " la limite" tre considre comme celle d'une variable
discrte.
R emarque : si les donnes ont t collectes sous forme de srie classe, appele
frquemment "srie groupe", nous indiquerons dans la suite de quelle manire on
peut rsumer l'information.
Mise en uvre au moyen d'Excel et interprtation
Tous les paramtres statistiques appliqus et retenus dans le paragraphe prcdent
peuvent tre calculs. Nous proposons de retenir simplement le peigne qui synthtise bien
l'information, les centiles d'ordre 2,5%et 97,5%qui font ressortir les donnes extrmes et,
bien entendu la moyenne, l'cart-type et le coefficient de variation pour leur utilisation
traditionnelle.
Nous obtenons les rsultats reports sur le tableau 2.12.
Commentaires :
- le poids de 100 baies varie de 269 g 403 g
- environ 50%des observations ont un poids de 100
baies infrieur 341,5 g
- 50%des observations ont un poids compris entre
297,5 g et 370,25 g
- Le poids moyen de 100 baies est de 336,53 g
assorti d'un coefficient de variation relativement limit
(11,57%). Cette moyenne, voisine de la mdiane rsume
assez bien les donnes.
Nom statistique
n
MIN
QUARTILE 1
MEDIANE
QUARTILE 3
MAX
CENTILE ( 2,5%)
CENTILE( 97,5%)
MOYENNE
ECART-TYPE
Coefficient de variation
PCB
120
269
297,5
341,5
370,25
403
274,975
399,05
336,533
38,925
11,57%
Tableau 2.12 Paramtres statistiques de PCB.
2.4.4.2. 2
e
stratgie, partir de la srie classe (mise en classes)
R emarque prliminaire : le recueil des valeurs isoles est souvent plus prcis mais
parfois, le recueil en classes peut, en fait, mieux restituer une ralit de terrain.
Ainsi, supposons que l'on ralise une enqute consommateurs et que l'on demande
une famille le montant de sa dpense hebdomadaire en fromages. La rponse selon
une "fourchette" traduit mieux la ralit. Dans de nombreux travaux de recherche, le
nombre d'observations atteignant des milliers, seule une gestion en classes est alors
possible.
Outil "interpolation linaire" (dfinition et application numrique)
Certains paramtres statistiques comme la mdiane, les quartiles et, de manire gnrale
les fractiles, peuvent tre obtenus (de faon approche) partir des frquences cumules
l'aide d'une interpolation linaire.
Par exemple pour dterminer la mdiane, on recherche la classe qui la contient. C'est la classe
]ai-1,ai ]telle que Fi-1 < 0,5 < Fi en notant F la fonction "frquences relatives cumules"
(fonction de rpartition). La mdiane M est l'abscisse du point P d'ordonne 0,5 (voir figure
suivante). Son calcul est le suivant :
0 , 5 - F. M- a
F-F, a, -a,
d' o M=a , _i +( a , - a , , )
0,5-F,
F- F,
33
F,
1/2
Fi-i
a,-i M a
Figure 2.13 Dtermination de la mdiane pour une srie groupe.
Application numrique : la mdiane appartient la 5e classe soit ]340,360].
Fi - 67,5%= 0,675 Fi-1 = 49,17%= 0,4917
ai-1 = 340 ai = 360
0,5-0,4917 1
=340,906 M=34 0+20
1,0,675-0,4917]
R emarque : il est normal d'obtenir une valeur diffrente de celle obtenue partir de
la srie isole. Si on ralisait un autre dcoupage en classes, on obtiendrait une
valeur encore lgrement diffrente.
Tous les fractiles peuvent tre obtenus de faon analogue, notamment les quartiles :
Dterminons le quartile 1 (Q1). En examinant les frquences relatives cumules, il
apparat que Q1 appartient la 2e classe ]280,300] (rappelons que l'on doit atteindre 25%des
valeurs les plus basses).
r O, 25-F , 1
Q, =a , _, +( a . -a , . . ) l p _^- J
Avec ai -1= 280 a, = 300 Fi-1 = 7,5% Fi = 26,67%
on trouve Q1 = 298,26.
Le calcul du quartile 3 (Q3) est du mme type. Il appartient la 6
e
classe ]360,380]
dans laquelle on atteint 75%des valeurs les plus basses.
' O^- F. I
F - F
Avec ai-1 = 360 ai = 380
On trouve Q3 = 368,82.
FM = 67,50% Fi =84,17%
Outil "centre de classes" (dfinition et application numrique)
D'une manire gnrale, lorsque l'on ne dispose que de la srie groupe, pour calculer
certains paramtres statistiques comme la moyenne ou la variance, on utilise les centres de
classes. Le centre de la I
e
classe Cl, ]a,_, ,a, ]se dfinit de manire vidente par la valeur
a, +a,
Si les classes extrmes (infrieure et suprieure) sont ouvertes, on pourra dterminer
dans ces classes des centres de classes fictifs, distants d'une amplitude de classe des centres de
classe extrmes. Ainsi, dans notre exemple (amplitude de classe gale 20),
34
- 1
re
classe ( X < 280 ), centre de classe approch : 290-20 =270
- dernire classe (X > 400), centre de classe : 410.
Pour les calculs de divers paramtres statistiques , la srie groupe est considre
comme quivalente la srie des centres de classe affects des effectifs de la classe.
Classes
Cl1
Cl2
Clk
Frquences
absolues
(effectifs)
n1
n2
nk
Centres de
classes
X1
X2
Xk
Frquences
absolues
(effectifs)
n1
n2
nk
Les calculs de la moyenne et de l'cart-type peuvent alors tre mens "comme la main"
en utilisant les formules indiques dans le paragraphe prcdent.
i
lc
f i
k
~ -
Moyenne x = V n x, et cart-type observ o = J y^n, (x -x)
2
.
n ^ V " ^
Application numrique :
Tableau 2.13 Frquences absolues associes
aux centres de classes de la srie groupe PCB.
CLAPCB
280
300
320
340
360
380
400
>400
Frquences
absolues
9
23
15
12
22
20
16
3
Centres
de classes
270
290
310
330
350
370
390
410
Pour dterminer la moyenne et de la variance partir des frquences absolues et des
centres de classes, nous proposons le rapide calcul suivant.
Tableau 2.14 Frquences absolues,
relatives et carrs des carts la
moyenne pour la srie groupe PCB.
Frquences
absolues n1
9
23
15
12
22
20
16
3
Frquences
relatives ni / n
0,08
0,19
0,13
0,10
0,18
0,17
0,13
0,03
Centres
de
classes xi
270
290
310
330
350
370
390
410
(Xi-X)
2
4312
2085
659
32
205
1179
2952
5525
On copie les frquences absolues ni et les centres de classes xi . On dtermine ensuite les
frquences relatives ni / n . On calcule la 1re valeur et on effectue une recopie vers le bas.
35
ni / n
rf. relative rf. absolue
Pour calculer la moyenne, on utilise la fonction SOMPROD (catgorie Math &Trigo)
=SOMPROD (plage des frquences relatives ; plage des centres de classes)
On trouve x = 335.
Pour la variance, on calcule d'abord les valeurs de (x, - x)
1
, d'abord la premire (x, en
rf. relative et x en rf. absolue) puis les suivantes par une recopie vers le bas. On obtient la
variance comme prcdemment en rutilisant la fonction SOMPROD (recopie droite par
exemple) en remplaant la plage des x, par celle des (xi - x)
2
. On obtient Var X = 1574.
R emarque: il est galement rapide de calculer les valeurs (ni / n) x xi et d'en dduire,
par sommation, la moyenne x. On dtermine ensuite les valeurs (ni / n) * (xi - x)
2
et
l'on aboutit la variance par sommation.
Centres de classes
Xi
270
290
310
330
350
370
390
410
Total
Frquences
absolues ni
9
23
15
12
22
20
16
3
120
Frquences
relatives
ni / n
0,08
0,19
0,13
0,10
0,18
0,17
0,13
0,03
1
x, * ni/ n
20,25
55,58
38,75
33,00
64,17
61,67
52,00
10,25
X =335,67
(ni/ n)*(xi-x)
2
323,41
399,71
82,35
3,21
37,66
196,46
393,61
138,14
Var= 1574,56
Tableau 2.1 5 Dtermination de la moyenne et de la variance de la srie groupe PCB.
36
3. STATISTIQUE DESCRIPTIVE BIVARIE
3.1. INTRODUCTION
La statistique descriptive univarie, premire tape d'exploration d'une base de donnes,
nous a fourni une "photographie" de chacune des variables.
La deuxime tape consiste examiner simultanment deux variables que l'on veut
mettre en rapport. Il va de soi que, dans une tude concrte, on n'tudie pas tous les couples
de variables mais seulement les couples de variables intressants pour les objectifs de l'tude
Dcrire simultanment deux variables constitue la statistique descriptive bidimensionnelle ou
bivarie.
Les types de variables ont t dfinis dans le chapitre prcdent. En statistique
descriptive bivarie, nous distinguerons trois types de couples de variables :
- les deux variables sont qualitatives
- l'une des deux est qualitative, l'autre quantitative
- les deux variables sont quantitatives.
Comme pour la statistique descriptive univarie, les dmarches s'appuieront sur des
exemples concrets. Dans le cadre d'une tude de march de vente directe de viande bovine, on
ralise une enqute prospective. Lors du dpouillement, il est important d'tudier le type de
vente prfr parmi 3 choix proposs, selon le secteur d'appartenance du lieu d'habitation de
l'enqut slectionn parmi 5 secteurs. Cet exemple illustre le croisement de 2 variables
qualitatives (QL) avec respectivement 3 et 5 modalits.
Dans une entreprise, l'examen du nombre de jours de formation par an selon la catgorie
de salari (secrtariat, service technique, comptabilit et service d'entretien) illustre le
"croisement" d'une variable quantitative (QT) et d'une variable qualitative (QL), ici avec 4
modalits.
L'tude de la note de qualit des armes d'un vin du Sud-Ouest (QT) en fonction de la
teneur du mot en acide malique (QT) sert de support l'analyse du croisement de deux
variables quantitatives.
Les principaux outils statistiques choisis pour dcrire ces couples de variables sont
synthtiss dans le tableau rcapitulatif 3. 1 suivant.
EXEMPLE
Vente directe de
viande bovine
Nombre de jours
de formation
Armes d'un vin
COUPLE DE
VARIABLES
2 variables
qualitatives
(QLxQL)
1 variable quantitative
et
1 variable qualitative
(QTxQL)
2 variables
quantitatives
(QT x QT)
OUTILS
RESUME TABLEAUX
Distributions des frquences
absolues et relatives
Outils de statistiques descrip
variable quantitative rptt
de la variable qualitativ
ventuellement l'enserr
spcifiques (covariance,
corrlation)
GRAPHIQUES
Diagrammes en
btons
tive univarie d'une
er chaque modalit
e et appliquer
nble des donnes
Nuage
bidimensionnel
Droite d'ajustement
Tableau 3.1 Outils de statistique descriptive bivarie selon le type de variable.
3.2. COUPLE VARIABLEQUALITATIVE - VARIABLEQUALITATIVE
Exemple : projet de vente directe de viande bovine
Un producteur de viande bovine commande une tude de projet de vente directe. La
conduite d'un tel projet implique diffrentes tudes : juridique, conomique (achats de
matriels, dure des travaux, embauches de personnel, etc...) et naturellement commerciale
Dans ce contexte, une enqute prospective a t ralise dans la zone gographique
concerne : Toulouse et ses environs, Saint-Gaudens et ses environs, ces derniers tant dfinis
par des ensembles prcis de communes. 400 personnes ont t interroges. Un premier
dpouillement fait apparatre que 349 personnes se dclarent intresses par ce type de
commercialisation directe.
Dans ce qui suit, on considre cette strate des 349 enqutes et on analyse les deux
questions "lieu d'habitation X" cod par p = 5 modalits (Toulouse, environs de Toulouse,
Saint-Gaudens, environs de Saint-Gaudens et autres c'est dire enqutes de passage, non
rsidents de la zone considre) et "mode de vente prfr Y" cod par q = 3 modalits (vente
la ferme, vente sur les marchs et vente domicile).
Le dpouillement permet d'obtenir le tableau crois 3.2.
m
a.
^f
a
0-
01
5'
3
Toulouse (Xi)
Environs Toulouse (X;)
Saint-Gaudens (Xa)
Environs Saint-Gaudens PQ)
Autre (Xs)
TOTAUX
Mode de vente prfr
Ferme
(Yi)
45
26
28
61
14
174
Marchs
(Y2)
50
22
21
24
9
126
Domicile
(Ya)
13
11
7
7
11
49
TOTAUX
108
59
56
92
34
349
Tableau 3.2 Tableau de contingence "lieu d'habitation - mode" de vente prfr .
Question : dcrire les prfrences de mode de commercialisation selon les lieux d'habitation
R emarque : lorsque les donnes d'enqute sont saisies dans Excel, un tableau de
contingence de ce type s'obtient facilement au moyen d'un tableau crois dynamique
(cf. Annexe).
3.2.2. Dmarche statistique
D'une manire gnrale, l'analyse statistique descriptive d'un tableau de contingence
peut s'effectuer en utilisant les diverses distributions de frquences assorties de visualisations
graphiques au moyen de diagrammes en btons. Le logiciel tant utilis comme une
calculette, aucune fonction particulire d'Excel n'est ncessaire.
Le tableau qui suit montre la distribution des frquences absolues (ou distribution
d'effectifs).
38
nij est le nombre d'observations simultanes de la modalit xi de X et de la modalit yj
de Y. Les distributions marginales lignes et colonnes sont formes des totaux lignes et
q p
colonnes n, =^n, j et r i j =^n y.
X
X1
Xj
Xp
Distribution
marginale de Y
yi
nu
nu
ripi
n.i
Y
yj
nij
nij
"pi
n.j
Yq
niq
niq
npq
n.q
Distribution
marginale de X
ni.
ni.
np.
n.. = n
Le tableau suivant montre la distribution des frquences relatives. On l'obtient en
divisant les n i j ni et n j du tableau prcdent par l'effectif total.
X
Xi
Xi
Xp
Distribution
marginale de Y
V1
fn
fil
fpi
f.1
Y
yj
fii
fil
fpi
f.i
Yq
fie,
^
fpq
f.q
Distribution
marginale de X
fi.
fi.
fp.
f.. =1
Le tableau des profils ou distribution conditionnelles selon les lignes est obtenu en
divisant l'effectif de chaque ligne par l'effectif total de la ligne. Il reprsente la rpartition en
proportions selon les lignes.
X
Xi
Xi
Xp
Profil ligne
moyen ou
centre de
gravit des
profils lignes
yi
nu / ni
nu / ni.
npi / ni.
n.i / n
Y
Yi
nu/ ni.
nij / ni.
npj / ni.
n.j/ n
Yq
niq/ ni.
niq / ni.
npq
n.q/ n
Poids des profils lignes
ni. / n
ni. / n
npq/ n
Z=1
39
Le poids des profils lignes sont les distributions marginales des frquences des lignes
dites poids associs aux profils lignes. Ils traduisent l'importance de chaque ligne par rapport
l'ensemble des lignes.
Le centre de gravit des profils lignes est constitu par l'ensemble des distributions
marginales des frquences colonnes. 11 dfinit le profil ligne moyen qui rsume l'ensemble des
lignes
De mme, le profil colonne est obtenu en divisant l'effectif de chaque colonne par
l'effectif total de la colonne. Il s'agit de repartitions en proportions selon les colonnes :
X
X1
Xi
Xp
Poids des profils colonnes
yi
nn/ n.i
nu / n.i
ripi / n.i
n.i / n
Y
Yi
nij/ n.j
nij / n.j
rip, / n.j
n.j/ n
Yq
niq / n.q
njq / n.q
ripq / n.q
n.q/ n
Profil colonne moyen
ou centre de gravit
des profils colonnes
ni. / n
ni. / n
np. / n
Z=1
R emarque : lors du traitement de l'exemple, des reprsentations graphiques seront
proposes "directement".
3.2.3. Mise en uvre sur Excel et interprtation des rsultats
3.2.3.1. Distribution des frquences absolues
Reprenons le tableau de contingence observ dans l'enqute (Tableau 3.2).
Un diagramme en btons peut tre obtenu l'aide de l'assistant graphique :
- l'tape 1/4 "type de graphique", dans l'onglet type standard choisir
"Histogramme 3D"
- l'tape 2/4 : "donnes source", dans l'onglet plage de donnes , slectionner la
plage grise clair ci-dessus
- dans l'onglet srie, zone tiquette des abscisses, slectionner la plage grise
sombre ci-dessus (secteurs gographiques)
- les tapes 3/4 "options des graphiques" (titres, chelles, motifs, etc.) et 4/4 ne
prsentent aucune difficult particulire.
Le graphique, simple expression des rsultats, s'affiche (Figure 3.1).
R emarque: il faut noter qu'il devient trs difficile lire ds que le nombre de
modalits est grand.
40
distribution des frquences absolues
on adomicle
Figure 3.1 Distribution des frquences absolues selon le lieu d'habitation
et le mode de vente prfr.
Le diagramme en btons classique (dit "histogramme group" dans Excel) visualise
beaucoup plus clairement les rsultats. Cette reprsentation restitue statistiquement l'aspect
tridimensionnel, c'est dire l ' importance du couple "secteur gographique-mode de vente
prfr.
Figure 3.2 Diagramme en btons "lieu d'habitation -point de vente prfr".
3.2.3.2. Distribution des frquences relatives
Le calcul du tableau des valeurs est immdiat partir du tableau prcdent. On
dtermine la premire valeur (1re ligne, 1re colonne) soit 45 (rf. relative) / 349 (rf. absolue)
en l'affectant ventuellement du format pourcentage et on tire la poigne de recopie vers le
bas puis vers la droite.
SSISSBSiNautt ^^^^^^^^^^^
w: ^nlfBBs^B^lMisSIlS
.i^Wisj^niISgi^^
;'^:gnviro@s!|aiffiGaiuaWS^^^^^^^
S^ff'^sSw^
TOTAUX
Ferme
13%
7%
8%
18%
4%
50%
Marchs
14%
6%
6%
7%
3%
36%
Domicile
4%
3%
2%
2%
3%
14%
TOTAUX
31%
17%
16%
26%
10%
100%
Tableau 3.3 Frquences relatives modes de vente prfrs selon les lieux d'habitation.
41
Le diagramme en btons permettant de visualiser la distribution des frquences relatives
s'obtiendrait comme prcdemment. Il est identique au prcdent au changement d'unit prs
(nij chang en ni j / n.)
Commentaires et interprtation
Ces rsultats, proches des prcdents, se passent de lourds commentaires.
Les distributions marginales fournissent la "photographie" des enqutes selon le secteur
gographique de leur rsidence.
On remarque le fort poids de Toulouse et Saint-Gaudens (respectivement 30,95%et
26%). Bien entendu, dans une telle tude, purement prospective, on ne peut s'intresser la
reprsentativit gographique. Ces rsultats sont intressants pour le producteur qui pourra
tre amen "pondrer" certains rsultats de l'enqute selon sa connaissance de
l'environnement ou selon la stratgie de son choix
On note l'importance des choix de mode de commercialisation.
En rassemblant tous les secteurs, on constate que prs de 50%des enqutes prfrent la
vente la ferme ; les marchs viennent en deuxime avec un score de 36%alors que la vente
domicile ne recueille que 14%des suffrages.
Les distributions conjointes font ressortir 3 couples "secteur-mode de vente prfr"
reprsentant ensemble prs de 45%des enqutes :
- environs de Saint-Gaudens et vente la ferme (18%)
- Toulouse et vente la ferme (13%)
- Toulouse et vente sur les marchs (14%).
Bien entendu, on constate le trs faible score de la "livraison domicile".
R emarque : ces distributions de frquences relatives traduisent l'importance relative
des secteurs gographiques, des modes de commercialisation prfrs et des
associations "secteur-mode" mais ne permettent pas de comparer le comportement
des enquts selon les secteurs ni de comparer l'origine des scores des modes de
vente. Les profils permettent de telles comparaisons. Par suite, ils sont beaucoup
plus intressants puisqu'ils peuvent dcrire la meilleure stratgie commerciale selon
le secteur gographique vis.
3.2.3.3. Profils lignes
Profils lignes
Toulouse
Environs Toulouse
Saint-Gaudens
Environs Saint-Gaudens
Autre
P mfSligne moyen
Ferme
42%
44%
50%
66%
41%
50%
Marchs
46%
37%
38%
26%
26%
36%
Domicile
12%
19%
13%
8%
32%
14%
totaux
100%
100%
100%
100%
100%
poids
31%
17%
16%
26%
10%
100%
Tableau 3.4 Profils ligne "lieu d'habitation".
Rappelons qu'il s'agit de rpartitions en proportions selon les lignes, c'est dire par
secteur. A chaque profil ligne, on associe son poids (importance de la ligne dans l'chantillon
global)
On construit galement le profil ligne moyen (importance des colonnes dans
l'chantillon global).
42
Calcul
On peut raliser ce calcul soit partir du tableau des frquences absolues, soit partir de
celui des frquences relatives.
A partir de ce dernier, pour la ligne 1 (Toulouse), on calcule la 1re valeur (42%) en
faisant le rapport 13%(rf. relative) / 31%(fixer la colonne en actionnant 3 fois la touche F4)
et on tire la poigne de recopie vers la droite. A titre de vrification ou pour interprter
rapidement un tel tableau parmi d'autres, on peut insrer une colonne Total.
Pour les autres lignes, on slectionne la ligne de calculs relative Toulouse et on tire la
poigne de recopie vers le bas .
Graphiques
Chaque profil ligne peut tre visualis l'aide de graphiques ; cependant, l'interprtation
sera enrichie en ralisant la description du profil ligne compare celle du profil ligne moyen.
On peut choisir diffrentes reprsentations sensiblement de mme intrt ; en voici trois
permettant de comparer, par exemple, le profil ligne Toulouse et le profil ligne moyen.
60%
50%
40%
30%
20%
10%
0%
1 Toulouse
I profil ligne moyen
ferme marchs livraison
domicile
profil Toulouse
0% 20% 40% 60% 80% 100%
Figure 3.3 Profil ligne Toulouse (diagrammes en btons, en barres "groupes" et en
barres "empiles").
43
Diagramme en btons
Pour laborer ce graphique, on slectionne les plages grises sur le tableau prcdent
(touche Ctrl pour slectionner des cellules distinctes) et on appelle l'assistant graphique. On
choisit histogramme (onglet) et histogramme group (schma). Les onglets des tapes 1 et 2
sont automatiquement pr-renseigns. L'esthtique du graphique et son emplacement se
rglent au cours des tapes 3 et 4.
Diagramme en barres "groupes"
La procdure est la mme sauf l'tape 2/4 o l'on coche "Srie en colonnes".
Diagramme en barres "empiles"
La procdure est identique.
Dans ce qui suit, afin de ne pas alourdir cet expos, nous n'illustrerons les autres
profils lignes qu'au moyen d'un graphique rcapitulatif ralis au moyen d'un diagramme
barres groupes.
profil ligne moyen
AUTRE
environs SAINT-GAUDENS
SAINT-GAUDENS
environs TOULOUSE
TOULOUSE
Qlivraison domicile
marchs
0 ferme
0% 10% 20% 30% 40% 50% 60% 70%
Figure 3.4 Profil ligne et profil ligne moyen des lieux d'habitation
(diagramme en barres "groupes"),
Le profil moyen est le score des modes de commercialisation prfrs tous secteurs
gographiques confondus Son commentaire est le mme que prcdemment (voir
distributions relatives marginales). Le profil ligne moyen sert de rfrentiel aux diffrents
profils lignes.
Le poids associs aux profils lignes mesure l'importance de chaque secteur dans
l'chantillon global (voir le commentaire des distributions relatives marginales).
Chaque profil ligne est examin (hirarchie des modalits selon leur importance). Le
profil ligne est ensuite compar au profil ligne moyen. Cette comparaison dgage l'originalit,
la spcificit du profil ligne considr. Par exemple, propos du profil ligne "Toulouse", on
constate que, parmi les enquts de cette zone, une forte proportion prfre la vente la ferme
et celle sur les marchs (respectivement 42%et 46%) ; seulement 12%prfrent la vente
domicile.
Parmi les forts pourcentages, on remarque cependant que la proportion d'enquts
toulousains optant pour la ferme est infrieure celle de l'ensemble des enquts (42%contre
50%). Au contraire, le pourcentage d'enquts Toulousains prfrant les marchs est
nettement suprieur celui du profil moyen (46%contre 36%). Ce profil a un poids trs
important (36%).
44
Examinons plus rapidement les autres profils.
Environs de Toulouse
- forte importance de "ferme" mais infrieure celui du profil moyen
- forte importance des marchs mais trs proche du score gnral
- faible importance de la livraison domicile, mais suprieur l'ensemble
Saint-Gaudens : profil trs proche du profil moyen.
Environs de Saint-Gaudens : profil trs typ.
- Prfrence trs marque pour la vente la ferme, nettement suprieure celle
du profil moyen (66%contre 50%) ; cela peut s'expliquer facilement si l'on
prcise que le producteur habite ces environs
- seulement 26%des enquts de ce secteur prfrent acheter au march (36%
pour l'ensemble)
- seulement 8% sont favorables la vente domicile (le double pour
l'ensemble).
- Enfin, il faut rappeler que ce profil concerne 26%de l'chantillon.
Ce profil est certainement important pour orienter la dmarche du producteur.
Autre : profil galement trs typ mais diffrent du prcdent.
- forte attirance pour la livraison domicile (32%contre 14%pour le profil
moyen)
- ce profil a un faible poids dans l'chantillon, peu prs 10%. On devine que,
concrtement, le producteur devra tudier de plus prs cette cible potentielle
compte tenu des frais engendrs par la livraison domicile et de la faiblesse du
poids associ.
Synthse des profils lignes : tous secteurs confondus.
- profil moyen : Ferme (50%) > March (36%) Domicile (14%)
- dans tous les secteurs gographiques except "Autre", les modes de
commercialisation "Ferme" et "Marchs" sont les plus cits ; en rassemblant
ces deux modes de vente, le taux de prfrence passe de 81 % 92%selon les
secteurs
- dans tous les secteurs sauf Toulouse, c'est la vente la ferme qui prdomine ;
cela n'est pas surprenant compte tenu des valeurs du profil moyen. On peut
remarquer que, mme si Toulouse prfre les marchs, l'cart reste minime
(moins de 5%)
- pour le producteur, les possibilits se dessinent assez clairement. En ce qui
concerne la vente la ferme, selon les secteurs, de 41% 66%des personnes
sont intresses. Pour la vente la ferme et sur les marchs, en excluant le
secteur "Autre", 81% 92%des enquts sont intresss selon les secteurs.
3.2.3.4. Profils colonnes
La dmarche est analogue la prcdente : il suffit d'changer les rles lignes-colonnes.
Nous obtenons les rsultats numriques et graphiques du tableau 3.4 et de la figure 3.5.
Commentaires succincts
Le profil colonne traduit la participation relative de chaque secteur gographique au
score obtenu par un mode de commercialisation.
Les environs de Saint-Gaudens contribuent 35%au profil "ferme", Toulouse 26%,
Saint-Gaudens 16%, les environs de Toulouse 15%et seulement "Autre" 8%.
45
Au profil, on associe le poids qui reprsente l'importance du profil dans l'chantillon
global. Ainsi, au profil "ferme" est associ un trs fort poids (41%) qui exprime le
pourcentage d'enquts ayant prfr ce mode de commercialisation compar "marchs"
(36%) et "domicile" (14%).
Profils colonnes
Toulouse
Environs Toulouse
Saint-Gaudens
Environs Saint-Gaudens
Autre
Total
Poids
Ferme
26%
15%
16%
35%
8%
100%
50%
Marchs
40%
17%
17%
19%
7%
100%
36%
Domicile
27%
22%
14%
14%
23%
100%
14%
P rofil
colonne
moyen
31%
17%
16%
26%
10%
111111111
100%
Tableau 3.5 Profils colonne "mode de vente prfr".
Figure 3.5 Profils colonne "mode de vente prfr".
Dans cet exemple, le profil colonne moyen reprsente simplement l'importance de
chaque secteur dans l'chantillon, c'est dire tous modes de commercialisation confondus. On
reconnat la distribution marginale colonne des frquences relatives commente
prcdemment. Le profil colonne moyen sert de rfrence aux diffrents profils colonnes.
Dcrivons succinctement chaque profil colonne.
Ferme : Comme pour le profil moyen, on note une forte participation des secteurs
"Toulouse" et "environs de Saint-Gaudens". Cependant, la participation de Toulouse reste
infrieure d'environ 5%au pourcentage des Toulousains dans l'chantillon ; par contre, la
participation du secteur environs de Saint-Gaudens dpasse nettement celle du profil moyen
(9%en plus)
Marchs : Comme dans le profil moyen, on note une forte participation des secteurs
"Toulouse" et "environs de Saint-Gaudens". On remarque qu'en proportion davantage de
Toulousains ont prfr ce mode de vente qu'il n'y a de Toulousains dans l'chantillon global
(environ +9%). Par contre, mme si la participation du secteur "environs de Saint-Gaudens"
est importante, elle reste infrieure celle du profil moyen.
46
Domicile : ce profil est trs typ et trs diffrent du profil moyen. 27%des suffrages
obtenus par ce type de vente proviennent de Toulouse. C'est la contribution la plus
importante, cependant infrieure celle du profil moyen. On trouve ensuite les secteurs
"Environs de Toulouse" et "Autre" (22%chacun, suprieur au profil moyen). En particulier,
on remarque que 22%des choix de ce mode proviennent du secteur "Autre" alors que ce
secteur ne reprsente que 10%de l'chantillon. On peut comprendre que, concrtement, ces
personnes n'habitant pas en permanence dans ces zones prfrent tre livres domicile.
Rappelons que ce profil a un poids beaucoup plus faible dans l'enqute.
Synthse des profils colonnes
Toulouse et les environs de Saint-Gaudens contribuent fortement aux profils des trois
modes de vente.
En ce qui concerne les profils "ferme" et "Marchs", les contributions essentielles sont
issues des secteurs "Toulouse" et "Environs de Saint-Gaudens" ce qui est naturel compte tenu
de la composition de l'chantillon global (profil colonne moyen). Environ 60%des voix
recueillies par chacun de ces deux modes de commercialisation proviennent de ces deux
secteurs ; ceci correspond l'importance de la reunion de ces deux secteurs dans l'chantillon.
Il est par ailleurs essentiel de rappeler l'importance des poids associs ces deux profils
"Ferme" et "Marchs" (respectivement 50%et 36%).
Concrtement, nous retrouvons des lments de convergence avec les rsultats fournis
par l'analyse descriptive des profils lignes qui, dans cet exemple, semble plus riche.
3.3. COUPLE VARIABLEQUANTITATIVE - VARIABLEQUALITATIVE
Exemple : nombre de jours dformation selon les catgories de personnel
Dans le chapitre consacr la statistique descriptive univarie, nous avons dcrit les
variables quantitatives discrtes et continues, ces deux types de description tant trs proches.
Pour tudier le croisement d'une variable quantitative avec une variable qualitative, il suffit en
fait de dcrire la variable quantitative pour chacune des modalits de l'autre. ventuellement,
on peut ajouter la description de la variable quantitative sur l'ensemble des observations.
Dans une entreprise de constructions mtalliques, en fin d'anne, on fait le bilan des
diverses formations suivies par les salaris. Dans cet exemple, on considre uniquement les
stages de formation continue et l'on s'intresse au nombre de jours de formation selon les
catgories de personnel.
SECRETARIAT
TECHNIQUE
COMPTABILITE
ENTRETIEN
1
8
4
12
1
8
4
3
1
8
4
5
2
8
4
6
2
8
4
14
2
8
4
3
3
8
4
3
3
8
3
4
3
8
3
4
3
8
3
6
3
8
5
6
3
8
5
2
3
10
5
1
4
10
2
1
4
9
2
1
4
9
6
1
4
9
6
3
5
9
10
5
5
5
10
5
5
6
10
8
SECRETARIAT
TECHNIQUE
COMPTABILITE
ENTRETIEN
6
12
10
8
6
7
10
10
7
7
10
10
7
7
10
11
10
7
9
9
15
7
9
7
11
6
9
4
6
11
2
6
11
3
4
11
4
4
8
8
12
8
12
3
12
12
12
12
3
2
7
8
2
15
8
15
9
15
15 15 15
Tableau 3.6 Nombre de jours de formation selon la catgorie.
On distingue quatre grandes catgories : le secrtariat, le service technique, le service de
gestion comptable et le service d'entretien. Pour chaque salari concern de chaque catgorie,
on a relev la dure totale de formation en nombre de jours et on obtient les rsultats indiqus
47
sur le tableau 3.4 (pour des raisons d'dition, ce tableau est prsent ici en deux morceaux,
l'un au dessous de l'autre. Sur le tableur, il convient de le saisir "en colonnes" par exemple).
Question : raliser une analyse statistique descriptive de ces donnes.
3.3.2. Dmarche statistique et rsultats
Les outils statistiques et la mise en uvre sur Excel ayant t approfondis dans le
chapitre de statistique descriptive univarie, nous proposons d'en exposer simplement les
rsultats. Comme on le fait souvent en pratique, nous faisons le rsum de l'information
l'aide des paramtres statistiques suivi des distributions de frquences visualises par les
histogrammes.
3.3.2.1. Paramtres statistiques
Description de chaque catgorie
Pour le calcul des paramtres statistiques de chaque catgorie, nous conseillons de
calculer tous les paramtres statistiques de la premire catgorie (secrtariat) en travaillant en
rfrences relatives. Pour les autres catgories, il suffira ensuite de slectionner l'ensemble des
rsultats et d'utiliser la poigne de recopie.
R emarques
Pour renseigner la plage des donnes, il est indispensable de considrer les mmes
dimensions pour les plages de valeurs de toutes les catgories, soit la dimension
maximale (40 observations dans notre exemple), soit une taille suprieure en
prvision d'autres calculs dans cette tude ou mme pour servir de modle des
tudes ultrieures. En effet comme Excel gre les manquants, on peut affiner d'autant
plus une tude statistique que l'on prvoit son utilisation pour d'autres cas. En
rsum, dans notre exemple :
1
2
3
4
26
27
28
35
36
37
38
39
40
SECRET
1
1
1
2
15
11
TECHN
8
8
8
8
7
6
6
2
2
15
15
COMPTA
4
4
4
4
9
9
11
7
15
ENTRET
12
3
5
6
7
4
2
8
8
9
15
15
15
Pour la plage des donnes, il faut
slectionner un nombre de lignes
ni au moins gal 40.
On a not :
- SECRET pour Secrtariat
- TECH pour Technique
- COMPTA pour Comptabilit
- ENTRET pour Entretien.
Pour une telle tude descriptive, nous conseillons de ne pas nommer les plages de
donnes de chaque catgorie. Cela permet d'utiliser les rfrences relatives et de
bnficier ainsi de l'utilisation de la poigne de recopie pour les autres catgories et,
de plus, entrane un gain de temps apprciable et d'autant plus important que le
nombre de modalits de la variable qualitative est grand.
48
Par contre, il sera trs pratique de nommer les plages de donnes dans le cadre
d'autres calculs (par exemple pour l'application future de tests statistiques).
Description de l'ensemble
Sur le plan concret, rsumer l'information sur l'ensemble des donnes peut parfois tre
discutable car il peut tre maladroit de "tout mlanger". Dans d'autres cas, une synthse
gnrale peut au contraire servir de rfrence.
Sur Excel, on peut utiliser au moins deux mthodes :
- cette fois, on nomme D la zone des valeurs (40 lignes, 4 colonnes). On place
l'ensemble des paramtres statistiques dj calculs sur une 5
e
colonne et, dans
la barre de formule, pour chaque paramtre statistique, on remplace les
rfrences relatives des plages de donnes par D
- l'aide de copier-coller successifs, on peut aussi remplir une 6
e
colonne de
l'ensemble des donnes, le nombre n1 de lignes mentionn dans la "description
de chaque catgorie" devenant au moins gal au nombre total d'observations.
Tout se passe alors comme si l'on avait une 5" catgorie et on peut utiliser la
poigne de recopie pour en obtenir les rsultats.
Les deux procds sont peu prs aussi rapides, le 1
er
tant plus "esthtique" au niveau
de la prsentation des donnes.
P ARAMETRESSTATISTIQUES
NBVAL
MIN
QUARTILE 1
MEDIANE
QUARTILE 3
MAX
MOYENNE
ECARTYPEP
CV
COEFFICIENT.ASYMETRIE
KURTOSIS
tendue
IQR
SECRET
27
1
3
4
5,5
15
4,556
3,178
70%
1,702
3,332
14
2,5
TECHN
38
2
6,25
8
9
15
7,816
2,882
37%
0,371
0,958
13
2,75
COMPTA
36
2
4
7,5
10
15
7,222
3,384
47%
0,177
-1,067
13
6
ENTRET
40
1
3
6
9,25
15
6,650
4,181
63%
0,532
-0,738
14
6,25
Ensemble
141
1
4
6
9
15
6,709
3,653
54%
0,446
-519,000
14
5
Tableau 3.7 Paramtres statistiques du nombre de jours de formations selon les catgories et
globalement.
Commentaires
Comparons les 4 catgories.
- Extrmes
Quelles que soient les catgories, le nombre de jours de formation se situe dans la mme
gamme de valeurs: de 1 2 jours au minimum 15 jours au maximum.
- Mdianes
Les mdianes diffrent selon les catgories. La plus faible valeur concerne le secrtariat.
La moiti des secrtaires concerns prennent entre 4 et 15 jours de formation alors que la
moiti des salaris comptables ou du service technique prennent entre 8 et 15 jours. Le
rsultat est intermdiaire pour le service d'entretien.
- Moyennes
Pour chaque catgorie, on remarque pour ce paramtre des rsultats trs proches de la
mdiane. En moyenne, la dure de formation au secrtariat est de 4, 5 jours contre 7,8 au
service technique et la comptabilit ; le service entretien est ici aussi intermdiaire (6 jours).
49
En rsum, en considrant mdianes et moyennes, il apparat que les dures de
formation dans les services techniques et comptables sont plus levs que dans les autres.
- Quartiles
50%des secrtaires suivent des formation entre 3 et 5,5 jours alors que 50%des salaris
du service technique suivent des formations de 6 9 jours On remarque des intervalles inter-
quartiles (IQR) similaires (2,5 et 3 jours). A la comptabilit, 50%des formations ont une
dure comprise entre 4 et 10 jours ; mme constat au service entretien (dcalage de 1 jour en
moins) Pour ces deux catgories, l'IQR (environ 6 jours) dpasse le double de celui des deux
autres catgories.
- cart-types et coefficients de variation
Les cart-types sont de l'ordre de 3 4 jours. Par suite, sans comparaison relative la
moyenne, ces indications de dispersion sont proches. Les coefficients de variation (cart-types
exprims en proportion de la moyenne) sont trs levs : il y a donc beaucoup de dispersion
autour de la moyenne. Ce dernier paramtre n'est donc pas un bon rsum des donnes.
Si l'on utilise le CV comme outil de comparaison et donc de l'htrognit des 4
catgories, il apparat que les plus levs sont relatifs au secrtariat et au service entretien.
Pour ce dernier, l'importance de l'intervalle inter-quartile avait dj t remarque : ceci
exprime une forte dispersion de la distribution qui, elle-mme, engendre un fort CV. En ce qui
concerne le secrtariat, le fort CV est en partie d la faible moyenne de la dure de
formation ce qui, en relativit, dilate la dispersion. C'est le phnomne inverse qui explique
que le CV du service technique est pratiquement gal la moiti de celui du secrtariat
- Coefficients de forme
Nous remarquons la singularit de la catgorie secrtariat : dissymtrie gauche, faible
aplatissement. Les distributions de frquence assorties des histogrammes permettront de
mieux approcher cette singularit.
Description de l'ensemble des catgories
Examins isolment, ces rsultats constituent une bonne synthse pour l'entreprise :
chacune des catgories peut tre compare l'ensemble considr alors comme rfrence.
On remarque que le service d'entretien ressemble assez bien l'ensemble (except
l'cart-type et par suite le CV). Concrtement, il est intressant qu'une catgorie relle soit, en
quelque sorte, reprsentative de l'ensemble , lors de la comparaison des 4 catgories, nous
avons remarqu le caractre intermdiaire de ce service notamment entre le secrtariat et
"service technique + comptabilit". Par suite, relativement ces deux groupes de catgories,
nous retrouvons les remarques dj faites mais, cette fois, par rapport l'ensemble.
R emarque : le nombre d'observations de chaque catgorie fourni par la fonction
NBVAL se passe de commentaires! En pratique, on prpare souvent une grille type
pour ses traitements courants. Pour de futurs calculs statistiques, il est important de
connatre les tailles d'chantillons.
3.3.2.2. Distributions de frquences et histogrammes
Nous choisissons des classes
d'amplitude 2 et formons la
matrice des classes ci-
contre.
Classes
2
4
6
12
> 12
"^signifie nombre de jours ^2
^signifie 2 < nombre de jours
<4
50
On utilise la fonction FREQUENCE dont la manipulation a t explique dans le
chapitre prcdent (statistique univarie).
Comme ci-dessus, nous conseillons de calculer la distribution de frquence pour la 1re
srie statistique (secrtariat) et d'utiliser ensuite la poigne de recopie pour les autres
catgories, pour renseigner la bote de dialogue, on fera attention aux types de rfrences pour
la 1re distribution (matrice-donnes en rfrences relatives et matrice-intervalles en rfrences
absolues. On contrlera l'exactitude du total (gal NBVAL de la 1re catgorie).
Classes
2
4
6
8
10
12
>12
Total
SECRET
6
11
5
2
1
1
1
27
TECHN
2
3
5
17
6
3
2
38
COMPTA
2
10
5
3
10
5
1
36
ENTRET
6
10
6
6
4
4
4
40
Classes
2
4
6
8
10
12
>12
Total
SECRET
22%
41%
18%
7%
4%
4%
4%
100%
TECHN
5%
8%
13%
45%
16%
8%
5%
100%
COMPTA
5%
28%
14%
8%
28%
14%
3%
100%
ENTRET
15%
25%
15%
15%
10%
10%
10%
100%
Tableau 3.8 Tableaux des distributions de frquence des jours de formation selon les catgories.
a) Distribution des frquences absolues (DFA) b) Distribution des frquences relatives (DFR)
Distribution des frquences relatives
Les nombres d'observations des sries statistiques sont gnralement diffrents. Pour
comparer les distributions, on doit calculer les frquences relatives. Ces pourcentages ne
doivent pas tre sortis du contexte car les bases sont petites (27 individus).
10%
o%4
^
2
%
4 6
^-^-
;
^--1
8 10 12 >12
(ours
50%
40%
30%
20
10%
6 8 10 12 >12
jours
Secrtariat
Technique
10%
5%
2
? ^
'S'.;' -:;(,'!
N^
4
as
6
f
^^^
sS^S
8
^' ::
.
:
4
10
%<
12 >12
ours
30%T
25%
4I:Q[
10%
5%
2
Iv'
4
N^
6 8 10 12 > 12
jours
Comptabilit Entretien
Figure 3.6 Histogrammes des jours de formation selon les catgories.
51
Sur Excel, on dtermine la 1re valeur (1re classe pour le secrtariat : 22%) en crivant
dans cette cellule du tableau DFR le rapport 6 (rfrence relative) / 27 (rfrence absolue :
fixer ligne) des cellules concernes du tableau DFA. Tirer ensuite la poigne de recopie (de
22 4) et ensuite de cette colonne la dernire. On veillera assortir ces cellules du format
"Pourcentage" avec le nombre de dcimales dsir.
Graphiques :
L'laboration de ces histogrammes est explique dans le chapitre prcdent (statistique
univarie). On utilise l'Assistant graphique qui ne prsente aucune difficult particulire.
On peut galement grouper l'ensemble des catgories sur un mme graphique, mais si
l'on gagne en concision, on risque de perdre en clart s'il y a trop de catgories et de classes.
distribution des frquences relatives
QSECRETARIAT
TECHNIQUE
D COMPTABILITE
BSERVICE
4 6 8 10 12
nombre de jours de formation
>12
Figure 3.7 Distribution des frquences relatives des jours de formation selon les catgories.
Pour le Secrtariat, la distribution est fortement dissymtrique (gauche). La classe
modale ]2j , 4j]contient 40%de l'effectif, soit 11 individus La moyenne n'appartient pas
cette classe et est au-del de cette classe ; cela ne surprend pas dans une telle dissymtrie.
En ce qui concerne le Service Technique, la distribution prsente une bonne symtrie.
La classe modale ]6j , 8j]contient la moyenne et la mdiane ce qui renforce l'intrt de ces
paramtres pour rsumer la srie statistique.
Pour la Comptabilit, la distribution est bimodale. Les classes modales ]2j , 4j] et
]8j , l Oj ] contiennent chacune peu prs 28%de l'effectif de la catgorie soit 10 individus.
La mdiane et la moyenne sont dans la classe ]6j , 8j]qui couvre 8%des effectifs. Ici,
]8J
l'interprtation courante et botienne de la moyenne est particulirement fausse : peu
d'individus ont suivi une formation de dure gale cette moyenne. Cette distribution met
bien en vidence le danger de la moyenne en tant que paramtre rsum en statistique
descriptive
Enfin, pour le Service Entretien, aucune structure n'apparat dans cette distribution.
Malgr plusieurs tentatives de dcoupage en classes, c'est souvent le cas. Il faut admettre que
la ralit n'accepte pas toujours un lissage aussi harmonieux que celui de la loi Normale.
52
En rsum, ce petit exemple donne un aperu de la diversit des distributions
rencontres le plus souvent dans la pratique :
- distribution dissymtriques
- distribution symtriques du type loi gaussienne
- distributions bimodales
- distributions quelconques.
Il est intressant de remarquer galement la place du traditionnel paramtre statistique,
la moyenne, dans ce type d'tude.
Histogramme global
Bien entendu, on retrouve les commentaires prcdents. Dans l'ensemble, la distribution
du secrtariat est dcale vers la gauche par rapport aux autres, ce qui signifie que les dures
de formations des secrtaires sont plus faibles que dans les autres services.
On remarque immdiatement l'importance de la classe modale du service technique
(forte proportion) relative en outre, un nombre de jours important. Les deux modes de la
Comptabilit encadrent le mode du Service Technique. Les pratiques contrastes de la
Comptabilit apparaissent clairement.
3.4. COUPLE VARIABLE QUANTITATIVE - VARIABLEQUANTITATIVE
Exemple :volution de la qualit des armes d'un vin en fonction de la
concentration en acide malique
Dans un institut technique, on tudie un vin du Sud-ouest issu d'un certain terroir. Dans
cette tude, on s'intresse la corrlation ventuelle entre la qualit des armes du vin et sa
concentration en acide malique mesure dans le mot. La finalit serait de pouvoir prdire la
qualit des armes partir de la concentration en acide malique.
La qualit des armes est indique par une note fournie par un jury de dgustation selon
une chelle croissante de 0 10. La concentration en acide malique est exprime en g/l. On
dispose ainsi des n = 33 observations reportes sur le tableau 3.7 (Dans Excel, ce tableau doit
tre saisi sur une seule paire de colonnes).
Acide
malique
QUALITE
DES
AROMES
Acide
malique
QUALITE
DES
AROMES
9,6
3,5
4,5
3,5
6,5
1,0
7,8
4,5
4,5
1,0
8,2
6,0
5,0
1,5
8,0
5,5
5,2
2,5
10,4
8,0
5,1
3,0
10,8
8,5
9,5
5,0
10,5
8,0
10,0
6,0
8,0
5,5
9,6
5,5
8,4
7,0
10,2
6,0
8,2
6,5
10,4
7,0
6,0
5,0
10,3
7,0
6,4
6,0
6,5
2,0
6,2
6,0
6,7
4,5
6,8
6,5
6,6
3,5
6,6
4,5
4,3
3,0
10,1
9,0
4,7
4,0
Tableau 3.9 Note de qualit des armes et concentration en acide malique.
Questions
a) Dcrire la liaison entre ces deux critres au moyen de paramtres statistiques et,
graphiquement, au moyen d'un "nuage " de points.
b) Ajuster ce nuage par une droite de rgression (ou "droite des moindres carrs").
53
c) On dispose de 5 nouvelles mesures de concentration en acide malique. Prdire la
note de qualit des armes des vins obtenus au moyen du modle fourni par la droite
d'ajustement prcdente.
On notera Y la qualit des armes. C'est la variable expliquer ou variable dpendante.
La concentration en acide malique (en g/l) sera note X. C'est la variable explicative ou
prdicteur.
3.4.2. Reprsentation graphique : diagramme de dispersion
La manire la plus simple et la moins dformante de dcrire une srie statistique double
est de la visualiser par un nuage de points (diagramme de dispersion).
Sur la feuille Excel, il faut slectionner la plage des donnes (dans l'ordre X Y) et
appeler l'assistant graphique. On choisit "Nuage de points" (simple nuage). Cliquer ensuite sur
"Suivant" : la plage des donnes indique les colonnes prslectionnes. On prsente ensuite
titres et axes selon ses choix.
Rappelons qu'en positionnant le curseur sur un point quelconque du nuage, une info
bulle indique les coordonnes de ce point et permet ainsi de l'identifier
10 ,
9
7
5
3
2
1
0
t
Qualit des armes "

*
* *
4 Concentralion acide malique (en g/1)

5 6 7 8 9 10 11 1
Figure 3.8 Relation note de qualit des armes et concentration en acide malique (en g/ l).
On constate que le nuage s'tire longitudinalement dans le sens de croissance de la
qualit des armes avec la concentration en acide malique.
3.4.3. Rsum des donnes au moyen des paramtres statistiques
3.4.3.1. Prsentation des outils statistiques
Paramtres statistiques marginaux
Les paramtres moyenne et variance constituent un premier rsum de chaque srie.
l " 1 "
x =^x , Varx =o^=^( x, -x)
2
1 " 1 "
y=-y, y, Va r y=o ^=-^( y, -y)
2
n ^ n t-i
54
R emarque : nous choisissons d'exprimer ces paramtres en considrant les sries
"X" et "Y" crites au sens large ( xi < xi+1 Vi =l , n e t y , <y , , , Vi = 1, n ), usage le
plus frquent et le plus adapt Excel.
Le couple ( x , y ) dfinit le centre de gravit ou barycentre de la srie double (X , Y) ou
encore du nuage de points. Notons G ce point de coordonnes ( x , y ).
Paramtres statistiques bidimensionnels
La covariance entre x et y se dfinit par
(^(x.y^-'-^x.-xXy.-y^-'-SPE
" M n
n _ _
avec la Somme de Produits des carts SPE=^(x, -x)(y, -y).
y ,
y
t, Si
<)
S3)
S Notons Si, Sa, 83 et S4
( f ~) dlimits par les droite
G
1
-
" i V 1 - - f \Jl J f
S.
'> x
Dans les secteurs S2 et S3, les termes produits Pi contribuent positivement la
covariance et expriment une relation croissante entre les variables x et y. C'est l'inverse dans
les quadrants S1 et S4, soit, finalement :
- Cov (x,y) > 0 => y fonction croissante de x
- Cov (x,y) < 0 => y fonction dcroissante de x
- Cov (x,y) = 0 => les contributions positives et ngatives des produits Pi se compensent.
Deux cas particuliers sont galement possibles :
x , - x Vi e{l , 2, . . . , n} (1)
y , - y Vi e {l , 2, . . . , n} (2)
Dans ces cas particuliers, l'une des deux sries est constante :
(1) les points sont situs sur la droite x = x
(2) les points sont situs sur la droite y = y .
R emarque : tout comme la variance, la covariance est lie aux units. Par suite, la
valeur numrique de la covariance est peu exploitable en pratique. On peut indiquer
le changement de variable alatoire affine pour percevoir l'importance de cette
remarque : Cov (ax + b , cy + d) = ac Cov (x,y) (a, b, c et d tant des coefficients
rels).
La proprit fondamentale de la covariance est que sa valeur absolue est infrieure ou
gale au produit des carts-types :
|Cov(x,y)|< O,CT,
Dans le cas de l'galit, il a liaison linaire entre x et y : y = ax + b (a et b rels).
55
Le coefficient de corrlation linaire entre X et Y, not r(x,y) est dfini par
Cov(x,y)
avec CT. et o,, Ô
Le coefficient de corrlation est du mme signe que la covariance ; on peut donc faire
son sujet les mmes remarques relativement au caractre croissant ou dcroissant de la
relation entre x et y :
0 <r < 1 - 1 <r <0
x/ ' => y\
et y.
D'aprs la proprit fondamentale de la covariance, il apparat que
|r |<l <S> - Kr <l
r = l o liaison linaire entre x et y.
Le coefficient de corrlation r(x,y) mesure donc l'"intensit" de la liaison linaire entre x
> - R emarques
- Le coefficient de corrlation est indpendant des units. Par suite, c'est un
paramtre statistique frquemment utilis.
- r = 0 traduit l'absence de liaison linaire entre x et y. Le nuage (x,y) peut ne
prsenter aucune structure ou prsenter une structure autre que linaire comme
sur les figures suivantes.
r=0
Lorsque
r
= 1 , le nuage de points "s'tire linairement". Nous dconseillons
cependant une telle conclusion conscutive la lecture seule du coefficient de
corrlation. Nous recommandons l'examen du nuage de points. En effet, dans
quelques cas exceptionnels, quelques points rares et marginaux peuvent
entraner la linarit.
56
y A y
;'*/*
/

-> x I> x
Frquent Parfois...
Il est clair que, dans ce deuxime cas de figure, il convient de diffrencier deux sous-
ensembles de points.
Rappelons que corrlation n'implique pas causalit. La recherche des causes incombe au
spcialiste du sujet trait et non au statisticien!
3.4.3.2. Mise en uvre au moyen d'Excel
Paramtres statistiques marginaux
Moyennes (fonction MOYENNE)
- acide malique : 7,62
- qualit des armes : 5,03
- centre de gravit : G (7,62 ; 5,03) (point moyen du nuage).
Variances (fonction VAR.P)
- acide malique : 4,33.
carts-types (fonction ECARTYPEP)
- acide malique : 2,08.
Coefficient de variation
- qualit des armes : 42%
- acide malique : 27%.
Les valeurs de ces paramtres statistiques sont peu interprtables pour un non praticien ;
seul le coefficient de variation traduit une plus forte dispersion de la qualit des armes.
Paramtres statistiques bidimensionnels
La fonction COVARIANCE donne 3,293. Cette valeur tant positive, la qualit des
armes Y est une fonction croissante de la concentration X en acide malique.
Dans la bote de dialogue de la fonction COEFFICIENT.CORRELATION, on renseigne
"Matrice1" en slectionnant les valeurs de la concentration en acide malique et la zone
"Matrice2" par les valeurs de la qualit des armes. On trouve la valeur 0,756. Cela signifie
que la confrontation de la valeur positive et relativement leve de ce coefficient la
visualisation du nuage de points traduit une linarit relativement convenable entre la qualit
des armes et la concentration en acide malique.
La qualit des armes est une fonction croissante de la concentration en acide malique.
57
3.4.4. Rgression linaire simple de y en x ou droite de rgression
3.4.4.1. Objectif
Les statistiques descriptives prcdentes nous orientent vers la recherche d'un modle
linaire Y=AX+B+ permettant de prdire la qualit des armes (Y) partir de la
concentration en acide malique (X). La rgression est dite simple car on ne considre qu' une
seule variable explicative.
3.4.4.2. Outil statistique
II s'agit de dterminer les coefficients de l'quation de la droite y = ax + b.
On recherche les coefficients rels a et b (meilleures estimations de A et B) tels que la
droite y = a x + b soit "la plus proche" possible du nuage de points au sens des moindres
carrs.
n
Soit : (a,b) ? tels que Ve,
2
mi ni mum avec e, = y, -(ax, +b) .
i-i
Le calcul de cette optimisation conduit aux rsultats
a^
0
^) b^y-x^^t
Varx [
varx
J
Par suite, l'quation de la droite de rgression (selon le critre des moindres carrs)
Cov(x, y) , -
s crit y - y = (x-x).
Varx
R emarque : la droite de rgression passe par le centre de gravit G(x, y)
Notation et vocabulaire
- y, âx, + b : estimation de la valeur de y par le modle ou valeur de y prdite
pour y lorsque x = x,.
- y, - y, = y, -(ax, +b) = e, est appel "rsidu" ou erreur.
Indice de qualit et coefficient de dtermination
On tablit l'quation de l'analyse de variance :
S C E y
Variabilit
totale de Y
S P E S C E
y y
Variabilit explique par Variabilit due aux
le modle rgression rsidus
58
La qualit de la rgression est souvent exprime par le coefficient de dtermination not
SPE -
R . Ce coefficient est la proportion de variabilit explique par le modle : R
2
=
SCE,
Le coefficient de dtermination est le carr du coefficient de corrlation entre y et x soit
R
2
- r
2
(x,y).
Proprits des rsidus
- La moyenne des rsidus est nulle : e = 0.
- Les rsidus ne sont corrls ni avec x ni avec y : r(e, x)= 0 et r(e, y) = 0.
3.4.4.3. Mise en uvre sur Excel
1
re
mthode
On aboutit facilement la droite d'ajustement et au coefficient de dtermination partir
du nuage de points affich sur la feuille. Au moyen d'un clic droit sur un point quelconque du
nuage, on slectionne tous les points. Sur le menu contextuel qui apparat, choisir "Ajouter
courbe de tendance". Dans la fentre "Insertion de courbe de tendance", l'onglet "options"
permet d'afficher sur le graphique l'quation ainsi que le coefficient de dtermination R .
Le modle permettant de prdire la qualit des armes partir de la concentration en
acide malique est y = 0,76 x - 0,77. Quand la concentration augmente d'une unit, la note de
qualit des armes augmente de 0,76.
VI
(D
<D
03
3
0-
0
'5
c
0 2 4 6 8 10
!fi
1
QUALITE DES AROMES
10
6
4
2
acide malique
-....
-* ^^S
1
*^*
9
^-r^^*
* S
y
^
12
=0,7
R
2
609x-0,7712
= 0,5724
Figure 3.9 Droite d'ajustement de la note de qualit des armes en fonction de la concentration
en acide malique (en g/ l).
La qualit du modle est exprime par le coefficient de dtermination. 57% de la
variabilit de la qualit des armes est explique par ce modle.
R emarque : cette mthode est extrmement rapide et conviviale ; sa seule faiblesse
rside dans le fait que l'on ne peut rcuprer "directement" l'quation de la droite de
rgression affiche dans le graphique afin de raliser des prdictions et de calculer
les rsidus.
2
e
mthode
On dtermine sparment chacun des coefficients a et b.
Pour dterminer le coefficient a, on utilise la fonction PENTE, e rsultat est 0,761.
Le coefficient b est fourni par la fonction ORDONNEE.ORIGINE. L'argument
"Y_connus" est saisi en slectionnant les valeurs de la qualit des armes et l'argument
59
"X connus" en slectionnant les valeurs de la concentration en acide malique. On trouve
0,771.
On en dduit bien entendu le mme modle y = 0,761 x -0,771 que nous avons
interprt ci-dessus
Calcul des rsidus et des valeurs prdites
Le tableau suivant donne les rsultats de diffrents calculs :
- qualits des armes yi estimes par le modle
- rsidus ou erreurs associs ces estimations
- qualit des armes prdites pour de nouvelles valeurs de concentration en acide
malique (chantillon test).
Procdure
- calcul de la 1re valeur de l'estimation de la qualit des armes :
9,6 (rf. relative) x 0,761 (rf. absolue) + (-0,771) (rf. absolue) - 6,53
- calcul du 1re rsidu : 3,5 (rf. relative) - 6,53 (rf. relative) ^-3,03
- aprs avoir slectionn les cellules contenant ces rsultats, tirer la poigne de
recopie jusqu' la dernire valeur du couple acide malique-qualit des armes
(10,1 ;9)
- prdiction de la qualit des armes de l'chantillon test : slectionner la
dernire valeur prdite de l'chantillon de base et tirer la poigne de recopie
vers le bas. Les prdictions s'affichent. Ces notes prdites peuvent galement
tre obtenues partir de la fonction matricielle TENDANCE. Le calcul direct
expliqu prcdemment nous parat plus pratique dans le cas du modle de
rgression linaire simple. La fonction TENDANCE sera utilise dans le cas de
la modlisation par rgression linaire multiple (Cf chap. 13,
paragraphe 13.3.3).
chantillon
test
ORDONNEE ORIGINE
0,761
acide malique
9,6
6,5
6,6
10,1
5,2
9,5
6,7
7,7
8
P ENTE
-0,771
QUALITE
DES
AROMES
3,5
1
45
9
^^^^^^^^^
Qualit des
armes
prvue
(ouestime)
6,53
4,17
4,25
6,91
3,19
6,46
4,33
5,09
5,32
Rsidus
-3,03
-3,17
0,25
2,09
Tableau 3.10 Note de qualit des armes prvue par le modle.
60
R emarque : l'utilitaire d'analyse d'Excel (menu Outils puis "Rgression linaire")
fournit une 3
e
mthode d'obtention de l'quation de la droite de rgression, du
coefficient de dtermination et des rsidus. Cette mthode donne en plus un test de
statistique infrentielle. Nous ne la prsentons pas dans ce paragraphe car elle sera
utilise ultrieurement dans le chapitre "Rgression linaire multiple". La
problmatique est la mme mais avec plusieurs variables explicatives ; on comprend
que la rgression linaire simple n'est qu'un cas particulier de la rgression linaire
multiple.
61
dbut 28/04/06 16:05 Page 2
Deuxime Partie
STATISTIQUE INFERENTIELLE
dbut 28/04/06 16:05 Page 2
4. BASES THORIQUES
RAPPELS DE PROBABILIT
LOI DE PROBABILIT AVEC EXCEL
L'objet de ce chapitre est de rappeler les principaux lments de la thorie des
probabilits utiles pour la comprhension ou l'approfondissement de la partie statistique
infrentielle contenue dans cet ouvrage. Nous carterons les fondements et bases classiques
gnralement bien connues des utilisateurs de mme que des lments plus spcialiss peu
utiles dans la lecture de ce document.
Dans ce qui suit, les variables alatoires seront notes X, Y, Z, T, U et selon les besoins
indices.
4.1. RAPPELS DE PROBABILIT
4.1.1. Variables alatoires
4.1.1.1. Paramtres statistiques classiques
Esprance mathmatique
Variable alatoire discrte finie
X(n)={x,,x;,...,x,,} ; p, =P( X=x, ) Vi e{l,2,..,n}
E(X)=^p, x,
Notons que cette dfinition se gnralise au cas d'une variable discrte infinie.
Variable alatoire continue
E(X) = J xf(x)dx (f(x), densit de probabilit de X)
Variance
Var X=E^( x-E( X) )
2
1=c ^ (autre notation de Var X)
n
Var X = ^p, ( x, - E( X ) ) (dans le cas o X est discrte)
Var X=E( X
2
) - [E( X) ]
2
(formule de Knig)
Covariance
Co v( X, Y) -E[( X-E( x) ) ( Y- E( Y) ) ] (esprance du produit des carts
l'esprance.
Co v( X, Y) =E( XY) - [E( X) E( Y) ] (formule de Knig)
Corrlation: r(X,Y)=
cw
^^
CTy CTy
65
4.1.1.2. Esprance et variance de fonctions fondamentales de variables
alatoires
T = a X + b (a et b, paramtres rels)
- E(T) =a E( X) +b
- Var T -a
2
Var X
Z= X 1 + X 2 + . . . + X n
- E(Z) - E(X,) + E(Xz) + . . . + E(Xn)
- Si, de plus. Xi, X2, ..., Xn sont indpendantes :
V a r Z= V a r X, + V a r X2 + . . . + V a r Xn
- Xi, Xz, . . . , Xn indpendantes
ai, 2, . . , an paramtres rels
VarX,,
Dans le cas particulier o Var Xi = Var X2 =
Var
X,+X,+.
" Var X, on a
,+X 'l VarX
4.1.2. Lois de probabilit classiques
4.1.2.1. Loi de Bernoulli (ou loi de l'indicatrice), de paramtre p
On considre une preuve alatoire E (ou vnement) l'issue de laquelle deux rsultats
sont possibles : succs ou chec (respectivement cods 1 ^1 et 1 = 0) avec les probabilits
respectives p et q = 1 - p. 1 est dite variable alatoire de Bernoulli de paramtre p.
1
P(I -i )
0
q
1
P
l-^B(p)
E(I ) =p Va r l =pq
4.1.2.2. Loi binomiale
On considre une suite de n preuves indpendantes. A chaque preuve, deux rsultats
sont possibles : E (succs) avec la probabilit p ou E (chec) avec la probabilit q = 1 - p.
La variable alatoire X nombre de ralisations de E au cours des n preuves
indpendantes est dite variable alatoire binomiale de paramtres n et p avec n e N , p e [0,1 ]
R emarque : X = V I, o I; sont des indicatrices indpendantes.
- X-> B( n, p)
- P(X=k) =C^ p
1
- q"^
- E( X) =n p V a r ( X) =n p q
4.1.2.3. Loi de Poisson
Soit X une variable alatoire discrte infinie : X(f2)= {0,1,2,... } = N.
La loi de Poisson de paramtre m est une loi thorique dfinie par P(X = k) =
(loi de Poisson de paramtre m)
66
m e
- E(X) = Var X - m
R emarque : en pratique, cette loi est frquemment utilise dans le mme
contexte que celui de la loi binomiale, mais pour des vnements rares.
4.1.2.4. Loi Normale ou loi de Laplace-Gauss
Soit X une variable alatoire valeurs dans R.
On considre les paramtres m e R et o e R
+
. La loi Normale note N(m,o) est une
loi continue dfinie dans R par sa densit de probabilit :
X-> N(m, o)
E(X) = m
Va r X=o
2
1 -'(
? i
-
m
)
2
f(x)=,=e 2 =y
oV27t
4.1.2.5. Loi Normale centre rduite.
Soit X une variable alatoire valeurs dans R.
La loi Normale centre rduite est une loi continue dfinie par sa densit de probabilit
g(x)=-
X-N(0,1)
IK ' ~ E(X)=0
VarX=l
R emarque ; le changement de variables x ' = et y ' = CT y permet de
o
transformer la loi N (m,o) en loi centre rduite N ( 0 , 1 ) de densit de probabilit
1 -^ .
n
4.1.2.6. Loi du X (ou Khi-deux)
Figure 4.1 Densit de probabilit de la loi du Khi-deux.
Y suit une loi de X
2

v
degrs de libert (ddl) note Xv lorsque
Y = X,
2
+ Xa
2
+ +Xv
o les X, sont des variables alatoires N(0,1) indpendantes.
E(Y) = v et Var Y = 2 v.
67
4.1.2.7. Loi de Student
T suit une loi de Student v degrs de libert (ddl) note Tv lorsque
T=-
X +X +..-+X:,
o les X, sont des variables alatoires N(0,1 ) indpendantes.
E(T)=0 et Va^T=
\
v-2
> R emarque : T = =
| X(V)
16-t-T
0,08 ,
0^)6
^*0.04
***
0
.
02
3 - 2 - 1 C
\
'^
1 2 3
Figure 4.2 Densit de probabilit de la loi de Student.
Lorsque v -> oo (en pratique, v > 30), T^ N(0,1).
4.1.2.8. Loi de Fisher-Snedecor
F suit une loi de Fisher-Snedecor (vi , V2) ddl lorsque
F=
o les Xiet les Yi sont des variables alatoires N(0,1) indpendantes.
2v^
2
(v,+v;-2)
v,(v,-2)
2
(v,-4)
E( F) . ^
v,-2
VarF=
Figure 4.3 Densit de probabilit de la loi F de Fisher-Snedecor.
68
X
2
11
2
R emarque : F =
l(vl: 1
/
2 ( V 2 )
rapport de 2 /
2
indpendants, chacun divis par son ddl.
Vl V2
4.1.3. Convergences
4.1.3.1. Ingalit de Bienaym-Tchebychev
P[|X-E(X)|> s]<^- (o=VVar X)
P[|X-E(X)|> t o]<4 - t eR
P[[X-E(X) |<e]> l -^
0
P[| X-E(X)| <to]>l--^-
4.1.3.2. Thorme central limite
Soient n variables alatoires indpendantes de mme esprance mathmatique m et de
mme variance o
2
. La variable alatoire, moyenne arithmtique des n variables alatoires Xi,
X, . . . , Xn soit X = '
2
"- est asymptotiquement normale ; autrement dit, quand n
n
est grand, X suit approximativement une loi Normale V(m,). En pratique, l'approximation
^n
est frquemment ralise ds que n > 30.
4.1.4. Principales utilisations statistiques des lois du x2et de Student
4.1.4.1. Prsentation du contexte gnral 1
On considre :
- une variable alatoire X ; X(Q) = R E(X) = mo ; Var X = oo
2
- n variables alatoires Xi indpendantes distribues comme X :
E(Xi )=mo ; Va r X; =oo
2
Vi e {1,2,..,n}
- les fonctions de variables alatoires :
i n 1 n _ FF "
X=-Y'X et S^Y^X-X)^ avec SCE=Y(X-X)
2
nt n-1^ "-1 i~
> R emarque : nous verrons ultrieurement, dans la partie Statistique
infrentielle, que ce contexte est courant en statistique.
Population : X est la grandeur quantitative tudie, mo sa moyenne et Go sa variance.
Echantillon alatoire et simple
- taille n
- X, variable alatoire moyenne d'chantillonnage
- S
2
= On , variable alatoire variance estime.
En introduisant "-mo + mo", un simple calcul permet d'exprimer SCE sous une autre
forme :
SCE^X.-^^X.-m^-n^-x)
2
69
4.1.4.2. Prsentation du contexte gnral 2
Le contexte gnral 2 est identique au contexte 1 sauf qu'ici X suit une loi
normale N(mo , oo )
On tablit les rsultats suivants.
L = '-- = suit une loi de /
2
(n-1) ddl.
Oo "o
T = -
ni
- suit une loi de Student (n-1) ddl
0
Vn
La dmonstration est relativement simple : partir des expressions dveloppes de X et
S
2
et compte tenu de la normalit des variables alatoires X;, on fait apparatre les lois de f J~
et de T (cf. les dfinitions de ces lois au paragraphe 4.1.2).
R emarques
- quand n est grand ( n > 30 ),
2
- N(0,1 )
J
^
- selon le contexte, on s'affranchira des notations : au lieu d'tudier X, ce peut
tre D, diffrence de 2 mesures, au lieu de X, ce peut tre D, diffrence de 2
moyennes observes dans 2 chantillons, etc.
- lorsque le ddl du numrateur d'une variable de Fisher-Snedecor est gale 1
(v, = 1 ), F = T
2
(le F de Fisher-Snedecor est gal au carr d'une variable de
Student ).
4.2. LOIS DE PROBABILIT AVEC EXCEL
Nous indiquons ici comment on peut manipuler les lois de probabilit fondamentales
pour la statistique infrentielle au moyen d'Excel.
Concernant les botes de dialogue proposes par le logiciel, il convient tout d'abord de
noter quelques points.
Dans les zones intitules "x", il faut saisir la valeur de l'axe des abscisses de la
distribution tudie.
Dans les zones intitules "uni / bilatral", on saisit "1" pour indiquer le caractre
unilatral et "2" pour le caractre bilatral.
Prcisons galement un point relatif la fonction de repartition F (ou fonction
cumulative) d'une variable alatoire X. Selon les publications, on trouve deux conventions
diffrentes :
F( x) -P( X$x) et F( x ) =P( X<x )
Cette nuance est importante lorsque X est une variable alatoire discrte (dans cet
ouvrage, nous utiliserons la loi de Poisson). Au niveau d'Excel, la convention adopte est
F( x ) =P( X<x ) .
R emarque : la notation classique F de la fonction de rpartition est bien
entendu sans rapport avec le "F" de Fisher-Snedecor.
70
4.2.1. Loi de Poisson Pm
4.2.1.1. Probabilit d'obtention d'une valeur
m'
1
exp(-m)
o m est le paramtre de Poisson gal l'esprance P( X=x ) =-
mathmatique.
Par exemple, pour m = 40, lorsque l'on veut dterminer P(X=30), il faut appeler la
fonction LOI.POISSON(30;40;FAUX). L'argument "Cumulative" doit en effet tre renseign
"FAUX" puisqu'on calcule une probabilit simple et non cumulative. Le rsultat est 0,018.
4.2.1.2. Fonction de repartition
Par exemple, pour calculer P(X^30), il suffit de saisir "VRAI" comme argument
"Cumulative" de la fonction et on trouve 0,062.
4.2.2. Loi normale ou gaussienne N(m,o)
4.2.2.1. Fonction de rpartition (ou probabilit cumule)
Prenons l'exemple X -> N(m, o) avec m = 1,7 et o = 0,15 soit X -> N(1,7 , 0,15)
Pour calculer F(l, 8) = P(X < 1,8), on appelle la fonction LOI.NORMALE et l'on
renseigne la bote de dialogue.
- X : valeur limite jusqu' laquelle on
veut cumuler la probabilit
- Esprance : valeur de l'esprance
mathmatique de la loi gaussienne
considre
- Ecart-type : valeur de l'cart-type de la
loi gaussienne considre
- Cumulative : comme prcdemment.
.^^:^r
^^fftfShSfW^r
' ^teitasiKftTs'
J^-M.iaiitii.g'
Le rsultat 0,747est affich. La formule est =LOI.NORMALE(l,8;l,7;0,15;vrai).
Rsultat = probabilit (
gauche) = 0,747
Densit de
probabilit
loi normale
m=l ,7 ^ x =l , 8
valeur donne
Figure 4.4 Rsultat de la fonction LOI.NORMALE.
71
X
R emarque : en ce qui concerne la zone "Cumulative", il faut viter la
rponse "FAUX" qui peut conduire des rsultats aberrants (probabilits )
4.2.2.2. Dtermination d'une valeur x
Soit X -> N(1,7 ; 0,15) . Calculer xo telle que : P(X <, Xy ) = F(xy ) = 0,3 ,
On appelle la fonction LOI.NORMALE.INVERSE dont on renseigne les arguments
Probabilit (0,3), Esprance (1,7) et cart type (0,15). On obtient le rsultat 1,62.
X
Rsultat = valeur xo (ici
Figure 4.5 Rsultat de la fonction LOI.NORMALE.INVERSE .
La probabilit 0,3 est dpose sur la queue gauche de la distribution. Le rsultat est la
valeur xo telle que l'aire sa gauche est gale 0,3.
R emarque : cette fonction permet de dterminer les valeurs dites "thoriques"
en statistique. Ainsi, lorsqu'on souhaite connatre les valeurs de X
correspondant une probabilit de 5%rpartie symtriquement sur les queues
de la distribution, on saisit la premire fois 0,025 dans la zone "Probabilit" et
la seconde fois 0,975.
4.2.3. Loi normale centre rduite N(0,1)
4.2.3.1. Fonction de rpartition (ou probabilit cumule)
Exemple: P(Z<-1,3)
On appelle la fonction LOI.NORMALE.STANDARD(Z). Avec Z= -1,3 on obtient le
rsultat 0,0968. La figure 4.6 illustre cette fonction.
Rsultat = probabilit
unilatrale gauche
(ici : 0,0968)
Densit de
probabilit
loi normale standard
Valeur donne (ici : -1,3)
1
m=0
Figure 4.6 Rsultat de la fonction LOI.NORMALE.STANDARD.
4.2.3.2. Dtermination d'une valeur z
Soit Z-> N(0 ; 1). Calculer la valeur z telle que P(Z< z) = 0,8
72
On appelle la fonction LOI.NORMALE.STANDARD.INVERSE avec l'argument
"Probabilit" gal 0,8.
Densit de probabilit
..^"s.. loi normale standard
m=0 \
Rsultat = valeur z de Z(ici : 0,84)
Figure 4.7 Rsultat de la fonction LOI.NORMALE.STANDARD.INVERSE.
Comme pour la LOI.NORMALE.INVERSE, la probabilit donne est dpose dans la
queue gauche de la distribution. Le rsultat est la valeur limite sur l'axe des abscisses.
R emarque : On retrouve ainsi la valeur connue ) ,96 correspondant une
probabilit de 5%, risque rparti symtriquement sur les queues de la
distribution : il suffit pour cela de saisir 0,975 dans la zone Probabilit" de la
fonction LOI NORMALE STANDARD INVERSE
^
4.2.4. Loi du Khi-deux v degrs de libert X y
^
4.2.4.1. Probabilit de dpasser une valeur du X (probabilit unilatrale)
Prenons l'exemple P(x
2
^34) avec v = 23.
Dans une cellule d'une feuille Excel, on
insre fonction LOI KHIDEUX avec les
arguments
- X=34
- Degrs_libert= 23
On trouve 0,065.
Valeur donne (ici : 34)
Figure 4.8 Rsultat de la fonction LOI.KHIDEUX.
4.2.4.2. Dtermination d'une valeur du X ayant une probabilit a d' tre
dpasse
En statistique, cette valeur est dnomme " X thorique au risque a " et note X
73
Densit de
probabilit
Rsultat ==
probabilit (aire
droite)
(ici : 0,065
Par exemple, dterminons la valeur du X qui a 5%de chance d'tre dpasse avec une
loi du x2 15 ddl (qualifie donc en statistique de " X2 thorique 5%").
On appelle la fonction
KHIDEUX.INVERSE avec
les arguments /^ \
- Probabilit = 0,05 / '\ /
- Degrs_libert= 15 f P^-^L,
On trouve 24,996. A
Rsultat (ici : 24,996)
Figure 4.9 Rsultat de la fonction
KHI-DEUX. INVERSE.
R emarque : pour de trs petites valeurs de la probabilit (de l'ordre de 10-10), il
peut arriver que la fonction "coince"... En statistique applique, cette
valeur a un rle de risque Si, dans une srie de calculs, un tel incident se
produit, il suffit de pratiquer les mthodes traditionnelles de prise de dcision.
On dtermine un x2 thorique, un risque choisi. Il sera rarement infrieur
1/10000 et donc trs loin d'un possible blocage.
4.2.5. Loi de Student v degrs de libert Tv
4.2.5.1. Probabilit unilatrale de dpasser une valeur positive donne
P( T> t ) avect > 0.
Faisons par exemple le calcul avec la loi T26, pour t = 1,5.
On insre la fonction
LOI. STUDENT dont les arguments
saisir sont :
- x : valeur minimale de la
variable T que l'on souhaite
atteindre (1,5)
- Degrs_libert : ddl (26)
- Uni / bilatral : ici "1" car on
recherche une probabilit
"unilatrale" (tale selon une seule
queue de la distribution, la queue
droite).
On obtient 0,0728.
Rsultat -
probabilit
unilatrale
(ici : 0,0728)
t
Valeur donne (ici : t = 1,5)
Figure 4.1 0 Rsultat de la fonction
LOI. STUDENT unilatrale.
74
4.2.5.2. Probabilit bilatrale
P(T > |t[) = P(T < -t)+P(T > t) (t : valeur positive relle)
Dterminons par exemple P( T > [ 1,51 ) == P(T < -1,5) + P(T > 1,5).
Les arguments saisir de la fonction LOI.STUDENT sont
- x : 1,5
- Degrs_libert : 26
- Uni / bilatral : 2
On trouve 0,1457. C'est videmment le double du rsultat prcdent puisque la loi est
symtrique.
^^- ^ Rsultat =probabilit
/ \^ bilatrale
/ \(i ci : 0,1456)
-t 0 1___ Valeur donne
fici : t = 1,5)
Figure 4.1 1 Rsultat de la fonction LOI. STUDENT bilatrale.
4.2.5.3. Dtermination d'une valeur t de Tv dont la valeur absolue a une
probabilit a d' tre dpasse
On cherche cette fois dterminer t valeur positive relle telle que
P(T > |t|) = P(T < -t)+P(T > t) = a
En statistique infrentielle, une telle valeur est appele "Tthorique" au risque a et note
Tv:]-a/ 2.
Par exemple, avec ddl = v = 28 et Probabilit = a = 0,05 on dtermine la valeur t telle
que P(T > |t|) = 0,05 . La fonction LOI.STUDENT.INVERSE(0,05;28) donne 2,048.
La figure 4.12 illustre ce rsultat.
Dans cette fonction, la probabilit
a donne est toujours dpose
symtriquement sur les queues de
la distribution.
Figure 4.12 Application de la LOI. STUDENT. INVERSE la
dtermination d'un "T" thorique .
75
t
Rsultat :
valeur t positive Tv; 1-0/2
ici 2,048
R emarque : dans le paragraphe 4.1.2.7 concernant la loi de Student, nous avons
rappel que cette loi convergeait vers la loi N(0,1) lorsque son ddl tendait vers
l'infini. Il est intressant de concrtiser cette convergence au moyen d'Excel.
On propose de considrer un petit ensemble de valeurs de a et un petit spectre de degrs
de libert. Pour chaque valeur de a, nous allons calculer successivement le fractile Zi.n de la
loi N(0,1 ) et le le fractile Ti.a de la loi de Student correspondant au ddl v.
Les rsultats sont prsents sur le tableau 4.1.
Dans Excel, la procdure est la suivante :
- saisir les valeurs de a choisies
- calculer le 1
er
fractile Zi-0.001 en
LOI NORMALE STANDARD INVERSE avec
1-0,001 (rfrence relative)
appelant la fonction
l'argument Probabilit gal
moyen de la fonction - calculer le 1
er
fractile TI-(O.OOI) ) au
LOI.STUDENT INVERSE d'arguments
- Probabilit : 2 X 0,001 (fixer la ligne)
- Degrs de libert : 20 (fixer la colonne).
LOI
NORMALE
a
[
0,05
1,64
0,025
1,96
0,01 1 0,005
2,33 2,58
0,00f
3,09
LOI DE
STUDENT
V
20
30
40
50
60
70
80
90
100
110
120
130
140
150
T
1,72
1,70
1,68
1,68
1,67
1,67
1,66
1,66
1,66
1,66
1,66
1,66
1,66
1,66
T
2,09
2,04
2,02
2,01
2,00
1,99
1,99
1,99
1,98
1,98
1,98
1,98
1,98
1,98
T
2,53
2,46
2,42
2,40
2,39
2,38
2,37
2,37
2,36
2,36
2,36
2,36
2,35
2,35
T
2,85
2,75
2,70
2,68
2,66
2,65
2,64
2,63
2,63
2,62
2,62
2,61
2,61
2,61
T
3,55
3,39
3,31
3,26
3,23
3,21
3,20
3,18
3,17
3,17
3,16
3,15
3,15
3,15
Tableau 4.1 Illustration pour diffrentes valeurs de a de la convergence de la loi de Student T,. vers
la loi normale N(0,1) lorsque le ddl v augmente.
Il est clair que, lorsque le ddl crot (en pratique, souvent, lorsque les tailles
d'chantillons augmentent), les fractiles de Student d'ordre l-o. tendent vers ceux de la loi
normale N(0,1). On remarque d'ailleurs la bonne proximit des deux types de fractiles pour
a = 0,025 (en pratique, souvent 5%rpartis symtriquement sur les queues de la distribution).
4.2.6. Loi de Fisher-Snedecor Fi,z 2 degrs de libert Vi et Vz
4.2.6.1. Probabilit unilatrale de dpasser une valeur f de F
De la mme faon que prcdemment, il s'agit de dterminer par exemple P(F > 1,7),
F suivant une loi de Fisher deux ddl vi et vi que nous choisissons respectivement gaux 3
et 18. On appelle la fonction LOI.F .
76
Densit de probabilit ^^. probabilit
unilatrale
(ici : 0,2027)
'\
Avec les arguments
- X= l , 7
- DegrsJibertl = 3
- Degrs_libert2 = 18
on obtient le rsultat 0,203
illustr par la figure 4.13.
Valeur donne (ici 1 7)
Figure 4.13 Rsultat de la fonction LOI.F.
4.2.6.2. Dtermination d'une valeur de F ayant une probabilit a d' tre
dpasse
En statistique, on dit gnralement qu'on cherche dterminer le "F thorique (vi.vz)
ddl au risque a", not F(vi,v2 ;i-a. Par exemple, considrons la loi F(3,ig ,0,95) et cherchons la
valeur f telle que P(F > f) = a avec a = 0,05
On appelle la fonction
INVERSE.LOI.F avec les arguments
-Probabilit =0,05
- Degrs_libert1 = 3
- Degrs_libert2 = 18
On obtient le rsultat 3,16 illustr par
la figure 4.14.
Probabilit a donne
(ici : 5%)
Rsultat : valeur
de f (ici; 3,16)
Figure 4.1 4 Rsultat de la fonction INVERSE.LOI F
77
dbut 28/04/06 16:05 Page 2
5. INTRODUCTION A LA STATISTIQUE
INFRENTIELLE
5.1. INTRODUCTION
Dans la partie prcdente, nous avons dfini et pratiqu la statistique descriptive.
Nous avons vu que l'on pouvait dcrire une population, par exemple une population de
viticulteurs d'une rgion donne caractrise par divers critres qualitatifs et quantitatifs
(cpage plant, importance du vignoble, situation gographique, production et autres critres
technico-conomiques). Une telle population peut tre dcrite au moyen de paramtres
statistiques fournissant un rsum synthtique des donnes mais aussi l'aide de graphiques
(histogrammes, courbes, nuages, etc...).
Avec les mmes outils, nous avons dcrit un chantillon.
L'tude descriptive des donnes se limite un seul ensemble soit une population, soit un
chantillon et n'tablit pas de liaison entre les deux.
D'un autre cot, les rappels fondamentaux des probabilits (variables alatoires,
distributions, paramtres, convergences, etc.) nous ont confront l'alatoire, avec notamment
les subtils passages la limite, les convergences qui conduisent au fondement de la statistique
mathmatique.
La statistique infrentielle, pont entre la statistique descriptive et la statistique
mathmatique, tablit des relations entre populations et chantillons. On distingue deux types
de dmarche :
- la dmarche d'chantillonnage (de la population vers l'chantillon)
- la dmarche d'estimation (de l'chantillon vers la population).
5.2. DMARCHE D'CHANTILLONNAGE
La dmarche d'chantillonnage est une dmarche statistique classique de type dductif
c'est dire qui va du "gnral au particulier" : on connat la population, on s'intresse
l'chantillon. Prenons trois exemples.
On connat les professions d'une population cible dans laquelle est prlev un
chantillon. Est-ce que cet chantillon peut tre considr comme reprsentatif de la
population selon la variable profession ?
On s'intresse au contrle de la qualit de fabrication de tablettes de chocolat. Est-ce
qu'on peut considrer comme constant le poids moyen garanti d'une tablette ? Pour cela, on
prlve rgulirement un chantillon de n tablettes dont l'tude statistique permettra de
rpondre la question.
Dans la fabrication d'aliment pour poulets conditionn en sacs de 10 kilos, on indique
sur les sacs la composition de l'aliment (proportions des composants). Des chantillons sont
prlevs sur les lieux de vente pour contrler le respect de ces indications.
5.3. DMARCHED'ESTIMATION
La dmarche d'estimation, oppose la prcdente, vise tudier, prdire les
paramtres d'une population inconnue partir des rsultats obtenus grce des chantillons.
C'est une dmarche inductive "du particulier au gnral". Infrence est d'ailleurs synonyme
d'induction, d'ou le terme de statistique infrentielle mme si dans la pratique ce qualificatif
de la statistique a t largi aux deux dmarches.
Exemples :
- Avant des lections, des sondages sont effectus pour "estimer" les chances des
candidats.
- Pour valuer la fermet d'une qualit de nectarines, on en fait une estimation
sur un chantillon.
- Pour valuer l'image d'un "produit" fourni par une socit de services, on
ralise un sondage auprs d'un chantillon de clients ; son analyse permet
d'estimer l'indice de satisfaction moyen pour ce produit
5.4. RSUM
POPULATION
N : Taille
X : VA (variable
alatoire)
E(X) = m
Var X = o
2
CHANTILLONNAGE :
DEDUCTION:
du GENERAL au PARTICULIER
chantillon
n : taille
x : moyenne observe
s'
2
: variance observe
POPULATION
N : Taille
X: V A
E(X) = m
Var X - o
2
ESTIMATION:
INDUCTION:
du PARTICULIER au GENERAL
chantillon
n : taille
x : moyenne observe
s'
2
: variance observe
On note x = et
SCE
80
6. CHANTILLONNAGE
6.1. NOTION DE POPULATIONET D'CHANTILLON
Aprs avoir rappel les notions fondamentales de "population" et d'"chantillon", nous
dfinirons l'chantillon alatoire et simple et son approche pratique en prcisant nos choix de
"grand" et "petit" chantillon. Nous prsenterons ensuite les concepts de base des distributions
d'chantillonnage des moyennes, des variances et des proportions.
Le nombre d'applications concrtes sera volontairement limit car nous le
dvelopperons par la suite dans le cadre plus large des tests de conformit.
6.1.1. Population
La "population" est l'ensemble des lments auxquels on s'intresse. Chaque lment est
appel "unit statistique" (u.s.) ou "individu" ou "observation".
La population peut tre parfaitement dfinie (ensemble dnombrable fini) :
- ensemble des clients d'une banque
- ensemble des habitants d'une ville donne ou d'un quartier donn
- ensemble des chevaux d'une rgion donne
- ensemble des arbres d'un verger.
Pour de telles populations, l'tude statistique peut tre parfaitement conduite sur
l'intgralit de la population (petites populations, recensements, feuilles d'impts)
La population peut galement tre non dfinie car infinie ou imparfaitement connue :
- ensemble des profils pdologiques (population infinie)
- ensemble des clients d'une grande surface d'une enseigne donne
- ensemble des parasites d'une culture de bl.
Dans la pratique, nous rencontrerons galement le cas relativement frquent de
populations rellement bien dfinies, mais dont on ne peut connatre les membres des fins
d'tude du fait de la confidentialit des fichiers. Un tel problme se rencontre par exemple
dans le domaine agricole. Lorsque l'on souhaite tudier une catgorie prcise d'agriculteurs,
certaines catgories de renseignements sont inaccessibles, les informations dtenues par la
Mutualit Sociale Agricole (MSA) tant confidentielles.
Divers domaines reclent des cas similaires : mdecine, confrries diverses, etc.
6.1.2. chantillon
L'chantillon est une fraction d'individus de la population.
Domaine d'chantillonnage (ou de sondage)
On peut chantillonner dans les domaines les plus divers : consommation, opinions,
sociologie, contrle de la qualit, etc.
R aisons de l'chantillonnage
- Le plus souvent, on ralise un sondage pour des raisons videntes de gain de
temps et de cot.
- Dans certains domaines, l'tude de l'unit statistique exige sa destruction.
Citons par exemple les questions de "dure de vie" (aliments, produits
industriels tels les piles, les ampoules lectriques, les CD, etc.).
81
- D'autres domaines (psychologie, sociologie,...) ncessitent des tudes trs
approfondies. Il est alors impossible de les raliser sur une population
(exceptes les populations cibles, bien limites).
chantillon alatoire simple
La dfinition de l'chantillon alatoire simple diffre selon les ouvrages
D'aprs J.J Daudin et alii (1999), "on appelle chantillon alatoire simple un chantillon
obtenu par une mthode qui assure chaque chantillon possible la mme probabilit d'tre
slectionn". Les auteurs tablissent pour les chantillons exhaustifs (tirage sans remise) le
rsultat suivant: "pour l'chantillonnage alatoire et simple, chaque unit a la mme
probabilit d'appartenir l'chantillon".
P. Dagnelie (1998) donne une dfinition peut-tre plus traditionnelle: "un chantillon est
dit alatoire quand tous les individus de la population ont une mme probabilit de faire partie
de l'chantillon et il est dit alatoire et simple ou compltement alatoire quand, en outre, les
choix successifs des diffrents individus qui doivent constituer l'chantillon sont raliss
indpendamment les uns des autres au sens de l'indpendance stochastique".
G. Saporta et al. (2002) prsente sur le W eb une dfinition quivalente. Selon cette
dernire dfinition, thoriquement, l'chantillon alatoire et simple exige donc des tirages non
exhaustifs (tirage avec remise) ce qui est naturellement trs peu pratiqu dans le concret.
Cependant, en statistique mathmatique, l'chantillon alatoire et simple conduits de
nombreux dveloppements avec des rsultats intressants. Dans la pratique, un compromis est
souvent adopt en assimilant chantillon alatoire et simple un chantillon alatoire extrait
d'une grande population. On peut noter que dans le cas d'une grande population, les deux
dfinitions conduisent des rsultats quivalents.
Pour percevoir intuitivement le bien fond d'une telle approximation, prenons un
exemple. Nous disposons d'un sac de 100 kg de bl provenant d'un certain producteur. Le plus
souvent, le prix d'une telle denre est base sur sa qualit. Cette dernire est repre
l'examen du grain. Dans le sac (population), on prlve un grain au hasard : on l'examine puis
on le classe en "correct" ou "pas correct". On prlve ensuite un deuxime grain et on
recommence. On comprend que les chances que ce deuxime grain soit "correct" sont trs peu
dpendantes de la remise ventuelle pralable du premier grain dans le sac.
Le plus souvent, on considre que l'on peut utiliser les rsultats statistiques obtenus
partir des chantillons alatoires ds lors que la taille de la population est au moins 10 fois
plus leve que celle de l'chantillon.
R emarque : dans la suite et sauf indication contraire, le terme "chantillon"
dsignera un chantillon assimil alatoire et simple (selon la dfinition
traditionnelle). En fait, il s'agira souvent d'chantillons extraits de grandes
populations.
6.2. CONCEPT DE BASE DES DISTRIBUTIONS D' CHANTILLONNAGE
6.2.1. Distribution d'chantillonnage des moyennes et des variances
Exemple : budget loisir des employs d'une socit 1
On considre la population constitue de l'ensemble des N employs d'une importante
socit telle l'Arospatiale Toulouse. On s'intresse la variable alatoire X, dpense
annuelle de sortie "loisirs" (restaurant, cinma, etc...) des salaris.
On prlve un premier chantillon ^de taille n (par exemple 50). Pour chacun de ces n
individus, on relve la dpense annuelle de sortie "loisirs". On dispose alors d'un srie
statistique x11, X12, . . . , x1n de moyenne et variance calculables.
82
moyenne x,
1 X-
- variance s ' , ' =V ( Xn - x , )
2
n 1.1
Si l'on considre un deuxime chantillon ^2 , on obtient une deuxime srie de n
observations x21, X22, . . . , x2n de moyenne et variance :
- moyenne x^
variance s';
2
=^(x;, -x,)
2
Les premires valeurs observes dans chaque chantillon (xî, o k est le numro de
l'chantillon) sont alatoires et constituent par consquent les ralisations d'une variable
alatoire X1. Un chantillon alatoire et simple de taille n est quivalent un ensemble de n
variables alatoires X1, X2, . . . , Xn indpendantes.
La mme traduction est faite au niveau des moyennes et des variables.
Chaque moyenne observe dans un chantillon est l'observation d'une variable alatoire
_ ^
moyenne X =
!
. Chaque variance observe dans un chantillon est l'observation d'une
n
variable alatoire variance S'
2
= y,(X, - X)
2
.
n : -i
En rsum, la population est caractrise par
- taille N (finie ou infinie)
- X = variable alatoire quelconque
- E(X)=mo
- Var(X)=oo
2
chantillon
^w
chantillon
^(n)
chantillon
%(n)
Echantillons
C7
0\
cp
02
. . .
Q7
"P
Variables alatoires
Valeurs observes
Xl l , Xl 2 , . . . , X]n
X21, X22, . . . , X2 n
^pl > ^p2i - - - 1 ^pn
X, X2 . . . Xn
Moyennes observes
x
!
X,
"P
n
z^
X- '"'
n
Variances
observes(empiriques)
s',
2
S2
2
^
S-^l^X.-X)
2
83
Les distributions des variables alatoires X et S"
d'chantillonnage des moyennes et des variances.
sont dites distributions
6.2.2. Distributions d'chantillonnage des proportions
Elles se dfinissent de la mme faon que les distributions d'chantillonnage des
moyennes.
Par exemple, dans la mme socit que prcdemment, on s'intresse la pratique
rgulire du sport des salaris. On dfinit une variable de Bernoulli 1 telle que
r 1 si pratique rgulire d'un sport
^1
1^ 0 si non
Ainsi, le 1
er
chantillon < '\de taille n voqu ci-dessus pourrait fournir une srie
observe ressemblant : l 1 0 0 0 1 1 ...
On en dduit la proportion de salaris pratiquant rgulirement un sport observe dans
, , . 1+1+0+0+0+1+1+. . .
cet chantillon y, = .
n
Les chantillons ^k , de mme taille n, voqus prcdemment fourniront l encore des
suites de sries observes correspondant des ralisations de variables alatoires.
Echantillons
^
^
^p
Variables alatoires
Valeurs observes
1 1 0 0 0 1 1 . . .
0 1 0 1 0 1 0 . . .
Il 12 . . . In
Proportions observes
yi
y2
y?
n
El.
Y
M
1
n
La distribution d'chantillonnage de Y, distribution d'chantillonnage des proportions
s'impose comme distribution d'chantillonnage des moyennes d'indicatrices.
6.2.3. Prsentation des exemples et outils associs
Divers exemples concrets illustrent la misent en pratique des concepts noncs.
L'un des buts du contrle qualit d'une fabrique de tablettes de chocolat de poids marqu
100 g est la matrise de la variabilit et de la moyenne de cette variable poids. Pour rsoudre
ces deux problmes, on utilisera respectivement l'chantillonnage d'une variance partir
d'une population normale et l'chantillonnage d'une moyenne partir d'une population
normale de moyenne et de variance connues.
Afin de prdire la note de conformation moyenne d'un lot de 40 veaux, on utilisera
l'chantillonnage d'une moyenne l'aide d'un grand chantillon extrait d'une population de
moyenne et de variance connues.
Enfin, pour contrler la qualit des lots de 80 cailles issues d'un levage prsentant un
taux connu d'anomalies de l'aile, on utilisera l'chantillonnage d'une proportion au moyen
d'un grand chantillon.
84
6.3. DISTRIBUTION D'CHANTILLONNAGE D'UNE VARIANCE DANS LE
CAS D'UNEPOPULATION NORMALE
Exemple : variabilit du poids de tablettes de chocolat
Dans une chocolaterie, on tudie la fiabilit d'un procd de fabrication de tablettes de
chocolat de 100 g et l'on veut, bien entendu, s'assurer la matrise de la variabilit de ce poids.
On note X, la variable alatoire "poids d'une tablette fabrique". Lorsque toute la chane
fonctionne correctement, l'cart-type est gal 5 g. Dans ce type d'application, on considre la
variable alatoire X distribue selon une loi normale.
Afin de contrler la variabilit, on prlve priodiquement un chantillon de 10 tablettes
et on en calcule la variance observe s'
2
.
Questions
Dterminer l'intervalle rs' ^.s' ^ 1 qui a une scurit de 95%de contenir la variance
S'
2
observe dans un tel chantillon. Cet intervalle est dit "intervalle de probabilit"
ou "intervalle de pari"(not IP). Le risque 5%est not a .
tendre ces calculs aux cas suivants :
- rduction du risque a aux valeurs 3%, 1%et 3 /oo
- chantillons de tailles n = 20 puis 30 tablettes
- tude du cas d'un cart-type o = 3 g correspondant l'acquisition d'une
machine plus performante.
6.3.2. Notations et modle
Population : c'est l'ensemble de tablettes de 100 g fabriques par la socit.
- X est la variable alatoire, poids d'une tablette
- E(X) = m est le poids moyen d'une tablette
- Var X = o
2
- X-).N(m,o).
chantillon
- La taille est n (ici n = 10)
- Xi, X, . . .,Xn sont des variables alatoires indpendantes
- X, -> N(m, o) Vi e {1,2,..,n}
(
x
,-
x
)
2
SCE
- S'
2
=' = est la variable alatoire variance observe dans un
n n
chantillon de taille n.
E(S'
2
)=E(-
i
-y(X, -X)
2
=CT
2
-
o
^
"^ n
Var(S'
2
) =
i
--"
/
+i- o 14 dsigne le moment centre d'ordre 4 :
n n n
H4=E[(X,-m)
4
].
85
Son expression mathmatique est lourde. La proprit la plus utile en pratique est le fait
que ce soit une fonction dcroissante de n.
La loi de probabilit associe aux variances est
^
(x]-x)2
SCE
J
-
1
--,=2- -> XVn , loi du x- ( n- l ) ddl
cr o
Pour dterminer l'intervalle de probabilit, il suffit de rechercher les deux valeurs
^ "
et
X
2
ci notes dans la rsolution %, a et ^b .
( n-l ) : _ (n l ) . l -^
PCC
2
.<
S
<^. J =l -a
( n- l ) ;^ (J (n-l ) ;l -_
^-o.^^-n.,-!
o
2
2 SCE o
2
2
^ , "
< <
^ ,^ , a
n (
n
-
1
);-^ n n (n-i );i -
Intervalle de probabilit ou de pari de la variance de l'chantillon
X
2
, x
2
au niveau de scurit 1-a.
n ( " i ) . ^- n ( n - i ) , ! - ^
6.3.4. Mise en uvre sur EXCEL
1re question
O
2
2 CT
2
2
II suffit de dterminer les valeurs X ,. a
et
X , a et de raliser
n (n-i ) ;^ n (n-i);i-,
ensuite un simple calcul
Pour n = 10 et a = 5%, on a aJ2 = 0,025 et l-a/2 = 0,975
Pour calculer X^n-i);^ soit C^.o.ccs, on appelle la fonction KHIDEUX.INVERSE.
Aprs avoir renseign sa bote de dialogue (Probabilit : 0,0975 et Degrs libert : 9), le
rsultat s'affiche : 2,70.
En saisissant 0,025 dans la zone Probabilit de la bote de dialogue, on obtient de la
mme manire la valeur de /'(n i).i soit x
29097
"'
:
19,0227 Les bornes de l'intervalle de
probabilit sont donc
s',,
2
=2, 70 x 25/10=6 Probabilit donne 25/10=47, 56
On en dduit que lorsque la chane de production fonctionne correctement, la variance
observe dans un chantillon de 10 tablettes a 95%de chances d'tre comprise entre 6,75 et
47,56.
2
e
question
II est intressant de profiter des fonctionnalits d'Excel pour raliser des simulations et
dgager des profils d'intervalle de pari dpendant de paramtres fondamentaux comme le
risque (que l'on va rduire), la taille de l'chantillon (que l'on va augmenter), la variance du
poids d'une tablette avec la nouvelle machine (qui sera diminue).
Pour cela, on construit une grille de calcul pour laquelle il conviendra d'tre attentif aux
rfrences absolues ou relatives.
86
Les trois premires colonnes sont saisir : a, a
2
et n (en profitant des "copier-coller").
Dtermination de % a (1" ligne, colonne 4)
Comme nous venons de l'expliquer, on utilise la fonction KHIDEUX.INVERSE avec les
arguments suivants :
- Probabilit : pour a, cliquer sur sa premire valeur (5%) et fixer la colonne (3
clics successifs de la touche F4)
- Degrs_libert : pour n, cliquer sur la 1" valeur de n (10), fixer la colonne
comme ci-dessus et, dans la barre de formule, retrancher 1.
On obtient le rsultat 2,70.
Dtermination feX b
Utiliser la poigne de recopie (ou un simple copier-coller). Dans la barre de formule,
supprimer le "1-" pour ne laisser que la valeur de o/2 ; on obtient 19,022.
Dtermination de s'a'
Faire le calcul X, n . 0 / n avec une rfrence relative pour x
2
et en fixant la colonne
pour n et o
2
.
Dtermination de s'h
3
Utiliser la poigne de recopie partir de s'a
2
. Pour obtenir l'ensemble des rsultats,
slectionner les colonnes 4 7 de la 1re ligne et tirer vers le bas la poigne de recopie.
a
5,0%
3,0%
1,0%
0,3%
5,0%
3,0%
1,0%
0,3%
5,0%
3,0%
1,0%
0,3%
<
2
25
25
25
25
25
25
25
25
25
25
25
25
n
10
10
10
10
20
20
20
20
30
30
30
30
V
2
X
a
2,70
2,33
1,73
1,27
8,91
8,16
6,84
5,73
16,05
15,00
13,12
11,47
^
19,02
20,51
23,59
26,82
32,85
34,74
38,58
42,53
45,72
47,91
52,34
56,84
S-.
2
6,75
5,84
4,34
3,19
11,13
10,20
8,55
7,16
13,37
12,50
10,93
9,56
S-.
2
47,56
51,28
58,97
67,04
41,07
43,43
48,23
53,17
38,10
39,93
43,61
47,37
a
5,0%
3,0%
1,0%
0,3%
5,0%
3,0%
1,0%
0,3%
5,0%
3,0%
1,0%
0,3%
C
2
9
9
9
9
9
9
9
9
9
9
9
9
n
10
10
10
10
20
20
20
20
30
30
30
30
-V
2
ka
2,70
2,33
1,73
1,27
8,91
8,16
6,84
5,73
16,05
15,00
13,12
11,47
X
2
.
19,02
20,51
23,59
26,82
32,85
34,74
38,58
42,53
45,72
47,91
52,34
56,84
S-.
2
2,43
2,10
1,56
1,15
4,01
3,67
3,08
2,58
4,81
4,50
3,94
3,44
S-b
2
17,12
18,46
21,23
24,14
14,78
15,63
17,36
19,14
13,72
14,37
15,70
17,05
Tableau 6.1 Variation de l'intervalle de probabilit de la variance observe selon le risque, la taille
de l'chantillon, la variance de la population.
Commentaire des rsultats
Bien entendu, on retrouve des rsultats conformes la formule mathmatique.
- Pour une variance o
2
et un risque a donns, l'intervalle de probabilit IP est
plus resserr si l'on augmente la taille de l'chantillon
- pour une variance o
2
et une taille d'chantillon n donnes, l'intervalle de
probabilit IP augmente lorsque le risque diminue
- pour une taille et un risque a donns, l'intervalle de probabilit IP diminue si
l'on diminue la variance.
En examinant ces rsultats, on peut par exemple porter son attention sur le risque 3 %o
frquemment adopt dans l'industrie, sur un chantillon de taille 10 et une variance de 25.
L'intervalle trouv pour la variance de l'chantillon [3,19 ; 67,04]est "vaste". Il se resserre
87
sensiblement avec un chantillon de taille 20 : [7,16 ; 53,17]. Enfin, on note une bonne
prcision, si la variance lie l'ensemble du processus de fabrication peut tre ramene 9
avec un chantillon de taille 30 puisque alors, la fourchette se rduit [3, 44, 17, 05].
Lorsque l'chantillonnage ne dtruit pas l'objet, il est souvent intressant de prlever des
chantillons de taille plus importante.
6.4. DISTRIBUTION D'CHANTILLONNAGE D'UNE MOYENNE
6.4.1. Population normale de moyenne et variance connues
Exemple : variabilit du poids de tablettes de chocolat
6.4.1.1. Prsentation des donnes et position du problme
On se place dans le mme environnement concret que dans l'tude prcdente
(chantillonnage d'une variance). Dans la fabrique de chocolats, le service qualit s'intresse
la qualit de remplissage des tablettes. Lorsque le fonctionnement de la chane est correct, le
poids d'une tablette est une variable alatoire X normale, de moyenne m = 100 g et d'cart-
type o
=
5g.
Le contrle est ralis en prlevant priodiquement sur la chane un chantillon de
n = 10 tablettes. Concrtement, on calcule le poids moyen x observ dans un tel chantillon
et l'on examine s'il ne s'carte "pas trop" du poids moyen thorique de 100 g, ou encore, s'il
appartient une fourchette de poids "juge" convenable ou enfin, dans certains cas, s'il reste
suprieur un poids minimum garanti.
Question 1
a) A quel intervalle [x, , x^ ]dit "intervalle de probabilit" ou "intervalle de pari" doit
appartenir le poids moyen d'une tablette dans un tel chantillon avec un niveau de scurit de
1-a = 0,95 (a = 5%est le risque). Noter que cette question quivaut rechercher l'cart A tel
que la moyenne d'chantillon appartienne l'intervalle [l OO-A ; 100+A] avec une
probabilit 1-a.
b) Quel poids moyen minimum G peut-on garantir au risque a ?
Question 2
II est intressant d'tudier l'volution de la prcision A et par suite celle de l'IP en faisant
varier le risque, la taille de l'chantillon et mme la variance o
2
.
tendre les calculs raliss la question 1 aux cas suivants :
- rduction du risque a aux valeurs 3%, 1%et 3 /oo (remarque : dans l'industrie,
les risques sont souvent trs petits car on ne souhaite retoucher au processus
que lorsque c'est vraiment ncessaire)
- chantillon de tailles n = 20 et 30
- cart-type o = 3, correspondant par exemple l'acquisition d'une nouvelle
machine de variabilit rduite.
6.4.1.2. Notations et modle
Population : c'est l'ensemble de tablettes de 100 g fabriques par la socit.
- X est la variable alatoire "poids d'une tablette"
- E(X) est le poids moyen d'une tablette
88
- V a r X=o
2
- X-> N(m, (T).
chantillon
- La taille est n, ici n = 10
- Xi, Xa, .. ,Xn sont des variables alatoires indpendantes
- X, - N(m, CT) Vi e{l , 2, . . . , n}
6.4.1.3. Dmarche statistique
_ i^
X^-'-
1
est la variable alatoire "moyenne d'chantillonnage" ou encore moyenne
n
observe dans un chantillon de taille n
La distribution de la moyenne d'chantillonnage est
- E( X) =m ; Va r X= -
n
- X suit la loi de probabilit : X-> N(m,-y=-)
^n
( X : combinaison linaire de variables alatoires indpendantes de mme esprance et
de mme variance).
traduction statistique des questions l-a et l-h et rponses statistiques
Question l a :
On cherche l'intervalle f x, , Xi , 1 tel que P(x, < X< x, , )=l -a .
Autrement dit, on cherche A tel que P(m - A <X<m+ A ) = l - a (le risque est rparti
sur les deux queues de la distribution).
Xa /2( x. )
m
Xl -a /2( Xb)
Figure 6.1 Distribution de la moyenne d'chantillonnage X .
89
R emarques
En utilisant la loi de probabilit de X , P(Z^< < Z, ^3) = 1 -a o Z^,; et
ir
Z, ^,3 dsignent les fractiles de la loi N(0,1), on obtient :
P(m + Z,,;2 - X <m + Z,^,,
C T
) = 1 -a
Vn ~ Vn
et on en dduit que
A^Z^-' -LZ, ^
0
- , a = m- A , b = m + A
Vn Vn
Pour une taille d'chantillon et un risque donns, l'intervalle de probabilit [x, , Xi , 1
est unique et non alatoire.
Question I b
On cherche G tel que P(X > G) = 1 a
G est le fractile d'ordre a de la loi de probabilit de X, c'est dire de la loi
N(m, o/^/n) .
6.4.1.4. Mise en uvre a l'aide d'EXCEL
Question la ( 1
re
mthode)
Elle consiste partir de la loi de probabilit de X soit X > N(m,,) .
^/n
Au clavier, on calcule o,; = = = = 1 , 5 8 . Par suite : X-^N(100; 1,5 8).
Vn V10
Dtermination de Xa .
On appelle la fonction LOI.NORMALE.INVERSE avec les arguments
- Probabilit : cliquer sur la cellule donnant la valeur de la fonction de rpartition
(probabilit cumule, ici 0,025)
- Esprance : cliquer sur la cellule donnant la valeur de m, ici 100
- cart-type : cliquer sur la cellule donnant la valeur de l'cart-type de X
calcule prcdemment.
Le rsultat est x. = Xa./i = 96,90g (=100-3,10)
Dtermination de xb = Xi 0/2
On utilise la poigne de recopie partir du rsultat prcdent (ou un "copier-coller
spcial formule") , dans la barre de formule de la cellule destination, on remplace la
probabilit o/2 (0,025) par l-n/2 soit 0,975 : en cliquant sur le signe = le plus gauche de la
barre de formule, on peut en effet rappeler la bote de dialogue et effectuer cette modification.
On obtient le rsultat
Xb - Xi a / 2 = 103,1g (=100+3,1 g)
Interprtation
Lorsque le processus de fabrication fonctionne correctement, en prlevant un chantillon
de 10 tablettes, on peut "parier" que le poids moyen d'une tablette dans cet chantillon a 95%
de chances d'appartenir l'intervalle [96,90; 103,1] ou encore que ce poids moyen est de
100g avec une erreur maximale A de 3,1 g au risque de 5%.
90
Question 1-a (2
e
mthode)
Elle est base sur la fonction NTERVALLE.CONFIANCE qui fournit directement le
rsultat A partir des paramtres statistiques de la loi normale de X (et non de X). Les
arguments saisir sont :
- Alpha, risque choisi (ici, 0,05)
- Ecart-type : comme indiqu, il s'agit de celui de X, c'est dire l'cart-type
"population", ici 5
- Taille : c'est la taille de l'chantillon (10).
Nous retrouvons le rsultat A = 3,10 et l'on en dduit les bornes de l'IP :
x. =m-A=100-3, 10=96, 9 et Xb = m+ A = 100+3,10=103,10
Question 1-b .' calcul du poids moyen minimum garanti G, au risque a
Au moyen d'un "copier-coller spcial formule", on peut rcuprer le rsultat de x^
dtermin ci-dessus et, dans la barre de formule, remplacer la probabilit o/2 par la probabilit
a . On trouve G=97,40.
R emarques
- Si on utilise, la fonction INTERVALLE.CONFIANCE, il convient de saisir la
valeur du risque 2a (ici 0,10) dans la zone Alpha de la bote de dialogue. On
trouve A' =2,6 et donc : G = m-A' = 100-2,6 = 97,4.
- Bien entendu, x^ peut tre considr comme le poids moyen minimum garanti
dans un chantillon de taille n au risque o/2.
Question 2
Afin de profiter des fonctionnalits d'Excel, nous allons raliser les calculs
prcdemment expliqus sur la grille suivante. Nous utilisons la fonction
INTERVALLE.CONFIANCE beaucoup plus rapide puisqu'elle permet d'viter le calcul de
CT^ = -,=. Cependant, on aurait pu utiliser sans aucun problme la premire mthode.
Vn
Rappelons simplement l'attention qu'il convient de prter au choix des rfrences
(absolues ou relatives) mme si plusieurs stratgies sont possibles.
Pour construire cette grille, suivre le guide !
- a : saisir les valeurs demandes dans la question (copier-coller)
- 1-a : calculer la valeur de la 1re ligne (1- cellule de gauche) et recopier vers le
bas.
- o : saisir les valeurs (utiliser le "copier-coller")
- n : idem
- A : calculer la 1re valeur en appelant la fonction INTERVALLE.CONFIANCE
(renseigner les 3 zones de la bote l'aide des valeurs de a, o et n de gauche en
fixant la colonne). Le 1re rsultat s'affiche (3,10).
- Xa : calculer la F
6
valeur en faisant la diffrence "cellule contenant la valeur
de m situe dans une cellule extrieure la grille (rfrence absolue)-1er valeur de A (fixer la colonne)"
- Xb : calculer la 1re valeur en faisant la somme "cellule contenant m (rfrence
absolue) + 1er valeur de A (fixer la colonne)"
- G : calculer sa 1re valeur en faisant un "copier-coller spcial formule" avec la
1" valeur de x ; dans la barre de formule, remplacer a par 2a
91
slectionner enfin sur la 1er ligne, les colonnes A, Xa , Xb et G que l'on vient
de calculer et tirer vers le bas la poigne de recopie. Tous les rsultats
s'affichent.
a
5,00%
3,00%
1,00%
0,30%
5,00%
3,00%
1,00%
0,30%
5,00%
3,00%
1,00%
0,30%
5,00%
3,00%
1,00%
0,30%
5,00%
3,00%
1,00%
0,30%
5,00%
3,00%
1,00%
0,30%
Niveau
scurit
(1-a)
95,00%
97,00%
99,00%
99,70%
95,00%
97,00%
99,00%
99,70%
95,00%
97,00%
99,00%
99,70%
95,00%
97,00%
99,00%
99,70%
95,00%
97,00%
99,00%
99,70%
95,00%
97,00%
99,00%
99,70%
0
5
5
5
5
5
5
5
5
5
5
5
5
3
3
3
3
3
3
3
3
3
3
3
3
n
10
10
10
10
20
20
20
20
30
30
30
30
10
10
10
10
20
20
20
20
30
30
30
30
A
fonction IC
3,10
3,43
4,07
4,69
2,19
2,43
2,88
3,32
1,79
1,98
2,35
2,71
1,86
2,06
2,44
2,82
1,31
1,46
1,73
1,99
1,07
1,19
1,41
1,63
X,
96,90
96,57
95,93
95,31
97,81
97,57
97,12
96,68
98,21
98,02
97,65
97,29
98,14
97,94
97,56
97,18
98,69
98,54
98,27
98,01
98,93
98,81
98,59
98,37
^
103,10
103,43
104,07
104,69
102,19
102,43
102,88
103,32
101,79
101,98
102,35
102,71
101,86
102,06
102,44
102,82
101,31
101,46
101,73
101,99
101,07
101,19
101,41
101,63
G
(poids moyen
minimum garanti)
97,40
97,03
96,32
95,66
98,16
97,90
97,40
96,93
98,50
98,28
97,88
97,49
98,44
98,22
97,79
97,39
98,90
98,74
98,44
98,16
99,10
98,97
98,73
98,49
Tableau 6.2 Dtermination de l'intervalle de probabilit du poids moyen et du poids moyen
minimum garanti au risque a. volution de ces rsultats en fonction de a, a et n.
Bien entendu, ces rsultats font suite aux conclusions mathmatiques exprimes dans la
partie "traduction statistique . . . " ci-dessus (consquences de la normalit de X).
Interprtation
Pour une mme taille d'chantillon, A (erreur absolue) augmente lorsque le risque
diminue. Par exemple, pour un chantillon de 10 tablettes au risque de 3%, il conviendra de
rviser la chane de production ds que le poids moyen d'un tel chantillon s'carte de plus de
3,43 g de la rfrence 100 g. Si le risque accept est 10 fois plus petit, soit 3%o , on
n'effectuera ce contrle que si l'cart la rfrence est beaucoup plus net (4,69 g).
Pour un risque donn, augmenter la taille de l'chantillon augmente la prcision et donc
diminue A. Ainsi, au risque 3%o voqu ci-dessus, avec un chantillon de 20 tablettes, l'cart
A n'est plus que de 3,32 g contre 4,69 g pour 10 tablettes. Cet cart, rvlateur d'une probable
avarie de la chane de production, n'est plus que de 2,71 g avec un chantillon de 30 tablettes.
Quand l'chantillonnage ne dtruit pas l'objet prlev et n'est pas trop coteux en temps,
il est donc intressant d'augmenter la taille.
Bien entendu, l'amlioration du fonctionnement de la chane visant diminuer la
variabilit va dans le mme sens. Avec un cart-type de 3 (au lieu de 5), nous trouvons
qu'avec un risque de 3%o et un chantillon de 30, il suffit de dtecter un cart de 1,63 g pour
92
tre amen effectuer une rvision de la chane. Rappelons que l'cart tait de 2,71 avec
l'cart-type a = 5.
6.4.2. Population de moyenne et variance connues, grand chantillon
Exemple : vente de veaux au cadran
Lors de la vente de veaux au march au cadran, toutes les donnes (prix, race, critres
descriptifs de l'animal, origine, etc...) sont systmatiquement enregistres. Le nombre
d'observations par type gntique d'animal est trs volumineux. Cette source d'informations
sera donc statistiquement assimile des donnes "population".
Dans cette courte tude, on s'intresse la note de conformation de veaux d'un type
gntique donn, critre de valorisation de l'animal. On note X la variable alatoire "note de
conformation" (note sur 10). On calcule les paramtres statistiques de X dans cette
population. On trouve une moyenne gale m = 7 et une variance gale o
2
= 4.
Un chantillon de 40 veaux de ce type va tre mis en vente. Dans quel intervalle
[x. , Xb ], dit intervalle de probabilit (ou pari) peut-on s'attendre trouver la note moyenne
de conformation dans un tel chantillon avec un niveau de scurit de 95%?
6.4.2.2. Notation et modle
Population
- X est la variable alatoire "note de conformation
- E(X) = m = 7 est la note moyenne de conformation
- Va r X=a
2
=4 .
R emarque : la loi de probabilit dans la population est inconnue, comme c'est
souvent le cas, ou diffrente d'une loi normale.
chantillon
- la taille est n (ici, n = 40)
- X), Xi, . . . , Xn sont des variables alatoires indpendantes
- E( Xi ) =m=7 Vi e {l , 2, . . . , n}
- VilTX â
l
=4 Vie{l,2,...,n}.
n
_ z^
La variable alatoire moyenne d'chantillonnage est X =
!
.
Prcisons sa distribution.
_ _ 2
Les paramtres statistiques sont E(X) = m et Var X = .
n
Pour obtenir la loi de probabilit, rappelons que X est la moyenne arithmtique des
variables alatoires Xi, indpendantes, de mme esprance et de mme variance. On peut donc
lui appliquer le thorme central limite : la loi de probabilit de X converge en probabilit
vers la loi normale lorsque " -> . En pratique, lorsque n est grand, la variable alatoire
moyenne suit approximativement la loi normale X" N(m, (/-\/n). Nous considrerons n
grand ds qu'il atteint 30.
93
6.4.2.4. Mise en uvre l'aide d'EXCEL
Le problme est donc identique au prcdent puisque le fait que la normalit soit
approche n'influe pas sur les calculs. Nous ralisons le mme calcul (des types de simulation
identiques ceux raliss pourraient bien sr tre mis en oeuvre).
R sultats
La 1re mthode consiste utiliser la fonction INTERVALLE.CONFIANCE. On
trouve 0,62. Notons A ce rsultat. On en dduit
x. =m-A=7-0, 62=6, 38 et Xb =m+A =7+0 , 62 =7, 62
Dans la 2
e
mthode, on utilise la fonction LOI.NORMALE.INVERSE Rappelons que
l'utilisation de cette fonction doit se faire relativement la loi de X, c'est dire avec la loi
X > N(m, (T / ^/n). Les arguments de la fonction sont les suivants :
- Probabilit : 0,025
- Esprance : 7
- cart_type : 0,316 (noter que l'on peut saisir son calcul o/Vnnon effectu
c'est dire sous la forme 2/(40
A
O,5).
La fonction est donc saisie de la faon suivante :
LOI.NORMALE.INVERSE^^S^Ô^.S))
Nous obtenons ainsi directement les bornes xa et xb de l'intervalle de probabilit.
Bien entendu, nous retrouvons les mmes rsultats que prcdemment :
Xa =6, 3 8 et Xb =7 , 62 (pour cette dernire valeur, saisir 0,975 dans la zone
Probabilit).
6.5. DISTRIBUTION D'CHANTILLONNAGE D'UNE PROPORTION POUR
UN GRAND CHANTILLON
Exemple : levage de cailles
Dans un important levage de cailles, on value 25%le pourcentage de volatiles
prsentant une anomalie de l'aile. On s'intresse un lot de 80 cailles destin la vente et la
proportion de cailles prsentant l'anomalie dans un tel lot.
Questions
1. Dans quelles limites ( ya ,yb ) peut-on s'attendre trouver la proportion de cailles
anormales dans un tel chantillon, au risque 2%.
2. quel taux maximal de cailles anormales peut-on garantir au risque 1%?
Population : c'est l'ensemble des cailles de l'levage
- 1 est une variable alatoire de Bernoulli (indicatrice)
1 = 1 si anomalie des ailes
1=0 sinon.
- la distribution de 1 est
P(l=l) = p ; p = 0,25
1 0 1
P( I =0) =l -p=q. P(I) q p
94
1 est une variable de Bernoulli de paramtre p
E( I ) =p
Var 1 ^p q.
Echantillon
La taille est n, ici 80
Statistiquement, l'chantillon est quivalent n indicatrices Ii, L, . . . , In
indpendantes telles que :
E( I , ) ==p Vi e{l , 2, . . . , n}
Va r l ^pq Vi e{l,2,...,n}
n
X = V I, est la variable alatoire "nombre de cailles prsentant l'anomalie dans un
chantillon de taille n". X suit la loi binomiale B (n, p)
Soit Y la variable alatoire "proportion de cailles prsentant l'anomalie dans un
chantillon de taille n.
Y= - = 1 (moyenne des indicatrices)
La distribution d'chantillonnage de la proportion est
E( Y) =E( I ) =p e t V a r Y= ^^^^
n n
La loi de probabilit de Y est la loi normale approche Y > N( p, . ( ) . En effet, Y est
V n
la moyenne arithmtique des n variables alatoires I;, indpendantes, de mme esprance p, de
mme variance pq. De plus comme n est grand on peut appliquer Y le thorme central
limite.
> R emarque : nous retrouvons le mme schma que celui des moyennes.
La traduction statistique de la premire question est
[y . ' Yb ]
?
tel que P(y. : Y^y, , ) ^l -a <=> A ? tel que P(p-A ^Y< p +A ) =l - a
Y o/2 Yi-a/2
Figure 6.2 Distribution de la proportion d'chantillonnage Y.
Y
Pour rsoudre le problme, il suffit d'utiliser la normalit de Y
95
P( Z^<
Y
<Z, ^) = l - a
P.q
N n "
D'o l'on dduit l'intervalle de probabilit au risque a
P+Z^^Ysp+Z,,,,^
y . = P- A et y , = p + A
6.5.4. Mise en uvre au moyen d'EXCEL
Nous procdons exactement de la mme faon que pour l'chantillonnage des
moyennes.
La 1" mthode s'appuie sur la loi de probabilit de Y, la loi N(p, J)
V n
Le calcul l'aide du clavier CTv = J' = J
:
donne 0,048.
Y
V n V 80
Dtermination de y a
On appelle la fonction LOI.NORMALE.INVERSE dont on renseigne les arguments
- Probabilit (saisir la valeur de o/2 soit 0,01)
- Esprance (saisir la valeur de p soit 0,25)
- Ecart-type (saisir la valeur de l'cart-type <3y calcul soit 0,048).
Le rsultat est Va = 0,14. C'est le fractile Yo/2
Dtermination de yi,
partir du rsultat prcdent, on tire la poigne de recopie ou bien on effectue un
"copier-collage spcial formule" et, dans la barre de formule, on remplace la probabilit par la
valeur de l-a/2 soit 0,99. On obtient le rsultat : yh = 0,36 (fractile Yi-o/) et l'on en dduit :
A=36%-25%=11%.
Interprtons ces rsultats. Dans cet important levage de cailles, on a valu 25%la
proportion de cailles prsentant une anomalie des ailes. Lorsqu'on commercialise un lot de 80
cailles, le lot tant considr comme alatoire et simple, on peut garantir l'acheteur au risque
de 2% qu'il faut s'attendre avoir une proportion d'au moins 14% de cailles prsentant
l'anomalie mais que cette proportion a peu de chances de dpasser 36%.
Avec une scurit de 98%, on peut galement garantir que le taux de cailles prsentant
l'anomalie est de 25%avec une erreur maximale de 11%.
Comme pour l'tude de l'chantillonnage des moyennes, la 2
e
mthode utilise la fonction
INTERVALLE CONFIANCE mais attention, cette fonction doit tre utilise relativement la
variable de Bernoulli I. Ses arguments sont :
- alpha (saisir le risque choisi soit 0,02)
- Ecart-type (saisir l'cart-type de 1 c'est dire ^pq soit ^0,25x0,75=0,433)
- Taille (saisir ici 80).
On obtient directement le rsultat A == 0,1126 dtermin ci-dessus.
Concernant le taux maximal de cailles anormales yM que l'on peut garantir au risque 1%,
c'est dire y^? tel que P(Y > y^) =0, 01, il est gal yb dtermin prcdemment : il
n'excdera pas 36%.
96
ESTIMATION
7.1. INTRODUCTION
La notion d'estimation a t prsente lors de l'introduction de la statistique infrentielle.
Rappelons que sa mission essentielle est d'obtenir une valeur approche d'un ou plusieurs
paramtres statistiques d'une variable alatoire d'une population partir des donnes
observes dans un chantillon.
On peut citer comme exemples l'estimation du revenu annuel moyen de vignerons de
l'Aude, celle du taux d'infestation d'une rcolte, celle du pourcentage de franais de plus de
cinquante ans prsentant un taux de cholestrol trop lev ou celle enfin du prix de vente
annuel moyen d'un kilo de miel franais "toutes fleurs"garanti biologique.
Pour introduire les estimateurs des principaux paramtres statistiques, nous aborderons
d'abord l'estimation ponctuelle. Munis de ces outils statistiques, nous pratiquerons ensuite les
intervalles de confiance en les calculant l'aide d'Excel.
7.2. ESTIMATION PONCTUELLE
7.2.1. Introduction : estimateur-estimation
Considrons un chantillon de taille n.
Le modle qui lui est associ est dfini par n variables alatoires indpendantes Xi, Xi,
.. .,Xn distribues selon la mme loi de probabilit connue ou inconnue L(). 0, paramtre de
la loi est inconnu (peut tre uni ou bidimensionnel). Notons xi, -n-i,.. .Xn une ralisation des n
variables Xi, X2, ...,Xn.
Exemples :
- distribution de Bernoulli B(p). Le paramtre inconnu est p, proportion dans
la population
- distribution de Poisson P(m). Le paramtre inconnu est le paramtre m
- distribution gaussienne N(m,o) : le paramtre inconnu peut tre
unidimensionnel (soit m, soit o) ou bidimensionnel
t l =T( Xn, Xl 2, . . . Xi n) t2=T(X21,X22,...X2o) ... tfc=T(Xkl, Xk2,.. .Xkn )
Dfinition simplifie : on appelle estimateur de une statistique T telle que T(xi, x: ;,.. . Xn )
puisse tre considre comme valeur approche du paramtre inconnu 0. T(xi, X2, . . .x,, ) est
appele estimation de 0. Cette dfinition peut tre illustre par le schma prcdent
7.2.2. Estimation ponctuelle d'une moyenne
Exemple :consommation mensuelle moyenne d'apritif anis
On veut connatre la consommation mensuelle moyenne d'apritif de type anis
alcoolis dans la France du Sud, cette zone tant dfinie selon une slection prcise de
dpartements. Une enqute omnibus est ralise auprs de 2000 franais choisis
alatoirement dans cette zone. Dans cet chantillon, il apparat que la consommation
mensuelle moyenne est de trois verres par habitant (nous considrons l'unit "verre"comme
relativement prcise tant donn que dans les dbits de boissons, on utilise couramment une
"dosette" standardise).
Question : combien peut-on estimer la consommation mensuelle moyenne d'un
habitant de la rgion tudie ?
Population : c'est l'ensemble des habitants de la France du Sud.
- X est la variable alatoire "consommation mensuelle d'apritif anis alcoolis
d'un habitant" (unit = un verre)
(X=nombre de verres par mois et par habitant)
- E(X) = m est la consommation mensuelle moyenne par habitant
- VarX=o
2
chantillon
- La taille est n, ici 2000
- Xi, Xi, ... .Xooo sont des variables alatoires indpendantes
- E(Xi) = m et Var X, = o
2
V i e {1,2,..,2000}
- X=y x , est la variable alatoire moyenne observe dans un tel chantillon
n ,.i
- x = 3 est la moyenne observe dans cet chantillon.
Approche intuitive
Spontanment, on value la consommation mensuelle moyenne d'un habitant de la
France du Sud trois verres par mois. On nous dit que x = 3 verres constitue l'estimation
ponctuelle de m, consommation mensuelle moyenne d'un habitant de la zone considre.
Distribution d'chantillonnage des moyennes
Dans le chapitre "Distributions d'chantillonnage", propos des moyennes
d'chantillonnage (cf paragraphe 6.4.1.2), nous avons trouv que E(X) = m et Var X = .
n
Estimateur sans biais et convergent
\E(X) = m ]dfinit la moyenne d'chantillonnage X comme estimateur sans biais de la
moyenne m de la population C'est dire qu'en moyenne, la moyenne d'chantillonnage X est
98
gale la "vraie" moyenne m (moyenne de la population), E(X) = m ]exprime encore le fait
que la moyenne d'chantillon X est centre autour de la moyenne m de la population. Les
distributions d'chantillonnage des moyennes sont gnralement symtriques ; il en rsulte
que les valeurs les plus probables prises par les moyennes d'chantillons sont autour de la
moyenne m de la population.
L'absence de biais est une qualit fondamentale d'un estimateur.
Estimateur convergent
__ 2 _
Va r X= => lim^,, VarX =0
n
X estimateur sans biais de m est dit estimateur convergent.
Concrtement, quand les chantillons atteignent une grande taille, leurs moyennes se
stabilisent, la dispersion des moyennes, la variance des moyennes devient trs petite.
L'chantillon grandissant devient la population et les deux moyennes (chantillon,
population) convergent. VarX est alors nulle. La convergence est une qualit essentielle, elle
valide l'outil estimateur lorsque l'chantillon atteint la population par suite d'une augmentation
de sa taille.
En rsum E( X) =m et lim^ ^ VarX =0.
Cela quivaut dire que X variable alatoire "moyenne observe dans l'chantillon"
est un estimateur sans biais et convergent de m. On note m = X .
R emarque ;la notation m, trs utilise, ne permet pas de distinguer l'estimateur X
(variable alatoire , statistique, fonction f(Xi, Xi, ...,Xn ) de l'estimation x (valeur
observe). Selon le contexte, nous utiliserons l'une ou l'autre de ces notations.
Application pratique
Dans le cas d'une moyenne, l'approche intuitive est "valide" par la dmarche statistique.
La moyenne observe dans cet chantillon, x = 3 verres est une estimation ponctuelle de la
consommation mensuelle moyenne d'un habitant de la France du Sud.
On peut critiquer ce rsultat en remarquant qu'un autre chantillon de 2000 habitant de
la mme zone, conduirait une autre estimation. Il est important de bien voir qu'une
estimation est ncessairement entache d'erreur puisque issue d'un chantillon. Il est
fondamental de fiabiliser le rsultat d'une part en assurant un degr de confiance, d'autre part
en valuant la marge d'erreur A associe l'estimation. Ceci fera l'objet du paragraphe "
intervalles de confiance" abord ultrieurement.
7.2.3. Estimation ponctuelle d'une variance
Exemple : variabilit du prix de la sole frache ______
On veut tudier la variabilit du prix de la sole vendue dans des poissonneries similaires
d'une ville donne au cours d'une priode donne (la variabilit du prix n'tait ainsi fonction
que des arrivages). Dans ce contexte, on ralise alatoirement 60 relevs. Dans cet
chantillon, on observe un cart type de 1,7 6.
Question : estimer la variance du prix de la sole frache dans le contexte tudi (l'chantillon
sera considr comme gaussien).
99
Population : c'est l'ensemble des poissonneries slectionnes au cours de la priode
considre.
- X est la variable alatoire, prix du kilo de sole frache
- E(X) = m est le prix moyen du kilo de sole frache
- Va r X=o
2
.
chantillon
- La taille est n ici 60
- Xi , X , .. .,Xo sont des variables alatoires indpendantes
- X, -> N(m,o) V i e {1,2,...,60}.
La variable alatoire variance observe dans un tel chantillon est
S'^-'-^X.-X)^^ avec SCE=^(X, -X)
2
n i ^j n j ^)
Dans l'chantillon considr, on observe une variance s'
2
= (1,7)
2
.
Approche intuitive
Comme prcdemment, de faon intuitive, nous avons tendance estimer la variance o
2
par la variance observe (1,7)
2
. En examinant les rsultats thoriques nous allons comprendre
que la variance observe S'
2
n'est pas un estimateur satisfaisant.
Distribution d'chantillonnage des variances
Dans le chapitre "Distributions d'chantillonnage", propos des variances
(cf. paragraphe 6.3.2), nous avons indiqu les rsultats suivants :
E(S'
1
)=E(
-Y(X -X)
2
)^
2
-
0
-
n ^ n
Var(S'
2
) =' -
4
- +^- o LU dsigne le moment centr d'ordre 4
n n n
c'est dire u.^ = E[(X, - m)
4
].
Nous remarquons que E(S'
2
)ô
2
. La variance observe S'
2
est donc une estimation
biaise de la variance de la population. L'absence de biais tant une qualit essentielle pour un
estimateur, il convient de rechercher un autre outil.
E(S'
2
)=a
l
(
\
^-)
n
Ef^S'
2
^
2
L n-l J
Par suite, ()S'
2
est un estimateur sans biais de o
2
que nous noterons S
2
.
n - l
S
2
=(^y)S'
2
=(^X^)(X, -X)
2
=^^(X, -X)
2
=^
Var S
2
= Var [-"-S
12
1 = (-"-)
2
Var S'
2
Ln-1 J n-l
100
Compte tenu de l'expression de Var S'
2
:
l""n^ VarS'
2
=0 => lim,,.^,VarS=0
En rsum :
^(S
2
)^
2
; lim^ VarS
2
-o]
i " _
Cela revient dire me S
2
= V (X, - X)
2
est un estimateur sans biais et convergent
n-1"
de a
2
.
-2
De la mme faon que pour les moyennes, on note o l'estimateur et l'estimation de la
variance.
On peut dterminer l'estimation ponctuelle de la variance du prix de la sole frache sur la
priode considre a
2
= s
2
= -"-s'
2
= -
60
-(1,7)
2
= 2,94.
n-1 60-1
A propos de la fiabilit du rsultat, nous faisons les mmes remarques que lors de
l'estimation ponctuelle d'une moyenne.
7.2.4. Estimation ponctuelle d'une proportion
Exemple : enqute de satisfaction
Une cole de langues trangres par Internet ralise priodiquement un sondage auprs
de ses clients afin d'valuer leur satisfaction. Un tel sondage est effectu auprs d'un
chantillon alatoire de 300 personnes choisies parmi la clientle du cours de langue chinoise.
On trouve 27%de satisfaits.
Question : estimer la proportion de satisfaits dans la population des clients de ce cours.
Population : c'est l'ensemble des clients.
- 1 est l'indicatrice du caractre "satisfait du cours de chinois"
- p est la proportion de clients satisfaits
- 1 est la variable de Bernoulli de paramtre p . 1 > B(p)
- E( I ) =p
- V a r l =p ( p - l ) =p q a ve c q =l - p.
chantillon
- Ii, , . ..,l oo sont des variables alatoires indpendantes
- I, -> B(p) V i e {1,2,...,300}.
^-
Y =
!
= 1 est la variable alatoire "proportion de satisfaits observe dans un tel
n
chantillon".
y = 0,27 est la proportion de satisfaits dans cette enqute.
101
Approche intuitive
Les enqutes sont trs courantes dans les mdias. On value spontanment la proportion
de clients satisfaits par la proportion de satisfaits observe dans l'enqute (soit 27%) dite
estimation ponctuelle
Nous retrouvons la mme dmarche statistique que pour l'tude de la moyenne.
Rappelons les points essentiels du paragraphe "Distribution d'chantillonnage d'une
proportion" (cf paragraphe 6.5.2.1).
E( Y) =E( I ) =p ^
Var ^-.Y^^^=> lim, ^VarY-0
n n
Ceci revient dire que Y variable alatoire "proportion de satisfait" observe dans un
chantillon de taille n est un estimateur sans biais et convergent de p.
On note p l'estimateur et l'estimation de p.
L'approche intuitive est confirme par la dmarche statistique. On estime la proportion
de clients satisfaits 27%(estimation ponctuelle).
Nous ferons les mmes remarques que prcdemment concernant la scurit et la
fiabilit des rsultats.
7.3. INTERVALLE DE CONFIANCE
7.3.1. Introduction
L'tude de l'estimation ponctuelle nous a fourni les outils estimateurs fondamentaux
mais nous a montr la relative fragilit d'une telle estimation.
Par exemple, lorsque nous avons estim qu'en moyenne un habitant de la France du Sud
consommait en moyenne 3 verres d'apritif anis par mois, nous avons conscience qu'une
autre enqute de mme taille aurait peut-tre conduit une estimation de 2,5 verres.
Scuriser l'estimation ponctuelle nous conduit introduire un outil fondamental :
l'intervalle de confiance. Le contexte gnral est le suivant : il s'agit d'estimer un paramtre
d'une variable alatoire X d'une population partir d'un chantillon de taille n.
Notons xi, X2, . . . Xn les valeurs observes dans l'chantillon.
On appelle intervalle de confiance au niveau de confiance l-o, le couple de statistiques
[T,(X|, X3, . . . , x^ ), T,(x,, x^,...,x^ )]t el l es que:
P[T,(X,.X,,...,^ )<.e<T,(X,.X,.....X, ) ]=l -a
L'intervalle alatoire [T,(X|, X^,...,X^ ) ,T;(X|, X;,...,X^ )] est parfois appel
"intervalle de probabilit de recouvrement". Les intervalles de confiance sont des ralisations
de cet intervalle alatoire.
Pour illustrer la dtermination des intervalles de confiance d'une moyenne, on peut
citer les exemples suivants :
- l'estimation du poids moyen d'un poulet d'un levage partir d'un chantillon extrait
d'une population normale de variance connue
- l'estimation du prix moyen du kilo de girolles partir d'un grand chantillon extrait
d'une population normale de variance inconnue
- l'estimation du poids moyen de jambons partir d'un grand chantillon extrait d'une
population quelconque.
102
L'estimation de la variabilit du Taux de Viande Maigre partir d'chantillons extraits
d'une populations normales concrtisera la notion d'intervalle de confiance d'une variance.
Enfin, l'tude de l'estimation de la proportion de clients d'une socit intresss par une
nouvelle prestation, partir de grands chantillons illustrera la dtermination de l'intervalle de
confiance d'une proportion.
7.3.2. Intervalle de confiance d'une moyenne pour une population
normale de variance connue
Exemple : poids moyen d'un poulet
7.3.2.1 . Prsentation des donnes et position du problme
Un producteur de volailles leves en plein air (fru de statistiques! ) s'intresse plus
particulirement son levage de poulets. Par exprience, il sait que la distribution du poids
de ces poulets est sensiblement gaussienne et que sa variabilit est peu prs constante. Il
considre que l'cart-type de la variable alatoire "poids d'un poulet" est de 0,3 kg. Par contre,
le poids moyen est plus fluctuant, l'apptit des animaux pouvant varier en fonction de
l'aliment distribu, la saison, etc. Il souhaite donc estimer le poids moyen de ses poulets. Pour
cela, il prlve un chantillon de 40 poulets et observe les poids indiqus sur le tableau 7.1.
2,177
1,925
1,998
1,86
2,448
1,975
2,131
1,691
2,026
2,032
2,349
1,915
1,354
1,908
1,284
2,075
1,929
1,782
2,247
2,37
1,993
1,739
1,936
2,094
2,025
1,457
1,895
1,496
1,405
1,233
2,34
1,334
1,679
2,05
1,935
2,795
1,884
2,053
1,66
1,929
Tableau 7.1 Poids de poulets (en kg).
Question : dterminer l'intervalle de confiance du poids moyen d'un poulet dans l'levage au
niveau de confiance 1-a avec a = 5%.
Population : c'est l'ensemble des poulets de l'levage.
- X est la variable alatoire, poids d'un poulet
- E(X) = m est le poids moyen d'un poulet
- Va r X=o
2
- X^N(m, o)
chantillon
- Xi, Xz, .. ..Xîo sont des variables alatoires indpendantes
- E(X, )=m V i e {1,2,...,40}
- X,-).N(m,o)
- Va r X, =o
2
_ 1 n
- X = VX est la variable alatoire moyenne observe dans un tel chantillon
nt?
- X = m est l'estimateur de la moyenne inconnue m.
Rappelons que l'estimateur du poids moyen m d'un poulet dans l'levage est la variable
alatoire X, moyenne observe dans un chantillon de taille n. Tout chantillon conduisant
103
une estimation diffrente (m = x) , il est important d'valuer la marge d'erreur A autour d'une
estimation.
Il s'agit de trouver l'erreur A telle que P(X - A <m<X+ A ) = l - a , c'est dire telle que
m = X A au risque a. soit enfin dterminer l'intervalle [A, B ]tel que P(A < m ^B) = 1 - a
[A, B] est un intervalle alatoire ( A ^X- A , B= X+ A ) . Toute ralisation [a, b] est
un intervalle de confiance de m au niveau de confiance 1-a .
Il apparat que la question de la dtermination de l'intervalle de confiance passe par la
dtermination de la loi de probabilit de la variable alatoire X : X > N(m, o / -Jn).
(cf. chapitre 6 "Distributions d'chantillonnage"),
Z=, ; Z> N(0, 1) loi normale centre rduite
o/Vn
PtZ^^^-^Z, ,/,)=! - a
o/Vn
P( X + Z, <m <X + Z, . , ) = l - a
\'n Vn
a _ a _
â/2 I ~~
z
'!at^'~^^~
l\

Vn Vn
7.3.2.4. Mise en uvre l'aide d'Excel
1
re
mthode : elle est de type manuel.
A l'aide du logiciel, on ralise les calculs ci-dessus :
- x =l , 91 (fonction MOYENNE)
- Z, ^=1,96 (fonction LOI.NORMALE.STANDARD.INVERSE, dans laquelle on
saisira 0,975 dans la zone "probabilit")
CT 0,3 . _ .
=0,0474
^V40
On trouve A = Z^-,=- = 0,093 . Soit m = X A au risque a et on en dduit l'intervalle
Vn
de confiance, li l'estimation
b =x +A =2 , 0 0 3 1
Dans un chantillon de 40 poulets, on estime donc le poids moyen avec une prcision de
93 grammes en prenant 5%de risque.
En rsum, lorsque l'cart-type de la population est connu, la marge d'erreur A ne
dpend que de la taille n de l'chantillon et du niveau de confiance (1-a). Plus l'chantillon est
grand, plus petite est l'erreur. Mais plus le niveau de confiance est grand, plus grande est
l'erreur. Si l'cart o est grand, il vaut mieux prendre un grand chantillon afin de limiter la
marge d'erreur.
R emarque : il est important de remarquer qu'un autre chantillon conduirait un
autre intervalle de confiance. Si l'on disposait d'un trs grand nombre d'chantillons,
104
on pourrait s'attendre ce que 5%des intervalles de confiance trouvs ne contienne
pas la moyenne m de la population.
2e mthode : c'est une mthode directe qui utilise la fonction INTERVALLE CONFIANCE
Cette fonction, dj utilise pour les distributions d'chantillonnage des moyennes et
proportions est particulirement bien adapte ce problme.
On renseigne ses arguments de la faon suivante :
- pour Alpha, on saisit le risque pris soit ici 0,05
- pour cart-type, on saisit celui de la population (0,3)
- pour Taille, on saisit la valeur de n (40).
Le rsultat affich (0,093) est la valeur de A.
7.3.2.5. Simulations d'intervalles de confiance
Nous proposons ici de matrialiser la relle valeur de l'intervalle de confiance et de
niveau de confiance l'aide de simulations ralises sur Excel.
Supposons que la distribution des poids de poulets dans l'levage soit compltement
connue et que le paramtre statistique qui nous intresse, leur moyenne, soit m = 1,8 kg. Par
suite, la distribution de X, variable alatoire "poids d'un poulet" est X -> N(1,8 ; 0,3).
Par simulation, nous proposons de gnrer l'extraction de 125 chantillons de taille 20.
Dans le menu Outils / Utilitaire d'analyse, nous choisissons "Gnration de nombre alatoires"
et renseignons la bote de dialogue.
Dans la zone "paramtres", la saisie de dcimales pose problme. Nous avons saisi des
valeurs en grammes.
Par dfinition, ce calcul gnre chaque lancement des chantillon diffrents
il(IllBra>.<-ailW>l!2-, : .., ,,. . - ,(20 ''^;'-oi 1
. ^Bliiff.jl^M^î*^^ .. . .
!
PSS- - -*
^^ Â.^.^'Â .^^^^w''-'
:
'''--:.'' .-. ; .-' , . ' - . . .
: ^^'^^rie-:r^^:. ,;- .-. -. "-, " JNormale j'
^li^^^^S.-^c*
1
"
0
' "" ' '^N "
:
.^ ^
;
.
:
:.\^'-'/
âi^tiBa-î.^.^.'Fool;,.'^
1
:;;,.,, \ ^
^W***-"'''.'/ ,:..- ,- ,.' 1
'.' Wi'..'? ;' .7 ^~, -'. . ,:, - .;,..,,, .rft,,.,i,il,Trv
,r;i,iî^^.:,. ^- -. -. -:;{' ^.;^
1
"
A
"";. 2U,
;^|S^|i.!^^
-..''""a'.r
' ^-^
...
Echantillon 1
chantillon 2
Echantillon 124
chantillon 125
Xl
2049
1969
1763
1846
X2
2436
1865
2146
1481
Xl9
/S8/
1444
1808
1825
X20
2192
1913
1753
1815
MOYENNE
1873
1783
1828
1640
INTERVALLE DE
CONFIANCE (A)
131
131
131
131
1
1
1
1
0
121
Tableau 7.2 Simulation d'chantillons alatoires. Observation des moyennes et intervalles de
confiance engendrs
105
Le tableau 7.2 montre les premires et dernires valeurs (en italique) parmi les 125 x 20
soit 2500 valeurs obtenues.
Pour le premier chantillon, puis pour tous les autres (recopie vers le bas), nous
calculons les valeurs suivantes :
- moyenne (fonction MOYENNE)
- intervalle de confiance A, c'est dire la prcision de l'estimation (fonction
INTERVALLE.CONFIANCE avec Alpha=0,05, Ecart-type=300, Taille=20)
- indicateur d'appartenance (1=1) ou non (1=0) de la moyenne l'intervalle de
confiance. Pour calculer cet indicateur, on utilise la fonction SI. Pour la cellule
grise du tableau, la formule s'crit : =SI(ABS(LC(-2)-1800)<=LC(-1);1;0).
La somme des valeurs de 1 (bouton f") ) soit ici 121 indique le nombre d'chantillons
ayant conduit un intervalle de confiance contenant la vraie moyenne de la population ; le
complmentaire de cette valeur soit 125-121 = 4 concrtise le risque a de 5%. On en dduit
que 4 intervalles de confiance (125 - 121) ne contiennent pas la moyenne de la population.
normale de variance inconnue
Exemple : prix moyen du kilo de girolles
On s'intresse au prix de vente des girolles sur les marchs toulousains l'automne
2001. Des tudes antrieures montrent que la distribution de ce prix dans cette priode peut
tre considre comme sensiblement gaussienne.
A l'issue de 14 relevs raliss de manire alatoire et indpendante, on observe les
rsultats du tableau 7.3.
| Prix en | 15,20115,70| 16,30116,80117,20| 17,60118,10118,60| 18,70119,00| 19,70120,30|21,10122,00|
Tableau 7.3 Relev de prix du kilo de girolles.
Questions
Estimer le prix moyen du kilo de girolles sur les marchs toulousains l'automne 2001
et dterminer un intervalle de confiance de ce prix moyen au niveau de confiance 1-a = 0,95
Population : c'est l'ensemble des talages de girolles dans la zone et dans la priode
considres
- X est la variable alatoire, prix d'un kilo de girolles (d'un talage)
E(X) = m est le prix moyen du kilo de girolles
- Var X=o
2
(inconnue)
- X-> N(m, CT) .
chantillon
- Xi , Xz, .. .,Xn sont des variables alatoires indpendantes
- X, -> . N(m, o).
106
_ 1 n ^
X= y x , -m est la variable alatoire "moyenne observe dans un tel chantillon,
ni-r
estimateur de la moyenne inconnue m d'estimation m = x .
Prcdemment, nous avons vu en quels termes se posait la question de l'intervalle de
confiance d'une moyenne. On cherche A tel que P(X-A <, m <X+A) =l - a . . On veut
donc dterminer l'intervalle [A, B ]tel que P(A < m < B) = 1 - a o A = X- A e t B = X+ A
La population est gaussienne mais de variance inconnue. Notons a l'estimation de
l'cart-type. La loi de probabilit adapte l'estimateur est ici la loi de Student (n-1) degrs
de libert
X-E(X) X-m _
-== =^T= -> T,_
"~- " i r ("-"
o^ G/ ^n
P(t a, 2<--^-<t l ^2)=l -a
CT/\' n
P( X+t ^3-^<m<X+t , _^-^=l -a
^n ^n
Â--t ---t --
^
L
-
t
~ ' n/ 2 r" -l-a./l r~
^/n Vn
7.3.3.4. Mise en uvre au moyen d' EXCEL
Nous ralisons les calculs prsents ci-dessus.
- estimation du prix moyen du kilo de girolles : m =18,3 07 (fonction
MOYENNE)
ce qui veut dire qu'en moyenne, le prix du kilo de girolles sur le march toulousain
l'automne 2001 est de 18,307
- calcul de l'intervalle de confiance : o =2,011 (fonction ECARTYPE)
o 2,011
-,=-=,==0,538
Vn ^4
- t , _^, 3 = 2,16 (fonction LOI.STUDENT.INVERSE). Dans la bote de dialogue
de cette fonction, on renseigne : Probabilit : 0,05 et Degr-libert : 13 (c'est
dire n - 1 ).
On obtient A = 2,16 x 0,538 = 1,161.
On estime donc le prix moyen du kilo de girolles 18,307 1,161 prs au niveau de
confiance 95%.
a = 18,307-1,161 = 17,146 et b = 18,307 + 1,161 =19,468
> R emarque : la fonction INTERVALLE.CONFIANCE, trs pratique, n'est
programme qu'avec la Loi Normale. Elle est donc dconseille lorsque la variance
de la population est inconnue et l'chantillon petit. En effet, l'erreur est sous-estime
ce qui diminue la fiabilit. Ici, par exemple, cette fonction fournit une erreur
A=l,053.
107
quelconque l'aide d'un grand chantillon
Exemple : estimation du poids moyen de jambons
Une entreprise de salaisons veut estimer le poids moyen des jambons frais livrs par un
gros fournisseur. Pour cela, on slectionne un chantillon de 80 jambons et on note le poids en
kg de chacun d'eux ce qui fournit les rsultats du tableau 7.4.
9,45
9,52
9,69
9,89
11,26
11,27
11,01
10,90
9,23
10,11
8,70
9,83
11,80
10,92
10,56
11,40
9,57
9,89
9,60
10,17
10,51
10,47
10,86
10,40
9,10
9,70
10,09
9,38
12,00
11,01
11,24
10,84
10,10
9,64
10,05
9,73
11,12
11,27
11,09
11,91
10,30
10,23
9,62
9,70
10,68
10,52
10,53
10,76
10,13
10,22
9,12
10,18
10,55
11,08
10,49
10,72
9,25
9,95
9,69
10,13
11,80
11,15
11,29
10,32
10,08
9,87
10,29
10,17
11,01
11,14
10,67
11,60
9,78
9,21
9,95
10,04
11,25
10,37
11,10
10,58
Tableau 7.4 Poids de jambons (en kg).
Questions; estimer le poids moyen d'un jambon frais et dterminer un intervalle de
confiance de ce poids moyen aux niveaux de confiance 95%, 99%et 99,9%.
Population : c'est l'ensemble des jambons frais livrs par le fournisseur.
- X est la variable alatoire, poids d'un jambon (en kg)
- E(X) = m est le poids moyen d'un jambon
- Var X = a
2
(inconnue).
chantillon
- la taille est n, ici 80
- Xi, Xa, .. .,Xn sont des variables alatoires indpendantes.
n
/-^
X = V X, = m est l'estimateur de la moyenne m.
"1-1
La question de la dtermination de l'intervalle de confiance se pose dans les mmes termes
que dans l'exemple prcdent. Il faut adopter une loi de probabilit de l'estimateur X.
Comme dans de nombreux cas concrets, la population est quelconque (loi de probabilit
et variance inconnues). L'chantillon est grand et la moyenne d'chantillonnage suit
approximativement la loi Normale. La variance de la population tant inconnue, nous
pouvons adopter, dans ce contexte, la loi de Student pour l'estimateur X. La dmarche
statistique et les calculs sont les mmes que ceux dvelopps dans le paragraphe prcdent.
Nous ralisons les calculs prsents ci-dessus.
La fonction MOYENNE donne l'estimation du poids moyen : m = x =10,65 kg.
La fonction LOI. STUDENT. IN VERSE permet de dterminer l'intervalle de confiance.
Enfin, la fonction ECARTYPE permet de calculer o et donc a /^/n . On trouve 0,1117.
108
On obtient les rsultats suivants indiqus sur le tableau 7.5
a
Tl-o/ 2
IC (A)
a
b
0,05
1,99
0,22
10,43
10,87
0,01
2,64
0,29
10,35
10,94
0,001
3,42
0,38
10,27
11,03
Tableau 7.5 Intervalles de confiance du poids moyen d'un jambon en fonction du risque a.
Bien entendu, l'intervalle de confiance grandit lorsque le risque diminue : on prend
moins de risque mais la marge d'erreur est plus grande.
On en dduit que le poids moyen d'un jambon est de 10,65 kg 22 g prs au risque 5%
ou bien que ce poids moyen est compris entre 10,43 kg et 10,87 kg au risque 5%. On
interprterait de la mme faon les rsultats correspondant aux autres valeurs de risque.
Une autre mthode consiste utiliser la fonction INTERVALLE.CONFIANCE.
Rappelons que cette fonction n'est programme que pour la loi normale. L'chantillon tant
grand, l'utilisation de cette fonction est acceptable. Dans la zone "Ecart-type" de la bote de
dialogue, il faudra saisir l'cart-type estim 0,999. On obtient le tableau 7.6 des rsultats. Ils
sont trs proches des prcdents.
a
IC(A)
a
b
0,05
0,22
10,43
10,87
0,O
0,29
10,36
10,94
0,00f
0,37
10,28
11,02
Tableau 7.6 Intervalles de confiance du poids moyen d'un jambon en fonction du risque a
(loi normale et fonction INTERVALLE.CONFIANCE).
En rsum, nous trouvons pratiquement les mmes rsultats. Dans le cas de l'intervalle
de confiance d'une moyenne d'une population quelconque, au moyen d'un grand chantillon,
l'utilisation de la fonction INTERVALLE.CONFIANCE est la mthode la plus rapide.
7.3.5. Intervalle de confiance d'une variance pour une population
normale
Exemple : estimation de la variabilit du taux de viande maigre
Un groupement d'leveurs de porcs participe un essai sur des porcs issus d'une
nouvelle slection gntique. Plusieurs critres sont tudis parmi lesquels le taux de viande
maigre appel TVM (richesse des carcasses en viande maigre). C'est un indicateur important
dans la dtermination du prix du kilo de viande.
Dans cette tude, nous nous intresserons la variabilit du TVM. Ce dernier est valu
partir de 23 carcasses choisies indpendamment et de manire alatoire. Les rsultats x;
observs dans cet chantillon sont indiqus sur le tableau 7.7 (en pourcentage).
X| 59,5
62,0
59,5
62,4
57,6
62,5
59,7
62,7
59,8
63,0
60,0 60,2 60,3 60,5 60,7 60,8 61,0 61,0 61,4 61,5 61,5 61,7 61,9
Tableau 7.7 Taux de viande maigre.
La distribution du TVM est considre comme sensiblement gaussienne.
109
Questions : estimer la variance du TVM et dterminer un intervalle de confiance de la
variance au niveau de confiance 95%.
Population : c'est l'ensemble des porcs issus de la nouvelle slection gntique
- X est la variable alatoire TVM (en %)
- E(X) = m est le TVM moyen
- V a r X=o
2
- X-> N(m, o)
chantillon
- Xi , X, .. .,Xn sont des variables alatoires indpendantes
- X, -> N(m, o) Vi e{l , 2, . . , n}
^~. 1 " PF
- scT^y^x.-x)^'
0
-
n-l-f-r- ' n-1
On estime la variance par o
2
= S
2
.
En termes statistiques, il s'agit de dterminer l'intervalle de confiance c'est dire
l'intervalle alatoire [A
2
, B
2
]tel que P(A
2
-â
2
<B
2
)=-OL.
On doit rechercher une loi de probabilit impliquant la variance, sachant que la
population est normale. Dans le chapitre 4 "Rappels de probabilit", nous avons indiqu une
loi rpondant cette exigence :
(n-)s
' -^ X
2
^-,), loidux'Oi-^ddI.
(J
o[ i (n-l)S
2
; 1 ,
P -y < -:_ _ _ _ < v = 1 CX.
A. (n-l);<x/ 2 - 2 -A. (n-l);l-a/ 2
r_(n_l)S_ ^(n-l)S
2
1
<=> P \2^
a <
2 =l -a
|_ ^ (n-l ) ;l -a/2 X ( n-l ) ;c t /2
tfoA-.-^"-^- elB
2
^"-^ .
(n-l);l-<x/2 A (n-l);a/2
cr = 1,619 est l'estimation de la variance.
La fonction "intervalle de confiance de la variance" n'tant pas programme dans le
logiciel, il faut raliser les calculs ci-dessus (a = 0,05) :
- X a / 2 = 10,982 valeur obtenue l'aide de la fonction KHIDEUX.INVERSE
dont on renseigne la bote de dialogue (Probabilit : 0,975 ; Degrs libert : 22)
- 5C l-a/2 = 36,781 (copier-coller partir du rsultat prcdent, puis changer la
probabilit dans la barre de formule)
110
- pour dterminer A
2
et B
2
: on ralise le calcul - soit 0,968. On trouve
36,781
de la mme faon ; B
2
=- 3,243.
[0,968 ; 3,243)]constitue un intervalle de confiance de la variance de la population au
niveau de confiance 95%.
R emarque : contrairement aux questions relatives aux moyennes, l'intervalle de
confiance n'est pas centr sur l'estimation de la variance 1,619. En effet, le centre de
l'intervalle de confiance est 2,106.
7.3.6. Intervalle de confiance d'une proportion au moyen d'un grand
chantillon
Exemple : lancement d'un nouveau produit
Une socit de service de nettoyage envisage d'ajouter ses prestations habituelles le
nettoyage des rideaux et tentures. La socit veut valuer quel pourcentage de clients sont
intresss par un tel service
Un sondage est ralis auprs de 300 personnes choisies alatoirement dans la
population des clients. Dans cet chantillon, on observe que 23%des clients sont intresss
par ce nouveau service.
Questions : estimer la proportion p de clients prts utiliser ce nouveau service et dterminer
un intervalle de confiance de cette proportion au niveau de confiance 95%.
Population : c'est l'ensemble des clients de la socit.
- 1 est l'indicatrice de l'vnement "utilisation potentielle du nouveau service"
- p est la proportion de clients potentiels du nouveau service
- l--B(p) Vi e {1,2,...,300}
- E(I) = p et Var 1 = pq avec q = 1-p.
chantillon
- Ii, l2, .. .Jn sont des variables alatoires indpendantes
- I, -> B(p) est une variable de Bernoulli de paramtre p
- Y= V Î =1 est la variable alatoire "proportion de clients potentiels du
nf-r
service nettoyage rideaux" observe dans un tel chantillon. Dans notre
chantillon, on observe y = 23%.
Y = p est l'estimateur de p, proportion de clients potentiels du nouveau service dans la
population de clients .
Intervalle de confiance de p au niveau de confiance 1-a
II s'agit de trouver A tel que P(Y-A < p < Y+ A ) = 1-a c'est dire
A t e l q u e p = YA au risque a.
1 1 1
Cela revient dterminer l'intervalle alatoire
[A = Y - A , B = Y + A ]tel que P[A <p < B]=l -a
Toute ralisation [a , b]de [A , B]est un intervalle de confiance de p au niveau de
confiance 1-a.
La dmarche statistique est analogue celle que nous avons suivie pour la dtermination
de l'intervalle de confiance d'une moyenne.
i \âr i T
Loi de probabilit de Y e s t Y TM( p, J ) soit Y N(p,.|'-
1
-) comme dj vu
V n V n
dans le chapitre 6 "chantillonnage".
R emarque : rappelons succinctement que si Y est la moyenne arithmtique de n
variables de Bernoulli I; indpendantes et de mme paramtre p, si n est grand alors
on peut appliquer Y le Thorme Central Limite et en conclure que Y suit une loi
normale de manire approche.
^B d ' o Z N( 0, ) )
PI
n
|pq<p,Y,Z.J^1=l-a
Dtermination des intervalles de confiance
1" stratgie : utilisation du maximum de pq
Var 1 = p q = p ( 1 - p )= p - p
2
= f ( p )
L'tude lmentaire de cette fonction f ( p ) permet d'tablir immdiatement que
Vp e [0 , l], on a p q < . De manire rigoureuse, on en dduit un intervalle alatoire dont
toute ralisation fournit un intervalle de confiance de p :
Y+Za / CY+Z,
L V 4 n
A:
=-
z
a/ 2^=
z
l-<x/ 2
II est important de remarquer que dans cette stratgie, la marge d'erreur A est
indpendante du rsultat observ dans l'chantillon- C'est partir de cette expression de A que
l'on pourra dterminer la taille de l'chantillon adapte la prcision et au niveau de confiance
souhaits (tude pralable au sondage).
Nous qualifierons cette stratgie de stratgie rigoureuse en remarquant qu'elle maximise
l'intervalle de confiance.
2e stratgie
L'chantillon tant grand, on peut accepter la loi de probabilit approche de Y
f Var.~~\ 1 "
Y^N(p.^
ob
) avec Var^, I-^^-D
2
soit, aprs dveloppement Var^^^1 = (l -I) = Y(l - Y).
112
On obtient ainsi, de manire approche, un intervalle alatoire dont toute ralisation
fournit un intervalle de confiance de p :
Nous qualifierons cette deuxime stratgie de stratgie approche.
p =y =0 . 2 3 .
1re mthode : stratgie rigoureuse
- Z, _/: , = 1,9599 (fonction LOI.NORMALE. STANDARD. INVERSE avec a = 0,05 ) ;
- ,/-! -= 0,0288
V 4 n
- A = 1,9599 x 0,0288 = 0,0566 = 6%
La proportion de clients potentiels du "service nettoyage rideaux" est de 23% 6%prs
au risque 5%.
2
e
mthode : stratgie approche
_ ^Z^J^^l^xJ
0
^
77
=0.0476=5%
'""V n V 300
- a =0,23-0,04 76 =0,1824 b = 0,23 + 0,0476 = 0,2776
La proportion de clients potentiels du "service nettoyage rideaux" est de 23% 5%prs
au niveau de confiance de 95%. Autrement dit, la proportion de clients potentiels du service
est comprise entre 18%et 28%au risque 5%.
3
e
mthode : utilisation de la fonction INTERVALLE.CONFIANCE
Ds le chapitre 6 consacr l'chantillonnage, nous avons mentionn que la variable
I. .
alatoire Y est une moyenne arithmtique : Y = -
i
-
1
= 1. Pour un grand chantillon, nous
n
pouvons donc utiliser la fonction INTERVALLE.CONFIANCE, les valeurs saisir dans la
bote de dialogue tant relatives la variable de Bernoulli I
- Alpha: 0,05
- Ecart-type : ^0,23x0,77 soit 0,4208
- Taille: 3 00.
Remarquons que, pour l'cart-type, on donne l'estimation gale la valeur de ^/y(l - y ) .
Le rsultat affich, 0,0476, est celui que nous avons obtenu avec la deuxime stratgie.
Il est clair que c'est la mthode la plus rapide.
113
dbut 28/04/06 16:05 Page 2
8. LE TEST STATISTIQUE
8.1. INTRODUCTION
Les deux chapitres prcdents "chantillonnage" et "Estimation" ont approfondi les
relations statistiques et probabilistes entre Population et chantillon. Nous avons vu que l'on
pouvait "prdire" la valeur d'un paramtre statistique d'un chantillon partir de celui d'une
population avec une certaine marge d'erreur et une certaine scurit et, inversement, en
changeant les rles d'chantillon et de population.
Le test statistique tudie aussi les relations entre population et chantillon, mais conduit
une prise de dcision face une question pose.
Exemples :
- Est-ce que l'apprciation d'une pause caf est indpendante de la catgorie
socio-professionnelle des participants?
- Est-ce que trois traitements de lutte contre l'infestation d'un verger ont la mme
efficacit?
- Peut-on considrer comme correcte la qualit de remplissage des bouteilles
d'huile dans une chane de production d'un tel produit?
- Peut-on considrer que la teneur en pesticide d'un lait bio est identique celle
d'un lait classique du commerce?
- Peut-on considrer que quatre varits de haricots verts produisent des haricots
de mme finesse?
- Est-ce qu'une certaine campagne publicitaire a permis l'augmentation du taux
d'utilisation du produit prsent?
La rponse chaque question de type "oui / non" sera faite l'issue d'un rsultat
alatoire (chantillon, exprimentation) et, par suite, "fatalement", cette rponse sera plus ou
moins risque.
Nous proposons d'introduire les notions fondamentales associes la construction et
l'utilisation d'un test statistique classique partir d'un exemple.
Exemple : comparaison des teneurs moyennes en huile de deux varits de
tournesol
8.2. HYPOTHSES
On veut comparer les teneurs moyennes en huile m1 et m2 de deux varits V1 et V2 de
tournesol.
m1 et m2 sont inconnues. On est en prsence de deux hypothses :
m1 = m2 ("Hypothse nulle Ho")
et
m1 ^m2 ("Hypothse alternative H1")
R emarques
- "Ho : m1 ^m2" est dite hypothse simple.
- Nous prsentons ci-dessus l'hypothse alternative courante m1 ^m2, c'est
dire que l'on peut avoir m1 > m2 ou m1 < m2 . Le test est dit bilatral.
- Dans certains cas, l'hypothse alternative peut se limiter une seule ingalit,
par exemple m1 < m2. La varit V2 est une nouvelle varit sense avoir une
meilleure teneur en huile que la varit courante V1. Dans ce cas, le test est dit
unilatral.
- Dans un contexte identique celui de la remarque prcdente, l'hypothse
"Ho : m1 < m2, ainsi exprime est dite "composite". Dans les calculs, c'est
cependant la limite "Ho : m1 = m2" qui est utilise. Les hypothses nulles
utilises dans cet ouvrage sont des hypothses simples.
8.3. DONNES, MODLE ET PRISE DE DCISION
Comment faire un choix entre les deux hypothses prcdentes ?
Considrons deux chantillons E1 et B2 de tailles n1 et n2 des varits V1 et V2. On note
respectivement X1 et X2 les variables alatoires "teneur moyenne en huile" des chantillons
correspondants et enfin E = [ X1 - x2 l'cart (alatoire) entre ces deux moyennes. On conoit
aisment que si l'cart E des moyennes observes dans les chantillons est petit, l'cart entre
les vraies moyennes m1 et m2 doit aussi tre petit.
E est dit "statistique du test".
Pour pouvoir apprcier, juger toute observation e de cet cart alatoire E, il est
ncessaire de connatre la loi de probabilit suivie par E en l'absence de diffrence entre les
deux varits V1 et V2. De manire gnrale, il s'agit de connatre la loi de probabilit de E,
statistique du test, sous Ho (c'est dire en supposant Ho vraie).
La loi de probabilit de E sera dtermine partir des lois suivies par X, et X;, , elles-
mmes trouves partir des lois suivies par les variables alatoires X; (modle). On peut ainsi
dterminer un seuil C tel que l'cart E aura trs peu de chances de dpasser (probabilit <
seuil) en l'absence de diffrence entre m1 et m2, c'est dire si Ho est vraie.
On peut ainsi raliser le TEST, construire la REGLE DE DCISION :
Accepter Ho si E < C
Rejeter Ho si E > C
Le test est une mthode statistique DCISIONNELLE.
R emarque : le seuil de probabilit, not a (= P(E > C) ) est gnralement choisi par
l'utilisateur et, bien entendu, faible. En pratique, le choix de 5%est trs frquent,
celui de 1% frquent mais il peut tre galement beaucoup plus faible selon les
applications. Ce seuil sera approfondi ultrieurement dans le paragraphe "Risques".
Dfinitions
- Le test est dit SIGNIFICATIF lorsque le rsultat est le REJET de Ho.
E > C dfinit la rgion de rejet (RR) (rejet de Ho).
- E < C dfinit la rgion d'acceptation (RA).
8.4. RISQUES
8.4.1. Risques et probabilit critique
La dcision est toujours prise partir d'une variable alatoire car issue d'un ou plusieurs
chantillons (E dans cet exemple). chaque dcision est associ un type de risque.
116
8.4.2. Risque de 1re espce
Dfinition
Lorsqu'on rejette Ho, on prend le risque de le faire alors que cette hypothse est vraie :
c'est le risque de 1re espce.
Concrtement, dans notre exemple, le risque de 1re espce est le risque que l'on prend en
dcidant qu'en moyenne, les teneurs en huile des deux varits de tournesol sont diffrentes
alors qu'elles sont identiques.
On note a le risque de 1re espce. Le maximum du risque de 1re espce est appel
"niveau du test" ou encore "seuil". Dans la pratique, c'est le plus souvent l'utilisateur qui fixe
ce seuil. Par abus de langage, c'est le maximum de risque de 1re espce qu'on appelle a .
Traduction probabiliste :
Le risque est une probabilit conditionnelle :
a = Pyn (rejet de Ho)
|a = PHO (Rejet Hp) = P(rejeter Hp sachant que Ho est bonne). |
Dans notre exemple :
a = PH(,(E > C) = P[(E > C) / Ho vraie]
(le signe "/" signifie "sachant que" ou "alors que")
a = P[( E> C ) / m, = mJ
8.4.3. Probabilit critique
Dfinissons la probabilit critique partir de notre exemple. Considrons e, ralisation
de E, conscutive l'observation d'un chantillon E1 de la varit V1 et d'un chantillon E2 de
la varit V2. On appelle "probabilit critique", note pc, la probabilit que l'cart E atteigne
une valeur au moins gale e quand Ho est vraie :
p ^=PHo ( E> e )
En quelque sorte, la probabilit critique value la crdibilit de l'hypothse Ho teste,
compte tenu du rsultat observ partir du ou des chantillons.
Plus la valeur de pc est petite, moins Ho est crdible et plus il y a de chances que Ho soit
rejete.
8.4.4. Probabilit critique et rgle de dcision
Pc = PH()(E > e) = P[(E > e) / Ho est vraie]
Nous remarquons la mme traduction probabiliste que celle de a, niveau du test. Nous
pouvons associer le mme type d'interprtation, face une description conditionnelle. La
probabilit critique reprsente le risque que l'on prendrait en rejetant Ho tort (c'est dire
alors que Ho est bonne).
Gnralement, l'utilisateur s'est fix le niveau a du test, risque maximal. On peut donc
traduire la rgle de dcision partir de la probabilit critique pc :
- si Pp ^ a, on rejette l'hypothse Ho. pc reprsente le risque que l'on prend
- si Pc > a, on ne prend pas le risque jug trop grand de rejeter Ho. Cette
hypothse est considre comme acceptable.
R emarque : selon l'ordre de grandeur de la probabilit critique, le test sera qualifi
de significatif, trs significatif et hautement significatif:
- 1/ ^p $ 5% Test significatif, souvent symbolis par *
- l /og < p, < 1% Test trs significatif, souvent symbolis par **
117
- p,. ^l
0
/,,,, Test hautement significatif, souvent symbolis par ***.
8.4.5. Risque de 2
e
espce
Dfinition
Lorsqu'on accepte Ho, on peut se tromper c'est dire que l'on peut accepter Ho alors que
cette hypothse est fausse : on prend alors un risque de 2
e
espce not p.
Concrtement, dans notre exemple, le risque de 2
e
espce est le risque que l'on prend en
concluant qu'en moyenne, les teneurs en huile des deux varits de tournesol sont identiques
alors qu'elles sont diffrentes.
Traduction probabiliste :
Le risque de 2
e
espce est une probabilit conditionnelle :
|P = PHI (accepter H0) = P (accepter H0 / H0 est fausse) = P (accepter H0 / H1 est vraie) |
Dans notre exemple,
P - P,,|(E < C) = P [(E < C) / H,, est fausse ]
P= P[( E<C ) / m, ^m; ].
R emarques
- Le fait que l'on se place sous H1 rend difficile voire impossible la
dtermination de P. En examinant notre exemple, on comprend la difficult du
calcul puisque, sous H1, m1 est diffrent de m:;, de multiples faons. En
supposant la valeur d'un cart m1-m2, nous pouvons approcher l'valuation
d'un risque P associ.
- La difficult d'valuation du risque de 2
e
espce "fragilise" la sret de la
dcision "acceptation de Ho". Ce point est essentiel. En fait, lorsqu'on ne peut
pas rejeter Ho, on n'est pas sur que Ho soit vraie puisque souvent on ne peut pas
afficher le risque pris en considrant Ho comme vraie. C'est la raison pour
laquelle, actuellement, pour ce type de dcision, on prfre l'expression "on ne
peut rejeter Ho" (sous-entendu : on n'a pas assez d'lments, d'assurance, pour
rejeter Ho).
- P n'ayant aucun rle dcisif, la dtermination de la rgion de rejet ne fait
intervenir que le risque a.
8.4.6. Comparaison des deux types de risque
En gnral, les risques de 1re et 2
e
espce voluent en sens inverse. Par suite, il est
dlicat de minimiser simultanment les deux types de risque. On ne peut le faire qu'en
augmentant la taille des chantillons ce qui, videmment, augmente les prcisions. D'un point
de vue pratique, on comprend que, dans certaines tudes, les contraintes conomiques
imposent des limites aux tailles d'chantillons.
8.5. PUISSANCE DU TEST
La puissance du test est la probabilit d'accepter H1 quand H1 est vraie, soit encore la
probabilit de rejeter Ho, alors qu'elle est fausse.
Puissance = P111 (accepter H1) = P(accepter H) / H1) = P(refuser Ho / Ho fausse)
Puissance ^1 - p
Concrtement, dans notre exemple, la puissance est la probabilit de conclure la
diffrence des teneurs moyennes en huile des deux varits alors que cette diffrence existe.
118
8.6. RCAPITULATIF
Ho VRAIE
Hi VRAIE
R
A
L
1
T
DECISION
dpend d'une variable alatoire
REJETER Ho
(exemple : E > C )
DECISION
INCORRECTE
a
DECISION
CORRECTE
1-P
ACCEPTER Ho
(exemple : E < C )
DECISION
CORRECTE
1-a
DECISION
INCORRECTE
P
(INCONNUE)
8.7. TEST D'HYPOTHSE ET INTERVALLE DE CONFIANCE
Les tests d'hypothses peuvent se rsoudre au moyen de calculs d'intervalle de
confiance.
Ainsi, dans notre exemple, nous disposons des teneurs moyennes en huile
x, et x, issues des chantillons E1 (varit V1) et E2 (varit V2).
Nous pouvons ainsi dterminer l'intervalle de confiance de l'cart m1 - m2 au niveau de
confiance 1-a.. Ainsi, nous verrons si la valeur zro, donc correspondant Ho : m1 = m2.,
appartient ou non l'intervalle de confiance et nous en dduirons par consquent si nous
pouvons considrer Ho comme acceptable ou si nous devons la rejeter.
R emarque : cette mthode est peu pratique lorsqu'on travaille avec EXCEL car il est
ncessaire de conduire quasi manuellement le dtail des calculs.
8.8. APPROCHE PRATIQUE DES TESTS: QUEL TEST CHOISIR ?
8.8.1. Introduction
Gnralement, le praticien commence par dcrire les donnes du problme. Il souhaite
ensuite continuer son analyse pour finalement prendre une dcision. Dans ce qui suit, pour
faciliter son choix, nous lui proposons un itinraire.
En premier lieu, il est essentiel de noter la nature des variables impliques dans
l'analyse. Rappelons brivement que ces variables peuvent tre qualitatives (notes QL)
comme par exemple la varit d'une production vgtale, la catgorie socio-professionnelle, la
rgion, les caractristiques de l'image d'un produit, etc. Elles peuvent aussi tre quantitatives
(QT) comme les notes d'un test, les mesures, les prix, etc. Ces dernires sont toujours
transformables en variables qualitatives aprs dcoupage en classes.
Dans la deuxime tape, nous suggrons d'valuer tout simplement la dimension de la
question tudie. Est-ce un problme de statistique unidimensionnelle, bidimensionnelle ?
119
Nous allons prendre les exemples choisis dans cet ouvrage assortis d'un schma
rcapitulatif des tests ou modles appropris. Pour tre plus systmatique, ce panorama sera
prsent selon la dimension
8.8.2. Statistique unidimensionnelle
1. On tudie une population d'agriculteurs en fonction de leur production
dominante (cf. paragraphe 9.1.1).
On prlve un chantillon d'agriculteurs. Les donnes sont les effectifs dnombrs
dans cet chantillon pour chacune des modalits de la variable qualitative
"production dominante".
Est-ce que l'chantillon est reprsentatif de l'ensemble de la population ?
2. On analyse les rsultats d'une dgustation de vins de Champagne
(cf. paragraphe 9.1.2).
Les donnes tant la srie de notes donnes regroupes en classes, est-ce que leur
distribution peut tre considre comme obissant une loi normale ?
3. On surveille attentivement la temprature d'une cave viticole (cf. paragraphe 10.2.2).
On dispose d'une srie de relevs de tempratures constituant un chantillon
gaussien.
3.a Est-ce que la variabilit de la temprature est matrise ?
3.b Est-ce que la temprature moyenne est conforme l'exigence ?
4. Est-ce que le volume moyen de remplissage de bouteilles d'huile sur une chane de
production est conforme au cahier des charges ? (cf. paragraphe 10.2.1).
Les donnes sont un chantillon gaussien extrait d'une population de variance
connue.
5. Un socit de vente sur Internet s'intresse au montant des ventes qu'elle ralise sur
une priode donne (cf. paragraphe 10.2.3).
Elle prlve sur ses livres de compte un chantillon grand de montants de vente. Est-
ce que le montant moyen des ventes de cette priode est suprieur au montant moyen
classique ?
6. Le taux d'efficacit d'un nouveau traitement est-il suprieur au taux de rfrence ?
(cf. paragraphe 12.1).
On fait cette analyse partir d'un grand chantillon de sujets traits.
8.8.3. Statistique bidimensionnelle
7. Peut-on considrer que trois traitements phytosanitaires effectus dans un verger
conduisent des rsultats homognes ? (cf. paragraphe 9.2).
Les rsultats sont classs selon trois modalits : mauvais, moyen et bon. Les donnes
sont des effectifs d'arbres rpartis selon le traitement et son rsultat
8 Est-ce l'image d'un nouveau produit est lie la catgorie socio-professionnelle ?
(cf. paragraphe 9.3).
Les donnes sont fournies par le tableau de contingence issu de l'chantillon
enqut.
120
9. On tudie la teneur d'un certain pesticide selon le type de lait, conventionnel ou
biologique.
On dispose d'un chantillon gaussien pour chaque type de lait.
9.a Est-ce que les variabilits des teneurs sont identiques ? (cf. paragraphe 10.3).
9.b Est-ce que les teneurs moyennes sont identiques ? (cf. paragraphe 10.4.1)
10. Dans une tude mene sur des varits de mas, on s'intresse au poids de 100 grains
de deux varits diffrentes. Est-ce que leurs poids moyens de 100 grains sont
significativement diffrents ? (cf. paragraphe 10.4.2).
On dispose d'un chantillon gaussien pour chaque varit. Un test pralable a montr
qu'il n'y avait pas homoscdasticit entre les deux varits.
11. Les prix moyens du kilo de magret de canard sur deux lieux de vente sont-ils
quivalents ? (cf. paragraphe 10.4.3).
Sur chaque lieu de vente, on a prlev un grand chantillon de prix.
12. Peut-on considrer que quatre varits de haricots verts fournissent en moyenne des
haricots de mme diamtre ? (cf. chapitre 11).
Les chantillons prlevs sont gaussiens avec homoscdasticit.
13. Est-ce qu'un additif alimentaire a amlior la note moyenne de qualit de pizzas ?
(cf. paragraphe 10.4.4).
On dispose de deux chantillons (sans additif et avec additif) apparis et gaussiens.
14. Un substitut alimentaire contribue-t-il diminuer le poids moyen d'un ensemble de
consommateurs ? (cf. paragraphe 10.4.5).
On dispose de deux chantillons grands et apparis.
15. Est-ce que les taux d'utilisation d'un produit de nettoyage sont identiques dans deux
populations ? (cf. paragraphe 7.3.6).
On dispose de deux grands chantillons indpendants.
121
8.8.4. Tableaux rcapitulatif des tests appropris
8.8.4.1. Statistique unidimensionnelle
QL QT
Test de reprsentativit
d'un chantillon
(TEST DU KHI-DEUX SUR
UNE SERIE D'EFFECTIFS)
^:x.i(9.Ti1
Test de conformit d'une variance
Echantillon gaussien
(TEST DU KHI-DEUX)
Sx73a (S 10.2.2^
Test d'ajustement par
vue loi thorique
UNI
7
SERIE D'EFFECTIFS)
Test de conformit d'une moyenne
Echantillon gaussien
et variance de
population connue
(TEST AVEC LOI
NORMALE)
|Ex. 4 ( 10.2.t)|
Echantillon gaussien Echantillons grand
(TEST DE STUDENT) (TEST DE STUDENT)
|Ex. 3b ( 10.2.2)1 |Ex. 5 (10.2.3)1
Test de conformit d'une proportion
Grand chantillon
(TEST AVEC 1.01 NORMALE)
^6(12.1^
122
8.8.4.2. Statistique bidimensionnelle
QLxQL QLxQL
Test d'homognit
TABLEAU CROIS D'EFFECTIFS
c'est dire SUR TABLEAU DE
CONTINGENCE)
|Ex.7(9^
Test de comparaison de 2 varimes
chantillons gaussions
(TEST DE FiSHER-SNEDECOR)
[E^9a(10.3^
Test d'indpendance
TABI.EAU DE CONTINGENCE)
t:x.8(9^
Test de comparaison de 2 moyennes
Echantillons gaussiens
(TEST DE STUDENT)
chantillons indpendants Echantillons apparis
gaussiens
quelconques
grands
gaussiens
quelconques
grands
homoscdasticit
|Ex. 10|
fe 10.4^
|Ex.l3|
K10.4.4)1
Analyse de variance un/acteur
(TEST DE FiSHER-SNEDECOR)
|Ex7l2 (chap. 11)1
Test de comparaison de 2 proportions
Grands chantillons indpendants
(TEST AVEC LOI NORMALE)
^x. 15 (73.6^
Tableaux 15.1 Rcapitulatifs des tests correspondants aux problmes poss.
123
dbut 28/04/06 16:05 Page 2
9. ETUDE DES EFFECTIFS
TEST DU KHI-DEUX
9.1. TEST DEREPRSENTATIVIT, TEST D'AJUSTEMENT (TEST DE
NORMALIT, ETC.)
9.1.1. Distribution thorique parfaitement connue
Exemple : reprsentativit d'un chantillon d'agriculteurs
On s'intresse la population d'agriculteurs d'une rgion agricole donne. On a class
cette population selon la production dominante. En proportion, la composition est celle qui est
indique sur le tableau 9.1.
Production
dominante
Frquences
relatives
Bovin-viande
(BV)
33%
Bovin-lait
(BL)
22%
Brebis laitires
(BRL)
15%
Craliers
(CER)
19%
Autres
(AUT)
11%
Tableau 9.1 Distribution de la production dominante.
On a ralis un sondage auprs de 255 agriculteurs (la population tant grande,
l'chantillon alatoire est considr comme simple). Selon la production dominante, on
observe la rpartition en effectifs d'agriculteurs suivante.
Production
dominante
Nombre
d'agriculteurs
BV
60
BL
90
BRL
30
CER
45
AUT
30
Tableau 9.2 Rpartition en effectifs des agriculteurs sonds .
Question : est-ce que cet chantillon est reprsentatif de la population, le niveau du test tant
de 5%?
Population
- X est la variable alatoire qualitative "Production dominante"
- il y a 5 modalits (classes).
- La distribution de X (modle thorique) est
Classes X;
Pi
X,
BV
0,33
X
BL
0,22
X3
BRL
0,15
X4
CER
0,19
X5
AUT
0,11
Total
1
chantillon
Classes Xi
Effectifs observs 0;
X, (BV)
60
X (BL)
90
X3 (BRL)
30
X4 (CER)
45
Xs (AUT)
30
Total
255
0, est l'effectif observ dans la classe X;. La taille de l'chantillon ^0, = n = 255 .
Hypothses dutest
On met les hypothses suivantes
Ho : l'chantillon est reprsentatif de la population agricole tudie
contre
H1 : l'chantillon n'est pas reprsentatif.
Dtermination des effectifs thoriques
Au niveau de l'chantillon, on recherche les effectifs que l'on devrait thoriquement
avoir dans chaque classe si l'chantillon tait reprsentatif.
Notons Ci, l'effectif thorique de la i classe. C'est l'effectif espr dans la classe i
sous l'hypothse Ho.
Une approche intuitive de Ci donne Ci = npi ce qui peut se dmontrer
mathmatiquement.
R emarque : cette dmonstration ncessite un passage la limite qui, d'un point de
vue pratique se traduit par l'exigence d'effectifs thoriques grands, au moins 5 selon
la convention courante. T.H. W onacott et alii. (1991) proposent des choix moins
svres.
Classes X;
Effectifs observs 0;
Effectifs thoriques Ci
X,
60
84,15
1
X
90
56,1
255 * 33%
X3
30
38,25
X4
45
48,45
X;
30
28,05
Total
255
255
Tableau 9.3 Effectifs observs et thoriques.
Questions
- comment apprcier l'cart entre les effectifs observs et les effectifs thoriques ?
- est-ce que cet cart est naturel , normal, du au hasard des fluctuations
d'chantillonnage ou bien est-il suffisamment important pour que l'on puisse conclure
une non reprsentativit de l'chantillon ?
Pour rpondre ces questions, il est ncessaire de trouver un outil de mesure de l'cart
entre effectifs observs et effectifs thoriques et d'associer cet outil une loi de probabilit
afin de pouvoir juger cet cart.
La statistique du Khi-deux rpond cette double exigence.
126
Statistique du test
On tablit que :
Sous Ho, la statistique du Khi-deux observ (ou Khi-deux calcul) dfinie par :
^(Q-C,)
2
Khi-deUX observ - /.,-.] n
î
suit la loi mathmatique du Khi-deux v degrs de libert, avec v = k-1 ( k est le nombre
de classes).
(Des contraintes thoriques exigent des effectifs thoriques suffisamment grands, en
pratique souvent Ci > 5).
On peut ainsi dterminer mathmatiquement (table statistique) une valeur seuil, dite
Khi-deux thorique, qui n'a que peu de chances ( a ) d'tre dpasse, souvent a = 5%.
On note : Khi-deux thorique
=
X
Prise de dcision
1. Si Khi-deux observ
>
Khi-deux thorique ce qui est trs peu probable lorsque Ho est vrai,
on prfrera rejeter l'hypothse Ho. Le test est dit "significatif'.
Le risque associ cette dcision est le risque de rejeter l'hypothse Ho alors qu'elle est
bonne. Autrement dit, c'est le risque de conclure que l'chantillon n'est pas reprsentatif de la
population alors qu'en ralit il l'est. Ce risque est au maximum a.
2. Si Khi-deux observ
<
Khi-deux thorique , on ne peut refuser Ho. Donc on l'accepte. La
reprsentativit de l'chantillon est considre comme acceptable et le test est dit non
significatif.
Le risque associ est le risque d'accepter Ho alors qu'elle est fausse. C'est le risque p
(souvent non calculable).
Sous Ho :
Densit de la loi du X v i-a
RA : rgion d'acceptation (de Ho)
RR : rgion de rejet
RA RR
A. v;l-<x
Figure 9.1 Visualisation du risque a et des rgions d'acceptation et de rejet de Ho.
9.1.1.4. Ralisation pratique l'aide d' EXCEL
I
e
mthode : c'est un calcul "manuel". EXCEL est utilis comme outil de calcul et table
statistique
127
Pour dterminer les effectifs thoriques et calculer le Khi-deux observ , on utilise la
fonctionnalit du tableur. On calcule le 1re effectif thorique et la contribution au Khi-deux.
On tire ensuite la poigne de recopie (vers la droite).
Classes Xi
Effectifs observs
Oi
Effectifs thoriques
Ci
Contribution
absolue au Khi-2
X1
60
84,15
6,93
X2
90
56,1
20,49
X3
30
38,25
1,78
X4
45
48,45
0,25
X5
30
28,05
0,14
Total
255
255
29,58
t
(o,-cJ
c,
Poigne de
recopie
Khi-deUX observ = ^
* (0,-C,)
2
Tableau 9.4 Calcul du Khi-deux observ
Dtermination du Khi-deux conque avec a
-
5% : ^...ny-,
On utilise la fonction KHIDEUX.INVERSE(0,05;4). Le rsultat est 9,487.
Dcision
Le Khi-deux observe (29,58) est suprieur au Khi-deux thorique (9,48). On rejette donc Ho :
l'chantillon n'est pas reprsentatif de la population (risque maximum 5%).
Le test est dit significatif .
2
e
mthode ; utilisation de la fonction TEST.KHIDEUX
C'est la mthode la plus rapide. Comme prcdemment, on dtermine les effectifs
thoriques (Tableau 9.3) et on insre la fonction dans une cellule quelconque de la feuille. Si
l'on a au pralable nomm 0i la plage des effectifs observs et Ci celle des effectifs thoriques
la formule s'crit "=TEST.KHIDEUX(0,;C,)"
Le rsultat affich, appel probabilit critique et not pc est la probabilit d'atteindre une
valeur du x
2
au moins gale celle du X2 obser v quand l'hypothse Ho est vraie. La probabilit
critique mesure la crdibilit de Ho. C'est encore le risque que l'on prendrait en rejetant Ho
alors qu'elle est vraie.
Il est vident que l'on ne prendra ce risque que s'il est petit, infrieur au risque
maximum a (souvent gal 5%) que l'on s'est donn ou qui nous est impos. La probabilit
critique permet d'ailleurs de s'affranchir du niveau de test choisi avec une part d'arbitraire.
En rsum, la prise de dcision obit au cheminement suivant :
Test Khi-deux
^
Probabilit
critique
< a (5%) -> Rejet de Ho
Le risque de se tromper tant le rsultat
de la fonction
> a (S%)> Acceptation de Ho
(risque P)
128
Dans notre exemple, la probabilit critique est 5,97. 0~
6
et on prend un risque infime en
rejetant Ho alors qu'elle est vraie. Il faut donc la rejeter. L'chantillon n'est donc pas
reprsentatif et on est pratiquement sr de ne pas se tromper !
Rcapitulatif de l'exercice
Densit de la loi du X,
Y
2
Y
2
A. 4;0,95 A. observ
Figure 9.2 Rcapitulatif des rsultats du test : RR, RA, pc et a.
> Remarques relatives aux/onctions EX CEL lies auKhi-deux
L'application de la fonction statistique KHIDEUX. INVERSE sur le rsultat affich par
TEST.KHIDEUX (c'est dire la probabilit prcdente) fournit le Khi-deux observ
Rsultat = Khi-deux observe
Figure 9.3 Dtermination du Khi-deux observ partir de la probabilit critique .
L' application de la fonction statistique LOI.KHIDEUX sur le Khi-deux observ fournit la
probabilit de dpasser le Khi-deux observ C'est la valeur affiche par la fonction
TEST KHIDEUX.
129
x
~~^'
Valeur donne
Figure 9.4 Dtermination de la probabilit critique partir du Khi-deux observ.
Analyse critique dursultat dutest et approfondissement de la recherche
Nous avons conclu, au risque de 6.O* que l'chantillon n'tait pas reprsentatif de la
population d'agriculteurs.
En examinant les effectifs observs et thoriques, nous remarquons de gros carts pour
les deux premires classes Xi et Xi (BV : Bovin-viande et BL : Bovin-lait).
Nous retrouvons cette constatation en examinant la contribution (absolue) au
Khideux observ La deuxime classe (BL) explique, elle seule, prs de 70%du Khi-deux et
l'ensemble de ces deux classes explique sa quasi totalit.
Il apparat donc que les effectifs des leveurs bovins faussent la reprsentativit de
l'chantillon. On note un manque d'leveurs Bovin-viande (Oi Ci) et un excs d'leveurs
Bovin-lait (Oi C2).
Lorsque le test du Khi-deux est significatif, il est intressant de rechercher pourquoi.
Nous examinerons ultrieurement, sur des exemples plus appropris, une dmarche de
recherche systmatique des classes explicatives du caractre significatif
9.1.2. Distribution thorique connue mais de paramtres statistiques
estimer
Exemple : test de normalit de la note de qualit d'un vin de Champagne
Fin 1999, un ngociant, cours de stock mais assailli de commandes, recherche
dsesprment un bon Champagne. Il dcouvre un petit producteur qui, en prvision des
festivits du millnaire a fort astucieusement constitu un bon stock.
Le ngociant veut nanmoins s'assurer de la bonne qualit du Champagne propos
Plusieurs critres fondamentaux permettent de dfinir la qualit sensorielle d' un Champagne .
Dans cette tude, on se limitera un critre majeur, l'intensit globale X. Notons :
- X la variable alatoire "note d'intensit globale" (chelle croissante de 1 10)
- E(X) = m la note moyenne d'intensit globale
- Var X = o
2
la variance.
Le ngociant demande une analyse sensorielle auprs d' un jury constitu de n = 25
dgustateurs confirms.
Une petite analyse descriptive schmatique, ralise sur les 25 observations de cet
chantillon fournit les rsultats suivants :
- moyenne observe ^ 7,09 = x
130
- cart-type estim = 1,32 = o
g^' SCE
avec
\n-1
(n = 25 = taille de l'chantillon)
SCE
=
^-
x
)
Classes de notes
X <; 5,4
5,4 < X < 6,2
6,2 < X < 7,0
7.0 < X < 7,8
7,8 < X < 8,6
X> 8, 6
Effectifs
observs 0,
3
4
6
6
3
3
Apres dcoupage en classes, l'histogramme
ralis sur ces notes montre une
distribution symtrique d'allure gaussienne
(Tableau 9.5).
Question : peut-on ajuster la distribution
des notes de l'intensit globale l'aide
d'une Loi Normale ?
Tableau 9.5 Distribution des frquences
absolues des notes de qualit.
Le problme est trs proche de celui que nous venons d'tudier : il parat donc superflu
de recommencer l'approche dcouverte de l'outil statistique. La seule diffrence rside
dans le fait que la distribution thorique (ou distribution de la population) n'est pas connue
intgralement. Comme dans la plupart des cas rels, nous ne disposons que des donnes de
l'chantillon.
Ici, ce sont les paramtres m et o qui sont inconnus. Nous utiliserons leurs estimations
trouves dans l'tude descriptive. Ceci induit une modification du degr de libert v. La
thorie tablit que ce ddl gnral est :
ddl = v = nombre de classes - 1 - nombre de paramtres estims
R emarque : le cas de l'ajustement une distribution thorique parfaitement connue
(problme prcdent) apparat donc comme un cas particulier, celui o le nombre de
paramtres estimer est nul.
Hypothses du test
H o : X - > N ( m G ) soit X- > N( 7 , 0 9 , 1,32)
contre
Hi ; X -^N ( m a )
Dcision et mthode de calcul
C'est la mme stratgie que celle explique propos du problme prcdent.
9.1.2.3. Ralisation pratique l'aide d' Excel
La dmarche est la suivante :
- on dtermine les proportions thoriques (ou probabilits) dans chaque classe
- on calcule les effectifs thoriques dans chaque classe (si certains d'entre eux
sont infrieurs 5, raliser un regroupement de classes)
131
V
e
mthode
on fait le test. Comme prcdemment, nous proposons deux mthodes.
calculer le Khi-deux observ
dterminer le Khi-deux thorique X y;i-a
les comparer et prendre la dcision.
2e mthode
- raliser un calcul quivalent celui fourni par TEST.KHIDEUX (non utilisable
ici) en calculant la probabilit critique et prendre la dcision la plus adapte.
R emarques
- Les tapes 1 et 2 de la premire mthode constituent la dmarche
traditionnelle de type manuel.
- Dans le cas spcifique d'un ajustement selon la Loi Normale, celle-ci est une
loi thorique dfinie sur ]- oo , + co[. Il faut donc toujours ouvrir les
extrmits de la distribution et tre vigilant sur les proportions thoriques
extrmes.
- Explication dtaille de la suite des calculs sur Excel
Notations : - a est la borne infrieure de la classe
- b est la borne suprieure de la classe
- F est la fonction de rpartition (ou fonction cumulative).
Nous indiquons dans ce qui suit le dtail des calculs raliser et la faon de procder.
Classes de
notes
X < 5,4
5,4 < X < 6,2
6,2 < X < 7,0
7,0 < X < 7,8
7,8 < X < 8,6
X> 8, 6
Total
Bornes
5,4
6,2
7
7,8
8,6
F(b)
0,100
0,250
0,473
0,705
0,874
1,000
F(a)
0
0,100
0,250
0,473
0,705
0,874
Proba
0,100
0,150
0,223
0,232
0,169
0,126
/
Ci
2,505
3,746
5,569
5,796
4,225
3,158
25
Ci
(regroup.)
6,252
5,569
5,796
7,383
25
Oi
3
4
6
6
3
3
25
Oi
(regroup.)
7
6
6
6
25
Contribution
abs. au Khi2
0,090
0,033
0,007
0,259
0,389
Khi-deUX observ
Tableau 9.6 Dtermination du Khi-deux observ (test de normalit).
- Borne suprieure b
Pour la dernire classe, la borne suprieure est concrtement 10, mais, dans le
contexte de l'ajustement la Loi Normale, c'est l' infini. Il est important d'en tenir compte
dans le calcul des proportions thoriques (probabilits).
- F( b ) :
Pour dterminer la premire valeur F(5,4) (soit P(X < 5,4), nous utilisons la fonction
LOI.NORMALE dont on saisit les arguments :
- X : cliquer sur cellule contenant la borne de la 1" classe ( LC(-l) > 5,4)
- Esprance : saisir la valeur moyenne de l'chantillon (7,09)
132
- Ecart-type : saisir la valeur de l'cart-type estim (1,32)
- Cumulative : saisir VRAI.
On trouve 0,10. Sur la feuille Excel, on tire ensuite la poigne de recopie vers le bas
jusqu' l'avant dernire classe. On saisit 1 pour la dernire, ce qui correspond F(oo).
-F(a)
Pour la premire classe, saisir 0 (la borne infrieure de la ! " classe est
thoriquement -oo).
Pour les autres, la borne infrieure d'une classe tant ncessairement la borne suprieure
de la classe prcdente, il suffit de slectionner l'ensemble des valeurs de F(b) l'exception
de la dernire (c'est dire de 0,10 0,87) et de faire un copier puis collage spcial /
valeurs partir de la cellule situe sous le zro prcdent.
- Probabilit note proba = F(h)-F(a)
Le calcul par Excel est lmentaire. En sommant la colonne, on vrifie que l'on obtient
bien 1
-C,
Effectif thorique = n.p,, o p, dsigne la probabilit. Calculer le premier et recopier vers
le bas.
En sommant la colonne, on doit obtenir l'effectif total soit n=25.
On note que les effectifs thoriques des deux premires classes ainsi que des deux
dernires sont infrieurs 5.
Il convient donc de raliser un regroupement de chacune de ces paires de classes.
- Oi : effectifs observs
- Oi (aprs regroupement) : on travaille dornavant sur 4 classes. Nous avons la
plage des effectifs observs (plage relle) et celle des effectifs thoriques
(plage attendue).
-Test
V
e
mthode : Excel utilis comme outil de calcul et table statistique
Pour dterminer le Khi-deux observ, on calcule la contribution absolue du 1re terme
\
!
soit 0,090 et on recopie vers le bas. La somme de cette colonne fournit le rsultat
soit 0,389.
Pour obtenir le Khi-deux thorique (avec a = 5% soit X , , ), on utilise la fonction
KHIDEUX INVERSE avec les arguments
- Probabilit : saisir la valeur choisie pour le niveau du test, par exemple 5%
- Degrs de libert : saisir 1 (nombre de classes - 1- nombre de paramtres
estims soit 4 -1-2). Rappelons que nous avons estim la moyenne et l'cart-
type.
Le rsultat est : Khi-deux thorique = X 1,0,95 =3,84.
Dcision
Le Khi-deux observ (0,389) est infrieur au Khi-deux thorique (3,84). On ne peut donc
rejeter Ho et on considrera que l'ajustement de la distribution selon
133
la Loi Normale N(7,09,1,32 ) est acceptable. On peut accepter Ho alors que cette hypothse
est fausse. C'est le risque P non calculable de manire gnrale.
2
e
mthode : Utilisation de la fonction LOI.KHIDEUX sur Khi-deux calcul.
Le calcul fournit la probabilit de dpasser le Khi-deux observ . C'est la valeur de la
probabilit critique pc, rsultat quivalent celui fourni par la fonction TEST.KHIDEUX
utilise dans le cas prcdent.
R emarque : la fonction TEST.KHIDEUX ne peut tre utilise ici, son ddl, tant fig
(nombre de classes - 1), est donc erron dans ce type d'application.
La fonction LOI.KHIDEUX a pour arguments :
- X : 0,389 (valeur du Khi-deux observ)
- Degrs_libert : 1
Son rsultat (0,53...) indique le risque pris en rejetant l'hypothse Ho . En clair, on a 53
chances sur 100 de se tromper si on rejette Ho.
La dcision s'impose ! On ne rejette pas Hoet on accepte l'ajustement selon la Loi
Normale N ( 7,09 ; 1,32).
9.2. TEST D' HOMOGNIT
Exemple : homognit de traitements de vergers
Une orangeraie homogne en sol et situation gographique est attaque uniformment
par une infestation X. On souhaite comparer l'efficacit de trois traitements Ti, 7i, et Ts. Pour
cela, on slectionne trois chantillons (considrs comme alatoires et simples)
respectivement traits par T], Tz, et Ty. Au bout de 2 mois de traitement, on examine les
rsultats : une observation prcise et mthodique de la totalit des arbres permet de dfinir 3
classes pour la variable rsultat :
B : bon rsultat (gurison totale) liRsultats
Traitements
Ti
T2
Ta
Rsultats
B
9
10
8
AB
7
5
7
M
7
12
11
Les nombres d'orangers constituant les effectifs ,
on dresse le tableau de contingence suivant, rpartissant l___L
3
les arbres selon le type de traitement reu et la classe de Tableau 9.7
rsultat.
Question : les traitements T), Tz, et T^ ont-ils des rsultats homognes. En terme
statistique, il s'agit de tester l'homognit des traitements Ti, Ta, et T.3 au niveau 5%.
Echantillons
Les donnes observes (effectifs) sont le croisement de deux variables qualitatives
(traitement x rsultat).
Notations
Oij est l ' effect i f observ la I
e
ligne et la j colonne ; 023 = 12 par exemple est le
nombre d'arbres traits par T2 avec un mauvais rsultat.
134
0,,
T,
T2
T3
Total
B
(On)
9
10
8
(0.,)
27
AB
(0,2)
7
5
7
(0-2)
19
M
(0,3)
7
12
11
(0.3)
30
Total
(0,)
23
27
26
(0..)
76
0;. est la somme des effectifs de la i ligne (sommation sur les colonnes). Rappelons que
le point dsigne l'indice de la sommation. Oi. est, par exemple, la somme des effectifs de la
1" ligne ; c'est le nombre d'arbres traits par T]et donc la taille de l'chantillon Ti .
O.j est la somme des effectifs de l aj" colonne (sommation sur les lignes). O.i est, par
exemple, la somme des effectifs de la 1re colonne. C'est le nombre d'arbres guris (bon
rsultat), tous traitements confondus.
0.. est l'effectif total. C'est le nombre total d'orangers traits (runion des 3
chantillons T1, T2, et T3).
Hypothses dutest
On met les hypothses suivantes :
Ho : rsultats homognes selon les traitements
contre
H1 : non homognit des traitements.
Estimation des probabilits d'obtenir des rsultats bons, moyens et mauvais sous Hg
Sous Ho, les traitements sont supposs de mme efficacit. On runit donc les 3
chantillons T1, T2, et T3 pour estimer les probabilits (ou proportions thoriques) P(B),
P(AB), P(M).
P(B) = estimation de la proportion thorique d'arbres guris
_ Nombre total d'arbres guris (B) _ O.i _ 37
Nombre total d'arbres o 76
La dmarche est la mme pour P(AB)et P(M)
P(AB)=
0
0.,
i = 1 9
76
P(M)=
0,
0,
i =30
76
Dtermination des e f f e c t i f s thoriques C,,
L'effectif thorique C;j est l'effectif que l'on devrait avoir dans la cellule ligne i-
colonne j si Ho tait vraie, c'est dire s'il y avait homognit entre les traitements.
Par exemple :
- C11 est le nombre d'arbres guris dans l'chantillon T1 dans le cas o les
traitements ont la mme efficacit.
- C11 = Taille de l'chantillon T1 x P(B) = 2 3 x 27/76
La procdure est identique pour les autres effectifs thoriques.
135
D'une manire gnrale :
Effectif thorique
Total ligne x Total colonne
Total gnral
^ 0,. X O.J ^ Total ligne i x Total colonne j
0.. Total gnral
A l'issue de cette tape, se pose la question de la mesure de l'cart entre les effectifs
observs et les effectifs thoriques exactement en des termes identiques ceux expliqus lors
du tout premier exemple. On sait que la statistique Khi-deux rpond cette question.
R gle de dcision et statistique du test
On tablit que :
Sous Ho, la statistique du Khi-deux observ (ou Khi-deux calcul ), dfinie par :
P q (Q - ci
2
Khi-deux oê - ZZ "p-"
1
i =l j =l '-1.J
suit la loi mathmatique du Khi-deux V degr de libert (ddl) avec :
p = nombre de lignes q = nombre de colonnes V = ddl = (p-1 ) (q-1)
> R emarque : explication du degr de libert ddl
1" tape : sans tenir compte des paramtres estims
- 1
er
chantillon : q-1 (nombre de classes - 1 )
- pe chantillon : q-1
soit ddl1 = p(q-l )
2 tape : avec prise en compte des paramtres estims
(q-1) probabilits doivent tre estimes (somme des probabilits ^1 ). Par suite le degr
de libert final est ddl = p (q-1) - (q-1) = (p-1) (q-1).
La suite du droulement du test tant au niveau statistique qu'au niveau calcul l' aide
d'EXCEL est absolument identique ce qui est dtaill au tout premier exemple.
Le seul point qui change est le ddl qui, dans le cas de donnes matricielles (au moins 2
lignes et 2 colonnes) est toujours :
ddl = ( nombre de lignes - 1 ) ( nombre de colonnes - 1 )
9.2.3. Ralisation pratique l'aide d'Excel
Calculons les effectifs thoriques.
Conseil : les tests du Khi-deux de ce type, relatifs des donnes matricielles
(tableaux croiss) sont trs frquents en pratique et peuvent tre de dimensions
relativement importantes. Il est donc essentiel de profiter de deux fonctionnalits
particulirement intressantes d'EXCEL : les rfrences absolues et relatives ainsi
136
que l'outil poigne de recopie . Il suffit donc de calculer un seul effectif
thorique. Les autres sont calculs par recopie automatique.
Pour plus de clart, appliquons cette procdure dans l'exemple qui nous occupe. Le
tableau 9.8 montre la feuille EXCEL correspondante.
I:
:2<
1
-3
;
^ S<'
'8
1
'
r-
:
.
'.9.
1
H
^
13
. - 1:. . . ' -
Effectrf obierv
0,
Ti
^^
Ta
Total
Effectifs thoriques
C,
Ti
T;
T
Total
2
B
9
10
8
27
B
8,171
9,592
9,237
27
3 A
AB
7
5
7
19
AB
5,750
6,750
6,500
19
4
M
7
12
11
30
M
9,079
10.658
10,263
30
5 .' ,' !
Total
23
27
26
76
Total
23
27
26
76
Tableau 9.8 Effectifs observs et thoriques (test d'homognit).
Les lignes et colonnes Total sont, bien entendu calculs sur EXCEL par
l'intermdiaire du bouton 2 (sommation)
Total ligne 1 x Total colonne 1 _ 37 x 23
Ci,= =8,171 Rappel
76
Total gnral
Pour parvenir ce rsultat, la procdure est la suivante :
- saisir "=" dans la cellule d'accueil (ici, L10C2)
- cliquer sur le Total colonne 2 ("27") ; dans la barre de formule, s'affiche la rfrence
relative L(-4)C . Lorsqu'on va recopier vers le bas, il y aura erreur sur la ligne ; il
convient donc de "fixer" la ligne. Pour cela, 2 appuis sur la touche F4 du clavier
permettent de tourner la rfrence et de la transformer en L6C ; de la sorte, on fera
toujours rfrence la ligne Total correcte
- saisir "* "
- cliquer sur le Total ligne 3 ("23") . Dans la barre de formule se rajoute la rfrence
L(-7)C(3) . Cette fois, il faut "fixer" la colonne et pour cela appuyer 3 fois sur la
touche F4 jusqu' obtenir L(-7)C5
- saisir la division par "/ "
- cliquer sur le Total gnral ( 76 ) dont il faut fixer la fois ligne et colonne (1 appui
sur F4)
- ce niveau, la barre de formule doit afficher =L6C*L(-7)C5/L6C5
- faire Entre et on obtient le rsultat attendu 8,171.
Pour obtenir les 8 autres rsultats, il suffit maintenant de faire une recopie vers le bas
(poigne de recopie de L10C2 L12C2) puis ces 3 cellules restant slectionnes, une recopie
vers la droite (poigne de recopie de C2 C4). Faire enfin les sommations de vrification
comme prcdemment l'aide du bouton * : on doit retrouver les mmes rsultats que sur
le 1
er
tableau (sinon, cela veut dire que l'on s'est tromp dans le premier calcul ! ).
> R emarque : les utilisateurs d'Excel habitus aux rfrences absolues trouveront la
formule ci-dessus crite sous la forme : B$6*$E3/$E$6.
137
Mise en uvre du test
V
e
mthode : EXCEL utilis comme outil de calcul et table statistique.
l
2
' ' S'
B
6
7
..
9
10
n
12
13
I*
15
18
17
t8
19
21
22
&.
' 2
1
. ,'
Effectifs observes
0;
T,
T,
T.
Total
ElfectMs thoriques
C;
T,
Ti
T.
Total
1re mthode
Connibution absolue
au Khi-uem
T,
T.
T,
Total
2
B
3
10
t
27
B
8.171
9.532
9.237
27
B
0.084
0.017
0.166
0.287
3
AB
7
5
7
19
AB
5.750
8.750
8.500
13
AB
0.272
0.454
0.038
0.784
4
M
7
12
11
30
M
3.073
18.858
18.283
30
M
0.478
0.183
0.053
0.838
^
Khi-deUX observ
S
Total
23
27
26
78
Total
23
27
26
78
Total
0.832
0.640
0.257
1.723^
6
Tableau 9.9 Calcul du Khi-deux observ (test d'homognit),
Calculons le Khi-deux. La contribution absolue au Khi-deux de la 1re cellule (T|,B)
calcule par la formule
( lj
'
1J
soit
(9
'
8
'
171)
s'crit dans EXCEL (cellule d'accueil L18C2) :
8,171 C,,
=((L(-15)C-L(-8)C)
A
2)/L(-8)C
Cette cellule tant slectionne, recopier vers le bas jusqu' la cellule L20C2 . Les 3
cellules tant slectionnes, recopier vers la droite jusqu' la colonne 4.
Aprs sommations, le total gnral fournit la valeur du Khi-deux observe : 1,729.
On dtermine le Khi-deux thorique X^.iî l'aide de fonction KHIDEUX.INVERSE
insre dans une cellule quelconque avec les arguments :
- Probabilit : niveau du test (5%)
- Degrs_libert : (nombre de lignes - 1 ) x ( nombre de colonnes - 1 )
On trouvez
2
^, =9,488.
Dcision
Le Khi-deux observe (1,729) est infrieur au Khi-deux thorique (9,488).
On ne peut rejeter l'hypothse Ho d'homognit des traitements
138
Le test est non significatif. En considrant comme acceptable l'homognit des
traitements, on prend un risque de 2
e
espce (3 (non calculable d'une manire gnrale).
2
e
mthode : plus rapide, elle fait appel la fonction TEST.KHIDEUX
Dans une cellule disponible, il suffit d'appeler la fonction avec les arguments :
-Plage_relle (nomme ici 0;) : plage des cellules indiquant les effectifs observs
-Plage_attendue (nomme ici Q) : plage des cellules indiquant les effectifs thoriques
La valeur de la probabilit critique trouve (0,785) signifie que l'on prendrait un risque
de 78,5%en rejetant Ho tort. La dcision est, bien entendu, la mme que prcdemment : on
ne peut rejeter Ho. En clair, on ne peut conclure la diffrence d'efficacit des traitements.
Comparaison des deux mthodes
La 2
e
mthode est clairement plus rapide. Lorsque le test est significatif, cette mthode
donne la valeur exacte du risque a pris en rejetant Ho tort.
Cependant, lorsque ce test est significatif, il est intressant, en pratique, de rechercher
pourquoi ; pour cela, il est souvent judicieux d'analyser la contribution au Khi-deux et donc
d'utiliser les calculs de la 1re mthode.
9.3. TEST D'INDPENDANCE
Exemple : image du "caf des l'aprs-midi" selon la catgorie
socio-professionnelle
L'exemple dvelopp ici a pour contexte une enqute consommateur en vue du
lancement d'un produit. Une socit commercialisant du caf et souhaitant mettre sur le
march un nouveau "cru", dsire effectuer une enqute-image auprs d'un chantillon
reprsentatif de consommateurs.
Dans cette tude, nous allons approfondir un point particulier du dpouillement, la
perception, l'image du "caf de l'aprs-midi" selon la catgorie socio-professionnelle.
Pour cela, on considre les deux questions suivantes de l'enqute :
Question A : quelle catgorie socio-professionnelle (CSP) appartenez-vous ?
1. Agriculteur (AGRI) 5. Cadre (CAD)
2. Artisan-commerant (ARTCOM) 6. tudiant ETU)
3. Employ (EMP) 7. Sans emploi, retrait (SERET)
4. Ouvrier (OUV) 8. Autre (AUT)
Les tris plat, raliss la premire tape du dpouillement de l'enqute, expliquent
certains regroupements de catgories. Ces items seront considrs comme une variable
qualitative A p=8 modalits.
Question B : qu'voque en vous le "caf de l'aprs-midi" (une seule rponse possible) ?
1. Un plaisir (PLAI) 4. Une habitude (HAB)
2. Un parfum, un got (PARF) 5. Un stimulant (STI)
3. Une dtente (DET) 6. Un moment de convivialit (CONV)
139
Ces items seront considrs comme une variable qualitative B q = 6 modalits.
On observe le tableau de contingence suivant (tableau crois d'effectifs) :
t
"2
^
T
'5
6
r
6
8
11
1
0,i
AGRI
ARTCOM
EMPL
OUV
CAD
ETUD
SANS EMP
AItTRE
Total
2 .1
PLAI
12
11
10
5
B
8
11
7
72
3 i
PARF
14
15
7
6
9
7
9
B
73
4
DFT
10
7
17
13
11
5
B
8
80
I 5
HAB
7
9
19
15
6
5
5
11
77
': 6 i
S-T1
E
5
5
7
12
15
5
13
(8
7
DFT
E
5
B
6
16
12
14
12
77
8
Total
55
52
64
52
62
53
52
57
447
Tableau 9.10 Effectifs observs dans le tableau de contingence "CSP - image du caf".
Question : est-ce que l'image du "caf de l'aprs-midi" est lie la catgorie socio-
professionnelle ?
La dmarche statistique est trs proche de celle qui a t mene durant le test
d'homognit prcdent. Dans de trs nombreux cas concrets, il est d'ailleurs identique de
poser le problme comme un test d'homognit ou comme un test d'indpendance.
Les notations matricielles sont identiques celles que nous avons adopt pour le test
d'homognit.
Les hypothses sont:
Ho:
Hi :
l'image du caf de l'aprs-midi est indpendante de la CSP
contre
l'image du caf de l'aprs-midi est lie la CSP __
Dtermination des e f f e c t i f s thoriques Cy :
Raisonnons sur un exemple (une cellule dfinie par une CSP et une perception), puis
gnralisons. Sous l'hypothse Ho d'indpendance, exprimons la probabilit d'tre employ
(EMP) et de penser V habitude (HAB) en ce qui concerne le caf de l'aprs-midi.
P(EMP et HAB) = P(EMP) P(HAB) = Effectif thorique(EMP. HAB)
Effectif total
Pour calculer l'effectif thorique, il suffit de remplacer par leurs estimations les
probabilits d'tre employ et de penser habitude .
Effectif thorique (EMP,HAB)=P(MP) P(HAB) X Effectif total
soit :
Ligne 3
Colonne 4
Effectif total (Taille de l'chantillon)
4e colonne ; 4e modalit de la variable image
Ligne 3 ; 3e modalit de la variable A
140
03^0.4 _
(^34
A
U..
0.. 0..
Os. 0 _ Total ligne3 x Total colonne4
0..
Effectif total
D'une manire gnrale :
Effectif thorique Cy (ligne i, colonne j)
Total ligne i x Total colonne j _ Oi. O.J
C,,=
Total gnral 0.,
R emarque : le rsultat est le mme que pour le test d'homognit. On dtermine
ainsi tous les effectifs thoriques.
Prise de dcision et statistique du test :
Comme pour le test d'homognit, on tablit que :
Sous Ho, la statistique du Khi-deux observ (ou Khi-deux calcul ), dfinie par :
Khi-deux observ =
p q
(Oij -Cij)
2
'^1 ^J
suit la loi mathmatique du Khi-deux v degr de libert (ddl) avec
p = nombre de lignes q = nombre de colonnes V = ddl = (p-1) (q-1)
9.3.3. Mise en uvre au moyen d'Excel
La procdure est exactement la mme que celle que nous avons dtaille pour le test
d'homognit : on calcule le premier effectif thorique (en faisant trs attention aux
rfrences absolues et relatives) et on utilise la poigne de recopie.
Rappel schmatique :
_ _ Total ligne 1 x Total colonne 1
Total gnral
- Total ligne 1 : fixer la colonne (rfrence absolue pour la colonne)
Total colonne 1 : fixer la ligne
Total gnral : tout fixer.
- Poigne de recopie : d'abord vers le bas pour obtenir les effectifs thoriques
de la 1" colonne ; ensuite, cette 1re colonne tant slectionne, vers la droite.
R alisation pratique
1re mthode : on utilise la fonction TEST.KHIDEUX.
C'est la mthode la plus rapide. Ayant pris soin de nommer respectivement Oij et Cij les
plages des effectifs observs et thoriques, il suffit de saisir les arguments de la fonction
- Plage relle : Oij
- Plage attendue : Cij.
La probabilit critique obtenue 0,00101 est la probabilit de dpasser le Khi-deux observ
141
On prendrait donc 0,1 %de risque en rejetant l'hypothse Ho tort. La dcision est donc
de rejeter cette hypothse : la perception du "caf de l'aprs-midi" est lie la catgorie socio-
professionnelle . En prenant cette dcision, on prend un risque de un millime. Ce test est
donc trs significatif
H
ta
-.
w
,M: .
i?
8
ffi
20
2t
^ '
C..
ABRI
ART COM
EMPL
OUV
CAD
ETUD
SANS EMP
AUTRE
Total
J. g
PLAI
8.B59
8.376
10.309
9,376
9.987
8.537
8.376
9,181
72
J
3 1
PARF
8.382
8.492
10.452
8.492
10.126
8.6B5
8.492
9.309
73
1
DET
9.843
9.306
11.454
9.306
11.096
9.485
9.306
10.201
80
1
HAB
9.474
8.957
11.025
8.9B7
10.680
9,130
8.957
9.819
77
< 1
STI
8.367
7.911
9.736
7.911
9.432
8.06
7.911
8.871
68
7 1
DET
9.474
8.957
11.025
8.957
10.680
9.130
8.957
9.819
77
1
Total
85
52
64 le:
52
62
53
52
57
447
Tableau 9.11 Effectifs thoriques (test d'indpendance).
2
e
mthode : stratgie de type manuel (calculs du Khi-deux observe et du Khi-deux thorique )
Cette mthode, plus longue, est nanmoins intressante lorsque le test est significatif car
elle permet de revenir aux donnes concrtes et de rechercher les sources de la liaison.
Calcul du Khi-deux observ
W
33- cotri abs
"y
M'
1
t EMPL
ÔU
M:
2''
.ai
SANS EMP
ÂUTRE
JB-
11
,.,:,.,l,,^l
AGRI
ART COM
CAD
ETUD
Total
...JL,.-
PLAI
1.114
0.822
0.009
1.361
0.395
0.034
0.822
0.518
5.075
.,,,,,,,,.,Sl,,,.
PARF
2.803
4.987
1.140
0.731
0.125
0.317
0.030
1.176
11.310
-,1,
1
DET
0.002
0.572
2.685
1,466
0.001
1.281
0.183
0.475
6.665
,..,.$
HAB
0.646
0.000
5.770
4.076
2.051
1.868
1.748
0.142
16.30)
,.,,.,J,,.,,,1
STI
0.670
1.071
2.304
0,105
0.699
5.969
1.071
2.161
14.049
2
DET
1.274
1.748
2.290
0.976
2.650
0.802
2,839
0.485
13.164
..J.
i
Total
6.509
9200
14,198
8,715
5.32)
10.371
6,694
4.957
GC.565
Tableau 9.12 Calcul du Khi-deux observ (test d'indpendance).
Le calcul sur Excel a t dtaill lors du test prcdent (rfrences relatives).
Le Khi-deux observe est gal 66,565.
"
Calcul duKhi-deux thorique : X vi-a
Nous avons vu qu'il suffit d'utiliser la fonction KHIDEUX.INVERSE(0,05;35), 35 tant
le degr de libert. On trouve X -,; n 05
=
49,80
Dcision
Le Khi-deux observ (66,565) est suprieur au Khi-deux thorique (49,80). On rejette
l'hypothse Ho. Le test est "significatif.
R emarque : on peut rechercher si le test reste significatif au niveau 1%. En
remplaant 0,05 dans la bote de dialogue ci-dessus par 0,01, on trouve un
142
Khi-deux thorique de 57,34. La conclusion est identique : on peut affirmer, avec
un risque infrieur 1%que l'image du "caf de l'aprs-midi" et la catgorie socio-
professionnelle sont lies. D'aprs la valeur de la probabilit critique calcule au
cours de la premire mthode, nous savons que le test est significatif au risque de
1,02/.
Approfondissement
Le dveloppement suivant, conscutif un test du Khi-deux significatif, ne prsente
aucun caractre obligatoire ni systmatique. Il n'en demeure pas moins que lors d'tudes
relles, certaines variables peuvent avoir un enjeu important. Il parat alors intressant de
proposer une stratgie permettant de revenir au plus prs de la ralit du problme.
Lorsque le test du Khi-deux est significatif, le Khi-deux observ, mesure de l'cart entre
les effectifs observs et thoriques, dpasse le seuil X v.i a Rappelons qu'au del de ce seuil,
l'cart est jug "trop important". Il est peu probable qu'il soit d au hasard d'chantillonnage.
Il est donc profitable de rechercher quelles sont les cellules (couples lignes-colonnes) qui
contribuent le plus au Khi-deux observ .
A. Approfondissement au moyen des contributions relatives
Un procd simple consiste calculer la contribution relative de chaque cellule au
Khi-deux observ : il suffit de diviser la contribution absolue par la valeur du Khi-deux observ
et d'exprimer le rsultat en pourcentage.
Dans EXCEL, on calcule la contribution relative de la 1re cellule (prendre bien entendu
la valeur du Khi-deux observ en rfrence absolue) et on utilise la poigne de recopie. On
vrifiera que le total est bien 100%.
JB.
M eoBtri iflatiu
J
3e
-
3S
' a s
-
w
-
' f .
SL
-u
' .
1
! , "
AGRI
ARTCOM
EMPL
OUV
CAO
ETUD
SAMSEMP
AUTRE
Total
2 3 4 5 t 1 7 9
PLAI PARF DET HAB STI DET Total
1.67K 4,21% 0.00% 0.97% 1.01% 1.91% 9.78%
1.24% 7,49% 0.86% 0.00% 1.61% 2.63% 13,82%
0.01% 1.71% 4,03% 8,67% 3.46% 3.44% 21.33%
2.04% 1.10% 2,20% 6,12% 0.16% 1.47% 13,09%
0.59% 0.19% 0.00% 3,08% 1.05% 3.98% 8.90%
0.05% 0.48% 1.92% 2,81% 8,97% 1.36% 15,58%
1.24% 0.05% 0.28% 2,63% 1.61% 4.26% 10.06%
0.78% 1.77% 0.71% 0.21% 3.25% 0.73% 7.45%
7.62% 16.99% 10.01% 24.49% 21.11% 19,78% 100.00%
Tableau 9.13 Contributions relatives au Khi-deux observ
Par exemple, la formule de la cellule L35C2 est = L(-l 1)C/L32C8 ce qui donne 1,67%.
Une simple lecture de ce tableau, permet de remarquer rapidement les cellules les plus
explicatives. On peut d'ailleurs procder de faon plus systmatique en calculant la
contribution moyenne d'une cellule, dfinie en pourcentage par la formule :
100 X =
100
= 2,08%
nombre de cellules 48
143
Ceci veut dire que si toutes les cellules contribuaient de la mme faon au Khi-deux,
elles l'expliqueraient chacune hauteur de 2,08%. On dgage ainsi facilement les cellules qui
contribuent plus que la moyenne (sur le tableau 9.14, en grands caractres, suprieur la
moyenne et en grands caractres gras plus du double de la moyenne) et on peut pointer parmi
ces lments ceux qui peuvent tre considrs comme les plus explicatifs.
Nous pouvons maintenant ordonner les cellules (associations lignes-colonnes) par ordre
d'importance dcroissante et mettre en relief par exemple celles qui ont une contribution au
moins gale la contribution moyenne.
rang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
contributions
relatives
9%
9%
7%
6%
4%
4%
4%
4%
3%
3%
3%
3%
3%
3%
3%
2%
contributions
cumules
9%
18%
25%
31%
35%
39%
43%
47%
50%
53%
56%
59%
62%
65%
68%
70%
CSP x perception
tudiant x stimulant
employ x habitude
artisan-commerant x parfum-odeur
ouvrier x habitude
agriculteur x parfum-odeur
sans emploi-retrait x convivialit
employ x dtente
cadre x convivialit
employ x stimulant
employ x convivialit
autre x stimulant
cadre x habitude
tudiant x habitude
sans emploi-retrait x habitude
artisan-commerant x convivialit
ouvrier x dtente
Tableau 9.14 Associations expliquant les plus forts carts l'indpendance.
On constate qu'un tiers des cellules permettent d'expliquer plus des deux tiers du Khi-
deux. Six cellules ont une contribution au moins gale au double de la contribution moyenne
et expliquent, elles seules, prs de 40%du Khi-deux.
On peut approfondir l'analyse concrte en recherchant dans quel sens se fait l'cart
l'indpendance. Pour cela on compare l'effectif observ et l'effectif thorique pour chacune de
ces cellules.
CSP x perception
ETU x STI
EMP x HAB
ARTCOM x PARF
OUV x HAB
AGRI x PARF
SERET x CONV
Comparaison effectifs
EfF. observ Eff. thorique
Eff. observ > Eff thorique
Eff. observ Eff. thorique
Eff. observ Eff thorique
Eff observ _Eff thorique
Eff. observ Eff thorique
Eff observ Eff thorique
Commentaire
On observe beaucoup plus
d'tudiants associant "caf de
l'aprs-midi" stimulant que si la
perception du caf tait
indpendante de la CSP
Idem
Idem
Idem
Idem
Idem
Idem
Idem
EMP x DET
CAD x CONV
144
9
10
11
12
13
14
15
16
EMP x STI
EMP x CONV
AUT x STI
CAD x HAB
ETU x HAB
SERET x HAB
ARTCOM x CONV
OUV x DET
Eff. observ > Eff. thorique
Eff. observ > Eff. thorique
On observe beaucoup moins
'employs associant "caf de
l'aprs-midi" stimulant que si la
perception du caf tait
indpendante de la CSP
Idem
Idem que 1
Idem que 9
Idem que 9
Idem que 9
Idem que 9
Idem que 1
Tableau 9.15 Attractions et rpulsions explicatives entre les CSP et l'image du caf.
Synthse
On remarque que les principales sources d'cart l'indpendance peuvent provenir
d'associations "attractives" (effectifs observs > effectifs thoriques) ou d'associations
rpulsives (effectifs observs < effectifs thoriques). Nous proposons de schmatiser ces
points essentiels d'interprtation de la faon suivante :
Effectif observ > Effectif thorique
++ : forte attraction (contribution relative de la cellule > 2 fois la contribution
moyenne)
+ : attraction (contribution moyenne < contribution relative de la cellule < 2
fois la contribution moyenne).
Effectif observ < Effectif thorique
- - : forte rpulsion (mme stratgie que pour l'attraction)
: rpulsion.
cellules
explicatives
de la liaison
AGRICULTEUR
ARTISANT
COMMERANT
EMPLOYE
OUVRIER
CADRE
ETUDIANT
SANS EMPLOI
RETRAITE
AUTRES
PLAISIR
-
PARFUM
GOUT
++
++
DETENTE
+
+
HABITUDE
++
++
-
-
-
STIMULANT
-
++
+
CONVIVIALITE
-
-
+
++
Tableau 9.16 Schma rcapitulatif de l'intensit des associations attractives et rpulsives entre CSP
et image du caf.
145
La "rpulsion" ouvrier-plaisir (OUV-PLAI) a t retenue car la contribution relative
2,04%atteint pratiquement la contribution moyenne (2,08%).
D'un point de vue pratique, une telle synthse est intressante car elle met en exergue
les spcificits des critres ou leur absence de spcificit (comme habitude par exemple)
Pour le lancement du produit, on pourra orienter de faon pertinente le conditionnement ainsi
que les stratgies publicitaires en fonction du public cibl.
R emarque : une telle dmarche, s'appuyant sur les contributions relatives est
gnrale et peut s'appliquer tous les tests du Khi-deux significatifs.
B. Approfondissement de ce cas concret au moyen des statistiques descriptives
Dans toute tude de cas rel, une analyse descriptive des donnes est toujours
enrichissante. Pour l'tude de cas qui nous occupe ici, l'laboration et l'analyse des profils-
lignes tudies dans la partie statistique descriptive bidimensionnelle est des plus intressante.
Profils lignes
AGRICULTEUR
ARTISANT
COMMERANT
EMPLOYE
OUVRIER
CADRE
ETUDIANT
SANS EMPLOI
RETRAITE
AUTRES
poids colonnes
^profils lignes
moyen
PLAI
22%
21%
16%
10%
13%
15%
21%
12%
16%
PARF
25%
29%
11%
11%
14%
13%
17
11%
16%
DET
18%
13%
26%
25%
18%
11%
15%
14%
18%
HAB
13%
17%
30%
29%
10%
10%
10%
19%
17%
STI
11%
10%
8%
13%
19%
28%
10%
23%
15%
CONV
11%
10%
9%
12%
26%
23%
27%
21%
17%
total
100%
100%
100%
100%
100%
100%
100%
100%
100%
poi'ds des
lignes
12%
12%
14%
12%
14%
12%
12%
13%
100%
valeurs nettement suprieures celles du profil moyen ; en police normale et en
Tableau 9.17 Profils lignes CSP.
(En grande police et en gras
gras : valeurs infrieures).
Rappel succinct
- Les profils-lignes (CSP) sont les rpartitions en proportion selon les lignes. Leur
simple lecture permet de caractriser le comportement de chaque CSP et d'en faire la
comparaison.
- Le poids associ un profil-ligne indique l'importance relative d'un profil-ligne. Par
exemple, le poids associ au 1er profil-ligne "agriculteur" est de 12%. C'est la
proportion d'agriculteurs de l'chantillon. Dans la prsente tude, on remarque
d'ailleurs que les CSP ont pratiquement toutes la mme importance.
- Le profil-ligne moyen est le poids des colonnes. Par exemple, sur l'chantillon global
(toutes CSP rassembles), on observe que 16%des individus ont associ "caf de
l'aprs-midi" et plaisir et que 16%ont fait l'association avec parfum et got. D'un
point de vue concret, ce profil-ligne dit moyen joue un rle de rfrence pour
l'ensemble. Dans notre exemple, il permettra de dgager la typicit de chaque CSP.
146
Interprtation
25%des Agriculteurs ont une perception sensorielle du caf (parfum, got) alors que
seulement 16%de l'chantillon global fait cette association. On retrouve l ce que nous avions
prcdemment qualifi d' "attraction". On peut conclure de la mme faon pour les Artisans-
commerants.
Le profil Employs est trs typ puisque 26%d'entre eux associent dtente contre
18%pour l'ensemble des personnes interroges. L'association avec "habitude" est encore plus
marque (30%contre 17%). Par contre, seulement 8%des employs font l'association avec
"stimulant" contre 15%de l'ensemble. On retrouve le mme effet pour l'association avec
convivialit (9%contre 17%).
On pourrait faire la mme dmarche avec les autres CSP et l'on retrouverait ainsi, bien
entendu, les rsultats schmatiss prcdemment.
En conclusion, le test du Khi-deux a permis de conclure une liaison significative entre
la catgorie socio-professionnelle et la perception du "caf de l'aprs-midi".
L'approfondissement du Khi-deux et l'analyse des profils-lignes permettent de dcrire
comment se fait cette liaison.
147
dbut 28/04/06 16:05 Page 2
10. TESTS RELATIFS AUX MOYENNES ET
AUX VARIANCES
10.1. TEST DE CONFORMIT D'UNE VARIANCE AU MOYEN D'UN
CHANTILLON GAUSSIEN
Exemple : variabilit de la temprature d'une cave vin
Pour de bonnes conditions de vieillissement, une cave vin doit imprativement tre
bien isole pour viter des variations trop importantes de temprature prjudiciables la
qualit du vin. Il est donc essentiel de contrler la variabilit de la temprature.
On considre que la temprature dans une cave est une variable alatoire sensiblement
normale. Comme rfrence, on adopte un cart-type de 15 C.
Afin de contrler la variabilit de la temprature, on a relev 21 fois la temprature sur
une priode de 2 mois. Les donnes observes sont les suivantes :
8 8,2 8,9 9,8 10 11 11 11 11 12 12 12 12 13 13 13 13 14 14 14 14
Tableau 10.1 Relevs de temprature dans une cave vins.
Question : peut-on considrer que la variabilit observe des tempratures est acceptable
relativement la rfrence indique ? Pour repondre cette question, on ralisera un test de
conformit de la variance 2,25 (soit 1,5
2
) et au niveau 5%.
Population
- X est la variable alatoire "temprature de la cave" (en C)
- E(X) = m est la temprature moyenne de la cave
- Va r X=o
2
La variabilit thermique est considre correcte lorsque o
2
= Oo
2
avec Go
2 =
2,25
- X ^N( m, c r )
chantillon E
- n = 2 1
- X; " N( m, o ) avec i = 1 , n
- ddl = n - 1 = 20
SCE
ddl
On ralise le test
Ho : a
2
= Oo
2
contre Hi : o
2
> o^
Outil statistique et prise de dcision
On tablit que
SCE .
Sous Ho, la statistique suit la loi mathmatique du ic
2
v ddl avec v = n - 1.
Densit de la loi du X
X
2
x
2
A
- v;l-a
RA RR
RA : rgion d'acceptation de Ho
RR : rgion de rejet de Ho
Figure 10.1 Rgions d'acceptation et de rejet de Ho (test unilatral de conformit d'une variance.
10.1.4. Mise en uvre l'aide d'Excel
Dtermination des valeurs thoriques du %, , c'est dire 2C .,
On appelle la fonction KH1DEUX IN VERSE (0,05 ; 20) et on obtient :
X
2
= X
2
=31, 4 1.
v,l-a 20.0.95
Dcision
Nous pouvons prsenter plusieurs mthodes, mais toutes reposent directement sur la loi
de probabilit nonce.
1
re
mthode : calcul du Khi-deux observ
srp
Khi-deux,,,.^, ^^-^"s.
"
La fonction SOMME.CARRES.ECARTS fournit SCE observe gal 70,1695.
Par suite. Khi-deux . = '- = 31,1864.
' ociserve / / ^
On constate que Khi-deux observe e RA. On ne peut donc pas rejeter l'hypothse Ho Par
consquent, nous considrons comme acceptable l'hypothse de conformit de la variance.
2
e
mthode
Nous calculons la rgion d'acceptation de Ho de la variance estime et nous situons la
variance estime partir de l'chantillon observ.
150
- SCE_SCE (n-l)o -y
2
o --- ; ;
<
'"v;! -"
ddl n -1 o,)
r - -i - , -
2
-
2
o
2
X
2
,
Notons 0 o, la rgion d acceptation de o : o, =
:
L ' l J f^_\
On trouve: _
2
^2.25 x 31,410 ^^ et RA = f 0 ,3,534 1
' 20 l ' J
La variance estime partir de l'chantillon observ est o
2
= 3,5085 . Elle appartient la
rgion d'acceptation et on ne peut alors refuser Ho Nous considrons que la conformit de la
variance est acceptable. Au plan pratique, on peut en dduire que la temprature de la cave est
matrise. La gestion de cette dernire mthode est pratique puisqu' chaque nouvel
chantillonnage de 21 relevs de temprature, il suffit de calculer la variance estime et de
regarder si elle appartient ou non la rgion d'acceptation, dite encore "intervalle de pari".
3
e
mthode
Nous pouvons calculer l'intervalle de confiance de la variance de la temprature partir
des donnes observes dans l'chantillon.
( SCE 3 ^
p[^-<x\,,_J-i-
L'intervalle de confiance de o
2
(intervalle alatoire) au niveau de confiance (1-a) est
donc dfini par:
S
t
2
70,1695 ,
a,; > soit o.) > et enfin a,, > 2,23
X,,-c, 31,41
Cet intervalle de confiance constitue l'ensemble des hypothses Ho pour la variance a
2
.
La rfrence oo
2
=2,25 appartient cet intervalle. Par consquent, nous ne pouvons rejeter Ho.
Nous considrons la conformit de la variance comme acceptable.
R emarque : avec des petits chantillons, les intervalles de confiance sont grands.
Comme on n'a pas assez d'information pour que le test soit significatif, on accepte
souvent Ho.
10.2. TEST DE CONFORMIT D'UNE MOYENNE
10.2.1. chantillon extrait d'une population normale de variance connue.
Dtermination de risques de 2
e
espce (p)
Exemple : contrle de qualit (volume de remplissage de bouteilles)
Sur une chane de remplissage de bouteilles d'huile d'olive vierge, 1" pression froid,
on realise priodiquement un contrle de la qualit de remplissage. L'importance de ce
contrle est primordiale tant au niveau conomique (pour la socit de production et ses
clients) qu'au niveau juridique (respect des garanties). Le conditionnement s'effectue dans des
bouteilles de verre d'un litre.
151
Quand l'appareillage fonctionne correctement, la variable alatoire X, quantit d'huile
contenue dans une bouteille, suit une loi normale de moyenne 100 cl et d'cart-type 2,5 cl ;
on suppose que ce dernier est stable. On ralise un sondage sur 55 bouteilles. Les rsultats
obtenus exprims en cl sont reports sur le tableau 10.2.
93,2
96,6
99,5
102,5
93,7
96,8
99,7
102,7
93,9
97,0
99,9
103,0
94,1
97,1
100,1
103,1
94,3
97,3
100,3
103,3
94,5
97,5
100,5
103,5
94,7
97,7
100,7
103,7
94,9
97,9
100,9
104,0
95,1
98,1
101,1
104,5
95,3
98,3
101,3
105,0
95,5
98,5
101,5
95,7
98,7
101,7
95,9
98,9
101,9
96,1
99,1
102,1
96,3
99,3
102,3
Tableau 10.2 Volume d'huile contenu dans 55 bouteilles (en cl).
Questions
Peut-on considrer que le contenu moyen d'une bouteille dans cet chantillon est
conforme l'attente (100 cl) ? Tester cette hypothse de conformit au niveau 0,5%.
Prciser la rgion d'acceptation (RA) de la moyenne d'chantillon associ un tel test.
2. Calculer le risque de 2
e
espce P associ la rgion RA dans les cas o le contenu
moyen sur l'ensemble de la chane de remplissage est de 99 cl, 98,5, 98 cl. tendre
cette dtermination de p dans le cas de niveaux de tests 0,3%, 0,5%, 5%et de tailles
d'chantillon n=20 puis n=100 et prciser les puissances de tests associes.
Population : c'est l'ensemble des bouteilles d'huile tudies.
- X est la variable alatoire "quantit d'huile contenue dans une bouteille
(en cl.)"
- E(X) = m est le contenu moyen d'une bouteille (chane en fonctionnement
correct)
- m = mo = 100
- Var X = oo
2
= 6,25
X - N( m, 0 o ) .
chantillon
- la taille est n == 55
- X, -). N(m, On) i = l , n
X est la variable alatoire, contenu moyen observ dans un tel chantillon.
On ralise le test :
Ho : m = mo contre H) : m -^ mo
c'est dire Ho : m = 100 (conformit avec l'exigence)
contre
H]: m ?" 100 (non conformit avec l'exigence)
Approche intuitive
La moyenne X observe dans l'chantillon prend des valeurs invitablement diffrentes
de 100 cl, ces valeurs fluctuant autour de 100. Il est donc ncessaire de pouvoir juger
l'cart E= X-100 Etant donn le hasard d'chantillonnage, peut-on considrer cet cart E
comme naturel ou est-il, au contraire, trop grand pour pouvoir tre d au seul hasard ? On doit
152
donc rechercher un seuil S que l'cart E a trs peu de chances de dpasser (moins de 0,5%)
lorsque la chane de remplissage fonctionne correctement. Si l'cart E dpasse ce seuil, nous
dciderons qu'il est prfrable de rviser l'appareillage. Il apparat ainsi que, statistiquement,
nous devons connatre la loi de probabilit de l'cart E, soit finalement la loi de probabilit de
la moyenne d'chantillon X , lorsque la chane fonctionne correctement.
Outil statistique, statistique dutest et prise de dcision
SousHo. X-> N(m, , ,
cs
-).
-Jtt
RR : rgion de rejet de Ho.
Figure 10.2 Intervalle de probabilit de la moyenne au risque a.
La rgion d'acceptation RA de la moyenne X est dite "intervalle de probabilit ou de
pari" (IP) de la moyenne d'chantillonnage au niveau de scurit 1-a.
(Xi-a/2 -100) et ( l OO-Xa /2) reprsentent le seuil S voqu prcdemment (seuil qui n'a
qu'une probabilit a d'tre dpass).
Question 1
1re mthode : Dtermination de la rgion d'acceptation de la moyenne X .
On calcule 0. , = l'aide du clavier ce qui donne : CTy == =0,3371... = 0,34
Vn V55
> R emarque : sous Ho, X -> N(100 ; 0,34)
On appelle la fonction d'Excel et on saisit successivement les valeurs appropries de la
fonction.
Pour Xi 0/2 = Xo.9975 , avec LOI.NORMALE.INVERSE(0,9975; 100,2,5), on trouve
100,9463. Notons Xb cette valeur.
153
Pour Xa /2 , on fait un copier-coller sur le rsultat prcdent et, dans la barre de formule,
on remplace la valeur prcdente par 0,0025.
On trouve Xa/2 = 99,0537, valeur que l'on note X, .
On en dduit : RA = [99,0537; 100,9463]=I P de X (a =0,5%)
Dcision :
La moyenne observe de cet chantillon est Xobserv = 99,4236 (fonction MOYENNE)
Comme Xobserv e RA, on ne peut rejeter Ho et nous considrons comme acceptable
l'hypothse de conformit l'exigence mo = 100.
R emarque : Cette stratgie de manipulation du test de conformit pour ce type
d'application est intressante pour grer pratiquement le contrle de qualit. En effet, il
convient de rappeler que, pour un risque et une taille d'chantillon donns, l'intervalle de
probabilit ou rgion d'acceptation de la moyenne d'chantillon est unique (contrairement
l'intervalle de confiance qui lui, est alatoire car dduit des valeurs observes dans
l'chantillon). A chaque contrle (prlvement de 55 bouteilles), il suffit donc de calculer la
moyenne et de vrifier si elle appartient ou non la rgion d'acceptation.
2
e
mthode : Calcul de la probabilit critique pc
Sous Ho : Densit de la loi normale
X
Xobs
mo=100
-A- obs
Figure 10.3 Moyenne observe et probabilit critique.
Pc=P(X<|X^J)+P(X> |x' . ^J) avec X'^=100+(100-X^)
Pe = 2 P(X < Xobserv) si Xobserv < m,, = 100 (notre cas dans cet exemple)
= 2 P(X > Xobserv ) S; Xobserv > M =1 00 .
On trouve: p, =2 x 4,37.10
2
=8,73.10
2
=9%
(on utilise la fonction LOI.NORMALE, qui donne la valeur de la fonction de
rpartition). On prendrait un risque de 9%en refusant la conformit.
Le risque tant suprieur au niveau du test 0,5%, on ne peut rejeter Ho et on considre
comme acceptable l'hypothse Ho de conformit l'exigence "1 litre".
En prenant cette dcision, on prend un risque de 2
e
espce P que l'on pourra calculer
ultrieurement sous certaines hypothses.
154
R emarque : pour dterminer la probabilit critique pc, on peut considrer la variable E
telle que
E = X-100 ; E -> N(0 , c^) soit ici E -> N(0 ; 0,34)
Eo^.-Xo^,-100
P, =P(E> |E^J ) +P(E<-|E^|) =2P(E> |E^|)
3
e
mthode
partir de l'chantillon observ, on peut calculer un intervalle de confiance de m,
contenu moyen sur l'ensemble de la chane de remplissage au niveau de confiance 1-a. La
fonction INTERVALLE.CONFIANCE(0,005;2,5;55) fournit le rsultat A = 0,9463.
L'intervalle de confiance de m, au niveau de confiance 99,5%est la fourchette alatoire
[X-A , X+ A . Grce l'chantillon observ, on en dduit un intervalle de confiance
[m. , mJ avec:
m. =Xobserv - A =98,4774
m, =Xobserv + A =100,3699
[98,4774 ; 100,3699]constitue l'ensemble des hypothses pour m. Comme m = 100
appartient cet ensemble, on ne rejette pas Ho.
Question 2
II s'agit de calculer le risque de 2
e
espce P correspondant la rgion d'acceptation RA
de la moyenne d'chantillon X dtermine prcdemment (risque a = 0,5%). Rappelons que,
de manire gnrale, P reprsente le risque pris en acceptant Ho alors que cette hypothse est
fausse ou, ce qui est quivalent. H] est vraie. Dans le cas prsent, c'est le risque pris en
concluant la conformit du remplissage alors que ce n'est pas vrai.
P=?H (accepter Ho )
=PH, ( Xe RA)
= P( Xe RA ) alors que m -fm^ (c.a.d. m ^100)
= P( X, <X<X; , ) avecX-> . N(m, Gx)
Pour valuer une telle probabilit, il est donc ncessaire de supposer une valeur du
contenu moyen m diffrente de 100.
Excel permet de calculer facilement P dans les hypothses m = 99 , m = 98,5 et m = 98
(en pratique, ces hypothses doivent rester relativement ralistes).
Pour m = 99 :
P=P[99, 0537 <X < 100,9463] avec X -> N(99 , 0,3371)
= F(100,9463)-F(99,0537) (F, fonction de rpartition)
Pour dterminer F( 100,9463), on utilise la fonction
LOI.NORMALE( 100,9463,99,0,33 71 ;vrai)
On trouve 0,9999. Le calcul de F(99,0537) se fait de faon similaire.
Bien entendu, il est important d'associer le risque P la valeur suppose de m. Le risque
d'accepter la conformit alors qu'elle n'y est pas peut tre important. Mais la non conformit
peut par ailleurs tre relativement proche de la rfrence 100 !
155
RA
m
99
98,5
98
X.
99,0537
Fonction de
F(a)
0,5633
0,9498
0,9991
X.
100,9463
rpartition F
F(b)
0,9999...
1
1
P=F(b)-F(a)
44%
5%
0,1%
Tableau 10.3 Valeur du risque (i en fonction de la moyenne m de la population.
Extension du calcul du risque P en fonction du niveau du test de conformit et de la taille n de
l'chantillon
Ce type de calcul permet au "contrleur de conformit" de mieux grer concrtement le
risque pris lors de l'acceptation de la conformit. Il s'agit d'valuer l'importance de ce risque
et en mme temps l'enjeu (confrontation la valeur suppose pour "m"). Il faut galement
mesurer la variation de ce risque en fonction du niveau a du test en fonction de la taille de
l'chantillon.
Le calcul du risque p a t expliqu dans les trois exemples prcdents.
Afin de profiter des potentialits d'Excel et de diminuer les temps de calcul, nous
proposons maintenant d'organiser la dtermination de ce spectre de valeurs p selon une grille
de calcul systmatique. Nous compltons par les puissances des tests associes ces valeurs
Rappelons que la puissance d'un test est la probabilit de refuser Ho alors qu'elle est fausse et
est, par consquent gale 1-P. Concrtement, dans notre exemple, c'est la probabilit de
conclure un volume moyen de remplissage non conforme dans le cas o effectivement, ce
volume moyen n'est rellement pas conforme.
Nous proposons l'organisation suivante :
- Hors grille, on saisit les contenus de rfrences populations mo (100) et Oo (2,5)
- Grille:
avec
n = taille
0
"X--T
n
de l'chantillon
. . . 2,5
soit ici ,
x
a
X.
X.
m
P
Puissance
/ n Vn
- a = niveau du test de conformit
- X, = borne infrieure de la rgion d'acceptation de X = X^,
(dtermine partir de LOI.NORMALE.INVERSE vue la 1" question,
1" mthode)
- X,, = borne suprieure de la rgion d'acceptation de X ^ X^,;,
(dtermination analogue celle de X, . Dans la zone Probabilit, on doit
saisir 1 -o/2 avec a en rfrence relative)
- m : valeur suppose pour la moyenne de la population, c'est dire ici, le
contenu moyen
- P = F(X^) - F(XJ o F dsigne la fonction de rpartition.
Pour dterminer F(X),) , on utilise la fonction LOI.NORMALE avec les arguments :
- x, contenu de la colonne X^(rf. relative)
156
- Esprance, contenu de la colonne m (rf. relative)
- cart-type, contenu de la cellule a^(rf. relative)
- Cumulative : vrai.
On complte la barre de formule de manire similaire avec F(X^) .
La premire valeur de p tant calcule, il suffit bien entendu de "tirer la poigne de
recopie" vers le bas. En ce qui concerne la puissance 1-p, on calcule sa premire valeur
(rfrence relative) et on tire la poigne de recopie vers le bas. Les valuations de la puissance
en fonction de celles de a et n sont naturellement en sens inverse de celles de P
Commentaires des rsultats observs pour p et pour la puissance du test
volution du risque de 2me espce P
Examinons les rsultats obtenus pour p. Nous retrouvons des rsultats thoriquement
connus pour ce type de test. Mais ici l'intrt est de pouvoir apprcier concrtement ces
valeurs et, par suite, de choisir avec plus de "responsabilit" son protocole de contrle de
conformit.
Pour une mme taille d'chantillon, le risque P diminue quand a augmente. Pour
apprcier cet effet au niveau des rsultats, on peut comparer les valeurs de P lorsque l'on passe
de a = 0,5% a = 5%. On adopte parfois un compromis entre les deux types de risque.
Dans le contrle de qualit des processus industriels, on limite le risque a de conclure
la non conformit alors qu'elle existe. Quand on interrompt un processus de fabrication la
suite d'une dcision de non conformit, on veut tre "presque" sr que cette dcision est
fonde !
Pour un a et une taille d'chantillons donns, p diminue quand l'cart entre la moyenne
m et la rfrence mo crot. Ainsi, pour un chantillon de 55 observations et un risque a de
0,5%, on prend un risque P de 44%, risque de conclure la conformit du remplissage
(100 cl) alors que ce dernier est de 99 cl. Le risque est important mais le dcalage de
remplissage " 1 cl" est limit. En revanche, le risque de conclure la conformit alors qu'elle
n'y est pas n'est plus que de 0,1 %lorsque le taux de remplissage est de 98 cl. Si le dcalage
par rapport la rfrence est plus important (double du cas prcdent), on a peu de chances de
conclure tort la conformit. On peroit ainsi l'importance conomique de cet indicateur.
Pour un mme niveau a, P diminue quand la taille de l'chantillon augmente
(intuitivement, on conoit facilement que la prcision augmente avec cette taille). L encore,
on adopte parfois un compromis.
Dans le domaine industriel (rsistance des matriaux, dures de vie d'objets ou de
produits alimentaires, etc...), le contrle de qualit entrane assez souvent la destruction de
l'objet contrl. On comprend que dans de tels cas, il est conomiquement difficile de prendre
de grands chantillons. Pour ce faire, il existe d'intressantes procdures d'chantillonnage,
plusieurs niveaux. A ce sujet, on pourra consulter le recueil des normes AFNOR (1996).
Dans les domaines o tester la conformit d'une moyenne n'entrane dans les cas
dfavorables aucune destruction. Par exemple, dans le cas d'une surveillance de temprature
moyenne d'une serre, d'un bassin de poissons, d'un atelier "naisseur-engraisseur" de porcs,
etc., on pourra prendre des chantillons plus grands et diminuer ainsi les risques de faon
consquente.
Le tableau 10.3 reprsente la portion concerne de la feuille de calcul.
157
llo '
100
o-o;
2,5
n
20
20
20
20
20
20
20
20
20
55
55
55
55
55
55
55
55
55
100
100
100
100
100
100
100
100
100
Sous Ho
"0
Vn
0,5590
0,5590
0,5590
0,5590
0,5590
0,5590
0,5590
0,5590
0,5590
0,3371
0,3371
0,3371
0,3371
0,3371
0,3371
0,3371
0,3371
0,3371
0,2500
0,2500
0,2500
0,2500
0,2500
0,2500
0,2500
0,2500
0,2500
a
0,3%
0,S%
HWK,.
0,3%
0,5%
Wh'
0,3%
0,5%
0,3%
0,5%
:]iip'-
0,3%
0,5%
ISiSBill!
0,3%
0,5%
ssiS
0,3%
0,5%
:
0.3%
0,5%
-'.-IMIte
0,3%
0,5%
"'w
Y y
^(1/ 2 ~^s
98,3
98,4
98,9
98,3
98,4
98,9
98,3
98,4
98,9
99,0
99,1
99,3
99,0
99,1
99,3
99,0
99,1
99,3
99,3
99,3
99,5
99,3
99,3
99,5
99,3
99,3
99,5
x,-^=x,
101,7
101,6
101,1
101,7
101,6
101,1
101,7
101,6
101,1
101,0
100,9
100,7
101,0
100,9
100,7
101,0
100,9
100,7
100,7
100,7
100,5
100,7
100,7
100,5
100,7
100,7
100,5
Sous Hi
m
98
98
98
98,5
98,5
98,5
99
99
99
98
98
98
98,5
98,5
98,5
99
99
99
98
98
98
98,5
98,5
98,5
99
99
99
P
:gi9B::|
22,0%
5,3%
a("(,2%'-
54,9%
23,5%
^Sf.
4,6%
56,8%
0,1%
0,0%
-
5,0%
0,6%
'asp
43,7%
f5,7%
i.ftil.;;-:
0,0%
0,0%
K'e.SK
0,f%
0,0%
iira.:
11,6%
2,1%
P uissance
73%
78%
95%
39%
45%
77%
12%
15%
43%
100%
100%
100,00%
93%
95%
99%
50%
56%
84%
100%
100%
100%
100%
100%
100%
85%
88%
98%
Tableau 10.4 volution du risque P et de la puissance en fonction de la taille n de l'chantillon, du
risque a et de la moyenne suppose m.
R emarque : on peut obtenir des renseignements complmentaires sur le risque fi et la
puissance d'un test dans les ouvrages de Pierre Dagnlie (1998).
volution de la puissance du test
Les volutions de la puissance du test en fonction de a et n sont naturellement en sens
inverse de celles de P. A ce niveau encore les rsultats sont intressants pour le responsable
du contrle qualit qui choisit le protocole qui lui semble le plus adapt.
Conclusion
II convient de souligner qu'il faut, bien entendu, dpasser le choix des valeurs supposes
pour m, a et n , ces choix n'tant qu'illustratifs. Pass l'investissement "temps" de la
158
ralisation de la grille, donc principalement la premire ligne, l'utilisateur peut ensuite obtenir
trs rapidement les rsultats appropris son (ses) problme(s) ; il fait ainsi ses choix de
faon plus objective, plus responsable en dosant ses risques et sa scurit.
10.2.2. chantillon extrait d'une population normale de variance
inconnue. Dtermination de risques de 2
e
espce
Exemple : conformit de la temprature d'une cave vins
Pour assurer un vieillissement correct des vins, une bonne cave vins doit tre
thermiquement bien isole. Il convient d'viter de trop grandes variations de temprature et de
maintenir une temprature moyenne voisine de 11C.
Aprs l'tude du contrle de la variabilit de cette temprature (cf. paragraphe 10.1,
tude du test de conformit d'une variance), nous allons maintenant tudier le contrle de la
conformit de la temprature moyenne.
Rappelons la normalit suppose de la variable alatoire "temprature de la cave".
Les tempratures releves lors du contrle figurent dans le paragraphe mentionn ci-
dessus.
Questions :
1. Peut-on considrer que les tempratures releves lors du contrle sont, en moyenne
conformes "l'exigence 11C" ? Tester cette hypothse de conformit de moyenne au niveau
5%.
2. La rsolution du test de conformit montre que, pour un niveau de test donn, on peut
dterminer une rgion d'acceptation de la moyenne d'chantillon. Nous proposons d'valuer le
risque pris l'issue d'une acceptation de la conformit dans les cas o la temprature moyenne
de la cave seraient : m = 10,5C, m = 11,5C, m = 12C et m = 13 C.
Nous nous poserons la mme question dans les cas o le test est ralis aux niveaux 2%
puis 1%.
Population (sous-jacente)
- X est la variable alatoire "temprature de la cave"
- E(X) = m est la temprature moyenne de la cave (cave "idale" : m = mo =
11C)
- VarX = o-
2
(inconnue)
- X- > N( m ,0- ) .
chantillon
- n = 2 1
- X,-> .N(m,o) i =l , n
EX,
SCE
X =
i
variable alatoire, moyenne observe dans un tel chantillon
n
o -=S=
n-1
159
10.2.2.3. Dmarche statistique (question 1, conformit d'une moyenne)
On ralise le test
Ho : temprature moyenne de la cave conforme l'exigence 11 C
contre
H1 : temprature moyenne de la cave non conforme
c'est dire Ho : m = mo contre H1 : m^m,,
Approche intuitive :
L'approche est du mme type que celle voque lors du prcdent test de conformit
d'une moyenne.
Outil statistique, statistique dutest et prise de dcision
Sous Ho , la statistique dfinie par T = -= = -; suit la loi mathmatique T
cr i ^fn
de Student v degrs de libert avec v = n - 1
Densit de la loi de Student
RA
RR
RR : rgion de rejet de Ho.
Figure 10.4 Rgions d'acceptation et de rejet de l'hypothse de conformit (test bilatral).
R emarque : au lieu de raliser ce test, on peut aussi dterminer l'intervalle de
confiance de m au niveau de confiance 1-a et ensuite regarder si la rfrence mo
appartient ou non l'intervalle de confiance. Cette dmarche est dveloppe dans la
paragraphe qui suit (5
e
mthode).
10.2.2.4. Mise en uvre l'aide d'Excel (1re question)
1re mthode : elle est de type manuel.
On dtermine les valeurs thoriques, fractiles de la loi de Student : T,, .^3 et T,, ,_/;
160
On appelle la fonction LOI.STUDENT.INVERSE et on trouve
1,,,^= 1,7247 (=-T^)
Calcul du Tobserv :
. Xobinye
m
l)
T
observ
o/Vn
X^^= 11,6619 (fonction MOYENNE)
o = 1,8731 (fonction ECARTYPE)
n = 21 -> ^/n= 4,5826 (clavier)
On trouve : o^= -^- = 0,4087
Vn
m =11
On trouve: T^^=l,6194
.Dcision
Comme [ T^^ |<T^^= 1yi_^;, , on ne peut rejeter Ho et on considre donc comme
acceptable l'hypothse de conformit. D'un point de vue pratique, on en dduit que l'exigence
d'une temprature moyenne de la cave gale 11 C est satisfaite.
2e mthode : dtermination de la rgion d'acceptation de la conformit pour la moyenne
d'chantillon
Sous Ho, la rgion d'acceptation de la variable alatoire T = ^- est
x
l^vid^ ' 'v.-a./ J
On en dduit :
P(m,,+T^/2-^- < X < m,+^^^-
c
)=l-a.
Vn ' Vn
Notons : A = T ,_/, - = T ^-^L.
Vn vn
my - A < X < my + A : rgion d'acceptation de Ho pour la moyenne d'chantillon X .
Calculs numriques :
a = 5% T^.a/2 =
1
'
7247
ô"" l" mthode)
A =1,7247 x 0,4087=0,7050
Rgion d'acceptation de X : RA^ = [10,2950 , 11,7050]
Dcision :
ôbserv
e
Â : on m peut rejeter Ho et on considre que l'exigence d'une temprature
moyenne de la cave gale 11C est satisfaite.
R emarque : comme nous l'avons indiqu l'occasion du test prcdent, cette
mthode qui dgage la rgion d'acceptation de la moyenne d'chantillon prsente
l'intrt de simplifier la gestion pratique de la temprature moyenne de la cave.
161
3
e
mthode : dtermination de la probabilit critique
p ^P( T<- ^, |) +P( T> |T, _
On utilise la fonction LOI.STUDENT en renseignant sa bote de dialogue de la faon
suivante :
- x : toujours une valeur positive de l'observe (valeur absolue)
- d d l : 20
- uni / bilatral : choisir bilatral.
Ave c x = 1,6193, on obtient pc= 0,1210.
Rappelons que cette valeur renseigne sur la crdibilit de Ho. Quand la conformit est
satisfaite, on a une probabilit de 12% d'observer une valeur de T atteignant la valeur
observe (1,6194).
Dcision : On prendrait un risque de 12%en rejetant Ho. Ce risque est trop grand,
suprieur au niveau donn ; on en dduit que la conformit de la moyenne est acceptable
4
e
mthode : Utilisation de la fonction TEST.STUDENT (mthode rapide)
Pour prparer les donnes, on
"confronte" chaque valeur observe
de l'chantillon la rfrence 11, ce
qui se traduit par la saisie d'une
srie de valeurs "11" cot de
chaque valeur de l'chantillon. Les
donnes doivent se prsenter sous
la forme suivante (videmment sur
2 colonnes dans Excel) :
Tout se passe comme si l'on
disposait d'un deuxime chantillon
dont les n valeurs sont gales la
rfrence 11, chantillon coupl
l'chantillon rellement observ.
V
8
8,2
8,9
9,8
10,4
10,6
10,9
11,1
11,4
11,7
11,9
Rfrence
(R>
11
11
11
11
11
11
11
11
11
11
11
V
12
12,2
12,5
12,8
13
13,4
13,5
14,1
14,2
14,3
Rfrence
(R)
11
11
11
11
11
11
11
11
11
11
Tableau 10.5 chantillon "rfrence" coupl
l'chantillon observ .
On utilise la fonction TEST.STUDENT (Matricel ; Matrice2 ; Uni/bilatral ; Type)
avec :
- Matricel : plage des valeurs observes
- Matrice2 : plage des valeurs rfrence
- Uni/bilatral : saisir 2 (test bilatral)
- Type : saisir 1 ce qui indique le caractre appari de l'chantillon rel et de
l'chantillon rfrence.
Le rsultat affich est la probabilit critique 12,103%. Son interprtation est bien
entendu identique la prcdente
Explication statistique
Dans cette dmarche "TEST.STUDENT", les calculs sont effectus sur les carts la
rfrence mo (ici 11).
162
Y, = X, - m,,
Or, Y = X-m, (sous H(), E(X) = m,, => E(Y) = 0)
Var Y = Var X
Par consquent, les variables de Student associes X et Y sous Ho sont identiques.
R emarque : cette fonction TEST. STUDENT , classiquement utilise pour la
comparaison de deux moyennes partir d'chantillons apparis sera tudie en dtail
ultrieurement
5
e
mthode : Dtermination de l'intervalle de confiance de m, temprature moyenne
de la cave.
X-).N(m,o) -=> T=^-
m
-> T.l (loi de Student v=n - l d d l )
CT/Vn
P(T^<T<T^_ ^)=l-a
Par suite : P(X + T, ^-^- < m < X + T,,. ./, -^-) = 1 - a
Vn Vn
On en dduit l'intervalle de confiance de m au niveau de confiance (1-a).
IC de m= X+T, , ^, X+T, , , . ,
Vn \ln
G
<s> [X-A , X+A] avec A=T,
Tn"
On peut donc dterminer un intervalle de confiance partir de l'chantillon observ :
ôb,.^= 11,6619 A = 0,7050 (voir2'' mthode)
Et par suite: IC de m =[10,6286 , 12,5962].
Cet intervalle constitue l'ensemble des hypothses possibles pour m, temprature
moyenne de la cave. La rfrence "11C" appartenant cet intervalle, on ne peut pas refuser
l'hypothse Ho.
10.2.2.5. Dmarche statistique (2
e
question : risque P)
Lorsque nous refusons l'hypothse Ho de conformit, nous nous donnons pour raliser le
test un risque maximal tolr (niveau du test) ; de plus, nous pouvons, au moyen d'un logiciel
comme Excel, calculer prcisment le risque pris lors du rejet de Ho (probabilit critique).
Quand nous ne pouvons pas rejeter Ho, nous la considrons comme acceptable : le
risque pris, risque de 2
e
espce p est la probabilit d'accepter Ho alors qu'elle est fausse, soit,
ici le risque de conclure que la temprature moyenne de la cave est conforme l'exigence
11C alors que celle-ci n'est pas satisfaite.
Dtermination du risque P
p = P ( accepter H o / H o fausse ) ^ P ( accepter Ho / H|vraie )
= Pin ( accepter Ho) ; Hi : m -^m^
II apparat donc que, pour valuer un tel risque, nous devons supposer pour m des
valeurs diffrentes de la rfrence mo = 11 (mais cependant concrtement ralistes).
L'vnement "accepter Ho" est ralis lorsque la moyenne d'chantillonnage appartient
la rgion d'acceptation dtermine partir de l'chantillon observ (cf. 1" question,
2
e
mthode).
163
= [m, , -A , n i ( ) + A ]= [a , b ]avec a = mo - A et b = mn + A.
P=PH, ( Xe RA, , ) =P, , , ( a <X<b)
= P( a <X<b ) avec X-^N(m, o) ( m, t mo )
a-m^X-m^b-m
1 Â /'. f\ f
Ox
avec T =
Ox Ox
X-m
, variable alatoire de Student v = (n -1) ddl
Ox
Nous proposons de nous situer au niveau de l'chantillon observ, la rgion
d'acceptation RA dpendant de ce dernier. Dans ce cadre, nous utiliserons l'estimation de
l'cart-type qu'il nous fournit pour encadrer T.
a -m
T, = et ox l'estimation issue de l'chantillon observ. Notons T = -
Ox Ox
(3=F(Ti,)-F(T.) o F est la fonction de rpartition.
1 0.2.2.6. Mise en uvre au moyen d'Excel (2
e
question :risque 3)
Pour raliser ce calcul dans Excel, nous disposons de la fonction LOI. STUDENT
uni / bilatrale qui fournit pour toute valeur Tdonne positive les probabilits uni et bilatrales
rparties en queue de distribution, c'est dire :
- cas unilatral : P ( T > Tdonne )
- Cas bilatral : P ( T <-Tdonne ) +P ( T > Tdonne )
On doit calculer P en s'appuyant uniquement sur cette fonction LOI.STUDENT, cas
unilatral. Selon les simulations envisages pour m, on peut imaginer les 3 cas illustrs sur la
figure 10.5.
Tb ( T, Tb 0 0 T, Th
Ta et Tb <0
(a et b < m )
Ta et Tb > 0
(a et b > m )
Ta <0
Tb > 0
(a < m et b > m )
Ta 0 Tb
Figure 10.5 Diffrentes possibilits de position relative des variables de Student Tg et Tu.
164
Les deux premiers cas seront calculs de faon similaire :
P= ABS[LOI.STUDENT sur ABS(T,) - LOI.STUDENT sur ABS(T.)]
Pour le 3
e
cas :
P=l - [LOI.STUDENT sur ABS(T,) + LOI.STUDENT sur ABS(T.)]
Nous proposons d'affecter m les valeurs 10,5C , 11,5C , 12C et 13 C en
considrant en outre 3 niveaux de risque relatif au test de conformit ; 5%, 2%et 1%.
Pour viter des calculs trop fastidieux tout en conservant une interactivit avec les
donnes de dpart (d'o reutilisation facile de ces valuations du risque P pour un autre
chantillon observ voire une autre rfrence), nous proposons d'organiser la feuille Excel
comme il est indiqu sur le tableau 10.5.
Signification des titres et explication des calculs
Au-dessus de la grille de calcul proprement dite, il est intressant de rappeler les
rsultats (contenus de cellules) des calculs effectus lors de la question prcdente,
savoir :
- o,; : cart type estim de la moyenne d'chantillon
- d d l =v =n - l , ici n = 20
- rfrence mo, ici 11.
Grille de calcul
- m : valeurs supposes de la temprature moyenne de la cave
- a : niveau du test de conformit
- T^., _/: , (valeurs positives du Tthorique) : dtermin au moyen de la fonction
LOI.STUDENT.INVERSE ; prendre le contenu de a en rfrence relative et le
ddl en rfrence absolue ;
-A=T^, x CTX = T.,,,/ , x 0,4087
t t
Rfrence Rfrence
relative absolue
RA = [a, b ]est la rgion d'acceptation de la moyenne d'chantillon X
a = mg - A = 11- A
t t
Rfrence Rfrence
absolue relative
b = m,, + A = 1 1 + A (mme stratgie de calcul)
Ta : valeur de la variable de Student associe "a" sous H1
T. =
&
m
- soit T = (!) (a -m)
ox 0,4087 * -tUO / A

Rfrence Rfrence
absolue relative
T,, = ; (calcul similaire celui de Ta )
Gx
COCAS (codage des 3 cas possibles)
165
a
Wl
3
0
K]
0
(
3
0
K
a
CQ.
^
X'
m
^
a^
,*>
b
a?
CQ
^
'
W
<
U
0
u
A
f-S
s
ir
<
r^
'S
^
S
c
w
'3
S
:
|+
H
^
m
vi
00
y3
0
't
0
0
0
00
0
m
0
'
0
00
-t
1^
t~-t
Vl
3
m
0
0
Ti
0
r-
0
CT\
rî
0
0
0
r-
0
"+
^
5
%'
^
[--
<N
00
^t
0
0
0
0
C-
0
'
CT-'
CN
' T
f-1
'1-
m
1^
0^
9
^
s
r-^
0
0
0\
0\
00
0
^
<N
s
%'
0
0\
00
^0
0
0
0
0
^ t-
f^
0
0
'
(N
n
r~
fi
0
m
'-^
m
r^
1^1
0
^
CT^
m
r-i
0
^
00
M
S
<a?
^
m
>r>
00
0
00
0
r^
0
0
0
'
T)
S
0
I
(N
0
V-l
S
0
0\
(N
0
0
?
0
-1
S
-
0
^
[--
es
00
0
t^
0
^t-
0
'
^t
m
s
0
^ t-
en
CT\
r-~
ON
oc
^
0
0
CT\
a\
00
0
's0
M
s
'a>
-
S
>
0\
00
^fr
r*^
0
0
1
0
'
r-
s
f-i
r-t
r-l
VI
t-^
m
r^
m
m
0
\0
\0
0^"
r<i
(^
0
'-^
00
r-t
s
's'
'
g
9\
f0
<s
^
a>
r^>
rs
0
es
0
+
00
tN
r^
0
rs
l^
"r
0
/ ^
0
r--
0
0\
tN
0
0
0
r-~
0
"-f-
^
S
'a'
r^
^
m
r~-
o\
in
^
r^
0
^
0
8
0
+
CT\
0
^t
rs
0
(-s)
rî
S
T
CT\
S
00
, ,
0
0
cî
G^
00
0
^0
04
S
'S
1
rs
i
(M
rî
"/ "i
(^
r^
^3
-t
0
1
0
'
-1-
00
0
0"
Vl
?
CTs
T
f*->
r*-i
m
0
r-
ON"
m
m
0
^
00
(N
S
%>
rs
^
<
'
s
0
"fr
(N
0
|
0
+
m
00
^0
r^
00
t-~
3
^
0
V"t
s
^
0\
^)
0
0
?
0
-T
5
tsT
r^
^
0\
f
0
0\
\D
0
0
0
1
0
+
s
Os
\0
oi
t
a\
00
0
r-^-
?
o\
00
r^
0
0
c^
CT\
00
0
^0
M
S
ss
g

'
0
0
1
0
+
*n
\D
m
r'f
0
r^l
'--
t^-
m
f^;
m
0
r-
Ct\''
m
m
0
^
g
rs
S
%
t^
On cre une variable logique gale 1 si l'on est dans les deux premiers cas (Ta < 0 et
Tb <0 ) o u ( Ta > 0 et Tb> 0) sinon -1.
T T
On peut procder de la manire suivante : COCAS =
2
x
b
ABS(T,) ABS(Tb)
Pour P ( ABS (Ta) ) on utilise la fonction LOI.STUDENT (unilatral) sur ABS (Ta) ce
qui traduit la probabilit de dpasser ABS(Ta) en renseignant la bote de dialogue de la faon
suivante :
- X : valeur absolue de Ta, fonction ABS (rf. relative)
- Degrs_libert : cliquer sur la valeur (rf. absolue) ou la saisir (20)
- Uni / bilatral : saisir 1.
Pour P ( ABS (Tb) ) on suit la mme stratgie.
Pour dterminer P, on utilise la formule conditionnelle (fonction SI) correspondant aux
deux valeurs possibles -1 et +1 de COCAS :
P = (1-(LC(-2)+LC(-1))) si LC(-3)= -1
P = ABS ( LC(-2)-LC(-1)) si LC(-3)= +1
soit :
=SI(LC(-3)=-1 ;1-(LC(-2)+LC(-1)) ;ABS(LC(-2)-LC(-1)))
Commentaire des rsultats
On retrouve des rsultats connus sur le plan thorique pour ces tests bilatraux
classiques. Pour une mme valeur de m, diffrente de la rfrence mo == 11C, le risque P
augmente lorsque le risque a diminue. Pour un risque a donn, P diminue lorsque l'cart entre
m et la rfrence mo crot. On remarque des valeurs de risque P trs fortes pour les valeurs de
m gales 10,5C et 11,5C. Dans ces cas. on a un risque trs important de conclure la
conformit alors qu'elle n'y est pas. Les valeurs supposes de temprature sont cependant
proches de l'exigence 11 C, ce qui, en quelque sorte, relativise d'un point de vue concret cette
erreur de 2
e
espce. Si, par contre, la temprature relle de la cave est de 13C, donc
relativement diffrente de l'exigence 11C, le risque de conclure la conformit alors qu'elle
n'y est pas est beaucoup plus faible (infrieur 2%).
Par exemple, pour le test ralis la 1re question (niveau 5%), le risque de dcider tort
de la conformit de la temprature moyenne s'lve 69%lorsque la temprature moyenne
est gale 10,5C (risque grand mais trs petit cart par rapport la conformit). Il n'est plus
que de 24%pour une temprature moyenne relle de 12C et chute 0,24%pour 13C.
10.2.3. chantillon quelconque grand
Exemple : vente de livres par Internet
On s'intresse la vente par Internet de livres spcialiss dans le domaine de
l'environnement.
Un examen attentif de ces ventes durant les trois annes 1998, 1999 et 2000 montre une
stabilit du montant moyen de l'ordre de 40 . Pour favoriser l'accroissement du montant des
ventes et donc de leur moyenne, une campagne publicitaire a t lance en 2001. A l'issue du
1
er
trimestre 2002, un sondage est ralis sur 65 ventes choisies au hasard. Les montants
(en euros) observs dans cet chantillon sont indiqus sur le tableau 10.6.
167
30
10
50
60
33
43
53
62
31
41
51
67
34
44
54
40
32
10
52
70
35
45
55
33
43
53
36
46
56
34
44
54
45
6
57
15
45
47
50
48
47
36
46
47
43
49
47
37
47
47
40
50
47
38
48
47
41
51
47
39
49
48
22
52
48
Tableau 10.7 Montant des ventes (en ).
Question : avec un risque maximal de 5%, peut-on considrer que le montant moyen des
ventes a augment durant le 1er trimestre 2001 ?
Population : c'est l'ensemble des ventes ralises par la socit.
- X est la variable alatoire "montant d'une vente"
- E(X) = m est le montant moyen des ventes
- la rfrence est mo = 40 (montant moyen des ventes durant les 3 annes 1998,
1999 et 2000)
- VarX = cr
2
(inconnue).
chantillon
- n =65
- X variable alatoire, montant moyen observe dans un tel
chantillon ;
- G^S^
SCE
n-1
On ralise le test :
Ho : stabilit du montant moyen des ventes durant le trimestre considr
contre
H1 : montant moyen des ventes en augmentation
c'est dire Ho : m = ma contre H]: m > m,,
(TEST UNILATERAL)
Comme il a t expliqu lors des tudes prcdentes, il est ncessaire de connatre la loi
de probabilit de la moyenne d'chantillon X. Une tude descriptive des donnes dans
l'chantillon montre que l'on ne peut le considrer comme gaussien. Lors d'tudes relles, de
tels cas sont frquents . En revanche, l'chantillon tant suffisamment grand ( n > 30 ), on
pourra utiliser le test de Student, "robuste" relativement la normalit dans ce cas.
En pratique, la dmarche statistique est finalement identique celle qui a t ralise
prcdemment malgr le contexte statistique diffrent ; elle est approche.
Statistique du test et prise de dcision : T = -^,= %Tv loi de Student v = (n-1) ddl.
o /Vn
168
Sous Ho
Densit de probabilit de
la loi de Student
RA
T,
RR
l-a
Figure 10.6 Rgions d'acceptation et de rejet de l'hypothse de conformit de la moyenne
(test unilatral).
1 0.2.3.4. Mise en uvre l'aide d'Excel
Dans l'tude prcdente, nous avons vu plusieurs mthodes pour raliser ce test. Nous
slectionnons ici deux d'entre elles, bien complmentaires. L'une est choisie pour ses
consquences pratiques au niveau de la gestion du suivi du montant moyen des ventes, l'autre,
plus rapide et prcise, parce qu'elle permet de mesurer le risque exact dans le cas d'un rejet de
Ho.
1re mthode : dtermination de la rgion de rejet de Ho pour X (RR,.)
Rgion de rejet pour T (RR)
T > Tv ;i< ; a = 5%. On utilise la fonction LOI.STUDENT.INVERSE(0,1;64) et on
obtient To,95 = 1,6690:
R emarque : Dans la zone "Probabilit" de cette bote, on doit saisir 2o, soit ici 0,10.
En effet, la fonction LOI.STUDENT.INVERSE rpartit la probabilit
symtriquement sur les deux queues de la distribution.
Rgion de rejet pour X
X-ni n
T=_ _
0
-
Sous Ho
o/ Vn
RRêst dfinie par : . Notons A = T.,
Vn
0=12,1824 (fonction ECARTYPE)
o o
=1,5110 Par suite: A=2, 5219
RR,, : X> 4 2, 5219
X^=43,4723 (fonction MOYENNE).
Dcision
Xobserv
e
l^x Nous rejetons donc Ho et acceptons H1. Avec un risque maximal de 5%,
nous dcidons que le montant moyen des ventes a augment au cours du premier
trimestre 2002.
169
Rappelons que cette mthode offre l'avantage de permettre facilement une gestion
concrte du contrle.
2e mthode ; utilisation de la fonction TEST.STUDENT
Nous utilisons cette fonction en adoptant la pratique spciale indique dans l'tude
prcdente. Rappelons succinctement que nous crons un deuxime chantillon coupl avec
celui qui a t observ et dont toutes les valeurs sont gales la rfrence 40 .
Rappelons que les donnes doivent se prsenter dans la feuille Excel sur 2
colonnes de la faon ci-contre. On nomme V la plage des vraies valeurs observes
et M celle des n valeurs gales la moyenne de rfrence.
v
30
33
31
34
32
M
40
40
40
40
40
La fonction TEST.STUDENT(V;M; 1,1) donne la valeur 0,0124 de la
probabilit critique. Si le montant moyen des ventes est rest stable, on n'a que
1,24% des chances d'observer une moyenne qu puisse atteindre la moyenne
observe 43,4723 . L'hypothse de la stabilit est peu crdible.
Nous prfrons donc rejeter Ho et nous concluons, avec un risque infrieur 1,25%que
le montant moyen des ventes a augment.
Cette mthode est rapide et fournit la probabilit critique qui est importante pour ce
genre d'application. En effet, dans ce type de dcision, il est fondamental de mesurer le risque
car il y a ncessairement des consquences en terme d'investissement conomique.
10.3. TEST DE COMPARAISON DE 2 VARIANCES (CHANTILLONS
GAUSSIENS)
Exemple : comparaison de deux types de laits (bio et non bio)
Dans le cadre d'tudes sur la qualit sanitaire des laits, on veut comparer la teneur d'un
pesticide, le lindane, dans les laits biologiques (LAIBIO) et les laits non biologiques dits
conventionnels (LAICO).
Dans ce but, des chantillons de deux types de laits ont t envoys un laboratoire
d'analyses. Les rsultats observs (en ppb) sont indiqus sur le tableau 10.7.
M"
LAICO
LAIBIO
1
0,1
0
2
0,1
0
3
0,1
0
4
0,1
0
5
0,1
0,1
6
0,1
0,1
7
0,1
0,1
8
0,2
0,1
9
0,1
0,1
10
0,2
0,1
11
0,2
0,2
12
0,2
0,2
13
0,2
0,1
14
0,3
0,1
15
0,2
16
0,3
Tableau 10.8 Teneur en lindane dans les laits conventionnels et les laits biologiques.
Aprs tude des distributions, nous considrerons les chantillons comme "gaussiens".
Question :
Dans un premier temps, on veut comparer les variances de la variable alatoire "Teneur
en lindane" pour les deux types de laits.
On s'attachera ensuite comparer les teneurs moyennes en lindane, ce qui reste le but
essentiel de l'tude. Ceci sera l'objet du paragraphe suivant.
Population 1 : laits conventionnels
- Xi est la variable alatoire "teneur en lindane"
- E(Xi) = m\est la teneur moyenne en lindane
170
- Va r ( X, ) =Oi
2
- Xi N (mi, Oi)
chantillon 1
- m = 1 6
- Xi; N (mi, cri) i = 1 , ni
ni
I^.
- x = ^ est la variable alatoire, moyenne observe dans un chantillon
n1
de taille n1
- SCE,.|;(x,,-X;)
2
-
2
= (J
2
= SCEi est la variable alatoire, estimateur de la variance partir
' * "i-l
d'un chantillon de taille ni ;
- vi = ni - 1 est le degr de libert associ SCEi (ou encore la variance
estime).
Population 2 : laits biologiques
- X2 est la variable alatoire "teneur en lindane"
- E(X) = ni2 est la teneur moyenne en lindane
- Var(X2)-02
2
- X2-N( m2, G2) .
chantillon 2
- n2 = 14
- Xzi -N (mi, o-t) i = 1 , n^
n2
_ IX
- X, =
J
-
1
est la variable alatoire, moyenne observe dans un
"2
chantillon de taille nz.
- SCE; =^( X^-X^)
2
est la variable alatoire, estimateur de la variance
i-i
partir d'un chantillon de taille ni.
- va = na - 1 est le degr de libert associ SC2 (ou encore la variance
estime).
Les hypothses sont
Ho : Oi
2
= CT2
2
contre Hi : (Ji
2
^c2
2
171
Statistique dulest
S,
2
Sous Ho, la statistique du Fobserve dfinie par F^,^= suit la loi mathmatique
J-)
du F de Fischer-Snedecor (vi, V2 )degrs de libert avec Vi = ni - 1 (ddl du
numrateur) et v; = \i - 1 (ddl du dnominateur)
Ce se justifie intuitivement. Si le rapport des variances estimes partir des chantillons
s'carte "suffisamment" de 1, il est naturel qu'il en soit de mme au niveau des variances des
populations et on sera conduit rejeter l'galit des variances des populations sous-jacentes.
Dcision
Ralisons le test au niveau 5%. On distingue les cas Fobserve > 1 et Fobserve
<
1
1
cr
CaS :Fobserve >1
C'est le cas presque toujours pratiqu (on considre le rapport des variances estimes en
mettant la plus grande au numrateur ; il faudra penser adapter en consquence les degrs de
libert du Fobserve qui sont, dans l'ordre, ddl du numrateur, ddl du dnominateur).
Sous Ho :
Densit de la loi de Fisher
RA = rgion d'acceptation de Ho
RR = rgion critique (Rejet de Ho)
Fobserve > F= Fv|,v2 . a=> Rejet de HO ;
Fobserve
<
Fvi ,v2 ; a => Acceptation de Ho.
Fvl , 2 ,0,95
Figure 10.7 Prise de dcision dans le cas oFobserv > 1 (RA et RR).
2
C
"
U
Cas : Fobserve
<
Fobserve < F = Fvi,v2 ; <i> rejet de Ho
Fobserve
>
Fyi.v2 : a -> acceptation de Ho
Figure 10.8 Prise de dcision dans le cas oFobserv < 1 (RA et RR).
172
10.3.4. Ralisation pratique au moyen d'Excel
1re mthode (de type manuel)
On effectue le calcul des variances estimes
partir de chacun des chantillons, l'aide de la
fonction VAR (plages concernes nommes
respectivement LAITCO et LAITBIO)
n
ddl
VAR
LAICO
16
15
0,0053
LAIBIO
14
13
0,0034
ddl = degrs de libert = n - 1
VAR = variance estime (dite parfois variance empirique).
Pour calculer la valeur de Fobserv , formons le rapport des variances estimes dans le
sens> l .
0,0052..
r observ
0,0033...
(ddl numrateur =15 ; ddl dnominateur =13)
= 1.555
Fvi,v2 ; i-a = Fi5,i3 ;o,95 : c'est la valeur du F (15,13) ddl qui a 5%de chance d'tre
dpass. Pour calculer cette valeur, il suffit d'appeler dans une cellule libre la fonction
INVERSE.LOI.F (0,05 ; 15 ; 13). Le rsultat est F,5,i3;o,95= 2,533.
Dcision
Comme Fobserv Fi5,i3 ;o,9s, on ne peut rejeter Ho et on considre l'galit des variances
ai
2
et 02
2
comme acceptable. On accepte donc l'galit des variabilits des teneurs en lindane
pour les laits biologiques et les laits conventionnels. On dit qu'il y a homoscdasticit.
2
e
mthode
Cette mthode, proche de la prcdente, s'appuie sur le calcul du Fobserv Elle consiste
dterminer la probabilit critique c'est dire la probabilit de dpasser la valeur atteinte par le
Fobserv Pour ce faire, il convient d'appliquer la fonction LOI.F sur la valeur du Fobserv
L'utilisation de cette fonction ne prsente aucune difficult.
LOI.F (1,555;15;13) est gal 0,219. Cela veut dire que l'on a 21,49%de chances
d'observer une valeur de F au moins gale celle du Fobserv quand Ho est vraie. On n'a donc
pas de raison de rejeter cette hypothse. Autrement dit, en rejetant Ho , on prendrait 21,49%
de risques de se tromper ce qui est beaucoup trop important (> 5%).
3
e
mthode
C'est la plus rapide. On utilise la fonction TEST.F(LAITCO,LAITBIO) sans oublier que
le rsultat doit tre divis par 2. En effet, cette fonction donne la probabilit critique d'un test
bilatral. Or, dans la pratique, le test d'galit des variances de Fischer-Snedecor est toujours
utilis "en unilatral" ce qui justifie cette prcaution. On vrifie que l'on retrouve bien le
rsultat prcdent (21,49%).
L'interprtation de ce rsultat est la mme que prcdemment.
4
e
mthode
Rappelons que, dans les "macros complmentaires" d'EXCEL (menu Outils), il existe un
"UTILITAIRE D'ANALYSE" fournissant le rsultat de traitements statistiques. Pour le
problme qui nous occupe, il convient d'utiliser le "Test d'galit des variances (F-Test)".
173
Compte tenu de la particularit du Test-F ( Fobserv
>
1 ou Fobserv < 1), nous
choisissons de prsenter les deux stratgies (change des rles de variable 1 et variable 2) afin
d'observer clairement les points de convergence et de divergence. On renseigne les zones
comme suit :
Stratgie 1 :
- plage pour la variable 1 : LAITCO
- plage pour la variable 2 : LAITBIO
- Seuil de signification : 0,05
Stratgie 2 :
- plage pour la variable 1 : LAITBIO
- plage pour la variable 2 : LAITCO
- Seuil de signification : 0,05.
On observe l'cran les deux familles de rsultats ci-dessous, respectivement associes
ces deux stratgies :
STRAT GIE 1
Moyenne
Variance
Observations
Degr de libert
F
P(F<=f)
unilatral
Valeur critique
pour F
(unilatral)
Variable 1
0,14625
0,00525
16
15
1,55542
0,21491
2,53311
Variable 2
0,08071
0,00338
14
13
STRAT GIE 2
Moyenne
Variance
Observations
Degr de libert
F
P(F<=f)
unilatral
Valeur critique
pour F
(unilatral)
Variable 1
0,08071
0,00338
14
13
0,64291
0,21491
0,39477
Variable 2
0,14625
0,00525
16
15
Lgende du 1
er
tableau (attention aux traductions de l'anglais qui peuvent tre maladroites,
voire errones)
- Moyenne : moyenne arithmtique (xi , xz)
- Variance : variance estime ( a? ; a )
- Observations : taille n; des chantillons
- Degr de libert : n; -1 = v;
- F : Fobserve ( remarquer : > 1 )
- P ( F < f ) : probabilit de dpasser le Fobserve , car dans ce cas, le Fobserv est
suprieur 1 (probabilit critique)
- Valeur critique : Fthorique = Fvi,v2 ,0,95.
Lgende du 2
e
tableau : (mmes remarques concernant les traductions). Dans cette seconde
stratgie, le F observ est < 1 pour P ( F < f ) . Attention : dans ce cas, le Fobserve tant infrieur
1, il s'agit de la probabilit d'obtenir une valeur F infrieure au Fobserve.
Les figures 10.9 sont la traduction graphique des rsultats affichs selon les deux
stratgies.
174
Densit de la loi de Fisher
22 %(toute l'aire droite du F observ )
5%
1,55 2,53
F oint Fvl,v2 ;0,95
Fvl,v2 ;0,05
Figure 10.9 Visualisation du Fobserv et du Fthorique dans les 2 cas Fobserv >1 et Fobserv <1.
Interprtation
Avec l'indicateur not " P( F < f ) " , nous retrouvons l'interprtation faite au cours des
2
e
et 3
e
mthodes.
Avec les indicateurs nots " F " et " valeur critique pour F (unilatral) ", nous retrouvons
la 1" mthode avec une adaptation pour le cas Fobserv < 1 .
> R emarques
L' avantage rside dans le fait que tous les rsultats sont affichs.
Par contre, les titres posent un problme car il y a un risque d'erreur li au rflexe
classique de l'utilisateur. "Fobserv
<
Fthorique " entrane l'acceptation de Ho. Si le Fobserv est
infrieur 1, c'est le contraire. Par ailleurs, on regrette l'absences de fonctionnalit EXCEL.
Conseil
II faut prendre la dcision partir du rsultat affich par " P( F ^ f ) unilatral ", tout
risque d'erreur est ainsi cart.
Conseil gnral pour tester l'galit des variances
La mthode "Test-F" en divisant le rsultat par 2 (3
e
mthode) est la plus rapide.
175
De plus, elle limine tout risque d'erreur relativement la question "Fobserv infrieur ou
suprieur Fthorique ". Elle offre enfin la richesse des fonctions EXCEL : interactivit avec les
donnes, utilisation des copier-coller, formules, etc.
10.4. TEST DE COMPARAISON DE 2 MOYENNES
10.4.1. chantillons indpendants gaussions avec homoscdasticit
Exemple : comparaison de deux types de laits bio et non bio (suite)
10.4.1.1. Position du problme, notations et modle
Nous rappelons qu'il s'agit de comparer la teneur moyenne en lindane (pesticide) de laits
conventionnels (non biologiques) et de laits biologiques (cf. 10.3.1). Les notations et le
modle ont t prciss au paragraphe 10.3.2.
Hypothses
On ralise le test bilatral
Ho : mi = m-t contre H]: mi ^m;
R emarque : le test tant bilatral, lors du rejet de Ho , on peut avoir mi - ni2 < 0 ou
mi - ma > 0 .
Outil statistique
a) tant donn le rsultat issu du test prcdent d'galit des variances, on suppose la
variance gale dans les deux populations et on la note do
2
.
. 2 - ^"iî
0
! SCE.+SCE; , , .
On estime Oo par Oy = = - (moyenne des variances estimes
v, +v; ^+' ^2
pondres par les ddl). oêst un estimateur sans biais de oo
2
et v = vi + V2 le ddl associ oo
2
.
b) La statistique du test est D=X|- X; ; Dobserv = 0,14 - 0,08 = 0,06 (fonction
MOYENNE et calcul).
L'approche intuitive est la suivante. D'une manire gnrale, on veut comparer les
teneurs moyennes en lindane. Il est donc naturel de s'appuyer sur les moyennes observes
dans les chantillons (0,14 pour les laits conventionnels et 0,08 pour les laits bio) et de
chercher "juger" l'cart (absolu) observ de 0,06. Est-ce que cet cart D est suffisamment
petit pour tre attribu au hasard d'chantillonnage ou bien, est-il trop grand pour tre d au
seul hasard ? On comprend ainsi qu'il est ncessaire de dterminer la loi de probabilit de D
afin de calculer un seuil au-del duquel il sera trs peu probable d'observer un cart des
moyennes d au seul hasard.
Les paramtres statistiques de D sont :
E( D ) = mi - m2 e t VarD= Va r X, +Va r X2- o ^ (-! -+-! -)
n, n,
Nous allons estimer la variance de D par Var D = dy ( + ) = GQ .
n, n,
Sous l'hypothse Ho, E(D) = 0.
176
Statistique du test
Sous Ho, la statistique du Tobserv dfinie par Tobserv =
D
^"- =
l
"
e
'
vi
suit la loi
OD
^^^-
V"l "2
mathmatique du T de Student v degrs de libert avec v = Vi + V2 = (ni - 1 ) + ( n; - 1)
Dcision
Sous Ho
Densit de la loi de Student
Figure 1 0.1 0 Prise de dcision dans un test bilatral de comparaison de deux moyennes.
Par consquent,
Si T^^> . [ ^î |, on rejette l'hypothse Ho. Le test est significatif
Si T^,^< |T^ ,_^|, on accepte Ho. Le test n'est pas significatif.
> R emarque : Tv ; 0/2 et Ty ;i-o/2 correspondent pour D aux seuils ngatif et positif,
respectivement <s^ T,^,;, et Op ! ,_,,;. C'est dire pour Hi , respectivement aux
conditions mi - m-i <0et mi - m2
>
0 . Dans le test bilatral, le risque est bilatral.
177
10.4.1.3. Ralisation pratique au moyen d'Excel et interprtation
1re mthode : (de type manuel)
1. Calcul des moyennes et estimation de la variance commune Oo
2
n
d d l =( n -l )
SCE
Moyennes
LAICO
16
15
0,078...
0,146
LAIBIO
14
13
0,043...
0,081
Total
28
0,122...
ol (=SCE/ddl )
0,004
R emarque : pour calculer SCE, il suffit d'insrer dans la cellule concerne, la
fonction SOMME.CARRES.ECARTS (LAICO) pour le premier type de lait. Le
rsultat est 0,078775.
2. Calcul des statistiques Tobserv et Tthorique
a. Estimation de la variance de D
Calculer (au clavier) : a^+) = Gp
2
Le rsultat est 0,0005.
b.Ecart-type estim de D = ^0,0005 = a^ On trouve 0,0224.
c. Dobserv : 0,06... (on fait la diffrence des moyennes)
d.T, On trouve 2,7.
e T,,,,^
Pour ce calcul, on insre la fonction LOI.STUDENT.INVERSE dont on renseigne les
zones Probabilit (0,05) et Degr libert (28).
Pour a = 5%, on trouve Tig ;o,95 ^ 2,048 = Tyhorique
Densit de la loi de
Student
Probabilit donne : Excel
la rpartit symtriquement
sur les deux queues de la
distribution.
Rsultat affich = valeur
positive du T = T;8 ; 0,95 ici,
soit 2,048
Figure 10.11 Fonctionnement de LOI.STUDENT.INVERSE.
Puisque |Tobserv| > T^-,0,9-, >
on
prend la dcision de rejeter l'hypothse Ho.
Le test est significatif. Les teneurs moyennes en lindane des deux types de lait sont
significativement diffrentes au niveau a = 5%.
178
2
e
mthode
Cette mthode, proche de la prcdente, consiste calculer la probabilit critique
P[T < -|Tob-^1 ]+ P[T > |Tob,v| ]
On applique pour cela la fonction LOI.STUDENT sur |Tobserv[ en renseignant les
arguments
- X : 2,70 (saisir seulement la rfrence cellule)
- Degrs libert : 28
On trouve 0,014 . .
Densit de la loi Rsultat = Probabilit
Ac. Qh.ônt --. . "bilatrale"
-Tobserv 0 ______ Valeur donne
( ici : Tobserv )
Figure 10.12 Fonctionnement de LOI.STUDENT (en bilatral).
On prend 1,15%de risque en rejetant Ho. On rejette donc l'hypothse puisque ce risque
est infrieur au niveau implicite a = 5%. Bien entendu, ce rsultat est identique au prcdent.
Il est cependant plus prcis car on connat le vritable risque associ la dcision de rejet.
3
e
mthode
C'est la mthode la plus rapide.
On utilise la fonction TEST.STUDENT(LAICO;LAIBIO;2;2). Dans la zone
Uni / bilatral il faut en effet saisir 2 pour ce test qui est bilatral. Quant la zone Type, il
faut la renseigner 2 ce qui correspond l'homoscdasticit (cf. 10.3.4)
Le rsultat est la probabilit visualise sur le schma figurant la mthode prcdente.
On trouve donc 1,148%. C'est le risque pris en rejetant Ho tort. On interprte ce rsultat
comme prcdemment.
4
e
mthode
On utilise ici l'utilitaire d'analyse d'EXCEL. On choisit le test intitul "Test d'galit des
esprances : deux observations de variances gales" et on renseigne la bote de dialogue.
- plage pour la variable 1 : LAICO
- plage pour la variable 2 : LAIBIO
- Diffrence entre les moyennes (hypothse): 0
> R emarque : la zone intitule "Diffrence entre les moyennes (hypothse)" signifie
Ho : mi ^m-t <=> m\- m; = 0. Saisir 0.
179
Les rsultats sont indiqus sur le tableau ci-dessous sur lequel on reconnat les rsultats
dtermins dans les mthodes prcdentes.
Moyenne
Variance
Observations
Variance pondre
Diffrence hypothtique des moyennes
Degr de libert
Statistique t
P(T<=t) unilatral
Valeur critique de t (unilatral)
P(T<=t) bilatral
Valeur critique de t (bilatral)
Variable 1
0,146
0,0053
16
0,0044
0
28
2,7055
0,0057
1,701
0,0115
2,0484
Variable 2
0,0807
0,0034
14
La signification de certains titres n'est pas explicite. Indiquons leur sens.
- Variance = variance estime
V,G, +V,0,
Variance pondre =
Y] +v;
(soit 15
(en fait "pondre" par les ddl)
13) - Degr de libert =1/111/3 ( soit 1 5 +1 3 )
- Statistique t = Tobserve
- Valeur critique de t signifie Tthorique
On retrouve les interprtations dj faites. Les inconvnients et avantages de cet
utilitaire sont identiques ceux que nous avons indiqus propos du test de comparaison de
deux variances.
R emarque sur le test unilatral ; reflexion sur un aspect concret du problme pos
Pour cette tude concrte de comparaison de deux moyennes, il aurait t tout fait
justifi de raliser un test unilatral. En effet, on sait que les produits biologiques rsultent
d'une agriculture soumise un cahier des charges. Par suite, si les taux de lindane des produits
biologiques et conventionnels sont significativement diffrents, cela signifie que le taux de
lindane des laits bio est infrieur celui des laits conventionnels. D'o le test :
Ho contre H, mi > m:;
Sous Ho
Densit de la loi
de Student
180
Figure 10.13 Prise de dcision dans
un test unilatral de comparaison de
deux moyennes.
T
Si l'on utilise la mthode la plus rapide (TEST.STUDENT) avec l'option "test unilatral"
(renseigne de la mme manire que pour le test bilatral, sauf la zone Uni / bilatral o l'on
saisit 1 )). On trouve 0,0057 soit la moiti de la probabilit critique issue du test bilatral).
On prend un risque de 5,7 /oo en rejetant Ho, c'est dire en acceptant Hi , donc en
concluant que mz < mi . Pour les laits biologiques, la teneur moyenne en lindane est trs
significativement infrieure celle des laits conventionnels.
Si l'on souhaite retrouver, partir des fonctions EXCEL Tv ; 0,95 = TIS : 0,95 ( a = 5%)
dans le cas du test unilatral, il suffit de saisir 0,10 pour l'argument Probabilit de la fonction
LOI.STUDENT.INVERSE. On trouve 1,7 (cf. figure 10.11).
10.4.2. chantillons indpendants gaussions sans homoscdasticit
Exemple : Comparaison de deux varits de mas
On s'intresse deux nouvelles varits de mas nommes ici Vi et V2, destines la
fabrication de pop-com.
Dans cette tude, on considre la variable alatoire "poids de 100 grains" (en grammes)
Les deux varits cultives dans des conditions homognes fournissent chacune un
chantillon (Ei de taille ni = 40 pour la varit Vi et Ez de taille ni = 60 pour la varit V )
Les donnes observes sont reportes sur le tableau 10.8. Sur la feuille Excel on les
saisit sur 2 colonnes.
Vi
V2
25
26
26
27
26
27
27
28
27
30
27
30
28
28
28,5
26,5
28,5
27
28,5
28
29
28
30
28,5
30
28
30
28,5
31
28
Vi
Vz
32,5
29
33
29
33,5
30
33,5
30,5
34
27
34
29
34
29
34
30
34
30
35
27,5
35
29
35
30
36
28
36
29,5
36
29,5
V,
V2
37
27,5
37
28
37
29,5
37,5
28
37,5
30
38,5
28
39
30
41
29
41
30,5
42
30 31 31 31 31,5 31,5
V,
V 32 32 32 32 32,5 33 33 33 33,5 33,5 34 34 34 35 35
Tableau 1 0.9 Observations de poids de 100 grains de 2 varits de mas Vi et V; (en g).
Une tude pralable a permis de considrer les chantillons comme gaussiens.
Question: peut-on considrer qu'en moyenne, les poids des 100 grains des deux varits sont
identiques ? Pour rpondre cette question, raliser un test de comparaison des deux
moyennes au niveau 1%.
Varit Vi
Population 1
- Xi est la variable alatoire "poids de 100 grains"
- E(Xi) = mi est le poids moyen de 100 grains
181
- Var Xi = oi est la variance
- X, -> N ( m, , oi )
chantillon E[
- n , =4 0
- X,, -> N(m, , 0|) i = l , n i
- Xi est la variable alatoire "poids moyen de 100 grains" observ dans un
chantillon de taille ni
SCE.
- o,- = ,
n, - 1
Varit V^: on utilise le mme type de notation (avec l'indice 2).
Dans les fonctions Excel, VI et V2 sont les noms des plages de valeurs observes pour
les deux varits.
Ho mi ni2 contre H,
La question se pose dans les mmes termes qu'au paragraphe prcdent. Les chantillons
sont indpendants et peuvent tre considrs comme gaussions. On sait que pour raliser
facilement un tel test avec Excel, on doit au pralable se poser la question de
l'homoscdasticit, afin de renseigner correctement la bote de dialogue relative la fonction
TEST.STUDENT
Le cas de l'homoscdasticit a t trait prcdemment sous diffrentes facettes. Nous
allons rencontrer dans l'exemple prsent la "non homoscdasticit". Dans ce cas, les calculs
rigoureux de statistique mathmatique rappels prcdemment ne peuvent plus s'appliquer
nanmoins, on peut raliser le test de Student sur la variable T :
T=
X, -X,
2 2
G, 0,
I I --
mais avec un ddl approch v. P. Dagnelie (1998) indique le ddl de W elch
1
n,-l
o,
2
. "i .
' ^î
"L+^
n
! "2
'^JT
"- LJ
2
Ce test a t programm dans la fonction TEST.STUDENT.
10.4.2.4. Mise en uvre l'aide d'EXCEL
Etude pralable : test d'galit des variances CTi
2
et ai
2
Ho contre H,
182
Diverses mthodes ont dj t exposes. Nous choisissons ici la fonction TEST.F sans
oublier de diviser le rsultat affich par 2 pour obtenir la probabilit critique unilatrale. On
trouve :
TEST.F = 1,824 . 10'
6
soit TEST.F / 2 = 9,13 . 10'
7
(probabilit critique)
Cette probabilit critique tant infrieure au niveau 1%du test. Nous rejetons Ho et nous
concluons avec un risque infrieur 9,13 . 10'
7
, qu'il n'y a pas homoscdasticit. L'galit des
variabilits des poids de 100 grains des deux varits est rejete.
Test de comparaison des deux moyennes
Ho mi m-i contre Hi : mi ^t m2
V
e
mthode
On insre la fonction TEST.STUDENT (Vi ; V2 ; 2 ; 3). Le dernier argument "3"
indiquant la non homoscdasticit.
Le rsultat affich 0,00021 indique la valeur de la probabilit critique.
Dcision
La probabilit critique (0,000210) tant trs infrieure au niveau du test (1%), on rejette
Ho et on accepte Hi. Le test est trs hautement significatif. On conclue, au risque 0,21%o la
diffrence des poids moyen de 100 grains des deux varits.
2
e
mthode
On fait appel l'utilitaire d'analyse "Test d'galit des esprances : deux observations de
variances diffrentes". On saisit :
- plage pour la variable 1 : Vi
- plage pour la variable 2 : Va
- Diffrence entre les moyennes (hypothse) : 0
Les rsultats, indiqus
ci-contre, ont dj t
explicits et comments
dans le paragraphe
prcdent. Les conseils et
remarques indiqus restent
valables.
Moyenne
Variance
Observations
Degr de libert
Statistique t
P(T<=t) unilatral
P(T<=t) bilatral
Variable 1
33,1125
20,7883
40
0
52
3,9855
0,0001
1,6747
0,0002
2,0066
Variable 2
30,0083
5,2160
60
10.4.3. chantillons indpendants grands
Exemple : comparaison du prix de vente d'un produit sur deux lieux de vente
Une association de consommateurs souhaite comparer les prix du magret de canard de
mme origine en GMS (grandes et moyennes surfaces) et au dtail not DET (magasins et
marchs).
183
Des sondages pratiqus dans des conditions similaires (priodes, horaires et lieux) sont
mis en uvre. 100 pointages sont raliss auprs de GMS et 65 auprs de dtaillants. Les prix
sont exprims en euros par kg de magret. Les rsultats observs sont les suivants :
- GMS
L'chantillon Ei est de taille ni = 100.
10,06
9,51
10,38
8,54
9,09
11,24
9,09
10,26
10,81
10,02
9,47
10,43
8,58
9,13
11,28
9,04
10,31
10,85
9,97
9,42
10,47
8,63
9,18
11,33
8,99
10,35
10,90
9,92
9,38
10,52
8,67
10,82
11,37
8,95
10,40
11,57
9,88
9,33
10,56
8,72
10,87
11,42
8,90
10,44
9,83
10,06
10,61
8,77
10,92
11,46
8,86
10,49
9,79
10,11
10,66
8,81
10,96
11,51
8,81
10,53
9,74
10,15
10,70
8,86
11,01
11,56
7,32
10,58
9,70
10,20
10,75
8,90
11,05
9,27
8,72
10,63
9,65
11,74
10,79
8,95
11,10
9,22
8,67
10,67
9,60
10,29
12,35
8,99
11,14
9,18
8,63
12,20
9,56
10,34
10,88
9,04
11,19
9,13
10,21
10,76
Tableau 10.10 Prix de vente observs en GMS (en ).
DET
L'chantillon Ei est de taille nz = 65.
12,20
9,88
10,61
11,34
11,22
10,14
9,21
9,94
10,67
11,40
11,34
10,26
12,04
10,00
10,73
11,46
11,46
10,38
9,33
10,06
10,79
11,53
11,59
10,35
9,39
10,12
10,85
11,59
9,16
10,40
9,45
10,18
10,92
10,37
9,28
9,51
10,24
10,98
10,49
8,38
11,43
10,31
11,04
10,61
9,53
9,63
10,37
11,10
10,73
9,65
9,70
10,43
11,16
10,85
9,77
9,76
10,49
11,22
10,98
9,89
9,82
10,55
11,28
12,04
12,35
Tableau 10.11 Prix de vente observs en vente au dtail (en ).
Question : peut-on considrer qu'en moyenne, les prix du kilo de magret sont identiques
en GMS et au dtail ? Pour rpondre cette question, tester cette hypothse au niveau 1%.
Population 1 (GMS)
- Xi est la variable alatoire "prix du kilo de magret"
- E(Xi) = mi est le prix moyen
- Va r Xi =c r i
2
R emarque ; la loi de probabilit de Xi est inconnue.
chantillon 1
- n, = 100
- Xi est la variable alatoire "poids moyen du kilo de magret" observ dans un
chantillon de taille ni
- SCE,
- ^^-
"i-l
Les rsultats numriques observs dans l'chantillon 1 sont :
x,-10,046 0"= 0,968 CT; = 0,989
184
Population 2 (DET) : les notations sont identiques (avec l'indice 2).
Les rsultats numriques observs dans l'chantillon 2 sont :
x; =10,5226 02=0, 689 o; =0,809
- Comparaison : D = X, - X;
On realise le test |Hu : mi ^m; contre Hi : ma -^ mi|
Remarques
- Dans cette tude trs concrte, on n'met pas d'hypothse de normalit. Les
chantillons ne peuvent tre considrs comme gaussiens. Les populations d'o sont
extraits les chantillons sont quelconques et surtout de lois inconnues ce qui est
frquent dans la ralit. Ceci explique le choix volontaire de grands chantillons,
l'importance de leur taille permettant l'utilisation de tests approchs.
- Rappelons que, conformment un usage relativement courant, nous considrons le
plus souvent comme grand un chantillon atteignant la taille 30. Selon le type
d'application, l'approximation peut tre satisfaisante pour des valeurs infrieures.
Ainsi, au sujet des "mthodes relatives une ou deux moyennes" (estimations, tests
de conformit, tests de comparaison de deux moyennes, avec chantillons
indpendants ou non), P. Dagnlie (1998) indique : "En raison de la rapide
convergence des distributions d'chantillonnage de la moyenne vers les distributions
normales, la condition de normalit est toutefois trs peu restrictive ici. Ce n'est que
pour des e f f e c t i f s trs limits (distributions t moins de 10ddl) que cette condition a
une relle importance".
1"' mthode
Nous utiliserons la fonction TEST.STUDENT, mthode la plus rapide.
> R emarque '. bien que nous ne puissions considrer comme gaussiennes les variables
alatoires Xi et Xz, nous appliquerons le test de Student sur la variable T.
D X^-X^
-CTU-
HT?
v", ",
Le test de Student est rput correct quand n est grand.
Nous utiliserons la fonction "TEST.STUDENT" en considrant par dfaut la non
homoscdasticit (soit type "3" dans la bote de dialogue). En effet, on ne peut comparer les
variances, l'utilisation de "TEST.F" tant impossible en l'absence de normalit.
On trouve une probabilit critique 0,00105 soit 0,105%.
Cette probabilit tant infrieure 1%, niveau du test, on rejette Ho et on accepte H). Le
test est significatif. Les prix moyens du magret en GMS et au dtail diffrent
significativement un risque a < 0,106%.
2
e
mthode
Nous pouvons utiliser le "test d'galit des esprances : deux variances diffrentes"
fourni par l'utilitaire d'analyse. Nous retrouvons les rsultats comments au paragraphe
prcdent.
185
Moyenne
Variance
Observations
Diffrence
hypothtique
des moyennes
Degr de libert
Statistique t
P(T<=t)
unilatral
Valeur critique
de t (unilatral)
P(T<=t) bilatral
Valeur critique
de t (bilatral)
Variable 1
10,05
0,97
100,00
0,00
152,00
-3,34
0,00
1,65
0,00
1,98
Variable 2
10,52
0,69
65,00
10.4.4. chantillons apparis gaussiens
Exemple : amlioration du got de pizzas au moyen d'un additif
Une grande marque de pizzas surgeles souhaite amliorer la texture de la pte de ses
produits A cet effet, son laboratoire de recherche propose l'adjonction d'un additif. Afin de
tester l'efficacit de ce dernier, une analyse sensorielle est organise auprs d'un jury confirm
de 25 dgustateurs.
Chaque membre de ce jury doit noter la texture de deux pizzas dont l'une est classique et
l'autre "enrichie" de l'additif. Chaque dgustateur note, "en aveugle" la texture de la pte de
chaque pizza (chelle croissante de qualit de 0 10). L'organisateur de cette exprience
classe les rsultats obtenus :
Xi - note de texture octroye la pizza classique,
Xz = note de texture octroye la pizza avec additif,
et calcule D = X2 - Xi (il est important de "conserver" l'identit de l'individu). Les sries
de notes ne peuvent tre considres comme indpendantes.
Les rsultats obtenus sont indiqus sur le tableau 10.11.
N
dgustateur
1
2
3
4
5
6
7
8
9
10
11
12
13
X,
5
7
8
6
7
9
6
7
6
7
9
3
8
X2
6
7
9
6
7
8
7
8
6
6
8
5
8
D =X2-Xi
1
0
1
0
0
-1
1
1
0
-1
-1
2
0
N
dgustateur
14
15
16
17
18
19
20
21
22
23
24
25
X,
3
7
9
5
7
7
8
7
7
10
7
6
X2
5
8
9
7
7
8
7
9
6
9
7
8
D =X2-X,
2
1
0
2
0
1
-1
2
-1
-1
0
2
Tableau 10.12 Notes de texture octroyes avant et aprs l'adjonction d'additifs dans les pizzas.
186
Dans les rsultats observs, la note semble avoir t octroye avec une prcision d'une
unit. Il existe de nombreux systmes de notation. Nous assimilerons la note une mesure et
donc une variable continue. Aprs tude de cette distribution, la variable D est considre
comme gaussienne.
Question ; on veut savoir si l'additif amliore de manire significative la texture de la
pte pizza. Au moyen d'un test unilatral de niveau 5%, peut-on conclure que la pizza
enrichie de l'additif obtient une note moyenne de texture suprieure celle obtenue par la
pizza classique?
La finalit d'une analyse sensorielle de ce type est de commercialiser la pizza
"amliore". Mme s'il ne l'est pas rellement, le jury sera considr comme une chantillon
issu de la population de consommateurs potentiels, c'est d'ailleurs sa raison d'tre.
Population (sous-jacente)
- Xi ;X2 ;D = X - Xi
- E(Xi) = mi est la note moyenne obtenue par la pizza classique
- E(X2) = ma est la note moyenne obtenue par la pizza enrichie
- E(D) = m2 - mi = mo = moyenne de l'cart des notes entre les 2 types de
pizzas. C'est l'cart des notes moyennes)
- Var(D)=o! ,
- On considre que D > N(m^ , o-p )loi normale.
chantillon
- n =2 5
- D,
- D = -
L
-
1
est la variable alatoire, moyenne des carts observe dans un
n
chantillon de taille 25.
___
0
,-
0
) -
- VarD = -'- = (Tp est la variable alatoire estimateur de la variance
n-1
1 0.4.4.3. Dmarche statistique
On ralise le test
Ho : mi = m2 contre H]: ni 2> mi
c'est dire
Ho : niD = 0 contre Hi : mo > 0
(test unilatral)
Approche intuitive
On veut savoir si, d'une manire gnrale, on peut considrer qu'en moyenne, les carts
sont nuls ( mo = 0). On va estimer cette moyenne inconnue par la moyenne fournie par notre
chantillon ( nip = D ). On veut pouvoir apprcier, juger cette moyenne D . Est-ce que
cette valeur peut tre considre comme nulle, simple effet de l'chantillonnage ou est-ce
qu'elle dpasse un seuil au del duquel il est peu probable que le seul hasard puisse
intervenir ? Il est donc ncessaire de connatre la loi de probabilit de la moyenne
d'chantillon D.
187
Statistique du test et prise de dcision
Outil statistique :
Sous Ho, la variable T = -x- = suit la loi mathmatique T de Student v = (n-1)
^ ^
Vn
degrs de libert.
Le graphique visualisant la prise de dcision se prsente relativement T comme sur la
figure 10.12 du 10.4.1.3.
10.4.4.4. Ralisation pratique l'aide d'Excel
Sur la feuille Excel, on a nomm Xi et Xz les plages de valeurs prises par les deux
notations.
1re mthode : (de type manuel)
Pour calculer Tobserve, on dtermine les paramtres statistiques, moyenne et cart-type
estims de D l'aide des fonctions MOYENNE et ECARTYPE.
On trouve: d = 0 , 4 (T_ =
a
=
l08
- 0,216 et Tob8erve= -^
4
1,852
Vn 5 0,216
On dtermine ensuite Thorique = TU. (i-n) Pour cela, on appelle la fonction
LOI. STUDENT INVERSE(0,1 ;24).
Attention, le test tant unilatral, pour raliser un test de niveau 5%, on doit saisir
10%(0,1) dans la zone "Probabilit". En effet, la probabilit P donne est rpartie de
faon symtrique sur les queues de la distribution. Le rsultat fourni est la valeur
positive du Tlimite
On trouve : Tv ; i-a
=
24 ;o,95
=
1,71
Dcision
Tobserve
>
TU ; 0,95 On conclut au rejet de l'hypothse Ho, c'est dire l'acceptation de
Hi. Le test est significatif. Plus concrtement, on conclut que l'additif alimentaire augmente
significativement la note moyenne de texture de la pte pizza, le risque d'erreur associ
cette dcision tant au maximum de 5%.
2
e
mthode : calcul de la probabilit critique partir du Tobserve calcul prcdemment.
On applique la fonction LOI. STUDENT sur la valeur du Tobserve . Les arguments de la
fonction sont:
- X : 1,8516402 (on saisit en fait une rfrence de cellule)
- Degrs libert : 24
On obtient le rsultat 0,0382.
Ce rsultat est le risque que l'on prendrait en rejetant Ho alors qu'elle est bonne.
Concrtement, en concluant que l'additif augmente la note moyenne de texture de la pte
pizza, on prend un risque de 3,82%, infrieur au niveau 5%que l'on s'est fix. C'est donc cette
dcision qu'il faut prendre. Le test est significatif.
188
Densit de probabilit de la loi de Student
Probabilit
critique
(3.82%)
Tobserv
=
1 ,85
Figure 10.14 Probabilit critique (test unilatral).
3me mthode
C'est la plus rapide dans la mesure o elle peut tre envisage ds la saisie des deux
plages de notes.
On insre la fonction TEST.STUDENT (Xi;X2;l;l) dont le rsultat 0,03821 s'interprte
comme prcdemment.
4me mthode
On appelle l'utilitaire d'analyse "TEST D'GALIT DES ESPERANCES :
OBSERVATIONS PAIREES" et on renseigne la bote de dialogue.
R emarque : la zone intitule "Diffrence entre les moyennes (hypothse)" signifie
Ho = " mo =0". Saisir 0. Les rsultats suivants s'affichent :
Moyenne
Variance
Observations
Coefficient de corrlation de Pearson
Degr de libert
Statistique t
P(T<=t) unilatral
P(T<=t) bilatral
Variable 1
6,84
2,80677
25
0,76607
0
24
-1,8517
0,0382
1,7109
0,0764
2,0639
Variable 2
7,24
1,44
25
Signalons qu'il convient d'tre vigilant en ce qui concerne les titres. Au besoin, il peut
tre galement ncessaire de rajuster les signes comme nous l'indiquons dans ce qui suit.
Explications et remarques concernant ces rsultats
- la variance est gale la variance estime
- la diffrence hypothtique des moyennes est la diffrence des moyennes sous Ho
- degr de libert : n; - 1 (n = taille de l'chantillon)
- statistique t signifie Tobserv
( calcul fait partir de "moyenne variable 1 - moyenne variable 2" )
- P( T<t ) unilatral dsigne la probabilit critique unilatrale c'est dire
P ( T < Tobserv) si Tobserv (statistique t) est < 0
P ( T > Tobserv) si Tobserv (statistique t) est > 0
189
soit, en rsum P(T > |T^^|)
- valeur critique de t (unilatral) dsigne le Tithorique unilatral soit Tn-i ;a ou Tn-i .i-u
Attention, seule est affiche la valeur positive. Il est donc ncessaire de rajouter,
si besoin est, le signe adapt (celui de Tobserve, c'est dire de "statistique t"). Dans
le cas prsent, il faut rajouter le signe moins.
- P( T<t ) bilatral dsigne la probabilit critique associe au test bilatral soit, de
manire plus explicite P(T < - [ -T^|) + P(T > |T^|) -. 2 P(T > |T,,,^|)
- la valeur critique de t (bilatral) est la valeur positive de Tiheorique, soit Tn-i : i-o/2
Rappelons que l'intrt de cet utilitaire d'analyse est de fournir tous les rsultats, les
inconvnients tant, outre ceux que nous venons de signaler, l'absence d'interactivit,
l'impossibilit de "copier-coller formules" car ne sont affiches que les valeurs des rsultats et
non les formules. Or ces deux aspects sont les points forts d'EXCEL lorsque l'on a plusieurs
calculs faire ou lorsque l'on veut voir la sensibilit d'un rsultat. En fait, il faut choisir la
mthode en fonction de ses besoins.
10.4.5. chantillons apparis grands
Exemple : efficacit d'un aliment amincissant
Une socit d'agro-alimentaire souhaite diversifier sa production en lanant un
nouveau produit "PROLIGNE", substitut de repas riche en protines et vitamines, peu
calorique et donc susceptible d'avoir une influence sur le poids de son utilisateur. La clientle
cible est la population fminine franaise, italienne et espagnole concerne par ce problme.
Le service publicit de la firme veut donner une bonne image de fiabilit du produit et se
prmunir en plus contre tout risque d'accusation de publicit mensongre.
Dans ce double objectif, une tude statistique est ralise afin de prouver l'efficacit du
produit. Un chantillon de femmes volontaires prlev dans cette importante population
fminine volontaire s'est prt six jours sur sept pendant deux mois au remplacement
systmatique du djeuner par PROLIGNE. Les poids en kilos avant l'exprience (Pi) et aprs
(Pz) ont t nots et l'on a obtenu les rsultats reports sur le tableau 10.12.
n
P1
P2
D
1
50
48
2
2
52
47
5
3
55
52
3
4
57
57
0
5
59
55
4
6
62
61
1
7
64
61
3
8
65
65
0
9
66
67
-1
10
67
69
-2
11
69
70
-1
12
70
68
2
13
73
72
1
14
75
75
0
15
75
71
4
16
77
74
3
17
79
79
0
18
81
81
0
19
84
77
7
20
86
75
11
n
P1
P2
D
21
90
80
10
22
50
50
0
23
52
54
-2
24
61
60
1
25
63
64
-1
26
65
64
1
27
69
65
4
28
72
72
0
29
74
70
4
30
79
73
6
31
53
54
-1
32
49
52
-3
33
62
60
2
34
65
64
1
35
79
75
4
36
73
67
6
37
85
80
5
38
87
79
8
39
70
70
0
40
75
76
-1
n
P1
P2
D
41
83
83
0
42
86
84
2
43
71
70
1
44
56
55
1
45
54
54
0
46
58
59
-1
47
59
59
0
48
67
65
2
49
63
60
3
50
68
69
-1
51
73
69
4
52
78
75
3
53
51
51
0
54
50
49
1
55
55
55
0
56
64
65
-1
57
61
60
1
58
71
69
2
59
63
64
-1
60
54
54
0
Tableau 10.13 Poids observs avant et aprs la prise de PROLIGNE (en kg).
190
Dans ce tableau D est la diffrence Pi-P2.
Question : peut-on conclure l'effet significatif de PROLIGNE sur le poids ? Pour rpondre
cette question, raliser un test de comparaison de moyennes au niveau 1%
1 0.4.5.2. Notations et modle
Population 1, ensemble de la population nonce (avant l'exprience)
Population 2 (aprs l'exprience)
- Pi est la variable alatoire "poids avant"
- ?2 est la variable alatoire "poids aprs"
- D est la diffrence Pi - Pi
- E(Pi) = mi est le poids moyen avant
- E(Pz) = n-h est le poids moyen aprs
- E(D) = mi - n-b = mo = moyenne de l'cart des poids "avant - aprs"
c'est dire l'cart des poids moyens ou encore l'cart de poids moyen.
- Var (D) =CT^
2
.
Echantillon
- n =60
ZD,
D = - est la variable alatoire, moyenne des carts observe dans un
chantillon de taille 60
___ (D. -D)
2
= o-p
2
est la variable alatoire estimateur de la V a r D =.
variance.
n-1
On ralise le test
Ho :
c'est dire
mi =
Ho : trio =
ni2
= 0
contre
contre
(test unilatral)
H,
Hi :
: n i 2<mi
mo > 0
R emarque :
L'tude descriptive pralable des carts de poids observs P, ne permet pas de supposer
la normalit de D. Dans le rel, de tels exemples sont frquents. Il est alors important de
choisir un chantillon grand car on peut utiliser le test de Student considr dans ce cas
comme robuste par rapport la normalit. En effet, la variable alatoire D, cart moyen de
poids, suit approximativement l'hypothse de la loi normale (application du thorme central
191
limite). La variance tant inconnue, c'est la variance estime qui est utilise. Cela conduit
utiliser plutt la loi de Student.
10.4.5.4. Ralisation pratique au moyend'Excel
1re mthode
C'est la mthode la plus rapide. On utilise la fonction TEST. STUDENT unilatral pour
des chantillons apparis, on trouve une probabilit critique pc gale 1,13.10'
5
. Cette
probabilit tant trs infrieure au niveau de test choisi (1%), on rejette Ho et l'on accepte
donc Hi. Concrtement, on en dduit que les poids des populations cibles a diminu aprs la
prise du produit. Remarquons que la diminution de poids observe dans l'chantillon est de
1, 7kg.
2me mthode
Comme il a t indiqu dans le paragraphe prcdent, on peut utiliser le "Test d'galit
des esprances, observations paires" fourni par l'utilitaire d'analyse. On aboutit bien entendu
aux mmes conclusions
192
11. ANALYSE DE VARIANCEA UN FACTEUR
Exemple : comparaison de plusieurs varits de haricots verts
11.1. POSITIONDU PROBLME ET PRSENTATION DES DONNES
Une importante entreprise de conservation alimentaire ralise une tude conomique
relative la transformation des haricots verts. Une enqute de terrain est ralise pour tudier
l'influence ventuelle du facteur varital sur le diamtre des haricots ; ce dernier paramtre est
en effet un critre important puisqu'il permet de classer les haricots selon diverses catgories
(fins, extra-fins, etc).
On se limite quatre varits Vi, 2, V3 et V4 qui offrent une bonne rsistance aux
maladies et sont donc frquemment cultives dans la rgion tudie. On considre des
haricots issus de sols comparables et de techniques culturales proches.
On prlve des chantillons alatoires de chacune des varits et l'on observe les
rsultats indiqus sur le tableau 11.1 suivant. Sur Excel, les donnes doivent tre saisies selon
4 colonnes.
V,
V2
V3
v
' 4
88
9,8
6,8
3,0
5,2
61
6,0
71
8,2
3,5
7,0
6,3
68
9,0
37
5,0
5,5
3,5
5,3
66
8,0
45
5,3
6,2
7,8
6,4
86
6,0
83
3,7
6,0
4,0
5,4
69
5,0
9?
9,0
8,0
7,5
6,5
69
6,0
75
7,0
6,3
4,2
5,5
86
10
49
5,1
6,3
7,3
6,6
76
6,2
55
4,0
8,0
4,3
4,8
48
8,0
55
5,2
7,7
5,9
6,7
57
8,6
78
8,9
5,9
4,4
5,0
67
6,4
10
7,1
8,2
5,7
5,8
77
8,2
57
4,8
7,5
4,6
5,3
74
81
4,9
5,7
5,8
5,7
41
58
5,4
4,8
5,5
99
73
8,5
5,9
6,5
88
60
7,0
5,0
5,6
56
86
4,2
5,0
6,7
59
64
5,1
6,1
3,2
4,3
68
6,1
5,1
3,0
7,7
70
7,1
6,2
3,1
5,4
Tableau 11.1 Diamtre en mm de haricots verts issus de 4 varits.
Question : peut-on considrer qu'en moyenne les quatre varits ont le mme diamtre ?
Tester cette hypothse au niveau 1%.
Une tude pralable a permis d'accepter l'hypothse de la normalit ainsi que l'hypothse
de l'galit des variances des variables alatoires "diamtre des haricots verts" pour les quatre
varits.
11.2. NOTATIONS ET MODLE
Varit V;, avec ie{l,2,3,4}
Population Pi
- X; est la variable alatoire "diamtre"
- E(Xj) = m; est le diamtre thorique moyen
- Var Xi =o,
2
- X, -> N(m, , a, )
chantillon E,
- n; est la taille de l'chantillon, X,^ -> N(m,,o,) j = l,n,
- X, est la variable alatoire "diamtre moyen observ dans un tel chantillon"
- SCE, = SCEn est la variable alatoire "somme des carrs des carts la
moyenne", note "somme des carts rsiduels" dans l'chantillon i
' ^r^F
- o,
2
= S,
2
= '- est la variable alatoire, estimateur de la variance partir
n, -l
d'un tel chantillon (v; = n;-l )
- i e {1,2.3,4}.
Notations gnrales :
- k est le nombre de modalits du facteur tudi = nombre d'chantillons, ici 4
- Xij est la j" observation de l'chantillon i
- x- - x, est le rsidu j
- n = ni + na + n.i + n.)
- x est la moyenne gnrale observe sur l'ensemble des chantillons
_ 1 k-4 n, i k-4 __
"n^n"' ' -
(moyenne des moyennes d'chantillons pondres par leur taille)
- SCE,=^SCE
1^1
L'galit des variances des diamtres pour les 4 varits ayant t accepte, on peut
noter : oo
2
= oi
2
= G2
2
= 03
2
= a
2
. Par suite, pour la varit V;, on notera
X, -> . N( m, , Oo) ie{l,2,3,4}.
11.3. DMARCHE STATISTIQUE
On ralise le test :
Ho : mi
=
m2 ^lb = 1114
contre
H) : l'une au moins des 4 moyennes se diffrencie
La mthode est fonde sur la dcomposition des dispersions
11.3.1. quation de l'analyse de la variance
Dcomposons la dispersion totale (reunion des observations des k chantillons)
SCE, =^(^-x)
2
-l;i> , -x;+x^-x)
2
1-1 J . l 1-1 J--1
En dveloppant ce calcul, on trouve :
^.^^(^-^z^-^^^"^-
5
')
2
____________________i-l J-l______________-' j-1____________l_l_________-^___________________
194
Notons SCE|, =Vn , ( x, -x)
2
la somme des carrs des carts factoriel. C'est la
dispersion entre les moyennes d'chantillons repres par rapport la moyenne gnrale.
Finalement :
SCE,
Variabilit
totale
E: QUA
SCEr
Variabilit
rsiduelle
(INTRA-CI IANTILLONS)
TION DE L'ANALYSE DE
+
V f
SCEf,
Variabilit
factorielle
(INTER-CHANTILLONS)
\JRJANCE
Degrs de libert associs chacun des termes
- SCE, -> . ddl =n-l
- SCE, ^. d d l =^( n , -l ) =n -k
- SCEf . - . d d l =( n -l ) -( n -k) =k-l
Soit, en rsum
- Variabilit : SCEi = SCEr + SCEfa (quation de l'analyse de variance)
- ddl : n-1 = (n-k) + (k-1)
Variances interclasse et intraclasse :
SCE,,
- Variance interclasse ou Carr Moyen factoriel CMfa ou CM), =
k-1
SCE,
- Variance intraclasse ou Carr Moyen rsiduel CMr ou CM, =
n-k
11.3.2. Statistique du test et prise de dcision
CM
On tablit que, sous l'hypothse Ho, la statistique du Fobserv dfinie par F^^=
&
-
CM,
suit la loi mathmatique F de Fisher-Scedecor ( v\, v-i ) ddl avec vi ^k-1 et vi = n-k,
expressions dans lesquelles n est l'effectif total et k le nombre d'chantillons.
Dcision
Densit de la
loi de Fisher
RA RR
Fyl,v2 ; 1-a
Figure 11.1 Prise de dcision dans l'analyse de variance un facteur (RA, RR).
195
TABLEAU D ' ANALYSE DE VARIANCE
RECAPITULATIF DE LA METHODE
SOURCE DE
DISPERSION
TOTALE
FACTORIELLE
OU
INTERCLASSE
RESIDUELLE
OU
INTRACLASSE
SCE
SCE,
SCEh
SCE,
ddl
n-1
k-1
n-k
CARRES MOYENS
OU VARIANCES
^-CM
k-1
CMfa
^' -CM
n - k '
STATISTIQUE F
Observe
CM,.
CM, '"'
s
Thorique
Fvl ,v2 ; 1 -o
Possibilit de
dtermination
del
probabilit
critique pour la
prise de
dcision
Tableau 11.2 Composition du tableau d'analyse de variance.
11.4. MISE EN UVRE AU MOYEND'EXCEL
1re mthode : ralisation des calculs conduisant au tableau d'analyse de variance
Cette mthode, de type "manuel", mais cependant relativement rapide et trs prcise,
prsente deux avantages. Le premier est d'ordre pdagogique car en effectuant les tapes
successives du calcul on comprend facilement la mthode. Le second est d'ordre pratique.
D'une part il y a interactivit avec les donnes ; d'autre part il est possible de rutiliser la grille
de calculs pour d'autres applications.
L'organisation "gographique" de la feuille Excel ne prsente aucune difficult.
En pratique, cette tude de test par analyse de variance est, en gnral, prcde d'une
tude descriptive et suivie d'une tude des conditions de validit du test savoir la normalit
et l'homoscdasticit des populations.
Nous proposons deux blocs de calculs :
- 1er bloc : calcul des moyennes observes et calcul des lments statistiques
relatifs la composante rsiduelle
- 2
e
bloc : tableau de l'analyse de variance
Calcul relatifs an 1
er
bloc :
n,
ddl(r,)
SCEr,
Moyenne
Ecart-type
V,
8,8
7,1
3,7
etc.
Voir
21
20
53,81
6,88
1,64
V;
9,8
8,2
5,0
etc.
tableau des i
35
34
87,27
6,37
1,60
V3
3,0
7,0
3,5
etc.
onnes ci-de
42
41
60,47
5,41
1,21
V4
6,1
6,8
6,6
etc.
ssus
33
32
73,95
6,90
1,52
SOMMES
131
127
275,50
= n
=ddl,
=SCEr
196
R emarque : il peut tre intressant de prvoir des plages de donnes de taille
suprieure celle des effectifs rellement observs. En effet, Excel grant les
"manquants", la grille de calcul pourra tre rutilise pour des jeux de donnes
d'effectifs trs diffrents (on notera HL le nombre "limite" d'observations possibles,
avec n^ > sup n, ni, ). Si l'on adopte une telle tactique, il convient de bien
slectionner l'intgralit de la plage disponible (les HL observations) soit pour
effectuer un calcul direct, soit pour "nommer" les plages. On nomme V1234 la plage
de l'intgralit des donnes soit une matrice de HL lignes et 4 colonnes.
Sur le tableau ci-dessus, n, est fourni par la fonction NBVAL. ddl(ri) est gal n; - 1
(rfrences relatives). Quant SCEr;, sa valeur est donne par la fonction
SOMME.CARRES ECARTS.
2
e
bloc : tableau d'analyse de variance
SOURCE DE
DISPERSION
totale
factorielle
rsiduelle
SCE
328,08
52,58
275,50
ddl
130
3
127
CM
17,53
2,17
Fobserv
8,08
Probabilit
critique
5,73.10'
5
Fthorique 1%
F3.127. 0,99
3,94
Tableau 11.3 Rsultats numriques du tableau d'analyse de variance.
Droulement des tapes de calcul :
Calcul des SCE
- La SCE totale est le rsultat de la fonction SOMME.CARRES.ECARTS
applique l'ensemble des donnes observes (plage nomme V1234).
- Pour dterminer la SCE rsiduelle, on introduit le contenu de la cellule SCEr
calcul dans le 1" bloc, soit par un "copier-coller" soit par un signe "="
(rf. absolue).
- La SCE factorielle est la diffrence SCE totale - SCE rsiduelle (rf. relatives).
Calcul des ddl (associs aux diffrentes dispersions)
- Le ddl total est gal n - 1. On prend le contenu de la cellule "n" calcul dans
le 1re bloc (rf. absolues) et on finit le calcul.
- Le ddl rsiduel est le contenu de la cellule ddl (r) calcul dans le 1re bloc
(rf. absolues).
- Le ddl factoriel est gal ddl total - ddl rsiduel (rf. relatives).
Calculs des CM
-, < r . i i .
SCE
factorielle , .-. , . ,
- Le CM factonel est gal a (rf. relatives). 0
-iJi ^',^+^^^ '
ddl factoriel
SCE rsiduelle
Pour le CM rsiduel est le rapport On fait le calcul ou on
ddl rsiduel
utilise la poigne de recopie vers le bas partir du calcul prcdent
, , , CM factoriel
fobsovest gal a , ,
CM rsiduel
Pour la probabilit critique pc, on utilise la fonction LOI,F.
On trouve : pc= 5,73.10'''.
Pour Fvi,v2; i-a , on appelle la fonction INVERSE.LOI.F.
Avec a = 1%, on trouve F3.i27;o,9< = 3,94.
197
Dcision et interprtation des rsultats
Expression classique. Puisque Fobserv
>
F3,i27 ;o, , Fobserv appartient la rgion de
rejet, on rejette donc l'hypothse Ho au niveau 1%. Une au moins des varits se
distingue donc des autres.
Expression probabiliste. La probabilit critique est gale 5,73.10' . Lorsque Ho est
vraie, c'est dire lorsqu'il n'y a pas, en moyenne, de diffrence entre les 4 varits,
on a une probabilit de l'ordre de 6 pour 10 000 d'observer une valeur de F au moins
gale celle du Fobserv (8,08). Cet vnement est trs rare (probabilit trs infrieure
au niveau du test fix). On prfre remettre en cause Ho, c'est dire qu'on la rejette :
au moins une des varits se distingue des autres au niveau du diamtre moyen En
prenant cette dcision, on prend un risque (a ) gal la probabilit critique, infrieur
6 pour 10 000.
R emarque : l'examen des moyennes observes des 4 chantillons permet de mettre
en vidence la bonne performance de la varit 3 (petit diamtre par rapport aux
autres), ceci au seul niveau descriptif.
2
e
mthode : on utilise le module "Analyse de variance : 1 facteur" de l'utilitaire d'analyse.
C'est une mthode trs rapide et prcise. On renseigne trs facilement la bote de
dialogue. La "Plage d'entre" est VI 234. On "groupe" par colonnes et le "Seuil de
signification" est 0,01.
On retrouve aisment les rsultats prcdents ayant permis l'laboration du tableau
d'analyse de variance.
RAPPORT DTAILL
Groupes
VAR IETE 1
VAR IETE 2
VAR IETE 3
VAR IETE 4
Nombre
d'chantillons
21
35
42
33
Somme
144,5
223
227,16
227,8
Moyenne
6,88
6,37
5,41
6,90
Variance
2,69
2,57
1,47
2,31
ANALYSE DE VARIANCE
Source des
variations
Entre Groupes
A l'intrieur des
groupes
Total
Somme des
carrs
52,58
275,50
328,08
Degr de
libert
3
127,00
130
Moyenne des
carrs
17,53
2,17
F
8,08
Probabilit
5.7354E-05
Valeur critique
pour F
3,94
Certaines rubriques, moins classiques doivent tre prcises.
- Le nombre d'chantillons est la taille des chantillons
- la colonne somme signifie les sommes des valeurs observes (grandeur peu
exploitable dans un cadre d'tude trs gnral)
- la moyenne des carrs est le carr moyen
- F est la valeur de Fobserv
- la probabilit est la probabilit critique
- la valeur critique pour F est Fthorique
=
Fvi,v2 ;i-a
198
11.5. APPROFONDISSEMENT : COMPARAISON DES MOYENNES PAR
PAIRES
On peut dtailler le rsultat prcdent en comparant les varits deux deux au moyen
de la fonction TEST.STUDENT.
Les conditions de validit de l'analyse de variance conduisent au test de Student de type
2 (chantillons indpendants avec homoscdasticit).
R emarque : l'analyse de variance un facteur deux modalits (ici, par exemple,
deux varits) est quivalente au test de Student :
!
(,.n-2)='
T
^.-l)
l
a v e c n =n , +n ,
Les rsultats des tests de Student figurent sur le tableau ci-dessous.
VARIETE 1
VARIETE 2
VARIETE 3
VARIETE 4
VARIETE 1
25,85%
0,02%
96,00%
VARIETE 2
0,37%
16,57%
VARIETE 3
0,001%
VARIETE 4
Tableau 11.4 Rsultats des tests de Student (probabilits critiques) des varits prises 2 par 2.
Afin de limiter le temps de travail, il peut tre intressant de nommer simplement les
plages de donnes (par exemple Vi pour les ni observations relatives la varit 1, etc.).
Ensuite, partir d'un seul TEST.STUDENT, on utilise les poignes de recopie. Pour chacun
des tests, il suffit alors de rajuster les noms des plages dans la barre de formules.
R emarque : estimation de la variance commune aux k populations et niveaux des
tests
On ne peut dire nanmoins que le test par analyse de variance (niveau a) est quivalent
un ensemble de tests de comparaison de 2 moyennes (chacun de niveau a).
Tout d'abord, lorsque l'on ralise un test de comparaison de 2 moyennes mi et m; de
deux populations normales et de mmes variances, il faut se rappeler que l'estimation de la
variance commune aux 2 populations est la moyenne des variances estimes pondres par les
ddl.
Dans le contexte de l'analyse de variance, l'estimation de la variance commune aux k
populations concernes est la moyenne de toutes les variances estimes, pondres par les
ddl ; cette estimation est donc plus prcise ds que k > 2. En ralisant ces tests de faon
manuelle, on peut intgrer cette estimation de variance.
Ensuite, il est bon de comparer des niveaux de tests. Considrons l'ensemble des couples
de moyennes et a niveaux de test associs chaque couple. Il y a C^couples de moyennes.
Dans le test d'analyse de variance, l'hypothse H]est "au moins une des k moyennes se
distingue". On peut considrer cet vnement comme quivalent "au moins un des couples
de moyennes est compos de moyennes distinctes". La probabilit d'un tel vnement est
donc C^ a . Ainsi avec k = 4, on trouve 6 a..
En fait, il faudrait baisser le niveau de chaque test ou augmenter le niveau de confiance
de chaque diffrence de moyenne (m; - nij). Nous ne dtaillerons pas ce point : on pourra
consulter ce sujet un ouvrage classique de Statistique, par exemple l'ouvrage de
T. H. W onnacott et R. J. W onacott (1991).
199
Commentaire concret
En se limitant l'exploitation classique des tests de Student, on remarque que l encore
la varit Va se distingue des autres varits ; seules les probabilits critiques impliquant cette
varit sont infrieures au niveau 1%du test. La varit Vi ne se distingue pas de Vi et V4 .
Quant V;, elle ne se distingue pas de V4.
200
12. TESTS RELATIFS AUX PROPORTIONS
12.1. TEST DE CONFORMIT D'UNE PROPORTION AVEC UN GRAND
CHANTILLON
Exemple : efficacit d'un nouveau produit de traitements de vergers par rapport
celle d'un produit de rfrence.
Dans une rgion productrice de pommes, les vergers de pommiers d'une certaine varit
prsentent priodiquement une infestation des feuilles par une maladie M. Celle-ci apparat
indpendante des techniques culturales ainsi que de la qualit des sols. Elle n'altre pas les
fruits mais engendre des rductions de rendement non ngligeables.
Lorsqu'un verger est atteint, on le traite l' aide d'un produit classique PR (produit de
rfrence) sans effet nuisible sur l'environnement et gurissant en gnral 60%des arbres. Les
chercheurs essaient de mettre au point un produit nouveau PN prsentant les mmes atouts au
niveau environnemental mais d'efficacit suprieure. Les travaux en laboratoire tant achevs,
il convient de tester sur le terrain l'efficacit de ce produit.
Dans un verger infest, on slectionne, de faon alatoire, 88 pommiers atteints que l'on
traite l'aide du produit PN. Lorsque le temps d'action du traitement est coul, on observe les
rsultats. Il apparat qu'environ 75%des arbres sont guris.
Question : est-ce que le nouveau produit PN est plus efficace que l'ancien PR ? Tester cette
hypothse au niveau 5%.
Population : c'est l'ensemble des pommiers (varit tudie dans la rgion de
production tudie)
p est la proportion d'arbres guris aprs traitement
- p = po dans le cas de traitement par le produit rfrence PR
- po =60%.
chantillon :
- n est la taille de l'chantillon ici 88
- X est la variable alatoire "nombre d'arbres guris dans un tel chantillon".
X suit une loi binomiale de paramtres n et p : X > S*(n,p)
- Y est la variable alatoire, proportion de pommiers guris aprs traitement dans
un tel chantillon Yobserv = y = 75%.
II s'agit de raliser le test
Ho : la proportion de pommiers guris est identique avec les deux traitements
contre
Hi : la proportion de pommiers guris avec PN est suprieure celle des pommiers guris
avec PR
soit
Ho : p = po contre H, p > p o
Approche intuitive
Dans l'chantillon observ, on remarque une proportion de pommiers guris (75%)
suprieure la rfrence (60%). Est-ce que cet accroissement traduit une meilleure efficacit
du nouveau traitement ou est-ce attribuable au seul hasard de l'chantillonnage ?
En recherchant un seuil Yi qu'il est presque impossible de dpasser (faible probabilit)
du seul fait du hasard, on pourra rpondre la question. Dterminer la loi de probabilit de la
proportion de pommiers guris dans un tel chantillon avec le produit rfrence (PR)
permettra de trouver ce seuil.
Outil statistique
- E( Y ) = p
- VarY=P<
l
-P
)
n
- La taille de l'chantillon tant grande ( n > 30 ), on peut considrer que la
variable alatoire Y suit sensiblement la loi Normale .
Sous H,. Y-^Nr p^. f P
0 0
^)
thorique I ] -u
Figure 12.1 Prise de dcision pour un test unilatral de conformit d'une proportion (RA, RR).
12.1.4. Ralisation pratique au moyen d'Excel
II suffit de calculer les paramtres statistiques de la loi normale de Y.
On trouve:,?
0
-^-0,052.
V n
Yobserv
=
75/0.
1" mthode : dtermination de Ythorique = 1 -a (c'est le seuil Y] voqu dans l'approche
intuitive ci-dessus)
202
On utilise la fonction L0I.NORMALE.INVERSE . Pour a = 5%on trouve Yi^, = 69%.
La zone Y < 69%dfinit la rgion d'acception RA de Ho et 69%reprsente le seuil Y]
voqu dans l'approche intuitive.
Dcision
Yobserv
>
Ythorique On rejette donc l'hypothse Ho avec un risque d'au plus 5%. On
conclut que le nouveau traitement est plus efficace que le traitement classique.
R emarque: A =( Y|^- P( ) ) constitue "le seuil" pour l'accroissement de la
proportion de pommiers guris voqu dans l'approche intuitive (Yi-a tant le seuil
pour la proportion Y).
2
e
mthode : dtermination de la probabilit critique pc
Afin d'obtenir un rsultat plus prcis, on dtermine la probabilit critique, risque rel
pris en concluant la significativit du test p^ -- P( Y > Y^^) .
On appelle la fonction LOI.NORMALE et on trouve p^ = 0,203%. Par consquent nous
pouvons conclure avec un risque infrieur 0,204%que le nouveau traitement est plus
efficace que l'ancien.
3
e
mthode : utilisation du test du Khi-deux
La distribution du produit de rfrence PR est connue :
Guri son
Probabilit
Effectifs thoriques
oui
0,6
52,8
non
0,4
35,2
Tableau 1 2.1 Effectifs thoriques d'arbres guris et malades (PR).
Pour le nouveau produit PN, nous avons :
Gurison
Effectifs observs
oui
66
non
22
Tableau 12.2 Effectifs observs d'arbres guris et malades (PN).
En utilisant la fonction TESTKHIDEUX, on trouve 0.00407. En divisant ce rsultat par
deux, on obtient la probabilit critique (test unilatral), dj interprte au cours de la 2
e
mthode.
12.2. TEST DE COMPARAISONDE DEUX PROPORTIONS (GRANDS
CHANTILLONS)
Exemple : comparaison de deux taux de satisfaction concernant un produit
On ralise, auprs de matres fromagers franais, un sondage sur l'utilisation d'un certain
produit sanitaire appropri nomm FROMNET.
Un premier sondage sur 100 dtaillants rvle que 23 d'entre eux utilisent ce produit. Un
an aprs, on ralise un deuxime sondage sur 80 dtaillants issus de la mme population. Il
apparat que 32 d'entre eux utilisent le produit.
203
Questions
1. Peut-on conclure que le taux d'utilisation est le mme sur les deux annes
considres ? Pour rpondre cette question, raliser un test de comparaison des
proportions de dtaillants utilisant FROMNET au niveau 5%puis au niveau 2%.
2. On indique de plus qu'une grande campagne publicitaire de FROMNET a t
lance entre les deux sondages. Peut-on conclure que cette campagne a contribu
augmenter le taux d'utilisation du produit (niveau 1%)?
La population est l'ensemble des dtaillants matres fromagers
Population 1 (celle sur laquelle a t effectu le premier sondage)
- Ii est l'indicatrice de l'utilisation de FROMNET (variable de Bernoulli)
- E(Ii) = pi est la proportion (inconnue) d'utilisateurs du produit
- qi = 1-pi
chantillon 1
- La taille est ni, ici 100
- Xi est la variable alatoire "nombre d'utilisateurs de FROMNET dans un
chantillon de taille 100", X, = ^1,, X, -> g'(m,pi)
1^1
- y =
AL
est la variable alatoire "proportion d'utilisateurs observe dans un
"i
chantillon de taille 100"
23
- Yi observe =7]== 23%est la proportion observe dans cet chantillon.
Population 2 : (celle sur laquelle a t effectu le deuxime sondage) :
- 12 : indicatrice de l'utilisation de FROMNET
- E(l2) = p2 : proportion (inconnue) d'utilisateurs du produit
- q2 = l-p2
Echantillon 2
- ni = 80
- X2 est la variable alatoire "nombre d'utilisateurs de FROMNET dans un
chantillon de taille 80" , X; = ^L,, X; -> ^(n;> ,p2)
Y
- Y, = '- est la variable alatoire "proportion d'utilisateurs observe dans un
n,
chantillon de taille 80".
32
- Y2observe = v^ ==4 0%, proportion observe dans cet chantillon
oO
12.2.3. Dmarche statistique (1re question)
11 s'agit de raliser le test
Ho : pi = p2 contre Hi : pi ^p2
On ralise un test bilatral. Lors du rejet de Ho, on peut avoir p2 - pi > 0 et p2 - pi
<
0.
204
Statistique du test et prise de dcision :
D = 2 - Yi ( Dobserv = 40%- 23%= 17%)
Approche intuitive
On veut comparer les proportions pi et p2 d'utilisateurs de FROMNET dans ces
populations. Il est donc naturel de s'appuyer sur les proportions d'utilisateurs observes dans
les deux chantillons savoir respectivement 23%et 40%. Est-ce que l'cart absolu observ
(17%) peut tre considr comme suffisamment petit pour tre d au hasard de
l'chantillonnage ou bien est-il suffisamment grand, dpassant un "seuil" au-del duquel il est
"presque" impossible qu'il soit d au hasard. Pour dterminer ce seuil, il est ncessaire
d'obtenir la loi de probabilit de D, dans le cas o il n'y aurait eu aucune volution du taux
d'utilisation du produit.
Paramtres statistiques de D
E( D) =p2-pi . Sous Ho, E(D)=0.
. Va r D=
p
l
q
' -+
p 2 q 2
-
n, n^
Quand l'hypothse Ho est vraie, pi est gale p2 . On note p leur valeur commune et
q = 1 - p .
VarD =pqf -' -+-! -I VarD = p qf ^-+-
1
-)
l"l "2J l"l "2J
, " 23+32 nombre total d'utilisateurs
On estime p au moyen de p = = .
100+80 effectif total
Plus gnralement :
Loi de probabilit de D sous Ho
Les chantillons tant grands, on peut appliquer le thorme central limite chacune des
variables alatoires Yi et Yz. Par suite, leur diffrence D aussi suit approximativement la loi
Normale :
D as N(E(D),Gp ) (chantillons grands)
D N(E(D) , G, ;)
Sous Ho: D a <N( 0 , p
^
1
"2
)
n,y, +n^y3
"i "^^
La dcision est :
Si |D^,erv| ^DI a /2 o" rejette l'hypothseHo. Le test est significatif.
Si [Doi,,en,e| < D, ^^ o" accepte Ho. Le test n'est pas significatif.
205
D a /2
-*^-
0 Dl - a/ 2
""""
RA
RR
Figure 12.2 Prise de dcision pour un test bilatral de comparaison de deux proportions (RA, RR).
12.2.4. Ralisation pratique au moyen d'Excel et interprtation
On calcule p et Op l'aide du clavier
^=
2 3 + 3 2
= 3 0 . 5 6 %
1 0 0 +8 0
Vai~D = (0,3056)(1 -0,3056)(-!-+-^-)=0,00477...
100 80
(TU =^VarD =0,069
Sous Ho, D-> N(0,0,069)
1"' mthode : on dtermine le "seuil" Di-n/2 par une mthode de type manuel.
On utilise la fonction LOI.NORMALE.INVERSE(0,975;0;0,069...). Le rsultat est
Do,975= 13,54%.
Dcision
Puisque Dobserv (17%) est suprieur Do,9?5, on rejette l'hypothse Ho. Le test est
significatif et on conclut que le taux d'utilisation de FROMNET a chang d'une anne
l'autre un risque maximal de 5%.
Au niveau 1%, le calcul est identique : on peut faire un "copier-coller". Dans la barre
de formule, on remplace la probabilit prcdente de 0,975 par 0,995.
On trouve Do.995 = 17,798 %et l'on en dduit qu'au niveau 1%, il n'est pas possible de
conclure la diffrence des taux d'utilisation du produit sur les deux annes.
2
e
mthode : on calcule la probabilit critique pc.
206
p, =P(D> |Dobserv|)+P(D<-|Dobserv|)= 2P(D<-|Dobserv|)
avec P(D<-Dobserv)=F(-Dobserv) o F est la fonction de rpartition de la loi Normale.
Le rsultat de la fonction LOI.NORMALE(0,17;0;0,069...; VRAI) tant 0,69%, on en
dduit que pc = 1,39%. C'est le risque que l'on prendrait en rejetant Ho (vrai risque a). On
rejette Ho si cette probabilit critique est infrieure au niveau de test donn.
Cette deuxime mthode est beaucoup plus prcise que la premire.
On retrouve les rsultats prcdents :
Au niveau 5%, on rejette Ho . On conclut la diffrence des taux d'utilisation sur les
deux annes au risque 1,39%.
Au niveau 1%, on ne peut conclure.
> R emarque
D'un point de vue concret, ce test bilatral de comparaison de deux proportions est
quivalent un test d'homognit par le Khi-deux
On construit le tableau de contingence rpartissant les effectifs des sondages selon
l'anne et le critre d'utilisation. Rappelons qu'il suffit de dterminer les effectifs thoriques et
d'appeler la fonction TEST.KHIDEUX.
Ho : homognit des annes contre Hi : non homognit des annes.
effectifs observs
0,
ANNEE 1
ANNEE 2
totaux
UTILISATEUR
23
32
55
NON UTILISATEUR
77
48
125
totaux
100
80
180
effectifs thoriques
C,
ANNEE 1
ANNEE 2
totaux
UTILISATEUR
30,56
24,44
55
NON UTILISATEUR
69,44
55,56
125
totaux
100
80
180
Tableau 12.3 Effectifs observs et thoriques du nombre d'utilisateurs
et de non utilisateurs selon l'anne.
TEST KfflDEUX : probabilit critique = 0,014.
On retrouve le mme rsultat pour la probabilit critique. On prend 1,39%de risque en
concluant la diffrence des deux annes. Le test est significatif au niveau 5% et non
significatif au niveau 1%.
12.2.5. Dmarche statistique, rsultat et interprtation (2
e
question)
Hypothses
Ho : pi - p2 contre Hi : pi > pi (ou p2 - pi
>
0 )
Les dveloppements prcdemment effectus restent valables. Le changement se fera
uniquement au niveau de la prise de dcision.
207
Dcision
Densit de la loi normale
D = Y2 - Yi
RA RR
Figure 12.3 Prise de dcision pour un test unilatral de comparaison de deux proportion (RA, RR).
La rgion de rejet RR correspond la "queue" positive de la distribution D ^Y^-Y) > 0.
1" mthode
On dtermine le "seuil" Di.a par le procd indiqu lors de la 1" faon de la
question 1. Il suffit d'ailleurs de "copier-coller" les rsultats de la question 1 et de changer la
probabilit dans la barre de formule ; on trouve :
Au niveau 5%, Di-a vaut 11 %et au niveau 1%il est gal 16 %. Comme Dobserv est
gal 17%, le test est significatif ces deux niveaux. Le taux d'utilisation de FROMNET a
augment au bout d'un an, le risque tant infrieur 1%.
2
e
mthode
C'est la mthode la plus simple et la plus prcise pour rpondre la question. Il suffit de
calculer la probabilit critique p^ =P(D> D^, ^^) .
Le rsultat, dj calcul pour la premire question est :
p, =P(D> D^^) =0, 69%
On prend donc seulement un risque de 0,69%en rejetant l'hypothse Ho (ou encore en
acceptant Hi ) c'est dire en dcidant que le taux d'utilisation du produit a augment. Le test
est donc significatif, mme au niveau 1%.
R emarque
Lors d'tudes concrtes appropries, le test unilatral de comparaison de deux
proportions est souvent trs intressant car, lors du rejet de Ho, la dcision est videmment
plus riche. On peut noter que pour avoir le rsultat numrique de la probabilit critique d'un
tel test, on peut raliser "TEST.KHIDEUX" et diviser le rsultat par deux. Ce procd n'a
d'intrt que numrique car il ne permet pas d'exposer clairement la dmarche statistique du
test unilatral. De plus, on ne peut mettre en vidence les seuils Di-a (soit 11%au risque 5%
et 16%au risque 1%) qui permettent concrtement de positionner immdiatement l'volution
rellement observe.
208
13. REGRESSION LINEAIRE MULTIPLE
Exemple : prdiction de la qualit des armes d'un vin du Sud-ouest
13.1. PRSENTATION DES DONNES ET POSITIONDU PROBLME
Des chargs d'tude d'un institut technique cherchent prdire la qualit des armes
d'un vin du Sud-Ouest issu d'un certain terroir partir d'analyses physico-chimiques du mot
de la vendange. Dans cette tude, ils slectionnent les critres suivants :
- le PH qui mesure l'acidit du mot obtenu
- la concentration en acide malique (exprim en g/l). Cet acide organique fragile
est un indicateur de la fermentation malo-lactique
- la concentration en acide tartrique (exprim en g/l). Cet acide organique est le
plus fort du raisin ; stable, peu dgrad, sa concentration est un indicateur de la
stabilit du vin conditionnant la qualit de vieillissement
- la concentration en ions Potassium K^ (exprim en g/l). Le potassium
reprsente une part importante des matires minrales du mot et sa
concentration diminue au cours de la fermentation.
33 chantillons de vins ont t prlevs de faon alatoire et analyss en laboratoire et
valus d'un point de vue gustatif. La qualit des armes, sujet de cette tude, a t note sur
une chelle de 0 10 (chelle croissante de qualit). Les rsultats sont reports sur le tableau
suivant.
Acide
tartrique
6,29
5,52
7,42
7,2
7,1
7,2
6,3
6,2
6,31
6,3
6,28
6,3
5,52
5,5
5,5
7,5
7,3
Acide
malique
9,6
6,5
4,5
5
5,2
5,1
9,5
10
9,6
10,2
10,4
10,3
6,5
6,7
6,6
4,3
4,7
K+
1,2
1
1,2
1,1
,3
,2
,2
,4
,3
,4
,6
,5
1
1,3
1,1
1,1
1,5
PH
3,1
3,9
2,9
2,7
2,9
2,8
3
3,2
3,1
3,1
3,3
3,2
3,9
3,1
3
2,8
3
QUALITE
DES
AROMES
3,5
1
1
1,5
2,5
3
5
6
5,5
6
7
7
2
4,5
3,5
3
4
Acide
tartrique
7,4
6,3
6,32
6,28
7,28
7,1
7,15
6,2
6,1
6,15
6,1
6,1
6,15
6,22
6,18
6,7
Acide
malique
4,5
7,8
8,2
8
10,4
10,8
10,5
8
8,4
8,2
6
6,4
6,2
6,8
6,6
10,1
K+
1,2
1
1,3
1,1
1,4
1,7
1,5
1,2
1,5
1,3
1,1
1,4
1,2
1,3
0,7
1,6
PH
2,9
2,7
3
2,8
3,1
3,4
3,2
3
3,2
3,1
2,8
3,2
2,9
3,1
3
3,1
QUALITE
DES
AROMES
3,5
4,5
6
5,5
8
8,5
8
5,5
7
6,5
5
6
6
6,5
4,5
9
Tableau 13.1 Concentration en acides tartrique et malique, ions K\ valeur du PH et note de qualit
des armes notes pour 33 observations.
Questions
- Au moyen d'une rgression linaire multiple, dterminer un modle permettant
de prdire la qualit des armes partir des 4 critres d'analyse physico-
chimiques retenus.
- Prdire ensuite la qualit des armes des 5 observations notes sur la tableau
13.2 suivant.
Observations
1
2
3
4
5
Acide
tartrique
7,3
6,3
5,6
6,2
6,9
Acide
malique
5,2
9,5
6,7
7,7
8
K+
1
1,2
1,4
1,1
1,4
PH
2,6
3,2
3,3
2,8
2,9
Tableau 13.2 chantillon test.
13.2. NOTATIONS ET MODLE
Notations
La variable alatoire expliquer (dite encore variable dpendante) est Y, qualit des
armes.
Les variables explicatives (dites aussi variables indpendantes ou encore prdicteurs)
sont :
- Xi teneur en acide tartrique
- Xz teneur en acide malique
- X3 teneur en ions K^
- X4PH.
Le nombre d'observations est n = 33 et le nombre de variables explicatives est p = 4.
Modle
Avant de rechercher le modle, il est indispensable de raliser une analyse descriptive
bidimensionnelle entre Y et chacune des variables explicatives X; (coefficients de corrlation
et nuages de points).
D'une manire gnrale, on recherche s'il existe des coefficients p, (i e {0,1,2,3,4})
tels que l'on puisse modliser Y sous la forme :
Y = P + P,X, + P^X, + ^\^+ P4X, + E o E dsigne l'erreur alatoire, ou rsidu.
Cette quation s'crit galement sous la forme:
<=>
f ^l
Y2
<y.
=Po
m
i
.i-
+P,
f ^' t
î
^nl.
+P,
l X ^
"12
X22
.^2,
+P,
/ \
^
^13
^n.
+P<
f ^t
X24
^^
+
f ^t
62
^n.
R emarque : dans le modle de rgression linaire, les variables explicatives peuvent
tre contrles (non alatoires comme par exemple des doses de fumure) ou bien
alatoires. Dans ce dernier cas, le modle est utilis conditionnellement aux valeurs
observes pour les variables explicatives. Pour plus de dtails, on pourra consulter
l'ouvrage "L'analyse des donnes" de T. Foucart (1997).
partir des donnes observes, on recherche des estimateurs b; des coefficients pj
permettant de reconstituer "au mieux" Y.
210
L'estimateur de Y s'exprime de la faon suivante :
( ^\
Yi
y;
\y n }
-bo
f ^
1
.L
+b,
f x ')
"11
X
21
^nl .
+b;
/ y ^
12
X,,
. Xn 2 .
+b,
I ^X ^
'13
Xy
^ns y
+b,
f ^t
X^
^m.
Y =b,, +b,X, +bJ, +b,X3 +b.,X,
e,
On note e, - y, - y, ; e =
On recherche les coefficients b; minimisant la somme ê,
2
=^(y, -y, )
2
.
L'optimisation de cette somme dfinit le critre des moindres carrs. La rsolution
mathmatique de cette optimisation fournit les coefficients b;.
En statistique, dans le but de fiabiliser leur utilisation, on souhaite que les estimateurs
soient sans biais et convergents. Ici les coefficients b; sont des estimateurs sans biais
condition que E(e) moyenne des erreurs soit nulle. De plus, les estimateurs sont convergents
si les rsidus sont indpendants et de mme variance.
13.3. DMARCHE STATISTIQUE ASSOCIE AU MODLE
On mesure l'indice de qualit de la rgression globale par le coefficient de
dtermination. Expliquons son origine.
Les notations sont les suivantes :
- SCEt est la somme des carrs des carts la moyenne de la variable expliquer
Y, dite variabilit ou variation de Y
- SCEm est la somme des produits des carts la moyenne (SPE) de Y et Y, dite
variabilit explique par le modle rgression
- SCEr est la somme des carrs des carts rsiduelle.
Dcomposons la variabilit totale et notons les degrs de libert associs :
SCEi
Variabilit
totale de Y
SCEn,
Variabilit
explique par le modle
+
SCEr
Variabilit
rsiduelle
aoi - p
EQUATION DE L'ANALYSE DE VARIANCE
211
On obtient le tableau d'analyse de variance 13.3.
Source de
dispersion
totale
explique par le
modle rgression
rsiduelle
SCE
SCE,
SCEn,
SCEr
ddl
n-1
P
n-l-p
Carrs moyens
ou variances
CM -
Sm
'-'"m
P
CM -
SCEr
n-p-1
Tableau 13.3 Tableau d'analyse de variance de la rgression linaire multiple.
Le coefficient de dtermination est la proportion de variabilit explique par le modle
rgression, note R
2
:
Variabilit explique par le modle _ SCE^
Variabilit totale de Y SCE,
R
2
est le carr du coefficient de corrlation R entre Y et Y
R est aussi appel coefficient de corrlation multiple.
Cov(Y,Y)
Y "y
13.3.1. Approche probabiliste de la rgression
La ralisation de divers tests de signification de la rgression suppose la normalit des
rsidus.
1 3.3.1 .1 . Test de la rgression globale
Est-ce que le modle a un sens ?
Ho
H,
P = Pi =? 2 =P =p4 = 0
contre
3 P, ^0, i e {0,1,2,3,4}
CM
Sous Ho, la statistique
SL
suit la loi de Fisher-Snedecor (vi.v;) degrs de libert,
CM,
avec vi = p et Va = n - p - 1
13.3.1.2. Test de chaque coefficient
Est-ce chacun des critres explicatifs contribue de manire significative expliquer la
qualit des armes ? ___________________________
Ho : Pi = 0 contre Hi : p, ^0
Sous l'hypothse Ho, la statistique o du dsignant l'cart-type de b; suit la loi de
b, '
Student n - p - 1 ddl.
212
R emarque : les contraintes relatives aux rsidus sont les suivantes :
- esprance nulle
- mme variance
- indpendance
- distribution normale.
13.4. MISE EN UVRE AU MOYEN DE L'UTILITAIRED'ANALYSE
D'EXCEL
Comme indiqu dans l'introduction du paragraphe "Modle", il est essentiel de raliser
au pralable une tude descriptive. Nous proposons de calculer les corrlations, les graphiques
de nuages de points figurant dans les rsultats de la rgression linaire.
Les corrlations peuvent tre obtenues par
exemple par "l'analyse de corrlation" fournie par
l'utilitaire d'analyse d'Excel. On peut aussi utiliser
la fonction COEFFICIENT CORRELATION pour
chaque couple de variables (tableau 13.4).
X,
X s
X s
X,
Y
X,
1
-0,20
0,26
-0,45
-0,02
X2
1
0,54
0,32
0,76
X3
1
0,17
0,67
X<
1
0,05
Y
1
Dans la zone "Plage d'entre" de cette bote
de dialogue, on saisit la plage contenant le tableau
des donnes.
Nous remarquons la forte corrlation de Y
(qualit des armes) avec Xz (concentration en Tableau 1 3.4 Matrice de corrlation
acide malique) et X3 (concentration en ions K
4
). gê tous les critres.
13.4.1. Mise en uvre de la rgression linaire
Dans l'utilitaire d'analyse, slectionner le module "Rgression linaire". Les paramtres
saisir dans la bote de dialogue sont :
- pour la plage pour la variable Y on slectionne la plage correspondante avec ou
sans titre ("Intitul prsent" coch ou non)
- pour la plage pour les variables Xi on slectionne la matrice des variables
explicatives avec ou sans titre selon la prsence ou l'absence des intituls.
X,
6,29
5,52
6,18
6,7
X2
9,6
6,5
6,6
10,1
X3
1,2
1
0,7
1,6
X4
3,1
3,9
3
3,1
3,5
4,5
- Niveau de confiance. Par dfaut, c'est le niveau de confiance classique de 95%
qui est propos. Pour tout autre choix, cocher l'option et saisir le niveau choisi.
- En ce qui concerne les options de sortie, nous retenons tous les rsultats
proposs pour l'analyse des rsidus et nous ne retenons pas "Probabilit
normale" car elle n'est pas propose pour les rsidus.
A la validation de la bote de dialogue, un ensemble de rsultats est affich sous la
dnomination "Rapport dtaill".
213
13.4.2. Interprtation des rsultats du "rapport dtaill"
Les tableaux encadres sont affichs par l'utilitaire d'analyse sans modification ni
complment. Comme nous l'avons fait lors des utilisations prcdentes de ce module et pour
faciliter le travail du lecteur, nous prfrons indiquer les rectifications ou complments divers
lors du commentaire des rsultats
Constante
X1
X2
X3
X4
Coefficients
4,832
-0,530
0,572
4,575
-2,129
Erreur-type
4,580
0,454
0,131
1,365
0,929
Statistique t
1,055
-1,166
4,383
3,351
-2,293
Probabilit
0,300
0,253
0,00015
0,002
0,030
Limite infrieure
pour seuil de
confiance = 95%
-4,550
-1,460
0,305
1,778
-4,032
Limite suprieure
pour seuil de
confiance = 95%
14,213
0,401
0,840
7,372
-0,227
Tableau 13.5 Coefficients des variables explicatives et statistiques associes.
13.4.2.1. Modle
Le modle apparat dans la colonne "Coefficients".
Y = 4 , 832-0, 53 X, + 0,572 X; + 4.575X, 2,129X4
t
PH
t t t t
Acide Acide
Qualit des ^rique malique
armes estime
Interprtons un coefficient par exemple celui de Xi gal -0,53. . Si la teneur en acide
tartrique augmente d'une unit, la note de qualit des armes diminue de 0,53, les autres
critres sont fixs. L'interprtation est similaire pour les autres coefficients.
13.4.2.2. Indices de qualit
Ces indices apparaissent dans la rubrique "Statistique de la rgression" :
Statistiques de la rgression
Coefficient de dtermination multiple
Coefficient de dtermination R"2
Coefficient de dtermination R"2
Erreur-type
Observations
0,851
0,725
0,685
1,192
33
Tableau 1 3.6 Statistiques de la rgression.
Le "coefficient de dtermination multiple" est, en fait, le coefficient de corrlation
multiple, c'est dire le coefficient de corrlation entre Y et son estimation Y. Dans cet
exemple, la valeur 0,85 montre une bonne corrlation.
Le "coefficient de dtermination" R
2
(0,725) est le pourcentage de variabilit expliqu
SCE,
SCE.
par le modle = 72,5%. Cela veut dire que 72,5%de la variabilit de la qualit des
armes est explique par le modle de rgression trouv. Le modle est donc de bonne
qualit.
214
Ce coefficient de dtermination est un indicateur de qualit trs utilis. Il faut noter que
certains utilisateurs peuvent cependant conserver des modles de rgression pourvus de
coefficients de dtermination relativement faibles, disons infrieurs 50%, lorsque ces
modles sont significatifs (la significativit sera tudie par les tests). Seule, une connaissance
approfondie des donnes modlises peuvent autoriser de telles pratiques.
Le deuxime coefficient de dtermination encore appel R (0,685) est en fait le
coefficient de dtermination ajust. Il traduit le pourcentage de variance
VarY - Var rsiduelle
VarY
SCE SCE
expliqu par le modle rgression ( Var Y =
!
- ; Var rsiduelle = CM_ = '-
- ddl. ' ddl,
Cet indicateur de qualit, voisin du prcdent, est parfois prfr par certains utilisateurs
car "corrig" par les degrs de libert.
Dans cette rubrique "Statistiques de la rgression" du rapport figurent galement 1' cart-
type rsiduel sous la dnomination "erreur-type" (1,192) ainsi que le nombre
d'observations (33).
13.4.2.3. Approche probabiliste
Analyse de variance
Commentons et interprtons le tableau de l'analyse de variance du rapport.
ANALYSE DE VARIANCE
Rgression
Rsidus
Total
Degr de
libert
4
28
32
Somme des
carrs
104,675
39,795
144,470
Moyenne
des carrs
26,169
1,421
F
18,412
Valeur
critique de
F(*)
1.61E-07
Tableau 1 3.7 Rsultats de l'analyse de variance de la rgression linaire multiple.
(*) : attention, il faut traduire cet intitul par "Probabilit critique" (voir ci-dessous)
La 1" colonne est l'origine de la dispersion :
Variabilit explique par la rgression + variabilit rsiduelle = variabilit totale
La 2
e
colonne indique les degrs de libert. Le degr de libert relatif Total est gal
n - 1 soit ici 32. Le degr de libert relatif Rgression est gal au nombre p de variables
explicatives soit ici 4. Enfin, le degr de libert associ aux rsidus est la diffrence des deux
prcdents soit i c i n - l - p = 3 3 - l - 4 = 28.
La 3
e
colonne est intitule "Somme des carrs". La valeur relative "Total" (144,47) est
la dispersion SCE de Y variable expliquer note SCE( dans l'quation d'analyse de variance.
La valeur relative "Rgression" (104,675) indique la dispersion explique par le modle. Il
s'agit de SPE - somme des produits des carts la moyenne de Y et de son estimation Y
note SCEm dans l'quation d'analyse de variance.
La 4
e
colonne, intitule "moyenne des carrs" indique les variances ou carrs moyens.
Ce sont les rapport des dispersions "Somme des carrs" par les degrs de libert. Ainsi, la
valeur relative "Rgression" (26,169) est la variance explique par le modle "Rgression"
note prcdemment CMm. La valeur relative "Rsidus" (1,421) est la variance due au
rsidu que nous avons not prcdemment CMr.
Les 5
e
et 6
e
colonnes participent au test de la significativit de la rgression globale
prcdemment expliqu dans l'tude statistique : Ho : po = Pi = ?2
=
p3 = p4 = 0.
215
La cinquime colonne "F" (18,412) est la statistique de Fisher-Snedecor associe au test
prcdent et calcul partir du tableau d'analyse de variance :
_ Variance due au modle CM_ , , . _ ,
F =
w~^Tn
=
7^
(valeur du Fob8iirv )
Vanance rsiduelle CM,
En ce qui concerne la colonne 6 "Valeur critique Y
1
", il convient de faire attention : il
s'agit de la probabilit critique. L'utilitaire contient ici une regrettable erreur de traduction.
Pour le vrifier, il suffit d'appliquer la fonction LOI.F sur la valeur du Fobserv prcdente.
La probabilit critique 1,6.10'
7
est la probabilit d'observer une valeur de F au moins
gale celle du Fobserv lorsque Ho est vraie. C'est encore le risque que l'on prendrait en
concluant que, globalement, la rgression a un sens alors qu'elle n'en a pas. Ce risque tant
infime, nous concluons que, globalement, le modle rgression que nous avons dtermin a
un sens.
13.4.2.4. Commentaire et interprtation du tableau relatif aux variables
explicatives X,
Reprenons le tableau 13.5. Nous avons vu ci-dessus que ce tableau fournit dans sa 1"
colonne le modle recherch. Le reste du tableau permet de tester la pertinence de la prsence
de chacun des critres au sein du modle :
La 2
e
colonne "Erreur-type" est l'cart-type de chacun des coefficients.
Les colonnes "Statistique t" et "Probabilit" fournissent les calculs associs aux tests de
significativit de chacun des coefficients comme il a t expliqu dans l'tude statistique.
Interprtons par exemple la pertinence d'un critre. Est-ce que Xa contribue expliquer de
manire significative la qualit des armes ? Le test associ est
|Hp : p3 = 0 contre H, : p3 ^0|
Dans la colonne "Statistique t", 3,351 est la valeur observe de la statistique T de
-, , Coefficient 4,575
Student : = .
Erreur type 1,365
Rappelons que sous Ho, la statistique T suit la loi de Student n-p-1 ddl soit ici 33-3-1=28 .
La probabilit 0,002 est la valeur de la probabilit critique associe au test de Student
bilatral mis ci-dessus, c'est dire :
P(T<-[Statistique t |)+P(T> |Statistique t|)
C'est le risque que l'on prendrait en rejetant Ho, c'est dire en concluant que le critre
"teneur en ions K^" contribue de manire significative expliquer la qualit des armes. Si
l'on dcide de raisonner un niveau classique de test (5%), la probabilit critique affiche de
0,2%permet de conclure l'impact significatif de la teneur en ions K
4
. En rsum, en
prsence des autres critres explicatifs, la teneur en ions K^contribue de manire significative
l'explication de la qualit des armes au risque 2%o Rappelons l'interprtation de la valeur
du coefficient : en prsence des autres critres explicatifs, si la teneur en ions K^ augmente
d'un dixime d'unit, la note de qualit des armes augmente de 4,57.
Significativit des autre critres explicatifs
En se donnant comme prcdemment un niveau de test classique 5%, l'examen des
valeurs de la colonne "Probabilit" permet de conclure que les critres "acide malique" (Xa) et
"PH" (Xi) expliquent de manire significative la qualit des armes. Si la concentration en
acide malique augmente d'une unit, la note de qualit augmente de 0,572. Si le PH augmente
de 1, les autres critres tant fixs, la note diminue de 2,129. L'augmentation de l'acidit
(baisse du PH) a tendance renforcer la qualit des armes.
216
En rsum, except l'acide tartrique, tous les critres retenus contribuent de manire
significative l'explication de la qualit des armes. Pour autant, on ne doit pas enlever du
modle les critres non significatifs (ici la teneur en acide tartrique). En effet, le nouveau
modle obtenu partir des seuls trois autres critres aura un coefficient de dtermination R
2
infrieur au modle prcdent 4 critres. Il est prudent d'valuer cette baisse. Par ailleurs, il
est aussi vrai que, pour des raisons de simplification du modle, et ...de baisse de cots
d'analyses physico-chimiques, on peut tre conduit simplifier les modles.
Les colonnes "Limites infrieure et suprieure pour un seuil de confiance de 95%"
fournissent l'intervalle de confiance associ chacun des coefficients.
13.4.2.5. Analyse des rsidus
ANALYSE DES RSIDUS
Observaffon
1
2
3
4
5
6
7
8
P rvisions Y
5,886
1,900
2,793
3,164
3,821
3,466
6,036
6,864
Rsidus
-2,386
-0,900
-1,793
-1,664
-1,321
-0,466
-1,036
-0,864
Rsidus normaliss
-2,139
-0,807
-1,608
-1,493
-1,185
-0,418
-0,929
-0,775
Tableau 13.8 Valeurs prdites pour Y (qualit des armes), valeurs des rsidus
et des rsidus centres rduits.
-La 1re colonne indique le n d'ordre de l'observation
-la colonne "Prvisions Y" donne les valeurs de Y, valeur de Y estimes par le modle
-la colonne "Rsidus" fournit l'erreur commise lorsqu'on remplace la vraie valeur y, par
son estimation y, : Rsidu = Y - Y . Remarquons que l'on peut vrifier la nullit de
la moyenne des rsidus
-la colonne "Rsidus normaliss" indique les rsidus centre-rduits, rappelons que les
rsidus doivent tre normalement distribus. Si, l'examen, certains d'entre eux se
distinguent par leur importance (valeur absolue suprieure 2,6), on peut d'une part
craindre de forts carts la normalit et d'autre part, pointer des observations
marginales, voire aberrantes. Si la normalit est relativement acceptable, le
pourcentage des rsidus suprieurs 2 en valeur absolue ne devrait pas dpasser 5%.
On peut aussi raliser une analyse descriptive de ces rsidus normaliss (notamment
un histogramme) et, selon l'apparence de ce dernier, faire un test de normalit. Nous
proposons sur la figure 13.1 un histogramme de rsidu normalis, obtenu avec un
choix de classe bien adapt une loi N(0,1).
217
Distribution des rsidus
c/ asses
-2
-1
0
1
2
et plus
frquences
1
4
11
11
5
1
Tableau 13.9 Distribution des
frquences des rsidus
Figure 13.1 Histogramme des rsidus.
Au vu de la bonne symtrie de la distribution, un test de normalit pourrait tre tent
mais la rpartition dans les classes fait pressentir une trop faible taille d'chantillon.
Analyse graphique
Les nuages de rsidus en fonction de chacune des variables explicatives X, permettent
de vrifier l'absence de structure, c'est dire l'absence de liaison. En effet, si le rsidu pouvait
tre modlis partir d'une variable Xi, ce ne serait plus une vritable erreur ! La modlisation
du rsidu conduirait un "bruit", vritable nouveau rsidu.
0)
3
o
m
S
X,
2
0
-2
- ^- 6
t:
6.5
....- .(
7
r-
*.i
7,5
Figure 13.2.a Nuage des rsidus en fonction de Xi (acide tartrique).
S
2
S-2 '
-
T
v
*
4
Figure 13.2.b Nuage des rsidus en fonction de X; (acide malique).
218
3 T-
2
S
1
^
s -1"
-2
-3
0,2 0,4
^-
0,6
t ^
: (
t ' .
t^^
-? -+ .-^.. ^
1^ t y w 1,8
Figure 13.2-c Nuage des rsidus en fonction de Xa (ions K*).
2,5
*
t
t
i
i
<
>
3,5
X,
Figure 13.2.d Nuage des rsidus en fonction de X< (PH).
Dans notre exemple, aucune structure n'apparat dans aucun de ces 4 nuages, ce qui est
satisfaisant.
13.4.2.6. Analyse des graphiques (variable explicative, variable expliquer)
Les graphiques (Y, Y ) en fonction des quatre variables explicatives permettent de
visualiser d'une part la liaison (ou l'absence de liaison) entre Y, qualit des armes et chacun
de ses prdicteurs (pris isolment) et d'autre part , la proximit entre Y et son estimation.
Rappelons qu'en utilisant le clic droit de la souris sur un point central du nuage (symbole
"rond plein" par exemple), un menu contextuel permet d'ajouter une courbe de tendance (voir
chapitre de statistique descriptive).
10
1
Y 5
0
/
Se

^
8 s 03^
. ^ ^0 - ^
4 5 6 7
X,
B
Y 1
o Prvisions Y
Figure 13.3-a Nuage de Y (qualit des armes) et Y (qualit estime)
en fonction de Xi (acide tartrique).
219
10
1
Y 5
0
(
^
^ ^ ^
^
w
? '
? y y
0 2 4 6 8 10 12
t. y- --
|o Prvisions Y
Figure 13.3.b Nuage de Y (qualit des armes) et Y (qualit estime)
en fonction de X; (acide malique).
10 T
Y 5
0
C
. o&tl
8
^
,
:
pi
40
0 0,5 1 1,5 ;
^
^
|oR
2
Figure 13.3-c Nuage de Y (qualit des armes) et Y (qualit estime)
en fonction X3 (ions K*).
Y
o Pressions Y
u -
8
6
4
2
2 2,5
c
1
^'
1
;^
1
. '-e?
0 -I,
:,.^
1
^.^
11
:
:
:; S
I!
g
8
* AB
W
0
^
3 3,5 4
X4
r
o Prvisions Y
Figure 13.3.d Nuage de Y (qualit des armes) et Y (qualit estime)
en fonction X< (PH).
Nous remarquons l'absence de liaison entre la qualit des armes et la teneur en acide
tartrique (Y, Xi). Nous remarquons par ailleurs que les trois autres nuages s'tirent
longitudinalement
Dans le nuage "Qualit des armes, ions K^" (X3), l'observation correspondant la plus
faible teneur en ions K^ se dmarque de l'ensemble.
Dans le nuage relatif au PH (X4), c'est l'observation correspondant au plus fort PH qui se
dmarque de l'ensemble.
220
Ces observations marginales augmentent la variation rsiduelle et diminuent donc la
qualit du modle. Elles perturbent galement la linarit du nuage, notamment pour le PH
(Xi). D'un point de vue concret, il est fondamental de rechercher "sur le terrain" l'origine de
cette marginalit. On pourrait ventuellement rechercher un nouveau modle en cartant ces
deux observations marginales.
En rsum, tant donn sa bonne qualit (R
2
= 72,5%, absence de trs forts rsidus,
symtrie de la distribution de ces rsidus), ce modle sera considr comme satisfaisant.
13.4.3. Prdiction de la qualit des armes de 5 nouvelles observations
Une premire technique consiste utiliser directement le modle trouv. Pour cela, nous
proposons l'organisation suivante :
Coefficients
chantillon
de base
chantillon
test
-0,530
X,
6,29
5,52
6,18
6,7
7,3
6,3
5,6
6,2
6,9
0,572
Xz
9,6
6,5
6,6
10,1
5,2
9,5
6,7
7,7
8
4,575
X3
1,2
1
0,7
1,6
1
1,2
1,4
1,1
1,4
-2,129
X4
3,1
3,9
3
3,1
2,6
3,2
3,3
2,8
2,9
4,832
Y
3,5
1
4,5
9
Prdiction
de Y
5,886
1,900
2,152
7,785
2,981
5,610
5,080
5,027
5,987
Tableau 13.10 Valeurs des notes de qualit des armes prdites par le modle (chantillon test).
Au moyen d'un "copier-coller spcial / valeurs", nous recopions les valeurs des
coefficients b; aux places indiques.
Le calcul de la 1re valeur estime y, c'est dire la 1re valeur prdite est le suivant. Sous
la ligne est indiqu le type de rfrence utiliser, "abs" pour absolue, "rel" pour relative et
"fixe" pour ligne fixe :
4,832
abs
+ (-2,129)
fixe
3,1
rel
+ (4,575) x
fixe
1,2 + (0,572) x 9,6
rel fixe rel
+ (-0,53) x 6,29
fixe rel
Le rsultat de la 1re estimation s'affiche. En tirant vers le bas la poigne de recopie
s'affichent les valeurs estimes par le modle et, parmi elles, celles relatives aux nouvelles
observations.
Le fait de calculer aussi les valeurs estimes pour les observations ayant permis la
construction du modle (chantillon de base) n'alourdit pas le travail et permet de vrifier
l'absence d'erreur de calcul puisque ces rsultats sont affichs dans la rubrique "Analyse des
rsidus" du rapport dtaill.
Une autre technique consiste utiliser directement la fonction TENDANCE. Cette
fonction matricielle (cf. Annexe Excel) donne directement les valeurs prdire partir du
tableau des donnes. Cette mthode est trs rapide.
On slectionne la plage d'accueil des rsultats soit une matrice 5 lignes et 1 colonne
puis on appelle la fonction dont les arguments sont :
221
- Y connus : plage des valeurs prises par Y (ou nom de cette plage)
- X connus : plage des valeurs prises par les variables X; (ou son nom)
- X nouveaux : plage des nouvelles valeurs prises par les variables X; de
l'chantillon test (ou son nom)
- Constante : saisir VRAI si l'on souhaite obtenir cette valeur.
En rsum cela donne TENDANCE(X,Y,XN,VRAI) ou X, Y et XN sont les noms des
plages correspondantes. Les cinq valeurs de Y prdites s'affichent dans la zone prvue.
13.5. MISE EN UVRE AU MOYEN DE LA FONCTION DROITEREG
Comme nous l'avons dj indiqu, l'intrt des fonctions Excel rside dans leur
interactivit avec les donnes. Cependant, pour la rgression linaire multiple, la construction
est nettement plus longue qu'avec l'utilitaire d'analyse.
La fonction DROITEREG est une fonction matricielle (cf. Annexe Excel). Pour la
mettre en uvre, il faut slectionner une plage de 5 lignes et (p+1) colonnes (rappelons que p
est le nombre de variables explicatives). Ici la plage est de 5 x 5. Les arguments de la fonction
sont les suivants :
- Y connus : plage des valeurs prises par Y (ou nom de cette plage)
- X connus : plage des valeurs prises par les variables X; (ou son nom)
- Constante : saisir VRAI si l'on souhaite obtenir cette valeur
- Statistiques : saisir VRAI si l'on souhaite obtenir les rsultats calculs.
Aprs validation par CTRL+Maj+Entre, la matrice des rsultats s'affiche (valeurs
encadres) qu'il faut "dcrypter". Il est prudent de rajouter des titres.
Coefficients
carts types des coefficients
R 2 .cart-type deV estim
Fobserv de Fisher-Snedecor ; DDL(n-p-l)
SCE modle rgression ; SCE rsiduel
X4
b4
-2,129
0,929
0,725
18,412
104,675
X3
b3
4,575
1,365
1,192
28
39,795
X2
b2
0,572
0,131
X1
b1
-0,530
0,454
b0
4,832
4,580
Tableau 13.11 Rsultats numriques fournis par la fonction DROITEREG.
Les 2 premires lignes sont relatives aux coefficients b;. Il est important de remarquer
l'ordre de ces coefficients par rapport celui des valeurs des variables explicatives X; saisies
dans la bote de dialogue. En saisissant leur plage dans l'ordre Xi, X2, Xs, X^, les coefficients
sont affichs dans l'ordre inverse : b4, b3, ba, bi, bo.
Sur la 3
e
ligne, la 1" colonne donne la valeur du coefficient de dtermination R
2
et la 2
e
est l'cart-type de y estim Y.
Sur la 4
e
ligne, la 1" colonne est la valeur
CM,
CM,
du F de Fisher-Snedecor et la 2
e
celle
du ddl rsiduel.
Sur la 5
e
ligne, la 1re colonne indique SCEm (due au modle rgression) et la 2
e
SCEr
(rsiduel).
Exploitation des rsultats affichs
II faut remarquer que nous retrouvons une partie des lments obtenus par l'utilitaire
d'analyse mais, les tests tant absents, nous devrons les construire
222
Le modle est fourni par la 1re ligne :
Y = 4 , 832-0, 5 3 X, + 0,572 X, + 4,575X, - 2,129X^
La qualit associe au modle est mesure par R
2
= 0,725 c'est dire que 72,5%de la
variabilit de la qualit des armes est explique par ce modle.
Construction des principaux tests
Pour faire le test de la rgression globale, on applique la fonction LOI. F sur la valeur de
la statistique F de Fisher-Snedecor observe (4
e
ligne, 2
e
colonne). Les ddl sont au numrateur
4 (valeur de p) et au dnominateur 28 (valeur de n-p-1). On obtient la valeur de la probabilit
critique P(F> Foh8erv) = ) ,613.10"
7
interprte prcdemment.
Pour le test de chacun des coefficients, l'aide de "copier-collage spcial / valeurs", on
isole les coefficients et leurs cart-type. On construit le test sur la 1" colonne :
- Calcul de la statistique de Student (division du coefficient par son cart-type)
Valeur absolue de cette statistique (fonction mathmatique ABS)
Dtermination de la probabilit critique (fonction LOI. STUDENT sur la valeur
absolue de la statistique t).
Aprs avoir slectionn cette 1re colonne, on tire la poigne de recopie vers la droite :
Coefficients
Ecarts types des coefficients
Statistique t (coefficient/cart type)
Valeur absolue des statistiques {{fonction
mathmatique ABS)
Probabilit critique (fonction LOI.STUDENT)
X4
b4
-2,129
0,929
-2,293
2,293
0,0296
X3
b3
4,575
1,365
3,351
3,351
0,0023
X2
b2
0,572
0,131
4,383
4,383
0,0001
X1
b1
-0,530
0,454
-1,166
1,166
0,2534
b0
4,832
4,580
1,055
1,055
0,3004
Tableau 13.12 Construction des tests de Student associs aux coefficients des variables.
Les autres rsultats ont t comments prcdemment (valeurs prdites. Y, rsidus,
rsidus centres-rduits, nuages). Ils sont faciles dterminer au moyen du logiciel.
13.6. RECHERCHE DESIMPLIFICATIONS DE MODLES
13.6.1. Rgressions linaires multiples
Nous avons remarqu que seul l'acide tartrique n'explique pas la qualit des armes.
Il est naturel de rechercher un autre modle en cartant ce critre et de juger alors si la
diminution du coefficient de dtermination R
2
n'est pas trop pnalisante.
On trouve le modle suivant :
Y = 0,450 + 0,623 X; + 3,800 X, - 1,624 X4
t t t
acide K^ PH
mal i que
Le coefficient de dtermination a trs peu diminu puisqu'il est gal 71,1%. La
rgression globale est significative (probabilit critique = 5,69 E-8).
Les coefficients des variables "acide malique" et "ions K^" sont significatifs un risque
infrieur 1%. Celui de la variable PH n'est pas significatif (probabilit critique de 0,059).
Ce modle maintient un bon niveau de qualit. On le considre donc comme satisfaisant.
223
On poursuit la mme stratgie simplificatrice en cartant la variable PH et en examinant
si le nouveau modle deux variables explicatives "acide malique" et "ions IC" est
satisfaisant ou non.
Le modle trouv est significatif (probabilit critique = 5,29.10'
8
) et fournit un
coefficient de dtermination de 67,27 %. Les coefficients des deux variables "acide malique"
(X) et "ions K.^" (X3) dont les probabilits critiques respectives sont 0,01%et 0,5%sont
significatifs
Le modle calcul est le suivant :
Y = -0,405 + 0,557 X; + 3,808 X,
Nous proposons de clore la stratgie simplificatrice avec le modle le plus simple :
modle une seule variable explicative.
Cette dmarche simplificatrice partant de la rgression complte est une dmarche de
type descendant.
13.6.2. Rgression linaire simple
Si l'on souhaite vraiment simplifier le modle et rduire les cots, on peut rechercher un
modle un seul critre explicatif. C'est le modle de rgression linaire simple qui, dans
Excel, s'obtient de la mme faon que la rgression linaire multiple. La rgression linaire
simple s'interprte galement de faon similaire.
Comme variable explicative, nous retiendrons l'acide malique (X2) C'est en effet la
variable la plus corrle avec la qualit des armes (0,76) et , d'autre part, celle qui, dans le
modle complet 4 variables explicatives offre la plus petite probabilit critique (0,00015).
En fait, cette modlisation a t ralise lors de l'tude de la statistique descriptive
bivarie croisement entre deux variables quantitatives (cf. 3.4.5.3).
Rappelons que le carr du coefficient de corrlation fournit le coefficient de
dtermination ici 0,57.
Cette fois, la chute du coefficient de dtermination est notable puisqu'on est pass de
0,67 0,57.
11 reste raliser les tests de significativit.
Le test de significativit de la rgression linaire simple est identique au test du
coefficient de la variable explicative. Ceci revient encore tester la significativit du
coefficient de corrlation avec la variable explicative et expliquer.
En utilisant, par exemple, le module "Rgression linaire" de l'utilitaire d'analyse, nous
obtenons une probabilit critique de 3,51 E-7 (mme rsultat, bien entendu, pour le test F de
Fisher-Snedecor que celui affich pour le test de Student relatif au coefficient directeur de la
droite de rgression).
Par consquent, le modle est significatif. La seule reserve que l'on peut mettre est la
relative faiblesse de l'indicateur de qualit R
2
. C'est l'utilisateur de juger s'il conserve ou non
ce modle simplifi, car lui seul psera l'importance des diffrents enjeux.
13.6.3. Rgressions descendantes et ascendantes
La recherche de modles de rgression simplifies peut se faire par des rgressions
descendantes ou ascendantes.
13.6.3.1. Rgression descendante
On part de la rgression complte p variables explicatives et on carte tour de rle
l'une des variables en ralisant chaque fois une rgression (p-1) variables et en notant la
diminution du coefficient de dtermination R
2
par rapport la rgression complte.
224
On conserve la rgression ayant entran la plus faible diminution de R
2
et on recommence la
mme procdure avec ce nouveau modle. L'itration de ce processus permet de dtecter
l'tape au cours de laquelle le retrait d'une variable provoque une diminution de R
2
nettement
plus importante. On retiendra alors le modle fourni par l'avant-dernire tape.
13.6.3.2. Rgression ascendante
C'est la dmarche inverse. On part du modle le plus simple ( une variable explicative,
celle qui est la plus corrle avec la variable expliquer). On enrichit ensuite le modle en
ajoutant la variable qui augmente le plus le coefficient R
2
. Ce modle deux variables est,
son tour, enrichi en ajoutant, parmi les variables restantes, celle qui augmente le plus ce
coefficient. On arrte l'itration de ce processus lorsque l'on juge que l'augmentation de R
2
est
ngligeable.
La "rgression progressive", cas particulier de la rgression ascendante, consiste tester
chaque tape l'entre de la nouvelle variable. Si le test n'est pas significatif, la variable
slectionne comme indiqu par la progression du coefficient R
2
n'est pas introduite. De plus,
on examine si les variables prsentes dans le modle restent significatives en prsence de la
nouvelle variable (on carte ces variables "prsentes" si elles ne sont plus significatives). Les
tests supposent des conditions de validit.
Ces modles simplifis et optimiss, frquemment utiliss, sont sans aucun doute
intressants mais lourds dans leur mise en pratique avec une utilisation lmentaire d'Excel.
225
dbut 28/04/06 16:05 Page 2
Troisime Partie
ETUDES DE CAS
dbut 28/04/06 16:05 Page 2
14. DMARCHE QUALIT:
CANARDS GRAS DU SUD-OUEST
14.1. PRSENTATION DU CAS
Un suivi technico-conomique est ralis auprs de producteurs de canards gras d'une
zone du Sud-ouest de la France. Dans cette tude, on s'intresse la marge sur cot
alimentaire par canard lev (exprime en euros par canard lev), selon la dmarche qualit
adopte.
On considre les dmarches suivantes :
1. Qualit biologique note BIO
2. Qualit standard note STAN
3. "IGP, foie du Sud-Ouest" note IGP ce qui signifie Identification Gographique de
Provenance
4. Label Rouge, foie gras des Landes note LROU.
Le producteur doit respecter un cahier des charges spcifique pour accder la
dmarche qualit choisie (sauf pour la qualit standard).
Un chantillon est extrait au hasard dans chacune des populations de producteurs tudis
et on observe les rsultats suivants (sur Excel, ces donnes sont saisies sur 4 colonnes
adjacentes) :
BIO
STAN
IGP
LROU
4,18
2,88
188
3,45
2,72
744
7? 1
1 94
3,40
4,03
2,70
1 86
3,30
2,72
? 70
1 91
3,21
3,90
2,55
1 m
3,20
2,67
740
? ? n
191
3,03
3,79
2,48
1 77
3,14
2,67
740
? 17
186
2,92
3,72
2,43
1 74
311
2,65
7 39
717
1 86
2,82
3,67
2,39
1,70
309
2,63
739
714
1 85
2,74
3,58
733
1 67
30S
2,63
735
714
1,81
2,65
3,51
779
1 63
798
2,60
735
710
1,80
2,54
3,44
777
160
794
2,58
? 35
710
1,80
2,49
3,38
719
148
789
2,58
733
709
1 73
2,35
3,31
717
1 36
2,88
2,56
737
708
1 71
2,30
3,19
715
1 71
2,85
2,56
737
708
1 71
2,28
3,10
717
1,10
2,84
2,53
737
705
1 65
2,16
2,76
2,08
2,82
2,53
778
703
1 65
210
707
2,80
2,51
778
703
165
1,94
701
2,80
2,49
778
703
1 67
1 91
700
2,77
2,49
775
1 99
1,48
1,75
1 99
2,75
2,49
775
1 99
1,41
1 59
1 94
2,75
2,46
773
194
1 76
1,37
1 97
2,73
2,46
1 94
Tableau 14.1 Marge sur cot alimentaire par canard lev pour 4 dmarches qualit.
Questions
a) Dcrire chacune des dmarches qualit et les comparer.
b) La dmarche "production biologique" tant trs marginale, approfondir l'analyse des
trois autres dmarches.
Peut-on conclure qu'en moyenne, les marges sur cot alimentaire par canard lev sont
identiques dans les trois populations de producteurs concerns ?
Les spcialistes dfinissent 3 niveaux de marge :
- Classe 1 : marge faible ( < 2 )
- Classe 2 : marge moyenne (2 < marge < 2,4)
- Classe 3 : marge bonne (> 2,4).
Peut-on considrer que les trois dmarches STAN, IGP et LROU sont homognes selon
les 3 classes ?
14.2. PROPOSITION DE DMARCHE STATISTIQUE
Nous proposons d'adopter une dmarche de statistique bivarie comprenant les deux
volets descriptif et infrentiel.
14.2.1. Statistique descriptive bivarie
C'est l'analyse du couple "variable quantitative QT niveau de marge - variable
qualitative QL dmarche qualit". Elle se traduit par celle de la marge relative chaque
dmarche qualit.
- Paramtres statistiques (Min, Quartile 1, Mdiane, quartile 3, Max, Moyenne,
Ecart-type,.. )
- Distributions des frquences et histogrammes.
14.2.2. Statistique infrentielle
II s'agit d'une part de l'analyse bivarie QT-QL (niveau de marge - dmarche qualit)
comprenant :
- tests de normalit
- tests d'galit des variances
- analyse de variance 1 facteur (facteur dmarche qualit)
- tests de comparaison des moyennes,
et d'autre part de l'analyse bivarie QL-QL (niveau de marge en classes - dmarche qualit).
14.3. RSULTATS, COMMENTAIRES ET INTERPRTATION
14.3.1. Statistique descriptive
14.3.1.1. Paramtres statistiques
NBVAL
MIN
Ql
MEDIANE
Q3
MAX
MOYENNE
ECARTYPEP
CV
B10
14
2,76
3,33
3,55
3,77
4,18
3,54
0,37
0%
STAN
33
1,10
1.74
2,00
2,22
2,88
1,99
0,40
0%
1GP
99
1,26
2,03
2,33
2,64
3,45
2,34
0,44
0%
LROU
19
1,37
2.02
2,35
2,78
3,40
2,40
0,54
22%
Tableau 14.2 Paramtres statistiques de la marge selon la dmarche qualit.
La fonction NBVAL indique la taille de chaque chantillon.
Nous remarquons immdiatement que pour la production biologique la marge est
nettement suprieure celle des trois autres productions. Cette constatation est valable pour
tous les paramtres statistiques du peigne (min, Ql, mdiane, Q3, max) et aussi pour la
moyenne. Il est intressant de remarquer que la moyenne et la mdiane sont gales. De plus,
l'homognit est meilleure. En effet, il apparat le plus faible intervalle inter-quartile, le plus
faible cart-type et le plus petit coefficient de variation. Ce type de production, valorisant du
point de vue financier et dont l'image est excellente est encore peu dvelopp. Peu
d'exploitations ayant pu tre enqutes (la taille d'chantillon est 14), ces paramtres
statistiques sont considrer avec prudence.
En ce qui concerne les trois autres dmarches, on peut constater que la qualit standard
se dmarque "par le bas", ce qui parat logique. La marge est plus basse pour les principaux
230
paramtres (peigne et moyenne). Pour chacune de ces dmarches, moyenne et mdiane sont
proches et les paramtres de dispersion (cart-type, coefficient de variation) voisins.
14.3.1.2. Distributions de frquences et histogrammes
Classes
1,50
2,00
2,50
3,00
3,50
4,00
>4
BIO
0
0
0
1
5
6
2
STAN
4
13
13
3
0
0
0
IGP
3
20
41
28
7
0
0
LROU
1
4
6
5
3
0
0
Totaux 14 33 99 19
Tableau 14.3a Distribution des frquences absolues de la marge selon la dmarche qualit
(amplitude de classe 0,5 ).
Distribution des frquences relatives
Classes
1,50
2,00
2,50
3,00
3,50
4,00
>4
BIO
0,00
0,00
0,00
0,07
0,36
0,43
0,14
STAN
0,12
0,39
0,39
0,09
0,00
0,00
0,00
IGP
0,03
0,20
0,41
0,28
0,07
0,00
0,00
LROU
0,05
0,21
0,32
0,26
0,16
0,00
0,00
Totaux 1 1 1 1
Tableau 14.3b Distribution des frquences relatives de la marge selon la dmanche qualit
(amplitude de classe 0,5 ).
Nous avons calcul les frquences relatives pour les quatre dmarches afin de pouvoir
visualiser la comparaison des distributions au moyen des histogrammes coupls. Il est
cependant vident que les pourcentages relatifs aux productions BIO et LROU n'ont pas de
sens rel, les chantillons tant beaucoup trop petits.
Figure 14.1 Histogramme de la marge selon la dmarche qualit .
231
Ces graphiques mettent clairement en vidence les rsultats prcdents.
On constate une bonne symtrie de chacune des distributions. Cela explique la proximit
entre moyenne et mdiane prcdemment remarque.
Une translation de la production BIO vers la droite indique des marges importantes
Inversement, une transition de la production STAN vers la gauche met en relief la
faiblesse des marges.
Les deux autres productions sont intermdiaires.
Il est intressant de dgager les classes modales pour chaque dmarche.
Pour la production BIO, 6 producteurs dgagent une marge de 3,5 4 . Mais il faut
remarquer que 6 producteurs dgagent une marge de 3 3,5 . D'un point de vue concret, il
est plus sage de dgager la classe 3 4 car elle a l'avantage supplmentaire de contenir la
moyenne et la mdiane.
En ce qui concerne la qualit standard, 2 classes sont galement frquentes. En
consquence, nous retiendrons la fourchette 1,5 2,5 comme la plus frquente. Comme
prcdemment, cette classe contient la moyenne et la mdiane.
Pour IGP, la fourchette la plus frquente est 2 2,5 pour 41 producteurs, soit 41%des
enquts. Ici encore, la moyenne et la mdiane appartiennent la classe modale.
Pour le Label Rouge, 6 producteurs dgagent une marge de 2 2,5 mais 5 autres entre
2,5 et 3 . Concrtement, nous retiendrons la marge 2 3 comme la plus frquente. La
mdiane et moyenne appartiennent ici aussi la classe modale.
R emarque : l'amplitude de classe de 0,5 que nous avons adopte pour comparer
les quatre dmarches est un peu trop grande notamment pour les rsultats relatifs la
qualit standard, dmarche trs pratique.
La classe modale 1,5 2,5
manque un peu de prcision. Une
rduction de cette amplitude permet
d'affiner lgrement le rsultat ;
avec ce dcoupage plus fin, la
distribution des frquences absolues
devient celle que montre le tableau ' ,- ..'^''M.'-,.
14.4 ci-contre.
Tableau 14.4 Distribution des frquences absolues
de la marge selon la dmarche qualit (amplitude de classe 0,5 ).
On constate que la classe modale de la dmarche standard est maintenant de 1,8 2,1 .
14.3.2. Statistique infrentielle
14.3.2.1. Premier axe : marge selon dmarche qualit (variable quantitative
QT- variable qualitative QL)
Tester la comparaison des marges moyennes des trois dmarches qualit rpond
exactement notre question. L'analyse de variance un facteur (le facteur qualit) est l'outil
adapt. Cependant, l'utilisation de cet outil exige la normalit et l'galit des variances de la
marge dans les trois populations de producteurs concernes.
232
Classes
1,5
1,8
2,1
2,4
2,7
3
3,3
>3,3
BIO
0
0
0
0
0
1
2
11
STAN
4
6
10
8
4
1
0
0
IGP
3
9
20
25
20
15
6
1
LROU
1
2
3
4
3
3
2
1
Test de normalit
Les distributions rvlent graphiquement une allure gaussienne. De plus nous avons
remarqu la convergence entre moyenne et mdiane et not leur appartenance aux classes
modales. Nous proposons de raliser le test de normalit de la variable "marge" dans la
population de producteurs pratiquant la dmarche IGP.
Nous avons calcul la moyenne de l'chantillon et trouv 2,339. La fonction
ECART.TYPE nous fournit l'cart-type estim gal 0,442.
Nous mettons l'hypothse nulle Ho : X > N(2,339;0,442) o X dsigne la variable
alatoire "marge" tudie. Nous construisons le test de normalit selon la mthode dtaille
dans le chapitre "Test du Khi-deux" (9.1.2). Aprs avoir adopt un dcoupage en classes,
nous calculons les probabilits relatives chaque classe, les effectifs thoriques
correspondants et effectuons, si ncessaire, des regroupements de classes. Nous calculons
enfin le Khi-deux. Le tableau 14.5 indique le rsultat de ces calculs effectus l'aide d'Excel.
n
Moyenne
Ecart-type 0,44
99,00
2,34
Classes
<1,5
1,5-1,8
1,8-2,1
2,1-2,4
2,4-2,7
2,7-3
>=3
Totaux
Bornes Xi
00 "
1,50
1,80
2,10
2,40
2,70
3,00
">=3 "
F(Xi)
0,00
0,03
0,11
0,29
0,56
0,79
0,93
1,00
F(Xi)-
F(Xi-l)
0,03
0,08
0,18
0,26
0,24
0,14
0,07
7,00
Ci
2,860
8,176
18,125
25,790
23,561
13,818
6,670
99
Oi
3
9
20
25
20
15
7
99
Ci
11,036
18,125
25,790
23,561
13,818
6,670
99,000
Oi
12
20
25
20
15
7
99
Contribution
absolue au khi2
0,084
0,194
0,024
0,538
0,101
0,016
0,958
Tableau 14.5 Construction du test de normalit de la marge pour la dmarche qualit IGP.
La valeur du Khi-deux est donc 0,958.
Nous pouvons ensuite calculer la probabilit critique au moyen de la fonction
LOI.KHIDEUX applique sur cette valeur. On obtient 0,811. Nous prendrions 81%de risque
en rejetant Ho. Autrement dit 81%est la mesure de crdibilit de Ho. En consquence, nous
acceptons la normalit de la variable "marge" dans la population des producteurs IGP.
On peut raliser le test pour les marges relatives aux deux autres dmarches. Leur tude
descriptive ayant montr des distributions de mme allure que la prcdente et sans dfaut
majeur par rapport la normalit, nous les considrerons galement comme normales.
Nous laissons au lecteur le soin de vrifier ce point en effectuant le test que nous venons
de raliser pour les deux autres dmarches qualit.
Test d'galit des variances
Les variables alatoires marges dans les trois populations concernes tant donc
considres comme normales, nous allons raliser un test de Fisher-Snedecor pour tester
l'galit des variances (fonction TEST.F en divisant le rsultat par 2).
233
Dmarches qualit
STAN
STAN
IGP
IGP
LROU
LROU
0,5 x TEST.F
0,30
0,06
0,09
Pour chaque couple de populations,
nous obtenons les rsultats indiqus sur le
tableau 14.6. Les probabilits critiques
tant toutes suprieures au niveau
classique de 5%, nous considrerons
Tableau 1 4.6 Probabilits critiques relatives aux comme acceptable l'galit des variances
tests d'galit des variances pour chaque couple
de la
"'""
6 dans les trois
populations
de dmarches qualit..
Analyse de variance
Relativement la variable alatoire "marge", les trois populations de producteurs
tudies sont considres comme normales et de mme variance. Nous pouvons tester l'galit
des marges moyennes :
Ho = galit des marges moyennes dans les 3 populations
contre
H) = au moins une marge moyenne se distingue des autres.
Nous ralisons l'analyse de variance et obtenons les valeurs indiques sur le tableau 14.7.
OR IGINE DES
DISPER SIONS
inter classes
intra classes
TOTAL
SCE
3,33
29,92
33,25
ddl
2,00
148,00
150,00
CM
1,67
0,20
Fobserv
8,237
Probabilit critique
0,041%
Tableau 14.7 Tableau d'analyse de variance de la marge selon la dmarche qualit.
Interprtation : la probabilit critique est infrieure 1%. Le test est donc hautement
significatif. Au moins une marge moyenne relative une dmarche qualit se distingue des
autres
Test de comparaison des moyennes 2 2
On peut vouloir comparer les
marges moyennes en considrant les
couples de dmarche qualit. Nous
utilisons le test de Student et obtenons
les rsultats ci-contre.
Dmarches qualit
STAN
STAN
IGP
IGP
LROU
LROU
TEST. STUDENT
0,001
0,0038
0,61
Tableau 14.8 Probabilits critiques relatives
aux tests de Student pour chaque couple de
dmarche Qualit
La marge moyenne dans la population des producteurs STAN diffre de celle de la
population IGP (au risque 0,01%) et de celle de la population LROU (au risque 0,38%).
En revanche, les marges moyennes dans les populations IGP et LROU ne peuvent tre
considres comme diffrentes.
En rsum, en travaillant sur les marges moyennes, on conclut que la qualit STAN
diffre significativement des deux autres.
234
14.3.2.2. Deuxime axe : niveaux de marge selon dmarche qualit (variable
qualitative QL- variable qualitative QL)
Effectifs
observs O|J
faible
moyenne
bonne
Totaux
STAN
17
11
5
33
IGP
23
34
42
99
LROU
5
5
9
19
Totaux
45
50
56
151
Effectifs
thoriques C,,
faible
moyenne
bonne
Totaux
STAN
9,83
10,93
12,24
33
IGP
29,50
32,78
36,72
99
LROU
5,66
6,29
7,05
19
Totaux
45
50
56
151
Trois niveaux de marge ont t
dfinis par les spcialistes : marge faible,
marge moyenne et bonne marge. Pour
tester l'quivalence des trois dmarches
qualit relativement aux niveaux de
marge, nous allons crer la variable
qualitative (ordinale) "niveau de marge"
et la croiser avec la variable qualitative
"dmarche" et effectuer ensuite un test du
Khi-deux sur le tableau de contingence
obtenu. Nous obtenons les rsultats
indiqus sur les tableaux 14.9.
Tableaux 14.9 Rpartition du nombre de producteurs selon la dmarche qualit et le niveau de
marge (effectifs observs et thoriques).
La fonction TEST.KHIDEUX indique une probabilit critique de 1,33%. Le test est
donc significatif ce qui indique que l'hypothse nulle Ho d'homognit des trois dmarche est
rejete. Les trois dmarches ne sont donc pas de mme performance, au risque 1,33%.
Nous proposons d'approfondir ce rsultat en recherchant les couples "marge-dmarche"
les plus explicatifs de la valeur du Khi-deux observ. Nous calculons successivement les
contributions absolues et relatives de chaque cellule.
Contribution absolue au KH12
faible
moyenne
bonne
Totaux
STAN
5,22
0,00
4,28
9,50
K3P
1,43
0,05
0,76
2,24
LROU
0,08
0,27
0,54
0,88
Totaux
6,73
0,31
5,58
12,63
La valeur du Khi-deux observ est 12,63.
Contribution relative au KH12
(en%)
faible
moyenne
bonne
Totaux
STAN
41
0
34
75
IGP
11
0
6
18
LROU
1
2
4
7
Totaux
53
2
44
100
Tableaux 14.10 Contributions absolues et relatives au Khi-deux.
235
Interprtation
La dmarche standard se dmarque nettement des autres puisqu'elle explique elle seule
75%de la valeur du Khi-deux.
En comparant les effectifs observs et thoriques pour cette dmarche, on remarque qu'il
y a environ deux fois plus de producteurs obtenant une marge faible qu'il y en aurait dans le
cas d'quivalence des trois dmarches. Dans le mme ordre d'ide, 5 producteurs obtiennent
une bonne marge alors qu'il y en aurait plus de 12 en cas d'quivalence.
Ralisons un nouveau test du Khi-deux en cartant cette fois la dmarche standard.
Effectifs
observs
0
faible
moyenne
bonne
Totaux
IGP
23
34
42
99
LROU
5
5
9
19
Totaux
28
39
51
118
Effectifs
thoriques
C,
faible
moyenne
bonne
Totaux
IGP
23,49
32,72
42,79
99
LROU
4,51
6,28
8,21
19
Totaux
28
39
51
118
Tableaux 14.11 Effectifs observs et thoriques des niveaux de marge selon les deux
dmarches qualit IGP et LROU).
Nous remarquons un effectif thorique trs lgrement infrieur la rfrence la plus
classique gale 5. L'utilisation du test du Khi-Deux est ici tolrable.
La fonction TEST.KHIDEUX indique cette fois 79%.
Il apparat que ces deux dmarches ne peuvent tre considres comme distinctes
relativement la marge. Nous prendrions un risque suprieur 79% en les dclarant
diffrentes.
Nous considrerons ces deux dmarches comme quivalentes.
En rsum, par cette mthode statistique trs diffrente nous retrouvons le fait que la
dmarche standard diffre de manire significative des deux autres dmarches.
236
15. EVALUATION ET IMAGE D'UN MAGAZINE
PROFESSIONNEL
15.1. PRSENTATION DU CAS
La socit LOGAGRI diffuse en France et l'tranger des logiciels destins aux
agriculteurs (logiciels de comptabilit, gestion administrative, suivis techniques,...etc.).
L'entreprise vend les logiciels qu'elle cre, propose la formation des agriculteurs, parfois
adapte les logiciels aux besoins spcifiques des agriculteurs et enfin assure la maintenance.
Chaque mois, LOGAGRI envoie un petit magazine d'information ses clients : le magazine
MAGAGRI. La socit s'intresse tout particulirement une partie de ses "gros clients". Une
enqute est ralise auprs d'un chantillon reprsentatif de cette population cible, dans le but
d'valuer l'image de ce magazine et, par suite, d'amliorer la qualit de ce magazine.
124 clients ont t enquts. Dans la prsente tude, nous nous limiterons quelques
questions particulirement fondamentales. Nous allons nous intresser l'attention accorde
la lecture des diffrentes rubriques, l'intrt des thmes tudis et surtout l'indice de
satisfaction globale des enquts. En ce qui concerne les enquts, nous ne retiendrons de
leurs caractristiques que le type de production dans laquelle s'exerce leur activit.
Un premier groupe de questions poses concerne le mode de lecture des principaux
articles. Les principales rubriques sont :
- les formations notes LFORM
- le dossier not LDOS
- Internet not LW EB
- les astuces de manipulation des logiciels note LASTU
- les nouveauts note LNOUV.
Il a t demand aux enquts d'valuer leur mode de lecture de chaque rubrique au
moyen d'une note , selon une chelle croissante d'attention de 0 5. L'enqut doit cocher
spontanment son valuation sur une rglette allant de 0 (pas lu) 5 (lecture trs attentive,
avec annotation) et gradue au dixime :
0 = Pas lu 5 = Lecture
trs attentive
II a t ensuite demand aux personnes enqutes si, globalement, la nature des sujets
traits (thmes) rpondaient bien leurs proccupations. Nous noterons INTSU ce critre
"intrt des sujets traits". Ce critre est valu comme les prcdents au moyen d'une note de
0 (aucun intrt pour les thmes traits) 5 (fort intrt).
Par ailleurs, la fin du questionnaire, il est demand l'enqut d'valuer globalement
sa satisfaction du magazine (prise en compte de la nature des sujets traits, de leur
approfondissement, de leur clart, de la forme, etc.). Cet indice de satisfaction globale a t
recueilli selon le procd indiqu savoir l'chelle croissante de satisfaction de 0 5. On le
note SATI.
Pour caractriser les personnes enqutes, seul le type de production de leur activit (en
fait, famille de productions) not PRODU a t retenu dans cette tude. La population cible a
t segmente selon 4 grandes familles :
- Grandes cultures, famille note Pi et affecte de la modalit 1 de la variable
PRODU
- levages bovins, ovins et caprins (viande et lait pour ces trois types) et porcs
(PS ; modalit 2 de PRODU)
- Viticulture (P.i ; modalit 3 de PRODU)
- Autres productions (?4 ; modalit 4 de PRODU).
L'objectif majeur de l'enqute est centr sur l'indice de satisfaction : il s'agit d'valuer et
expliquer cet indice A partir des questions extraites de l'enqute, on peut se donner les axes
de recherche suivants :
- axe 1 : analyser l'attention de lecture des diffrentes rubriques et la mettre en
rapport avec l'indice de satisfaction
- axe 2 : tudier la relation entre intrt des sujets traits et indice de satisfaction
- axe 3 : est-ce que l'intrt des thmes abords est diffrents selon les types de
productions ?
Les donnes observes sont regroupes sur le tableau 15.1.
QUALITE DE LECTURE DES RUBRIQUES
Formations
LFORM
1,3
2
1,6
3
1,8
1,8
2
1.9
2.5
2
3
2,1
2,1
1,5
2,2
2.2
3
2,3
4
2,3
3
2,3
2,4
4
2,4
2,4
3
2,5
3
2,5
1,5
2,5
2
2,6
3
2,6
1,5
2,6
1,5
2,7
3
2,7
2,7
Dossier
LDOS
0,7
0,8
0,9
1
1,1
1,2
1,2
2
1,3
1,4
1,4
2,7
1.5
1,5
1,6
1,6
2
1.6
1.7
1,7
1,7
1.6
3
1,8
1,8
1,8
1,9
2,5
1.9
1,9
2
2
2
2,5
2
2,1
2,1
3
2,1
2,1
2,1
2,2
3
Internet
LWEB
2
2,2
2,3
2.4
2.4
2,5
3
2,7
2,6
2,6
2,8
2,7
2,7
3
2.9
2,9
2.8
2,8
4
3
3
3
2,9
2.5
2,9
3,1
3,1
2,6
3.1
3
3,5
3
3.2
3,2
3.2
3
3,2
3,2
3,1
4
3.3
3,3
3,3
Astuces
logiciels
LASTU
3
3,2
3,5
3.4
3,4
3,3
3.3
3.2
3,2
3.2
4
3,1
3,1
3
3
3
4
3
3
2,9
3
2.9
2,9
2,9
2,9
4
2,8
2.8
2.8
2,8
2,5
2,8
2,7
2,7
2,7
2,7
2,5
2.7
2.7
2,7
2,6
2
2.6
Nouveauts
LNOUV
2
1.3
1.4
1,5
1,6
2
1,7
1.8
1,8
1.9
3
2
2
2
3
2,1
2.1
2,1
2,2
4
2
.
2
.....
2.3
2,3
2,3
3
2.3
2,4
2.4
2.4
2
2,5
2,5
2,5
2
2,5
2,6
2,6
2.6
4
2,6
2.6
2,7
2,7
GLOBALE
SATI
1
0,7
0,8
2
1
1,2
1.2
3
1,3
1.3
1.4
3
1.6
1,6
1,6
2
1,7
1,7
1.8
1,7
3
1.9
1.8
1,8
1,5
1.8
1,9
2
3
2
2,3
2,1
2,2
1,5
2.4
2,2
1,5
2.3
2.3
2.1
2.5
2,8
3
INTERET
DES
SUJETS
INTSU
1.2
1.4
1,5
1.7
1,7
1.8
1,8
1,8
1,9
1,9
2
2
2
2
2,1
2,2
2.2
2.2
2,3
2.3
2,3
2,4
2,4
2,4
2,5
2,5
2.5
2,6
2.6
2.6
2,6
2,7
2,7
2,7
2,8
2,8
2,8
2,8
2,8
2.8
2.9
2,9
2,9
PRODUCTIONS
1,2,3et4
PRODU
2
2
2
2
2
2
2
1
2
2
3
2
2
1
2
2
2
2
2
2
1
2
2
1
2
2
1
4
3
2
1
4
2
2
4
2
2
2
1
1
4
3
2
238
Formations
3
2,7
4
2,8
3
2,8
2,8
2,5
2,9
3
2,9
2,9
4
2,9
3
3
3,5
3
3,5
3
4
3
2
3,1
4
3,1
3
3,1
3,1
4
1,5
3,2
2
3.2
2
3,2
3
3,3
3,3
4
3.3
1,5
3,3
2,9
3,4
2,3
3,4
4
3,4
4
3.5
3,5
4
3,5
2,3
3,6
4
3,6
3,5
3,7
4
3.7
3,9
3,7
4
3,8
4
Dossier
2.2
2,2
2,2
2,2
4
2,3
2,3
2.3
2,3
2.3
2,4
2,4
3
2.4
2,4
2,4
2,5
2,6
2,5
2.5
2,5
2,5
2,8
2,6
2.6
2,6
3
2.6
2.7
2,7
3
2,7
2,7
3
2,8
2,8
4
2,8
2,8
2,8
3.5
2,9
2,9
2,9
2,9
2,3
3
3
3
3
3,5
3,1
3,1
3,1
3.5
3,2
3,2
3,2
3,3
3,2
3,3
3.3
3,3
3,4
4
3.4
3,4
Internet
3,3
3,3
4
3,3
3,2
3,2
3,4
3,4
2.9
3,4
3,4
3,4
3,4
3,3
3
3,5
3,5
3,5
3,5
3,5
3,5
4
3,5
3,4
3,7
3,6
3,6
3,6
2,6
3,6
3.6
3,6
3.8
3,8
2,5
3,7
3,7
3,7
3,7
3,7
3
3,9
3,9
3,8
3,8
3,8
3,8
4
3,8
4
4
4
3.4
3,9
3,9
3,9
4,1
4
4,1
4
4
4
4,2
3,6
4.2
4,1
4,1
Astuces
logiciels
2.6
2.6
2.6
2.6
3
2,6
2,5
2,5
2.5
2.5
2
2,5
2,5
2.5
2,4
2,4
2.2
2,4
2,4
2.4
2,4
2,5
2,4
2,4
2,3
2,3
3
2,3
2,3
2,3
2,3
2,3
2.2
3
2,2
2,2
2,2
2.2
2,2
2,5
2.2
2.1
2,1
2,1
2.6
2,1
2,1
2,1
2,1
3
2
2
2
2
2
3
1,9
1,9
1,9
1,9
2
1.9
1,8
1.8
1,8
1,3
3
Nouveauts
3
2.7
2,7
2,7
3
2,8
2,8
2,8
2,8
2,8
2
2,9
2,9
2,9
2,9
3
3
3
3
3
4
3
3.1
3,1
3.1
1.S
3,1
3,1
3,2
1,9
3,2
3,2
3,2
2
3,3
3,3
3.3
3,3
4
3,3
3.4
3,4
2.2
3.4
3,4
3.4
3.5
3.5
1,8
3,5
3,5
3.6
3.6
3
3,6
3,7
3,7
3.7
3,5
3.7
3,8
3.8
3.8
3
3,9
3,9
3,9
GLOBALE
2.4
2.3
..
2
.
5
2,4
1,5
2,6
2.5
2,6
1,2
2.6
2,4
2,6
1,2
2.5
2.4
2,5
1,5
2,5
2,6
2,4
2.3
2
2,6
2,9
2,9
2,5
2,5
2,3
3
3
3
3
3.1
3
2,5
3,2
3,1
3
2,3
3,5
3,6
3
4
3,2
3,1
3,3
3,2
3
3,5
3.5
3,6
4
3,2
3,1
3,5
2
3,8
3,4
3,4
2
3,6
3.5
3,4
3
3.4
3,5
3.1
INTERET
DES
SUJETS
2.9
2,9
3
3
3
3
3
3
3,1
3,1
3,1
3,1
3,2
3,2
3,2
3.2
3.2
3,3
3,3
3,3
3,3
3,3
3,4
3,4
3,4
3,4
3.4
3.4
3.4
3,5
3,5
3,5
3,5
3,5
3,5
3,6
3,6
3,6
3,6
3,6
3.6
3,7
3,7
3,7
3,7
3.7
3,7
3,7
3.7
3,7
3,8
3,8
3.8
3,8
3.8
3,9
3.9
3,9
3,9
3.9
3,9
4
4
4
4
4,1
4,1
PRODUCTIONS
1,2,3et4
2
1
4
3
3
3
2
1
4
4
3
3
4
4
3
2
1
4
4
3
3
1
4
4
3
3
3
1
1
4
4
3
3
3
1
4
4
3
3
2
1
4
4
4
3
3
3
3
2
1
4
4
3
3
3
4
3
3
3
3
1
4
4
3
3
4
4
239
Formations
3.9
3.9
4.5
3,9
3.6
4
4
4,1
4,2
3,9
4,3
4.S
4.5
3
Dossier
3.5
3.5
4
3,6
3,6
3,7
3,7
3,5
3,8
3,9
4
4,1
4,5
4,4
Internet
4.3
4,3
4,5
4,2
4,4
4,4
4,3
4,5
3,9
4,6
4,6
4,7
4,8
4
Astuces
logiciels
1.7
1.7
1.7
1,7
1,6
1.6
1.6
1.5
1,5
2
1,4
1,3
1,2
1,1
Nouveauts
4
3,5
4
4,1
4,1
4
4,2
4,3
4.3
4,4
3,5
4.6
4,7
4,9
GLOBALE
2,6
4
4
3,4
3
4,1
4,3
4.2
4.6
4,6
4.5
4,8
3,6
4.8
INTRT
DES
SUJETS
4,1
4,1
4,1
4,2
4,2
4.2
4,3
4,3
4,4
4,4
4,5
4,6
4,7
5
PRODUCTIONS
1,2,3et4
3
3
3
4
3
1
4
3
4
3
4
3
4
4
Tableau 15.1 Donnes observes.
15.2. PROPOSITION DE DMARCHE STATISTIQUE
On commence par ordonner les donnes, classer et distinguer les types de variables.
Seule la variable Production est qualitative (QL) de type nominal. Les autres variables
ordinales (chelle de satisfaction 50 niveaux de 0 5 avec une dcimale) seront considres
comme quantitatives (QT).
15.2.1. Dmarche statistique gnrale
1re tape : statistique univarie
- la statistique descriptive offre une "photographie" de chaque critre (rsum
par les paramtres statistiques et des graphiques)
- la statistique infrentielle permet de dterminer des intervalles de confiance de
moyennes, de raliser des tests et de poursuivre les buts recherchs.
2
e
tape : statistiques descriptives bivaries diriges vers les objectifs
3
e
tape : statistiques multivaries orientes vers les questions poses.
15.2.2. Dmarche statistique propre chaque axe de recherche
15.2.2.1. Axe 1 : incidence de la qualit de lecture sur l'indice de satisfaction
(QT -QT)
Qualit de lecture de :
Formation
Dossier
Internet
Astuces logiciels
Nouveauts
QT ->QT
Indice de satisfaction
5 variables quantitatives
Proposition de procession
II s'agit toujours d'une "proposition". Plusieurs stratgies sont proposes mais on peut se
limiter une seule si les rsultats concrets sont suffisants. Sinon, d'autres techniques
pourraient tre envisages.
240
1. Statistique univarie de chaque critre
Statistique descriptive
Paramtres statistiques classiques
- peigne (Min, Quartile 1, Mdiane, Quartile 3, Max)
- IQR (distance ou intervalle interquartile)
- Moyenne
- Ecart-type observ
- Coefficient de variation
- ventuellement, Kurtosis et coefficient d'aplatissement.
Graphiques : histogramme group des 5 rubriques et de l' indice de satisfaction,
partir de distributions de frquences relatives construites, par exemple, partir des
classes
- Note ^1
- l <No t e <2
- 2 < Note : 3
- 3 <Not e ^4
- 4 <Not e ^5.
En effet, un tel dcoupage peut tre assimil une classique chelle (1, 2, 3, 4, 5)
correspondant au gradient 1 = mdiocre, 2 = passable, 3 = assez bien, 4 = bien et 5 = trs bien.
Statistique infrentielle
On peut complter la statistique descriptive par de petits lments de statistique
infrentielle tels que l'intervalle de confiance associ chacune des moyennes calcules et les
tests de Student.
2. Statistique bivarie
Statistique descriptive bivarie
sur variables quantitatives notes de dpart QT.
On peut rsumer d'une part au moyen des coefficients de corrlation de l'indice de
satisfaction avec chacune des variables note de qualit de lecture et d'autre part des
graphiques nuages bidimensionnels avec ventuellement droite de rgression)
sur variables qualitatives dduites des variables de dpart par dcoupage en classes.
Par exemple, on peut adopter le dcoupage en 5 classes 1, 2, 3, 4, 5 prcdemment
voqu. partir respectivement des variables SATI, LFORM, LDOS, LW EB,
LASTU et LNOUV, on cre ainsi 6 nouvelles variables notes SATIC, LFORMC,
LDOSC, LW EBC, LASTUC, LNOUVC.
Ensuite, il sera intressant d'exploiter statistiquement
chaque tableau de contingence obtenu en croisant
l'indice de satisfaction SATIC avec la qualit de lecture
de chaque rubrique en classes en construisant des
tableaux du type ci-contre. Ces tableaux permettent de
calculer des distributions d'effectifs ainsi que des profils
lignes et des profils colonnes.
LFORMC
1
2
3
4
5
SATIC
1 2 3 4 5
241
Statistique infrentielle ;
Nous proposons d'utiliser le test du Khi-deux comme test de l'indpendance entre
l'indice de satisfaction et chacun des critres (les conditions de validit sont moins exigeantes
que pour un test de significativit de la corrlation).
3. Statistique multivarie infrentielle : la rgression linaire multiple peut permettre
d'expliquer l'indice de satisfaction en fonction des autres critres.
15.2.2.2. Axe 2 : intr t des thmes traits et indice de satisfaction (QT -> QT)
Intrt des thmes traits Indice de satisfaction
QT -> QT
Nous proposons la dmarche suivante :
1. Statistique univarie
a. Statistique descriptive : comme indiqu prcdemment
b. Statistique infrentielle : intervalle de confiance des moyennes.
2. Statistique bivarie
a. Statistique descriptive : rsum (coefficient de corrlation) et graphiques
(nuages bidimensionnels)
b. Statistique infrentielle : test de comparaison des deux moyennes.
15.2.2.3. Axe 3 : productions et intr t des sujets traits (QL -> QT)
Familles de productions
1 variable qualitative
QL -> QT
Indice de satisfaction
II s'agit de raliser l'tude conjointe d'une variable quantitative "note d'intrt des sujets
traits" et d'une variable qualitative "production" 4 modalits Pi (grandes cultures),
?2 (levage), Py (viticulture) et ?4 (autres productions).
Plusieurs dmarches statistiques ayant dj t dtailles (axe 1), nous proposons une
approche synthtique de progression statistique.
Statistique bivarie
1 QTxQL
a) Statistique descriptive : ensemble des statistiques descriptives univaries de
chaque production
- paramtres statistiques
- distributions des frquences et histogrammes groups.
b) Statistique infrentielle :
- analyse de variance un facteur
- tests de comparaison de variances
- tests de comparaison de moyennes.
242
2 QL x QL
a) Le dcoupage en classes de la variable quantitative note d'intrt fournit une
variable qualitative (ordinale)
b) Croisement de cette nouvelle variable qualitative et de la variable production
(QL x QL) et analyse du tableau de contingence obtenu
c) Statistique descriptive : calcul des profils selon les productions
d) Statistique infrentielle : test du Khi-deux.
15.3. PRINCIPAUX RSULTATS DE L'EXPLOITATION STATISTIQUE,
INTERPRTATIONET COMMENTAIRES
15.3.1. Axe 1 : impact de la qualit de lecture sur l'indice de satisfaction.
15.3.1.1. Statistique univarie
Le tableau suivant qui indique les paramtres statistiques rsume des donnes.
On calcule les principaux paramtres statistiques de la 1re variable (en rfrences
relatives) et l'on tire la poigne de recopie de la colonne vers la droite, sur la totalit des
critres quantitatifs.
Pour faciliter la lecture des rsultats, nous ne prsentons dans ce tableau que la partie
relative ce premier axe.
La lecture attentive de chacun de ces rsultats, d'interprtation lmentaire, est trs
instructive pour le commanditaire de l'enqute. On propose d'extraire quelques lments
remarquables.
MIN
QUARTILE 1
MEDIANE
QUARTILE 3
MAX
Amplitude
IQR
MOYENNE
ECARTYPEP
CV
LFORM
1,3
2,5
3
3,7
4,5
3,2
1,2
3,027
0,782
25,84%
LDOS
0,7
2,075
2,6
3,125
4,5
3,8
1,05
2,607
0,802
30,75%
LWEB
2
3
3,5
3,925
4,8
2,8
0,925
3,477
0,585
16,83%
LASTU
1,1
2,075
2,5
2,9
4
2,9
0,825
2,456
0,564
22,97%
LNOUV
1,3
2,4
3
3,5
4,9
3,6
1,1
2,977
0,778
26,12%
SAT1
0,7
2
2,6
3,2
4,8
4,1
1,2
2,644
0,897
33,94%
Tableau 15.2 Paramtres statistiques des critres notes de qualit de lecture
des divers types rubriques et de l'indice de satisfaction.
Paramtres de tendance centrale
Classons la mdiane et la moyenne des 5 notes de lecture et de l'indice de satisfaction
dans l'ordre croissant.
Les mdianes se classent de la faon suivante :
1 LW EB, lecture "Internet" (extrait + indication de sites)
2. LFORM + LNOUV, lecture des propositions de formation et nouveauts
3. LDOS + LASTU, dossier et astuces logiciels
4. SATI, indice de satisfaction (pratiquement gale aux prcdentes).
Avec les moyennes, nous obtenons peu prs le mme classement. Seule LASTU
passerait au 5
e
rang.
243
Un cart de note d'environ 1 point, donc relativement important, spare les premire et
dernire rubriques.
Pour chacun des critres, nous remarquons une forte proximit entre moyenne et
mdiane. Cela permet d'exclure d'ores et dj l'existence d'une forte dissymtrie dans les
distributions. Cette proximit est valorisante pour la moyenne qui restitue la pertinence
concrte qu'on lui accorde spontanment et parfois abusivement.
R emarque : il pourrait tre intressant de calculer un score de lecture globale.
Cependant, il parat dangereux d'accorder la mme importance relative chaque
rubrique. Ainsi, on peut supposer que les rubriques "dossier" et "astuces" sont
d'importances trs diffrentes. Les responsables du magazine pourraient accorder
des coefficients de pondration bien adapts chaque rubrique et dterminer ainsi un
score moyen de lecture pertinent restituant bien la ralit.
La plus forte amplitude revient l'indice de satisfaction qui volue de 0,7 (les pas
satisfaits du tout! ) 4,8 (les trs satisfaits).
Les rubriques DOSSIER et NOUVEAUTES prsentent de fortes amplitudes. Au
contraire, l'attitude des enquts pour Internet est beaucoup moins contraste. En effet, c'est
pour cette rubrique que l'on note la plus faible amplitude.
Il y a relativement peu d'cart entre les distances interquartiles.
Dans cet exemple, les carts-types, comparables du fait de l'identit d'unit, font
apparatre peu de diffrence. On retrouve sensiblement la mme hirarchie des critres que
celle que nous avons note pour l'amplitude.
Les coefficients de variation montrent de fortes diffrences entre les critres. Les carts-
types tant proches, cela restitue l'effet des moyennes trs diffrentes.
La rubrique INTERNET est munie du plus faible coefficient de variation (17%). On
retrouve une assez bonne homognit de qualit de lecture de cette rubrique. Au contraire,
DOSSIER et l'indice de satisfaction SATI ont de forts coefficients de variation.
Distribution de frquences et histogrammes
Nous proposons de transformer chaque note en classes de modalits 1, 2, 3, 4 et 5,
couramment utilises dans les questionnaires
Classe 1 : Note < 1 Classe 4 : 3 < Note <4
Classe 2 : 1 < Note ^2 Classe 5 : 4 < Note < 5
Classe 3 : 2 < Note <3
Nous calculons la distribution des frquences absolues (effectifs) au moyen de la
fonction matricielle FREQUENCES pour laquelle il faut indiquer la plage des donnes en
rfrences relatives et la matrice intervalles en rfrences absolues. On peut alors utiliser la
poigne de recopie ds la 2
e
distribution.
Classes
1
2
3
4
5
totaux
LFORM
0
18
51
49
6
124
{.DOS
4
27
59
31
3
124
LWEB
0
1
32
73
18
124
LASTU
0
31
79
14
0
124
LNOUV
0
20
49
46
9
124
SATI
4
31
51
30
8
124
Tableau 15.3 Distribution des frquences absolues des critres de qualit de lecture
et de l'indice de satisfaction.
244
Pour le calcul, nous dterminons les distributions de frquences relatives (calcul de la V
valeur + poigne de recopie) et construisons ensuite les histogrammes groups :
Classes
1
2
3
4
5
totaux
LFORM
0%
14%
41%
40%
5%
100%
LDOS
3%
22%
48%
25%
2%
100%
LWEB
0%
1%
26%
59%
14%
100%
LASTU
0%
25%
64%
11%
0%
100%
LNOUV
0%
16%
40%
37%
7%
100%
SATI
3%
25%
41%
24%
7%
100%
(les classes modales sont indiques en caractres gras)
Tableau 15.4 Distribution des frquences relatives des critres de qualit de lecture
et de l'indice de satisfaction.
Figure 1 5.1 Histogramme des critres de qualit de lecture et de l'indice de satisfaction.
Nous remarquons le fort poids de la classe modale de LW EB (prs de 59%), cette classe
tant, de plus, relative une classe de notes leves (3 4).
LFORM prsente une classe modale situe aussi dans une fourchette de notes leves.
On constate le large spectre de valeurs prises par SATI.
Les paramtres de tendance centrale (moyenne et mdiane) appartiennent aux classes
modales ou leurs limites.
En rsum on retiendra les trs bons scores des rubriques Internet et Formations. Elles
ont de meilleures moyennes et mdianes qui de plus concernent de forts pourcentage de
clients.
Statistique infrentielle.
Nous proposons d'associer aux moyennes les intervalles de confiance, par exemple, au
niveau de confiance 95%.
MOYENNE
INTERVALLE.CONFIANCE
a
b
LFORM
3,03
0,14
2,89
3,17
LDOS
2,61
0,14
2,47
2,75
LWEB
3,48
0,10
3,37
3,58
LASTU
2,46
0,10
2,36
2,56
LNOUV
2,98
0,14
2,84
3,11
SATI
2,64
0,16
2,48
2,80
Tableau 15.5 Intervalles de confiance des critres qualit de lecture et indice de satisfaction.
245
La fonction INTERVALLE. CONFIANCE donne la marge A. Nous avons galement
calcul l'intervalle de confiance ( a, b ]. On remarque que les valeurs de A sont trs proches.
11 est intressant que le classement des moyennes remarqu titre simplement descriptif
soit pratiquement valid par les intervalles de confiance
Nous proposons de complter ces rsultats en recherchant si les diffrences des
moyennes prises deux par deux sont significatives et si oui, quel risque. Nous ralisons un
test de Student (chantillons apparis) pour chaque couple de variables :
Probabilits
critiques
LFORM
LDOS
LW EB
LASTU
LNOUV
SATI
LFORM
9.33E-11
5.47E-15
4,88E-07
44,64%
1.45E-07
LDOS
4.4SE-41
19,67%
3.14E-12
47,01%
LW EB
8.87E-19
7.94E-19
4.75E-31
LASTU
8,99E-06
13,32%
LNOUV
3.3SE-07
(en gras : test significatifs)
Tableau 15.6 Probabilits critiques des tests de Student associs chaque couple de critres.
Le schma rcapitulatif qui suit permet de faire la comparaison des moyennes et des
intervalles de confiance. Sur ce schma, S indique une diffrence des moyennes significative
au risque a = l%o et NS une diffrence des moyennes non significative.
NS
l
L
NS
^
NS
l
AMU
i.nos
SATI
2,36
2,47
2,48
r
NS
l
2,46
2,61
2,64
LNU
i cr-t
2,56
2,75
2,80
V -
2,84 2,98 3,11
RM A*
\
J
>
S avec Lis
S avec les 4
autres critres
2,89 3,03 3,17
LWEB
| 3,37 3,48 3,58
S avec tous les critres
Figure 15.2 Schma rcapitulatif des positions relatives des intervalles de confiance.
246
R emarque : la confrontation des tests de Student aux intervalles de confiance est
concrtement enrichissante. Ce type de test de Student appartient classiquement la
statistique bivarie. Nanmoins, tant relatif des chantillons apparis, il peut tre
considr comme un test de conformit zro de la moyenne des carts des notes.
Par suite, on peut " la limite" considrer ce test comme appartenant la statistique
unidimensionnelle.
1 5.3.1 .2. Statistique bivarie
Statistique descriptive sur variables quantitatives
Pour orienter l'exploitation statistique vers l'objectif, on peut calculer le coefficient de
corrlation de l'indice de satisfaction avec la note de qualit de lecture de chaque rubrique.
On propose de dpasser l'objectif et d'afficher la matrice de corrlation. On aura ainsi un
aperu des corrlations entre rubriques.
LFORM
LDOS
LWEB
LASTU
LNOUV
SATI
LFORM
1,000
0,656
0,701
-0,560
0,567
0,595
LDOS
1,000
0,810
-0,792
0,775
0,792
LWEB
1,000
-0,765
0,736
0.761
LASTU
1,000
-0,725
-0,768
LNOUV
1,000
0,673
SATI
1
Tableau 15.7 Matrice de corrlation entre les qualits de lecture et l'indice de satisfaction.
On remarque que l'indice de satisfaction est corrl positivement de manire
relativement marque avec 4 critres sur 5 (qualit de lecture des rubriques formation, dossier,
Internet et nouveauts). Schmatiquement, l'indice de satisfaction a tendance crotre avec la
qualit de lecture de ces rubriques. Par contre, c'est l'inverse avec la qualit de lecture des
astuces pour logiciels (nette corrlation ngative entre SATI et LASTU). Les enquts lisant
attentivement les astuces de manipulation des logiciels achets LOGAGRI ont tendance
tre globalement moins satisfaits du magazine.
Par ailleurs, la qualit de lecture des astuces est corrle ngativement avec la qualit de
lecture des autres rubriques ; par suite, il apparat que les enquts lisant attentivement les
astuces logiciels ont tendance lire plus superficiellement les autres rubriques. Ces rsultats,
certainement instructifs pour les concepteurs du magazine, seront probablement enrichis par
les questions ouvertes gnralement prsentes dans ce genre de questionnaire.
Graphiques
Les nuages de points visualisent de manire simple et claire l'indice de satisfaction en
fonction de chacun des critres. Moins synthtiques que le coefficient de corrlation, ces
graphiques sont aussi ncessairement moins dformants et restituent fidlement la ralit des
donnes. Ils montrent bien les tendances voques par les corrlations. Afin d'obtenir un
indicateur de la qualit du modle "rgression simple" ou encore de la dispersion autour de ce
modle, nous avons trac la droite des moindres carrs et affich le coefficient de
dtermination R
2
.
247
y = 0,6825x + 0,5772
Lecture formations
Dans le graphique ci-contre, on
note une importante dispersion et
la prsence de quelques points
marginaux. Si l'on prenait la
libert d'carter les 4 points
(4,1,2), (4 ,1,8), (3,5 ,1,5) et
(3 ;4,8) parmi les 124, le
coefficient de dtermination
augmenterait de plus de 10%
(RÔ.469).
y = 0,8862x + 0,333
2 4
lecture dossier
Sur le graphique ci-contre,
le point (4 ; 1,5) est marginal
248
y=0,7764x+0,3319
2 4
lecture nouveauts
Figures 15.3 Nuages et droites de rgression de l'indice de satisfaction de la qualit de lecture de
chacune des rubriques.
Statistique descriptive sur variables qualitatives
Comme indiqu dans la proposition de dmarche statistique, nous allons crer 5
variables qualitatives ordinales respectivement associes aux 5 variables quantitatives
tudies (dcoupage en classes). Ensuite, l'indice de satisfaction class (SATIC) sera crois
avec chaque qualit de lecture classe.
Chaque tableau de contingence ainsi construit sera exploit de faon plus ou moins
approfondie selon la clart des rsultats et selon les besoins.
Par exemple considrons la relation entre lecture des formations et indice de
satisfaction. C'est le couple de critres o la corrlation est la moins nette et le nuage de points
le plus dispers. Il est donc intressant d'essayer une autre stratgie statistique.
Aprs avoir cr les variables LFORMC et SATIC (formule logique ou tris successifs),
formons le tableau crois associ :
Notons Ojj les effectifs observs et C;, les effectifs thoriques.
Nous avons cart la
classe 1 de LFORMC qui ne
contient aucune observation.
Compte tenu de la faiblesse des
effectifs, il parat plus adroit de
fusionner les deux dernires
lignes et les deux dernires
colonnes.
Effectifs
observs
LFORMC
2
3
4
5
Totaux 4 31 51 31 7
1
4
0
0
0
2
5
20
6
0
SATIC
3
8
26
1 7
0
4
1
5
23
2
5
0
0
3
4
Totaux
1 8
51
49
6
1 24
On obtient le nouveau tableau
de contingence 15.8.
Effectifs
observs
LFORMC
2
3
4 ;5
Totaux 35 51 38
1 ;2
9
20
6
SATIC
3
8
26
1 7
4;S
1
5
32
Totaux
18
51
5S
124
Tableaux 15.8 Effectifs observs dans le tableau de
contingence indice de satisfaction et qualit de
lecture des formations.
249
Ralisons les profils lignes et colonnes et visualisons les au moyen de graphiques
Profils lignes
LFORMC
2
3
4 ;5
Profil ligne
moyen
1;2
50%
39%
11%
28%
SAT1C
3
44%
51%
31%
41%
4;5
6%
10%
58%
31%
Totaux
100%
100%
100%
100%
Poids
15%
41%
44%
100%
Tableau 15.9 Profils lignes des qualit de lecture des formations.
profils qualit de lecture des formations
g profil ligne moyen
0
v
1
45
3
u
" 2
0% 10% 20% 30% 40% 50% 60% 70%
niveau des profils
Figure 15.4 Histogrammes des profils lignes.
Dsafc 4:5
safc 3
Dsatic 1:2
Profils colonnes
LFORMC
2
3
4 ;5
1 ;2
26%
57%
17%
SAT1C
3
16%
51%
33%
4:5
3%
13%
84%
Totaux 100% 100% 100%
Poids 28% 41% 30%
Profil colonne moyen
14%
41%
44%
100%
Tableau 15.10 Profils colonnes de l'indice de satisfaction.
profils indices de satisfaction
indice satisfaction
Figure 15.5 Histogrammes des profils colonnes.
250
0 LFORM 2
(3 LFORM 3
D LFORM 4:5
Commentaires succincts des profils lignes
- 50%des personnes "survolant" la rubrique "formations" (profil ligne "2") sont
globalement peu satisfaites du magazine ce qui fait prs du double par rapport
l'ensemble des enquts (profil moyen : 28%).
Au contraire, seulement 6%de ces personnes sont globalement satisfaites : c'est un
pourcentage trs infrieur celui de l'ensemble (profil moyen : 31%).
Le profil ligne "2" est un profil trs particulier : il est trs diffrent du profil moyen
et reprsente dans l'enqute un poids relativement faible (15%).
- Pour le profil ligne "3" des personnes lisant la rubrique avec une attention
moyenne, on remarque qu'un pourcentage important de ces personnes est peu ou
moyennement satisfait (10%de plus que pour le profil moyen). Ceci reprsente
41%des enquts.
- Pour le profil ligne "4-5, un trs fort pourcentage (58%) des enquts lisant
attentivement ou trs attentivement la rubrique est globalement satisfait ou trs
satisfait du magazine, soit prs du double que sur l'ensemble. De plus, cette
catgorie reprsente le plus fort pourcentage d'enquts (44%). Ce rsultat est
certainement encourageant pour les concepteurs du journal mme si le progrs sera
rechercher pour les deux autres catgories relatives aux profils lignes 2 et 3.
Commentaires succincts des profils colonnes
- Parmi les personnes peu satisfaites (profil 1-2), un trs fort pourcentage lit la
rubrique avec une attention moyenne. Ce groupe reprsente 28%des enquts.
Parmi les personnes moyennement satisfaites, un fort pourcentage (prs de 51%)
lit la rubrique avec une attention moyenne : cette catgorie reprsente 41%de
l'chantillon.
- Parmi les personnes satisfaites trs satisfaites, 84% lisent attentivement la
rubrique. Cette catgorie reprsente 31%des enquts.
Statistique infrentielle sur variables qualitatives
L'analyse descriptive a fait apparatre des profils bien contrasts, de fortes
"correspondances" entre niveau de qualit de lecture de la rubrique formation et niveau de
satisfaction.
Il est intressant de tester
l'indpendance de ces deux critres au
moyen d'un test du Khi-deux. Nous
calculons les effectifs thoriques et
ralisons le test.
LFORMC
2
3
4 ;5
Totaux 35 51 38
SATIC
1;2
5,081
14,395
15,524
3
7,403
20,976
22,621
4:5
5,516
15,629
16,855
Totaux
16
51
55
124
Tableau 15.11 Effectifs thoriques indice de satisfaction -
qualit de lecture de la rubrique formation.
Le rsultat du test du Khi-deux (1.003.E-7 montre que la liaison entre l'indice de
satisfaction et la qualit de lecture de la rubrique formation est trs hautement significative
(probabilit critique extrmement faible). L'analyse descriptive des profils, offrant des
rsultats particulirement clairs, il ne parat pas opportun d'approfondir ce test en recherchant
les cellules explicatives.
Nous poumons raliser le mme travail pour chaque tableau de contingence. Nous
prsentons ci-dessous les rsultats (effectifs observs, effectifs thoriques) et le rsultat du test
du Khi-deux. Des fusions entre lignes et entre colonnes ont t ralises lorsque les effectifs
thoriques taient trop faibles.
251
LDOSC
1
2
3
4
5
Totaux 4 31 51 30 8
SATIC
1
3
1
0
0
0
2
1
19
8
3
0
3
0
7
41
3
0
4
0
0
10
19
1
5
0
0
0
6
2
Totaux
4
27
59
31
3
124
Oij
LDOSC
<=2
2<note<3
>3
SATIC
<=2
24
8
3
2<note<=3
7
41
3
>3
0
10
28
Totaux 38 35 51
C.J
LDOSC
<a2
2<note<3
>3
SATIC
<2
8,75
16,65
9,60
2<note<=3
12,75
24,27
13,98
>3
9,50
18,08
10,42
Totaux
31
59
34
124
Totaux
31
59
34
124
TEST.KHIDEUX :
5,61 E-21
Liaison trs
hautement
significative
Totaux 35 51 38
Tableau 15.12.a Indice de satisfaction -qualit de lecture de la rubrique dossier.
Effectifs observs avant et aprs regroupement de classes et effectifs thoriques.
LWEBC
1
2
3
4
5
Totaux 4 31 51 30 8
SATIC
1
0
1
3
0
0
2
0
0
20
11
0
3
0
0
8
41
2
4
0
0
1
19
10
S
0
0
0
2
618
Totaux
0
0
32
73
3
124
Oij
LWEBC
<=3
>3
SATIC
<2
24
11
2<note<3
8
43
>3
1
37
Totaux 38 35 51
Cij
LWEBC
03
>3
SATIC
<<=2
9,31
25,69
2<note<=3
13,57
37,43
>3
10,11
27,89
Totaux 35 38 51
Totaux
33
91
124
Totaux
33
91
124
TEST.KHIDEUX :
5,61 E-21
Liaison trs
hautement
significative
Tableau 15.12.b Indice de satisfaction -qualit de lecture de la rubrique Internet.
252
LASTUC
1
2
3
4
5
Totaux
Oij
LASTUC
<s2
>2
Totaux
Cij
LASTUC
<a2
>2
Totaux 35 51 38 1
Tableau 15.12.C Indice de satisfaction
Effectifs observs avant et aprs re
LNOUVC
1
2
3
4
5
Totaux 4 31 51
Oij
LNOUVC
<2
2<note<3
3
Totaux 35 51 38
Cij
LNOUVC
<s2
2<note<=3
>3
Totaux 35 51 38
1
0
0
1
3
0
4 31 51 30
SATIC
<=2
1
34
35 51 38
SATIC
<2
8,75
26,25
SATIC
1
0
4
0
0
0
SATIC
<=2
13
19
3
SATIC
<=2
5,65
13,83
15,52
SA
2
0
1
21
9
0
2<note<=3
5
46
2<note<=3
12,75
38,25
2
0
9
19
3
0
2<note<=3
6
28
17
2<note<=3
8,23
20,15
22,62
TIC
3
0
5
44
2
0
>3
25
13
>3
9,50
28,5
3
0
6
28
16
1
>3
1
2
35
>3
6,13
15,02
16,85
4
0
17
13
0
0
Tt
;
9
1
Tt
'
9
4
0
1
2
25
2
30 8
Totaux
20
49
55
124
Totaux
20
49
55
124
5
0
8
0
0
0
8
aux
1
3
24
aux
1
33
24
-qua
roupe
S
0
0
0
2
6
Totau
0
31
79
14
0
124
lit de le
ment de
Totau
0
20
49
46
8
124
X
TEST.KHIDEUX :
2.12E-11
Liaison trs
hautement
significative
ecture de la rubrique a
classes et effectifs th
x
TEST.KHIDEUX :
1,22 E-12
Liaison trs
hautement
significative
stuces logiciels.
oriques.
253
Totaux 35
Tableau 15.12.d Indice de satisfaction -qualit de lecture de la rubrique nouveauts.
En rsum, l'indice de satisfaction est significativement dpendant de la qualit de
lecture de chacune des rubriques. Ce rsultat, issu de tests, s'appuie sur un recodage de la
quasi totalit des variables selon le mode schmatique "faible, moyen, fort"
15.3.1.3. Statistique multivarie infrentielle (variables quantitatives)
Pour rechercher l'influence ventuelle de la qualit de lecture des diffrentes rubriques
indice de satisfaction globale, nous proposons d'utiliser une rgression linaire multiple.
La variable expliquer est SAT1, indice de satisfaction. Les variables explicatives sont :
sur
- LFORM (lecture des formations)
- LDOS (lecture des dossiers)
- LW EB (lecture "Internet")
- LASTU (lecture des astuces logiciels)
- LNOUV (lecture des nouveauts).
Cette stratgie permettra l'intervention simultane de l'ensemble des rubriques dans
l'explication de l'indice de satisfaction.
Rgression
Rsidus
Total
Degr
de libert
5
118
123
SCE
69,759
30,085
99,845
CM
13,952
0,255
Fobserv
54,721
probabilit critique
3.804E-29
Tableau 15.13 Tableau d'analyse de variance de la rgression linaire multiple.
R sultats
Le tableau d'analyse de variance ci-dessus explique l'indice de satisfaction partir des
qualits de lecture des diffrentes rubriques. Il permet de conclure que le modle de
rgression est trs hautement significatif. Sa qualit est satisfaisante car le coefficient de
corrlation multiple est gal 0,836 et le coefficient de dtermination R
2
, proportion de
variabilit de l'indice de satisfaction explique par le modle atteint prs de 70% et le
coefficient de dtermination ajust, part de variance de l'indice de satisfaction explique par le
modle, atteint 69%.
Modle obtenu
SATI estim = 1,478 + 0,053 LFORM + 0,390 LDOS + 0,334 LW EB
- 0,477 LASTU - 0,001 LNOUV
Les units tant homognes pour toutes les variables, on remarque l'importance des
valeurs absolues des coefficients de LDOS, LW EB et LASTU.
Quand la note de lecture du dossier augmente de 1 point, les notes de lecture des autres
rubriques tant inchanges, l'indice de satisfaction globale crot de 0,39.
Quand la note de lecture des extraits et rfrences Internet augmente de 1 point, les
notes de lecture des autres rubriques tant inchanges, l'indice augmente de 0,334.
On retrouve l'incidence oppose de la qualit de lecture des astuces logiciel ; quand cette
note augmente de 1, les notes de lecture des autres rubriques tant inchanges, l'indice de
satisfaction diminue de 0,477.
Test des coefficients
La note de qualit de lecture de chacune des rubriques contribue-t-elle de faon
significative expliquer l'indice de satisfaction ?
254
Voici les probabilits critiques relatives aux statistiques T de Student associes chacun
des coefficients :
LFORM
LDOS
LW EB
LASTU
LNOUV
Probabilit critique associe
la statistique T
0,526
0,001
0,033
0,001
0,993
Signifcativit du test
NS
S(^)
S(*)
se")
NS
Tableau 15.14 Rsultats des tests de Student associs aux coefficients des critres explicatifs,
qualit de lecture des rubriques.
Les notes de qualit de lecture des rubriques Dossier, Internet et Astuces contribuent de
manire significative expliquer l'indice de satisfaction globale. Ceci ne signifie pas que l'on
doive retirer du modle les lectures des deux autres rubriques. Nanmoins, on peut rechercher
un modle plus allg, condition que la chute du coefficient de dtermination ne soit pas
trop importante.
Par ailleurs, dans notre exemple, il est intressant de rappeler que, parmi les modles
une seule variable explicative (rgressions linaires simples), le plus explicatif, fourni par
"lecture dossier", affiche un coefficient de dtermination atteignant dj 62,7%. Si ce modle
est simple et de qualit, il ne prsente pas toutefois l'intrt du prcdent.
R sidus
II est prudent d'examiner les rsidus. En effet, un fort rsidu, indiquant un cart
important entre les indices de satisfaction rel et estim (ou prdit), peut mettre en vidence
une observation aberrante, voire une erreur de saisie et, dans tous les cas, une donne
marginale.
Rappelons que la ralisation des tests de significativit ncessite la normalit des
rsidus. Nous conseillons le calcul de la distribution des frquences relatives des rsidus
normaliss assortie de l'histogramme.
R sidus
normaliss
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
> 2
Frquences
absolues
6
6
2
14
30
58
14
8
7
2
Frquences
relatives
4,84%
4,84%
1,61%
11,29%
24,19%
46,77%
11,29%
6,45%
5,65%
1,61%
Distribution des rsidus normaliss
50% -,
40% -
30%
20%
10% f
o% n, n, ^, y
0%
^^^^? Q? ^s.? ? ^^
Tableau 15.15 Distribution des Figure 15.6 Histogramme des
rsidus de rgression, rsidus de rgression.
Nous remarquons que 4,84%des rsidus ont une valeur infrieure ou gale -2 : ce
pourcentage est un peu fort puisque, dans le cas d'une distribution normale, on peut s'attendre
2,5%des valeurs infrieures -1,96. En examinant les valeurs des rsidus normaliss,
255
on remarque une valeur importante (-3,238) correspondant la 56" observation et 2 autres
valeurs voisines de -2,7 et correspondant aux observations n 48 et n103. Le pointage de ces
enqutes particulires peut ventuellement intresser les responsables du magazine.
La distribution des frquences, assortie de l'histogramme, montre une relative symtrie.
Par cette seule analyse descriptive, on ne peut conclure la normalit des rsidus ; on peut
cependant vrifier qu'il n'y a pas une importante contradiction avec la distribution normale.
Les rsidus tant des erreurs, il est sage d'examiner les graphiques des rsidus en
fonction de chaque variable explicative, la prsence d'une "structure" dans le nuage montrerait
que le rsidu n'est pas une vritable erreur, puisque l'on pourrait encore le modliser l'aide
d'une fonction assortie d'une nouvelle erreur associe. La prsence d'une structure peut aussi
indiquer l'absence d'une variable explicative "intressante". Dans notre cas, aucune structure
n'apparat dans ces nuages.
LFORM Graphique des rsidus
',"
1,0
0,0
(
-1,0
^
' 1 .
. . * *
\,':'>
T:
frsfe.
-y.;

t"
i
'
! i
!
LFORM
LASTU Graphique des rsidus LNCXJV Graphique des rsidus
1,>
1,0
0.5
-0.5
-1,0
-1,5
*
i
:
1
:" ' ' ".-tJI
i..,.'. r . "W?
1
'...^".
' . ' ,

" . . '. ' - .
.*. ^-
^&y
.*

y^
^

!
4'-' !
1,0
0,5
tfl
S0,0
S-0,5'
-1.0
-1,5
. '
:
- -
... .
A
. ,
^ss^
.^? - *
. < .*.
'
*
*
*
1
LASTU LNOUV
LDOS Graphique des rsidus
Figures 15.7 Nuage des rsidus
en fonction des critres explicatifs
qualit de lecture des rubriques.
1,000
0,500
^ 0,000
1-0.500
-1,000
-1,500
\-;^2'%*'r:-
i * <
.
:
.- ' *
* :

. .* * *
a^saSst
i

*

*

256
15.3.2. Axe 2 : intr t des thmes traits et indice de satisfaction
(QT ^QT)
15.3.2.1. Statistique univarie
MIN
QUARTILE 1
MEDIANE
QUARTILE 3
MAX
amplitude
IQR
MOYENNE
ECARTYPEP
CV
SATI
0,7
2
2,6
3,2
4,8
4,1
1,2
2,644
0,897
33,94%
INTSU
1,2
2,675
3,3
3,725
5
3,8
1,05
3,186
0,785
24,64%
KURTOSIS
COEFFICIENT.ASYMETRIE
-0,324
0,173
-0,447
-0,320
L'indice de satisfaction a dj t
comment. La note d'intrt des sujets se
rsume sensiblement de la mme manire
mais "amliore" d'environ 1/2 point. Pour
cet indicateur, on remarque galement les
proximits entre moyenne et mdiane.
R emarque
Notons D l'cart entre les notes de
satisfaction et d'intrt des sujets.
D = SATI - INTSU
Rsumons D
-Mdiane =-0500
-Moyenne = -0,540
- Ecart-type = 0,503.
Tableau 15.16 Paramtres statistiques de
l'intrt des sujets et de l'indice de satisfaction.
Distribution des frquences et histogrammes groups
Frquences relatives
Classes
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
100% 100%
SATI
3,23%
9,68%
15,32%
20,97%
20,16%
16,94%
7,26%
3.23%
3,23%
INTSU
0,00%
2,42%
8,87%
10,48%
19,35%
21,77%
24,19%
10,48%
2,42%
Tableau 15.17 Distribution des
frquences relatives de l'intrt des
sujets et de l'indice de satisfaction.
Figure 15.8 Histogramme de l'intrt
des sujets et de l'indice de satisfaction.
Comme on a pu le remarquer lors de l'examen des paramtres statistiques de positions, il
apparat le dcalage vers la droite (fortes valeurs) de la distribution de la note d'intrt des
sujets par rapport l'indice de satisfaction.
257
Mdiane et moyenne n'appartiennent pas aux classes modales mais ceci est d la
finesse de l'amplitude des classes (0,5 point) ; avec une amplitude de 1 point, l'appartenance
est effective.
Indiquons l'intervalle de confiance sous sa forme d'cart alatoire A autour de la
moyenne observe dans l'chantillon.
Au niveau de confiance 95%, nous trouvons A '= 0,16 pour l'intrt des sujets et A = 0,14
pour l' indice de satisfaction.
Les deux critres ont des longueurs d'intervalle de confiance proches de 0,3. Par ailleurs
nous avons not un cart de 0,5 point entre les moyennes. En comparant ces deux valeurs,
l'importance des carts de moyenne semble vidente. Pour la mettre en vidence, nous allons
dterminer les intervalles de confiance au niveau 95%. L'valuation des intervalles de
confiances donne [2,5 ; 2,8]pour l'indice de satisfaction et [3 ; 3,3]pour l'intrt des sujets.
Ces intervalles sont disjoints. Le score de l'intrt des sujets semble donc dominer celui de
l'indice de satisfaction.
15.3.2.2. Statistique bivarie
Le rsum de la srie double par le coefficient de corrlation donne le rsultat
R = 0,829
L'intrt des sujets traits et l'indice de satisfaction sont fortement corrls positivement.
L'augmentation de la note d'intrt des sujets induit une augmentation de l'indice de
satisfaction, ce qui est assez naturel.
Graphique : nuage bidimensionnel
Titre du graphique
y =0,9481x-0.3775
R
2
= 0,6879
SATI
Linaire
(SATI)
intr t sujets
Le nuage s'talant longitudinalement,
nous avons affich la droite des moindres
carrs. Le coefficient de dtermination
nous montre que prs de 70% de la
variabilit de l'indice de satisfaction est
explique par ce modle de rgression
simple.
Expression du modle :
Lorsque la note d'intrt des sujets crot
de 1 point, l'indice de satisfaction augmente
de 0,948.
Figure 15.9 Droite de rgression de
l'indice de satisfaction en fonction de
l'intrt des sujets.
Pour tester l'galit des deux notes moyenne d'intrt des sujets et de satisfaction, on
ralise le test de Student (chantillons apparis).
258
On trouve une probabilit critique de 2,3E-22. Le test est trs hautement significatif. Les
notes moyennes d'intrt des sujets et de satisfaction sont significativement diffrentes (risque
2.3E-22).
15.3.3. Axe 3 : intr t de thmes traits selon les productions
15.3.3.1. Statistique bivarie
Stratgie 1 : donnes de base QT x QL
On dcrit la note d'intrt des sujets pour chaque famille de production.
Les paramtres statistiques sont indiqus sur le tableau 15.18 suivant
NBVAL
MIN
QUARTILE 1
MEDIANE
QUARTILE 3
MAX
Amplitude
IQR
MOYENNE
ECARTYPEP
CV
Grandes
cultures
P1
19
1,8
2,55
3
3,45
4,2
2,4
0,9
3,016
0,632
21%
levage
P2
33
1,2
1,9
2,3
2,8
3,7
2,5
0,9
2,355
0,585
25%
Viticulture
P3
39
2
3,3
3,7
3,9
4,6
2,6
0,6
3,590
0,511
14%
Autres
P4
33
2,6
3,2
3,6
4
5
2,4
0,8
3,639
0,573
16%
Tableau 15.18 Paramtres statistiques de l'intrt des sujets selon la famille de production.
On remarque la proximit des moyennes et des mdianes pour chacune des productions.
La production Pz (levage) se dmarque nettement par sa "svrit" (valeurs les plus
basses). Les meilleurs scores moyens et mdians sont relatifs la viticulture et au
rassemblement "autres productions".
Du point de vue de la dispersion, les diffrentes productions sont voisines : amplitude,
IQR et carts-types sont homognes. Le coefficient de variation de la catgorie "Elevage" est
plus lev. Ceci est la consquence de la faible valeur de la moyenne. On note un effet
similaire quoique moins marqu pour les "grandes cultures" (Pi).
Enfin, en examinant les couples (Min, Max) et (Qi, Qy), on remarque la hirarchie
approximative suivante, dans le sens de la croissance d'intrt :
1. Elevage ; 2. Grandes cultures ; 3. Viticulture ; 4. Autres productions. (3 et 4 proches).
Distribution des frquences et histogrammes groups
Les amplitudes des quatre productions tant voisines de 2,5 et les "Min" tant dcals,
nous avons choisi un intervalle de longueur de classe limite 0,5 point. Dans cet axe de
recherche, nous avons besoin d'une approche plus fine des distributions.
Nous remarquons une assez bonne symtrie des distributions qui prsente une allure de
loi gaussienne. Nous retrouvons la "translation" des distributions dj remarque travers les
indices statistiques rsums. En partant des notes les plus basses vers les notes plus leves,
on trouve successivement l'levage (P ), les grandes cultures (Pi), la viticulture (P ) et, trs
proches, les autres productions (P^).
259
Il apparat galement que les classes modales contiennent la moyenne et la mdiane
pour les 4 productions. C'est assez naturel pour des distributions relativement symtriques.
Classes
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Frquences absolues
Pi
0
2
3
5
5
3
1
0
P
3
8
10
9
1
2
0
0
P3
0
1
0
5
11
15
6
1
P4
0
0
0
5
10
10
6
2
Totaux 19 33 39 33
Classes
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Frquences relatives
P,
0%
11%
16%
26%
26%
16%
5%
0%
P2
9%
24%
31%
27%
3%
6%
0%
0%
Pa
0%
3%
0%
13%
28%
38%
15%
3%
P4
0%
0%
0%
15%
30%
31%
18%
6%
Totaux 100% 100% 100% 100%
Tableaux 15.19 Distributions des frquences absolues et relatives de l'intrt des sujets selon la
production.
Figure 15.10 Histogrammes de l'intrt des sujets selon la famille de production.
Est-ce que les notes moyennes d'intrt des sujets sont identiques pour tous les types de
production ? Pour rpondre cette question, l'outil classique est l'ANALYSE DE
VARIANCE un facteur, ici le facteur production.
Cependant, pour l'utiliser, nous devons nous assurer que les distributions des quatre
productions sont gaussiennes et de mme variance.
260
Normalit des distributions
Nous venons de noter l'allure gaussienne des distributions. Un test de normalit pourrait
tre ralis au moyen du test du Khi-deux. Ce test a des limites : nous savons qu'il est
dpendant du dcoupage en classes. De plus, dans le cas souhait d'acceptation de normalit,
le risque p est inconnu. Cependant il nous rassure sur une certaine lgitimit. Nous laissons au
lecteur le soin de le raliser (cf 9.1.2).
Nous considrerons les distributions sensiblement normales. De plus, les chantillons
n'tant pas petits, l'approximation sera d'autant plus tolrable.
galit des variances
Nous ralisons le test F au moyen d'Excel (rsultat divis par deux)
Toutes les probabilits critiques sont
suprieures, au niveau de test classique :
Couples de
productions
P i
P ,
P ,
P i
P 2
P S
P S
P 3
?4
P 3
P 4
P 4
(1/ 2)*TESTF
32,057%
11,911%
28,678%
20,879%
45,524%
24,415%
5%. Nous dcidons de ne pas refuser
l'galit des variances. Nous considrons
qu'il y a homoscdasticit de la note
d'intrt pour les 4 productions.
Nous ralisons maintenant l'analyse
de variance un facteur, le facteur
production 4 modalits Pi, P2, ?3 et P4.
Tableau 15.20 Test d'galit des
variances de l'intrt des sujets pour les
couples de production (probabilits
critiques).
Origine des dispersions
INTERCLASSES
INTRACLASSES
Total
SCE
36,505
39,902
76,407
DDL
3
120
123
CM
12,168
0,333
Fobserv
36,595
P robabilit
critique
7.23E-17
F thorique
2,680
Tableau 15.21 Tableau de l'analyse de variance de l'intrt des sujets selon le facteur production 4
modalits Pi, Pz, Pa et P<.
L'analyse de variance est trs hautement significative. Au moins une des quatre notes
moyennes se distingue des autres. Dans l'tude descriptive, nous avons remarqu que la
moyenne de la note d'intrt pour la production "levage" (Ti) tait nettement plus petite que
les autres. Nous proposons de faire une autre analyse de variance en cartant cette production.
Il ne reste donc que trois modalits seulement : Pi, Pa et ?4.
Origine des dispersions
INTER CLASSES
INTR ACLASSES
Total
SCE
5,397
28,620
34,017
DDL
2
88
90
CM
2,698
0,325
Fobserv
8,297
Probabilit
critique
5.00E-04
F thorique
3,100
Tableau 15.22 Tableau de l'analyse de variance aprs avoir cart la production P;.
Malgr la trs forte croissance de la probabilit critique, cette analyse de variance reste
significative.
261
Nous proposons enfin de comparer les notes
moyennes en considrant les productions 2 2. Nous
ralisons un test de Student par couple de productions,
ce qui quivaut une analyse de variance un facteur
deux modalits.
Couples de
productions
P,
P,
P,
?2
?2
PS
Pi
PS
?4
P3
?4
?4
Test de
Student
0,048%
0,059%
0,081%
0,000%
0,000%
70,29%
Prises 2 par 2, les notes moyennes sont
significativement diffrentes, exceptes celles de Pa
(viticulture) et P4 (autres productions). L'analyse
descriptive avait dj mis en vidence l'troite
proximit entre ces deux familles de production. ^^^ ^ -^^ 3^^ ^
couples de production (probabilits
critiques)
Stratgie 2 : donnes de base QL x QL
Comme il a t expliqu dans les exploitations statistiques prcdentes, la variable
quantitative "note d'intrt" peut, aprs dcoupage en classes, tre transforme en variable
qualitative. Un choix de classes a t ralis lors de la dtermination des distributions de
frquence (tude descriptive). En examinant la distribution des frquences absolues, il
apparat, dans les classes extrmes, des effectifs faibles, ce qui est logique, mais aussi des
effectifs nuls. Nous dcidons de regrouper les classes extrmes et notons :
INT1 pour note < 2,5
INT2 pour 2,5< note < 3
INT3 pour 3 < note < 3,5
INT4 pour note > 3,5
(peu d'intrt)
(intrt moyen)
(bon intrt)
(trs bon intrt)
Le tableau de contingence (effectifs observs)
correspondant est indiqu ci-contre.
Classes
<=2,5
3
3,5
>3,5
Oij
INT1
INT2
INT3
INT4
P1
5
5
5
4
P 2
21
9
1
2
P3
1
5
11
22
P4
0
5
10
18
Nous proposons de n'examiner
question, ce sont les plus intressants.
Tableau 15.24 Rpartition des effectifs
observs selon les niveaux d'intrt des
sujets et les productions
que les profils selon les productions car pour notre
Intrt
INT1
INT2
INT3
INT4
P1
27%
26%
26%
21%
P 2
64%
27%
3%
6%
P3
3%
13%
28%
56%
P4
0%
15%
30%
55%
P rofil moyen
22%
19%
22%
37%
Totaux 100% 100% 100% 100% 100%
Poids 15% 27% 31% 27%
Tableau 15.25 Profils lignes productions.
262
Ce nouveau dcoupage en classes, plus grossier du fait de la fusion des classes extrmes,
met en vidence les rsultats dominants.
Pour le profil "grandes cultures" (Pi), la rpartition selon les quatre classes d'intrt est
sensiblement uniforme. On note le faible poids de cette catgorie dans l'chantillon enqut
Pour le profil "levage" (P2), prs de 90%des enquts de cette catgorie ont trouv peu
d'intrt ou un intrt moyen aux sujets traits (contre prs de 40%dans l'ensemble des
enquts).
En ce qui concerne les profils "viticulture " (P ) et "autres productions (P4), ces
catgories ont massivement apprci les thmes traits. Prs de 85%des enquts de ces
catgories ont marqu un bon ou trs bon intrt, contre environ 59%pour l'ensemble. On
peut souligner que ces catgories ont un poids important dans l'chantillon (respectivement
31% et 27%). Qualitativement, on retrouve les rsultats des analyses prcdentes mais
l'expression de ces pourcentages par production et toutes productions confondues sont
gnralement trs apprcies et trs parlantes pour les commanditaires de ce type d'enqute.
Nous proposons de raliser une test du Khi-deux pour voir si l'intrt des sujets traits
est homogne selon les productions.
Cij
INT1
INT2
INT3
INT4
P1
4,137
3,677
4,137
7,048
P2
7,185
6,387
7,185
12,242
P3
8,492
7,548
8,492
14,468
P4
7,185
6,387
7,185
12,242
Tableau 15.26 Effectifs thoriques intrt des sujets -type de production.
Comme on le pressentait, le rsultat de TEST.KHIDEUX montre que le test est trs
hautement significatif. L'intrt varie selon le type de production.
Les profils selon les productions sont suffisamment clairs pour viter toute nouvelle
recherche.
En considrant les calculs relatifs ce test, une petite critique s'impose. Certains
effectifs thoriques (production "grandes cultures" Pi) sont un peu faibles. Gnralement, on
considre que l'effectif thorique doit tre au moins gal 5, mme si 3 est parfois tolr. On
peut fusionner d'une part les 2 premires classes de niveau d'intrt et d'autre part les 2
dernires et on refait le test.
Tableaude contingence : effectifs
observs
Oii
INT1-INT2
INT3-INT4
P1
10
9
P2
30
3
P3
6
33
P4
5
28
Tableau de contingence : e f f e c t i f s
______thoriques______
Cij
INT1-INT2
INT3-INT4
P1
7,81
11,19
P2
13,57
19,43
P3
16,04
22,96
P4
13,57
19,43
Test Khi-deux : 8.018E-12.
Tableau 15.27 Effectifs observs (Oij) et thoriques (C,,) des niveaux d'intrt des sujets (aprs
regroupement des classes) selon les productions .
Le rsultat est similaire, mais la richesse des donnes est cependant un peu trop masque
puisque nous n'avons plus que 2 niveaux d'intrt que l'on peut qualifier, par exemple, de
"faible" et "fort".
263
15.4. CONCLUSION
En rsum, nous retiendrons que la catgorie "levage" est peu intresse par les sujets
traits contrairement aux famille "viticulture" et "Autres productions" ; la famille "Grandes
cultures" a quant elle des apprciations partages.
On peut supposer que les "leveurs", perturbs par les rcentes crises, souhaitaient peut-
tre des informations sur ces sujets...
Pour les concepteurs du magazine, le rsultat des "viticulteurs" est clair. Le bon rsultat
de la famille "Autres productions", catgorie "fourre-tout", souvent ncessaire dans ce genre
d'enqute, n'est pas vraiment surprenant. Un ventail de producteurs confronts la diversit
des sujets peut, globalement, gnrer un bon intrt. Ce rsultat, mme peu cibl, est
certainement encourageant.
D'autres axes de recherches pourraient tre exploits avec ces donnes tels que par
exemple mettre en rapport les qualit de lecture des rubriques et l'intrt des sujets, travailler
par famille de production, etc. Avec l'outil Excel, les dmarches seraient relativement
voisines.
En conclusion, nous avons dcrit les donnes, montr la souplesse de transformation
des variables et enfin essay d'valuer des risques. Par des stratgies statistiques diffrentes,
nous avons abouti aux mmes conclusions concrtes. Pour les praticiens, c'est le but
fondamental de la dmarche statistique.
En statistique applique, le souci rel est de fiabiliser les rsultats.
264
16. CONSEILS AU PRATICIEN DBUTANT...
Dans ce chapitre, en guise de conclusion, nous nous permettons de donner quelques
recommandations au praticien dbutant. Dans une approche rapide et donc simplificatrice,
nous pensons deux profils bien distincts de tels utilisateurs : le statisticien sans pratique et le
professionnel sans culture statistique.
1. Le praticien ayant reu une solide et classique formation en statistique
Nous savons (par exprience! ) qu'il matrise plutt bien la construction des outils
thoriques notamment dans leurs aspects mathmatiques. La formation ne privilgie pas
l'utilisation concrte de l'outil ni le travail sur des donnes relles. Il est quelque peu
dboussol devant cette ralit, son immense diversit et la multiplicit des facteurs en
interaction. Il est dmuni face la difficult de faire pouser ce rel la beaut parfaite des
lois mathmatiques pourtant nombreuses et qui lui sont familires.
2. Le praticien par ncessit et besoin mais sans culture statistique
Son profil est quasiment l'oppos du prcdent. Il travaille dans un domaine exigeant
l'analyse et la stratgie statistique. Malgr les plaisanteries courantes sur la Statistique, il la
considre gnralement comme une technique, une science qui lui permettent de rsoudre
obligatoirement ses problmes et de leur trouver une rponse unique et prcise. Il a parfois un
peu de mal apprhender l'aspect alatoire d'un chantillon ou d'une enqute et accepter la
prsence de risques. Il matrise bien la ralit de ses donnes.
3. On peut rajouter ces portraits celui des tudiants dans les disciplines ncessitant
l'utilisation de la statistique. Intermdiaire entre les deux types que nous venons de dcrire, il
volue gnralement rapidement vers le deuxime.
A tous ces utilisateurs, nous conseillons de commencer dcrire des donnes relles.
Excel est un trs bon outil pour cette initiation.
Nous suggrons tout d'abord d'observer attentivement les donnes puis de les classer, les
ordonner. Ensuite il faut se familiariser "concrtement" avec les outils les plus simples et les
plus classiques de statistique descriptive.
Aprs avoir appris rsumer les donnes concrtes par des paramtres statistiques et
les illustrer par des graphiques, il est instructif de faire un va-et-vient entre les donnes et les
rsultats trouvs. Cela permet de bien saisir les indicateurs pertinents qui schmatisent les
donnes mais aussi l'invitable dformation qu'induisent les outils statistiques. Tester la
sensibilit des rsultats en cartant les valeurs extrmes, en modifiant des valeurs, en adoptant
plusieurs dcoupages en classes pour la ralisation d'histogrammes sont des stratgies
ludiques et particulirement formatrices pour apprivoiser la fois les donnes concrtes et
l'utilisation des outils.
Aprs l'apprentissage de la statistique descriptive classique, nous conseillons plus
spcifiquement au praticien du deuxime type, praticien par ncessit, de se familiariser avec
le calcul des probabilits et d'aller en quelque sorte la rencontre de l'alatoire!
Nous conseillons de "jouer" avec les simulations, d'essayer ainsi d'approcher les
rsultats de convergence tels que la loi des grands nombres, le thorme central limite. Cela
lui permettra de rentrer en douceur dans la statistique infrentielle. Nous lui conseillons par
exemple d'extraire d'une population bien dfinie plusieurs chantillons alatoires de mme
taille L'analyse descriptive des moyennes de ces chantillons conduit de faon naturelle une
prise de conscience des fluctuations alatoires de ces moyennes, la ncessit de dfinir la
"marge d'erreur", l'intervalle de probabilit (ou de pari), les tests. Ritrer une telle extraction
en augmentant la taille de l'chantillon et c'est alors la distribution normale des moyennes qui
va se dessiner et lisser les histogrammes de l'analyse descriptive... Un tel parcours conduit
invitablement prendre conscience de la fragilit de certains rsultats et de la notion de
risques. Cela est d'autant plus vrai que dans le rel, on travaille souvent partir d'un petit
nombre d'chantillons voire d'un seul.
La convivialit d'Excel permet d'entrer trs progressivement dans les statistiques et de
prendre de plus en plus de hauteur vis vis des donnes. Elle facilite l'initiation ainsi que le
travail en quipe puisque ce logiciel est trs largement rpandu.
Il nous parat ensuite important d'encourager le praticien poursuivre sa formation en
tudiant d'autres techniques statistiques comme l'analyse exploratoire des donnes, l'analyse
de donnes qui permettent de mieux "embrasser" la richesse de la realit. Des logiciels
spcifiques de statistique seront alors ncessaires. Nous conseillons de choisir des logiciels
communiquant facilement avec Excel tant au niveau des donnes que des rsultats
("importation" et "exportation").
Pour terminer, le praticien, parti du rel y revient! Nous lui rappelons que ce sont avant
tout les donnes (issues bien entendu d'un recueil correct) qui ont raison et non la technique
statistique. Lorsqu'on travaille sur des ralits de terrain, nous savons que nous sommes
contraints adopter des compromis avec la thorie tant au niveau des types de variables que
des conditions de validit, etc. Le plus sage est dj d'inventorier ces entorses et ensuite de
rechercher d'autres stratgies statistiques permettant d'approcher le mme aspect concret. Une
relative stabilit dans les rsultats concrets est scurisante. Nous incitons le praticien se
poser des questions : quelle fiabilit (ou fragilit) accorder telle dcision ? Est-ce que les
dcisions envisages sont logiques par rapport au concret ? Peut-on valider sans danger les
rsultats ? Dans tous les cas. le bons sens doit tre privilgi.
Nous recommandons aussi une grande prudence dans la recherche d'explications de
rsultats de corrlations ou de correspondances. Nous pensons que seul le commanditaire de
l'tude, qui connat bien son domaine peut oser avancer la causalit ou l'hypothse d'artefacts
ventuels.
Enfin, nous avons tous entendu des propos ressemblant "on peut faire dire tout ce que
l'on veut aux statistiques" Ils ne sont pas tout fait dnus de vrit puisque les outils
statistiques laissent une part de libert dans la prise de dcision Cela commence par la
relative autonomie dans l'art de poser les questions dans une enqute. Qui n'a jamais dcel
dans certains questionnaires un manque certain d'objectivit ? Il y a ensuite la faon
d'exploiter les donnes, de les classer, de les regrouper, de les recoder. Le choix de la hauteur
du risque pris dans la dcision reste un problme pour le moins dlicat. On peut enfin jouer
fortement sur le "look" de la prsentation des rsultats. Plus on travaille dans le rel et plus on
prend conscience de cette souplesse et de cette mallabilit de l'outil statistique.
Objectivit, prudence et bon sens devraient tre les matres mots des utilisateurs!
On comprend que tout cela nous apprend apprcier mais aussi nous tonner, rester
critique et, dans le meilleur des cas, dcoder les rsultats statistiques dans les domaines
conomiques ou techniques , publis ici ou l sur les nombreux mdias mis notre
disposition.
En conclusion, la statistique nous confronte notre thique personnelle . .
266
ANNEXES
dbut 28/04/06 16:05 Page 2
PRINCIPALES FONCTIONNALITES UTILISEES DANS
EXCEL
Systme de rfrences (Al ou L I CI )
Poigne de recopie
Rfrences absolues et relatives
Fonctions et botes de dialogue
Nommer une plage de cellules
Gestion des "manquants"
Formules matricielles
Tableau crois dynamique
*********
R emarque : la prsente annexe ne prtend en aucune manire remplacer la
nombreuse littrature consacre l'utilisation du logiciel ni l'utilisation de son aide
en ligne (touche FI). Nous rappelons simplement quelques principes importants de
manipulation frquemment utiliss dans le prsent ouvrage.
1. SYSTME DE RFRENCE (Al OU L1C1)
II s'agit du procd permettant de localiser une cellule et, par extension, une plage de
cellules.
Par dfaut, Excel utilise le style de rfrence "Al" qui tiquette les colonnes par des
lettres (de A IV, pour couvrir 256 colonnes) et les lignes par des numros (de 1 65536).
Ces lettres et numros portent le nom d'en-ttes de ligne et de colonne.
f i
33 . .
-S- ' ^ ^
^-
1
fe
Dans le systme de rfrence dit "L1C1", les colonnes sont elles aussi numrotes (de 1
256). La cellule B5 ci-dessus s'appelle alors L5C2 (ligne 5 et colonne 2).
Pour passer d'un systme l'autre, il faut utiliser l'onglet "Gnral" (zone Paramtres) du
menu Outils / Options.
En fonction du systme que l'on a choisi, les formules de calcul s'crivent de faon
diffrente. Par exemple, la somme des 3 cellules portant les valeurs 9, 2 et 3 ci-dessous,
obtenue en slectionnant la cellule en dessous de celle portant le libell "Total" puis en
cliquant le bouton E (barre d'outils standard) ou en appelant la fonction SOMME, s'crit :
=SOMME (B2: D2) dans le systme de rfrences Al (= somme des cellules
comprises entre les cellules B2 et D2, bornes comprises); il s'agit de rfrences
"absolues", c'est dire par rapport au refrentiel de la feuille Excel : colonnes B et
D, ligne 2.
E2 .j^',:r
t
x
3,
^,A ..8-
Xi
9
C
X;
2
j =SOMME(B2:D2)
101
-r
Xs
3
E
Total
14
F
^ -
ai =30MME(LC(-3):LC(-li)
^t
u
.1
2 ^
Xi
a
3
X
2
L
4
4
Xa
3
5
Total
14
6 L ? .
'3..
=SOMME(LC(-3): LC(-1)) dans le systme L1C1. Dans ce systme, les rfrences
sont faites par rapport la cellule devant recevoir le rsultat de la fonction(= somme
des cellules comprises sur la mme ligne, entre les colonnes situes respectivement 3
colonnes avant, c'est dire gauche et 1 colonne avant). Dans ce systme, Excel
utilise par dfaut des rfrences "relatives". L'expression =SOMME(L2C2: L2C4)
crites avec des rfrences "absolues" aurait, bien entendu donn le mme rsultat.
Dans le paragraphe 1.3, on verra comment, inversement, on peut crire des
rfrences relatives avec un systme de rfrence Al .
2. POIGNEE DE RECOPIE
Pour certains types de calculs, il peut tre trs pratique d'utiliser la poigne de
recopie .
Exemple 1
Soit un ensemble de variables relatives aux mmes observations (observations =
individus = units statistiques = u s ). Pour chacune de ces variables, on souhaite calculer les
paramtres statistiques classiques : moyenne, cart-type, SCE...
VARIABLES
Observations
^
1
...
n
Xi
Xll
Xnl
Moyenne
Mdi&ne
SCE
....
....
....
,
X,
Xlp
*np
Pour la premire variable Xi, on calcule tous les paramtres statistiques recherchs
(moyenne, mdiane, etc...), on slectionne ensuite la plage de cellules contenant ces rsultats
et on "tire" droite. Cela veut dire qu'on effectue un "cliquer-glisser" avec la souris partir du
petit signe + qui apparat en bas droite de la slection ("poigne de recopie"). Les formules
de la plage slectionne se recopieront sur les colonnes de droite en s'adaptant en fonction de
leur position. Cette procdure est quivalente la "recopie droite".
270
Exemple 2 : Calcul de nouvelles variables, partir de variables initiales
Soit un ensemble d' une ou plusieurs variables relatives aux mmes observations. On
s'intresse de nouvelles variables calcules partir des variables de dpart. Supposons que
l'on s'intresse par exemple la diffrence des 2 premires variables.
VARIABLES >
Observations
4.
l
2
n
X,
xn
Xl 2
Xnl
X2
Xl 2
X22
Xn2
D = Xi - X2
Xn -xi 2
Xnl - X,,2
+
On calcule la diffrence xn - xi 2 en saisissant la formule
"= cellule contenant xi i - cellule contenant xi 2 "
On slectionne ensuite la cellule contenant le rsultat et on tire la poigne de recopie
vers le bas.
R emarque : 11 est galement possible de recopier "vers le haut" ou "vers la gauche".
Il suffit de positionner la poigne en haut gauche de la cellule, d'appuyer sur la
touche CTRL et de faire glisser dans le sens souhait. Ce type de recopie est
beaucoup moins frquent mais peut tre utile par exemple dans le cas de
suppressions accidentelles de cellules.
11 faut noter que la procdure par "poigne de recopie" suppose que l'on travaille en
rfrences relatives. Le paragraphe suivant dtaille cette notion.
3. RFRENCES ABSOLUES ET RELATIVES
l.-J.4.-.,lJ.JL.L;..,
1
2
3
'4
5
~<o~
7'
U 2
-y-
4
--
3
3
. - ..^^..
3
' .' 3 "
. . . . . . . :A,;
3
0
0
0
0
0
La diffrence entre rfrences absolues
et rfrences relatives s'apprhende
facilement si l'on fait le petit test suivant:
choisissons le systme de rfrence L1C1 et
saisissons une valeur quelconque, par
exemple 3 dans la cellule L 1 C 1.
Dans la cellule L2C2, on a saisi la formule ^LI Cl (rfrence absolue), nous obtenons la
mme valeur 3 On a effectu la mme saisie dans les cellules situes en dessous : on obtient
encore 3
Dans la cellule L2C3 par contre, on a saisi =L(-1)C(-2), c'est dire "gale la valeur
situe une ligne au-dessus et 2 colonnes gauche": on obtient bien entendu encore 3. Mais si
on fait la mme saisie dans les cellules situes en dessous, on obtient cette fois 0 car cette
formule fait maintenant rfrence, non plus la cellule L1C1 mais la cellule ligne 2,
colonne 1.
Dans le deuxime exemple du paragraphe prcdent, il est clair que si la formule de la
cellule en gris exprimant la diffrence entre les deux cellules de gauche tait crite avec des
271
rfrences absolues, la poigne de recopie aurait transport "en dessous" la mme diffrence
xn - \i 2 . On comprend toute l'importance de ces notions de rfrences absolues et relatives
dans le processus de copie, notamment celui qui utilise la poigne de recopie.
Par dfaut, dans les formules dans lesquelles sont "incrimines" des cellules (en cliquant
dessus), Excel utilise des rfrences relatives de sorte que les copies et recopies sont
conformes ce que l'on cherche calculer.
D2 =B2-C2
A
VARIABLES
1 ===> OBSERVATIONS
d1
8
X,
12
Dans le systme de rfrence choisi ci-dessus, on a effectu la diffrence entre les
cellules contenant 7 et 4 en saisissant dans la cellule D2 grise la formule obtenue au moyen
des oprations suivantes : saisie du signe "=" , clic sur la cellule B2, saisie du signe "-", clic
sur la cellule C2 et "Entre", ce qui donne "=B2-C2" et le rsultat 3.
En recopiant vers le bas (poigne de recopie) , on trouve 10, .. , 4. En slectionnant D3,
on verra que la barre de formule contient "=B3-C3" et non pas "=B2-C2" : la formule copie
s'est "adapte" la cellule de destination. Les cellules sont bien rfrences en relatif.
Comment faire alors pour que, dans cette recopie, la formule se transporte "sans
adaptation" ? tant donn que les colonnes concernes par les diffrences sont toujours B et
C, il faut faire en sorte qu'Excel ne change pas le numro de la ligne. Il faut donc la "fixer".
Pour cela, il suffit de saisir dans D2 la formule "=B$2-C$2" dans laquelle on a positionn un
signe "$" devant l'lment fixer en l'occurrence la ligne. La recopie vers le bas transporte
cette formule sans modification de sorte qu'au lieu de 10 et de 4, on verra toujours 3,
diffrence entre B2 et C2.
Nous avons fix la ligne. Dans d'autres cas, on peut aussi fixer la colonne ou bien fixer
les deux ou enfin, comme au dbut, ne rien fixer du tout, soit 4 possibilits d'criture. Pour
passer de l'une l'autre, on peut saisir directement le signe "$" l'endroit souhait ou, aprs
avoir slectionn la rfrence de la cellule concerne (voire la formule entire si besoin est)
dans la barre de formule, appuyer un certain nombre de fois sur la touche F4 du clavier ce qui
permet de balayer les 4 possibilits. Le tableau suivant rsume ces dernires dans les deux
systmes de rfrence "Al " et L1C1". On suppose dans ce tableau qu'une formule contenue
dans la cellule D8 ou L8C4 fasse rfrence la cellule F5.
R ien n'est fix
Colonne fixe
Lignefixe
Ligne et colonne fixe
"Al"
F5
$F5
F$5
$F$5
"L1C1"
L(-3)C(2)
L(-3)C6
L5C(2)
L5C6
Cellule situe...
... 3 lignes au dessus, 2 colonnes droite
... 3 lignes au dessus, colonne 6
... ligne 5, 2 colonnes droite
. . . ligne 5, colonne 6
Appliquons ces procds un problme plus statistique. A partir du tableau des effectifs
observs 0; j (premire partie du tableau ci-dessous), proposons-nous de calculer les effectifs
thoriques correspondants C, j . Aprs avoir dtermin la valeur de l'effectif thorique "XiYi",
une recopie (poigne) droite permettra de calculer les deux valeurs "XiY?" et "X)Y3"; puis,
272
aprs avoir slectionn les 3 cellules de la ligne, une nouvelle recopie vers le bas (poigne)
fournira les 9 autres valeurs. Pour que ces recopies fournissent les valeurs correctes, il s'agit
d'crire correctement la formule saisir dans la cellule "XiYi", savoir :
_ Total ligne (Y.) x Total colonne (X,) . 14 x 46
C/.. soit
J
Total gnral 122
' B9 "3~~'i=t2*B6/ tE6
"^:
''
"
';
î X,
, & ' '
m?
'. w'-
^
ife
^;
^'
î : ' '
- .<~i : '
^^Wy-
Effectifs
obseres
X,
X;
X3
Total
Effectifs
thoriques
Xi
X,
Xa
X4
Y,
9
5
19
13
46
Y,
52787
12J06G
173+4
11311
-F:
1
-
Y,
2
16
14
13
45
Y2
5,1639
11JB03
16.967
11X166
-
:
-
Ya
3
11
13
4
31
YB
35574
8,1311
11JB89
7.623
^;,r":
Total
14
32
46
30
122
On cliquera successivement sur: cellule
B9, = cellule E2, *, cellule B6, /,
cellule E6 et sr Entre. Dans le
systme Al, par dfaut, Excel affiche
=E2*B6/E6; dans le systme L1C1,
Excel affiche =L(-7)C(3.)*L(-3)C/L(-
3)C(3); comme nous l'avons indiqu,
Excel dtermine tout en rfrences
relatives. Mme si le rsultat est exact
pour la cellule B9 ("XiYi"), il ne faut
pas conserver cette formule si l'on veut
ensuite faire des recopies correctes.
Dans la barre de formule, il faudra slectionner chacune des 3 cellules concernes par
l'opration et, par des appuis successifs sur la touche F4, aboutir la formule adquate pour
les recopies :
=$E2*B$6/$E$6 dans le systme Al ou =L(-7)C5*L6C/L6C5 dans le systme L1C1
Dans le premier terme $E2 ou L(-7)C5, le signe $ indique que la colonne E (colonne 5)
est fixe (rfrence absolue) quelle que soit la cellule de destination du calcul, et que la ligne
2 (ou 7 lignes au-dessus) varie (rfrence relative) en fonction de cette cellule.
Cette formule donne videmment le mme rsultat dans la cellule "XiYi". On peut
maintenant faire les deux recopies vers la droite et vers le bas indiques prcdemment.
Dans le prsent ouvrage, nous n'utiliserons que le rfrentiel L1 C1 , beaucoup plus
"mathmatique". H rappelle le langage matriciel "ligne-colonne", est plus facile
manipuler dans les tableaux multi-variables, permet une change correct avec d'autres
logiciels de statistique.
4. FONCTIONS ET BOTES DE DIALOGUE
Une cellule d'une feuille Excel peut contenir une valeur (-12,91), du texte ("Totaux"),
une formule de type arithmtique (=4*PIQ), une formule contenant une ou plusieurs
rfrences d'autres cellules comme on l'a vu dans le paragraphe prcdent ou bien une
fonction.
Les fonctions sont des formules prdfinies qui effectuent des calculs en utilisant des
valeurs particulires appeles arguments, dans un certain ordre (ou structure). Par exemple, la
fonction ABS(argument) permet d'introduire dans une cellule la valeur absolue de l'argument
indiqu. Pour cette fonction ABS cet argument peut tre une valeur (-12), une rfrence une
cellule (L1C12), une autre fonction combine ou pas, etc. Par exemple, si la cellule L1C1
273
contient la formule =COS(PI()) dont le rsultat est -1, l'introduction dans la cellule L1C2 de la
formule =ABS(LC(-1)) donnera 1. Certaines fonctions ncessitent la saisie d'arguments
valeurs logiques ("vrai" ou "faux").
Il est clair que pour la fonction utilise, l'argument doit tre valide. C'est ainsi que
l'introduction dans une cellule de la fonction =ABS("total") fournit le "rsultat" #VALEUR
indiquant qu'un tel contenu de cellule ne peut tre valu par le logiciel puisqu'on ne saurait
calculer la valeur absolue d'un texte !
Ces principes gnraux tant tablis, nous invitons le lecteur se reporter l'aide en
ligne du logiciel ou des manuels pour dcouvrir la puissance de ces procdures. Nous
indiquerons simplement ici les deux faons d'introduire une fonction dans une cellule.
Lorsqu'on connat bien la fonction et les arguments qui la paramtrent, on l'introduit
directement dans la cellule sans oublier le signe "=" qui doit la prcder sinon Excel croit qu'il
s'agit d'un texte. Par exemple, comme on vient de le voir, on peut saisir dans une cellule la
fonction ABS() en crivant "=abs(-12)". Si la saisie est valide, le logiciel met le nom de la
fonction en majuscules et fait le calcul. La barre de formule contient toujours la formule, la
cellule donne son rsultat.
Si par contre, la fonction possde plusieurs arguments dont on connat mal l'ordre et/ou
la signification, on peut passer par sa "bote de dialogue" qui s'affiche lorsqu'on clique sur le
menu Insertion / Fonction... et que l'on a choisi la fonction dsire dans la liste propose.
Pour cette mme fonction ABS,
un novice en Excel aurait donc
sous les yeux la bote ci-contre :
Rfiwoie la i^tM ahsobe cf^nombre, UT) ffii^ve sans sm ogre.
ert te rornbte rel dort TOUS TOie;[titHir la ate.-ratisttit,
Dans la zone Nombre, il saisirait -12 et validerait. Cette procdure donne le mme
rsultat que prcdemment : la barre de formule contient la formule, la cellule le rsultat. La
saisie dans les zones des botes de dialogue peut tre aussi simple ou plus complique : elle
peut tre une combinaison de calculs arithmtiques non effectus (12-3+PIQ), contenir des
rfrences de cellules, etc. L'important est que cette saisie soit valide pour la fonction
considre.
L'avantage de cette procdure rside dans le fait que les arguments saisir sont
documents en direct : le seul clic dans une zone active l'aide sur l'argument saisir. Le
rsultat du calcul apparat mme avant validation dans le bas de la bote.
l'raM't* JUS
OevtsJbdtl |j
DegrtiJftcMfz fS
RenroFimerse (te ^dtsfatbutton de xobabft aft-wt ins toi f"sf p < tO.F'(x,...), fafs
BWBISE.I-OI.fjp,,..)-.
OcysJtostt2 reprsente te noirihre de de^g de XxxtdtJdnQRihatetrtUtfKinibFe
entre i eUtl^lO, UMO sxtkB.
La fonction 1NVERSE.L01.F
(ne pas oublier les points entre
les mots...) peut donc tre
insre dans une cellule
directement :
-INVERSE.LOLF(0,05;3;18)
ou par l'intermdiaire de la
bote de dialogue ci-contre.
-El
274
Signalons aussi qu'un certain nombre de fonctions admettent un nombre d'arguments
variable. C'est ainsi que la fonction MOYENNE peut tre crite sous les formes suivantes :
=MOYENNE(1;2;3;4;5) qui donne la moyenne 3 des 5 arguments indiqus
^MOYENNECLICl^CS) qui donne la moyenne des valeurs contenues dans la plage
indique (1 seul argument)
=MOYENNE(L1C1: L3C5;12) qui donne la moyenne des valeurs contenues dans la
plage indique et de la valeur 12 (2 arguments).
Pour ce type de fonction, le nombre maximum d'arguments possibles est de 30.
Lorsqu'on atteint le 5
e
, il apparat sur la bote une barre de dfilement permettant d'accder
la saisir des arguments suivants. Les fonctions MIN, MAX, SOMME, etc. sont de ce type.
Prcisons enfin que lorsqu'une cellule contient une formule, on peut rappeler sa bote de
dialogue en cliquant sur le signe "=" situ gauche de la zone de saisie. Cela permet en
particulier de corriger ou d'adapter ladite formule.
Afin de ne pas surcharger l'ouvrage, nous ne montrons les botes de dialogue que pour
des fonctions "compliques" ou pour lesquelles un complment d'information est ncessaire.
Signalons galement que l'Utilitaire d'analyse du logiciel utilise galement des botes de
dialogue. Il ne s'agit pas alors de faciliter la saisie d'une formule, mais d'indiquer au logiciel
les donnes prendre en compte pour effectuer une certaine analyse.
Les rsultats de cette dernire
peuvent tre affichs sur une
plage de la mme feuille de
travail ou sur une nouvelle
feuille voire un nouveau
classeur (option cocher).
Analyse de variante: un facteur p? JpIC]
Paramtres d'wtrc " i -^"-i
. " Anouter i
Groupes par; . Cwomss . ^...-.....-...-J
"' ygnes ' A*de |
v irtiftASs an tirerrere ligne
SeLrfdsigraftcatiofi: (o,05
Otttora de sotte
Plaide sortie: | ^J
<i
Insrer unnouvde euilte; i
'"' Crer un Qpuveau dasseur
5. ATTRIBUTION D'UN NOM UNE PLAGE DE CELLULES
Dans EXCEL, on peut donner un nom une plage de valeurs : matrice colonne ou matrice
quelconque (voir figure page suivante). La procdure est la suivante :
slectionner la plage de cellules contenant les valeurs (sans le ou les titres) ; dans le
cas d'une matrice quelconque, bien slectionner toute la plage
cliquer dans la zone des noms ( gauche et juste au-dessus de la ligne portant les
identifiants des colonnes)
saisir le nom dsir (pas de blanc ni de trait d'union; on peut utiliser la place le
"tiret bas")
faire ENTREE
vrifier en ouvrant la zone de saisie (flche vers le bas) (bibliothque des noms) que
la dnomination de la plage est effective.
Utilit : pour renseigner les botes Assistant, il est souvent plus rapide de slectionner la
plage des valeurs directement dans la bibliothque des noms, surtout si ces plages sont de
grande tendue comme c'est souvent le cas en statistique.
275
Xi
5
9
20
X2
100
15
150
10
11
25
Xp
121
Matrice colonne Matrice quelconque
R emarques : aprs avoir slectionn la plage de cellules, on peut galement la
nommer en utilisant le menu Insertion / Nom / Dfinir et saisir le nom dsire selon
les mme rgles que prcdemment. Il peut tre utile de savoir que l'on peut affecter
un nom des plages de cellules non adjacentes.
R emarque importante
Lorsque l'on a nomm une plage, on ne peut pas utiliser , sans intervention, la poigne
de recopie. Tout d'abord, il convient de noter que l'utilisation de la poigne de recopie
"n'agrandit pas" l'tendue de la plage repre pas son nom. Par ailleurs, tant donn qu' un
nom n'est affect qu' une slection bien prcise dans la feuille, ses rfrences ne peuvent tre
qu'absolues, de sorte qu'une recopie l'aide de la poigne du type de celle que nous avons
effectue prcdemment donne des rsultats incorrects. Par exemple, si l'on appelle
"Valeurs_de_Xl" la plage des valeurs 12 15 du tableau ci-dessous, et que dans les cellules
sous le 15, on appelle successivement les fonctions statistiques MIN, MAX, MOYENNE et
ECARTYPE sur cette plage, on obtient les valeurs correctes pour cette colonne.
Mais si l'on slectionne les cellules
L8C2: L11C2 et que l'on utilise la
poigne de recopie vers la droite
pour dterminer ces paramtres
statistiques pour X2 et X3, on
obtiendra les mmes valeurs qui
sont celles relatives la plage
"Valeurs de XI ".
Valeurs de XI T' 'ni 12
-^' -'- .....a.,:.: :
1
.. -
' '9',
10
n
MIN
MAX
MOYENNE
ECARTYPE
Xi
12
S
i 'aSîi^S
.^^^j
^^HUBiHs^
3
20
11,5
5fl2237065
, . ; .3 ..
!
j
Ife
E
5
4
14
' : .
Xs
S
8
7
10
9
Pour pallier cette difficult, on peut, soit nommer les plages aprs avoir fait les calculs
ou bien affecter des noms simples ces plages (par exemple XI , X2 et X3), faire les recopies
(fausses) et rectifier les formules en corrigeant les noms de plage.
6. GESTION DES MANQUANTS
II est important de noter que les fonctions statistiques classiques d'Excel grent "les
manquants".
Prenons un exemple. Supposons que l'on veuille calculer la moyenne de chacun des
critres Ci, C; et 3 du tableau ci-contre. Pour calculer la cellule L10C2
(=MOYENNE(slection)), du fait que le logiciel ignore les cellules vides ("manquants"), on
slectionnera les 8 cellules situes au-dessus; on pourra alors recopier droite (poigne) pour
calculer les moyennes des Ci et des Ci. On a mme intrt calculer la 1
er
' moyenne dans une
276
cellule situe beaucoup plus bas que L10C2 au cas o une nouvelle srie C, comporterait un
nombre de valeurs plus important.
L10C2
, 1'
1
2 1
3 2
4 3
. & 4
6 5
7 6
8 7
9 ' 8
) MOYENNE
11
a =MIN(L(-B)C:L(-1)C)
2
Ci
Ci!
NgSsf
BEi
5
3
Ci
3
9
15
20
21
12
4
C3
5
9
12
18
20
23
4
7
5
7. FORMULES MATRICIELLES
Les formules matricielles peuvent tre utilises pour effectuer de nombreux types de
calcul. Nous allons montrer leur spcificit dans les cas o leur utilisation simplifie
avantageusement les calculs et dans les cas o elle s'impose "presque obligatoirement".
Nous proposons d'illustrer la mise en uvre de ce type de formule en nous appuyant sur
un exemple trs courant en statistique, la dtermination de la distribution de frquences.
On considre une srie de notes de mathmatiques dans une classe de 30 lves (ces
notes doivent tre saisies sur une seule colonne) :
7,0
14,0
9,5
14,0
11,0
12,0
5,0
15,5
12,0
15,5
12,0
16,0
12,5
11,0
13,0
17,0
10,0
18,5
7,0
19,0
13,0
13,0
4,0
17,0
13,0
19,0
13,5
19,5
9,0
19,5
On souhaite obtenir la distribution en effectif selon des classes que l'on choisit. Nous
dcidons de prendre par exemple des classes d'amplitude 3 partir de 8. Nous considrons les
5 classes suivantes :
note < 8 , 8 < note ^1 1 , 11 < note < 14 , 14 < note < 17 , note > 17 .
Sur la feuille Excel, il faut saisir ces classes sous la forme ci-contre.
Pour obtenir la distribution de frquences, on doit tout d'abord
slectionner la plage d'accueil des rsultats (en gnral une matrice
compose de plusieurs cellules adjacentes ou contigus). Dans notre
exemple, on doit slectionner une plage d'une colonne sur 5 lignes. On
appelle ensuite la fonction FREQUENCE dont on saisit les arguments :
- Tableau-donnes : la plage des trente notes
- Matrice-intervalles : plage des valeurs des classes que nous avons saisies.
Pour valider, au lieu de faire "Entre", il faut faire
CTRL+Maj+Entre. L'ensemble des rsultats s'affiche
sur la plage de rception. Toutes les cellules de cette
plage portent la mme formule, celle que nous avons
saisie. Le logiciel a encadr cette formule d'une paire
d'accolades indiquant son caractre matriciel.
classes
8
11
14
17
>17
FREQUENCE
4
5
11
5
5
277
Quelques rgles s'appliquent aux procdures matricielles: la plus importante est qu'une
fois saisie une formule matricielle pour une plage destination, il n'est plus possible de
modifier l'une de ses cellules isolment: il faut modifier la formule matricielle (en faisant
toujours Ctrl + Maj + Entre pour valider) ou la supprimer pour rendre chaque cellule son
individualit.
R emarque : il faut faire trs attention aux dimensions de la plage de rception qui
varie selon les types de fonctions matricielles utilises et le volume des rsultats
souhaits Si l'tendue de la plage est trop petite, on n'obtient pas tous les rsultats
voulus. Si elle est trop grande, on obtient des valeurs d'erreur du type #N/A
8. TABLEAU CROISE DYNAMIQUE
Nous proposons d'expliquer l'laboration d'un tableau crois dynamique dans un type
d'application rencontre en statistique, par exemple dans un dpouillement d'enqute.
Considrons une enqute d'tude de march de vente directe de viande bovine.
Supposons que l'on s'intresse au mode de vente selon le lieu d'habitation. Pour chacun des
critres, on dispose de modalits bien dfinies.
Pour le lieu d'habitation, on propose 5 modalits notes Hi (ville de Toulouse), Hz
(ensemble de communes prcises de la banlieue de Toulouse), N3 (ville de Saint-Gaudens),
ML (ensemble de communes prcises de la banlieue de Saint-Gaudens) et H5 (autres lieux).
On propose trois modes de vente cods Vi (vente la ferme), V2 (vente sur les marchs)
et V3 (vente domicile).
Chacune des personnes enqutes doit choisir uniquement le mode de vente qu'il
prfre. Les donnes recueillies sont saisies en colonnes sur une feuille Excel.
Il suffit de suivre les tapes proposes par l'Assistant de tableau crois dynamique
(menu Donnes). A la question "o se trouvent les donnes analyser", on choisit "Liste ou
base de donnes Excel". Le "type de rapport crer" est videmment "tableau crois
dynamique ".
A l'tape suivante, on situera les donnes en slectionnant la plage des observations
(avec les titres des variables)
278
1
2.
:
1
4 -
5-
8
:
;? .
,8,
9
^-1,
Lieu
^
H,
H,
H3
Hi
H4
B.
H,
^4
Mode)
Vl
V;
Vl
Y,!
Va
Vi
Vi
V
o se tromcnl os lU-ief 7
ItWr ; | F e >^l l HC l r t - 1 6 C 2 | ^ P^BUlt-,..
l^} Aroter | <Erecdent}| aiviint7~| Tlifmtw
A l'tape 3/3, on indique l'endroit o l'on veut situer les rsultats.
Aprs avoir clique sur "Terminer", on obtient une structure de tableau vide sur laquelle
il surfit de faire glisser les tiquettes concernes.
279
Excel affiche le tableau crois d'effectifs assorti des totaux lignes et colonnes. Ce
tableau pourra tre enjoliv loisir.
'1
^
.3.
' 5:
fi
'..
f
'a."
. ;t ' .
Lieu
Hi
HI
HI
H3
HI
H.
H4
H-,
2
Mode
Vi
V2
Vl
V3
V3
Vl
Vi
V-,
iiJLJl
MBMode, Mode |
tAu^^
H1
H2
H3
H4
H5
Total
5 . 1 6
V1 V2
2
1
2
1
6
i 7 i B
V3
2 1
2
2
2
4 5
Total
5
3
2
2
3
15
On remarque la prsence de cellules
vides ("manquants") ce qui traduit
l'absence d'effectif au croisement de 2
modalits. Si l'on souhaite afficher cette
nullit (en prvision de futurs calculs),
on fait un clic droit sur l'une des
cellules du tableau, on slectionne
"options du tableau, on active "cellules
vides" et dans la fentre
correspondante, on saisit "O". On
obtient alors le tableau de contingence
tudier.
!
Lieu
H1
H2
H3
H4
H5
Total
V1 V2 V3
2 2 1
1 2 0
o| OJ 2
2 0: 0
1 0 2
6 4 5
Total
5
3
2
2
3
15
280
TABLE DES FONCTIONS STATISTIQUES D'EXCEL
Le nom de la fonction statistique telle qu'elle figure dans Excel est indiqu en
majuscules. Le lecteur pourra consulter l'aide en ligne pour en obtenir une rapide dfinition.
1. PARAMETRES STATISTIQUES
1 .1 Srie statistique unidimensionnelle
Page de premire citation
CENTILE
COEFFICIENT ASYMETRIE
ECARTYPE
FREQUENCE
KURTOSIS
MAX
MIN
MODE
MOYENNE
QUARTILE
RANG
SOMME.CARRE.ECARTS
VAR
VAR.P
28
28
28
21
28
28
27
28
28
27
28
150
29
28
1.2 Srie statistique bidimensionnelle
COEFFICIENT CORRELATION
COVARIANCE
57
57
2. VARIABLES ALEATOIRES. LOIS DE PROBABILITE
INVERSELOI.F
KHIDEUX.INVERSE
LOI F
LOKfflDEUX
LOI NORMALE
LOI.NORMALE INVERSE
LOI.NORMALE STANDARD
LOI.NORMALE. STANDARD INVERSE
LOI.STUDENT
LOI STUDENT. INVERSE
77
74
76
73
71
72
72
73
75
75
INTERVALLE DE CONFIANCE. TESTS STATISTIQUES
INTERVALLE CONFIANCE
TEST.F
TEST.KHIDEUX
TEST.STUDENT
91
185
129
163
DROITE DE REGRESSION
ORDONNEE ORIGINE
PENTE
60
60
REGRESSION LINEAIRE SIMPLE ET MULTIPLE
DR01TEREG
TENDANCE
222
60
DIVERS
ABS
NBSI
NBVAL
SOMPROD
167
16
27
36
282
BIBLIOGRAPHIE
AFNOR (Recueil des normes franaises 1996) : Mthodes statistiques, tome 4 :
matrise statistique des processus. diteur ?
Badia J., Bastida R., Hat J-R. (1997) : Statistique sans mathmatique. Ellipses.
Came H., Dagoury J-M., Seroux R., Thomas M. (2000) : Itinraires en Statistiques
et Probabilits. Ellipses.
Dagnlie J. (1998) : Statistique thorique et applique, tome 1 : Statistique
descriptive et base de l'infrence statistique et tome 2 : Infrence statistique une et
deux dimensions. De Boeck - Universit.
Daudin J-J., Robin S., Vuillet C. (1999) : Statistique infrentielle ides, dmarches,
exemples. Socit Franaise de Statistique et Presses Universitaires de Rennes.
Deroo M., Dussaix A-M. (1985) : Pratique et analyse des enqutes par sondage.
PUF.
Foucard T (1997) : l'analyse des donnes Mode d'emploi. Presses Universitaires de
Rennes.
Georgin J.P., Gouet M. (1999) : Statistiques avec Excel, crer ses outils et tests,
passerelles avec d'autres tableurs. Eyrolles.
Janvier M., Kazi-Aoual F., Hakim M., Elkettani Y., Marco M., Guijarro V. sous la
direction de Brethon A., Carraux G., Saporta G., Verdoire E. (2002) : Techniques de
la Statistique. Cours sur Internet :
(www.agro-montpellier.fr/cnam-lr/statnet/cours.htm)
Monino J-L., Kosianski J-M., Le Cornu F. (2000) : Statistique descriptive. Dunod
Tomassone R., Lesquoy E., Millier C. (1983) : La rgression, nouveaux regards sur
une ancienne mthode statistique. Masson.
W onacott T.H., W onnacot R.J. (1991) : Statistique. Economica.
283
dbut 28/04/06 16:05 Page 2
INDEX
A
analyse de variance, 194, 195
C
centiles, 28
centre de gravit, 24
centre de gravit...
des profils lignes, 39
des profils colonnes, 40
de la srie double, 55
coefficient de corrlation, 56, 59, 212, 214,
224, 242,247,254, 258
coefficient de corrlation multiple, 212
coefficient de dtermination, 59
coefficient de dtermination ajust, 215
coefficient de variation, 29
covariance, 55
critre des moindres carrs, 58
D
dcision, 116, 117, 118, 119
degrs de libert, 67, 68
diagramme en btons, 16, 22, 41
diagramme en secteurs, 17
distribution d'chantillonnage, 81
distribution d'chantillonnage...
d'une moyenne, 82, 84
d'une variance, 84, 85, 88
d'une proportion, 84, 94
chantillon alatoire et simple, 82
chantillons apparis, 163, 186, 190, 192
quation de l'analyse de variance, 195
estimation, 79, 80
estimateur sans biais et convergent, 98,
100,102
Fisher, 68, 76, 195, 216
fractile, 26, 76
frquences...
absolues, 15, 20
relatives, 15,20
cumules, 20
H
histogramme, 23, 32
homoscdasticit, 173
hypothse alternative, 115, 116
hypothse nulle, 115
intervalle de confiance, 102
intervalle de confiance...
d'une moyenne, 103, 106, 108
d'une variance, 109
d'une proportion, 111
intervalle de pari, 85, 86, 88, 151
intervalle de probabilit, 85, 86
K
Khi-deux, 67, 73, 126, 127, 129, 130, 136
L
loi binomiale, 66
loi de Bernoulli, 66
loi de Fisher, 68, 76, 212
loi de Student, 68, 70, 74
loi du Khi-deux, 67
loi normale, 67, 70, 71
loi de Poisson, 66, 71
M
matrice de corrlation, 213
mdiane, 25, 26, 28
modle de rgression, 60, 210, 214
moyenne, 24, 25,26,27
N
niveau de test, 117
paramtres statistiques, 24, 28
peigne, 28
prdiction, 60, 221
probabilit critique, 116, 117. 128, 129,
130,154,162,174, 179,189,198,206,
207
profil colonne, 40, 46
profil ligne, 39, 42
puissance d'un test, 118, 156, 158
Q
quartile, 26, 28, 34
R
rgion d'acceptation, 116, 150, 153, 160,
169,206
rgion de rejet, 116, 150, 153, 160, 169,
208
rgression linaire multiple, 209, 212, 215,
222,224,242,254
rgression linaire simple, 58, 59
rsidu, 58, 59, 60, 194, 210, 215, 217
risque de 1re espce, 117
risque de 2
e
espce, 118, 155
significatif (test), 116
somme des carrs des carts, 194, 211
statistique descriptive, 9, 13, 37
statistique infrentielle, 9, 79
T
test d'ajustement, 125
test de comparaison...
de deux moyennes, 176, 181, 183,
186,190
de deux variances, 170
test de conformit...
d'une moyenne, 151, 159
d'une variance, 149
d'une proportion, 201
test de normalit, 130
test statistique, 115
thorme central limite, 69, 93, 95, 205
V
variable qualitative, 15
variable quantitative, 19, 30
variables explicatives, 210, 213
286
TABLE DES MATIERES
1. INTRODUCTION..........................................................................................^
PREMIRE PARTIE :STATISTIQUE DESCRIPTIVE
2. STATISTIQUE DESCRIPTIVE UNI VARIEE 1 3
2.1. Introduction................................................................................................13
2.2. Variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Variable quantitative discrte......................................................................19
2.4 Variable quantitative continue ....................................................................30
3. STATISTIQUE DESCRIPTIVE BIVARIE...............................................37
3.1. Introduction................................................................................................37
3.2. Couple variable qualitative - variable qualitative........................................38
3.3. Couple variable quantitative - variable qualitative.......................................47
3.4. Couple variable quantitative - variable quantitative.....................................53
DEUXIME PARTIE :STATISTIQUE INFRENTIELLE
4. BASES THORIQUES. RAPPELS DE PROBABILIT. LOI DE
PROBABILIT AVEC EXCEL 65
4.1. Rappels de probabilit................................................................................65
4.2. Lois de probabilit avec Excel ....................................................................70
5. INTRODUCTION A LA STATISTIQUE INFRENTIELLE 79
5.1. Introduction................................................................................................79
5.2. Dmarche d'chantillonnage .......................................................................79
5.3. Dmarche d' estimation................................................................................79
5.4. Rsum.......................................................................................................80
6. CHANTILLONNAGE.................................................................................81
6.1. Notion de population et d' chantillon..........................................................81
6.2. Concept de base des distributions d' chantillonnage.................................. 82
6.3. Distribution d'chantillonnage d'une variance dans le cas d'une population
normal e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.4. Distribution d'chantillonnage d'une moyenne ...........................................88
6.5. Distribution d'chantillonnage d'une proportion pour un grand chantillon..94
7. ESTIMATION................................................................................................97
7.1. Introduction................................................................................................97
7.2. Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.3. Intervalle de confiance.............................................................................. 102
8. LE TEST STATISTIQUE............................................................................115
8.1. I nt roduct i on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.2. Hypot hses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.3. Donnes, modle et prise de dcision........................................................ 116
8.4. Ri sques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.5. Puissance du test.......................................................................................118
8.6. Rcapitulatif.............................................................................................119
8.7. Test d'hypothse et intervalle de confiance .............................. ................119
8.8. Approche pratique des tests : quel test choisir ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
9. ETUDE DES EFFECTIFS. TEST DU KHI-DEUX 1 25
9.1. Test de reprsentativit . test d'ajustement (test de normalit, etc.) . . . . . . . . . . . 125
9.2. Test d' homognit .................................................................................134
9.3. Test d'indpendance.................................................................................139
1 0. TESTS RELATIFS AUX MOYENNES ET AUX VARIANCES 1 49
10.1. Test de conformit d'une variance pour un chantillon gaussien...............149
10.2. Test de conformit d'une moyenne........................................................... 151
10.3. Test de comparaison de 2 variances (chantillons gaussiens).................... 170
10.4. Test de comparaison de 2 moyennes......................................................... 176
1 1 . ANALYSE DE VARIANCE A UN FACTEUR 1 93
11.1. Position du problme et prsentation des donnes.....................................193
11.2. Notations et modle.................................................................................. 193
11.3. Dmarche statistique ................................................................................194
11.4 Mise en uvre au moyen d'Excel..............................................................196
11.5. Approfondissement : comparaison des moyennes par paires ..................... 199
1 2. TESTS RELATIFS AUX PROPORTIONS 201
12.1. Test de conformit d'une proportion sur de grands chantillons................201
12.2. Test de comparaison de deux proportions (grands chantillons) ................203
13. REGRESSION LINEAIRE MULTIPLE 209
13.1. Prsentation des donnes et position du problme................................... .209
13.2. Notations et modle..................................................................................210
13.3. Dmarche statistique associe au modle....................................... ..........211
13.4. Mise en uvre au moyen de l'utilitaire d'analyse d'Excel ..........................213
13.5. Mise en uvre au moyen de la fonction DROITEREG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.6. Recherche de simplifications de modles..................................................223
TROISIEME PARTIE :TUDE DE CAS
14. DMARCHE QUALIT :CANARDS GRAS DU SUD-OUEST 229
14.1. Prsentation du cas...................................................................................229
14.2. Proposition de dmarche statistique .........................................................230
14.3. Rsultats, commentaires et interprtation..................................................230
1 5. EVALUATION ET IMAGE D'UN MAGAZINE PROFESSIONNEL 237
15.1. Prsentation du cas ...................................................................................237
15.2. Proposition de dmarche statistique..........................................................240
15.3. Principaux rsultats de l'exploitation statistique, interprtation et
commentaires. ..........................................................................................243
15.4. Conclusion ...............................................................................................264
16. CONSEILS AU PRATICIEN DBUTANT 265
ANNEXES
PRINCIPALES FONCTIONNALITES UTILISEES DANS EXCEL 269
TABLE DES FONCTIONS STATISTIQUES D'EXCEL 281
BIBLIOGRAPHIE 283
I ND EX. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 85
PRESSES UNIVERSITAIRES DE RENNES
Campus de la Harpe - 2 rue du doyen Denis-Leroy
35044 Rennes Cedex
ISBN : 02-86847-953-7
Dpt lgal : 1" trimestre 2004

Statistiques Descriptives Et Inf Rentielles Avec Excel WWW - VosBooks.NeT PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Statistiques Descriptives Et Inf Rentielles Avec Excel WWW - VosBooks.NeT PDF

Enviado por

Direitos autorais:

Formatos disponíveis

STATISTIQUE DESCRIPTIVE

ET INFRENTIELLE AVEC EXCEL

4 Concentralion acide malique (en g/1)

Você também pode gostar