Você está na página 1de 25

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Chapitre 7

Tests dhypothse
Sommaire

1. Introduction..3 2. Principe des tests......3


2.1. Choix de lhypothse tester.4

2.1.1. Hypothse nulle et hypothse alternative ....4 2.1.2. Test unilatral et bilatral ..4
2.2. Choix dun test statistique.5 2.3. Choix de la rgion critique et rgle de dcision.6 2.4. Risques derreur, puissance et robustesse dun test......7

2.4.1. Risque derreur de premire espce ou risque ...7 2.4.2. Risque derreur de deuxime espce ou risque ..8 2.4.3. La puissance (1 - ) et robustesse dun test....8

3. Tests de conformit.....10
3.1. Comparaison dune moyenne observe et une moyenne thorique..10

3.1.1. Principe du test.. ...10 3.1.2. Variance de la population connue... 10 3.1.3. Variance de la population inconnue... 11
3.2. Comparaison dune frquence observe et une frquence thorique.13

3.2.1. Principe du test... .13 3.2.2. Statistique du test.. 14 3.2.3. Application et dcision. .14
-1-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

4. Tests dhomognit......14
4.1. Comparaison de deux variances......15

4.1.1. Principe du test.... 15 4.1.2. Statistique du test....15 4.1.3. Application et dcision...16


4.2. Comparaison de deux moyennes..16

4.2.1. Principe du test.....16 4.2.2. Les variances des populations sont connues17 4.2.3. Les variances des populations sont inconnues et gales.19 4.2.4. Les variances des populations sont inconnues et ingales.20
4.3. Comparaison de deux frquences..22

4.3.1. Principe du test.... 22 4.3.2. Statistique du test ......22 4.3.3. Application et dcision..23

-2-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Introduction

Un test dhypothse est un procd dinfrence permettant de contrler (accepter ou rejeter) partir de l'tude d'un ou plusieurs chantillons alatoires, la validit dhypothses relatives une ou plusieurs populations. Les mthodes de linfrence statistique nous permettent de dterminer, avec une probabilit donne, si les diffrences constates au niveau des chantillons peuvent tre imputables au hasard ou si elles sont suffisamment importantes pour signifier que les chantillons proviennent de populations vraisemblablement diffrentes. Les tests dhypothses font appel un certain nombre dhypothses concernant la nature de la population dont provient lchantillon tudi (normalit de la variable, galit des variances, etc). En fonction de lhypothse teste, plusieurs types de tests peuvent tre raliss : Les tests destins vrifier si un chantillon peut tre considr comme extrait dune population donne, vis--vis d'un paramtre comme la moyenne ou la frquence observe (tests de conformit) ou par rapport sa distribution observe (tests dajustement). Dans ce cas la loi thorique du paramtre est connue au niveau de la population. Est-ce que le taux de glucose moyen mesur dans un chantillon dindividus traits est conforme au taux de glucose moyen connu dans la population ? (test de conformit) Estce que la distribution des frquences gnotypiques observes pour un locus donn est conforme celle attendue sous l'hypothse du modle de Hardy-Weinberg ? (test dajustement). Les tests destins comparer plusieurs populations laide dun nombre quivalent dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans ce cas la loi thorique du paramtre est inconnue au niveau des populations. On peut ajouter cette catgorie le test dindpendance qui cherche tester lindpendance entre deux caractres, gnralement qualitatifs. Y a-t-il une diffrence entre le taux de glucose moyen mesur pour deux chantillons dindividus ayant reu des traitements diffrents ? (tests dgalit ou dhomognit). Est-ce que la distribution des frquences gnotypiques observes pour un locus donn est indpendante du sexe des individus ? (test dindpendance).

2 Principe des tests


Le principe des tests dhypothse est de poser une hypothse de travail et de prdire les consquences de cette hypothse pour la population ou lchantillon. On compare ces prdictions avec les observations et lon conclut en acceptant ou en rejetant lhypothse de travail partir de rgles de dcisions objectives. Dfinir les hypothses de travail, constitue un lment essentiel des tests d'hypothses de mme que vrifier les conditions d'application de ces dernires (normalit de la variable, galit des variances ou homoscdasticit, etc).

-3-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Diffrentes tapes doivent tre suivies pour tester une hypothse : (1) dfinir lhypothse nulle (note H0) contrler, (2) choisir un test statistique ou une statistique pour contrler H0, (3) dfinir la distribution de la statistique sous lhypothse H0 est ralise , (4) dfinir le niveau de signification du test ou rgion critique note , (5) calculer, partir des donnes fournies par lchantillon, la valeur de la statistique (6) prendre une dcision concernant lhypothse pose et faire une interprtation biologique

2.1

Choix de lhypothse tester

2.1.1 Hypothse nulle et hypothse alternative

Lhypothse nulle note H0 est lhypothse que lon dsire contrler : elle consiste dire quil nexiste pas de diffrence entre les paramtres compars ou que la diffrence observe nest pas significative et est due aux fluctuations dchantillonnage. Cette hypothse est formule dans le but dtre rejete.

Lhypothse alternative note H1 est la ngation de H0, elle est quivalente dire H0 est fausse . La dcision de rejeter H0 signifie que H1 est ralise ou H1 est vraie.

Remarque : Il existe une dissymtrie importante dans les conclusions des tests. En effet, la dcision daccepter H0 nest pas quivalente H0 est vraie et H1 est fausse . Cela traduit seulement lopinion selon laquelle, il ny a pas dvidence nette pour que H0 soit fausse. Un test conduit rejeter ou ne pas rejeter une hypothse nulle jamais laccepter demble.

2.1.2 Test unilatral ou bilatral


La nature de H0 dtermine la faon de formuler H1 et par consquence la nature unilatrale ou bilatrale du test. Test bilatral Si H0 consiste dire que la population estudiantine avec une frquence de fumeurs p est reprsentative de la population avec une frquence de fumeurs p0 , on pose alors : H0 : p = p0 et H1 : p p0

-4-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

H0 : p = p0 et H1 : p p0 Le test sera bilatral car on considre que la frquence p peut tre suprieure ou infrieure la frquence p0 . La rgion critique en vert correspond une probabilit

de part et dautre de la courbe.

Test unilatral Si lon fait lhypothse que la frquence de fumeurs dans la population estudiantine p est suprieure la frquence de fumeurs dans la population p0, on pose alors H0 : p = p0 et H1 : p > p0 :

H0 : p = p0 et H1 : p > p0 Le test sera unilatral car on considre que la frquence p ne peut tre que suprieure la frquence p0 . La rgion critique en vert correspond une probabilit .

Le raisonnement inverse peut tre formul avec lhypothse suivante : H0 : p = p0 et H1 : p < p0


Remarque : Seuls les tests bilatraux seront dvelopps dans le cours. Les tests unilatraux seront traits au niveau des exemples. 2.2 Choix dun test statistique

Ce choix dpend de la nature des donnes, du type dhypothse que lon dsire contrler, des affirmations que lon peut admettre concernant la nature des populations tudies (normalit, galit des variances) et dautres critres que nous prciserons.

-5-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Un test statistique ou une statistique est une fonction des variables alatoires reprsentant lchantillon dont la valeur numrique obtenue pour lchantillon considr permet de distinguer entre H0 vraie et H0 fausse. Dans la mesure o la loi de probabilit suivie par le paramtre p0 au niveau de la population en gnral est connue, on peut ainsi tablir la loi de probabilit de la statistique S telle que :
S = p p0

(voir intervalle de confiance dune frquence)

2.3 Choix de la rgion critique et rgle de dcision


Connaissant la loi de probabilit suivie par la statistique S sous lhypothse H0 , il est possible dtablir une valeur seuil, Sseuil de la statistique pour une probabilit donne appele le niveau de signification du test : . La rgion critique correspond lensemble des valeurs telles que S > Sseuil et le niveau de signification est telle que : P(S > Sseuil) = avec P(S Sseuil) = 1 -

Selon la nature unilatrale ou bilatrale du test, la dfinition de la rgion critique varie.

Test unilatral H0 : p = p0 Hypothse alternative Valeur de S sous H1 S = p p0 Niveau de signification H1 : p > p0 S>0 P(S > Sseuil) = H1 : p < p0 S<0 P(S < Sseuil) =

Test bilatral H0 : p = p0 H1 : p p0 S 0 P(S> Sseuil) =

Il existe deux stratgies pour prendre une dcision en ce qui concerne un test dhypothse : la premire stratgie fixe a priori la valeur du seuil de signification et la seconde tablit la valeur de la probabilit critique obs a posteriori.

-6-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Rgles de dcision 1 : Sous lhypothse H0 est vraie et pour un seuil de signification fix si la valeur de la statistique S calcule (Sobs.) est suprieure la valeur seuil Sseuil Sobs > Sseuil alors lhypothse H0 est rejete au risque derreur et lhypothse H1 est accepte. si la valeur de la statistique S calcule (Sobs.) est infrieure la valeur seuil Sseuil Sobs Sseuil alors lhypothse H0 ne peut tre rejete.

Remarque : Le choix du risque est li aux consquences pratiques de la dcision : si les consquences sont graves, on choisira = 1% ou 1, mais si le dbat est plutt acadmique, le traditionnel = 5 % fera le plus souvent laffaire. Rgles de dcision 2 : La probabilit critique telle que P(S Sobs.) = obs est value si obs 0,05 lhypothse H0 est accepte car le risque derreur de rejeter H0 alors quelle est vrai est trop important. si obs < 0,05 lhypothse H0 est rejete car le risque derreur de rejeter H0 alors quelle est vrai est trs faible.

2.4 Risques derreur, puissance et robustesse dun test

2.4.1 Risque derreur de premire espce


Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la statistique S appartienne la rgion critique si H0 est vrai. Dans ce cas H0 est rejete et H1 est considre comme vraie.

Le risque de premire espce est celui de rejeter H0 alors qu'elle est vraie = P( rejeter H0 / H0 vraie) ou accepter H1 alors quelle est fausse = P( accepter H1 / H1 fausse) La valeur du risque doit tre fixe a priori par lexprimentateur et jamais en fonction des donnes. Cest un compromis entre le risque de conclure tort et la facult de conclure.
Remarque : Toutes choses tant gales par ailleurs, la rgion critique diminue lorsque dcrot (voir intervalle de confiance) et donc on rejette moins frquemment H0. A vouloir commettre moins derreurs, on conclut plus rarement. Exemple :

-7-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Si lon cherche tester lhypothse quune pice de monnaie nest pas truque , nous allons adopter la rgle de dcision suivante : (mettre image dune pice) H0 : la pice nest pas truque est accepte si X [40,60] rejete si X [40,60] donc soit X < 40 ou X > 60 avec X nombre de faces obtenus en lanant 100 fois la pice. Quel est le risque derreur de premire espce dans ce cas ? Rponse.

2.4.2 Risque derreur de deuxime espce


Le risque derreur est la probabilit que la valeur exprimentale ou calcule de la statistique nappartienne pas la rgion critique si H1 est vrai. Dans ce cas H0 est accepte et H1 est considre comme fausse.

Le risque de deuxime espce est celui daccepter H0 alors qu'elle est fausse = P( accepter H0 / H0 fausse) ou P( accepter H0 / H1 vraie) ou rejeter H1 alors quelle est vraie = P( rejeter H1 / H1 vraie)
Remarque : Pour quantifier le risque , il faut connatre la loi de probabilit de la statistique S sous lhypothse H1. Exemple :

Si lon reprend lexemple prcdent de la pice de monnaie, la probabilit p dobtenir face est de 0,6 pour une pice truque. Si lon adopte toujours la mme rgle de dcision : H0 : la pice nest pas truque est accepte si X [40,60] rejete si X [40,60] donc soit X < 40 ou X > 60 avec X nombre de faces obtenues en lanant 100 fois la pice. Quel est le risque derreur de second espce dans ce cas ? Rponse.

2.4.3 La puissance et la robustesse dun test (1 - )


Les tests ne sont pas faits pour dmontrer H0 mais pour rejeter H0 . Laptitude dun test rejeter H0 alors quelle est fausse constitue la puissance du test. La puissance dun test est : 1 - = P( rejeter H0 / H0 fausse) = P(accepter H1/H1 vraie)

La relation entre les deux risques derreur figure sur le graphe ci-dessous.

-8-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

1-
4 2 0 2 4

1-

10

La puissance dun test est fonction de la nature de H1, un test unilatral est plus puissant qu'un test bilatral. La puissance dun test augmente avec taille de l'chantillon N tudi valeur de constant. La puissance dun test diminue lorsque diminue.
Exemple :

Si lon reprend lexemple prcdent de la pice de monnaie, calculez la puissance du test lorsque la probabilit dobtenir face est respectivement 0,3 - 0,4 - 0,6 - 0,7 -0,8 pour une pice truque. Que constatez-vous ? Rponse. Les diffrentes situations que lon peut rencontrer dans le cadre des tests dhypothse sont rsumes dans le tableau suivant :
Ralit Dcision Non-rejet de H0 H0 vraie correct H0 fausse Manque de puissance risque de second espce Rejet de H0 Rejet tort risque de premire espce Puissance du test 1-

La robustesse dune technique statistique reprsente sa sensibilit des carts aux hypothses faites.
Exemple : Toute chose tant gale par ailleurs, que se passe-t-il si lhypothse de normalit

nest pas satistfaite ?

-9-

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

3 Tests de conformit
Les tests de conformit sont destins vrifier si un chantillon peut tre considr comme extrait dune population donne ou reprsentatif de cette population, vis--vis d'un paramtre comme la moyenne, la variance ou la frquence observe. Ceci implique que la loi thorique du paramtre est connue au niveau de la population.

3.1

Comparaison dune moyenne observe et dune moyenne thorique

3.1.1 Principe du test


Soit X, une variable alatoire observe sur une population, suivant une loi normale et un chantillon extrait de cette population.

Population inconnue

Population connue

X N(,) X N(0, 0) Echantillonnage alatoire simple

Echantillon w n, x , s 2 Hypothses

H0 : = 0 H1: 0

Le but est de savoir si un chantillon de moyenne x , estimateur de , appartient une population de rfrence connue desprance 0 (H0 vraie) et ne diffre de 0 que par des fluctuations dchantillonnage ou bien appartient une autre population inconnue desprance (H1 vraie).
2 Pour tester cette hypothse, il existe deux statistiques : la variance 0 de la population de rfrence est connue (test ) ou cette variance est inconnue et il faut lestimer (test T).

3.1.2 Variance de la population connue


3.1.2.1 Statistique du test

w Soit X la distribution dchantillonnage de la moyenne dans la population inconnue suit

). n La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante


- 10 -

w une loi normale telle que : X N (,

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

(voir dmonstration) n n Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que S E ( S ) X 0 Z= = V (S ) 2
n

S N (0,

avec sous H0, E(S) = 0 et V(S) =

Sous H0 : = 0 Z=
X 0

avec 2

connue

2
n

suit une loi normale centre rduite N(0,1)

.
3.1.2.2 Application et Dcision

Lhypothse teste est la suivante : H0 : = 0 contre H1 : 0 Une valeur z de la variable alatoire Z est calcule : w x 0 z= note aussi obs

n calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre rduite pour un risque derreur fix (Rgle de dcision 1).

si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient une population desprance et nest pas reprsentatif de la population de rfrance desprance 0 . si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de rfrence desprance 0.
Exemple :

La glycmie dune population suit une loi normale desprance 0 = 1g/l et dcart-type 0 = 0,1 g/l. On relve les glycmies chez 9 patients. On trouve x = 1,12g/l. Cet chantillon est-il reprsentatif de la population ? Rponse.

- 11 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

3.1.3 Variance de la population inconnue


3.1.3.1 Statistique du test

La dmarche est la mme que pour le test mais la variance de la population ntant pas connue, elle est estime par :

2 =

n 2 s (voir estimation ponctuelle) n 1

La statistique tudie est lcart : S = X - 0 dont la distribution de probabilit est la suivante 2 2 S N (0, ) avec E(S) = 0 et V(S) = (voir dmonstration) n n Nous pouvons tablir grce au thorme central limite la variable T centre rduite telle que S E ( S ) X 0 T = = V (S ) 2 n
Sous H0 : = 0 avec 2 inconnue

T=

X 0 2 n

suit une une loi de Student n-1 degrs de libert.

3.1.3.2 Application et Dcision

Lhypothse teste est la suivante : H0 : = 0 contre H1 : 0 Une valeur t de la variable alatoire T est calcule : x 0 x 0 = t = 2 s2 n n 1 t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque derreur fix et (n - 1) degrs de libert.

si tobs > tseuil lhypothse H0 est rejete au risque derreur : lchantillon appartient une population desprance et nest pas reprsentatif de la population de rfrence desprance 0 . si tobs tseuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de rfrence desprance 0.

- 12 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Remarque : Si n < 30, la variable alatoire X tudie doit imprativement suivre une loi normale N(,). Pour n 30, la variable de student t converge vers une loi normale centre rduite . Exemple : Pour tudier un lot de fabrication de comprims, on prlve au hasard 10 comprims parmis les 30 000 produits et on les pse. On observe les valeurs de poids en grammes :
0,81 0,84 0,83 0,80 0,85 0,86 0,85 0,83 0,84 0,80

Le poids moyen observ est-il compatible avec la valeur 0,83g, moyenne de la production au seuil 98% ? Rponse.

3.2

Comparaison dune frquence observe et dune frquence thorique

3.2.1 Principe du test


Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur une population et un chantillon extrait de cette population.

Population inconnue
X B(n,p)

Population connue
X B(n,p0)

Echantillonnage alatoire simple

Echantillon
n, k , f = k n

Hypothses
H0 : p = p0 H1 : p p0

K , estimateur de p, appartient n une population de rfrence connue de frquence p0 (H0 vraie) ou une autre population inconnue de frquence p (H1 vraie).

Le but est de savoir si un chantillon de frquence observe

- 13 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

3.2.2 Statistique du test


La distribution dchantillonnage de la frquence de succs dans la population inconnue, p0 q0 K K suit une loi normale telle que : suit N (p, ), les variances tant supposes n n n gales dans la population de rfrence et la population do est extrait lchantillon. K La statistique tudie est lcart : S = p0 dont la distribution de probabilit est la n

suivante S N (0, dmonstration)

p0 q0 ) n

avec sous H0 E(S) = 0 et

V(S) =

p0 q0 n

(voir

Nous pouvons tablir grce au thorme central limite la variable Z centre rduite telle que K p0 S E (S ) Z= = n mais seulement si np0 et nq0 10 V (S ) p0 q0 n Sous H0 : p = p0 K p0 Z= n p0 q0 n .

suit une loi normale centre rduite N(0,1)

3.2.3 Application et dcision

Lhypothse teste est la suivante : H0 : p = p0 contre H1 : p p0 Une valeur z de la variable alatoire Z est calcule : k p0 n note aussi obs z= p0 q0 n calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre rduite pour un risque derreur fix (Rgles de dcision 1).
si obs > seuil lhypothse H0 est rejete au risque derreur : lchantillon appartient une population de frquence p et nest pas reprsentatif de la population de rfrence de frquence p0 . si obs seuil lhypothse H0 est accepte: lchantillon est reprsentatif de la population de rfrence de frquence p0.

- 14 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Exemple :

Une anomalie gntique touche en France 1/1000 des individus. On a constat dans une rgion donne : 57 personnes atteintes sur 50 000 naissances. Cette rgion est-elle reprsentative de la France entire ? Rponse.

4 Tests dhomognit
Les tests dhomognit destins comparer deux populations laide dun nombre quivalent dchantillons (tests dgalit ou dhomognit) sont les plus couramment utiliss. Dans ce cas la loi thorique du paramtre tudi (par exemple p, , 2 ) est inconnue au niveau des populations tudies.

4.1

Comparaison de deux variances

4.1.1 Principe du test


Soit X, une variable alatoire observe sur 2 populations suivant une loi normale et deux chantillons indpendants extraits de ces deux populations.

Population 1
X1 N(1,1)

Population 2
X2 N(2, 2)

Echantillonnage alatoire simple

Echantillon 1
w n1 , x1 , s12

Echantillon 2
w 2 n2 , x2 , s2

Hypothses 2 2 H0 : 12 = 2 H1 : 12 2

On fait lhypothse que les deux chantillons proviennent de 2 populations dont les variances sont gales. Le test de comparaison de variance est ncessaire lors de la comparaison de deux moyennes 2 lorsque les variances des populations 12 et 2 ne sont pas connues. Cest galement la statistique associe lanalyse de variance.

- 15 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

4.1.2 Statistique du test


La statistique associe au test de comparaison de deux variances correspond au rapport des deux variances estimes.
2 Sous H0 : 12 = 2 n1 2 s1 2 1 n1 1 Fobs. = 2 = n2 2 2 s2 n2 1

suit une loi de Fisher-Snedecor (n1-1, n2 -1) degrs de libert

2 avec 12 > 2 car le rapport des variances doit tre suprieur 1.


Remarque : Il existe dautres statistiques que celle de Fisher Sndecor pour comparer deux variances, notamment le test de Hartley qui impose lgalit de la taille des chantillons compars n1= n2 mais que nous ne dvelopperons pas dans ce cours.

4.1.3 Application et dcision


La valeur de la statistique F calcule (Fobs) est compare avec la valeur Fseuil lue dans la table de la loi de Fisher-Snedecor pour un risque derreur fix et (n1-1, n2 -1) degrs de libert.

si Fobs Fseuil lhypothse H0 est rejete au risque derreur : les deux chantillons 2 sont extraits de deux populations ayant des variances statistiquement diffrentes 12 et 2 . si Fobs Fseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux populations ayant mme variance 2 .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux chantillons soient indpendants. Exemple :

Un biologiste effectue des dosages par une mthode de mesure de radioactivit et ne dispose donc que dun nombre trs limit de valeurs. Les concentrations C1 et C2 mesures sur deux prlvements ont donn les valeurs suivantes :
C1 : 3,9 3,8 4,1 3,6

La variabilit des valeurs obtenues pour les deux prlvements est-elle similaire ? Rponse.

C2 : 3,9 2,8 3,1 3,7 4,1

- 16 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

4.2

Comparaison de deux moyennes

4.2.1 Principe du test


Soit X un caractre quantitatif continu observ sur 2 populations suivant une loi normale et deux chantillons indpendants extraits de ces deux populations.

Population 1
X1 N(1,1)

Population 2
X2 N(2, 2)

Echantillonnage alatoire simple

Echantillon 1
w n1 , x1 , s12

Echantillon 2
w 2 n2 , x2 , s2

H0 : 1 = 2

Hypothses

H1 : 1 2

On fait lhypothse que les deux chantillons proviennent de 2 populations dont les esprances sont gales. Il existe plusieurs statistiques associes la comparaison de deux moyennes en fonction de la nature des donnes.

2 Les variances des populations 12 et 2 sont

Connues

Inconnues

- 17 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Egales

Diffrentes n1 et n2 30 n1 et n2 < 30 Test

Test

Test T

Test non paramtrique

4.2.2 Les variances des populations sont connues


4.2.2.1 Statistique du test

w Soit X 1 la distribution dchantillonnage de la moyenne dans la population 1 suit une w w 2 2 X 2 N (2, 2 ) loi normale telle que : X 1 N (1, 1 ) et de mme pour n1 n2 w w X 1 et X 2 tant deux variables alatoires indpendantes, nous pouvons tablir la loi de w w probabilit de la variable alatoire tudier X 1 X 2 w w w w E( X 1 X 2 ) = E( X 1 ) - E( X 2 ) = 1 - 2 (Proprit de l esprance) w w w w 2 2 V( X 1 X 2 ) = V( X 1 ) - V( X 2 ) = 1 + 2 (Proprit de la variance) n1 n2 ) , nous pouvons tablir n1 n2 grce au thorme central limite la variable Z centre rduite telle que +
w w w w w w ( X 1 X 2 ) ( E ( X 1 X 2 ) ( X 1 X 2 ) ( 1 2 ) = Z= w w 2 V ( X1 X 2 ) 12 2 + n1 n2
2 Sous H0 : 1 = 2 avec 12 et 2 connues w w ( X1 X 2 ) suit une loi normale centre rduite N(0,1) Z=

w w Sachant que X 1 X 2 suit une loi normale N(1 - 2 ,

12

22

12
n1

2 2

n2

.
4.2.2.2 Application et dcision

Lhypothse teste est la suivante : - 18 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

H0 : 1 = 2 contre H1 : 1 2 Une valeur z de la variable alatoire Z est calcule : w w x1 x2 note aussi obs z=

12
n1

2 2

n2

calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre rduite pour un risque derreur fix.

si obs seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont extraits de deux populations ayant des esprances respectivement 1 et 2. si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons de taille < 30 et que les deux chantillons soient indpendants. Exemple :

On a effectu une tude, en milieu urbain et en milieu rural, sur le rythme cardiaque humain : Milieu urbain
Effectif de lchantillon Moyenne de lchantillon Variance de la population 300 80 150

Milieu rural
240 77 120

Peut-on affirmer quil existe une diffrence significative entre les rythmes cardiaques moyens des deux populations ? Rponse.

4.2.3 Les variances des populations sont inconnues et gales


4.2.3.1 Statistique du test

Les variances des populations ntant pas connues, on fait lhypothse que les deux populations prsentent la mme variance. 2 H0 : 12 = 2 = 2 (voir test de comparaison des variances) Lgalit des variances des deux populations ou homoscdasticit permet alors dtablir la w w loi de probabilit de X 1 X 2 avec w w 2 2 X 1 N (1, ) et X 2 N (1, ) n1 n2

- 19 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

w w 1 1 Sachant que X 1 X 2 suit une loi normale N(1 - 2 , 2 + , nous pouvons tablir n1 n2 grce au thorme central limite la variable T telle que w w w w w w ( X1 X 2 ) (E ( X1 X 2 ) ( X 1 X 2 ) ( 1 2 ) T= = w w V ( X1 X 2 ) 1 1 2 + n1 n2

2 avec 12 = 2 = 2 Sous H0 : 1 = 2 w w ( X1 X 2 ) suit une loi de Student (n1 + n2 -2) degrs de libert T= 1 1 2 + n1 n2

4.2.3.2 Application et dcision

Lhypothse teste est la suivante : H0 : 1 = 2 contre H1 : 1 2 Les variances des populations ntant pas connues, lgalit des variances doit tre vrifie 2 2 test de Fisher-Snedecor. H0 : 12 = 2 = 2 contre H1 : 12 2 Une valeur t de la variable alatoire T est calcule : w w 2 x1 x2 n s 2 + n2 s2 t= avec 2 = 1 1 estimation de la variance 2 commune n1 + n2 2 1 1 2 + n1 n2 t calcule (tobs) est compare avec la valeur tseuil lue dans la table de Student pour un risque derreur fix et (n1 + n2 2) degrs de libert. si tobs > tseuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont extraits de deux populations ayant des esprances respectivement 1 et 2. si tobs tseuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) pour les chantillons de taille < 30, que les deux chantillons soient indpendants et que les deux variances estimes soient gales. Exemple :

- 20 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Dans le but dtudier linfluence du type datmosphre dlevage sur la dure de dveloppement des drosophiles femelles, ces dernires ont t leves 14C sous atmosphre normale (N) ou enrichie en C02 (C02). Les rsultats suivants ont t obtenus : N C02 864, 768, 912, 804, 924, 984, 888, 816, 840, 936, 792, 876 840, 948, 936, 1032, 912, 948, 1020, 936, 1056, 876, 1032, 918

Que peut-on conclure ? Rponse.

4.2.4 Les variances des populations sont inconnues et ingales


Si les variances des populations ne sont pas connues et si leurs estimations partir des chantillons sont significativement diffrentes ( test de comparaison des variances), il faut considrer deux cas de figure selon la taille des chantillons compars : les grands chantillons avec n1 et n2 suprieurs 30. les petits chantillons avec n1 et/ou n2 infrieurs 30.
Cas o n1 et n2 > 30

La statistique utilise est la mme que pour le cas o les variances sont connues. Sous H0 : 1 = 2 w w ( X1 X 2 ) Z=

12
n1

2 2

suit une loi normale centre rduite N(0,1)

n2

.
2 Comme les variances sont inconnues et significativement diffrentes 12 2 , on remplace les variances des populations par leurs estimations ponctuelles calcules partir des n n 2 2 chantillons, 12 = 1 s12 et 2 = 2 s2 n1 1 n2 1

Lhypothse teste est la suivante : H0 : 1 = 2 contre H1 : 1 2 Une valeur z de la variable alatoire Z est calcule : w w w w x1 x2 x1 x2 z= = = obs. 2 2 s12 s2 12 2 + + n1 1 n2 1 n1 n2 calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre rduite pour un risque derreur fix.
- 21 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont extraits de deux populations ayant des esprances respectivement 1 et 2. si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux populations ayant mme esprance .
Remarque : Pour lapplication de ce test, il est impratif que X N(,) et que les deux chantillons soient indpendants. Exemple :

Dans le but dtudier linfluence ventuelle de la lumire sur la croissance du poisson Lebistes Reticulus, on a lev deux lots de ce poisson dans des conditions dclairage diffrentes. Au 95me jour, on a mesur en mm les longueurs xi des poissons. On a obtenu les rsultats suivants : Lot 1 (180 individus) : clairage 400 lux xi1 = 3 780 xi21 = 84 884 Lot 2 (90 individus) : clairage 3 000 lux. Que peut-on conclure ? Rponse.
Cas o n1 et/ou n2 < 30

i2

= 2 043

2 i2

= 46 586

Lorsque leswvariances sont ingales et les chantillons de petites tailles, la loi de probabilit w suivie par X 1 X 2 nest pas connue. On a recours alors au statistique non paramtrique.

4.3

Comparaison de deux frquences

4.3.1 Principe du test


Soit X une variable qualitative prenant deux modalits (succs X=1, chec X=0) observe sur 2 populations et deux chantillons indpendants extraits de ces deux populations. On fait lhypothse que les deux chantillons proviennent de 2 populations dont les probabilits de succs sont identiques.

Population 1
X1 B(n1,p1)

Population 2
X2 B(n2,p2)

Echantillonnage alatoire simple

Echantillon 1
n1 , k1 , f1 = k1 n1

Echantillon 2
n2 , k2 , f 2 = k2 n2

- 22 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

Hypothses
H0 : p1 = p2 H1 : p1 p2

Le problme est de savoir si la diffrence entre les deux frquences observes est relle ou explicable par les fluctuations dchantillonnage. Pour rsoudre ce problme, deux tests de comparaison de frquences sont possibles : Test ou test de la variable centre rduite et test du Khi-deux 2

4.3.2 Statistique du test


La distribution dchantillonnage de la frquence de succs dans la population 1, une loi normale telle que : K1 K p1q1 suit N (p1, ) et de mme pour 2 suit N (p2, n1 n1 n2
p2 q2 ) n2

K1 suit n1

si et seulement si n1p1, n1q1, n2p2, n2q2 10 K1 K2 et tant deux variables alatoires indpendantes, nous pouvons tablir la loi de n1 n2 K K probabilit de la variable alatoire tudier 1 2 n1 n2 K K K K E( 1 2 ) = E( 1 ) - E( 2 ) = p1 - p2 (Proprit de l esprance) n1 n2 n1 n2 K K K K pq pq V( 1 2 ) = V( 1 ) + V( 2 ) = 1 1 + 2 2 (Proprit de la variance) n1 n2 n1 n2 n1 n2

Sachant que

K1 K 2 p1q1 p2 q2 suit une loi normale N(p1 - p2 , + ) , nous pouvons tablir n1 n2 n1 n2 grce au thorme central limite la variable Z centre rduite telle que K1 K 2 ( p1 p2 ) n1 n2 Z= p1q1 p2 q2 + n1 n2 n1 p1 + n2 p2 n1 + n2

Sous H0 : p1 = p2

avec

p=

Z=

K1 K 2 n1 n2 1 1 pq( + ) n1 n2

suit une loi normale centre rduite N(0,1)

- 23 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

4.3.3 Application et dcision


La valeur p, probabilit du succs commune aux deux populations nest en ralit pas connue. On lestime partir des rsultats observs sur les deux chantillons : k +k p = 1 2 o k1 et k2 reprsentent le nombre de succs observs n1 + n2 respectivement pour lchantillon 1 et pour lchantillon 2.

Lhypothse teste est la suivante : H0 : p1 = p2 contre H1 : p1 p2 Une valeur z de la variable alatoire Z est calcule : k1 k2 n1 n2 k +k z= avec p = 1 2 n1 + n2 1 1 pq + n1 n2 z ou calcule (obs) est compare avec la valeur seuil lue sur la table de la loi normale centre rduite pour un risque derreur fix. si obs > seuil lhypothse H0 est rejete au risque derreur : les deux chantillons sont extraits de deux populations ayant des probabilits de succs respectivement p1 et p2. si obs seuil lhypothse H0 est accepte: les deux chantillons sont extraits de deux populations ayant mme probabilit de succs p.
Exemple :

On veut tester limpact des travaux dirigs dans la russite lexamen de statistique.
Groupe 1 Nbre dheures de TD Nbre dtudiants Nbre dtudiants ayant russi lexamen 20 h 180 126 Groupe 2 30 h 150 129

Quen concluez-vous ? Rponse.

- 24 -

Mathmatiques : Outils pour la Biologie Deug SV UCBL

D. Mouchiroud (18/02/2003)

- 25 -

Você também pode gostar