Escolar Documentos
Profissional Documentos
Cultura Documentos
On utilise la lettre grecque (on prononce qui 1) pour identifier ce test. La formule du
Chi deux est :
2
Fo Fe 2
Fe
Le Chi deux est utilis la fois comme test dajustement ou comme test dindpendance.
Dans les deux cas la formule est la mme. Cependant, il existe des diffrences au niveau
de lapplication et de certains calculs notamment dans le calcul des frquences
thoriques.
Supposons que les naissances un hpital, pour une certaine priode de temps, se
rpartissent comme suit. :
1
En anglais on crit Chi et on prononce ka. Il arrive parfois que les traducteurs utilisent
lcriture anglaise.
2
On utilise Fe qui est lcriture anglaise et qui signifie Expected frequency traduit en franais par frquence
espre. On retrouve galement la notation Ft pour frquence thorique.
Jour Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche Total
Frquence 120 130 125 128 80 70 75 728
Observe
Fo
Frquence 104 104 104 104 104 104 104 728
Thorique
Fe
Le total des frquences observes est gal au total des frquences thoriques. Il sagit
donc dexaminer la diffrence entre les frquences observes et les frquences thoriques
en suivant la formule du Khi deux.
Donc : 2
Fo Fe 2
Fe
=
120 104
2
+
130 104
2
+
125 104
2
+
128 104
2
+
80 104
2
+
70 104
2
+
75 104 2
104
=
16 2 + 26 2 + 21 2 + 24 2 + 24 2 + 34 2 + 29 2
104 104 104 104 104 104 104
= 43,49
Le 2 est donc de 43,49. Comme tel ce chiffre signifie peu de chose. Il faut interprter ce
rsultat grce laide de la table des valeurs critiques du 2. On comprend quil est trs
peu probable que la frquence observe et la frquence thorique soit identique. Nous
acceptons quil puisse y avoir une certaine diffrence. La table nous donne donc la valeur
maximale du Khi deux et sert dterminer si la diffrence entre les frquences observes
et les frquences thoriques sloignent tellement quil est possible daffirmer, avec un
certain niveau de risque de commettre une erreur avec cette affirmation, que, dans le cas
de notre exemple, il y a une diffrence statistiquement significative quant au nombre de
naissance pour chacune des journes de la semaine. Plus le chiffre sera lev plus grande
est la diffrence. La valeur critique du tableau nous indique jusqu quel point la
diffrence se retrouve lintrieur dun niveau acceptable. Donc : 2
Fo Fe 2
Fe
=
120 104
2
+
130 104
2
+
125 104
2
+
128 104
2
+
80 104
2
+
70 104
2
+
75 104 2
104
=
16
2
+
26
2
+
21
2
+
24
2
+
24
2
+
34
2
+
29
2
= 43,49
Il est fort peu probable que le nombre de naissance soit exactement identique pour
chacune des journes. Il y a en effet une diffrence entre la thorie et la ralit.
Par exemple si vous roulez un d six faces 120 fois on devrait avoir, en thorie 20 fois
le 1, 20 fois le 2, 20 fois le trois etc. Nous savons trs bien que cela, bien que possible est
peu probable. Avant daffirmer que le d est truqu on accepte une certaine variation
entre les frquences observes et les frquences thoriques. Le 2 mesure la limite
acceptable de cette variation.
Afin dinterprter correctement le Khi deux, lutilisation de la table des valeurs critiques
est essentielle. Pour tre en mesure dutiliser cette table il est essentiel de dterminer le
nombre de degr de libert. Comme le khi deux mesure la somme des diffrences entre
les frquences observes et les frquences thoriques, plus il y a de choix, ou de
catgories de rponses, plus grande sera la possibilit que la frquence observe sloigne
de la frquence thorique. Dans le cas dun test dajustement le degr de libert est
dtermin par la formule n-1. Ici n reprsente le nombre de rponses possibles. Comme il
y a 7 jours, ou 7 rponses possibles, le degr de libert sera de 7-1 = 6. Dans le cas dun
d six faces nous aurions 6-1 = 5.
On retrouve dans la littrature plusieurs faon didentifier le degr de libert soit dl (pour
degr de libert); df (pour degrees of freedom) ou encore et la lettre grecque nu (). On
retrouve parfois lidentification df dans certains documents franais.
Afin dtre en mesure de bien interprter le rsultat du Khi deux il faut galement choisir
le seuil de signification. Il ne faut pas oublier que nous dsirons connatre sil existe une
diffrence statistiquement significative. Le seuil de signification nous indique le niveau
avec lequel nous pouvons affirmer quil existe effectivement une diffrence
statistiquement significative. Lorsque le Khi deux franchi le seuil, la diffrence devient
alors significative. Le seuil nous indique la probabilit de commettre une erreur en
prenant la dcision. On peut rsumer le processus de dcision par le biais du tableau
suivant :
Dans notre exemple le dl est de 6 et la valeur critique un seuil de 0,001 est de 22,46
Comme le khi deux de 43,49 est plus grand que la valeur critique au seuil de 0,001 nous
rejetons lhypothse nulle et affirmons quil existe une diffrence dans le nombre de
naissance selon les jours de la semaine. La probabilit de commettre une erreur avec
cette affirmation se situe 0,001%. Nous crivons ce rsultat 2 (6) 43,49 p < .001. La
lecture est la suivante : Un test du Khi deux (2) a t effectu avec 6 degrs de liberts et
dont le rsultat est de 43,39. On rejette lhypothse nulle et la probabilit de commettre
une erreur de type I avec cette affirmation est infrieure ,001 ou un dixime de un
pourcent
Si nous poursuivons notre exemple nous avons conclu quil y avait une diffrence entre
les jours de la semaine et le nombre de naissance. Afin dtre en mesure de conclure
adquatement il est ncessaire de poursuivre la rflexion. Quen est-il des jours de la
semaine et de la fin de semaine? On regroupe donc les jours en deux catgories : les jours
de la semaine) lundi, mardi, mercredi et jeudi) et les jours de la fin de semaine (vendredi,
samedi et dimanche). Les frquences thoriques devront tenir compte quil y a 4 jours de
semaine et 3 jours de fin de semaine. Ainsi la frquence thorique pour la semaine sera de
4X104 = 416 et pour la fin de semaine 3X104 = 312. Nous avons donc maintenant le
tableau suivant :
Donc : 2
Fo Fe 2
Fe
=
503 416
2
+
225 312
2
416 312
=
87 2 + 87 2
416 312
7569 7569
= +
416 312
= 18,19 + 24,26
= 42,45
Ici on rejette encore lhypothse nulle et affirmons quil existe une diffrence
statistiquement significative entre le nombre de naissance dans les jours de la semaine et
les jours de fin de semaine. Le rsultat scrit 2 (2) 43,49 p < .001. Notez que le dl est
maintenant de 2 puisque nous avons deux catgories donc n-1 = dl = 2-1 = 1.
Il sagit maintenant dexaminer les naissances entre les jours de la semaine. Les Fe sont
de 503/4 = 125,75.
Donc : 2 Fo Fe 2
Fe
= 0,04513
Le khi deux ne dpasse pas la valeur critique qui est de 5,99 un niveau de 0,05%. On
accepte lhypothse nulle. Il ny a donc pas diffrence statistiquement signification entre
le nombre de naissance entre les de la semaine. On crit le rsultat 2 (3) 0,04513; ns. Le
terme ns veut dire non significatif. Remarquez que le dl est de 3 (4-1=3)
Nous effectuons le mme calcul pour les jours de la fin de semaine. Dans ce cas la Fe est
de 75.
Donc : 2
Fo Fe 2
Fe
=
80 75
2
+
70 75
2
+
75 75
2
75 75 75
=
5 2 + 5 2 + 0 2
75 75 75
25 25 0
= + +
75 75 75
= 0,3333 + 0,3333 + 0
= 0,6666
Ici encore il ny a pas de diffrence significative dans les naissances entre les jours de la
fin de semaine. Nous avons 2 (2) 0,6666; ns. Ici le dl est de 2 (3-1=2). Le ns signifie non
significatif.
Une fois les diffrents rsultats obtenus il est possible de faire une premire conclusion. Il
y a une diffrence entre le nombre de naissance en semaine et en fin de semaine mais
entre les jours de la semaine ou de la fin de semaine. Quest-ce qui peut expliquer cela? Il
est possible de poser des hypothses inspires par la recherche bibliographique ou encore
par la connaissance du sujet. (Par exemple il est possible quil y ait moins de csariennes
la fin de semaine).
Le test dindpendance
Le khi deux peut galement tre utilis comme test dindpendance. Dans ce cas on
examine deux variables et on vise dterminer si les deux variables sont indpendantes
lune de lautre. Supposons que lon dsire savoir si les lecteurs votent
proportionnellement pour les mmes partis selon la rgion. Supposons que suite un
sondage auprs de 625 personnes on obtient les rsultats suivants :
La premire tape consiste calculer les frquences thoriques pour chacune des cellules.
On nomme cellule la convergence des deux variables. On note les cellules selon la range
et la colonne. Ainsi, les 80 personnes qui votent pour le Parti Vert et qui proviennent de la
Rgion A forme la cellule 1-1 pour premire range premire colonne alors que les 30 qui
votent pour le Parti Rouge et qui rsident dans la Rgion B se retrouvent dans la cellule
3-2 (3e range et 2e colonne). Le calcul des frquences thoriques utilisent ce que nous
appelons les marginales . Les marginales sont les rsultats totaux des diffrentes
ranges et des diffrentes colonnes.
On trouve les Fe en multipliant le total de la range par le total de la colonne divis par le
TR * TC
nombre total de sujet. Fe =
GT
Aussi la frquence thorique pour la cellule 1-1 (Parti Vert- Rgion A) nous avons :
160 * 310
Fe11 79,36 Voici le calcul pour les autres cellules :
625
160 * 115
Fe12 29,44
625
160 * 200
Fe13 51,2
625
230 * 310
Fe21 114,08
625
230 * 115
Fe22 42,32
625
230 * 200
Fe23 73,6
625
235 * 310
Fe31 116,56
625
235 * 115
Fe32 43,24
625
235 * 200
Fe33 75,2
625
2
Fo Fe 2
Fe
= 13,35132
Nous obtenons donc un Khi deux de 13,35132. Le nombre de degr de libert est le
rsultat dun calcul diffrent que pour le test dajustement. On utilise le nombre de
ranges et le nombre de colonnes. La grandeur du tableau aura donc une influence sur le
dl.
Il faut toutefois demeurer prudent dans linterprtation de ce rsultat. Pris dans son
ensemble nous pourrions dire que les lecteurs ne votent pas de la mme faon selon les
rgions. Cette gnralit peut toutefois porter confusion puisque seulement 4 cellules
influences le rsultat. En observant attentivement les contributions au Khi deux on
remarque que les cellules 1-1;1-2;1-3;2-1 et 3-1 on une petite contribution au rsultat. En
fait la diffrence entre les Fo et les Fe pour ces cellules sont trs faibles. Ce ne sont que
les cellules 2-2; 2-3; 3-2 et 3-3 qui offrent une plus grande diffrence. En clair cela
signifie quil ny a pas de diffrence rgionale pour le Parti Vert, alors que le Parti Jaune
et le Parti Rouge obtiennent de meilleurs rsultats dans une rgion au dtriment de lautre
Parti. Pour un stratge politique cette information est importante. Le rsultat du Khi deux
doit donc tre examin la fois dans son ensemble et en fonction des contributions pour
chacune des cellules.
La valeur du Khi carr (Khi deux) est difficile a valuer surtout lorsque lon compare
deux khi deux entre eux. Les articles scientifiques utilisent principalement la le seuil de
signification du test dhypothse. Il existe cependant des mesures qui permettent de
qualifier le Khi deux. Cette utilisation est de moins en moins frquentes dans les
analyses mais mritent quand mme une certaine attention puisquelles peuvent savrer
utiles dans certaines situations.
2
C=
2 N
Le V de Cramer (V)
2
V=
N MIN r 1, c 1)
Le Phi
Le phi (prononcez fi) est utilis lorsque lon a affaire un tableau 2X2. Si on utilise le
Phi pour un tableau de plus grande dimension, il est possible que le Phi dpasse la valeur
de 1,00. Pour palier cela certains chercheurs utilisent 2. Il est important de noter que
les valeurs minima et maxima de ces trois mesures se situent entre 0 et 1. Nous pourrions
examiner cette question plus en profondeur mais ceci nest pas lobjectif du prsent texte.
Il faut surtout retenir que ces trois mesures nous offre une apprciation de la force du
rsultat du Khi deux et quil est possible de les utiliser pour comparer les rsultats de
deux Khi deux.