Você está na página 1de 10

Le Khi deux

On utilise la lettre grecque (on prononce qui 1) pour identifier ce test. La formule du
Chi deux est :

2
Fo Fe 2
Fe

Fo reprsente les frquences observes


Fe Les frquences thoriques (On utilise galement Ft)2

Le Chi deux est utilis la fois comme test dajustement ou comme test dindpendance.
Dans les deux cas la formule est la mme. Cependant, il existe des diffrences au niveau
de lapplication et de certains calculs notamment dans le calcul des frquences
thoriques.

Exemple pour un test dajustement :

Supposons quun chercheur tente de dterminer sil y a ou non une diffrence


statistiquement significative entre le nombre de naissances et le jour de la semaine. Il
serait possible dutiliser ce rsultat pour, par exemple, planifier le personnel et
lquipement dun hpital.

Supposons que les naissances un hpital, pour une certaine priode de temps, se
rpartissent comme suit. :

Jour Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche Total


Frquence 120 130 125 128 80 70 75 728
Observes
Fo

On remarque quil y a eu au total 728 naissances. Il faut alors se poser la question


suivante : Combien devrait il y avoir de naissances, en thorie, chaque jour sil ny a
pas de diffrence entre les jours? Ceci reprsente lhypothse nulle qui est not Ho. En
fait lhypothse nulle indique que les diffrences entre les frquences observes et les
frquences thoriques sont relativement petites. Nous prenons donc pour acquis que si
aucune diffrence nexiste il devrait y avoir le mme nombre de naissances chaque jour.
728
Puisquil y a au total 728 naissances pour les 7 jours en thorie il devrait y avoir ou
7
104 naissances chaque jour. Nous avons donc maintenant le tableau suivant :

1
En anglais on crit Chi et on prononce ka. Il arrive parfois que les traducteurs utilisent
lcriture anglaise.
2
On utilise Fe qui est lcriture anglaise et qui signifie Expected frequency traduit en franais par frquence
espre. On retrouve galement la notation Ft pour frquence thorique.
Jour Lundi Mardi Mercredi Jeudi Vendredi Samedi Dimanche Total
Frquence 120 130 125 128 80 70 75 728
Observe
Fo
Frquence 104 104 104 104 104 104 104 728
Thorique
Fe

Le total des frquences observes est gal au total des frquences thoriques. Il sagit
donc dexaminer la diffrence entre les frquences observes et les frquences thoriques
en suivant la formule du Khi deux.

Donc : 2
Fo Fe 2
Fe

=
120 104
2
+
130 104
2
+
125 104
2
+
128 104
2
+
80 104
2
+
70 104
2

104 104 104 104 104 104

+
75 104 2
104

=
16 2 + 26 2 + 21 2 + 24 2 + 24 2 + 34 2 + 29 2
104 104 104 104 104 104 104

256 676 441 576 576 1156 841


= + + + + + +
104 104 104 104 104 104 104

= 2,46 + 6,5 + 4,24 + 5,54 + 5,54 + 11,12 + 8,09

= 43,49

Le 2 est donc de 43,49. Comme tel ce chiffre signifie peu de chose. Il faut interprter ce
rsultat grce laide de la table des valeurs critiques du 2. On comprend quil est trs
peu probable que la frquence observe et la frquence thorique soit identique. Nous
acceptons quil puisse y avoir une certaine diffrence. La table nous donne donc la valeur
maximale du Khi deux et sert dterminer si la diffrence entre les frquences observes
et les frquences thoriques sloignent tellement quil est possible daffirmer, avec un
certain niveau de risque de commettre une erreur avec cette affirmation, que, dans le cas
de notre exemple, il y a une diffrence statistiquement significative quant au nombre de
naissance pour chacune des journes de la semaine. Plus le chiffre sera lev plus grande
est la diffrence. La valeur critique du tableau nous indique jusqu quel point la
diffrence se retrouve lintrieur dun niveau acceptable. Donc : 2
Fo Fe 2
Fe
=
120 104
2
+
130 104
2
+
125 104
2
+
128 104
2
+
80 104
2
+
70 104
2

104 104 104 104 104 104

+
75 104 2
104

=
16
2
+
26
2
+
21
2
+
24
2
+
24
2
+
34
2
+
29
2

104 104 104 104 104 104 104

256 676 441 576 576 1156 841


= + + + + + +
104 104 104 104 104 104 104

= 2,46 + 6,5 + 4,24 + 5,54 + 5,54 + 11,12 + 8,09

= 43,49

Il est fort peu probable que le nombre de naissance soit exactement identique pour
chacune des journes. Il y a en effet une diffrence entre la thorie et la ralit.

Par exemple si vous roulez un d six faces 120 fois on devrait avoir, en thorie 20 fois
le 1, 20 fois le 2, 20 fois le trois etc. Nous savons trs bien que cela, bien que possible est
peu probable. Avant daffirmer que le d est truqu on accepte une certaine variation
entre les frquences observes et les frquences thoriques. Le 2 mesure la limite
acceptable de cette variation.

Afin dinterprter correctement le Khi deux, lutilisation de la table des valeurs critiques
est essentielle. Pour tre en mesure dutiliser cette table il est essentiel de dterminer le
nombre de degr de libert. Comme le khi deux mesure la somme des diffrences entre
les frquences observes et les frquences thoriques, plus il y a de choix, ou de
catgories de rponses, plus grande sera la possibilit que la frquence observe sloigne
de la frquence thorique. Dans le cas dun test dajustement le degr de libert est
dtermin par la formule n-1. Ici n reprsente le nombre de rponses possibles. Comme il
y a 7 jours, ou 7 rponses possibles, le degr de libert sera de 7-1 = 6. Dans le cas dun
d six faces nous aurions 6-1 = 5.

On retrouve dans la littrature plusieurs faon didentifier le degr de libert soit dl (pour
degr de libert); df (pour degrees of freedom) ou encore et la lettre grecque nu (). On
retrouve parfois lidentification df dans certains documents franais.

Afin dtre en mesure de bien interprter le rsultat du Khi deux il faut galement choisir
le seuil de signification. Il ne faut pas oublier que nous dsirons connatre sil existe une
diffrence statistiquement significative. Le seuil de signification nous indique le niveau
avec lequel nous pouvons affirmer quil existe effectivement une diffrence
statistiquement significative. Lorsque le Khi deux franchi le seuil, la diffrence devient
alors significative. Le seuil nous indique la probabilit de commettre une erreur en
prenant la dcision. On peut rsumer le processus de dcision par le biais du tableau
suivant :

Ho est vrai Ho est Faux


On accepte Ho Bonne dcision avec une Erreur de type II ou Erreur
probabilit de 95% de deuxime espce
On rejette Ho Erreur de type I ou Erreur Bonne dcision
de premire espce avec
une probabilit de 5%

Dans notre exemple le dl est de 6 et la valeur critique un seuil de 0,001 est de 22,46
Comme le khi deux de 43,49 est plus grand que la valeur critique au seuil de 0,001 nous
rejetons lhypothse nulle et affirmons quil existe une diffrence dans le nombre de
naissance selon les jours de la semaine. La probabilit de commettre une erreur avec
cette affirmation se situe 0,001%. Nous crivons ce rsultat 2 (6) 43,49 p < .001. La
lecture est la suivante : Un test du Khi deux (2) a t effectu avec 6 degrs de liberts et
dont le rsultat est de 43,39. On rejette lhypothse nulle et la probabilit de commettre
une erreur de type I avec cette affirmation est infrieure ,001 ou un dixime de un
pourcent

On remarquera que le test dhypothse valide ou invalide lhypothse nulle. Toutefois


lorsque lhypothse nulle est rejete on parlera de lhypothse alternative ( lhypothse
nulle) qui sera note soit Ha ou H1. Certains auteurs nomment cette hypothse
lhypothse daction.

Si nous poursuivons notre exemple nous avons conclu quil y avait une diffrence entre
les jours de la semaine et le nombre de naissance. Afin dtre en mesure de conclure
adquatement il est ncessaire de poursuivre la rflexion. Quen est-il des jours de la
semaine et de la fin de semaine? On regroupe donc les jours en deux catgories : les jours
de la semaine) lundi, mardi, mercredi et jeudi) et les jours de la fin de semaine (vendredi,
samedi et dimanche). Les frquences thoriques devront tenir compte quil y a 4 jours de
semaine et 3 jours de fin de semaine. Ainsi la frquence thorique pour la semaine sera de
4X104 = 416 et pour la fin de semaine 3X104 = 312. Nous avons donc maintenant le
tableau suivant :

Jour Lundi au jeudi Vendredi au Total


Dimanche
Fo 503 225 728
Fe 416 312 728

Donc : 2
Fo Fe 2
Fe
=
503 416
2
+
225 312
2

416 312

=
87 2 + 87 2
416 312

7569 7569
= +
416 312

= 18,19 + 24,26

= 42,45

Ici on rejette encore lhypothse nulle et affirmons quil existe une diffrence
statistiquement significative entre le nombre de naissance dans les jours de la semaine et
les jours de fin de semaine. Le rsultat scrit 2 (2) 43,49 p < .001. Notez que le dl est
maintenant de 2 puisque nous avons deux catgories donc n-1 = dl = 2-1 = 1.

Il sagit maintenant dexaminer les naissances entre les jours de la semaine. Les Fe sont
de 503/4 = 125,75.

Jour Lundi Mardi Mercredi Jeudi Total


Frquence 120 130 125 128 503
Observe
Fo
Frquence 125,75 125,75 125,75 125,75 503
Thorique
Fe

Donc : 2 Fo Fe 2
Fe

120 125,75 2 130 125,75 2 125 125,75 2 128 125,75 2


= + + +
125,75 125,75 125,75 125,75

5,75 2 4,25 2 ,75 2 2,25 2


= + + +
125,75 125,75 125,75 125,75

33,0625 18,0625 0,5625 5,0625


= 125,75 + 125,75 + 125,75 + 125,75

= 0,2629 + 0,1436 + 0,0045 + 0,0403

= 0,04513
Le khi deux ne dpasse pas la valeur critique qui est de 5,99 un niveau de 0,05%. On
accepte lhypothse nulle. Il ny a donc pas diffrence statistiquement signification entre
le nombre de naissance entre les de la semaine. On crit le rsultat 2 (3) 0,04513; ns. Le
terme ns veut dire non significatif. Remarquez que le dl est de 3 (4-1=3)

Nous effectuons le mme calcul pour les jours de la fin de semaine. Dans ce cas la Fe est
de 75.

Jour Vendredi Samedi Dimanche Total


Fo 80 70 75 225
Fe 75 75 75 225

Donc : 2
Fo Fe 2
Fe

=
80 75
2
+
70 75
2
+
75 75
2

75 75 75

=
5 2 + 5 2 + 0 2
75 75 75

25 25 0
= + +
75 75 75

= 0,3333 + 0,3333 + 0

= 0,6666

Ici encore il ny a pas de diffrence significative dans les naissances entre les jours de la
fin de semaine. Nous avons 2 (2) 0,6666; ns. Ici le dl est de 2 (3-1=2). Le ns signifie non
significatif.

Une fois les diffrents rsultats obtenus il est possible de faire une premire conclusion. Il
y a une diffrence entre le nombre de naissance en semaine et en fin de semaine mais
entre les jours de la semaine ou de la fin de semaine. Quest-ce qui peut expliquer cela? Il
est possible de poser des hypothses inspires par la recherche bibliographique ou encore
par la connaissance du sujet. (Par exemple il est possible quil y ait moins de csariennes
la fin de semaine).
Le test dindpendance

Le khi deux peut galement tre utilis comme test dindpendance. Dans ce cas on
examine deux variables et on vise dterminer si les deux variables sont indpendantes
lune de lautre. Supposons que lon dsire savoir si les lecteurs votent
proportionnellement pour les mmes partis selon la rgion. Supposons que suite un
sondage auprs de 625 personnes on obtient les rsultats suivants :

Rgion A Rgion B Rgion C Total


Parti Vert 80 30 50 160
Parti Bleu 115 55 60 230
Parti Rouge 115 30 90 235
Total 310 115 200 625

La premire tape consiste calculer les frquences thoriques pour chacune des cellules.
On nomme cellule la convergence des deux variables. On note les cellules selon la range
et la colonne. Ainsi, les 80 personnes qui votent pour le Parti Vert et qui proviennent de la
Rgion A forme la cellule 1-1 pour premire range premire colonne alors que les 30 qui
votent pour le Parti Rouge et qui rsident dans la Rgion B se retrouvent dans la cellule
3-2 (3e range et 2e colonne). Le calcul des frquences thoriques utilisent ce que nous
appelons les marginales . Les marginales sont les rsultats totaux des diffrentes
ranges et des diffrentes colonnes.

On trouve les Fe en multipliant le total de la range par le total de la colonne divis par le
TR * TC
nombre total de sujet. Fe =
GT

Aussi la frquence thorique pour la cellule 1-1 (Parti Vert- Rgion A) nous avons :

160 * 310
Fe11 79,36 Voici le calcul pour les autres cellules :
625

160 * 115
Fe12 29,44
625
160 * 200
Fe13 51,2
625
230 * 310
Fe21 114,08
625
230 * 115
Fe22 42,32
625
230 * 200
Fe23 73,6
625
235 * 310
Fe31 116,56
625
235 * 115
Fe32 43,24
625
235 * 200
Fe33 75,2
625

On se retrouve donc avec le tableau suivant :

Rgion A Rgion B Rgion C Total


Parti Vert 80 30 50 160
(79,36) (29,44) (51,2)
Parti Bleu 115 55 60 230
(114,08) (42,32) (73,6)
Parti Rouge 115 30 90 235
(116,56) (43,24) (75,2)
Total 310 115 200 625

Il est alors possible de calculer le Khi deux.

2
Fo Fe 2
Fe

80 79,36 2 30 29,44 2 50 51,2 2 115 114,08 2 55 42,32 2


= + + + + +
79,36 29,44 51,2 114 ,08 42,32
60 73,6 2
73,6
115 116,56 2 30 43,24 2 90 75,2 2
+ + +
116,56 43,24 75,2

0,64 2 0,56 2 1,2 2 0,82 2 12,68 2 13,6 2 1,56 2


= + + + + + + +
79,36 29,44 51,2 114 ,08 42,32 73,6 116,56
13,24 2 14,8 2
+
43,24 75,2

0,4096 0,3136 1,44 0,8464 160,7824 184,96 2,4336 175,2976


= 79,36 + 29,44 + 51,2 + 114,08 + 42,32
+ 73,6 + 116,50 + 43,24
219,04
+ 75,2

= 0,00516 + 0,01065 + 0,02813 + 0,00742 + 3,79921 + 2,51304 + 0,02088 + 4,05406 +


2,91277

= 13,35132
Nous obtenons donc un Khi deux de 13,35132. Le nombre de degr de libert est le
rsultat dun calcul diffrent que pour le test dajustement. On utilise le nombre de
ranges et le nombre de colonnes. La grandeur du tableau aura donc une influence sur le
dl.

Le dl est le rsultat de la multiplication du nombre de ranges moins 1 fois le nombre de


colonnes moins 1 tel que dl = (r-1) * (c-1). Pour notre exemple il y a trois ranges
puisque nous avons trois partis (on exclue la range total) et trois colonnes puisquil y a
trois rgion (on exclue la colonne total).
Ceci nous donne (3-1) * (3-1) = (2) *(2) = 4. Il y a donc 4 degr de libert. La valeur
critique un seuil de signification de 0,05 est de 9,49. Notre Khi deux tant suprieur la
valeur critique nous rejetons lhypothse nulle ce niveau. Il est important de voir
jusqu quel niveau il est possible de rejeter lhypothse nulle. On remarque que la valeur
critique au niveau 0,02 est de 11,67 et au niveau de 0,01 de 13,28. Toutefois, au niveau
0,001 la valeur critique de 18,46 est plus grande que notre Khi deux. Nous ne pouvons
donc pas rejeter lhypothse nulle ce niveau et on doit se rabattre un seuil de 0,01. Le
rsultat scrirait donc 2 (4) 13,35 p < .01.

Il faut toutefois demeurer prudent dans linterprtation de ce rsultat. Pris dans son
ensemble nous pourrions dire que les lecteurs ne votent pas de la mme faon selon les
rgions. Cette gnralit peut toutefois porter confusion puisque seulement 4 cellules
influences le rsultat. En observant attentivement les contributions au Khi deux on
remarque que les cellules 1-1;1-2;1-3;2-1 et 3-1 on une petite contribution au rsultat. En
fait la diffrence entre les Fo et les Fe pour ces cellules sont trs faibles. Ce ne sont que
les cellules 2-2; 2-3; 3-2 et 3-3 qui offrent une plus grande diffrence. En clair cela
signifie quil ny a pas de diffrence rgionale pour le Parti Vert, alors que le Parti Jaune
et le Parti Rouge obtiennent de meilleurs rsultats dans une rgion au dtriment de lautre
Parti. Pour un stratge politique cette information est importante. Le rsultat du Khi deux
doit donc tre examin la fois dans son ensemble et en fonction des contributions pour
chacune des cellules.

Les mesures bases sur le Khi deux : Le C; le V et le

La valeur du Khi carr (Khi deux) est difficile a valuer surtout lorsque lon compare
deux khi deux entre eux. Les articles scientifiques utilisent principalement la le seuil de
signification du test dhypothse. Il existe cependant des mesures qui permettent de
qualifier le Khi deux. Cette utilisation est de moins en moins frquentes dans les
analyses mais mritent quand mme une certaine attention puisquelles peuvent savrer
utiles dans certaines situations.

Le coefficient de contingence (C)

Le coefficient de contingence (C) permet dliminer leffet du nombre. Il est en effet


possible quun chercheur examine le rsultat de deux Khi deux mais qui ne portent pas
sur le mme nombre dindividus. Les rsultats des Khi deux peuvent tre trs similaires
ce qui porterait le chercheur conclure que les Khi deux sont identiques. Le coefficient
de contingence permet de calibrer les rsultats. Le C permet galement de mesurer
lintensit de lassociation entre les deux variables. La formule du C est la suivante :

2
C=
2 N

Il est possible dutiliser le C pour dterminer la force dune association ou pour


permettre de comparer la force de deux rsultats utilisant un nombre N diffrent.

La limite suprieure du C est sensible la taille du tableau ou, du nombre de colonnes et


du nombre de ranges. Pour palier cet inconvnient on utilise le calcul du V de Cramer.

Le V de Cramer (V)

L e V de Cramer est similaire au C mais il sajuste au nombre de colonnes et de ranges


de telle manire quil est possible dobtenir la valeur maximale de 1. La formule est la
suivante :

2
V=
N MIN r 1, c 1)

Le Phi

Le phi (prononcez fi) est utilis lorsque lon a affaire un tableau 2X2. Si on utilise le
Phi pour un tableau de plus grande dimension, il est possible que le Phi dpasse la valeur
de 1,00. Pour palier cela certains chercheurs utilisent 2. Il est important de noter que
les valeurs minima et maxima de ces trois mesures se situent entre 0 et 1. Nous pourrions
examiner cette question plus en profondeur mais ceci nest pas lobjectif du prsent texte.
Il faut surtout retenir que ces trois mesures nous offre une apprciation de la force du
rsultat du Khi deux et quil est possible de les utiliser pour comparer les rsultats de
deux Khi deux.

Você também pode gostar