Escolar Documentos
Profissional Documentos
Cultura Documentos
3.1 Introduction
L'analyse factorielle des correspondances (AFC), ou analyse des correspondances simples, est une
mthode exploratoire d'analyse des tableaux de contingence. Elle a t dvelopp essentiellement par J.-P.
Benzecri durant la priode 1970-1990.
L'ACP vise analyser ce tableau en apportant des rponses des questions telles que :
- Y a-t-il des lignes du tableau (modalits de X) qui se "ressemblent", c'est--dire telles que les
distributions des modalits de Y soient analogues ?
- Y a-t-il des lignes du tableau (modalits de X) qui s'opposent, c'est--dire telles que les
distributions des modalits de Y soient trs diffrentes ?
- Mmes questions pour les colonnes du tableau.
- Y a-t-il des associations modalit de X - modalit de Y qui s'attirent (effectif conjoint
particulirement lev) ou qui se repoussent (effectif conjoint particulirement faible) ?
La mthode se fixe galement comme but de construire des reprsentations graphiques mettant en
vidence ces proprits des donnes.
3.2 Exemple
3.2.1 Enonc
Rf. Examen de Statistiques de mai 2004, Module MULT, Matrise de Psychologie, Universit Ren
Descartes. Site Web : http://piaget.psycho.univ-paris5.fr/Statistiques/
Les donnes qui suivent sont constitues par les rsultats du premier tour des lections rgionales de 2004
pour la rgion Ile de France. Pour chacun des huit dpartements de lIle de France (en lignes), on a les
effectifs de suffrages pour chacune des huit listes candidates ainsi que les effectifs dabstentions (en
colonnes). Lobjectif est danalyser la structure des votes ainsi que les liaisons entre listes et
dpartements. Voici les codes de dsignation des dpartements et des listes :
Y a-t-il des dpartements qui se ressemblent, c'est--dire dans lesquels les rsultats (en pourcentages) des
diffrentes listes sont voisins ? Y a-t-il au contraire des dpartements qui s'opposent (rsultats trs
diffrents) ?
Y a-t-il des dpartements dont les rsultats sont proches de ceux de la rgion tout entire ? Y a-t-il des
dpartements " part" (dont les rsultats s'cartent notablement de ceux de la rgion) ?
Y a-t-il des listes qui se ressemblent : elles n'obtiennent pas ncessairement les mmes scores, mais les
dpartements o elles obtiennent de bons scores sont les mmes ? Y a-t-il des listes qui s'opposent ?
Y a-t-il des listes dont l'audience est la mme dans tous les dpartements ? Y a-t-il des listes pour
lesquelles le vote est concentr dans certains dpartements ?
Comment les dpartements " part" et les listes "vote concentr" s'associent-ils ?
Comme en ACP, on s'intresse alors aux directions de "plus grande dispersion" de chacun de ces nuages
de points. Mais, pour mesurer la "distance" entre deux individus, on utilise la mtrique du 2 au lieu de
la distance habituelle (dite mtrique euclidienne). La distance du 2 entre la ligne i et la ligne i' est ainsi
dfinie par :
( fl fli' j )2
d 2 2 ( Li ,Li' ) = ij
j f j
Pourquoi utiliser cette mtrique plutt que la mtrique euclidienne ? Deux raisons fortes peuvent tre
avances :
- Avec la mtrique du 2 , la distance entre deux lignes ne dpend pas des poids respectifs des
colonnes. Ainsi, sur notre exemple, les diffrentes listes obtiennent des scores trs diffrents et
l'usage de la mtrique euclidienne aurait donn trop de poids aux listes qui ont obtenu des scores
levs (ABST, HUCH, COPE).
F.-G. Carpentier - 2006 3
- La mtrique du 2 possde la proprit d'quivalence distributionnelle : si on regroupe deux
modalits lignes, les distances entre les profils-colonne, ou entre les autres profils-lignes restent
inchanges.
Par exemple, la distance entre la ligne PARI et la ligne SMAR est donne par :
( 0, 2291 0 ,1765 )2 ( 0 ,3847 0 , 4133 )2
d 2 2 ( PARI ,SMAR ) = + + = 0 ,0682
0 ,1903 0 , 4044
La distance entre PARI et le profil-ligne moyen est donne par :
( 0 ,2291 0 ,1903 )2 ( 0 ,3847 0 , 4044 )2
d 2 2 ( PARI ,Moyenne ) = ++ = 0,0215
0 ,1903 0 , 4044
Avec les transpositions ncessaires, ce qui vient d'tre dit pour les lignes s'applique galement aux
colonnes. Par exemple, la distance entre la colonne BUFFET et la colonne SANTINI est :
( 0 ,1480 0 ,1934 )2 ( 0 ,0936 0 ,0811)2
d 2 2 ( BUFFET ,SANTINI ) = ++ = 0, 2753
0,1834 0 ,1001
Notons qu'en revanche, il n'existe pas d'outil mesurant une "distance" entre une ligne et une colonne.
Signification pratique du taux de liaison : le score de la liste Huchon Paris est 20% plus lev que le
score thorique que l'on observerait si les votes taient indpendants des dpartements. Au contraire, celui
de la liste Le Pen est 30% moins lev que le score thorique.
Par construction, les valeurs prises par le taux de liaison sont :
- des nombres positifs quelconques (un score observ peut tre 200% ou 300% suprieur au score
thorique)
- des nombres ngatifs compris entre -1 et 0 (le "dficit" le plus extrme d'un score observ est
d'tre 100% moins lev que le score thorique).
Notez que le coefficient f i f j reprsente le "poids thorique" de chaque cellule dans le tableau. La
somme de ces coefficients vaut 1.
La moyenne de la srie des taux de liaison pondre par les coefficients f i f j est nulle. La variance de
cette srie (avec les mmes pondrations) est le coefficient 2 :
( f f i f j )2 2
2 = f i f j tij2 = ij =
i, j i, j f i f j n
Ici, on obtient : 2 = 0 ,02379 .
La mthode d'analyse factorielle des correspondances peut tre vue comme une dcomposition pertinente
du 2 selon plusieurs axes factoriels.
La matrice (tableau de valeurs) dont on recherche les valeurs propres et vecteurs propres est un objet
mathmatique "compliqu", qui ne possde pas de signification intuitive immdiate. De fait, on part de la
f ij
matrice dont le terme l'intersection de la ligne i et de la colonne j vaut : et on calcule des
f i f j
produits scalaires entre lignes (ou entre colonnes) de cette matrice.
Le nombre de valeurs propres produites par la recherche des facteurs principaux est gal au minimum du
nombre de lignes et du nombre de colonnes du tableau de contingence. Cependant, la premire valeur
propre est systmatiquement gale 1, et n'est pas mentionne dans les rsultats. Les autres valeurs
propres sont des nombres positifs infrieurs 1 et leur somme est gale 2.
0,016
0,014
0,012
0,010
0,008
Valeur Propre
0,006
0,004
0,002
0,000
1 2 3 4 5 6 7 8
Nbre de Dimensions
La colonne "Masse" rappelle les frquences marginales des lignes c'est--dire le profil colonne moyen.
Contrairement l'ACP norme, dans laquelle chaque individu tait affect du mme poids, les
dpartements ont ici un "poids" dpendant de l'effectif total d'lecteurs inscrits dans le dpartement.
La colonne "Qualit" indique les qualits de reprsentation des individus ligne par les trois premiers axes
principaux. Ces qualits sont calcules par des formules du type (Li dsigne ici la ligne Ni, Fj, le facteur
principal Nj) :
(Coord de Li selon F1 ) 2 + (Coord de Li selon F2 ) 2 + (Coord de Li selon F3 ) 2
QLT(Li ,F1;F2 ;F3 ) =
(Coord de Li selon Fl )2
l
Par exemple :
(0,1050) 2 + (0,0027) 2 + (0,1016) 2
QLT(PARIS,F1;F2 ;F3 ) =
(0,1050) + (0,0027) + (0,1016) 2 + (0,0107) 2 + (0,0068) 2 + (0,0017) 2 + (0,0007) 2
2 2
Pour chacun des trois axes factoriels, le tableau nous donne galement les coordonnes ou scores
factoriels de l'individu-ligne selon cet axe. Ces coordonnes ont les proprits suivantes :
- Selon chaque axe, la moyenne des coordonnes des individus-lignes pondres par les masses, est
nulle.
- Selon chaque axe, la moyenne des carrs des coordonnes des individus-lignes pondres par les
masses, est gale la valeur propre correspondante.
- Les coordonnes selon deux axes diffrents, pondres par les masses, forment deux sries
statistiques indpendantes (covariance nulle)
Ainsi :
(0,1050 0,1834) + (0,0821 0,1186) + + (0,0854 0,1001) = 0
(0,1050) 2 0,1834 + (0,0821) 2 0,1186 + + (0,0854) 2 0,1001 = 0,015123
F.-G. Carpentier - 2006 6
(0,1050) (0,0027) 0,1834 + (0,0821) (0,1181) 0,1186 + + (0,0854) (0,0513) 0,1001 = 0
Le tableau donne galement la contribution de chaque individu la formation de l'axe, ou inertie selon cet
axe. Cette valeur est dfinie par :
( Masse Li ) (Coord Li selon Fk ) 2
Ctr( Li , Fk ) =
Valeur propre relative Fk
Par exemple, pour Paris et l'axe factoriel N1 :
0,1834 (0,1050) 2
Ctr(PARIS,F1 ) = = 0,1337
0,0151
Ces valeurs sont des contributions relatives (la somme de la colonne vaut 1). On peut donc utiliser des
colonnes pour rechercher quels sont les individus-lignes qui ont eu une influence suprieure la moyenne
dans la formation de l'axe factoriel considr.
Enfin, ce tableau nous donne les cosinus-carrs ou qualits de reprsentation des individus-lignes par
chaque axe factoriel. Ces valeurs sont dfinies par :
(Coord de Li selon Fk ) 2
QLT(Li ,Fk ) =
(Coord de Li selon Fl )2
l
Par exemple :
(0,1050) 2
QLT(PARIS,F1) = = 0,5122
(0,1050) + (0,0027) + (0,1016) + (0,0107) 2 + (0,0068) 2 + (0,0017) 2 + (0,0007) 2
2 2 2
L'interprtation gomtrique de ces valeurs est analogue celle dveloppe pour l'ACP : c'est le carr du
cosinus de l'angle du vecteur reprsentant "PARIS" dans l'espace 7 dimensions de sa projection sur le
premier axe factoriel.
Dans une AFC, les individus-lignes et les individus-colonnes jouent des rles symtriques. Les rsultats
relatifs aux individus-colonnes s'interprtent donc de la mme faon que les rsultats relatifs aux
individus-lignes.
0,3
STDE BUFFET
0,2 LAGU
LEPEN
BAY
0,1 VDOI
SMAR
VDMA
ABSTEN
PELEG
ESSO
0,0
HUCHON
Valeur Coordonne
YVEL
PARI
-0,1 COPE
HTSS
-0,2
SANTINI
-0,3
Coordonnes Ligne Coord. Colonne
BUFFET
0,2
STDE SANTINI
0,1 HTSS
VDMA
PARI ABSTEN
0,0 LAGU
HUCHON
ESSO
YVEL
Valeur Coordonne
VDOI COPE
PELEG
-0,2
Coordonnes Ligne Coord. Colonne
0,3
BUFFET
0,2
SANTINI STDE
0,1 HTSS
VDMA
PARI ABSTEN
HUCHON LAGU
0,0
YVEL ESSO
COPE VDOI
PELEG
-0,2
Dimension 2; Valeur Propre : ,00466 (19,58 % d'Inertie)
-0,3
Coord.L.
-0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4
Coord.C.
Dimension 1; Valeur Propre : ,01512 (63,58 % d'Inertie)
0,2
HUCHON
PARI
0,1
ESSO
VDMA BUFFET
ABSTEN
COPE LAGU STDE
0,0 VDOI
SMAR
PELEGYVEL
HTSS
SANTINI
LEPEN
-0,1 BAY
Dimension 3; Valeur Propre : ,00341 (14,32 % d'Inertie)
-0,2
Coord.L.
-0,2 -0,1 0,0 0,1 0,2 0,3
Coord.C.
Dimension 2; Valeur Propre : ,00466 (19,58 % d'Inertie)
BUFFET
STDE
HUCHON
VDMA LAGU
PARI
ABSTEN
ESSO
VDOI
SMAR
HTSSCOPE PELEGLEPEN
SANTINI YVEL BAY
Coord.L.
Coord.C.
On vrifie que :
2
deucl ( PARI ', SMAR') = (0,1050 0,0821) 2 + + (0,0007 + 0,0004) 2 = 0,0682
De mme, on avait tabli que :
(0,2291 0,1903) 2 (0,3847 0,4044) 2
d2 2 (PARI, Moyenne) = ++ = 0,0215
0,1903 0,4044
Et l'on a :
2
deucl ( PARI ', O) = (0,1050) 2 + + (0,0007) 2 = 0,0215
La mme proprit s'applique aux colonnes. Le tableau complet des scores factoriels des colonnes est
donn par :
Facteur 1 Facteur 2 Facteur 3 Facteur 4 Facteur 5 Facteur 6 Facteur 7
HUCHON -0,0421 -0,0165 0,1024 -0,0157 0,0024 -0,0023 -0,0020
COPE -0,1305 -0,0513 -0,0089 0,0325 0,0108 -0,0038 0,0013
SANTINI -0,2388 0,0955 -0,0822 -0,0225 -0,0035 -0,0032 -0,0009
LEPEN 0,1628 -0,1146 -0,0883 -0,0174 0,0017 -0,0101 -0,0034
BUFFET 0,2581 0,2259 0,0117 0,0178 0,0259 -0,0069 -0,0027
LAGU 0,1655 -0,0084 -0,0066 -0,0212 -0,0020 -0,0297 0,0204
PELEG 0,0332 -0,0714 -0,0625 -0,0499 0,0601 0,0423 0,0148
BAY 0,1514 -0,1198 -0,1211 -0,0160 0,0350 -0,0014 -0,0356
ABSTEN 0,0538 0,0058 -0,0059 0,0055 -0,0100 0,0060 0,0004
( Score fact . ligne i selon axe )(Score fact . colonne j selon axe )
t ij = Valeur propre associe l' axe
Axes factoriels
Par exemple, le taux de liaison entre PARI et la liste HUCHON peut tre retrouv l'aide du calcul
suivant :
Connaissant les profils moyens des lignes et des colonnes, et l'effectif total N, l'ensemble des donnes
peut ainsi tre retrouv.
L'interprtation pourra tre faite axe par axe, en tudiant d'abord sparment lignes et colonnes.
Pour chaque axe, on pourra dresser un tableau des individus qui ont apport une contribution suprieure
la moyenne la formation de cet axe.
Le premier axe oppose Paris et les Hauts de Seine la Seine St Denis. Si on considre le positionnement
des autres dpartements, cet axe oppose Paris et la banlieue Ouest (socialement assez favorise) la
banlieue du nord et de l'est (socialement moins favorise).
Pour les modalits colonnes, cet axe oppose deux listes proches de la majorit gouvernementale deux
listes de "forte opposition", voire de vote protestataire.
Pour les modalits colonnes, cet axe oppose la liste Le Pen aux listes Santini et Buffet.
Cet axe oppose donc les zones moins urbaniss, o la liste Le Pen obtient ses meilleurs scores, aux zones
plus urbaniss o le vote en dehors des listes "classiques" (UMP, PS) est surtout reprsent par les listes
Santini et Buffet.
Paris reprsente plus de la moiti de l'inertie de cet axe, qui est donc essentiellement reprsentatif des
spcificits du vote Paris "intra-muros". On note cependant que les trois dpartements figurant dans le
tableau ci-dessus sont aussi les plus peupls.
De mme, la liste Huchon reprsente plus de la moiti de cet axe.
Le troisime axe associe donc la liste Huchon au vote Paris. C'est effectivement dans ce dpartement
que cette liste obtient les meilleurs scores. L'indpendance entre les axes nous amne nous demander s'il
existe une spcificit du vote parisien. Mais, les rsultats n'indiqueraient-ils pas plutt que les spcificits
rencontres prcdemment ne se retrouvent pas Paris ?
1. Le vote protestataire de gauche, reprsent par la Seine St Denis et la liste Buffet (et, dans une
moindre mesure, la liste Laguiller) ;
2. Le cas spcifique du couple (Santini, Hauts de Seine)
3.2.4.3 Remarques :
1. Les grands partis "classiques" (Huchon, Cop) interviennent finalement assez peu dans l'analyse.
C'est assez normal : d'une part, ils sont bien reprsents dans tous les dpartements, d'autre part,
les modalits-colonnes correspondantes ont une masse importante, et ils ont fortement contribu
la formation du profil-colonne moyen. Il n'est donc pas tonnant que les points colonnes qui les
reprsentent soient proches de l'origine des axes. La mme remarque s'applique aussi
l'abstention.
2. Les qualits de reprsentation sont bonnes (sauf pour l'Essonne). Cependant, il faut tre prudent
pour la liste Huchon et le dpartement "Paris" : il faut attendre le 3 axe pour obtenir une qualit
de reprsentation satisfaisante.
3. On notera sur les graphiques la proximit des deux listes d'extrme droite (Le Pen et Bay), qui
n'est pas apparue dans les tableaux chiffrs en raison de la faiblesse numrique du vote "Bay".
De mme, l'existence de deux valeurs propres proches de 1 indique une partition des observations en 3
groupes. Si toutes les valeurs propres sont proches de 1, cela indique une correspondance entre chaque
modalit ligne et une modalit colonne "associe". Avec une rorganisation convenable des modalits, les
effectifs importants se trouvent alors le long de la diagonale.
Var1
0,3
Ligne2
0,2
0,1
Var4
Ligne3
0,0 Ligne4
Var3
-0,1
Var2
-0,2 Ligne1
Dimension 2; Valeur Propre : ,01754 (1,893 % d'Inertie)
-0,3
Coord.L.
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0
Coord.C.
Dimension 1; Valeur Propre : ,90140 (97,28 % d'Inertie)
Un nuage de points de forme parabolique indique une redondance entre les deux variables tudies : la
connaissance de la ligne i donne pratiquement celle de la colonne j. Dans un tel cas, pratiquement toute
l'information est contenue dans le premier facteur. Cette configuration se rencontre notamment lorsque les
deux variables sont ordinales, et classent les sujets de la mme faon. Dans ce cas, le premier axe oppose
les valeurs extrmes et classe les valeurs, tandis que le deuxime axe oppose les intermdiaires aux
extrmes.
Exemple :
Var1 Var2 Var3 Var4 Var5
Ligne 1 10 30 7 0 0
Ligne 2 3 100 70 4 0
Ligne 3 2 32 200 35 1
Ligne 4 1 6 80 100 2
Ligne 5 0 3 5 25 5
1,6
Var5
1,4
1,2 Var1
Ligne5
1,0
Ligne1
0,8
0,6
Var4
0,4
Var2
Ligne4
0,2
Ligne2
0,0
-0,2
Var3
-0,4 Ligne3
-0,6
Dimension 2; Valeur Propre : ,18200 (25,11 % d'Inertie)
-0,8
Coord.L.
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Coord.C.
Dimension 1; Valeur Propre : ,44070 (60,79 % d'Inertie)