Você está na página 1de 23

INSTITUT UNIVERSITAIRE DE TECHNOLOGIE INDUSTRIELLE

TRAVAUX PRATIQUE N°2 du 09/04/2017

ANALYSE FACTORIELLE DE
CORRESPONDANCE SIMPLE
AFCS

1
Plan de Travaux Pratique

1. Introduction l'analyse factorielle

2. Objectif et aspect théorique de l’AFCS

3. Utilisation de SPSS comme logiciel de statistique

A. Exemple pratique : répartition du cheptel au Sénégal en 2005


B. Fonctionnement de l’analyse

4. Analyse de correspondances (Interprétation des résultats)

A. Matrice profil ligne profil colonne


B. Khi Deux et Inertie
C. Contribution
D. Test de Significativité

 Hypothèses
 Test

5. Extensions

A. Logiciels
B. Représentation graphique et interprétation

2
Introduction
L'Analyse Factorielle des Correspondances Simples (AFCS) est une forme d’analyse
descriptive mettant en relation deux variables nominales. Elle peut considérer d'une façon
symétrique les lignes et les colonnes de la matrice. Il y a dualité entre l'espace des colonnes et
l'espace des lignes.
Sa finalité, comme toutes les méthodes d'ordination, est de trouver le meilleur résumé
possible dans un espace de dimensions réduites. Ce meilleur résumé est constitué d'un petit
nombre d'axes qui maximise l'inertie projetée, elle va permettre une représentation simultanée
des lignes et des colonnes dans l'espace de dimensions réduites cherché.

Objectif et aspect théorique de l’AFCS

Le principal objectif de l’analyse factorielle des correspondances est d’étudier simultanément,


par le biais de leurs catégories, la relation entre deux variables. Il s’agit de présenter
visuellement les principales liaisons entre les catégories des deux variables.
Ces liaisons sont analysées selon les oppositions :
• centre/périphérie ;
• éloignement/proximité ;
• ressemblance/dissemblance ;
• attraction/répulsion.

La carte des correspondances doit être interprétée en termes de territoire, de géographie de


plan, où les distances entre les catégories expriment l’un ou l’autre des qualificatifs propres
aux couples des oppositions. La première étape consiste à établir les profils lignes et les
profils colonnes. Ces profils se calculent (à partir des données brutes) en divisant chaque
terme par le total de cette ligne ou de cette colonne.

La deuxième étape consiste à mesurer les ressemblances/dissemblances entre les profils par la
distance du khi-carré à partir de la formule de Pythagore (distance euclidienne) :

3
La formule de distance du khi-carré servira donc à mesurer les systèmes d’opposition des
éléments étudiés.
L’analyse factorielle des correspondances permet aussi de définir des facteurs en fonction de
la contribution à l’inertie d’une ligne ou d’une colonne ; le degré d’inertie correspond, en
quelque sorte, à la variance expliquée. Selon Jean-Jacques Lambin : « Un facteur est retenu
pour l’analyse s’il possède un taux d’inertie expliqué significativement supérieur à ce
qu’apporte en moyenne une variable, c’est-à-dire 100 %/p si p est le nombre de colonnes du
tableau de fréquences » L’interprétation des résultats se fait en fonction de l’image projetée.
La carte des résultats de l’analyse factorielle des correspondances se fait comme suit :

4
Le tableau de lecture des résultats de la carte de l’analyse factorielle des
correspondances

Comme l’indique cette table de lecture du figure ci-dessus, quand A et B sont dans le même
quadrant, il y a attraction ; cela indique que les effectifs qui correspondent aux deux
catégories sont plus nombreux que si les effectifs étaient distribués de façon proportionnelle.
De la même façon, quand A et B sont dans des quadrants opposés, cela montre que les
catégories de l’une ou l’autre des variables se repoussent. Quand A et B sont dans des
quadrants adjacents, l’interprétation des résultats est plus difficile. Une concentration au
centre de la carte représente la moyenne des catégories de chacune des variables impliquées.
D’après Jean de Lagarde : « L’origine correspond au point neutre, c’est-à-dire à
l’indépendance complète des deux caractères ou, en d’autres termes, à des proportions
identiques dans chaque classe (ligne ou colonne). »

5
L'analyse factorielle

L'analyse des correspondances est une méthode qui permet de décrire de manière synthétique
une table de contingence dans laquelle sont classés des individus homogènes suivant deux
critères (ou variables catégorielles, les variables continues étant à discrétiser). En guise
d’exemple utilisons le tableau ci-dessous ou est mentionnée la répartition des espèces dans les
11 régions du Sénégal

Répartition des effectifs estimes du Cheptel par Espèce et par Région en 2005
(Source : Direction Elevage)

Région Bovins Ovins Caprins Porcins Equins Asins


Dakar 19833 126640 48304 1759 6516 1012
Thiès 166482 189811 162227 28598 58273 51047
Diourbel 153612 201485 184878 714 68724 46730
Kaolack 270095 835467 664028 19503 116476 85150
Fatick 236434 321591 266264 90143 84346 46853
Tamba 699622 1034646 922795 1577 31435 38864
Kolda 571523 300559 297500 102459 41874 45923
Ziguinchor 101331 86235 198723 54794 3163 6378
Louga 378936 897828 798631 1852066 61717 22984
Saint Louis 281544 298326 274365 1533273 11717 38490
Matam 160060 446620 207205 781008 19770 28115

6
Utilisation SPSS comme Logiciel de Statistique : Présentation des données
Pour faire l’analyse de correspondance simple, on doit d’abord restructurer le tableau de
départ. On peut créer 3 variables (régions, espèces, effectif) puis on entre les données. On
peut également copier les données telles que présentées sur le tableau de départ et demander à
SPSS de nous faire la restructuration ; pour cela la procédure est la suivante :

7
Après avoir restaurer SPSS nous affiche le tableau suivant qui nous permettra d’analyser nos
données.

8
Analyse des Correspondances

Comme toutes les techniques factorielles, l'Analyse des Correspondances permet l'extraction
de nouvelles variables (les facteurs) qui ont la propriété de récapituler d'une façon organisée
l'information significative contenue dans les innombrables cellules des tableaux de données;
en outre, cette technique d'analyse permet la représentation graphique - dans un ou plusieurs
espaces - des points qui détectent les objets en lignes et colonnes, qui - dans notre cas les
Espèces et les Régions.

9
Procédure à suivre :

Les espèces étant en format chaîne, nous allons d’abord procéder au recodage automatique

10
11
12
13
14
Tableau des correspondances

ESPECES
REGION BOVINS OVINS CAPRINS PORCINS EQUINS ASINS Marge active
Dakar 19833 126640 48304 1759 6516 1012 204064
Thiès 166482 189811 162227 28598 58273 51047 656438
Diourbel 153612 201485 184878 714 68724 46730 656143
Kaolack 270095 835467 664028 19503 116476 85150 1990719
Fatick 236434 321591 266264 90143 84346 46853 1045631
Tamba 699622 1034646 922795 1577 31435 38864 2728939
Kolda 571523 300559 297500 102459 41874 45923 1359838
Ziguinchor 101331 86235 198723 54794 3163 6378 450624
Louga 378936 897828 798631 1852066 61717 22984 4012162
Saint Louis 281544 298326 274365 1533273 11717 38490 2437715
Matam 160060 446620 207205 781008 19770 28115 1642778
Marge active 3039472 4739208 4024920 4465894 504011 411546 17185051

On va analyser des tableaux tels que suivant. Soit I l’ensemble des lignes du
tableau, J l’ensemble des colonnes du tableau : à l'intersection de la ligne i et de la
colonne j on inscrit le nombre k (i, j) de fois que dans une région i a été trouvé une
espèce j. On peut mesurer l'importance relative pour une région i de l’espèce j par le
quotient f (i si j)=k (i, j)/ki. Avec ki, le total de la ligne i. La suite des nombres f (i, j)
caractérisant l'affinité d'une région i avec toutes les espèces j sera appelé profil de i.
Pratiquement, nous ne rencontrerons jamais deux profils exactement similaires,
aussi se pose à nous le problème de la représentation spatiale de l'ensemble des
profils. On dira que deux régions sont synonymes si elles ont le même profil.

15
INTERPRETATION

Matrice Profils Ligne & Profils Colonne

Les points sur lesquels l'analyse des correspondances va travailler sont définis par
un vecteur de coordonnées : ce sont des profils, ou pourcentages par rapport au
total de la ligne ou de la colonne. Notre table peut se décomposer en profils lignes et
profils colonne.
Ce que l'on trouve sous margine dans les tables ci-dessus est appelé aussi masse
ou profil moyen des lignes et des colonnes, ou centre de gravité, c'est à dire le
nombre d'individus dans toute la ligne (ou la colonne) correspondant au point divise
par le total de la table, et ce pour chaque point. Ces profils sont les coordonnées
d'un nuage de points N(I) dans l'espace J ou de manière équivalente un nuage N(J)
dans l'espace I. On va d'abord présenter l'analyse pour le nuage N(I), puis nous
montrerons que l'analyse est symétrique pour le nuage N(J).

Profils lignes

ESPECES
REGION BOVINS OVINS CAPRINS PORCINS EQUINS ASINS Marge active
Dakar ,097 ,621 ,237 ,009 ,032 ,005 1,000
Thiès ,254 ,289 ,247 ,044 ,089 ,078 1,000
Diourbel ,234 ,307 ,282 ,001 ,105 ,071 1,000
Kaolack ,136 ,420 ,334 ,010 ,059 ,043 1,000
Fatick ,226 ,308 ,255 ,086 ,081 ,045 1,000
Tamba ,256 ,379 ,338 ,001 ,012 ,014 1,000
Kolda ,420 ,221 ,219 ,075 ,031 ,034 1,000
Ziguinchor ,225 ,191 ,441 ,122 ,007 ,014 1,000
Louga ,094 ,224 ,199 ,462 ,015 ,006 1,000
Saint Louis ,115 ,122 ,113 ,629 ,005 ,016 1,000
Matam ,097 ,272 ,126 ,475 ,012 ,017 1,000
Mass e ,177 ,276 ,234 ,260 ,029 ,024

16
L’interprétation consistera à lire sur les lignes de la variable qui a 1 en total marginal
et d’en déduire la probabilité conditionnelle. Par exemple si on est dans la région de
Diourbel on a 30,7 chances sur cent de trouver des ovins et 1% de chance de
rencontrer des porcins.
A Ziguinchor la probabilité de trouver des caprins est de 44% et celle des asins est
de 1,4%.

Profils colonnes

ESPECES
REGION BOVINS OVINS CAPRINS PORCINS EQUINS ASINS Mass e
Dakar ,007 ,027 ,012 ,000 ,013 ,002 ,012
Thiès ,055 ,040 ,040 ,006 ,116 ,124 ,038
Diourbel ,051 ,043 ,046 ,000 ,136 ,114 ,038
Kaolack ,089 ,176 ,165 ,004 ,231 ,207 ,116
Fatick ,078 ,068 ,066 ,020 ,167 ,114 ,061
Tamba ,230 ,218 ,229 ,000 ,062 ,094 ,159
Kolda ,188 ,063 ,074 ,023 ,083 ,112 ,079
Ziguinchor ,033 ,018 ,049 ,012 ,006 ,015 ,026
Louga ,125 ,189 ,198 ,415 ,122 ,056 ,233
Saint Louis ,093 ,063 ,068 ,343 ,023 ,094 ,142
Matam ,053 ,094 ,051 ,175 ,039 ,068 ,096
Marge active 1,000 1,000 1,000 1,000 1,000 1,000

L’interprétation consistera à lire sur les colonnes de la variable qui a 1 en total


marginal et d’en déduire la probabilité conditionnelle. Par exemple l’espèce bovine
peut être trouvée à 23% dans la région de Tamba et seulement 0,7% à Dakar.

Khi2 et inertie
Résumé

Valeur singulière de
Proportion d'inertie confiance

Valeur Corrélation
Dimens ion s ingulière Inertie Khi-deux Sig. Expliqué Cumulé Ecart-type 2
1 ,567 ,322 ,802 ,802 ,000 ,031
2 ,200 ,040 ,099 ,901 ,000
3 ,174 ,030 ,076 ,977
4 ,090 ,008 ,020 ,997
5 ,035 ,001 ,003 1,000
a
Total ,402 6900415 ,000 1,000 1,000

a. 50 degrés de liberté

17
Noté Bien: le cumul des proportions d’inertie permettra de déterminer le nombre de
facteurs à retenir. Dès lors on pourra retourner sur «modèle » et fixer le nombre de
dimension retenu. Dans notre exemple, on prendra 3 facteurs

Les axes factoriels seront classés dans l'ordre, et pour chacun on donnera les
valeurs singulières et les valeurs propres (=carre des valeurs singulières) toutes
deux classées par ordre décroissant. Ensuite vient la somme des valeurs propres,
qui équivaut à l'inertie totale du nuage puis sous proportion expliquée on trouve les
valeurs propres exprimées comme part de leur total, ainsi que ces parts cumulées.

On peut interpréter ces valeurs comme suit : par exemple proportion expliquée =
0.802 signifie que le premier axe d'inertie résume 80,2% des écarts à l'indépendance
(ou de l'inertie) de notre tableau, et proportion cumulée = 0.901 veut dire que les
deux premiers axes résument 90% de l'inertie

On retiendra que plus l'inertie est grande, plus grande est l'association
lignes/colonnes soit la distance de la moyenne. Elle peut varier de 0 (pas
d'association) a1 (association parfaite entre chaque ligne avec chaque colonne). La
valeur absolue de l'inertie dépendra des unités de mesures des variables dans le cas
où l'analyse ne porte pas sur une vraie table de contingence.

Test de significativité

Cependant il faut se souvenir que l'analyse des correspondances nous présente de


manière synthétique la structure des écarts à l'indépendance. Nous devons donc
considérer la valeur du khi-deux pour juger de la grandeur de cet écart. Il faut donc
impérativement considérer la significativité d’alpha avant d'interpréter. Il nous suffit
de multiplier l'inertie par le nombre d'individus de la table, soit
0.402x17185051=6900415 et de vérifier dans une table du alpha pour 5x10=50
degrés de liberté qu'au seuil de 0.05% il nous suffirait d'une valeur d’alpha.

18
Hypothèses :

H0 : Il y’a pas de lien significatif entre les deux variables.

H1 : il y’a bel et bien un lien significatif entre les deux variables.

Si alpha < 0.05 on peut rejeter l’hypothèse nulle d’où il y a un lien entre la région et
l’espèce
Si alpha > 0.05 on accepte l’hypothèse alternative pas de lien

Dans notre exemple alpha=0 donc on rejette l’hypothèse nulle d’où il y a lien entre
région et espèce

Contributions

a
Caractéristiques des points lignes

Score dans la
dimension Contribution
De point à inertie de
dimension De dimension à inertie de point
REGION Mass e 1 2 3 Inertie 1 2 3 1 2 3 Total
Dakar ,012 ,530 ,530 ,140 ,009 ,010 ,084 ,008 ,387 ,388 ,027 ,802
Thiès ,038 ,535 -,125 -,388 ,017 ,034 ,015 ,189 ,627 ,034 ,330 ,991
Diourbel ,038 ,633 -,042 -,413 ,022 ,048 ,002 ,214 ,695 ,003 ,295 ,993
Kaolack ,116 ,567 ,284 -,088 ,048 ,116 ,235 ,030 ,782 ,196 ,019 ,997
Fatick ,061 ,422 -,037 -,242 ,015 ,034 ,002 ,117 ,733 ,005 ,240 ,978
Tamba ,159 ,571 ,011 ,260 ,063 ,161 ,001 ,354 ,826 ,000 ,172 ,999
Kolda ,079 ,443 -,526 ,051 ,038 ,048 ,550 ,007 ,407 ,575 ,005 ,987
Ziguinchor ,026 ,306 -,081 ,270 ,008 ,008 ,004 ,063 ,297 ,021 ,230 ,548
Louga ,233 -,468 ,084 ,038 ,054 ,159 ,042 ,011 ,951 ,031 ,006 ,988
Saint Louis ,142 -,837 -,117 -,039 ,102 ,309 ,049 ,007 ,977 ,019 ,002 ,998
Matam ,096 -,500 ,086 -,020 ,026 ,074 ,018 ,001 ,905 ,027 ,001 ,934
Total actif 1,000 ,402 1,000 1,000 1,000

a. Normalisation principale

19
Contributions absolues par point

Nous voudrions savoir ensuite quels sont les points qui ont le plus contribues à la
construction des axes. On trouve souvent ces valeurs dans la littérature sous le nom
de CTA ou contributions absolues. Dans un des premiers programmes, ce tableau
indiquait sous CTA la valeur de l'inertie causée par un point qui se trouvait dans la
direction de l'axe considère. D'où contributions absolues. Plus tard, on indique la part
de chaque point dans l'inertie dont rend compte l'axe considère, exprimée en
pourcentage.

On voit par exemple que la ligne 10 (St louis) entre pour 30,9% dans l'inertie
expliquée par le premier axe. Ces valeurs sont importantes pour interpréter les axes.
Graphiquement, plus un point est éloigné de l'origine et plus son effectif marginal est
petit, plus sa contribution à l'inertie est grande.

a
Caractéristiques des points colonnes

Score dans la
dimension Contribution
De point à inertie de
dimension De dimension à inertie de point
ESPECES Mass e 1 2 3 Inertie 1 2 3 1 2 3 Total
1BOVINS ,177 ,371 -,390 ,062 ,052 ,076 ,676 ,022 ,466 ,515 ,013 ,994
2OVINS ,276 ,283 ,197 ,037 ,036 ,069 ,269 ,013 ,610 ,296 ,011 ,916
3CAPRINS ,234 ,320 ,084 ,098 ,033 ,074 ,042 ,074 ,736 ,051 ,070 ,856
4PORCINS ,260 -,952 -,016 -,025 ,236 ,732 ,002 ,006 ,999 ,000 ,001 1,000
5EQUINS ,029 ,590 ,069 -,774 ,028 ,032 ,003 ,578 ,359 ,005 ,618 ,982
6ASINS ,024 ,483 -,118 -,624 ,016 ,017 ,008 ,307 ,349 ,021 ,581 ,951
Total actif 1,000 ,402 1,000 1,000 1,000

a. Normalisation principale

20
Contributions relatives par points et par axes

Finalement, on peut s'intéresser à la question inverse, c'est-à-dire quelle est la part


de la représentation de l'inertie des points sur les axes?

On voit par exemple que l'inertie de Porcins (colonne 4) est "rendue" à 73,2% par le
premier axe, à 0,2% par le second et 0,6 pour le troisième.

En tout, le plan des axes 1,2 et 3 rend compte de 100% de l'inertie du point (sous
total).

On peut faire un parallèle avec l'analyse en composantes principales: valeurs


propres et vecteurs propres y ont en effet le même statut.

Logiciels

L'analyse des correspondances se pratique exclusivement avec des ordinateurs.


Plusieurs logiciels existent, tels que SPSS, et d'autres logiciels pour sciences
sociales. A noter que SPSS ne permet pas d'afficher de points supplémentaires et
qui fournit des graphes petits et impossibles à agrandir. La solution est censée être
d'exporter les scores factoriels sur un logiciel de graphique comme SPAD et de créer
un nouveau graphique depuis là.

Représentations graphiques et interprétation

Procédure à utiliser pour la représentation avec SPAD


1. base-nouvelle base, on choisir pour type SPSS
2. ouvrir la base puis enregistrer
3. filière-sélectionner la base-analyse factorielle
4. paramétrer la base- insérer méthode-paramétrer toutes les variables
5. exécuter méthode puis ok

21
22
Pour interpréter le graphique, il convient de ne considérer que les positions relatives
des points d'un même nuage par rapport à un axe. On n'interprétera donc que la
position d'une région par rapport à une autre région, ou d'une espèce par rapport à
une autre espèce. Deux points proches auront alors des profils similaires.

23

Você também pode gostar