Escolar Documentos
Profissional Documentos
Cultura Documentos
I INTRODUCTION
VI LA REGRESSION
1. La régression multiple.
2. La régression logistique.
3. La régression PLS.
I INTRODUCTION
Les chapitres précédents ont exposé les phases qui conduisent aux traitements les plus usuels sur
une variable (analyse uni variée : tri à plat, étude de la distribution, tendance centrale et dispersion),
ou sur deux variables (analyse bi variée : tri croisé, mesure d’association entre deux variables). Nous
constatons la limite de ces méthodes due aux caractères combinatoires des analyses possibles dès
que le nombre de variables est assez important. Il est donc nécessaire d’avoir recours à l’analyse
multi variée (traitement simultané d’un ensemble de variables) comme complément indispensable à
toute étude en général et en marketing plus particulièrement. Les méthodes multi variées peuvent
être classées selon trois groupes principaux :
- Les méthodes descriptives (analyse factorielle, typologie, analyse des correspondances, analyse
multidimensionnelle des similarités).
- Les méthodes explicatives (régression, analyse de la variance, analyse discriminante, analyse
conjointe).
- Les méthodes avancées (analyse canonique, modèles probabilistes : logit et probit, modèles log-
linéaires, modèles de causalité : analyse des structures de covariances, la régression PLS).
Depuis que la gestion de la relation client est devenu le locomotive, les techniques d’analyse se sont
élargies ; conséquences du fait que les machines de stockages et de traitements de l’information ont
non seulement atteint un très haut niveau technologique mais ont connu une large diffusion les
mettant à la potée de très nombreuses organisations (Data Mining). C’est la raison pour laquelle les
techniques d’analyses sont appelées à un très grand développement.
L’analyse en composantes est l’une des méthodes d’analyse factorielle des données
multidimensionnelles la plus courante. L’analyse en composantes principales (ACP) s’adresse aux
données numériques quantitatives, elle a pour objectifs :
- Analyser les liaisons entre les variables ou critères étudiés et les synthétiser par un nombre
restreint de nouvelles variables appelées composantes ou facteurs, ou encore indicateurs
synthétiques qui ne sont autres que des combinaisons linéaires des variables initiales.
- Résumer les unités statistiques en formant des groupes homogènes.
On cherche à mettre en évidence les propriétés fondamentales des données à l’aide des paramètres
numériques et graphiques.
1. Données initiales
Ces données sont constituées d’observations de plusieurs grandeurs, notées X1, X2,… Xp sur un
ensemble d’unités statistiques numérotés i=1,…,n. Il est commode de présenter ces données sous
forme d’un tableau X dont les colonnes sont les variables Xj.
X1 ……. Xj …… Xp
X =
2. Présentation de la méthode.
2.1. Formulation du problème.
Le problème consiste à réduire les p variables initiales étudiées en un nombre restreint de nouvelle
variables appelées composantes ou facteurs Fk . Ces facteurs devront répondre aux deux critères
suivants :
- La linéarité :
- L’indépendance :
A1
B • Δ1
G A
B1
L’information apportée par le point A est égale à la distance qui le sépare du centre G de [AB].
L’information apportée par le point A au facteur est égale à (GA1)2, de même celle apportée par le
point B est égale à (GB1)2, donc l’information détenue par Δ1 est égale à :
Plus généralement, soit N le nuage des points xi i=1,….n, ayant pour centre de gravité G qui est le
point moyen = = ( 1, 2,……, p), muni de la métrique euclidienne.
La dispersion ou l’information ou encore l’inertie du nuage de points autour de leur centre est
définie par :
2
i, G) = ij - j )2
= j )2 =
où Sj 2 est la variance de la variable Xj .
xi
• G
I (N, Δ) =
I (N, G) = , G) + I (N, Δ)
La quantité , G) est l’inertie ou la variance expliquée par l’axe Δ, elle est aussi appelée
valeur propre de la matrice de variance covariance et notée λ et on a :
1 n
C jj' (x ij X j )(x ij' X j' )
n i 1
Il représente la covariance entre les variables Xj et Xj’ . Si les variables sont centrées et réduites on
obtient alors la matrice des corrélations de terme général :
1 n ( x ij X j ) ( x ij' X j' )
Rjj’ = S
n i ^1 S j'
j
La trace de la matrice des corrélations V est égale au nombre p de variables étudiées et on a : trace
p
(V)=
j1
j I( N, G ) p où λj est la valeur propre d’ordre j de la matrice V
1
alors le keme vecteur propre de la matrice XX' associé à la keme plus grande valeur propre. Cette
n
composante vérifie la condition : R(Ck ,Cj )=0 pour j=1,..,k-1.
Remarques :
1 1
a. Les matrices XX' et X' X ont les mêmes valeurs propres λk , k=1,..,p mais de dimension
n n
respectives (n,n) et (p,p) différentes , donc les n-p dernières valeurs propres sont nulles.
p p C 'k X j X 'j C k 1 C 'k (XX ' C k )
b. R (C k , X j )
j1
2
j1 nC 'k C k
n C 'k C k
k
2.5.3. Corrélation entre la composante Ck et la variable initiale Xj.
Le vecteur constitué par les corrélations des p variables initiales Xj avec la composante principale Ck
est égal au vecteur ak d’ordre k multiplié par λk1/2
En effet :
La corrélation entre la composante Ck et la variable Xj est donnée par :
'
1 X jC k
R(Ck ,Xj )= ,le vecteur des corrélations j =1,..p est donné par :
n k
1 X' C k 1 X' Xa k a
[R (Ck , X1 ), ….,R(Ck , Xp )] = = k k = k a k
n k n k k
Il est aussi fort utile de regarder les pourcentages cumulés des variances expliquées. Généralement
on cherche à retenir des axes factorielles qui expliquent un minimum de 50% de la variance totale ou
de l’information contenue dans le tableau de données.
2.6.4. Part de l’information expliquée par un axe.
La variance totale est égale à la somme des p valeurs propres. La part (exprimée en pourcentage) de
j j
l’information détenue par l’axe Dj de variance expliquée λj est égal à : .
j p
2.6.5. Corrélations entre les variables initiales et la composante Ck .
Si les variables initiales sont centrées et réduites, le coefficient de corrélation R(Xj , Ck ) est un
indicateur pour mesurer l’importance du rôle joué par la variable Xj dans l’interprétation de la
composante Ck .
Il est donc possible en identifiant les coefficients de corrélations les plus élevés de trouver les
variables initiales qui contribuent le plus à la formation de la composante ou du facteur Ck .
Dans le cadre du cours d’analyse de données une enquête a été faite par les étudiants auprès d’un
échantillon de 900 clients des magasins carrefour, géant, monoprix, magasin général et champion.
Le but de cette étude est d’identifier les facteurs déterminants de l’achat impulsif dans une grande
surface, à savoir l’atmosphère du magasin, la flânerie, l’humeur du client, l’ambiance du point de
vente, le design et la sensibilité aux stimuli. Les résultats de cette enquête sont les suivants :
Dans le chapitre précédent nous avons fait l’étude de la distribution des produits achetés
impulsivement, nous avons utilisé pour cela le test de khi deux. Le test d’uniformité de Kolmogorov
Smirnov est aussi applicable et donne les résultats suivants :
La signification asymptotique est nulle donc inférieur à tout risque d’erreur . L’hypothèse
d’uniformité des produits achetés d’une manière impulsive est par conséquent rejetée.
b. Analyse bivariée.
Nous avons étudié dans la chapitre précédent et dans le cadre de l’étude sur l’achat impulsif les
relations suivantes :
D’autres croisements peuvent être établis à partir du logiciel SPSS et de la même manière technique
en choisissant les outils statistiques convenables par exemple :
On montre à partir d’un test de khi deux que le deuxième produit acheté d’une manière impulsive
dépend significativement du premier produit. Les consommateurs ont tendance à acheter un
deuxième produit impulsivement dans la même gamme que le premier produit.
* 591 clients parmi les 900 ont fait un achat impulsif répété.
Chi-Square Tests
Asymp. Sig. (2-
Value df sided)
Pearson Chi-Square 113,952a 16 ,000
Likelihood Ratio 103,825 16 ,000
Linear-by-Linear 44,240 1 ,000
Association
N of Valid Cases 591
a. 2 cells (8,0%) have expected count less than 5. The minimum
expected count is 3,88.
Cette technique est appliquée aux items Q1, Q2,…,Q6 exprimant respectivement (voir questionnaire
en annexe) les facteurs théoriques de l’achat impulsif à savoir : l’atmosphère , la flânerie,l’humeur du
client, l’ambiance dans le magasin, le design, et la sensibilité aux stimuli. Elle tente de vérifier et
valider les facteurs explicatifs de l’achat impulsif dans le cadre tunisien. Le positionnement des
consommateurs par rapport aux différents facteurs validés permet de les réduire en groupes
homogènes.
Les résultats de L’ACP à partir du logiciel SPSS décomposées en analyse univariée afin de voir quels
les critères dans ce cas les questions qui sont les mieux représentées, les mieux perçues. L’analyse de
la matrice de corrélations permet de repérer les fortes corrélations qui peuvent nous aider à mieux
interpréter les facteurs ou à supprimer des variables pour raison de colinéarité ou de mauvaise
qualité de représentation.
Tout ceci après avoir affiner les échelles de mesures en étudiant leurs fiabilités (voir chapitre 2)
prépare le terrain pour une bonne interprétation des facteurs issus d’une ACP dont les résultats sont
les suivants :
D’autres méthodes d’extraction des axes factorielles peuvent être utilisées dont des explications
peuvent être données en cliquant sur « help ». Le critère de Kaiser est utilisée dans ce cas pour le
choix des composantes.
Résultats de L’ACP
L’indice KMO et le tes de Bartlett montrent la bonne adéquation de cette technique aux donnée
recueillies (KMO porche de 1, khi deux (Chi-Square) élevé et signification nulle).
Cinq composantes principales on été retenues d’après le critère de Kaiser qui stipule que seules les
composantes ayant une valeur propre « Eingenvalues » dépassant 1 qui sont retenus ce qui
correspond exactement avec le nombre de facteurs recherchés et que l’on confirmera par la suite.
L’histogramme des valeurs propres ne montre pas une dénivellation très claire à partir de la
cinquième valeur. Le critère de Kaiser est finalement retenu.
Les deux tableaux précédents donnent les corrélations des composantes retenues avec les variables
initiales avant et après rotation Varimax. Le rôle de la rotation varimax est clair dans ce cas, la
séparation des différents facteurs explicatifs de l’achat impulsif est obtenue par conséquent et la
validation est dont établie.
L’humeur du client est l e premier facteur qui explique 17,46% de l’information totale, suivi du design
qui explique 12.23%. Ces deux premiers facteurs expliquent environ 30% de l’information. La rotation
a permis aussi de donner plus d’importance aux trois derniers facteurs (augmentation des variances
expliquées).
Le positionnement des consommateurs par rapport aux deux premiers facteurs humeur et design (à
partir des coordonnées sauvegardées dans le fichier de données et la représentation
tridimensionnelle des variables initiales par rapport aux composantes (corrélations) permettent
d’avoir une typologie de la population étudiée et les caractéristiques de chaque groupe. Cette étape
sera développé plus loin mais on donne ici un aperçue graphique.
15
2.7.2. Etude sur la perception de l’enseignement virtuel.
Cette étude tente d’analyser les perceptions et les attentes des étudiants d’un pays à économie
émergente vis-à-vis de cette forme d’enseignement alternative aux méthodes traditionnelles. Les
résultats de ce travail font apparaître plusieurs dimensions dans la perception des étudiants.
L’interaction apparaît comme étant la dimension la mieux considérée par les étudiants. L’utilité de
ce type d’enseignement vient en second lieu. D’autre part, la maîtrise de la technologie informatique
représente un souci majeur pour les étudiants. La flexibilité est le concept le moins bien perçu, la
gestion du temps n’est pas bien considérée par les étudiants.
- réduire la «fracture numérique» entre les pays riches et les pays pauvres en soutenant le
développement de la société de l’information au sein des pays en développement.
- encourager la croissance économique et la promotion des technologies de l’information et de la
communication par le biais de la coopération internationale.
- reconnaître et relever les principaux défis grâce à une coopération dans la recherche en matière
de TIC.
- créer un environnement favorable à la coopération internationale dans le domaine de la
recherche et permettre le transfert de connaissances, de technologies et des compétences.
L’évolution spectaculaire du matériel et des logiciels informatiques ainsi que l’intégration des
technologies dans notre vie quotidienne contribuent de façon continue et importante à la croissance
de la formation à distance. L’investissement à long terme dans les ressources humaines est trop
souvent négligé. Une mise à jour permanente des compétences et des connaissances est nécessaire
dans de nombreux domaines et particulièrement dans l’enseignement à distance. Elle permet de
s’adapter aux mutations rapides de la société moderne et de combattre le chômage qui demeure
une préoccupation commune à l’Europe et à la région méditerranéenne.
Mais comment garantir le succès et la pérennité de cette forme d’enseignement sans prendre en
considération les besoins, ainsi que les perceptions des apprenants de l’e-enseignement ?
L’objectif de cette étude par enquête est d’étudier l’intérêt porté à cette forme d’enseignement par
les étudiants en Tunisie, pays à économie émergente et premier pays africain en termes de
compétitivité et d’ouverture économique (classement forum mondial de Davos 2001).
2. Méthodologie de l’enquête
16
Cette enquête se base sur les caractéristiques principales de cette nouvelle forme d’enseignement
qui viendraient influencer le choix de l’étudiant envers l’intérêt qu’il porte à l’enseignement virtuel.
Ces caractéristiques ont été définies dans les trois études d’Arbaugh (2000a, 2000b, 2000c), qui a
identifié quatre concepts essentiels de l'e-enseignement : la technologie, l’interaction, la flexibilité et
l’engagement.
a. La technologie
Arbaugh (2000a, 2000b, 2000c) reconnaît le rôle de la technologie dans l’enseignement virtuel. Il
s’appuie sur le modèle TAM (Technology Acceptance Model) mis en place par Davis, Bagozzi &
Warshow en 1989, et qui met en évidence deux dimensions principales de la reconnaissance d’une
nouvelle technologie (cours administrés via Internet). La première dimension est la perception de
son utilité par l’utilisateur qui doit donc améliorer ses performances. La deuxième dimension est la
maîtrise de la technologie informatique. Ce modèle stipule que les croyances qu’une nouvelle
technologie est utile et d’utilisation facile influencent positivement l’attitude des utilisateurs.
b. L’interaction
Arbaugh (2000a) décompose le concept de l’interaction en quatre dimensions qui sont les relations :
étudiants - professeurs, étudiant - étudiant, étudiant - contenu du cours et étudiant - interface du
cours. Ethier et Payet (2001) retiennent les deux premières dimensions qui leur apparaissent
essentielles dans leur conception de l’intérêt porté à l’enseignement virtuel. Ces deux dimensions
centrales, selon nous, pour la prévention de l’abandon seront reprises dans notre étude. En effet la
dimension humaine de type « face à face » qui dépasse les moyens techniques relationnels (courrier
électronique, vidéoconférence, …..) est incontournable.
c. La flexibilité
Arbaugh (2000a) définit la flexibilité pour l’apprenant en fonction de l’importance qu’il accorde aux
dimensions spatiales et temporelles. Cette flexibilité est permise par les nouvelles technologies
d’information. Ce concept est un indicateur de développement économique, en effet la notion de
temps et d’espace devient essentielle pour les apprenants quand ils occupent un emploi.
d. L’engagement
Ethier et Payet (2001) définissent l’engagement comme étant une estimation de l’effort que
l’étudiant est prêt à investir dans cette activité. Est-il prêt et décidé à s’auto gérer ? Son degré
d’engagement peut être évalué par l’importance des relations entretenues avec les outils
technologiques ( Arbaugh 2000).
Cette étude sur l’intérêt porté à l’enseignement virtuel s’est déroulée au sein de la faculté des
sciences économiques et de gestion de Tunis qui compte environ 11000 étudiants dont 2591 inscrits
en maîtrise et en master, terreau propice à cette nouvelle forme d’enseignement. Cette enquête a
été effectuée auprès d’un échantillon final de 300 étudiants inscrits en maîtrise et en master. Ils
représentent environ 11% de l’effectif total des étudiants concernés par l’étude et sont sensés avoir
assez de recul pour apprécier utilement l’enseignement virtuel. La méthode d’échantillonnage
retenue est celle de la « boule de neige » donc non probabiliste. L’étude vise à analyser les profils
des étudiants, leurs perceptions des différents concepts de l’enseignement à distance et à rechercher
17
les liens possibles entre le profil et la perception des étudiants. Ce travail doit nous permettre d’une
part de comprendre les attentes des étudiants et d’autre part de mesurer leur motivation et leur
degré d’engagement vis-à-vis de cette nouvelle méthode de formation permanente.
Le questionnaire inspiré de l’étude d’Ethier et Payet (2001) a été élaboré en tenant compte des
concepts suivants :
- Profils des étudiants (âge, sexe, emploi, utilisation d’Internet, fréquentation de la bibliothèque,
préférences du style d’enseignement, accès et disponibilité de la technologie informatique).
- La perception de l’enseignement virtuel représentée (voir questionnaire en annexe) par les
dimensions suivantes :
a. l’utilité perçue (questions ; v9,..., v11)
b. l’utilisation et la maîtrise de la technologie informatique (v12,…, v14).
c. La flexibilité ou la gestion du temps (v15, …,v20).
d. L’interaction entre étudiants et entre enseignants étudiants (v21,…, v25).
e. La motivation et l’engagement (v26,…, v30).
La mesure de la perception des étudiants est basée sur une échelle psychométrique de Likert à cinq
degrés. La fiabilité de l’échelle de mesure est vérifiée à l’aide de l’alpha de Cronbach qui est
supérieur à 0.79 pour chacune des cinq dimensions de la perception ce qui montre une bonne
homogénéité des items.
3. Résultats de l’enquête
Dans l’analyse des profils des étudiants, des tests statistiques (test d’indépendance de khi deux, tests
de comparaison des moyennes) ont montré que les variables ayant des relations significatives avec
les dimensions de la perception de l’e-enseignement sont les suivantes :
- le statut des étudiants (travaille à plein temps, travaille à temps partiel, ne travaille pas).
- la maîtrise de la technologie informatique.
- le style d’apprentissage.
Nous allons étudier dans une première étape les relations entre les différentes variables du profil
des étudiants. Dans une seconde étape, une analyse en composantes principales (ACP) nous a permis
de confirmer les cinq dimensions de la perception de l’enseignement virtuel et de mettre en
évidence leur importance relative.
150 emploi
oui
non
Effectifs
100
50
0
1 2
Style
d'apprentissage
18
Figure 1 : répartition des étudiants selon l’emploi et le style d’apprentissage (1 : enseignement
virtuel, 2 : enseignement classique)
Nous constatons qu’environ la moitié des étudiants qui souhaitent opter pour un enseignement
virtuel (voir Figure 1) comme complément et non comme substitut de formation, ne travaille pas. Ce
résultat inattendu peut s’expliquer par l’insuffisance de l’infrastructure universitaire tunisienne et
l’insuffisance de l’encadrement telles que perçues par les étudiants. La réforme actuelle de
l’enseignement supérieur a pour objet de répondre aux inquiétudes des étudiants, de les motiver et
de les responsabiliser efficacement. Par ailleurs une partie des étudiants qui occupent un emploi
désire suivre un enseignement classique malgré tous les inconvénients que cela représente. Ceci
provient vraisemblablement d’une méconnaissance de l’enseignement virtuel donc d’une méfiance à
son égard. Une campagne de sensibilisation s’avère nécessaire afin de démystifier cette nouvelle
forme d’enseignement.
style
2 27 47 32 108
1(classique)
2(E.V) 5 75 77 35 192
19
sans compléter la dimension pédagogique par le facteur relationnel, le contact direct entre
enseignant ou tuteur et apprenant ?
Les étudiants sont conscients de l’utilité (14.2% de la variance totale expliquée) de cette
forme d’enseignement mais ils insistent fortement sur le manque de moyens et de formation sur le
plan technologique. Il ne peut y avoir d’utilité sans une maîtrise convenable de l’outil informatique
(6.7%). La quatrième dimension est l’engagement (6.3%).La cinquième et dernière dimension de la
perception de l’e-enseignement est la flexibilité (4.6%), les étudiants semblent négliger l’importance
de la gestion du temps. Ceci est vraisemblablement dû à une conjoncture économique difficile où les
jeunes sont inquiets pour leur avenir.
Mesure de précision de
l'échantillonnage de Kaiser-Meyer- ,860
Olkin.
ddl 231
Signification de
,000
Bartlett
On note la bonne adéquation de l’ACP aux données recueillies dans cette étude. Le KMO est
très proche de 1 et le test de sphéricité est très significatif.
L’application de la rotation varimax a permis de distinguer clairement les cinq facteurs
explicatifs de la perception de l’enseignement virtuel à savoir : l’utilité perçue, l’interaction
entre étudiant et entre étudiant et enseignant, la flexibilité, la maîtrise de la technologie
informatique et enfin l’engagement.
Un filtrage des corrélations a permit de faire apparaître un tableau des composantes aussi
clairement lisible et interprétable.
20
Matrice des composantes après rotation La relation entre les composantes
trouvées précédemment et la
Composante question nature de l’emploi (1 :
temps plein, 2 : temps partiel, 3 : ne
1 2 3 4 5
travaille pas) est donnée par le
v23 ,917 tableau suivant
v24 ,873
v22 ,861
v21 ,568
v25
v10 ,754
v11 ,689
v9 ,619
v26 ,609
v15 ,608
v14 ,827
v13 ,816
v12 ,755
v29 ,794
v28 ,762
v30 ,732
v27
v17 ,722
v18 ,721
v19 ,679
v16 ,513
v20 ,512
21
ANOVA
On note l’effet significatif de la nature de l’emploi seulement sur l’utilité perçue et l’engagement
dans l’enseignement virtuel. Les significations sont respectivement 0.03 et 0.02. En effet les
étudiants exerçant un emploi sentent la nécessité d’une formation complémentaire, et ceux qui
n’ont pas d’emploi sont prêt à toute formation leur permettant d’en trouver un. Ce qui reste
étonnant, c’est que la flexibilité n’est toujours pas bien considérée.
22
3,00
3,00
3,00
2,00
1,00
1,00
1,00 1,00 1,00 3,00 3,00 3,00
3,00
1,00
1,00 3,00 3,00 3,00
1,00 1,00
3,00 3,00 3,00 3,00
1,00 1,00 1,00 1,00 3,00
Utilité perçue de l'enseignement virtuel 1,00
1,00 1,00 1,00 1,00 1,00
3,00
3,00
3,00
La direction d’un journal souhaite transformer à la fois le contenu et la forme de son produit afin de
mieux répondre aux attentes de ses lecteurs et augmenter son lectorat. Un questionnaire a donc été
élaboré par des consultants en marketing et inséré dans le journal.
3249 retours ont été enregistrés, 850 ont fait l’objet d’un tirage aléatoire ; 42 questionnaires n’étant pas
correctement remplis, seuls 808 questionnaires ont été conservés.
L’objectif, à travers cette étude réelle, est de balayer les techniques d’analyse de données les plus
utilisées en marketing et de traiter le questionnaire afin de ressortir les conclusions en termes
marketing. On se limitera dans ce qui suit à l’activité lectorielle et au bénéfice consommateurs.
1. Analyse bivariée
23
1.1 Relation entre le mode d’achat et l’attitude lectorielle
Le croisement de ces deux variables qualitatives fait appel au test de khi deux. Le tableau suivant
montre que les lecteurs recevant leur journal par la poste penchent plutôt pour une lecture différée. En
effet l’effectif théorique correspondant attendu est égal à 16.1 mais celui enregistré vaut 23. De même
sous l’hypothèse d’indépendance on note que les lecteurs ayant un abonnement postal et qui devraient
avoir une lecture immédiate compte 25.6 mais au fait ils ne sont que 14. Pour conclure, nous pouvons
dire que les lecteurs manquent d’assiduité.
Il ressort aussi que l’achat volontaire du journal implique une lecture immédiate. En effet les lecteurs qui
achètent délibérément leurs journaux dans un kiosque ou chez un vendeur ambulant sont plus
nombreux en réalité (effectif) que ce qui est attendu (effectif théorique).
attitude lectorielle
Total
lecture
lecture différée feuilleté
immédiate
Effectif 23 68 14 105
abonnement postal
Effectif théorique 16,1 63,3 25,6 105,0
Effectif 16 53 27 96
kiosque
Effectif théorique 14,7 57,9 23,4 96,0
24
Tests de 2
Valeur df Signification
Rapport de
13,437 6 ,037
vraisemblance
Nombres
725
d’observations
Il existe donc une relation significative entre le mode d’achat et l’attitude lectorielle. Ceci est confirmé
par une signification égale à 4,8% et inférieure au risque fixé d’avance =5% donc on rejette l’hypothèse
d’indépendance de ces deux caractères qualitatifs.
L’âge est une variable quantitative, puisque l’enquête a été faite d’une manière anonyme. Le fait de
donner exactement son âge ne présente aucun inconvénient pour les enquêtés. La fréquence de
non lecture (vous arrive t-il d’acheter le journal et de ne pas le lire ?) doit obéir à une échelle
qualitative en quatre modalité (jamais,…, fréquemment).
Ce croisement doit être basé sur le test ANOVA. Il s’agit donc de comparer les moyennes des âges
des lecteurs pour chaque modalité de fréquence de non lecture. Il ressort du tableau suivant que les
lecteurs les plus âgés à qui il n’arrive jamais d’acheter un journal sans le lire complètement. Par
contre il arrive de temps en temps ou encore fréquemment aux plus jeunes d’acheter le journal et de
ne pas le lire, lorsqu’ils n’attendent pas ou ne sont pas à la recherche d’une nouvelle.
Tableau de bord
Maximu
Fréquence de non-lecture Moyenne Ecart-type Minimum m
25
ANOVA
La signification est égale à 0.1% donc on confirme l’existence d’une relation significative entre l’âge du
lecteur et la fréquence de non lecture.
Une analyse en composantes principales appliquée aux questions ayant trait au bénéfice consommateur
permettra d’en définir les facteurs explicatifs.
L6 de comprendre le
3,9520 ,81835
monde
L9 de réfléchir sur
4,0694 ,79020
l'actualité
26
Qualité de représentation
Nous notons l’adéquation de cette technique à l’analyse des variables qui concernent le bénéfice tiré
dans la lecture du journal. Les variables les mieux représentés (moyenne la plus élevée et écart type le
plus bas) sont celles qui représentent l’esprit d’analyse et de recoupement de l’information et de la
découverte (L9, L5). Ces variables sont toutes relativement bien représentées après extraction des axes.
27
.Matrice des composantes après rotation
varimax
Composantes
Lire le journal pour vous
est : 1 2
Matrice des composantes (a)
L1 comprendre le
Lire le journal pour vous ,798 ,151
monde
est Composantes
L2 avoir des repères
1 2 ,760 ,243
solides
L9 un très grand plaisir ,723 ,354 L3 réfléchir sur
,759 ,109
L7 un moment agréable ,721 ,448 l'actualité
28
La rotation varimax a eu un effet très positif sur l’interprétation des deux facteurs qu bénéfice
consommateur. En effet la matrice des corrélations sans rotation des axes factoriels ne permet pas
d’interpréter le sens de chaque composante (les corrélations sont équivalentes) Le tableau des
corrélations après rotation sépare clairement les deux facteurs du bénéfice consommateur à savoir :
-Composante 1 : caractérisée (corrélations les plus élevées) par L1,.., L5 qui représente l’intérêt
accordé à l’information.
- Composante 2 : caractérisée par les critères L6,.., L9 qui représentent le plaisir éprouvé dans la
lecture du journal .
Le positionnement des lecteurs par rapport à ces deux facteurs permet d’apporter la typologie en
quatre groupes correspondant aux quatre cadrans du plan 1-2: suivant :
Plan 1-2
3
0
Axe 2
-1
-2
-3
-4
-4 -3 -2 -1 0 1 2 3
Axe 1
Nous nous limitons dans cette partie à l’aspect graphique de ces groupes, l’interprétation sera faite
plus loin.
29
La synthétisation de l’information qui doit précéder l’approche décisionnelle passe par
l’application d’une ACP puisque les variables étudiées sont toutes quantitatives. La
population considérée comporte 187 communes et 43 variables (22 ratios financiers, 12
indicateurs de taille et 9 indicateurs d’activités). Les communes des grandes villes ont été
éliminées pour des raisons d’homogénéité.
.
30
Les indicateurs d’activités reflètent le degré d’activité et de développement de la commune :
31
Analyse en composantes principales.
Avant d’appliquer l’ACP une élimination des variables fortement corrélées permettra d’affiner
l’analyse :
Les ratios financiers R1, R6, R11, R18, R21 et les indicateurs : Uind,Uart,Ukio,Usani,Asso, Vhsf, micd,
bipp,dipp,Vcsf, Iffg, Balg sont donc éliminés dans l’analyse. Les fortes corrélations, les éléments de la
diagonale de la matrice anti-image ainsi que le pourcentage de la variance expliquée de chaque
variable après extraction des axes factoriels (communalities) sont les raisons de cette élimination
32
Communalities Component Analysis
Initial Extraction Initial Eigenvalues
Componen
r4 1,000 ,551 t Total % of Variance Cumulative %
r7 1,000 ,701 1 4,791 26,618 26,618
r10 1,000 ,431 2 3,931 21,840 48,458
r13 1,000 ,855 3 2,617 14,539 62,997
r15 1,000 ,332 4 1,560 8,666 71,663
r16 1,000 ,769 5 1,090 6,055 77,719
r17 1,000 ,538 6 ,869 4,830 82,549
r5 1,000 ,859 7 ,522 2,901 85,450
r22 1,000 ,881 8 ,493 2,740 88,191
r23 1,000 ,773 9 ,461 2,563 90,754
r24 1,000 ,823 10 ,372 2,066 92,820
super 1,000 ,106 11 ,342 1,899 94,719
popu 1,000 ,863 12 ,276 1,532 96,251
logm 1,000 ,672 13 ,233 1,297 97,548
ucom 1,000 ,133 14 ,196 1,087 98,635
unet 1,000 ,544 15 ,108 ,599 99,234
scol 1,000 ,811 16 ,080 ,446 99,679
etot 1,000 ,697 17 ,042 ,233 99,912
Extraction Method: Principal. 18 ,016 ,088 100,000
Trois indicateurs synthétiques sont retenus après consultation de la matrice des composantes, ils
expliquent 6 3 % de l’information.
La méthode des différences d’ordre 1 et d’ordre 2 permet de retenir Deux axes factoriels , le
troisième axe est retenue car il exprime un indicateur synthétique très important qui jouera un rôle
décisif dans la typologie des communes. C’est l’endettement qui concerne la majorité des
communes.
La rotation varimax des axes factoriels a permis d’augmenter les corrélations entre les composantes
et variables initiales.
33
Component Matrixa Rotated Component Matrixa
Component Component
1 2 3 1 2 3
r5 ,888 r13 ,924
r13 ,888 r5 ,920
r16 -,814 r16 -,848
r7 ,761 r7 ,805
r22 ,675 r22 ,669
r17 ,660 r17
r10 r10
popu ,840 popu ,914
scol ,811 scol ,895
logm ,752 etot ,835
etot ,734 logm ,812
unet unet ,737
ucom ucom
r23 ,738 super
r4 ,682 r23 ,862
r24 r24 ,771
r15 r4 ,739
super r15
- La composante 1: est caractérisée par les ratios de dépenses et de recettes. Elle représente le
budget.
- La composante 2 : est caractérisée par les indicateurs de développement qui représente les
commodités.
- La composante 3 : est caractérisée par les ratios r23, r24, r4 qui expriment l’endettement des
communes.
34
Nous remarquons l’importance de cette technique qui nous a permis de synthétiser l’information. La
description des communes par 43 variables dont certaines sont fortement corrélées à été restreinte
à trois indicateurs synthétiques à savoir : Le budget, les commodités et l’endettement.
Le positionnement des différentes communes par rapport à ces indicateurs nous donnera une
approche graphique de la typologie que nous confirmerons par la suite.
35
Nous remarquons l’importance comme nous l’avons signalé auparavant de l’indicateur de
l’endettement qui permet de séparer entre les groupes 3 et 4 des communes. L’interprétation et les
caractéristiques des groupes formés à ce stade graphiquement seront données plus loin.
1.1. Introduction.
L’analyse factorielle des correspondances simples (AFC) est une technique d’analyse de données
multidimensionnelles. C’est une méthode descriptive qui généralise le test d’indépendance de Khi-
deux de Pearson. L’AFC s’adresse essentiellement aux tableaux de contingence qui croise les
modalités de deux variables qualitatives. Elle s’étend aux de données quantitatives homogènes et
positives de telle façon que la somme d’une ligne ou une colonne ait un sens.
Exemples :
- Dans l’étude sur le lectorat, le croisement du mode d’achat et de l’attitude lectorielle dont la
relation est significative (voir chapitre 3) a aboutit à un tableau de contingence. L’application de
l’AFC à ce tableau après avoir confirmé l’existence d’une relation significative entre les deux
variables qualitatives permet d’étudier les correspondances entre les modalités, autrement dit
les associations et les oppositions des différentes modalités des deux variables.
- Positionnement des différentes marques de téléphones portables par rapport aux différents
critères étudiés. Le croisement des différentes marques avec les différents critères étudiés
donne lieu à un tableau de notes, donc un tableau de données homogènes et positives. Chaque
case de ce tableau est égale à la moyenne des notes attribuées par la population étudiée
concernant une marque de mobile et un critère précis.
- Evolution des ventes des hebdomadaires. On étudié dans ce cas les ventes des hebdomadaires
pendant une période donnée. L’application de l’AFC permet de comparer les parts de marchés
des différentes revues entre deux années et de comparer aussi l’évolution des parts de
marchés de deux revues.
C ij
● f ij , la proportion de l’effectif total C=∑∑Cij correspondant à la modalité i de la
C
i j
ij
p n f ij f ij
● fi. = f ij , f . j f ij , f ji
j1 i 1 f i.
, f ij
f.j
.
● fI =(f1. ,f2. ,…fn.) la distribution marginale en colonne qui correspond aux poids des lignes.
36
● fJ = (f.1 ,f.2 ,…f.p ) la distribution marginale en ligne ou celle des poids des colonnes.
La distribution utilisée pour comparer deux profils lignes ( p ) est la distance de khi deux définie
par :
p
1 i p
1 f ij f i ' j
d 2 (i, i' ) (f j f ji ' ) 2 ( ) 2 .
j1 f.j j1 f . j f i. f i '.
n
1 j
d 2 ( j, j' ) (f i f i j ' ) 2 .
i 1 f i.
- Réaliser une ACP du tableau des profils lignes munis des poids fi. .
- Réaliser une ACP du tableau des profils colonnes munis des poids f.J .
- Construire des graphiques qui ont l’avantage de représenter simultanément les lignes et les
colonnes mettant en évidence les proximités entre les profils lignes, les proximités entre les
profils colonnes et la nature de la liaison entre les lignes et les colonnes.
La variance totale ou l’information contenue dans le tableau des profils lignes ou encore l’inertie
s’exprime par :
p (f f f ) 2
n n p
1 f ij n
khideux
f i.d 2 ( iJ , f J ) f i. ( f . j ) 2
ij i. . j
I(N(I)) =
i 1 i 1 j1 f . j f i. i 1 j1 f i. f . j C
n
GJ = f f
i 1
i
i. J (f .1,. ,....f .p ) f J
37
1.3.2. Construction du premier axe principal.
f d
*
variance par rapport à Δ1 : I( N, 1 )
*
2
i. (f Ji , f Ji ) 2 avec f Ji la projection orthogonale de f Ji sur
Δ1 . u1 est le premier vecteur propre de la matrice de variance covariance : V=X’DX -GJGJ’ associé à la
plus grande valeur propre λ1 . La matrice D est une matrice diagonale dont les éléments de la
diagonale sont les poids fi. des lignes.
On montre que GJ est le vecteur propre trivial associé à la valeur propre nulle.
La première composante F1 est une nouvelle variable définie pour chaque individu ou ligne i par : F1(i)
*
= <fJi – fJ , u1 > est la coordonnée de la projection f Ji sur Δ1 ayant pour origine fJ du nuage N(I).
p n
1 i
F1(i) =
j1 f . j
(f j f . j )u 1 ( j) avec f
i 1
F (i) 0 (F1 est centrée).
i. 1
La variance de F1 qui n’est autre que la variance expliquée par Δ1 est égale à λ1 :
n 1
λ1 f i 1
i. 1
2
F (i) . La part de l’information détenue par la première composante est égale à
/C
2
.
p
GI = f
j1
f (f1. ,....f n. ) f I
.j I
j
D’une manière similaire que le paragraphe précédent on obtient ( mutadis mutandis) les résultats
suivants :
n
1 j
T1 ( j) (f i f i. ) v1 (i) , v1 est le premier vecteur propre associé à la valeur propre λ1 de la
i 1 f i.
matrice de variances covariances V1 = XD1X’-GIGI’, avec D1 une matrice diagonale dont les éléments
de la diagonale sont les poids f.j des colonnes .
u1, …ur les vecteurs propres de la matrice des variances covariances du nuage des profils lignes
associés aux valeurs propres λ1 ,…λr . v1 , …vr ceux du nuage des profils colonnes associés aux mêmes
valeurs propres. r= min(p-1,n-1).
En effet la dimension de V est (p,p) et admet p-1 valeurs propres non triviales. La dimension de V1 est
(n,n) et admet n-1 valeurs propres dont n-p dernières valeurs propres sont nulles.
38
F1 , …Fr les composantes principales du nuage des profils lignes N(I).
T1, ….Tr les composantes principales du nuage des profils colonnes N(J).
Avec :
v h (i) u ( j)
Fh (i) = h et Th(j) = h h .
f i. f.j
p n
1
f ji Th ( j) et Th(j) =
1
Fh(i) =
h j1 h
f
i 1
i
j
Fh (i) .
L’analyse d’un des nuages des profils se déduit facilement de l’autre nuage. Il convient alors
d’analyser le tableau de données correspondant à la matrice de variances covariances ayant la taille
la plus petite.
Les paramètres d’aide à l’interprétation fournis par les différents logiciels statistiques en général et
SPSS en particulier se limitent à :
Le rôle joué par un profil ligne i, i=1,..n dans l’interprétation d’un axe est caractérisé son poids, sa
coordonnée sur cet axe et enfin la variance expliquée par celui-ci, exprimée par sa contribution
soit :
Fh2 (i)
CTR (i) f i. .
h
De même on définit la contribution d’un profil colonne j par rapport au même axe, soit :
G 2h ( j)
CTR ( j) f . j .
h
Un profil ligne ou colonne est jugé important dans l’interprétation d’un axe si sa contribution
exprimée en pourcentage dépasse la contribution moyenne ou si elle est supérieure au poids fi. (f.j)
La qualité du profil ligne est mesurée par le cosinus de l’angle que le vecteur profil fJi fait avec l’axe
Δh et donnée par :
Fh2 (i)
QLTh(i) = .
d 2 (f Ji , f J )
39
G 2h ( j)
QLTh(j) = .
d 2 (f Ij , f I )
Le profil est jugée bien représenté sur l’axe factoriel si QLT est proche de 1 puisque c’est exactement
le carré du cosinus.
40
L’option « statistics » permet de sélectionner et d’afficher le tableau de correspondance, les tableaux
de profils lignes et colonnes ainsi que les paramètres d’aide à l’interprétation pour chaque variable.
L’option « plots » permet de donner une représentation graphique des profils lignes et des profils
colonnes simultanément.
On a justifié précédemment et dans le cadre de l’enquête sur l’achat impulsif, l’existence de relations
significatives entre le lieu d’achat et le premier produit acheté d’une part et le deuxième produit
d’autre part., achetés tous les deux d’une manière impulsive(Signification =0).
L’application d’une AFC au tableau des effectifs suivant permettra de trouver les correspondances
entre les points de ventes et le deuxième produit acheté d »une manière impulsive.
41
Correspondence Table
magasin
Active
prod22 Monoprix SMG Champion Carrefour Géant Margin
alimentation 30 21 17 14 16 98
textile 2 1 1 5 7 16
cosmétique 16 12 7 12 28 75
hygiène 7 4 10 5 4 30
autre 7 8 1 22 19 57
Active
62 46 36 58 74 276
Margin
Summary
Accounted Standard
for Cumulative Deviation Correlation
a 16 degrees of freedom
Le nombre de modalités est le même pour les deux variables donc L’AFC peut s'appliquer sur le
tableau des profils lignes ou colonnes. Quatre axes factoriels peuvent être construits (nombre de
modalités -1). Les deux premiers axes expliquent 90.2% de la variance totale du tableau égale à
0.185. Le premier explique 76% (0.141/0.185) et le deuxième 14.3% (0.26/0.185).
42
Overview Row Points(a)
Score in Inerti
prod22 Mass Dimension a Contribution
Of Point to
Inertia of Of Dimension to Inertia of
1 2 Dimension Point
1 2 1 2 Total
alimentatio
,355 -,526 ,119 ,043 ,262 ,031 ,867 ,019 ,886
n
textile ,058 ,814 -,162 ,017 ,102 ,009 ,824 ,014 ,838
cosmétique ,272 ,198 ,475 ,018 ,028 ,378 ,227 ,568 ,794
hygiène ,109 -,837 -,777 ,043 ,203 ,404 ,657 ,246 ,903
autre ,207 ,857 -,375 ,064 ,404 ,179 ,886 ,073 ,959
Score in Inerti
magasin Mass Dimension a Contribution
Of Point to
Inertia of Of Dimension to Inertia
1 2 Dimension of Point
1 2 1 2 Total
Monoprix ,225 -,467 ,276 ,023 ,131 ,105 ,807 ,122 ,928
SMG ,167 -,253 ,258 ,010 ,028 ,068 ,389 ,175 ,564
Champion -
,130 -1,056 ,064 ,388 ,206 ,847 ,084 ,931
,506
Carrefour -
,210 ,631 ,045 ,223 ,453 ,696 ,265 ,961
,592
Géant ,268 ,567 ,319 ,043 ,230 ,168 ,759 ,104 ,863
Active 1,00
1,000 ,185 1,000
Total 0
a Symmetrical normalization
43
Axe 1 :
L’axe 1 est caractérisé par les produits alimentaires, d’hygiène et autre produits (électronique,
matériel auto, bureautique,..) et les hypermarchés Carrefour Géant et Champion. Carrefour et Géant
s’associent au produit autre et s’opposent à Champion qui s’associe aux produits alimentaire et
d’hygiène..
Axe 2 :
L’axe 2 est caractérisé par l’opposition des points de ventes Carrefour et Champion au produit
cosmétique qui se situe entre les magasins Géant, Monoprix et SMG.
magasin
prod22
0,6
cosmétique
0,4 Géant
Monoprix
0,2
Dimension 2
SMG
0,0 alimentation
textile
-0,2
Dimension 1
En conclusion nous pouvons affirmer que concernant la nature de l’achat impulsif répété et sa
relation avec le point de vente, les produits de première nécessité sont liées aux magasins Monoprix,
SMG et Champion. Les produits du second ordre ou d’utilité moindre sont liés aux hypermarchés,
donc la taille du magasin influence l’achat et la nature du deuxième produit acheté impulsivement.
Dans l’enquête <<Internet : accès et utilisation au Québec>> réalisée en septembre 1997(voir le site
http://www.risq.qc.ca/enquête), on s’intéresse entre autre à la relation entre les deux variables
suivantes :
44
-Nombre d’heures de connexion par mois (5 modalités).
Le tableau des effectifs obtenu à partir des données de l’enquête qui croise les modalités des deux
variables est :
Ancienneté
Le nombre de liges est inférieur aux nombres de colonnes donc une analyse factorielle des
correspondances est appliquée au tableau des profils colonnes. Soit le tableau des variances
expliquées par les axes issus du nuage des profils colonnes :
La dernière valeur propre est nulle elle correspond à la valeur triviale. Les deux premiers axes
factoriels expliquent 94.06% de l’information totale. Nous nous limiterons donc à l’interprétation de
la première carte factorielle.
45
Soit les tableaux des contributions et des qualités de représentations relatives aux deux premiers
axes.
Profils lignes :
Heures Poids relatifs Ctr1 (i) Ctr2 (i) Qlt1 (i) Qlt2 (i)
connexion en (%)
Profils colmonnes :
Ancienneté Poids relatifs Ctr1 (i) Ctr2 (i) Qlt1 (i) Qlt2 (i)
en (%)
Axe 1 :
Le premier axe factoriel est expliqué essentiellement par les modalités +3ans qui contribue à 63%
dans la formation de cet axe te la modalité +20 heures d’utilisation hebdomadaire d’Internet. Dans
une moindre mesure et par opposition on trouve la modalité -2 heurs d’utilisation. Donc cet axe est
46
caractérisé par les internautes professionnels ou les accros d’Internet qui sont bien représentés sur
l’axe (QLT=0.98).
Axe 2 :
Le deuxième axe factoriel est expliqué essentiellement par la modalité -3mois d’ancienneté qui
caractérise les novices.
En examinant les trajectoires des deux variables dans le plan factoriel ci-dessous nous remarquons la
divergence entre dernières modalités des deux variables. Au début on enregistre une affluence sur
Internet qui s’atténue avec le temps pour se limiter enfin aux accros et aux professionnels.
-3mois
0,1
5_10h
facteur2(7.24%)
0,06
3_6mois
2_3ans
+3ans -2h
10_20h
0,02
6_12mois
-0,02
20+h
1_2ans 2_5h
-0,06
-0,45 -0,30 -0,15 0,00 0,15 0,30
Facteur1(86.62%)
1.7.3 Le Lectorat.
L’analyse factorielle des correspondances exige des variables qualitatives significatives dépendantes
(test d’indépendance de 2). Précédemment, on a justifié l’existence d’un lien significatif entre le
mode d’achat te l’attitude lectorielle (sig=0.048<5%).
Valeur singulière de
Proportion d'inertie confiance
Corrélation
Valeur Ecart-
Dimension singulière Inertie Khi-deux Sig. Expliqué Cumulé type 2
a 6 degrés de liberté
47
L’analyse factorielle est effectuée sur le tableau des profils colonnes puisque le nombre de modalités
de l’attitude lectorielle est égal à trois donc deux axes factoriels expliquent toute l’information. Le
premier axe détient à lui seul 92.4%(0.16/0.18) de l’information ou de la variance totale égale à
0.018
Score dans la
attitude lectorielle Masse dimension Inertie Contribution
De point à
inertie de De dimension à
1 2 dimension inertie de point
1 2 1 2
lecture différée ,153 -,538 ,344 ,006 ,348 ,499 ,895 ,105
lecture immédiate ,244 ,565 ,147 ,010 ,612 ,144 ,981 ,019
De point à
inertie de De dimension à
1 2 dimension inertie de point
1 2 1 2
abonnement
,145 -,802 -,004 ,012 ,732 ,000 1,000 ,000
postal
dans la rue,
vendeur ,171 ,421 -,105 ,004 ,237 ,052 ,983 ,017
ambulant
48
La consultation des deux tableaux précédents et en se basant sur les contributions et les
coordonnées des points linges et des points colonnes par rapport aux deux axes factoriels nous
permet de donner une interprétation de ces derniers. Les modalités ayant les contributions
marquées en gras et qui sont supérieures à la contribution moyenne sont celles caractérise l’axe. Les
coordonnées servent à préciser l’association ou l’opposition des modalités.
Axe 1 :
Les modalités abonnement postal et lecture différée qui s’associent en s'opposant aux modalités
lecture immédiate et achat dans la rue ou vendeur ambulant.
Axe 2 :
La modalité Kiosque est celle qui contribue le plus à la formation de cet axe(84.6%) et d’autre part
et dans une moindre mesure on trouve la lecture différée et feulletée.
0,5 kiosque
0,4
lecture différée
Dimension 2
0,3
0,2
0,1 lecture immédiate
0,0 abonnement postal
dans la rue, vendeur
-0,1
portage
-0,2
-0,9 -0,6 -0,3 0,0 0,3 0,6
Dimension 1
Pour conclure nous pouvons dire en se référant au plan factoriel ci-dessus que la liberté ou la
décision d’achat d’un journal favorise une lecture immédiate. Par contre le portage donne une
lecture feuilletée et l’abonnement postal un e lecture différée.
49
2. Analyse factorielle des correspondances multiples
m
Soient X1 ,….Xm m variables qualitatives , chaque variable Xj po ssède pj modalités avec p= p
j1
j le
nombre total de modalités qui correspond au nombre de colonnes du tableau X étudié. Soit xijl le
terme général de ce tableau :
est telle que la somme de chaque ligne est égale à m et la somme d’une colonne jl
ou l est la modalité de la variable Xj est égale à njl qui est le le nombre d’individu qui
n jl
est la fréquence de la modalité l de la variable Xj .
n
On définit aisément de la même façon que dans le d’une AFC simple les profils
lignes et les profils colonnes et on montre (Saporta 1990)que la variance totale du nuage des points
lignes ou des points colonnes est égale à :
p
I( N(I), f J ) 1
m
L’interprétation des axes factoriels se fait de la même façon qu’une AFC simple et elle est basée sur
les mêmes paramètres (poids, coordonnées, contributions et qualité de représentation).
Lors de l’introduction en bourse par offre publique de vente (OPV), une étude a été élaborée par
enquête auprès des investisseurs sur leurs comportements après l’euphorie qu’a connu la bourse
tunisienne à la fin des années 90 et les augmentations anormales de certaines valeurs. Les résultats
de cette étude sont sur le site du Conseil du Marché tunisien dans la rubrique « Etude » .
2.2.1 Introduction
La consommation du poulet en Tunisie est très importante surtout dans la classe moyenne qui
constitue la majorité de la population tunisienne, sans oublier le secteur touristique, universitaire,
sanitaire …. Le prix abordable, la qualité nutritive font du poulet un produit stratégique qu’il faut
50
étudier de très près. Faut-il développer le poulet congelé ?, sachant qu’à la suppression totale des
barrières douanières ce secteur risque de connaître une rude concurrence avec les pays de
l’Amérique latine et de l’Asie. Comment développer ce marché sans prendre en compte le
consommateur ? Pour ce faire la présente enquête vient répondre à ces préoccupations. Elle a pour
but d’étudier la perception des consommateurs tunisiens du poulet congelé. La détermination du
profil, des attentes et du comportement du consommateur tunisien sont des facteurs primordiaux
pour le développement de ce marché.
- Les consommateurs issus du milieu moyen voir défavorisé dont le poulet représente le produit le
plus acheté étant donné son prix abordable. Le développement du poulet congelé et sa
commercialisation à un prix inférieur au produit frais intéresserait forcement cette catégorie de
client.
- Les consommateurs issus d’un milieu aisé qui préfèrent ou qui se sont habitués au produit frais
donc qui ne prêtent aucune attention à l’achat du poulet congelé ni à d’autres produits congelés. La
commercialisation du produit à un prix nettement inférieur au produit frais, l’information, la garantie
de sécurité alimentaire et la confiance sont des facteurs qui pousseraient cette catégorie de
consommateurs à acheter du poulet congelé pour une utilisation immédiate ou pour les jours suivant
l’achat.
- les consommateurs aisés, cultivés et menant un rythme de vie rapide qui utilisent les produits
congelés pour leur praticité et leur sécurité alimentaire.
L’enquête devrait entre autre confirmer cette segmentation du marché et affiner la composition des
catégories de consommateurs selon leurs profils, leurs attentes et leurs comportements.
L’enquête par questionnaire (voir annexe) a été menée auprès de 515 consommateurs répartis sur le
territoire tunisien. La méthode des quotas a été appliquée pour l’échantillonnage de la population
des consommateurs. Un questionnaire restreint et précis comportant 12 blocs de questions qui
portent sur le comportement d’achat, la perception du produit congelé en général et du poulet en
particulier et les attentes en termes de prix, de garantie de sécurité alimentaire et de la confiance
dans les acteurs du marché. La plus part des questions sont fermées, les quelques questions ouvertes
ont été codées à postériori. Un nombre important de non-réponses a été constaté dans la fiche
signalétique, essentiellement l’âge et le revenu bien que l’échelle nominale de ses questions a
respecté la susceptibilité des répondants. Les réponses manquantes dans les résultats de l’analyse
concernant les autres variables, ne correspondent pas à un refus ou à un oubli de répondre, mais à
des répondants qui ne sont pas concernés par la question, exemple : à la question, quelles sont les
raisons de votre achat du poulet congelé ; 354 personnes n’ont pas répondu, ils correspondent
exactement à ceux qui n’achètent pas ce produit congelé (modalité 2).
L’enquête a respecté les proportions des consommateurs selon le niveau d’instruction, leurs classes
d’âge et leur état civil.
51
120 étatcivil
nrp
célibataire
100 marié(e)
80
Effectif
60
40
20
0
nrp 20-30 30-40 40-50 >50
âge
Parmi les consommateurs 27,6% n’ont pas répondu (nrp) à la question âge dont 95,6% n’ont pas
précisé leur catégorie socioprofessionnelle (csp). De la même manière, on enregistre 26,4% de non
réponses dans la catégorie socioprofessionnelle dont 91,5% n’ont pas mentionné leur âge. Cela laisse
à penser qu’il s’agit bien de personnes sans emploi fixe majoritairement mariés (72.3%) et n’achetant
pas de poulet congelé (83.7%).
- Analyse univariée des données ou le tri à plat : elle consiste à donner une description numérique
et graphique des questions jugées les plus importantes.
- Analyse bivariée ou tri croisé : elle consiste à étudier les relations entre les différentes variables
deux à deux selon une démarche descriptive et/ou explicative.
- Analyse multivariée ou analyse factorielle des correspondances : étape importante pour le
positionnement des consommateurs par rapport à des indicateurs synthétiques appelés facteurs
issus de l’analyse qui résume l’information contenue dans les réponses aux différentes
questions posées.
- La typologie ou la classification ou encore la segmentation du marché : le positionnement des
consommateurs par rapport aux facteurs retenus dans l’analyse permet d’arrêter une typologie
rendu optimale par l’application des méthodes théoriques de classification. La méthode de la
classification hiérarchique (voisins réciproques) a été retenue dans notre cas.
52
60,0%
50,0%
40,0%
Percent
30,0%
20,0%
10,0%
0,0%
toujours parfois jamais
fréquence
30,0%
Percent
20,0%
10,0%
0,0%
consommati conservation conservation 2 bonnes confusion nrp
on réfrigérateur congélateur réponses
immédiate
- 30% seulement des consommateurs ont déclaré avoir acheté du poulet congelé.
53
- La raison principale de l’achat du poulet congelé est le délai de conservation, par contre la
disponibilité du poulet frais en premier lieu et la sécurité sanitaire ainsi que l’habitude dans
une moindre mesure sont les raisons du refus d’acheter du poulet congelé.
- La raison principale de l’achat d’autre produit congelé est la praticité, par contre la
disponibilité du frais est la cause principale du refus d’achat.
- Environ 30% des consommateurs n’hésiteraient pas à acheter du poulet congelé pour un prix
inférieur au frais. Parmi cette catégorie de consommateurs, 60.5% ont déclaré ne pas vouloir
acheter du poulet congelé auparavant.
40,0%
30,0%
Percent
20,0%
- 4
5
% 10,0%
d
e 0,0%
label info label&info autre
s Q11:Confiance
c
o
n
sommateurs qui ont déclaré ne pas avoir acheté du poulet congelé, sont prêts à en avoir
pour un prix au moins inférieur au produit frais (voir 2.4).
- Le label et l’information sont les principales garanties pour le consommateur.
- Les consommateurs font confiance à l’état en premier lieu, au vendeur et aux personnes en
contact direct en second lieu.
L’analyse bivariée ou le tri croisé étudie les croisements ou les relations entre les différentes
questions. Les résultats de ses croisements montrent l’existence ou l’absence de relations
significatives entre :
Il existe un lien très significatif entre le prix du poulet congelé (supérieur au frais (1), égal au frais (2),
inférieur au frais (3), nrp (4)) et l’achat du poulet congelé. En effet, un prix inférieur au produit frais
54
(modalité 3) intéresserait beaucoup plus les personnes qui déclarent ne pas acheter le produit
(modalité 2).
Achat du P
En ligne C
En colonne Prix du P C
Effectifs supérieur égal inférieur nrp ENSEMBLE
% ligne
% colonne
achat P C 44 40 57 14 155
28,4% 25,8% 36,8% 9,0% 100,0%
51,8% 58,0% 39,0% 6,7% 30,5%
Non achat P C 41 29 89 195 354
11,6% 8,2% 25,1% 55,1% 100,0%
48,2% 42,0% 61,0% 93,3% 69,5%
ENSEMBLE 85 69 146 209 509
16,7% 13,6% 28,7% 41,1% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0%
b. Relation entre l’achat du poulet congelé et la confiance dans les acteurs du marché du poulet.
On remarque que contrairement à l’absence de réponses aux questions directes relatives à l’âge et
aux catégories socioprofessionnelles essentiellement, les personnes affirmant ne pas s’intéresser au
poulet congelé, ont pratiquement tous exprimé leurs attentes en termes de confiance dans les
acteurs du marché. L’état (modalité 1) inspire plus de confiance 27.1%, suivie par les proches et amis
(modalité 5) 19.3%, vient après le vendeur (modalité 2) 18.5%.
En ligne Achat du PC
En colonne Confiance
intervenants
Effectifs ministère vendeur médecin proches amis nrp ENSEMBLE
santé
% ligne
% colonne
Achat P C 43 45 12 25 9 2 155
27,7% 29,0% 7,7% 16,1% 5,8% 1,3% 100,0%
31,2% 47,9% 32,4% 25,5% 20,0% 8,3% 30,5%
Non achat P C 95 49 25 73 36 22 354
26,8% 13,8% 7,1% 20,6% 10,2% 6,2% 100,0%
68,8% 52,1% 67,6% 74,5% 80,0% 91,7% 69,5%
Eznsemble 138 94 37 98 45 24 509
27,1% 18,5% 7,3% 19,3% 8,8% 4,7% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
55
C. Effet région sur la consommation du poulet congelé.
L’achat du poulet congelé est essentiellement bien perçu dans le grand Tunis en premier lieu
suivi du centre Est. Ces deux régions touristiques et à forte densité de population accaparent
57,4% des consommateurs favorables à l’achat de poulet congelé. On note une différence
notable entre ces deux régions et le reste du territoire contrairement aux consommateurs
défavorables à l’achat du poulet congelé qui sont répartis presque uniformément sur les régions
du nord et du centre. 5.2% seulement des consommateurs favorables à l’achat du poulet congelé
sont issus du nord est. Les enquêtés du nord est et du Centre Est n’ont pas exprimé leur
catégorie socioprofessionnelles et leurs âges.
Le détaillant spécialisé est le lieu d’achat privilégié des consommateurs du centre est et du sud
est. Le supermarché et dans une moindre mesure le magasin franchisé sont essentiellement les
lieux d’achat des consommateurs du grand Tunis.
Le refus d’achat d’autres produits congelés est uniforme sur tout le territoire. Contrairement,
l’achat est exprimé essentiellement dans le grand Tunis et le centre est, ce qui confirme les
remarques précédentes.
La forme découpée du poulet congelé est plus sollicitée par les consommateurs du grand Tunis
(50%) et dans une moindre mesure au centre est (31%). La forme PAC du poulet congelé est
préféré au centre est (40,6%).
25,0%
20,0%
Pourcentage
15,0%
10,0%
5,0%
0,0%
Grand Tunis Nord Est Centre Est Sud Est Nord Ouest Centre Ouest Sud Ouest
56
Croisement: Achat du poulet congelé * régi on
région
GT NE CE SE NO CO SO Total
Achat oui Count 44 8 45 16 16 15 11 155
% wit hin achat 28,4% 5,2% 29,0% 10,3% 10,3% 9,7% 7,1% 100%
% wit hin région 40,7% 11,4% 39,8% 31,4% 24,6% 20,5% 37,9% 30,5%
% of Total 8,6% 1,6% 8,8% 3,1% 3,1% 2,9% 2,2% 30,5%
non Count 64 62 68 35 49 58 18 354
% wit hin achat 18,1% 17,5% 19,2% 9,9% 13,8% 16,4% 5,1% 100%
% wit hin région 59,3% 88,6% 60,2% 68,6% 75,4% 79,5% 62,1% 69,5%
% of Total 12,6% 12,2% 13,4% 6,9% 9,6% 11,4% 3,5% 69,5%
Total Count 108 70 113 51 65 73 29 509
% wit hin achat 21,2% 13,8% 22,2% 10,0% 12,8% 14,3% 5,7% 100%
% wit hin région 100,0% 100,0% 100% 100% 100% 100% 100% 100%
% of Total 21,2% 13,8% 22,2% 10,0% 12,8% 14,3% 5,7% 100%
Bar Chart
70 région
GT
NE
60 CE
SE
NO
50 CO
SO
Count
40
30
20
10
0
oui non
Il existe une relation très significative entre la forme du poulet congelé acheté (PAC(1), découpé (2),
les deux (3), aucun (4)) et le lieu d’achat (magasin franchisé(1), détaillant spécialisé(2),
supermarché(3), magasin de détail(4), enseigne(5), aucun(6)). L’achat du poulet congelé est
essentiellement sous forme découpée. Les lieux d’achat les plus fréquentés sont les magasins
franchisés (19.6%) et le détaillant spécialisé (19.6%), le supermarché représente seulement 10.6%
seulement des achats du poulet congelé dont 61.1% sous forme découpé. Les magasins spécialisés
semblent être privilégiés pour l’achat du poulet congelé sous toutes ses formes.
57
Croisement: achat du poulet congelé * âge
âge
Nous constatons un lien significatif entre l’âge du répondant et l’achat du poulet congelé. Parmi les
personnes ayant plus de cinquante ans 71.7% ont déclaré ne pas acheter de poulet congelé. 27.6%
de consommateurs n’ont pas mentionné leurs âges dont 83.7% ont déclaré ne pas acheter de poulet
congelé ce qui représente 33.3% des consommateurs qui ont déclaré ne pas avoir acheté de poulet
congelé. Nous pouvons avancer que le refus d’achat de cette dernière catégorie de consommateurs
est du essentiellement à leur situation sociale comme nous l’avons précisé précédemment.
58
En définitif de cette étape d’analyse nous pouvons affirmer que la majeur partie des consommateurs
tunisiens ne sont pas habitués aux produits congelés, mais les habitudes sont souvent bousculées par
le changement du rythme de la vie et par une information fiable sur la qualité du produit. Il ressort
de cette analyse que ni le revenu, ni l’équipement n’ont une influence sur l’achat du produit congelé.
Le prix et la garantie de sécurité alimentaire sont les facteurs favorables à une demande accrue de ce
dernier.
Ses deux axes sont caractérisés par les modalités des questions qui ont contribuées le plus à leurs
formations (contribution > poids).
Ce facteur explique la part prépondérante de l’information recueillie puisqu’il oppose les deux
catégories de consommateurs, ceux qui sont pour l’achat de poulet congelé et ceux qui sont contre.
Nous trouvons d’une part (côté positif de l’axe) les consommateurs à revenu faible qui n’achètent
pas de produits congelés et n’ont aucune idée de la congélation à cause de leur préférence et de la
disponibilité du produit frais. D’autre part (côté négatif) les consommateurs d’un niveau d’instruction
et à revenu élevés qui ont l’habitude du congelé à cause des délais plus longs de conservation et qui
se préoccupent de la garantie sanitaire de ses produits. Ce facteur peut être intitulé ou représente le
niveau social.
Cet axe moins important mais loin d’être négligeable, puisqu’il mais en relief la troisième catégorie
de consommateurs à cheval sur les deux positions vis-à-vis de l’achat du poulet congelé. Il Oppose,
d’une part les jeunes consommateurs essentiellement des étudiants qui achètent fréquemment des
produits congelés pour leur praticité et dont le label est la principale garantie de sécurité alimentaire,
d’autre part les consommateurs de la fonction libérale dont le poids est nettement plus important,
qui n’achètent pas de poulet congelé préférant la consommation immédiate des produits congelés et
qui n’hésiteraient pas à acheter du poulet congelé pour un prix inférieur au produit frais.
L’information est le principal élément de garantie de sécurité alimentaire pour cette catégorie de
personnes qui ferait confiance à leurs amis vendeurs pour l’achat du poulet congelé.
Cet axe représente la garantie de sécurité alimentaire et la confiance dans les acteurs du marché du
poulet.
Le positionnement des consommateurs dans la carte factorielle suivante, nous permet de faire une
typologie optimale en trois groupes selon la méthode de la classification hiérarchique (voisins
réciproques). Les résultats de la classification sont indiqués en annexe.
59
Carte de positionnement des consommateurs
GROUPE 2
GROUPE 3
GROUPE 1
Constitué essentiellement des consommateurs de la fonction libérale âgés de plus de 50 ans dont la
consommation du produit congelé est immédiate et qui n’hésiteraient pas à acheter du poulet
congelé pour un prix inférieur au produit frais. L’information constitue l’élément de garantie pour
une sécurité alimentaire Se sont donc des clients potentiels. Une campagne d’information et de
sensibilisation est nécessaire pour améliorer leur confiance aux acteurs du marché.
Composé par les cadres supérieurs essentiellement ainsi que les étudiants dans une moindre mesure,
qui ont une bonne perception du produit congelé. La praticité, les délais d’utilisation plus longs sont
les principales raisons qui regroupent ces deux catégories de consommateurs
Formé par les consommateurs à revenu faible qui n’achètent jamais de produits congelés en général
et du poulet congelé en particulier parce qu’ils n’ont aucune idée du congelé. Notons un manque
manifeste d’intérêt de ce groupe pour le prix, la forme et le lieu d’achat du poulet congelé, ainsi
qu’un refus de réponse aux questions âge et catégorie socioprofessionnelles.
Conclusion.
60
Il ressort de cette enquête sur la perception, le comportement et les attentes des consommateurs
tunisiens du produit congelé que :
- L’équipement et le revenu n’ont aucune influence significative sur l’achat du produit congelé.
- La garantie de sécurité alimentaire ainsi que la confiance dans les acteurs du marché ont un
lien très significatif avec l’achat du produit congelé.
- Le prix influencera surement les habitués aux produits frais représentés essentiellement par
la fonction libérale.
- Environ 45% des consommateurs qui refusent l’achat du congelé changeraient d’avis pour un
prix au moins inférieur au produit frais.
- Il apparait que c’est les consommateurs faisant partie de la fonction libérale qui s’inquiètent
le plus de la garantie du produit et de la confiance dans les acteurs du marché, en effet cette
catégorie de consommateurs âgée de plus de 50 ans, qui caractérisent le deuxième axe
factoriel, montrent une méfiance quant à la garantie de sécurité alimentaire et à la
confiance dans les acteurs du marché.
- Les consommateurs faisant partie de la fonction libérale et qui semble t-il désapprouve les
produits congelés pour les raisons citées précédemment, sont équipés en majorité d’un
réfrigérateur congélateur, par conséquent la congélation n’est pas tout à fait absente dans
leur pratique quotidienne.
- La segmentation du marché en trois groupes clairement caractérisés nous permet d’affirmer
que les deux groupes (1 et 3) qui constituent environ les 70% des consommateurs qui
n’achètent pas de produit congelé sont récupérables moyennant une information fiable et
continue et un prix inférieur au produit frais, c’est ce qui ressort des attentes de cette
catégorie de clients potentiels
Une campagne publicitaire s’avère nécessaire à l’instar de celle occasionnée par l’apparition de la
grippe aviaire dans le monde et qui a eu une répercussion positive sur la demande du poulet. Une
information fiable et continue sur la qualité ainsi qu’un prix plus attractif que celui du produit frais
augmentera sensiblement la consommation du poulet congelé
61
IV. Extension des méthodes factorielles.
Les méthodes factorielles linéaires s’appliquent généralement à des tableaux de différents types
où chaque élément du tableau est une valeur numérique unique, on trouve ainsi :
a. Les tableaux individus x variables : se sont des tableaux qui représentent les observations d’un
ensemble de p variables par une population de n unités statistiques. (ex : les indicateurs de
développement humains des différents pays du monde ou encore les ratios financiers d’un
ensemble d’entreprises).
b. Les tableaux de contingence : se sont des tableaux qui croisent les modalités de deux variables
qualitatives (ex : croisement des catégories socioprofessionnelles et des attitudes de lecture
d’une population).
c. Les tableaux de notes : se sont des tableaux qui représentent les appréciations d’une
population d’un certain nombre d’objets selon un ensemble de critères (ex : notes attribuées
aux différents critères selon une échelle précise de toutes les marques de téléphones portables).
d. Les tableaux de préférence : où on demande à une population de classer par ordre de
préférence un ensemble de produit.
e. Les tableaux binaires ou disjonctif complets issus généralement des enquêtes d’opinions.
f. Les tableaux de similarités : ces tableaux représentent les proximités entre un ensemble
d’objets (ex : tableau des distances kilométriques entre les différentes villes du pays).
Etant donné le développement des technologies d’informations qui ont permis un échange rapide
et volumineux des stocks d’informations mis sous forme d’entrepôt de données (datamining) à la
disposition des utilisateurs et où une donnée ne se limite plus à une valeur numérique mais elle peut
s’étendre en autre à un intervalle, à un ensemble de valeurs ou à une loi de probabilité. Des
méthodes factorielles appropriées pour le traitement de ces types de données dites symboliques ont
été mise au point récemment [ Diday. 2000]. Ces données symboliques (i.e. « non purement
numérique ») prennent en compte les variations internes aux individus et leur complexité. Plusieurs
sources de données symboliques sont évoquées (ex : les bases de données, les données
stochastiques, les séries chronologiques, les données confidentielles, etc.).
L’un des grands apports de l’analyse des données (AD) est de donner aux individus l’importance
qu’ils méritent souvent dans les applications, par opposition aux méthodes de la statistique
traditionnelle où l’on s’intéresse surtout aux variables, leurs liens et leur modélisation à partir
d’échantillons d’individus anonymes. En effet en AD, les individus sont nommés, autrement dit
« personnalisés », par exemple, dans une représentation factorielle ou à l’issue d’une classification
automatique (on est parfois tenté de dire qu’en remplaçant des individus « anonymes » par des
individus personnalisés, l’analyse des données est un moyen d’identifier les unités statistiques).
L’analyse des données symboliques (ADS) accroît encore l’importance des individus car elle fournit
un cadre où ils peuvent être représentés puis analysés, en prenant en compte de façon plus proche
de la réalité, leur variation interne et leur complexité.
62
Une application de cette technique au développement des pays du monde en utilisant le logiciel
SODAS développé dans le cadre européen par l’équipe de recherche Lise Cérémade (Université Paris
Dauphine) est donnée ci-après.
Les individus ou pays sont remplacés par les dix concepts qui correspondent aux cinq continents et
aux deux catégories pays développés (ex : DEUR) et pays sous développés du continent (ex : SDEUR).
Les variables sont de deux types qualitatives : nature du régime, religion, deuxième langue officielle.
Les variables quantitatives sont celles fournies les statistiques de la banque mondiale : PIB, IDH,….
Le logiciel SODAS peut se résumer par le schéma suivant : DB2SO part d’une requête sur une base de
données et produit un tableau de données symboliques. Ce tableau sera la source de toute analyse
des objets symboliques.
Pour une représentation graphique les variables quantitatives sont décrites par des intervalles tandis
que les variables nominales sont décrites par des histogrammes.
63
Une représentation graphique en Biplot des variables quantitatives donne par exemple :
64
2. Analyse en composantes curvilignes
Souvent la projection orthogonale sur un sous-espace réalisée par l’ACP linéaire, ne permet pas
de bien approcher un nuage de forme complexe comme le montre la figure suivante. En d’autres
termes, si les variables qui décrivent les individus ne suivent pas des lois normales et si leurs
corrélations ne sont linéaires, l’ACP linéaire n’arrivera pas à bien représenter la dispersion des
points.
xij yij
Une méthode de projection non linéaire appelée analyse en composantes curvilignes (ACC), consiste
à élaborer une mise en correspondance de l’espace des données avec un espace de dimension
réduite. On effectue d’abord une quantification vectorielle de l’espace des données par un nombre
N de prototypes xi , puis on cherche les images yi de ces prototypes dans l’espace de projection par
recopie locale de leurs distances deux à deux.
Le perceptron est un réseau comprenant une seule couche de connexions et donc deux couches de
neurones ; l’une des couches représente les entrées du système et l’autre les sorties. Dans le cadre
de la discrimination, ce réseau appartient à la famille des algorithmes supervisés.
65
Figure 4 : exemple d’un réseau de neurones
Le réseau de la figure 4 est dit réseau multicouche. Ce réseau est entièrement défini par les
connexions de voisinage Wij et la fonction de transition (de transfert). Avec les connexions de
voisinage, tous les neurones j de couche c de ce réseau produisent une réponse Oi sur les neurones i
de la couche (c+1). Cette réponse ou entrée des neurones i, s’obtient en calculant une somme
pondérée des sorties Oj des neurones de la couche auxquels ils sont connectés. Cette somme est
ensuite transformée par une fonction non linéaire dérivable g :
K (c)
Oi g ( Wij O j i ) i=1,…,K(c+1)
j 1
66
IV. La classification.
Le but des méthodes de classification est de construire une partition ou une suite de partitions
emboîtées d’un ensemble d’objets dont on connaît les distances deux à deux. Les classes formées
doivent être les plus homogènes possibles. Les méthodes de partitionnement sont :
1. La classification CAH.
La classification hiérarchique est autre manière de résumer les données elle consiste à construire une
typologie ou partition des individus en classes homogènes.
Soit la typologie d’une population E de taille n en k classe d’effectifs n1 , ….,nk . Notons par G1 , …, Gk
cette typologie du nuage de points N(x1 ,…xn ) et g1 ,….,gk les centres de ces cklasses.
k k
ni ni
I(N,g) = nd
i 1
2
(g i , g )
i 1 n
I(G i , g i ) = variance inter classe + variance intra classes.
L’inertie inter classes permet de mesurer la manière dont les classes s’éloignent les unes des autres,
notée I(G1, …,Gk) et représente l’inertie expliquée par la typologie.
L’inertie intra classes qui est la moyenne des variances des classes, mesure leur homogénéité.
On agrège les individus qui font le moins varier l’inertie inter classes. En d’autres termes, on cherche
à obtenir à chaque pas un minimum local de l’inertie intra classe ou un maximum de l’inertie intra
classes. Lorsqu’on remplace deux classes Gi et Gj de la typologie G1 ,….Gk par la réunion Gi UGj il y a
une diminution de l’inertie inter classes notée par D(Gi ,Gj ) et égale à :
ni 2 nj ni n j 2 nin j
D(G i , G j ) d ( g i , g ) d 2 (g j , g ) d (g ij g) d 2 (g i , g j ).
n n n n (n i n j )
n i g i n jg j
Sachant que g ij .
ni n j
Ce critère est utilisé pour mesurer la distance entre deux classe Gi et Gj et s’appelle le critère
d’agrégation de WARD.
67
Algorithme Itératif de la CAH.
La CAH est destinée à une population de taille limitée (n<100) étant donné le nombre d’opérations
effectué par l’algorithme rien qu& la première étape qui consiste à comparer les distances deux à
deux entre tous les individus.
Etape 1 : elle consiste à partir de la population entière comme seule et unique classe. Chaque
individu constitue un singleton. On compare les distances deux à deux de ces classes et on regroupe
les deux classes Gi et Gj correspondant à la distance minimale et dont les profils se ressemble le plus .
L’inertie totale à cette étape est donc égale à l’inertie inter classes.
Etape 2 : Deux individus sont donc agrégé et constitue une classe notée Gij de centre gij . Cette étape
consiste à comparer les distances qui séparent le centre gij aux n-2 individus restants, l’individu le
plus proche y sera agrégé.
Etape finale : Il n’y a qu’une seule classe qui regroupe toute la population. L’inertie inter classe est
donc nulle, la somme des pertes d’inertie inter classe des différentes étapes de l’algorithme est donc
égale à l’inertie totale.
Cette méthode développée par Edwin Diday consiste à partir d’une population de n individus de
choisir arbitrairement k points selon la représentation graphique du nuage de points.
Ces k points définissent k voisinages V1 ,…Vk . Soient c1 ,…ck les centres respectifs de ces voisinages
qui diffèrent forcément avec les k points choisis arbitrairement. Une procédure itérative basée sur
la minimisation de la variance intra classes ou sur la minimisation des différences entre les
coordonnées des centres des classes obtenus à chaque étape itérative permet d’aboutir à une
typologie optimale.
Algorithme de k-meanss
Etape 1 : k points sont choisis arbitrairement qui correspondent à k voisinages ou groupes V11 ,…Vk1
de centres respectifs c11 ,…ck1 .
Etape 2 : à ces centres c11 ,…ck1 correspondent k nouveaux voisinages V12 , …Vk2 qui donnent k
nouveaux centres c12 ,….ck2 .
68
.
Etape finale : La partition finale d’ordre p qui est optimale vérifié la nullité des différences des
coordonnées des centres des classes obtenues à l’étape p et à l’étape précédente p-1.
La méthode des nuées dynamiques est une extension de la méthode précédente. Cette méthode
consiste à considérer un noyau des points les plus centraux ou un axe factoriel ou encore un plan
factoriel
La méthode des nuées dynamiques exige un nombre de classe que l’on doit fixer d’avance
contrairement à la méthode da la classification ascendante hiérarchique qui propose une typologie
selon le critère de Ward par exemple.
69
On sélectionne les trois facteurs arrêtés dans l’analyse en composante principale afin de déterminer
la typologie idéale. Nous pouvons effectuer l’analyse typologique sur les variables initiales au lieu des
composantes qu’il faut choisir minutieusement. Comme nous l’avons signalé auparavant, un nombre
de classe est demandé au départ ( dans ce cas c’est 4) ainsi qu’un nombre d’itérations de
l’algorithme qu’il faut prendre assez grand.
On cliquant sur « save » , ceci nous permet de sauvegarder l’appartenance de chaque commune à la
classe à la quelle elle est affectée sous forme d’une variable codée de 1 à 4.
L’option « statistics » permet de fournir les coordonnées des centres initiaux des classes ainsi que les
coordonnées finales.
70
Initial Cluster Centers Iteration Historya
Cluster Iterati Change in Cluster Centers
1 2 3 4 on 1 2 3 4
Cinq itérations ont permis à l’algorithme de converger selon le critère mentionné auparavant et au
bas du tableau des itérations.
ANOVA
Cluster Error
Mean Square df Mean Square df F Sig.
Budget 31,384 3 ,502 183 62,532 ,000
Commodités 37,001 3 ,410 183 90,284 ,000
Endettement 34,813 3 ,446 183 78,108 ,000
The F tests should be used only for descriptive purposes because the clusters have been
chosen to maximize the differences among cases in different clusters. The observed
significance levels are not corrected for this and thus cannot be interpreted as tests of the
hypothesis that the cluster means are equal.
71
Une analyse de la variance en option dont la variable explicative ou facteur est l’appartenance de la
commune à la classe et la variable à expliquer est la composante ou l’indicateur synthétique. Les
trois ANOVA sont significatives (sig=0). C'est-à-dire les trois indicateurs séparent significativement
les communes en quatre classes. Les commodités séparent le mieux les quatre classes (Fisher le plus
élevé : 90.284).
Les caractéristiques des classes seront précisées dans le chapitre suivant.
Une banque a élaboré une étude visant à mieux connaître la situation et le comportement de sa
clientèle. Elle souhaite notamment définir des types homogènes de clients afin de pouvoir
entreprendre des politiques différenciées pour chacun d’eux et aussi mettre en place un outil d’aide
à la décision pour l’octroi des crédits.
La banque a utilisé pour cela les données figurant dans les fichiers de gestion. Elle a constitué un
échantillon de cinquante titulaires d’un compte courant appartenant à des ménages distincts. Onze
variables quantitatives exprimant le comportement bancaire et deux autres informations relatives à
leur situation sociodémographique ont été arrêtées.
13 VARIABLES ACTIVES
_____________________________________________________________
V1 : solde moyen
V2 : montant moyen des chèques tirés
V3 : nombre de mois avec découvert
V4 : montant cumulé des découverts
V5 : nombre de produits de la banque utilisés
V6 : nombre d’emprunts divers effectués
V7 : montant total des emprunts effectués
V8 : variation des dépôts (en %)
V9 : montant total des dépôts
V10: montant total des retraits
V11: variation des retraits (en %)
V12: taille du ménage du client
V13: âge du client
_______________________________________________________________
72
L’ACP appliquée aux treize variables a permis de mettre en place deux indicateurs synthétiques (voir
tableau des corrélations) à savoir le comportement (client actif ou passif) et la situation financière.
--------------------------------------------------------------------------
VARIABLES | CORRELATIONS VARIABLE-FACTEUR
---------------------------------------------------------------------------
VARIABLES ACTIVES | 1 2 3 4 5
---------------------------------------------------------------------------
Une typologie en trois classes est obtenue selon le critère de Ward. On constate dans la description
suivante des classes formées la variation brutale de l’indice qui est passé de 1.2 à 2.54797. La
coupure de l’arbre se fait au niveau de la classe 98 ce qui donne la décomposition en trois classes 95,
96,97.
51 7 3 2 2.00 .00534 *
.
.
.
85 48 81 5 5.00 .13267 ****
86 69 80 6 6.00 .17360 *****
87 10 86 7 7.00 .19986 ******
88 49 44 2 2.00 .19998 ******
89 11 82 9 9.00 .23276 *******
90 84 88 11 11.00 .25713 *******
91 89 76 14 14.00 .28332 ********
92 85 57 7 7.00 .29194 ********
93 77 75 8 8.00 .41804 ************
94 92 93 15 15.00 .59377 ****************
95 90 83 13 13.00 .64597 ******************
96 91 46 15 15.00 .79515 **********************
97 94 87 22 22.00 1.20079 ******************************
---------------------------------------------------------------------------
98 96 97 37 37.00 2.54797 ********************************
99 95 98 50 50.00 2.98148 ********************************
73
IV l’Analyse factorielle discriminante.
1. Introduction.
Le but des méthodes discriminantes est de prédire une variable qualitative à k catégories à l’aide de
p variables explicatives généralement numériques. Soient P une population partitionnée en q
groupes à l’aide d’une variable qualitative Y, chaque unité statistique est décrite par p variables
quantitatives X1, X2, ..., Xp. L’AFD permet de réaliser les deux objectifs suivants :
- Le premier est de distinguer parmi les variables quantitatives celles qui séparent le mieux les
groupes, de les comparer et de mettre en place des combinaisons linéaires de ses variables qui
permettent la discrimination des groupes. C’est l’aspect descriptif de l’AFD.
- Le second est d’affecter d’autres unités statistiques aux différents groupes selon leurs
observations des différentes variables quantitatives. C’est l’aspect décisionnel de l’AFD.
Les domaines d’application de L’AFD sont nombreux et se confondent avec ceux de la reconnaissance
des formes. On utilise l’AFD comme outil d’aide à la décision, par exemple en finance pour la
détection de défaillance des entreprises [Bardos 97], ou pour évaluer le risque de crédit bancaire. En
marketing elle permet par exemple, la prévision de la décision d’achat d’un produit (voir III). En
milieu industriel cette technique peut être utilisée dans le domaine du contrôle de la qualité. Elle
permet aussi d’estimer les réponses manquantes.
2. Présentation de la méthode.
2.1 Exemple
A partir des valeurs prises par un individu pour m variables quantitatives, il s’agit de déterminer à
laquelle des n classes de la variable qualitative il appartient.
Supposons que p =2 c'est-à-dire qu’il y a deux variables explicatives X1, X2 seulement et que q=2 c'est-
à-dire que la variable qualitative ne possède que 2 classes.
Ces données sont représentées sur le graphique suivant, les axes étant constitués par les variables
quantitatives, les individus du premier groupe sont représentés par la lettre A, ceux du second
groupe par la lettre B.
74
X2
B3
B1
B4 B5 B6 A3
A1
A4
A2
X1
A7 A5
B2 a
L’axe D discrimine les deux groupes. Il est donc possible d’affecter un nouvel élément a à l’un des
deux groupes en sachant sa coordonnée sur l’axe D. L’axe D est une combinaison linéaire des
variables X1 et X2 appelé composante discriminante.
n : la taille de la population
q
1 q
Vj 1
n1
n k ( m k
j m j ) 2
nk 1
n k v kj = Bj + Wj
k
ou between ou within
1 q q
nk k
v( j , l ) [
n k 1 Gk
( x ij m k
j )( x il _ ml
k
) ]
k 1 n
(m j m j )(m kj ml )
75
Soit la matrice des covariances totales :
V=B+W
En posant :
x 11 m1 ...................................x 1p m p
.
.x i1 m1 ..........x ij m j .............x ip m p
1
R .
n
.
.
x n1 m1 ...................................x np m p
Et en posant :
n1 n1 1
(m 11 m 1 ) (m p m p )
n n
nk nk nk
S (m 1k m 1 ) (m j m j )
k
(m p m p )
k
n n n
nq nq
(m 1q m 1 ) (m p m p )
q
n n
3. Composantes discriminantes.
Comme nous l’avons signalé précédemment, l’idée est de construire des composantes discriminantes
Z qui sont des combinaisons linéaires des variables explicatives X1,…..Xp .Soit la composante d’ordre l
Z l = X =j Xj qui sépare le mieux les q classes associées aux modalités de la variable à expliquer Y .
Cette combinaison linéaire de composantes j j=1,.., p devra être :
- de variance intra groupes minimum ce qui correspond à une homogénéité maximum des
classes.
- de variance inter groupes maximum ce qui signifie une séparation maximum des centres des
classes.
Pour cela on cherche la combinaison minimisant le rapport :
' W
T = variance intra de /variance inter de
' B
76
' (V B) ' V
' 1.
' B B
' B
Ce qui revient à maximiser le rapport R () = , donc à maximiser ’B sous la contrainte ’V=1.
V
'
R est une fonction homogène en, R() =R(c ), où c est constante quelconque.
L = ’B -(’V-1).
D’où :
Soit le premier vecteur propre de la matrice V-1B associée à la plus grande valeur propre 1 de V-1B.
Après avoir trouvé cette première combinaison linéaire qu’on notera 1 on pourra chercher une
combinaison linéaire 2 non corrélée à 1 de variance 1 et de variance inter classes maximum. On
itère le processus en cherchant à l’étape t la combinaison t non corrélée à 1,…... t-1 de variance 1
et de variance inter classes maximum, obtenus en calculant les vecteurs propres de V-1B associés aux
valeurs propres 1, …t de V-1B, t est au plus égal à q-1 car le rang de la matrice de covariances inter
groupes B est au plus égal à q-1.
Avec :
et 0j 1 j=1,…t.
en effet :
B étant la matrice associée aux centres gl l=1,…q des classes Gl l=1,…q, diagonaliser la matrice BV-1
ou V-1B revient à faire une analyse en composantes principales du nuage {gl l=1,…q} affectés des
poids wl = {pj j Gl }= (nl /n généralement).
77
Il s’agit de faire le classement d’une observation ou individu dans l’un des q groupes à partir de la
connaissance des valeurs des variables explicatives. L’individu à classer x est supposé centré par
rapport au centre de gravité global des individus.
L’affectation de x se fait selon l’approche géométrique : x est affecté au groupe pour lequel la
distance entre x et le centre de gravité du groupe est la plus faible.
appelée distance de Mahalanobis ce qui revient à minimiser la quantité gk’ V-1 (gk – 2x).
groupe1
x groupe2
L’individu x serait affecté au groupe2 selon le critère géométrique bien qu’il soit graphiquement plus
proche du groupe 1. Ceci est dû à la différence des variances des deux groupes.
Pour remédier à cette insuffisance, l’idée est d’accorder dans le calcul des distances aux différents
groupes des poids d’autant plus forts que le groupe est fortement dispersé. Cela revient à munir
chaque groupe d’une métrique définie par une forme quadratique définie positive.
avec :
Qk = [det Wk ]1/pWk-1 minimisant la moyenne des carrés des distances entre individus dans le groupe
Gk , où Wk est la matrice des covariances intra classes pour le groupe Gk.
78
7. Approche bayesienne d’affectation.
Soient p1, p2,….pq les proportions des q groupes dans la population étudiée. La distribution de
probabilité d’un individu dont le vecteur d’observation x=(x1,…, xp), est donnée pour chaque groupe j
par la densité fj(x). On a d’après la formule de Bayes :
p jf j (x)
P (G j / x ) q
la probabilité pour que x Gj .
p f (x)
j1
j j
1 1
f j (x) exp[ ( x j )' j 1 ( x j )]
(2) p/2
det( j ) 1/ 2
2
7.1.1 Hétéroscédasticité.
Dans le cas général, les matrices de covariances j sont différentes. Le critère d’affectation est alors
quadratique en x. Les probabilités pj sont supposées connues mais il est nécessaire d’estimer les
moyennes j ainsi que les matrices de covariances j en maximisant la vraisemblance compte tenu
de l’hypothèse de normalité. Ceci conduit à estimer la moyenne j* par gj le centre de la classe Gj et
j par la matrice de covariances empiriques :
1
S*j (x i g j )(x i g j )'
n j 1 iG j
7.1.2 Homoscédasticité.
On suppose dans ce cas que les lois dans chaque groupe partagent la même structure de covariances
j =. Le terme à maximiser devient :
1 ' 1
ln( p j ) j j 'j 1 x
2
qui est linéaire en x . Les moyennes sont estimées comme précédemment, tandis que la matrice
est estimée par la matrice de covariances intra classes empiriques :
79
1 q
S
*
(x i g j )(x i g j )'
n q j1 iG j
1
Max[ x ' 1 j 'j 1 j ln( p j )]
2
On parle d’estimation fonctionnelle lorsque le nombre de paramètres à estimer est infini. On aura
donc à estimer une fonction, par exemple la régression y=f(x) ou encore une densité de probabilité.
Dans ce cas, au lieu de supposer qu’on a affaire à une densité de type connu (normale) dont on
estime les paramètres, on cherche une estimation f de la densité f. Pour tout x de , f(x) est donc
estimée par f (x).
Cette approche très souple a l’avantage de ne pas nécessiter d’hypothèses particulières sur la loi, en
revanche elle n’est applicable qu’avec des échantillons de grande taille d’autant plus que le nombre
de dimension est grand.
Fn ( x h n / 2) Fn ( x h n / 2)
f n (x)
hn
1 n
x Xi
f n (x)
nh n
K(
i 1 hn
)
K est une fonction appelée <<noyau de convolution >> ou plus simplement <<noyau>> (kernels).
Exemples :
a. 1[-1/2 , 1/2] est un noyau de Parzen Rozenblatt positif cf[Bosq & Lecoutre 87].
1
e x est un noyau de Parzen Rozenblatt positif défini sur .
2
/2
b.
2
Le choix du noyau semble être réglé par un critère d’optimisation voir [Bosq 87]. En réalité on peut
être amené à envisager d’autres noyaux pour des raisons de lissage ou de facilité de calcul. La forme
du noyau n’est pas très déterminante sur la qualité de l’estimation contrairement à la valeur de h.
80
Le choix de h est crucial pour la précision locale ou globale de fn . Si K est la densité de la loi normale
réduite on a :
s
h n 1.059 1n/ 5 ; où sn est l’écart type empirique.
n
La méthode du noyau est utilisée pour calculer une estimation non paramétrique de chaque densité
fl(x) qui sont alors des fonctions définies dans p. Le noyau K*doit donc être multidimensionnel :
1 x xi
f l (x)
nlh p
K
iG l
*
(
h
).
Un noyau multidimensionnel peut être défini à partir de la densité usuelle de lois : multi normale
Np(0,p) ou uniforme sur la sphère unité ou encore par produit de noyaux unidimensionnels :
p
*
K (x) = K(x )
j1
j
8. Application :
La situation financière des communes tunisiennes demeure dans une large mesure tributaire de la
qualité de gestion des ressources disponibles. Le développement des capacités locales, la
modernisation de la gestion financière par le recours aux techniques d’évaluation, d’analyse et de
prospective sont des mesures de nature à permettre aux communes de rationaliser leurs choix
budgétaire.
81
Il s’agit à partir d’un échantillon de 187 communes définies par 24 ratios financiers et des indicateurs
de taille et d’activité de mettre en place un outil d’aide à la décision afin d’optimiser l’aide financière
ou technique des pouvoirs publics. Cet outil est obtenu en appliquant l’analyse factorielle
discriminante qui passe nécessairement par une ACP qui synthétise l’information en résumant les
variables étudiées par les trois indicateurs synthétiques :
- Budget
- Commodités
- Endettement
Le positionnement des communes par rapport à ces trois facteurs et l’application de la méthode des
nuées dynamiques, nous permettent de faire une typologie des communes en trois classes :
L’analyse factorielle discriminante appliquée aux six premiers facteurs issus de l’ACP nous donne les
résultats suivants :
82
L’option « statistics » permet de donner les différents paramètres de chaque variable ou facteur
explicatif.
83
Tests d'égalité des moyennes des groupes
Lambda
de Wilks F ddl1 ddl2 Signification
Nous ne constatons que seuls les trois indicateurs synthétiques à savoir le budget, les commodités et
l’endettement qui sont significatifs dans la discrimination des classes.
Pour étudier le pouvoir discriminant des variables explicatives qui sont dans ce cas les facteurs
obtenus à partir d’une ACP, le tableau précédent nous présente les paramètres suivants :
Ce paramètre nous permet d’étudier le pouvoir discriminant dans le cas d’un modèle unique qui
correspond à deux groupes .
84
L’interprétation du pouvoir discriminant des fonctions ou des composantes discriminantes est basée
sur les paramètres suivants :
H1 : Il existe au moins deux groupes pour lesquels les matrices de variances/ covariances ne sont pas
égales, les groupes sont hétérogènes.
Ce tes est basé sur le calcul da la statistique F pour fixé. La règle de décision consiste à rejeter H0 si
la signification p(F) < .
Si le nombre de classes k est égal à 2 ou3, le lambda suit une distribution en F (Rao.1973), ce qui
permet de mesurer la signification :
Dans les autres cas il est nécessaire de passer par une approximation donc par une fonction de Λ G.
Soit le V de Bartlett qui suit une distribution de khi-deux à p(q-1) ddl
V = -[ n-1 + ½(p+q)]log(ΛG )
Ce test présente l’avantage de pouvoir vérifier la relation au niveau global puis pour chaque axe
séparément.
- Signification statistique des axes discriminants afin de réduire l’espace nécessaire pour
décrire les différences entre les groupes.
Contrairement à l’AFD à deux groupes ou un seul test est requis, dans l’AFD à q groupes plusieurs
tests seront faits. Ces tests seront effectués en cascade, afin de déterminer le nombre de dimension
selon lesquelles les groupes se différencient significativement.
Le premier test porte sur l’hypothèse nulle d’égalité des centroïdes, en gardant toutes les fonctions
discriminantes. Les tests suivants portant sur la même hypothèse nulle en éliminant successivement
la fonction F1 , F2 ,.., Fq-1 axes construits. Si p(khi-deux)< l’axe du niveau de la cascade sera gardé
sinon supprimé
85
Résultats du test
Trois modèles ou fonctions discriminantes sont construites puisqu’il existe quatre groupes de
communes. Les trois modèles ont un pouvoir discriminant des groupes significatifs et détiennent
respectivement 45.4, 32.5, 21.9% de la variance totale.
Lambda de Wilks
Test de la ou Lambda
des fonctions de Wilks Khi-deux ddl Signification
Les trois modèles (de 1 à 3) sont utiles dans cette analyse, ils correspondent à la valeur la plus basse
du Lambda de Willks (0.067).
Fonction
1 2 3
86
Résultats du classement(b,c)
Original Effectif 1 32 0 1 0 33
2 0 17 1 0 18
3 0 0 51 5 56
4 0 0 0 80 80
4 ,0 ,0 ,0 100,0 100,0
Validé- Effectif 1 32 0 1 0 33
croisé(a)
2 1 16 1 0 18
3 0 0 51 5 56
4 0 0 0 80 80
4 ,0 ,0 ,0 100,0 100,0
a La validation croisée n'est effectuée que pour les observations de l'analyse. Dans la validation
croisée, chaque observation est classée par les fonctions dérivées de toutes les autres observations.
Le pourcentage observé des communes affectées correctement dans la classe d’origine est de 96 3.
L’erreur de classement observée est de l’ordre de 3.7% qui correspond au pourcentage des
communes dont le groupe prévu ne correspond pas au groupe original. L’erreur réelle obtenue par
la méthode de la validation croisée est de l’ordre de 4.3%.
87
8.2 La perception de l’enseignement virtuel.
L’intérêt est généralement défini comme une attention favorable à quelqu’un ou à quelque chose.
D’après Ethier et Payet (2001), cette attention favorable se divise en quatre niveaux d’intérêt qui
sont l’intérêt nul, théorique, pratique et exclusif.
L’intérêt exclusif n’a pas été exprimé par les étudiants dans notre étude qui a fait apparaître une
autre forme : l’intérêt vif. Ceci est dû comme nous l’avons mentionné précédemment à la méfiance
des étudiants tunisiens à s’engager totalement dans l’aventure virtuelle. A partir du positionnement
des étudiants par rapport à l’utilité perçue et à l’engagement (facteurs issus de l’analyse en
composantes principales) nous retrouvons les quatre formes de l’intérêt à l’e-enseignement :
- L’intérêt vif : représenté par les étudiants qui témoignent d’une utilité perçue et d’un
engagement élevés sans abandonner complètement l’enseignement classique (groupe 1 dans la
figure 2).
- L’intérêt théorique : représenté par les étudiants ayant perçu une grande utilité pour l’e-
enseignement mais qui hésitent ou qui ont peur de s’engager par méconnaissance ou par
manque de moyens (groupe 2 dans la figure 2).
Ces deux cas de figure représentent pour les décideurs des clients potentiels qu’il faut conquérir en
répondant à leurs préoccupations.
- L’intérêt nul : représenté par les étudiants qui n’éprouvent aucun intérêt pour cette forme
d’enseignement (groupe 4 dans la figure 2).
- L’intérêt pratique : représenté par les étudiants qui sont prêts à s’engager dans l’aventure
virtuelle de l’enseignement ou l’aventure de l’enseignement virtuel sans en voir l’utilité peut-
être parce qu’ils n’ont pas le choix, par exemple : les étudiants pour lesquels un cours présentiel
est impossible à suivre (groupe 3 dans la figure 2).
Remarquons l’homogénéité des étudiants ayant une perception positive de l’utilité (axe horizontal
positif) contrairement à ceux qui ont une perception négative de l’utilité qui sont nettement plus
dispersés (voir figure 2).
88
4
3
G1
Intérêt global ou engagement
2
G3
1
-1
-2 G4
G2
-3
-4 -2 0 2 4
Utilité perçue de l'e-enseignement
Pour Claude Levy-Leboyer(1999), la motivation ne se limite pas à de simples recettes, elle se gère, se
construit en permanence à partir de multiples stratégies. La motivation est un processus dynamique,
en fonction de traits de personnalité comme de facteurs de l’environnement, elle est complexe dans
ses mécanismes. C’est un processus qui implique l’individu dans l’action et qui nécessite des efforts
pour atteindre l’objectif.
Dans notre étude, le positionnement des étudiants (Figure 2) par rapport aux deux facteurs issus de
l’analyse en composantes principales (utilité perçue de l’enseignement virtuel et intérêt global ou
engagement qui sont à notre sens les fondements de leur motivation) fait apparaître quatre formes
de la motivation :
- la motivation volontaire (engagement) qui correspond aux étudiants du groupe 1 (G1) ayant un
engagement positif et une perception positive de l’utilité de l’enseignement virtuel.
- La motivation contrainte (par manque de conviction) qui correspond aux étudiants du groupe 3
(G3) ayant des contraintes qui peuvent être familiales, temporelles, spatiales,….mais qui
89
n’émanent pas de l’employabilité, puisque notre étude fait apparaître que la motivation perçue
est indépendante de l’emploi.
- La motivation nulle (absence de motivation) qui correspond aux étudiants du groupe 4 (G4) qui
sont désintéressés vis-à-vis de cette nouvelle forme d’enseignement.
- La motivation conditionnelle qui correspond aux étudiants du groupe 2 (G2) ayant une
perception positive de l’e-enseignement mais un engagement incertain expliqué par une
formation incomplète en informatique, l’absence de moyens techniques et la vulgarisation
insuffisante de l’information relative à l’enseignement virtuel.
Notons l’existence d’une relation significative (khi deux = 40.075, signification = 0.00) entre la
motivation perçue définie plus haut et le style d’apprentissage préféré des étudiants que nous
définissons par la motivation déclarée.
Un indice de la motivation est proposé à partir d’une analyse factorielle discriminante, où la variable
à expliquer est la motivation perçue, ayant donc quatre modalités et les variables explicatives les plus
significatives qui sont : l’utilité perçue, l’engagement, l’interaction, la maîtrise de la technologie
informatique, l’accessibilité à un ordinateur, et la disponibilité d’un ordinateur. Les résultats de
l’analyse discriminante font apparaître trois modèles ou fonctions discriminantes standardisées.
Nous retiendrons les deux premières qui sont les plus significatives (voir tableau 2), l’erreur réelle
d’affectation obtenue par validation croisée est égale à 10 %.
Variance % de la Corrélation
Fonction expliquée variance % cumulé canonique
La Figure 3 met en exergue le double indice obtenu par croisement des scores discriminants (valeurs
des deux fonctions F1 et F2) pour chaque individu.
90
Fonctions discriminantes canoniques
8 motivation
1
2
6
3
4
4
Barycentres
Fonction 2
2 3
0 4 1
-2 2
-4
-6
-6 -4 -2 0 2 4
Fonction 1
Les quatre formes de la motivation sont délimitées dans la Figure 3 par la première bissectrice F1 =F2
et la deuxième bissectrice F1 = -F2.
La mise au point d’un simple indice de la motivation nécessitera le regroupement des classes 1 et 3
et des classes 2 et 4, de façon à avoir seulement deux groupes : les étudiants motivés et les étudiants
non motivés, ce qui implique par conséquent une perte d’information sur le degré de motivation,
exprimé par les étudiants. Une autre alternative consisterait à utiliser le modèle logistique
multinomial emboîté (Dellagi 2007).
91
8.3 Crédit scoring.
Dans le cadre d’une étude au sein de la Banque de Tunisie, la technique du crédit scoring a été
appliquée afin de résoudre le problème de recouvrement des crédits à la consommation.
Un échantillon de 150 clients de la banque à été utilisé et dix variables ont été observées. La
variable à expliquer étant dichotomique Y=1 s’il s’agit d’un bon client et Y=0 s’il s’agit d’un mauvais
client qui présente un risque de recouvrement. Les résultats de l’analyse discriminante sont les
suivants :
Test Results
Box's M 331,778
F Approx. 5,330
df1 55
df2 12578,196
Sig. ,000
Tests null hypothesis of equal
population covariance
matrices.
92
Summary of Canonical Discriminant Functions
Eigenvalues
Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
1 ,316a 100,0 100,0 ,590
a. First 1 canonical discriminant functions were used in the analysis.
Un seul modèle discriminant est construit puisqu’il correspond à deux groupes de clients.
Wilks' Lambda
Test of Wilks'
Function(s) Lambda Chi-square df Sig.
1 ,597 38,748 10 ,000
Le modèle construit est significatif mais peu efficace (corrélation canonique peu élevée :0.59 ,
Lambda de Wilks relativement élevée :0.316).
93
pourrait améliorer l’efficacité du modèle et par conséquent minimiser l’erreur réelle d’affectation
d’un client dans la mauvaise catégorie.
V. La Régression
Les chapitres précédents avaient pour objectif de synthétiser l’information contenue dans un
tableau de données sous toutes ses formes, soit graphiquement soit par la mise en place
d’indicateurs synthétiques. L’aspect descriptif a donc dominé les différentes techniques seul le
dernier chapitre avait donc un double aspect descriptif et décisionnel, cette prise de décision revient
à une affectation puisqu la variable dépendante est qualitative.
Les méthodes d’analyse explicative qui seront utilisées dans le cadre général : les variables à
expliquer sont de différentes échelles de mesure et les variables explicatives peuvent être à la fois
qualitative et quantitative sont :
1. La régression multiple
La régression linéaire multiple est la méthode explicative la plus connue et la plus utilisée. Cette
technique a pour objectif d’expliquer une variable quantitative à l’aide de p variables quantitatives
dont l’échelle de mesure peut être de proportion ou d’intervalle.
Soit Y la variable dépendante et Xj j=1,…p les p variables explicatives. La régression multiple consiste
donc à vérifier la relation linéaire donnée par :
Dans la quelle les coefficients β0 , β1 ,……βp sont des nombres réels théoriques et inconnus et є un
terme d’erreur de moyenne théorique nulle. Le critère choisi pour estimer les coefficients β0 , β1
,……βp est le même que qans le cas de la régression linéaire simple : en minimisant la somme des
carrées des erreurs entre la variable dépendante Y et la combinaison linéaire C= b0 +b1 X1 +b2 X2
+……..+bp Xp .
La démarche mathématique est la même que dans le cas d’une seule variable explicative mais les
formules (Saporta. 1990) font intervenir la notion de matrice inverse de la matrice des corrélations
des différentes variables explicatives. Cette matrice in verse n’existe que si les variables explicatives
sont deux à deux indépendants.
b0 1
b1 .
En posant : b = . et X la matrice dans les colonnes sont : 1= . , X1 ,…Xp .
. .
bp 1
On a C = Xb , donc b=(X’DX)-1X’DY.
1
Pour la métrique particulière D= I : b=(X’X)-1X’Y et C=X(X’X)-1X’Y.
n
94
Définition :
p
Pour tout i =1,….n e (i) = y (i) - [ b x (i) b
j1
j j 0 ].
La variance des résidus s2, la variance y2 de la variable expliquée Y et le coefficient de corrélation
multiple R vérifient :
s2 = (1-R2 ) y2
La variance résiduelle est estimée par l’estimateur sans biais s’2 , appelé aussi variance résiduelle
estimée :
Dans le menu on choisit dans « Analysis » la fonction « Regression » plus « Linear ». La variable R15
libellée QPFC (quote part sur fonds communs) est à expliquer par les facteurs : Commodités, Budget,
Endettement et la population de la commune. Nous voulons savoir à quels degrés ces variables
95
expliquent elles la part de chaque commune dans l’aide financière octroyée par les pouvoirs publics.
L’option « Statistics » permet d’avoir une analyse descriptive des variables explicatives, le coefficient
de régression, un diagnostic de la colinéarité, la matrice des covariances et les intervalles de
confiances,
On remarque que la quote part n’est pas corrélée à l’endettement des communes, elle est liée
essentiellement à la population et aux commodités. L’aide financière par conséquent semble être
faite d’une manière automatique sans prise en compte des spécificités des communes, d’où
l’importance de cette étude.
Correlations
QPFC Budget Commodités Endettement popu
Pearson QPFC 1,000 ,018 ,888 ,020 ,901
Correlation Budget ,018 1,000 ,003 ,003 -,098
Commodités ,888 ,003 1,000 ,000 ,914
Endettement ,020 ,003 ,000 1,000 -,136
popu ,901 -,098 ,914 -,136 1,000
Sig. (1-tailed) QPFC . ,402 ,000 ,391 ,000
Budget ,402 . ,484 ,485 ,091
Commodités ,000 ,484 . ,495 ,000
Endettement ,391 ,485 ,495 . ,033
popu ,000 ,091 ,000 ,033 .
96
Estimation des paramètres
La constante b0 est égale à la valeur du quote part si l’ensemble des variables explicatives est mis à
zéro.. Le budget (b1 =182 ?046) c’est l’effet linéaire des dépenses et des recettes des communes sur
la quote part sur fonds communs. Le signe de b1 est positif , donc si le budget de la commune
augmente d’une unité monétaire la quote part devait augmenter de 182 ,046, un signe négatif
correspondrait une diminution . De même la quote part augmente d’une façon proportionnelle par
rapport à la population de la commune. En effet une augmentation de la population d’une unité(un
millier d’habitants) la quote part augmenterait de 0.081.
L’importance des variables explicatives et la comparaison mutuelle dans le modèle est aussi étudiée
par l’utilisation des coefficients de régression standardisés (Beta) donnés dans le tableau suivant
soit :
SX j
j bj
SY
Avec bj , le coefficient de régression de la variable Xj .
SXj , l’écart type de la variable Xj .
SY , l’écart type de la variable à expliquer Y.
L’importance de chaque variable explicative Xj du modèle sera proportionnelle à l’importance du
coefficient βj . Nous remarquons donc l’importance de la population dans la détermination de la
quote part suivie de loin par les commodités.
Unstandardized Standardized
Coefficients Coefficients Collinearity Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 671,214 165,307 4,060 ,000
Budget 182,046 63,352 ,085 2,874 ,005 ,930 1,075
Commodités 554,637 162,909 ,260 3,405 ,001 ,140 7,161
Endettement 242,747 64,799 ,114 3,746 ,000 ,883 1,133
popu ,081 ,009 ,687 8,884 ,000 ,136 7,367
Qualité du modèle
Il s’agit de déterminer jusqu'à quel point le modèle reflète bien la capacité des variables
indépendantes retenues (Xj ) pour expliquer la variation de la variable dépendante Y. La qualité du
modèle sera évaluée à partir du coefficient de détermination R2 . Ce coefficient est calculée à partir
97
de la décomposition de la variance totale (SST) en la variance expliquée par le modèle 5SSR) et en la
variance résiduelle (SSE). C’est le pourcentage de la variation de la variance expliquée par la variation
de l’ensemble des variables explicatives (R2 =SSR/SST=7.237/8.483=0.853).
Une valeur de R2 suffisamment proche de 1 consistera à affirmer que le modèle est très bon, une
valeur inférieure à 0.5 nécessite en général l’introduction d’autres variables explicatives et à défaut
opter pour une autre modélisation.
Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
1 ,924a ,853 ,850 82983,04161
a. Predictors: (Constant), popu, Budget, Endettement,
Commodités
ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 7,237E12 4 1,809E12 262,738 ,000a
Residual 1,246E12 181 6,886E9
Total 8,483E12 185
a. Predictors: (Constant), popu, Budget, Endettement, Commodités
Dans la pratique , il se peut que l’on soit amené à choisir entre plusieurs modèles de régression de la
variable Y. Ces modèles peuvent différer par le nombre de variables explicatives ou par le nombre
d’observations. Afin de choisir le meilleur modèle il est préférable de se baser sur le coefficient de
détermination ajusté au nombre de variables explicatives et au nombre d’observations, soit :
n 1
R2 1 (1 R 2 )
n p 1
Le coefficient de détermination ajusté ne peut être utilisé que pour comparer plusieurs modèles de
régression..
98
La procédure décisionnelle est basée sur la statistique F0 = [R2 /p][1-R2/n-p-1] qui suit une loi de
Fisher aven p et n-p-1 degrés de liberté. On rejette l’hypothèse H0 si le Fisher calculé F0 est supérieur
au Fisher critique pour un risque d’erreur fixé d’avance ou si la signification est inférieur à ce qui
est le cas dans cette étude (ANOVA).
La procédure décisionnelle dans ce cas est basée sur la statistique t0 = bj –bj /s(bj ) qui suit une loi de
Student à (n-p-1) degrés de liberté. Le rejet de H0 est décidé si la signification est inférieur au risque
fixé , ce qui est encore le cas dans cette étude. Toutes les variables explicatives ont un effet linéaire
significatif sur la quote part sur fond commun (signification <0.1% ou encore les valeurs calculées ( t)
sont supérieurs à la valeur critique tcritique (ddl=n-p-1,=1%)=2 ,326).
2. La Régression Logistique.
E(Y/X=x) = p(Y=1/X=x)
Les valeurs p(Y=1/X=x) quand x varie suivant une courbe en S appélée sigmoïde ou courbe logistique.
On peut écrire Π(x) =p(Y=1/X=x) sous la forme :
e i i0
x
Π (x)
1 e 0 0 i
x
( x )
Soit : log( ) 0 1 x 1 ..... p x p
1 ( x )
99
La fonction f(p) = log(p/1-p) est appelée logit. Les p variables explicatives X1 , ….Xp sont continues ,
binaires ou qualitatives.
Si l’on doit modéliser des données [(x1 , Y1 ), (x2 , Y2 ), ….,(xn , Yn )] où Yi vaut 1 ou 0 et où xI est le
vecteur observations des variables explicatives à la ieme observation, la probabilité d’observer [(x1 , Y1
), (x2 , Y2 ), ….,(xn , Yn )] est la vraisemblance notée L(β0 , β1 ,…..βp ) soit :
n n
i 1 i 1
Le meilleur modèle sera celui qui maximise la vraisemblance et il s’agit de trouver les coefficients βi
maximisant L(β0 , β1 ,…..βp ).
a. La déviance.
L( max ) 2
D(βk ) = log[ ] 2[log( L( k ) log( L( max )]
L( k )
Avec :
- L(βmax ) est la vraisemblance du modèle saturé ( les différentes variables explicatives sont prises
en compte en plus des interactions).
Pour les variables explicatives données on cherche les coefficients qui maximisent la vraisemblance
L(βk ). Une fois ces coefficients trouvés, il faut savoir si l’on doit améliorer les modèles en lui ajoutant
l variables explicatives. On calcule pour cela la déviance différence :
D(βk )-D(βk+l ) = -2[ log L(βk )- log L(βk+l )] ≥0.
Cette différence des déviances suit une loi de χ2 (l). Soit alors le test statistique de l’hypothèse :
100
H0 : les l nouveaux coefficients sont nuls.
b. Critère de Wald.
Une valeur de wald >4 implique βj [-2 , 2], par conséquent l’intervalle de confiance ne contient
pas 0et celui de la valeur exp(βj ) ne contient pas 1.
c. Les Odds-Ratios.
L’Odds –ratios (odds = côte des parieurs) d’une variable explicative mesure l’évolution du rapport de
probabilité d’apparition de l’événement Y=1 contre Y=0.
( x 1) /(1 ( x 1))
OR exp( j )
( x ) /(1 ( x ))
Lorsque la variable quantitative Xj passe de xj à xj +1 dans ce cas la côte (x) /(1 (x)) est
p(Y 1 / X j 1) / p(Y 0 / X j 1)
OR exp( j )
p(Y 1 / X j 0) / p(Y 0 / X j 0)
2/n
L( 0 )
R 1
2
R 2max 1 [L( 0 )]2 / n
L( k )
101
e. Le test de Hosmer et Lemesshow manque parfois de puissance, il, est définit par :
- Les variables explicatives qui présentent l’avantage d’être de différentes échelles de mesure
doivent être linéairement indépendantes (absence de colinéarité).
- Elle donne des résultats plus intéressants que l’Analyse discriminante lorsque les conditions
d’optimalité de cette dernière ne sont pas satisfaites (multi normalités et homoscédasticités des
variables explicatives).
102
codage correspondent comme le montre le tableau suivant à des codes internes au logiciel
respectivement Y=0 pour le bon client et Y=1 pour le mauvais client.
Dans le choix des variables explicatives figurent des variables qualitatives ou catégorielles qu’il faut
spécifier en cliquant sur l’option « Categorical ». Dans ce cas la seule variable catégorielle
significative sélectionnée est la profession :
103
Classification Tablea,b
Predicted
nature Percentage
Observed 1 2 Correct
Step 0 nature 1 109 0 100,0
2 39 0 ,0
Overall Percentage 73,6
Le tableau précédent « Classification Table » donne la répartition des clients selon leurs nature.
Il existe à l’origine dans l’échantillon 139 bons clients et 39 clients à problèmes.
104
Variables not in the Equationa
Score df Sig.
Step 0 Variables impayé 64,127 1 ,000
crédits 6,750 1 ,009
montant 1,432 1 ,231
durée ,631 1 ,427
encours ,013 1 ,909
profession 11,299 2 ,004
profession(1) 4,566 1 ,033
profession(2) 2,119 1 ,046
a. Residual Chi-Squares are not computed because of redundancies.
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 112,300 7 ,000
Block 112,300 7 ,000
Mode 112,300 7 ,000
l
Model Summary
-2 Log Cox & Snell R Nagelkerke R
Step likelihood Square Square
1 58,403a ,532 ,777
a. Estimation terminated at iteration number 10
because parameter estimates changed by less than 001.
La qualité du modèle obtenu après dix itérations est représentée par un R2 ajusté égal 0.777.
Les variables : impayé, durée, encours et la profession sont les variables significatives dans le modèle.
Les trois premières sont quantitatives et la profession est qualitative.
L’interprétation en terme d’Odds ratios pour ces deux types de vaiables est la suivante : pour la
variable impayé par exemple , si les impayés augmentent de une unité monétaire la proportion des
mauvais clients correspondant à Y=1 est multiplié par exp(B)=1.008, nous remarquons que l’impact
n’est pas très important par contre pour la variable durée l’effet est plus important , ,le rapport est
égal à 1.322 et encor plus pour les encours.
Concernant la seule variable qualitative utilisée dans le modèle, l’analyse de cette variable se fait
toujours par rapport à une modalité de référence, dans notre cas c’est la dernière (libérale).
105
La modalité « public » est la plus significative. La proportion des mauvais clients (Y=1) dans les
professions publiques est multipliée par 0.493 par rapport aux professions libérales. Ils représentent
environ la moitié, le problème de recouvrement des dettes est doublement présent dans le secteur
libéral. Le secteur publique est moins risqué car les fluctuations des sodes bancaires sont beaucoup
moins importantes .
Classification Tablea
Predicted
nature Percentage
Observed 1 2 Correct
Step 1 nature 1 106 3 97,2
2 7 32 82,1
Overall Percentage 93,2
a. The cut value is ,500
Le modèle définitif retenu présente une erreur de classement égale 6.8%. 93.2¨% des clients de la
banque sont bien classés, l’affectation prévue coïncide avec l’affectation de la banque. La régression
logistique a permis donc d’améliorer la qualité du modèle du crédit scoring utilisé dans le cadre de
l’analyse factorielle discriminante dont l’erreur est de 20.8%. La prise en compte de variables
qualitatives à permis d’améliorer nettement l’erreur d’affectation.
106
3. L’Approche PLS
3.1 Introduction
La régression Pls permet de relier un bloc de variables Yj j=1,…q à expliquer à un bloc de variables
explicatives Xi i=1,…,p. Cette méthode a été proposée par Wold, Marteens&Wold(1983). Elle consiste
à réaliser deux objectifs : maximiser la variance expliquée des Xi (principe de l’ACP) et maximiser la
variance expliquée de Yj (principe de la régression). Pour cela, on cherche les combinaisons linéaires
th des Xi maximisant le carré de la covariance : cov2(ti, Y) = r2 (ti , Y). Var (ti ).var(Y).
L’intérêt de la régression PLS réside dans la présence d’un grand nombre de variables qui peut
dépasser largement le nombre d’observations, elle présente une solution efficace pour le problème
de la multi colinéarité et celui des données manquantes. L’algorithme de la régression PLS est rapide
puisqu’il s’agit d’une suite de régression simple sans inversion ni diagonalisation de matrices.
La méthode de la validation croisée est utilisée pour déterminer le nombre H de composantes qui
soit à la fois suffisamment grand pour expliquer l’essentiel de la variance des Xi et celle de Y. Il est
rare que H soit supérieur à 3 ou 4. On note plusieurs domaines d’application, pour l’analyse
sensorielle qui consiste à expliquer le classement d’un produit par plusieurs dégustateurs (variable Y)
en fonction de ses propriétés (jusqu’à plusieurs centaines). Elle est utilisée aussi dans les enquêtes de
satisfaction et elle est fortement appréciée en biologie.
Cette technique est disponible dans plusieurs logiciels dont : SAS/Stat, SPAD, SmartPLS, GRAPH-PLS,
SIMCA-P et SPSS.
Différentes méthodes dans ce cadre ont été développées par Tenenhaus (2006) utilisant le logiciel
SIMCA-P téléchargeable en mode démo, parmi ses méthodes on cite :
- Régression PLS.
- PLS Path Modeling (modélisation des relations structurelles sur variables latentes).
107
3.2 La régression PLS.
Dans le cas d’une variable à expliquer unique Y la régression PLS permet de modéliser la relation
entre cette variable à expliquer et un bloc de variables explicatives représenté par la matrice X dont
les colonnes sont les Xj . Cette méthode consiste à chercher dans un premier temps des composantes
orthogonales th , combinaison linéaire des variables Xj expliquant au mieux à la fois les Xj et Y. Les
équations de régressions PLS sont ensuite obtenues en régressant la variable Y sur les composantes
th , puis en exprimant cette régression en en fonction des Xj . Lorsqu’il n’a pas de données
manquantes, les composantes PLS th peuvent être obtenues comme solutions successives de
problèmes d’optimisation. L’algorithme NIPALS décrit dans Tenenhaus (1998) permet de prendre en
compte les données manquantes sans avoir à supprimer les individus correspondants.
Une présentation plus directe de la régression PLS univariée a été proposée par Jong(1993). Il montre
que les composantes th = Xwh* sont obtenues à une normalisation près en cherchant pour des valeurs
successives de l’indice h à maximiser la covariance : Cov(Y, Xwh* ) sous les contraintes :
Le critère s’écrit :
Pour h =1
Les coordonnées du vecteur w1* représentent les corrélations entre les variables Xj et Y et on a :
t1 = cor (Y, X )X
j
j j
~
Pour h>1 on calcule tout d’abord le résidu X 'h 1 de la régression de X’ sur les vecteurs X’t1 ,…,X’th-1
puis on obtient :
~ ~
Wh* = X h1 Y / II X h1 Y II
Y c1 t1 +….+ch th
Avec cl = y’tl /tl’ tl . Soit Ch =[c1 ,….,ch ], on obtient l’équation de la r »égression en fonction des Xj :
108
Notons par bh =Wh* Ch’ le vecteur de coefficients bj de la régression PLS. La formule de la régression
s’écrit alors :
p p h
Y b X ( w
j1
j j
j1 l 1
*
c )X j
jl l
Les coefficients bj représentent le produit scalaire entre la jème ligne de la matrice Wh* et le vecteur Ch
.
Le nombre de composantes t1 ,….,tH à retenir est déterminé par validation croisée pour chaque
valeur de h. On calcule les prédicteurs Ŷh etŶhi de Y à l’aide du modèle à h composantes , calculées
en utilisant toutes les observations ( Ŷh ) , puis sans utiliser l’observation i ( Ŷhi ) . On calcule ensuite
les critères :
n
RSSh (Residual sum of Squares) = (Y(i) Ŷ (i))
i 1
h
2
n
PRESSh (Predicted Residual sum of Squares) = (Y(i) Ŷ
i 1
hi (i)) 2
H
Pr ess h
Q2cum = 1 - Re ss
h 1
qui est peu différent de :
h 1
Pr ess H
R2vc =1 - p n
(x
j1 i 1
ji X j )2
3.2.3. Application.
Dans l’étude de la gestion financière des communes (2.7.4) on s’intéresse à l’explication de la quotte
part du fond commun et en d’autres termes à l’aide financière octroyée par les pouvoirs publics aux
différentes communes du pays. L’utilisation de la régression linéaire a montré que cette variable
109
dépend essentiellement de la population de la commune et ne prend pas en compte les
caractéristiques financières et comptables.
Nous avons enregistré dans le cas de la régression linéaire de fortes corrélations entre les variables
explicatives, l’application de la régression PLS s’avère donc nécessaire. Nous avons supprimé les
ratios R15 et R16 qui désignent la quote part par rapport à la population et par rapport aux recettes
de la commune. Les résultats obtenus à partir du logiciel SIMCA-P sont les suivants :
Une seule composante (h=1) est retenue pour l’explication de la variable quotte part du fond
commun (QPFC) donnant ainsi les valeurs : Q2cum =0.684 et R2vc =0.817.
La demande d’une composante supplémentaire dans l’espoir d’améliorer encore les résultats et peut
faire apparaître les ratios financiers dans l’explication de la quotte part aboutit au contraire à la
diminution de la valeur Q2cum soit : 0.666 comme le montre le graphique suivant :
110
Les coefficients w*c pour les deux premières composantes sont données dans le graphique suivant
permettant d’avoir une idée sur les caractéristiques des composantes.
En effet on remarque que la quote part est liée essentiellement aux variables nombre d’employés
dans la commune (etot), la superficie de la commune (supr), le nombre d’unités de nettoyage (unet),
le nombre d’unités scolaire ( scol) ainsi que le ratio R9 (TIB/population) et le nombre de logement.
Un indicateur de l’importance des variables explicatives dans le modèle retenu est notée par VIP et
donné par :
111
Soit la composante PLS th = Xw*h le vecteur w*h étant normé, l’importance de la variable Xj j=1,…p
pour la prédiction de Y dans un modèle à H composantes.
H
p
VIPHj = H cor 2
(Y, t h ) w *hj2 avec : VIP Hj =1.
cor
h 1
2
( Y, t h ) h 1
Une variable Xj est importante pour la prédiction si VIP > 0.8. Le graphique suivant permet de
visualiser les variables les plus importantes par ordre décroissant ainsi que l’intervalle de
fluctuations. On confirme donc le rôle des variables citées précédemment dans cette prédiction que
ce soit pour la première ou la deuxième composantes, nous remarquons qu’il n’existe pas de
différences entre les deux composantes quant à l’importance des variables explicatives.
112
Intervalles de confiances Jack-knife des coefficients de la régression PLS
113
Des listes des différents coefficients et paramètres peuvent être obtenus par ce logiciel. Il ressort
donc de cette analyse que seules les variables relatives à la population de la commune jouent un rôle
significatif dans la prédiction de la quotte part du fond commun. L’endettement, les dépenses et
plus généralement la gestion financière doit être prise en compte afin d’aider au mieux les
différentes communes.
114