Você está na página 1de 19

Analyse des données

L’analyse des données est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles
et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est
appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les
relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus
succincte les principales informations contenues dans ces données. D'autres techniques permettent de regrouper les données de façon
à faire apparaître clairement ce qui les rendhomogènes, et ainsi mieux les connaître.

L’analyse des données permet de traiter un nombre très important de données et de dégager les aspects les plus intéressants de la
structure de celles-ci. Le succès de cette discipline dans les dernières années est dû, dans une large mesure, aux représentations
graphiques fournies. Ces graphiques peuvent mettre en évidence des relations difficilement saisies par l’analyse directe des données ;
mais surtout, ces représentations ne sont pas liées à une opinion « a priori » sur les lois des phénomènes analysés contrairement aux
méthodes de la statistique classique.

e
Les fondements mathématiques de l’analyse des données ont commencé à se développer au début du XX siècle, mais ce sont les
ordinateurs qui ont rendu cette discipline opérationnelle, et qui en ont permis une utilisation très étendue. Mathématiques et
informatique sont ici intimement liées.

fig.18 - Cartographie spectrale des Iris deFisher qui ont donné lieu à de nombreuses études
en analyse des données.
Sommaire
Définition
Histoire
Domaines d'application
Analyse par réduction des dimensions
Analyse en composantes principales
Analyse factorielle des correspondances
Analyse des correspondances multiples
Analyse canonique
Positionnement multidimensionnel
Analyse Factorielle Multiple
Exemples d’application
Intérêt
Autres méthodes
Analyse par classification
Classification automatique
Classification « à plat »
Classification hiérarchique
Analyse factorielle discriminante
Analyse des données et régressions
Approche PLS
Régressions
Logiciels
Notes et références
Notes
Références
Ouvrages spécialisés
Articles publiés sur internet

Voir aussi
Bibliographie
Articles connexes
Liens externes

Définition
Dans l'acception française, la terminologie « analyse des données » désigne un sous-ensemble de ce qui est appelé plus généralement
la statistique multivariée. L'analyse des données est un ensemble de techniques descriptives, dont l'outil mathématique majeur est
b 1, i 1
l'algèbre matricielle, et qui s'exprime sans supposer a priori un modèle probabiliste .

Elle comprend l’analyse en composantes principales (ACP), employée pour des données quantitatives, et ses méthodes dérivées :
l'analyse factorielle des correspondances(AFC) utilisée sur des données qualitatives (tableau d’association) etanalyse
l' factorielle des
correspondances multiples(AFCM ou ACM) généralisant la précédente. L'analyse canonique et l'analyse canonique généralisée, qui
b 2, b 3
sont plus des cadres théoriques que des méthodes aisément applicables , étendent plusieurs de ces méthodes et vont au-delà des
b4
techniques de description . L'Analyse Factorielle Multiple est adaptée aux tableaux dans lesquels les variables sont structurées en
groupes et peuvent être quantitative et/ou qualitatives. La classification automatique, l’analyse factorielle discriminante (AFD) ou
analyse discriminante permettent d’identifier des groupes homogènes au sein de la population du point de vue des variables étudiées.
En marge de l'analyse des données, l'analyse en composantes indépendantes (ACI), plus récente, issue de la physique du signal et
connue initialement comme méthode de séparation aveugle de source, est plus proche intuitivement des méthodes de classification
non supervisée. L'iconographie des corrélations pour des données qualitatives et quantitatives, organise les corrélations entre
variables sous la forme de graphes. L'analyse inter-batterie de Tucker est intermédiaire entre l'analyse canonique et l'analyse en
b5
composantes principales , l'analyse des redondances appelée aussi analyse en composantes principales sur variables instrumentales
se rapproche de la régression puisque les variables d'un des groupes analysés sont considérées comme dépendantes, les autres comme
b6
indépendantes, et que la fonction à maximiser est une somme de coef
ficients de corrélation entre les deux groupes .

En dehors de l'école française, l'analyse des données multivariée est complétée par la méthode de poursuite de projection de John
Tukey, et les méthodes de quantification de Chikio Hayashi, dont la quantification de type III est analogue à l'analyse de
b7
correspondances . L'analyse factorielle anglo-saxonne, ou « Factor Analysis », est proche de l'analyse en composantes principales,
note 1, i 2, i 3 note 2
sans être équivalente, car elle utilise les techniques derégression pour découvrir les « variables latentes » .

Ces procédés permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille, à
l'aide de l'estimation des corrélations entre les variables que l’on étudie. L'outil statistique utilisé est la matrice des corrélations ou la
matrice de variance-covariance.

Histoire
Les pères de l’analyse des données modernes sont Jean-Paul Benzécri, Louis Guttman, Chikio Hayashi (concepteur des méthodes
i 4, i 1
dénommées « Data Sciences »), Douglas Carroll et R.N. Shepard .

Mais bien avant leur temps, les techniques de base de l'analyse des données sont déjà connues. Les tableaux de contingences, par
exemple, sont présents tôt dans l'histoire : l'invincible armada est décrite, par Paz Salas et Alvarez dans un livre publié en 1588, sous
la forme d'un tableau où les lignes représentent les flottes de navires et les colonnes les caractéristiques telles que le tonnage, le
nombre de gens d'armes, etc. Nicolas de Lamoignon de Basville, intendant du roi Louis XIV, compte et caractérise les couvents et le
i5
monastères de la région duLanguedoc en 1696 .

La classification trouve son maître, entre 1735 et 1758, en la personne de Carl von Linné qui met en place à cette époque les
b8
fondements de la nomenclature binomiale et la taxinomie moderne . Robert R. Sokal et Peter H.A. Sneath présentent en 1963 des
b9
méthodes quantitatives appliquées à lataxinomie .

e i 6
Les notions requises pour une analyse des données modernes commencent à être maitrisées au début du XIX siècle . Adolphe
Quetelet, astronome, statisticien belge, exploite ce qu'il connait de la loi gaussienne à l'anthropométrie pour examiner la dispersion
autour de la moyenne (la variance) des mesures des tailles d'un groupe d'hommes. Puis, Francis Galton, parce qu'il veut étudier la
taille des pères et des fils, s'intéresse à la variation conjointe (la covariance et la corrélation) de deux grandeurs, qui est à l'origine de
ce qu'on appelle aujourd'hui la régression. Quand Karl Pearson et Raphael Weldon s'emparent des travaux de Francis Galton, ils
peuvent généraliser la régression de Galton aux données multidimensionnelles, puis Karl Pearson a l'idée de changer les axes de
présentation pour les exprimer en fonction de variables indépendantes en 1901, établissant ainsi les prémisses de l’analyse en
composantes principales. Celle-ci est développée en 1933 parHarold Hotelling qui définit en 1936 l'Analyse canonique.

Marion Richardson et Frederic Kuder en 1933, cherchant à améliorer la qualité des vendeurs de « Procter & Gamble », utilisent ce
i 7
qu'on appelle maintenant l'algorithme (« Reciprocal averaging »), bien connu en ACP . Herman Otto Hirschfeld, dans sa
i8
publication « A connection between correlation and contingency », découvre les équations de l'analyse des correspondances .

C'est la psychométrie qui développe le plus l'analyse des données. QuandAlfred Binet définit ses tests psychométriques pour mesurer
l'intelligence chez l'enfant, Charles Spearman s'en accapare pour définir, en 1904, sa théorie des facteurs général et spécifique qui
i 9
mesurent l'aptitude générale et l'aptitude particulière à une activité, nécessaires pour mener à bien cette activité . Louis Leon
Thurstone met au point sous forme matricielle les équations induites par la théorie des facteurs, en 1931, et la complète par l'étude du
i 10
terme d'erreur . Il introduit aussi la notion d'axes principaux d'inertie. En 1933, Harold Hotelling propose l'utilisation de l'itération
i9
pour la diagonalisation des matrices et la recherche des vecteurs propres .
Jean-Paul Benzécri etBrigitte Escofier-Cordier proposent l'Analyse factorielle des correspondances en 1962-65, mais en 1954 Chikio
i4
Hayashi a déjà établi les fondations de cette méthode sous le nom Quantification de type III.
i7
L'analyse des correspondances multiples est initiée par Louis Guttman en 1941, Cyril Burt en 1950 et à Chikio Hayashi en 1956 .
i 7, i 11
Cette technique est développée au Japon en 1952 par Shizuhiko Nishisato sous la dénomination « Dual Scaling » et aux Pays-
i 12 i7
Bas en 1990 sous le nom de« Homogeneity analysis » par le collectif Albert Gifi .

L'avènement de l'ordinateur, et surtout du micro-ordinateur, est un saut technologique qui rend possible les calculs complexes, les
diagonalisations, les recherches de valeurs propres sur de grands tableaux de données, avec des délais d'obtention de résultats très
i 9, i 1
courts par rapport à ce qui est fait dans le passé .

Domaines d'application
L'analyse des données est utilisée dans tous les domaines dès lors que les données se présentent en trop grand nombre pour être
appréhendées par l'esprit humain.

En sciences humaines, cette technique est utilisée pour cerner les résultats des enquêtes d'opinion par exemple avec l'Analyse des
b 10 b 11
correspondances multiples ou l'Analyse factorielle des correspondances . La sociologie compte beaucoup sur l'analyse des
données pour comprendre la vie et le développement de certaines populations comme celles du Liban dont l'évolution est montrée par
deux études faites en 1960 et 1970, présentées par Jean-Paul Benzécri, et dont la structure du niveau de vie et de son amélioration
b 12
sont décortiquées à l'aide de l'analyse en composantes principales . L'analyse des correspondances multiples est souvent utilisée en
sociologie pour analyser les réponses à un questionnaire. Les sociologues Christian Baudelot et Michel Gollac utilisent une analyse
i 13
des correspondances multiples pour étudier le rapport des Français à leur travail . S'inspirant de Pierre Bourdieu pour étudier un
b 13
« champ » spécifique, le sociologue Frédéric Lebaron emploie une ACM pour analyser le champ des économistes français et
i 14
Hjellbrekke et ses coauteurs appliquent la même méthode pour analyser le champ des élites norvégiennes . De même, François
i 15
Denord et ses coauteurs utilisent une ACM pour analyser le champ du pouvoir en France à partir du Who's Who . Toujours dans
les travaux qui s'inspirent de Pierre Bourdieu, on peut aussi prendre comme exemple l'analyse du champ du cinéma français par
i 16
Julien Duval . Les linguistes utilisent l'analyse de texte et les techniques d'analyse des données pour situer un député sur l'échiquier
b 14
politique en examinant la fréquence d'usage de certains mots . Brigitte Escofier-Cordier a étudié quelques éléments du vocabulaire
employé dans la pièce de Racine, Phèdre, pour montrer comment l'auteur se sert des mots pour ancrer ses personnages dans la
i 17
hiérarchie sociale . En économie, les bilans des entreprises ont été étudiés par C. Desroussilles pour décrire la structure et la taille
i 18
de ces organismes à l'aide de la classification ascendante et de l'analyse des correspondances . La structure de la consommation des
b 15
ménages dans la CEE, est présentée par Jean-Paul Benzécri et al. sur les deux axes d'une analyse des correspondances et une
première étape dans l'établissement d'une nomenclature des activités économiques dans l'industrie montre l'utilité d'une analyse des
b 16
correspondances et de la classification hiérarchique dans ce type d'opération .

Dans le domaine des sciences et techniques, certains chercheurs adoptent ces méthodes statistiques pour déchiffrer plusieurs
b 17
caractéristiques du génome . D'autres se servent de l'analyse des données pour mettre en place un processus nécessaire à la
i 19
reconnaissance des visages . En épidémiologie, l'Inserm met à disposition ses données qu'ont exploitées Husson et al. via l'Analyse
b 18
factorielle des correspondances pour décrire les tranches d'âges en France en fonction de leurs causes de mortalité . Jean-Paul
b 19
Benzécri donne aussi des exemples de l'usage de l'analyse des correspondances dans le cadre de l'apprentissage , de
b 20 b 21
l'hydrologie , de la biochimie . Un exemple dans les sciences de l'environnementest celui de l'étude des traces de métaux dans
le blé en fonction des sols cultivés, qui utilise l'analyse des corrélations canoniques considérée habituellement comme un outil plutôt
i 20
théorique . L'Observatoire des Maladies du Bois de la Vigne a cherché, dans la première décennie de ce siècle, à mesurer
l'évolution de trois maladies de la vigne en pratiquant, entre autres méthodes, l'analyse des correspondances multiples et l'analyse en
i 21
composantes principales dans un projet d'épidémiologie végétale .

Le domaine du sport est très friand de statistiques : un médecin du sport s'interroge sur l'âge des pratiquants, leurs motivations et le
i 22
sport qu'ils pratiquent . Dans une autre étude le sport s'intéresse aux motivations des sportifs lesquelles vont de l’amitié et la
b 22
camaraderie à l'affirmation de soi représentées sur un axe, et de la nature et la beauté à la combativité sur un second axe . Le

i 23
i 23
sociologue cherche à savoir si la sociabilité des adeptes d'un sport est influencée par sa pratique , la biométrie humaine caractérise
i 24
la morphologie du sportif selon le sport qu'il pratique, et dans le cas desports collectifs le poste qu'il occupe dans l'équipe , etc.
i 25
La microfinance s'est aussi emparée de l'analyse des données pour évaluer les risques et définir les populations emprunteuses .
i 26
L'industrie de l'assurance se sert de l'analyse des données pour la connaissance des risques et la tarification à priori .

Analyse par réduction des dimensions


La représentation des données multidimensionnelles dans un espace à dimension réduite est le domaine des analyses factorielles,
b 23
analyse factorielle des correspondances, analyse en composantes principales, analyse des correspondances multiples . Ces
méthodes permettent de représenter le nuage de points à analyser dans un plan ou dans un espace à trois dimensions, sans trop de
i 27
perte d'information, et sans hypothèse statistique préalable . En mathématiques, elles exploitent le calcul matriciel et l'analyse des
vecteurs et des valeurs propres.

Analyse en composantes principales


L'analyse en composantes
principales est utilisée pour réduire
p variables corrélées en un nombre
q de variables non corrélées de
telles manières que les q variables
soient des combinaisons linéaires
des p variables initiales, que leur
variance soit maximale et que les
nouvelles variables soient
fig.01 - ACP : contribution des
orthogonales entre elles suivant une
individus aux deux premières i 29, i 30, i 31
distance particulière . En
composantes principales d'après une fig.02 - ACP : contribution des
présentation effectuée par FG ACP, les variables sont
variables aux deux premières
Carpentier sur sa page «Analyse en quantitatives.
composantes principales d'après une
composantes principales avec présentation effectuée par FG
i 28
R» à l'aide du logiciel R sur les Les composantes, les nouvelles
Carpentier sur sa page «Analyse en
données Budgets-Temps de l'ONU, variables, définissent un sous- composantes principales avec
étude effectuée en 1967 espace à q dimensions sur lequel R»
i 28
à l'aide du logiciel R sur les
sont projetés les individus avec un données Budgets-Temps de l'ONU,
minimum de pertes d'information. étude effectuée en 1967
Dans cet espace le nuage de points est plus facilement représentable et l'analyse est
b 24
plus aisée . En analyse des correspondances, la représentation des individus et
des variables ne se fait pas dans le même espace.

La mesure de la qualité de représentation des données peut être effectuée à l'aide du calcul de la contribution de l'inertie de chaque
composante à l'inertie totale. Dans l'exemple donné sur les deux images ci-contre, la première composante participe à hauteur de
45,89 % à l'inerte totale, la seconde à 21,2 %.

Plus les variables sont proches des composantes et plus elles sont corrélées avec elles. L'analyste se sert de cette propriété pour
b 25
l'interprétation des axes . Dans l'exemple de la fig.01 les deux composantes principales représentent l'activité majeure et l'activité
secondaire la plus fréquente dans lesquelles les Femmes (F) et les Hommes (H) mariés (M) ou célibataires (C) aux Usa (U) ou en
Europe de l'Ouest (W) partagent leur journée. Sur la fig.02 est illustré le cercle des corrélations où les variables sont représentées en
fonction de leur projection sur le plan des deux premières composantes. Plus les variables sont bien représentées et plus elles sont
b 26
proches du cercle. Le cosinus de l'angle formé par deux variables est égal au coef
ficient de corrélation entre ces deux variables .
De même, plus l'angle engendré par l'individu et l'axe de la composante est petit et mieux l'individu est représenté. Si deux individus,
bien représentés par un axe, sont proches, ils sont proches dans leur espace. Si deux individus sont éloignés en projection, ils sont
i 29
éloignés dans leur espace .

Analyse factorielle des correspondances


Le but de l'AFC - définie par Jean-
Paul Benzécri et ses équipes - est de
trouver des liens ou
correspondances entre deux
variables qualitatives (nominales).
Cette technique traite les tableaux
de contingence de ces deux
variables. En fait, une AFC est une
ACP sur ces tableaux dérivés du
tableau initial munis de la métrique
note 3, note 4, b 28
du . Le principe
fig.03 - Analyse factorielle des de l'AFC est identique à celui de fig.04 - Analyse factorielle des
correspondances (plan factoriel F1- l'ACP. Les axes explicatifs qui correspondances (plan factoriel F2-
F2) des données des élections F3) des données des élections
sous-tendent le tableau de
régionales de 2004 en Île-de-France régionales de 2004 en Île-de-France
fréquences de deux variables
(ref F.G. Carpentier - Université de - (ref F.G. Carpentier - Université de
i 32 qualitatives sont recherchés et i 32
Brest - France ) Brest - France )
présentés dans un graphique.

Il y a au moins deux différences entre une ACP et une AFC : la première est qu'on peut représenter les individus et les variables dans
b 29
un même graphique, la seconde concerne la similarité . Deux points-lignes sont proches dans la représentation graphique, si les
profils-colonnes sont similaires. Par exemple sur le graphique de la fig.03, Paris et les Yvelines ont voté d'une manière similaire, ce
qui n'est pas évident quand on regarde le tableau de contingence initial puisque le nombre de votants est assez différent dans les deux
départements. De même, deux points-colonnes (dans l'exemple des figures 03 et 04 les points colonnes sont les candidats) sont
proches graphiquement si les profils-lignes sont similaires. Dans l'exemple (fig.04), les départements ont voté pour Bayrou et Le Pen
note 5, i 33
de la même manière. Les points-lignes et les points-colonnes ne peuvent pas être comparés d'une manière simple .

En ce qui concerne l'interprétation des facteurs, Jean-Paul Benzécri est très clair :

« ..interpréter un axe, c'est trouver ce qu'il y a d'analogue d'une part entre tout ce qui est écrit à droite de l'origine,
d'autre part entre tout ce qui s'écarte à gauche ; et exprimer, avec concision et exactitude, l'opposition entre les
deux extrêmes.....Souvent l'interprétation d'un facteur s'affine par la considération de ceux qui viennent après
lui. »
b 30
— Jean-Paul Benzécri,L'analyse des données : 2 l'analyse des correspondances
La qualité de la représentation graphique peut être évaluée globalement par la part du expliquée par chaque axe (mesure de la
qualité globale), par l'inertie d'un point projetée sur un axe divisé par l'inertie totale du point (mesure de la qualité pour chaque
modalité), la contribution d'un axe à l'inertie totale ou le rapport entre l'inertie d'un nuage (profils_lignes ou profils_colonnes) projeté
b 31
sur un axe par l'inertie totale du même nuage .

Analyse des correspondances multiples


b 33, note 6
L'Analyse des Correspondances Multiples (ACM) est une extension de l'AFC .
L'ACM se propose d'analyser p (p ≥
2) variables qualitatives
d'observations sur n individus.
Comme il s'agit d'une analyse
factorielle elle aboutit à la
représentation des données dans un
espace à dimensions réduites
engendré par les facteurs. L'ACM
est l'équivalent de l'ACP pour les

fig.05 - Analyse des variables qualitatives et elle se


correspondances Multiples : réduit à l'AFC lorsque le nombre de
fig.06 - Analyse des
contributions des modalités aux deux variables qualitatives est égal à
b 34 correspondances Multiples :
premiers axes (plan factoriel F1-F2) 2 .
contributions des individus aux deux
des données d'une enquêtes sur les
premiers axes (plan factoriel F1-F2)
ogm effectuée en 2008 par Formellement, une ACM est une
des données d'une enquêtes sur les
Agrocampus - Université de Rennes AFC appliquée sur le tableau
ogm effectuée en 2008 par
- France auprès de 135 personnes -
b 32 disjonctif complet, ou bien une Agrocampus - Université de Rennes
(voir F.Husson et al. )
AFC appliquée sur le tableau de - France auprès de 135 personnes -
b 32
Burt, ces deux tableaux étant issus (voir F.Husson et al. )
du tableau initial. Un tableau disjonctif complet est un tableau où les variables sont
remplacées par leurs modalités et les éléments par 1 si la modalité est remplie 0
sinon pour chaque individu. Un tableau de Burt est le tableau de contingence des p variables prises deux à deux.

L'interprétation se fait au niveau des modalités dont les proximités sont examinées. Les valeurs propres ne servent qu'à déterminer le
nombre d'axes soit par la méthode du coude soit en ne prenant que les valeurs propres supérieures à. La contribution de l'inertie des
b 35, note 7, i 34
modalités à celle des différents axes est analyséecomme en AFC .

L'utilisation de variables supplémentaires, variables qui ne participent pas à la constitution des axes ni au calcul des valeurs propres,
peut aider à interpréter les axes.

La qualité de la représentation d'un individu sur un axe factoriel est mesurée par où est l'angle formé par la projection du
vecteur individu sur l'espace factoriel avec l'axe factoriel. Plus la valeur de est proche de 1 plus la qualité est bonne.

Analyse canonique
b 36
L'analyse canonique permet de comparer deux groupes de variables quantitatives appliqués tous deux sur les mêmes individus. Le
but de l'analyse canonique est de comparer ces deux groupes de variables pour savoir s'ils décrivent un même phénomène, auquel cas
l'analyste pourra se passer d'un des deux groupes de variables.
b 37
Un exemple parlant est celui des analyses médicales effectuées sur les mêmes échantillons par deux laboratoires différents .
L'analyse canonique généralise des méthodes aussi diverses que la régression linéaire, l'analyse discriminante et l'analyse factorielle
b 37
des correspondances .

Plus formellement, si et sont deux groupes de variables, l'analyse canonique cherche des couples de vecteurs ,
combinaisons linéaires des variables de et respectivement, le plus corrélées possibles. Ces variables sont dénommées
variables canoniques. Dans l'espace ce sont les vecteurs propres des projections et respectivement sur les sous espace de et
, où p et q représentent le nombre de variables des deux groupes, engendrés par les deux ensembles de variables.
mesure la corrélation entre les deux groupes. Plus cette mesure est élevée, plus les deux groupes de variables sont corrélés et plus ils
expriment le même phénomène sur les individus.
Dans l'illustration de la fig.08, les
corrélations entre les variables à
l'intérieur des deux groupes sont
représentées par les
corrélogrammes du haut, la
corrélation entre les deux groupes
est expliquée au-dessous. Si la
couleur dominante était vert clair
aucune corrélation n'aurait été
détectée. Sur la fig.07, les deux
groupes de variables sont
fig.07 - Analyse Canonique des rassemblés dans le cercle des fig.08 - Analyse Canonique des
Correlations : représentation des corrélations rapportés aux deux Correlations : matrices des
variables et des individus dans le premières variables canoniques. corrélations sur les données
plan des deux premières variables nutrimouse du package CCA de R
canoniques sur les données Enfin l'analyse canonique d'après l'article d'Ignacio et al. dans
nutrimouse du package CCA de R généralisée au sens de Caroll « Journal of Statistical Software
d'après l'article d'Ignacio et al. dans (volume 23, issue 12, January
(d'après J.D.Caroll) étend l'analyse i 35
« Journal of Statistical Software 2008) »
canonique ordinaire à l'étude de p
(volume 23, issue 12, January
i 35 groupes de variables (p > 2)
2008) »
appliquées sur le même espace des individus. Elle admet comme cas particuliers
l'ACP, l'AFC et l'ACM, l'analyse canonique simple, mais aussi la régression simple,
i 36
et multiple, l'analyse de la variance, l'analyse de la covarianceet l'analyse discriminante .

Positionnement multidimensionnel
Pour utiliser cette technique les
tableaux ne doivent pas être des
variables caractéristiques
d'individus mais des « distances »
entre les individus. L'analyste
souhaite étudier les similarités et les
dissimilarités entre ces individus.

Le positionnement
multidimensionnel
(« multidimensional scaling » ou
fig.09 - MDS métrique (analyse en MDS) est donc une méthode fig.10 - MDS non métrique (analyse
positionnement multidimensionnel) factorielle applicable sur des en positionnement
de quelques villes mondiales via une matrices de distances entre multidimensionnel) de quelques villes
matrice des distances inter-villes, i 37 mondiales classées par ordre des
individus . Cette méthode ne fait
avec l'aide du guide disponible sur distances (1 la plus petite distance,
pas partie de ce qu'on nomme
Quick-R 21 la plus grande distance) avec
habituellement l'analyse des
l'aide du guide disponible sur Quick-
données « à la française ». Mais R
elle a les mêmes caractéristiques que les méthodes précédentes : elle est fondée sur
le calcul matriciel et ne demande pas d'hypothèse probabiliste. Les données peuvent
être des mesures de p variables quantitatives sur n individus, et dans ce cas l'analyste calcule la matrice des distances ou bien
directement un tableau des distances entre individus.
Dans le cas classique dit métrique, la mesure des dissimilarités utilisée est une distance euclidienne. Elle permet d'approximer les
dissimilarités entre individus dans l'espace de dimension réduite. Dans le cas non métrique les données sont ordinales, de type rang.
L'analyste s'intéresse plus à l'ordre des dissimilarités plutôt qu'à leur étendue. La MDS non métrique utilise un indice de dissimilarité
(équivalent à une distance mais sans l'inégalité triangulaire) et permet l'approximation de l'ordre des entrées dans la matrice des
i 37
dissimilarités par l'ordre des distances dans l'espace de dimension réduite .

Comme en ACP, il faut déterminer le nombre de dimensions de l'espace cible, et la qualité de la représentation, est mesurée par le
i 37
rapport de la somme de l'inertie du sous-espace de dimension réduite sur l'inertie totale . En fait, MDS métrique est équivalent à
i 38
une ACP où les objets de l'analyse MDS serait les individus de l'ACP . Dans l'exemple ci-contre, les villes seraient les individus de
l'ACP et le positionnement GPS remplacerait les distances inter-villes. Mais l'Analyse MDS prolonge l'ACP, puisqu'elle peut utiliser
des fonctions de similarité/dissimilarité moins contraignantes que les distances.

Avec le positionnement multidimensionnel, visualiser les matrices de dissimilarités, analyser des benchmarks et effectuer
visuellement des partitionnements dans des matrices de données ou de dissimilarités sont des opérations aisées àfectuer.
ef

Analyse Factorielle Multiple


L’analyse factorielle multiple (AFM) est dédiée aux tableaux dans lesquels un ensemble d’individus est décrit par plusieurs groupes
de variables, que ces variables soient quantitatives, qualitatives ou mixtes. Cette méthode est moins connue que les précédentes mais
note 8
son très grand potentiel d’application justifie une mention particulière .

Exemples d’application

Dans les enquêtes d’opinion, les questionnaires sont toujours structurés en thèmes. On peut vouloir analyser
plusieurs thèmes simultanément.
Pour une catégorie de produits alimentaires, on dispose, sur différents aspects des produits, de notes données
par des experts et de notes données par des consommateurs. On peut vouloir analyser simultanément les
données des experts et les données des consommateurs.
Pour un ensemble de milieux naturels, on dispose de données biologiques (abondance d’un certain nombre
d’espèces) et de données environnementales (caractéristiques du sol, du relief, etc.). On peut vouloir analyser
simultanément ces deux types de données.
Pour un ensemble de magasins, on dispose du chif fre d’affaires par produit à différentes dates. Chaque date
constitue un groupe de variables. On peut vouloir étudier ces dates simultanément.

Intérêt

Dans tous ces exemples, il est utile de prendre en compte, dans l’analyse elle-même et non seulement lors de l’interprétation, la
structure des variables en groupes. C’est ce que fait l’AFM qui :

pondère les variables de façon à équilibrer l’influence des dif


férents groupes, ce qui est particulièrement précieux
lorsque l’on est en présence de groupes quantitatifs et de groupes qualitatifs ;
fournit des résultats classiques des analyses factorielle : représentation des individus, des variables quantitatives
et des modalités des variables qualitatives ;
fournit des résultats spécifiques de la structure en groupe : représentation des groupes eux-mêmes (un point = un
groupe), des individus vus par chacun des groupes (un individu = autant de points que de groupes), des facteurs
des analyses séparées des groupes (ACP ou ACM selon la nature des groupes).

Autres méthodes
Ces méthodes, mises au point plus récemment, sont moins bien connues que les précédentes.
i 39
L'Analyse Factorielle Multiple Hiérarchique «( Hierarchical Multiple Factorial Analysis») prend en compte une
hiérarchie sur les variables variables et non seulement une partition comme le fait l'AFM
L'Analyse Procustéenne Généralisée(« Generalized Procustean Analysis») juxtapose au mieux plusieurs
i 40
représentations d'un même nuage de points .
L'Analyse Factorielle Multiple Duale «( Dual Multiple Factor Analysis») prend en compte une partition des
individus.
i 41
L'Analyse Factorielle de Données Mixtes(« Factor Analysis of Mixed Data») est adaptée aux tableaux dans
lesquels figurent à la fois des variables quantitatives et qualitatives.
i 42
L'iconographie des corrélations représente les
corrélations entre variables (qualitatives et
quantitatives) ainsi que les individus
« remarquables ». Cette méthode non supervisée
se prête bien à la restitution d’une organisation,
qu’elle soit arborescente ou bouclée, hiérarchique
ou non. Quelle que soit la dimension des données,
variables et individus remarquables sont à la
surface d'une sphère ; il n'est donc pas besoin
d'interpréter des axes. Plus que sur la position des
points, l'interprétation repose essentiellement sur
l'organisation des liens.
L'ACI décompose une variable multivariée en
composantes linéairement et statistiquement
i 43, note 9
indépendantes .
L'algorithme t-SNE permet la visualisation des
données dans un espace de deux ou trois
dimensions en rendant compte des proximités
locales.
Iconographie des corrélations entre les variables des
planètes. Traits pleins : corrélations positives
Analyse par classification "remarquables". Traits pointillés : corrélationsnégatives
"remarquables".
La classification des individus est le domaine de la classification
automatique et de l'analyse discriminante. Classifier consiste à
b 38
définir des classes, classer est l'opération permettant de mettre un objet dans une classe définie au préalable . La classification
automatique est ce qu'on appelle en exploration de données(« data mining ») la classification non supervisée, l'analyse discriminante
b 38
fait partie des techniques statistiques connues en exploration de données sous le nom de classification supervisée .

Classification automatique
Le but de la classification automatique est de découper l'ensemble des données étudiées en un ou plusieurs sous-ensembles nommés
classes, chaque sous-ensemble devant être le plus homogène possible. Les membres d'une classe ressemblent plus aux autres
membres de la même classe qu'aux membres d'une autre classe. Deux types de classification peuvent être relevés : d'une part la
classification (partitionnement ou recouvrement) « à plat » et d'autre part le partitionnement hiérarchique. Dans les deux cas,
classifier revient à choisir une mesure de la similarité/dissimilarité, un critère d'homogénéité, un algorithme, et parfois un nombre de
i 44
classes composant la partition .

Classification « à plat »

La ressemblance (similarité/dissimilarité) des individus est mesurée par un indice de similarité, un indice de dissimilarité ou une
i 45
distance . Par exemple, pour des données binaires l'utilisation des indices de similarité tels que l'indice de Jaccard, l'indice de Dice,
i 45
l'indice de concordance ou celui de Tanimoto est fréquente . Pour des données quantitatives, la distance euclidienne est la plus
i 45
appropriée, mais la distance de Mahalanobisest parfois adoptée . Les données sont soit des matrices de p variables qualitatives ou
quantitatives mesurées sur n individus, soit directement des données de distances ou des données de dissimilarité.

Le critère d'homogénéité des classes est en général exprimé par la diagonale d'une matrice de variances-covariances (l'inertie) inter-
classes ou intra-classes. Ce critère permet de faire converger les algorithmes de ré-allocation dynamiques qui minimisent l'inertie
b 39
intra-classe ou qui maximisent l'inertie inter-classes .

Les principaux algorithmes utilisent la ré-allocation dynamique en appliquant la méthode de B.W. Forgy des centres mobiles, ou une
b 40 i 46
de ses variantes : la méthode des k-means, la méthode des nuées dynamiques , ou PAM (« Partitioning Around Medoids
(PAM) »). Les méthodes basées sur la méthode de Condorcet, l'algorithme espérance-maximisation, les densités sont aussi utilisées
i 47, i 48
i 47, i 48
pour bâtir une classification .

Il n'y a pas de classification


meilleure que les autres, en
particulier lorsque le nombre de
classes de la partition n'est pas
prédéterminé. Il faut donc mesurer
la qualité de la classification et faire
des compromis. La qualité de la
classification peut se mesurer à
l'aide de l'indice qui est le
rapport de l'inertie inter classe sur
fig.11 - Classification utilisant fig.12 - Classification utilisant
l'inertie totale, calculé pour
l'algorithme k-means sur les deux l'algorithme PAM après une Analyse
premières variables effectuée sur les plusieurs valeurs du nombre de en composantes principales
données nutrients mises à classe total, le compromis étant effectuée sur les données nutrients
disposition par l'université de obtenu par la méthode du mises à disposition par l'université de
note 10 b 41, note 11 note 10
Cologne d'après le guide de coude . Cologne d'après le guide de
Vincent Zoonekynd sur le site Vincent Zoonekynd sur le site
« Statistics with R » L'interprétation des classes, « Statistics with R »
permettant de comprendre la
partition, peut s'effectuer en
analysant les individus qui composent chaque classe. Le statisticien peut compter les individus dans chaque classe, calculer le
diamètre des classes - ie la distance maximum entre individus de chaque classe. Il peut identifier les individus proches du centre de
gravité, établir la séparation entre deux classes - opération consistant à mesurer la distance minimum entre deux membres de ces
i 49
classes . Il peut analyser aussi les variables, en calculant par exemple la fréquence de certaines valeurs de variables prises par les
individus de chaque classe, ou en caractérisant les classes par certaines valeurs de variables prises par les individus de chaque
i 49
classe .

Classification hiérarchique

Les données en entrée d'une


classification ascendante
hiérarchique (CAH) sont présentées
sous la forme d'un tableau de
dissimilarités ou un tableau de
distances entre individus.

Il a fallu au préalable choisir une


distance (euclidienne, Manhattan,
Tchebychev ou autre) ou un indice
fig.13 - Carte factorielle où les de similarité (Jacard, Sokal,
individus sont coloriés en fonction de Sorensen, coefficient de corrélation fig.14 - Représentation 3D d'un arbre
leur appartenance à une classe. Ceci
linéaire, ou autre). hiérarchique définissant une
a été effectué par une CAH après
classification (cluster) effectuée
une analyse factorielle des La classification ascendante se après une analyse factorielle des
correspondances multiples sur le
propose de classer les individus à correspondances multiples sur le
dataset « tea » disponible sous R
l'aide d'un algorithme itératif. À dataset « tea » disponible sous R
avec FactoMineR
chaque étape, l'algorithme produit avec FactoMineR
une partition en agrégeant deux
classes de la partition obtenue à l’étape précédente.
Le critère permettant de choisir les deux classes dépend de la méthode d'agrégation. La plus utilisée est la méthode de Ward qui
b 42
consiste à agréger les deux classes qui font baisser le moins l'inertie interclasse . D'autres indices d'agrégation existent comme
celui du saut minimum (« single linkage ») où sont agrégées deux partitions pour lesquelles deux éléments - le premier appartenant à
la première classe, le second à la seconde - sont le plus proches selon la distance prédéfinie, ou bien celui du diamètre (« complete
b 43
linkage ») pour lequel les deux classes à agréger sont celles qui possèdent le couple d'éléments le plus éloigné .

L'algorithme ascendant se termine lorsqu'il ne reste qu'une seule classe.

La qualité de la classification est mesurée par le rapport inertie inter


-classe sur inertie totale.

Des stratégies mixtes, alliant une classification « à plat » à une classification hiérarchique, offrent quelques avantages. Effectuer une
CAH sur des classes homogènes obtenus par une classification par ré-allocation dynamique permet de traiter les gros tableaux de
i 49
plusieurs milliers d'individus , ce qui n'est pas possible par une CAH seule. Effectuer une CAH après un échantillonnage et une
i 49
analyse factorielle permet d'obtenir des classes homogènes par rapport à l'échantillonnage .

Analyse factorielle discriminante


L'analyse factorielle discriminante
(AFD), qui est la partie descriptive
de l'analyse discriminante, est aussi
connue sous le nom d'analyse
linéaire discriminante, d'analyse
discriminante de Fisher et d'analyse
b 44
canonique discriminante . Cette
technique projette des classes
prédéfinies sur des plans factoriels
discriminant le plus possible. Le
tableau de données décrit n
fig.15 - Matrice de Nuages de points individus sur lesquels p variables fig.16 - AFD sur Analyse en
sur les données Iris présentés sur les quantitatives et une variable composantes principales des
axes des variables 2 à 2 données iris
qualitative à q modalités ont été
mesurées. La variable qualitative
permet de définir les q classes et le regroupement des individus dans ces classes. L'AFD se propose de trouver q-1 variables, appelées
b 45
variables discriminantes, dont les axes séparent le plus les projections des q classes qui découpent le nuage de points .

Comme dans toutes les analyses factorielles descriptives, aucune hypothèse statistique n'est faite au préalable ; ce n'est que dans la
partie prédictive de l'analyse discriminante que des hypothèses a priori sont émises.

La mesure de la qualité de la discrimination est effectuée à l'aide du de Wilks qui est égal au rapport du déterminant de la matrice
de variances-covariances intra-classe sur le déterminant de la matrice de variances-covariances totale. Un de Wilks faible indique
b 46
une discrimination forte par les plans factoriels . Par exemple sur les données Iris, il est de 0.0234 sur les deux premiers facteurs.
i 50
En outre si la première valeur propre est proche de 1, l'AFD est de qualité .

La corrélation entre les variables et les facteurs permet d'interpréter ceux-ci.

Une AFD est une ACP effectuée sur les barycentres des classes d'individus constituées à l'aide des modalités de la variable
qualitative. C'est aussi une analyse canonique entre le groupe des variables quantitatives et celui constitué du tableau disjonctif de la
b 47
variable qualitative .

Analyse des données et régressions


En s'inspirant de ce qu'écrivent Henry Rouanet et ses coauteurs, l'analyse des données descriptive et l'analyse prédictive peuvent être
i 51
complémentaires, et parfois produire des résultats similaires .

Approche PLS
note 12
L'approche PLS est plus prédictive que descriptive, mais les liens avec
certaines analyses que l'on vient de voir ont été clairement établis.

L'algorithme d'Herman Wold, nommé tout d'abord NILES (« Nonlinear Estimation


by Iterative Least SquareS »), puis NIPALS (« Nonlinear Estimation by Iterative
Partial Least SquareS ») a été conçu en premier lieu pour l'analyse en composantes
b 49, i 52
principales .

En outre, PLS permet de retrouver l'analyse canonique à deux blocs de variables,


l'analyse inter batteries de Tucker, l'analyse des redondances et l'analyse canonique
i 53
généralisée au sens de Carroll . La pratique montre que l'algorithme PLS
converge vers les premières valeurs propres dans le cas de l'analyse inter batteries de fig.17 - Approche PLS : réseau de
b 50
Tucker , l'analyse canonique à deux blocs de variables et l'analyse des causalité entre quatre groupes de
i 53 b 48
redondances . variables (d'après M.Tenenhaus )

Régressions
La régression sur composantes principales(PCR) utilise l'ACP pour réduire le nombre de variables explicatives en les remplaçant par
les composantes principales qui ont l'avantage de ne pas être corrélées. PLS et PCR sont souvent comparées l'une à l'autre dans la
littérature.

Déjà mentionné plus haut dans cet article, l'analyse canonique est équivalente à la régression linéaire lorsqu'un des deux groupes se
i 54
réduit à une seule variable .

Logiciels
L'analyse des données moderne ne peut être dissociée de l'utilisation des ordinateurs ; de nombreux logiciels permettant d'utiliser les
2
méthodes d'analyse des données vues dans cet article peuvent être cités. SPSS, Statistica, HyperCube et SAS fournissent des
modules complets d'analyse des données ; le logiciel R aussi avec des bibliothèques comme FactoMineR, Ade4 ou MASS ;
3
Braincube , solution d'analyse de données massives pour l'industrie.

Notes et références

Notes
1. Les « loadings » peuvent être vus comme des coefficients de régression exprimant les variables en fonction des
facteurs1.
2. Les « facteurs » dans le modèle du« Factor Analysis » considérés comme « variables latentes », préexistent aux
mesures ; tandis que dans l'analyse en composantes principales, les « composantes » sont les variables,
conséquences des mesures, permettant de réduire les dimensions.
3. L'AFC peut aussi être vue comme une Analyse canonique particulière b 27.
4. Ceux-ci sont nommés tableaux des profils-lignes et des profils-colonnes. Si le tableau initial possède p lignes et q
colonnes, et si est son élément générique, le tableau des profils-lignes a pour élément générique , celui des

profils-colonnes . Les profils-lignes forment un nuage de p points dans qu'on munit de la métrique

. Une métrique équivalente est appliquée sur sur les profils-colonnes

5. Pour plus d'informations sur l'exemple ci-contre voir l'analyse de FG Carpentier de l'université de Brest
FG
Carpentier, « Analyse Factorielle des correspondances» (http://geai.univ-brest.fr/~carpenti/2004-2005/PSRS83B-2.p
df) [PDF], sur geai.univ-brest.fr, 2004 (consulté le 12 novembre 2011).
6. Pour appréhender l'apport spécifique de l'ACM, voirSaporta 2006, p. 227.

7. L'inertie totale du nuage de points est égale à , l'inertie de la variable possédant modalités

est donnée par et l'inertie de la modalité j a pour formule .

8. Deux livres comportent une description détaillée de l’AFM Escofier


: & Pagès 2008et Pagès 2013.
9. Voir ce document aussi pour une comparaison entre ACP et ACI.
10. Voir les données sur le siteUniversité de Koln, « « Data Sets for Clustering Techniques » » (http://www.uni-koeln.de/t
hemen/statistik/data/cluster/), sur uni-koeln.de (consulté le 29 novembre 2011).
11. Voir « Glossaire du data mining».
12. PLS signifie « Partial Least Squares » soit Moindres carrés partiels ou bien« Projection to Latent Structure» soit
Projection sur la Structure Latent selon les cas.

Références
1. Elizabeth Garrett-Mayer, « Statistics in Psychosocial Research : Lecture 8 : Factor Analysis »I (http://ocw.jhsph.edu/
courses/statisticspsychosocialresearch/pdfs/lecture8.pdf)
, sur ocw.jhsph.edu, 2006 (consulté le 29 janvier 2012).
2. http://www.bearingpoint.com/fr-fr/7-5295/
3. « Braincube Cloud Solution» (http://www.ipleanware.com), sur www.ipleanware.com

Ouvrages spécialisés
1. Husson 2009, p. iii
2. Saporta 2006, p. 190
3. Lebart 2008, p. 38
4. Lebart 2008, p. 418-419
5. Tenenhaus 1998, p. 23
6. Tenenhaus 1998, p. 35
7. Lebart 2008, p. 131
8. Benzécri 1976, p. 91 et suiv. (Tome I)
9. Benzécri 1976, p. 63 et suiv. (Tome I)
10. Husson 2009, p. 155
11. Benzécri 1976, p. 339 (Tome II)
12. Benzécri 1976, p. 372(Tome II)
13. Frédéric Lebaron, La Croyance économique, Le Seuil, coll. « Liber », 5 juin 2000, 1re éd., 260 p.
(ISBN 978-2020411714)
14. Benzécri 1976, p. 329 (Tome II)
15. Benzécri 1976, p. 467 (Tome II)
16. Benzécri 1976, p. 485 (Tome I)
17. Husson 2009, p. 58
18. Husson 2009, p. 110
19. Benzécri 1976, p. 29 (Tome I)
20. Benzécri 1976, p. 31 (Tome I)
21. Benzécri 1976, p. 37 (Tome I)
22. Benzécri 1976, p. 55 (Tome I)
23. Lebart 2008, p. 6
24. Saporta 2006, p. 162
25. Saporta 2006, p. 178
26. Lebart 2008, p. 93
27. Saporta 2006, p. 212.
28. Saporta 2006, p. 201-204
29. Husson 2009, p. 70
30. Benzécri 1976, p. 47 (Tome II)
31. Husson 2009, p. 81-83
32. Husson 2009, p. 155
33. Lebart 2008, p. 187
34. Saporta 2006, p. 220
35. Husson 2009, p. 140-141
36. Lebart 2008, p. 37
37. Saporta 2006, p. 189-190
38. Husson 2009, p. 172
39. Saporta 2006, p. 250-251
40. Saporta 2006, p. 243
41. Tufféry 2010, p. 240
42. Saporta 2006, p. 258
43. Saporta 2006, p. 256
44. Lebart 2008, p. 329
45. Tufféry 2010, p. 329
46. Tufféry 2010, p. 342
47. Saporta 2006, p. 444
48. Tenenhaus 1998, p. 243
49. Tenenhaus 1998, p. 61
50. Tenenhaus 1998, p. 237 et suiv.

Articles publiés sur internet


1. Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 5», Les Cahiers de l'analyse des
données, vol. 2, no 1, 1977, p. 9-40 (lire en ligne (http://archive.numdam.org/ARCHIVE/CAD/CAD_1977__2_1/CAD_
1977__2_1_9_0/CAD_1977__2_1_9_0.pdf)[PDF])
2. (en) N. Zainol, J. Salihon et R. Abdul-Rahman, « Biogas Production from Waste using Biofilm Reactor: Factor
Analysis in Two Stages System », World Academy of Science, Engineering and T echnology, vol. 54, no 2, 2009,
p. 30-34 (lire en ligne (http://www.waset.org/journals/waset/v54/v54-6.pdf) [PDF])
3. (en) Reza Nadimi et Fariborz Jolai, « Joint Use of Factor Analysis (FA) and Data Envelopment Analysis (DEA) for
Ranking of Data Envelopment Analysis», International Journal of Mathematical, Physical and Engineering Sciences ,
vol. 2, no 4, 2008, p. 218-222 (lire en ligne (http://www.akademik.unsri.ac.id/download/journal/files/waset/v2-4-39-14.
pdf) [PDF])
4. (en) Noboru Ohsumi et Charles-Albert Lehalle,« Benzecri, Tukey and Hayashi (maths)» (http://lehalle.blogspot.co
m/2006/04/benzecri-tukey-and-hayashi-maths.html) , sur lehalle.blogspot.com, 2006 (consulté le 6 novembre 2011)
5. (en) Antoine de Falguerolles, « L'analyse des données : before and around», Journal Electronique d'Histoire des
Probabilités et de la Statistique, vol. 4, no 2, décembre 2008 (lire en ligne (http://www.jehps.net/Decembre2008/Falgu
erolles.pdf) [PDF])
6. Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 2», Les Cahiers de l'analyse des
données, vol. 1, no 2, 1976, p. 101-120 (lire en ligne (http://archive.numdam.org/ARCHIVE/CAD/CAD_1976__1_2/C
AD_1976__1_2_101_0/CAD_1976__1_2_101_0.pdf) )
7. Ludovic Lebart, « L'analyse des données des origines à 1980 : quelques éléments», Journal Electronique d'Histoire
des Probabilités et de la Statistique, vol. 4, no 2, décembre 2008 (lire en ligne (http://www.jehps.net/Decembre2008/L
ebart.pdf) [PDF])
8. Gilbert Saporta, « Données supplémentaires sur l'analyse des données» (http://cedric.cnam.fr/~saporta/MSH75.pdf)
[PDF], sur cedric.cnam.fr, 1975 (consulté le 6 novembre 2011)
9. Jean-Paul Benzécri, « Histoire et Préhistoire de l'Analyse des données : Partie 4», Les Cahiers de l'analyse des
données, vol. 1, no 4, 1976, p. 343-366 (lire en ligne (http://archive.numdam.org/ARCHIVE/CAD/CAD_1976__1_4/C
AD_1976__1_4_343_0/CAD_1976__1_4_343_0.pdf)[PDF])
10. (en) Louis Léon Thurstone, Multiple factor analysis. Psychological Review
, 38, 1931, p. 406–427
11. (en) Shizuhiko Nishisato, « Elements of Dual Scaling : An Introduction to Practical Data Analysis», Applied
Psychological Measurement, vol. 18, no 4, décembre 1994, p. 379-382 (présentation en ligne (http://apm.sagepub.co
m/content/18/4/379.full.pdf+html?frame=header), lire en ligne (http://takane.brinkster.net/yoshio/b008.pdf) [PDF])
12. (en) George Michailidis et Jan de Leeuw, « The Gifi System of Descriptive Multivariate Analysis», Statistical
Science, vol. 4, no 13, 1998, p. 307-336 (lire en ligne (http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?vie
w=body&id=pdf_1&handle=euclid.ss/1028905828)[PDF])
13. Christian Baudelot et Michel Gollac, « Faut-il travailler pour être heureux ?», Insee Première, no 560,
décembre 1997 (lire en ligne (http://www.insee.fr/FR/FFC/DOCS_FFC/ip560.pdf))
14. (en) Johs Hjellbrekke, Brigitte Le Roux, Olav Korsnes, Frédéric Lebaron, Henry Rouanet et Lennart Rosenlund,
« The Norwegian Field of Power Anno 2000», European Societies, vol. 9, no 2, 2007, p. 245-273 (lire en ligne (http://
www.u-picardie.fr/labo/curapp/IMG/pdf/776186142_content.pdf))
15. François Denord, Paul Lagneau-Ymonet et Sylvain Thine, « Le champ du pouvoir en France», Actes de la recherche
en sciences sociales, no 190, 2011, p. 24-57 (lire en ligne (http://www.cairn.info/revue-actes-de-la-recherche-en-scien
ces-sociales-2011-5-page-24.htm))
16. Julien Duval, « L'art du réalisme », Actes de la recherche en sciences sociales, no 161-162, 2006, p. 96-195 (lire en
ligne (http://www.cairn.info/revue-actes-de-la-recherche-en-sciences-sociales-2006-1-page-96.htm) )
17. E. Boukherissa, « Contribution à l'étude de la structure des pièces de théâtre : Analyse de la matrice de présence
des personnages sur la scène», Les Cahiers de l'Analyse des données, vol. 20, no 2, 1995, p. 153-168 (lire en ligne
(http://archive.numdam.org/ARCHIVE/CAD/CAD_1995__20_2/CAD_1995__20_2_153_0/CAD_1995__20_2_153_0.
pdf) [PDF])
18. C. Desroussilles, « Taille et structure des entreprises étudiées d'après leurs bilans », Les Cahiers de l'Analyse des
données, vol. 5, no 1, 1980, p. 45-63 (lire en ligne (http://archive.numdam.org/ARCHIVE/CAD/CAD_1980__5_1/CAD
_1980__5_1_45_0/CAD_1980__5_1_45_0.pdf)[PDF])
19. (en) Zhang Yan et Yu Bin, « Non-negative Principal Component Analysis for Face Recognition», World Academy of
Science, Engineering and Technology, vol. 48, décembre 2010, p. 577-581 (lire en ligne (http://www.waset.org/journal
s/waset/v75/v75-191.pdf)[PDF])
20. L. Bellanger, D. Baize et R. Tomassone, « L'Analyse des corrélations canoniques appliquées à des données
environnementales », Revue de Statistique Appliquée, vol. LIV, no 4, 2006, p. 7-40 (lire en ligne (http://archive.numda
m.org/ARCHIVE/RSA/RSA_2006__54_4/RSA_2006__54_4_7_0/RSA_2006__54_4_7_0.pdf) [PDF])
21. F. Bertrand, M. Maumy, L. Fussler, N. Kobes, S. Savary et J. Grossman, « Etude statistique des données collectées
par l'Observatoire des maladies du Bois de la V , vol. 149, no 4,
igne », Journal de la Société Française de Statistique
2008, p. 73-106 (lire en ligne (http://archive.numdam.org/ARCHIVE/JSFS/JSFS_2008__149_4/JSFS_2008__149_4_
73_0/JSFS_2008__149_4_73_0.pdf)[PDF])
22. H. Seiffolahi, « Caractéristiques des sujets pratiquant divers sports dans la région parisienne
», Les Cahiers de
l'Analyse des Données, vol. 6, no 4, 1981, p. 493-497 (lire en ligne (http://archive.numdam.org/ARCHIVE/CAD/CAD_
1981__6_4/CAD_1981__6_4_493_0/CAD_1981__6_4_493_0.pdf)[PDF])
23. Renaud Laporte, « Pratiques Sportives et Sociabilité», Mathematics and Social Sciences, vol. 43, no 170, 2005,
p. 79-94 (lire en ligne (http://msh.revues.org/2967?file=1)[PDF])
24. Anne-Béatrice Dufour, Jacques Pontier et Annie Rouard, « Morphologie et Performance chez les Sportifs de Haut
Niveau: Cas du Handball et de la Natation» (http://pbil.univ-lyon1.fr/R/articles/abd02.pdf)[PDF], sur pbil.univ-
lyon1.fr, 1988 (consulté le 11 novembre 2011)
25. Carla Henry, Manohar Sharma, Cecile Lapenu et Manfred Zeller, « Outil d’évaluation de la pauvreté en
microfinance » (http://www.lamicrofinance.org/files/15212_file_outil_evaluation_pauvrete.pdf)[PDF], sur
lamicrofinance.org, 2003 (consulté le 20 novembre 2011)
26. Arthur Charpentier et Michel Denuit, Mathématiques de l'Assurance Non Vie, t. II, Economica, 2005, 596 p.
(ISBN 978-2717848601)
27. Dominique Desbois, « La place de l’a priori dans l’analyse des données économiques ou le programme fort des
méthodes inductives au service de l’hétérodoxie», Modulad, no 32, 2008, p. 176-181 (lire en ligne (http://www.modul
ad.fr/archives/numero-39/Notule-Desbois-39/Notule-39-DESBOIS-Analyse.pdf) [PDF])
28. FG Carpentier, « Analyse en composantes principales avec R» (http://geai.univ-brest.fr/~carpenti/2006-2007/Docum
ents-R/ACP-avec-R.html), sur geai.univ-brest.fr, 2006 (consulté le 19 novembre 2011)
29. C. Duby et S. Robin, « Analyse en Composantes Principales» (http://www.agroparistech.fr/IMG/pdf/ACP2006.pdf)
[PDF], sur agroparistech.fr, 2006 (consulté le 3 novembre 2011)
30. Christine Decaestecker et Marco Saerens,« Analyse en composantes principales» (http://www.isys.ucl.ac.be/etude
s/cours/linf2275/06cours.pdf)[PDF], sur isys.ucl.ac.be (consulté le 3 novembre 2011)
31. (en) Hossein Arsham, « « Topics in Statistical Data Analysis: RevealingFacts From Data » » (http://home.ubalt.edu/
ntsbarsh/stat-data/topics.htm#rintroduction), sur home.ubalt.edu (consulté le 3 novembre 2011)
32. FG Carpentier, « Analyse factorielle des correspondances avec R» (http://geai.univ-brest.fr/~carpenti/2006-2007/Do
cuments-R/AFC-avec-R.html), sur geai.univ-brest.fr (consulté le 18 décembre 2011)
33. R. Ramousse, M. Le Berre et L. Le Guelte,« Introduction aux Statistiques» (http://www.cons-dev.org/elearning/stat/
multivarie/6-5/6-5.html), sur cons-dev.org, 1996 (consulté le 12 novembre 2011)
34. Université Pierre et Marie Curie, Paris,« Analyse factorielle des correspondances multiples : 4.3 Formulaire» (http://
www.obs-vlfr.fr/Enseignement/enseignants/labat/anado/afcm/formulaire.html) , sur obs-vlfr.fr (consulté le
13 novembre 2011)
35. (en) Ignacio Gonzalez, Sébastien Déjean, Pascal G. .PMartin et Alain Baccini, « « CCA: An R Package to Extend
Canonical Correlation Analysis» » (http://www.jstatsoft.org/v23/i12/paper)[PDF], sur jstatsoft.org, 2008 (consulté le
19 novembre 2011)
36. Ph. Casin et J.C. Turlot, « Une présentation de l'analyse canonique généralisée dans l'espace des individus », Revue
de Statistique Appliquée, vol. 34, no 3, 1986, p. 65-75 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_
1986__34_3/RSA_1986__34_3_65_0/RSA_1986__34_3_65_0.pdf)[PDF])
37. (en) A. Mead, « Review of the Development of Multidimensional Scaling Methods», Statistician, vol. 41, no 1, 1992,
p. 27-39 (lire en ligne (http://isds.bus.lsu.edu/chun/teach/7025/7025-reading/mds.pdf)[PDF])
38. Dominique Desbois, « Une introduction au positionnement multidimensionnel.», Modulad, vol. 32, 2005, p. 1-28 (lire
en ligne (http://www.modulad.fr/archives/numero-32/desbois-32/desbois-32.pdf)[PDF])
39. Sébastien le Dien et Jérôme Pagès, « Analyse Factorielle Multiple Hiérarchique», Revue de Statistique Appliquée,
vol. 51, no 2, 2003, p. 47-73 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_1986__34_3/RSA_1986_
_34_3_65_0/RSA_1986__34_3_65_0.pdf)[PDF])
40. Jérôme Pagès, « Analyse Factorielle Multiple et Analyse Procustéenne», Revue de Statistique Appliquée, vol. LIII,
no 4, 2005, p. 61-86url=http://smf4.emath.fr/Publications/JSFdS/RSA/53_4/pdf/sfds_rsa_53_4_61-86.pdf
41. Jérôme Pagès, « Analyse Factorielle de Données Mixtes», Revue de Statistique Appliquée, vol. 52, no 4, 2004,
p. 93-111 (lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_2004__52_4/RSA_2004__52_4_93_0/RSA_
2004__52_4_93_0.pdf))
42. Michel Lesty, « Corrélations partielles et corrélations duales», Modulad, vol. 39, décembre 2008, p. 1-22 (lire en
ligne (http://www.modulad.fr/archives/numero-39/Lesty-39/Lesty-39.pdf))
43. Jean-François Cardoso,« Analyse en composantes indépendantes» (http://perso.telecom-paristech.fr/~cardoso/Pap
ers.PDF/jsbl02-long.pdf)[PDF], sur perso.telecom-paristech.fr(consulté le 12 décembre 2011)
44. Laurence Reboul, « CH 3 : Classification » (http://iml.univ-mrs.fr/~reboul/ADD4-MAB.pdf)[PDF], sur iml.univ-mrs.fr
(consulté le 24 novembre 2011)
45. J.M Loubes, « Exploration Statistique Multidimensionnelle Chapitre 8 : Classication non supervisée» (http://www.m
ath.univ-toulouse.fr/~loubes/e8_classif.pdf)[PDF], sur math.univ-toulouse.fr (consulté le 25 novembre 2011)
46. (en) Unesco, « « Partitioning Around Medoids» » (http://www.unesco.org/webworld/idams/advguide/Chapt7_1_1.ht
m), sur unesco.org (consulté le 27 novembre 2011)
47. Christel Vrain, « Classification non supervisée» (http://www.univ-orleans.fr/sciences/info/ressources/Modules/master
2/ECBD/cluster_4p.pdf)[PDF], sur univ-orleans.fr (consulté le 24 novembre 2011)
48. Catherine Aaron, « Algorithme EM et Classification non Supervisée» (http://samos.univ-paris1.fr/archives/ftp/preprint
s/samos212.pdf) [PDF], sur samos.univ-paris1.fr (consulté le 25 novembre 2011)
49. Mireille Summa-Gettler et Catherine Pardoux,« La Classification Automatique» (http://www.ceremade.dauphine.fr/~t
ouati/EDOGEST-seminaires/Classification.pdf) [PDF], sur ceremade.dauphine.fr(consulté le 26 novembre 2011)
50. Jean-Yves Baudot, « L'AFD modèle Linéaire» (http://www.jybaudot.fr/Factorielles/afdlin.html), sur jybaudot.fr, 2008
(consulté le 11 décembre 2011)
51. Henry Rouanet, Frédéric Lebaron, Viviane Le Hay, Werner Ackermann et Brigitte Le Roux, « Régression et Analyse
Géométrique des Données : Réflexions et Suggestions», Mathématiques et Sciences humaines, no 160, hiver 2002,
p. 13-45 (lire en ligne (http://msh.revues.org/2882))
52. Séverine Vancolen, « Régression PLS » (http://doc.rero.ch/lm.php?url=1000,41,4,20070716085523-YM/mem_V ancol
enS.pdf) [PDF], sur doc.rero.ch, 2004 (consulté le 17 décembre 2011)
53. Michel Tenenhaus, « L'approche PLS », Revue de Statistique Appliquée, vol. 47, no 2, 1999, p. 5-40 (lire en ligne (htt
p://archive.numdam.org/ARCHIVE/RSA/RSA_1999__47_2/RSA_1999__47_2_5_0/RSA_1999__47_2_5_0.pdf)
[PDF])
54. J. Obadia, « L'analyse en composantes explicatives», Revue de Statistique Appliquée, vol. 26, no 4, 1978, p. 5-28
(lire en ligne (http://archive.numdam.org/ARCHIVE/RSA/RSA_1978__26_4/RSA_1978__26_4_5_0/RSA_1978__26_
4_5_0.pdf) [PDF])

Voir aussi

Bibliographie
Jean-Paul Benzécri et al., L'Analyse des Données: 1 La Taxinomie, Paris, Dunod, 1976, 631 p.
(ISBN 2-04-003316-5).
Jean-Paul Benzécri et al., L'Analyse des Données: 2 L'Analyse des correspondances , Paris, Dunod, 1976, 616 p.
(ISBN 2-04-004255-5).
Jean-Marie Bouroche et Gilbert Saporta, L'Analyse des données, Paris, Presses Universitaires de France,2006,
9e éd., 125 p. (ISBN 978-2130554448).
Alain Desrosières, « Analyse des données et sciences humaines : comment cartographier le monde social », ?
Journal électronique d’histoire d’histoire des probabilités et des statistiques
, décembre 2008 (lire en ligne)
Brigitte Escofier et Jérôme Pagès,Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation ,
Dunod, Paris, 2008, 318 p. (ISBN 978-2-10-051932-3)
François Husson, Sébastien Lê et Jérome Pagès, Analyse de données avec R, Rennes, Presses Universitaires de
Rennes, 2009, 224 p. (ISBN 978-2-7535-0938-2).
(en) Lyle V. Jones, The Collected Works of John W. Tukey T.IV, Monterey, California, Chapman and Hall/CRC,
1987, 675 p. (ISBN 978-0534051013).
(en) Lyle V. Jones, The Collected Works of John W. Tukey T.I, Monterey, California, Wadsworth Pub Co, 1984,
680 p. (ISBN 978-0534033033).
Ludovic Lebart, Marie Piron et Alain Morineau, Statistique Exploratoire Multidimensionnelle, Paris, Dunod, 2006,
464 p. (ISBN 978-2-10-049616-7)
Frédéric Lebaron, L'enquête quantitative en sciences sociales : Recueil et analyse des données , Dunod,
coll. « Psycho sup », 26 janvier 2006, 1re éd., 182 p. (ISBN 978-2100489336)
Jérôme Pagès, Analyse factorielle multiple avec R, EDP sciences, Paris,2013, 253 p. (ISBN 978-2-7598-0963-9)
Gilbert Saporta, Probabilités, Analyse des données et Statistiques , Paris, Éditions Technip, 2006, 622 p. [détail des
éditions] (ISBN 978-2-7108-0814-5, présentation en ligne)
Michel Tenenhaus, La régression PLS : Théorie et Pratique, Paris, éditions Technip, 1998, 254 p.
(ISBN 978-2-7108-0735-3)
Stéphane Tufféry, Data Mining et statistique décisionnelle, Paris, éditions Technip, 2010, 705 p.
(ISBN 978-2-7108-0946-3)
(en) J W Tukey et K.E. Basford, Graphical Analysis of Multiresponse Data
, Londres, Chapman & Hall (CRC
Press), 1999, 587 p. (ISBN 0849303842).
Michel Volle, Analyse des données, Economica, 1997, 4e éd., 323 p. (ISBN 978-2717832129).
Michel Volle, « L'analyse des données», Économie et Statistique, vol. 96, no 1, 1968, p. 3–23
(DOI 10.3406/estat.1978.3094, présentation en ligne).

Articles connexes
Statistique multivariée
Analyse factorielle

Liens externes
FactoMineR, une bibliothèque de fonctions R destinée à l'analyse des données

La version du 28 février 2012 de cet article a été reconnue comme « bon article », c'est-à-
dire qu'elle répond à des critères de qualité concernant le style, la clarté, la pertinence, la
citation des sources et l'illustration.

Ce document provient de «https://fr.wikipedia.org/w/index.php?title=Analyse_des_données&oldid=144126283».

La dernière modification de cette page a été faite le 3 janvier 2018 à 17:23.

Droit d'auteur : les textes sont disponibles souslicence Creative Commons attribution, partage dans les mêmes
conditions ; d’autres conditions peuvent s’appliquer . Voyez les conditions d’utilisation pour plus de détails, ainsi que les
crédits graphiques. En cas de réutilisation des textes de cette page, voyezcomment citer les auteurs et mentionner la
licence.
Wikipedia® est une marque déposée de laWikimedia Foundation, Inc., organisation de bienfaisance régie par le
paragraphe 501(c)(3) du code fiscal des États-Unis.

Você também pode gostar