Você está na página 1de 9

Analyse discriminante

Analyse discriminante
Lanalyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise dcrire, expliquer et prdire lappartenance des groupes prdfinis (classes, modalits de la variable prdire, ...) dun ensemble dobservations (individus, exemples, ...) partir dune srie de variables prdictives (descripteurs, variables exognes, ...). Lanalyse discriminante est utilise dans de nombreux domaines : En mdecine, par exemple pour dtecter les groupes hauts risques cardiaques partir de caractristiques telles que lalimentation, le fait de fumer ou pas, les antcdents familiaux, etc. Dans le domaine bancaire, lorsque lon veut valuer la fiabilit dun demandeur de crdit partir de ses revenus, du nombre de personnes charge, des encours de crdits quil dtient, etc. En biologie, lorsque lon veut affecter un objet sa famille dappartenance partir de ses caractristiques physiques. Les iris de Sir Ronald Fisher -- qui est l'origine de cette mthodeen est un exemple trs fameux, il sagit de reconnatre le type diris (setosa, virginica, et versicolor) partir de la longueur/largeur de ses ptales et spales. Lanalyse discriminante est une technique connue et reconnue, elle est dcrite peu prs de manire identique par les diffrentes communauts du traitement de donnes : en statistique exploratoire (exploratory data analysis), en analyse de donnes, en reconnaissance de formes (pattern recognition), en apprentissage automatique (machine learning), en fouille de donnes (data mining), ...

Tableau de donnes
Dans le fichier Flea Beetles Dataset [1], rfrenc sur le site DASL [2] (Data and Story Library), nous observons 3 familles de puces caractrises par langle et la largeur de leur aedeagus, leur organe de reproduction. Nous disposons de 74 observations dans ce fichier. La variable Species indique la famille dappartenance de chaque puce, il en existe 3 {Con Concinna, Hei Heikertingeri, Hep - Heptapotamica}. Les puces sont dcrites laide de deux variables continues : la largeur (width) et langle (angle) de leur aedeagus. Les donnes tant dcrites par deux variables, il est possible de reprsenter le nuage de points dans un graphique XY avec en abscisse la largeur (width) et en ordonne langle (angle). a nest plus possible lorsque le nombre de descripteurs est suprieur deux, un des rles de lanalyse discriminante est justement de proposer une reprsentation graphique approprie dans un espace rduit.

Analyse discriminante

Nous distinguons bien les trois blocs associs chaque espce de puce. chaque nuage de points conditionnel correspond un centre de gravit conditionnel matrialis par la lettre G.

Des approches diffrentes selon les objectifs


On distingue gnralement deux grandes approches : Lanalyse discriminante peut tre une technique descriptive. On parle dans ce cas danalyse factorielle discriminante (ou analyse discriminante descriptive). Lobjectif est de proposer un nouveau systme de reprsentation, des variables latentes formes partir de combinaisons linaires des variables prdictives, qui permettent de discerner le plus possible les groupes dindividus. En ce sens, elle se rapproche de lanalyse factorielle car elle permet de proposer une reprsentation graphique dans un espace rduit, plus particulirement de lanalyse en composantes principales calcule sur les centres de gravit conditionnels des nuages de points avec une mtrique particulire. On parle galement danalyse canonique discriminante, notamment dans les logiciels anglo-saxons. Lanalyse discriminante peut tre prdictive. Il sagit dans ce cas de construire une fonction de classement (rgle daffectation, ...) qui permet de prdire le groupe dappartenance dun individu partir des valeurs prises par les variables prdictives. En ce sens, cette technique se rapproche des techniques supervises en apprentissage automatique telles que les arbres de dcision, les rseaux de neurones, ... Elle repose sur un cadre probabiliste. Le plus connu est certainement lhypothse de distribution multinormale (loi normale). Additionne lhypothse dhomoscdasticit, les nuages de points conditionnels ont la mme forme, nous aboutissons lanalyse discriminante linaire. Elle est trs sduisante dans la pratique car la fonction de classement sexprime comme une combinaison linaire des variables prdictives, facile analyser et interprter. Cette technique est, avec la rgression logistique, trs utilise dans le scoring, lorsque nous voulons par exemple caractriser lapptence la propension acheter dun client face un nouveau produit. La distinction entre ces deux approches nest pas aussi tranche. Il est par exemple possible de driver des rgles gomtriques daffectation partir de lanalyse factorielle discriminante.

Analyse discriminante

Analyse discriminante descriptive


Lanalyse discriminante descriptive (analyse factorielle discriminante, canonical discriminant analysis en anglais) est une technique de statistique exploratoire qui travaille sur un ensemble de observations dcrites par variables, rpartis en groupes. Elle vise produire un nouveau systme de reprsentation, constitu de combinaisons catgories. linaires des variables initiales, qui permet de sparer au mieux les

Lanalyse discriminante descriptive est une technique descriptive car elle propose une reprsentation graphique qui permet de visualiser les proximits entre les observations, appartenant au mme groupe ou non. Cest aussi une technique explicative car nous avons la possibilit dinterprter les axes factoriels, combinaisons linaires des variables initiales, et ainsi comprendre les caractristiques qui distinguent les diffrents groupes. Contrairement lanalyse discriminante prdictive, elle ne repose sur aucune hypothse probabiliste. Il sagit essentiellement dune mthode gomtrique.

Notations - Formulations
Donnes et notations Nous disposons dun chantillon de Notons observations rparties dans groupes deffectifs . . Nous disposons de leurs matrice de

la variable dfinissant les groupes, elle prend ses valeurs dans . les centres de gravit des nuages de points conditionnels,

variables Nous notons

variance-covariance. Dmarche Lobjectif de lanalyse discriminante est de produire un nouvel espace de reprsentation qui permet de distinguer le mieux les K groupes. La dmarche consiste produire une suite de variables discriminantes , non-corrls deux deux, tels que des individus du mme groupe projets sur ces axes soient le plus proches possibles les uns des autres, et que des individus de groupes diffrents soient le plus loigns possibles. La dispersion lintrieur dun groupe est dcrite par la matrice de variance co-variance dduire ( un facteur prs) la dispersion intra-groupe Lloignement entre les groupes, entre les centres de gravit des groupes, est traduit par la matrice de variance co-variance inter-groupes ( un facteur prs) gravit du nuage de points global. La dispersion totale du nuage est obtenue par la matrice de variance co-variance totale . En vertu du thorme dHuyghens (qui est la gnralisation mutlidimensionnelle de la formule de dcomposition de la variance) : , o est le centre de . Nous pouvons en

Le premier axe factoriel sera donc dfini par le vecteur directeur variance inter-classes sur ce premier axe factoriel sera maximum.

tel que l'on maximise la quantit

. La

Analyse discriminante Solution La solution de ce problme doptimisation linaire passe par la rsolution de lquation nous est directement fournie par le calcul des valeurs propres et vecteurs propres de la matrice Le premier axe factoriel propre est donc obtenu l'aide du vecteur propre . Le second axe factoriel est dfinie par le vecteur propre suivant, etc. . Dans le , nous obtenons associe. axes factoriels. , que l'on appelle galement pouvoir discriminant . . La rponse

correspondant la plus grande valeur

L'ensemble des axes factoriels est dtermine par les valeurs propres non-nulles de la matrice cas usuel o Enfin, la variance inter-classes calcule sur l'axe factoriel de l'axe, est gale la valeur propre

valuation
Lvaluation se situe deux niveaux : valuer le pouvoir discriminant dun axe factoriel ; valuer le pouvoir discriminant dun ensemble daxes factoriels. Lide sous-jacente est de pouvoir dterminer le nombre daxes suffisants pour distinguer les groupes dobservations dans le nouveau systme de reprsentation. Bien entendu, ces valuations nont de sens que si les groupes sont discernables dans lespace de reprsentation initial. Il nous faut donc, dans un premier temps, apprcier dans quelle mesure les centres de gravit des groupes sont distincts. En dautres termes, il sagit de vrifier si la part de B dans lquation V = B + W est assez importante pour que cela vaille la peine de la dcomposer par la suite. Test MANOVA Le test global sapparente une analyse de variance multivarie un facteur. Dans ce cadre, nous introduisons lhypothse que les observations suivent une loi normale multidimensionnelle. Nous retrouvons galement ce test dans lanalyse discriminante prdictive (analyse discriminante linaire). La statistique du test est le Lambda de Wilks qui est gal au rapport (| | dsigne le dterminant de la matrice). En utilisant la transformation de Rao

qui suit une loi de Fisher, nous pouvons dterminer si nous devons accepter ou rfuter lhypothse dgalit des centres de gravit de groupes. Proportion de variance explique Chaque axe rapporte une partie de la variance inter-classes B. Une approche simple pour apprcier limportance dun axe est de calculer la part de variance explique quelle porte, traduite par la valeur propre. La proportion de valeur propre, c.--d. le rapport entre la valeur propre de laxe et la somme totale des valeurs propres de lensemble des axes, nous donne une bonne indication sur le rle dun axe. Rapport de Corrlation Une autre manire de rapporter limportance dun axe est de calculer le rapport de corrlation. Il sappuie sur la formule de dcomposition de la variance. Pour un axe factoriel , il est gal au ratio (la somme des carrs inter-groupes divis par la somme des carrs totale, reprsente une observation). Un axe sera dautant plus intressant quil prsente un rapport de corrlation lev. Dans les logiciels anglo-saxons, la racine carre du rapport de corrlation de laxe est appele la h-me corrlation canonique.

Analyse discriminante Test des racines successives En introduisant de nouveau lhypothse de multinormalit et dhomoscdasticit (voir analyse discriminante prdictive), nous pouvons tester la nullit des derniers rapports de corrlation. Le test repose sur la statistique de Wilks les petites valeurs de . . Lhypothse nulle (nullit des rapports de corrlation) est infirme pour

Tout comme pour le test global, une transformation est mise en uvre pour retomber sur des lois de distribution dusage courant. La transformation de Bartlett est souvent propose dans les logiciels. Elle suit une loi du Khi-2 degrs de libert. Lhypothse nulle est rejete si la probabilit critique calcule est infrieure au risque de premire espce (niveau de confiance) que lon sest fix. Nous retombons sur le test MANOVA global ci-dessus (Lambda de Wilks) si nous testons la nullit des rapports de corrlation sur tous les axes factoriels. En d'autres termes, , ce qui est tout fait naturel puisque cela revient tester tous les axes.

Un exemple
Le fameux fichier IRIS [3] permet dillustrer la mthode. Il a t propos et utilis par Fisher lui-mme pour illustrer lanalyse discriminante. Il comporte 150 fleurs dcrites par 4 variables (longueur et largeur des ptales et spales) et regroupes en 3 catgories (Setosa, Versicolor et Virginica). Lobjectif est de produire un plan factoriel (3 catgories 2 axes) permettant de distinguer au mieux ces catgories, puis dexpliquer leurs positionnements respectifs. Axes factoriels Le calcul produit les rsultats suivants.
Axe Val. propre Proportion Canonical R 0.985 0.466 Wilks KHI-2 D.D.L. p-value

1 2

32.272 0.277

0.991 1.0

0.024 0.783

545.58 8 35.6 3

0.0 0.0

Les deux axes sont globalement significatifs. En effet, le lambda de Wilks de nullit des deux axes est gal 0.023525 ( ici). Le KHI-2 de Bartlett est gal 545.57, avec un degr de libert gal (2 x (4-3+2+1)) = 8, il est trs hautement significatif (p-value trs petite). Nous constatons nanmoins que le premier axe traduit 99,1% de la variance explique. Nous pouvons lgitimement nous demander si le second axe est pertinent pour la discrimination des groupes. Il suffit pour cela de tester la nullit du dernier axe ( ). Le lambda est plus lev (0.78), ce qui se traduit par un KHI-2 plus faible (35.64) (1 x (4-3+1+1)) = 3 degrs de libert, il reste nanmoins significatif si lon se fixe un niveau de confiance 5%. Partant de ce rsultat, nous serions amens conserver les deux axes. Nous verrons plus bas que ce rsultat est relativiser.

Analyse discriminante Reprsentation graphique En projetant les points dans le plan factoriel, nous obtenons le positionnement suivant.

Nous distinguons bien les trois catgories de fleurs. Nous constatons galement que le premier axe permet dj de les isoler convenablement. Sur le second axe, mme si les centres de gravit des groupes semblent distincts, la diffrenciation nest pas aussi tranche. Nous retrouvons bien dans ce graphique ce que lon pressentait avec la proportion de variance explique. Le premier axe suffit largement pour discriminer les groupes. Le second axe, mme sil est statistiquement significatif, napporte pas un rel complment dinformations. Trs souvent, les techniques visuelles emmnent un contrepoint trs pertinent aux rsultats numriques bruts. Projection des individus supplmentaires Pour projeter des observations supplmentaires dans le plan factoriel, les logiciels fournissent les quations des fonctions discriminantes. Il suffit de les appliquer sur la description de lindividu classer pour obtenir ses coordonnes dans le nouveau repre. Dans lexemple IRIS, nous obtenons les coefficients suivants.

Analyse discriminante

Variables

Axe 1 Axe 2

Sepal Length -0.819 -0.033 Sepal Width -1.548 -2.155 0.930 -2.806

Petal Length 2.185 Petal Width Constante 2.854

-2.119 6.640

Interprtation des axes Dernier point, et non des moindres, il nous faut comprendre le positionnement relatif des groupes, c.--d. expliquer laide de variables initiales lappartenance aux catgories. Pour cela, linstar des techniques factorielles telles que lanalyse en composantes principales (ACP) -- lanalyse factorielle discriminante peut tre vue comme un cas particulier de lACP dailleurs -- les logiciels fournissent la matrice de corrlation. la diffrence de lACP, trois types de corrlations peuvent tre produits : la corrlation globale entre les axes et les variables initiales ; la corrlation intra-classes, calcule lintrieur des groupes ; la corrlation inter-classes calcule partir des centres de gravit des groupes pondrs par leurs frquences. Dans lexemple IRIS, si nous nous en tenons au premier axe, nous obtenons les corrlations suivantes.
Variables Sep Length Sep Width Total Intra-groupes Inter-groupes 0.792 0.222 0.992

-0.523 -0.116 0.705 0.632

-0.822 1.000 0.994

Pet Length 0.985 Pet Width 0.973

La corrlation inter-classes qui traduit le positionnement des groupes sur les axes indique ici que les Virginica ont plutt des longueurs de spales, des longueurs et des largeurs de ptales importantes. Les Setosa possdent linverse des longueurs de spales, des longueurs et des largeurs de ptales rduites. Les Versicolor occupent une position intermdiaire. La lecture est inverse concernant la largeur des spales.

Rfrences
M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001. (fr) Gilbert Saporta, Probabilits, Analyse des donnes et Statistique, 2006 L. Lebart, A. Morineau, M. Piron, Statistique Exploratoire Multidimensionnelle, Dunod, 2000. M. Tenenhaus, Mthodes Statistiques en Gestion, Dunod, 1996. Michel Volle, Analyse des donnes [4], Economica, 4e dition, 1997, ISBN 2717832122

Analyse discriminante

Logiciels
R [5] (e.g. fonction lda() du package MASS, package ade4) SAS Stat SPSS et SPSS Clementine STATGRAPHICS et son module UNIWIN Plus [6] StatEL [7], addon statistique sur Excel (Windows et Mac OS X) Tanagra Un logiciel universitaire gratuit et open source pour l'enseignement et la recherche [8] XLStat [9], outil d'analyse de donnes et de statistiques pour Excel IMSL, librairie mathmatique et statistique pour C/C++, C#, Java, Fortran et Python

Rfrences
[1] [2] [3] [4] [5] [6] [7] http:/ / lib. stat. cmu. edu/ DASL/ Stories/ FleaBeetles. html http:/ / lib. stat. cmu. edu/ DASL/ http:/ / lib. stat. cmu. edu/ DASL/ Datafiles/ Fisher'sIrises. html http:/ / www. volle. com/ ouvrages/ andon. htm http:/ / www. r-project. org/ http:/ / www. statgraphics. fr http:/ / www. adscience. fr/ logiciels/ statel

[8] http:/ / eric. univ-lyon2. fr/ ~ricco/ tanagra/ fr/ tanagra. html [9] http:/ / www. xlstat. com

Sources et contributeurs de l'article

Sources et contributeurs de l'article


Analyse discriminante Source: http://fr.wikipedia.org/w/index.php?oldid=46915430 Contributeurs: Alkarex, Ambigraphe, Archima, Badmood, Deep silence, Dodabe, Dodecaedre, Godix, HB, JLM, Jemz30, Jeremyah76, Jerome66, Joscquin, Michel Volle, Oxo, Phe, Plyd, SebGR, Solveig, Sylenius, TouristeCatgorisant, Vincnet, 21 modifications anonymes

Source des images, licences et contributeurs


Image:Flea beetles analyse discriminante.jpg Source: http://fr.wikipedia.org/w/index.php?title=Fichier:Flea_beetles_analyse_discriminante.jpg Licence: inconnu Contributeurs: Dodabe Image:Cda sur iris.jpg Source: http://fr.wikipedia.org/w/index.php?title=Fichier:Cda_sur_iris.jpg Licence: Public Domain Contributeurs: Dodabe

Licence
Creative Commons Attribution-Share Alike 3.0 Unported http:/ / creativecommons. org/ licenses/ by-sa/ 3. 0/

Você também pode gostar