Méthode de Scoring Non Paramétrique

Rev.
Statistique Appliqu ee, 2006, LIV (1), 5-26
METHODES DE SCORING NON-PARAMETRIQUES

A. MERBOUHA(1) , A. MKHADRI(2)
(2)
D epartement de Math ematiques, FST-Beni-Mellal, Maroc D epartement de Math ematiques, Universit e Cadi-Ayyad, Marrakech, Maroc
(1)
RESUM E
Dans cette note, nous pr esentons et illustrons les performances de nouvelles m ethodes, peu utilis ees en scoring ou peu connues, sur un exemple int eressant de donn ees bancaires avec variables mixtes o` u lobjectif est de pr edire le risque de cr edit. En plus de la grande dimension de lespace des observations, les deux groupes (bon et mauvais payeurs) sont tr` es d es equilibr es : les mauvais payeurs repr esentent moins de 10 %. Dans le cas des co uts de mauvais classement e gaux, nous montrons que lutilisation des m ethodes non-param etriques, fond ees sur le mod` ele de location, peuvent fournir dexcellents r esultats dans ce cadre. Elles ont lavantage de fournir des taux globaux de mauvais classement faibles et des taux conditionnels tr` es e quilibr es. Tandis que les autres m ethodes fond ees sur les k plus proches voisins et la distance de Cuadras ont tendance a ` fournir des taux conditionnels de mauvais classement tr` es d es equilibr es : elles classent parfaitement les bons payeurs et e prouvent d enormes difcult es a ` bien classer les mauvais payeurs . Mots-cl es : Discrimination, mod` ele de location non-param etrique, k -plus proches voisins
ABSTRACT
In this paper, we present and illustrate the performance of new nonparametric classication methods, some of them are less known or less used in practice, on an interesting unbalanced bank credit data set. The observations of the latter are described by a relatively large number of mixture of discrete and continuous variables, and where the minority group represents less than 10%. It is shown that the nonparametric smoothing approaches of the location model, with adapted weight function, improve the prediction accuracy of the minority group, and have favorable performance compared to the nonparametric methods based on k nearest neighbors model and the distance based discrimination methods. Keywords : Credit scoring, nonparametric location model, k -nearest neighbors
Le second auteur a b en eci e dune bourse de recherche TWAS 01-159 RG/MATHS/AF/AC.
A. MERBOUHA, A. MKHADRI
1. Introduction
La motivation principale de cette note est due a ` la lecture des travaux de scoring de l equipe du Professeur Ha rdle (Universite de Berlin) sur un exemple inte ressant de donne es bancaires avec variables mixtes. Lobjectif e tant de pre dire le risque de cre dit : pre dire si un emprunteur sera un bon ou un mauvais payeur et prendre ensuite la de cision approprie e. En plus de la grande dimension de lespace des observations, les deux groupes (bon et mauvais payeurs) sont tr` es de se quilibre s : les mauvais payeurs repre sentent moins de 10 % qui est conside re comme e tant le seuil raisonnable par les spe cialistes du cre dit. Les me thodes de scoring (cf. Bardos 2001), qui font partie des me thodes danalyse discriminante (cf. McLachlan 1992, Celeux et Nakache 1994, Ripley 1996 et Celeux 2003), ont suscite re cemment un inte re t conside rable dans le domaine de la nance, lassurance et le marketing. Ainsi, au moins deux e minents statisticiens (Pr. Ha rdle de luniversite de Berlin et Pr. Hand de London College) ont constitue deux groupes de travail consacre s essentiellement a ` ce probl` eme de scoring. Lengouement pour ces me thodes, ou ceux de Data Mining , est du a ` la demande urgente des banques, des compagnies dassurance et des organismes de cre dit pour re duire le risque nancier, qui nest pas ne gligeable. En effet, avec le de veloppement informatique croissant, ces organismes ont constitue de grandes bases ou entrepo ts de donne es qui sont tr` es complique s a ` analyser par les moyens classiques. Cela a entra ne l emergence des me thodes de Data Mining adapte es a ` ce genre de donne es et qui connaissent un de veloppement commercial tr` es important (cf. Besse et al. 2001 pour un tr` es bon expose a ` ce sujet). La motivation principale de ces me thodes est la valorisation dune grande base de donne es par la recherche dinformations utiles pour laide a ` la de cision. Les me thodes de scoring classiquement utilise es sur donne es bancaires sont en ge ne ral de type line aire (Analyse Discriminante Line aire (ADL) ou Re gression Logistique (RL)) du fait de leur simplicite et leur grande robustesse. Pour tenir compte de la non-line arite de certaines variables, lanalyse discriminante quadratique (ADQ) ou re gression polynomiale est parfois conside re e. Toutes ces me thodes sont fonde es sur le calcul du score qui est en ge ne ral une combinaison line aire des variables explicatives (ou de leurs transforme es). Typiquement, le score re sume les variables explicatives en une forme pre de nie (line aire ou quadratique). Mais ADL et ADQ ne sont pas adapte es aux donne es avec variables explicatives mixtes o` u les fronti` eres de se paration des deux groupes ne sont ne cessairement ni line aires ni quadratiques (cf. Besse et al. 2001 et Mu ller et Ha rdle 2002). Dautres me thodes non-line aires et non-parame triques, comme les re seaux neuronaux et les arbres de de cision, sont pre conise es de plus en plus (cf. Armingler, Enache et Bonne 1997, Hand et Henley 1997, Henley et Hand 1996 et Hand 2001). En effet, pour lexemple de donne es bancaires de crit en Section 2, Komroa d (2003) a effectue une e tude de taille e de la comparaison de la re gression logistique, du perceptron multi-couche et des re seaux a ` fonctions radiales de base. Les re sultats obtenus par les trois me thodes sont similaires : mais le groupe des mauvais payeurs est fortement mal classe par les trois me thodes. Par ailleurs, Mu ller et Ha rdle (2002) ont conside re une modication du mod` ele logistique, qui tient compte de la non-line arite de certaines variables continues, qui a fourni un
re sultat relativement meilleur que la re gression logistique line aire sur une base de donne es relativement similaire. Notre objectif dans cette note est de pre senter et dillustrer la performance de nouvelles me thodes, dont certaines sont peu utilise es en scoring ou peu connues, adapte es a ` la structure de donne es en question. La premi` ere famille est fonde e sur le mod` ele de location (cf. Krzanowski 1975) qui suppose que la partie continue du vecteur dobservations conditionnellement a ` la cellule de la partie discr` ete suit une loi normale de moyenne de pendante de la cellule et du groupe, et de matrice variance inde pendante des deux. Nous montrons que la version non-parame trique de Asparoukhov et Krzanowski (2000) (avec une modication de la me thode destimation de certains param` etres de lissage) fournit un bon re sultat. La seconde famille est compose e des me thodes non-parame triques des k -plus proches voisins probabilistes et non probabilistes o` u, a ` la place de la distance euclidienne classique, nous utilisons une distance adapte e aux donne es mixtes. La troisi` eme famille est compose e de la discrimination barycentrique et de celle due a ` Cuadras (1989) qui sont simples a ` mettre en uvre, mais peu connues et dont la r` egle daffectation quelles induisent ne ne cessite que le calcul de distances entre observations. Le plan de larticle est le suivant. Nous de crivons en Section 2 les donne es bancaires utilise es dans toute la suite en montrant leurs caracte ristiques de base. En Section 3, nous pre sentons les trois familles de me thodes de scoring nonparame triques. Nous commenc ons par la me thode base e sur le mod` ele de location adapte aux donne es avec variables mixtes, et nous de taillons sa version nonparame trique en pre cisant notre me thode de choix des param` etres de lissage adapte e a ` cette structure de donne es. Ensuite, nous de crivons les me thodes des k -plus proches voisins non-probabilistes et probabilistes avec notre choix de distance adapte e aux donne es traite es. De plus, nous pre sentons deux me thodes fonde es sur la transformation optimale de variables qualitatives en variables quantitatives et lapplication des k plus proches voisins sur le tableau transforme . Enn, nous pre sentons la troisi` eme famille dont la r` egle daffectation est simple et fonde e juste sur le calcul dune certaine distance entre observations. Les re sultats de ces diffe rentes me thodes sont analyse s en Section 4. Finalement, en Section 5 nous re sumons les re sultats de nos comparaisons. 2. Structure des donne es Les organismes de cre dit utilisent lanalyse discriminante pour pre dire si un emprunteur sera un bon ou un mauvais payeur et prendre ensuite la de cision ade quate. Pour cela, ils disposent dune grosse base de donne es des anciens clients qui ont contracte un certain cre dit (immobilier, achat de voiture, ou autre ...) et dont on conna t la qualite payeur re sume e par une variable qualitative Y a ` deux modalite s : bon ou mauvais payeur. Les donne es du dossier de pre t de chaque client sont de crites par les p variables explicatives (X1 , . . . , Xp ) qui sont en ge ne ral de nature mixte : qualitatives et continues. Dans la suite, nous de crivons bri` evement lensemble des donne es de cre dit utilise pour la comparaison de certaines me thodes de scoring. Les donne es analyse es dans cet article ont e te recueillies a ` partir du site web de Karel Komora d (Humboldt-Universita t Berlin). Certains auteurs ont conside re ces
donne es dans leur illustration des me thodes de scoring (Mu ller & Ro nz 1999, et Mu ller & Ha rdle 2002). Ce chier de donne es est issu de la Compagnie Bancaire (France), mais la source est condentielle et les noms de toutes les variables ont e te supprime es. Apr` es un premier tri, Komora d (2003) a conserve un e chantillon de 6 178 clients anonymes de crits par 24 variables : la variable a ` classer Y et 23 variables explicatives (X1 , . . . , X23 ) dont 8 sont nume riques et les autres qualitatives. La variable Y est binaire et repre sente les mauvais emprunteur (code 1) et bon emprunteur (code 0). Le nombre de mauvais clients est relativement faible (6 %), ce qui est typique pour les donne es de cre dit. Le tableau suivant donne la fre quence des deux modalite s de Y sur les deux e chantillons dapprentissage et de test. TABLEAU 1 ` discriminer Y Fre quences des deux modalite s de la variable a Y 0 1 Total Apprentissage 3 888 (94 %) 247 (6 %) 4 135 Test 1 918 (93.9 %) 125 (6.1 %) 2 043
L etude unidimensionnelle, effectue e par Komora d (2003) et Mu ller & Ha rdle (2002), montre que les variables continues (X1 , . . . , X8 ) pre sentent des distributions tr` es dissyme triques. De plus, les variables X5 , X7 et X8 sont de structure quasidiscr` ete. Ainsi, Mu ller & Ha rdle (2002) se sont concentre s sur les variables X1 a ` X4 et X6 , qui pre sentent une variation continue, pour leur inclusion de mani` ere nonparame trique dans le mod` ele de re gression logistique line aire. De plus, une e tude ` X3 , effectue e par Mu ller & Ha rdle (2002), montre que les bidimensionnelle sur X1 a hypoth` eses de ADL ou ADQ (contours circulaires ou elliptiques) sont difcilement justiables. Komora d (2003) a divise , dune mani` ere ale atoire, l echantillon global en deux sous ensembles : apprentissage et test. Lapprentissage repre sente 2/3 de l echantillon global (4 135 observations), il est utilise pour construire les r` egles de de cision. Le chier test contient le 1/3 restant (2043 observations), et il est utilise pour valider les r` egles de de cision construites sur l echantillon dapprentissage. Les deux chiers pre ce dents, utilise s dans notre e tude, sont archive s dans son site web, respectivement sous les noms data-train.dat et data-test.dat. Le tableau 1 ci-dessus re sume la re partition des observations dans les deux groupes pour les deux e chantillons. Le taux de mauvais payeur (groupe 2 : Y = 1) repre sente 6 % et est conside re comme normal par les spe cialistes de cre dit.
3. Me thodes de scoring non-parame triques Cette section de crit les diffe rentes me thodes, applique es aux chiers de donne es pre ce dents, que nous avons conside re es pour comparaison.
3.1. Mod` ele de location non-parame trique Soient x un vecteur de variables binaires de dimension r et z un vecteur de variables nume riques de dimension q . Ici, notre vecteur dobservation est de crit par p = r + q variables mixtes. Les r variables binaires peuvent e tre exprime es comme un vecteur multinomial wt = (w1 , ..., wC ) o` u C = 2r . Ainsi, chaque vecteur x de nit de mani` ere unique une cellule : xt = (x1 , ..., xr ) a pour cellule r m = 1 + i=1 xi 2i1 . On suppose quon a deux groupes G1 (bon emprunteur : Y = 0) et G2 (mauvais emprunteur : Y = 1). Le mod` ele de location (ML) suppose que, conditionnellement au groupe Gi et au fait que le vecteur x tombe dans la cellule (m) m, le vecteur z suit une loi normale multivarie e de moyenne i et de matrice variance , i = 1, 2; m = 1, ..., C , i.e. (z | Gi , wm = 1, wj = 0, j = m) Nq (i
(m)
, ).
(1)
Nous de signons par pim la probabilite quune observation de la cellule m appartienne etres sont au groupe Gi (cf. Krzanowski 1975). Si nous supposons que tous les param` connus, la r` egle de de cision optimale permet daffecter une observation (xt , zt )t au groupe G1 si m = (1
(m)
1 (m) p2 m (m) (m) 2 )t 1 {z (1 + 2 )} log( ) 2 p1 m
et au groupe G2 sinon, si x a pour cellule m (m = 1, . . . , C ). Mais, les param` etres sont en ge ne ral inconnus et doivent e tre estime s sur l echantillon dapprentissage. Ainsi, les estimateurs du maximum de vraisemblance, sans biais, des param` etres (m) (m) (m) (m) im i o` i = (1/nim ) n sont : p im = nim /ni , i = z uz z , j =1 ji =S= 1
C C 2 nim
(zji zi
m=1 i=1 j =1
(m)
(m)
)(zji zi
(m)
(m) t
) , (2)
(n1m + n2m 2)
m=1
o` u nim de signe le nombre dobservations du groupe i tombant dans la cellule m, (m) eme ni = #Gi et zji est le vecteur z observe pour le j ` individu du groupe Gi de la cellule m. Deux inconve nients majeurs limitent lutilisation pratique de cette r` egle de de cision : lestimation du vecteur moyen dune cellule donne e est fonde e seulement sur les variables discr` etes et ignore compl` etement linformation que peuvent apporter les variables continues. en pre sence dun grand nombre de variables discr` etes, lestimation de probabilite s discr` etes peuvent mener a ` des r` egles de mauvaise performance, car de trop nombreux param` etres sont a ` estimer. Une alternative a e te propose e par Asparoukhov et Krzanowski (2000) pour e viter ces deux probl` emes. Elle consiste dabord a ` ajuster la moyenne du vecteur z
10
( )
dans une cellule m pour le groupe Gi par une moyenne ponde re e des z i effectue es sur toutes cellules (1 C ). Lestimation de la moyenne de la j -` eme variable continue de la cellule m du groupe Gi est alors donne e par
C C
ij
(m)
={
=1
ni ij (m, )}1
=1 C
ij (m, )ni z ij ,
( )
(3)
o` u0 ij (m, l) 1 et =1 ni ij (m, ) > 0 pour m, l = 1, ..., C ; i = 1, 2; ( ) ( ) eme i . Un des j = 1, ..., q et z ij de signe la j ` composante (1 j q ) du vecteur z choix inte ressants de la famille de poids propose e par ces derniers auteurs est de type d(m, ) exponentiel : ij (m, ) = ij , 0 < ij < 1, i = 1, 2; j = 1, . . . , q ; m, = 1, . . . , C , o` u le coefcient de dissimilarite d(m, ) = (xm x )t (xm x ) est une valeur enti` ere, repre sentant le nombre de de saccords entre les deux cellules m et . Ainsi, ce poids est une fonction exponentielle du coefcient de dissimilarite qui de cro t d` es que le coefcient cro t. An de re duire le nombre de param` etres de lissage, Asparoukhov et Krzanowski (2000) ont propose diffe rentes restrictions selon les deux indices (i, j ). Leur e tude comparative avec dautres me thodes de discrimination (CART, re seaux de neurones, logistique etc.) conforte ce choix de poids de type exponentiel. Maintenant, il reste a `e valuer lensemble de tous les param` etres de lissage en maximisant la vraisemblance par validation croise e (ou pseudo-vraisemblace) des observations (z1 , . . . , zn ) correspondantes aux variables continues (cf. Asparoukhov et Krzanowski 2000). Mais le temps de calcul de maximisation de cette pseudovraisemblance peut e tre prohibitif d` es que le nombre de variables binaires de passe 4 ou 5, et parfois lalgorithme (fonction constr de Matlab) ne converge pas vers une bonne solution (comme dans notre exemple avec 15 variables qualitatives). Pour re duire le temps de calcul , nous avons xe une grille de valeurs dans [0, 1] pour le param` etre (i.e = 0, 1/10, 2/10, . . . , 9/10, 1) et nous avons conside re des poids qui sont inde pendants des indices du groupe et des variables continues (i et j ) : ij (m, ) = d(m, ) , m, = 1, . . . , C. Puis nous estimons la valeur de fournissant le meilleur taux derreur sur le chier apprentissage. Cette de marche fournit un tr` es bon re sultat. Ne anmoins, la bonne strate gie est de conside rer lestimation du taux derreur par validation croise e, mais elle est prohibitive en temps de calcul dans notre exemple. Par ailleurs, pour e viter le second probl` eme dinstabilite des estimations des probabilite s discr` etes, Asparoukhov et Krzanowski (2000) ont conside re lestimateur non-parame trique de Hall (1981), fonde sur les plus proches voisins ponde re s, de ni par
r 1 p im = n i j =0
ij Nim ,
(j )
m = 1, ..., C ; i = 1, 2,
(4)
o` u Nim est le nombre dindividus x du groupe Gi tels que d(xm , x) = j . Le vecteur des poids i = (i1 , . . . ir )t est choisi de sorte a ` minimiser la moyenne des C 2 erreurs standards au carre E ( p p ) . Cette minimisation fournit une solution i i =1
(j )
11
optimale explicite du vecteur des poids wi , i = 1, 2 (cf. Hall 1981). Cet estimateur optimal est tr` es exible, mais il a parfois une tendance a ` un sur-ajustement des donne es (cf. Hall 1981, Mkhadri 1991, Aparoukhov et Danchev 1997). Ne anmoins, le re sultat performant de ce mod` ele sur notre exemple de donne es bancaires conrme lutilite de cette estimation non-parame trique. Une alternative a ` lestimation non-parame trique des probabilite s discr` etes est de conside rer le mod` ele dinde pendance conditionnelle (MIC). Ce mod` ele, qui vise a ` re duire le nombre de param` etres a ` estimer (juste r param` etres), suppose que les r variables binaires sont inde pendantes a ` linte rieur de chaque groupe. Les estimations p i (x) des probabilite s discr` etes par groupe sont donne es par, pour i = 1, 2 p i (x) = #{x Gi |xj = xj } , ni j =1
r
(5)
eme o` u xj repre sente la j ` coordonne e du vecteur x et xj celle de x . Limple mentation de MIC ne cessite une correction du nume rateur an d eviter les probl` emes de la nullite des estimations des probabilite s discr` etes (cf. Celeux et Nakache 1994, p. 27). Le grand inte re t de MIC est de proposer un nombre re duit de param` etres a ` estimer pour chaque groupe : r param` etres au lieu de 2r 1 pour le mod` ele multinomial complet dans le cas de variables binaires. Par ailleurs, par des transformations alge briques simples (cf. Celeux et Nakache 1994, p. 27), on peut montrer que la r` egle de de cision de MIC est fonction line aire des composantes de x. Ainsi, la r` egle de de cision associe e au mod` ele de location est une fonction line aire de z et des composantes de x. Ce genre de r` egle de de cision line aire simple est beaucoup appre cie dans le domaine du scoring pour sa facilite dinterpre tation de la contribution de chaque variable a ` la fonction score.
3.2. Me thodes fonde es sur les k -plus proches voisins Nous nous inte ressons maintenant aux me thodes non-parame triques des k plus proches voisins (k -ppv). On commence dabord par la me thode classique nonprobabiliste, et nous pre sentons bri` evement la me thode probabiliste propose e re cemment par Holmes & Adams (2002). Puis nous de crivons la discrimination barycentrique et lapproche de Buttrey (1998) fonde es sur la transformation optimale de variables qualitatives en variables quantitatives et lapplication respectivement de la me thode k -ppv et la distance du khi-deux sur le tableau transforme . 3.2.1. Me thode des k -plus proches voisins Cest une me thode tr` es ancienne (cf. Fix & Hodges 1951) et tr` es re pandue dans la communaute de lintelligence articielle. En effet, Holmes & Adams (2002) de comptent plus de 900 articles publie s au sujet de cette me thode. Elle est nonparame trique et ne pre suppose aucune forme pour la densite par groupe. Dans sa version de base, pour chaque vecteur x a ` classer, la proce dure k ppv examine ses k plus proches voisins dans l echantillon dapprentissage et laffecte a `
12
la classe majoritaire. Le terme proche est de termine selon une distance qui est souvent choisie de type euclidienne. Formellement, si l echantillon dapprentissage ae te obtenu selon un sche ma d echantillonnage re trospectif, la densite a posteriori du groupe Gi sachant le vecteur dobservation x peut e tre approxime e par vi (x) n v (x) ni i (6)
o` u v (x) (resp. vi (x)) est le nombre de points de l echantillon dapprentissage (resp. du groupe Gi ) tombant dans le petit voisinage de x et i est la probabilite a priori du ieme groupe (i = 1, 2) (cf. Celeux 2003). Les choix du nombre k et de la distance sont bien su r primordiaux. La se lection de k par la me thode de minimisation du taux derreur, estime par validation croise e, est la plus populaire (Ripley 1996). Par contre le choix souvent pre conise pour la me trique , pour de cider de la distance entre les points, est la me trique euclidienne usuelle. Mais, si les donne es sont compose es de variables mixtes (quantitatives et discr` etes), il est pre fe rable dans ce cas de conside rer une me trique adapte e a ` ce genre de donne es. Comme notre exemple est compose de donne es mixtes, au lieu dutiliser la me trique euclidienne usuelle, nous pre conisons lutilisation de la distance de dissimilarite suivante (cf. Friedman & Meulman 2002)
p
d(xi , xj ) =
k=1
k (xi , xj )/sk
(7)
k 2 k k ieme o` u k (xi , xj ) = (xk variable est i xj ) (resp. k (xi , xj ) = I (xi = xj )) si la k n n ieme continue (resp. si la k variable est qualitative) et sk = i=1 j =1 k (xi , xj )/n2 , ne tant le nombre dindividus.
3.2.2. Me thode probabiliste des k -plus proches voisins Ne anmoins, la me thode k -ppv pre sente deux inconve nients. Dabord, le choix du nombre de voisins k dans la me thode pre ce dente est soit xe davance, soit se lectionne selon lapproche de minimisation du taux derreur par validation croise e. De plus, les pre dictions fournies par lalgorithme k -ppv nont aucune interpre tation probabiliste et lapproche standard du comptage des fre quences de chaque groupe entra ne une discre tisation des pre dictions qui de pendent de k . Pour contourner ces difculte s, Holmes & Adams (2002) ont propose un cadre probabiliste pour k -ppv qui accommode lincertain en k ainsi que la force dinteraction entre voisins. Ils ont formule leur me thode en un algorithme se quentiel en blocs, o` u il est suppose que les blocs de donne es arrivent en fonction du temps : i.e. les donne es observe es D = {(Y1 , X1 ), . . . , (Ym , Xm )} sont compose es de m blocs, o` u ( s) ( s) ieme Ys = {y1 , . . . , yns } est lensemble des affectations des ns observations du s ( s) ( s) bloc et Xs = {x1 , . . . , xns } est lensemble des pre dicteurs associe s. Maintenant, soit Y = (Y1 , . . . , Ym ) = (y1 , . . . , yn ) lensemble des affectations combine es et soit X = (X1 , . . . , Xm ) = (x1 , . . . , xn ) lensemble des pre dicteurs

m
13
combine s, o` u n = s=1 ns . Holmes & Adams (2002) proposent que la distribution a priori jointe de Y s ecrive sous la forme exp(
Q
1 k
y i yj )
j i(k)
p(Y |X, , k ) =
i=1
, qyj )
(8)
1 exp( k q =1
j i(k)
o` u ab est la fonction de Dirac, ab = 1 si a = b, 0 sinon, est le param` etre dinteraction qui gouverne la force dassociation entre les voisins des yi (i = 1, . . . , n), et j i(k) signie que la somme est faite sur les k -plus proches voisins de xi , selon la me trique (.), appartenant a ` {X1 , X2 . . . , Xti }/xi , o` u ti est lindice du bloc contenant xi , A/xi signie que xi est retire de lensemble A et Q est le nombre de groupes (Q = 2 dans cet article). Le terme 1 j i(k) qyj de crit la proportion k des k plus proches voisins de xi du groupe q. La distribution pre dictive de la nouvelle observation s ecrit exp( p(yn+1 |xn+1 , Y, X, , k ) =
Q
1 k
yn+1 yj )
j n+1(k)
, qyj )
(9)
1 exp( k q =1
j n+1(k)
ainsi le groupe le plus probable pour yn+1 est donne par le groupe le plus commun a ` ses k plus proches voisins. Le param` etre dinteraction joue le ro le dun coefcient de re gression et les deux e quations (8) et (9) ont la forme dune re gression logistique locale sur les k plus proches voisins. Le traitement de et k comme a priori connus et xe s nest pas re aliste, et il ne tient pas compte de lincertitude dune composante essentielle dans le mod` ele. Pour accommoder cette incertitude, Holmes & Adams (2002) affectent des distributions a priori a ` et k , qui entra nent que la distribution pre dictive marginale s ecrit p(yn+1 |xn+1 , Y, X) =
k
p(yn+1 |xn+1 , Y, X, , k )p(, k |Y, X)d,
(10)
o` u p(, k |Y, X) p(Y |X, , k )p(, k ). Un algorithme de simulation de cha ne de Markov MCMC est propose par les auteurs pour approximer l equation (10). Lattrait principal de la me thode est quaucune hypoth` ese sur la distribution des pre dicteurs nest suppose e. Par ailleurs, la me thode est compl` etement automatique, avec juste deux param` etres inconnus auxquels ont e te affecte s des lois a priori de type uniformes (Holmes & Adams 2002). Mais, un inconve nient majeur est que les calculs par simulation peuvent e tre cou teux.
14
Pour notre exemple de donne es mixtes, nous avons adapte leur programme a ` notre cadre en remplac ant la me trique euclidienne par la me trique (7) qui est plus adapte e aux variables mixtes. 3.2.3. Me thode des k -plus proches voisins pour variables cate gorielles Buttrey (1998) a propose une technique pour adapter les k -plus proches voisins aux variables qualitatives. Lide e est de remplacer dune mani` ere optimale chaque modalite dune variable par un nombre re el. Du coup, on peut appliquer sur le nouveau tableau de donne es, avec variables quantitatives, la me thode k -ppv avec la me trique euclidienne. Conside rons par exemple le cas dune seule variable x = (x1 , . . . xn )t , o` u chaque xi prend une valeur enti` ere parmi m1 valeurs, disons 1, 2, . . . , m1 pour xer les ide es, tandis que yi prend une valeur de groupe parmi Q valeurs. Soit (.) la transformation qui convertit les n valeurs enti` eres de x en n nombres re els non ne cessairement uniques : (x) = (1 , . . . , n )t . La maximisation du rapport de la variance totale sur la variance intra-groupes permet de se lectionner les j = (j )(1 j m1 ) optimaux . Cette approche s etend de la me me mani` ere au cadre de p variables qualitatives (cf. Buttrey 1998 pour plus de de tails). La solution est en fait donne e par le premier facteur de lanalyse des correspondances du tableau croisant Y et x. De me me, la me thode permet de traiter le probl` eme de discrimination avec variables mixtes. Ce traitement est fonde sur la transformation des variables quantitatives en variables qualitatives, via une repre sentation similaire a ` une fonction spline line aire (cf. Buttrey 1998 pour plus de de tails). Lapproche a e te imple mente e sous le langage R, et elle est disponible dans les paquetages sous le nom knncat . Lavantage de knncat est quelle tient compte de la variable a ` discriminer Y , tandis que la me thode Disqual (Saporta 1977), fonde e sur le codage des variables qualitatives en utilisant lanalyse des correspondances multiples, nen tient pas compte (cf. Carlier 1994 pour plus de de tails). Par ailleurs, les re sultats encourageants obtenus par knncat sur plusieurs exemples classiques de dimension importante, disponibles sur le web , nous ont pousse s a ` la tester sur notre exemple de donne es bancaires.
3.3. Discrimination barycentrique La me thode de la discrimination barycentrique (DB) semble, en fait, plus inte ressante que Disqal, car elle prend en compte les diffe rences de re partition des pre dicteurs entre les groupes (cf. Nakache et al. 1977). Re cemment, Carlier (1994) a pre sente une revue inte ressante des me thodes exploratoires pour lanalyse discriminante sur variables qualitatives. Contrairement a ` knncat, DB est facile a ` mettre en uvre avec un programme danalyse factorielle des correspondances (AFC). En effet, DB se de nit ainsi : a ` partir du tableau des donne es X de p variables qualitatives, on construit le tableau C a ` Q lignes (Q e tant le nombre de groupes p ` priori) et m = j =1 mj colonnes (mj est le nombre de modalite a s de la j e ` me
15
variable) de ni par Cj =
xi G
xj i
pour = 1, . . . , Q et j = 1, . . . , m
o` u G est l echantillon dapprentissage du groupe . Par conse quent, le vecteur C est proportionnel au centre de gravite du groupe . Ensuite on effectue lanalyse des correspondances du tableau C. La projection des individus xi (i = 1, . . . , n), conside re s comme lignes supple mentaires du tableau C, sur les facteurs de Rm de cette analyse constitue le codage a ` partir duquel on peut utiliser toute r` egle de de cision. Pour notre exemple, nous avons conside re sur le tableau transforme la r` egle de de cision fonde e sur la distance du khi-deux (note e DB), sur k -ppv (note e DBk -ppv) et sur MPk -ppv (note e DBMPk -ppv). 3.4. Me thode de discrimination fonde e sur une distance La r` egle de discrimination base e sur la distance est la plus simple, la plus ancienne et elle est formellement attribue e a ` Matusita (1956). Dans le cas de deux groupes a ` discriminer, elle consiste a ` affecter une observation v au groupe le plus proche : affecter v au groupe Gj si (v, Gj ) = min[(v, G1 ), (v, G2 )], j = 1, 2, o` u (v, Gj ) de signe la distance entre lobservation v et le groupe Gj . Krzanowski (1993) pre sente une excellente revue sur les diffe rentes me thodes de discrimination fonde es sur les distances et leurs proprie te s asymptotiques. ` notre connaissance, lapproche re A cente la plus inte ressante fonde e sur la distance est due a ` Cuadras (1989) en sinspirant de lindice de diversite de Rao (1) (1) (1982). Dans le cas de deux groupes a ` discriminer, si on de signe par (x1 , . . . xn1 ) (2) (2) et (x1 , . . . , xn2 ) les e chantillons respectifs des groupes G1 et G2 , Cuadras (1989) de nit les deux fonctions discriminantes F1 (v) = 1 n1
n1
2 (v, xi )
i=1
(1)
1 2n2 1
n1
n1
2 (xi , xj );
i=1 j =1
(1)
(1)
F2 (v) =
1 n2
n2
2 (v, xi )
i=1
(2)
1 2n2 2
n2
n2
2 (xi , xj )
i=1 j =1
(2)
(2)
(11)
et affecte v au groupe Gj si Fj (v) = min(F1 (v), F2 (v)), j = 1, 2, o` u est un indice de distance. Lavantage de cette approche, quon appellera DistCuad, est quelle op` ere exclusivement sur les distances entre observations au lieu de distances entre groupes ge ne ralement propose es dans la litte rature sur ce sujet (cf. Bar-Hen et Daudin 1995
16
pour une nouvelle distance entre populations pour variables mixtes). Ainsi, nous pouvons utiliser nimporte quelle mesure standard de classication qui tient compte non seulement de variables he te rog` enes, mais aussi de certains obstacles comme les donne es manquantes. Cuadras et Fortiana (1997) ont prouve que cette me thode peut fournir un bon re sultat sur un exemple de dimension mode re e. Ils ont conside re lindice de coefcient de similarite de Gower (1971), similaire a ` (7) avec sk = 1 pour tout k , pour le choix de . Pour notre application re elle, nous avons choisi pour lindice (7) comme pour les me thodes de k ppv. 3.5. R` egle de de cision baye sienne Pour mieux comprendre le point de vue baye sien adopte dans nos applications, avec lintroduction des cou ts de mauvais classement et des probabilite s a priori, nous rappelons bri` evement la mani` ere dont la r` egle de de cision baye sienne est construite. On dispose dun e chantillon de n individus de crits par p variables explicatives X 1 , . . . , X p dont lappartenance a ` lun des deux groupes a priori G1 , G2 est connu. Le mod` ele statistique le plus ge ne ral pour de nir une r` egle de de cision optimale est le mod` ele baye sien. La r` egle de de cision baye sienne est celle qui minimise lespe rance du cou t de mauvaise classication. Cette r` egle optimale de pend essentiellement des probabilite s a priori P r(G ), = 1, 2 des groupes (P r(G ) 0 pour tout et P r(G1 ) + P r(G2 ) = 1), des cou ts de mauvaise classication C ( , k ), qui repre sentent le cou t de mauvais classement dun individu de Gk dans G (on a bien su r C ( , ) = 0), et des densite s de probabilite par groupe f (x), = 1, 2, x appartenant a ` lensemble des valeurs possibles des variables explicatives. Ainsi la r` egle de de cision optimale est de nie par x est affecte a ` G1 x est affecte a ` G2 si si C (1, 2)P (G2 |x) < C (2, 1)P (G1 |x) C (1, 2)P (G2 |x) > C (2, 1)P (G1 |x),
P (G |x) de signant la probabilite a poste riori du groupe G . En utilisant la formule de Bayes, la r` egle de Bayes peut donc s ecrire x est affecte a ` G1 x est affecte a ` G2 si si C (1, 2)P r(G2 )f2 (x) < C (2, 1)P r(G1 )f1 (x) C (1, 2)P r(G2 )f2 (x) > C (2, 1)P r(G1 )f1 (x).
Ainsi, la construction effective dune r` egle de de cision revient a ` estimer les probabilite s a priori des groupes, les cou ts de mauvais classement et les densite s de probabilite par groupe. Les deux premi` eres quantite s sont en ge ne ral spe ci ees, et ainsi lope ration principale de la discrimination a ` but de cisionnel est lestimation des densite s par groupe f (x), = 1, 2. Les me thodes destimation les plus utilise es sont fonde es sur la me thode destimation par maximum de vraisemblance pour les mod` eles parame triques (comme le mod` ele de location) ou sur lestimation non parame trique de la densite (comme les k -plus proches voisins). Pour notre application sur donne es re elles, trois options (de nies en Section 4) sont conside re es pour le choix des cou ts de mauvais classement et des probabilite s a priori.
17
Par ailleurs, pour adapter les me thodes de discrimination base es sur les distances (DB et Discuad), de nies en Sections 3.3 et 3.4, au cadre de discrimination baye sienne, nous avons utilise une transformation de type K exp(x/2), o` u K est une constante de normalisation et x le carre dune distance ou son e quivalent (x = F (v ), = 1, 2 dans le cas de la me thode DistCuad, cf. formule (11)). Cette transformation permet de retrouver les r` egles de de cision initiales (de nies en sections 3.3 et 3.4) dans le cas d egalite des cou ts et d egalite des probabilite s a priori. 4. Application aux donne es re elles Dans cette section, nous comparons les re sultats des trois familles de me thodes de scoring pre ce dentes sur les donne es bancaires de crites en Section 2 et sur un autre exemple de donne es australiennes de cre dit dont les groupes sont relativement e quilibre s. La premi` ere famille est compose e de trois me thodes fonde es sur le mod` ele de location : le mod` ele de location line aire homosce dastique (note MLH) base sur les e quations (1) et (2), le mod` ele de location non-parame trique (note MLNP-H) base sur les e quations (3) et (4) et enn, le mod` ele de location non-parame trique (note MLNP-MIC) base sur les e quations (3) et (5). La seconde famille est compose e de quatre me thodes fonde es sur les k -plus proches voisins qui utilisent la distance adapte e aux variables mixtes de nie par (7) : il sagit de la me thode classique des k -plus proches voisins (note e k ppv), de la me thode probabiliste des k ppv (note e MPk ppv), de la me thode de k ppv sur variables cate gorielles (note e k nncat) et de deux me thodes de discrimination barycentrique : lune avec les k ppv note e DBk ppv et lautre avec MPk ppv note e DBMPk ppv. La derni` ere famille se limite a ` la me thode fonde e sur une distance : la distance de Cuadras de nie par l equation (11) (note e DistCuad) en utilisant pour lindice (7) et la discrimination barycentrique avec une distance du chi-deux (note e DB). 4.1. Donne es de cre dit de la Compagnie Bancaire Les re sultats des diffe rentes me thodes sont re sume s dans le tableau 2 et le tableau 3 ci-dessous. Nous afchons les re sultats obtenus sur l echantillon dapprentissage et l echantillon test. Dans chaque cas, nous fournissons le nombre dindividus mal classe s (respectivement le pourcentage de mauvais classement) dans les deux groupes et le nombre total dindividus mal classe s (respectivement le poucentage global de mauvais classement). Nous fournissons aussi, entre parenth` eses, pour certaines me thodes, lestimation de certains param` etres de contro le (param` etre de lissage , nombre de voisins k ). Par ailleurs, trois options pour les choix des cou ts de mauvais classement et des probabilite s a priori ont e te conside re es an de rendre sens au risque de Bayes inconditionnel : (1) : P r(G1 ) = P r(G2 ) = 1/2, C (2, 1) = n2 /(n1 + n2 ) et C (1, 2) = n1 /(n1 + n2 ), (2) : P r(G1 ) = C (1, 2) = n1 /(n1 + n2 ) et P r(G2 ) = C (2, 1) = n2 /(n1 + n2 ), (3) : P r(G1 ) = P r(G2 ) = 1/2 et C (1, 2) = C (2, 1) = 1.
18
Toutes les me thodes, sauf knncat, ont e te compare es pour les trois options pre ce dentes. La me thode knncat a e te conside re e uniquement pour loption (3) pour laquelle elle ae te programme e pour le logiciel R. Nous lavons conside re e, pour cette option, seulement pour comparer sa performance par rapport a ` la me thode similaire DBk ppv qui est plus simple a ` programmer.
TABLEAU 2 Effectifs et nombre de mauvais classement sur les e chantillons dapprentissage et de test de la compagnie bancaire
Eectifs totaux Options M ethodes Total MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) (1) kppv (kopt = 1) MPkppv DB DBkppv (kopt = 7) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) kppv (kopt = 1) MPkppv DB DBkppv(kopt = 7) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) kppv (kopt = 1) MPkppv knncat DB DBkppv (kopt = 7) DBMPkppv DistCuad 247 118 118 185 301 247 255 277 1104 1596 51 212 185 301 247 255 277 10 1596 51 212 148 247 256 247 247 247 0 4135 3888 Apprentissage G1 0 0 0 110 57 0 9 31 1101 1595 40 212 113 59 0 10 33 0 1595 40 212 4 0 11 0 0 0 0 G2 247 118 118 75 244 247 246 246 3 1 11 0 72 242 247 245 244 10 1 11 0 144 247 245 247 247 247 0 Total 125 124 124 191 142 125 136 126 588 846 109 154 192 143 125 135 125 125 846 109 154 141 125 127 125 125 125 127 247 2043 1918 Test G1 0 0 0 72 18 0 11 3 504 778 38 144 74 20 0 11 3 0 778 38 144 17 0 2 0 0 0 2 G2 125 124 124 119 124 125 125 123 84 68 71 10 118 123 125 124 122 125 68 71 10 124 125 125 125 125 125 125 125
(2)
(3)
19
TABLEAU 3 Pourcentages de mauvais classement sur les e chantillons dapprentissage et de test de la compagnie bancaire
Eectifs totaux Options M ethodes Total MLH MLNP-H (opt = 0.10) (1) MLNP-MIC (opt = 0.10) kppv (kopt = 1) MPkppv DB DBkppv (kopt = 7) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) (2) kppv (kopt = 1) MPkppv DB DBkppv(kopt = 7) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) kppv (kopt = 1) MPkppv knncat DB DBkppv(kopt = 7) DBMPkppv DistCuad 5.97 2.85 2.85 4.47 7.28 5.97 6.17 6.70 26.70 38.60 1.23 5.13 4.47 7.28 5.97 6.17 6.70 2.4 38.6 1.23 5.13 3.6 6 6.2 6 6 6 0 4135 3888 Apprentissage G1 0 0 0 2.83 1.47 0 0.23 0.80 28.32 41.02 1.03 5.45 2.91 1.52 0 0.26 0.85 0 41.01 1.03 5.45 1 0 .3 0 0 0 0 G2 100 44.77 44.77 30.36 98.79 100 99.60 99.60 1.21 0.40 4.45 0 29.15 97.98 100 99.19 98.79 4.05 0.4 4.45 0 58.3 100 99.2 100 100 100 0 Total 6.12 6.07 6.07 9.35 6.95 6.12 6.66 6.17 247 2043 1918 Test G1 0 0 0 3.75 0.94 0 0.57 0.16 G2 100 99.20 99.20 95.20 99.20 100 100 99.40 125
28.78 26.28 67.20 41.41 40.56 54.40 5.34 7.54 9.40 7 6.12 6.61 6.12 6.2 5.34 7.54 6.9 6 6.2 6 6 6 6.2 1.98 7.50 3.86 1.04 0 0.57 0.16 0 1.98 7.5 .9 0 .1 0 0 0 .05 56.80 8 94.40 98.40 100 99.20 97.60 100 54.4 56.8 8 99.2 100 100 100 100 100 100
41.41 40.56
(3)
Il est bien connu que le taux derreur apparent dune r` egle de de cision, estime sur l echantillon dapprentissage, est tr` es optimiste. Par conse quent, nos commentaires suivants sur la performance de diffe rentes me thodes de scoring sera fonde e essentiellement sur les re sultats sur l echantillon test. Dapr` es la lecture des re sultats sur l echantillon test, nous distinguons quatre points saillants suivants.
20
Pour loption (1), o` u les cou ts de mauvais classement sont proportionnels aux effectifs des groupes, les diffe rentes me thodes fournissent un pourcentage de mauvais classement inconditionnel sur l echantillon test comparable de lordre de 6%, sauf k ppv (9.35%) et DistCuad (28.78%). Les pourcentages de mauvais classement, sur le chier test, de diffe rentes me thodes sont relativement identiques pour loption (2) et (3), sauf pour k ppv qui a produit une re duction de pourcentage de mauvais classement inconditionnel de lordre (2.5%) pour loption (3). Mais, selon le nombre conditionnel de mauvais classements sur l echantillon test et dans le cadre de loption (1), DistCuad fournit le meilleur taux derreur conditionnel au groupe G2 de lordre de 67.20% et le plus fort taux derreur conditionnel au groupe G1 (26.28%). Les autres me thodes classent bien les obervations du groupe bons payeurs G1 avec un taux derreur qui oscille entre 0 et 3.7%, tandis quelles classent mal presque tous les e le ments du second groupe mauvais payeurs G2 deffectif tr` es faible. Dautre part, pour les options (2) et (3), les me thodes fonde es sur le mod` ele de location ont produit les meilleurs pourcentages de mauvais classement par rapport a ` G2 sur le chier test. MLNP-MIC domine largement MLNP-H et MLH sur G2 (8% contre 54.4% pour MLH et 56.8% pour MLNP-H), alors que MLNPH domine ces deux derni` eres sur G1 (1.98% contre 7.5% pour MLNP-MIC et 40.6% pour MLH). Les autres me thodes affectent presque parfaitement les observations du groupe G1 (taux derreur oscillant entre 0 et 3.86%) et classent mal presque toutes les observations du groupe G2 (taux derreur oscillant entre 94.4 et 100% pour loption (2) et 99.2 et 100% pour loption (3)). Ce qui signie que la me thode destimation de la probabilite discr` ete dans le mod` ele de location joue un ro le important dans la r` egle de de cision. Par ailleurs, il faut signaler que le taux global (ou conditionnel a ` G1 ) tr` es fort obtenu par MLH justie amplement la proce dure dajustement de la moyenne de chaque variable continue dans une cellule par une moyenne ponde re e sur toutes les cellules (3), proce dure qui est tr` es be ne que sur cet exemple. Par ailleurs, pour loption (3) d egalite des cou ts de mauvais classement et des probabilite s a priori, la me thode DBk ppv a un comportement similaire a ` knncat, mais elle ne cessite peu de calculs et est donc plus facile a ` mettre en uvre que knncat. De plus il est surprenant que DistCuad affecte correctement toutes les observations de l echantillon dapprentissage pour loption (3).
4.2. Donne es australiennes de cre dit Les donne es australiennes de cre dit ont e te te le charge es du site web UCI Repository : www.liacc.up.pt/ML/statlog/datasets.html . Elles ont e te e norme ment utilise es, pour la comparaison de diffe rentes me thodes re centes dapprentissage supervise , essentiellement par la communaute de lintelligence articielle. Au total, on dispose de 690 observations de crites par 14 variables mixtes (8 quantitatives et 6 qualitatives) o` u certaines valeurs sont manquantes. Contrairement a ` lexemple pre ce dent, les deux groupes qui composent cette population sont relativement e quilibre s : 383 observations (55.5%) pour G1 et 307 observations (44.5%) pour G2 . Pour e viter le
21
probl` eme de donne es manquantes, nous avons e limine 3 variables qualitatives, et nous avons subdivise notre e chantillon en deux e chantillons dapprentissage et test, dont les fre quences sont re sume es dans le tableau 4. Ainsi, les deux groupes sont relativement e quilibre s et de plus le nombre de variables discr` etes est infe rieur a ` celui des variables quantitatives. Ce qui a priori ne va certainement pas avantager les me thodes fonde es sur le mod` ele de location. Les re sultats des diffe rentes me thodes sont re sume es dans les tableaux 5 et 6. TABLEAU 4 ` discriminer Y Fre quences des deux modalite s de la variable a pour donne es australiennes de cre dit Y 0 1 Total Apprentissage 235 (56%) 185 (44%) 420 Test 148 (55%) 122 (45%) 270
Nous constatons, que dans le cas de loption (1), DistCuad re alise le plus faible pourcentage de mauvais classement global sur l e chantillons test e gal a ` 11.48%, gal a ` 25.41%. Elle est avec un taux derreur nul sur G1 et un score correct sur G2 e suivie, sur l echantillon test, par k ppv et MLNP-H qui re alisent respectivement un taux global de lordre de 25.19% et 30.37%. Mais MLNP-H re alise, sur le chier test, un taux conditionnel remarquable (13.11%) sur G2 beaucoup plus faible que celui de DistCuad (25.41%) et k ppv (59.90%), tandis que DB classe mal toutes les observations de G2 (100%) et classe parfaitement toutes les observations de G1 (0%), alors que MPk ppv et DBMPk ppv produisent un re sultat compl` etement oppose a ` celui de DB. Dans le cas de loption (2) et sur le chier test, DistCuad domine toujours avec un taux global et conditionnel par rapport a ` G1 et G2 spectaculairement faible. Elle est suivie par respectivement k ppv et MLNP-H, alors que les me thodes MPk ppv, DB et DBMPk ppv se comportent de la me me mani` ere que DB dans (1) ; elles classent parfaitement les observations de G1 et de classent toutes les observations de G2 . Par contre dans le cas de loption (3) d egalite des cou ts et de probabilite a priori, DBk ppv domine avec un taux global et conditionnel par rapport a ` G2 spectaculairement faible sur le chier test. Elle est suivie par respectivement knncat, MPk ppv, k ppv et MLNP-H. DBMPk ppv et DistCuad se comportent relativement de la me me mani` ere que DBMPk ppv dans le cas de loption (2). Par conse quent, cet exemple montre que la discrimination fonde e sur une distance DistCuad peut fournir, sur chier test, un taux derreur tr` es faible dans le cas des cou ts proportionnels aux effectifs des groupes (i.e. option (1) ou (2)), mais elle seffondre compl` etement dans le cadre usuel d egalite des cou ts et d egalite de probabilite s a priori des groupes (i.e. loption (3)) avec un taux derreur global tr` es fort. Les trois me thodes fonde es sur DB ont fourni des re sultats me diocres dans le cadre des options (1) ou (2), mais elles ont fourni un re sultat compl` etement oppose au
22
pre ce dent (sauf DBMPk ppv) dans le cas de loption (3), avec un re sultat spectaculaire pour DBk ppv. TABLEAU 5 Effectifs et nombre de mauvais classement sur les e chantillons dapprentissage et de test de donne es australiennes de cre dit
Eectifs totaux Options M ethodes Total MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) (1) kppv (kopt = 1) MPkppv DB DBkppv (kopt = 1) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) (2) MLNP-MIC (opt = 0.10) kppv (kopt = 1) MPkppv DB DBkppv (kopt = 1) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) (3) kppv (kopt = 1) MPkppv knncat DB DBkppv (kopt = 1) DBMPkppv DistCuad 77 1 0 62 235 185 163 235 56 47 0 0 59 79 193 163 185 56 47 0 0 59 103 54 0 3 180 134 420 235 Apprentissage G1 67 1 0 11 235 0 0 235 0 27 0 0 19 6 12 0 0 0 27 0 0 27 15 25 0 3 0 0 G2 10 0 0 51 0 185 163 0 56 20 0 0 40 73 181 163 185 56 20 0 0 32 88 29 0 0 180 134 Total 116 82 99 68 148 122 108 148 31 120 67 113 59 122 122 108 122 31 120 67 113 55 55 45 59 5 122 114 185 270 148 Test G1 74 66 74 12 148 0 1 148 0 59 22 61 14 0 0 1 0 0 59 22 61 16 18 13 0 5 0 0 G2 42 16 25 56 0 122 107 0 31 61 45 52 45 122 122 107 122 31 61 45 52 39 37 32 59 0 122 114 122
23
TABLEAU 6 Pourcentages de mauvais classement sur les e chantillons dapprentissage et de test de donne es australiennes de cre dit
Eectifs totaux Options M ethodes Total MLH MLNP-H (opt = 1) MLNP-MIC (opt = 1) kppv (kopt = 0.10) (1) MPkppv DB DBkppv (kopt = 1) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) (2) kppv (kopt = 1) MPkppv DB DBkppv (kopt = 1) DBMPkppv DistCuad MLH MLNP-H (opt = 0.10) MLNP-MIC (opt = 0.10) kppv (kopt = 1) MPkppv knncat DB DBkppv (kopt = 1) DBMPkppv DistCuad 18.33 0.02 0 14.76 55.95 44.05 38.81 55.95 13.33 11.19 0 0 14.05 18.81 45.95 38.81 44.05 13.33 11.2 0 0 14 24.5 12.8 0 .7 42.8 31.9 420 235 Apprentissage G1 28.51 0.04 0 4.68 100 0 0 100 0 11.49 0 0 8.05 2.55 5.11 0 0 0 11.5 0 0 11.5 6.4 10.6 0 1.3 0 0 G2 5.41 0 0 0 100 88.11 0 Total 42.96 41.8 54.81 45.19 40 54.81 185 270 148 Test G1 50 41.2 8.11 100 0 0.68 100 0 G2 34.43 42.6 59.90 0 100 87.70 0 25.41 50 122
30.37 44.59 13.11
27.57 25.19
30.27 11.48 0 0
10.81 44.44 39.86
24.81 14.86 36.89 41.85 33.78 42.62 9.46 0 0 0.68 0 0 39.8 14.8 41.2 10.8 12.1 8.9 0 3.4 0 0 36.89 100 100 87.70 100 25.41 50 36.9 42.6 32 30.3 26.2 48.3 0 100 93.4
21.62 21.85 39.46 45.19 97.84 45.19 88.11 100 10.8 0 0 17.3 47.6 15.7 0 0 97.3 72.4 40 45.19 44.4 24.8 41.8 20.4 20.4 16.7 21.8 1.8 45.2 42.2
30.27 11.48
(3)
5. Conclusion Dans cet article, nous avons pre sente et illustre la performance de trois familles de me thodes de scoring sur deux bons exemples de donne es de cre dit bancaire
24
(donne es de la Compagnie Bancaire et australiennes) dont les effectifs des groupes sont respectivement tr` es de se quilibre s et e quilibre s. De plus, les variables explicatives sont de nature he te rog` ene et leur nombre (23) est relativement important pour le premier exemple et mode re pour le second (11), le nombre de variables qualitatives pour ce dernier e tant faible (3) et infe rieur a ` celui des variables quantitatives. Notre expe rience sur le premier exemple, deffectifs de groupes tr` es de se quilibre s, a montre que lutilisation des me thodes non-parame triques fonde es sur le mod` ele de location peut fournir dexcellents re sultats dans le cadre du scoring pour les cas des options (2) et (3). Elles ont lavantage de fournir un taux global de mauvais classement faible (surtout MPNP-H) et de tr` es bons taux conditionnels surtout pour le groupe des mauvais payeurs deffectif tr` es faible. Ne anmoins, si linte re t est porte sur les r` egles de de cision line aires qui facilitent linterpre tabilite de la contribution de chaque variable a ` la fonction score, on peut dans ce cas pre coniser la me thode MPNPMIC (qui, de plus, classe mieux les mauvais payeurs ). Les autres me thodes ont tendance a ` fournir des taux de mauvais classement tr` es de se quilibre s : elles classent parfaitement les bons payeurs et e prouvent d enormes difculte s a ` bien classer les mauvais payeurs . Par ailleurs, lutilisation de la proce dure dajustement de la moyenne dune cellule donne e par la formule (3), et la me thode destimation non parame trique de la probabilite discr` ete ont e te tr` es be ne ques sur cet exemple. Le second exemple, deffectifs de groupes e quilibre s, a mis en e vidence le comportement oppose de la discrimination fonde e sur une distance DistCuad avec les me thodes fonde es sur la discrimination barycentrique (sauf MPDBk ppv). DistCuad domine toutes les me thodes dans le cas des options (1) et (2), mais elle produit un tr` es mauvais re sultat dans le cas de loption usuelle (3), alors que les me thodes fonde es sur DB (sauf MPDBk ppv) fournissent un re sultat compl` etement oppose a ` ce dernier. Les me thodes fonde es sur les k ppv et le mod` ele de location non-parame trique gardent une position interme diaire pour les diffe rentes options conside re es pour le choix des cou ts et de probabilite s a priori des groupes. Remerciements Les auteurs remercient les deux rapporteurs anonymes pour leur commentaires pertinents qui nous ont aide s a ` ame liorer la pre sentation de ce travail et Samuel Buttrey pour avoir accepte de nous fournir les re sultats de sa me thode knncat.
Re fe rences ARMINGER G., ENACHE D. et BONNE T. (1997), Analyzing credit risk data : A comparison of logistic discrimination, classication tree analysis, and feedforward networks, Computational Statistics, Special issue : 10 Years AG GLM, 12, 293-310. ASPAROUKHOV O. et DANCHEV S. (1997), Discrimination and classication in the presence of binary variables, Biocybernetics and Biomedical Engineering 17, (1-2) : 25-39.
25
ASPAROUKHOV O. et KRZANOWSKI W. J. (2000), Non-parametric smoothing of the location model in mixed variable discrimination, Statistics and Computing, 10, 283-297. BARDOS M. (2001), Analyse discriminante, application au risque et scoring nancier, Dunod. BAR-HEN A. et DAUDIN D. (1995), Generalization of the Mahalanobis distance in mixed case, Journal of Multivariate Analysis, 52, 332-342. BESSE PH., LE GALL C., RAIMBAULT N. et SARPY S. (2001), Data mining et statistique (avec discussion), Journal de la SFdS, Vol. 142, n 1, 5-35. BUTTREY S. E. (1998), Nearest-neighbor classication with categorical variables, Comput. Stat. & Data Analysis, 28,157-169. CARLIER A. (1994), Me thodes exploratoires, In Analyse discriminante sur variables qualitatives , Eds. G. Celeux et J.P. Nakache, Polytechnica, Paris. CELEUX G. et NAKACHE J. P. (1994), Analyse discriminante sur variables qualitatives, Polytechnica, Paris. CELEUX G. (2003), Analyse discriminante. Ch. 7 in Analyse des donne es , Ed. G. Govaert, Herm` es, Paris. CUADRAS C. M. (1989), Distance analysis in discrimination and classication using both continous and categorical variables, In Statistical data analysis and inference, Ed. Y. Dodge, Amsterdam : North Holland, 459-473. CUADRAS C. M. et FORTIANA J (1997), Probability densities from distances and discrimination, Statistics & Probabilty Letters, 33, Issue 4, 405-411. FIX E. et HODGES J. (1951), Discriminatory analysis-nonparametric discrimination : consistency properties, Technical Report 21-49004, 4, US Air Force, School of Aviation Medecine, Randolph Field, Texas. FRIEDMAN J. H. et MEULMAN J. J. (2002), Clustering objects on subsets of attributes, Pre print. . GOWER J. C. (1971), A general coefcient of similarity and some of its properties, Biometrics, 7, 857 871. HALL P. (1981), Optimal near-neighbour estimator for use in discriminant analysis, Biometrica, 68, 572-575. HAND D. J. (2001), Modelling consumer credit risk, IMA Journal of Management Mathematics, 12, 139-155. HAND D. J. et HENLEY W. E. (1997), Statistical classication methods in consumer credit scoring : a review, J. Roy. Statist. Soc., Series A, 160, 523-541. HENLEY W. E. et HAND D. J. (1996), A k nearest neighbor classier for assessing consumer credit risk, Statistician, 45, 77-95. HOLMES C. C. et ADAMS N. M. (2002), A probabilistic nearest-neighbor method for statistical pattern recognition, J. Roy. Statist. Soc., B 64, 295-306. KOMROAD, K. (2003), On credit scoring estimation, Master thesis, Homboldt Universita t Berlin.
26
KRZANOWSKI W.J. (1975), Discrimination and classication using both binary and continuous variables, Journal of the American Statistical Association, 70, 782-790. KRZANOWSKI W. J. (1993), The location model for mixtures of categorical and continuous variables, Journal of Classication, 10, 25-49. MATUSITA K. (1956), Decision rule, based on the distance, for the classication problem, Annals of Mathematical Statistics, 8, 67-77. MCLACHLAN G. J. (1992), Discriminant analysis and statistical pattern recognition, New York : Wiley. MKHADRI (1991), Discrimination binaire non-parame trique : me thodes destimation du param` etre de lissage, Revue de Statistique Applique e, 39, n 3, 37-55. MULLER M. et RONZ B. (1999), Semiparametric Credit scoring, In Measuring risk in complex statistical systems , J. Franke, W. Ha rdle, G. Stahl (eds.), Springer Verlag. MULLER M. et HARDLE W. (2002), Exploring credit data. In Credit riskmeasurement, evaluation and managementg , G. Bol, G. Nakhaeizadeh, S.T. Rachev, T. Ridder, K.-H. Vollmer, (eds.), Proceedings Okonometrie-Workshop 2002 : Kreditrisiko Messung, Bewertung und Management, University of Karlsruhe, Physica-Verlag. NAKACHE J.-P., LORENTE P., BENZECRI J. P. et CHASTANG J. F. (1977), Aspects pronostiques et the rapeutiques de linfarctus myocardique aigu complique dune de faillance se v` ere de la pompe cardiaque, Application des me thodes de discrimination, Cahiers dAnal. des Donne es, II n 4, 415-434. RAO C. R. (1982), Diversity and dissimilarity coefcients : a unied approach, Theoretical Population Biology, 21, 24-43. RIPLEY B. (1996), Pattern recognition and neural network, Cambridge University Press, Cambridge. SAPORTA G. (1977), Une me thode et un programme danalyse discriminante sur variables qualitatives. In Analyse des donne es et informatique , Ed. E. Diday, INRIA, pp. 201-210.

Méthode de Scoring Non Paramétrique

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Méthode de Scoring Non Paramétrique

Enviado por

Direitos autorais:

Formatos disponíveis

Rev.

Statistique Appliqu ee, 2006, LIV (1), 5-26

METHODES DE SCORING NON-PARAMETRIQUES

Le second auteur a b en eci e dune bourse de recherche TWAS 01-159 RG/MATHS/AF/AC.

METHODES DE SCORING NON-PARAMETRIQUES

METHODES DE SCORING NON-PARAMETRIQUES

1 (m) p2 m (m) (m) 2 )t 1 {z (1 + 2 )} log( ) 2 p1 m

METHODES DE SCORING NON-PARAMETRIQUES

METHODES DE SCORING NON-PARAMETRIQUES

p(yn+1 |xn+1 , Y, X, , k )p(, k |Y, X)d,

METHODES DE SCORING NON-PARAMETRIQUES

METHODES DE SCORING NON-PARAMETRIQUES

METHODES DE SCORING NON-PARAMETRIQUES

METHODES DE SCORING NON-PARAMETRIQUES

METHODES DE SCORING NON-PARAMETRIQUES

30.37 44.59 13.11

10.81 44.44 39.86

METHODES DE SCORING NON-PARAMETRIQUES

Você também pode gostar