Escolar Documentos
Profissional Documentos
Cultura Documentos
COLE DOCTORALE
SCIENCES ET TECHNOLOGIES
DE LINFORMATION ET DES MATERIAUX
Anne : 2005
Cdric ARCHAUX
le 14 janvier 2005
lEcole Nationale Suprieure des Ingnieurs
dEtudes et Techniques de lArmement de Brest
Jury
Prsident
M. Henri BRIAND
Rapporteurs
M. Gilbert SAPORTA
M. Djamel Abdelkader ZIGHED
Examinateurs :
M. Ali KHENCHAF
Professeur, ENSIETA de Brest
M. Jean-Marie PINON
Professeur, INSA de Lyon
Mme Camille ROSENTHAL-SABROUX Professeur, Universit Paris-Dauphine
Remerciements
Je tiens avant toutes choses remercier Jean-Michel Chanut davoir apport les
premires briques de ldifice. Je le remercie de la confiance quil ma tmoign en
mintgrant au sein de son quipe comme doctorant en extraction de connaissances partir de
donnes.
Je remercie Gal Srandour davoir assur toutes les dmarches relatives la ralisation
de cette thse, particulirement lors de la constitution du dossier. Je le remercie pour son suivi
rgulier, ses encouragements et son soutien tout au long de ma vie de doctorant.
Je tiens remercier de faon plus globale la socit Bouygues Telecom qui ma apport
tous les lments matriels ncessaires la ralisation de cette thse dans de bonnes
conditions.
Remerciements
Mes penses se portent galement vers Claude Morvan, que je remercie pour ses apports
mthodologiques concernant la recherche de documentation et ltude bibliographique, et vers
Annick Coat-Billon qui ma apport une aide prcieuse sur les aspects logistiques de la thse.
Je remercie Jean Hugues Chauchat, Stphane Lallich, Fabrice Chauvet, Eric Bourreau et
Jean-David Ruvini pour les changes constructifs sur les aspects de slection des attributs, de
modlisation des comportements et de dtection de la fuite des clients.
Je remercie Messieurs Saporta et Zighed davoir accept de rapporter sur mon manuscrit
ainsi que Madame Rosenthal-Sabroux et Messieurs Briand et Pinon davoir pris les rles
dexaminateurs. Je les remercie pour lattention quils ont port mon manuscrit et la richesse
de leurs commentaires.
ii
Glossaire
Les termes issus du vocabulaire anglophone ainsi que les abrviations suivantes peuvent
tre traduites ainsi :
BSC : Base Station Controller : Stations de base avec lesquelles les tlphones mobiles
sont connects au rseau,
Carte SIM (Subscriber Identity Module) : N de la puce prsente sur la carte interne au
mobile, permettant didentifier le client sur le rseau GSM,
Churn : attrition : lexpiration de la ligne prpaye dun client due l'arrt de son
activit,
Client : Organisme ou personne qui reoit un produit. (Source : ISO 9000 - 2000),
Glossaire
iv
Tables et Index
Tables et Index
vi
Tables et Index
Tables et Index
viii
Tables et Index
ix
Tables et Index
Introduction gnrale
Introduction Gnrale
Les rseaux tlphoniques mobiles largement rpandus aujourdhui ont leurs origines en
1956 avec lapparition du premier rseau franais de tlcommunication mobile mis en place
par Thomson. La capacit, limite lpoque quelques centaines d'abonns le rservait
une population trs restreinte. Durant les annes 80 le rseau analogique Radiocom 2000 de
France Tlcom Mobile permet dquiper les vhicules de tlphones. Les prix pratiqus
lpoque taient prohibitifs et restreignaient toujours leur utilisation une population litiste.
En 1987 le groupe de travail GSM est cr l'initiative de la Communaut Europenne
pour harmoniser et standardiser les rseaux mobiles une chelle europenne. Ds 1992 les
premiers rseaux GSM Franais sont dploys par France Tlcom Mobiles et la Socit
Franaise de Radiocommunication, filiale de la Compagnie Gnrale des Eaux. Contrairement
aux autres pays europens, le march franais ne dmarre que trs lentement. En 1996 suite
la commercialisation des premiers forfaits par Bouygues Telecom, le march de la tlphonie
mobile commence stendre. En 1999 le lancement de li-mode au Japon rend possible la
navigation sur Internet partir des tlphones mobiles. La fin du 20me sicle est marque par
une trs forte croissance du march en France. Au dbut de lanne 2002 on constate un
retournement des valeurs boursires au niveau de 1997, la crise des tlcoms et des nouvelles
technologies arrte la croissance. La figure 1 illustre la croissance du taux de pntration de la
tlphonie mobile sur le march franais de mars 1995 septembre 2004.
Aujourd'hui avec plus de 41 millions d'abonns, le taux de pntration en France
mtropolitaine atteint le seuil record de 70% (Figure 1). Ce succs peut s'expliquer grce la
normalisation europenne qui a permis de rduire considrablement le prix des terminaux
(denviron 3000 pour Radiocom 2000 ils sont passs environ 100 aujourd'hui), mais
surtout grce la baisse du prix des communications. Ces diminutions sont permises par les
nouvelles possibilits des rseaux GSM. En effet du fait de son infrastructure cellulaire le
rseau GSM offre de bonnes possibilits d'extension. La transmission numrique sur
l'interface radio permet elle aussi un taux optimal de transfert de donnes.
Le march sest aujourdhui stabilis, le nombre de clients accdant la tlphonie
mobile pour la premire fois est quivalent celui des clients cessant leur activit. Les
nouveaux clients dun oprateur sont aujourdhui majoritairement issus des autres oprateurs
qui sont ainsi soumis une trs forte concurrence (Gans et Joshua, 2000).
Introduction gnrale
puissants outils dextraction de connaissances sont ncessaires pour les dcouvrir. Extraire
cette connaissance est la cl dune meilleure productivit, dune plus grande efficacit
commerciale et ainsi du succs sur le march.
La quantit de donnes collecte chaque jour devient tellement importante qu'elle
submerge les capacits de comprhension humaine. Si les nouvelles bases de donnes
permettent de stocker des volumes d'informations toujours plus importants des cots de plus
en plus faibles, force est de constater que l'analyse et lexploitation de ces informations est
primordiale.
Introduction gnrale
Introduction gnrale
Prdire la dure de vie restante des clients, qui consiste en lestimation un instant donn
de la dure pendant laquelle les clients resteront clients de lentreprise. Cette question a
t formule dans un contexte mdical et a donn lieu de trs importants travaux tels que
ceux de Cox et de Kaplan-Meier. Nous abordons ce point selon une approche danalyse de
survie.
Le chapitre III prsente les rsultats obtenus par les mthodes prsentes dans le deuxime
chapitre sur les donnes de Bouygues Telecom. Ce chapitre prsente le systme
dinformation dcisionnel mergeant de lintgration des diffrentes composantes
proposes dans cette thse.
Nous concluons ltude en dressant le bilan des travaux qui ont t mens et en prsentant les
perspectives dintgration dlments complmentaires.
Chapitre I
Contexte et enjeux
Chapitre I
Contexte et enjeux
Sommaire du chapitre
Chapitre I Contexte et enjeux.................................................................................................. 5
1 Lignes mobiles prpayes.................................................................................................... 6
1.1
Valeurs faciales et dures de validit des recharges .................................................. 6
1.2
Etats des lignes et cycles de vie ................................................................................. 7
1.3
Avantages, plans tarifaires et tarifications ................................................................. 8
2 Valeur des clients................................................................................................................. 8
2.1
Valeur actuelle nette (VAN) .................................................................................... 10
2.2
Valeur terme des clients (LTV)............................................................................. 10
3 Extraction de Connaissances partir de Donnes ............................................................. 12
3.1
Systme dacquisition des donnes de tlphonie mobile ....................................... 13
3.2
Types de donnes ..................................................................................................... 19
3.3
Slection des variables ............................................................................................. 23
3.4
Prtraitement ............................................................................................................ 24
3.5
Fouille des Donnes (Data mining).......................................................................... 26
3.6
Rsultats ................................................................................................................... 28
4 Dispositif de gestion de la relation clients......................................................................... 29
5 Conclusion ......................................................................................................................... 29
Objectifs : Les objectifs de ce chapitre sont de prsenter le contexte et les enjeux de la thse.
Chapitre I
Contexte et enjeux
Une valeur faciale qui est le prix auquel les clients achtent la recharge. Les rserves de
communications sont augmentes de ce montant et pour certaines cartes un bonus de
consommation supplmentaire est offert,
Une dure de validit du crdit (note DLV1) qui correspond la dure pendant laquelle
le montant crdit peut tre consomm. A lissue de cette priode, le montant recharg
qui na pas t consomm est perdu : le crdit de communication est remis zro,
Une dure de validit de ligne (note DLV2) qui correspond la dure pendant laquelle
la ligne tlphonique est active et peut tre utilise. A lissue de cette priode, la ligne
est dsactive : elle ne peut ni recevoir, ni mettre dappels ni tre recharge.
Au moment de la rdaction de la thse, les recharges commercialises sont dcrites sous
DLV1
DLV2
10
15 jours 2 mois
15
1 mois 8 mois
25
1,4
2 mois 8 mois
35
3 mois 8 mois
50
15
4 mois 8 mois
75
30
6 mois 8 mois
Chapitre I
Contexte et enjeux
Juste avant quelle soit active une ligne est en tat 1 et est pr-charge dun crdit de
communication de 4 euros, les tats senchanent ensuite au rythme de lusage des clients et
de leurs rechargements, jusqu sa dsactivation qui se traduit par le passage en tat 5.
Lvolution du crdit de communication au cours du temps se traduit donc par une succession
de rechargements qui sont progressivement consomms. La figure I.1 prsente cette
volution.
Crdit de
communication
Rechargements
Consommations
Temps
Expiration
Activation
Chapitre I
Contexte et enjeux
Description
Les appels sont dbits 0,008
Basique
euro par seconde 24 heures sur
24, 7 jours sur 7,
Le cot la seconde et la dure
Flash
de validit du crdit sont diviss
par deux,
Le cot la seconde est major
de 25% de 9h 21h du lundi au
Soir et Week end
vendredi et est minor de 50%
le reste du temps,
Le cot la seconde est
identique l'avantage basique,
mais une deuxime rserve
Spot
d'appels pourvue de publicit
est crdite du montant du
rechargement.
Chapitre I
Contexte et enjeux
Activation
Desactivation
Temps
Valeur
Actuelle
Nette
Valeur
Estime
Chapitre I
Contexte et enjeux
2.2.1 Principes
La LTV horizon fini dun client est dfinie par le revenu total gnr par un client tout
au long de sa vie de client. Elle peut tre modlise par lesprance mathmatique du revenu
alors considr comme une variable alatoire. Cette esprance est discrtise sur des priodes
temporelles afin de faciliter son exploitation de faon oprationnelle.
On suppose que le revenu est indpendant de la probabilit de dpart. Par ailleurs,
compte tenu de la taille de la fentre dobservation, nous bornons lhorizon danticipation
un nombre dunits de temps (semestres) k .
Ainsi, nous sommes conduits la dfinition de la LTV lhorizon k expose ci-dessous
en (I.1). Pour chaque client i, la LTV lhorizon k est dfinie (Cri et Benavant, 1998) par :
1
Vi (k ) = Rit Sit
t =1
(1 + a )
k
O :
(I.1)
Le coefficient dactualisation est pos connu et lestimation de la LTV repose donc sur
lestimation des probabilits de survie et du revenu.
10
Chapitre I
Contexte et enjeux
(I.2)
Pour lestimation, on distingue les revenus passs des revenus futurs. Dans le cadre de
cette tude, lalgorithme destimation des revenus passs est dj tabli et mis en application :
le calcul de la VAN. Le calcul des revenus futurs stablit de la mme faon par extrapolation
du modle aux priodes 1, 2, k.
H2 : les probabilits de non rachat sont gales et indpendantes pour tous les
semestres (hypothse simplificatrice).
t =1
(1 + )
4
11
(I.3)
Chapitre I
Contexte et enjeux
La premire tape du processus est la slection des donnes, elle porte sur la base de
donnes source gnralement obtenue par fusion de nombreuses tables dorigine, dans le cas
de cette tude il sagit des donnes issues du datawarehouse de Bouygues Telecom, ainsi que
dautres donnes dappels.
12
Chapitre I
Contexte et enjeux
Le but de la slection des donnes est de retenir, sans priori, les donnes qui sont
fortement corrles la variable cible, tout en tant le moins corrles entre elles.
Ltape de prtraitement est une phase de nettoyage des donnes qui a pour objectif de
dtecter
et
corriger
les
valeurs
aberrantes
ou
les
valeurs
manquantes.
Nous nous focalisons ici principalement sur lanalyse de la qualit des donnes, en
restaurant si ncessaire les valeurs manquantes.
Ltape de transformation des donnes, vise rendre les donnes sous la forme exige
par l'algorithme d'extraction de connaissances, il sagit de traitements statistiques ou
mathmatiques simples, par exemple des transformations de type normalisation,
transposition, ou bien des agrgations et comptages.
Ltape d'extraction de connaissances est celle qui apporte la plus haute valeur ajoute
puisquelle vise fournir des lments de connaissances relatifs lobjet de ltude. Les
techniques au cur de cette tape sont historiquement les arbres de dcision et
lextraction de rgles, puis les rseaux de neurones et les rgressions. Nous proposons
ici des techniques alternatives.
13
Chapitre I
Contexte et enjeux
Nous prsentons dans un premier temps le rseau tlphonique mobile GSM, nous
explicitons ensuite le systme de valorisation des appels qui est spcifique l'offre prpaye,
pour enfin aborder succinctement le systme d'historisation des donnes.
14
Chapitre I
Contexte et enjeux
3.1.2 Architecture
Le rseau GSM est compos de plusieurs entits, lesquelles ont des fonctions et des
interfaces spcifiques. Comme le montre la figure I.6, les diffrentes couches du rseau GSM
sont :
La station mobile (Mobile Station : le tlphone portable) qui est transporte par
l'utilisateur.
Le sous systme radio (BSS : Base Station Subsystem) qui contrle les liaisons radio qui
s'tablissent avec le tlphone portable.
Le sous systme rseau (Network Subsystem) qui permet la connexion d'un mobile vers
un autre mobile ou vers un utilisateur du rseau fixe.
15
Chapitre I
Contexte et enjeux
Cet appareil s'identifie auprs du rseau grce une carte appele carte SIM (Subscriber
Identity Module). Cette carte contient, sur un microprocesseur, les informations concernant
l'utilisateur.
Ce dernier peut donc, par insertion de la carte SIM dans n'importe quel tlphone
portable, recevoir des appels, en donner et avoir accs tous les services qu'il a souscrit : le
tlphone portable et l'utilisateur sont totalement indpendants.
La station mobile est identifie par le numro IMEI (International Mobile Equipment
Identity). La carte SIM, elle, contient le numro IMSI (International Mobile Subscriber
Identity), mais aussi une cl secrte pour la scurit, ainsi que d'autres informations. Les
numros IMEI et IMSI sont indpendants, ce qui permet la sparation du tlphone portable
et de l'utilisateur. De plus, la carte SIM protge l'utilisateur des connections frauduleuses par
lintroduction dun numro d'identit personnel (code PIN) lors de laccs au rseau. On
distingue trois types de stations mobiles :
La liaison radio.
16
Chapitre I
Contexte et enjeux
Le BSC lui, supervise un ou plusieurs BTS, il gre les ressources radio : c'est dire les
sauts de frquence, les handovers (Itinrances : passage dune cellule une autre au cours
dune communication), mais aussi de l'allocation des canaux radio.
La base de donnes nominale (HLR: Home Location Register). Elle contient toutes les
caractristiques d'abonnement de tous les utilisateurs du rseau GSM, leurs identits
IMSI et MSISDN (numro dappel du portable) ainsi que les localisations des portables.
Il n'y a normalement qu'un seul HLR par rseau mais en pratique cette base de donnes
est divise. Le HLR travaille en troite collaboration avec les diffrents VLR,
notamment pour les handovers, et la numrotation.
La base de donnes visiteurs (VLR: Visitor Location Register). Elle contient les
informations ncessaires la gestion des mobiles prsents dans sa zone notamment
celles ncessaires la numrotation, la localisation, et le type d'abonnement. Elle gre
plusieurs dizaines de milliers d'abonns, ce qui correspond une rgion.
La base de donnes EIR (Equipment Identity Register) contient une liste de tous les
mobiles valides sur le rseau, et chaque tlphone portable est identifi par un numro
IMEI (International Mobile Equipment Identity). LIMEI est marqu comme invalide si
le mobile a t dclar comme vol.
17
Chapitre I
Contexte et enjeux
La base de donnes AuC (Authentification Center), est une base de protection qui
contient une copie dune cl secrte, galement contenue dans la carte SIM de chaque
abonn. Cette dernire est utilise pour lauthentification dun portable. Ce contrle se
fait par lintermdiaire de canaux radio.
Pour assurer le bon fonctionnement du rseau, il existe des centres dexploitation et de
18
Chapitre I
Contexte et enjeux
Les donnes dynamiques sont la granularit dinformation la plus fine disponible. Elles
caractrisent des lments qui arrivent de faon ponctuelle tels que des appels, des
rechargements ou des utilisations de services.
Les donnes semi-dynamiques sont une forme agrge des donnes dynamiques et
permettent dune part de rduire la volumtrie des donnes (en essayant dans la mesure
du possible de prserver leur contenu informationnel), et permettent dautre part de
caractriser un comportement par un nombre restreint dindicateurs.
Les donnes statiques sont les donnes qui voluent le moins rapidement, il sagit par
exemple de la civilit ou du dpartement des clients.
Les donnes que nous utilisons dans les travaux prsents dans ce document sont issues
de 7 tables principales. La Figure I.7 propose une vision globale simplifie des liaisons entre
elles. On voit le rle particulirement important de la table des lignes qui permet de rcuprer
par jointures le contenu des autres tables.
19
Chapitre I
Contexte et enjeux
Nous allons maintenant dcrire le contenu des tables en les dclinant par types de
donnes.
Les donnes dappels (tableau I.4), caractrisent les appels des clients tant au niveau de
la dure et de la destination quau niveau tarifaire,
Les donnes de rechargement (tableau I.5), dtaillent les dates, les montants, les types et
natures des recharges utilises ainsi que les tarifications choisies par les clients.
Les donnes dutilisation de services (tableau I.6), indiquent les types de services, les
modes et dates de souscription, ainsi que le type de facturation associ.
Les donnes de changement de plan tarifaire (tableau I.7), indiquent les dates auxquelles
les clients changent de plan tarifaire ainsi que les plans dorigine et de destination.
20
Chapitre I
Contexte et enjeux
La granularit dagrgation des appels fournis par les systmes informatiques est le
mois, il est ainsi possible de disposer dagrgats mensuels qui dcrivent lusage ralis ligne
par ligne sur un mois donn. Le dtail des champs disponibles est prsent dans le tableau
I.11 :
21
Chapitre I
Contexte et enjeux
Champ_#1
Champ_#2
Champ_#3
Champ_#4
Champ_#5
Champ_#6
Champ_#7
Champ_#8
Champ_#9
Champ_#10
Champ_#11
Champ_#12
Champ_#13
Champ_#14
Champ_#15
Champ_#16
Champ_#17
Champ_#18
Champ_#19
Champ_#20
Champ_#21
Champ_#22
Champ_#23
Champ_#24
Champ_#25
Champ_#26
Champ_#27
Champ_#28
Champ_#29
Champ_#30
22
Chapitre I
Contexte et enjeux
La premire toile est centre autour des clients et permet daccder aux informations
relatives ces individus (particulirement un individu peut avoir plusieurs lignes).
La deuxime toile est centre autour des lignes tlphoniques et permet daccder
leurs caractristiques et leurs historiques dutilisation.
23
Chapitre I
Contexte et enjeux
La dcision concernant lintgration des variables dans le datamart est prise en prenant
en compte quatre contraintes.
La premire contrainte est que les donnes doivent exister dans le datawarehouse pour
tre intgres dans le datamart.
La deuxime contrainte porte sur le droit que nous avons dutiliser ces donnes. En
effet, lentrept de donnes faisant lobjet de dclarations auprs de la commission
nationale de linformatique et des liberts, les variables nominales ainsi que dautres
variables relatives aux individus on t exclues de ltude.
La dernire contrainte est lie lintrt que reprsentent les variables pour le
marketing. Certains besoins de restitutions nous ont amen inclure des variables,
mme si elles ne prsentaient pas de lien direct avec les dlais de rechargement ou la
fuite des clients, afin de pouvoir les utiliser ultrieurement comme variables
descriptives.
Nous disposons ainsi dune base de travail constitue de plusieurs tables dcrivant les
clients des offres prpayes par un ensemble de variables caractristiques de nature statique,
semi-dynamique et dynamique. Pour chaque tude prsente dans ce document, nous
caractrisons chaque client i par un ensemble de k variables que nous notons par le vecteur
xi ,k .
3.4 Prtraitement
Le pr-traitement porte principalement sur les rechargements et les changements dtats.
Nous cherchons ici restaurer les valeurs manquantes lies aux cycles de vie des lignes
prpayes. Comme nous lavons vu dans la premire partie du premier chapitre, ltat des
lignes est conditionn par les rechargements. Il en dcoule quelques rgles qui nous
permettent de vrifier lintgrit des donnes et de les restaurer en cas dincohrence. La
Figure I.8 prsente le lien entre ces 2 mcanismes. Nous procdons galement la
discrtisation de certaines variables continues en tenant compte des besoins des dcideurs du
marketing, mais galement en appliquant des mthodes de discrtisation qui prennent en
compte le lien des variables discrtiser avec la valeur cible (Zighed, 1999).
24
Chapitre I
Solde de
rserve
Contexte et enjeux
Rechargement
DLV1
DLV2
temps
Passage en
tat 2
Passage en
tat 3
Passage en
tat 4
Passage en
tat 5
3.
4.
Si une ligne qui ntait pas en tat 2 est recharge une date donne, on doit
ncessairement trouver un changement vers ltat 2 cette date. Si ce nest pas le cas, on
ajoute un enregistrement dans la table des changements dtats.
25
Chapitre I
Contexte et enjeux
Segmenter lensemble des clients afin doffrir aux dcideurs une premire carte des
clients qui prsentent des caractristiques comparables,
Etablir un modle darrt dactivit des clients et dtecter les clients qui prsentent les
plus forts risques de dpart,
Prvoir les dlais de rechargement des clients en gnrant des modles spcifiques
chaque segment homogne de la clientle,
Etablir des estimations de valeur terme des clients permettant potentiellement douvrir
la porte de nouvelles segmentations bases sur des aspects prdictifs conomiques.
Nous prsentons donc respectivement les mthodes que nous avons retenues pour
A partir des caractristiques des clients sur chacun de ces 3 axes, nous avons appliqu une
classification ascendante hirarchique qui nous a permis didentifier 9 groupes de clients que
nous dtaillerons au chapitre III (cf. tableau III.2).
26
Chapitre I
Contexte et enjeux
Notre objectif tant de prvoir les dlais de rechargement des clients en tablissant des
modles spcifiques des segments de clientle ayant des comportements de rechargement
similaires, nous avons mis en place une deuxime segmentation base sur les rechargements
des clients.
Son montant,
2. Sa formule,
3. Le dlai qui le spare du rechargement prcdent,
4. Ltat de la ligne au moment du rechargement.
Nous avons donc analys la manire avec laquelle les clients associent les
rechargements lmentaires pour obtenir des profils de rechargements typiques. Une
deuxime tape a port sur la segmentation des clients par rapport lutilisation quils font de
ces rechargements typiques. Cette segmentation a deux vertus, la premire est quelle
caractrise lensemble des clients en constituant des segments qui ont un comportement de
rechargement similaire. La deuxime vertu est que les comportements tant similaires au sein
dun segment, on peut lutiliser comme base la modlisation des dlais de rechargement.
27
Chapitre I
Contexte et enjeux
Nous avons donc cherch un modle qui dtecte au mieux les clients qui vont cesser
leur activit en les examinant durant la premire priode de 12 mois. Utiliser une priode
dapprentissage dun an est extrmement pnalisant car on ne peut attribuer une tiquette un
client quaprs un an danciennet. Nous avons donc estim la perte de qualit de dtection
que nous encourions raccourcir la priode dapprentissage, en ne prenant par exemple que
les 9, 6 ou 3 derniers mois de la priode de 12 mois.
Les modles compars sur ce problme de dtection sont les perceptrons multicouches
boosts, et les SVM en comparant les noyaux linaires, polynomiaux et gaussiens.
3.6 Rsultats
Les rsultats obtenus par les 4 mthodes dcrites prcdemment sont dtaills dans le
chapitre III. Au cours de ltude nous avons cherch analyser les sources derreur de
dtection et de prvision. Il est apparu que la qualit des donnes sources a un impact majeur
sur les rsultats des modles indpendamment de la performance du modle. Cette
constatation nous a fait identifier le besoin de modles robustes et peu sensibles au bruit des
donnes, ceci nous a amen vers ltude des SVM qui rpondent cet objectif grce
lutilisation du principe de minimisation du risque structurel. Nous avons galement entam la
dmarche dvaluation de la qualit depuis la source de donnes jusquaux modles. Nous
prsentons cette dmarche dans la deuxime partie de ce chapitre.
28
Chapitre I
Contexte et enjeux
Datawarehouse
Flux de
Ciblage de
campagnes
donnes
Retour de
campagnes
Performance
Score
Action
Marketing
Scores
Clients
Flux de
Gnration de
Tableaux de bord
Rapport
dAnalyse
donnes
Environnement
Dcisionnel
5 Conclusion
Ce premier chapitre a prsent l'enchanement de composantes logicielles imbriques
pour obtenir l'estimation de la valeur des clients. Les donnes sont prtraites, puis une
segmentation des clients est effectue sur les rechargements. Pour chacun des segments, la
dure de survie est modlise, puis cette information est intgre dans le modle de valeur
terme du client. Tout au long du processus des tableaux de bords sont dits, mais la
connaissance attendue est le tableau de bord final concernant la LTV. La figure I.10 prsente
le schma synthtique du systme dinformation mergeant de l'imbrication logique des
diffrentes composantes logicielles.
29
Chapitre I
Contexte et enjeux
30
Chapitre II
Chapitre II
Mthodes de Statistiques et de Data Mining
Sommaire du chapitre
Chapitre II - Mthodes de Statistiques et de Data Mining ....................................................... 31
1
Analyse des donnes ........................................................................................................ 33
1.1
Analyse statistique des donnes ............................................................................... 33
1.2
Mesure de la liaison entre deux caractres............................................................... 34
1.3
Analyse en composantes principales........................................................................ 35
1.4
Analyse Factorielle des Correspondances................................................................ 36
1.5
Nues Dynamiques................................................................................................... 38
1.6
Classification Ascendante Hirarchique .................................................................. 39
2
Rgression Multilinaire .................................................................................................. 41
2.1
Statistiques & Proprits .......................................................................................... 42
2.2
Cadre dapplication .................................................................................................. 43
3
Modles SARIMA............................................................................................................ 43
3.1
Processus Stationnaires ............................................................................................ 43
3.2
Modles ARMA ....................................................................................................... 44
3.3
Paramtrage et Mthodologie gnrale .................................................................... 46
3.4
Mthode de Box et Jenkins ...................................................................................... 49
4
Analyse de survie ............................................................................................................. 49
4.1
Notations .................................................................................................................. 50
4.2
Mcanismes de censure............................................................................................ 53
4.3
Estimation non paramtrique ................................................................................... 56
4.4
Modles paramtriques ............................................................................................ 61
4.5
Estimation des paramtres........................................................................................ 65
4.6
Maximum de vraisemblance .................................................................................... 66
5
Rseaux de neurones ........................................................................................................ 69
5.1
Prsentation de la mthode....................................................................................... 70
5.2
Rseaux GRBF......................................................................................................... 70
5.3
Perceptron Multicouche ........................................................................................... 72
6
Mthodes densemble....................................................................................................... 76
6.1
Bagging .................................................................................................................... 76
6.2
Boosting ................................................................................................................... 76
7
Machines Vecteurs de Support...................................................................................... 79
7.1
Thorie dapprentissage supervis ........................................................................... 79
7.2
Principe des SVM..................................................................................................... 80
8
Conclusion........................................................................................................................ 82
Objectifs : Les objectifs de ce deuxime chapitre sont de prsenter les techniques permettant
de dtecter la fuite des clients et de modliser le dlai de rechargement.
31
Chapitre II
Organisation du chapitre : Aprs avoir prsent succinctement l'analyse des donnes et les
techniques de rgression multilinaire ainsi que les modles SARIMA, nous introduisons
l'analogie que nous considrons entre la survie des lignes tlphoniques et la survie des
patients dans le domaine mdical. Nous dtaillons ensuite les rseaux de neurones et les
techniques d'ensemble permettant de combiner les hypothses fournies par plusieurs
classifieurs. Nous prsentons enfin les Machines Vecteurs de Support qui permettent
dapporter de la robustesse la dtection du churn.
32
Chapitre II
x=
1 n
xi
n i =1
(II.1)
p
i =1
=1
(II.2)
on a alors :
n
x = pi xi
(II.3)
i =1
s2 =
1 n
( xi x ) 2
n i =1
(II.4)
ou bien
n
s 2 = pi ( xi x ) 2
(II.5)
i =1
Lcart type est gal la racine carre de la variance, il est exprim dans la mme unit
que le caractre.
33
Chapitre II
sxy =
1 n
( xi x )( yi y )
n i =1
(II.6)
sxy = pi ( xi x )( yi y )
(II.7)
i =1
r ( x, y ) =
S xy
SxS y
(II.8)
r ( x, y ) =
sxy
sx s y
(II.9)
2 =
variance des yi
variance des y
34
(II.10)
Chapitre II
fj
fi
35
Chapitre II
d 2 ( fi ; f j ) = d 2 ( i ; j ) + d 2 ( i ; j )
(II.11)
o les i et les i sont les projections des ei (et des f i ) sur 1 et 2 respectivement. La
moyenne des carrs des distances entre les f i est donc gale la moyenne des carrs des
distances entre les i plus la moyenne des carrs des distances entre les i .
La mthode consiste d'abord trouver 1 rendant maximale la moyenne des d 2 ( i ; j )
puis 2 perpendiculaire 1 , rendant maximale la moyenne des d 2 ( i ; j ) .
Note
On
peut
continuer
en
dehors
du
plan
et
on
trouvera
alors
3 , 4 ,.., p perpendiculaires entre elles : les i sont les axes principaux du nuage. En
projetant ei qui avait pour coordonnes initiales ( xi1 , xi2 ,.., xip ) on obtient sur les axes
principaux les coordonnes (ci1 , ci2 ,.., cip ) . On construit ainsi de nouveaux caractres
(II.12)
36
Chapitre II
Y
y1
y2
yj
yq
x1
n11
n12
n1j
n1q
x2
n21
n22
n2j
n2q
xi
ni1
nii
nij
niq
xp
np1
np2
npj
npq
ni i = nij
(II.13)
j =1
i= p
ni j = nij
(II.14)
i =1
n1i
D1 =
0
ni1
D2 =
0
nk i
n p i
(II.15)
ni k
ni q
(II.16)
(II.17)
n
ND21 = ij
ni j
37
(II.18)
Chapitre II
Nous utilisons dans cette tude lanalyse factorielle des correspondances pour analyser
lassociation des rechargements qui constituent les lignes et les colonnes de N . Nous
pouvons donc analyser les lignes de N en considrant (Bouroche et Saporta, 2002) la matrice
D11 N comme un tableau individus - caractres sur lequel nous effectuons une analyse en
composantes principales. Les individus de cette analyse sont les profils des lignes munis des
poids
npi
n1i n2 i
, , ,
. LAFC a pour objectif danalyser la dpendance entre les deux
n n
n
nij
ni i
et les
ni j
n
{C ,..., C ,..., C }
0
1
0
k
0
q
{I
0
1
0
0
,..., I k0 ,..., I q0 } .Ainsi l'individu i appartient la classe I k s'il est plus proche de Ck que de
{C ,..., C ,..., C }
1
1
1
k
1
q
en
prenant les centres de gravit des classes qui viennent d'tre obtenues : { I10 ,..., I k0 ,..., I q0 } Ces
nouveaux centres induisent une nouvelle partition P1 de I construite selon la mme rgle que
pour P0. La partition P1 est forme des classes notes : { I11 ,..., I k1 ,..., I q1 } .
38
Chapitre II
tape m :
{C
m
1
prenant les centres de gravit des classes qui ont t obtenues lors de l'tape prcdente,
{I
m 1
1
La partition obtenue dpend du choix initial des centres. Les mthodes des k-means et
des nues dynamiques sont des variantes de la mthode des centres mobiles : elles en diffrent
cependant sur certains points.
La mthode des nues dynamiques diffre de la mthode des centres mobiles dans la
mesure o les classes ne sont pas ncessairement caractrises par un centre de gravit
qui peut ne correspondre aucun individu de la base dapprentissage, mais par un
certain nombre d'individus classer qui constituent un "noyau". Lapport de cette
mthode est que ces noyaux sont des individus reprsentatifs de la classe qui permettent
de constituer des portraits-robots facilement explicables au marketing.
39
Chapitre II
Cette mthode consiste crer, chaque tape, une partition obtenue en agrgeant deux
deux les lments les plus proches. On dsigne par lment les individus classer euxmmes et les regroupements d'individus gnrs par l'algorithme. Il y a diffrentes manires
de considrer le nouveau couple d'lments agrgs, d'o un nombre important de variantes de
cette technique. L'algorithme ne fournit pas une partition en q classes d'un ensemble de n
objets mais une hirarchie de partitions, se prsentant sous la forme d'arbres appels
galement dendrogrammes et contenant n - 1 partitions. L'intrt de ces arbres est qu'ils
peuvent donner une ide du nombre de classes significatives dans la population.
On suppose au dpart que l'ensemble des individus classer est muni d'une distance.
Ceci ne suppose donc pas que les distances soient toutes calcules au dpart : il faut pouvoir
les calculer ou les recalculer partir des coordonnes des individus .
On construit alors une premire matrice de distances entre tous les individus. Une fois
constitu un groupe d'individus, il convient de se demander ensuite sur quelle base on peut
calculer une distance entre un individu et un groupe et par la suite une distance entre deux
groupes. Ceci revient dfinir une stratgie de regroupements des lments, c'est--dire se
fixer des rgles de calcul des distances entre groupements disjoints d'individus, appeles
critres d'agrgation. Cette distance entre groupements pourra en gnral se calculer
directement partir des distances des diffrents lments impliqus dans le regroupement.
Par exemple, si x, y, z sont trois objets, et si les objets x et y sont regroups en un seul
lment not h, on peut dfinir la distance de ce groupement z par la plus petite distance des
divers lments de h z :
d ( h, z ) = min {d ( x, z ) ; d ( y, z )}
(II.19)
d ( h, z ) = max {d ( x, z ) ; d ( y, z )}
(II.20)
Une autre rgle simple et frquemment employe est celle de la distance moyenne ;
pour deux objets x et y regroups en h :
d ( h, z ) =
d ( x, z ) + d ( y , z )
40
(II.21)
Chapitre II
d ( h, z ) =
nx d ( x , z ) + n y d ( y , z )
(II.22)
nx + n y
tape 2 :
les deux plus proches, que l'on agrge en un nouvel lment. On obtient une premire
partition n-1 classes ;
tape 3 :
l'agrgation, en calculant les distances entre le nouvel lment et les lments restants (les
autres distances sont inchanges). On se trouve dans les mmes conditions qu' l'tape 1, mais
avec seulement n-1 lments classer et en ayant choisi un critre d'agrgation. On cherche
de nouveau les deux lments les plus proches, que l'on agrge. On obtient une deuxime
partition avec n-2 classes et qui englobe la premire ;
tape m : on calcule les nouvelles distances, et l'on ritre le processus jusqu' n'avoir
plus qu'un seul lment regroupant tous les objets et qui constitue la dernire partition.
2 Rgression Multilinaire
La Rgression Multilinaire est une mthode permettant dtudier le lien linaire qui
existe entre une variable numrique Y et un ensemble de variables numriques indpendantes
(II.23)
une variable alatoire suivant une loi normale centre N ( 0, ) . Pour calculer ces
coefficients de rgression, on utilise la mthode des moindres carrs, savoir, on minimise la
fonction :
41
(II.24)
Chapitre II
o yi est la valeur prise par Y linstant i , et x1i , xni sont les valeurs prises par
X 1 , , X n linstant i , en annulant les drives partielles de f .
ei
i =1 N n 1
N
(II.25)
H 0 :" Bk = 0"
H1 :" Bk 0"
(II.26)
On montre que les variables alatoires Bi suivent une loi Normale centre en bi dcart
type :
= ( XX ') jj1
Donc,
(II.27)
Bi bi
suit une loi de Student ( t N n 1 ) N n 1 degrs de libert.
Var ( Bi )
On peut alors raliser des tests permettant de trouver les intervalles de confiance un
certain taux . On, appelle significativit des coefficients de rgression la probabilit
PH 0 ( H1 ) , cest dire la probabilit de dcider que le coefficient est non nul alors quil lest.
42
Chapitre II
R2 =
i =1
i =1
(Yi E (Y ) )
N
(II.28)
i =1
Les variables explicatives sont du mme rang que la srie principale, mme si les
priodicits ne concident pas ncessairement,
3 Modles SARIMA
Si la Rgression Multilinaire permet dexpliquer le comportement dune srie grce
des donnes provenant dvnements extrieurs (hors structure) (ex. : impact des ventes sur
les Mises en Service), les modles SARIMA consistent dire que la valeur de la srie
linstant t dpend de certaines valeurs passes de la srie (Mlard, 1991), (Gourieroux et
Monfort, 1999). Comme nous allons le voir, il est aussi possible dintgrer au modle diverses
catgories dinterventions extrieures permettant daffiner la comprhension de la srie.
43
Chapitre II
Implications directes :
Pour un processus stationnaire X t , tous les X t ont mme variance et mme moyenne.
Pour un processus stationnaire, les autocovariances sont indpendantes du temps :
t , cov ( X t , X t k ) = f ( k ) k
(II.29)
X n = a1 X n 1 + a2 X n 2 + + a p X n p + n + b1 n 1 + + bq n q n
(II.30)
O (n) n est un bruit blanc, i.e. une suite de variables alatoires indpendantes, de
moyenne nulle et de variance constante, et o ( a1 , , a p ) p et ( b1 , , bq ) q .
( n ) , n
la srie observe. Il est intressant de noter que non seulement on cherche de linformation
dans les valeurs passes de la srie, mais en plus dans les erreurs dajustement passes.
Remarques :
( Xt )
lapplication
: dfinie par :
( h) =
Cov(Xt,Xt-h)
Var(Xt)
(II.31)
Cette application mesure la corrlation qui existe entre X t et X t h , pour tout t, puisquil
sagit dune srie stationnaire.
44
Chapitre II
Proprit I.1 :
Lintervalle de confiance pour une autocorrlation dordre k dans le cas dun MA pur
est :
k
1,96
1 + 2 (i )
i =1
N
1/ 2
k
1,96
;+
1 + 2 (i )
i =1
N
1/ 2
(II.32)
variables intermdiaires X t 1 , , X t k +1 .
On calcule les autocorrlations partielles partir des autocorrlations de cette manire :
ri ( k ) = ri ( k 1) rk ( k ) rk i ( k 1)
(II.33)
(II.34)
Proprit I.3 :
45
(II.35)
Chapitre II
Proprit I-4 :
Lintervalle de confiance pour une auto-corrlation partielle dans le cas dun AR pur
est :
1,96 1,96
;+
N
N
(II.36)
46
Chapitre II
En gnral, pour inclure une tendance ou une saison dans le modle, lapplication
utilise est la diffrenciation dun certain ordre (Gourieroux et Montfort, 1999). On appelle
diffrenciation dordre k lopration :
F ( X t ) = X t X t k
(II.37)
(II.38)
Lk ( X t ) = X t k
(II.39)
( Xt ) ,
diffrenciations dun ordre correspondant la forme de la tendance. On montre que pour une
tendance linaire, il suffit dappliquer la srie une diffrenciation dordre 1. Pour une
tendance quadratique, il suffit dappliquer la srie une diffrenciation dordre 2. Le but est
de transformer la srie de manire ce que la nouvelle srie soit de moyenne constante. On
note en gnral d le coefficient de diffrenciation de la srie. Nous verrons comment le
valider de manire pratique. Le modle trouv lorsque lon a appliqu ce genre de
transformation incluant la tendance sappelle un ARIMA.
O :
-
(II.40)
Chapitre II
On voit que pour inclure une saison, il faut appliquer la srie une diffrenciation
dordre la saison. D est le coefficient de diffrenciation saisonnire. Nous verrons plus tard
comment le trouver de manire pratique.
(II.41)
(II.42)
3.3.6 Prvisions
Le calcul de la prvision se fait par extrapolation de la formule de rcurrence, en
sappuyant dabord sur les valeurs passes relles, puis sur les prvisions passes. Sil existe
des chocs, des cycles ou des variables explicatives dans le modle, il faut en connatre les
prvisions et sappuyer dessus pour le calcul.
48
Chapitre II
4 Analyse de survie
Lanalyse de survie est issue du domaine de la mdecine, o lobjectif est de
caractriser et estimer la survie de patients en fonction du temps et de leurs caractristiques
(Hill et al., 1990), (Helsen et Schmittlein, 1993), (Falissard, 1996), (Lawless, 2002).
Lintrt de lutilisation de ce type de mthodes pour le marketing a t introduit ds
1994 par (Cri, 1994), (Liquet et Cri, 1998).
Trois approches ont t proposes pour modliser ces dlais (Le Goff, 2003) :
Lapproche non-paramtrique dont les mthodes les plus courantes sont les mthodes de
Kaplan-Meier (Kaplan et Meier 1958) et actuarielles.
49
Chapitre II
On considre dans cette approche que le risque de dcs estim au temps t est
indpendant des risques estims aux temps prcdents. En outre, on considre que la
population est homogne, en ce sens que la distribution du risque est estime pour
lensemble de la population prise en compte (sans tenir compte des effets des
caractristiques des individus.
lestimation dun dlai de rechargement dun client dcrit par un ensemble de caractristiques
de la mme faon que sont attribus les estimations de dlai de survie des patients dans le
domaine mdical. Ici, nous ne nous proccupons pas du dcs mais du rechargement qui est
lvnement que nous voulons observer. Pour plus de transparence nous gardons cependant
les mmes notations que celles du domaine dorigine, et nous allons dfinir ladaptation la
survie des lignes tlphoniques des notations de la survie mdicale.
4.1 Notations
Dure de vie : le terme dure de vie sans aucune autre prcision dsigne le temps coul
entre la naissance et la mort dun patient (dcs), ce qui se traduit en tlphonie mobile
comme le temps coul entre lactivation et lexpiration des lignes tlphoniques.
Date d'origine : en gnral, la dure de vie n'est pas cette dure de survie que l'on dsire
tudier mais plutt la dure de survie aprs diagnostic ou aprs le dbut dun traitement.
Il nous faut donc dfinir la date d'origine de la survie tudie. Nous considrons, pour la
tlphonie, la date dorigine de ltude comme la date laquelle un rechargement a eu
lieu, nous mesurons le temps ncessaire ce quun autre rechargement se produise.
50
Chapitre II
Date de dernires nouvelles : au moment de l'analyse des rsultats il faut disposer pour
chaque client de la date de dernires nouvelles, c'est dire la date la plus rcente o l'on
a recueilli les renseignements concernant ltat de sa ligne.
Dure de surveillance : la dure de surveillance est le dlai coul entre la date d'origine
et la date de dernires nouvelles.
Date de point : dans la mesure o des informations rcentes sur un sous-ensemble non
reprsentatif de la population tudie peuvent introduire un biais, il convient de choisir
une date au del de laquelle on ne tient plus compte des nouvelles informations : la date
de point.
Recul : on appelle recul le dlai coul entre la date d'origine et la date de point : c'est le
dlai maximum potentiel d'observation du sujet. Les reculs minimum et maximum d'une
srie de sujets dfinissent l'anciennet de cette srie.
Pr ob ( t T < t + dt )
dt 0
dt
51
(II.43)
Chapitre II
(II.44)
S (t ) = Pr ob(T t ) = 1 F (t )
(II.45)
h(t ) = lim
(II.46)
Cette fonction s'appelle aussi fonction de risque. La fonction h(t ) vrifie la relation
suivante :
(II.47)
entre 0 et t :
t
H (t ) = h(u )du
(II.48)
(II.49)
f (t ) = h(t )exp[ H (t )]
(II.50)
Et on montre que :
Il faut noter que h(t ) n'est pas une densit de probabilit car son intgrale sur (0, )
n'est pas borne, c'est pourquoi nous utilisons le terme de "taux instantan" pour h(t ) .
52
Chapitre II
De mme H (t ) est appel taux cumul pour viter toute confusion avec la probabilit
de dcs entre 0 et t qui est gale [1 S (t )] .
(II.51)
O dt = 1 .
Concrtement si on note ni le nombre de rechargements effectus i jours aprs le
rechargement prcdent, on calcule
f ( i ) = P (T = i ) =
ni
(II.52)
180
n
j =0
F ( t ) = P (T < t ) = f ( u )
(II.53)
u =0
53
Chapitre II
Dans le cas contraire, Ti > Li l'observation est censure et l'tat aux dernires nouvelles
d i vaut 0 . On peut donc reprsenter les observations par n couples de valeurs alatoires
(ti , di ) o :
ti = min (Ti , Li )
(II.54)
1 Ti Li
di =
0 Ti > Li
(II.55)
Et
( ti , d i ) = f i ( ti ) S i ( ti )
1 di
di
(II.56)
et ti = Li si d i = 0 . D'o la vraisemblance :
n
V = f i ( ti ) i S i ( ti )
d
1 di
(II.57)
i =1
54
Chapitre II
Si la censure est alatoire, le dlai de censure Li du sujet i est une variable alatoire
suppose indpendante de la dure de vie Ti . Le nombre total de dcs observs est alatoire.
Soit g i (t ) la densit de probabilit de Li , on note ici :
Gi (t ) = Pr (Li t )
(II.58)
fi ( ti ) Gi ( ti ) si d i = 1 (sujets dcds)
(II.59)
1 d i
(II.60)
i =1
1 d i
(II.61)
i =1
55
Chapitre II
Le nombre m d'vnements observs est fix priori et donc les donnes non censures
correspondent aux m plus petites valeurs de dures de survie observs sur un chantillon de
taille n : T1 < T2 < ... < Tm . La distribution jointe de T1 , T2 ,..., Tm est alors donne par :
V=
n!
nm
f ( t1 ) f ( t2 ) ... f ( tm ) S ( tm )
m !( n m ) !
(II.62)
(II.63)
S (t ) = Pr (T t | T t 1) Pr (T t 1)
(II.64)
S (t ) = Pr (T t | T t 1)... Pr (T 1 | T 0 ) Pr (T 0 )
(II.65)
(II.66)
56
Chapitre II
qj =
(n
mj )
nj
(II.67)
De faon gnrale, pour estimer la fonction de survie d'une population partir d'un
chantillon de taille n , il faut classer les observations par ordre croissant de temps de
participation. Dans la suite de ce chapitre, on note i = 1,2,..., k l'indice courant des temps de
dcs. On dfinit :
-
Nous supposons que T est continue. Pour ce type de variable, deux sujets ne pouvant
dcder au mme instant, mi est gal 1 pour tout i . Cependant, en pratique la prcision de
la mesure des dlais est limite, il arrive donc que l'on ait des ex-quo. Dans ce cas nous
donnerons, quand elles existent, les approximations ncessaires. A l'origine, t 0 = 0 et m0 = 0 .
Par ailleurs, c0 est le nombre de censures entre 0 et t1 .
Pour tout i = 1,2,..., k on a :
ni = ni 1 mi 1 ci 1
(II.68)
d'o :
i 1
i 1
j =1
j =1
ni = n0 m j c j
57
(II.69)
Chapitre II
n mi
S ( t ) = i
ni
ti t
(II.70)
ni 0
Remarques :
-
dans l'intervalle a j 1 , a j :
S ( t ) = Pr (T t T a j-1 ) Pr ( T a j-1 )
(II.80)
a j 1 :
Q j = Pr (T a j T a j 1 )
(II.81)
q j = 1 p j = 1 ( m j 1 e j )
58
(II.82)
Chapitre II
e j = n j 1 = n j + m j 1
(II.83)
[a
j 1
c j 1
2
c j 1
2
(II.84)
on obtient donc :
q j = 1 p j = 1
m j 1
c j 1
n j 1
2
(II.85)
mh 1
S ( a j ) = 1
{h|a h a j } nh 1 ch 1
2
59
(II.86)
Chapitre II
mi
ni
(II.87)
o :
-
Quand les donnes sont rsumes sous forme actuarielle, on estime la fonction h(t ) au
milieu de l'intervalle a j 1 , a j par h +j :
2m j
h +j =
ej
(a j a j 1 ) 2 m j
ej
(II.88)
60
Chapitre II
L'estimateur connu sous le nom d'estimateur de Nelson est dfini partir de la relation :
H # (t i ) H # (t i _ ) =
mi
= h # (t i )
ni
(II.89)
mi
= h # ( ti )
ni ti t
(II.90)
h ( t ) = hi+ ( ai ai 1 ) avec a0 = 0
+
j
(II.91)
i =1
H ( t ) = Ln S ( t )
(II.92)
h(t ) = h0 t 1
-
61
(II.93)
Chapitre II
S ( t ) = exp ( h0t )
(II.94)
exp ( h0t )
(II.95)
1
1
2
exp Ln(h0t )
2 t
2
f (t ) =
(II.96)
La variable alatoire Ln(T ) suit une loi normale dont les paramtres sont :
E (T ) = Ln ( h0 )
Var (T ) =
(II.97)
(II.98)
S (t ) = 1 + (h0t )
(II.99)
h0
( )
( h0t )
exp ( h0t )
(II.100)
o :
( ) = ( 1)!
(II.101)
62
t +
(II.102)
Chapitre II
Les diffrentes fonctions permettant de dcrire une distribution de survie ayant t vues,
cette partie traite maintenant les diffrents estimateurs de la fonction de survie S (t ) : des
estimateurs non paramtriques (estimateur de Kaplan-Meier et estimateur actuariel) et des
estimateurs associs des modles paramtriques. Les estimateurs des paramtres du modle
s'obtiennent par la mthode du maximum de vraisemblance.
(II.103)
(II.104)
f (t ) = h0 exp( h0t )
(II.105)
Et :
E (T ) =
Var (T ) =
1
h0
1
h02
(II.106)
(II.107
i =1
i = m +1
V = f ( ti ) S ( ti )
(II.108)
V = h0m exp h0 t j
j =1
(II.109)
Soit :
Dans lexposant figure la somme des temps de participation de tous les sujets, quils
soient dcds ou censurs.
63
Chapitre II
La log-vraisemblance scrit :
n
LnV = mLnh0 h0 t j
(II.110)
j =1
(II.111)
j =1
Le risque instantan de dcs est estim par le nombre de dcs divis par la somme des
temps de participation que lon appelle aussi le nombre de personnes-annes observ. Sil ny
a pas de censure, cest linverse de la moyenne observe des temps de survie. Le calcul de la
drive seconde de LnV par rapport h0 donne :
2L
m
= 2
2
h0
h0
(II.112)
( )
h02
m
Var h0 =
=
m n 2
tj
j =1
(II.113)
64
Chapitre II
S i (t ) = S j (ij t )
(II.114)
(II.115)
65
(II.116)
Chapitre II
Le paramtre peut tre omis, mais cela implique que la variance de ( i ) peut varier
d'un jeu de donnes un autre.
Il est plus simple de fixer la variance de ( i ) une valeur standard (par exemple 1) et
laisser varier le paramtre pour compenser la variance du terme d'erreur.
S'il n'y a pas de variable censure, le modle peut tre facilement estim par la mthode
des moindres carrs, mais nous sommes ici confronts des donnes censures droite, c'est
pourquoi nous utilisons la mthode du maximum de vraisemblance.
consistant (i.e. il converge en probabilit vers les vraies valeurs quand la taille
de l'chantillon croit, ce qui implique que l'estimateur sera approximativement
sans biais sur les grands chantillons),
asymptotiquement efficace (ce qui signifie que, sur les grands chantillons, les
estimateurs auront des erreurs standard au moins aussi petites que celles
obtenues par les autres mthodes),
Le principe de base est de trouver les paramtres qui maximisent la probabilit de faire
les observations que nous avons, ceci se rduit donc deux tapes : On exprime dabord la
probabilit des observations en fonction des paramtres en utilisant la fonction de
vraisemblance, on trouve ensuite les valeurs qui maximisent cette probabilit.
x i o t i est le dlai de rechargement de l'individu, i est une variable qui vaut 1 si t i n'est
pas censur et 0 si t i est censur, et x i est le vecteur de covariables xi = [ xi1 ...xik ] .
66
Chapitre II
L = f i ( ti )
(II.117)
i =1
Si un individu i est censur la date t i , tout ce que l'on peut dire c'est que son dlai de
rechargement est au moins gal t i . La probabilit que le dlai de rechargement soit plus
grand que t i est donne par la fonction de survie S (t ) value t i . Si nous avons r
observations non censures et n r observations censures, nous pouvons crire la
vraisemblance sous la forme :
r
i =1
i = r +1
L = f i ( ti ) Si ( ti )
(II.118)
1 i
(II.119)
i =1
f i (ti ) = i e iti
(II.120)
S i (ti ) = e iti
(II.121)
i = exp { i xi }
(II.122)
Et
L = i e i ti
i =1
] [e ]
i
i ti 1 i
= i i e i ti
i =1
(II.123)
Afin de simplifier les calculs, nous passons cette formule au logarithme, ce qui permet
de convertir les produits en sommes et les puissances en coefficients.
67
Chapitre II
i =1
i =1
i =1
i =1
log L = i log i i t i = i i x i t i e xi
(II.124)
x
i x i = x i ti e
i =1
(II.125)
i =1
(II.126)
2 log L
(II.127)
U ( ) =
Et
I ( ) =
j +1 = j I 1 ( j )U ( j )
o I 1 est l'inverse de I .
68
(II.128)
Chapitre II
En pratique, l'initialisation 0 se fait par la mthode des moindres carrs en traitant les
observations censures comme des observations non censures. L'arrt des itrations a lieu
quand la variation entre deux estimations successives des paramtres est infrieure 0,001
5 Rseaux de neurones
Les rseaux de neurones sont une technique dapprentissage automatique qui a merg
dans les annes 40 par les travaux de Mc Culloch et Pitts qui font alors une description d'un
systme simple dcrivant les proprits du systme nerveux.
Selon leur description, chaque neurone est reli d'autres par des connexions.
L'activation du neurone se produit lorsque celui-ci atteint un certain seuil d'activation. Cette
activation est gnre par les connexions qui ont pour proprit d'tre excitatrice ou
inhibitrice. Limplantation du premier vritable mcanisme dapprentissage arrive dans les
annes cinquante par les travaux de Rosenblatt (Rosenblatt, 1957) portant sur le perceptron.
Au milieu des annes 60, la recherche sur les rseaux de neurones est relativement
dlaisse au profit de l'intelligence artificielle. Les rseaux de neurones tant sanctionns par
leur extrme lenteur d'apprentissage sur le problme de reconnaissance de caractres
manuscrits. La publication du 'Perceptrons' de Minski et Papert en 1969 les mettent dfaut
en prsentant l'impossibilit de dapprendre la fonction XOR, facult dont tout tre humain
dispose.
L'volution des capacits de traitement des systmes informatiques et leur disponibilit
qui facilite la simulation de rseaux de neurones redynamise la recherche au dbut des annes
80. De nouveaux modles apparaissent tels que le modle de Hopfield en 1982 et la rtropropagation de lerreur, une nouvelle mthode dapprentissage qui permet de traiter les
fonctions non-linairement sparables telles que celle du problme XOR.
Cette partie prsente le principe des rseaux de neurones et prcise deux modles
classiquement utiliss : le rseau base de fonctions radiales gaussiennes et le perceptron
multicouches. Nous dtaillons la mthode de rtropropagation de lerreur.
Les notations que nous utilisons dans cette deuxime partie sont celles qui sont utilises
classiquement dans le domaine des rseaux de neurones (Madden et al. 1999), (Shawe-Taylor
et al., 1999), (Nath, 2003) elles ne peuvent pas tre rapproches de celles utilises dans la
premire partie de ce chapitre.
69
Chapitre II
un vecteur prototype p ,
70
Chapitre II
x p
2
(II.129)
(II.130)
O x est un vecteur compos des sorties de tous les neurones de la premire couche, w
est un vecteur de poids et b est le biais. Les paramtres w et b sont estims lors de la phase
dapprentissage du rseau. Le rseau peut ainsi tre reprsent par la figure II.4.
si ( x ) = wi , j e
j =1
71
x p j
2 2j
+ bi
(II.131)
Chapitre II
72
Chapitre II
(II.132)
Les fonctions dactivations classiques sont les fonctions linaire, tangente hyperbolique
(II.80) et sigmode (II.81) dont le trac est prsent en Figure II.6.
tanh ( x ) =
e x e x
e x + e x
x
tanh + 1
1
2
Sigmode ( x ) =
=
2
1 + e x
La diffrence entre ces deux fonctions tant le domaine des valeurs prises :
]1;1[
73
(II.133)
(II.134)
Chapitre II
(II.135)
O :
wi , j ( k ) = wi , j ( k 1) e ( k ) .di .O j
74
(II.136)
Chapitre II
di = 2 ( Si Yi ) . f ( I i )
-
(II.137)
(II.138)
O :
1
1 + e x
(II.139)
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
-1
-2
-3
-4
-5
-6
-7
f ( x ) = f ( x ) 1 f ( x )
75
(II.140)
Chapitre II
6 Mthodes densemble
Lide sous-jacentes aux mthodes densemble est de combiner des prdicteurs afin
den amliorer les performances (Bauer et Kohavi, 1999), nous prsentons ici deux techniques
majeures, le bagging et le boosting.
6.1 Bagging
Le bagging introduit dans (Breiman, 1994 & 1996) est une mthode simple pour
combiner des algorithmes dapprentissage. Lide de base de cette mthode est (Cornujols et
al., 2002) dentraner un algorithme dapprentissage sur B chantillons obtenus par tirage
avec remise (bootstrap) dans lensemble dapprentissage. Pour chaque chantillon b ( b
variant de 1 B ), une hypothse hb est obtenue. La dcision finale concernant un individu x
est obtenue en calculant la moyenne des B hypothses :
H ( x) =
1 B
hb ( x )
B b =1
(II.141)
Le principe du bagging est donc relativement simple, on prend en compte lavis moyen
dun ensemble de classifieurs, de la mme manire que lon prendrait une dcision en
coutant le point de vue dune majorit dexperts. Ce mcanisme a cependant des limites, car
il nest pas rare que certains individus mal classs par un classifieur le soient aussi par les
autres classifieurs. Le besoin sest donc fait sentir de porter une attention particulire ces
individus mal classs. Cest lobjet de la mthode du boosting prsente dans la section
suivante.
6.2 Boosting
La mthode de boosting dveloppe par Schapire (Schapire, 1990, 1998, 2002) montre
quun algorithme dapprentissage peut amliorer sa performance en tant entran sur trois
chantillons bien choisis. Cette mthode (Cornujols, 2002) peut sappliquer diffrents
types dalgorithmes dapprentissage tels que les arbres de dcision, les rseaux baysiens, les
rseaux de neurones.
76
Chapitre II
m2 , choisi dans S S1 dont la moiti des exemples est mal classe par h1 .
3. On apprend une troisime hypothse h3 sur un chantillon S3 de taille m3 , tir
dans S S1 S 2 pour lesquels h1 et h2 sont en dsaccord.
4. Lhypothse finale est obtenue par vote majoritaire des trois hypothses
apprises :
h = vote majoritaire ( h1 ,h 2 ,h 3 )
(II.142)
t = pD ht ( xi ) ui =
t
77
i:ht ( xi ) ui
Dt ( i )
(II.143)
Chapitre II
78
Chapitre II
79
(II.144)
Chapitre II
La probabilit P tant inconnue, R lest aussi ; par contre, nous pouvons estimer risque
empirique sur lensemble des observations de la base dapprentissage :
l
Remp ( ) = 1/(2l ) yi f ( xi )
(II.145)
i =1
(II.146)
o h est la VC-dimension du nom de Vapnik et de Chervonenkis (Guermeur et PaugamMoisy 1999), cest le maximum de points pour lesquels les fonctions {f} associent la bonne
classe. Le second terme de la borne suprieure, nomm intervalle de confiance, est une
fonction croissante monotone en h. Ainsi, pour h petit, il suffit de minimiser le risque
empirique pour minimiser le risque R.
Ainsi, pour garantir une faible valeur de R, nous devons chercher une valeur optimale
de la VC-dimension h. Cest un problme de minimisation du risque. Le contrle du risque
consiste donc contrler la VC-dimension puisque la taille de lobservation l est
gnralement fixe.
Vapnik (Vapnik 1998) propose dappliquer le principe de minimisation du risque
structurel dont le but est la minimisation conjointe du risque empirique et de lintervalle de
confiance.
En considrant les hyperplans sur R d dfinis par :
{x : x w+b=0}
d
(II.147)
b
w
80
la distance entre
Chapitre II
b/||w||
d+ + d =
(1 b ) ( 1 b ) =
w
2
w
(II.148)
Ceci se traduit par lexistence dun couple ( w, b ) Rd R tel que : xi.w+b=0, pour les
points de cet hyperplan, avec
(II.149)
w
2
sous les
contraintes (II.96). Les vecteurs de support sont les points tels que yx (xl.w + b)-1=0. Il sagit
donc de chercher des constantes w et b vrifiant (II.96) qui minimisent J(w).
Ce systme se rsout simplement (Laayana 2003), et montre que pour estimer la classe
dun nouveau client x, on calcule :
l
(II.150)
VS
K:
d d
( x, x ) ( x ) ( x )
81
(II.151)
Chapitre II
(II.152)
VS
Il nexiste cependant pas de mthode ni pour choisir , ni pour choisir le noyau K. Les
principaux noyaux utiliss dans la littrature sont :
K ( x, y ) = ( ( x y ) + 1)
(II.153)
x y
/ 2 2
(II.154)
Nous appliquons dans cette tude lapproche SVM pour la dtection de churn de clients,
en comparant les deux types de noyaux. (Scholkopf et al., 1997) propose une comparaison des
SVM noyaux gaussiens au rseaux RBF.
8 Conclusion
Nous avons prsent dans ce chapitre la thorie ncessaire sous-jacente et les modles
utiliss au cur de cette thse. Lanalyse de donnes ncessaire avant toute tude ainsi que les
techniques de rgression multilinaire et les modles SARIMA utiliss pour obtenir des
prvisions des nombres dactivations de clients ayant t prsents, lanalyse de survie a t
aborde en vue de lappliquer la modlisation des dlais de rechargement. Afin de traiter le
problme de la dtection de la fuite des clients, nous avons ensuite introduit les rseaux de
neurones avec une attention particulire sur les rseaux base de fonctions radiales
gaussiennes et les perceptrons multicouches. Le point a t fait sur les mthodes densemble
et la prsentation des modles de bagging et de boosting. Nous avons enfin prsent les
Machines vecteurs de support permettant lanalyse des problmes de dtection de churn. Les
modles utiliss dans cette thse tant prsents, leurs rsultats font lobjet du chapitre
suivant.
82
Chapitre III
Chapitre III
Rsultats obtenus sur les donnes de Bouygues Telecom
Sommaire du chapitre
Chapitre III Rsultats obtenus sur les donnes de Bouygues Telecom................................. 83
1
Mesure de la qualit ......................................................................................................... 84
1.1
Systme d'acquisition ............................................................................................... 84
1.2
Slection des variables ............................................................................................. 85
1.3
Pr-traitements ......................................................................................................... 85
1.4
Transformation ......................................................................................................... 85
1.5
Modlisation............................................................................................................. 85
1.6
Evaluation des rsultats............................................................................................ 85
2
Segmentation RFM .......................................................................................................... 88
2.1
Base de segmentation ............................................................................................... 88
2.2
Rsultat..................................................................................................................... 89
3
Segmentation sur le comportement de rechargement ...................................................... 90
3.1
Association des rechargements ................................................................................ 91
3.2
Segmentation des clients .......................................................................................... 91
4
Analyse de survie ............................................................................................................. 92
4.1
Application ............................................................................................................... 93
4.2
Etude des fonctions de survie................................................................................... 93
4.3
Fonction de survie .................................................................................................... 96
4.4
Logarithme ngatif de la fonction de survie............................................................. 97
4.5
Logarithme du log ngatif de la fonction de survie ................................................. 98
4.6
Conclusions ............................................................................................................ 102
4.7
Perspectives............................................................................................................ 102
5
Prvision des activations ................................................................................................ 105
6
Dtection de larrt dactivit......................................................................................... 105
6.1
Apprentissage ......................................................................................................... 107
6.2
Rsultats ................................................................................................................. 108
7
Conclusion...................................................................................................................... 108
Objectifs : Le troisime chapitre prsente les rsultats obtenus par les diffrents modles sur
les donnes de Bouygues Telecom.
Organisation du chapitre : Aprs avoir indiqu la mesure de la qualit des rsultats utilise,
ce chapitre prsente les rsultats obtenus au cours des tapes du processus dextraction de
connaissances partir de donnes. Deux segmentations de lensemble des clients partir de
leurs comportements de rechargement sont ici proposes dans un premier temps. Les
rsultats de lanalyse de survie des lignes tlphoniques sont ensuite dtaills suivis des
prvisions dactivations de lignes. Les rsultats de la dtection de larrt de lactivit des
clients sont enfin prsents.
83
Chapitre III
1 Mesure de la qualit
Les estimations de comportement des clients conditionnent fortement les dcisions que
prend le marketing leur encontre. Si une erreur de jugement sur un ou quelques clients peut
entraner leur insatisfaction, cela ne reprsente pas de risque majeur pour l'entreprise. A
linverse, la satisfaction de la majorit des clients reprsente un enjeu financier trs important
(Redman, 1996). Notre motivation est de caractriser au mieux les clients, c'est dire disposer
des connaissances les plus fiables possibles afin de minimiser le risque d'insatisfaction client.
L'objectif de cette partie est de mesurer la qualit des connaissances issues du processus
d'ECD, et d'autre part valuer l'impact de la qualit des donnes issues du systme
d'acquisition sur ces connaissances. Pour atteindre cet objectif, nous mettons en uvre les
deux moyens suivants :
Comparer les modles utiliss dans l'tape de fouille des donnes avec un jeu de
donnes de trs bonne qualit. Ces donnes issues de lenvironnement de production
sont plus fiables que le datawarehouse, car le biais introduit par les tapes de transit des
donnes entre ces deux entrepts est vit.
84
Chapitre III
1.3 Pr-traitements
Nous appliquons ici la technique de dbosselage propose dans (Redman, 1996) pour
comparer les donnes prsentes dans le datamart des chantillons de l'environnement de
production. Ceci nous permet de vrifier la qualit de variables particulirement sensibles (les
variables figurant dans le modle de fouille de donnes). La vrification de l'ensemble des
donnes est effectue au niveau agrg en comparant des agrgats construits sur les donnes
du systme de production aux mmes agrgats btis sur les donnes du systme dcisionnel.
Une fois la cohrence globale des donnes vrifie, il faut restaurer certaines valeurs
manquantes, qui sont passes "au travers des mailles". Pour ce faire, nous reconstruisons au
cours du temps la consommation des clients sur les axes de rechargement et de
consommation, ainsi nous pouvons retrouver par exemple partir du montant consomm sur
une priode la valeur recharge auparavant.
1.4 Transformation
Les transformations sont majoritairement l'agrgation, la discrtisation, l'application de
formules mathmatiques ayant pour but d'enrichir l'information porte par les variables. Les
donnes transformes sont utilises comme donnes tactiques (Wang, 1995), (Redman, 1996),
qui permettent d'attribuer un client le modle que lon va lui appliquer lors de l'tape de
fouille de donnes.
1.5 Modlisation
Le dlai de rechargement rsultant de cette tape constitue linformation stratgique. En
utilisant les indicateurs construits lors de la phase de transformation nous construisons des
modles sur les donnes prtraites. D'un ensemble de donnes, nous passons un ensemble
de valeurs concernant les paramtres du modle, ainsi que des valeurs prdites par ce modle.
85
Chapitre III
Churn dtect
Prdit Churn non dtect
Total
Churn constat
A
C
A+C
Rel
Churn non constat
B
D
B+D
Total
A+B
C+D
A+B+C+D
La sensibilit est la proportion de clients churners qui sont dtects comme tels.
A
(III.1)
A+C
La spcificit est la proportion de clients non churners qui sont dtects comme tels.
D
Spcificit =
B+D
(III.2)
Sensibilit =
A
(III.3)
A+ B
La valeur prdictive ngative est la proportion de clients pour lesquels on ne constate
Valeur prdictive positive =
D
(III.4)
C+D
Le taux de bonne dtection indique le taux de clients correctement dtects. Ce taux se
Valeur prdictive ngative =
86
Chapitre III
A+ D
(III.5)
A+ B +C + D
A
Taux de bonne dtection Churners =
(III.6)
A+ B
A partir de la sensibilit et de la spcificit et il est possible de tracer la courbe roc
Taux de bonne dtection Global =
(III.7)
Chapitre III
e=
(III.8)
Afin de visualiser la qualit de la prvision pour tous les clients nous traons la
distribution de l'erreur de prvision (cf. figure III.18).
2 Segmentation RFM
La premire version de la segmentation de lensemble des clients a t construite
partir dune base de donnes de travail constitue de la table des lignes (Tableau I.12) et de la
table des rechargements (Tableau I.5).
88
Chapitre III
Le montant moyen recharg sur la priode totale de l'tude, cest--dire la somme des
montants rechargs divise par le nombre de recharges. L'indicateur prend quatre
modalits correspondant aux quartiles de la distribution des valeurs de la variable.
objectif d'en rduire significativement le volume, car le traitement des donnes brutes trs
volumineuses est extrmement coteux.
2.2 Rsultat
Afin de constituer des profils homognes de clients sur leur nombre de rechargements
sur les trois derniers bimestres et sur leur anciennet, nous avons ralis une classification en
deux tapes : une premire tape de nues dynamiques nous permet d'obtenir rapidement un
nombre de classes de l'ordre du millier, nous enchanons ensuite sur une classification
ascendante hirarchique qui nous permet d'identifier neuf profils rechargement / anciennet
(tableau III.2) :
89
Chapitre III
Priode
B1 B2 B3
*
2 2
*
1 2
*
2 1
*
1 1
*
0 2
*
0 1
*
2 0
*
1 0
2 0 0
1 0 0
0 0 0
0 - 61 jours
Anciennet
62 - 122 jours
123 - 183 jours
Profil 1
Profil 2
Profil 6
Profil 3
Profil 4
Profil 5
Profil 9
Profil 7
Profil 8
Profil 9
La valeur * signifie que le nombre de rechargements effectus durant B1 n'est pas pris
en compte pour l'attribution des profils 1 5 aux clients.
Les zones grises correspondent des situations impossibles (un client de deux mois
d'anciennet ne peut pas avoir recharg il y a trois mois) ou bien des lignes ayant t
dsactives car n'ayant pas t recharges depuis longtemps.
Cette segmentation permet davoir une premire vision globale de lensemble des
clients. Elle est par construction trs oprationnelle ce qui facilite son apprhension par les
gestionnaires des clients. Elle prsente cependant un inconvnient majeur : les segments sont
constitus sur les caractristiques des lignes telles que lanciennet. Nous souhaitons former
des segments regroupant des comportements de rechargements homognes, nous proposons
donc une seconde segmentation permettant datteindre cet objectif.
En attribuant chaque client son profil de rechargement, nous constituons les segments
de clients ayant des comportements de rechargement homognes, grce une seconde
classification ascendante hirarchique.
90
Chapitre III
91
Chapitre III
deuximement servir de base pour constituer les groupes de clients sur lesquels on
modlise le dlai de rechargement.
4 Analyse de survie
Comme nous lavons vu en quatrime partie du chapitre II, l'objectif de l'analyse de
survie est d'estimer le dlai de rechargement des clients une date donne t .
La figure III.6 prsente en abscisse le temps et en ordonne la probabilit quun
rechargement ait lieu t jours aprs le rechargement prcdent (toutes choses gales par
ailleurs).
4,00%
3,50%
3,00%
2,50%
2,00%
1,50%
1,00%
0,50%
23
8
24
5
23
1
21
7
22
4
21
0
20
3
19
6
18
2
18
9
17
5
16
1
16
8
15
4
14
0
14
7
12
6
13
3
11
2
11
9
98
10
5
91
77
84
70
63
56
42
49
28
35
14
21
0,00%
Des pics de rechargement 7, 14, 21 et 28 jours qui sont dus des rechargements
effectus par des clients rechargeant trs rgulirement toutes les 1, 2, 3, ou 4 semaines.
92
Chapitre III
On remarque galement deux grands pics de rechargement qui sont lis lchance des
dures de validit de crdit. Lapplication de lanalyse de survie fournit les rsultats
suivants.
4.1 Application
Nous considrons deux priodes de six mois. Durant la premire priode qui s'tale
entre septembre 2002 et fvrier 2003, nous tudions les comportements de rechargement des
clients. Nous effectuons la modlisation des dlais de rechargements et nous testons les
prvisions sur la deuxime priode qui s'tale de mars juin 2003 en comparant les dlais de
rechargement estims aux dlais rellement effectus.
Nous tudions une population de N clients ( N = 5000 ) actifs le premier mars 2002. Ces
5000 clients ont t slectionns par tirage alatoire sans remise parmi l'ensemble des clients.
Nous appliquons un filtre qui ne retient que les clients ayant pass au moins un appel
entre janvier et mars. La base de donnes concernant ces 5000 lignes est identifie par le
numro d'appel de la ligne.
Nous appelons covariables les valeurs des variables prsentes au chapitre III. Un
individu i est caractris par les valeurs de ses covariables xi1 ,..., xik .Nous avons ici 11
variables relatives aux lignes et 26 variables par mois d'appel sur les 6 mois d'appels de la
priode d'tude soit un total de 167 variables.
donn.
93
Chapitre III
On remarque que la densit de probabilit est plus forte pour les dlais faibles et qu'il y
a trois pics centrs sur les dures de validit des cartes gratter.
5 0%
4 0%
3 0%
2 0%
1 0%
94
26
4
25
7
24
8
24
1
23
1
22
4
21
2
20
4
19
7
19
0
18
3
17
6
16
9
16
2
15
5
14
8
14
1
13
4
12
7
12
0
11
3
99
10
6
92
85
78
71
64
57
50
43
36
29
22
15
0%
F(t)
6 0%
Chapitre III
2 ,5
R
= 0 ,9 5 1 8
-log S(t)
1 ,5
0 ,5
7
25
26
1
24
24
4
22
23
4
20
21
7
19
19
6
17
18
2
16
16
8
14
15
13
14
12
12
3
11
99
10
85
92
71
78
57
64
43
50
29
36
15
22
- 0 ,5
t
50%
40%
30%
20%
10%
95
25
7
26
4
24
1
24
8
23
1
22
4
21
2
20
4
19
0
19
7
17
6
18
3
16
9
16
2
15
5
14
8
14
1
13
4
12
0
12
7
11
3
99
10
6
85
92
78
71
64
50
57
43
36
29
22
15
0%
S(t)
60%
Chapitre III
8%
7%
6%
h(t)
5%
4%
3%
2%
1%
26
4
25
7
24
1
24
8
23
1
22
4
21
2
20
4
19
7
18
3
19
0
16
9
17
6
15
5
16
2
14
8
14
1
12
7
13
4
11
3
12
0
99
10
6
85
92
71
78
64
57
50
43
36
22
29
15
0%
96
Chapitre III
97
Chapitre III
4.5.1 Rsultats
Afin d'optimiser l'ajustement des modles en tenant compte du nombre de
rechargements effectus par les clients durant la priode dapprentissage, nous avons construit
trois modles de survie :
-
98
Chapitre III
Probabilit de rechargement
0,80
0,70
SEGMENT 1
SEGMENT 2
SEGMENT 3
SEGMENT 4
SEGMENT 5
SEGMENT 6
SEGMENT 7
SEGMENT 8
SEGMENT 9
SEGMENT 10
0,60
0,50
0,40
0,30
0,20
0,10
181
175
169
163
157
151
145
139
133
127
121
115
109
97
103
91
85
79
73
67
61
55
49
43
37
31
25
19
13
0,00
Nombre de jours
0,70
SEGMENT 1
SEGMENT 2
SEGMENT 3
SEGMENT 4
SEGMENT 5
SEGMENT 6
SEGMENT 7
SEGMENT 8
SEGMENT 9
SEGMENT 10
0,60
0,50
0,40
0,30
0,20
0,10
181
175
169
163
157
151
145
139
133
127
121
115
109
103
97
91
85
79
73
67
61
55
49
43
37
31
25
19
13
0,00
1
Probabilit de rechargement
0,80
Nombre de jours
99
Chapitre III
Probabilit de rechargement
0,80
0,70
SEGMENT 1
SEGMENT 2
SEGMENT 3
SEGMENT 4
SEGMENT 5
SEGMENT 6
SEGMENT 7
SEGMENT 8
SEGMENT 9
SEGMENT 10
0,60
0,50
0,40
0,30
0,20
0,10
181
175
169
163
157
151
145
139
133
127
121
115
109
97
103
91
85
79
73
67
61
55
49
43
37
31
25
19
13
0,00
Nombre de jours
Donnes
censures
5,16%
6,63%
6,72%
Taux de bonnes
prdictions
79,93%
79,17%
85,32%
100
Chapitre III
7 modles ont t tests grce au systme SAS sur les donnes : le modle exponentiel,
le modle Gamma, le modle log-logistique, le modle log-normal, le modle logistique, le
modle normal et le modle de Weibull.
Chaque modle a t test avec et sans covariables, les rsultats consigns dans le
tableau III.4 prsentent les log vraisemblance des modles avec et sans covariables.
Log Likelihood sans covariables Log Likelihood avec covariables
-7360,01672
Modle
-4300,416327
Descrition du modle
the exponential distribution, which is treated as a restricted Weibull
distribution
a generalized gamma distribution (Lawless, 1982, p, 240), The two
parameter gamma distribution is not available in PROC LIFEREG,
a loglogistic distribution
a lognormal distribution
a logistic distribution (equivalent to LLOGISTIC when the NOLOG
option is specified)
a normal distribution (equivalent to LNORMAL when the NOLOG
option is specified)
a Weibull distribution, If NOLOG is specified, it fits a type 1 extreme
value distribution to the raw, untransformed data,
Exponential
-7105,109616
-3430,055845
Gamma
-7125,062717
-7113,139455
-3268,014297
-3430,428989
LLogistic
Lognormal
-22828,03342
-16179,53041
Logistic
-22861,16167
-16262,67329
Normal
-7359,358441
-3645,990754
Weibull
2,00%
1,50%
1,00%
0,50%
96
%
10
1%
10
6%
11
1%
11
8%
12
4%
13
1%
13
8%
14
3%
15
1%
15
9%
17
1%
18
4%
24
5%
27
9%
44
1%
%
90
%
80
85
%
70
75
%
60
65
%
50
55
%
40
45
%
30
35
%
20
25
%
10
15
0%
5%
0,00%
101
Chapitre III
4.6 Conclusions
Les rsultats prsents sont intressants, cependant, l'hypothse que le taux instantan
de rechargement est constant parat peu fiable. Le modle ne tient pas compte des effets des
dures de vie des cartes : dure de vie 1 : dure durant laquelle un client peut appeler, dure
de vie 2 : la dure de validit de la carte. Aucun modle de survie ne tient compte de cet effet
non ngligeable. La prvision des dlais de rechargements se fait partir d'une forme de
rgression prenant en compte les donnes censures, les covariables ont ici un effet
primordial. Ce modle ne prend pas en compte les diffrents rechargements, tout au mieux,
nous agrgeons les appels pour former des indicateurs synthtiques : le modle ne prend pas
en compte la distribution des appels. De mme pour les prvisions, nous prdisons une date
donne le prochain rechargement. Il est possible d'appliquer une analyse rpte de la survie
en construisant diffrents modles relatifs aux rechargements, ainsi nous pouvons faire un
modle pour le premier rechargement de la priode de test, puis un modle pour le deuxime
rechargement, etc
4.7 Perspectives
Le modle a t test sur un chantillon de 5000 lignes tlphoniques, ces lignes ont t
recharges de nombreuses fois durant la priode d'apprentissage. Nous disposons donc de
beaucoup plus de rechargement que de lignes, cependant, nous ne travaillons que sur la
prvision d'un seul rechargement (donc un seul rechargement par ligne). Une premire
perspective peut tre d'augmenter la taille de l'effectif de l'chantillon.
Les donnes d'appels sont agrges au mois, il est donc difficile d'attribuer des valeurs
de consommation une date donne, dans le meilleur des cas on aura l'information
concernant le mois durant lequel le rechargement est effectu, il n'est donc pas vident de
caractriser la consommation propre un seul rechargement. Si cela tait possible, nous
pourrions envisager de considrer tous les rechargements effectus par les clients durant la
priode d'apprentissage, pour le moment nous ne traitons que le dernier rechargement.
En considrant tous les rechargements, on appauvrit les covariables lies au
rechargement. C'est ensuite l'enchanement des rechargements qui est porteur dinformation,
mais le traitement de l'enchanement des rechargements n'est pas l'objet de ce modle. Le
102
Chapitre III
modle ne tient pas compte des rgularits ou irrgularits de rechargement, par exemple un
client ayant effectu deux rechargements le mme jour et un autre client ayant effectu les
deux mmes rechargements, mais deux jours distincts auront la mme moyenne et le mme
nombre de rechargement alors que ces comportements sont vraiment diffrents. Ceci nous a
amen introduire une segmentation des clients par rapport leur comportement de
rechargement. Au sein dun mme segment nous avons une homognit maximale des
comportements, nous diminuons ainsi le taux derreur des prvisions de dlais de
rechargement.
L'hypothse de modliser par diffrents modles les diffrentes priodes de temps entre
les dlv peut tre envisage. La figure III.19 montre le comportement linaire de la fonction
log S (t ) sur les priodes [0,31[, [31,92[, [92,182[, [182,285[
Nous voyons sur la figure III.19 que la fonction log S (t ) a un comportement linaire
sur les diffrentes priodes, avec les coefficients R 2 suivants :
2 ,5
= 0 ,9 9 7 7
1 ,5
1
R
= 0 ,9 9 3 2
0 ,5
= 0 ,9 7 6 7
0
0
50
100
150
200
250
300
- 0 ,5
103
Chapitre III
Un tel modle dfini par parties, ne peut pas tre pris en charge par SAS. (Ripley et
Ripley, 1998), (Biganzoli et al., 2002) et (Eleuteri et al., 2003) proposent des approches
bases sur les rseaux de neurones, (Neal, 2001) propose lutilisation de rseaux baysiens
pour apprhender les donnes censures, ceci peut tre une deuxime perspective dextension
des travaux.
Une troisime perspective de modlisation soffre nous en modlisant le dlai de
rechargement par une loi paramtrique telle que la loi de Weibull et en ajoutant des
contributions pour modliser le pic li la DLV1 des cartes, et les phnomnes de saisonalit
7, 14, 21 et 28 jours de la mme faon que ces composantes sont traites dans les modles
SARIMA. On obtient pour ce modle une trs bonne corrlation entre le modle de dlai de
rechargement constat (Figure III.20), cependant il nest pas directement intgrable dans
loutil de traitement des donnes de loprateur. Il est ainsi impossible de le mettre en uvre
oprationnellement sans engager de dveloppement informatique lourds, qui seront
ncessairement suivis de protocoles de validations pour son intgration dans lenvironnement
dcisionnel.
104
Chapitre III
105
Chapitre III
106
Chapitre III
Notre intrt concernant la dtection des clients risque de fuite ayant pour but de les
cibler dans des campagnes de rtention, nous nous focalisons sur les premires valeurs de lift.
Lintrt de lintroduction du boosting est damliorer cette capacit de dtection (Njike et Al,
2002) prsente une volution du boosting ddi laugmentation du lift pour les premires
plus hautes valeurs de score. Le tableau III.5 prsente les valeurs de lift sur les plus grandes
valeurs de scores.
Valeur de lift
PMC
PMC Boost
1%
100%
100%
2%
100%
100%
3%
98%
100%
5%
84%
97%
10%
76%
82%
6.1 Apprentissage
Pour lapprentissage et le test du dtecteur nous avons utilis la base de travail pour
construire trois bases :
La base d'apprentissage sert faire apprendre le classifieur, elle caractrise 6000 clients
(3000 clients non churners et 3000 clients churners) par d=61 caractristiques.
Deux bases de tests sont utilises pour appliquer le classifieur :
La base de test n1 est compose galement de l=6000 clients (5000 clients non
churners et 1000 clients churners) ce qui est une volumtrie comparable au fichier
d'apprentissage pour tester la qualit de l'apprentissage.
La base de test n2 est compose de l=60000 clients (50000 clients non churners et
10000 clients churners) volume significativement plus lev que la base d'apprentissage
pour tester la capacit de gnralisation du modle.
107
Chapitre III
6.2 Rsultats
Nous avons appliqu les SVM et le rseau de neurones multicouches sur les mmes
bases d'apprentissage et de tests afin de comparer les rsultats. Le tableau III.6 prsente les
taux de bonnes dtections des classifieurs appliqus sur les donnes de tests :
Taux de bonne
dtection par modle
Test n1
Test n2
SVM noyau
linaire
87,10 %
80,16 %
SVM noyau
gaussien
88,55 %
84,28 %
Rseau de
neurones
87,46 %
81,08 %
7 Conclusion
Nous avons montr dans ce chapitre que les machines support de vecteurs peuvent
tre appliques au problme de dtection de la fuite des clients en tlphonie mobile prpaye,
de plus les rsultats obtenus sont significativement meilleurs que ceux obtenus par lapproche
du rseau de neurones multi-couches de (Mani et al. 1999).
108
Chapitre III
La mthode SARIMA peut tre utilise pour estimer les volumes dactivations de
clients afin de faire des prvisions du nombre de clients actifs au cours du temps. Cette
mthode peut galement tre utilise pour modliser la valeur des segments de clients au
cours du temps afin de faire des prvisions conomiques plus globales.
La deuxime forme de segmentation des clients est exploite de faon oprationnelle
par loprateur. Grce sa construction sur les rechargements, on obtient des profils de clients
aux comportements homognes, ce qui est un grand atout pour les modlisations et prvisions
dactivits.
Le modle de rechargement des clients permet dtablir des prvisions exploitables pour
les estimations de valeur des clients, mais offre galement des perspectives dexploitation
dans le cadre de campagnes bases sur les dates de rechargement estimes.
Le modle de valeur prsente des rsultats qui sont intressants lorsquils sont exploits
pour segmenter la clientle sur les valeurs perspectives. En raison de leur aspect stratgique, il
nest pas possible de prsenter de tels rsultats.
Les travaux prsents dans ce chapitre ont donn lieu des publications :
-
Les rsultats concernant la dtection par SVM ont t introduits dans la confrence EGC
et dtaills lors de la confrence ICTTA,
Linteraction entre les experts du marketing et le modle de valeur des clients a fait
lobjet dun article lors de la confrence GCAI,
document.
109
Chapitre III
110
Conclusion Gnrale
Conclusion Gnrale
Nous avons montr dans ce document les spcificits de la tlphonie prpaye, et nous
les avons apprhendes au travers dun systme dinformation ddi la gestion des clients.
Nous avons prsent les trs forts enjeux lis la rtention en proposant une mthode de
dtection oprationnelle des clients prsentant de forts risques de fuite. Lestimation de la
survie des lignes est assure par lanalyse et la modlisation des dlais de rechargement des
clients qui permet galement dobtenir une prvision de leurs valeurs.
La segmentation de lensemble des clients actifs par lintermdiaire dune classification
ascendante hirarchique, ainsi quune mthode de prvision des activations base sur les
modles SARIMA ont t abordes. Nous avons enfin montr comment le modle de valeur
terme des clients peut tre intgr comme indicateur de gestion de la relation clients en
tlphonie mobile prpaye.
Si lon reprend les quatre objectifs lorigine de ces travaux, nous constatons que
lidentification des comportements typiques dutilisateurs, est assur par ltape de typologie
de rechargement et dusage des clients. La dtection des modifications de comportements qui
sont caractristiques dun risque important de perte du client est assure par la constitution
des scores de churn. La notion de seuil dalerte est apporte par la valeur de score qui
permet didentifier les clients prsentant les risques les plus importants.
Si la dure de vie restante des clients nest pas mesurable de faon absolue, nous avons
cependant montr quil est possible destimer des probabilits de survie sur des priodes de
temps donnes. Ceci nous permet destimer la probabilit qu t donn (t < 2 ans), la ligne
dun client soit encore active. Cet horizon correspond au domaine matrisable par le
marketing. Si on examine la vitesse dvolution des besoins des clients (Palen et al., 2000) et
celle des offres proposes par les oprateurs, on se rend compte quune prvision plus long
terme serait dpourvue de sens, ou inexploitable de faon oprationnelle.
La Figure IV.1 utilise le formalisme du processus dExtraction des Connaissances
partir de Donnes pour prsenter le systme dinformation dcisionnel issu de nos travaux.
Les tapes dacquisition des donnes, la slection des attributs, le prtraitement, ltape de
fouille des donnes et enfin (et surtout) lexploitation des connaissances obtenues sont
synthtises. Lenchanement de ces tapes et les flux dinformations entre elles permet
dobtenir une vision densemble du systme.
111
Conclusion Gnrale
112
Conclusion Gnrale
113
Conclusion Gnrale
La granularit des donnes dappels utilises est mensuelle. Ces agrgats sont porteurs
dune information qui reste moins riche que linformation porte par les donnes brutes elles
mmes. Lanalyse des numros appels par les clients permet de constituer des rseaux
sociaux dutilisateurs exploitables des fins dcisionnelles (Domingos et Richardson, 2001),
(Agrawal et al. 2003). Cette tude na pas t mene en raison contraintes juridiques (loi
informatique et liberts).
Un type dinformation complmentaire qui na pas t utilis dans nos travaux est de
type textuel. Lorsque les clients appellent le centre tlphonique de clientle, les conseillers
saisissent de courts documents textes pour dcrire les motifs dappels et les actions qui sont
prises suite lappel. Ces documents sont appels Ticklers . La mise disposition de ce
type dinformation dans le datawarehouse ouvre une nouvelle perspective : Quel meilleur
indicateur de lintention de dpart dun client pouvons nous avoir que la dclaration de son
insatisfaction ou de sa volont de partir ?
La satisfaction des clients et leur fidlit leur oprateur tant trs fortement lies
(Mittal et Lasser, 1998), (Bolton, 1998), (Cri, 2002), lexploitation de cette information
semble prometteuse. Cependant, les ticklers tant saisis manuellement par des conseillers, de
nombreuses tapes de pr-traitements sont ncessaires pour obtenir des informations
exploitables par des algorithmes de text-mining tels que ceux prsents dans (Clech, 2004).
Par ailleurs, le traitement des appels aux centres dappels fait lobjet de nombreuses rgles de
gestion lies la politique de gestion de la relation client, celles-ci constituent une
connaissance a priori devant imprativement tre prise en compte dans les tudes de textmining.
Dautres informations extrmement porteuses dinformations telles que les politiques de
subventionnement des terminaux lis aux offres concurrentes ne sont pas disponibles, pour
laffinement de nos prvisions dactivations et de dsactivations. Ce type dinformation
positionne les perspectives de prolongement immdiat de nos travaux sur la simulation de la
raction de lensemble des clients face la sortie dune nouvelle offre concurrente. Lobjet de
cette simulation consisterait intgrer les caractristiques des offres concurrentes (cot la
minute, dures de validit, cots des terminaux) comme paramtres des dtecteurs de fuite et
des modles de rechargement pour pouvoir tester des scnarios proposs par les spcialistes
du marketing.
114
Annexes
Annexes
Sommaire
Annexes.................................................................................................................................. 115
1 Annexe 1 : Test du Log-Rank ......................................................................................... 116
2 Annexe 2 : Inclusion des variables dans le modle ......................................................... 120
115
Annexes
116
Annexes
Dur_MOC_tot_0203
Dur_MOC_grat_0203
Dur_MOC_pay_0203
Nb_App_MOC_tot_0203
Nb_App_MOC_grat_0203
Nb_App_MOC_pay_0203
Nb_J_MOC_tot_0203
Nb_J_MOC_pay_0203
Conso_SMS_0203
Nb_App_SMS_0203
Nb_J_SMS_0203
Conso_CF_0203
Dur_CF_tot_0203
Dur_CF_grat_0203
Dur_CF_pay_0203
Nb_App_CF_tot_0203
Nb_App_CF_grat_0203
Nb_App_CF_pay_0203
Nb_J_CF_tot_0203
Nb_J_CF_pay_0203
mtnderpai
delmoy
nbrec
recmoy
sumrec
dat_activ
ancien
Conso_CF_0902
Conso_CF_1002
Conso_CF_1102
Conso_CF_1202
Conso_MOC_0902
Conso_MOC_1002
Conso_MOC_1102
Conso_MOC_1202
Conso_SMS_0902
Conso_SMS_1002
Conso_SMS_1102
Conso_SMS_1202
Conso_Totale_0902
Conso_Totale_1002
Conso_Totale_1102
Conso_Totale_1202
-4951220
-1802716
-3148504
-70637.7
-31017.6
-39620.1
-13625.3
-10348.5
-523022
-33932.3
-5979.4
-367.0
-174513
-173831
-681.8
-14241.5
-14223.1
-18.3843
-4818.4
-4.5922
7218.3
20237.1
-12257.9
4211.9
-203793
-51534.7
1712.6
-1716.7
2597.4
854.0
1577.2
-575057
-664834
-819667
-1462258
-11242.5
-22989.9
-111606
-214342
-588016
-685227
-930419
-1675023
123320
72048.0
79883.4
1921.9
1134.5
1144.3
356.9
271.8
17752.4
1163.6
254.1
326.3
37453.1
37451.3
418.1
1649.5
1649.5
10.4212
287.0
5.7945
576.5
1650.4
283.8
435.2
5231.0
22858.2
751.9
984.7
1866.0
1449.4
2517.1
120392
122656
124333
104927
38677.9
48488.5
45321.8
39932.7
130353
138017
137091
118105
117
1612.0
626.1
1553.4
1350.8
747.5
1198.8
1457.7
1449.8
868.0
850.3
553.9
1.2647
21.7111
21.5439
2.6598
74.5407
74.3476
3.1121
281.9
0.6281
156.8
150.4
1865.2
93.6738
1517.8
5.0830
5.1876
3.0397
1.9376
0.3472
0.3926
22.8154
29.3797
43.4615
194.2
0.0845
0.2248
6.0641
28.8110
20.3487
24.6492
46.0616
201.1
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
0.2608
<.0001
<.0001
0.1029
<.0001
<.0001
0.0777
<.0001
0.4281
<.0001
<.0001
<.0001
<.0001
<.0001
0.0242
0.0227
0.0812
0.1639
0.5557
0.5309
<.0001
<.0001
<.0001
<.0001
0.7713
0.6354
0.0138
<.0001
<.0001
<.0001
<.0001
<.0001
Annexes
Dur_CF_grat_0902
Dur_CF_grat_1002
Dur_CF_grat_1102
Dur_CF_pay_0902
Dur_CF_pay_1002
Dur_CF_pay_1102
Dur_CF_tot_0902
Dur_CF_tot_1002
Dur_CF_tot_1102
Dur_MOC_grat_0902
Dur_MOC_grat_1002
Dur_MOC_grat_1102
Dur_MOC_grat_1202
Dur_MOC_pay_0902
Dur_MOC_pay_1002
Dur_MOC_pay_1102
Dur_MOC_pay_1202
Dur_MOC_tot_0902
Dur_MOC_tot_1002
Dur_MOC_tot_1102
Dur_MOC_tot_1202
Dur_Tot_0902
Dur_Tot_1002
Dur_Tot_1102
Dur_Tot_1202
Dur_Tot_HRR_0902
Dur_Tot_HRR_1002
Dur_Tot_HRR_1102
Dur_Tot_HRR_1202
Nb_App_CF_grat_0902
Nb_App_CF_grat_1002
Nb_App_CF_grat_1102
Nb_App_CF_pay_0902
Nb_App_CF_pay_1002
Nb_App_CF_pay_1102
Nb_App_CF_tot_0902
Nb_App_CF_tot_1002
Nb_App_CF_tot_1102
Nb_App_MOC_grat_0902
Nb_App_MOC_grat_1002
Nb_App_MOC_grat_1102
Nb_App_MOC_grat_1202
Nb_App_MOC_pay_0902
51760.8
31612.5
-3419.5
-3157.1
3547.1
1618.9
48603.6
35159.6
-1800.6
-17280.7
-191963
-474113
-804407
-690485
-866177
-1031128
-1702667
-707766
-1058141
-1505241
-2507074
-659162
-1022981
-1507042
-2567611
-711113
-1054740
-1503703
-2505908
3201.1
2676.3
232.4
11.3097
38.6254
3.1925
3212.4
2714.9
235.5
-2501.1
-5091.4
-9179.6
-14940.7
-6156.3
39423.6
32887.6
25914.8
1587.1
2622.4
2232.3
39466.9
32991.8
26031.1
96631.7
119670
103672
102810
153201
146586
151290
131248
202700
214783
208286
192388
215758
225613
217496
203339
202704
214864
208292
192477
1614.9
1632.9
1339.5
8.6731
26.5130
15.9242
1614.9
1634.6
1339.7
1427.4
1662.0
1491.9
1543.0
1680.5
118
1.7238
0.9240
0.0174
3.9569
1.8296
0.5259
1.5166
1.1357
0.00478
0.0320
2.5731
20.9142
61.2178
20.3134
34.9161
46.4518
168.3
12.1920
24.2710
52.2266
169.8
9.3336
20.5592
48.0120
159.4
12.3070
24.0970
52.1171
169.5
3.9291
2.6861
0.0301
1.7004
2.1224
0.0402
3.9568
2.7586
0.0309
3.0702
9.3846
37.8576
93.7592
13.4211
0.1892
0.3364
0.8950
0.0467
0.1762
0.4683
0.2181
0.2866
0.9449
0.8581
0.1087
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
0.0005
<.0001
<.0001
<.0001
0.0022
<.0001
<.0001
<.0001
0.0005
<.0001
<.0001
<.0001
0.0475
0.1012
0.8623
0.1922
0.1452
0.8411
0.0467
0.0967
0.8604
0.0797
0.0022
<.0001
<.0001
0.0002
Annexes
Nb_App_MOC_pay_1002
Nb_App_MOC_pay_1102
Nb_App_MOC_pay_1202
Nb_App_MOC_tot_0902
Nb_App_MOC_tot_1002
Nb_App_MOC_tot_1102
Nb_App_MOC_tot_1202
Nb_App_SMS_0902
Nb_App_SMS_1002
Nb_App_SMS_1102
Nb_App_SMS_1202
Nb_App_Tot_0902
Nb_App_Tot_1002
Nb_App_Tot_1102
Nb_App_Tot_1202
Nb_App_Tot_HRR_0902
Nb_App_Tot_HRR_1002
Nb_App_Tot_HRR_1102
Nb_App_Tot_HRR_1202
Nb_J_CF_pay_0902
Nb_J_CF_pay_1002
Nb_J_CF_pay_1102
Nb_J_CF_tot_0902
Nb_J_CF_tot_1002
Nb_J_CF_tot_1102
Nb_J_MOC_pay_0902
Nb_J_MOC_pay_1002
Nb_J_MOC_pay_1102
Nb_J_MOC_pay_1202
Nb_J_MOC_tot_0902
Nb_J_MOC_tot_1002
Nb_J_MOC_tot_1102
Nb_J_MOC_tot_1202
Nb_J_SMS_0902
Nb_J_SMS_1002
Nb_J_SMS_1102
Nb_J_SMS_1202
-9352.4
-12145.2
-22683.1
-8657.4
-14443.8
-21324.8
-37623.7
-1108.2
-1465.6
-7167.7
-13803.2
-6553.2
-13194.4
-28257.0
-55209.0
-9765.2
-15880.7
-28494.5
-51436.3
8.2460
12.2808
2.6226
469.4
186.6
-123.4
-1151.5
-2263.8
-3125.6
-5823.5
-1003.5
-2354.5
-3825.7
-6981.4
-493.5
-777.6
-1770.6
-2947.5
1769.6
1748.9
1555.3
2627.3
2880.0
2733.4
2603.8
2581.8
3222.3
3005.5
2630.8
4955.0
5868.9
5273.5
4928.2
4124.8
5094.4
4610.4
4224.0
6.1328
12.4448
9.9619
338.0
358.8
339.6
347.6
359.9
333.2
328.7
435.1
441.4
409.4
406.1
336.3
358.4
329.6
332.1
119
27.9312
48.2261
212.7
10.8584
25.1515
60.8634
208.8
0.1842
0.2069
5.6874
27.5295
1.7491
5.0543
28.7116
125.5
5.6048
9.7175
38.1989
148.3
1.8079
0.9738
0.0693
1.9282
0.2704
0.1321
10.9746
39.5754
88.0156
313.9
5.3180
28.4550
87.3154
295.5
2.1527
4.7077
28.8670
78.7865
<.0001
<.0001
<.0001
0.0010
<.0001
<.0001
<.0001
0.6677
0.6492
0.0171
<.0001
0.1860
0.0246
<.0001
<.0001
0.0179
0.0018
<.0001
<.0001
0.1788
0.3237
0.7923
0.1650
0.6031
0.7163
0.0009
<.0001
<.0001
<.0001
0.0211
<.0001
<.0001
<.0001
0.1423
0.0300
<.0001
<.0001
Annexes
Chi- Pr >ChiDF
Square Square
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
2136.0
2963.1
3616.1
3981.1
4236.0
4417.0
4623.3
4945.6
5259.2
5451.4
5535.3
5604.9
5665.2
5730.4
5759.4
5783.4
5796.6
5818.1
5830.0
5843.5
5860.4
5868.8
5878.1
5885.0
5891.6
5896.6
5906.5
5914.3
5920.3
5926.4
5930.8
5934.9
5939.3
5943.6
5947.5
5950.9
5953.2
5955.2
120
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
ChiPr ChiSquare
Square
Increment Increment
2136.0
827.1
653.0
364.9
254.9
181.0
206.3
322.3
313.6
192.3
83.8412
69.6506
60.2213
65.2810
28.9356
24.0348
13.2452
21.4972
11.8133
13.5182
16.8904
8.4137
9.3349
6.9248
6.5632
4.9702
9.9684
7.7256
6.0534
6.0331
4.4182
4.1623
4.3361
4.3137
3.9610
3.3254
2.3165
2.0447
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
0.0003
<.0001
0.0006
0.0002
<.0001
0.0037
0.0022
0.0085
0.0104
0.0258
0.0016
0.0054
0.0139
0.0140
0.0356
0.0413
0.0373
0.0378
0.0466
0.0682
0.1280
0.1527
Annexes
Dur_CF_tot_0902
Dur_CF_grat_1002
Dur_CF_tot_0203
Nb_App_Tot_0902
Nb_App_CF_tot_1002
Dur_CF_grat_0103
Nb_App_CF_pay_0103
Nb_J_CF_pay_0203
Nb_App_CF_pay_1102
Dur_CF_pay_0203
Dur_MOC_pay_0103
Dur_CF_grat_1102
Nb_App_CF_tot_1202
Dur_CF_tot_1202
Nb_App_MOC_tot_0103
Nb_App_Tot_HRR_1202
Nb_J_CF_pay_0103
Nb_App_CF_pay_0902
Conso_CF_0902
Conso_SMS_0902
Nb_App_MOC_grat_0902
Dur_MOC_tot_0103
Dur_Tot_0902
Nb_J_MOC_tot_1202
Nb_J_MOC_pay_1002
Nb_J_CF_pay_1102
Dur_MOC_grat_1102
Conso_MOC_1102
Nb_App_SMS_1102
Dur_CF_pay_0103
Nb_J_CF_pay_1202
Dur_CF_pay_1202
Nb_J_MOC_tot_0902
Nb_J_CF_tot_0902
Nb_J_SMS_0902
Nb_J_SMS_1202
Nb_J_SMS_1102
Conso_MOC_1002
Dur_MOC_grat_0902
Dur_Tot_HRR_1202
Nb_J_CF_tot_1002
Nb_App_CF_pay_0203
Conso_CF_0203
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
5966.3
5972.6
5975.8
5978.5
5981.9
5984.5
5986.1
5990.8
5992.9
5995.3
5997.0
5998.5
5999.8
6002.9
6004.1
6005.3
6006.5
6007.5
6009.1
6010.2
6011.4
6012.3
6013.4
6014.4
6015.2
6016.0
6016.7
6017.6
6018.2
6018.8
6019.4
6021.1
6021.6
6022.2
6022.7
6023.5
6024.1
6024.6
6025.1
6025.5
6026.0
6026.3
6026.7
121
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
11.0554
6.3015
3.1850
2.7256
3.4351
2.5930
1.5993
4.6327
2.1473
2.3783
1.7312
1.5178
1.2703
3.0709
1.2697
1.1405
1.2019
0.9941
1.6290
1.0998
1.1788
0.9423
1.1160
0.9525
0.7949
0.7905
0.7257
0.8750
0.5772
0.6616
0.5775
1.7076
0.4582
0.6445
0.5315
0.7468
0.5752
0.5513
0.4552
0.4676
0.4371
0.3399
0.4264
0.0009
0.0121
0.0743
0.0988
0.0638
0.1073
0.2060
0.0314
0.1428
0.1230
0.1883
0.2180
0.2597
0.0797
0.2598
0.2855
0.2729
0.3187
0.2018
0.2943
0.2776
0.3317
0.2908
0.3291
0.3726
0.3740
0.3943
0.3496
0.4474
0.4160
0.4473
0.1913
0.4985
0.4221
0.4660
0.3875
0.4482
0.4578
0.4999
0.4941
0.5085
0.5599
0.5138
Annexes
Nb_App_CF_pay_1002
Dur_MOC_pay_1002
Nb_J_CF_pay_1002
Nb_App_SMS_0103
Dur_MOC_grat_1202
dat_activ
Nb_App_MOC_grat_1002
Dur_MOC_grat_1002
Conso_CF_1002
Dur_Tot_1002
Nb_App_Tot_HRR_1002
Nb_App_Tot_0203
Nb_App_CF_grat_1102
Nb_J_MOC_pay_1102
Conso_CF_1202
delmoy
Nb_App_Tot_0103
Nb_J_CF_tot_0103
Nb_J_MOC_tot_1002
Dur_MOC_grat_0203
Dur_MOC_pay_1102
Conso_SMS_1102
Nb_App_MOC_grat_0103
Nb_App_Tot_HRR_1102
Nb_J_CF_tot_1202
Conso_SMS_0103
Nb_App_CF_tot_0203
Nb_App_Tot_HRR_0203
Conso_Totale_0103
Conso_MOC_1202
Dur_Tot_HRR_0203
Dur_MOC_tot_0203
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
6027.0
6027.3
6027.6
6027.8
6028.0
6028.1
6028.3
6028.4
6028.5
6033.3
6033.5
6033.5
6033.6
6033.7
6033.8
6033.8
6033.8
6033.9
6033.9
6034.0
6034.0
6037.2
6037.2
6037.2
6037.2
6037.2
6037.3
6038.2
6038.2
6038.2
6038.2
6038.4
122
<.0001 0.2841
<.0001 0.2779
<.0001 0.2763
<.0001 0.2003
<.0001 0.1686
<.0001 0.1761
<.0001 0.1259
<.0001 0.1057
<.0001 0.0967
<.0001 4.8902
<.0001 0.1039
<.0001 0.0878
<.0001 0.0854
<.0001 0.0758
<.0001 0.0613
<.0001 0.0537
<.0001 0.0346
<.0001 0.0695
<.0001 0.0310
<.0001 0.0255
<.0001 0.0164
<.0001 3.1964
<.0001 0.0248
<.0001 0.0164
<.0001 0.0108
<.0001 0.00948
<.0001 0.0147
<.0001 0.9605
<.0001 0.00376
<.0001 0.000641
<.0001 0.000011
<.0001 0.1528
0.5941
0.5981
0.5992
0.6545
0.6814
0.6748
0.7227
0.7451
0.7558
0.0270
0.7472
0.7670
0.7701
0.7830
0.8045
0.8167
0.8524
0.7920
0.8603
0.8731
0.8980
0.0738
0.8749
0.8981
0.9174
0.9224
0.9035
0.3271
0.9511
0.9798
0.9973
0.6959
Rfrences
Rfrences
Abdi H., Les rseaux de neurones, Presses Universitaires de Grenoble, Sciences et
technologies de la connaissance, ISBN : 2-7061-0554-2, 1999.
Agrawal R., Rajagopalan S., Srikant R., Xu Y., Mining newsgroups using networks arising
from social behavior, Proceedings of the twelfth international conference on World
Wide Web, ISBN:1-58113-680-3, pp. 529-535, 2003.
Alain J.M. (2001), Prsentation du rseau GSM, http://www.lirmm.fr/~ajm/Cours/0102/DESS_TNI/TER9/prercqu/fonction.htm, LIRMM, 2001.
Ale J.M., Rossi G.H., An approach to discovering temporal association rules, Proceedings of
the 2000 ACM symposium on Applied computing, ISBN:1581132409, pp. 294-300,
2000.
Allison P.D., Survival Analysis Using the SAS System, Cary, SAS Institute, 1995.
Anderson C., Domingos P., Weld D., Relational Markov models and their application to
adaptive Web navigation, In Proceedings of the 8th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, pp. 143-152, 2002.
Archaux C., Khenchaf A., Modlisation de la valeur client en tlphonie mobile prpaye,
Sciences of Electronic Technologies of Information and Telecommunications (SETIT),
Sousse, Tunisia, 15-20 March 2004.
Archaux C., Khenchaf A., Vers un Systme d'Information Stratgique en Tlphonie Mobile
Prpaye, VSST'2004, Veille Stratgique Scientifique & Technologique, Toulouse,
France, 25-29 October 2004.
Archaux C., Laayana H., Martin A., Khenchaf A., An SVM based Churn Detector in Prepaid
Mobile Telephony, International Conference on Information & Communication
Technologies: from Theory to Applications (ICTTA), Damascus, Syria, 19-23 April
2004.
Archaux C., Martin A., Khenchaf A., Dtection par SVM - Application la dtection de
churn en tlphonie mobile prpaye, Extraction et Gestion des Connaissances (EGC),
in Revue des Nouvelles Technologies de l'Information, Vol 2, pp 597, Clermont
Ferrand, France, 20-23 Janvier 2004.
Archaux C., Pellen F., Hoeltzener B., Khenchaf A., Revue des Nouvelles Technologies de
l'Information, Systmes dInformation pour lAide la Dcision : Applications en
Tlphonie Mobile et en Donnes Radar ( paratre)
Baesens, B., Viaene, S., Van den Poel, D., Vanthienen, J., Dedene, G., Bayesian Neural
Network Learning for Repeat Purchase Modelling in Direct Marketing, European
Journal of Operational Research, 138 (1), pp.191-211, 2002.
Bauer E., Kohavi R., An Empirical Comparison of Voting Classification Algorithms:
Bagging, Boosting, and Variants, Journal of Machine Learning Vol 36, Nos. 1/2, pp.
105-139, 1999.
Berger P.D., Nasr N.I., Customer lifetime value: marketing models and applications, Journal
of Interactive Marketing, 12(1), pp. 1730, 1998
Bhattacharyya S., Evolutionary algorithms in data mining: Multi-objective performance
modeling for direct marketing, Proceedings of the 6th ACM SIGKDD International
Conference on Knowledge Discovery & Data Mining, pp. 465-473, 2000.
123
Rfrences
Biganzoli E., Boracchi P., Marubini E., A general framework for neural network models on
censored survival data, Neural Networks Archive, vol 15, Issue 2, pp.209-218, 2002
Bishop C.M., Neural Networks for Pattern Recognition, Oxford University Press, 1995.
Blattberg R.C., Deighton J., Manage marketing by the customer equity test, Harvard Business
Review, JulAug, pp. 136144, 1996
Bolton R. J., Hand D. J., Statistical Fraud Detection: A Review (with discussion), Statistical
Science, 17(3), pp. 235-255, 2002.
Bolton R.N., A Dynamic Model of the Duration of the Customers Relationship with a
Continuous Service Provider : The Role of Satisfaction, Marketing Science 17 (1), pp.
45-65, 1998.
Bounsaythip C., Rinta-Runsala E., Overview of Data Mining for Customer Profiling,
Technical Report, TTE1-2001-18, VTT Information Technology, Information Systems,
2001.
Bouroche J.M., Saporta G., L'Analyse des donnes , Presses Universitaires de France, 2002.
Bouygues Telecom, Guide des Tarifs du 5 fvrier 2004, Documentation grand public, 2004.
Breiman L., Bagging predictors, Machine Learning, v.24 n.2, pp.123-140, 1996.
Breiman L., Bagging predictors, Technical report n421, University of California,
Department of Statistics, September 1994.
Briand H., Guillet F., Extraction des connaissances et apprentissage, Herms, Vol. 1, N1-2,
2001.
Brown S., CRM Customer Relationship Management : La Gestion de la relation client,
Village Mondial, ISBN : 2744060798, 2003.
Buckinx W., Van Den Poel D., Customer Base Analysis: Partial Defection of BehaviorallyLoyal Clients in a Non-Contractual FMCG Retail Setting, European Journal of
Operational Research, 2004.
Burges C., A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and
Knowledge Discovery, Vol. 2(2), pp. 121-167, 1998.
Calciu M., Francis F., La valeur client (life time value) : Synthse des modles et propositions
d'extension, actes du 18me congrs de l'association franaise du marketing, lille, 2, pp.
205-230, 2002.
Calciu M., Salerno F., Customer value modelling: synthesis and extension proposals, journal
of targeting, measurement and analysis for marketing, vol. 11, iss. 2, pp. 124-147,
2002.
Carbonell J., Frawley W., Parsaye K., Quinlan J.R., Siegel M., Uthurusamy R., KDD-89:
IJCAI-89 Workshop on Knowledge Discovery in Databases, 1989.
Cargnello-Charles E., Gestion de la rentabilit des clients bancaires, Dcisions Marketing,
n16, pp. 25-37, 1999.
Chauchat J-H., Rakotomalala R., Robert D., Sampling strategies for targeting rare groups
from a bank customer databases, in Proceedings of the 4th European Conference on
Knoweldge Discovery in Databases, PKDD'2000, pp. 181-190, 2000.
124
Rfrences
Chiang D.A., Wang Y.F., Lee S.L., Lin C.J., Goal-oriented sequential pattern for network
banking churn analysis, Expert Systems with Applications, Elsevier Science, pp. 293302, 2003.
Cibois P., L'Analyse factorielle, ISBN : 2130508839, Presses Universitaires de France, Que
sais-je, 2000.
Clech J., Contribution Mthodologique la Fouille de Donnes Complexes, Thse de
Doctorat en Informatique, Universit Lumire Lyon2, 2004.
Collobert R., Support Vector Machines Thorie et Application, Rapport de Stage de lIDIAP,
2000.
Cornujols A., Miclet L., Kodratoff Y., Apprentissage artificiel : Concepts et algorithmes,
ISBN: 2-212-11020-0, Eyrolles, 2002.
Courtheoux R., Customer retention: how much to invest. Research and the Customer
Lifecycle, New York, 1995
Cox D. R., Oakes, D., Analysis of Survival Data, Chapman and Hall, 1984.
Cox D.R., Regression models and life tables, Journal of the Royal Statistical Society, B34, pp.
187- 220 , 1972.
Cri D., Active versus inactive customer or from client to ex-client. Concepts, definitions and
measures, Les cahiers de la recherche, 2001.
Cri D., Benavent C., La dynamique de clientle : segmentation et valeur actualise du client,
Working Paper EREM, 16p, 1994, en coll. avec C. Bnavent et Congrs National des
IAE, Nantes, 1998.
Cri D., Intrt des modles de survie dans la gestion de la clientle, Journes rgionales de
lAssociation Franaise du Marketing, 1994.
Cri D., Salerno F., Modlisation de la dtection des clients dormants, 18e Congrs
international de l'Association Franaise du Marketing, pp. 591-609, 2002.
Cri D., Satisfaction, valeur des clientles et rentabilit, habilitation diriger des recherches,
iae/universit de lille 1, 2002.
Daskalaki S., Kopanas I., Goudara M., Avouris N., Data mining for decision support on
customer insolvency in telecommunications business, European Journal of Operational
Research, vol. 145, n 2, pp. 239-255, 2003.
Datta P., Drew J.H., Betz A., Mani D. R., Howard J., Estimating business targets,
Proceedings of the seventh ACM SIGKDD international conference on Knowledge
discovery and data mining, pp.420-425, 2001.
Datta P., Masand B., Mani D. R. , Li B., Automated Cellular Modeling and Prediction on a
Large Scale, Artificial Intelligence Review, vol.14 n6, pp. 485-502, 2000.
Dedman R. D., Building customer loyalty and minimising churn. A guide to effective customer
care and billing systems in telecoms services, FT Telecoms & Media Publishing, ISBN
: 1853345121, 1996.
Domingos P., Richardson M., Mining the network value of customers, Proceedings of the
seventh ACM SIGKDD international conference on Knowledge discovery and data
mining, pp.57-66, 2001.
125
Rfrences
Drew J.H., Mani D.R., Betz A.L., Datta P., Targeting Customers With Statistical and DataMining Techniques, Journal of Service Research 3 (3), pp. 205-219, 2001.
Eleuteri A., Tagliaferri R., Milano L., De Placido S., De Laurentiis M., A novel neural
network-based survival analysis model, Source Neural Networks archive, Volume 16,
Issue 5-6, ISSN:08936080, IJCNN'03, pp. 855-864, 2003.
Escofier B., Pags J., Analyses factorielles simples et multiples : Objectifs, mthodes et
interprtation, 3e dition, Dunod, ISBN : 2100041274, 1998.
Falissard B., Comprendre et utiliser les statistiques dans les sciences de la vie, Masson, pp.
279-307, 1996.
Fayyad U., Piatetsky-Shapiro G., Smyth P., The KDD process for extracting useful knowledge
from volumes of data, Communications of the ACM, 39(11), pp. 27-34, 1996.
Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge
Discovery and Data Mining, AAAI Press, 1996.
Flint D. J., Woodruff R.B., Gardial S.F., Customer Value Change in Industrial Marketing
Relationships: A Call for New Strategies and Research, Industrial Marketing
Management, N 26, pp. 163-175, 1997.
Gans, Joshua S., Network competition and consumer churn, Information Economics and
Policy, Elsevier, vol. 12, n2, pp. 97-109, 2000.
Goffinet J., Machines vecteur de support pour la dtection et le suivi de personnes sur des
squences vido, rapport de stage, 2001.
Gourieroux C., Monfort A., Sries temporelles et modles dynamiques, ISBN : 2717828710,
Economica, 1995.
Guermeur Y. et Paugam-Moisy H., Thorie de lapprentissage de Vapnik et SVM, Support
Vector Machines, Apprentissage automatique, Hermes Sciences Publications, 1999.
Guillaume S., Traitement des donnes volumineuses, mesures et algorithmes d'extraction de
rgles d'association et de rgles ordinales, Thse de doctorat, Universit de Nantes,
2000.
Gutschoven B., Verlinde P., Multi-modal Identity Verification using Support Vector Machines
(SVM), International Conference on Information Fusion, Paris, France, 10-13 juillet
2000
Hand D.J., Mannila H.,, Smyth P., Principles of Data Mining, MIT Press, 2001.
Helsen K., Schmittlein D.C., Analyzing Duration Times in Marketing : Evidence for the
Effectiveness of Hazard Rate Models, Marketing Science, Vol. 12, No. 4, pp. 395-414 ,
1993.
Hill C., Com-Nougue C., Kramar A., Moreau T., O'Quigley J., Senoussi R., Chastang C.,
Analyse statistique des donnes de survie, INSERM / Flammarion, 1990.
Hoeltzener B., Archaux C., Khenchaf A., Human expertise and its role in complex systems,
First Global Conference in Artificial Intelligence, 2003.
Hollmn J., User Profiling and Classification for Fraud Detection, Thse de doctorat,
University of Helsinki, 2000.
Hwang H.S., Jung T.S., Suh E.H., An LTV model and customer segmentation based on
customer value, Expert systems with applications, Vol. 26, pp.181-188, 2004.
126
Rfrences
Jackson D.R., Strategic application of customer lifetime value in the direct marketing
environment, Journal of Targeting Measurement and Analysis for Marketing, vol.3,
n1, pp. 917, 1994
Jambu M., Introduction au data mining: Analyse intelligente des donnes, Eyrolles, ISBN :
2212052553, 2000.
Jambu M., Mthodes de base de l'analyse des donnes, Collection technique et scientifique
des telecommunications, Eyrolles, ISBN : 2212052561, 1999.
Kalbfleisch J.D., Prentice R.L., The Statistical Analysis of Failure Time Data, John Wiley &
Sons; 2nd edition, ISBN: 047136357X, 2002.
Kaplan E.L., Meier R., Nonparametric Estimation From Incomplete Observations, Journal of
the American Statistical Association, pp. 457-481, 1958.
Kim J., Suh E., Hwang H., A Model for Evaluating the Effectiveness of CRM using the
Balanced Scorecard, Journal of Interactive Marketing, 17(2), pp. 5-19, 2003.
Kimball R., Ross M., Entrepts de donnes. Guide pratique de modlisation dimensionnelle,
2me dition, ISBN : 2711748111, Vuibert, 2003.
Kxen, Kxen Analytic Framework, Guide utilisateur V1.0, 2004.
Laayana H., Dtection par SVM Application la dtection de roches pour le recalage
dimages sonar, rapport de DESA, juillet 2003.
Lawless J.F., Statistical Models and Methods for Lifetime Data, John Wiley & Sons; 2nd
edition, ISBN: 0471372153, 2002.
Le Goff J.M., Modlisation des vnements du parcours de vie : une introduction, tutorial
PAVIE, Centre lmanique d'tude des parcours et modes de vie, 2003.
Lee Y., Crites R., Combining value and probability models in database mining, Brevet WO
01/29692 A2, World Intellectual Property Organization, 2001.
Leeflang P.S.H., Wittink D.R., Building models for marketing decisions: past, present and
future, Research Report00F20, University of Groningen, Research Institute SOM
(Systems, Organisations and Management), 2000.
Lefbure G., Venturi R., Gestion de la relation client, Panorama des produits et conduite de
projets, Eyrolles, 2000.
Liquet J.C., Cri D., Mesurer la dure de vie d'un client : le cas des abonnements presse,
Dcisions Marketing, n13, pp. 75-84, 1998.
Madden G., Savage S. J., Coble-Neal G., Subscriber churn in the Australian ISP market,
Information Economics and Policy, Elsevier, vol. 11(2), pp. 195-207, 1999.
Mani D.R., Drew J., Betz A., Datta P., Statistics and data mining techniques for lifetime value
modeling, Proceedings of the fifth ACM SIGKDD international conference on
Knowledge discovery and data mining, pp. 94-103, 1999.
Mlard G., Mthodes de prvision court terme, ISBN : 2729890548, Ellipses,1991.
Mittal B., Lasser W.M., Why do customers switch? The dynamics of satisfaction versus
loyalty, Journal of Services Marketing 12 (3), pp. 177-194, 1998.
Moisand D., CRM : Gestion de la relation client, Hermes Science Publications, ISBN :
2746205742,2002.
127
Rfrences
Monfort A., Gourieroux C., Sries Temporelles Et Modles Dynamiques, Isbn : 2717828710,
Economica, 1999.
Mozer M. C., Wolniewicz R., Grimes D. B., Johnson E., Kaushansky H., Predicting
Subscriber Dissatisfaction and Improving Retention in the Wireless
Telecommunications Industry, IEEE Transactions on neural networks , pp. 690-696,
2000.
Mozer M.C., Dodier R., Colagrosso M.D., Guerra-Salcedo C., and Wolniewicz R., Prodding
the ROC Curve: Constrained Optimization of Classifier Performance, Advances in
Neural Information Processing Systems 14, MIT Press, 2002.
Nath S.V., Behara R.S., Customer Churn Analysis in the Wireless Industry: A Data Mining
Approach, Proceedings of the 34th meeting of the Decision Sciences Institute, 2003.
Neal R. M., Survival Analysis Using a Bayesian Neural Network, Joint Statistical Meetings
report, 2001.
Njike-Fotzo H., Gallinari P., Delbeque T., Un algorithme de boosting pour des modles
d'optimisation de campagne de churn, 13e Congrs Francophone AFRIF-AFIA de
Reconnaissance des Formes et Intelligence Artificielle, 2002.
Palen L., Salzman M., Youngs E., Going wireless: behavior & practice of new mobile phone
users, Proceedings of the 2000 ACM conference on Computer supported cooperative
work, ISBN:1581132220, pp. 201-210, 2000.
Pearson S., Building brands directly: creating business value from customer relationships,
London: MacMillan Business, 1996.
Pednault E., Abe N., ZadroznyB., Wang H., Fan W., and Apte C., Sequential cost-sensitive
decision making with reinforcement learning, In Proceedings of the Eighth ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM
Press, 2002.
Pfeifer P.E., Carraway R.L., Modeling customer relationships as Markov Chains, Journal of
Interactive Marketing, vol.14,n2, pp. 43-55, 2000.
Piatetsky-Shapiro G., Masand B., Estimating campaign benefits and modeling lift,
Proceedings of the fifth ACM SIGKDD international conference on Knowledge
discovery and data mining, pp. 185-193, 1999.
Redman T., Data quality for the information age, Artech House Publishers, ISBN
0890068836, 1996.
Richardson M., Domingos P., Mining knowledge-sharing sites for viral marketing,
Proceedings of the eighth ACM SIGKDD international conference on Knowledge
discovery and data mining, 2002.
Rifkin R., Moreno P., Nicpanski H., Alvira M., Paris J., King V., Nadermann M., SvmFu
Documentation, http://five-percent-nation.mit.edu/SvmFu/, 2002.
Ripley B.D., Ripley R.M., Neural Networks as statistical methods in survival analysis. In R.
Dybowsky, & V. Gant (Eds.), Artificial neural networks: Prospects for medicine,
Landes Biosciences, 1998.
Rosenblatt F., The Perceptron: a Perceiving and Recognizing Automaton, Report 85-460-1,
Project PARA, Cornell Aeronautical Laboratory, Ithaca, New York, 1957.
128
Rfrences
Rosset S., Murad U., Neumann E., Idan Y., Pinkas G., Discovery of fraud rules for
telecommunications-challenges and solutions, Proceedings ACM SIGKDD, 1999.
Rosset S., Neumann E., Eick U., Vatnik N., Idan Y., Customer lifetime value modeling and its
use for customer retention planning, Proceedings of the eighth ACM SIGKDD, pp.
332-340, 2002.
Rosset S., Neumann E., Eick U., Vatnik N., Lifetime Value Models for Decision Support,
Data Mining and Knowledge Discovery Journal, Vol. 7, pp. 321-339, 2003.
Rumelhart D. E., Mc Clelland J.L., Parallel Distributed Processing. Explorations in the
Microstructure of Cognition, ISBN: 0-262-68053-X. 1986.
Rygielski C., Wang J.C., Yen D.C., Data mining techniques for customer relationship
management, Technology in Society 24, pp. 483-502, 2002.
Saporta G., Probabilits, analyse des donnes et statistique , Editions Technip, 1990.
SAS Institute Inc., http://www.sas.com/industry/telco, 2004.
SAS Institute Inc., SAS OnlineDoc, Version 8, SAS institute Inc., 2000.
SAS Institute, Neural Network Node: Reference, SAS Enterprise Miner Documentation, 1998.
Schapire R.E., Freund Y., Bartlett P. Lee W.S., Boosting the margin: A new explanation for
the effectiveness of voting methods, The Annals of Statistics, 26(5), pp. 1651-1686,
1998.
Schapire R.E., The boosting approach to machine learning: An overview, In MSRI Workshop
on Nonlinear Estimation and Classification, 2002.
Schapire R.E., The strength of weak learnability, Machine Learning, Vol 5, n2, pp. 197227,
1990.
Schmitt F., La segmentation, bote de Pandore de la connaissance clients, Point de vue :
Segmentation client, Accenture, 2002.
Scholkopf B., Statistical learning and kernel methods, Rapport Technique Microsoft
Research, MSR-TR-2000-23, 2000.
Schlkopf B., Sung K., Burges C., GirosiF., Niyogi P., Poggio T., VapnikV., Comparing
support vector machines with Gaussian kernels to radial basis function classifiers.
IEEE Transactions on Signal Processing 45(11), pp. 2758-2765, 1997.
Shaw M.J., Subramaniam C., Tan G.W., Welge M.E., Knowledge management and data
mining for marketing, Decision Support Systems, vol. 31, n 1, pp. 127-137, May 2001.
Shawe-Taylor J., Howker K., Burge P., Detection of fraud in mobile telecommunications,
Information Security Technical Report, vol. 4, n 1, pp. 3-15, 1999.
Taniguchi M., Haft M., Hollmn J., Tresp V., Fraud detection in communications networks
using neural and probabilistic methods, ICCASP, Vol 2, pp. 1241-1244, 1998.
Van Den Poel D., Larivire B., Customer Attrition Analysis For Financial Services Using
Proportional Hazard Models, European Journal of Operational Research, Vol 157, n1,
pp. 196-217, 2004.
Vapnik V., Statistical Learning Theory, John Wiley & Sons, 1998.
Vapnik V., The Nature of Statistical Learning Theory, Statistics for Engineering and
Information Science, 2nd edition, Springer-Verlag, ISBN: 0387987800, 1999.
129
Rfrences
Veropoulos, K., Campbell, C., Cristianini, N., Controlling the Sensitivity of Support Vector
Machines, Proceedings of the International Joint Conference on Artificial Intelligence,
1999.
Viennet E., Apprentissage Statistique et Support Vector Machines, Reconnaissance Statistique
des Formes, cours du DEA Intelligence Artificielle de l'Institut Galile, dcembre 2000.
Wang R.Y., A framework for analysis of data quality research, IEEE Transactions on
Knowledge and Data Engineering, vol. 7, n 4, pp. 623-638, 1995.
Wei C.P., Chiu I.T., Turning telecommunications call details to churn prediction : a data
mining approach, Expert Systems with Applications, vol. 23, n 2, pp 103-112, 2002.
Zheng Z., Kohavi R., Mason L., Real world performance of association rule algorithms,
Proceedings of the seventh ACM SIGKDD international conference on Knowledge
discovery and data mining, ISBN 158113391X, pp. 401-406, 2001.
Zighed D.A., Rabaseda S., Rakotomalala R., Feschet F., Discretization methods in supervised
learning, in Encyclopedia of Computer Science and Technology, vol. 40, pp. 35-50,
Marcel Dekker inc., 1999.
Zighed D.A., Rakotomalala R., Extraction de connaissances partir de donnes (ECD), in
Techniques de l'Ingnieur, H 3 744, 2003.
Zighed D.A., Rakotomalala R., Graphes d'induction : apprentissage automatique et Data
mining, ISBN : 2746200724, Herms, 2000.
130
Titre :
Conception dun Systme dInformation ddi lEstimation de la Valeur des Clients en Tlphonie
Mobile Prpaye
Rsum :
Cette thse se situe dans le contexte de la tlphonie mobile prpaye. Elle vise fournir aux
dcisionnaires dun oprateur de tlphonie mobile (Bouygues Telecom) une estimation de la valeur de
leurs clients. Le processus dExtraction de Connaissances partir de Donnes est le fil conducteur des
travaux. Le plan suivi commence par la spcificit de la tlphonie mobile prpaye et le systme
dacquisition des donnes. Nous dtaillons ensuite une phase danalyse des donnes qui permet dobtenir
une segmentation homogne de lensemble des clients. Une tape de dtection de la fuite des clients la
concurrence est ensuite propose, suivie dun modle du comportement de rechargement qui permet
dtablir des estimations financires de leurs valeurs. Nous mettons enfin en perspective le systme
dinformation stratgique mergeant de la fusion des indicateurs fournis par les diffrents modles.
Mots-cls : Tlphonie Mobile Prpaye, Analyse de Survie, Lifetime Value, Dtection de Churn, Analyse de
Donnes Volumineuses, Extraction de Connaissances partir de Donnes, Apprentissage Supervis,
Rseaux de Neurones, Machines Support de Vecteurs, Systme dInformation Dcisionnel.
Title :
Design of an Information System dedicated to Customer Lifetime Value Estimation in Prepaid Mobile
Telephony
Abstract :
This thesis is achieved in the field of prepaid mobile telephony. Its objective is to provide the managers of
a mobile telephony operator (Bouygues Telecom) with an estimation of the customer value. The process of
Knowledge Discovery in Database is the main guideline of this dissertation. The plan begins with the
specificity of prepaid mobile telephony and the data acquisition system. We then detail a data analysis
which enables us to obtain a homogeneous segmentation of customers. A customer churn detection step is
then proposed, followed by a model of the customer crediting behavior, which enables us to draw up
financial estimates of their values. The fusion of the indicators provided by the various models finally give
rise to a strategic information system.
Keywords : Prepaid Mobile Telephony, Survival Analysis, Lifetime Value, Churn Detection, Large Database Analysis,
Knowledge Discovery in Database, Supervised Learning, Neural Networks, Support Vector Machines,
Decision Support System.
Discipline : Informatique
N ED 366 - 193