Você está na página 1de 144

UNIVERSITE DE NANTES

COLE DOCTORALE
SCIENCES ET TECHNOLOGIES
DE LINFORMATION ET DES MATERIAUX
Anne : 2005

Thse de Doctorat de lUniversit de Nantes


Spcialit : INFORMATIQUE
Prsente et soutenue publiquement par

Cdric ARCHAUX
le 14 janvier 2005
lEcole Nationale Suprieure des Ingnieurs
dEtudes et Techniques de lArmement de Brest

CONCEPTION DUN SYSTEME DINFORMATION DEDIE


A LESTIMATION DE LA VALEUR DES CLIENTS
EN TELEPHONIE MOBILE PREPAYEE

Jury
Prsident

M. Henri BRIAND

Professeur, Ecole Polytechnique de lUniversit de Nantes

Rapporteurs

M. Gilbert SAPORTA
M. Djamel Abdelkader ZIGHED

Professeur, CNAM de Paris


Professeur, Universit Lyon 2

Examinateurs :

M. Ali KHENCHAF
Professeur, ENSIETA de Brest
M. Jean-Marie PINON
Professeur, INSA de Lyon
Mme Camille ROSENTHAL-SABROUX Professeur, Universit Paris-Dauphine

Directeur de Thse : Ali Khenchaf, Professeur


Laboratoire : E3I2 EA 3876, ENSIETA, Brest
Composante de rattachement du directeur de thse : ENSIETA
N ED 366-193

Remerciements

Je tiens avant toutes choses remercier Jean-Michel Chanut davoir apport les
premires briques de ldifice. Je le remercie de la confiance quil ma tmoign en
mintgrant au sein de son quipe comme doctorant en extraction de connaissances partir de
donnes.

Je remercie Philippe Couailhac davoir pris la responsabilit oprationnelle de mes


travaux de recherche et de mavoir ainsi permis de poursuivre ma thse. Je le remercie de
mavoir toujours aid trouver le juste compromis entre les apports acadmiques et les
apports de cette thse pour lentreprise.

Je remercie Nolwenn Verdier, de mavoir offert la possibilit deffectuer ma thse dans


un contexte dentreprise. Je la remercie pour son coute et pour sa conviction proposer mon
projet au sein de Bouygues Telecom.

Je remercie Gal Srandour davoir assur toutes les dmarches relatives la ralisation
de cette thse, particulirement lors de la constitution du dossier. Je le remercie pour son suivi
rgulier, ses encouragements et son soutien tout au long de ma vie de doctorant.

Je tiens remercier de faon plus globale la socit Bouygues Telecom qui ma apport
tous les lments matriels ncessaires la ralisation de cette thse dans de bonnes
conditions.

Je tiens saluer les membres du laboratoire dextraction et dexploitation de


linformation en environnements incertains de lENSIETA ainsi que ceux des quipes de
connaissance clients de Bouygues Telecom. Je les remercie pour leur accueil et les
innombrables changes que nous avons eu durant ces annes intenses.

Remerciements

Mes penses se portent galement vers Claude Morvan, que je remercie pour ses apports
mthodologiques concernant la recherche de documentation et ltude bibliographique, et vers
Annick Coat-Billon qui ma apport une aide prcieuse sur les aspects logistiques de la thse.

Je remercie Jean Hugues Chauchat, Stphane Lallich, Fabrice Chauvet, Eric Bourreau et
Jean-David Ruvini pour les changes constructifs sur les aspects de slection des attributs, de
modlisation des comportements et de dtection de la fuite des clients.

Je remercie Messieurs Saporta et Zighed davoir accept de rapporter sur mon manuscrit
ainsi que Madame Rosenthal-Sabroux et Messieurs Briand et Pinon davoir pris les rles
dexaminateurs. Je les remercie pour lattention quils ont port mon manuscrit et la richesse
de leurs commentaires.

Je remercie lAssociation Nationale pour la Recherche Technique davoir soutenu mon


projet de recherche par lintermdiaire dune bourse CIFRE et mavoir ainsi permis de raliser
cette thse.

Je tiens enfin exprimer toute ma reconnaissance Ali Khenchaf davoir accept de


diriger mes travaux de recherche et de stre toujours rendu disponible durant ces trois annes
qui ont concid avec le lancement du laboratoire quil dirige. Je le remercie pour ses conseils
aviss ainsi que pour sa confiance et son soutien inconditionnels quil ma tmoign ds les
premiers dmarrages de la thse.

ii

Glossaire

Les termes issus du vocabulaire anglophone ainsi que les abrviations suivantes peuvent
tre traduites ainsi :

AuC : Authentification Center : serveur dauthentification des clients sur le rseau,

BSC : Base Station Controller : Stations de base avec lesquelles les tlphones mobiles
sont connects au rseau,

Carte prpaye : Carte tlphonique offrant un crdit de communications, utilisable sur


le rseau de loprateur,

Carte SIM (Subscriber Identity Module) : N de la puce prsente sur la carte interne au
mobile, permettant didentifier le client sur le rseau GSM,

Churn : attrition : lexpiration de la ligne prpaye dun client due l'arrt de son
activit,

Client : Organisme ou personne qui reoit un produit. (Source : ISO 9000 - 2000),

Datamart : entrept de donnes optimis pour un type dutilisation donn,

Datawarehouse : entrept de donnes gnral l'entreprise (mmoire de lentreprise),

DLV1 : Dure de validit du crdit de communication des cartes prpayes,

DLV2 : Dure de validit de la ligne tlphonique,

ECD : Extraction de Connaissances partir de Donnes,

EIR : Equipment Identity Register,

GSM : Global System for Mobile communications,

HLR: Home Location Register,

IMEI : International Mobile Equipment Identity, Identifiant international dappareil


mobile,

IMSI : International Mobile Subscriber Identity, identifiant international unique de


client,

KDD : Knowledge Discovery in Databases : Extraction de Connaissances partir de


Donnes,

LTV : Life Time Value : Valeur du client au terme de sa vie de client,

OMC : Operating and Maintenance Center,

SAS : Statistical Analysis System : Logiciel danalyses statistiques,

SMS : Short Message Service : Service de messages courts,


iii

Glossaire

VLR: Visitor Location Register,

VMS : Voice Mail Service : Service de messagerie vocale.

iv

Tables et Index

Table des Matires


Introduction Gnrale .................................................................................................1
Chapitre I Contexte et enjeux ..................................................................................5
1 Lignes mobiles prpayes .................................................................................................. 6
1.1 Valeurs faciales et dures de validit des recharges ................................................ 6
1.2 Etats des lignes et cycles de vie ............................................................................... 7
1.3 Avantages, plans tarifaires et tarifications ............................................................... 8
2 Valeur des clients ............................................................................................................... 8
2.1 Valeur actuelle nette (VAN) .................................................................................... 10
2.2 Valeur terme des clients (LTV)............................................................................. 10
3 Extraction de Connaissances partir de Donnes.............................................................. 12
3.1 Systme dacquisition des donnes de tlphonie mobile ....................................... 13
3.2 Types de donnes ..................................................................................................... 19
3.3 Slection des variables ............................................................................................. 23
3.4 Prtraitement ............................................................................................................ 24
3.5 Fouille des Donnes (Data mining) ......................................................................... 26
3.6 Rsultats ................................................................................................................... 28
4 Dispositif de gestion de la relation clients ......................................................................... 29
5 Conclusion.......................................................................................................................... 29
Chapitre II - Mthodes de Statistiques et de Data Mining ........................................31
1 Analyse des donnes .......................................................................................................... 33
1.1 Analyse statistique des donnes ............................................................................... 33
1.2 Mesure de la liaison entre deux caractres............................................................... 34
1.3 Analyse en composantes principales........................................................................ 35
1.4 Analyse Factorielle des Correspondances................................................................ 36
1.5 Nues Dynamiques................................................................................................... 38
1.6 Classification Ascendante Hirarchique .................................................................. 39
2 Rgression Multilinaire .................................................................................................... 41
2.1 Statistiques & Proprits .......................................................................................... 42
2.2 Cadre dapplication .................................................................................................. 43
3 Modles SARIMA ............................................................................................................. 43
3.1 Processus Stationnaires ............................................................................................ 43
3.2 Modles ARMA ....................................................................................................... 44
3.3 Paramtrage et Mthodologie gnrale.................................................................... 46
v

Tables et Index

3.4 Mthode de Box et Jenkins ...................................................................................... 49


4 Analyse de survie ............................................................................................................... 49
4.1 Notations .................................................................................................................. 50
4.2 Mcanismes de censure............................................................................................ 53
4.3 Estimation non paramtrique ................................................................................... 56
4.4 Modles paramtriques ............................................................................................ 61
4.5 Estimation des paramtres ....................................................................................... 65
4.6 Maximum de vraisemblance .................................................................................... 66
5 Rseaux de neurones .......................................................................................................... 69
5.1 Prsentation de la mthode ...................................................................................... 70
5.2 Rseaux GRBF......................................................................................................... 70
5.3 Perceptron Multicouche ........................................................................................... 72
6 Mthodes densemble......................................................................................................... 76
6.1 Bagging .................................................................................................................... 76
6.2 Boosting ................................................................................................................... 76
7 Machines Vecteurs de Support........................................................................................ 79
7.1 Thorie dapprentissage supervis ........................................................................... 79
7.2 Principe des SVM .................................................................................................... 80
8 Conclusion.......................................................................................................................... 82
Chapitre III Rsultats obtenus sur les donnes de Bouygues Telecom ..............83
1 Mesure de la qualit ........................................................................................................... 84
1.1 Systme d'acquisition............................................................................................... 84
1.2 Slection des variables ............................................................................................. 85
1.3 Pr-traitements ......................................................................................................... 85
1.4 Transformation......................................................................................................... 85
1.5 Modlisation............................................................................................................. 85
1.6 Evaluation des rsultats............................................................................................ 85
2 Segmentation RFM ............................................................................................................ 88
2.1 Base de segmentation............................................................................................... 88
2.2 Rsultat..................................................................................................................... 89
3 Segmentation sur le comportement de rechargement ........................................................ 90
3.1 Association des rechargements ................................................................................ 91
3.2 Segmentation des clients .......................................................................................... 91

vi

Tables et Index

4 Analyse de survie ............................................................................................................... 92


4.1 Application............................................................................................................... 93
4.2 Etude des fonctions de survie................................................................................... 93
4.3 Fonction de survie .................................................................................................... 96
4.4 Logarithme ngatif de la fonction de survie ............................................................ 97
4.5 Logarithme du log ngatif de la fonction de survie ................................................. 98
4.6 Conclusions .............................................................................................................. 102
4.7 Perspectives.............................................................................................................. 102
5 Prvision des activations .................................................................................................... 105
6 Dtection de larrt dactivit............................................................................................. 105
6.1 Apprentissage........................................................................................................... 107
6.2 Rsultats ................................................................................................................... 108
7 Conclusion.......................................................................................................................... 108
Conclusion Gnrale...................................................................................................111
Annexes........................................................................................................................115
1 Annexe 1 : Test du Log-Rank ............................................................................................ 116
2 Annexe 2 : Inclusion des variables dans le modle............................................................ 120
Rfrences ..................................................................................................................123

Index des Figures

Figure 1 : Taux de pntration de la tlphonie mobile en France .............................................. 2


Figure I.1 : Cycle de vie des lignes prpayes ............................................................................. 7
Figure I.2 : Evolution de la valeur des clients prpays............................................................... 9
Figure I.3 : Valeur Actuelle Nette et Valeur Estime .................................................................. 9
Figure I.4 : Extraction de Connaissances partir de Donnes..................................................... 12
Figure I.5 : Systme d'acquisition des donnes............................................................................ 14
Figure I.6 : Architecture gnrale du GSM.................................................................................. 15
Figure I.7 : Structure simplifie des tables................................................................................... 19
Figure I.8 : Liens entre rechargements et tats............................................................................. 25
Figure I.9 : Dispositif de gestion de la relation client .................................................................. 29
Figure I.10 : Schma synoptique du systme dinformation........................................................ 29
Figure II.1 : Plan de projection..................................................................................................... 35
Figure II.2 : Mthode de Box et Jenkins ...................................................................................... 49
vii

Tables et Index

Figure II.3 : Schma dun neurone de perceptron........................................................................ 70


Figure II.4 : Architecture du rseau GRBF .................................................................................. 71
Figure II.5 : Perceptron multicouches .......................................................................................... 72
Figure II.6 : Fonction Sigmode ................................................................................................... 73
Figure II.7 : Trac de la fonction dactivation ............................................................................. 75
Figure II.8 : Algorithme Adaboost............................................................................................... 78
Figure II.9 : Cas linairement sparable....................................................................................... 81
Figure III.1 : Courbe de lift dun dtecteur .................................................................................. 87
Figure III.2 : Dlais prvus et constats....................................................................................... 88
Figure III.3 : Base dapprentissage .............................................................................................. 88
Figure III.4 : Arbre des associations entre rechargements ........................................................... 90
Figure III.5 : Arbre de segmentation des clients .......................................................................... 91
Figure III.6 : Dlai de rechargement ............................................................................................ 92
Figure III.7 : Densit de probabilit ............................................................................................. 94
Figure III.8 : Fonction de rpartition............................................................................................ 94
Figure III.9 : Fonction -log S(t).................................................................................................... 95
Figure III.10 : Fonction de survie................................................................................................. 95
Figure III.11 : Taux instantan de rechargement ......................................................................... 96
Figure III.12 : Fonction de survie................................................................................................. 97
Figure III.13 : Fonction -log S(t).................................................................................................. 97
Figure III.14 : Fonction log[-log S(t)].......................................................................................... 98
Figure III.15 : Courbes de probabilit de rechargement du modle n1 ...................................... 99
Figure III.16 : Courbes de probabilit de rechargement du modle n2 ...................................... 99
Figure III.17 : Courbes de probabilit de rechargement du modle n3 ...................................... 100
Figure III.18 : Distribution de l'erreur de prvision ..................................................................... 101
Figure III.19 : Comportement linaire de la fonction .................................................................. 103
Figure III.20 : Modle intgrant les dlv et la saisonnalit............................................................ 104
Figure III.21 : Prvision des activations....................................................................................... 105
Figure III.22 :Courbe de lift ......................................................................................................... 106
Figure IV.1 : Schma synoptique du systme dinformation....................................................... 112

viii

Tables et Index

Index des Tableaux

Tableau I.1 : Recharges commercialises .................................................................................... 6


Tableau I.2 : Etats dune ligne prpaye ...................................................................................... 7
Tableau I.3 : Description des avantages....................................................................................... 8
Tableau I.4 : Donnes dynamiques dappels................................................................................ 20
Tableau I.5 : Donnes dynamiques de rechargement................................................................... 20
Tableau I.6 : Donnes dynamiques de services............................................................................ 20
Tableau I.7 : Donnes dynamiques de changements de plans tarifaires ...................................... 21
Tableau I.8 : Donnes dynamiques de changements dtats........................................................ 21
Tableau I.9 : Consommations agrges par destinations ............................................................. 21
Tableau I.10 : Consommations agrges par tranches horaires ................................................... 21
Tableau I.11 : Agrgat mensuel de donnes dusage ................................................................... 22
Tableau I.12 : Donnes statiques relatives aux lignes.................................................................. 23
Tableau II.1 : Tableau de contingence ......................................................................................... 37
Tableau III.1 : Table de dtection ................................................................................................ 86
Tableau III.2 : Les diffrents profils rechargement / anciennet des clients................................ 90
Tableau III.3 : Qualit des rsultats obtenus ................................................................................ 100
Tableau III.4 : Comparaison des modles de survie .................................................................... 101
Tableau III.5 : Rcapitulatif du lift............................................................................................... 107
Tableau III.6 : Rsultats des classificateurs ................................................................................. 108

ix

Tables et Index

Introduction gnrale

Introduction Gnrale
Les rseaux tlphoniques mobiles largement rpandus aujourdhui ont leurs origines en
1956 avec lapparition du premier rseau franais de tlcommunication mobile mis en place
par Thomson. La capacit, limite lpoque quelques centaines d'abonns le rservait
une population trs restreinte. Durant les annes 80 le rseau analogique Radiocom 2000 de
France Tlcom Mobile permet dquiper les vhicules de tlphones. Les prix pratiqus
lpoque taient prohibitifs et restreignaient toujours leur utilisation une population litiste.
En 1987 le groupe de travail GSM est cr l'initiative de la Communaut Europenne
pour harmoniser et standardiser les rseaux mobiles une chelle europenne. Ds 1992 les
premiers rseaux GSM Franais sont dploys par France Tlcom Mobiles et la Socit
Franaise de Radiocommunication, filiale de la Compagnie Gnrale des Eaux. Contrairement
aux autres pays europens, le march franais ne dmarre que trs lentement. En 1996 suite
la commercialisation des premiers forfaits par Bouygues Telecom, le march de la tlphonie
mobile commence stendre. En 1999 le lancement de li-mode au Japon rend possible la
navigation sur Internet partir des tlphones mobiles. La fin du 20me sicle est marque par
une trs forte croissance du march en France. Au dbut de lanne 2002 on constate un
retournement des valeurs boursires au niveau de 1997, la crise des tlcoms et des nouvelles
technologies arrte la croissance. La figure 1 illustre la croissance du taux de pntration de la
tlphonie mobile sur le march franais de mars 1995 septembre 2004.
Aujourd'hui avec plus de 41 millions d'abonns, le taux de pntration en France
mtropolitaine atteint le seuil record de 70% (Figure 1). Ce succs peut s'expliquer grce la
normalisation europenne qui a permis de rduire considrablement le prix des terminaux
(denviron 3000 pour Radiocom 2000 ils sont passs environ 100 aujourd'hui), mais
surtout grce la baisse du prix des communications. Ces diminutions sont permises par les
nouvelles possibilits des rseaux GSM. En effet du fait de son infrastructure cellulaire le
rseau GSM offre de bonnes possibilits d'extension. La transmission numrique sur
l'interface radio permet elle aussi un taux optimal de transfert de donnes.
Le march sest aujourdhui stabilis, le nombre de clients accdant la tlphonie
mobile pour la premire fois est quivalent celui des clients cessant leur activit. Les
nouveaux clients dun oprateur sont aujourdhui majoritairement issus des autres oprateurs
qui sont ainsi soumis une trs forte concurrence (Gans et Joshua, 2000).

Introduction gnrale

Figure 1 : Taux de pntration de la tlphonie mobile en France


Lheure est la gestion de la relation avec les clients (CRM) pour favoriser leur
fidlisation long terme (Lefbure, 2000), (Moisand, 2002), (Brown, 2003). Les oprations
de fidlisation tant trs coteuses, les acteurs du marketing ont dsormais besoin davoir des
estimations du potentiel que reprsentent les clients avant de prendre la dcision de les cibler.
Ces prises de dcisions gnrent de nombreuses interrogations :

Qui restera un client fidle et qui pourra nous fausser compagnie ?

Quels produits doivent tre proposs et quels clients potentiels ?

Quest-ce qui dtermine si une personne rpondra une offre donne ?

Quel est le prochain produit ou service quun client particulier dsirera ?


Les rponses ces questions sont enfouies dans les donnes de lentreprise, mais de

puissants outils dextraction de connaissances sont ncessaires pour les dcouvrir. Extraire
cette connaissance est la cl dune meilleure productivit, dune plus grande efficacit
commerciale et ainsi du succs sur le march.
La quantit de donnes collecte chaque jour devient tellement importante qu'elle
submerge les capacits de comprhension humaine. Si les nouvelles bases de donnes
permettent de stocker des volumes d'informations toujours plus importants des cots de plus
en plus faibles, force est de constater que l'analyse et lexploitation de ces informations est
primordiale.

Introduction gnrale

La mthodologie dextraction de connaissances partir de donnes introduite lors dun


atelier de la confrence IJCAI en 1989 (Piatetsky-Shapiro, 1991) rpond cette
problmatique dexploitation de bases de donnes volumineuses afin den extraire la
substantifique moelle. Cette mthode a fait lobjet de trs nombreuses tudes (Fayyad et al.,
1996), (Hand et al., 2001). Les applications se sont portes ds le dbut sur la problmatique
dit du panier de la mnagre qui vise caractriser les achats des clients afin daugmenter
les ventes des magasins, et sur la problmatique de la dtection de la fuite des clients en
tlphonie mobile appele Churn Detection dans la littrature anglophone. Les approches dj
tudies dans ce domaine se sont tournes vers des techniques telles que les chanes de
Markov (Hollmn, 2000), les mlanges de gaussiennes et rseaux baysiens (Taniguchi et al.,
1998), (Baesens et al., 2002), les rgles dassociations (Rosset et al., 1999), les arbres de
dcision (Njike-Fotzo et al., 2002), ou encore les rseaux de neurones (Datta et al., 2000),
(Mozer et al., 2002). Ces nombreuses techniques dextraction de connaissances ont t
appliques sur le problme de la dtection de la rupture de contrat en tlphonie forfaitaire, la
tlphonie prpaye (sur laquelle porte cette thse) a t dlaisse et a fait lobjet de peu de
rfrences.
La modlisation de la valeur des clients a t lobjet de trs nombreuses tudes en
conomie (Calciu et Salerno, 2002), (Cri, 2002), (Hwang, 2004) mais peu dapplications ont
t prsentes en tlphonie mobile (Rosset, 2002). Cette thse se positionne donc en aide la
dcision pour le marketing dans le contexte de la tlphonie mobile prpaye. Lobjet du
travail ralis est de tirer parti du processus de la mthode dextraction de connaissances
partir de donnes pour obtenir une estimation de la valeur des clients.
Ainsi, lobjectif idal atteindre est de prdire le comportement de chaque client depuis
louverture de la ligne jusqu la dfection. Les clients modifiant continuellement la structure
de leurs dpenses et lutilisation quils ont de leurs lignes, nous dclinons lobjectif principal
en une srie de sous-objectifs qui rpondent des attentes concrtes des dcideurs du
marketing :

Identifier des comportements typiques dutilisateurs, et dtecter des modifications de


comportements caractristiques dun risque important de perte du client pour introduire, si
possible, un seuil dalerte. Cet objectif est typiquement un problme dapprentissage
automatique qui peut tre rsolu, comme nous allons le montrer, par des techniques telles
que les rseaux de neurones ou les machines vecteurs de support.

Introduction gnrale

Prdire la dure de vie restante des clients, qui consiste en lestimation un instant donn
de la dure pendant laquelle les clients resteront clients de lentreprise. Cette question a
t formule dans un contexte mdical et a donn lieu de trs importants travaux tels que
ceux de Cox et de Kaplan-Meier. Nous abordons ce point selon une approche danalyse de
survie.

Coupler lestimation de la probabilit de survie des clients un systme de valorisation


qui permette destimer leurs valeurs potentielles.

Pour rpondre ces objectifs, la thse est organise en trois chapitres :

Le chapitre I introduit le domaine de la tlphonie mobile et explicite les spcificits de la


tlphonie prpaye par rapport la tlphonie forfaitaire classiquement tudie. La
notion de valeur des clients et le mode de calcul mis en uvre dans la thse sont ensuite
dtaills. La mthodologie adopte pour mener bien la thse est enfin prsente.

Le chapitre II prsente les mthodes informatiques et statistiques exploites dans la thse.


Les mthodes statistiques telles que lanalyse en composantes principales, la rgression
multilinaire et les modles SARIMA sont ainsi prsentes. Lanalyse des donnes de
survie qui permet dobtenir les prvisions de dlai de rechargement est ensuite dtaille.
Le focus est ensuite pos les rseaux de neurones et les techniques densemble qui
permettent de fusionner les rsultats de plusieurs mthodes dapprentissage. Les
machines vecteurs de support sont enfin prsentes.

Le chapitre III prsente les rsultats obtenus par les mthodes prsentes dans le deuxime
chapitre sur les donnes de Bouygues Telecom. Ce chapitre prsente le systme
dinformation dcisionnel mergeant de lintgration des diffrentes composantes
proposes dans cette thse.

Nous concluons ltude en dressant le bilan des travaux qui ont t mens et en prsentant les
perspectives dintgration dlments complmentaires.

Chapitre I

Contexte et enjeux

Chapitre I
Contexte et enjeux
Sommaire du chapitre
Chapitre I Contexte et enjeux.................................................................................................. 5
1 Lignes mobiles prpayes.................................................................................................... 6
1.1
Valeurs faciales et dures de validit des recharges .................................................. 6
1.2
Etats des lignes et cycles de vie ................................................................................. 7
1.3
Avantages, plans tarifaires et tarifications ................................................................. 8
2 Valeur des clients................................................................................................................. 8
2.1
Valeur actuelle nette (VAN) .................................................................................... 10
2.2
Valeur terme des clients (LTV)............................................................................. 10
3 Extraction de Connaissances partir de Donnes ............................................................. 12
3.1
Systme dacquisition des donnes de tlphonie mobile ....................................... 13
3.2
Types de donnes ..................................................................................................... 19
3.3
Slection des variables ............................................................................................. 23
3.4
Prtraitement ............................................................................................................ 24
3.5
Fouille des Donnes (Data mining).......................................................................... 26
3.6
Rsultats ................................................................................................................... 28
4 Dispositif de gestion de la relation clients......................................................................... 29
5 Conclusion ......................................................................................................................... 29

Objectifs : Les objectifs de ce chapitre sont de prsenter le contexte et les enjeux de la thse.

Organisation du chapitre : Aprs avoir dtaill les spcificits de la tlphonie mobile


prpaye, la notion de valeur client est introduite. La mthodologie dextraction de
connaissances partir de donnes est ensuite prsente, ainsi que lintgration des rsultats
de la thse dans le dispositif de gestion de la relation clients prpays existant chez Bouygues
Telecom.

Chapitre I

Contexte et enjeux

1 Lignes mobiles prpayes


En alternative aux formules de tlphonie mobile bases sur des forfaits qui engagent
contractuellement les clients consommer tous les mois un volume minimal pendant une
dure fixe lavance (gnralement de 6 24 mois), les formules prpayes ne prsentent
aucune forme dengagement direct. Les clients souscrivant ce type doffres achtent
lavance un crdit de consommation quils peuvent utiliser quand ils le souhaitent tant quil
est valide, et peuvent cesser leur activit sans pravis en arrtant de recharger leurs lignes. La
thse portant exclusivement sur ce type doffre, nous allons dans cette premire partie en
dcrire le mode de fonctionnement.

1.1 Valeurs faciales et dures de validit des recharges


Les lignes prpayes sont munies de crdits de communication qui sont dbits lors du
passage dappels ou de lutilisation de services (Bouygues Telecom, 2004). Ces rserves sont
crdites grce des cartes recharges matrielles ou virtuelles qui sont caractrises par :

Une valeur faciale qui est le prix auquel les clients achtent la recharge. Les rserves de
communications sont augmentes de ce montant et pour certaines cartes un bonus de
consommation supplmentaire est offert,

Une dure de validit du crdit (note DLV1) qui correspond la dure pendant laquelle
le montant crdit peut tre consomm. A lissue de cette priode, le montant recharg
qui na pas t consomm est perdu : le crdit de communication est remis zro,

Une dure de validit de ligne (note DLV2) qui correspond la dure pendant laquelle
la ligne tlphonique est active et peut tre utilise. A lissue de cette priode, la ligne
est dsactive : elle ne peut ni recevoir, ni mettre dappels ni tre recharge.
Au moment de la rdaction de la thse, les recharges commercialises sont dcrites sous

leur forme basique dans le tableau I.1.


Valeur Faciale Bonus

DLV1

DLV2

10

15 jours 2 mois

15

1 mois 8 mois

25

1,4

2 mois 8 mois

35

3 mois 8 mois

50

15

4 mois 8 mois

75

30

6 mois 8 mois

Tableau I.1 : Recharges commercialises

Chapitre I

Contexte et enjeux

1.2 Etats des lignes et cycles de vie


Par abus de langage on dit quune ligne est en DLV1 lorsquelle na pas dpass la
dure de validit du dernier rechargement effectu. On dit quune ligne est en DLV2
lorsquelle na pas dpass sa dure de validit, durant cette priode la ligne peut tre
recharge et recevoir des appels mais elle ne peut plus en mettre. On distingue 5 tats pour
caractriser les lignes tlphoniques en fonction de leur situation par rapport aux dures de
validit : ces tats nots de 1 5 sont dcrits dans le tableau I.2.
Etat Description
La ligne est en distribution : elle est
1
prte tre active
La ligne est en DLV1 et son crdit de
2
rserve est positif,
3

La ligne est en DLV1 mais son crdit


de rserve est nul,

La ligne est en DLV2,

La ligne a dpass sa DLV2 : elle est


expire.
Tableau I.2 : Etats dune ligne prpaye

Juste avant quelle soit active une ligne est en tat 1 et est pr-charge dun crdit de
communication de 4 euros, les tats senchanent ensuite au rythme de lusage des clients et
de leurs rechargements, jusqu sa dsactivation qui se traduit par le passage en tat 5.
Lvolution du crdit de communication au cours du temps se traduit donc par une succession
de rechargements qui sont progressivement consomms. La figure I.1 prsente cette
volution.
Crdit de
communication
Rechargements
Consommations
Temps
Expiration

Activation

Figure I.1 : Cycle de vie des lignes prpayes

Chapitre I

Contexte et enjeux

1.3 Avantages, plans tarifaires et tarifications


Lors de chaque rechargement les clients choisissent des Avantages, qui permettent de
modifier leffet de la recharge en agissant sur les dures de validits, les cots la seconde, ou
les modes de tarification. Les avantages sont dcrits dans le tableau I.3.
Avantage

Description
Les appels sont dbits 0,008
Basique
euro par seconde 24 heures sur
24, 7 jours sur 7,
Le cot la seconde et la dure
Flash
de validit du crdit sont diviss
par deux,
Le cot la seconde est major
de 25% de 9h 21h du lundi au
Soir et Week end
vendredi et est minor de 50%
le reste du temps,
Le cot la seconde est
identique l'avantage basique,
mais une deuxime rserve
Spot
d'appels pourvue de publicit
est crdite du montant du
rechargement.

Tableau I.3 : Description des avantages


A chaque rechargement, le couple (Valeur faciale, Avantage) est associ un plan
tarifaire qui correspond un ensemble de tarifications. Les tarifications attribuant un cot par
seconde aux appels en fonction du moment de la journe et du jour de la semaine.

2 Valeur des clients


Lors de lachat de coffrets groupant un terminal (tlphone mobile) et une carte SIM
prpaye, les clients ne paient pas les tlphones leurs prix rels sur le march car ils sont
subventionns par Bouygues Telecom. A lactivation des lignes, les clients prsentent donc
une valeur ngative, qui correspond au cot dacquisition dun nouveau client. Au cours du
temps, lorsquils reoivent des appels entrants et quils effectuent des rechargements les
clients augmentent progressivement leur valeur jusqu une valeur seuil atteinte en fin de vie :
la valeur terme des clients (note LifeTime Value ou LTV en terminologie anglophone).
Le dlai de rentabilit des clients, cest dire le dlai au bout duquel la valeur qua
apport le client compense son cot dacquisition est appel M-Factor. La figure I.2
prsente lvolution de la valeur des clients depuis lactivation jusqu lexpiration.

Chapitre I

Contexte et enjeux

Figure I.2 : Evolution de la valeur des clients prpays


Le primtre sur lequel porte cette thse ayant t brivement prsent, la deuxime
partie de ce chapitre porte sur la valeur terme des clients.
L'objectif du calcul de la Lifetime Value (LTV) est dobtenir une estimation de la valeur
terme des clients (Berger et Nasr, 1998), (Rosset, 2002), cest dire la valeur quaura
apport lentreprise un client entre son activation et le moment o sa ligne est dsactive.
(Lee et Crites, 2001) prsente un cas dintgration de modles de valeur et de probabilit de
survie.
Le modle LTV est frquemment employ en marketing direct (Jackson, 1994), (Calciu
et Francis, 2001). Cette estimation se dcompose en la valeur actuelle nette et la valeur future
estime comme le prsente la figure I.3.
La valeur des clients a fait lobjet dtudes trs approfondies (Cri, 2002) mais
galement de nombreuses applications dans le milieu industriel (Pearson, 1996), (Flint et al.,
1997), (Rosset, 2003).
Date
actuelle

Activation

Desactivation

Temps

Valeur
Actuelle
Nette

Valeur
Estime

Figure I.3 : Valeur Actuelle Nette et Valeur Estime

Chapitre I

Contexte et enjeux

2.1 Valeur actuelle nette (VAN)


Lobjectif est de calculer pour chaque client la valeur actuelle nette, cest--dire, le
revenu net gnr par le client depuis louverture de sa ligne jusqu la date actuelle. Le calcul
de la VAN intgre le revenu brut (somme totale des recharges et des appels entrants), les
cots de gestion et le cot dacquisition. Le calcul de la VAN sobtient ensuite en dduisant
du revenu total sur la priode de vie du client, les cots de gestion mensuels et les cots
dacquisition.

2.2 Valeur terme des clients (LTV)


Nous exposons dans une premire partie les principes qui seront suivis pour le calcul de
la LTV. Dans une seconde partie, les diffrentes tapes des calculs sont indiques plus en
dtail ainsi que la charge estime.

2.2.1 Principes
La LTV horizon fini dun client est dfinie par le revenu total gnr par un client tout
au long de sa vie de client. Elle peut tre modlise par lesprance mathmatique du revenu
alors considr comme une variable alatoire. Cette esprance est discrtise sur des priodes
temporelles afin de faciliter son exploitation de faon oprationnelle.
On suppose que le revenu est indpendant de la probabilit de dpart. Par ailleurs,
compte tenu de la taille de la fentre dobservation, nous bornons lhorizon danticipation
un nombre dunits de temps (semestres) k .
Ainsi, nous sommes conduits la dfinition de la LTV lhorizon k expose ci-dessous
en (I.1). Pour chaque client i, la LTV lhorizon k est dfinie (Cri et Benavant, 1998) par :
1
Vi (k ) = Rit Sit

t =1
(1 + a )
k

O :

(I.1)

Sit est la probabilit de survie du client i sur la priode t,


Rit est le revenu net du client i la priode t,
a est un coefficient dactualisation.

Le coefficient dactualisation est pos connu et lestimation de la LTV repose donc sur
lestimation des probabilits de survie et du revenu.

10

Chapitre I

Contexte et enjeux

2.2.2 Estimation du revenu


Le revenu net se dduit du revenu brut par soustraction des cots aux revenus bruts :

Rnet = Rentrant + Rrechargement Cacquisition Cgestion

(I.2)

Pour lestimation, on distingue les revenus passs des revenus futurs. Dans le cadre de
cette tude, lalgorithme destimation des revenus passs est dj tabli et mis en application :
le calcul de la VAN. Le calcul des revenus futurs stablit de la mme faon par extrapolation
du modle aux priodes 1, 2, k.

2.2.3 Estimation de la probabilit de survie


Comme nous lavons vu au premier chapitre les clients ne sont pas engags
contractuellement et en labsence de rechargement, les lignes sont dsactives.
La probabilit de survie que nous considrons ici est la probabilit que la ligne soit
recharge un horizon de 6 mois aprs le rechargement, nous nous basons sur de priodes de
6 mois pour avoir le temps dobserver les vnements avec certitude. Ainsi lvnement
terminal peut tre dfini comme le non-rachat dune carte 6 mois aprs lachat de la dernire
carte. Nous effectuons les estimations sous les hypothse suivantes :
-

H1 : lunit de temps est le semestre (hypothse structurelle),

H2 : les probabilits de non rachat sont gales et indpendantes pour tous les
semestres (hypothse simplificatrice).

Soit pi la probabilit de rachat dune carte au premier semestre du client i. En


consquence des hypothses prcdentes, les probabilits associes aux revenus du 1er au kme
semestre sont respectivement pi, pi2, pi3, , pik.

2.2.4 Calcul de la LTV


Compte-tenu de la dynamique du march des tlcommunications et compte-tenu des
hypothses fortes poses pour lestimation, lhorizon envisag pour le calcul de la LTV est
deux ans (4 semestres).
Ainsi, en appliquant (I.1) on obtient le calcul de la LTV 4 semestres du client i :
pi
Vi = Rit

t =1
(1 + )
4

11

(I.3)

Chapitre I

Contexte et enjeux

3 Extraction de Connaissances partir de Donnes


La mthodologie dExtraction de Connaissances partir de Donnes (ECD) a t
introduite sous lappellation anglophone de Knowledge Discovery in Databases (KDD) lors
dun premier atelier en 1989 (Carbonell et al., 1989) dont le compte-rendu est donn dans
(Piatetsky-Shapiro, 1991). Lutilisation de lextraction de connaissance en marketing a donn
lieu de nombreuses publications (Pearson, 1996), (Datta, 2001), (Shaw et al., 2001),
(Richardson 2002), (Daskalaki et al., 2003), (Chiang et al. 2003) ainsi que dans le domaine de
la gestion de la relation client (Rygielski et al. 2002), et la dtection de la fuite des clients
(Wei, 2002).
Lextraction des connaissances partir de donnes (Guillaume, 2000), (Jambu, 2000)
est un processus interactif et itratif, constitu de cinq phases stalant de la slection et la
prparation des donnes lexploitation des connaissances extraites lors de ltape
dextraction des connaissances : ltape de Data Mining. La figure I.4 prsente ce processus
qui est itratif et interactif (Briand et Guillet, 2001) : les rsultats dune tape sont prises en
compte au niveau des autres tapes de la mthode lors de litration suivante.

Figure I.4 : Extraction de Connaissances partir de Donnes.

La premire tape du processus est la slection des donnes, elle porte sur la base de
donnes source gnralement obtenue par fusion de nombreuses tables dorigine, dans le cas
de cette tude il sagit des donnes issues du datawarehouse de Bouygues Telecom, ainsi que
dautres donnes dappels.

12

Chapitre I

Contexte et enjeux

Le but de la slection des donnes est de retenir, sans priori, les donnes qui sont
fortement corrles la variable cible, tout en tant le moins corrles entre elles.

Ltape de prtraitement est une phase de nettoyage des donnes qui a pour objectif de
dtecter

et

corriger

les

valeurs

aberrantes

ou

les

valeurs

manquantes.

Nous nous focalisons ici principalement sur lanalyse de la qualit des donnes, en
restaurant si ncessaire les valeurs manquantes.

Ltape de transformation des donnes, vise rendre les donnes sous la forme exige
par l'algorithme d'extraction de connaissances, il sagit de traitements statistiques ou
mathmatiques simples, par exemple des transformations de type normalisation,
transposition, ou bien des agrgations et comptages.

Ltape d'extraction de connaissances est celle qui apporte la plus haute valeur ajoute
puisquelle vise fournir des lments de connaissances relatifs lobjet de ltude. Les
techniques au cur de cette tape sont historiquement les arbres de dcision et
lextraction de rgles, puis les rseaux de neurones et les rgressions. Nous proposons
ici des techniques alternatives.

L'tape dexploitation des connaissances vise durant la phase dtude interprter et


valuer les connaissances extraites. Lors de la phase dapplication des connaissances,
une fois la phase dtude termine, lexploitation des connaissances consiste appliquer
de faon oprationnelle les connaissances obtenues, ce qui consiste concrtement
proposer des offres fidlisantes des clients potentiellement churners, proposer des
offres ou services des clients potentiellement apptents.

3.1 Systme dacquisition des donnes de tlphonie mobile


Lusage des clients au travers du rseau mobile se traduit par du transit dinformations
de type voix (appel tlphonique classique), mais aussi des donnes numriques et des
services tels que le service de messages courts (Short Message Service). Les consommations
de lensemble des clients reprsentent un volume trs important de donnes (plusieurs teraoctets). Le rseau mobile est un support de communication standardis par le GSM (Global
System for Mobile communications) au niveau mondial. Les oprateurs tlphoniques
utilisent des normes, telles que le GSM 900, le DCS 1800, et de nouvelles gnrations de
normes telles que l'UMTS se profilent. Le rseau tlphonique est donc "normalis", depuis
les antennes rceptrices rparties sur tout le territoire, en passant par les concentrateurs MSC.

13

Chapitre I

Contexte et enjeux

Le systme dacquisition des donnes est compos de deux entits distinctes :


-

lenvironnement de production est le systme oprationnel qui permet lusage


des tlphones mobiles et qui assure la valorisation de ces usages,

Lenvironnement dcisionnel, aliment par lenvironnement de production,


permet dexcuter des traitements de caractrisation du comportement des
clients sans pnaliser la qualit de service dlivre aux clients.

La figure I.5 prsente de faon agrge le systme dacquisition des donnes.

Figure I.5 : Systme d'acquisition des donnes

Nous prsentons dans un premier temps le rseau tlphonique mobile GSM, nous
explicitons ensuite le systme de valorisation des appels qui est spcifique l'offre prpaye,
pour enfin aborder succinctement le systme d'historisation des donnes.

3.1.1 Le rseau tlphonique mobile GSM


Le GSM (Alain, 2001), est un systme cellulaire et numrique de tlcommunication
mobile. Il a t rapidement accept et a vite gagn des parts de march. Lutilisation du
numrique pour transmettre les donnes permettent, des services et des possibilits labors,
par rapport tout ce qui a exist. On peut citer, par exemple, la possibilit de tlphoner
depuis nimporte quel rseau GSM dans le monde. Les services avancs et larchitecture du
GSM en ont fait un modle pour la troisime gnration de systmes cellulaires, le rseau
UMTS. Ce paragraphe donne une vue globale de larchitecture du rseau, des liaisons radio,
et du fonctionnement du rseau.

14

Chapitre I

Contexte et enjeux

3.1.2 Architecture
Le rseau GSM est compos de plusieurs entits, lesquelles ont des fonctions et des
interfaces spcifiques. Comme le montre la figure I.6, les diffrentes couches du rseau GSM
sont :

La station mobile (Mobile Station : le tlphone portable) qui est transporte par
l'utilisateur.

Le sous systme radio (BSS : Base Station Subsystem) qui contrle les liaisons radio qui
s'tablissent avec le tlphone portable.

Le sous systme rseau (Network Subsystem) qui permet la connexion d'un mobile vers
un autre mobile ou vers un utilisateur du rseau fixe.

Figure I.6 : Architecture gnrale du GSM

Le tlphone portable et le sous systme radio communiquent par l'intermdiaire d une


liaison radio. Le sous systme radio et le sous systme rseau, eux, communiquent par
l'intermdiaire dune liaison cable numrique.

3.1.3 La station mobile


La station mobile est constitue du tlphone mobile ou tout autre appareil
communicant (assistant personnel, etc..).

15

Chapitre I

Contexte et enjeux

Cet appareil s'identifie auprs du rseau grce une carte appele carte SIM (Subscriber
Identity Module). Cette carte contient, sur un microprocesseur, les informations concernant
l'utilisateur.
Ce dernier peut donc, par insertion de la carte SIM dans n'importe quel tlphone
portable, recevoir des appels, en donner et avoir accs tous les services qu'il a souscrit : le
tlphone portable et l'utilisateur sont totalement indpendants.
La station mobile est identifie par le numro IMEI (International Mobile Equipment
Identity). La carte SIM, elle, contient le numro IMSI (International Mobile Subscriber
Identity), mais aussi une cl secrte pour la scurit, ainsi que d'autres informations. Les
numros IMEI et IMSI sont indpendants, ce qui permet la sparation du tlphone portable
et de l'utilisateur. De plus, la carte SIM protge l'utilisateur des connections frauduleuses par
lintroduction dun numro d'identit personnel (code PIN) lors de laccs au rseau. On
distingue trois types de stations mobiles :

Les stations mobiles embarques (classe1) de puissance 20 W,

Les mobiles portables (classe2) de 8 W,

Les mobiles portatifs de classe 3 (5 W), 4 (2 W) et 5 (0.8 W).


Les mobiles portatifs 2 W sont actuellement les plus rpandus dans les rseaux GSM.

3.1.4 Le sous systme radio (BSS)


Le sous systme radio est compos de deux parties : la station de base (BTS : Base
Transceiver Station) et du contrleur de station de base (BSC : Base Station Controller). Ces
deux parties communiquent entre elles par l'intermdiaire de l'interface Abis.
Le BTS gre une cellule, il dfinit entre autre la taille de la cellule suivant l'environnement.
Ainsi dans une zone urbaine, on dploiera plus de BTS que dans une zone rurale.
Le BTS assure galement les transmissions radio entre les mobiles et le rseau, ainsi il
gre :

L'mission et la rception radio,

La couche physique (mission en TDMA, saut de frquence lent,),

Les mesures de qualit des signaux reus,

La liaison radio.

16

Chapitre I

Contexte et enjeux

Le BSC lui, supervise un ou plusieurs BTS, il gre les ressources radio : c'est dire les
sauts de frquence, les handovers (Itinrances : passage dune cellule une autre au cours
dune communication), mais aussi de l'allocation des canaux radio.

3.1.5 Le sous systme rseau


L'lment central du sous systme rseau est le MSC. Il agit comme un commutateur
classique de rseau numrique (RNIS, appel Numris en France) auquel on a ajout les
fonctionnalits ncessaires pour grer la mobilit des abonns, comme l'enregistrement,
l'authentification, la mise jour de la localisation, les handovers et le routage des appels. A
chacune de ces fonctionnalits correspond une entit fonctionnelle, lesquelles forment avec le
commutateur classique, le sous systme rseau.
La communication entre les diffrentes entits se fait par la procdure d'change de
signalisation SS7 (Signalling System Number 7), qui est galement utilise dans le rseau
classique. Il y a 4 bases de donnes qui sont associes au MSC : le HLR, le VLR, le EIR, et le
AuC.

La base de donnes nominale (HLR: Home Location Register). Elle contient toutes les
caractristiques d'abonnement de tous les utilisateurs du rseau GSM, leurs identits
IMSI et MSISDN (numro dappel du portable) ainsi que les localisations des portables.
Il n'y a normalement qu'un seul HLR par rseau mais en pratique cette base de donnes
est divise. Le HLR travaille en troite collaboration avec les diffrents VLR,
notamment pour les handovers, et la numrotation.

La base de donnes visiteurs (VLR: Visitor Location Register). Elle contient les
informations ncessaires la gestion des mobiles prsents dans sa zone notamment
celles ncessaires la numrotation, la localisation, et le type d'abonnement. Elle gre
plusieurs dizaines de milliers d'abonns, ce qui correspond une rgion.

La base de donnes EIR (Equipment Identity Register) contient une liste de tous les
mobiles valides sur le rseau, et chaque tlphone portable est identifi par un numro
IMEI (International Mobile Equipment Identity). LIMEI est marqu comme invalide si
le mobile a t dclar comme vol.

17

Chapitre I

Contexte et enjeux

La base de donnes AuC (Authentification Center), est une base de protection qui
contient une copie dune cl secrte, galement contenue dans la carte SIM de chaque
abonn. Cette dernire est utilise pour lauthentification dun portable. Ce contrle se
fait par lintermdiaire de canaux radio.
Pour assurer le bon fonctionnement du rseau, il existe des centres dexploitation et de

maintenance pour les sous systmes radio et rseau.


Ce systme appel OMC (Operating and Maintenance Center) est utilis pour la mise
jour, la consultation, la gestion et la maintenance des MSC/BSS.

3.1.6 Systme de valorisation des appels prpays


Le systme informatique de gestion des lignes prpayes permet de grer les
rechargements qu'effectuent les clients pour crditer leur compte de consommation, ainsi que
les caractristiques des lignes : autorisations d'appels, services souscrits, rserve de
communication, etc. Ce systme de gestion des lignes prpayes est coupl un systme de
valorisation qui permet de dbiter sur la rserve de communication des clients le montant
correspondant aux appels qu'ils passent. Pour comparaison, le systme de valorisation
quivalent en tlphonie mobile post-paye correspond la facturation mensuelle des clients.
Ici les clients paient l'avance leurs communications, et peuvent utiliser leur crdit pendant
une dure limite dans le temps. Le dbit du montant correspondant aux appels passs a lieu
en temps rel sur le crdit de communication prpay.
L'unit d'information au cur du rseau tlphonique est le ticket de taxe, qui
caractrise un appel en indiquant sa dure, ainsi que de nombreuses caractristiques du rseau
au moment de l'appel. Les tickets de taxes dcrivent une dure d'appel fixe; un appel
tlphonique pass par un client est constitu d'un ou plusieurs tickets de taxes. Le systme de
valorisation des appels agrge les tickets de taxe correspondant un appel pour obtenir la
dure totale. Le client est donc ainsi dbit du montant correspondant son appel.
Loprateur de tlphonie mobile offrant ses services plusieurs millions de clients qui
passent en moyenne plusieurs appels par jour, les tickets de taxe gnrs par le rseau
prennent trs rapidement une volumtrie considrable, ce qui rend leur traitement difficile.
C'est pourquoi, le systme d'information dcisionnel est aliment en sortie du systme de
valorisation des appels.

18

Chapitre I

Contexte et enjeux

3.1.7 Historisation des donnes acquises


Le rseau et le systme de valorisation sont des systmes informatiques oprationnels
qui ont de trs fortes contraintes de qualit de service fourni aux utilisateurs du rseau. Il est
compltement impossible d'entreprendre des traitements d'analyse (processus dcisionnels)
directement sur les bases de donnes associes ces systmes sans en pnaliser le
fonctionnement. Un entrept de donnes aliment directement par les donnes gnres par le
rseau permet de les historiser et de les rendre disponible tous les acteurs du dcisionnel au
niveau de l'entreprise dans le datawarehouse.

3.2 Types de donnes


Les donnes gnres par lusage du rseau sont de trois types : les donnes
dynamiques, les donnes semi-dynamiques et les donnes statiques.

Les donnes dynamiques sont la granularit dinformation la plus fine disponible. Elles
caractrisent des lments qui arrivent de faon ponctuelle tels que des appels, des
rechargements ou des utilisations de services.

Les donnes semi-dynamiques sont une forme agrge des donnes dynamiques et
permettent dune part de rduire la volumtrie des donnes (en essayant dans la mesure
du possible de prserver leur contenu informationnel), et permettent dautre part de
caractriser un comportement par un nombre restreint dindicateurs.

Les donnes statiques sont les donnes qui voluent le moins rapidement, il sagit par
exemple de la civilit ou du dpartement des clients.
Les donnes que nous utilisons dans les travaux prsents dans ce document sont issues

de 7 tables principales. La Figure I.7 propose une vision globale simplifie des liaisons entre
elles. On voit le rle particulirement important de la table des lignes qui permet de rcuprer
par jointures le contenu des autres tables.

Figure I.7 : Structure simplifie des tables

19

Chapitre I

Contexte et enjeux

Nous allons maintenant dcrire le contenu des tables en les dclinant par types de
donnes.

3.2.1 Donnes dynamiques


Les donnes dynamiques dont nous disposons sont lies aux actions menes par les
clients au cours du temps :

Les donnes dappels (tableau I.4), caractrisent les appels des clients tant au niveau de
la dure et de la destination quau niveau tarifaire,

Tableau I.4 : Donnes dynamiques dappels

Les donnes de rechargement (tableau I.5), dtaillent les dates, les montants, les types et
natures des recharges utilises ainsi que les tarifications choisies par les clients.

Tableau I.5 : Donnes dynamiques de rechargement

Les donnes dutilisation de services (tableau I.6), indiquent les types de services, les
modes et dates de souscription, ainsi que le type de facturation associ.

Tableau I.6 : Donnes dynamiques de services

Les donnes de changement de plan tarifaire (tableau I.7), indiquent les dates auxquelles
les clients changent de plan tarifaire ainsi que les plans dorigine et de destination.

20

Chapitre I

Contexte et enjeux

Tableau I.7 : Donnes dynamiques de changements de plans tarifaires

Les donnes de changement dtat des lignes tlphoniques (tableau I.8).

Tableau I.8 : Donnes dynamiques de changements dtats

3.2.2 Donnes semi-dynamiques


Les donnes semi-dynamiques sont des formes agrges des donnes dynamiques. Les
axes dagrgation sont par exemple les tranches horaires ou les destinations dappels
(tableaux I.9 et I.10) :

Tableau I.9 : Consommations agrges par destinations

Tableau I.10 : Consommations agrges par tranches horaires

La granularit dagrgation des appels fournis par les systmes informatiques est le
mois, il est ainsi possible de disposer dagrgats mensuels qui dcrivent lusage ralis ligne
par ligne sur un mois donn. Le dtail des champs disponibles est prsent dans le tableau
I.11 :

21

Chapitre I

Contexte et enjeux

Champ_#1
Champ_#2
Champ_#3
Champ_#4
Champ_#5
Champ_#6
Champ_#7
Champ_#8
Champ_#9
Champ_#10
Champ_#11
Champ_#12
Champ_#13
Champ_#14
Champ_#15
Champ_#16
Champ_#17
Champ_#18
Champ_#19
Champ_#20
Champ_#21
Champ_#22
Champ_#23
Champ_#24
Champ_#25
Champ_#26
Champ_#27
Champ_#28
Champ_#29
Champ_#30

Numro d'appel de la ligne


Consommation totale
Dure totale
Nombre d'appels total
Dure Totale (hors renvois vers rpondeur)
Nombre d'appels Total (hors renvois vers rpondeur)
Consommation en appels voix
Dure en appels voix total
Dure en appels voix gratuit
Dure en appels voix payant
Nombre dappels voix total
Nombre d'appels voix gratuit
Nombre d'appels voix payant
Nombre de jours dappels voix total
Nombre de jours dappels voix payant
Consommation SMS
Nombre d'appels SMS
Nombre de Jours SMS
Consommation en renvois d'appels
Dure renvois d'appels total
Dure renvois d'appels gratuit
Dure renvois d'appels payant
Nombre de renvois d'appels total
Nombre de renvois d'appels gratuit
Nombre de renvois d'appels payant
Nombre de jours de renvois d'appels total
Nombre de jours de renvois d'appels payant
Type de consommation
Tranche de consommation
Tarification

Tableau I.11 : Agrgat mensuel de donnes dusage

3.2.3 Donnes statiques


Les donnes statiques sont des donnes relatives au client qui ne changent que peu
frquemment telles que la catgorie socioprofessionnelle, la tranche d'age, ainsi que dautres
informations figes telles que le code enseigne du point de vente ou le jour de la semaine de
l'activation de la ligne, et des indicateurs tels que le circuit de distribution choisi par le client.
Les donnes statiques que nous utilisons dans cette tude pour caractriser les lignes
sont prsentes dans le tableau I.12.

22

Chapitre I

Contexte et enjeux

Tableau I.12 : Donnes statiques relatives aux lignes

3.3 Slection des variables


Ltape de slection des variables consiste restreindre parmi lensemble des variables
relatives lenvironnement prpay disponibles dans le datawarehouse celles que lon va
utiliser par la suite pour rpondre nos objectifs de modlisation et de dcouverte de
connaissances. Une des premires actions menes dans le cadre de nos travaux a consist
participer la conception du datamart dtudes : la base de donnes alimente partir du
datawarehouse ddie aux tudes du comportement des clients prpays. Le rle de cette base
est de mettre disposition les donnes dans une forme directement exploitable par les
logiciels de traitement de donnes tels que SAS. (SAS, 1998 & 2000). Les rgles de
construction des entrepts de donnes ont t proposes par (Kimball et Ross, 2003).
Nous avons ici analys les donnes de lentreprise qui concernent le domaine prpay.
Les donnes ont t remanies pour faciliter leur accs et les rendre disponibles sur un serveur
ddi aux traitements statistiques : le datamart dtudes statistiques. Ce serveur a t
dimensionn pour effectuer les calculs relatifs aux clients en tant compltement isol des
bases de donnes oprationnelles. Larchitecture retenue est une architecture en doubletoile :

La premire toile est centre autour des clients et permet daccder aux informations
relatives ces individus (particulirement un individu peut avoir plusieurs lignes).

La deuxime toile est centre autour des lignes tlphoniques et permet daccder
leurs caractristiques et leurs historiques dutilisation.

23

Chapitre I

Contexte et enjeux

La dcision concernant lintgration des variables dans le datamart est prise en prenant
en compte quatre contraintes.

La premire contrainte est que les donnes doivent exister dans le datawarehouse pour
tre intgres dans le datamart.

La deuxime contrainte porte sur le droit que nous avons dutiliser ces donnes. En
effet, lentrept de donnes faisant lobjet de dclarations auprs de la commission
nationale de linformatique et des liberts, les variables nominales ainsi que dautres
variables relatives aux individus on t exclues de ltude.

La troisime contrainte concerne la qualit des donnes dans le sens o certaines


variables insuffisamment renseignes nont pas pu tre intgres.

La dernire contrainte est lie lintrt que reprsentent les variables pour le
marketing. Certains besoins de restitutions nous ont amen inclure des variables,
mme si elles ne prsentaient pas de lien direct avec les dlais de rechargement ou la
fuite des clients, afin de pouvoir les utiliser ultrieurement comme variables
descriptives.
Nous disposons ainsi dune base de travail constitue de plusieurs tables dcrivant les

clients des offres prpayes par un ensemble de variables caractristiques de nature statique,
semi-dynamique et dynamique. Pour chaque tude prsente dans ce document, nous
caractrisons chaque client i par un ensemble de k variables que nous notons par le vecteur

xi ,k .

3.4 Prtraitement
Le pr-traitement porte principalement sur les rechargements et les changements dtats.
Nous cherchons ici restaurer les valeurs manquantes lies aux cycles de vie des lignes
prpayes. Comme nous lavons vu dans la premire partie du premier chapitre, ltat des
lignes est conditionn par les rechargements. Il en dcoule quelques rgles qui nous
permettent de vrifier lintgrit des donnes et de les restaurer en cas dincohrence. La
Figure I.8 prsente le lien entre ces 2 mcanismes. Nous procdons galement la
discrtisation de certaines variables continues en tenant compte des besoins des dcideurs du
marketing, mais galement en appliquant des mthodes de discrtisation qui prennent en
compte le lien des variables discrtiser avec la valeur cible (Zighed, 1999).

24

Chapitre I

Solde de
rserve

Contexte et enjeux

Rechargement

DLV1

DLV2

temps
Passage en
tat 2

Passage en
tat 3

Passage en
tat 4

Passage en
tat 5

Figure I.8 : Liens entre rechargements et tats

Le cycle des tats est caractris par les 4 rgles suivantes :


1.
Lors dun rechargement, la ligne tlphonique peut nouveau mettre des appels, ceci
se traduit par un passage en tat 2 si elle ny tait pas auparavant.
2.

Lorsque le crdit a t consomm, la ligne passe en tat 3.

3.

Au bout de la dure de validit du crdit, la ligne passe en tat 4.

4.

Au bout de la dure de validit de la ligne, la ligne est dsactive et passe en tat 5.

Nous pouvons donc en dduire 3 rgles de restauration de changements dtats manquants :

Si une ligne qui ntait pas en tat 2 est recharge une date donne, on doit
ncessairement trouver un changement vers ltat 2 cette date. Si ce nest pas le cas, on
ajoute un enregistrement dans la table des changements dtats.

Si on ne constate pas de rechargement de la ligne durant la dure de validit du dernier


rechargement effectu, la ligne change ncessairement dtat, pour passer en tat 4. Si
on ne trouve pas de tel changement dtat on en ajoute un la date du dernier
rechargement additionn de la dure de validit du dernier rechargement.

Enfin, si on ne constate pas de rechargement de la ligne durant la dure de validit de la


ligne associe au dernier rechargement effectu, la ligne est dsactive et passe en tat 5.
Si on ne trouve pas de tel changement dtat on en ajoute un la date du dernier
rechargement + la dure de validit de la ligne associe au dernier rechargement.

25

Chapitre I

Contexte et enjeux

3.5 Fouille des Donnes (Data mining)


Comme le montre la Figure I.4 ltape de fouille des donnes est une tape primordiale
dans le processus dextraction de connaissances partir de donnes. Les mthodes que nous
avons dcrites dans les chapitres prcdents sappliquent ici pour rpondre aux 4 objectifs que
nous avons dcrits en introduction gnrale, cest dire :

Segmenter lensemble des clients afin doffrir aux dcideurs une premire carte des
clients qui prsentent des caractristiques comparables,

Etablir un modle darrt dactivit des clients et dtecter les clients qui prsentent les
plus forts risques de dpart,

Prvoir les dlais de rechargement des clients en gnrant des modles spcifiques
chaque segment homogne de la clientle,

Etablir des estimations de valeur terme des clients permettant potentiellement douvrir
la porte de nouvelles segmentations bases sur des aspects prdictifs conomiques.
Nous prsentons donc respectivement les mthodes que nous avons retenues pour

atteindre ces 4 objectifs.

3.5.1 Segmentation RFM des clients


La segmentation des clients est un lment majeur de la comprhension de lvolution
de la clientle (Bounsaythip et Rinta-Runsala, 2001), (Schmitt, 2002). La segmentation que
nous utilisons a fortement volu au cours du temps. Lapproche initiale que nous avons
utilise est la segmentation Rcence / Frquence / Montant (RFM). Cette segmentation base
sur les caractristiques du client est trs frquemment utilise en marketing direct (Cri,
2000).
-

La rcence considre est celle du dernier rechargement effectu par le client,

La frquence moyenne de rechargement des clients sur la dernire priode de 6


mois,

Le montant des rechargements effectus.

A partir des caractristiques des clients sur chacun de ces 3 axes, nous avons appliqu une
classification ascendante hirarchique qui nous a permis didentifier 9 groupes de clients que
nous dtaillerons au chapitre III (cf. tableau III.2).

26

Chapitre I

Contexte et enjeux

Notre objectif tant de prvoir les dlais de rechargement des clients en tablissant des
modles spcifiques des segments de clientle ayant des comportements de rechargement
similaires, nous avons mis en place une deuxime segmentation base sur les rechargements
des clients.

3.5.2 Segmentation des comportements de rechargement


La premire partie du premier chapitre a prsent loffre prpaye, et plus prcisment
les caractristiques des recharges. Nous avons vu que ces dernires sont caractrises par des
montants qui peuvent tre crdits sur diffrentes formules. Nous dfinissons le
comportement de rechargement dun client comme lutilisation des recharges quil fait au
cours du temps. Un rechargement lmentaire est caractris par :
1.

Son montant,

2. Sa formule,
3. Le dlai qui le spare du rechargement prcdent,
4. Ltat de la ligne au moment du rechargement.
Nous avons donc analys la manire avec laquelle les clients associent les
rechargements lmentaires pour obtenir des profils de rechargements typiques. Une
deuxime tape a port sur la segmentation des clients par rapport lutilisation quils font de
ces rechargements typiques. Cette segmentation a deux vertus, la premire est quelle
caractrise lensemble des clients en constituant des segments qui ont un comportement de
rechargement similaire. La deuxime vertu est que les comportements tant similaires au sein
dun segment, on peut lutiliser comme base la modlisation des dlais de rechargement.

3.5.3 Dtection du risque darrt dactivit des clients


La dtection du risque darrt dactivit des clients est, comme nous lavons vu un
problme dapprentissage. Nous avons donc constitu une base dapprentissage caractrisant
les clients par des donnes semi-dynamiques (agrgats de granularit mensuelle) sur une
profondeur de 18 mois.
Les 12 premiers mois ont servi caractriser les clients, et les 6 derniers mois ont servi
construire un indicateur boolen prenant la valeur vraie si le client a cess son activit de
rechargement durant cette priode de 6 mois, ou faux sil la continue.

27

Chapitre I

Contexte et enjeux

Nous avons donc cherch un modle qui dtecte au mieux les clients qui vont cesser
leur activit en les examinant durant la premire priode de 12 mois. Utiliser une priode
dapprentissage dun an est extrmement pnalisant car on ne peut attribuer une tiquette un
client quaprs un an danciennet. Nous avons donc estim la perte de qualit de dtection
que nous encourions raccourcir la priode dapprentissage, en ne prenant par exemple que
les 9, 6 ou 3 derniers mois de la priode de 12 mois.
Les modles compars sur ce problme de dtection sont les perceptrons multicouches
boosts, et les SVM en comparant les noyaux linaires, polynomiaux et gaussiens.

3.5.4 Prvision des dlais de rechargement


La prvision des dlais de rechargement porte sur la mme priode dapprentissage. La
priode de 12 mois sert faire apprendre les modles de dlai de rechargement. La priode
suivante de 6 mois sert valider le modle en comparant les dlais de rechargement qui ont
t prvus ceux qui ont rellement eu lieu. Les modles utiliss sont les modles semi
paramtriques et les modles paramtriques prsents dans le chapitre II. Les rsultats de
diffrents modles paramtriques sont compars comme nous le verrons au chapitre III.

3.5.5 Estimation de la valeur terme des clients


Lestimation de la valeur des clients est construite partir de la probabilit de survie. La
priode dtude est donc la mme que pour les modles destimation de la survie en gardant la
priode de 6 mois comme priode de test dadquation du modle la valeur rellement
constate pour les clients.

3.6 Rsultats
Les rsultats obtenus par les 4 mthodes dcrites prcdemment sont dtaills dans le
chapitre III. Au cours de ltude nous avons cherch analyser les sources derreur de
dtection et de prvision. Il est apparu que la qualit des donnes sources a un impact majeur
sur les rsultats des modles indpendamment de la performance du modle. Cette
constatation nous a fait identifier le besoin de modles robustes et peu sensibles au bruit des
donnes, ceci nous a amen vers ltude des SVM qui rpondent cet objectif grce
lutilisation du principe de minimisation du risque structurel. Nous avons galement entam la
dmarche dvaluation de la qualit depuis la source de donnes jusquaux modles. Nous
prsentons cette dmarche dans la deuxime partie de ce chapitre.

28

Chapitre I

Contexte et enjeux

4 Dispositif de gestion de la relation clients


Le systme dinformation dcisionnel li la thse est intgr aux lments existants du
dispositif de gestion de la relation clients. Ce dispositif est constitu de deux domaines : le
systme oprationnel et le systme dcisionnel. Les flux dchanges dinformations entre ces
deux systmes sont dcrits dans la figure I.9.
Systme
Oprationnel

Datawarehouse

Flux de

Ciblage de
campagnes

donnes

Retour de
campagnes

Performance
Score

Action
Marketing

Scores
Clients

Flux de

Gnration de
Tableaux de bord

Rapport
dAnalyse

donnes

Environnement
Dcisionnel

Figure I.9 : Dispositif de gestion de la relation client

5 Conclusion
Ce premier chapitre a prsent l'enchanement de composantes logicielles imbriques
pour obtenir l'estimation de la valeur des clients. Les donnes sont prtraites, puis une
segmentation des clients est effectue sur les rechargements. Pour chacun des segments, la
dure de survie est modlise, puis cette information est intgre dans le modle de valeur
terme du client. Tout au long du processus des tableaux de bords sont dits, mais la
connaissance attendue est le tableau de bord final concernant la LTV. La figure I.10 prsente
le schma synthtique du systme dinformation mergeant de l'imbrication logique des
diffrentes composantes logicielles.

Figure I.10 : Schma synthtique du systme dinformation

29

Chapitre I

Contexte et enjeux

30

Chapitre II

Mthodes de Statistiques et de Data Mining

Chapitre II
Mthodes de Statistiques et de Data Mining
Sommaire du chapitre
Chapitre II - Mthodes de Statistiques et de Data Mining ....................................................... 31
1
Analyse des donnes ........................................................................................................ 33
1.1
Analyse statistique des donnes ............................................................................... 33
1.2
Mesure de la liaison entre deux caractres............................................................... 34
1.3
Analyse en composantes principales........................................................................ 35
1.4
Analyse Factorielle des Correspondances................................................................ 36
1.5
Nues Dynamiques................................................................................................... 38
1.6
Classification Ascendante Hirarchique .................................................................. 39
2
Rgression Multilinaire .................................................................................................. 41
2.1
Statistiques & Proprits .......................................................................................... 42
2.2
Cadre dapplication .................................................................................................. 43
3
Modles SARIMA............................................................................................................ 43
3.1
Processus Stationnaires ............................................................................................ 43
3.2
Modles ARMA ....................................................................................................... 44
3.3
Paramtrage et Mthodologie gnrale .................................................................... 46
3.4
Mthode de Box et Jenkins ...................................................................................... 49
4
Analyse de survie ............................................................................................................. 49
4.1
Notations .................................................................................................................. 50
4.2
Mcanismes de censure............................................................................................ 53
4.3
Estimation non paramtrique ................................................................................... 56
4.4
Modles paramtriques ............................................................................................ 61
4.5
Estimation des paramtres........................................................................................ 65
4.6
Maximum de vraisemblance .................................................................................... 66
5
Rseaux de neurones ........................................................................................................ 69
5.1
Prsentation de la mthode....................................................................................... 70
5.2
Rseaux GRBF......................................................................................................... 70
5.3
Perceptron Multicouche ........................................................................................... 72
6
Mthodes densemble....................................................................................................... 76
6.1
Bagging .................................................................................................................... 76
6.2
Boosting ................................................................................................................... 76
7
Machines Vecteurs de Support...................................................................................... 79
7.1
Thorie dapprentissage supervis ........................................................................... 79
7.2
Principe des SVM..................................................................................................... 80
8
Conclusion........................................................................................................................ 82

Objectifs : Les objectifs de ce deuxime chapitre sont de prsenter les techniques permettant
de dtecter la fuite des clients et de modliser le dlai de rechargement.

31

Chapitre II

Mthodes de Statistiques et de Data Mining

Organisation du chapitre : Aprs avoir prsent succinctement l'analyse des donnes et les
techniques de rgression multilinaire ainsi que les modles SARIMA, nous introduisons
l'analogie que nous considrons entre la survie des lignes tlphoniques et la survie des
patients dans le domaine mdical. Nous dtaillons ensuite les rseaux de neurones et les
techniques d'ensemble permettant de combiner les hypothses fournies par plusieurs
classifieurs. Nous prsentons enfin les Machines Vecteurs de Support qui permettent
dapporter de la robustesse la dtection du churn.

32

Chapitre II

Mthodes de Statistiques et de Data Mining

1 Analyse des donnes


Lanalyse de donnes est une partie des statistiques qui vise plus dcrire une
population que den prdire le comportement partir dun chantillon donn (Saporta, 1990),
(Jambu, 1999). Nous prcisons ici quelques notions gnrales danalyse de donnes que nous
exploitons dans le reste du document.

1.1 Analyse statistique des donnes


Dans lapproche statistique des donnes, on distingue deux grands ensembles :
lensemble des individus et lensemble des attributs caractrisant ces individus. Un attribut
peut tre qualitatif ou quantitatif.
Pour lattribut quantitatif x prenant les n valeurs x1 ,..., xi ,..., x n on dfinit la moyenne
par :

x=

1 n
xi
n i =1

(II.1)

si chaque observation x i est munie dun poids pi > 0 tel que :


n

p
i =1

=1

(II.2)

on a alors :
n

x = pi xi

(II.3)

i =1

Pour quantifier la dispersion des valeurs, on utilise la variance :

s2 =

1 n
( xi x ) 2

n i =1

(II.4)

ou bien
n

s 2 = pi ( xi x ) 2

(II.5)

i =1

Lcart type est gal la racine carre de la variance, il est exprim dans la mme unit
que le caractre.

33

Chapitre II

Mthodes de Statistiques et de Data Mining

1.2 Mesure de la liaison entre deux caractres.


La plupart des mthodes statistiques dont l'analyse en composantes principales, reposent
sur l'analyse des dpendances linaires entre les caractres observs. Pour prciser cette
notion de dpendance, nous utilisons le coefficient de corrlation linaire qui mesure
l'intensit de liaison entre deux caractres quantitatifs.
Afin de mesurer la dpendance linaire des attributs x et y , (cest dire la manire
dont x et y varient simultanment) on calcule la covariance entre x et y :

sxy =

1 n
( xi x )( yi y )
n i =1

(II.6)

ou quand les individus sont pondrs :


n

sxy = pi ( xi x )( yi y )

(II.7)

i =1

On calcule le coefficient de corrlation par :

r ( x, y ) =

S xy
SxS y

(II.8)

En notant s x et s y les carts types des caractres x et y , on dfinit r , le coefficient de


corrlation entre x et y par :

r ( x, y ) =

sxy
sx s y

(II.9)

La mesure de la liaison entre un caractre qualitatif et un caractre quantitatif est


ralise par l'intensit de liaison.
Un caractre quantitatif y est fonctionnellement li un caractre qualitatif x si les n1
individus ayant la mme modalit 1 de x ont tous la mme valeur y1 de y , les n2 individus
ayant la modalit 2 de x ont tous la mme valeur y 2 de y , etc
Inversement, l'absence de corrlation est dfinie par l'galit des moyennes y1 , y 2 ,..., y q
de chaque classe. L'intensit de liaison est mesure par le rapport de corrlation dfini par :

2 =

variance des yi
variance des y

varie de 0 (absence de corrlation) 1 (dpendance fonctionnelle).

34

(II.10)

Chapitre II

Mthodes de Statistiques et de Data Mining

1.3 Analyse en composantes principales


Cette mthode a pour objectif la description des donnes contenues dans des tableaux
individus - caractres numriques : p caractres sont mesurs sur n individus. On peut
aisment reprsenter deux caractres sur deux dimensions et trois caractres en trois
dimensions. Dans notre cas les donnes statiques sont composes de c caractres, il est
utopique d'envisager de les reprsenter dans un espace de dimension c , c'est pourquoi nous
appliquons l'analyse en composantes principales (Bouroche et Saporta, 2002) dont nous
rcapitulons ci-dessous le principe : supposons que l'on veuille reprsenter les individus sur
un plan, ce que l'on verra sur la figure II.1 sera une reprsentation dforme de la
configuration exacte : les distances entre les projections des individus sur le plan ne peuvent
pas tre toutes gales aux distances entre les individus dans l'espace c dimensions ( moins
qu'il n'existe c 2 relations linaires entre les caractres). Il y a ncessairement des
distorsions que nous cherchons rendre minimales. Gomtriquement, notre dessin
s'obtiendra en projetant les individus e1 , e2 ,.., en sur un plan comme le montre la figure II.1.
Il faut videmment choisir le plan de projection sur lequel les distances sont en
moyenne le mieux conserves : comme l'opration de projection raccourcit toujours les
distances d ( f i ; f j ) d (ei ; e j ) , on se fixe pour critre de rendre maximale la moyenne des
carrs des distances entre les projections f1 ; f 2 ;..; f n . Pour dterminer ce plan, que l'on
appelle plan principal, il suffit de trouver deux droites 1 et 2 .
ei
ej

fj

fi

Figure II.1 : Plan de Projection

35

Chapitre II

Mthodes de Statistiques et de Data Mining

Si ces deux droites sont perpendiculaires, on a :

d 2 ( fi ; f j ) = d 2 ( i ; j ) + d 2 ( i ; j )

(II.11)

o les i et les i sont les projections des ei (et des f i ) sur 1 et 2 respectivement. La
moyenne des carrs des distances entre les f i est donc gale la moyenne des carrs des
distances entre les i plus la moyenne des carrs des distances entre les i .
La mthode consiste d'abord trouver 1 rendant maximale la moyenne des d 2 ( i ; j )
puis 2 perpendiculaire 1 , rendant maximale la moyenne des d 2 ( i ; j ) .

Note

On

peut

continuer

en

dehors

du

plan

et

on

trouvera

alors

3 , 4 ,.., p perpendiculaires entre elles : les i sont les axes principaux du nuage. En
projetant ei qui avait pour coordonnes initiales ( xi1 , xi2 ,.., xip ) on obtient sur les axes
principaux les coordonnes (ci1 , ci2 ,.., cip ) . On construit ainsi de nouveaux caractres

(c1 , c2 ,.., c p ) que l'on appelle les composantes principales.


Chaque composante c k , qui n'est autre que la liste des coordonnes des n individus sur
l'axe k , est une combinaison linaire des caractres initiaux :
c k = u1k x1 + u2k x 2 + .. + u kp x p

(II.12)

Les coefficients (u1k , u 2k ,.., u kp ) forment le k-ime facteur principal u k . La meilleure


reprsentation des donnes au moyen de q caractres seulement (q < p ) s'obtient alors en
prenant les q premires composantes principales.

1.4 Analyse Factorielle des Correspondances


Lanalyse factorielle des correspondances (Escofier et Pags, 1998), (Cibois, 2000),
(Bouroche et Saporta, 2002) sapplique aux tableaux de contingences qui mesurent
lassociation entre les modalits de deux caractres qualitatifs. Nous notons N ( nij ) le tableau
de contingence des caractres qualitatifs X et Y (tableau II.1).

36

Chapitre II

Mthodes de Statistiques et de Data Mining

Y
y1

y2

yj

yq

x1

n11

n12

n1j

n1q

x2

n21

n22

n2j

n2q

xi

ni1

nii

nij

niq

xp

np1

np2

npj

npq

Tableau II.1 : tableau de contingence


Nous calculons les effectifs marginaux du tableau ni i et ni j comme les sommes de
lignes et des colonnes (II.13) et (II.14).
j =q

ni i = nij

(II.13)

j =1

i= p

ni j = nij

(II.14)

i =1

Nous construisons D1 et D2 les matrices diagonales des effectifs marginaux :

n1i

D1 =
0

ni1

D2 =
0

nk i

n p i

(II.15)

ni k

ni q

(II.16)

Le tableau des profils lignes sobtient par le produit matriciel (II.17) :


nij
D11 N =
ni i

(II.17)

Le tableau des profils colonnes sobtient par le produit matriciel (II.18) :

n
ND21 = ij
ni j

37

(II.18)

Chapitre II

Mthodes de Statistiques et de Data Mining

Nous utilisons dans cette tude lanalyse factorielle des correspondances pour analyser
lassociation des rechargements qui constituent les lignes et les colonnes de N . Nous
pouvons donc analyser les lignes de N en considrant (Bouroche et Saporta, 2002) la matrice

D11 N comme un tableau individus - caractres sur lequel nous effectuons une analyse en
composantes principales. Les individus de cette analyse sont les profils des lignes munis des
poids

npi
n1i n2 i
, , ,
. LAFC a pour objectif danalyser la dpendance entre les deux
n n
n

caractres qualitatifs, en examinant lcartement des

nij
ni i

et les

ni j
n

1.5 Nues Dynamiques


La mthode de classification des nues dynamiques est une technique de classification
non supervise qui est bien adapte au nombre trs important de clients que nous souhaitons
segmenter. Cette technique est une variante de la mthode itrative des centre mobiles dont
nous prsentons le principe.
Soit un ensemble I de n individus partitionner, caractriss par p caractres ou
variables. On suppose que l'espace  p supportant les n individus est muni d'une distance
approprie note d (souvent distance euclidienne usuelle ou distance du 2 ). On dsire
constituer au maximum q classes en procdant par tapes successives :
tape 0 :

On dtermine q centres provisoires de classes par tirage alatoire sans

remise de q individus dans la population classifier. Les q centres :

{C ,..., C ,..., C }
0
1

0
k

0
q

induisent une premire partition P 0 de l'ensemble des individus I en q classes :

{I

0
1

0
0
,..., I k0 ,..., I q0 } .Ainsi l'individu i appartient la classe I k s'il est plus proche de Ck que de

tous les autres centres.


tape 1 :

On dtermine q nouveaux centres de classes :

{C ,..., C ,..., C }
1
1

1
k

1
q

en

prenant les centres de gravit des classes qui viennent d'tre obtenues : { I10 ,..., I k0 ,..., I q0 } Ces
nouveaux centres induisent une nouvelle partition P1 de I construite selon la mme rgle que
pour P0. La partition P1 est forme des classes notes : { I11 ,..., I k1 ,..., I q1 } .

38

Chapitre II

tape m :

Mthodes de Statistiques et de Data Mining

On dtermine q nouveaux centres de classes :

{C

m
1

,..., Ckm ,..., Cqm } en

prenant les centres de gravit des classes qui ont t obtenues lors de l'tape prcdente,

{I

m 1
1

,..., I km 1 ,..., I qm 1} . Ces nouveaux centres induisent une nouvelle partition Pm de

l'ensemble I forme des classes : { I1m ,..., I km ,..., I qm } .Lalgorithme s'arrte :


-

Lorsque deux itrations successives conduisent la mme partition,

Lorsqu'un critre convenablement choisi (par exemple, la mesure de la variance


intra-classes) cesse de dcrotre de faon sensible,

Soit lorsqu'un nombre maximal d'itrations fix a priori a t atteint.

La partition obtenue dpend du choix initial des centres. Les mthodes des k-means et
des nues dynamiques sont des variantes de la mthode des centres mobiles : elles en diffrent
cependant sur certains points.

La mthode des k-means commence par un tirage alatoire de centres ponctuels.


Cependant la rgle de calcul des nouveaux centres n'est pas la mme. On n'attend pas
d'avoir procd la raffectation de tous les individus pour modifier la position des
centres : chaque raffectation d'individus entrane une modification de la position du
centre correspondant. Cependant, contrairement la mthode des centres mobiles, la
partition obtenue par la mthode des k-means dpend de l'ordre des individus dans la
base dapprentissage.

La mthode des nues dynamiques diffre de la mthode des centres mobiles dans la
mesure o les classes ne sont pas ncessairement caractrises par un centre de gravit
qui peut ne correspondre aucun individu de la base dapprentissage, mais par un
certain nombre d'individus classer qui constituent un "noyau". Lapport de cette
mthode est que ces noyaux sont des individus reprsentatifs de la classe qui permettent
de constituer des portraits-robots facilement explicables au marketing.

1.6 Classification Ascendante Hirarchique


La mthode de Classification Ascendante Hirarchique (CAH) est une mthode qui vise
obtenir une suite de partitions de lensemble des clients embotes les une dans les autres.
Ces partitions vont des clients particuliers jusqu une partition globale englobant toute la
population.

39

Chapitre II

Mthodes de Statistiques et de Data Mining

Cette mthode consiste crer, chaque tape, une partition obtenue en agrgeant deux
deux les lments les plus proches. On dsigne par lment les individus classer euxmmes et les regroupements d'individus gnrs par l'algorithme. Il y a diffrentes manires
de considrer le nouveau couple d'lments agrgs, d'o un nombre important de variantes de
cette technique. L'algorithme ne fournit pas une partition en q classes d'un ensemble de n
objets mais une hirarchie de partitions, se prsentant sous la forme d'arbres appels
galement dendrogrammes et contenant n - 1 partitions. L'intrt de ces arbres est qu'ils
peuvent donner une ide du nombre de classes significatives dans la population.
On suppose au dpart que l'ensemble des individus classer est muni d'une distance.
Ceci ne suppose donc pas que les distances soient toutes calcules au dpart : il faut pouvoir
les calculer ou les recalculer partir des coordonnes des individus .
On construit alors une premire matrice de distances entre tous les individus. Une fois
constitu un groupe d'individus, il convient de se demander ensuite sur quelle base on peut
calculer une distance entre un individu et un groupe et par la suite une distance entre deux
groupes. Ceci revient dfinir une stratgie de regroupements des lments, c'est--dire se
fixer des rgles de calcul des distances entre groupements disjoints d'individus, appeles
critres d'agrgation. Cette distance entre groupements pourra en gnral se calculer

directement partir des distances des diffrents lments impliqus dans le regroupement.
Par exemple, si x, y, z sont trois objets, et si les objets x et y sont regroups en un seul
lment not h, on peut dfinir la distance de ce groupement z par la plus petite distance des
divers lments de h z :

d ( h, z ) = min {d ( x, z ) ; d ( y, z )}

(II.19)

Cette distance s'appelle le saut minimal (single linkage) et constitue un critre


d'agrgation.
On peut galement dfinir la distance du saut maximal (ou diamtre) en prenant la plus
grande distance des divers lments de h z :

d ( h, z ) = max {d ( x, z ) ; d ( y, z )}

(II.20)

Une autre rgle simple et frquemment employe est celle de la distance moyenne ;
pour deux objets x et y regroups en h :
d ( h, z ) =

d ( x, z ) + d ( y , z )

40

(II.21)

Chapitre II

Mthodes de Statistiques et de Data Mining

Plus gnralement, si x et y dsignent des sous-ensembles disjoints de l'ensemble des


objets, ayant respectivement nx et ny lments, h est alors un sous-ensemble form de nx + ny
lments et on dfinit :

d ( h, z ) =

nx d ( x , z ) + n y d ( y , z )

(II.22)

nx + n y

L'algorithme de classification ascendante hirarchique consiste en lenchanement


dtapes :
tape 1 :

il y a n lments classer (qui sont les n individus) ;

tape 2 :

on construit la matrice de distances entre les n lments et l'on cherche

les deux plus proches, que l'on agrge en un nouvel lment. On obtient une premire
partition n-1 classes ;
tape 3 :

on construit une nouvelle matrice des distances qui rsultent de

l'agrgation, en calculant les distances entre le nouvel lment et les lments restants (les
autres distances sont inchanges). On se trouve dans les mmes conditions qu' l'tape 1, mais
avec seulement n-1 lments classer et en ayant choisi un critre d'agrgation. On cherche
de nouveau les deux lments les plus proches, que l'on agrge. On obtient une deuxime
partition avec n-2 classes et qui englobe la premire ;
tape m : on calcule les nouvelles distances, et l'on ritre le processus jusqu' n'avoir
plus qu'un seul lment regroupant tous les objets et qui constitue la dernire partition.

2 Rgression Multilinaire
La Rgression Multilinaire est une mthode permettant dtudier le lien linaire qui
existe entre une variable numrique Y et un ensemble de variables numriques indpendantes

( X 1 , , X n ) R n . Le modle dcoulant de cette mthode est :


Y = 0 + 1 X 1 +  + n X n +

(II.23)

O ( 0 , 1 , , n )  n +1 sont les coefficients de rgression qui restent dterminer, et

une variable alatoire suivant une loi normale centre N ( 0, ) . Pour calculer ces
coefficients de rgression, on utilise la mthode des moindres carrs, savoir, on minimise la
fonction :

f ( 0 , 1 , , n ) = ( yi 0 1 x1i  n xni ) = ei2


2

41

(II.24)

Chapitre II

Mthodes de Statistiques et de Data Mining

o yi est la valeur prise par Y linstant i , et x1i , xni sont les valeurs prises par
X 1 , , X n linstant i , en annulant les drives partielles de f .

2.1 Statistiques & Proprits


2.1.1 Ecart type empirique du terme rsiduel
Si lon a ( n + 1) coefficients de Rgression et N observations, lcart type empirique de
lerreur est :

ei
i =1 N n 1
N

(II.25)

2.1.2 Test de significativit


La significativit des coefficients de rgression est un indicateur permettant de
dterminer la vracit des variables incluses dans le modle. Pour voir si une des variables de
rgression apporte rellement de linformation supplmentaire, il suffit de tester la nullit du
coefficient de rgression lui correspondant.
On teste :

H 0 :" Bk = 0"
H1 :" Bk 0"

(II.26)

On montre que les variables alatoires Bi suivent une loi Normale centre en bi dcart
type :

= ( XX ') jj1
Donc,

(II.27)

Bi bi
suit une loi de Student ( t N n 1 ) N n 1 degrs de libert.
Var ( Bi )

On peut alors raliser des tests permettant de trouver les intervalles de confiance un
certain taux . On, appelle significativit des coefficients de rgression la probabilit
PH 0 ( H1 ) , cest dire la probabilit de dcider que le coefficient est non nul alors quil lest.

2.1.3 Statistique dAjustement du R


Cette statistique permet de juger de la qualit de lajustement entre le modle de
rgression et la srie de donnes observe.

42

Chapitre II

Mthodes de Statistiques et de Data Mining

Si R est le coefficient de corrlation entre la srie observe Y = ( y1 , , yn ) et le

modle de Rgression Y * = y1* , , yn* , on a :

(Yi E (Y ) ) (Yi Yi* )


N

R2 =

i =1

i =1

(Yi E (Y ) )
N

(II.28)

i =1

Plus le coefficient R est proche de 1 , meilleur est lajustement.

2.2 Cadre dapplication


Nous appliquons la rgression multilinaire pour faire face un jeu de donnes
stendant sur plusieurs mois dhistorique dune srie de donnes ainsi que de ses variables
explicatives. Cette srie caractrise par exemple la valeur dun client ou son nombre de
rechargements. Il est galement possible de considrer le nombre dactivations ou
dexpirations de lignes quotidiennes pour tablir des prvisions.
Remarques :
-

Les variables explicatives sont du mme rang que la srie principale, mme si les
priodicits ne concident pas ncessairement,

Les donnes manquantes, aberrantes ou de cumul de rappels sont corriges.

3 Modles SARIMA
Si la Rgression Multilinaire permet dexpliquer le comportement dune srie grce
des donnes provenant dvnements extrieurs (hors structure) (ex. : impact des ventes sur
les Mises en Service), les modles SARIMA consistent dire que la valeur de la srie
linstant t dpend de certaines valeurs passes de la srie (Mlard, 1991), (Gourieroux et
Monfort, 1999). Comme nous allons le voir, il est aussi possible dintgrer au modle diverses
catgories dinterventions extrieures permettant daffiner la comprhension de la srie.

3.1 Processus Stationnaires


Une srie stationnaire est une srie dont la structure probabiliste est stable dans le
temps. Cest dire : Soit ( X n ) , n  une srie temporelle. On dit quelle est stationnaire si et

seulement si : k  , la loi de X t1 , X tn est la mme que celle de X t1+k , X tn+k .

43

Chapitre II

Mthodes de Statistiques et de Data Mining

Implications directes :
Pour un processus stationnaire X t , tous les X t ont mme variance et mme moyenne.
Pour un processus stationnaire, les autocovariances sont indpendantes du temps :

t , cov ( X t , X t k ) = f ( k ) k 

(II.29)

3.2 Modles ARMA


3.2.1 Dfinition
Les ARMA (Auto Regressive Mobile Average) sont des processus stationnaires. Plus
prcisment : Soit ( X n ) , n  une srie temporelle centre et stationnaire. On dit quelle est
reprsentable par un ARMA(p,q)

( p et q N) si elle est rgie par la loi de rcurrence :

X n = a1 X n 1 + a2 X n 2 +  + a p X n p + n + b1 n 1 +  + bq n q n 

(II.30)

O (n) n est un bruit blanc, i.e. une suite de variables alatoires indpendantes, de
moyenne nulle et de variance constante, et o ( a1 , , a p )  p et ( b1 , , bq )  q .

( n ) , n 

reprsente la suite des erreurs de la formule ARMA au temps n par rapport

la srie observe. Il est intressant de noter que non seulement on cherche de linformation
dans les valeurs passes de la srie, mais en plus dans les erreurs dajustement passes.
Remarques :

un ARMA (0,q) est un MA(q)


un ARMA (p,0) est un AR(p)

3.2.2 Proprits importantes


On appelle Autocorrlation dune Srie Temporelle stationnaire

( Xt )

lapplication

:   dfinie par :
( h) =

Cov(Xt,Xt-h)
Var(Xt)

(II.31)

Cette application mesure la corrlation qui existe entre X t et X t h , pour tout t, puisquil
sagit dune srie stationnaire.

44

Chapitre II

Mthodes de Statistiques et de Data Mining

Proprit I.1 :

Soit ( X t ) un processus en moyenne mobile dordre q (i.e. ( X t ) est un MA(q)), et soit

( k ) la suite de ses autocorrlations.


Alors : k = 0, k > q
Proprit I.2 :

Lintervalle de confiance pour une autocorrlation dordre k dans le cas dun MA pur
est :

k
1,96
1 + 2 (i )

i =1
N

1/ 2

k
1,96
;+
1 + 2 (i )
i =1
N

1/ 2

(II.32)

O N dsigne le nombre total dobservations.


Dfinition I.2 :

On appelle Autocorrlation Partielle dordre k dune srie temporelle stationnaire

( X t ) , le coefficient de corrlation, entre


X t E ( X t / X t 1 , , X t k +1 ) et X t k E ( X t k / X t 1 , , X t k +1 )

On note ce coefficient de corrlation r ( k ) .


r ( k ) mesure la corrlation entre X t et X t k une fois retires les influences des

variables intermdiaires X t 1 , , X t k +1 .
On calcule les autocorrlations partielles partir des autocorrlations de cette manire :
ri ( k ) = ri ( k 1) rk ( k ) rk i ( k 1)

(II.33)

pour i = 1, , k 1 , avec r1 (1) = (1) , on a:


ri ( i ) = r ( i ) , i 

(II.34)

Proprit I.3 :

Soit ( X t ) un processus autorgressif dordre p, i.e. un AR ( p ) , et soit ( rk ) la suite des


autocorrlations partielles de la srie, on a :
rk = 0, k > p

45

(II.35)

Chapitre II

Mthodes de Statistiques et de Data Mining

Proprit I-4 :

Lintervalle de confiance pour une auto-corrlation partielle dans le cas dun AR pur
est :

1,96 1,96
;+

N
N

(II.36)

O N dsigne le nombre total dobservations.


Remarque :
-

Ces proprits servent la recherche des paramtres p et q des modles ARMA.

3.2.3 Cadre dapplication


Nous appliquons les modles ARMA quand nous disposons au moins dun an
dhistorique. Dans le cas de variables explicatives, il faut possder le mme nombre de
donnes que la srie principale (mme si la saisonnalit diffre). Il faut connatre les
prvisions des variables explicatives, ainsi que les jours des futurs chocs ou cycles prendre
en compte. Enfin, si les paramtres du modle varient relativement lentement au fur et
mesure que lon augmente lhistorique, le calcul des coefficients doit tre refait chaque
intgration de nouvelles donnes.

3.3 Paramtrage et Mthodologie gnrale


Le paramtrage de cette mthode a lieu en procdant une inclusion itrative des
diffrentes composantes de la srie.

3.3.1 Inclusion de tendances et saisons


Les sries observes au sein de Bouygues Telecom possdent des composantes
tendancielles et saisonnires. Dautre part, on veut pouvoir utiliser les proprits des ARMA
que nous avons vu auparavant pour pouvoir paramtrer les modles recherchs. Or, la
prsence dune tendance ou dune saison est un facteur de non stationnarit de la srie
temporelle puisque les lois de probabilits varient suivant t. Lide est darriver transformer
par une bijection la srie temporelle non stationnaire, de manire sapprocher dune srie
stationnaire, que lon peut donc tenter de modliser par un processus ARMA. On dit quon
stationnarise la srie.

46

Chapitre II

Mthodes de Statistiques et de Data Mining

En gnral, pour inclure une tendance ou une saison dans le modle, lapplication
utilise est la diffrenciation dun certain ordre (Gourieroux et Montfort, 1999). On appelle
diffrenciation dordre k lopration :
F ( X t ) = X t X t k

(II.37)

Notation : On note L loprateur retard, i.e. lapplication telle que :


L ( X t ) = X t 1

(II.38)

Lk ( X t ) = X t k

(II.39)

et pour tout k entier naturel :

3.3.2 Inclusion de la Tendance


Pour liminer la composante tendancielle dune srie

( Xt ) ,

il suffit de raliser des

diffrenciations dun ordre correspondant la forme de la tendance. On montre que pour une
tendance linaire, il suffit dappliquer la srie une diffrenciation dordre 1. Pour une
tendance quadratique, il suffit dappliquer la srie une diffrenciation dordre 2. Le but est
de transformer la srie de manire ce que la nouvelle srie soit de moyenne constante. On
note en gnral d le coefficient de diffrenciation de la srie. Nous verrons comment le
valider de manire pratique. Le modle trouv lorsque lon a appliqu ce genre de
transformation incluant la tendance sappelle un ARIMA.

3.3.3 Inclusion de la Saisonnalit


De la mme manire que pour la tendance, pour inclure le mouvement saisonnier dans
un modle ARMA, Box et Jenkins ont propos un modle dARIMA saisonnier : les
SARIMA, dont la rcurrence sexprime comme suit :
d
(1 L ) p ( L ) (1 LS ) P ( LS ) X t = q ( L ) Q ( LS ) t
D

O :
-

S est lordre de la saison (ex : 12 pour des donnes mensuelles),

p , P , q , Q sont des polynmes dordres p, P, q, Q ,

d est lordre de diffrenciation simple,

D est lordre de diffrenciation saisonnire,

t est un bruit blanc.


47

(II.40)

Chapitre II

Mthodes de Statistiques et de Data Mining

On voit que pour inclure une saison, il faut appliquer la srie une diffrenciation
dordre la saison. D est le coefficient de diffrenciation saisonnire. Nous verrons plus tard
comment le trouver de manire pratique.

3.3.4 Inclusion des chocs et cycles


Linclusion de chocs et de cycles dans les modles SARIMA se fait de la mme manire
que pour la Rgression Multilinaire : Il faut retirer de la srie tudie les effets de ces
variables avant mme dinclure la tendance et la saison dans le modle :
(1 L) d p ( L)(1 LS ) D P ( LS )( X t Ct ) = q ( L)Q ( LS )t

(II.41)

O correspond au coefficient dintervention, et Ct aux variables de cycles ou de


chocs.
La difficult de lintgration de chocs et de cycles dans les modles SARIMA vient de
la recherche a priori des paramtres p, d , q, P, D et Q , qui doivent seffectuer bien entendu
avant le calcul des coefficients. Or les autocorrlations des sries temporelles peuvent tre
sensiblement perturbes par les effets des chocs ou cycle. Cest pour cela quil faut retirer ces
effets avant mme de rechercher les paramtres du modle. Nous allons voir cela dans la
recherche pratique des paramtres ARMA.

3.3.5 Inclusion des variables explicatives


Linclusion de variables explicatives seffectue, comme les chocs et les cycles, avant
mme la recherche des paramtres SARIMA. Il faut retirer de la srie leffet de la variable
explicative afin de pouvoir dterminer ces paramtres, quitte recalculer les coefficients
correspondants aprs. On peut utiliser pour cela plusieurs mthodes que nous allons
dvelopper plus loin, et on obtient un modle total final :
d
(1 L ) p ( L ) (1 LS ) P ( LS ) ( X t Ct Rt ) = q ( L ) Q ( LS ) t
D

(II.42)

O Rt est la variable explicative et son coefficient.

3.3.6 Prvisions
Le calcul de la prvision se fait par extrapolation de la formule de rcurrence, en
sappuyant dabord sur les valeurs passes relles, puis sur les prvisions passes. Sil existe
des chocs, des cycles ou des variables explicatives dans le modle, il faut en connatre les
prvisions et sappuyer dessus pour le calcul.

48

Chapitre II

Mthodes de Statistiques et de Data Mining

3.4 Mthode de Box et Jenkins

Figure II.2 : Mthode de Box et Jenkins


La mthodologie utilise pour la recherche des paramtres SARIMA se calque sur la
mthodologie de Box et Jenkins (Gourieroux et Monfort, 1995). Elle inclut en plus les
mthodes pour intgrer des variables explicatives et des interventions. Cette mthode est
prsente en figure II.2.

4 Analyse de survie
Lanalyse de survie est issue du domaine de la mdecine, o lobjectif est de
caractriser et estimer la survie de patients en fonction du temps et de leurs caractristiques
(Hill et al., 1990), (Helsen et Schmittlein, 1993), (Falissard, 1996), (Lawless, 2002).
Lintrt de lutilisation de ce type de mthodes pour le marketing a t introduit ds
1994 par (Cri, 1994), (Liquet et Cri, 1998).
Trois approches ont t proposes pour modliser ces dlais (Le Goff, 2003) :

Lapproche non-paramtrique dont les mthodes les plus courantes sont les mthodes de
Kaplan-Meier (Kaplan et Meier 1958) et actuarielles.

49

Chapitre II

Mthodes de Statistiques et de Data Mining

On considre dans cette approche que le risque de dcs estim au temps t est
indpendant des risques estims aux temps prcdents. En outre, on considre que la
population est homogne, en ce sens que la distribution du risque est estime pour
lensemble de la population prise en compte (sans tenir compte des effets des
caractristiques des individus.

Lapproche semi-paramtrique qui est un premier type de modle explicatif. Cette


approche ne formule pas dhypothse sur la dpendance du risque au temps alors quil
en est faite une sur les diffrences interindividuelles. Les estimations semiparamtriques ont t proposes par (Cox, 1972), Ce modle repose sur lhypothse des
risques proportionnels : le rapport des risques entre un individu qui possde une
caractristique donne et un autre ne possdant pas cette caractristique doit tre
constant, quel que soit linstant t auquel on se situe.

Lapproche paramtrique se base sur lhypothse que la distribution du risque de dcs


au cours du temps est fonction des caractristiques des individus. Cette hypothse peut
tre pose la suite de lobservation de la distribution du risque telle que celle-ci est
obtenue partir dune estimation non paramtrique.
Dans le cadre du travail ralis, notre objectif est le suivant : Nous approchons

lestimation dun dlai de rechargement dun client dcrit par un ensemble de caractristiques
de la mme faon que sont attribus les estimations de dlai de survie des patients dans le
domaine mdical. Ici, nous ne nous proccupons pas du dcs mais du rechargement qui est
lvnement que nous voulons observer. Pour plus de transparence nous gardons cependant
les mmes notations que celles du domaine dorigine, et nous allons dfinir ladaptation la
survie des lignes tlphoniques des notations de la survie mdicale.

4.1 Notations

Dure de vie : le terme dure de vie sans aucune autre prcision dsigne le temps coul
entre la naissance et la mort dun patient (dcs), ce qui se traduit en tlphonie mobile
comme le temps coul entre lactivation et lexpiration des lignes tlphoniques.

Date d'origine : en gnral, la dure de vie n'est pas cette dure de survie que l'on dsire
tudier mais plutt la dure de survie aprs diagnostic ou aprs le dbut dun traitement.
Il nous faut donc dfinir la date d'origine de la survie tudie. Nous considrons, pour la
tlphonie, la date dorigine de ltude comme la date laquelle un rechargement a eu
lieu, nous mesurons le temps ncessaire ce quun autre rechargement se produise.

50

Chapitre II

Mthodes de Statistiques et de Data Mining

Date de dernires nouvelles : au moment de l'analyse des rsultats il faut disposer pour
chaque client de la date de dernires nouvelles, c'est dire la date la plus rcente o l'on
a recueilli les renseignements concernant ltat de sa ligne.

Dure de surveillance : la dure de surveillance est le dlai coul entre la date d'origine
et la date de dernires nouvelles.

Date de point : dans la mesure o des informations rcentes sur un sous-ensemble non
reprsentatif de la population tudie peuvent introduire un biais, il convient de choisir
une date au del de laquelle on ne tient plus compte des nouvelles informations : la date
de point.

Temps de participation : le temps de participation est dfini pour chaque client de la


faon suivante :
-

Si la date des dernires nouvelles est antrieure la date de point, le temps de


participation est gal au dlai entre la date d'origine et la date des dernires
nouvelles.

Si la date des dernires nouvelles est postrieure la date de point, le temps de


participation est gal au dlai entre la date d'origine et la date de point. Si la date
de point est la date de l'analyse, le temps de participation est gal la dure de
surveillance.

Recul : on appelle recul le dlai coul entre la date d'origine et la date de point : c'est le
dlai maximum potentiel d'observation du sujet. Les reculs minimum et maximum d'une
srie de sujets dfinissent l'anciennet de cette srie.

4.1.1 Distributions de survie


Ce paragraphe prsente les fonctions utilises en analyse de survie (Hill, 1990),
(Kalbfleisch 2002). Nous appelons T la variable alatoire positive 'dure de vie' (le dlai
entre la date d'origine et la date du rechargement).
Densit de probabilit : on note f (t ) la densit de probabilit de T et l'on a :
f ( t ) = lim

Pr ob ( t T < t + dt )

dt 0

dt

51

(II.43)

Chapitre II

Mthodes de Statistiques et de Data Mining

Fonction de rpartition : la fonction de rpartition F (t ) de la variable T est la


probabilit de dcder entre t = 0 et t :
t

F (t ) = Pr ob(T < t ) = f (u )du


0

(II.44)

Fonction de survie : la fonction de survie ou courbe de survie en t est la probabilit


qu'un individu survive au del d'un instant t donn : S (t ) est une fonction monotone
dcroissante et continue telle que S (0 ) = 1 et lim S (t ) = 0
t

S (t ) = Pr ob(T t ) = 1 F (t )

(II.45)

Risque instantan de rechargement : on appelle risque instantan de rechargement ou

plus correctement taux instantan de rechargement h(t ) , la probabilit de recharger entre t et


t + dt pour un sujet, conditionnellement au fait que ce sujet naie pas encore recharg en t .

La fonction h(t ) est dfinie par

Pr ob(t T < t + dt | T > t )


dt 0
dt

h(t ) = lim

(II.46)

Cette fonction s'appelle aussi fonction de risque. La fonction h(t ) vrifie la relation
suivante :

S (t ) = exp h(u )du


0

(II.47)

Fonction de risque cumule : on dfinit H (t ) la fonction de risque cumule de h(u )

entre 0 et t :
t

H (t ) = h(u )du

(II.48)

Par II.5 et II.6 on a :


H (t ) = Ln[S (t )]

(II.49)

f (t ) = h(t )exp[ H (t )]

(II.50)

Et on montre que :

Il faut noter que h(t ) n'est pas une densit de probabilit car son intgrale sur (0, )
n'est pas borne, c'est pourquoi nous utilisons le terme de "taux instantan" pour h(t ) .

52

Chapitre II

Mthodes de Statistiques et de Data Mining

De mme H (t ) est appel taux cumul pour viter toute confusion avec la probabilit
de dcs entre 0 et t qui est gale [1 S (t )] .

4.1.2 Cas discret


Lors de la priode d'apprentissage, nous mesurons pour chaque rechargement le nombre
de jours le sparant du rechargement prcdent : le dlai de rechargement. Ainsi lors de la
priode d'apprentissage s'talant du premier janvier au trente juin, le plus long dlai
observable est 180 jours.
Soit la variable alatoire T comme le dlai de rechargement, c'est dire le nombre de
jours sparant deux rechargements conscutifs pour un client donn. L'information que nous
avons sur les rechargements est le jour auquel ils sont effectus, la granularit est le jour, nous
sommes donc dans un cas discret.
Nous dfinissons f ( t ) la densit de probabilit de T par :
f ( t ) dt = P (T = t )

(II.51)

O dt = 1 .
Concrtement si on note ni le nombre de rechargements effectus i jours aprs le
rechargement prcdent, on calcule
f ( i ) = P (T = i ) =

ni

(II.52)

180

n
j =0

Nous dfinissons la fonction de rpartition F ( t ) de la variable alatoire T comme la


probabilit de recharger entre 0 et t :
t

F ( t ) = P (T < t ) = f ( u )

(II.53)

u =0

4.2 Mcanismes de censure


Supposons que l'on tudie n sujets pendant une priode d'observation au minimum
gale Li . Le dlai exact de survie du sujet i ne sera connu que si : Ti Li o Ti est la
variable alatoire temps de survie du sujet i . On observe alors le dcs du sujet i et la
variable indicatrice de l'tat aux dernires nouvelles d i vaut 1 .

53

Chapitre II

Mthodes de Statistiques et de Data Mining

Dans le cas contraire, Ti > Li l'observation est censure et l'tat aux dernires nouvelles
d i vaut 0 . On peut donc reprsenter les observations par n couples de valeurs alatoires

(ti , di ) o :
ti = min (Ti , Li )

(II.54)

1 Ti Li
di =
0 Ti > Li

(II.55)

Et

Plusieurs mcanismes de censure peuvent tre envisags, en particulier les Li peuvent


tre fixs priori ou bien alatoires. Nous ne dvelopperons ici que ces deux situations, les
plus courantes en pratique. Pour chaque modle de censure, on calculera la vraisemblance de
l'chantillon observ, et pour cela on tablira la loi du couple (ti , d i ) .

4.2.1 Censure non alatoire


Dans le cas o la dure de surveillance est fixe, le nombre de donnes censures
dpend du nombre de rechargements constats. Ainsi, la censure n'est pas alatoire, mais le
nombre de rechargements et les dures exactes de survie des sujets ayant recharg sont
alatoires. Les priodes maximales d'observation Li sont fixes ds l'inclusion de chaque
sujet. Le cas le plus simple est celui o tous les sujets ont le mme recul. Soient f i (t ) la
densit de probabilit associe Ti , et Si (t ) la fonction de survie correspondante. La
distribution du couple (ti , d i ) peut s'crire :

( ti , d i ) = f i ( ti ) S i ( ti )

1 di

di

(II.56)

et ti = Li si d i = 0 . D'o la vraisemblance :
n

V = f i ( ti ) i S i ( ti )
d

1 di

(II.57)

i =1

4.2.2 Censure alatoire


Dans le cas o les sujets entrent dans l'tude de faon alatoire et uniforme au cours du
temps, si la date de l'analyse est fixe priori, le dlai entre la date d'entre et la date de point,
donc le temps de participation des exclus vivants, est alatoire.

54

Chapitre II

Mthodes de Statistiques et de Data Mining

Si la censure est alatoire, le dlai de censure Li du sujet i est une variable alatoire
suppose indpendante de la dure de vie Ti . Le nombre total de dcs observs est alatoire.
Soit g i (t ) la densit de probabilit de Li , on note ici :
Gi (t ) = Pr (Li t )

(II.58)

On a pour la densit du couple (ti , d i ) :


-

g i (ti )Si (ti ) si d i = 0 (observations censures)

fi ( ti ) Gi ( ti ) si d i = 1 (sujets dcds)

soit de faon gnrale :

[ f i (ti )Gi (ti )]d [g i (ti )S i (ti )]1d


i

(II.59)

On obtient donc la vraisemblance :


V = [ f i (t i )Gi (t i )] i [g i (t i )S i (t i )]
n

1 d i

(II.60)

i =1

Cette expression se simplifie si la distribution des dlais de censure ne fait intervenir


aucun des paramtres dfinissant la distribution des temps de survie; la partie utile de la
vraisemblance se rduit alors :
V = f i (ti ) i Si (ti )
n

1 d i

(II.61)

i =1

Note importante : L'hypothse d'indpendance des variables L et T est fondamentale,


car elle permet d'obtenir une vraisemblance o la distribution des dlais de censure ne figure
pas. On retrouve la mme vraisemblance que pour la censure non alatoire.
S'il y a des sujets perdus de vue avant la date de point, supposer que le processus
conduisant ces censures est alatoire, indpendant des fonctions de survie et identique au
processus des exclus vivants, conduit la mme vraisemblance que prcdemment. Ce sont
les hypothses qui sont classiquement faites dans les essais thrapeutiques pour les perdus de
vue.

4.2.3 Autres mcanismes


De nombreux autres mcanismes de censure ont t dcrits surtout dans le cadre
d'tudes de fiabilit de matriel. Par exemple, on peut tudier un lot d'ampoules lectriques
jusqu' l'observation de m -ime panne.

55

Chapitre II

Mthodes de Statistiques et de Data Mining

Le nombre m d'vnements observs est fix priori et donc les donnes non censures
correspondent aux m plus petites valeurs de dures de survie observs sur un chantillon de
taille n : T1 < T2 < ... < Tm . La distribution jointe de T1 , T2 ,..., Tm est alors donne par :
V=

n!
nm
f ( t1 ) f ( t2 ) ... f ( tm ) S ( tm )
m !( n m ) !

(II.62)

4.3 Estimation non paramtrique


Comme nous lavons vu en introduction de cette partie, lapproche non-paramtrique
considre que le risque de rechargement au cours du temps est indpendant des risques
estims aux temps prcdents. La mthode destimation non paramtrique la plus connue est
celle de Kaplan-Meier.

4.3.1 Estimation de Kaplan-Meier


La mthode de Kaplan-Meier (Kaplan et Meier 1958) repose sur l'ide suivante : tre
encore en vie l'instant t , c'est dire tre en vie juste avant t et ne pas mourir l'instant t .
Dans la pratique, le temps n'est pas mesur avec une prcision infinie et les donnes de survie
sont exprimes dans une certaine unit, fonction de la prcision avec laquelle sont releves les
dates utiles. En recherche clinique la prcision habituelle est le jour pour le calcul de la survie.
Etre en vie aprs t jours implique avoir survcu au jour 1 , au jour 2 ,, puis au jour t . Cette
affirmation se traduit en termes probabilistes par :
S (t ) = Pr (T t )

(II.63)

S (t ) = Pr (T t | T t 1) Pr (T t 1)

(II.64)

S (t ) = Pr (T t | T t 1)... Pr (T 1 | T 0 ) Pr (T 0 )

(II.65)

Notons Q j la probabilit d'avoir survcu au jour j conditionnellement au fait d'tre en


vie juste avant ce jour. On a Q j = Pr (T j | T j 1) avec cette notation on obtient :
S (t ) = Qt Qt 1 ...Q1 1

(II.66)

On estime S (t ) par le produit des estimations q j de Q j , o q j est gale la proportion


observe de sujets ayant survcu au jour j parmi ceux qui taient vivants juste avant j .

56

Chapitre II

Mthodes de Statistiques et de Data Mining

Si m j dcs ont t constats le jour j , on a :

qj =

(n

mj )

nj

(II.67)

o n j est le nombre de sujets vivants juste avant j .


Si le jour j , aucun dcs n'a t constat, q j vaut 1 , en consquence seulement les
jours ou des dcs ont t constats interviennent dans les calculs. L'estimateur de la fonction
S (t ) est constant entre deux temps de dcs conscutifs.

De faon gnrale, pour estimer la fonction de survie d'une population partir d'un
chantillon de taille n , il faut classer les observations par ordre croissant de temps de
participation. Dans la suite de ce chapitre, on note i = 1,2,..., k l'indice courant des temps de
dcs. On dfinit :
-

t i , les instants auxquels des dcs sont observs,

ni , le nombre de sujets en vie juste avant t i , c'est dire le nombre de sujets

exposs au risque de dcder en t i ,


-

mi , le nombre de dcs observs l'instant t i ,

ci , le nombre de donnes censures entre t i et t i +1 .

Nous supposons que T est continue. Pour ce type de variable, deux sujets ne pouvant
dcder au mme instant, mi est gal 1 pour tout i . Cependant, en pratique la prcision de
la mesure des dlais est limite, il arrive donc que l'on ait des ex-quo. Dans ce cas nous
donnerons, quand elles existent, les approximations ncessaires. A l'origine, t 0 = 0 et m0 = 0 .
Par ailleurs, c0 est le nombre de censures entre 0 et t1 .
Pour tout i = 1,2,..., k on a :
ni = ni 1 mi 1 ci 1

(II.68)

d'o :
i 1

i 1

j =1

j =1

ni = n0 m j c j

57

(II.69)

Chapitre II

Mthodes de Statistiques et de Data Mining

Le nombre de sujets exposs au risque en t i est gal au nombre n0 de sujets prsents au


temps 0 moins le nombre de sujets morts avant t i ; moins le nombre de sujets correspondants
des observations censures avant t i .
L'estimation de Kaplan-Meier de S (t ) est donne par :

n mi
S ( t ) = i
ni
ti t

(II.70)

ni 0

Remarques :
-

L'estimateur de Kaplan-Meier de S (t ) est, quand il n'y a pas de censure avant t ,


gal la proportion observe de sujets encore vivants en t .

Si la dernire observation correspond un temps de censure, la fonction


estimant S (t ) n'est pas dfinie au-del.

4.3.2 Estimation actuarielle


Le principe de la mthode actuarielle n'est pas trs diffrent de celui de la mthode de
Kaplan-Meier. La diffrence vient du fait que les probabilits conditionnelles sont estimes
pour des intervalles de temps fixs a priori et non pas dtermins par les dates des dcs
observs. L'chelle de temps est ainsi divise en r intervalles arbitrairement choisis priori :

[0, a1 [ , [ a1 , a2 [ , , a j 1 , a j , , [ ar 1 , +[ et l'on a pour tout t

dans l'intervalle a j 1 , a j :

S ( t ) = Pr (T t T a j-1 ) Pr ( T a j-1 )

(II.80)

Soit Q j la probabilit conditionnelle d'tre vivant en a j sachant qu'on tait vivant en

a j 1 :
Q j = Pr (T a j T a j 1 )

(II.81)

Pour estimer Q j il faut dterminer, dans l'intervalle a j 1 , a j , le nombre e j de sujets


exposs au risque de dcs et le nombre m j 1 de sujets dcds. On a :

q j = 1 p j = 1 ( m j 1 e j )

58

(II.82)

Chapitre II

Mthodes de Statistiques et de Data Mining

Si dans l'intervalle a j 1 , a j il n'y a aucune donne censure, alors le nombre n j de


sujets vivants en a j est gal au nombre n j +1 de sujets vivants en a j 1 moins le nombre m j 1
de sujets dcds dans l'intervalle a j 1 , a j .
On a alors :

e j = n j 1 = n j + m j 1

(II.83)

Si, dans l'intervalle a j 1 , a j , il y a des donnes censures, alors ces donnes


correspondent des sujets qui ne sont observs que pendant une partie de cet intervalle. Ces
sujets exposs au risque de dcs pour une partie de l'intervalle ne contribuent que pour une
fraction au nombre de sujets exposs au risque de dcs dans a j 1 , a j .
Il semble donc naturel de supposer qu'un sujet censur au 20ime jour d'un intervalle de
30 jours contribue pour la fraction 20/30 = 0,67 au nombre des exposs au risque. Ceci
implique une force de mortalit constante dans l'intervalle, ce qui est en premire
approximation raisonnable surtout si l'intervalle est petit. Trois sujets suivis pendant les 20
premiers jours de l'intervalle comptent comme deux sujets suivis durant tout l'intervalle de 30
jours. En gnral pour simplifier les calculs on suppose que les censures sont uniformment
rparties dans l'intervalle, les sujets censurs sont donc exposs en moyenne un demi
intervalle, leur contribution est alors

[a

j 1

c j 1
2

o c j 1 est le nombre de censures dans l'intervalle

, a j . Le nombre de sujets exposs au risque de dcs dans l'intervalle est :


e j = n j 1

c j 1
2

(II.84)

on obtient donc :

q j = 1 p j = 1

m j 1
c j 1
n j 1
2

(II.85)

D'o l'estimation actuarielle de survie :

mh 1
S ( a j ) = 1

{h|a h a j } nh 1 ch 1
2

59

(II.86)

Chapitre II

Mthodes de Statistiques et de Data Mining

4.3.3 Choix d'un estimateur non paramtrique


Quelle que soit la forme de la fonction de survie, les estimateurs non paramtriques
tudis plus haut sont asymptotiquement sans biais. On utilise en gnral l'estimateur de
Kaplan-Meier quand il y a peu d'vnements et l'estimateur actuariel dans le cas contraire,
pour des raisons de temps de calcul et parce que le trac de Kaplan-Meier est peu lisible
quand il y a beaucoup d'lments.

4.3.4 Estimation de la fonction de risque


La fonction S (t ) , qui intgre l'ensemble des observations faites avant t , dcrit mal la
dynamique instantane du processus de mortalit. Ce sont les fonctions h(t ) et H (t ) qu'il faut
estimer pour dcrire ce processus. Un estimateur naturel de la fonction de risque
correspondant l'estimateur de Kaplan-Meier est chaque temps de dcs t i la proportion de
dcs observe :
h # (t i ) =

mi
ni

(II.87)

o :
-

mi est le nombre de dcs observs en t i

ni est le nombre de sujets exposs au risque juste avant t i .

Quand les donnes sont rsumes sous forme actuarielle, on estime la fonction h(t ) au
milieu de l'intervalle a j 1 , a j par h +j :
2m j
h +j =

ej

(a j a j 1 ) 2 m j
ej

(II.88)

o m j est le nombre de dcs dans l'intervalle et e j est le nombre de sujets exposs au


risque dans l'intervalle calcul comme prcdemment.

4.3.5 Estimation de la fonction de risque cumule


On peut estimer H (t ) partir des estimateurs proposs ci-dessus pour h(t ) .

60

Chapitre II

Mthodes de Statistiques et de Data Mining

L'estimateur connu sous le nom d'estimateur de Nelson est dfini partir de la relation :
H # (t i ) H # (t i _ ) =

mi
= h # (t i )
ni

(II.89)

qui reprsente l'accroissement de H (t ) l'instant t i o mi dcs sont observs parmi les


ni sujets exposs au risque juste avant t i . De cette relation on tire l'estimateur de Nelson :
H # (t ) =
ti t

mi
= h # ( ti )
ni ti t

(II.90)

On peut aussi estimer H (t ) partir de l'autre estimateur h + (t ) de la fonction dfinie au


paragraphe prcdent pour un calcul actuariel, on obtient :
j

h ( t ) = hi+ ( ai ai 1 ) avec a0 = 0
+
j

(II.91)

i =1

Un dernier estimateur de H (t ) se dduit de l'estimateur de Kaplan-Meier de S (t ) :

H ( t ) = Ln S ( t )

(II.92)

Les trois estimateurs H # , H + et H sont asymptotiquement quivalents et on utilise le


plus souvent le dernier cause de sa relation avec l'estimateur de Kaplan-Meier.

4.4 Modles paramtriques


Contrairement aux modles non paramtriques qui considrent que la distribution du
risque est estime pour lensemble de la population tudie, les modles paramtriques de
survie tiennent compte des caractristiques des individus en exprimant la fonction de risque
h(t ) comme une fonction mathmatique dpendant d'un ou plusieurs paramtres.

4.4.1 Modle de Weibull


Le modle de Weibull est un modle deux paramtres h0 et dont le risque
instantan de dcs est dfini par :

h(t ) = h0 t 1
-

Si est suprieur 1 , la fonction de risque est croissante,

si est infrieur 1 , la fonction de risque est dcroissante,

et si est gal 1 , on retrouve le modle exponentiel.

61

(II.93)

Chapitre II

Mthodes de Statistiques et de Data Mining

La fonction de survie du modle de Weibull est :

S ( t ) = exp ( h0t )

(II.94)

La densit de probabilit vaut :


f ( t ) = h0 ( h0t )

exp ( h0t )

(II.95)

4.4.2 Modle log-normal


Dans le modle log-normal, la fonction de densit est dfinie par :

1
1
2
exp Ln(h0t )
2 t
2

f (t ) =

(II.96)

La variable alatoire Ln(T ) suit une loi normale dont les paramtres sont :
E (T ) = Ln ( h0 )
Var (T ) =

(II.97)
(II.98)

4.4.3 Modle log-logistique


La fonction de survie du modle log-logistique est dfinie par :

S (t ) = 1 + (h0t )

(II.99)

4.4.4 Modle gamma


Le modle gamma est dfini par sa densit de probabilit :
f (t ) =

h0

( )

( h0t )

exp ( h0t )

(II.100)

o :
( ) = ( 1)!

(II.101)

Le modle gamma gnralise le modle exponentiel quand vaut 1 .

4.4.5 Modle de Pareto


Le modle de Pareto est dfini par son risque instantan de dcs :
h(t ) = h0 +
avec : h0 > 0 , > 0 et > h0 .

62

t +

(II.102)

Chapitre II

Mthodes de Statistiques et de Data Mining

Les diffrentes fonctions permettant de dcrire une distribution de survie ayant t vues,
cette partie traite maintenant les diffrents estimateurs de la fonction de survie S (t ) : des
estimateurs non paramtriques (estimateur de Kaplan-Meier et estimateur actuariel) et des
estimateurs associs des modles paramtriques. Les estimateurs des paramtres du modle
s'obtiennent par la mthode du maximum de vraisemblance.

4.4.6 Modle exponentiel


Dans le modle exponentiel, le risque instantan h(t ) est constant au cours du temps :
h(t ) = h0

(II.103)

On l'appelle modle exponentiel car la fonction de survie est exponentielle. Ce modle


de survie ne dpend que du paramtre h0 , on a :
S (t ) = exp( h0t )

(II.104)

f (t ) = h0 exp( h0t )

(II.105)

La densit de probabilit est :

Et :

E (T ) =
Var (T ) =

1
h0
1
h02

(II.106)

(II.107

La distribution de la variable dure de survie est dfinie par sa fonction de survie et sa


densit de probabilit f ( t ) est donne par (II.54) :
Pour un chantillon de taille n o l'on a observ m dcs : la contribution la
vraisemblance d'un dcs observ en ti est f (ti ) et celle d'un sujet censur en ti est S (ti ) . La
vraisemblance scrit :
m

i =1

i = m +1

V = f ( ti ) S ( ti )

(II.108)

V = h0m exp h0 t j
j =1

(II.109)

Soit :

Dans lexposant figure la somme des temps de participation de tous les sujets, quils
soient dcds ou censurs.

63

Chapitre II

Mthodes de Statistiques et de Data Mining

La log-vraisemblance scrit :
n

LnV = mLnh0 h0 t j

(II.110)

j =1

En annulant la drive de LnV par rapport h0 il vient :


m
h0 = n
t j

(II.111)

j =1

Le risque instantan de dcs est estim par le nombre de dcs divis par la somme des
temps de participation que lon appelle aussi le nombre de personnes-annes observ. Sil ny
a pas de censure, cest linverse de la moyenne observe des temps de survie. Le calcul de la
drive seconde de LnV par rapport h0 donne :
2L
m
= 2
2
h0
h0

(II.112)

do lon tire une estimation de la variance asymptotique de h0 :

( )

h02
m


Var h0 =
=
m n 2
tj
j =1

(II.113)

4.4.7 Modle paramtrique quelconque


On peut calculer la log- vraisemblance pour tout modle paramtrique partir des
expressions de f (t ) et S (t ) .
Mais maximiser la log- vraisemblance ne peut pas en gnral se faire de faon explicite,
il faut donc utiliser une mthode itrative par approximations successives.

4.4.8 Choix dun estimateur


Nous venons de dcrire plusieurs estimateurs des fonctions de survie : des estimateurs
paramtriques et des estimateurs non-paramtriques (Kaplan-Meier, actuariel et de Nelson).
Il est clair que si le modle sous-jacent est un modle paramtrique connu, lestimateur
correspondant est le meilleur.

64

Chapitre II

Mthodes de Statistiques et de Data Mining

4.5 Estimation des paramtres


La premire tape de l'analyse de la fonction de survie consiste en un test de khi deux de
l'association des variables quantitatives la fonction de survie.
L'hypothse teste est celle que les covariables ne sont pas associes la variable de
survie. La premire tape teste sparment les covariables, puis teste l'inclusion des variables
les unes aprs les autres au modle, en commenant par celles qui ont les plus fortes valeurs
de khi deux. Ceci nous permet de retenir quelques covariables. Nous cherchons ensuite
estimer la fonction de survie par un modle paramtrique qui tienne compte des covariables
au lieu de se limiter un seul estimateur global.
La classe de modles utilise est celle des modles temps acclr. Dans le cas
gnral, le modle temps acclr dcrit la relation qui existe entre les fonctions de survie de
deux individus. Nous introduisons ainsi deux fonctions de survie : S i (t ) et S j ( t ) sont les
fonctions de survie relatives aux individus i et j . Le modle temps acclr permet
dexprimer la fonction de survie de lindividu i en fonction de celle de lindividu j par la
formule II.114 :

S i (t ) = S j (ij t )

(II.114)

pour tout t o ij est une constante spcifique au couple (i, j )


Si nous appelons Ti la variable alatoire caractrisant le dlai de rechargement pour un
individu i de l'chantillon de travail et xi1 ,..., xik les valeurs de ses k covariables, on dfinit le
modle :
ln Ti = 0 + 1 xi1 + ... + k xik + i

(II.115)

O i est un terme d'erreur alatoire et 0 ,..., k et sont des paramtres estimer.


Par passage l'exponentielle, on obtient une version alternative du modle :
Ti = exp { 0 + 1 xi1 + ... + k xik + i }
Les deux diffrences entre le modle et une rgression linaire classique sont
-

le terme devant le terme i et

le passage au logarithme de la variable dpendante.

65

(II.116)

Chapitre II

Mthodes de Statistiques et de Data Mining

Le paramtre peut tre omis, mais cela implique que la variance de ( i ) peut varier
d'un jeu de donnes un autre.
Il est plus simple de fixer la variance de ( i ) une valeur standard (par exemple 1) et
laisser varier le paramtre pour compenser la variance du terme d'erreur.
S'il n'y a pas de variable censure, le modle peut tre facilement estim par la mthode
des moindres carrs, mais nous sommes ici confronts des donnes censures droite, c'est
pourquoi nous utilisons la mthode du maximum de vraisemblance.

4.6 Maximum de vraisemblance


L'estimateur du maximum de vraisemblance est muni des 3 proprits suivantes :
-

consistant (i.e. il converge en probabilit vers les vraies valeurs quand la taille
de l'chantillon croit, ce qui implique que l'estimateur sera approximativement
sans biais sur les grands chantillons),

asymptotiquement efficace (ce qui signifie que, sur les grands chantillons, les
estimateurs auront des erreurs standard au moins aussi petites que celles
obtenues par les autres mthodes),

asymptotiquement normal (ce qui signifie que la distribution d'chantillonnage


des estimateurs sera approximativement normale sur les grands chantillons, ce
qui implique que l'on peut utiliser les distributions normales et du khi-deux pour
calculer des intervalles de confiance et les p-values).

Le principe de base est de trouver les paramtres qui maximisent la probabilit de faire
les observations que nous avons, ceci se rduit donc deux tapes : On exprime dabord la
probabilit des observations en fonction des paramtres en utilisant la fonction de
vraisemblance, on trouve ensuite les valeurs qui maximisent cette probabilit.

4.6.1 Expression de la fonction de vraisemblance


Nous avons n individus indpendants ( i = 1,..., n ) , chaque individu i tant caractris
par ses k covariables xi1 ,..., xik . Nous pouvons donc caractriser chaque individu par t i , i et

x i o t i est le dlai de rechargement de l'individu, i est une variable qui vaut 1 si t i n'est
pas censur et 0 si t i est censur, et x i est le vecteur de covariables xi = [ xi1 ...xik ] .

66

Chapitre II

Mthodes de Statistiques et de Data Mining

Dans le cas o il n'y a pas d'information censure, la vraisemblance s'exprime sous la


forme :
n

L = f i ( ti )

(II.117)

i =1

Si un individu i est censur la date t i , tout ce que l'on peut dire c'est que son dlai de
rechargement est au moins gal t i . La probabilit que le dlai de rechargement soit plus
grand que t i est donne par la fonction de survie S (t ) value t i . Si nous avons r
observations non censures et n r observations censures, nous pouvons crire la
vraisemblance sous la forme :
r

i =1

i = r +1

L = f i ( ti ) Si ( ti )

(II.118)

en utilisant l'indicateur de censure nous pouvons crire la vraisemblance sous une


forme quivalente :
L = [ f i (ti )] i [S i (ti )]
n

1 i

(II.119)

i =1

Lorsque nous choisissons un modle, nous pouvons remplacer la densit de probabilit


et la fonction de survie par leurs expressions respectives. Dans le cas ou le modle choisi est
le modle exponentiel, nous obtenons :

f i (ti ) = i e iti

(II.120)

S i (ti ) = e iti

(II.121)

i = exp { i xi }

(II.122)

Et

avec = ( i ) un vecteur de coefficients.


En remplaant (II.118) et (II.119) dans (II.117) on obtient :
n

L = i e i ti
i =1

] [e ]
i

i ti 1 i

= i i e i ti
i =1

(II.123)

Afin de simplifier les calculs, nous passons cette formule au logarithme, ce qui permet
de convertir les produits en sommes et les puissances en coefficients.

67

Chapitre II

Mthodes de Statistiques et de Data Mining

Comme la fonction logarithme est croissante, ce qui maximise le logarithme maximise


galement la fonction :
n

i =1

i =1

i =1

i =1

log L = i log i i t i = i i x i t i e xi

(II.124)

il nous reste maintenant maximiser cette fonction.

4.6.2 Maximisation de la fonction de vraisemblance


L'objectif ici est de trouver les valeurs de qui maximisent le logarithme de la
vraisemblance. La solution triviale consiste exprimer la drive de la fonction et de rsoudre
en les valeurs qui annulent la drive. En drivant et annulant la drive, on obtient :
n

x
i x i = x i ti e

i =1

(II.125)

i =1

Comme x i est un vecteur (de covariables), nous sommes confronts un systme de


k + 1 quations, (une quation par lment de ). Bien que ces quations ne soient pas trs
compliques, elles impliquent des fonctions non linaires en . Il n'y a donc pas de solution
explicite, nous utilisons donc la mthode de Newton-Raphson pour maximiser la fonction de
vraisemblance.
Soit U ( ) le vecteur des drives premires de log L par rapport appel gradient,
et soit I ( ) la matrice des drives secondes de log L par rapport appele Hessienne,
c'est dire :
log L

(II.126)

2 log L

(II.127)

U ( ) =
Et
I ( ) =

L'algorithme de Newton-Raphson s'crit :

j +1 = j I 1 ( j )U ( j )
o I 1 est l'inverse de I .

68

(II.128)

Chapitre II

Mthodes de Statistiques et de Data Mining

En pratique, l'initialisation 0 se fait par la mthode des moindres carrs en traitant les
observations censures comme des observations non censures. L'arrt des itrations a lieu
quand la variation entre deux estimations successives des paramtres est infrieure 0,001

5 Rseaux de neurones
Les rseaux de neurones sont une technique dapprentissage automatique qui a merg
dans les annes 40 par les travaux de Mc Culloch et Pitts qui font alors une description d'un
systme simple dcrivant les proprits du systme nerveux.
Selon leur description, chaque neurone est reli d'autres par des connexions.
L'activation du neurone se produit lorsque celui-ci atteint un certain seuil d'activation. Cette
activation est gnre par les connexions qui ont pour proprit d'tre excitatrice ou
inhibitrice. Limplantation du premier vritable mcanisme dapprentissage arrive dans les
annes cinquante par les travaux de Rosenblatt (Rosenblatt, 1957) portant sur le perceptron.
Au milieu des annes 60, la recherche sur les rseaux de neurones est relativement
dlaisse au profit de l'intelligence artificielle. Les rseaux de neurones tant sanctionns par
leur extrme lenteur d'apprentissage sur le problme de reconnaissance de caractres
manuscrits. La publication du 'Perceptrons' de Minski et Papert en 1969 les mettent dfaut
en prsentant l'impossibilit de dapprendre la fonction XOR, facult dont tout tre humain
dispose.
L'volution des capacits de traitement des systmes informatiques et leur disponibilit
qui facilite la simulation de rseaux de neurones redynamise la recherche au dbut des annes
80. De nouveaux modles apparaissent tels que le modle de Hopfield en 1982 et la rtropropagation de lerreur, une nouvelle mthode dapprentissage qui permet de traiter les
fonctions non-linairement sparables telles que celle du problme XOR.
Cette partie prsente le principe des rseaux de neurones et prcise deux modles
classiquement utiliss : le rseau base de fonctions radiales gaussiennes et le perceptron
multicouches. Nous dtaillons la mthode de rtropropagation de lerreur.
Les notations que nous utilisons dans cette deuxime partie sont celles qui sont utilises
classiquement dans le domaine des rseaux de neurones (Madden et al. 1999), (Shawe-Taylor
et al., 1999), (Nath, 2003) elles ne peuvent pas tre rapproches de celles utilises dans la
premire partie de ce chapitre.

69

Chapitre II

Mthodes de Statistiques et de Data Mining

5.1 Prsentation de la mthode


Comme leur nom lindique, les rseaux de neurones ont t construits initialement en
analogie avec une reprsentation du cerveau humain (Abdi, 1999).
Llment de base de ces modles est le neurone prsent sur la figure II.3. Le neurone
dispose dun ensemble dentres et retourne en fonction de leurs valeurs, une valeur de sortie.
Les neurones sont interconnects entre eux pour former une structure de rseau.

Figure II.3 : Schma dun neurone de perceptron


La richesse de ce modle provient des paramtres propres chaque neurone qui
permettent de pondrer les connexions inter-neuronales. La modification de ces paramtres
permet elle-mme dadapter les rseaux chaque problme particulier lors de ltape
dapprentissage. Les rseaux de neurones ont prouv leur efficacit en dtection de churn
dans (Datta et al. 2000). Un premier contexte dutilisation des neurones est le rseau base de
fonctions radiales gaussiennes, appels Gaussian Radial Basis Functions en anglais (GRBF).

5.2 Rseaux GRBF


Les rseaux GRBF sont une famille de rseaux deux couches :
La premire couche de neurones est directement connecte aux entres. Chaque neurone
est muni de deux paramtres :
-

un vecteur prototype p ,

un coefficient dtalement strictement positif.

70

Chapitre II

Mthodes de Statistiques et de Data Mining

La fonction gaussienne ralise par le neurone est la suivante :


f1 ( x ) = e

x p
2

(II.129)

Le vecteur prototype p dfinit un point de lespace dentre. La sortie s du neurone


vaut 1 quand le vecteur dentre vaut p , et elle dcrot quand lentre sloigne de p .
La vitesse de dcroissance de la sortie est rgle par le paramtre : plus le coefficient
est petit, plus la fonction est concentre autour de p . Au contraire, plus est grand, plus
ltalement de gaussienne est important.
La seconde couche de neurones calcule la sortie du rseau en effectuant une
combinaison linaire des valeurs de sortie des neurones de la premire couche en ajoutant un
biais. La fonction ralise par ces neurones est la suivante :
f2 ( x ) = x w + b

(II.130)

O x est un vecteur compos des sorties de tous les neurones de la premire couche, w
est un vecteur de poids et b est le biais. Les paramtres w et b sont estims lors de la phase
dapprentissage du rseau. Le rseau peut ainsi tre reprsent par la figure II.4.

Figure II.4 : Architecture du rseau GRBF


Chaque sortie du rseau GRBF est donne par la formule :
Ng

si ( x ) = wi , j e
j =1

71

x p j
2 2j

+ bi

(II.131)

Chapitre II

Mthodes de Statistiques et de Data Mining

O i dsigne le numro de la sortie considre, N g le nombre de neurones de la


premire couche, p j le vecteur prototype du j me neurone de la couche dentre, j son
coefficient dtalement, les wi , j dsignant les N g poids du i me neurone de sortie, et bi son
biais.

5.3 Perceptron Multicouche


Le perceptron multicouche est la deuxime grande famille de rseaux de neurones. Son
principe consiste associer une rponse une entre caractrise par vecteur de co-variables
(Bishop, 1995). Les donnes dapprentissage sont appliques la premire couche du
perceptron appele rtine, la couche de sortie donne la rponse correspondant son entre. Le
modle originel du perceptron est compos de ces deux couches, mais il est possible dinsrer
des couches dites caches afin dobtenir la structure de perceptron multicouche (figure II.5).

Figure II.5 : Perceptron multicouches


De faon similaire aux rseaux GRBF, la dernire couche de neurones fournit la valeur
de sortie.

72

Chapitre II

Mthodes de Statistiques et de Data Mining

5.3.1 Fonctionnement des neurones


Un neurone de perceptron ralise un produit scalaire entre son vecteur dentres x et un
vecteur de paramtres w et y ajoute un biais b , une fonction dactivation est ensuite
applique ce premier rsultat pour dterminer la sortie du neurone. La sortie du neurone
scrit donc (Rumelhart et Mc Clelland, 1986) :
y = f ( x w + b)

(II.132)

Les fonctions dactivations classiques sont les fonctions linaire, tangente hyperbolique
(II.80) et sigmode (II.81) dont le trac est prsent en Figure II.6.
tanh ( x ) =

e x e x
e x + e x

x
tanh + 1
1
2
Sigmode ( x ) =
=
2
1 + e x
La diffrence entre ces deux fonctions tant le domaine des valeurs prises :

]1;1[

]0;1[ pour la sigmode.

pour la tangente hyperbolique,

Figure II.6 : Fonction Sigmode

73

(II.133)

(II.134)

Chapitre II

Mthodes de Statistiques et de Data Mining

5.3.2 Rgle dapprentissage de Widrow-Hoff


La rgle dapprentissage de Widrow-Hoff est lune des rgles plus utilises dans la
littrature. Cette rgle dapprentissage itrative fournit la valeur de lintensit de la connexion
entre deux neurones partir de la diffrence entre la valeur thorique de la sortie et la valeur
constate litration prcdente.
La rgle scrit :

wi(,t j+1) = wi(,t j) + ( t j o j ) xi

(II.135)

O :

xi dsigne la valeur de sortie de la i me cellule de la rtine,

o j dsigne la rponse de la j me cellule de sortie,

t j la rponse dsire de la j me cellule de sortie,

wi(,t j) lintensit de la connexion entre la i me cellule dentre et la j me cellule de sortie


au temps t ,

wi(,t j+1) lintensit de la connexion entre la i me cellule dentre et la j me cellule de sortie


au temps t + 1 ( litration suivante),

une constante positive gnralement comprise entre 0 et 1, cette valeur influence la


vitesse dapprentissage.

5.3.3 Rtro-propagation du gradient


La rtro-propagation est le mcanisme dintroduction de connaissance dans le rseau
que nous avons mentionn en introduction de cette partie. Ce mcanisme permet au rseau de
traiter les problmes non linairement sparables. (entre autres le fameux problme XOR).
La rtro-propagation du gradient est un mcanisme qui permet de diminuer lerreur
dapprentissage. Elle sapplique aux rseaux dots au minimum dune couche cache, en
essayant de diminuer lerreur dapprentissage chaque itration.
La rgle de modification de lintensit de connexion wi , j la k me prsentation de
lexemple X est :

wi , j ( k ) = wi , j ( k 1) e ( k ) .di .O j

74

(II.136)

Chapitre II

Mthodes de Statistiques et de Data Mining

Avec comme valeur de di :

Pour la couche de sortie

di = 2 ( Si Yi ) . f ( I i )
-

(II.137)

Pour les couches caches


di = d h wh ,i f ( I i )

(II.138)

O :

Si est la sortie relle du neurone de sortie i

Yi est la sortie thorique du neurone de sortie i

O j est la sortie relle du neurone j couche cache ou couche de sortie

e ( k ) est le pas du gradient ltape k

f la fonction dactivation est reprsente sur la figure II.7 :


f ( x) =

1
1 + e x

(II.139)

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1

-1

-2

-3

-4

-5

-6

-7

Figure II.7 : Trac de la fonction dactivation


Cette fonction est choisie pour la simplicit du calcul de sa drive qui est ncessaire
pour la rtropropagation du gradient.

f ( x ) = f ( x ) 1 f ( x )

75

(II.140)

Chapitre II

Mthodes de Statistiques et de Data Mining

Les rseaux de neurones permettent de traiter des problmes dapprentissage, afin


damliorer les capacits de prdiction lide est venue de combiner plusieurs rseaux, cest
lobjet des mthodes densemble.

6 Mthodes densemble
Lide sous-jacentes aux mthodes densemble est de combiner des prdicteurs afin
den amliorer les performances (Bauer et Kohavi, 1999), nous prsentons ici deux techniques
majeures, le bagging et le boosting.

6.1 Bagging
Le bagging introduit dans (Breiman, 1994 & 1996) est une mthode simple pour
combiner des algorithmes dapprentissage. Lide de base de cette mthode est (Cornujols et
al., 2002) dentraner un algorithme dapprentissage sur B chantillons obtenus par tirage
avec remise (bootstrap) dans lensemble dapprentissage. Pour chaque chantillon b ( b
variant de 1 B ), une hypothse hb est obtenue. La dcision finale concernant un individu x
est obtenue en calculant la moyenne des B hypothses :

H ( x) =

1 B
hb ( x )
B b =1

(II.141)

Le principe du bagging est donc relativement simple, on prend en compte lavis moyen
dun ensemble de classifieurs, de la mme manire que lon prendrait une dcision en
coutant le point de vue dune majorit dexperts. Ce mcanisme a cependant des limites, car
il nest pas rare que certains individus mal classs par un classifieur le soient aussi par les
autres classifieurs. Le besoin sest donc fait sentir de porter une attention particulire ces
individus mal classs. Cest lobjet de la mthode du boosting prsente dans la section
suivante.

6.2 Boosting
La mthode de boosting dveloppe par Schapire (Schapire, 1990, 1998, 2002) montre
quun algorithme dapprentissage peut amliorer sa performance en tant entran sur trois
chantillons bien choisis. Cette mthode (Cornujols, 2002) peut sappliquer diffrents
types dalgorithmes dapprentissage tels que les arbres de dcision, les rseaux baysiens, les
rseaux de neurones.

76

Chapitre II

Mthodes de Statistiques et de Data Mining

Nous appliquons le boosting au rseaux de neurones prsents dans la partie prcdente.


Le fonctionnement de la mthode sur un chantillon dapprentissage S de taille m est le
suivant :
1.

On obtient dabord une premire hypothse h1 sur un sous chantillon S1 de


taille m1 < m ,

2. On apprend alors une deuxime hypothse h2 sur un chantillon S 2 de taille

m2 , choisi dans S S1 dont la moiti des exemples est mal classe par h1 .
3. On apprend une troisime hypothse h3 sur un chantillon S3 de taille m3 , tir
dans S S1 S 2 pour lesquels h1 et h2 sont en dsaccord.
4. Lhypothse finale est obtenue par vote majoritaire des trois hypothses
apprises :

h = vote majoritaire ( h1 ,h 2 ,h 3 )

(II.142)

Le thorme de Schapire prouve que H a une performance suprieure celle de


lhypothse directement apprise sur S . Cette premire version de boosting dterministe a t
gnralise par le boosting probabiliste et particulirement lalgorithme ada-boost.

6.2.1 Algorithme AdaBoost


Lalgorithme AdaBoost est galement une technique itrative base sur la dfinition a
priori dune distribution de probabilit sur les exemples dapprentissage en fonction des
rsultats de lalgorithme litration prcdente.
Ceci consiste en pratique pondrer les exemples ( xi , ui ) de la base dapprentissage
ltape t par un poids Dt ( i ) . Initialement, tous les poids sont identiques, mais au cours des
itrations le poids des exemples mal classs augmente pour que lapprentissage se focalise sur
ces cas difficiles.
A chaque tape t lalgorithme cherche une hypothse ht : X {1; +1} bonne pour la
distribution Dt sur X . La performance est mesure par lerreur :

t = pD ht ( xi ) ui =
t

77

i:ht ( xi ) ui

Dt ( i )

(II.143)

Chapitre II

Mthodes de Statistiques et de Data Mining

On note que lerreur est mesure en fonction de la distribution Dt sur laquelle


lalgorithme est entran. En pratique, soit les poids des exemples sont effectivement
modifis, soit cest la probabilit de tirage qui est modifie, on utilise alors un tirage alatoire
avec remise (Bootstrap). La description de cet algorithme est faite en figure II.8.
Les techniques de bagging et de boosting sont de puissantes mthodes pour amliorer la
performance des algorithmes dapprentissage. Afin de faire face la sensibilit au bruit, nos
travaux se sont donc tourns vers les Machines Vecteurs de Support pour leur robustesse.

Figure II.8 : Algorithme Adaboost

78

Chapitre II

Mthodes de Statistiques et de Data Mining

7 Machines Vecteurs de Support


Lide de lapproche SVM (Vapnik, 1995 et 1998) est de sparer deux classes par
l'hyperplan optimal qui garantit que lcart entre elles soit maximal. Lapplication que nous
faisons des SVM est la sparation des clients prsentant un fort risque de fuite des clients
moins risqus. Les nouveaux clients pour lesquels nous devons dtecter le churn, pourront
ainsi ne pas tre trop similaires ceux employs pour trouver l'hyperplan mais tre tout de
mme situs franchement d'un ct ou l'autre de la frontire (Collobert, 2000), (Schlkopf,
2000). La force des SVM tient leur simplicit de mise en uvre face des problmes
difficiles et des fondements mathmatiques solides.
Nous avons donc retenu et test les modles SVM qui ont donn des rsultats
satisfaisants dans d'autres domaines tels que la classification dimages (Goffinet 2001,
Laayana 2003), ou la reconnaissance de locuteurs (Gutschoven et al. 2000).
Nous prsentons donc dans cette partie comment la mthode SVM sinscrit dans le
cadre de la thorie de lapprentissage supervis et comment nous pouvons formaliser le
problme de dtection de churn laide de cette approche. Nous rappelons enfin le principe
des SVM.

7.1 Thorie dapprentissage supervis


Soit O un ensemble de clients dcrit par un nombre fixe d de caractristiques (variables
descriptives numriques). Prenons un sous-ensemble S de O, lensemble de test constitu dun
ensemble de l couples ( xi , yi )1i l o xi est un point de R d qui reprsente les caractristiques des
clients et yi= 1 reprsente la classe du client xi (le client est risque (+1) ou non (-1)).
Etant donn les caractristiques des clients de O-S, lensemble dapprentissage, nous
cherchons estimer si un client de S est risque ou non, ou encore une estimation de la
fonction qui tout xi associe un yi pour lappliquer ce nouveau client. Nous cherchons donc
la fonction qui ralise la meilleure approximation de la rponse dsire parmi une famille de
fonctions {f} valeurs dans {-1,+1}. Les ( xi , yi )1i l , supposes indpendantes et
identiquement distribues, sont issues dune distribution de probabilit inconnue P(x,y). Le
critre choisi est la minimisation du risque R dfini par :
R( )= 1/ 2 y f ( x) dP( x, y )

79

(II.144)

Chapitre II

Mthodes de Statistiques et de Data Mining

La probabilit P tant inconnue, R lest aussi ; par contre, nous pouvons estimer risque
empirique sur lensemble des observations de la base dapprentissage :
l

Remp ( ) = 1/(2l ) yi f ( xi )

(II.145)

i =1

Pour une probabilit au moins gale 1-, on a lingalit suivante :


R( ) Remp ( ) + 1/ l (h(ln(2l / h) + 1) ln( / 4))

(II.146)

o h est la VC-dimension du nom de Vapnik et de Chervonenkis (Guermeur et PaugamMoisy 1999), cest le maximum de points pour lesquels les fonctions {f} associent la bonne
classe. Le second terme de la borne suprieure, nomm intervalle de confiance, est une
fonction croissante monotone en h. Ainsi, pour h petit, il suffit de minimiser le risque
empirique pour minimiser le risque R.
Ainsi, pour garantir une faible valeur de R, nous devons chercher une valeur optimale
de la VC-dimension h. Cest un problme de minimisation du risque. Le contrle du risque
consiste donc contrler la VC-dimension puisque la taille de lobservation l est
gnralement fixe.
Vapnik (Vapnik 1998) propose dappliquer le principe de minimisation du risque
structurel dont le but est la minimisation conjointe du risque empirique et de lintervalle de
confiance.
En considrant les hyperplans sur R d dfinis par :

{x  : x w+b=0}
d

(II.147)

(Burges 1998) montre que minimiser la VC-dimension revient minimiser ||w||.

7.2 Principe des SVM


Sil existe un hyperplan qui spare les deux classes, les points de lhyperplan sont
dcrits par lquation xi .w + b = 0 o w est la normale au plan et

b
w

lhyperplan et lorigine (Burges, 1998), (Viennet, 2000) voir la figure II.9.

80

la distance entre

Chapitre II

Mthodes de Statistiques et de Data Mining

b/||w||

Figure II.9 : Cas linairement sparable


Soient d+ (resp. d-) la distance minimale entre lhyperplan et la classe des xi tel que

yi=+1 (resp. yi =-1). Lhyperplan optimal est celui qui maximise

d+ + d =

(1 b ) ( 1 b ) =
w

2
w

(II.148)

Ceci se traduit par lexistence dun couple ( w, b ) Rd R tel que : xi.w+b=0, pour les
points de cet hyperplan, avec

yi ( xi w + b ) 1 0, pour tout i = 1, , l


Lhyperplan optimal est donc dtermin en minimisant J ( w ) =

(II.149)

w
2

sous les

contraintes (II.96). Les vecteurs de support sont les points tels que yx (xl.w + b)-1=0. Il sagit
donc de chercher des constantes w et b vrifiant (II.96) qui minimisent J(w).
Ce systme se rsout simplement (Laayana 2003), et montre que pour estimer la classe
dun nouveau client x, on calcule :
l

f ( x) = sign(( x.w0 ) + b 0 ) = sign( i0 yi ( xi .x) + b 0 ) =sign( i0 yi ( xi .x) + b 0 )


i =1

(II.150)

VS

o VS est lensemble des vecteurs de support.


Pour gnraliser cette mthode dans le cas o la fonction de dcision nest pas linaire,
lide est de plonger les vecteurs dentre dans un autre espace de dimension suffisamment
grande en utilisant une fonction : R d H , tel quil existe une fonction K, le noyau :

K:

d d 
( x, x ) ( x ) ( x )

81

(II.151)

Chapitre II

Mthodes de Statistiques et de Data Mining

Il suffit donc de chercher lhyperplan optimal dans lespace H par la mthode


prcdente : le couple ( xi , yi )1 i l est remplac par ( ( xi ), yi )1i l , et le produit scalaire dans H
est utilis au lieu du produit scalaire dans R d .
Pour estimer la classe dun client x, il suffit de calculer la fonction :
f ( x) = sign(i0 yi K ( xi , x) + b0 )

(II.152)

VS

Il nexiste cependant pas de mthode ni pour choisir , ni pour choisir le noyau K. Les
principaux noyaux utiliss dans la littrature sont :

les polynmes de degr p :

K ( x, y ) = ( ( x y ) + 1)

(II.153)

et les fonctions gaussiennes :


K ( x, y ) = e

x y

/ 2 2

(II.154)

Nous appliquons dans cette tude lapproche SVM pour la dtection de churn de clients,
en comparant les deux types de noyaux. (Scholkopf et al., 1997) propose une comparaison des
SVM noyaux gaussiens au rseaux RBF.

8 Conclusion
Nous avons prsent dans ce chapitre la thorie ncessaire sous-jacente et les modles
utiliss au cur de cette thse. Lanalyse de donnes ncessaire avant toute tude ainsi que les
techniques de rgression multilinaire et les modles SARIMA utiliss pour obtenir des
prvisions des nombres dactivations de clients ayant t prsents, lanalyse de survie a t
aborde en vue de lappliquer la modlisation des dlais de rechargement. Afin de traiter le
problme de la dtection de la fuite des clients, nous avons ensuite introduit les rseaux de
neurones avec une attention particulire sur les rseaux base de fonctions radiales
gaussiennes et les perceptrons multicouches. Le point a t fait sur les mthodes densemble
et la prsentation des modles de bagging et de boosting. Nous avons enfin prsent les
Machines vecteurs de support permettant lanalyse des problmes de dtection de churn. Les
modles utiliss dans cette thse tant prsents, leurs rsultats font lobjet du chapitre
suivant.

82

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Chapitre III
Rsultats obtenus sur les donnes de Bouygues Telecom

Sommaire du chapitre
Chapitre III Rsultats obtenus sur les donnes de Bouygues Telecom................................. 83
1
Mesure de la qualit ......................................................................................................... 84
1.1
Systme d'acquisition ............................................................................................... 84
1.2
Slection des variables ............................................................................................. 85
1.3
Pr-traitements ......................................................................................................... 85
1.4
Transformation ......................................................................................................... 85
1.5
Modlisation............................................................................................................. 85
1.6
Evaluation des rsultats............................................................................................ 85
2
Segmentation RFM .......................................................................................................... 88
2.1
Base de segmentation ............................................................................................... 88
2.2
Rsultat..................................................................................................................... 89
3
Segmentation sur le comportement de rechargement ...................................................... 90
3.1
Association des rechargements ................................................................................ 91
3.2
Segmentation des clients .......................................................................................... 91
4
Analyse de survie ............................................................................................................. 92
4.1
Application ............................................................................................................... 93
4.2
Etude des fonctions de survie................................................................................... 93
4.3
Fonction de survie .................................................................................................... 96
4.4
Logarithme ngatif de la fonction de survie............................................................. 97
4.5
Logarithme du log ngatif de la fonction de survie ................................................. 98
4.6
Conclusions ............................................................................................................ 102
4.7
Perspectives............................................................................................................ 102
5
Prvision des activations ................................................................................................ 105
6
Dtection de larrt dactivit......................................................................................... 105
6.1
Apprentissage ......................................................................................................... 107
6.2
Rsultats ................................................................................................................. 108
7
Conclusion...................................................................................................................... 108

Objectifs : Le troisime chapitre prsente les rsultats obtenus par les diffrents modles sur
les donnes de Bouygues Telecom.
Organisation du chapitre : Aprs avoir indiqu la mesure de la qualit des rsultats utilise,
ce chapitre prsente les rsultats obtenus au cours des tapes du processus dextraction de
connaissances partir de donnes. Deux segmentations de lensemble des clients partir de
leurs comportements de rechargement sont ici proposes dans un premier temps. Les
rsultats de lanalyse de survie des lignes tlphoniques sont ensuite dtaills suivis des
prvisions dactivations de lignes. Les rsultats de la dtection de larrt de lactivit des
clients sont enfin prsents.

83

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

1 Mesure de la qualit
Les estimations de comportement des clients conditionnent fortement les dcisions que
prend le marketing leur encontre. Si une erreur de jugement sur un ou quelques clients peut
entraner leur insatisfaction, cela ne reprsente pas de risque majeur pour l'entreprise. A
linverse, la satisfaction de la majorit des clients reprsente un enjeu financier trs important
(Redman, 1996). Notre motivation est de caractriser au mieux les clients, c'est dire disposer
des connaissances les plus fiables possibles afin de minimiser le risque d'insatisfaction client.
L'objectif de cette partie est de mesurer la qualit des connaissances issues du processus
d'ECD, et d'autre part valuer l'impact de la qualit des donnes issues du systme
d'acquisition sur ces connaissances. Pour atteindre cet objectif, nous mettons en uvre les
deux moyens suivants :

Comparer les modles utiliss dans l'tape de fouille des donnes avec un jeu de
donnes de trs bonne qualit. Ces donnes issues de lenvironnement de production
sont plus fiables que le datawarehouse, car le biais introduit par les tapes de transit des
donnes entre ces deux entrepts est vit.

Suivre la qualit de l'information le long du processus dcisionnel, ce qui consiste


concrtement valuer la qualit des donnes en entre, valuer la qualit des
connaissances en sortie et mesurer l'impact des diffrentes tapes du processus
dcisionnel.
Nous prsentons maintenant le suivi de la qualit de la connaissance le long du

processus dcisionnel, en prcisant ci-dessous la mesure de la qualit des modles.

1.1 Systme d'acquisition


Comme nous l'avons vu au chapitre I, les composants du systme d'acquisition des
donnes sont normaliss et spcifis. Ainsi l'implantation des normalisations par les
constructeurs des composants du rseau garantit la qualit des donnes. La vrification de
l'intgration des sous-systmes rseau et valorisation se fait par des quipes d'assurancerevenu, le trafic du rseau est compar entre ce qui passe via le rseau et ce qui est valoris.
La qualit des donnes en amont du datawarehouse (pralable au processus dcisionnel
dcrit prcdemment) est donc garantie par l'intgration de composants normaliss et
spcifis, le contrle tant effectu par vrification croise des donnes.

84

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

1.2 Slection des variables


Les variables retenues passent du datawarehouse vers le datamart par alimentation
directe, les tables ayant une mme structure, la garantie de la qualit de l'alimentation des
donnes se fait par vrification de l'intgrit du transfert.

1.3 Pr-traitements
Nous appliquons ici la technique de dbosselage propose dans (Redman, 1996) pour
comparer les donnes prsentes dans le datamart des chantillons de l'environnement de
production. Ceci nous permet de vrifier la qualit de variables particulirement sensibles (les
variables figurant dans le modle de fouille de donnes). La vrification de l'ensemble des
donnes est effectue au niveau agrg en comparant des agrgats construits sur les donnes
du systme de production aux mmes agrgats btis sur les donnes du systme dcisionnel.
Une fois la cohrence globale des donnes vrifie, il faut restaurer certaines valeurs
manquantes, qui sont passes "au travers des mailles". Pour ce faire, nous reconstruisons au
cours du temps la consommation des clients sur les axes de rechargement et de
consommation, ainsi nous pouvons retrouver par exemple partir du montant consomm sur
une priode la valeur recharge auparavant.

1.4 Transformation
Les transformations sont majoritairement l'agrgation, la discrtisation, l'application de
formules mathmatiques ayant pour but d'enrichir l'information porte par les variables. Les
donnes transformes sont utilises comme donnes tactiques (Wang, 1995), (Redman, 1996),
qui permettent d'attribuer un client le modle que lon va lui appliquer lors de l'tape de
fouille de donnes.

1.5 Modlisation
Le dlai de rechargement rsultant de cette tape constitue linformation stratgique. En
utilisant les indicateurs construits lors de la phase de transformation nous construisons des
modles sur les donnes prtraites. D'un ensemble de donnes, nous passons un ensemble
de valeurs concernant les paramtres du modle, ainsi que des valeurs prdites par ce modle.

1.6 Evaluation des rsultats


Les connaissances que nous souhaitons voir apparatre en sortie de processus sont des
prvisions d'activit de clients. Nous valuons rtroactivement la qualit de ces prvisions en
les comparant aux activits rellement constates. Lvaluation de la qualit des rsultats
porte sur de la dtection et sur la prvision des dlais de rechargement.

85

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

1.6.1 Qualit de la dtection de fuite des clients


Nous cherchons ici mesurer la qualit de la dtection de la fuite des clients. Parmi
lensemble des clients que nous considrons, on prvoit quun certain nombre dentre eux
vont cesser leur activit, les autres sont considrs comme non risqus. Cependant il ne sagit
ici que dune prvision, et les deux populations (churn / non churn) constitues par cette
prvision ne correspondent pas ncessairement celles que nous constatons rellement. Si la
considration de tous les clients comme non churners est manifestement mauvaise, le
contraire est galement vrai. La dtection du churn ayant pour but de tenter de fidliser les
clients risque par lintermdiaire de campagnes marketing coteuses (Courtheoux, 1995),
les prvisions doivent tre les meilleures possibles. Nous introduisons donc la mesure de
la qualit des dtecteurs. Nous construisons la table de dtection (Tableau III.1) qui prsente
le croisement du churn dtect par le churn constat.

Churn dtect
Prdit Churn non dtect
Total

Churn constat
A
C
A+C

Rel
Churn non constat
B
D
B+D

Total
A+B
C+D
A+B+C+D

Tableau III.1 : Table de dtection


Les notations suivantes sont employes pour caractriser les dtecteurs :

La sensibilit est la proportion de clients churners qui sont dtects comme tels.

A
(III.1)
A+C
La spcificit est la proportion de clients non churners qui sont dtects comme tels.
D
Spcificit =
B+D
(III.2)

La valeur prdictive positive est la proportion de clients pour lesquels on constate

Sensibilit =

effectivement le churn parmi ceux qui ont t dtects comme tels.

A
(III.3)
A+ B
La valeur prdictive ngative est la proportion de clients pour lesquels on ne constate
Valeur prdictive positive =

pas de churn parmis ceux qui ont t dtects comme tels.

D
(III.4)
C+D
Le taux de bonne dtection indique le taux de clients correctement dtects. Ce taux se
Valeur prdictive ngative =

dfinit globalement ou uniquement sur la population des churners :

86

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

A+ D
(III.5)
A+ B +C + D
A
Taux de bonne dtection Churners =
(III.6)
A+ B
A partir de la sensibilit et de la spcificit et il est possible de tracer la courbe roc
Taux de bonne dtection Global =

(receiving operating characteristic curve) du dtecteur qui permet den visualiser la


performance. Cette courbe se construit en reprsentant sur laxe des abscisses le taux de faux
positifs (1 - spcificit) et en ordonnes le taux de vrais positifs (sensibilit).
La courbe de lift permet elle de comparer la capacit de dtection du dtecteur celle
dun dtecteur idal qui ne commettrait aucune erreur et celle dun dtecteur alatoire. Elle
reprsente en abscisse la proportion que lon considre de la base sur laquelle le dtecteur a
t appliqu. Laxe des ordonnes prsente la proportion de churners qui a t dtect pour la
proportion de la base totale considre. La figure III.1 donne un exemple de courbe de lift.

Figure III.1 : Courbe de lift dun dtecteur


Le coefficient Ki (Kxen, 2004) est un indice de qualit utilisant la surface comprise sous
la courbe de lift, il se dfinit par :
Ki =

Surface entre lift estim et alatoire


Surface entre lift optimal et alatoire

(III.7)

1.6.2 Qualit de la prvision de dlais de rechargement


Afin de mesurer la qualit de prvision des dlais de rechargements des clients dcrite
au chapitre II, nous calculons le pourcentage derreur entre le dlai prvu et le dlai
rellement constat pour le client. La figure III.2 reprsente ces deux dlais pour un client
donn.
87

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Figure III.2 : Dlais prvus et constats


Nous calculons lerreur de prvision e par (III.8) :

e=

dlai prvu dlaiconstat


dlai prvu

(III.8)

Afin de visualiser la qualit de la prvision pour tous les clients nous traons la
distribution de l'erreur de prvision (cf. figure III.18).

2 Segmentation RFM
La premire version de la segmentation de lensemble des clients a t construite
partir dune base de donnes de travail constitue de la table des lignes (Tableau I.12) et de la
table des rechargements (Tableau I.5).

2.1 Base de segmentation


Les variables concernant les rechargements d'un client sont les dates auxquelles ont t
effectus les rechargements, ainsi que leurs montants. Nous avons construit une base
d'apprentissage constitue des donnes de rechargement prsentes dans le tableau III.2 sur
une priode de six mois, la priode de 6 mois suivante a t utilise comme base de test pour
mesurer la qualit des prvisions. Nous avons construit sur les donnes de la base
d'apprentissage les indicateurs de rechargements sur les priodes B1, B2, et B3 prsentes sur
la figure III.3.

Figure III.3 : Base dapprentissage

Les rechargements sont agrgs en trois priodes de deux mois, le bimestre B1


correspond aux deux premiers mois de la priode d'apprentissage.

88

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Le bimestre B2 correspond aux deux mois suivants, et le bimestre B3 correspond aux


deux derniers mois. La date de la modlisation des rechargements est fixe la fin de la
priode d'apprentissage (i.e. la fin du bimestre B3). Trois segments de rechargements ont t
dfinis 0 rechargement, 1 rechargement et 2 rechargements et plus sur les priodes de deux
mois. Les nombres de rechargements effectus durant B1 B3 prennent ainsi leurs modalits
dans l'ensemble {0,1,2}.

Le montant moyen recharg sur la priode totale de l'tude, cest--dire la somme des
montants rechargs divise par le nombre de recharges. L'indicateur prend quatre
modalits correspondant aux quartiles de la distribution des valeurs de la variable.

Le montant de la dernire recharge sur lhistorique. Cet indicateur prend quatre


modalits qui correspondent aux quatre valeurs faciales des rechargements de l'offre
prpaye.

La frquence de rechargement durant lhistorique qui a t dcoupe en dix modalits


(dciles de la distribution des valeurs).

Lacclration et la dclration maximales du dlai de rechargement constat sur la


priode de l'historique. Ces indicateurs prennent chacun dix modalits construites
partir des distributions des variables.

L'utilisation de rechargements promotionnels. Cet indicateur boolen prcise si le client


a bnfici dune recharge promotionnelle durant la priode d'apprentissage.

L'anciennet de la ligne a t dcoupe en quatre modalits : de 0 61 jours, de 62 122


jours, de 123 183 jours et 184 jours et plus.
Ces indicateurs synthtiques ont pour objectif de caractriser les lignes, avec comme

objectif d'en rduire significativement le volume, car le traitement des donnes brutes trs
volumineuses est extrmement coteux.

2.2 Rsultat
Afin de constituer des profils homognes de clients sur leur nombre de rechargements
sur les trois derniers bimestres et sur leur anciennet, nous avons ralis une classification en
deux tapes : une premire tape de nues dynamiques nous permet d'obtenir rapidement un
nombre de classes de l'ordre du millier, nous enchanons ensuite sur une classification
ascendante hirarchique qui nous permet d'identifier neuf profils rechargement / anciennet
(tableau III.2) :

89

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Priode
B1 B2 B3
*
2 2
*
1 2
*
2 1
*
1 1
*
0 2
*
0 1
*
2 0
*
1 0
2 0 0
1 0 0
0 0 0

0 - 61 jours

Anciennet
62 - 122 jours
123 - 183 jours

184 jours et plus

Profil 1
Profil 2
Profil 6

Profil 3
Profil 4
Profil 5
Profil 9

Profil 7

Profil 8

Profil 9

Tableau III.2 : Les diffrents profils rechargement / anciennet des clients

La valeur * signifie que le nombre de rechargements effectus durant B1 n'est pas pris
en compte pour l'attribution des profils 1 5 aux clients.
Les zones grises correspondent des situations impossibles (un client de deux mois
d'anciennet ne peut pas avoir recharg il y a trois mois) ou bien des lignes ayant t
dsactives car n'ayant pas t recharges depuis longtemps.
Cette segmentation permet davoir une premire vision globale de lensemble des
clients. Elle est par construction trs oprationnelle ce qui facilite son apprhension par les
gestionnaires des clients. Elle prsente cependant un inconvnient majeur : les segments sont
constitus sur les caractristiques des lignes telles que lanciennet. Nous souhaitons former
des segments regroupant des comportements de rechargements homognes, nous proposons
donc une seconde segmentation permettant datteindre cet objectif.

3 Segmentation sur le comportement de rechargement


La segmentation des clients sur leurs comportements de rechargement consiste en deux
tapes :

Nous construisons dans un premier temps le tableau de contingence des rechargements


lmentaires qui traduit la faon dont ils sont associs par les clients. Nous effectuons
ensuite une analyse factorielle des correspondances qui nous permet dappliquer une
classification ascendante hirarchique fournissant larbre qui nous permet didentifier
des profils de rechargement homognes car frquemment associs entre eux.

En attribuant chaque client son profil de rechargement, nous constituons les segments
de clients ayant des comportements de rechargement homognes, grce une seconde
classification ascendante hirarchique.

90

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

3.1 Association des rechargements

Figure III.4 : Arbre des associations entre rechargements

Lanalyse des correspondances entre les rechargements unitaires nous permet


deffectuer la classification fournissant larbre prsent sur la figure III.4. En analysant le
dtail des groupes de rechargements, nous retenons 31 groupes de rechargements, sur lesquels
nous allons constituer des segments de clients

3.2 Segmentation des clients


En affectant chaque client le profil de rechargement qui lui correspond, nous
appliquons une classification ascendante hirarchique dont le rsultat est prsent en Figure
III.5. Cette classification nous de segmenter lensemble des clients.

Figure III.5 : Arbre de segmentation des clients

91

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

En analysant le contenu des segments de clients et en dialoguant avec les experts du


marketing, nous constituons des segments de clients qui ont des comportements de
rechargement similaires. Larborescence fournie par la classification a t exploite pour
constituer 10 groupes de clients rpondant deux objectifs :
-

premirement rendre la segmentation exploitable de faon oprationnelle et


comprhensible pour les dcideurs du marketing dans le cadre dactions et de tableaux
de bords quotidiens,

deuximement servir de base pour constituer les groupes de clients sur lesquels on
modlise le dlai de rechargement.

4 Analyse de survie
Comme nous lavons vu en quatrime partie du chapitre II, l'objectif de l'analyse de
survie est d'estimer le dlai de rechargement des clients une date donne t .
La figure III.6 prsente en abscisse le temps et en ordonne la probabilit quun
rechargement ait lieu t jours aprs le rechargement prcdent (toutes choses gales par
ailleurs).
4,00%

3,50%

3,00%

2,50%

2,00%

1,50%

1,00%

0,50%

23
8

24
5

23
1

21
7

22
4

21
0

20
3

19
6

18
2

18
9

17
5

16
1

16
8

15
4

14
0

14
7

12
6

13
3

11
2

11
9

98
10
5

91

77

84

70

63

56

42

49

28

35

14

21

0,00%

Figure III.6 : Dlai de rechargement

Nous constatons que la probabilit de rechargement dcrot avec le temps, mais on


remarque surtout deux pics caractristiques :
-

Des pics de rechargement 7, 14, 21 et 28 jours qui sont dus des rechargements
effectus par des clients rechargeant trs rgulirement toutes les 1, 2, 3, ou 4 semaines.

92

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

On remarque galement deux grands pics de rechargement qui sont lis lchance des
dures de validit de crdit. Lapplication de lanalyse de survie fournit les rsultats
suivants.

4.1 Application
Nous considrons deux priodes de six mois. Durant la premire priode qui s'tale
entre septembre 2002 et fvrier 2003, nous tudions les comportements de rechargement des
clients. Nous effectuons la modlisation des dlais de rechargements et nous testons les
prvisions sur la deuxime priode qui s'tale de mars juin 2003 en comparant les dlais de
rechargement estims aux dlais rellement effectus.
Nous tudions une population de N clients ( N = 5000 ) actifs le premier mars 2002. Ces
5000 clients ont t slectionns par tirage alatoire sans remise parmi l'ensemble des clients.
Nous appliquons un filtre qui ne retient que les clients ayant pass au moins un appel
entre janvier et mars. La base de donnes concernant ces 5000 lignes est identifie par le
numro d'appel de la ligne.
Nous appelons covariables les valeurs des variables prsentes au chapitre III. Un
individu i est caractris par les valeurs de ses covariables xi1 ,..., xik .Nous avons ici 11
variables relatives aux lignes et 26 variables par mois d'appel sur les 6 mois d'appels de la
priode d'tude soit un total de 167 variables.

4.2 Etude des fonctions de survie


Cette partie consiste en l'tude des fonctions de survie, que nous reprenons trs
brivement ci-dessous.

Densit de probabilit : la probabilit que l'vnement survienne la date t

Fonction de rpartition : la probabilit que l'vnement survienne entre t = 0 et t

Fonction de survie : la probabilit que l'vnement survienne au del d'un instant t

donn.

Taux instantan de rechargement : la probabilit que l'vnement survienne entre t et

t + dt pour un sujet, conditionnellement au fait qu'il n'ait survenu en t .

Fonction de risque cumule : le taux de rechargement cumul entre 0 et t .

4.2.1 Densit de probabilit


Le graphique de la densit de probabilit (Figure III.7) reprsente sur l'axe des abscisses
le dlai de rechargement et sur l'axe des ordonnes la densit de probabilit des dlais.

93

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

On remarque que la densit de probabilit est plus forte pour les dlais faibles et qu'il y
a trois pics centrs sur les dures de validit des cartes gratter.

Figure III.7 : Densit de probabilit

4.2.2 Fonction de rpartition


Nous retrouvons ces comportements aux alentours des dlv sur la figure III.8 : le trac de
la fonction de rpartition F (t )
F o n ctio n d e R p a rtitio n
10 0%
9 0%
8 0%
7 0%

5 0%
4 0%
3 0%
2 0%
1 0%

Figure III.8 : Fonction de rpartition

94

26
4

25
7

24
8

24
1

23
1

22
4

21
2

20
4

19
7

19
0

18
3

17
6

16
9

16
2

15
5

14
8

14
1

13
4

12
7

12
0

11
3

99
10
6

92

85

78

71

64

57

50

43

36

29

22

15

0%

F(t)

6 0%

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

4.2.3 Fonction -log S(t)


Le ngatif de la fonction de survie a une allure fortement linaire, ceci veut dire que le
modle exponentiel semble 'visuellement' convenir pour modliser la fonction de survie. La
fonction log S (t ) est pratiquement linaire, le coefficient de dtermination est R=0,975
Nous testons donc le modle exponentiel le plus simple pour modliser la fonction de
survie de l'ensemble des clients. Le trac de cette fonction est reprsent en Figure III.9.
T itr e d u g r a p h iq u e
3 ,5

2 ,5
R

= 0 ,9 5 1 8

-log S(t)

1 ,5

0 ,5

7
25

26

1
24

24

4
22

23

4
20

21

7
19

19

6
17

18

2
16

16

8
14

15

13

14

12

12

3
11

99

10

85

92

71

78

57

64

43

50

29

36

15

22

- 0 ,5
t

Figure III.9 : Fonction -log S(t)

4.2.4 Fonction de survie


Le modle caractrise toute la population et ne prend pas en compte les valeurs
particulires des co-variables, nous voyons toujours les pics relatifs aux dlv
S u r v ie
100%
90%
80%
70%

50%
40%
30%
20%
10%

Figure III.10 : Fonction de survie

95

25
7

26
4

24
1

24
8

23
1

22
4

21
2

20
4

19
0

19
7

17
6

18
3

16
9

16
2

15
5

14
8

14
1

13
4

12
0

12
7

11
3

99
10
6

85

92

78

71

64

50

57

43

36

29

22

15

0%

S(t)

60%

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

4.2.5 Taux instantan de rechargement


h ( t)
9%

8%

7%

6%

h(t)

5%

4%

3%

2%

1%

26
4

25
7

24
1

24
8

23
1

22
4

21
2

20
4

19
7

18
3

19
0

16
9

17
6

15
5

16
2

14
8

14
1

12
7

13
4

11
3

12
0

99
10
6

85

92

71

78

64

57

50

43

36

22

29

15

0%

Figure III.11 : Taux instantan de rechargement


Le taux instantan de rechargement (figure III.11) prsente encore les pics aux alentours
des dures de vie des cartes. Ces pics sont porteurs de beaucoup d'information non exploite,
l'hypothse que le taux instantan est constant parat difficilement acceptable.

4.3 Fonction de survie


Par rapport au trac de la fonction de survie prcdent ralis sous excel, le trac sas de
la fonction de survie apporte l'information concernant les donnes censures.
La fonction de survie (figure III.12) est dcroissante, et on voit que la vitesse de
rechargement s'acclre autour des 3 dures de vies. La prsence de dlais censurs a lieu sur
les plus grands dlais. La fonction de survie obtenue par sas (Allison, 1995), (SAS, 2000) est
la mme que celle obtenue par calcul direct. Les comportements aux alentours des dures de
vies ne ressemblent pas aux modles classiquement utiliss.

96

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Figure III.12 : Fonction de survie

4.4 Logarithme ngatif de la fonction de survie

Figure III.13 : Fonction -log S(t)


Le trac du logarithme ngatif de la fonction de survie (figure III.13) nous apporte
l'information complmentaire concernant la censure.

97

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

4.5 Logarithme du log ngatif de la fonction de survie

Figure III.14 : Fonction log[-log S(t)]


Le trac du logarithme du log ngatif de la fonction de survie (figure III.14) a une forme
linaire ce qui serait en faveur du modle de weibull, nous allons tout de mme tester les
modles et comparer leur vraisemblance.

4.5.1 Rsultats
Afin d'optimiser l'ajustement des modles en tenant compte du nombre de
rechargements effectus par les clients durant la priode dapprentissage, nous avons construit
trois modles de survie :
-

Le modle n 1 pour les clients ayant recharg une seule fois,

Le modle n 2 pour les clients ayant recharg deux fois,

Le modle n3 pour les clients ayant recharg au moins trois fois,


Nous obtenons ainsi trois modles de probabilits de rechargement.

98

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

4.5.2 Graphe de survie pour un rechargement


Probabilit de rechargement (1 rechargement)
1,00
0,90

Probabilit de rechargement

0,80
0,70

SEGMENT 1
SEGMENT 2
SEGMENT 3
SEGMENT 4
SEGMENT 5
SEGMENT 6
SEGMENT 7
SEGMENT 8
SEGMENT 9
SEGMENT 10

0,60
0,50
0,40
0,30
0,20
0,10

181

175

169

163

157

151

145

139

133

127

121

115

109

97

103

91

85

79

73

67

61

55

49

43

37

31

25

19

13

0,00

Nombre de jours

Figure III.15 : Courbes de probabilit de rechargement du modle n1

4.5.3 Graphe de survie pour deux rechargements


Probabilit de rechargement (2 rechargements)
1,00
0,90

0,70

SEGMENT 1
SEGMENT 2
SEGMENT 3
SEGMENT 4
SEGMENT 5
SEGMENT 6
SEGMENT 7
SEGMENT 8
SEGMENT 9
SEGMENT 10

0,60
0,50
0,40
0,30
0,20
0,10

181

175

169

163

157

151

145

139

133

127

121

115

109

103

97

91

85

79

73

67

61

55

49

43

37

31

25

19

13

0,00
1

Probabilit de rechargement

0,80

Nombre de jours

Figure III.16 : Courbes de probabilit de rechargement du modle n2

99

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

4.5.4 Graphe de survie pour trois rechargements


Probabilit de rechargement (3 rechargements)
1,00
0,90

Probabilit de rechargement

0,80
0,70

SEGMENT 1
SEGMENT 2
SEGMENT 3
SEGMENT 4
SEGMENT 5
SEGMENT 6
SEGMENT 7
SEGMENT 8
SEGMENT 9
SEGMENT 10

0,60
0,50
0,40
0,30
0,20
0,10

181

175

169

163

157

151

145

139

133

127

121

115

109

97

103

91

85

79

73

67

61

55

49

43

37

31

25

19

13

0,00

Nombre de jours

Figure III.17 : Courbes de probabilit de rechargement du modle n3

4.5.5 Evaluation de la qualit des rsultats


Nous valuons la qualit des rsultats en comparant les dlais de rechargement prvus
par le modle de rechargement aux dlais que nous constatons rellement sur la base de test.
Nous consignons dans le tableau suivant les taux de bonnes prdictions des trois modles
ainsi que les pourcentages de donnes censures sur lesquels ils sont construits :
Modle
1 rechargement
2 rechargements
3 rechargements

Donnes
censures
5,16%
6,63%
6,72%

Taux de bonnes
prdictions
79,93%
79,17%
85,32%

Tableau III.3 : Qualit des rsultats obtenus


Comme l'indique le tableau III.3, le taux de bonnes prdictions est apprciable,
cependant on remarque que les clients rechargeant le moins souvent ont un comportement
plus difficile prvoir. Nous prsentons les rsultats des tests des diffrents modles
paramtriques de survie prsents dans la partie thorique sur les donnes d'application.

100

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

7 modles ont t tests grce au systme SAS sur les donnes : le modle exponentiel,
le modle Gamma, le modle log-logistique, le modle log-normal, le modle logistique, le
modle normal et le modle de Weibull.
Chaque modle a t test avec et sans covariables, les rsultats consigns dans le
tableau III.4 prsentent les log vraisemblance des modles avec et sans covariables.
Log Likelihood sans covariables Log Likelihood avec covariables
-7360,01672

Modle

-4300,416327

Descrition du modle
the exponential distribution, which is treated as a restricted Weibull
distribution
a generalized gamma distribution (Lawless, 1982, p, 240), The two
parameter gamma distribution is not available in PROC LIFEREG,
a loglogistic distribution
a lognormal distribution
a logistic distribution (equivalent to LLOGISTIC when the NOLOG
option is specified)
a normal distribution (equivalent to LNORMAL when the NOLOG
option is specified)
a Weibull distribution, If NOLOG is specified, it fits a type 1 extreme
value distribution to the raw, untransformed data,

Exponential

-7105,109616

-3430,055845

Gamma

-7125,062717
-7113,139455

-3268,014297
-3430,428989

LLogistic
Lognormal

-22828,03342

-16179,53041

Logistic

-22861,16167

-16262,67329

Normal

-7359,358441

-3645,990754

Weibull

Tableau III.4 : Comparaison des modles de survie


Aprs avoir test le modle de Weibull avec les covariables (Cf Annexes 1 et 2), et
compar les dates de rechargement prvues aux dates relles de rechargement, nous calculons
l'erreur de prvision. Nous traons ensuite sur la figure III.18 la distribution de l'erreur de
prvision, l'axe des abscisses portant l'erreur de prvision et l'axe des ordonnes portant le
pourcentage de prvisions ayant l'erreur porte sur l'axe des abscisses :
Erreur de prvision
2,50%

pourcentage d'erreur de prvision

2,00%

1,50%

1,00%

0,50%

96
%
10
1%
10
6%
11
1%
11
8%
12
4%
13
1%
13
8%
14
3%
15
1%
15
9%
17
1%
18
4%
24
5%
27
9%
44
1%

%
90

%
80

85

%
70

75

%
60

65

%
50

55

%
40

45

%
30

35

%
20

25

%
10

15

0%

5%

0,00%

pourcentage des erreurs

Figure III.18 : Distribution de l'erreur de prvision


L'erreur moyenne de prvision est situe 38% et l'erreur mdiane 31%. Lerreur de
prvision nest pas homogne entre les groupes.

101

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

En effet nous prouvons plus de difficult prvoir le comportement des clients


rechargeant peu frquemment. Cette difficult cerner la nuance entre un client ayant une
activit trs peu intense et un client en train de quitter loprateur nous a amen distinguer
ltude du rechargement de ltude de la fuite.

4.6 Conclusions
Les rsultats prsents sont intressants, cependant, l'hypothse que le taux instantan
de rechargement est constant parat peu fiable. Le modle ne tient pas compte des effets des
dures de vie des cartes : dure de vie 1 : dure durant laquelle un client peut appeler, dure
de vie 2 : la dure de validit de la carte. Aucun modle de survie ne tient compte de cet effet
non ngligeable. La prvision des dlais de rechargements se fait partir d'une forme de
rgression prenant en compte les donnes censures, les covariables ont ici un effet
primordial. Ce modle ne prend pas en compte les diffrents rechargements, tout au mieux,
nous agrgeons les appels pour former des indicateurs synthtiques : le modle ne prend pas
en compte la distribution des appels. De mme pour les prvisions, nous prdisons une date
donne le prochain rechargement. Il est possible d'appliquer une analyse rpte de la survie
en construisant diffrents modles relatifs aux rechargements, ainsi nous pouvons faire un
modle pour le premier rechargement de la priode de test, puis un modle pour le deuxime
rechargement, etc

4.7 Perspectives
Le modle a t test sur un chantillon de 5000 lignes tlphoniques, ces lignes ont t
recharges de nombreuses fois durant la priode d'apprentissage. Nous disposons donc de
beaucoup plus de rechargement que de lignes, cependant, nous ne travaillons que sur la
prvision d'un seul rechargement (donc un seul rechargement par ligne). Une premire
perspective peut tre d'augmenter la taille de l'effectif de l'chantillon.
Les donnes d'appels sont agrges au mois, il est donc difficile d'attribuer des valeurs
de consommation une date donne, dans le meilleur des cas on aura l'information
concernant le mois durant lequel le rechargement est effectu, il n'est donc pas vident de
caractriser la consommation propre un seul rechargement. Si cela tait possible, nous
pourrions envisager de considrer tous les rechargements effectus par les clients durant la
priode d'apprentissage, pour le moment nous ne traitons que le dernier rechargement.
En considrant tous les rechargements, on appauvrit les covariables lies au
rechargement. C'est ensuite l'enchanement des rechargements qui est porteur dinformation,
mais le traitement de l'enchanement des rechargements n'est pas l'objet de ce modle. Le

102

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

modle ne tient pas compte des rgularits ou irrgularits de rechargement, par exemple un
client ayant effectu deux rechargements le mme jour et un autre client ayant effectu les
deux mmes rechargements, mais deux jours distincts auront la mme moyenne et le mme
nombre de rechargement alors que ces comportements sont vraiment diffrents. Ceci nous a
amen introduire une segmentation des clients par rapport leur comportement de
rechargement. Au sein dun mme segment nous avons une homognit maximale des
comportements, nous diminuons ainsi le taux derreur des prvisions de dlais de
rechargement.
L'hypothse de modliser par diffrents modles les diffrentes priodes de temps entre
les dlv peut tre envisage. La figure III.19 montre le comportement linaire de la fonction
log S (t ) sur les priodes [0,31[, [31,92[, [92,182[, [182,285[
Nous voyons sur la figure III.19 que la fonction log S (t ) a un comportement linaire
sur les diffrentes priodes, avec les coefficients R 2 suivants :

Priode [0,31[, R 2 =0,9767

Priode [31,92[, R 2 =0,9932

Priode [92,182[, R 2 =0,9977

Priode [182,285[, R 2 =0,9691


3
R 2 = 0 ,9 6 9 1

2 ,5

= 0 ,9 9 7 7

1 ,5

1
R

= 0 ,9 9 3 2

0 ,5

= 0 ,9 7 6 7

0
0

50

100

150

200

250

300

- 0 ,5

Figure III.19 : Comportement linaire de la fonction -log S(t)


Ceci peut tre une perspective pour continuer la recherche sur ce modle, de dfinir
ainsi la fonction de risque ncessite de redfinir toutes les autres fonctions associes ainsi que
la mthode de rglage du modle.

103

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Un tel modle dfini par parties, ne peut pas tre pris en charge par SAS. (Ripley et
Ripley, 1998), (Biganzoli et al., 2002) et (Eleuteri et al., 2003) proposent des approches
bases sur les rseaux de neurones, (Neal, 2001) propose lutilisation de rseaux baysiens
pour apprhender les donnes censures, ceci peut tre une deuxime perspective dextension
des travaux.
Une troisime perspective de modlisation soffre nous en modlisant le dlai de
rechargement par une loi paramtrique telle que la loi de Weibull et en ajoutant des
contributions pour modliser le pic li la DLV1 des cartes, et les phnomnes de saisonalit
7, 14, 21 et 28 jours de la mme faon que ces composantes sont traites dans les modles
SARIMA. On obtient pour ce modle une trs bonne corrlation entre le modle de dlai de
rechargement constat (Figure III.20), cependant il nest pas directement intgrable dans
loutil de traitement des donnes de loprateur. Il est ainsi impossible de le mettre en uvre
oprationnellement sans engager de dveloppement informatique lourds, qui seront
ncessairement suivis de protocoles de validations pour son intgration dans lenvironnement
dcisionnel.

Figure III.20 : Modle intgrant les dlv et la saisonnalit

104

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

5 Prvision des activations


Lobjet de la prvision des activations est de pouvoir anticiper le nombre de clients qui
vont activer leurs lignes mois aprs mois connaissant lhistorique des activations. Nous
appliquons ici les modles SARIMA dont le paramtrage a t prsent au chapitre II sur les
donnes constitues des activations de janvier 98 septembre 2004. La priode comprise
entre janvier 1998 et juin 2004 sert de priode dapprentissage et les prvisions dactivations
sont compares entre juillet et septembre 2004 sur la figure III.21.

Figure III.21 : Prvision des activations


Ce rsultat montre ladquation des modles SARIMA la prvision des activations de
lignes. De plus la dcomposition de la srie prsente un caractre explicatif qui apporte des
lments de comprhension de lvolution des activations.

6 Dtection de larrt dactivit


Les bases de donnes que nous utilisons pour dtecter larrt dactivit des clients sont
constitues sont composes de donnes statiques (tableau I.12) et de dagrgats mensuels
dappels pour plusieurs mois dtude (tableau I.4). A une date de modlisation donne, nous
construisons une base de travail constitue des donnes relatives un ensemble O de clients
actifs qui n'ont pas cess leur activit.

105

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Nous appliquons la mthode de slection de variables propose dans (Lallich et


Rakotomalala, 2000) qui utilise une proprit du coefficient de corrlation linaire partielle
qui se calcule de proche en proche partir de la table des corrlations simples entre toutes les
variables. Nous retenons ainsi en un parcours de la base dapprentissage lensemble des
variables les plus corrles lobjectif dtecter : la fuite des clients.
Les clients sont dcrits par un nombre fixe d=61 de caractristiques les concernant
durant 6 mois couls, il s'agit de donnes caractristiques des lignes et de donnes de
consommations et rechargements agrges de faon mensuelle sur chacun des 6 mois de la
priode d'tude. A ces donnes est ajout un indicateur deux valeurs (+1 et -1) qui indique si
les clients ont cess leur activit durant les trois mois suivant la date de modlisation (+1), ou
non (-1). Lensemble O est pris alatoirement dans la base constitue de lensemble des
141000 clients de faon conserver la proportion de clients qui ont cess leur activit dans les
trois mois. Nous procdons lapprentissage dun perceptron multicouche sans boosting dans
un premier temps, les rsultats sont mesurs par la courbe de lift consiste passe par le tri des
lments de la base en fonction de la probabilit prdite de la valeur cible (les plus probables
apparaissant en dbut de liste). Lordonne est calcule ensuite comme le pourcentage des
valeurs cibles relles correctement prdites. Ainsi, si la modalit cible reprsente 10 % des
cas, la courbe de lift optimal doit atteindre 100 % aprs avoir trait 10 % des cas. Une courbe
de lift dun modle tiquetant les cas de manire alatoire natteindrait les 100 % quaprs
avoir trait tous les cas (la courbe est alors la diagonale).

Figure III.22 :Courbe de lift

106

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

Notre intrt concernant la dtection des clients risque de fuite ayant pour but de les
cibler dans des campagnes de rtention, nous nous focalisons sur les premires valeurs de lift.
Lintrt de lintroduction du boosting est damliorer cette capacit de dtection (Njike et Al,
2002) prsente une volution du boosting ddi laugmentation du lift pour les premires
plus hautes valeurs de score. Le tableau III.5 prsente les valeurs de lift sur les plus grandes
valeurs de scores.
Valeur de lift

PMC

PMC Boost

1%

100%

100%

2%

100%

100%

3%

98%

100%

5%

84%

97%

10%

76%

82%

Tableau III.5 : Rcapitulatif du lift


Nous appliquons les SVM sur les mme bases que celles utilises pour le test des
rseaux de neurones. Le logiciel utilis pour effectuer les tests est le logiciel SVM-FU
propos par (Rifkin, 2002), nous limitons ici son utilisation aux tests car il nest pas
interconnectable avec le systme SAS (SAS, 2000) utilis comme support au systme
dinformation dcisionnel.

6.1 Apprentissage
Pour lapprentissage et le test du dtecteur nous avons utilis la base de travail pour
construire trois bases :
La base d'apprentissage sert faire apprendre le classifieur, elle caractrise 6000 clients
(3000 clients non churners et 3000 clients churners) par d=61 caractristiques.
Deux bases de tests sont utilises pour appliquer le classifieur :

La base de test n1 est compose galement de l=6000 clients (5000 clients non
churners et 1000 clients churners) ce qui est une volumtrie comparable au fichier
d'apprentissage pour tester la qualit de l'apprentissage.

La base de test n2 est compose de l=60000 clients (50000 clients non churners et
10000 clients churners) volume significativement plus lev que la base d'apprentissage
pour tester la capacit de gnralisation du modle.

107

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

6.2 Rsultats
Nous avons appliqu les SVM et le rseau de neurones multicouches sur les mmes
bases d'apprentissage et de tests afin de comparer les rsultats. Le tableau III.6 prsente les
taux de bonnes dtections des classifieurs appliqus sur les donnes de tests :

Taux de bonne
dtection par modle
Test n1
Test n2

SVM noyau
linaire
87,10 %
80,16 %

SVM noyau
gaussien
88,55 %
84,28 %

Rseau de
neurones
87,46 %
81,08 %

Tableau III.6 : Rsultats des classificateurs


Nous voyons que sur la base de test n1 les noyaux gaussiens fournissent des rsultats
comparables ceux obtenus par le rseau de neurones et le noyau linaire. En formulant
l'hypothse que l'estimateur suit une loi gaussienne, nous calculons l'intervalle de confiance
du rsultat obtenu par le noyau gaussien sur la base de test n1 , les taux de bonne prdiction
du rseau de neurones et du SVM noyau linaire ne sont pas significativement plus mauvais.
Le test sur la base n2 montre que les rsultats des SVM sont meilleurs quand la base de
test est d'un volume considrablement suprieur la base d'apprentissage, ce qui est une
proprit que nous recherchons. En effet, le taux de bonne prdiction de churn du rseau de
neurones et du SVM noyau linaire sont l'extrieur de l'intervalle de confiance du noyau
gaussien.
Un intrt des SVM est la slection de vecteurs de support grce auxquels est dtermin
l'hyperplan optimal. Les clients employs lors de la recherche de l'hyperplan ne sont alors
plus utiles et seuls ces vecteurs supports sont utiliss pour classer un nouveau client. Cela en
fait une mthode trs rapide.

7 Conclusion
Nous avons montr dans ce chapitre que les machines support de vecteurs peuvent
tre appliques au problme de dtection de la fuite des clients en tlphonie mobile prpaye,
de plus les rsultats obtenus sont significativement meilleurs que ceux obtenus par lapproche
du rseau de neurones multi-couches de (Mani et al. 1999).

108

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

La mthode SARIMA peut tre utilise pour estimer les volumes dactivations de
clients afin de faire des prvisions du nombre de clients actifs au cours du temps. Cette
mthode peut galement tre utilise pour modliser la valeur des segments de clients au
cours du temps afin de faire des prvisions conomiques plus globales.
La deuxime forme de segmentation des clients est exploite de faon oprationnelle
par loprateur. Grce sa construction sur les rechargements, on obtient des profils de clients
aux comportements homognes, ce qui est un grand atout pour les modlisations et prvisions
dactivits.
Le modle de rechargement des clients permet dtablir des prvisions exploitables pour
les estimations de valeur des clients, mais offre galement des perspectives dexploitation
dans le cadre de campagnes bases sur les dates de rechargement estimes.
Le modle de valeur prsente des rsultats qui sont intressants lorsquils sont exploits
pour segmenter la clientle sur les valeurs perspectives. En raison de leur aspect stratgique, il
nest pas possible de prsenter de tels rsultats.

Les travaux prsents dans ce chapitre ont donn lieu des publications :
-

Les rsultats concernant la dtection par SVM ont t introduits dans la confrence EGC
et dtaills lors de la confrence ICTTA,

Les rsultats concernant la modlisation des dlais de rechargements et de la valeur des


clients ont t prsents dans la confrence SETIT,

Linteraction entre les experts du marketing et le modle de valeur des clients a fait
lobjet dun article lors de la confrence GCAI,

Lintgration du systme dinformation dcisionnel a t expose la confrence VSTT


et propose la revue IJCS.

Lexploitation du processus dextraction de connaissances pour laide la dcision dans


les domaines de la tlphonie mobile et du radar a t dtaille dans la revue des
nouvelles technologies.
Le chapitre suivant apporte une conclusion gnrale aux travaux exposs dans ce

document.

109

Chapitre III

Rsultats obtenus sur les donnes de Bouygues Telecom

110

Conclusion Gnrale

Conclusion Gnrale
Nous avons montr dans ce document les spcificits de la tlphonie prpaye, et nous
les avons apprhendes au travers dun systme dinformation ddi la gestion des clients.
Nous avons prsent les trs forts enjeux lis la rtention en proposant une mthode de
dtection oprationnelle des clients prsentant de forts risques de fuite. Lestimation de la
survie des lignes est assure par lanalyse et la modlisation des dlais de rechargement des
clients qui permet galement dobtenir une prvision de leurs valeurs.
La segmentation de lensemble des clients actifs par lintermdiaire dune classification
ascendante hirarchique, ainsi quune mthode de prvision des activations base sur les
modles SARIMA ont t abordes. Nous avons enfin montr comment le modle de valeur
terme des clients peut tre intgr comme indicateur de gestion de la relation clients en
tlphonie mobile prpaye.
Si lon reprend les quatre objectifs lorigine de ces travaux, nous constatons que
lidentification des comportements typiques dutilisateurs, est assur par ltape de typologie
de rechargement et dusage des clients. La dtection des modifications de comportements qui
sont caractristiques dun risque important de perte du client est assure par la constitution
des scores de churn. La notion de seuil dalerte est apporte par la valeur de score qui
permet didentifier les clients prsentant les risques les plus importants.
Si la dure de vie restante des clients nest pas mesurable de faon absolue, nous avons
cependant montr quil est possible destimer des probabilits de survie sur des priodes de
temps donnes. Ceci nous permet destimer la probabilit qu t donn (t < 2 ans), la ligne
dun client soit encore active. Cet horizon correspond au domaine matrisable par le
marketing. Si on examine la vitesse dvolution des besoins des clients (Palen et al., 2000) et
celle des offres proposes par les oprateurs, on se rend compte quune prvision plus long
terme serait dpourvue de sens, ou inexploitable de faon oprationnelle.
La Figure IV.1 utilise le formalisme du processus dExtraction des Connaissances
partir de Donnes pour prsenter le systme dinformation dcisionnel issu de nos travaux.
Les tapes dacquisition des donnes, la slection des attributs, le prtraitement, ltape de
fouille des donnes et enfin (et surtout) lexploitation des connaissances obtenues sont
synthtises. Lenchanement de ces tapes et les flux dinformations entre elles permet
dobtenir une vision densemble du systme.

111

Conclusion Gnrale

Figure IV.1 : Schma Synoptique du Systme dInformation


La dtection de la fuite des clients a t lobjet de la comparaison des machines
support de vecteurs aux rseaux de neurones. Si les rseaux de neurones prsentent une
avance par rapport aux techniques de rgression leur interprtation reste difficile.

112

Conclusion Gnrale

Les SVM prsentent, eux, lintrt de la robustesse grce lexploitation du principe de


minimisation du risque structurel sur lequel est bas leur apprentissage. Ce principe justifie
notre motivation tester cette mthode. Le choix des kernels reste cependant problmatique
car nous navons pas identifi de mthode permettant de les choisir partir de la distribution
des donnes. De manire empirique (Archaux, 2004) nous avons trouv les noyaux
correspondant le mieux notre application. La solution logicielle KXEN (KXEN, 2004)
permet lutilisation oprationnelle des SVM comme dtecteurs tout en tant compltement
interconnectable avec le systme SAS existant. Son intgration dans le systme dinformation
dcisionnel pour la dtection rapide du risque de fuite est une de nos perspectives. Des
mthodes alternatives pour la dtection de churn semblent prometteuses telles que les arbres
de dcision (Zighed et Rakotomalala, 2000), (Njike-Fotzo et al., 2002) et les mthodes
volutionnaires (Bhattacharyya, 2000). Lutilisation de chanes de markov pour la
modlisation de la valeur client semble galement trs encourageante (Pfeifer et Carraway,
2000).
Les segments de clientle sont utiliss pour attribuer des moyens de rtention aux
clients identifis comme fuyards. Les motivations du dpart dun client sobtiennent
facilement par entretien direct, ce qui permet dapporter, dans la mesure de ce qui est
conomiquement possible, une rponse adapte leur raison de dpart.
Lapplication de lanalyse de survie aux dlais de rechargements permet dtablir des
prvisions qui prennent en compte les variables caractrisant les clients. Il est ainsi possible
dexpliquer les dlais prvus par les valeurs des variables les plus significatives, lutilisation
de rseaux de neurones pour la prvision des dlais nous confronte nouveau au problme de
lexplication des rsultats prvus.
Si on considre la motivation initiale des travaux qui vise obtenir la prdiction des
comportements des clients, de louverture de la ligne jusqu la dfection, on se rend compte
que latteinte de cet objectif est pratiquement utopique car les motivations des clients sont trs
htrognes et le march volue de faon trs importante sur des priodes annuelles. La
solution mise en place permet dattribuer des profils, ainsi questimer les probabilits de
valeur et de survie des clients moyen terme.
Afin datteindre un modle idal de comportement des clients, de nombreuses
informations ne sont pas accessibles telles que celles qui ne sont pas quantifiables par le
systme dacquisition des donnes. Le ressenti du client par rapport la marque et ses
motivations dusage ne sont pas disponibles, on ne peut que tenter de les deviner.

113

Conclusion Gnrale

La granularit des donnes dappels utilises est mensuelle. Ces agrgats sont porteurs
dune information qui reste moins riche que linformation porte par les donnes brutes elles
mmes. Lanalyse des numros appels par les clients permet de constituer des rseaux
sociaux dutilisateurs exploitables des fins dcisionnelles (Domingos et Richardson, 2001),
(Agrawal et al. 2003). Cette tude na pas t mene en raison contraintes juridiques (loi
informatique et liberts).
Un type dinformation complmentaire qui na pas t utilis dans nos travaux est de
type textuel. Lorsque les clients appellent le centre tlphonique de clientle, les conseillers
saisissent de courts documents textes pour dcrire les motifs dappels et les actions qui sont
prises suite lappel. Ces documents sont appels Ticklers . La mise disposition de ce
type dinformation dans le datawarehouse ouvre une nouvelle perspective : Quel meilleur
indicateur de lintention de dpart dun client pouvons nous avoir que la dclaration de son
insatisfaction ou de sa volont de partir ?
La satisfaction des clients et leur fidlit leur oprateur tant trs fortement lies
(Mittal et Lasser, 1998), (Bolton, 1998), (Cri, 2002), lexploitation de cette information
semble prometteuse. Cependant, les ticklers tant saisis manuellement par des conseillers, de
nombreuses tapes de pr-traitements sont ncessaires pour obtenir des informations
exploitables par des algorithmes de text-mining tels que ceux prsents dans (Clech, 2004).
Par ailleurs, le traitement des appels aux centres dappels fait lobjet de nombreuses rgles de
gestion lies la politique de gestion de la relation client, celles-ci constituent une
connaissance a priori devant imprativement tre prise en compte dans les tudes de textmining.
Dautres informations extrmement porteuses dinformations telles que les politiques de
subventionnement des terminaux lis aux offres concurrentes ne sont pas disponibles, pour
laffinement de nos prvisions dactivations et de dsactivations. Ce type dinformation
positionne les perspectives de prolongement immdiat de nos travaux sur la simulation de la
raction de lensemble des clients face la sortie dune nouvelle offre concurrente. Lobjet de
cette simulation consisterait intgrer les caractristiques des offres concurrentes (cot la
minute, dures de validit, cots des terminaux) comme paramtres des dtecteurs de fuite et
des modles de rechargement pour pouvoir tester des scnarios proposs par les spcialistes
du marketing.

114

Annexes

Annexes

Sommaire
Annexes.................................................................................................................................. 115
1 Annexe 1 : Test du Log-Rank ......................................................................................... 116
2 Annexe 2 : Inclusion des variables dans le modle ......................................................... 120

115

Annexes

1 Annexe 1 : Test du Log-Rank


Variable
Dur_CF_tot_1202
Dur_CF_grat_1202
Dur_CF_pay_1202
Nb_App_CF_tot_1202
Nb_App_CF_grat_1202
Nb_App_CF_pay_1202
Nb_J_CF_tot_1202
Nb_J_CF_pay_1202
Conso_Totale_0103
Dur_Tot_0103
Nb_App_Tot_0103
Dur_Tot_HRR_0103
Nb_App_Tot_HRR_0103
Conso_MOC_0103
Dur_MOC_tot_0103
Dur_MOC_grat_0103
Dur_MOC_pay_0103
Nb_App_MOC_tot_0103
Nb_App_MOC_grat_0103
Nb_App_MOC_pay_0103
Nb_J_MOC_tot_0103
Nb_J_MOC_pay_0103
Conso_SMS_0103
Nb_App_SMS_0103
Nb_J_SMS_0103
Conso_CF_0103
Dur_CF_tot_0103
Dur_CF_grat_0103
Dur_CF_pay_0103
Nb_App_CF_tot_0103
Nb_App_CF_grat_0103
Nb_App_CF_pay_0103
Nb_J_CF_tot_0103
Nb_J_CF_pay_0103
Conso_Totale_0203
Dur_Tot_0203
Nb_App_Tot_0203
Dur_Tot_HRR_0203
Nb_App_Tot_HRR_0203
Conso_MOC_0203

Statistic Standard Deviation Chi-Square Pr > Chi-Square


-60536.9
32596.6
3.4490
0.0633
-61998.2
32432.0
3.6544
0.0559
1461.3
3369.4
0.1881
0.6645
-3782.1
1434.5
6.9517
0.0084
-3784.3
1434.5
6.9589
0.0083
2.1802
19.5946
0.0124
0.9114
-1300.8
347.7
13.9995
0.0002
1.0235
11.5266
0.00788
0.9292
-2502282
98676.0
643.1
<.0001
-4032389
192375
439.4
<.0001
-95312.4
4727.2
406.5
<.0001
-3975177
173674
523.9
<.0001
-87516.3
3514.8
620.0
<.0001
-2044054
88003.4
539.5
<.0001
-3973947
173650
523.7
<.0001
-1471314
97419.6
228.1
<.0001
-2502633
118929
442.8
<.0001
-57539.9
2288.7
632.0
<.0001
-24782.3
1540.0
259.0
<.0001
-32757.6
1222.9
717.6
<.0001
-10789.7
409.1
695.6
<.0001
-8436.5
311.4
733.8
<.0001
-457287
29138.3
246.3
<.0001
-29947.3
1923.7
242.4
<.0001
-5213.9
315.3
273.5
<.0001
-940.9
1270.4
0.5486
0.4589
-58442.0
61236.1
0.9108
0.3399
-57352.2
61210.8
0.8779
0.3488
-1089.8
2066.4
0.2781
0.5979
-7825.2
2475.5
9.9923
0.0016
-7804.9
2475.5
9.9403
0.0016
-20.2884
11.5994
3.0593
0.0803
-3497.8
335.0
109.0
<.0001
-6.6050
8.0737
0.6693
0.4133
-3105137
67185.5
2136.0
<.0001
-5125733
134912
1443.5
<.0001
-118812
3372.8
1240.9
<.0001
-4952044
123340
1612.0
<.0001
-104596
2544.4
1689.9
<.0001
-2581748
63153.4
1671.2
<.0001

116

Annexes

Dur_MOC_tot_0203
Dur_MOC_grat_0203
Dur_MOC_pay_0203
Nb_App_MOC_tot_0203
Nb_App_MOC_grat_0203
Nb_App_MOC_pay_0203
Nb_J_MOC_tot_0203
Nb_J_MOC_pay_0203
Conso_SMS_0203
Nb_App_SMS_0203
Nb_J_SMS_0203
Conso_CF_0203
Dur_CF_tot_0203
Dur_CF_grat_0203
Dur_CF_pay_0203
Nb_App_CF_tot_0203
Nb_App_CF_grat_0203
Nb_App_CF_pay_0203
Nb_J_CF_tot_0203
Nb_J_CF_pay_0203
mtnderpai
delmoy
nbrec
recmoy
sumrec
dat_activ
ancien
Conso_CF_0902
Conso_CF_1002
Conso_CF_1102
Conso_CF_1202
Conso_MOC_0902
Conso_MOC_1002
Conso_MOC_1102
Conso_MOC_1202
Conso_SMS_0902
Conso_SMS_1002
Conso_SMS_1102
Conso_SMS_1202
Conso_Totale_0902
Conso_Totale_1002
Conso_Totale_1102
Conso_Totale_1202

-4951220
-1802716
-3148504
-70637.7
-31017.6
-39620.1
-13625.3
-10348.5
-523022
-33932.3
-5979.4
-367.0
-174513
-173831
-681.8
-14241.5
-14223.1
-18.3843
-4818.4
-4.5922
7218.3
20237.1
-12257.9
4211.9
-203793
-51534.7
1712.6
-1716.7
2597.4
854.0
1577.2
-575057
-664834
-819667
-1462258
-11242.5
-22989.9
-111606
-214342
-588016
-685227
-930419
-1675023

123320
72048.0
79883.4
1921.9
1134.5
1144.3
356.9
271.8
17752.4
1163.6
254.1
326.3
37453.1
37451.3
418.1
1649.5
1649.5
10.4212
287.0
5.7945
576.5
1650.4
283.8
435.2
5231.0
22858.2
751.9
984.7
1866.0
1449.4
2517.1
120392
122656
124333
104927
38677.9
48488.5
45321.8
39932.7
130353
138017
137091
118105

117

1612.0
626.1
1553.4
1350.8
747.5
1198.8
1457.7
1449.8
868.0
850.3
553.9
1.2647
21.7111
21.5439
2.6598
74.5407
74.3476
3.1121
281.9
0.6281
156.8
150.4
1865.2
93.6738
1517.8
5.0830
5.1876
3.0397
1.9376
0.3472
0.3926
22.8154
29.3797
43.4615
194.2
0.0845
0.2248
6.0641
28.8110
20.3487
24.6492
46.0616
201.1

<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
0.2608
<.0001
<.0001
0.1029
<.0001
<.0001
0.0777
<.0001
0.4281
<.0001
<.0001
<.0001
<.0001
<.0001
0.0242
0.0227
0.0812
0.1639
0.5557
0.5309
<.0001
<.0001
<.0001
<.0001
0.7713
0.6354
0.0138
<.0001
<.0001
<.0001
<.0001
<.0001

Annexes

Dur_CF_grat_0902
Dur_CF_grat_1002
Dur_CF_grat_1102
Dur_CF_pay_0902
Dur_CF_pay_1002
Dur_CF_pay_1102
Dur_CF_tot_0902
Dur_CF_tot_1002
Dur_CF_tot_1102
Dur_MOC_grat_0902
Dur_MOC_grat_1002
Dur_MOC_grat_1102
Dur_MOC_grat_1202
Dur_MOC_pay_0902
Dur_MOC_pay_1002
Dur_MOC_pay_1102
Dur_MOC_pay_1202
Dur_MOC_tot_0902
Dur_MOC_tot_1002
Dur_MOC_tot_1102
Dur_MOC_tot_1202
Dur_Tot_0902
Dur_Tot_1002
Dur_Tot_1102
Dur_Tot_1202
Dur_Tot_HRR_0902
Dur_Tot_HRR_1002
Dur_Tot_HRR_1102
Dur_Tot_HRR_1202
Nb_App_CF_grat_0902
Nb_App_CF_grat_1002
Nb_App_CF_grat_1102
Nb_App_CF_pay_0902
Nb_App_CF_pay_1002
Nb_App_CF_pay_1102
Nb_App_CF_tot_0902
Nb_App_CF_tot_1002
Nb_App_CF_tot_1102
Nb_App_MOC_grat_0902
Nb_App_MOC_grat_1002
Nb_App_MOC_grat_1102
Nb_App_MOC_grat_1202
Nb_App_MOC_pay_0902

51760.8
31612.5
-3419.5
-3157.1
3547.1
1618.9
48603.6
35159.6
-1800.6
-17280.7
-191963
-474113
-804407
-690485
-866177
-1031128
-1702667
-707766
-1058141
-1505241
-2507074
-659162
-1022981
-1507042
-2567611
-711113
-1054740
-1503703
-2505908
3201.1
2676.3
232.4
11.3097
38.6254
3.1925
3212.4
2714.9
235.5
-2501.1
-5091.4
-9179.6
-14940.7
-6156.3

39423.6
32887.6
25914.8
1587.1
2622.4
2232.3
39466.9
32991.8
26031.1
96631.7
119670
103672
102810
153201
146586
151290
131248
202700
214783
208286
192388
215758
225613
217496
203339
202704
214864
208292
192477
1614.9
1632.9
1339.5
8.6731
26.5130
15.9242
1614.9
1634.6
1339.7
1427.4
1662.0
1491.9
1543.0
1680.5

118

1.7238
0.9240
0.0174
3.9569
1.8296
0.5259
1.5166
1.1357
0.00478
0.0320
2.5731
20.9142
61.2178
20.3134
34.9161
46.4518
168.3
12.1920
24.2710
52.2266
169.8
9.3336
20.5592
48.0120
159.4
12.3070
24.0970
52.1171
169.5
3.9291
2.6861
0.0301
1.7004
2.1224
0.0402
3.9568
2.7586
0.0309
3.0702
9.3846
37.8576
93.7592
13.4211

0.1892
0.3364
0.8950
0.0467
0.1762
0.4683
0.2181
0.2866
0.9449
0.8581
0.1087
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
0.0005
<.0001
<.0001
<.0001
0.0022
<.0001
<.0001
<.0001
0.0005
<.0001
<.0001
<.0001
0.0475
0.1012
0.8623
0.1922
0.1452
0.8411
0.0467
0.0967
0.8604
0.0797
0.0022
<.0001
<.0001
0.0002

Annexes

Nb_App_MOC_pay_1002
Nb_App_MOC_pay_1102
Nb_App_MOC_pay_1202
Nb_App_MOC_tot_0902
Nb_App_MOC_tot_1002
Nb_App_MOC_tot_1102
Nb_App_MOC_tot_1202
Nb_App_SMS_0902
Nb_App_SMS_1002
Nb_App_SMS_1102
Nb_App_SMS_1202
Nb_App_Tot_0902
Nb_App_Tot_1002
Nb_App_Tot_1102
Nb_App_Tot_1202
Nb_App_Tot_HRR_0902
Nb_App_Tot_HRR_1002
Nb_App_Tot_HRR_1102
Nb_App_Tot_HRR_1202
Nb_J_CF_pay_0902
Nb_J_CF_pay_1002
Nb_J_CF_pay_1102
Nb_J_CF_tot_0902
Nb_J_CF_tot_1002
Nb_J_CF_tot_1102
Nb_J_MOC_pay_0902
Nb_J_MOC_pay_1002
Nb_J_MOC_pay_1102
Nb_J_MOC_pay_1202
Nb_J_MOC_tot_0902
Nb_J_MOC_tot_1002
Nb_J_MOC_tot_1102
Nb_J_MOC_tot_1202
Nb_J_SMS_0902
Nb_J_SMS_1002
Nb_J_SMS_1102
Nb_J_SMS_1202

-9352.4
-12145.2
-22683.1
-8657.4
-14443.8
-21324.8
-37623.7
-1108.2
-1465.6
-7167.7
-13803.2
-6553.2
-13194.4
-28257.0
-55209.0
-9765.2
-15880.7
-28494.5
-51436.3
8.2460
12.2808
2.6226
469.4
186.6
-123.4
-1151.5
-2263.8
-3125.6
-5823.5
-1003.5
-2354.5
-3825.7
-6981.4
-493.5
-777.6
-1770.6
-2947.5

1769.6
1748.9
1555.3
2627.3
2880.0
2733.4
2603.8
2581.8
3222.3
3005.5
2630.8
4955.0
5868.9
5273.5
4928.2
4124.8
5094.4
4610.4
4224.0
6.1328
12.4448
9.9619
338.0
358.8
339.6
347.6
359.9
333.2
328.7
435.1
441.4
409.4
406.1
336.3
358.4
329.6
332.1

119

27.9312
48.2261
212.7
10.8584
25.1515
60.8634
208.8
0.1842
0.2069
5.6874
27.5295
1.7491
5.0543
28.7116
125.5
5.6048
9.7175
38.1989
148.3
1.8079
0.9738
0.0693
1.9282
0.2704
0.1321
10.9746
39.5754
88.0156
313.9
5.3180
28.4550
87.3154
295.5
2.1527
4.7077
28.8670
78.7865

<.0001
<.0001
<.0001
0.0010
<.0001
<.0001
<.0001
0.6677
0.6492
0.0171
<.0001
0.1860
0.0246
<.0001
<.0001
0.0179
0.0018
<.0001
<.0001
0.1788
0.3237
0.7923
0.1650
0.6031
0.7163
0.0009
<.0001
<.0001
<.0001
0.0211
<.0001
<.0001
<.0001
0.1423
0.0300
<.0001
<.0001

Annexes

2 Annexe 2 : Inclusion des variables dans le modle


Variable
Conso_Totale_0203
nbrec
Conso_Totale_1102
Conso_Totale_0902
Nb_J_MOC_tot_0203
Conso_Totale_1202
sumrec
Conso_Totale_1002
mtnderpai
Conso_MOC_0103
Nb_App_MOC_tot_0203
Nb_J_MOC_pay_1202
Conso_SMS_0203
Nb_J_CF_tot_1102
Nb_J_SMS_0203
recmoy
Nb_App_MOC_grat_0203
Nb_J_MOC_pay_0203
Nb_App_Tot_1202
Dur_MOC_pay_1202
Nb_App_MOC_grat_1202
Nb_J_MOC_tot_1102
Nb_App_MOC_tot_1002
Nb_J_MOC_pay_0902
Nb_J_CF_tot_0203
Nb_J_SMS_1002
Nb_App_Tot_HRR_0902
Nb_J_SMS_0103
ancien
Nb_J_MOC_pay_0103
Dur_CF_pay_0902
Nb_J_CF_pay_0902
Nb_J_MOC_tot_0103
Nb_App_MOC_pay_1102
Nb_App_MOC_tot_1202
Dur_Tot_HRR_1102
Nb_App_MOC_pay_0902
Dur_Tot_1102

Chi- Pr >ChiDF
Square Square
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

2136.0
2963.1
3616.1
3981.1
4236.0
4417.0
4623.3
4945.6
5259.2
5451.4
5535.3
5604.9
5665.2
5730.4
5759.4
5783.4
5796.6
5818.1
5830.0
5843.5
5860.4
5868.8
5878.1
5885.0
5891.6
5896.6
5906.5
5914.3
5920.3
5926.4
5930.8
5934.9
5939.3
5943.6
5947.5
5950.9
5953.2
5955.2

120

<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001

ChiPr ChiSquare
Square
Increment Increment
2136.0
827.1
653.0
364.9
254.9
181.0
206.3
322.3
313.6
192.3
83.8412
69.6506
60.2213
65.2810
28.9356
24.0348
13.2452
21.4972
11.8133
13.5182
16.8904
8.4137
9.3349
6.9248
6.5632
4.9702
9.9684
7.7256
6.0534
6.0331
4.4182
4.1623
4.3361
4.3137
3.9610
3.3254
2.3165
2.0447

<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
0.0003
<.0001
0.0006
0.0002
<.0001
0.0037
0.0022
0.0085
0.0104
0.0258
0.0016
0.0054
0.0139
0.0140
0.0356
0.0413
0.0373
0.0378
0.0466
0.0682
0.1280
0.1527

Annexes

Dur_CF_tot_0902
Dur_CF_grat_1002
Dur_CF_tot_0203
Nb_App_Tot_0902
Nb_App_CF_tot_1002
Dur_CF_grat_0103
Nb_App_CF_pay_0103
Nb_J_CF_pay_0203
Nb_App_CF_pay_1102
Dur_CF_pay_0203
Dur_MOC_pay_0103
Dur_CF_grat_1102
Nb_App_CF_tot_1202
Dur_CF_tot_1202
Nb_App_MOC_tot_0103
Nb_App_Tot_HRR_1202
Nb_J_CF_pay_0103
Nb_App_CF_pay_0902
Conso_CF_0902
Conso_SMS_0902
Nb_App_MOC_grat_0902
Dur_MOC_tot_0103
Dur_Tot_0902
Nb_J_MOC_tot_1202
Nb_J_MOC_pay_1002
Nb_J_CF_pay_1102
Dur_MOC_grat_1102
Conso_MOC_1102
Nb_App_SMS_1102
Dur_CF_pay_0103
Nb_J_CF_pay_1202
Dur_CF_pay_1202
Nb_J_MOC_tot_0902
Nb_J_CF_tot_0902
Nb_J_SMS_0902
Nb_J_SMS_1202
Nb_J_SMS_1102
Conso_MOC_1002
Dur_MOC_grat_0902
Dur_Tot_HRR_1202
Nb_J_CF_tot_1002
Nb_App_CF_pay_0203
Conso_CF_0203

39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81

5966.3
5972.6
5975.8
5978.5
5981.9
5984.5
5986.1
5990.8
5992.9
5995.3
5997.0
5998.5
5999.8
6002.9
6004.1
6005.3
6006.5
6007.5
6009.1
6010.2
6011.4
6012.3
6013.4
6014.4
6015.2
6016.0
6016.7
6017.6
6018.2
6018.8
6019.4
6021.1
6021.6
6022.2
6022.7
6023.5
6024.1
6024.6
6025.1
6025.5
6026.0
6026.3
6026.7

121

<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001

11.0554
6.3015
3.1850
2.7256
3.4351
2.5930
1.5993
4.6327
2.1473
2.3783
1.7312
1.5178
1.2703
3.0709
1.2697
1.1405
1.2019
0.9941
1.6290
1.0998
1.1788
0.9423
1.1160
0.9525
0.7949
0.7905
0.7257
0.8750
0.5772
0.6616
0.5775
1.7076
0.4582
0.6445
0.5315
0.7468
0.5752
0.5513
0.4552
0.4676
0.4371
0.3399
0.4264

0.0009
0.0121
0.0743
0.0988
0.0638
0.1073
0.2060
0.0314
0.1428
0.1230
0.1883
0.2180
0.2597
0.0797
0.2598
0.2855
0.2729
0.3187
0.2018
0.2943
0.2776
0.3317
0.2908
0.3291
0.3726
0.3740
0.3943
0.3496
0.4474
0.4160
0.4473
0.1913
0.4985
0.4221
0.4660
0.3875
0.4482
0.4578
0.4999
0.4941
0.5085
0.5599
0.5138

Annexes

Nb_App_CF_pay_1002
Dur_MOC_pay_1002
Nb_J_CF_pay_1002
Nb_App_SMS_0103
Dur_MOC_grat_1202
dat_activ
Nb_App_MOC_grat_1002
Dur_MOC_grat_1002
Conso_CF_1002
Dur_Tot_1002
Nb_App_Tot_HRR_1002
Nb_App_Tot_0203
Nb_App_CF_grat_1102
Nb_J_MOC_pay_1102
Conso_CF_1202
delmoy
Nb_App_Tot_0103
Nb_J_CF_tot_0103
Nb_J_MOC_tot_1002
Dur_MOC_grat_0203
Dur_MOC_pay_1102
Conso_SMS_1102
Nb_App_MOC_grat_0103
Nb_App_Tot_HRR_1102
Nb_J_CF_tot_1202
Conso_SMS_0103
Nb_App_CF_tot_0203
Nb_App_Tot_HRR_0203
Conso_Totale_0103
Conso_MOC_1202
Dur_Tot_HRR_0203
Dur_MOC_tot_0203

82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113

6027.0
6027.3
6027.6
6027.8
6028.0
6028.1
6028.3
6028.4
6028.5
6033.3
6033.5
6033.5
6033.6
6033.7
6033.8
6033.8
6033.8
6033.9
6033.9
6034.0
6034.0
6037.2
6037.2
6037.2
6037.2
6037.2
6037.3
6038.2
6038.2
6038.2
6038.2
6038.4

122

<.0001 0.2841
<.0001 0.2779
<.0001 0.2763
<.0001 0.2003
<.0001 0.1686
<.0001 0.1761
<.0001 0.1259
<.0001 0.1057
<.0001 0.0967
<.0001 4.8902
<.0001 0.1039
<.0001 0.0878
<.0001 0.0854
<.0001 0.0758
<.0001 0.0613
<.0001 0.0537
<.0001 0.0346
<.0001 0.0695
<.0001 0.0310
<.0001 0.0255
<.0001 0.0164
<.0001 3.1964
<.0001 0.0248
<.0001 0.0164
<.0001 0.0108
<.0001 0.00948
<.0001 0.0147
<.0001 0.9605
<.0001 0.00376
<.0001 0.000641
<.0001 0.000011
<.0001 0.1528

0.5941
0.5981
0.5992
0.6545
0.6814
0.6748
0.7227
0.7451
0.7558
0.0270
0.7472
0.7670
0.7701
0.7830
0.8045
0.8167
0.8524
0.7920
0.8603
0.8731
0.8980
0.0738
0.8749
0.8981
0.9174
0.9224
0.9035
0.3271
0.9511
0.9798
0.9973
0.6959

Rfrences

Rfrences
Abdi H., Les rseaux de neurones, Presses Universitaires de Grenoble, Sciences et
technologies de la connaissance, ISBN : 2-7061-0554-2, 1999.
Agrawal R., Rajagopalan S., Srikant R., Xu Y., Mining newsgroups using networks arising
from social behavior, Proceedings of the twelfth international conference on World
Wide Web, ISBN:1-58113-680-3, pp. 529-535, 2003.
Alain J.M. (2001), Prsentation du rseau GSM, http://www.lirmm.fr/~ajm/Cours/0102/DESS_TNI/TER9/prercqu/fonction.htm, LIRMM, 2001.
Ale J.M., Rossi G.H., An approach to discovering temporal association rules, Proceedings of
the 2000 ACM symposium on Applied computing, ISBN:1581132409, pp. 294-300,
2000.
Allison P.D., Survival Analysis Using the SAS System, Cary, SAS Institute, 1995.
Anderson C., Domingos P., Weld D., Relational Markov models and their application to
adaptive Web navigation, In Proceedings of the 8th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, pp. 143-152, 2002.
Archaux C., Khenchaf A., Modlisation de la valeur client en tlphonie mobile prpaye,
Sciences of Electronic Technologies of Information and Telecommunications (SETIT),
Sousse, Tunisia, 15-20 March 2004.
Archaux C., Khenchaf A., Vers un Systme d'Information Stratgique en Tlphonie Mobile
Prpaye, VSST'2004, Veille Stratgique Scientifique & Technologique, Toulouse,
France, 25-29 October 2004.
Archaux C., Laayana H., Martin A., Khenchaf A., An SVM based Churn Detector in Prepaid
Mobile Telephony, International Conference on Information & Communication
Technologies: from Theory to Applications (ICTTA), Damascus, Syria, 19-23 April
2004.
Archaux C., Martin A., Khenchaf A., Dtection par SVM - Application la dtection de
churn en tlphonie mobile prpaye, Extraction et Gestion des Connaissances (EGC),
in Revue des Nouvelles Technologies de l'Information, Vol 2, pp 597, Clermont
Ferrand, France, 20-23 Janvier 2004.
Archaux C., Pellen F., Hoeltzener B., Khenchaf A., Revue des Nouvelles Technologies de
l'Information, Systmes dInformation pour lAide la Dcision : Applications en
Tlphonie Mobile et en Donnes Radar ( paratre)
Baesens, B., Viaene, S., Van den Poel, D., Vanthienen, J., Dedene, G., Bayesian Neural
Network Learning for Repeat Purchase Modelling in Direct Marketing, European
Journal of Operational Research, 138 (1), pp.191-211, 2002.
Bauer E., Kohavi R., An Empirical Comparison of Voting Classification Algorithms:
Bagging, Boosting, and Variants, Journal of Machine Learning Vol 36, Nos. 1/2, pp.
105-139, 1999.
Berger P.D., Nasr N.I., Customer lifetime value: marketing models and applications, Journal
of Interactive Marketing, 12(1), pp. 1730, 1998
Bhattacharyya S., Evolutionary algorithms in data mining: Multi-objective performance
modeling for direct marketing, Proceedings of the 6th ACM SIGKDD International
Conference on Knowledge Discovery & Data Mining, pp. 465-473, 2000.
123

Rfrences

Biganzoli E., Boracchi P., Marubini E., A general framework for neural network models on
censored survival data, Neural Networks Archive, vol 15, Issue 2, pp.209-218, 2002
Bishop C.M., Neural Networks for Pattern Recognition, Oxford University Press, 1995.
Blattberg R.C., Deighton J., Manage marketing by the customer equity test, Harvard Business
Review, JulAug, pp. 136144, 1996
Bolton R. J., Hand D. J., Statistical Fraud Detection: A Review (with discussion), Statistical
Science, 17(3), pp. 235-255, 2002.
Bolton R.N., A Dynamic Model of the Duration of the Customers Relationship with a
Continuous Service Provider : The Role of Satisfaction, Marketing Science 17 (1), pp.
45-65, 1998.
Bounsaythip C., Rinta-Runsala E., Overview of Data Mining for Customer Profiling,
Technical Report, TTE1-2001-18, VTT Information Technology, Information Systems,
2001.
Bouroche J.M., Saporta G., L'Analyse des donnes , Presses Universitaires de France, 2002.
Bouygues Telecom, Guide des Tarifs du 5 fvrier 2004, Documentation grand public, 2004.
Breiman L., Bagging predictors, Machine Learning, v.24 n.2, pp.123-140, 1996.
Breiman L., Bagging predictors, Technical report n421, University of California,
Department of Statistics, September 1994.
Briand H., Guillet F., Extraction des connaissances et apprentissage, Herms, Vol. 1, N1-2,
2001.
Brown S., CRM Customer Relationship Management : La Gestion de la relation client,
Village Mondial, ISBN : 2744060798, 2003.
Buckinx W., Van Den Poel D., Customer Base Analysis: Partial Defection of BehaviorallyLoyal Clients in a Non-Contractual FMCG Retail Setting, European Journal of
Operational Research, 2004.
Burges C., A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and
Knowledge Discovery, Vol. 2(2), pp. 121-167, 1998.
Calciu M., Francis F., La valeur client (life time value) : Synthse des modles et propositions
d'extension, actes du 18me congrs de l'association franaise du marketing, lille, 2, pp.
205-230, 2002.
Calciu M., Salerno F., Customer value modelling: synthesis and extension proposals, journal
of targeting, measurement and analysis for marketing, vol. 11, iss. 2, pp. 124-147,
2002.
Carbonell J., Frawley W., Parsaye K., Quinlan J.R., Siegel M., Uthurusamy R., KDD-89:
IJCAI-89 Workshop on Knowledge Discovery in Databases, 1989.
Cargnello-Charles E., Gestion de la rentabilit des clients bancaires, Dcisions Marketing,
n16, pp. 25-37, 1999.
Chauchat J-H., Rakotomalala R., Robert D., Sampling strategies for targeting rare groups
from a bank customer databases, in Proceedings of the 4th European Conference on
Knoweldge Discovery in Databases, PKDD'2000, pp. 181-190, 2000.

124

Rfrences

Chiang D.A., Wang Y.F., Lee S.L., Lin C.J., Goal-oriented sequential pattern for network
banking churn analysis, Expert Systems with Applications, Elsevier Science, pp. 293302, 2003.
Cibois P., L'Analyse factorielle, ISBN : 2130508839, Presses Universitaires de France, Que
sais-je, 2000.
Clech J., Contribution Mthodologique la Fouille de Donnes Complexes, Thse de
Doctorat en Informatique, Universit Lumire Lyon2, 2004.
Collobert R., Support Vector Machines Thorie et Application, Rapport de Stage de lIDIAP,
2000.
Cornujols A., Miclet L., Kodratoff Y., Apprentissage artificiel : Concepts et algorithmes,
ISBN: 2-212-11020-0, Eyrolles, 2002.
Courtheoux R., Customer retention: how much to invest. Research and the Customer
Lifecycle, New York, 1995
Cox D. R., Oakes, D., Analysis of Survival Data, Chapman and Hall, 1984.
Cox D.R., Regression models and life tables, Journal of the Royal Statistical Society, B34, pp.
187- 220 , 1972.
Cri D., Active versus inactive customer or from client to ex-client. Concepts, definitions and
measures, Les cahiers de la recherche, 2001.
Cri D., Benavent C., La dynamique de clientle : segmentation et valeur actualise du client,
Working Paper EREM, 16p, 1994, en coll. avec C. Bnavent et Congrs National des
IAE, Nantes, 1998.
Cri D., Intrt des modles de survie dans la gestion de la clientle, Journes rgionales de
lAssociation Franaise du Marketing, 1994.
Cri D., Salerno F., Modlisation de la dtection des clients dormants, 18e Congrs
international de l'Association Franaise du Marketing, pp. 591-609, 2002.
Cri D., Satisfaction, valeur des clientles et rentabilit, habilitation diriger des recherches,
iae/universit de lille 1, 2002.
Daskalaki S., Kopanas I., Goudara M., Avouris N., Data mining for decision support on
customer insolvency in telecommunications business, European Journal of Operational
Research, vol. 145, n 2, pp. 239-255, 2003.
Datta P., Drew J.H., Betz A., Mani D. R., Howard J., Estimating business targets,
Proceedings of the seventh ACM SIGKDD international conference on Knowledge
discovery and data mining, pp.420-425, 2001.
Datta P., Masand B., Mani D. R. , Li B., Automated Cellular Modeling and Prediction on a
Large Scale, Artificial Intelligence Review, vol.14 n6, pp. 485-502, 2000.
Dedman R. D., Building customer loyalty and minimising churn. A guide to effective customer
care and billing systems in telecoms services, FT Telecoms & Media Publishing, ISBN
: 1853345121, 1996.
Domingos P., Richardson M., Mining the network value of customers, Proceedings of the
seventh ACM SIGKDD international conference on Knowledge discovery and data
mining, pp.57-66, 2001.

125

Rfrences

Drew J.H., Mani D.R., Betz A.L., Datta P., Targeting Customers With Statistical and DataMining Techniques, Journal of Service Research 3 (3), pp. 205-219, 2001.
Eleuteri A., Tagliaferri R., Milano L., De Placido S., De Laurentiis M., A novel neural
network-based survival analysis model, Source Neural Networks archive, Volume 16,
Issue 5-6, ISSN:08936080, IJCNN'03, pp. 855-864, 2003.
Escofier B., Pags J., Analyses factorielles simples et multiples : Objectifs, mthodes et
interprtation, 3e dition, Dunod, ISBN : 2100041274, 1998.
Falissard B., Comprendre et utiliser les statistiques dans les sciences de la vie, Masson, pp.
279-307, 1996.
Fayyad U., Piatetsky-Shapiro G., Smyth P., The KDD process for extracting useful knowledge
from volumes of data, Communications of the ACM, 39(11), pp. 27-34, 1996.
Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge
Discovery and Data Mining, AAAI Press, 1996.
Flint D. J., Woodruff R.B., Gardial S.F., Customer Value Change in Industrial Marketing
Relationships: A Call for New Strategies and Research, Industrial Marketing
Management, N 26, pp. 163-175, 1997.
Gans, Joshua S., Network competition and consumer churn, Information Economics and
Policy, Elsevier, vol. 12, n2, pp. 97-109, 2000.
Goffinet J., Machines vecteur de support pour la dtection et le suivi de personnes sur des
squences vido, rapport de stage, 2001.
Gourieroux C., Monfort A., Sries temporelles et modles dynamiques, ISBN : 2717828710,
Economica, 1995.
Guermeur Y. et Paugam-Moisy H., Thorie de lapprentissage de Vapnik et SVM, Support
Vector Machines, Apprentissage automatique, Hermes Sciences Publications, 1999.
Guillaume S., Traitement des donnes volumineuses, mesures et algorithmes d'extraction de
rgles d'association et de rgles ordinales, Thse de doctorat, Universit de Nantes,
2000.
Gutschoven B., Verlinde P., Multi-modal Identity Verification using Support Vector Machines
(SVM), International Conference on Information Fusion, Paris, France, 10-13 juillet
2000
Hand D.J., Mannila H.,, Smyth P., Principles of Data Mining, MIT Press, 2001.
Helsen K., Schmittlein D.C., Analyzing Duration Times in Marketing : Evidence for the
Effectiveness of Hazard Rate Models, Marketing Science, Vol. 12, No. 4, pp. 395-414 ,
1993.
Hill C., Com-Nougue C., Kramar A., Moreau T., O'Quigley J., Senoussi R., Chastang C.,
Analyse statistique des donnes de survie, INSERM / Flammarion, 1990.
Hoeltzener B., Archaux C., Khenchaf A., Human expertise and its role in complex systems,
First Global Conference in Artificial Intelligence, 2003.
Hollmn J., User Profiling and Classification for Fraud Detection, Thse de doctorat,
University of Helsinki, 2000.
Hwang H.S., Jung T.S., Suh E.H., An LTV model and customer segmentation based on
customer value, Expert systems with applications, Vol. 26, pp.181-188, 2004.

126

Rfrences

Jackson D.R., Strategic application of customer lifetime value in the direct marketing
environment, Journal of Targeting Measurement and Analysis for Marketing, vol.3,
n1, pp. 917, 1994
Jambu M., Introduction au data mining: Analyse intelligente des donnes, Eyrolles, ISBN :
2212052553, 2000.
Jambu M., Mthodes de base de l'analyse des donnes, Collection technique et scientifique
des telecommunications, Eyrolles, ISBN : 2212052561, 1999.
Kalbfleisch J.D., Prentice R.L., The Statistical Analysis of Failure Time Data, John Wiley &
Sons; 2nd edition, ISBN: 047136357X, 2002.
Kaplan E.L., Meier R., Nonparametric Estimation From Incomplete Observations, Journal of
the American Statistical Association, pp. 457-481, 1958.
Kim J., Suh E., Hwang H., A Model for Evaluating the Effectiveness of CRM using the
Balanced Scorecard, Journal of Interactive Marketing, 17(2), pp. 5-19, 2003.
Kimball R., Ross M., Entrepts de donnes. Guide pratique de modlisation dimensionnelle,
2me dition, ISBN : 2711748111, Vuibert, 2003.
Kxen, Kxen Analytic Framework, Guide utilisateur V1.0, 2004.
Laayana H., Dtection par SVM Application la dtection de roches pour le recalage
dimages sonar, rapport de DESA, juillet 2003.
Lawless J.F., Statistical Models and Methods for Lifetime Data, John Wiley & Sons; 2nd
edition, ISBN: 0471372153, 2002.
Le Goff J.M., Modlisation des vnements du parcours de vie : une introduction, tutorial
PAVIE, Centre lmanique d'tude des parcours et modes de vie, 2003.
Lee Y., Crites R., Combining value and probability models in database mining, Brevet WO
01/29692 A2, World Intellectual Property Organization, 2001.
Leeflang P.S.H., Wittink D.R., Building models for marketing decisions: past, present and
future, Research Report00F20, University of Groningen, Research Institute SOM
(Systems, Organisations and Management), 2000.
Lefbure G., Venturi R., Gestion de la relation client, Panorama des produits et conduite de
projets, Eyrolles, 2000.
Liquet J.C., Cri D., Mesurer la dure de vie d'un client : le cas des abonnements presse,
Dcisions Marketing, n13, pp. 75-84, 1998.
Madden G., Savage S. J., Coble-Neal G., Subscriber churn in the Australian ISP market,
Information Economics and Policy, Elsevier, vol. 11(2), pp. 195-207, 1999.
Mani D.R., Drew J., Betz A., Datta P., Statistics and data mining techniques for lifetime value
modeling, Proceedings of the fifth ACM SIGKDD international conference on
Knowledge discovery and data mining, pp. 94-103, 1999.
Mlard G., Mthodes de prvision court terme, ISBN : 2729890548, Ellipses,1991.
Mittal B., Lasser W.M., Why do customers switch? The dynamics of satisfaction versus
loyalty, Journal of Services Marketing 12 (3), pp. 177-194, 1998.
Moisand D., CRM : Gestion de la relation client, Hermes Science Publications, ISBN :
2746205742,2002.

127

Rfrences

Monfort A., Gourieroux C., Sries Temporelles Et Modles Dynamiques, Isbn : 2717828710,
Economica, 1999.
Mozer M. C., Wolniewicz R., Grimes D. B., Johnson E., Kaushansky H., Predicting
Subscriber Dissatisfaction and Improving Retention in the Wireless
Telecommunications Industry, IEEE Transactions on neural networks , pp. 690-696,
2000.
Mozer M.C., Dodier R., Colagrosso M.D., Guerra-Salcedo C., and Wolniewicz R., Prodding
the ROC Curve: Constrained Optimization of Classifier Performance, Advances in
Neural Information Processing Systems 14, MIT Press, 2002.
Nath S.V., Behara R.S., Customer Churn Analysis in the Wireless Industry: A Data Mining
Approach, Proceedings of the 34th meeting of the Decision Sciences Institute, 2003.
Neal R. M., Survival Analysis Using a Bayesian Neural Network, Joint Statistical Meetings
report, 2001.
Njike-Fotzo H., Gallinari P., Delbeque T., Un algorithme de boosting pour des modles
d'optimisation de campagne de churn, 13e Congrs Francophone AFRIF-AFIA de
Reconnaissance des Formes et Intelligence Artificielle, 2002.
Palen L., Salzman M., Youngs E., Going wireless: behavior & practice of new mobile phone
users, Proceedings of the 2000 ACM conference on Computer supported cooperative
work, ISBN:1581132220, pp. 201-210, 2000.
Pearson S., Building brands directly: creating business value from customer relationships,
London: MacMillan Business, 1996.
Pednault E., Abe N., ZadroznyB., Wang H., Fan W., and Apte C., Sequential cost-sensitive
decision making with reinforcement learning, In Proceedings of the Eighth ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM
Press, 2002.
Pfeifer P.E., Carraway R.L., Modeling customer relationships as Markov Chains, Journal of
Interactive Marketing, vol.14,n2, pp. 43-55, 2000.
Piatetsky-Shapiro G., Masand B., Estimating campaign benefits and modeling lift,
Proceedings of the fifth ACM SIGKDD international conference on Knowledge
discovery and data mining, pp. 185-193, 1999.
Redman T., Data quality for the information age, Artech House Publishers, ISBN
0890068836, 1996.
Richardson M., Domingos P., Mining knowledge-sharing sites for viral marketing,
Proceedings of the eighth ACM SIGKDD international conference on Knowledge
discovery and data mining, 2002.
Rifkin R., Moreno P., Nicpanski H., Alvira M., Paris J., King V., Nadermann M., SvmFu
Documentation, http://five-percent-nation.mit.edu/SvmFu/, 2002.
Ripley B.D., Ripley R.M., Neural Networks as statistical methods in survival analysis. In R.
Dybowsky, & V. Gant (Eds.), Artificial neural networks: Prospects for medicine,
Landes Biosciences, 1998.
Rosenblatt F., The Perceptron: a Perceiving and Recognizing Automaton, Report 85-460-1,
Project PARA, Cornell Aeronautical Laboratory, Ithaca, New York, 1957.

128

Rfrences

Rosset S., Murad U., Neumann E., Idan Y., Pinkas G., Discovery of fraud rules for
telecommunications-challenges and solutions, Proceedings ACM SIGKDD, 1999.
Rosset S., Neumann E., Eick U., Vatnik N., Idan Y., Customer lifetime value modeling and its
use for customer retention planning, Proceedings of the eighth ACM SIGKDD, pp.
332-340, 2002.
Rosset S., Neumann E., Eick U., Vatnik N., Lifetime Value Models for Decision Support,
Data Mining and Knowledge Discovery Journal, Vol. 7, pp. 321-339, 2003.
Rumelhart D. E., Mc Clelland J.L., Parallel Distributed Processing. Explorations in the
Microstructure of Cognition, ISBN: 0-262-68053-X. 1986.
Rygielski C., Wang J.C., Yen D.C., Data mining techniques for customer relationship
management, Technology in Society 24, pp. 483-502, 2002.
Saporta G., Probabilits, analyse des donnes et statistique , Editions Technip, 1990.
SAS Institute Inc., http://www.sas.com/industry/telco, 2004.
SAS Institute Inc., SAS OnlineDoc, Version 8, SAS institute Inc., 2000.
SAS Institute, Neural Network Node: Reference, SAS Enterprise Miner Documentation, 1998.
Schapire R.E., Freund Y., Bartlett P. Lee W.S., Boosting the margin: A new explanation for
the effectiveness of voting methods, The Annals of Statistics, 26(5), pp. 1651-1686,
1998.
Schapire R.E., The boosting approach to machine learning: An overview, In MSRI Workshop
on Nonlinear Estimation and Classification, 2002.
Schapire R.E., The strength of weak learnability, Machine Learning, Vol 5, n2, pp. 197227,
1990.
Schmitt F., La segmentation, bote de Pandore de la connaissance clients, Point de vue :
Segmentation client, Accenture, 2002.
Scholkopf B., Statistical learning and kernel methods, Rapport Technique Microsoft
Research, MSR-TR-2000-23, 2000.
Schlkopf B., Sung K., Burges C., GirosiF., Niyogi P., Poggio T., VapnikV., Comparing
support vector machines with Gaussian kernels to radial basis function classifiers.
IEEE Transactions on Signal Processing 45(11), pp. 2758-2765, 1997.
Shaw M.J., Subramaniam C., Tan G.W., Welge M.E., Knowledge management and data
mining for marketing, Decision Support Systems, vol. 31, n 1, pp. 127-137, May 2001.
Shawe-Taylor J., Howker K., Burge P., Detection of fraud in mobile telecommunications,
Information Security Technical Report, vol. 4, n 1, pp. 3-15, 1999.
Taniguchi M., Haft M., Hollmn J., Tresp V., Fraud detection in communications networks
using neural and probabilistic methods, ICCASP, Vol 2, pp. 1241-1244, 1998.
Van Den Poel D., Larivire B., Customer Attrition Analysis For Financial Services Using
Proportional Hazard Models, European Journal of Operational Research, Vol 157, n1,
pp. 196-217, 2004.
Vapnik V., Statistical Learning Theory, John Wiley & Sons, 1998.
Vapnik V., The Nature of Statistical Learning Theory, Statistics for Engineering and
Information Science, 2nd edition, Springer-Verlag, ISBN: 0387987800, 1999.

129

Rfrences

Veropoulos, K., Campbell, C., Cristianini, N., Controlling the Sensitivity of Support Vector
Machines, Proceedings of the International Joint Conference on Artificial Intelligence,
1999.
Viennet E., Apprentissage Statistique et Support Vector Machines, Reconnaissance Statistique
des Formes, cours du DEA Intelligence Artificielle de l'Institut Galile, dcembre 2000.
Wang R.Y., A framework for analysis of data quality research, IEEE Transactions on
Knowledge and Data Engineering, vol. 7, n 4, pp. 623-638, 1995.
Wei C.P., Chiu I.T., Turning telecommunications call details to churn prediction : a data
mining approach, Expert Systems with Applications, vol. 23, n 2, pp 103-112, 2002.
Zheng Z., Kohavi R., Mason L., Real world performance of association rule algorithms,
Proceedings of the seventh ACM SIGKDD international conference on Knowledge
discovery and data mining, ISBN 158113391X, pp. 401-406, 2001.
Zighed D.A., Rabaseda S., Rakotomalala R., Feschet F., Discretization methods in supervised
learning, in Encyclopedia of Computer Science and Technology, vol. 40, pp. 35-50,
Marcel Dekker inc., 1999.
Zighed D.A., Rakotomalala R., Extraction de connaissances partir de donnes (ECD), in
Techniques de l'Ingnieur, H 3 744, 2003.
Zighed D.A., Rakotomalala R., Graphes d'induction : apprentissage automatique et Data
mining, ISBN : 2746200724, Herms, 2000.

130

Titre :

Conception dun Systme dInformation ddi lEstimation de la Valeur des Clients en Tlphonie
Mobile Prpaye

Rsum :

Cette thse se situe dans le contexte de la tlphonie mobile prpaye. Elle vise fournir aux
dcisionnaires dun oprateur de tlphonie mobile (Bouygues Telecom) une estimation de la valeur de
leurs clients. Le processus dExtraction de Connaissances partir de Donnes est le fil conducteur des
travaux. Le plan suivi commence par la spcificit de la tlphonie mobile prpaye et le systme
dacquisition des donnes. Nous dtaillons ensuite une phase danalyse des donnes qui permet dobtenir
une segmentation homogne de lensemble des clients. Une tape de dtection de la fuite des clients la
concurrence est ensuite propose, suivie dun modle du comportement de rechargement qui permet
dtablir des estimations financires de leurs valeurs. Nous mettons enfin en perspective le systme
dinformation stratgique mergeant de la fusion des indicateurs fournis par les diffrents modles.

Mots-cls : Tlphonie Mobile Prpaye, Analyse de Survie, Lifetime Value, Dtection de Churn, Analyse de
Donnes Volumineuses, Extraction de Connaissances partir de Donnes, Apprentissage Supervis,
Rseaux de Neurones, Machines Support de Vecteurs, Systme dInformation Dcisionnel.
Title :

Design of an Information System dedicated to Customer Lifetime Value Estimation in Prepaid Mobile
Telephony

Abstract :

This thesis is achieved in the field of prepaid mobile telephony. Its objective is to provide the managers of
a mobile telephony operator (Bouygues Telecom) with an estimation of the customer value. The process of
Knowledge Discovery in Database is the main guideline of this dissertation. The plan begins with the
specificity of prepaid mobile telephony and the data acquisition system. We then detail a data analysis
which enables us to obtain a homogeneous segmentation of customers. A customer churn detection step is
then proposed, followed by a model of the customer crediting behavior, which enables us to draw up
financial estimates of their values. The fusion of the indicators provided by the various models finally give
rise to a strategic information system.

Keywords : Prepaid Mobile Telephony, Survival Analysis, Lifetime Value, Churn Detection, Large Database Analysis,
Knowledge Discovery in Database, Supervised Learning, Neural Networks, Support Vector Machines,
Decision Support System.

Discipline : Informatique

N ED 366 - 193

Você também pode gostar