Você está na página 1de 325

Laboratoire dInformatique Fondamentale de Lille

OP AC

Fouille de donnes (Data Mining) - Un tour dhorizon E-G. Talbi talbi@lifl.fr

Introduction au Data Mining


Dfinition du Data Mining Pourquoi le Data Mining ? Description du processus KDD (Knowledge Data Discovery) Applications Tches et Techniques du Data Mining

Quest-ce que le DM ?

Processus inductif, itratif et interactif de dcouverte dans les BD larges de modles de donnes valides, nouveaux, utiles et comprhensibles. Itratif : ncessite plusieurs passes Interactif : lutilisateur est dans la boucle du processus Valides : valables dans le futur Nouveaux : non prvisibles Utiles : permettent lutilisateur de prendre des dcisions Comprhensibles : prsentation simple

Notion dinduction [Peirce 1903]


Abduction : diagnostic mdical, ...

Toutes les voitures ont 4 roues La Peugeot 206 a 4 roues ==> La Peugeot 206 est une voiture

Dduction : Raisonnement qui conclut partir de prmisses et dhypothses la vrit dune proposition en usant des rgles dinfrence

Toutes les voitures ont 4 roues La Peugeot 206 est une voiture ==> La Peugeot 206 a 4 roues

Notion dinduction [Peirce 1903]


Induction : Gnralisation dune observation ou dun raisonnement tablis partir de cas singuliers. Utilise en Data mining (tirer une conclusion partir d une srie de faits, pas sre 100%)

La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190 a 4 roues ==> Toutes les voitures ont 4 roues

Motivations (1)

Explosion des donnes

Masse importante de donnes (millions de milliards dinstances) : elle double tous les 20 mois. BD trs larges - Very Large Databases (VLDB) Donnes multi-dimensionnelles (milliers dattributs) BD denses Inexploitables par les mthodes danalyse classiques Collecte de masses importantes de donnes (Gbytes/heure) Donnes satellitaires, gnomiques (micro-arrays, ), simulations scientifiques, etc. Besoin de traitement en temps rel de ces donnes

Motivations (2)

Amliorer la productivit

Forte pression due la concurrence du march Brivet du cycle de vie des produits Besoin de prendre des dcisions stratgiques efficaces Exploiter le vcu (donnes historiques) pour prdire le futur et anticiper le march individualisation des consommateurs (d-massification).

Croissance en puissance/cot des machines capables


de supporter de gros volumes de donnes dexcuter le processus intensif dexploration htrognit des supports de stockage

Motivations (3)
Storage Storage

F ile E dit
500 400 300 200 100 0

L oc ate

V iew

H elp

E D C B A

Network Traffic

Mount 431 7437 1950 79% / 02 631963 47358 Help 93% /us

Storage Storage

Storage Storage Storage Storage Storage Storage

Storage Storage

Storage Storage

Internet
Storage Storage

Masse importante de donnes supports htrognes

Le processus de dcouverte de connaissances

Data mining : coeur de KDD (Knowledge Data Discovery).


Data Data Mining Mining

Collecte, Collecte, Nettoyage, Nettoyage, Intgration Intgration

Data Warehouse

Prparation Prparation desdonnes donnes des

Donnes dapprentissage

Sources de donnes

Vrification& & Vrification Evaluation Evaluation

Modles, Patterns

Dmarche mthodologique (1)


Comprendre lapplication

Connaissances a priori, objectifs, etc. Choisir une mthode dchantillonnage

Slectionner un chantillon de donnes

Nettoyage et transformation des donnes


Supprimer le bruit : donnes superflues, marginales, donnes manquantes, etc. Effectuer une slection dattributs, rduire la dimension du problme, etc. Choisir le bon algorithme

Appliquer les techniques de fouille de donnes

Dmarche mthodologique (2)

Visualiser, valuer et interprter les modles dcouverts


Analyser la connaissance (intrt) Vrifier sa validit (sur le reste de la base de donnes) Ritrer le processus si ncessaire

Grer la connaissance dcouverte


La mettre la disposition des dcideurs Lchanger avec dautres applications (systme expert, ) etc.

Data Mining et aide la dcision


Potentiel de support de dcision

Prise de dcisions
Prsentation des connaissances

Utilisateur(s)

Dcideur(s)

Techniques de visualisation

Dcouverte de connaissances (Statistiques, Requtes, ...)


Data Warehouses Exploration de donnes

Data Mining

Analyste(s) de donnes

(OLAP, ...)

Administrateur de Bases de donnes

(Papier, Fichiers, Fournisseurs dinformation, SGBD, )

Sources de donnes

Objectifs

Dvelopper des techniques et systmes efficaces et extensibles pour lexploration de :


BD larges et multi-dimensionnelles Donnes distribues

Faciliter lutilisation des systmes de DM


Limiter lintervention de lutilisateur Reprsentation simple de la connaissance Visualisation sous forme exploitable

Communauts impliques
Intelligence artificielle et apprentissage Bases de donnes Analyse de donnes (statistiques) Visualisation Recherche oprationnelle et optimisation Informatique parallle et distribue Etc.

Data Mining et Statistiques


Data mining : Exploratoire, Data-driven modeling Statistiques : Confirmatoire, User-driven modeling Distribution d une seule variable : moyenne, mdiane, variance, cart-type, Explorer les relation entre variables : coefficient de corrlation, Dcouverte de la cause des relations entre de nombreuses variables est assez complexe. test du X2, ... Rseaux baysiens (probabilits conditionnelles)

Dcouverte de modles fonctionnels


Mthodes de rgression :
rgression linaire : Y = aX+ b (a, b : valeurs relles)
Nombre de petits commerants

* *

Rapide et efficace (valeurs relles) Insuffisante pour l analyse despace multidimentionnel

Nombre de grandes surfaces

Dcouverte de modles fonctionnels Kernel regression : dcouvrir graphiquement


la fonction utiliser, peut tre une courbe
Nombre de petits commerants

* * * * * * Nombre de grandes surfaces

Techniques statistiques inadquates : nombre de facteurs important, modles non linaires.

Domaines dapplication
Prise de dcision base sur de nouvelles connaissances Ex., impact sur le marketing Le rle et limportance du KDD et DM est de plus en plus important Mais le DM nest pas seulement dans le marketing...

Marketing
BDD Marketing

Data Warehousing

KDD & Data Mining

Domaines dapplication

Marketing direct : population cibler (ge, sexe, profession, habitation, rgion, ) pour un publipostage. Gestion et analyse des marchs : Ex. Grande distribution : profils des consommateurs, modle d achat, effet des priodes de solde ou de publicit, panier de la mnagre Dtection de fraudes : Tlcommunications, ... Gestion de stocks : quand commander un produit, quelle quantit demander, Analyse financire : maximiser l investissement de portefeuilles d actions.

Domaines dapplication

Gestion et analyse de risque : Assurances, Banques (crdit accord ou non) Compagnies ariennes Bioinformatique et Gnome : ADN mining, Mdecine et pharmacie : Diagnostic : dcouvrir d aprs les symptomes du patient sa maladie Choix du mdicament le plus appropri pour gurir une maladie donn Web mining, text mining, etc.

Exemple 1 - Marketing
Vous tes gestionnaire marketing dun oprateur de tlcommunications mobiles :
Les clients recoivent un tlphone gratuit (valeur 150) avec un contrat dun an ; vous payer une commission de vente de 250 par contrat Problme : Taux de renouvellement ( la fin du contrat) est de 25% Donner un nouveau tlphone toute personne ayant expirer son contrat cote cher. Faire revenir un client aprs avoir quitter est difficile et coteux.

Exemple 1 - Marketing
Trois mois avant lexpiration du contrat, prdire les clients qui vont quitter :
Si vous voulez les garder, offrir un nouveau tlphone.

Yippee! Yippee! Jereste reste!! Je

Exemple 2 - Assurances
Oh,oui! oui! Oh, Jaimema ma Jaime Ferrari! Ferrari! Vous tes un agent dassurance et vous devez dfinir un paiement mensuel adapt un jeune de 18 ans qui a achet une Ferrari. Quest ce quil faut faire ?

Exemple 2 - Assurances
Analyser les clients de la donnes de tous les compagnie.

La probabilit davoir un accident est base sur ?


Sexe du client (M/F) et lge Modle de la voiture, ge, adresse, .... etc.

Si la probabilit davoir un accident est suprieure la moyenne, initialiser la mensualit suivant les risques.

Exemple 3 Banque - Tlcom


Vous tes ltranger et quelquun a vol votre carte de crdir ou votre mobile compagnies bancaires
Utiliser les donnes historiques pour construire un modle de comportement frauduleux et utiliser le data mining pour identifier des instances similaires.

compagnies tlphoniques
Analyser les patterns qui drivent du comportement attendu (destinataire, dure, etc.)

Exemple 4 - Web
Les logs des accs Web sont analyss pour
Dcouvrir les prfrences des utilisateurs Amliorer lorganisation du site Web

bonne bonne expriencede desurfing! surfing! exprience

De manire similaire
Lanalyse de tous les types dinformations sur les logs Adaptation de linterface utilisateur/service

Paramtres dun processus KDD

Format, Type ?
Donnes dapprentissage

Technique ?

Data Data Mining Mining

Tche ?

Modles, Patterns

Type de reprsentation ?

Les donnes
Valeurs des champs des enregistrements des tables de lentropot (base de donnes) Types :
Donnes discrtes : donnes binaires (sexe, ), donnes numratives (couleur, ), numratives ordonnes (rponses 1:trs satisfait, 2:satisfait, ). Donnes continues : donnes entires ou relles (ge, salaire, ) Dates Donnes textuelles Pages/liens web, Multimdia,

Tches du Data Mining


Classification Clustering (Segmentation) Recherche dassociations Recherche de squences Dtection de dviation

Classification

Elle permet de prdire si une instance de donne est membre dun groupe ou dune classe prdfinie. Classes

Groupes dinstances avec des profils particuliers Apprentissage supervis : classes connues lavance Applications : marketing direct (profils des consommateurs), grande distribution (classement des clients), mdecine (malades/non malades), etc. Exemple : les acheteurs de voitures de sport sont de jeunes citadins ayant un revenu important

Clustering (Segmentation)

Partitionnement logique de la base de donnes en clusters


Clusters : groupes dinstances ayant les mmes caractristiques Apprentissage non supervis (classes inconnues) Pb : interprtation des clusters identifis Applications : Economie (segmentation de marchs), mdecine (localisation de tumeurs dans le cerveau), etc.

Rgles dassociation

Corrlations (ou relations) entre attributs (mthode non supervise) Applications : grande distribution, gestion des stocks, web (pages visites), etc. Exemple BD commerciale : panier de la mnagre Articles figurant dans le mme ticket de caisse Ex : achat de riz + vin blanc ==> achat de poisson Achats bires et couches-culottes (USA, Week-end)

Recherche de squences

Recherche de squences

Liaisons entre vnements sur une priode de temps Extension des rgles dassociation

Prise en compte du temps (srie temporelle) Achat Tlvision ==> Achat Magntoscope dici 5 ans

Applications : marketing direct (anticipation des commandes), bioinformatique (squences dADN), bourse (prdiction des valeurs des actions) BD commerciale (ventes par correspondance) Commandes de clients Ex : 60% des consommateurs qui commandent la bire Mort subite commandent de laspro juste aprs Squences dAND : ACGTC est suivie par GTCA aprs un gap de 9, avec une probabilit de 30%

Exemple

Q

Dtection de dviation

Instances ayant des caractristiques les plus diffrentes des autres


Base sur la notion de distance entre instances Expression du problme


Temporelle : volution des instances ? Spatiale : caractristique dun cluster dinstances ?

Applications

Dtection de fraudes (transactions avec une carte bancaire inhabituelle en telemarketing) Problme dinterprtation : bruit ou exception (donc connaissance intressante)

Caractristiques

Illustration

Point isol

Techniques utilises
K-moyennes, A-priori, K-NN Rseaux de neurones Algorithmes gntiques Chanes de Markov caches Arbres de dcision Rseaux bayesiens Soft computing : ensembles flous

Rsum - Introduction
Data mining : dcouverte automatique de modles intressants partir densemble de donnes de grande taille KDD (knowledge data discovery) est un processus :
Pr-traitement (Pre-processing) Data mining Post-traitement (Post-processing)

Pour le data mining, utilisation de diffrents

Base de donnes (relationelle, oriente objet, spatiale, WWW, ) Connaissances (classification, clustering, association, ) Techniques (apprentissage, statistiques, optimisation, ) Applications (gnomique, tlcom, banque, assurance, distribution, )

Travaux pratiques : Cadre du travail

WEKA 3.2
Waikato Environment for Knowledge Analysis

http://www.cs.waikato.ac.nz/ml/weka/ http://www.lifl.fr/~jourdan

WEKA
Logiciel gratuit disponible sur le web :

http://www.cs.waikato.ac.nz/ml/weka/ Plate forme logicielle en Java tournant sous :


Windows Linux

Facile prendre en main

WEKA
Interface en ligne de commande Explorer (interface graphique)
Filtre Apprentissage (clustering, classification, ...) Slection dattributs Visualisateur de donnes et de rsultats

Exprimenter (environnement dexprience)

Test dune mthode spcifique sur un ensemble de donnes avec des critres varis pour la comparaison de rsultats

WEKA
En entre : fichiers, base de donnes, Url En sortie : affichage des rsultats, sortie des rsultats dans des fichiers, visualisation graphique
Exemple de visualisation aprs une classification : une couleur reprsente une classe

Weka - Explorer
Les fonctions disponibles : Filtre et Preprocess sur les donnes Classification Clustering Rgles dassociation Slection dattributs Visualisateur

Plan du cours
Clustering
Plan

Classification Rgles dassociation Outils pour le Data Mining

Clustering (Segmentation)

Clustering - Plan
Problmatique du clustering Applications Similarit et types de donnes Mthodes de clustering Mthodes de partitionnement Mthodes hirarchiques Mthodes par voisinage dense Application relle en gnomique Rsum

Sommaire

Problmatique
Soient N instances de donnes k attributs, Trouver un partitionnement en c clusters (groupes) ayant un sens (Similitude) Affectation automatique de labels aux clusters c peut tre donn, ou dcouvert Plus difficile que la classification car les classes ne sont pas connues lavance (non supervis) Attributs

Numriques (distance bien dfinie) Enumratifs ou mixtes (distance difficile dfinir)

Qualit dun clustering


Une bonne mthode de clustering produira des clusters dexcellente qualit avec : Similarit intra-classe importante Similarit inter-classe faible La qualit dun clustering dpend de : La mesure de similarit utilise Limplmentation de la mesure de similarit La qualit dune mthode de clustering est value par son abilit dcouvrir certains ou tous les patterns cachs.

Objectifs du clustering
Minimiser Minimiser les les distances distances intra-cluster intra-cluster Maximiser Maximiser les les distances distances inter-clusters inter-clusters

Exemples dapplications
Marketing : segmentation du march en dcouvrant des groupes de clients distincts partir de bases de donees dachats. Environnement : identification des zones terrestres similaires (en termes dutilisation) dans une base de donnes dobservation de la terre. Assurance: identification de groupes dassurs distincts associs un nombre important de dclarations. Planification de villes : identification de groupes dhabitations suivant le type dhabitation, valeur, localisation gographique, Mdecine : Localisation de tumeurs dans le cerveau
Nuage de points du cerveau fournis par le neurologue Identification des points dfinissant une tumeur

Exemple: segmentation de marchs

Mesure de la similarit
Il ny a pas de dfinition unique de la similarit entre objets Diffrentes mesures de distances d(x,y) La dfinition de la similarit entre objets dpend de : Le type des donnes considres Le type de similarit recherche

Choix de la distance

Proprits dune distance :

1. d ( x , y ) 0 2. d ( x , y ) = 0 iff x = y 3. d ( x , y ) = d ( y , x ) 4. d ( x , z ) d ( x , y ) + d ( y , z )

Dfinir une distance sur chacun des champs Champs numriques : d(x,y) = |x-y|, d(x,y)= |x-y|/dmax (distance normalise). Exemple : Age, taille, poids,

Distance Donnes numriques


Combiner les distances : Soient x=(x1,,xn) et y=(y1, ,yn) Exemples numriques : Distance euclidienne :

d(x, y)=

2 ( ) i i x y

Distance de Manhattan : d(x, y)= Distance de Minkowski :

xy
i=1 i

i=1 n

d(x, y)=

y x i i i =1

k=1 : distance de Manhattan. k=2 : distance euclidienne

Choix de la distance

Champs discrets :

Donnes binaires : d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1 Donne numratives : distance nulle si les valeurs sont gales et 1 sinon. Donne numratives ordonnes : idem. On peut dfinir une distance utilisant la relation dordre.

Donnes de types complexes : textes, images, donnes gntiques, ...

Distance Donnes binaires


Table de contingence (dissimilarit)
Object i Object j

1 1 0 a

0 b

sum a +b c+d p

c d sum a + c b + d

Coefficient de correspondance simple (similarit invariante, si la variable binaire est symtrique) : b+c d (i, j ) = a+b+c+d Coefficient de Jaccard (similarit non invariante, si la variable binaire est asymtrique): b+c d (i, j ) = a+b+c

Distance Donnes binaires


Exemple : dissimilarit entre variables binaires Table de patients
Nom Jack Mary Jim Sexe M F M Fivre Y Y Y Toux N N P Test-1 P P N Test-2 N N N Test-3 N P N Test-4 N N N

8 attributs, avec Sexe un attribut symtrique, et Les attributs restants sont asymtriques (test VIH, )

Distance Donnes binaires


Les valeurs Y et P sont initialises 1, et la valeur N 0. Calculer la distance entre patients, base sur le coefficient de Jaccard.
0 +1 = 0.33 2 + 0 +1 1+1 d ( jack , jim ) = = 0.67 1+1+1 1+ 2 d ( jim , mary ) = = 0.75 1+1+ 2 d ( jack , mary ) =

Distance Donnes numratives


Gnralisation des variables binaires, avec plus de 2 tats, e.g., rouge, jaune, bleu, vert Mthode 1: correpondance simple m: # de correspondances, p: # total de variables

p m d (i, j ) = p

Distance Donnes mixtes


Exemple : (Age, Propritaire rsidence principale, montant des mensualits en cours) x=(30,1,1000), y=(40,0,2200), z=(45,1,4000) d(x,y)=sqrt( (10/15)2 + 12 + (1200/3000)2) = 1.27 d(x,z)= sqrt( (15/15)2 + 02 + (3000/3000)2) = 1.41 d(y,z)= sqrt( (5/15)2 + 12 + (1800/3000)2) = 1.21 plus proche voisin de x = y

Distances normalises. Sommation : d(x,y)=d1(x1,y1) + + dn(xn,yn)

Donnes mixtes Exemple 1


Base de donnes Cancer du sein http://www1.ics.uci.edu/~mlearn/MLSummary.html #instances = 286 (Institut Oncologie, Yugoslavie) # attributs = 10

Classe : no-recurence-events, recurrence-events Age : 10-19, 20-29, 30-39, 40-49, , 90-99 Menopause : Lt40, Ge40, premeno Taille de la tumeur : 0-4, 5-9, 10-14, , 55-59 Inv-nodes : 0-2, 3-5, 6-8, , 36-39 (ganglions lymphatiques) Node-caps : Oui, Non Deg-malig : 1, 2, 3 (Dgr de malignit) Sein : Gauche, Droit Breast-quad : left-up, left-low, right-up, right-low, central Irradiation : Oui, Non

Donnes mixtes Exemple 2


Base de donnes Diabte : Diagnostic (OMS) http://www1.ics.uci.edu/~mlearn/MLSummary.html #instances = 768 (Arizona, USA) # attributs = 8

Nombre de grossesses Concentration du taux de glucose dans le plasma Pression sanguine diastolique (mm Hg) Epaisseur de la graisse du triceps (mm) Taux dinsuline aprs 2 heures (repas) (mu U/ml) Indice de masse corporelle (poids en kg / (taille en m)^2) Fonction Diabete pedigree Age (ans) Classe (Positif ou Ngatif)

Mthodes de Clustering

Mthode de partitionnement (Kmoyennes) Mthodes hirarchiques (par agglomration) Mthode par voisinage dense

Caractristiques

Apprentissage non supervis (classes inconnues) Pb : interprtation des clusters identifis

Mthodes de clustering - Caractristiques


Extensibilit Abilit traiter diffrents types de donnes Dcouverte de clusters de diffrents formes Connaissances requises (paramtres de lalgorithme) Abilit traiter les donnes bruites et isoles.

Algorithme des k-moyennes (K-means)


Entre : un chantillon de m enregistrements x1, , xm 1. Choisir k centres initiaux c1, , ck 2. Rpartir chacun des m enregistrements dans le groupe i dont le centre ci est le plus proche. 3. Si aucun lment ne change de groupe alors arrt et sortir les groupes 4. Calculer les nouveaux centres : pour tout i, ci est la moyenne des lments du groupe i. Aller en 2.

Illustration (1)
Centres initiaux

Illustration (2)
Nouveaux centres

Illustration (3)
Centres finaux

Algorithme des k-moyennes : Exemple


8 points A, , H de l espace eucliden 2D. Tire alatoirement 2 centres : B et D choisis.

k=2 (2 groupes)

points

Centre D(2,4), B(2,2) B B B D B B B B

Centre Centre D(2,4), J(5/3,10/3), I(27/7,17/7) K(24/5,11/5) D I D D I I I I J J J J K K K K

A(1,3) B(2,2) C(2,3) D(2,4) E(4,2) F(5,2) G(6,2) H(7,3)

K-moyennes : Avantages
Relativement extensible dans le traitement densembles de taille importante Relativement efficace : O(t.k.n), o n reprsente # objets, k # clusters, et t # iterations. Normalement, k, t << n. Produit gnralement un optimum local ; un optimum global peut tre obtenu en utilisant dautres techniques telles que : algorithmes gntiques,

K-moyennes : Inconvnients
Applicable seulement dans le cas o la moyenne des objets est dfinie Besoin de spcifier k, le nombre de clusters, a priori Incapable de traiter les donnes bruites (noisy). Non adapt pour dcouvrir des clusters avec structures non-convexes, et des clusters de tailles diffrentes Les points isols sont mal grs (doivent-ils appartenir obligatoirement un cluster ?) - probabiliste

K-moyennes : Variantes
Slection des centres initiaux Calcul des similarits Calcul des centres (K-medoids : [Kaufman & Rousseeuw87] ) GMM : Variantes de K-moyennes bases sur les probabilits K-modes : donnes catgorielles [Huang98] K-prototype : donnes mixtes (numriques et catgorielles)

Mthodes hirarchiques
Une mthode hirarchique : construit une hirarchie de clusters, non seulement une partition unique des objets. Le nombre de clusters k nest pas exig comme donne Utilise une matrice de distances comme critre de clustering Une condition de terminaison peut tre utilise (ex. Nombre de clusters)

Mthodes hirarchiques

Entre : un chantillon de m enregistrements x1, , xm 1. On commence avec m clusters (cluster = 1 enregistrement) 2. Grouper les deux clusters les plus proches . 3. Sarrter lorsque tous les enregistrements sont membres dun seul groupe 4. Aller en 2.

Arbre de clusters : Exemple


Step 0 Step 1 Step 2 Step 3 Step 4

a b c d e

ab abcde cde de

Arbre de clusters

Rsultat : Graphe hirarchique qui peut tre coup un niveau de dissimilarit pour former une partition. La hirarchie de clusters est reprsente comme un arbre de clusters, appel dendrogramme Les feuilles de larbre reprsentent les objets Les noeuds intermdiaires de larbre reprsentent les clusters

Distance entre clusters

Distance entre les centres des clusters (Centroid Method) Distance minimale entre toutes les paires de donnes des 2 clusters (Single Link Method)
d (i, j ) = min xCi , yCj { d ( x, y) }

Distance maximale entre toutes les paires de donnes des 2 clusters (Complete Link Method)
d (i, j ) = max xCi , yCj { d ( x, y ) }

Distance moyenne entre toutes la paires denregistrements (Average Linkage)


d (i, j ) = avg xCi , yCj { d ( x, y ) }

Mthodes hirarchiques : Avantages


Conceptuellement simple Proprits thoriques sont bien connues Quand les clusters sont groups, la dcision est dfinitive => le nombre dalternatives diffrentes examiner est rduit

Mthodes hirarchiques : Inconvnients


Groupement de clusters est dfinitif => dcisions erronnes sont impossibles modifier ultrieurement Mthodes non extensibles pour des ensembles de donnes de grandes tailles

Mthodes bases sur la densit


Pour ce types de problmes, lutilisation de mesures de similarit (distance) est moins efficace que lutilisation de densit de voisinage.

Mthodes bases sur la densit


Minimiser la distance inter-clusters nest pas toujours un bon critre pour reconnatre des formes (applications gographiques, reconnaissance de formes tumeurs, ). Dist=18

Dist=15.3

Mthodes bases sur la densit (1)


Soit d* un nombre rel positif Si d(P,Q)<=d*, Alors P et Q appartiennent au mme cluster Si P et Q appartiennent au mme cluster, et d(Q,R)<=d*, Alors P et R appartiennent au mme cluster

Mthodes bases sur la densit (2)


Soit e* un nombre rel positif Un point P est dense ssi |{Q/d(P,Q)<=d*}|>=e* Si P et Q appartiennent au mme cluster, et d(Q,R)<=d* et Q est dense, Alors P et R appartiennent au mme cluster Les points non-denses sont appels points de bordure . Les points en dehors des clusters sont appels bruits .

Mthodes bases sur la densit


d*

e*=4

P Q S R

Points noirs sont denses ; les autres ne sont pas denses Pour montrer que P et S appartiennent au mme cluster, il suffit de montrer que P et R appartiennent au mme cluster. Pour le montrer pour P et R, il suffit de le montrer pour P et Q

Mthodes bases sur la densit

Deux clusters sont trouvs Deux points sont des bruits Trois points sont des bordures

Etude de cas rel : Gnomique

Slection dattributs + Clustering


LIFL : Equipe OPAC I.B.L

Le contexte
Gnopole de Lille : Aspect gntique des maladies multifactorielles Collaboration avec lI.B.L. (Institut de Biologie de Lille) laboratoire des maladies multifactorielles (UPRES-A 8090) : diabte, obsit Gnration de gros volumes de donnes : outil daide linterprtation des rsultats

Etudes de lIBL
Etudes de type familial (parents, enfants) Prlvement dADN Analyse de liaison : co-transmission dun gne Comparaison de gnes entre paires dindividus dune mme famille

Objectif :

Localiser un ou plusieurs gnes de prdisposition pour la maladie

Problme pos
Trs grand nombre de donnes gnres
(~ 1 000 points de comparaison, 200 familles)

Mthodes statistiques limites pour tudier la corrlation entre gnes

Besoin dun outil dextraction de connaissances : Data Mining

Contexte
Hypothses de travail : un cas particulier de Data Mining les donnes fournies par lIBL contiennent de nombreux attributs existence de donnes manquantes ou incertaines contexte d apprentissage non supervis Objectif : connatre les classes d attributs provoquant la maladie connatre les corrlations entre les attributs

Mthodologie adopte
Ralisation : dune slection d attributs : Rduire le nombre d attributs pour amliorer la classification dun clustering Slection d attributs Classes Clustering m attributs

N attributs

N>>m

K-moyennes
Sans slection d attributs : 400 attributs pour 200 objets,
temps de calcul > 7500 min. (>125 h.), rsultats inexploitables

Avec slection d attributs :


une dizaine d attributs pour 200 objets, temps de calcul entre 3 minutes et 15 minutes, rsultats exploitables.

Workshop GAW11 de 1998


Donnes simules dont on connat les rsultats Rsultats trouver :
A B D

C E1

Rsultats
Rsultats obtenus sur le workshop GAW11 de 1998 Exemple d ensembles d attributs slectionns (Support trouv > 0.65) : 81 85, 402 407, 224 229 (Locus C) , 308 313, 190 195, 374 379 (Locus B) Exemple de clustering E1 C
Classe 1

E2

B
Classe 2

Conclusion
Bilan
Comprhension et modlisation d un problme complexe Slection d attributs : slection de locus impliqus dans la maladie Clustering : les ensembles finaux sont trouvs lorsqu il y a peu d erreurs dans le choix des attributs slectionns

Clustering Rsum (1)


Le clustering groupe des objets en se basant sur leurs similarits. Le clustering possde plusieurs applications. La mesure de similarit peut tre calcule pour diffrents types de donnes. La slection de la mesure de similarit dpend des donnes utilises et le type de similarit recherche.

Clustering Rsum (2)


Les mthodes de clustering peuvent tre classes en : Mthodes de partitionnement, Mthodes hirarchiques, Mthodes densit de voisinage. Plusieurs travaux de recherche sur le clustering en cours et en perspective. Plusieurs applications en perspective : Gnomique, Environnement,

Rfrences
M. R. Anderberg. Cluster Analysis for Applications. Academic Press, 1973. P. Arabie, L. J. Hubert, and G. De Soete. Clustering and Classification. World Scientific, 1996 A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice Hall, 1988 L. Kaufman and P. J. Rousseeuw. Finding Groups in Data: an Introduction to Cluster Analysis. John Wiley & Sons, 1990.

Classification

Sommaire
Dfinition Validation dune classification (accuracy) K-NN (plus proches voisins) Arbres de dcision Rseaux de neurones Autres mthodes de classification Etude de cas rel : Protomique Rsum

Sommaire

Classification

Elle permet de prdire si un lment est membre dun groupe ou d une catgorie donn.

Classes

Identification de groupes avec des profils particuliers Possibilit de dcider de lappartenance dune entit une classe

Caractristiques

Apprentissage supervis : classes connues lavance Pb : qualit de la classification (taux derreur) Ex : tablir un diagnostic (si erreur !!!)

Classification - Applications
Accord de crdit Applications Marketing cibl Diagnostic mdical Analyse de leffet dun traitement Dtection de fraudes fiscales etc.

Processus deux tapes


Etape 1 : Construction du modle partir de lensemble dapprentissage (training set) Etape 2 : Utilisation du modle : tester la prcision du modle et lutiliser dans la classification de nouvelles donnes

processus 2 tapes

Construction du modle
Chaque instance est suppose appartenir une classe prdfinie Etape 1 La classe dune instance est dtermine par lattribut classe Lensemble des instances dapprentissage est utilis dans la construction du modle Le modle est reprsent par des rgles de classification, arbres de dcision, formules mathmatiques, ...

Utilisation du modle
Classification de nouvelles instances ou instances inconnues Etape 2 Estimer le taux derreur du modle la classe connue dune instance test est compare avec le rsultat du modle Taux derreur = pourcentage de tests incorrectement classs par le modle

Validation de la Classification (accuracy)


Estimation des taux derreurs :

Partitionnement : apprentissage et test (ensemble de donnes important) Utiliser 2 ensembles indpendents, e.g., ensemble dapprentissage (2/3), ensemble test (1/3) Apprentissage Dt Validation D\Dt

Validation de la Classification (accuracy)


Validation croise (ensemble de donnes modr) Diviser les donnes en k sous-ensembles Utiliser k-1 sous-ensembles comme donnes dapprentissage et un sous-ensemble comme donnes test

D1 D2 D3 D4 D1 D2 D3 D4 D1 D2 D3 D4 D1 D2 D3 D4 D1 D2 D3 D4

Bootstrapping : n instances test alatoires (ensemble de donnes rduit)

Exemple : Construction du modle


Donnes Apprentissage

Algorithmes Classification

Nom Mary James Bill John Mark Annie

Rang Anne Assistant Prof 3 Assistant Prof 7 Professor 2 Associate Prof 7 Assistant Prof 6 Associate Prof 3

Titulaire non Modle oui oui oui Si Rang = Professor non Ou Anne > 6 non Alors Titulaire = Oui

Exemple : Utilisation du modle


Classifier Donnes Test Taux derreur du modle ?
Titulaire non non oui oui

Nom Tom Lisa Jack Ann

Rang Anne Assistant Prof 2 Associate Prof 7 Professor 5 Assistant Prof 7

Exemple : Utilisation du modle


Classifier Donne inconnue

Titulaire ?
Titulaire ? ?

Nom Jeff Paul

Rang Anne Professor 4 Associate Prof 7

Oui Oui

Evaluation des mthodes de classification


Taux derreur (Accuracy) Temps dexcution (construction, utilisation) Robustesse (bruit, donnes manquantes,...) Extensibilit Interprtabilit Simplicit

Mthodes de Classification
Mthode K-NN (plus proche voisin) Arbres de dcision Rseaux de neurones Classification baysienne Caractristiques

Apprentissage supervis (classes connues)

Mthode des plus proches voisins


Mthode ddie la classification (k-NN : nearest neighbor). Mthode de raisonnement partir de cas : prendre des dcisions en recherchant un ou des cas similaires dj rsolus. Pas dtape d apprentissage : construction d un modle partir dun chantillon d apprentissage (rseaux de neurones, arbres de dcision, ). Modle = chantillon dapprentissage + fonction de distance + fonction de choix de la classe en fonction des classes des voisins les plus proches.

Algorithme kNN (K-nearest neighbors)


Objectif : affecter une classe une nouvelle instance donne : un chantillon de m enregistrements classs (x, c(x)) entre : un enregistrement y 1. Dterminer les k plus proches enregistrements de y 2. combiner les classes de ces k exemples en une classe c sortie : la classe de y est c(y)=c

Algorithme kNN : slection de la classe


Solution simple : rechercher le cas le plus proche et prendre la mme dcision (Mthode 1-NN). Combinaison des k classes : Heuristique : k = nombre d attributs + 1 Vote majoritaire : prendre la classe majoritaire. Vote majoritaire pondr : chaque classe est pondre. Le poids de c(xi) est inversement proportionnel la distance d(y,xi). Confiance : Dfinir une confiance dans la classe attribue = rapport entre les votes gagnants et le total des votes.

Illustration

Voisinage
5 de la classe 3 de la classe

Algorithme kNN : critique

Pas dapprentissage : introduction de nouvelles donnes ne ncessite pas la reconstruction du modle. Clart des rsultats Tout type de donnes Nombre dattributs Temps de classification : Stocker le modle : Distance et nombre de voisins : dpend de la distance, du nombre de voisins et du mode de combinaison.

Arbres de dcision
Gnration darbres de dcision partir des donnes Arbre = Reprsentation graphique dune procdure de classification
Accord dun prt bancaire
MS : moyenne solde compte courant MS>5000 Non Oui Age>25 Oui Autres comptes Oui Non Non

Oui

Non

Oui

Un arbre de dcision est un arbre o : Noeud interne = un attribut Branche dun noeud = un test sur un attribut Feuilles = classe donne

Non

Arbre de dcision - Exemple


Outlook sunny sunny overcast rain rain rain overcast sunny sunny rain sunny overcast overcast rain Temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild Humidity high high high high normal normal normal high normal normal normal high normal high Windy Class false N true N false P false P false P true N true P false N false P false P true P true P false P true N

Ensemble dapprentissage

Jouer au tennis ?

Arbre de dcision - Exemple


Outlook Sunny Overcast Rain

Humidity High No Normal Yes

Yes

Wind Strong No Weak Yes

Exemple Jouer au tennis ?


Outlook Sunny Overcast Rain

Humidity High No Normal Yes

Chaque noeud interne teste un attribut Chaque branche correspond une valeur de lattribut Chaque feuille reprsente une classe

Arbres de dcision Exemple


Risque - Assurances
Tid 0 1 2 3 4 5 Age 23 17 43 68 32 20 Car Type Family Sports Sports Family Truck Family Class High High High Low Low High
High Low High CarType {Sports} Age < 27.5

Numrique

Enumratif

Age=40, CarType=Family Class=Low

Des arbres de dcision aux rgles

Age < 27.5

1) Age < 27.5 High


CarType {Sports}

2) Age >= 27.5 and CarType = Sports High 3) Age >= 27.5 and CarType Sports High

High

High

Low

Arbres de dcision Exemple Dtection de fraudes fiscales


tif tif ue a a q r r i r se m m s m u u a nu n n cl
Id 1 2 3 4 5 6 7 8 9 10
10

Attributs significatifs
Ristourne Oui Non Non Situation Clibat, Divorc Impt < 80K Non

Ristourne Situation Impt famille revenu Oui Non Non Oui Non Non Oui Non Non Non Clibat. Mari Clibat. Mari Divorc Mari Divorc Clibat. Mari Clibat. 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K

Fraude Non Non Non Non Oui Non Non Oui Non Oui

Mari Non

>= 80K Oui

Lattribut significatif un noeud est dtermin en se basant sur lindice Gini. Pour classer une instance : descendre dans larbre selon les rponses aux diffrents tests. Ex = (Ristourne=Non, Situation=Divorc, Impt=100K) Oui

De larbre de dcision aux rgles de classification


outlook sunny overcast P rain windy true N false P

humidity high N

normal P

Si outlook=sunny Et humidity=normal Alors play tennis

une rgle est gnre pour chaque chemin de larbre (de la racine une feuille) Les paires attribut-valeur dun chemin forment une conjonction Le noeud terminal reprsente la classe prdite Les rgles sont gnralement plus faciles comprendre que les arbres

Des arbres de dcision aux rgles


Arbre de dcision = Systme de rgles exhaustives et mutuellement exclusives
1) Ristourne = Oui Non
Ristourne Oui Non Non Situation Clibat., Divorc Impt < 80K Non >= 80K Oui Mari Non

2) Ristourne = Non et Situation in {Clibat., Divorc} et Impt < 80K Non 3) Ristourne = Non et Situation in {Clibat., Divorc} et Impt >= 80K Oui 4) Ristourne = Non et Situation in {Mari} Non

Des arbres de dcision aux rgles


Outlook Sunny Humidity High No R1: R2: R3: R4: R5: If If If If If Normal Yes Overcast Yes Rain Wind Strong No Weak Yes

(Outlook=Sunny) (Humidity=High) Then PlayTennis=No (Outlook=Sunny) (Humidity=Normal) Then PlayTennis=Yes (Outlook=Overcast) Then PlayTennis=Yes (Outlook=Rain) (Wind=Strong) Then PlayTennis=No (Outlook=Rain) (Wind=Weak) Then PlayTennis=Yes

Gnration de larbre de dcision


Deux phases dans la gnration de larbre : Construction de larbre Arbre peut atteindre une taille leve Elaguer larbre (Pruning) Identifier et supprimer les branches qui reprsentent du bruit Amliorer le taux derreur

Algorithmes de classification
Construction de larbre
Au dpart, toutes les instances dapprentissage sont la racine de larbre Slectionner un attribut et choisir un test de sparation (split) sur lattribut, qui spare le mieux les instances. La slection des attributs est base sur une heuristique ou une mesure statistique. Partitionner les instances entre les noeuds fils suivant la satisfaction des tests logiques

Algorithmes de classification
Traiter chaque noeud fils de faon rcursive Rpter jusqu ce que tous les noeuds soient des terminaux. Un noeud courant est terminal si :
Il ny a plus dattributs disponibles Le noeud est pur, i.e. toutes les instances appartiennent une seule classe, Le noeud est presque pur, i.e. la majorit des instances appartiennent une seule classe (Ex : 95%) Nombre minimun dinstances par branche (Ex : algorithme C5 vite la croissance de larbre, k=2 par dfaut)

Etiqueter le noeud terminal par la classe majoritaire

Algorithmes de classification
Elaguer larbre obtenu (pruning)
Supprimer les sous-arbres qui namliorent pas lerreur de la classification (accuracy) arbre ayant un meilleur pouvoir de gnralisation, mme si on augmente lerreur sur lensemble dapprentissage Eviter le problme de sur-spcialisation (overfitting), i.e., on a appris par coeur lensemble dapprentissage, mais on nest pas capable de gnraliser

Sur-spcialisation - arbre de dcision


Larbre gnr peut surspcialiser lensemble dapprentissage Plusieurs branches Taux derreur important pour les instances inconnues Raisons de la sur-spcialisation bruits et exceptions Peu de donne dapprentissage Maxima locaux dans la recherche gloutonne

Overfitting dans les arbres de dcision

Comment viter loverfitting ?


Deux approches : Pr-lagage : Arrter de faon prmature la construction de larbre Post-lagage : Supprimer des branches de larbre complet (fully grown) Convertir larbre en rgles ; laguer les rgles de faon indpendante (C4.5)

Construction de larbre Synthse


Evaluation des diffrents branchements pour tous les attributs Slection du meilleur branchement et de lattribut gagnant Partitionner les donnes entre les fils Construction en largeur (C4.5) ou en profondeur (SPLIT) Questions critiques :
Formulation des tests de branchement Mesure de slection des attributes

Exemple : Jouer au tennis ?


Outlook sunny sunny overcast rain rain rain overcast sunny sunny rain sunny overcast overcast rain Temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild Humidity high high high high normal normal normal high normal normal normal high normal high Windy Class false N true N false P false P false P true N true P false N false P false P true P true P false P true N

Ensemble dapprentissage

Arbre de dcision obtenu avec ID3 (Quinlan 86)


Outlook Sunny Overcast Rain

Humidity High No Normal Yes

Yes

Wind Strong No Weak Yes

Arbre de dcision obtenu avec ID3 (Quinlan 86)


Outlook Temperature Humidity Wind PlayTennis Sunny Hot High Weak ? No Outlook Sunny Humidity High No Normal Yes Overcast Yes Rain Wind Strong No Weak Yes

Arbre de dcision et conjonction


Outlook=Sunny Wind=Weak Outlook Sunny Overcast Rain

Wind Strong No Weak Yes

No

No

Arbre de dcision et disjonction


Outlook=Sunny Wind=Weak Outlook Sunny Yes Overcast Rain

Wind Strong No Weak Yes

Wind Strong No Weak Yes

Arbre de dcision et XOR


Outlook=Sunny XOR Wind=Weak Outlook Sunny Overcast Rain

Wind Strong Yes Weak No

Wind Strong No Weak Yes

Wind Strong No Weak Yes

Arbre de dcision et conjonction


arbre de dcision reprsente des disjonctions de conjonctions Outlook Sunny Humidity High No Normal Yes Overcast Yes Rain Wind Strong No Weak Yes

(Outlook=Sunny Humidity=Normal) (Outlook=Overcast) (Outlook=Rain Wind=Weak)

Algorithmes pour les arbres de dcision


Algorithme de base Construction rcursive dun arbre de manire diviser-pour-rgner descendante Attributs considrs numratifs Glouton (pig par les optima locaux) Plusieurs variantes : ID3, C4.5, CART, CHAID Diffrence principale : mesure de slection dun attribut critre de branchement (split)

Mesures de slection dattributs

Gain dInformation (ID3, C4.5) Indice Gini (CART) Table de contingence statistique 2 (CHAID) G-statistic

Bonne slection et branchement ?


CarType Low Risk High Risk

Sports < 25 Age

Gain dinformation
Slectionner lattribut avec le plus grand gain dinformation Soient P et N deux classes et S un ensemble dinstances avec p lments de P et n lments de N Linformation ncessaire pour dterminer si une instance prise au hasard fait partie de P ou N est (entropie) : p p n n I ( p, n) = log 2 log 2 p+n p+n p+n p+n

Entropie

S est lensemble dapprentissage p+ est la proportion dexemples positifs (P) p- est la proportion dexemples ngatifs (N) Entropie mesure limpuret de S Entropie(S) = -p+ log2 p+ - p- log2 p-

Gain dinformation
Soient les ensembles {S1, S2 , , Sv} formant une partition de lensemble S, en utilisant lattribut A Toute partition Si contient pi instances de P et ni instances de N Lentropie, Lentropie ou linformation ncessaire pour classifier les instances dans les sous-arbres Si est : p +n E ( A) = i i I ( pi , ni ) i =1 p + n Le gain dinformation par rapport au branchement sur A est Gain ( A ) = I ( p , n ) E ( A ) Choisir lattribut qui maximise le gain besoin dinformation minimal

Gain dinformation - Exemple


Hypothses :

Classe P : jouer_tennis = oui Classe N : jouer_tennis = non Information ncessaire pour classer un exemple donn est :
I ( p, n) = I (9,5) = 0.940

Gain dinformation - Exemple


Calculer lentropie pour lattribut outlook :
outlook sunny overcast rain pi 2 4 3 ni I(pi, ni) 3 0,971 0 0 2 0,971

On a Alors

E (outlook ) =

5 4 5 I ( 2,3) + I ( 4,0) + I (3,2) = 0.694 14 14 14

Gain (outlook ) = I (9,5) E (outlook ) = 0.246


Gain (temperatur e) = 0.029 Gain ( humidity ) = 0.151 Gain ( windy ) = 0.048

De manire similaire

Quel Attribut est meilleur ?


[29+,35-] A1=? A2=? [29+,35-]

True

False

True [18+, 33-]

False

[21+, 5-]

[8+, 30-]

[11+, 2-]

Gain dinformation - Exemple


Gain(S,A) : rduction attendue de lentropie de au branchement de S sur lattribut A Gain(S,A)=Entropie(S) - vvalues(A) |Sv|/|S| Entropie(Sv) Entropie([29+,35-]) = -29/64 log2 29/64 35/64 log2 35/64 = 0.99 [29+,35-] A1=? True [21+, 5-] False [8+, 30-] True [18+, 33-] A2=? [29+,35-] False [11+, 2-]

Gain dinformation - Exemple


Entropie([18+,33-]) = 0.94 Entropie([21+,5-]) = 0.71 Entropie([8+,30-]) = 0.62 Entropie([8+,30-]) = 0.74 Gain(S,A2)=Entropie(S) Gain(S,A1)=Entropie(S) -51/64*Entropie([18+,33-]) -26/64*Entropie([21+,5-]) -38/64*Entropie([8+,30-]) -13/64*Entropie([11+,2-]) =0.12 =0.27 [29+,35-] A1=? True [21+, 5-] False [8+, 30-] True [18+, 33-] A2=? [29+,35-] False [11+, 2-]

Exemple dapprentissage
Day D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Outlook Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temp. Hot Hot Hot Mild Cool Cool Cool Mild Cold Mild Mild Mild Hot Mild Humidit y High High High High Normal Normal Normal High Normal Normal Normal High Normal High Wind Weak Strong Weak Weak Weak Strong Weak Weak Weak Strong Strong Strong Weak Strong Play Tennis No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No

Slection de lattribut suivant


S=[9+,5-] E=0.940 Humidity High [3+, 4-] E=0.985 Normal [6+, 1-] E=0.592 S=[9+,5-] E=0.940 Wind Weak [6+, 2-] Strong [3+, 3-]

Gain(S,Humidity) =0.940-(7/14)*0.985 (7/14)*0.592 =0.151

E=0.811 E=1.0 Gain(S,Wind) =0.940-(8/14)*0.811 (6/14)*1.0 =0.048

Slection de lattribut suivant


S=[9+,5-] E=0.940 Outlook Sunny [2+, 3-] E=0.971 Over cast [4+, 0] E=0.0 Rain [3+, 2-] E=0.971

Gain(S,Outlook) =0.940-(5/14)*0.971 -(4/14)*0.0 (5/14)*0.0971 =0.247

Algorithme ID3
[D1,D2,,D14] [9+,5-] Sunny Outlook Overcast Rain

Ssunny=[D1,D2,D8,D9,D11] [D3,D7,D12,D13] [D4,D5,D6,D10,D14] [2+,3-] [4+,0-] [3+,2-] ? Yes ? Gain(Ssunny , Humidity)=0.970-(3/5)0.0 2/5(0.0) = 0.970 Gain(Ssunny , Temp.)=0.970-(2/5)0.0 2/5(1.0)-(1/5)0.0 = 0.570 Gain(Ssunny , Wind)=0.970= -(2/5)1.0 3/5(0.918) = 0.019

Algorithme ID3
Outlook Sunny Humidity High No [D1,D2] Normal Yes [D8,D9,D11] Overcast Yes [D3,D7,D12,D13] Rain Wind Strong No [D6,D14] Weak Yes [D4,D5,D10]

Indice Gini
Utiliser lindice Gini pour un partitionnement pur
Gini ( S ) = 1 pi2
i =1 c

Gini ( S1 , S 2 ) =

n1 n Gini ( S1 ) + 2 Gini ( S 2 ) n n

pi est la frquence relative de la classe c dans S

Si S est pur (classe unique), Gini(S) = 0 Gini(S1,S2) = Gini pour une partition de S en deux sousensembles S1 et S2 selon un test donn. Trouver le branchement (split-point) qui minimise lindice Gini Ncessite seulement les distributions de classes

Indice Gini - Exemple


Situation famille Situation famille

Fraude Pas fraude

Revenu

Revenu

Calcul de Gini ncessite une Matrice de dnombrement


Non Oui <80K >80K 14 1 9 18 M F Non Oui 5 10 23 4

Gini(split) = 0.31

Gini(split) = 0.34

Attributs numratifs indice GINI


Pour chaque valeur distincte, calculer le nombre dinstances de chaque classe Utiliser la matrice de dnombrement pour la prise de dcision
Partage en plusieurs classes
CarType C1 C2 Gini Family Sports Luxury 1 2 1 4 1 1 0.393
C1 C2 Gini

Partage en deux classes (trouver la meilleure partition de valeurs)


CarType {Sports, {Family} Luxury} 3 1 2 4 0.400 CarType {Family, {Sports} Luxury} 2 2 1 5 0.419

C1 C2 Gini

Attributs numriques indice GINI


calcul efficace : pour chaque attribut,
Trier les instances selon la valeur de lattribut Entre chaque valeur de cette liste : un test possible (split) Evaluation de Gini pour chacun des test Choisir le split qui minimise lindice gini
Fraude No No No Yes Yes Yes No No No No Revenu imposable

Valeurs tries Positions Split


Yes No Gini 0 0 <=

60 55 > 3 7 65 <= 0 1

70 72 > 3 6 <= 0 2

75 80 > 3 5 <= 0 3

85 87 > 3 4 <= 1 3

90 92 > 2 4 <= 2 3

95 97 > 1 4 <= 3 3

100 110 > 0 4 <= 3 4

120 122 <= 3 5

125 172 <= 3 6 > 0 1

220 230 <= 3 7 > 0 0

> 0 3

> 0 2

0.420

0.400

0.375

0.343

0.417

0.400

0.300

0.343

0.375

0.400

0.420

Mthodes base darbres de dcision


CART (BFO80 - Classification and regression trees, variables numriques, Gini, Elagage ascendant) C5 (Quinlan93 - dernire version ID3 et C4.5, attributs darit quelconque, entropie et gain dinformation) SLIQ (EDBT96 Mehta et al. IBM) SPRINT (VLDB96J. Shafer et al. IBM) PUBLIC (VLDB98 Rastogi & Shim) RainForest (VLDB98 Gehrke, Ramakrishnan & Ganti) CHAID (Chi-square Automation Interaction Detection variables discrtes)

Arbres de dcision - Avantages


Comprhensible pour tout utilisateur (lisibilit du rsultat rgles - arbre) Justification de la classification dune instance (racine feuille) Tout type de donnes Robuste au bruit et aux valeurs manquantes Attributs apparaissent dans lordre de pertinence tche de pr-traitement (slection dattributs) Classification rapide (parcours dun chemin dans un arbre) Outils disponibles dans la plupart des environnements de data mining

Arbres de dcision - Inconvnients


Sensibles au nombre de classes : performances se dgradent Evolutivit dans le temps : si les donnes voluent dans le temps, il est ncessaire de relance la phase dapprentissage

Rseaux de neurones

Rseau neuronal : simule le systme nerveux biologique Un rseau de neurones est compos de plusieurs neurones interconnects. Un poids est associ chaque arc. A chaque neurone on associe une valeur.

Temps de switch dun neurone > 10-3 secs Nombre de neurones (humain) ~1010 Connexions (synapses) par neurone : ~104105

Neurone ou perceptron

Neurone = Unit de calcul lmentaire Le vecteur dentre X est transform en une variable de sortie y, par un produit scalaire et une fonction de transformation non linaire X0 X1 Xn Vecteur entre X w0 w1 wn Vecteur Somme poids w pondre (coefficients Synaptiques) Fonction dactivation

Sortie y

Neurone ou perceptron
Linear treshold unit (LTU) x1 x2 w1 w2 wn x0=1 w0

xn

. . .

i=0n wi xi
o(xi)=

1 si i=0n wi xi >0 -1 sinon

Neurone

Fonction dactivation la plus utilise est la fonction sigmoide

Elle prend ses valeurs (entre et sortie) dans lintervalle [0,1] 1

(x)= 1 1+e

Rseaux de neurones

Capacit d apprentissage : apprendre et changer son comportement en fonction de toute nouvelle exprience. Permettent de dcouvrir automatiquement des modles complexes. Plusieurs modles de rseaux de neurones : PMC (Perceptron Multi-Couches), RBF (Radial Basis Function), Kohonen, ...

Perceptron Multi Couches (PMC)


Vecteur sortie

Couche sortie

Calculs effectus des entres vers les sorties

Plusieurs Couches caches Couche entre Vecteur entre Graphe complet

Paradigme dapprentissage
Vecteur sortie

Classification : Ajuster les poids en utilisant lerreur

Erreur = Valeur dsire Valeur actuelle


Vecteur entre

Algorithmes dapprentissage

Rtro-propagation du gradient (Back propagation) Kohonen RBF (Radial basis function) Rseaux de neurones probabilistes ART (Adaptive resonance theory)

Rtro-propagation du gradient
Principales tapes

Construction du rseau Reprsentation des entres Nombre de couches, nombre de noeuds dans chaque couche Apprentissage du rseau utilisant les donnes disponibles Elagage du rseau Interprtation des rsultats

Construction du rseau

Nombre de noeuds en entre : correspond la dimension des donnes du problme (attributs ou leurs codages).

Normaliser dans lintervalle [0,1]. Exemple numratif : Attribut A prenant ses valeurs {1,2,3,4,5} 5 entres valeurs binaires ; 3 = 00100 3 bits ; 3 = 010 1 entre relle ; 0, 0.25, 0.5, 0.75, 1

Construction du rseau

Nombre de couches caches : Ajuster pendant lapprentissage. Nombre de nuds par couche : Le nombre de nuds par couche est au moins gal deux et au plus gal au nombre de nuds en entre Nombre de nuds en sortie : fonction du nombre de classes associes lapplication. Rseau riche pouvoir dexpression grand (Ex. 4-2-1 est moins puissant que 4-4-1) Attention : Choisir une architecture riche mais pas trop Problme de sur-spcialisation

Apprentissage du rseau

Objectif principal : obtenir un ensemble de poids qui font que la plupart des instances de lensemble dapprentissage sont correctement classes. Etapes :

Poids initiaux sont gnrs alatoirement Les vecteurs en entre sont traits en squentiel par le rseau Calcul des valeurs dactivation des nuds cachs Calcul du vecteur de sortie Calcul de lerreur (sortie dsire sortie actuelle).

e(PMC)= 1 2 xS

(d(x)a(x))

d(x) : sortie dsire, a(x) : sortie actuelle

Apprentissage du rseau

Les poids sont mis jour en utilisant lerreur. Le nombre dinstances qui sont passs dans le rseau avant la mise jour des poids est un paramtre (entre 1 convergence rapide et minimum local - et m convergence lente -). Rtro propagation laide de la mthode de gradient. Le paramtre taux dapprentissage [0,1] influe sur la modification des poids. Valeur grande : modification forte ; Valeur petite : modification minime

Apprentissage du rseau
wi = wi + wi wi = (t - o) xi t=c(x) est la valeur dsire o est la sortie obtenue est le taux dapprentissage (e.g 0.1)

Critre darrt : la tolrance dfinit lerreur cible. et/ou Nombre dinstances bien classes (seuil)

Apprentissage du rseau

(w1,w2)

(w1+w1,w2 +w2)

Elagage du rseau

Rseau fortement connexe est difficile articuler N nuds en entre, h couches caches, et m nuds en sortie h(m+n) arcs (poids) Elagage : Supprimer les arcs et les nuds qui naffectent pas le taux derreur du rseau. Eviter le problme de sur-spcialisation (over-fitting). Ceci permet de gnrer des rgles concises et comprhensibles.

Rseaux de neurones - Avantages


Taux derreur gnralement bon Outil disponible dans les environnements de data mining Robustesse (bruit) reconnaissance de formes (son, images sur une rtine, ) Classification rapide (rseau tant construit) Combinaison avec dautres mthodes (ex : arbre de dcision pour slection dattributs)

Rseaux de neurones Inconvnients


Apprentissage trs long Plusieurs paramtres (architecture, coefficients synaptiques, ) Pouvoir explicatif faible (boite noire) Pas facile dincorporer les connaissances du domaine. Traitent facilement les attributs numriques et binaires Evolutivit dans le temps (phase dapprentissage)

Classification baysienne : Pourquoi ? (1)


Apprentissage probabiliste : calcul explicite de probabilits sur des hypothses Approche pratique pour certains types de problmes dapprentissage Incrmental : Chaque instance dapprentissage peut de faon incrmentale augmenter/diminuer la probabilit quune hypothse est correcte Des connaissances a priori peuvent tre combines avec les donnes observes.

Classification baysienne : Pourquoi ? (2)


Prdiction Probabiliste : Prdit des hypothses multiples, pondres par leurs probabilits. Rfrence en terme dvaluation : Mme si les mthodes baysiennes sont coteuses en temps dexcution, elles peuvent fournir des solutions optimales partir desquelles les autres mthodes peuvent tre values.

Classification baysienne

Le problme de classification peut tre formul en utilisant les probabilits a-posteriori : P(C|X) = probabilit que le tuple (instance) X=<x1,,xk> est dans la classe C Par exemple P(classe=N | outlook=sunny,windy=true,) Ide : affecter une instance X la classe C telle que P(C|X) est maximale

Estimation des probabilits aposteriori

Thorme de Bayes : P(C|X) = P(X|C)P(C) / P(X) P(X) est une constante pour toutes les classes P(C) = frquence relative des instances de la classe C C tel que P(C|X) est maximal = C tel que P(X|C)P(C) est maximal Problme : calculer P(X|C) est non faisable !

Classification baysienne naive


Hypothse Nave : indpendance des attributs P(x1,,xk|C) = P(x1|C)P(xk|C) P(xi|C) est estime comme la frquence relative des instances possdant la valeur xi (i-me attribut) dans la classe C Non coteux calculer dans les deux cas

Classification baysienne Exemple (1)


Estimation de P(xi|C)
P(p) = 9/14 P(n) = 5/14

Outlook P(sunny | p) = 2/9 P(overcast | p) = 4/9 P(rain | p) = 3/9 Temperature P(hot | p) = 2/9 P(mild | p) = 4/9 P(cool | p) = 3/9

P(sunny | n) = 3/5 P(overcast | n) = 0 P(rain | n) = 2/5 P(hot | n) = 2/5 P(mild | n) = 2/5 P(cool | n) = 1/5

Humidity P(high | p) = 3/9 P(high | n) = 4/5 P(normal | p) = 6/9 P(normal | n) = 1/5 Windy P(true | p) = 3/9 P(false | p) = 6/9

P(true | n) = 3/5 P(false | n) = 2/5

Classification baysienne Exemple (1)


Classification de X : Une instance inconnue X = <rain, hot, high, false> P(X|p)P(p) = P(rain|p)P(hot|p)P(high|p)P(false|p)P(p) = 3/92/93/96/99/14 = 0.010582 P(X|n)P(n) = P(rain|n)P(hot|n)P(high|n)P(false|n)P(n) = 2/52/54/52/55/14 = 0.018286 Instance X est classifie dans la classe n (ne pas

jouer)

Classification baysienne
lhypothse dindpendance
fait que le calcul est possible trouve un modle de classification optimal si hypothse satisfaite mais est rarement satisfaite en pratique, tant donn que les attributs (variables) sont souvent corrls. Pour liminer cette limitation : Rseaux baysiens, qui combinent le raisonnement baysien et la relation causale entre attributs Arbres de dcision, qui traitent un attribut la fois, considrant les attributs les plus importants en premier

Etude de cas Prdiction de structure de la protine

Les protines
Une protine = squence dacides amins dfinie par un gne et ayant une fonction spcifique dans la cellule

Building block of life


Les protines sont partout : Protines enzymatiques (catalyse) Protines de transport : hmoglobine (oxygne), albumine (corps gras) Protine messager : insuline Protines rcepteur Protines sriques : anticorps Protines structurelles : collagne dans la peau, kratine dans les cheveux,

Les protines
20 acides amins distincts, chaque acide amin tant constitu de (jusqu) 18 atomes Une squence protique est constitue de 50 2000 acides amins 3000 4000 protines dans une cellule Une protine se replie en pelote , adoptant une configuration spatiale caractristique de sa fonction

Les 20 Acides Amins


A C D E F G H I K L Ala Alanine Cys Cysteine Asp Aspartic Glu Glutamic Phe Phenylalanine Gly Glycine His Histidine Ile Isoleucine Lys Lysine Leu Leucine M N P Q R S T V W Y Met Methionine Asn Asparagine Pro Proline Gln Glutamine Arg Arginine Ser Serine Thr Threonine Val Valine Trp Tryptophan Tyr Tyrosine

20 Lettres de lalphabet

Les structures
Structure primaire = ordre dans lequel sont enchans les acides amins dans la molcule Structure secondaire = rotation des atomes de la chane peptidique les uns par rapport aux autres au cours de la synthse de la chane Structure tertiaire = rsultat de liaisons diverses (hydrogne, hydrophobes, lectrostatiques, covalentes,...) entre des acides amins de la mme chane peptidique mais non voisins dans la structure primaire

Structure primaire
O H O H O H O H O H OH OH H3N+ CH C N CH C N CH C N CH C N CH C N CH C N CH C N CH COOCH2 COOCH2 CH2 CH2 NH C NH2 N +H 2 CH H3C CH3 CH2 H C CH3 CH2 CH3 CH2 CH2 CH2 HC CH CH2 HN CH N CH2

Asp D

Arg Val Tyr Ile His Pro R V Y I H P Squence de la protine : DRVYIHPF

Phe F

Protein Folding Problem


Etant donn une squence primaire de la protine, ex., MDPNCSCAAAGDSCTCANSCTCLACKCTSCK, prdire la structure secondaire et 3D.

Base de donnes
Structures prdites (connues) :
Protein Data Bank (PDB) (centaine de structures non redondantes) [www.rcsb.org/pdb/]

Base de donnes de squences de protines :


Genbank (milliers de squences)
[www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.html]

SWISSPROT
[www.ebi.ac.uk/swissprot]

Structure secondaire
Hlice

Feuillet parallle : tous les segments ont la mme orientation Feuillet antiparallle Feuillet mixte

Structure secondaire
Hlice Feuillet parallle : tous les segments ont la mme orientation Feuillet antiparallle Feuillet mixte

Structure secondaire
Beta Hlice

Structure 3D
Permet de comprendre le mode d'action d'une protine : activit enzymatique, interaction avec d'autres protines (ligands, substrats, rcepteur, pitope, etc.).

Structure primaire

Structure secondaire / tertiaire

Rseaux de neurones
- Le processus neuronal de base traite des signaux d'entre d'un ou plusieurs neurones et envoie un signal de sortie un ou plusieurs (un 0 ou un 1) - Le signal de sortie chaque neurone rcepteur est pondr ces poids sont ajusts par entranement du modle avec des squences de structures connues - Le programme donne une valuation de fiabilit de chaque prvision base sur la force des signaux dune hlice alpha, dun feuillet bta et dune boucle
Rfrence : Rost B, Sander C (1994) Combining evolutionary information and neural networks to predict protein secondary structure. Proteins, 19, 55-72

Rseaux de neurones
Entre : structure primaire Sortie : indication sur la structure secondaire Couche cache

Entre

Sortie Efficacit > 70% Hlice Feuillet Boucle H B C

Plus proches voisins


Une liste de fragments courts de squence est faite en glissant une fentre de longueur n le long d'un ensemble d'approximativement 100-400 squence dentranement de structure connue mais de similitude minimale La structure secondaire de l'acide amin central dans chaque fentre dentranement est enregistre Une fentre coulissante de mme taille est alors choisi parmi la squence de requte

Plus proches voisins


La squence dans la fentre chaque position de la squence demande est compare chacun des fragments dentranement et les 50 meilleurs fragments apparis sont identifis Ncessit dune notion de distance Les frquences de la structure secondaire connue de l'acide amin du milieu dans chacun de ces fragments apparis (H, B et C) sont alors employs pour prvoir la structure secondaire de l'acide amin du milieu de la fentre de requte Des rgles ou un NN sont utilises pour faire la prdiction finale pour chaque AA.

Liens Web - Logiciels


http://dot.imgen.bcm.tmc.edu:9331/seqsearch/struc-predict.html http://jura.ebi.ac.uk:8888/jnet/ http://www.emblheidelberg.de/predictprotein/ http://cubic.bioc.columbia.edu/predictprot ein
(B Rost: PHD: predicting one-dimensional protein

structure by profile based neural networks. Methods in Enzymology, 266, 525-539, 1996 )

Autres mthodes de classification


Rseaux baysiens Algorithmes gntiques Case-based reasoning Ensembles flous Rough set Analyse discriminante (Discriminant linaire de Fisher,

Autres mthodes

Algorithme Closest Class Mean CCM-)

Classification - Rsum
La classification est un problme largement tudi La classification, avec ses nombreuses extensions, est probablement la technique la plus rpandue

Modles

Facile comprendre

Arbres de dcision Rgles dinduction Modles de rgression Rseaux de neurones

Difficile comprendre

Classification - Rsum
Lextensibilit reste une issue importante pour les applications Directions de recherche : classification de donnes non relationnels, e.x., texte, spatiales et donnes multimdia

Classification - Rfrences
J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufman, 1993. J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986. L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth International Group, 1984. S. M. Weiss and C. A. Kulikowski. Computer Systems that Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning, and Expert Systems. Morgan Kaufman, 1991. D. E. Rumelhart, G. E. Hinton and R. J. Williams. Learning internal representation by error propagation. In D. E. Rumelhart and J. L. McClelland (eds.) Parallel Distributed Processing. The MIT Press, 1986

Rgles dassociation

Sommaire
Exemple : Panier de la
Sommaire

mnagre Dfinitions A-Priori Algorithmes gntiques Rsum

Exemple : Analyse du panier de la mnagre


Dcouverte dassociations et de corrlations entre les articles achets par les clients en analysant les achats effectus (panier)
Lait, Oeufs, Sucre, Pain Oeufs, Sucre

Lait, Oeufs, Crale, Lait

Client 1 Client 2

Client 3

Exemple : Analyse du panier de la mnagre


Etant donne :
Une base de donnes de transactions de clients, o chaque transaction est reprsente par un ensemble darticles -set of items(ex., produits)

Trouver :
Groupes darticles (itemset) achets frquemment (ensemble)

Exemple : Analyse du panier de la mnagre


Extraction dinformations sur le comportement de clients
SI achat de riz + vin blanc ALORS achat de poisson (avec une grande probabilit)

Intrt de linformation : peut suggrer ...

Disposition des produits dans le magasin Quels produits mettre en promotion, gestion de stock,

Approche applicable dans dautres domaines


Cartes de crdit, e-commerce, Services des compagnies de tlcommunication Services bancaires Traitements mdicaux,

Rgles dassociations
Recherche de rgles dassociation :
Dcouvrir des patterns, corrlations, associations frquentes, partir densembles ditems contenus dans des base de donnes.

Comprhensibles : Facile comprendre Utiles : Aide la dcision Efficaces : Algorithmes de recherche Applications :
Analyse des achats de clients, Marketing, Accs Web, Design de catalogue, Gnomique, etc.

Rgles dassociations
Formats de reprsentation des rgles dassociation :

couches bire [0.5%, 60%] achte:couches achte:bire [0.5%, 60%] SI achte couches ALORS achte bire dans 60% de cas. Les couches et la bire sont tous deux achets dans 0.5% des transactions de la base de donnes."

Autres reprsentations (utilise dans louvrage de Han) :


achte(x, couches") achte(x, bire") [0.5%, 60%]

Rgles dassociations
couche bire [0.5%, 60%]

1 1 2 3

SI achte couche, ALORS achte bire, dans 60% de cas, dans 0.5% de la base"

Condition, partie gauche de la rgle Consquence, partie droite de la rgle Support, frquence (partie gauche et droite sont prsentes ensemble dans la base) 4 Confiance (si partie gauche de la rgle est vrifie, probabilit que la partie droite de la rgle soit vrifie)

Rgles dassociations
Support :
% dinstances de la base vrifiant la rgle.

support(A B [ s, c ]) = p(AB) = support ({A,B}) Confiance :


% dinstances de la base vrifiant limplication

confiance(A B [ s, c ]) = p(B|A) = p(AB) / p(A) = support({A,B}) / support({A})

Exemple
TID Items

1 2 3 4 5

Pain, Lait Bire, Couches, Pain, Oeufs Bire, Coca, Couches, Lait Bire, Pain, Couches, Lait Coca, Pain, Couches, Lait

{Couches , Lait} s , Bire


s=

(Couches , Lait, Bire ) 2 = = 0. 4 Nombre total d' instances 5

Rgle :

X s , y
( X y) ( s = P (X, y)) |T |

Support : s =

(Couches, Lait, Bire) = 0.66 (Couches, Lait) |

Confiance : = (X y) ( = P( y | X))
(X) |

Rgles dassociations
Support minimum : Elev peu ditemsets frquents peu de rgles valides qui ont t souvent vrifies Rduit plusieurs rgles valides qui ont t rarement vrifies peu de rgles, mais toutes pratiquement correctes

Confiance minimum : Eleve

Rduite plusieurs rgles, plusieurs dentre elles sont incertaines Valeurs utilises : = 2 - 10 %, = 70 - 90 %

Rgles dassociations
Etant donn : (1) un base de donnes de transactions, (2) chaque transaction est un ensemble darticles (items) achets
Transaction ID Items achets Itemset frquent Support

100 200 400 500

A,B,C A,C A,D B,E,F

{A} {B} et {C} {D}, {E} et {F} {A,C}

3 ou 75% 2 ou 50% 1 ou 25% 2 ou 50% Autres paires ditems max 25%

Trouver : toutes les rgles avec un support et une confiance minimum donns Si support min. 50% et confiance min. 50%, alors A C [50%, 66.6%], C A [50%, 100%]

Recherche de rgles dassociation


Donnes d entre : liste d achats Achat = liste d articles (longueur variable)


Produit Produit Produit Produit Produit A B C D E Achat 1 Achat 2 Achat 3 Achat 4 Achat 5

* * * * * * *

* * * * *

Recherche de rgles dassociation

Tableau de co-occurrence : combien de fois deux produits ont t achets ensemble ?


Produit Produit Produit Produit Produit E A B C D Produit A Produit B Produit C Produit D Produit E

4 1 1 2 1

1 2 1 1 0

1 1 1 0 0

2 1 0 3 1

1 0 0 1 2

Illustration / Exemple

Rgle d association : Si A alors B (rgle 1) Si A alors D (rgle 2) Si D alors A (rgle 3) Supports : Support(1)=20% ; Support(2)=Support(3)=40% Confiances : Confiance(2) = 50% ; Confiance(3) = 67% On prfre la rgle 3 la rgle 2.

Description de la mthode

Support et confiance ne sont pas toujours suffisants Ex : Soient les 3 articles A, B et C


A B C A et B 25% A et C 20% B et C 15% A, B et C 5% 42,5% 40%

article

frquence 45%

Rgles 3 articles : mme support 5% Confiance


Rgle : Si A et B alors C = 0.20 Rgle : Si A et C alors B = 0.25 Rgle : Si B et C alors A = 0.33

Description de la mthode

Amlioration = confiance / frq(rsultat) Comparer le rsultat de la prdiction en utilisant la rgle avec la prdiction sans la rgle Rgle intressante si Amlioration > 1
Rgle
Si A et B alors C Si A et C alors B Si B et C alors A

Confiance F(rsultat) Amlioration


0.20 0.25 0.33 40% 42.5% 45% 0.50 0.59 0.74

Rgle : Si A alors B ; support=25% ; confiance=55% ; Amlioration = 1.31 Meilleure rgle

Recherche de rgles

Soient une liste de n articles et de m achats. 1. Calculer le nombre doccurrences de chaque article. 2. Calculer le tableau des co-occurrences pour les paires d articles. 3. Dterminer les rgles de niveau 2 en utilisant les valeurs de support, confiance et amlioration. 4. Calculer le tableau des co-occurrences pour les triplets d articles. 5. Dterminer les rgles de niveau 3 en utilisant les valeurs de support, confiance et amlioration ...

Complexit Soient :

n : nombre de transactions dans la BD m : Nombre dattributs (items) diffrents

Complexit

Nombre de rgles dassociation : Complexit de calcul : (n.m.2m )

(m.2m 1 )

Rduction de la complexit

n de lordre du million (parcours de la liste ncessaire) Taille des tableaux en fonction de m et du nombre d articles prsents dans la rgle

n 100 10000

2 3 n(n-1)/2 n(n-1)(n-2)/6 4950 5.107 161 700 1.7 1011

4 n(n-1)(n-2)(n-3)/24 3 921 225 4.2 1014

Conclusion de la rgle restreinte un sous-ensemble de l ensemble des articles vendus. Exemple : articles nouvellement vendues. Cration de groupes d articles (diffrents niveaux dabstraction). Elagage par support minimum.

Illustration sur une BD commerciale


Attribut Pain Coca Lait Bire Couches Oeufs Compteur 4 2 4 3 4 1

Attributs (1-itemsets)
Itemset Compteur {Pain,Lait} 3 {Pain,Bire} 2 {Pain,Couches} 3 {Lait,Bire} 2 {Lait,Couches} 3 {Bire,Couches} 3

paires (2-itemsets)

Support Minimum = 3

Triplets (3-itemsets)
Itemset {Pain,Lait,Couches} {Lait,Couches,Bire} Compteur 3 2

Si tout sous-ensemble est considr, C61 + C62 + C63 = 41 En considrant un seuil support min, 6 + 6 + 2 = 14

Lalgorithme Apriori [Agrawal93]

Deux tapes Recherche des k-itemsets frquents (supportMINSUP)


(Pain, Fromage, Vin) = 3-itemset Principe : Les sous-itemsets dun k-itemset frquent sont obligatoirement frquents

Construction des rgles partir des k-itemsets trouvs


Une rgle frquente est retenue si et seulement si sa confiance c MINCONF Exemple : ABCD frquent AB CD est retenue si sa confiance MINCONF

Recherche des k-itemsets frquents (1)

Exemple

I = {A, B, C, D, E, F} T = {AB, ABCD, ABD, ABDF, ACDE, BCDF} MINSUP = 1/2 C1 = I = {A,B,C,D,E,F} // C1 : ensemble de 1-itemsets candidats s(A) = s(B) = 5/6, s(C) = 3/6, s(D) = 5/6, s(E) = 1/6, s(F) = 2/6 L1 = {A, B, C, D} C2 = L1xL1 = {AB,AC, AD, BC, BD, CD} s(AB) = 4/6, s(AC) = 2/6, s(AD) = 4/6, s(BC) = 2/6, s(BD) = 4/6, s(CD) = 3/6 L2 = {AB,AD, BD, CD}

Calcul de L1 (ensemble des 1-itemsets)


Calcul de L2 (ensemble des 2-itemsets)


Recherche des k-itemsets frquents (2)

Calcul de L3 (ensemble des 3-itemsets)


C3 = {ABD} (ABC C3 car AC L2) s(ABD) = 3/6 L3 = {ABD}

Calcul de L4 (ensemble des 4-itemsets) C4 = L4 = Calcul de L (ensembles des itemsets frquents)

L = Li = {A, B, C, D, AB, AD, BD, CD, ABD}

Lalgorithme Apriori
L1 = {1-itemsets frquents}; for (k=2; Lk-1 ; k++) do Ck = apriori_gen(Lk-1); forall instances tT do Ct = subset(Ck,t); forall candidats c Ct do c.count++; Lk = { c Ck / c.count MINSUP } L = iLi;

La procdure Apriori_gen
{ Jointure Lk-1 * Lk-1 ; k-2 lments communs} insert into Ck; select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1p, Lk-1q where p.item1=q.item1, , p.itemk-2=q.itemk-2 , p.itemk-1< q.itemk-1 forall itemsets c Ck do forall (k-1)-itemsets sc do if sLk-1 then delete c from Ck;

Apriori - Exemple
Base de donnes D
TID 100 200 300 400 Items 134 235 1235 25

C1
itemset sup. {1} 2 3 Scan D {2} {3} 3 {4} 1 {5} 3

L1
itemset sup. {1} 2 {2} 3 {3} 3 {5} 3

Apriori - Exemple

C2

C2

L2
itemset {1 3} {2 3} {2 5} {3 5} sup 2 2 3 2

itemset itemset sup {1 2} {1 2} 1 {1 3} {1 3} 2 Scan D {1 5} 1 {1 5} {2 3} 2 {2 3} {2 5} 3 {2 5} {3 5} 2 {3 5}

Apriori - Exemple

C3

L3

itemset {2 3 5}

Scan D

itemset sup {2 3 5} 2

Apriori - Exemple
Espace de recherche

12345 1234 1235 1245 1345 2345

123 124 12 13

125 134 135 145 234 235 245 345 14 1 15 2 23 3 24 25 4 34 5 35 45

Apriori - Exemple
Apriori au Niveau 1

12345 1234 1235 1245 1345 2345

123 124 12 13

125 134 135 145 234 235 245 345 14 1 15 2 23 3 24 25 4 34 5 35 45

Apriori - Exemple
Apriori au niveau 2

12345 1234 1235 1245 1345 2345

123 124 12 13

125 134 135 145 234 235 245 345 14 1 15 2 23 3 24 25 4 34 5 35 45

Gnration des rgles partir des itemsets


Pseudo-code :
pour chaque itemset frquent l gnrer tous les sous-itemsets non vides s de l pour chaque sous-itemset non vide s de l produire la rgle "s (l-s)" si support(l)/support(s) min_conf", o min_conf est la confiance minimale Exemple : itemset frquent l = {abc}, Sous-itemsets s = {a, b, c, ab, ac, bc) a bc, b ac, c ab ab c, ac b, bc a

Gnration des rgles partir des itemsets


Rgle 1 mmoriser :
La gnration des itemsets frquents est une opration coteuse La gnration des rgles dassociation partir des itemsets frquents est rapide

Rgle 2 mmoriser :
Pour la gnration des itemsets, le seuil support est utilis. Pour la gnration des rgles dassociation, le seuil confiance est utilis.

Complexit en pratique ?
A partir dun exemple rel (petite taille) Expriences ralises sur un serveur Alpha Citum 4/275 avec 512 MB de RAM & Red Hat Linux release 5.0 (kernel 2.0.30)

Exemple de performances
Network NetworkManagement ManagementSystem System MSC MSC BSC BSC BTS BTS Alarms Alarms MSC MSC BSC BSC BTS BTS MSC MSC BSC BSC BTS BTS Rseau switch

Rseau daccs
MSC MSC Mobile station controller BSC BSC Base station controller BTS BTS Base station transceiver

Rseau cellulaire

Exemple de performances
Donnes tlcom contenant des alarmes : 1234 EL1 PCM 940926082623 A1 ALARMTEXT..
Alarm type Date, time Alarming network element Alarm number Alarm severity class

Exemple de donnes 1 :
43 478 alarmes (26.9.94 - 5.10.94; ~ 10 jours) 2 234 diffrent types dalarmes, 23 attributs, 5503 diffrentes valeurs

Exemple de donnes 2 :
73 679 alarmes (1.2.95 - 22.3.95; ~ 7 semaines) 287 diffrent types dalarmes, 19 attributs, 3411 diffrentes valeurs

Exemple de performances
Ensemble donnes 1 (~10 jours) Ensemble donnes 2 (~7 semaines)

Exemple de rgles : alarm_number=1234, alarm_type=PCM alarm_severity=A1 [2%,45%]

Exemple de performances
Exemple de rsultats pour les donnes 1 :
Seuil de frquence : Itemsets candidats : Itemsets frquents : Rgles : 0.1 109 719 79 311 3 750 000 Temps: 12.02 s Temps: 64 855.73 s Temps: 860.60 s

Exemple de rsultats pour les donnes 2 :


Seuil de frquence : Itemsets candidats : Itemsets frquents : Rgles : 0.1 43 600 13 321 509 075 Temps: 1.70 s Temps: 10 478.93 s Temps: 143.35 s

Apriori - Complexit
Phase coteuse : Gnration des candidats
Ensemble des candidats de grande taille : 104 1-itemset frquents gnrent 107 candidats pour les 2itemsets Pour trouver un itemset de taille 100, e.x., {a1, a2, , a100}, on doit gnrer 2100 1030 candidats. Multiple scans de la base de donnes : Besoin de (n +1 ) scans, n est la longueur de litemset le plus long

Apriori - Complexit
En pratique :
Pour lalgorithme Apriori basique, le nombre dattributs est gnralement plus critique que le nombre de transactions Par exemple :
50 attributs chacun possdant 1-3 valeurs, 100.000 transactions (not very bad) 50 attributs chacun possdant 10-100 valeurs, 100.000 transactions (quite bad) 10.000 attributs chacun possdant 5-10 valeurs, 100 transactions (very bad...)

Notons :
Un attribut peut avoir plusieurs valeurs diffrentes Les algorithmes traitent chaque paire attribut-valeur comme un attribut (2 attributs avec 5 valeurs 10 attributs

Quelques pistes pour rsoudre le problme

Apriori Rduction de la complexit


Suppression de transactions :

Une transaction qui ne contient pas de k-itemsets frquents est inutile traiter dans les parcours (scan) suivants.

Partitionnement :

Tout itemset qui est potentiellement frquent dans une BD doit tre potentiellement frquent dans au moins une des partitions de la BD.

Echantillonage :

Extraction partir dun sous-ensemble de donnes, dcroitre le seuil support

Apriori - Avantages

Rsultats clairs : rgles faciles interprter. Simplicit de la mthode Aucune hypothse pralable (Apprentissage non supervis) Introduction du temps : mthode facile adapter aux sries temporelles. Ex : Un client ayant achet le produit A est susceptible d acheter le produit B dans deux ans.

Apriori - Inconvnients

Cot de la mthode : mthode coteuse en temps Qualit des rgles : production dun nombre important de rgles triviales ou inutiles. Articles rares : mthode non efficace pour les articles rares. Adapt aux rgles binaires Apriori amlior

Variantes de Apriori : DHP, DIC, etc. Partition [Savasere et al. 1995] Eclat et Clique [Zaki et al. 1997]

Typologie des rgles


Rgles dassociation binaires

Forme : if C then P. Forme : if C then P


C,P : ensembles dobjets

Rgles dassociation quantitatives

C = terme1 & terme2 & & termen P = termen+1 termei = <attributj, op, valeur> ou <attributj, op, valeur_de, valeur_a>

Classes : valeurs de P Exemple : if ((Age>30) & (situation=mari)) then prt=prioritaire Forme : if C then P, P=p1, p2, , pm P: attribut but

Rgles de classification gnralise

etc.

Classification gnralise par Algorithmes Gntiques

Problmatique
Q Dcouvrir dans une large BD quelques

rgles intressantes Si C Alors P

petites

C = terme1 & terme2 ... & termen (nMAXTERM) termei =1..n <attribut=valeur> / valeur est numratif P = terme <attribut but=valeur> attribut but GoalsSet (dfini par lutilisateur)

Q Exemple : SI (Situation=Single) and (Age=Young) THEN


(Recommandation=Very_recommand)

Les algorithmes gntiques


J. Holland (1975) Principes
Codage des solutions Oprateurs
Gnration suivante Mutation Croisement Population Slection Parents Elitisme

Slection Croisement (Crossover) Mutation

Enfants

Situation Single

Age Young

Recommandation Very_recommand

Lalgorithme Gntique
Sous-population K

Sous-population 1

C11

C1N P1

...

P1

...

Ck1

CkN Pk

...

Pk

Suppression Crossover Mutation Remplacement Evaluation

petites

rgles Suppression
Crossover Mutation Remplacement Evaluation

quelques rgles intressantes


(Fitness function) (Fitness function)

BD

Fitness (Intrt dune rgle)


C b) G ( Rule ) = b . log( a N
C & P P a = ,b = N C

[Wang et al. 98]

1 .G ( Rule
F ( Rule ) =

pu ) + 2. t 2

1+

[Freitas 99]

Oprateurs gntiques : Crossover (1) Deux parents P1 et P2 ont un ou plusieurs attributs commun(s) dans leurs parties C
Slection alatoire dun terme Permutation de leurs valeurs

Exemple :

P1 : (Marital_status=married) (Gender=male) P2 : (Marital_status= single) (Salary=high) Enfant1 : (Marital_status=single) (Gender=male). Enfant2 : (Marital_status=married) (Salary=high).

Oprateurs gntiques : Crossover (2) P1,P2 nont aucun attribut commun dans C
Slection alatoire dun terme dans P1 Insertion dans P2
Proba = (MAXTERM - K)/MAXTERM K: Nombre de termes dans la partie C de P2

Vice versa

Exemple :

P1 : (Marital_status=married) (Gender=male) P2 : (Age = young) (Salary=high) E1 : (Marital_status=married) (Gender=male) (Age=young) E2 : (Marital_status=married) (Salary=high)

(Gender=male)

Oprateurs gntiques : Mutation (1)


Deux types de mutation
Mutation dattributs Mutation de valeurs dattributs

Le type de mutation est choisi alatoirement Mutation dattribut


Remplacement dun attribut par un autre (choix alatoire) La valeur du nouvel attribut est choisie alatoirement Exemple :
P : (Marital_status=married) (Gender=male) Enfant : (Age=young) (Gender=male)

Oprateurs gntiques : Mutation (2)


Mutation de valeur dattribut
Slection dun attribut alatoirement Remplacement de sa valeur par une autre choisie alatoirement

Exemple :

Parent : (Marital_status=married) (Gender=male) Enfant : (Marital_status=single) (Gender=male)

Oprateurs gntiques : Suppression

Suppression de termes

But : rgles plus faciles comprendre (petites) Suppression dun terme choisi alatoirement avec une probabilit proportionnelle sa longueur Exemple :
(Age=young) E : (Marital_status=married) (Gender=male)
P : (Marital_status=married) (Gender=male)

Application
BD : Nursery school
Q Q

From http://www.ics.uci.edu/AI/ML/Machine-Learning.html 12960 data instances with 9 attributes


Attribute name Parents Has_nurs Form Children Housing Finance Social Health Recommendation Attribute values Usual, pretentious, great_pret Proper, less_proper, improper, critical, very_crit Complete, completed, incomplete, foster 1, 2, 3, more Convenient, less_conv, critical Convenient, inconv Nonprob, slightly_prob, problematic Recommended, priority, not_recom Recommend, priority, not_recom, very_recom

1 2 3 4 5 6 7 8 9

Hardware platform
Q

Paramtres de lAG
3 attributs buts Q MAXTERM=5 Q 150 individus /3 sous-populations
Q

SGI/IRIX (100MHz R4600, 32MB RAM, 549MB disque)

Evaluation exprimentale (1)


Publication
N. Melab and E-G. Talbi. A Parallel Genetic Algorithm
for Rule Mining. IEEE Intl. Workshop on Bio-Inspired Solutions to Parallel Processing Problems (BioSP3), San Francisco, USA, Apr. 23, 2001.

Evaluation de lAG
Qualit des rgles extraites Paramtres mesurs : Validit : facteur de confiance des rgles

C&P FC = C

Evaluation exprimentale (2)


Rgle R1 R2 R3 R4 R5 R6 R7 R8 Moyenne |C| 18 6 288 18 18 54 57 162 |P| 1296 1296 196 864 864 864 864 864 |C&P| 9 3 124 18 18 18 18 54 FCTrain FCTest 0.500000 0.500000 0.500000 0.500000 0.430556 0.000000 1.000000 1.000000 1.000000 1.000000 0.333333 0.333333 0.333333 0.333333 0.333333 0.333333 0.552500 0.4987500

FC mesurs
Sur les donnes dapprentissage (20%) : FCtrain Sur les donnes de test (80%) : Fctest

Exemple : R4 : SI ((parents=usual) && (health=not_recomm))

ALORS (recommandation=not_recomm)

Technique Puces ADN


Avantage principal des techniques Puces ADN
Permet lanalyse simultane dexpressions de milliers de gnes dans une seule exprience

Processus Puces AND


Arrayer Exprience : Hybridation Capture des images rsultats Analyse

Analyse de lexpression de gnes : Technologie Puces ADN


Des robots alignent les ESTs (Expressed Sequence Tags) sur les lames de microscopes cellules mRNA marques par des tags fluorescents Liaison mRNA - cDNA exprime (fluorescence) indique que le gne est actif

Ressources

Objectif de Microarray Mining


Analyse des expressions de gnes sous diffrentes conditions
test gene 1 2 3 4 .. .. 1000 A 0.6 0.2 0 0.7 .. .. 0.3 B 0.4 0.9 0 0.5 .. .. 0.8 C 0.2 0.8 0.3 0.2 .. .. 0.7 .

Objectif du Microarray Mining


Analyse des expressions de gnes sous diffrentes conditions
test gne 1 2 3 4 .. .. 1000 A 0.6 0.2 0 0.7 .. .. 0.3 B 0.4 0.9 0 0.5 .. .. 0.8 C 0.2 0.8 0.3 0.2 .. .. 0.7 .

Clustering de gnes
Genes participating in the same pathway are most likely expression at same time.

Rgles dassociation
Gene1, Gene2, Gene3, Gene4, Gene5. Gne reprsentant la consquence ?

Chaque condition (microarray) est une instance. Gnes reprsentent les itemsets. Rgles dassociation avec confiance leve (100%?) Gnes cibles = consquence des rgles
Positive regulation

Gene 1

Gene 2

Gene 3
Negative regulation

Gene 4

Gene x

Exprimentations
Ensemble de donnes
SourceLawrence Berkeley National Lab (LBNL) Michael Eisen's Lab http://rana.lbl.gov/EisenData.htm Donnes dexpression Microarray de yeast saccharomyces cerevisiae, contenant 6221 gnes sous 80 conditions

Rgles dassociation Rsum


Probablement la contribution la plus significative de la communaut KDD Mthodes de recherche de rgles :
A-priori Algorithmes gntiques

Plusieurs articles ont t publis dans ce domaine

Rgles dassociation Rsum


Plusieurs issues ont t explores : intrt dune rgle, optimisation des algorithmes, paralllisme et distribution, Directions de recherche : Rgles dassociations pour dautres types de donnes : donnes spatiales, multimedia, sries temporelles,

Rgles dassociation - Rfrences


R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. SIGMOD'93, 207-216, Washington, D.C. S. Brin, R. Motwani, and C. Silverstein. Beyond market basket: Generalizing association rules to correlations. SIGMOD'97, 265-276, Tucson, Arizona. M. Klemettinen, H. Mannila, P. Ronkainen, H. Toivonen, and A.I. Verkamo. Finding interesting rules from large sets of discovered association rules. CIKM'94, 401-408, Gaithersburg, Maryland. H. Mannila, H. Toivonen, and A. I. Verkamo. Efficient algorithms for discovering association rules. KDD'94, 181-192, Seattle, WA, July 1994. G. Piatetsky-Shapiro. Discovery, analysis, and presentation of strong rules. In G. Piatetsky-Shapiro and W. J. Frawley, editors, Knowledge Discovery in Databases, 229-238. AAAI/MIT Press, 1991.

Outils pour le Data Mining

Comment Choisir un outil ?


Systmes commerciaux de data mining possdent peu de proprits communes : Diffrentes mthodologies et fonctionalits de data mining Diffrents types densembles de donnes Pour la slection dun outil, on a besoin dune analyse multicritre des systmes existants

Comment Choisir un outil ?


Types de donns : relationnel, transactionnel, texte, squences temporelles, spaciales ? Issues systmes Support systmes dexploitation ? Architecture client/serveur ? Fournit une interface Web et permet des donnes XML en entre et/ou en sortie ? Sources des donnes : Fichiers texte ASCII, sources de donnes relationnels multiples, Support ODBC (OLE DB, JDBC) ?

Comment Choisir un outil ?

Fonctionalits et mthodologies une vs. plusieurs fonctions de data mining une vs. plusieurs mthodes par fonction Couplage avec les systmes de gestion de base de donnes et les entropots de donnes Outils de visualization : visualisation des donnes, visualisation des rsultats obtenus, visualisation du processus, visualisation interactive (split attribut, ), etc.

Comment Choisir un outil ?


Extensibilit (Scalability) instances (Taille de la base de donnes) attributs (dimension de la base) Extensibilit en terme dattributs est plus difficile assurer que lextensibilit en terme dinstances Langage de requte et interface graphique (IHM) easy-to-use et qualit de linterface data mining interactif

Exemple doutils (1)

Intelligent Miner dIBM


Intelligent Miner for Data (IMA) Intelligent Miner for Text (IMT) Tches : groupage de donnes, classification, recherche dassociations, etc. SAS : longue exprience en statistiques Outil complet pour le DM Trois techniques : rseaux de neurones, arbres de dcision et rgression. Client-Serveur

Entreprise Miner de SAS


Darwin de Thinking Machines


Exemples doutils (2)

MineSet de Silicon Graphics


Fonctionnalits interactives et graphiques Techniques sous-jacentes : classification, segmentation, recherche de rgles dassociation. SIPINA WEKA Kit de programmes : mthodes statistiques, segmentation, groupage, rseaux de neurones, etc. Il existe une version en java

Outils/librairies libres

Data-Miner Software Kit (DMSK)


etc.

SAS Entreprise Miner (1)


Socit : SAS Institute Inc. Cration : Mai 1998 Plate-formes : Windows NT & Unix Utilisation
Rduction des cots Matrise des risques Fidlisation Prospection

Outils de data warehouse

SAS Entreprise Miner (2)


Interface graphique (icnes) Construction dun diagramme

SAS Entreprise Miner (3)


Deux types dutilisateurs
Spcialistes en statistiques Spcialistes mtiers (chef de projet, tudes)

Techniques implmentes
Arbres de dcision Rgression Rseaux de neurones

Alice (1)
Socit : ISoft Cration : 1988 Plate-formes : Windows 95/98/NT/2000, TSE, Metaframe Utilisation

Marketing : tudes de march, segmentation Banque, Assurance : scoring, analyse de risques, dtection de fraudes Industrie : contrle qualit, diagnostic, segmentation, classification, construction de modles, prdiction et simulation

Alice (2)
Interface graphique (tools)

Type dutilisateur : responsables oprationnels

Clementine (1)
Socit : ISL (Integral Solutions Limited) Cration : 1994 Plate-formes : Windows NT, Unix Utilisation
Prvision de parts de march Dtection de fraudes Segmentation de march Implantation de points de vente

Environnement intgr : #Types dutilisateurs

Gens du mtier (pas forcement des informaticiens) Dveloppeurs / End users

Clementine (2)
Interface simple, puissante et complte interface conviviale

Clementine (3)
Techniques :
Arbres de dcision Induction de rgles Rseaux de neurones Mthodes statistiques

Forecast Pro (1)


Socit : Business Forecast Systems Cration : 1997 Plate-formes : Windows 95, NT Utilisation
Tous domaines activits et secteurs Notamment la prvision (5 types diffrents)

Outil danalyse incomparable Le plus utilis dans le monde

Forecast Pro (2)


Types dutilisateurs : PME/PMI, administrations, consultants, universitaires, chefs de projets, Facilit dutilisation (connaissances en statistiques non requises) Vaste palette de choix graphiques
Valeurs observes, prvisions, valeurs calcules sur l'historique, intervalles de confiance, diagnostics (erreurs)

Forecast Pro (3)

Intelligent Miner (1)


Socit : IBM Cration : 1998 Plate-formes : AIX, OS/390, OS/400, Solaris, Windows 2000 & NT Utilisation
Domaines o laide la dcision est trs importante (exemple : domaine mdical) Analyse de textes

Fortement coupl avec DB2 (BD relationnel)

Intelligent Miner (2)


Deux versions
Intelligent Miner for Data (IMD) Intelligent Miner for Text (IMT)

Types dutilisateurs : spcialistes ou professionnels expriments Parallel Intelligent Miner

Intelligent Miner (3)


LIMD
Slection et codage des donnes explorer Dtermination des valeurs manquantes Agrgation de valeurs Diverses techniques pour la fouille de donnes
Rgles dassociation (Apriori), classification (Arbres de dcision, rseaux de neurones), clustering, dtection de dviation (analyse statistique & visualisation)

Visualisation des rsultats Algorithmes extensibles (scalability)

Intelligent Miner (4)


IMT = analyse de textes libres Trois composants
Moteur de recherche textuel avanc (TextMiner) Outil d'accs au Web (moteur de recherche NetQuestion et un mta-moteur) Outil d'analyse de textes (Text Analysis)

L'objectif gnral est de faciliter la comprhension des textes

Intelligent Miner (5)

MineSet (1)
Socit : SGI (Silicon Graphics Inc.) Cration : 1996 Plate-forme : Silicon Graphics Utilisation
Services financiers Prise de dcisions

Algorithmes de visualisation avancs

MineSet (2)
Interface visuelle 3D

MineSet (3)
Interface graphique client/serveur
Tool Manager (Client) DataMover (Server)

Utilisateurs
Managers Analystes

MineSet (4)
Tches
Rgles dassociation Classification

Prsentation de la connaissance
Arbre Statistiques Clusters (nuages de points)

Synthse

Autres techniques de Data Mining


Web mining (contenu, usage, ) Visual data mining (images) Audio data mining (son, musique) Data mining et requtes dinterrogation intelligentes

Visualisation de donnes
Donnes dans un base de donnes ou un entropot de donnes peuvent tre visualises : diffrents niveaux de granularit ou dabstraction A laide de diffrentes combinaisons dattributs ou dimensions Rsultats des outils de Data Mining peuvent tre prsentes sous diverses formes visuelles

Box-plots dans StatSoft

Scatter-plots dans SAS Enterprise Miner

Rgles dassociation dans MineSet 3.0

Arbres de dcision dans MineSet 3.0

Clusters dans IBM Intelligent Miner

Rsum
Data mining : dcouverte automatique de patterns intressants partir densembles de donnes de grande taille KDD (Knowledge discovery) est un processus : pr-traitement data mining post-traitement Domaines dapplication : distribution, finances, biologie, mdecine, tlcommunications, assurances, banques, ...

Rsum
Linformation peut tre extraite partir de diffrentes types de bases de donnes (relationnel, orient objet, spatial, WWW, ...) Plusieurs fonctions de data mining (diffrents modles) : clustering, classification, rgles dassociation, ... Plusieurs techniques dans diffrents domaines : apprentissage, statistiques, IA, optimisation, ....

Rsum
Plusieurs problmes ouverts : Visualisation Paralllisme et distribution Issues de scurit et confidentialit Futur prometteur

Rfrences bibliographiques (1)

Georges Gardarin

Universit de Versailles (laboratoire PRISM) Internet/intranet et bases de donnes Data Web, Data Warehouse, Data Mining, Ed. Eyrolles http://torquenada.prism.uvsq.fr/~gardarin/home.html IBM Almaden Research Center http://www.almaden.ibm.com/cs/people/ragrawal/ Rensselaer Polytechnic Institute, New York http://www.cs.rpi.edu/~zaki/

Rakesh Agrawal (IBM)


Mohammed Zaki

Rfrences bibliographiques (2)


Vipin Kumar

Army High Performance Computing Research Center http://www-users.cs.umn.edu/~kumar Dcouverte de connaissances partir de donnes, polycopi (Universit de Lille 3) http://www.univ-lille3.fr/grappa http://www.cs.bham.ac.uk/~anp/TheDataMine.html www.kdnuggets.com

Rmi Gilleron

The Data Mine

Knowledge Discovery Nuggets (Kdnuggets)

Rfrences bibliographiques (3)

"Data Mining: Concepts and Techniques by Jiawei Han and Micheline Kamber, Morgan Kaufmann Publishers, August 2000. 550 pages. ISBN 1-55860-489-8

Confrences - Historique

1989 Workshop IJCAI 1991-1994 Workshops KDD 1995-1998 Confrences KDD 1998 ACM SIGKDD 1999- Confrences SIGKDD Et plusieurs nouvelles confrences DM
PAKDD, PKDD SIAM-Data Mining, (IEEE) ICDM etc.

Confrences - Journaux

Standards Standards
DM:
Confrences : KDD, PKDD, PAKDD, ... Journaux : Data Mining and Knowledge Discovery, CACM Journaux : ACM-TODS, J. ACM, IEEE-TKDE, JIIS, ...

DM/DB: Confrences : ACM-SIGMOD/PODS, VLDB, ... AI/ML:


... ...

Confrences : Machine Learning, AAAI, IJCAI, Journaux : Machine Learning, Artific. Intell.,

Você também pode gostar