Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Mining
Techniques dextraction des connaissances
Module 4.1 - Management et NTIC Professeur : Mlissa Saadoun Projet soutenu le 16 fvrier 2004
I.1.1. Historique
Le concept de data warehouse (entrept de donnes) a t formalis pour la premire fois en 1990. Lide de constituer une base de donnes oriente sujet, intgre, contenant des informations dates, non volatiles et exclusivement destines aux processus daide la dcision, fut dans un premier temps accueillie avec une certaine perplexit. Beaucoup ny voyaient que l'habillage dun concept dj ancien : linfocentre. Mais lconomie actuelle en a dcid autrement. Les entreprises sont confrontes une concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte organisationnel de plus en plus complexe et mouvant. Pour faire face aux nouveaux enjeux conomiques, lentreprise doit anticiper. Lanticipation ne peut tre efficace quen sappuyant sur de linformation pertinente. Cette information est la porte de toute entreprise qui dispose dun capital de donnes gres par ses systmes oprationnels et qui peut en acqurir dautres auprs de fournisseurs externes. Mais actuellement, les donnes sont surabondantes, non
organises dans une perspective dcisionnelle et parpilles dans de multiples systmes htrognes. Pourtant, les donnes reprsentent une mine dinformations. Il devient fondamental de rassembler et dhomogniser les donnes afin de permettre danalyser les indicateurs pertinents pour faciliter les prises de dcisions. Pour rpondre ces besoins, le nouveau rle de linformatique est de dfinir et dintgrer une architecture qui serve de fondation aux applications dcisionnelles : le data warehouse (DW).
I.1.2. Dfinition
Le DW est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision. Commentons cette dfinition : Orientes sujet Le DW est organis autour des sujets majeurs de lentreprise, contrairement aux donnes des systmes de production. Ceux-ci sont gnralement organiss par processus fonctionnels. Les donnes sont structures par thme. Lintrt de cette organisation est de disposer de lensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise. Cette orientation sujet va galement permettre de dvelopper son systme dcisionnel via une approche par itrations successives, sujet aprs sujet. Lintgration dans une structure unique est indispensable car les informations communes plusieurs sujets ne doivent pas tre dupliques. Dans la pratique, une structure supplmentaire appele Data Mart (magasin de donnes) peut tre cre pour supporter lorientation sujet. Donnes intgres Un DW est un projet dentreprise. Par exemple dans la distribution, le mme indicateur de chiffre daffaires intressera autant les forces de vente que le dpartement financier ou les acheteurs. Pour y parvenir, les donnes doivent tre intgres. Avant dtre intgres dans le DW, les donnes doivent tre mises en forme et unifies afin davoir un tat cohrent. Par exemple, la consolidation de lensemble des informations concernant un client donn est ncessaire pour donner une vue homogne de ce client. Une donne doit avoir une description et un codage unique. Cette phase dintgration est trs complexe et reprsente 60 90% de la charge totale dun projet. Donnes historises Dans un systme de production, la donne est mise jour chaque nouvelle transaction. Dans un DW, la donne ne doit jamais tre mise jour. Un rfrentiel temps doit tre associ la donne afin dtre capable didentifier une valeur particulire dans le temps.
Donnes non volatiles La non volatilit des donnes est en quelque sorte une consquence de lhistorisation. Une mme requte effectue quelques mois dintervalle en prcisant la date de rfrence de linformation recherche donnera le mme rsultat.
Aux quipes dadministration de la base de donnes (structure de la base implmentant le DW). Aux quipes de production (procdures de changement, historique de MAJ). Les donnes historises Un des objectifs du DW est de conserver en ligne les donnes historises. Chaque nouvelle insertion de donnes provenant du systme de production ne dtruit pas les anciennes valeurs, mais cre un nouvelle occurrence de la donne. Le support de stockage dpend du volume des donnes, de la frquence daccs, du type daccs. Les supports les plus couramment utiliss sont les disques, les disques optiques numriques, les cassettes. La logique daccs aux donnes la plus utilise est la suivante : les utilisateurs commencent attaquer les donnes par le niveau le plus agrg, puis approfondissent leur recherche vers les donnes les plus dtailles (drill down). Laccs des donnes se fait galement directement par les donnes dtailles et historises, ce qui conduit des brassages de donnes lourds, demandant des machines trs puissantes. Le DW est une russite dans une entreprise lorsque le nombre dutilisateur accdant aux donnes de dtail augmente.
En effet, dans les entreprises, des DM isols peuvent prolifrer. Ces entreprises risquent de retomber dans le pige dune architecture compose de multiples systmes dcisionnels incohrents, contenant des informations redondantes. Cela cote plus cher et cest plus complexe grer quun DW centralis. Les entreprises amricaines, plus en avance que les entreprises europennes, en ont fait les frais. Les DM rsolvent les problmes de performance des gros DW. Mais ils font rgresser vers le vieux problme des lots isols. Les entreprises vont devoir affronter des problmes techniques complexes et coteux pour remettre en cohrence les ensembles. Fdrer des DM ou les faire voluer vers une structure centralise nest pas facile. On peut se poser la question sil est prfrable de btir un gros et unique DW ou bien de concevoir un rservoir plus modeste, nourri par les donnes dun seul dpartement. Il est intressant de commencer par un DM, condition de respecter certaines rgles : Impliquer les utilisateurs. Ne pas construire de multiples Data Marts isols. Bannir les redondances.
10
Vue multidimensionnelle L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple lorsqu'il souhaite analyser les ventes par produit mais aussi par rgion ou par priode. Ces modles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere). Transparence du serveur OLAP diffrents types de logiciels Cette transparence se traduit pour l'utilisateur par un complment ses outils habituels garantissant ainsi sa productivit et sa comptence. Elle s'appuie sur une architecture ouverte permettant l'utilisateur d'implanter le systme OLAP sans affecter les fonctionnalits du systme central. Par ailleurs, l'utilisateur ne doit pas tre concern par l'intgration des donnes dans OLAP provenant d'un environnement homogne ou htrogne. Accessibilit de nombreuses sources de donnes Le systme OLAP doit donner accs aux donnes ncessaires aux analyses demandes. Les outils OLAP doivent avoir leur propre schma logique de stockage des donnes physiques htrognes, doivent accder aux donnes et raliser n'importe quelle conversion afin de prsenter l'utilisateur une vue simple et cohrente. Ils doivent aussi savoir de quel type de systmes proviennent les donnes. Performance du systme de Reporting L'augmentation du nombre de dimensions ou du volume de la base de donnes ne doit pas entraner de dgradation visible par l'utilisateur. Architecture Client/Serveur La plupart des donnes pour OLAP sont stockes sur des gros systmes et sont accessibles via des PC. Il est donc ncessaire que les produits OLAP soient capables de travailler dans un environnement Client/Serveur. Dimensions Gnriques Toutes les dimensions doivent tre quivalentes en structure et en calcul. Il ne doit exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique une dimension doit tre aussi capable de s'appliquer une autre dimension. Gestion dynamique des matrices creuses Le schma physique des outils OLAP doit s'adapter entirement au modle d'analyse spcifique cr pour optimiser la gestion des matrices creuses. En effet, dans une analyse la fois sur les produits et les rgions, tous les produits ne sont pas vendus dans toutes les rgions.
11
Support Multi-Utilisateurs Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse. Support Multi-Utilisateurs Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse. Calculs travers les dimensions Les oprations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire intervenir l'utilisateur pour dfinir un calcul hirarchique. Manipulation intuitive des donnes Toute manipulation doit tre accomplie via une action directe sur les cellules du modle sans utiliser de menus ou des chemins multiples travers l'interface utilisateur. Souplesse et facilit de constitution des rapports La cration des rapports dans les outils OLAP doit permettre aux utilisateurs de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats en fonction de l'orientation du modle. Nombre illimit de niveaux d'agrgation et de dimensions Tout outil OLAP doit grer au moins 15 20 dimensions. D'aprs EF CODD & Associates, les SGBD Relationnels n'ont jamais t conus pour fournir les puissantes fonctions de synthse, d'analyse et de consolidation communment appeles analyse multidimensionnelle des donnes. Ces types de fonctions ont toujours t prvus pour tre fournis par des outils spars, orients utilisateurs et complmentaires des SGBD Relationnels. Les tables vont tre transformes en un hypercube de donnes. Les donnes vont pouvoir tre visualises sous diffrents angles grce aux vues multidimensionnelles. OLAP, parce qu'il associe des mcanismes de navigation aux donnes, permet d'effectuer des analyses de manire interactive, l'oppos du requteur pour qui chaque requte est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prdfini, limitant ds lors l'autonomie potentielle de l'utilisateur. De ce fait requtes et outils OLAP doivent tre considrs comme complmentaires plutt que concurrents.
12
MOLAP agrge tout par dfaut. Plus le volume de donnes grer est important, plus les principes d'agrgations implicites proposs par MOLAP sont pnalisants dans la phase de chargement de la base, tant en terme de performances que de volume. La limite frquemment voque pour MOLAP tant de quelques giga octets. MOLAP surpasse ROLAP pour des fonctionnalits avances comme la prvision ou la mise jour des donnes pour la simulation. Cependant, ces diffrences s'expliquent par une plus grande maturit en faveur de MOLAP, concept qui date de prs de vingt ans. MOLAP est incompatible avec d'autres modes d'accs aux donnes. Si MOLAP doit cohabiter avec d'autres techniques d'accs aux donnes (par requteur, par data mining, etc.), deux bases de donnes doivent cohabiter. En effet, MOLAP repose sur un moteur
13
spcialis, qui stocke les donnes dans un format tabulaire propritaire (cube). Pour accder aux donnes de ce cube, on ne peut pas utiliser le langage de requte standard SQL, il faut utiliser une API spcifique. Le march des bases MOLAP tant plus rduit, il est plus difficile pour les diteurs qui le reprsentent d'investir sur de telles volutions.
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les donnes ou pour les calculs complexes. Avec ROLAP, il est dconseill d'accder en direct des bases de donnes de production pour faire des analyses srieuses, pour des raisons de performances.
14
ROLAP n'agrge rien, mais tire parti des agrgats s'ils existent. De ce fait ROLAP est plus lourd administrer que MOLAP, puisqu'il demande de crer explicitement certains agrgats. Certains diteurs, comme Informix avec Mtacube ou Oracle avec Discoverer 2000, pallient cependant cette faiblesse avec des outils d'administration aptes conseiller pour une politique d'agrgation adquate. ROLAP est donc mieux adapt aux gros volumes. En s'appuyant sur les bases relationnelles, rfrence du march, ROLAP tire partie des volutions de celles-ci (adaptation aux architectures hardware sophistiques, extensions objets, etc.).
15
16
caches dans le gisement de donnes. Ils permettent, grce un certain nombre de techniques spcifiques, de faire apparatre des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les donnes en connaissances. L'exploration se fait sur l'initiative du systme, par un utilisateur mtier, et son but est de remplir l'une des tches suivantes : classification, estimation, prdiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.
17
Ces deux lves auront 10 de moyenne mais on voit nettement que llve A obtient des notes autour de la moyenne alors que llve B en est trs loign. Pour exprimer ceci, les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion : Lamplitude, ou dimension, ou tendue de la distribution : Valeur sup - Valeur inf Lcart absolu moyen des valeurs la moyenne de la distribution : La distance interquartile ou inter dcile de la distribution : cart entre lindividu reprsentant 25 % (ou 10 %) et celui reprsentant 75 % (ou 90%) de la population.
18
Lcart type ( s) dfini ainsi : (la majorit des individus est entre moyenne - 2 s et moyenne + 2 s). Ces indicateurs sont utiliss pour valuer des valeurs manquantes, mettre en vidence les valeurs exceptionnelles et donner une premire synthse des donnes. ixx n - Relations entre variables Trs vite, les besoins des dcideurs ont amen les statisticiens rechercher des liens entre plusieurs variables ou plusieurs populations. Ils ont donc cr de nouveaux indicateurs comme le khi2, la covariance ou le coefficient de corrlation. La corrlation entre les variables ne recouvre pas que la causalit; elle peut sexpliquer de plusieurs manires : La causalit : on observe quune variation de A entrane une variation de B. Il existe un vrai lien entre A et B. Le hasard : une variation de A entrane une variation de B mais celle-ci est uniquement due au hasard. La rponse commune : une variation de C entrane une variation de A et B. La confusion : la variation de A et C entrane la variation de B. Lorsque le coefficient de corrlation est significatif, il y a souvent confusion entre ces diffrentes possibilits, surtout entre causalit et hasard. Dautres techniques : rgressions simples ou multiples (linaires ou non), ajustements vers des lois statistiques (loi normale, binomiale, hypergomtrique, de Poisson, ...) permettent de modliser les sries, et facilitent les estimations. Elles ne seront pas dveloppes dans cet ouvrage. Ces techniques statistiques permettent de savoir sil existe une relation entre plusieurs variables, de faire des prvisions ou estimations. Le but de ce type danalyse est souvent de rechercher des liens de causalit. La recherche de connaissances par lutilisation de mthodes statistiques est souvent limite car on ne peut tudier simultanment que quelques variables (une deux). Les problmes sont en gnral plus complexes et mettent en uvre plusieurs dizaines de variables. Pour rpondre ces besoins, il a fallu crer de nouveaux algorithmes, parfois issus de la recherche oprationnelle, alliant la recherche intelligente et les statistiques.
19
20
Linduction Cest la technique la plus communment utilise par le data mining. Elle consiste tirer des conclusions partir dune srie de faits. Exemples :
Exemple 1 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues _ Toutes les voitures ont 4 roues (100 %) Exemple 2 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues Un patin roulettes a 4 roues _ Les voitures ont 4 roues (80 %)
La certitude nest pas absolue et sera donc associe une probabilit. Plus les faits corroborant lhypothse sont nombreux, plus la probabilit que la conclusion soit exacte est forte. La recherche dinformations se fait gnralement par des mcanismes dinduction. La dduction est plutt utilise pour vrifier la cohrence des informations.
21
II.3.4. La classification
La classification se fait naturellement depuis dj bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espces animales, minrales ou vgtales). La classification consiste examiner des caractristiques dun lment nouvellement prsent afin de laffecter une classe dun ensemble prdfini. [BERRY97] Dans le cadre informatique, les lments sont reprsents par un enregistrement et le rsultat de la classification viendra alimenter un champ supplmentaire. La classification permet de crer des classes dindividus (terme prendre dans son acception statistique). Celles-ci sont discrtes : homme / femme, oui / non, rouge / vert / bleu, ... Les techniques les plus appropries la classification sont : Les arbres de dcision, Le raisonnement bas sur la mmoire, Eventuellement lanalyse des liens.
II.3.5. Lestimation
Contrairement la classification, le rsultat dune estimation permet dobtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les donnes en entre. Le rsultat dune estimation permet de procder aux classifications grce un barme. Par exemple, on peut estimer le revenu dun mnage selon divers critres (type de vhicule et nombre, profession ou catgorie socioprofessionnelle, type dhabitation, etc.). Il sera ensuite possible de dfinir des tranches de revenus pour classifier les individus. Un des intrts de lestimation est de pouvoir ordonner les rsultats pour ne retenir si on le dsire que les n meilleures valeurs. Cette technique sera souvent utilise en marketing, combine dautres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position dun lment dans sa classe si celui ci a t estim, ce qui peut tre particulirement important pour les cas limitrophes. La technique la plus approprie lestimation est : le rseau de neurones.
II.3.6. La prdiction
La prdiction ressemble la classification et lestimation mais dans une chelle temporelle diffrente. Tout comme les tches prcdentes, elle sappuie sur le pass et
22
le prsent mais son rsultat se situe dans un futur gnralement prcis. La seule mthode pour mesurer la qualit de la prdiction est dattendre ! Les techniques les plus appropries la prdiction sont : Lanalyse du panier de la mnagre Le raisonnement bas sur la mmoire Les arbres de dcision les rseaux de neurones
II.3.9. La description
Cest souvent lune des premires tches demandes un outil de Data Mining. On lui demande de dcrire les donnes dune base complexe. Cela engendre souvent une exploitation supplmentaire en vue de fournir des explications. La technique la plus approprie la description est lanalyse du panier de la mnagre
II.3.10. Loptimisation
Pour rsoudre de nombreux problmes, il est courant pour chaque solution potentielle dy associer une fonction dvaluation. Le but de loptimisation est de maximiser ou minimiser cette fonction. Quelques spcialistes considrent que ce type de problme ne relve pas du Data Mining. La technique la plus approprie loptimisation est le rseau de neurones
23
Identifier le domaine d'tude Prparer les donnes Agir sur la base de donnes Evaluer les actions La premire tape consiste identifier le domaine d'tude. Il faut rpondre aux questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on dfinit un objectif gnral. Lorsque le domaine est dlimit, il faut recenser les donnes relatives au domaine, puis les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui inclus le client / serveur, mme si ce n'est pas recommand. La troisime tape consiste mettre en uvre une ou plusieurs techniques de Data Mining pour une premire analyse. Aprs valuation et tude des rsultats, des actions sont mises en uvre. La dernire tape consistera valuer ces actions, et par-l mme la performance du Data Mining, voire le retour sur investissements. L'achvement du premier cycle dbouche souvent sur l'expression de nouveaux objectifs affins, ce qui nous ramne la premire tape.
24
Conclusion
Notre tude, dans chacune de ses parties, nous a amens isoler chaque technique de laide la dcision afin den montrer ses caractristiques, sa mise en uvre, son apport au processus de prise de dcision. Ainsi, en conclusion, nous rassemblons les apports de ces techniques. Le data warehouse permet au dcideur de travailler dans un environnement informationnel, rfrenc, homogne, historis. Cette technique laffranchit des problmes lis lhtrognit des systmes informatiques, lhtrognit des diffrentes dfinitions de donnes issues de lhistorique de lorganisation. Le Data Mining permet dextraire du Data Warehouse deux types de connaissances : lune, explicative des rsultats obtenus par lanalyse multidimensionnelle ou explicative dhypothses relatives au contenu informationnel du data warehouse, lautre, nouvelle, porteuse ventuellement de nouvelles possibilits daction. Aujourdhui, ces techniques font lactualit des presses spcialises en informatique, bien sr, mais aussi dans les rubriques Informatiques des presses spcifiques chaque type dactivit. Les applications dcisionnelles dans le Marketing nourrissent la majorit de ces articles de presse.
25
Glossaire
Base de donnes distribue Base dont les donnes sont disperses sciemment (distribues) sur plusieurs serveurs lis par un rseau. Une application cliente peut avoir besoin d'accder aux donnes de X serveurs simultanment. On dit aussi Base Rpartie lorsque c'est le SGBD qui pilote les accs. Base de donnes locale Base de donne situe sur le poste client, contenant des donnes propres lutilisateur, voire des donnes partages rpliques. Batch Dans les outils de Data Mining ou dinfocentre, le batch permet dexplorer de grandes masses de donnes (requtes lourdes) des heures creuses, sans trop solliciter le poste de lutilisateur, voire planifier lexcution des requtes (module souvent appel scheduler). Catalogue Dans certains outils clients du Data Warehouse, cest la structure permettant lutilisateur de travailler sur une vue logique et oriente mtier des donnes quil souhaite visualiser. Catgorie Valeur prise par une variable discrte. Classification Deux types de classification existent : Soit classer des lments dans des classes connues (par exemple les bons et les mauvais clients). On parlera aussi dapprentissage supervis. Soit de regrouper les lments ayant des comportements similaires dans des classes, inconnues au dpart. On parlera alors de clustering, de segmentation ou dapprentissage non supervis. Client Poste de travail Utilisateur : machine dporte qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de prsentation, dinfocentre et de dveloppement.
26
Data Mining Dfinition un peu floue car rcupre par beaucoup dditeurs doutils daide la dcision. A lorigine, le data mining correspondait toutes les technologies avances susceptibles danalyser linformation dun Data Warehouse pour en tirer des tendances, pour segmenter linformations, ou pour trouver des corrlations dans les donnes. Aujourdhui, le terme a tendance caractriser tous les outils daide la dcision, le " mineur " tant soit loutil lui-mme soit lutilisateur. Data Mining (outils de) Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent dextraire de la connaissance des donnes en dcouvrant des modles, des rgles dans le volume dinformation prsent dans les entreprises. Data Surfing Possibilit donne lutilisateur de naviguer de manire ergonomique et intuitive dans un modle multidimensionnel. Data Warehouse Entrept de donnes. Base de donnes spcifique au monde dcisionnel et destine principalement analyser les leviers business potentiels. Data Warehousing Processus de mise en uvre dun projet de Data Warehouse. DBA (Data Base Administrator) Personne garante de la cohrence des donnes, des performances du systme, de sa scurit... Pour les outils disposant dun catalogue, cest le DBA qui le mettra en uvre. Modle relationnel Technique de modlisation consistant modliser une base de donnes en la dcomposant en entit et en relations corrlant ces entits . MOLAP (Multidimensional On Line Analytical Processing) Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les bases de donnes multidimensionnelles. OLAP (On Line Analytical Processing) Caractrise larchitecture ncessaire la mise en place dun systme dinformation dcisionnel. Soppose OLTP (On Line Transaction Processing), adressant les systmes dinformation transactionnels. OLAP est souvent utilis pour faire rfrence exclusivement aux bases de donnes multidimensionnelles. En effet, le concept a t formalis par le Dr Codd, sous la forme de douze rgles, dcrivant un modle idal danalyse dinformation. Il a t montr depuis quil a t possible de respecter ces rgles indpendamment de la structure de stockage utilise. De plus en plus, le terme est
27
souvent utilis pour dsigner plus gnralement le dcisionnel dans ses aspects techniques. Requte C'est une demande envoye au gestionnaire de Base de Donnes serveur. Si celui-ci permet la gestion des donnes, le langage utilis est le SQL. Dans un contexte dinfocentre, l'excution des questions sur un serveur est le plus souvent interprte. ROLAP (Relational On Line Analytical Processing) Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les technologies relationnelles. SGBDR (Systme de Gestion de Base de Donnes Relationnelle) On dialogue avec le SGBDR grce des requtes crites en SQL, langage assez bien standardis. Les SGBDR (certains disent Serveur de bases de donnes) les plus avancs disposent de mcanismes de gestion des contraintes d'intgrit appels les Triggers, et aussi de capacit de traitements lis aux donnes: les Procdures Stockes.
28
Bibliographie
Jean-Michel Franco, Le Data Warehouse, le Data Mining, Eyrolles, 1996 Michael J.A. Berry et Gordon S. Linoff, Data Mining:Techniques appliques au marketing, la vente et aux services clients, Masson, 1997 Ren Lefbure et Gilles Venturi, Le data mining, Eyrolles, 1998 Pierre Lvine et Jean-Charles Pomerol, Systmes interactifs daide la dcision et systmes experts, Herms, 1990 Jean-Charles Pomerol, Les systmes experts, Herms, 1988 Olivier Crutti et Bruno Gattino, Indicateurs et tableaux de bord, Afnor, 1993 Herv Srieyx, Le big bang des organisations, Editions Calmann-Lvy, 1993 Anis Bouayad, Pierre-Yves Legris, Les alliances stratgiques, Dunod, 1996 Martin Forest, Groupe Canadien Innovation, Grer le Savoir, le nouveau dfi des organisations, Journe dtudes du 8 Avril 1997, Maison des Professions de Lille. Articles IEEE Parall & Distributed Technology, Parallelism speeds data mining, 1995 Inist CNRS, Power Tools for Data Drilling, 1996 Cover story, Data Marts : Low cost, High Appeal, 1996 Objectif, BussinessMiner : le Data Mining pour tous, 1997 Le monde informatique Novembre 1996 Le monde informatique Fvrier 1997 01 Informatique n1442 Fvrier 1997 et n1499 du 22 Mai 1998 Dcision Micro&Rseaux n248 Mars 1996 Sciences & vie micro - Juin 1998
29