Data Mining

DU Les modles de lEconomie Numrique 3me Promotion - 2004
Data Mining
Techniques dextraction des connaissances
Georges El Helou et Charbel Abou khalil
Module 4.1 - Management et NTIC Professeur : Mlissa Saadoun Projet soutenu le 16 fvrier 2004
Data Mining : techniques dextraction des connaissances
Table des matires

I DU DATA WAREHOUSE AU DATA MART........................................................3 I.1. COMPRENDRE LE DATA WAREHOUSE ...............................................................................3 I.1.1. Historique........................................................................................................3 I.1.2. Dfinition.........................................................................................................4 I.1.3. Pourquoi un data warehouse?.........................................................................5 I.2. COMPOSANTS DU DATA WAREHOUSE...............................................................................6 I.2.1. La structure......................................................................................................6 I.2.2. Les architectures..............................................................................................7 I.3. LE DATA MART.........................................................................................................8 I.3.1. Mise en place...................................................................................................8 I.3.2. Les sept mythes du Data Mart.........................................................................9 II LES OUTILS DEXPLORATION ET DEXTRACTION DES CONNAISSANCES.......................................................................................................10 II.1. LES OUTILS OLAP.................................................................................................10 II.1.1. Les 12 rgles OLAP......................................................................................10 II.1.2. Les outils MOLAP........................................................................................13 II.1.3. Les outils ROLAP.........................................................................................14 II.2. INTRODUCTION AU DATA MINING..............................................................................16 II.2.1. Prsentation du Data Mining.......................................................................16 II.2.2. Le Data Mining et la Recherche Oprationnelle..........................................17 II.2.3. Statistiques et Data Mining..........................................................................17 II.3. LA RECHERCHE DE CONNAISSANCES............................................................................18 II.3.1. Les statistiques..............................................................................................18 II.3.2. Les schmas dinfrence...............................................................................20 II.3.3. Les tches du Data Mining...........................................................................21 II.3.4. La classification............................................................................................22 II.3.5. Lestimation..................................................................................................22 II.3.6. La prdiction.................................................................................................22 II.3.7. Le regroupement par similitudes..................................................................23 II.3.8. Lanalyse des clusters...................................................................................23 II.3.9. La description...............................................................................................23 II.3.10. Loptimisation.............................................................................................23 II.3.11. Le cercle vertueux.......................................................................................23 CONCLUSION..............................................................................................................25 GLOSSAIRE..................................................................................................................26 ........................................................................................................................................28 BIBLIOGRAPHIE........................................................................................................29
Georges El Helou et Charbel Abou Khalil - 2004
I Du data warehouse au data mart

I.1. Comprendre le data warehouse
Laccroissement de la concurrence, lindividualisation des consommateurs et la brivet du cycle de vie des produits obligent les entreprises non plus simplement ragir au march mais lanticiper. Elles doivent galement cibler au mieux leur clientle afin de rpondre ses attentes. La connaissance de son mtier, des schmas de comportement de ses clients, de ses fournisseurs est essentielle la survie de lentreprise, car elle lui permet danticiper sur lavenir. Aujourdhui, les entreprises ont leur disposition une masse de donnes importante. En effet, les faibles cots des machines en terme de stockage et de puissance ont encourag les socits accumuler toujours plus dinformations. Cependant, alors que la quantit de donnes traiter augmente normment - l'institut EDS estime que la quantit de donnes collectes dans le monde double tous les 20 mois - le volume dinformations fournies aux utilisateurs naugmente lui que trs peu. Ces rservoirs de connaissance doivent tre explors afin den comprendre le sens et de dceler les relations entre donnes, des modles expliquant leur comportement. Dans cette optique, la constitution dun data warehouse, regroupant, sous une forme homogne, toutes les donnes de lentreprise sur une longue priode, offre des perspectives nouvelles aux utilisateurs, notamment en terme dextraction de connaissances grce aux outils de data mining.
I.1.1. Historique
Le concept de data warehouse (entrept de donnes) a t formalis pour la premire fois en 1990. Lide de constituer une base de donnes oriente sujet, intgre, contenant des informations dates, non volatiles et exclusivement destines aux processus daide la dcision, fut dans un premier temps accueillie avec une certaine perplexit. Beaucoup ny voyaient que l'habillage dun concept dj ancien : linfocentre. Mais lconomie actuelle en a dcid autrement. Les entreprises sont confrontes une concurrence de plus en plus forte, des clients de plus en plus exigeants, dans un contexte organisationnel de plus en plus complexe et mouvant. Pour faire face aux nouveaux enjeux conomiques, lentreprise doit anticiper. Lanticipation ne peut tre efficace quen sappuyant sur de linformation pertinente. Cette information est la porte de toute entreprise qui dispose dun capital de donnes gres par ses systmes oprationnels et qui peut en acqurir dautres auprs de fournisseurs externes. Mais actuellement, les donnes sont surabondantes, non
organises dans une perspective dcisionnelle et parpilles dans de multiples systmes htrognes. Pourtant, les donnes reprsentent une mine dinformations. Il devient fondamental de rassembler et dhomogniser les donnes afin de permettre danalyser les indicateurs pertinents pour faciliter les prises de dcisions. Pour rpondre ces besoins, le nouveau rle de linformatique est de dfinir et dintgrer une architecture qui serve de fondation aux applications dcisionnelles : le data warehouse (DW).
I.1.2. Dfinition
Le DW est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision. Commentons cette dfinition : Orientes sujet Le DW est organis autour des sujets majeurs de lentreprise, contrairement aux donnes des systmes de production. Ceux-ci sont gnralement organiss par processus fonctionnels. Les donnes sont structures par thme. Lintrt de cette organisation est de disposer de lensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise. Cette orientation sujet va galement permettre de dvelopper son systme dcisionnel via une approche par itrations successives, sujet aprs sujet. Lintgration dans une structure unique est indispensable car les informations communes plusieurs sujets ne doivent pas tre dupliques. Dans la pratique, une structure supplmentaire appele Data Mart (magasin de donnes) peut tre cre pour supporter lorientation sujet. Donnes intgres Un DW est un projet dentreprise. Par exemple dans la distribution, le mme indicateur de chiffre daffaires intressera autant les forces de vente que le dpartement financier ou les acheteurs. Pour y parvenir, les donnes doivent tre intgres. Avant dtre intgres dans le DW, les donnes doivent tre mises en forme et unifies afin davoir un tat cohrent. Par exemple, la consolidation de lensemble des informations concernant un client donn est ncessaire pour donner une vue homogne de ce client. Une donne doit avoir une description et un codage unique. Cette phase dintgration est trs complexe et reprsente 60 90% de la charge totale dun projet. Donnes historises Dans un systme de production, la donne est mise jour chaque nouvelle transaction. Dans un DW, la donne ne doit jamais tre mise jour. Un rfrentiel temps doit tre associ la donne afin dtre capable didentifier une valeur particulire dans le temps.
Donnes non volatiles La non volatilit des donnes est en quelque sorte une consquence de lhistorisation. Une mme requte effectue quelques mois dintervalle en prcisant la date de rfrence de linformation recherche donnera le mme rsultat.
I.1.3. Pourquoi un data warehouse?

Lentreprise construit un systme dcisionnel pour amliorer sa performance. Elle doit dcider et anticiper en fonction de linformation disponible et capitaliser sur ses expriences. Depuis plusieurs dizaines dannes, une importante masse dinformations est stocke sous forme informatique dans les entreprises. Les systmes dinformation sont destins garder la trace dvnements de manire fiable et intgre. Ils automatisent de plus en plus les processus oprationnels. Paralllement, les entreprises ralisent la valeur du capital dinformation dont elles disposent. Au del de ce que linformatique leur apporte en terme fonctionnel, elles prennent conscience de ce quelle pourrait apporter au niveau du contenu informationnel. Considrer le systme dinformation sous cet angle en tant que levier pour accrotre leur comptitivit et leur ractivit nest pas nouveau. Par contre, tant donn lenvironnement concurrentiel actuel, cela devient une question de survie. Linformatique a un rle jouer, en permettant lentreprise de devenir plus entreprenante et davoir une meilleure connaissance de ses clients, de sa comptitivit ou de son environnement. Il est intressant de calculer les retours sur investissement rendus publics. Ils se calculent rarement en terme de baisse de cots, mais en terme de gains. Par exemple, ils permettent un meilleur suivi des ventes, une meilleure comprhension des habitudes dachats des clients, dune adaptation des produits une clientle mieux cible.
I.2. Composants du data warehouse

I.2.1. La structure
Un DW se structure en quatre classes de donnes, organises selon un axe historique et un axe synthtique. Les donnes dtailles Elles refltent les vnements les plus rcents. Les intgrations rgulires des donnes issues des systmes de production vont habituellement tre ralises ce niveau. Les volumes traiter sont plus importants que ceux grs en transactionnel. Attention : le niveau de dtail gr dans le DW nest pas forcment identique au niveau de dtail gr dans les systmes oprationnels. La donne insre dans le DW peut tre dj une agrgation ou une simplification dinformations tires du systme de production. Exemple : ltude du panier de la mnagre ncessite de stocker le niveau de finesse du ticket de caisse. Les donnes agrges Elles correspondent des lments danalyse reprsentatifs des besoins utilisateurs. Elles constituent dj un rsultat danalyse et une synthse de linformation contenue dans le systme dcisionnel, et doivent tre facilement accessibles et comprhensibles. La facilit daccs est apporte par des structures multidimensionnelles qui permettent aux utilisateurs de naviguer dans les donnes suivant une logique intuitive, avec des performances optimales. Certains SGBD du march sont conus pour faciliter la mise en place des agrgations et la navigation au sein de celles-ci. La dfinition complte de linformation doit tre mise la disposition de lutilisateur pour une bonne comprhension. Dans le cas dun agrgat, linformation est compose du contenu prsent (moyenne des ventes) et de lunit (par mois, par produit). Les mta-donnes Elles regroupent lensemble des informations concernant le DW et les processus associs. Elles constituent une vritable aide en ligne permettant de connatre linformation contenue dans le DW. Elles sont idalement intgres dans un rfrentiel. Les principales informations sont destines : A lutilisateur (smantique, localisation). Aux quipes responsables des processus de transformation des donnes du systme de production vers le data warehouse (localisation dans les systmes de production, description des rgles, processus de transformation). Aux quipes responsables des processus de cration des donnes agrges partie des donnes dtailles.
Aux quipes dadministration de la base de donnes (structure de la base implmentant le DW). Aux quipes de production (procdures de changement, historique de MAJ). Les donnes historises Un des objectifs du DW est de conserver en ligne les donnes historises. Chaque nouvelle insertion de donnes provenant du systme de production ne dtruit pas les anciennes valeurs, mais cre un nouvelle occurrence de la donne. Le support de stockage dpend du volume des donnes, de la frquence daccs, du type daccs. Les supports les plus couramment utiliss sont les disques, les disques optiques numriques, les cassettes. La logique daccs aux donnes la plus utilise est la suivante : les utilisateurs commencent attaquer les donnes par le niveau le plus agrg, puis approfondissent leur recherche vers les donnes les plus dtailles (drill down). Laccs des donnes se fait galement directement par les donnes dtailles et historises, ce qui conduit des brassages de donnes lourds, demandant des machines trs puissantes. Le DW est une russite dans une entreprise lorsque le nombre dutilisateur accdant aux donnes de dtail augmente.
I.2.2. Les architectures

Pour implmenter un DW, trois types darchitectures sont possibles : Larchitecture relle qui est gnralement retenue pour les systmes dcisionnels. Le stockage des donnes est ralis dans un SGBD spar du systme de production. Le SGBD est aliment par des extractions priodiques. Avant le chargement, les donnes subissent dimportants processus dintgration, de nettoyage, de transformation. Lavantage est de disposer de donnes prpares pour les besoins de la dcision et rpondant aux objectifs du DW. Les inconvnients sont le cot de stockage supplmentaire et le manque daccs en temps rel. Larchitecture virtuelle qui nest pratiquement pas utilise pour le data warehouse. Les donnes rsident dans le systme de production. Elles sont rendues visibles par des produits middleware ou par des passerelles. Il en rsulte deux avantages : pas de cot de stockage supplmentaire et laccs se fait en temps rel. Linconvnient est que les donnes ne sont pas prpares. Larchitecture remote qui est une combinaison de larchitecture relle et de larchitecture virtuelle. Elle est rarement utilise. Lobjectif est dimplmenter physiquement les niveaux agrgs afin den faciliter laccs et de garder le niveau de dtail dans le systme de production en y donnant laccs par le biais de middleware ou de passerelle.
I.3. Le Data Mart

Avec un DW, il y a des risques dchec. Rien ninvite lutilisateur se servir dun DW. Le succs dun DW dpend donc uniquement de son effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la problmatique informatique et de se dtourner de lutilisateur. Le Data Mart (DM) minimise la complexit informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs. Le DM est une base de donnes moins coteuse que le DW et plus lgre puisque destine quelques utilisateurs dun dpartement. Il sduit plus que le DW les candidats au dcisionnel. Cest une petite structure trs cible et pilote par les besoins utilisateurs. Il a la mme vocation que le DW (fournir une architecture dcisionnelle), mais vise une problmatique prcise avec un nombre dutilisateurs plus restreint. En gnral, cest une petite base de donnes (SQL ou multidimensionnelle) avec quelques outils, et alimente par un nombre assez restreint de sources de donnes. Son cot ne dpasse pas deux trois millions de francs. Mais pour russir, il y a quelques prcautions prendre, gage de son volutivit vers le DW.
Data Warehouse Cible utilisateur Implication du service informatique Base de donnes dentreprise Modles de donnes Champ applicatif Sources de donnes Stockage Taille Temps de mise en place Cot Matriel Toute lentreprise Eleve SQL type serveur A lchelle de lentreprise Multi sujets, neutre Multiples Base de donnes Centaine de GO et plus 9 18 mois pour les 3 tapes > 6 millions de francs Unix Data Mart Dpartement Faible ou moyen SQL milieu de gamme, bases multidimensionnelles Dpartement Quelques sujets, spcifique Quelques unes Plusieurs bases distribues Une 2 dizaines de GO 6 12 mois (installation en plusieurs tapes) 500.000 3 millions de francs NT, petit serveur Unix
I.3.1. Mise en place

Construire un ou plusieurs DM dpartementaux au lieu dun DW central permet de valider rapidement le concept dinformatique dcisionnelle. Mais construire des DM nest pas sans risques :
En effet, dans les entreprises, des DM isols peuvent prolifrer. Ces entreprises risquent de retomber dans le pige dune architecture compose de multiples systmes dcisionnels incohrents, contenant des informations redondantes. Cela cote plus cher et cest plus complexe grer quun DW centralis. Les entreprises amricaines, plus en avance que les entreprises europennes, en ont fait les frais. Les DM rsolvent les problmes de performance des gros DW. Mais ils font rgresser vers le vieux problme des lots isols. Les entreprises vont devoir affronter des problmes techniques complexes et coteux pour remettre en cohrence les ensembles. Fdrer des DM ou les faire voluer vers une structure centralise nest pas facile. On peut se poser la question sil est prfrable de btir un gros et unique DW ou bien de concevoir un rservoir plus modeste, nourri par les donnes dun seul dpartement. Il est intressant de commencer par un DM, condition de respecter certaines rgles : Impliquer les utilisateurs. Ne pas construire de multiples Data Marts isols. Bannir les redondances.
I.3.2. Les sept mythes du Data Mart

Les Data Marts sont petits Les Data Marts sont moins complexes et plus facile dployer que les DW. Les Data Marts peuvent voluer facilement vers un Data Warehouse Les diffrents Data Marts indpendants peuvent tre dynamiquement coupler pour se mtamorphoser en Data Warehouse Les DM ne se rsument qu une seule information mtier : par exemple, les ventes. Les Data Marts sont plus flexibles que les Data Warehouse Les Data Marts sont un nouveau concept. Donc le DM peut prparer au DW. Mais il faut penser grand, avenir et adopter des technologies capables dvoluer.
II Les outils dexploration et dextraction des connaissances

II.1. Les outils OLAP
Les outils OLAP (On Line Analytical Process) reposent sur une base de donnes multidimensionnelle, destine exploiter rapidement les dimensions d'une population de donnes. La plupart des solutions OLAP reposent sur un mme principe : restructurer et stocker dans un format multidimensionnel les donnes issues de fichiers plats ou de bases relationnelles. Ce format multidimensionnel, connu galement sous le nom d'hypercube, organise les donnes le long de dimensions. Ainsi, les utilisateurs analysent les donnes suivant les axes propres leur mtier. Ce type d'analyse multidimensionnelle ncessite la fois l'accs un grand volume de donnes et des moyens adapts pour les analyser selon diffrents points de vue. Ceci inclut la capacit discerner des relations nouvelles ou non prvues entre les variables, la capacit identifier les paramtres ncessaires manier un volume important de donnes pour crer un nombre illimit de dimensions et pour spcifier des expressions et conditions inter dimensions. Ces dimensions reprsentent les chemins de consolidation. OLAP concerne de ce fait au moins autant le monde des serveurs, voire des structures de stockage, que celui des outils.
II.1.1. Les 12 rgles OLAP

Afin de formaliser le concept OLAP, fin 1993, la demande de Arbor Software, Edgar F. Codd publie un article intitul Providing OLAP to User Analysts aux Etats Unis, dans lequel il dfinit 12 rgles que tout systme de pilotage multidimensionnel devrait respecter. Ce quil y a dagrable avec ces outils OLAP , explique Eric Klusman, de Cantor Fitzgerald LP, "cest que je suis en mesure de distribuer les donnes aux utilisateurs sans les obliger apprendre des complexes formules de programmation, dinterrogation ou mme ce quils aient programmer leurs tableurs". Dune faon gnrale, tous affirment que lon peut interfacer de nombreux outils dutilisateurs avec des bases de donnes multidimensionnelles sans quil soit ncessaire de consentir de lourds efforts de formation ou des interventions importantes du service informatique.
10
Vue multidimensionnelle L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple lorsqu'il souhaite analyser les ventes par produit mais aussi par rgion ou par priode. Ces modles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere). Transparence du serveur OLAP diffrents types de logiciels Cette transparence se traduit pour l'utilisateur par un complment ses outils habituels garantissant ainsi sa productivit et sa comptence. Elle s'appuie sur une architecture ouverte permettant l'utilisateur d'implanter le systme OLAP sans affecter les fonctionnalits du systme central. Par ailleurs, l'utilisateur ne doit pas tre concern par l'intgration des donnes dans OLAP provenant d'un environnement homogne ou htrogne. Accessibilit de nombreuses sources de donnes Le systme OLAP doit donner accs aux donnes ncessaires aux analyses demandes. Les outils OLAP doivent avoir leur propre schma logique de stockage des donnes physiques htrognes, doivent accder aux donnes et raliser n'importe quelle conversion afin de prsenter l'utilisateur une vue simple et cohrente. Ils doivent aussi savoir de quel type de systmes proviennent les donnes. Performance du systme de Reporting L'augmentation du nombre de dimensions ou du volume de la base de donnes ne doit pas entraner de dgradation visible par l'utilisateur. Architecture Client/Serveur La plupart des donnes pour OLAP sont stockes sur des gros systmes et sont accessibles via des PC. Il est donc ncessaire que les produits OLAP soient capables de travailler dans un environnement Client/Serveur. Dimensions Gnriques Toutes les dimensions doivent tre quivalentes en structure et en calcul. Il ne doit exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique une dimension doit tre aussi capable de s'appliquer une autre dimension. Gestion dynamique des matrices creuses Le schma physique des outils OLAP doit s'adapter entirement au modle d'analyse spcifique cr pour optimiser la gestion des matrices creuses. En effet, dans une analyse la fois sur les produits et les rgions, tous les produits ne sont pas vendus dans toutes les rgions.
11
Support Multi-Utilisateurs Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse. Support Multi-Utilisateurs Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse. Calculs travers les dimensions Les oprations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire intervenir l'utilisateur pour dfinir un calcul hirarchique. Manipulation intuitive des donnes Toute manipulation doit tre accomplie via une action directe sur les cellules du modle sans utiliser de menus ou des chemins multiples travers l'interface utilisateur. Souplesse et facilit de constitution des rapports La cration des rapports dans les outils OLAP doit permettre aux utilisateurs de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats en fonction de l'orientation du modle. Nombre illimit de niveaux d'agrgation et de dimensions Tout outil OLAP doit grer au moins 15 20 dimensions. D'aprs EF CODD & Associates, les SGBD Relationnels n'ont jamais t conus pour fournir les puissantes fonctions de synthse, d'analyse et de consolidation communment appeles analyse multidimensionnelle des donnes. Ces types de fonctions ont toujours t prvus pour tre fournis par des outils spars, orients utilisateurs et complmentaires des SGBD Relationnels. Les tables vont tre transformes en un hypercube de donnes. Les donnes vont pouvoir tre visualises sous diffrents angles grce aux vues multidimensionnelles. OLAP, parce qu'il associe des mcanismes de navigation aux donnes, permet d'effectuer des analyses de manire interactive, l'oppos du requteur pour qui chaque requte est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prdfini, limitant ds lors l'autonomie potentielle de l'utilisateur. De ce fait requtes et outils OLAP doivent tre considrs comme complmentaires plutt que concurrents.
12
II.1.2. Les outils MOLAP

OLAP sera l'outil privilgier pour les donnes quantitatives si leur structuration a priori est naturelle (cas rencontr frquemment pour les applications financires ou commerciales), alors que le requteur sera idal pour les donnes qualitatives et pour toute analyse impromptue ncessitant l'autonomie de l'utilisateur (cas rencontr frquemment pour le marketing ou la gestion du personnel). Si les besoins sont combiner, il faudra choisir entre la richesse fonctionnelle apporte par plusieurs outils interfacs ou lhomognit des outils intgrs. Deux versions d'OLAP s'affrontent actuellement. Les outils MOLAP (Multidimensional OLAP) d'une part qui s'appuient sur une base de donnes multidimensionnelle. Les outils ROLAP (Relational OLAP) d'autre part, qui reprsente leur quivalent sur une base de donnes relationnelle. MOLAP est conue exclusivement pour l'analyse multidimensionnelle, avec un mode de stockage optimis par rapport aux chemins d'accs prdfinis. Ainsi, toute valeur d'indicateur associe l'axe temps sera pr-calcule au chargement pour toutes ses valeurs hebdomadaires, mensuelles, etc.
MOLAP agrge tout par dfaut. Plus le volume de donnes grer est important, plus les principes d'agrgations implicites proposs par MOLAP sont pnalisants dans la phase de chargement de la base, tant en terme de performances que de volume. La limite frquemment voque pour MOLAP tant de quelques giga octets. MOLAP surpasse ROLAP pour des fonctionnalits avances comme la prvision ou la mise jour des donnes pour la simulation. Cependant, ces diffrences s'expliquent par une plus grande maturit en faveur de MOLAP, concept qui date de prs de vingt ans. MOLAP est incompatible avec d'autres modes d'accs aux donnes. Si MOLAP doit cohabiter avec d'autres techniques d'accs aux donnes (par requteur, par data mining, etc.), deux bases de donnes doivent cohabiter. En effet, MOLAP repose sur un moteur
13
spcialis, qui stocke les donnes dans un format tabulaire propritaire (cube). Pour accder aux donnes de ce cube, on ne peut pas utiliser le langage de requte standard SQL, il faut utiliser une API spcifique. Le march des bases MOLAP tant plus rduit, il est plus difficile pour les diteurs qui le reprsentent d'investir sur de telles volutions.
II.1.3. Les outils ROLAP

Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modle qui reprsente les donnes dans un format multidimensionnel. Ces produits diminuent sensiblement le cot li la mise en uvre d'un serveur de base de donnes multidimensionnelle supplmentaire. Au travers des mta-donnes, ils permettent de transformer lanalyse multidimensionnelle demande par lutilisateur en requtes SQL. Pour cela, ces outils sappuient pour la plupart sur une modlisation particulire des donnes, distinguant les axes danalyse et les faits observer. On parlera notamment de modle en toile et de modle en flocon ou encore des techniques de dfinition physique d'agrgations. Ceci oblige dfinir le modle en fonction de loutil utiliser et des analyses mener mais est un gage de performance et de cohrence lors de lutilisation de ce type de produits. Cette contrainte exige un travail important des quipes informatiques et donc enlve beaucoup l'intrt d'utiliser un SGBD Relationnel comme support de stockage pour l'analyse multidimensionnelle.
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les donnes ou pour les calculs complexes. Avec ROLAP, il est dconseill d'accder en direct des bases de donnes de production pour faire des analyses srieuses, pour des raisons de performances.
14
ROLAP n'agrge rien, mais tire parti des agrgats s'ils existent. De ce fait ROLAP est plus lourd administrer que MOLAP, puisqu'il demande de crer explicitement certains agrgats. Certains diteurs, comme Informix avec Mtacube ou Oracle avec Discoverer 2000, pallient cependant cette faiblesse avec des outils d'administration aptes conseiller pour une politique d'agrgation adquate. ROLAP est donc mieux adapt aux gros volumes. En s'appuyant sur les bases relationnelles, rfrence du march, ROLAP tire partie des volutions de celles-ci (adaptation aux architectures hardware sophistiques, extensions objets, etc.).
15
II.2. Introduction au Data Mining

II.2.1. Prsentation du Data Mining
Le terme de Data Mining est souvent employ pour dsigner lensemble des outils permettant lutilisateur daccder aux donnes de lentreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de gnrer des informations riches partir des donnes de lentreprise, notamment des donnes historiques, de dcouvrir des modles implicites dans les donnes. Ils peuvent permettre par exemple un magasin de dgager des profils de client et des achats types et de prvoir ainsi les ventes futures. Il permet daugmenter la valeur des donnes contenues dans le DW. Les outils daide la dcision, quils soient relationnels ou OLAP, laissent linitiative lutilisateur, qui choisit les lments quil veut observer ou analyser. Au contraire, dans le cas du Data Mining, le systme a linitiative et dcouvre lui-mme les associations entre donnes, sans que lutilisateur ait lui dire de rechercher plutt dans telle ou telle direction ou poser des hypothses. Il est alors possible de prdire lavenir, par exemple le comportement dun client, et de dtecter, dans le pass, les donnes inusuelles, exceptionnelles. Ces outils ne sont plus destins aux seuls experts statisticiens mais doivent pouvoir tre employs par des utilisateurs connaissant leur mtier et voulant lanalyser, lexplorer. Seul un utilisateur connaissant le mtier peut dterminer si les modles, les rgles, les tendances trouves par loutil sont pertinents, intressantes et utiles lentreprise. Ces utilisateurs nont donc pas obligatoirement un bagage statistique important. Loutil doit donc soit tre ergonomique, facile utiliser et rendant transparentes toutes les formules mathmatiques et termes techniques utiliss, soit permettre de construire une application cl en main, rendant lutilisateur transparentes toutes les techniques utilises. On pourrait dfinir le data mining comme une dmarche ayant pour objet de dcouvrir des relations et des faits, la fois nouveaux et significatifs, sur de grands ensembles de donnes. On devrait ajouter que la pertinence et l'intrt du Data Mining sont conditionns par les enjeux attachs la dmarche entreprise, qui doit tre guide par des objectifs directeurs clairement explicits ("amliorer la performance commerciale", "mieux cibler les prospects", "fidliser la clientle", "mieux comprendre les performances de production"...). Le succs du concept de Data warehouse et le nombre croissant de bases de donnes dcisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining. Le terme de Data Mining signifie littralement forage de donnes. Comme dans tout forage, son but est de pouvoir extraire un lment : la connaissance. Ces concepts sappuient sur le constat quil existe au sein de chaque entreprise des informations
16
caches dans le gisement de donnes. Ils permettent, grce un certain nombre de techniques spcifiques, de faire apparatre des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les donnes en connaissances. L'exploration se fait sur l'initiative du systme, par un utilisateur mtier, et son but est de remplir l'une des tches suivantes : classification, estimation, prdiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.
II.2.2. Le Data Mining et la Recherche Oprationnelle

La recherche oprationnelle n'est pas assimile aux techniques de Data Mining. Son objectif est l'optimisation et la recherche prouve de la meilleure solution, ce qui n'est pas le cas du Data Mining : Son champ d'application est plus large, On ne recherche pas la meilleure solution prouve mais faire le mieux possible, Enfin un outil de Data Mining appliqu un mme ensemble de donnes ne donne pas toujours les mmes rsultats, contrairement la recherche oprationnelle.
II.2.3. Statistiques et Data Mining

On pourrait croire que les techniques de Data Mining viennent en remplacement des statistiques. En fait, il n'en est rien et elles sont omniprsentes. On les utilise : Pour faire une analyse pralable, Pour estimer ou alimenter les valeurs manquantes, Pendant le processus pour valuer la qualit des estimations, Aprs le processus pour mesurer les actions entreprises et faire un bilan. Par ailleurs, certaines techniques statistiques rcentes (travaux de BENZECRI, analyse en composantes principales, analyse factorielle des correspondances, ) peuvent tre apparentes aux techniques de Data Mining. Statistiques et Data Mining sont tout fait complmentaires.
17
II.3. La recherche de connaissances

II.3.1. Les statistiques
Les statistiques sont la base de tout raisonnement sur les donnes. Elles permettent de synthtiser un grand nombre de valeurs pour une variable grce un nombre trs rduit dinformations. Pour chaque variable, on va ainsi rechercher au moins deux indicateurs : un pour mesurer la tendance centrale, un pour mesurer la dispersion. Indicateurs de tendance centrale Cest en gnral le premier critre d'valuation d'une srie statistique. Le plus couramment utilis est la moyenne arithmtique : ( ) = n i i in x N1 1 (N reprsente leffectif total, xi le centre de la classe ou sa valeur, ni leffectif de la classe), mais on lui associe ou prfre parfois le mode (valeur la plus frquemment trouve) ou la mdiane (valeur du reprsentant de la moiti de leffectif). La mdiane prsente lavantage de ne pas tre sensible aux valeurs exceptionnelles (contrairement la moyenne). Indicateurs de dispersion Les indicateurs de tendance centrale donnent une premire indication de la population tudier mais il est intressant de savoir comment se rpartissent les individus autour de cette moyenne. En effet, si deux lves obtiennent les notes suivantes : Elve A : 9 - 10 - 10 - 10 - 10 - 11 Elve B : 0 - 0 - 0 - 20 - 20 - 20
Ces deux lves auront 10 de moyenne mais on voit nettement que llve A obtient des notes autour de la moyenne alors que llve B en est trs loign. Pour exprimer ceci, les statisticiens disposent de nombreux indicateurs permettant de mesurer la dispersion : Lamplitude, ou dimension, ou tendue de la distribution : Valeur sup - Valeur inf Lcart absolu moyen des valeurs la moyenne de la distribution : La distance interquartile ou inter dcile de la distribution : cart entre lindividu reprsentant 25 % (ou 10 %) et celui reprsentant 75 % (ou 90%) de la population.
18
Lcart type ( s) dfini ainsi : (la majorit des individus est entre moyenne - 2 s et moyenne + 2 s). Ces indicateurs sont utiliss pour valuer des valeurs manquantes, mettre en vidence les valeurs exceptionnelles et donner une premire synthse des donnes. ixx n - Relations entre variables Trs vite, les besoins des dcideurs ont amen les statisticiens rechercher des liens entre plusieurs variables ou plusieurs populations. Ils ont donc cr de nouveaux indicateurs comme le khi2, la covariance ou le coefficient de corrlation. La corrlation entre les variables ne recouvre pas que la causalit; elle peut sexpliquer de plusieurs manires : La causalit : on observe quune variation de A entrane une variation de B. Il existe un vrai lien entre A et B. Le hasard : une variation de A entrane une variation de B mais celle-ci est uniquement due au hasard. La rponse commune : une variation de C entrane une variation de A et B. La confusion : la variation de A et C entrane la variation de B. Lorsque le coefficient de corrlation est significatif, il y a souvent confusion entre ces diffrentes possibilits, surtout entre causalit et hasard. Dautres techniques : rgressions simples ou multiples (linaires ou non), ajustements vers des lois statistiques (loi normale, binomiale, hypergomtrique, de Poisson, ...) permettent de modliser les sries, et facilitent les estimations. Elles ne seront pas dveloppes dans cet ouvrage. Ces techniques statistiques permettent de savoir sil existe une relation entre plusieurs variables, de faire des prvisions ou estimations. Le but de ce type danalyse est souvent de rechercher des liens de causalit. La recherche de connaissances par lutilisation de mthodes statistiques est souvent limite car on ne peut tudier simultanment que quelques variables (une deux). Les problmes sont en gnral plus complexes et mettent en uvre plusieurs dizaines de variables. Pour rpondre ces besoins, il a fallu crer de nouveaux algorithmes, parfois issus de la recherche oprationnelle, alliant la recherche intelligente et les statistiques.
19
II.3.2. Les schmas dinfrence

Les outils de Data Mining ne sont pas destins un informaticien ou un statisticien mais lutilisateur ou au dcisionnaire. Seul ce dernier saura analyser avec pertinence les informations retournes par le systme. Pour mieux comprendre le fonctionnement de ces processus, voici les principales techniques de raisonnement mises en uvre. La recherche de connaissances et dinformations repose sur les schmas dinfrence formaliss par C. S. Pierce en 1903. Ce dernier a distingu trois types de raisonnements : labduction, la dduction et linduction. Labduction Pour mieux exprimer ce quest labduction, le plus simple est den prsenter un exemple: Toutes les voitures ont 4 roues La Peugeot 106 a 4 roues _ La Peugeot 106 est une voiture Cette technique est notamment utilise dans les outils daide au diagnostic mdical pour dcouvrir la maladie la plus probable depuis une liste de symptmes. Il faut cependant tre trs vigilant avec ce type de raisonnement car il peut produire des rsultats aberrants ou triviaux : Toutes les voitures ont un moteur, lAirbus 320 a un moteur _ lAirbus 320 est une voiture. Pour viter ce type de comportement, il suffit davoir un ensemble descriptif (ici : 4 roues) suffisamment riche. Il aurait suffit de prciser : toutes les voitures ont 4 roues, un moteur, un volant, de 3 5 portes, sont inscrites sur les registres des mines, etc. pour diminuer considrablement le risque derreurs. Tous les possesseurs de la carte jeune ont moins de 25 ans. Cette information est certes vraie mais risque de ne prsenter aucun intrt. La dduction Cest le type de raisonnement le plus utilis et le plus familier. Son atout majeur est quil ne laisse pas de place au doute. Exemple : La Peugeot 106 est une voiture Toutes les voitures ont 4 roues _ La Peugeot 106 a 4 roues
20
Linduction Cest la technique la plus communment utilise par le data mining. Elle consiste tirer des conclusions partir dune srie de faits. Exemples :
Exemple 1 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues _ Toutes les voitures ont 4 roues (100 %) Exemple 2 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues Un patin roulettes a 4 roues _ Les voitures ont 4 roues (80 %)
La certitude nest pas absolue et sera donc associe une probabilit. Plus les faits corroborant lhypothse sont nombreux, plus la probabilit que la conclusion soit exacte est forte. La recherche dinformations se fait gnralement par des mcanismes dinduction. La dduction est plutt utilise pour vrifier la cohrence des informations.
II.3.3. Les tches du Data Mining

Contrairement aux ides reues, le Data Mining nest pas le remde miracle capable de rsoudre toutes les difficults ou besoins de lentreprise. Cependant, une multitude de problmes dordre intellectuel, conomique ou commercial peuvent tre regroups, dans leur formalisation, dans lune des tches suivantes : Classification, Estimation, Prdiction, Groupement par similitudes, Segmentation (ou clusterisation), Description, Optimisation. Afin de lever toute ambigut sur des termes qui peuvent paratre similaires, il semble raisonnable de les dfinir.
21
II.3.4. La classification
La classification se fait naturellement depuis dj bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espces animales, minrales ou vgtales). La classification consiste examiner des caractristiques dun lment nouvellement prsent afin de laffecter une classe dun ensemble prdfini. [BERRY97] Dans le cadre informatique, les lments sont reprsents par un enregistrement et le rsultat de la classification viendra alimenter un champ supplmentaire. La classification permet de crer des classes dindividus (terme prendre dans son acception statistique). Celles-ci sont discrtes : homme / femme, oui / non, rouge / vert / bleu, ... Les techniques les plus appropries la classification sont : Les arbres de dcision, Le raisonnement bas sur la mmoire, Eventuellement lanalyse des liens.
II.3.5. Lestimation
Contrairement la classification, le rsultat dune estimation permet dobtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les donnes en entre. Le rsultat dune estimation permet de procder aux classifications grce un barme. Par exemple, on peut estimer le revenu dun mnage selon divers critres (type de vhicule et nombre, profession ou catgorie socioprofessionnelle, type dhabitation, etc.). Il sera ensuite possible de dfinir des tranches de revenus pour classifier les individus. Un des intrts de lestimation est de pouvoir ordonner les rsultats pour ne retenir si on le dsire que les n meilleures valeurs. Cette technique sera souvent utilise en marketing, combine dautres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position dun lment dans sa classe si celui ci a t estim, ce qui peut tre particulirement important pour les cas limitrophes. La technique la plus approprie lestimation est : le rseau de neurones.
II.3.6. La prdiction
La prdiction ressemble la classification et lestimation mais dans une chelle temporelle diffrente. Tout comme les tches prcdentes, elle sappuie sur le pass et
22
le prsent mais son rsultat se situe dans un futur gnralement prcis. La seule mthode pour mesurer la qualit de la prdiction est dattendre ! Les techniques les plus appropries la prdiction sont : Lanalyse du panier de la mnagre Le raisonnement bas sur la mmoire Les arbres de dcision les rseaux de neurones
II.3.7. Le regroupement par similitudes

Le regroupement par similitudes consiste grouper les lments qui vont naturellement ensembles. La technique la plus approprie au regroupement par similitudes est lanalyse du panier de la mnagre
II.3.8. Lanalyse des clusters

Lanalyse des clusters consiste segmenter une population htrogne en sous populations homognes. Contrairement la classification, les sous populations ne sont pas prtablies. La technique la plus approprie la clusterisation est lanalyse des clusters
II.3.9. La description
Cest souvent lune des premires tches demandes un outil de Data Mining. On lui demande de dcrire les donnes dune base complexe. Cela engendre souvent une exploitation supplmentaire en vue de fournir des explications. La technique la plus approprie la description est lanalyse du panier de la mnagre
II.3.10. Loptimisation
Pour rsoudre de nombreux problmes, il est courant pour chaque solution potentielle dy associer une fonction dvaluation. Le but de loptimisation est de maximiser ou minimiser cette fonction. Quelques spcialistes considrent que ce type de problme ne relve pas du Data Mining. La technique la plus approprie loptimisation est le rseau de neurones
II.3.11. Le cercle vertueux

On ne met pas en uvre une technique de Data Mining pour faire une simple exploration. Il faut l'inscrire dans un contexte plus global, appel le cercle vertueux. Celui-ci est compos de quatre tapes :
23
Identifier le domaine d'tude Prparer les donnes Agir sur la base de donnes Evaluer les actions La premire tape consiste identifier le domaine d'tude. Il faut rpondre aux questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on dfinit un objectif gnral. Lorsque le domaine est dlimit, il faut recenser les donnes relatives au domaine, puis les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui inclus le client / serveur, mme si ce n'est pas recommand. La troisime tape consiste mettre en uvre une ou plusieurs techniques de Data Mining pour une premire analyse. Aprs valuation et tude des rsultats, des actions sont mises en uvre. La dernire tape consistera valuer ces actions, et par-l mme la performance du Data Mining, voire le retour sur investissements. L'achvement du premier cycle dbouche souvent sur l'expression de nouveaux objectifs affins, ce qui nous ramne la premire tape.
24
Conclusion
Notre tude, dans chacune de ses parties, nous a amens isoler chaque technique de laide la dcision afin den montrer ses caractristiques, sa mise en uvre, son apport au processus de prise de dcision. Ainsi, en conclusion, nous rassemblons les apports de ces techniques. Le data warehouse permet au dcideur de travailler dans un environnement informationnel, rfrenc, homogne, historis. Cette technique laffranchit des problmes lis lhtrognit des systmes informatiques, lhtrognit des diffrentes dfinitions de donnes issues de lhistorique de lorganisation. Le Data Mining permet dextraire du Data Warehouse deux types de connaissances : lune, explicative des rsultats obtenus par lanalyse multidimensionnelle ou explicative dhypothses relatives au contenu informationnel du data warehouse, lautre, nouvelle, porteuse ventuellement de nouvelles possibilits daction. Aujourdhui, ces techniques font lactualit des presses spcialises en informatique, bien sr, mais aussi dans les rubriques Informatiques des presses spcifiques chaque type dactivit. Les applications dcisionnelles dans le Marketing nourrissent la majorit de ces articles de presse.
25
Glossaire
Base de donnes distribue Base dont les donnes sont disperses sciemment (distribues) sur plusieurs serveurs lis par un rseau. Une application cliente peut avoir besoin d'accder aux donnes de X serveurs simultanment. On dit aussi Base Rpartie lorsque c'est le SGBD qui pilote les accs. Base de donnes locale Base de donne situe sur le poste client, contenant des donnes propres lutilisateur, voire des donnes partages rpliques. Batch Dans les outils de Data Mining ou dinfocentre, le batch permet dexplorer de grandes masses de donnes (requtes lourdes) des heures creuses, sans trop solliciter le poste de lutilisateur, voire planifier lexcution des requtes (module souvent appel scheduler). Catalogue Dans certains outils clients du Data Warehouse, cest la structure permettant lutilisateur de travailler sur une vue logique et oriente mtier des donnes quil souhaite visualiser. Catgorie Valeur prise par une variable discrte. Classification Deux types de classification existent : Soit classer des lments dans des classes connues (par exemple les bons et les mauvais clients). On parlera aussi dapprentissage supervis. Soit de regrouper les lments ayant des comportements similaires dans des classes, inconnues au dpart. On parlera alors de clustering, de segmentation ou dapprentissage non supervis. Client Poste de travail Utilisateur : machine dporte qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de prsentation, dinfocentre et de dveloppement.
26
Data Mining Dfinition un peu floue car rcupre par beaucoup dditeurs doutils daide la dcision. A lorigine, le data mining correspondait toutes les technologies avances susceptibles danalyser linformation dun Data Warehouse pour en tirer des tendances, pour segmenter linformations, ou pour trouver des corrlations dans les donnes. Aujourdhui, le terme a tendance caractriser tous les outils daide la dcision, le " mineur " tant soit loutil lui-mme soit lutilisateur. Data Mining (outils de) Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent dextraire de la connaissance des donnes en dcouvrant des modles, des rgles dans le volume dinformation prsent dans les entreprises. Data Surfing Possibilit donne lutilisateur de naviguer de manire ergonomique et intuitive dans un modle multidimensionnel. Data Warehouse Entrept de donnes. Base de donnes spcifique au monde dcisionnel et destine principalement analyser les leviers business potentiels. Data Warehousing Processus de mise en uvre dun projet de Data Warehouse. DBA (Data Base Administrator) Personne garante de la cohrence des donnes, des performances du systme, de sa scurit... Pour les outils disposant dun catalogue, cest le DBA qui le mettra en uvre. Modle relationnel Technique de modlisation consistant modliser une base de donnes en la dcomposant en entit et en relations corrlant ces entits . MOLAP (Multidimensional On Line Analytical Processing) Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les bases de donnes multidimensionnelles. OLAP (On Line Analytical Processing) Caractrise larchitecture ncessaire la mise en place dun systme dinformation dcisionnel. Soppose OLTP (On Line Transaction Processing), adressant les systmes dinformation transactionnels. OLAP est souvent utilis pour faire rfrence exclusivement aux bases de donnes multidimensionnelles. En effet, le concept a t formalis par le Dr Codd, sous la forme de douze rgles, dcrivant un modle idal danalyse dinformation. Il a t montr depuis quil a t possible de respecter ces rgles indpendamment de la structure de stockage utilise. De plus en plus, le terme est
27
souvent utilis pour dsigner plus gnralement le dcisionnel dans ses aspects techniques. Requte C'est une demande envoye au gestionnaire de Base de Donnes serveur. Si celui-ci permet la gestion des donnes, le langage utilis est le SQL. Dans un contexte dinfocentre, l'excution des questions sur un serveur est le plus souvent interprte. ROLAP (Relational On Line Analytical Processing) Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les technologies relationnelles. SGBDR (Systme de Gestion de Base de Donnes Relationnelle) On dialogue avec le SGBDR grce des requtes crites en SQL, langage assez bien standardis. Les SGBDR (certains disent Serveur de bases de donnes) les plus avancs disposent de mcanismes de gestion des contraintes d'intgrit appels les Triggers, et aussi de capacit de traitements lis aux donnes: les Procdures Stockes.
28
Bibliographie
Jean-Michel Franco, Le Data Warehouse, le Data Mining, Eyrolles, 1996 Michael J.A. Berry et Gordon S. Linoff, Data Mining:Techniques appliques au marketing, la vente et aux services clients, Masson, 1997 Ren Lefbure et Gilles Venturi, Le data mining, Eyrolles, 1998 Pierre Lvine et Jean-Charles Pomerol, Systmes interactifs daide la dcision et systmes experts, Herms, 1990 Jean-Charles Pomerol, Les systmes experts, Herms, 1988 Olivier Crutti et Bruno Gattino, Indicateurs et tableaux de bord, Afnor, 1993 Herv Srieyx, Le big bang des organisations, Editions Calmann-Lvy, 1993 Anis Bouayad, Pierre-Yves Legris, Les alliances stratgiques, Dunod, 1996 Martin Forest, Groupe Canadien Innovation, Grer le Savoir, le nouveau dfi des organisations, Journe dtudes du 8 Avril 1997, Maison des Professions de Lille. Articles IEEE Parall & Distributed Technology, Parallelism speeds data mining, 1995 Inist CNRS, Power Tools for Data Drilling, 1996 Cover story, Data Marts : Low cost, High Appeal, 1996 Objectif, BussinessMiner : le Data Mining pour tous, 1997 Le monde informatique Novembre 1996 Le monde informatique Fvrier 1997 01 Informatique n1442 Fvrier 1997 et n1499 du 22 Mai 1998 Dcision Micro&Rseaux n248 Mars 1996 Sciences & vie micro - Juin 1998
29

Data Mining

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Data Mining

Enviado por

Direitos autorais:

Formatos disponíveis

DU Les modles de lEconomie Numrique 3me Promotion - 2004

Georges El Helou et Charbel Abou khalil

Data Mining : techniques dextraction des connaissances

Table des matires

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

I Du data warehouse au data mart

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

I.1.3. Pourquoi un data warehouse?

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

I.2. Composants du data warehouse

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

I.2.2. Les architectures

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

I.3. Le Data Mart

I.3.1. Mise en place

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

I.3.2. Les sept mythes du Data Mart

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II Les outils dexploration et dextraction des connaissances

II.1.1. Les 12 rgles OLAP

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.1.2. Les outils MOLAP

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.1.3. Les outils ROLAP

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.2. Introduction au Data Mining

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.2.2. Le Data Mining et la Recherche Oprationnelle

II.2.3. Statistiques et Data Mining

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.3. La recherche de connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.3.2. Les schmas dinfrence

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

II.3.3. Les tches du Data Mining

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances

Georges El Helou et Charbel Abou Khalil - 2004

Data Mining : techniques dextraction des connaissances