Escolar Documentos
Profissional Documentos
Cultura Documentos
Prsentation sur le dcisionnel (Prsent document) Dmonstration sur un outil de Restitution Dmonstration sur un outil ETL Etude de cas
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
Le contexte
Besoin: prise de dcisions stratgiques, rapide et fiable Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles
Constat
Je nai pas un problme de manque de donnes Mon problme est de pouvoir disposer de la bonne information au bon moment pour tre en mesure de prendre la meilleure dcision. Mon problme est de pouvoir contrler le bon fonctionnement de mon systme
Distribues: systmes eparpilles Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse Peu/pas adaptes a lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique
Problmatique
En donnant un accs rapide et simple a linformation stratgique En donnant du sens aux donnes
UN DATAWAREHOUSE
Count(CLIENT_JOUR.NUM_DOSSIER) o ETAT_OUVERTURE= 'O' et TYPE_CLIENT = '02 Enregistrements (CLIENT_JOUR) o ETAT_OUVERTURE = 'C ou B et TYPE_CLIENT = '02' Enregistrements (CLIENT) o TYPE_CLIENT = '02'
Stock de Comptes :
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
Dfinition dun DW
W. H. Inmon (1996):
Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et histories, organises pour le support dun processus daide la dcision Principe: mettre en place une base de donnes utilise des fins danalyse
Regroupe les informations des diffrents mtiers Ne tiens pas compte de lorganisation fonctionnelle des donnes
Traabilit des informations et des dcisions prises Copie des donnes de production
Les donnes persistent dans le temps Mise en place dun rfrentiel temps
SGBD et DW
OLTP VS DW
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
Datamart
Sous-ensemble dun entrept de donnes Destin a rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise
Nouvel environnement structur et format en fonction des besoins dun mtier ou dun usage Particulier Moins de donnes que DW
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
Architecture Gnrale
Flux entrant
Extraction: multi-source, htrogne Transformation: filtrer, trier, homogniser, nettoyer Chargement: insertion des donnes dans lentrept
Flux sortant:
Zone de prsentation
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
Modlisation Entit/Association
Avantages:
Normalisation:
Eliminer les redondances Prserver la cohrence des donnes
Pas dinterface graphique capable de rendre utilisable le modle E/A Inadapt pour lanalyse
Exemple
Modlisation des DW
Table de faits
Table principale du modle dimensionnel Contient les donnes observables (les faits) sur le sujet tudie selon divers axes danalyse (les dimensions)
Fait:
Prix unitaire: laddition sur nimporte quelle dimension donne un nombre dpourvu de sens
Rpondre la question :
Exemple: une ligne de commande par produit, par client et par jour
Table de dimension
Axe danalyse selon lequel vont tre tudies les donnes observables (faits) Contient le dtail sur les faits
Client, produit, priode de temps Lensemble des informations descriptives des faits
La dimension Temps
Commune a lensemble du DW Relie a toute table de faits
Chacun des membres appartient a un niveau hirarchique (ou niveau de granularit) particulier Granularit dune dimension : nombre de niveaux hirarchiques Temps :
anne semestre trimestre - mois
Un client peut se marier, avoir des enfants Un produit peut changer de noms ou de formulation:
Raider en Twix yaourt a la vanille en yaourt saveur vanille
Correction des informations errones Facile a mettre en uvre Perte de la trace des valeurs antrieures des attributs Perte de la cause de lvolution dans les faits mesures
Avantage:
Inconvnients:
Utilisation dune cl de substitution Permet de suivre lvolution des attributs Permet de segmenter la table de faits en fonction de lhistorique
Avantages:
Inconvnient:
Avantages:
Voir les donnes comme si le changement navait pas eu lieu Inadapt pour suivre plusieurs valeurs dattributs intermdiaires
Inconvnient:
Subit des changements trs frquents (tous les mois) dont on veut prserver lhistorique Solution: isoler les attributs qui changent rapidement
Modle en toile
Une table de fait centrale et des dimensions Les dimensions nont pas de liaison entre elles Avantages:
Inconvnients:
Modle en toile
Modle en flocon
Une table de fait et des dimensions dcomposes en sous hirarchies On a un seul niveau hirarchique dans une table de dimension La table de dimension de niveau hirarchique le plus bas est relie a la table de fait. On dit quelle a la granularit la plus fine Avantages:
Normalisation des dimensions Economie despace disque Modle plus complexe (jointure) Requtes moins performantes
Inconvnients:
Modle en flocon
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
Entrept mis a jour rgulirement Besoin dun outil permettant dautomatiser les chargements dans lentrept
Utilisation doutils ETL (Extract, Transform, Load)
Offre un environnement de dveloppement Offre des outils de gestion des oprations et de maintenance Permet de dcouvrir, analyser et extraire les donnes a partir de sources htrognes Permet de nettoyer et standardiser les donnes Permet de charger les donnes dans un entrept
Extraction
Extraire des donnes des systmes de production Dialoguer avec diffrentes sources:
Base de donnes, Fichiers, Bases propritaires ODBC, SQL natif, Fichiers plats
Transformation
Transformer, nettoyer, trier, unifier les donnes Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)
Chargement
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
OLAP
ROLAP
Relationnel OLAP
Donnes stockes dans une base de donnes relationnelles Un moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel
Plus facile et moins cher mettre en place Moins performant lors des phases de calcul Exemples de moteurs ROLAP:
MOLAP
Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes) Accs direct aux donnes dans le cube
Plus difficile mettre en place Formats souvent propritaires Conu exclusivement pour lanalyse Multidimensionnelle Exemples de moteurs MOLAP:
HOLAP
Hybride OLAP:
tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base) donnes agrges stockes dans des cubes
Solution hybride entre MOLAP et ROLAP Bon compromis au niveau cot et performance
MOLAP = Base de donnes dimensionnelle + Serveur de traitement OLAP ROLAP = Base de donnes relationnelle + SQL avanc HOLAP = MOLAP pour les donnes sommaires + ROLAP pour les donnes
Le cube
Modlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions:
Tranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite a une seule valeur
Drill-up, drill-down
Langage permettant de dfinir, d'utiliser et de rcuprer des donnes partir d'objets multidimensionnels
MDX, exemple
Fournir les effectifs dune socit pendant les annes 2004 et 2005 croiss par le type de paiement
Plan
Introduction Entrepts de donnes DataMart Architecture Modlisation Alimentation Bases de donnes multidimensionnelles March du dcisionnel
DM
Alimentation ODS DWH
Web
Outils de reporting, Alimentation : Powercenter (Informatica) Datastage (Ascential IBM) Sunopsis Genio (Hummingbird) SSIS (Microsoft) AB Initio Decision Stream (Cognos) WarehouseBuilder (Oracle) ODI (Oracle) SAS Warehousebuilder DIS (SAS) BODI (BO) Moteur SGBDR Oracle DB2 (IBM) SQL Server (Microsoft) Sybase Teradata (NCR) Netezza DataAllegro Sybase IQ Tables SAS Informix
Moteur OLAP
Business Objects XI Cognos Suite 8 Hyperion Essbase Oracle BIEE Oracle 10g OLAP Hyperion Performance Suite Microsoft Analysis Services (Brio) Cognos Powerplay Microstrategy DSS
SAP BW SAS MDDB SAS V9 Microsoft Reporting Services Outlooksoft Panorama Proclarity Exceutive Viewer CEGID Harry Software Qlickview
Les composants Open Source BI Microstrategy ETL : Kettle, Talend. 5% Gnrateur de graphiques : Microsoft SAS JFreeChart. 14% 10% Gnrateurs dtats : BIRT, JasperReports et JFreeReport. Oracle/H yperion MOLAP Cognos : Mondrian, Palo 13%
Microsoft 10% 13%
Microsoft+IBM+SAP+Oracle :
De moins de 25% plus de 65% du march