Você está na página 1de 43

Cours

Les entrepts de donnes


Data Warehouses

Prof. CHRAYAH Mohamed

Les entreprises passent l re de


linformation.
Dfi : Transformer leur systme
dinformation qui
avait une vocation de production un SI
dcisionnel
Dont la vocation de pilotage devient
majeure.

Definition dun Data warehouse


(DW)
La Data warehouse (entrept de donnes)
est une collection de donnes orientes
sujet, intgres, non volatiles et
historises, organises pour le support
d un processus d aide la dcision
(Inmon, 94).

Definition dun Data warehouse


(DW)
1-Donnes orientes sujet
Donnes structures par thmes (sujets
majeurs de lentreprise) et non suivant les
processus fonctionnels.
Le sujet est transversal aux structures
fonctionnelles et organisationnelles de
lentreprise. On peut accder aux donnes
utiles sur un sujet.
Lintgration des diffrents sujets se fait
dans une structure unique.

Definition dun Data warehouse


(DW)
1-Donnes orientes sujet
Il n y a pas de duplication des
informations communes plusieurs sujets.
La base de donnes est construite selon
les thmes qui touchent aux mtiers de
lentreprise (clients, produits, risques,
rentabilit, ).
Les donnes de base sont toutefois issues
des Systmes dInformation Oprationnels
(SIO).

Definition dun Data warehouse


(DW)
2 Donnes intgres
Les donnes, issues de diffrentes
applications de production, peuvent exister
sous toutes formes diffrentes.
Il faut les intgrer afin de les
homogniser et de leur donner un sens
unique, comprhensible par tous les
utilisateurs.
Elle doivent possder un codage et une
description unique.

Definition dun Data warehouse


(DW)
3 Donnes non-volatiles
Une information est considre volatile quand
les donnes sont rgulirement mises jour
comme dans les Systmes dInformation
Oprationnels.
Dans un SIO, les requtes portent sur les
donnes actuelles. Il est difficile de retrouver
un ancien rsultat.
Dans un DW, il est ncessaire de conserver
lhistorique de la donne. Ainsi, une mme
requte effectue deux mois dintervalle en
spcifiant la date de rfrence de la donne,

Definition dun Data warehouse


(DW)
4 Donnes historises
Dans un SIO, les transactions se font en temps
rel, et les donnes sont mises jour
constamment.
L historique des valeurs de ces donnes n est
gnralement pas conserv car il est inutile.
Dans un DW, la donne nest jamais mise
jour.
Les donnes du DW s ajoutent aux donnes dj
engranges.=> ajout de couches de donnes
successives, la manire des strates gologiques

Definition dun Data warehouse


(DW)
4 Donnes historises
Le DW stocke donc lhistorique des valeurs
que la donne aura prises au cours du temps.
Un rfrentiel de temps est alors associ
la donne afin dtre capable didentifier
une valeur particulire dans le temps.
Les utilisateurs possdent un accs aux
donnes courantes ainsi qu des donnes
historises.

Definition dun Data warehouse


(DW)

5 Support d un processus d aide la dcision

Un DW est un systme d information ddi aux


applications dcisionnelles dont les principales
contraintes sont :
des requtes complexes plusieurs niveaux d
agrgation
la ncessit de disposer d informations synthtiques (
reporting de gestion, analyse des ventes, gestion de
la masse salariale, etc)
le stockage des donnes sous une forme multidimensionnelle
des mises jour priodiques

Objectifs dun Data


warehouse
permet le dveloppement d applications
dcisionnelles et de pilotage de l entreprise et de
ses processus
joue un rle de rfrentiel pour l entreprise
puisqu il permet de fdrer des donnes souvent
parpilles dans diffrentes bases de donnes
offre une vision globale et oriente mtier de
toutes les donnes que manipule l entreprise
permet de faire face aux changements du march
et de l entreprise
offre une information comprhensible, utile , rapide
et jour

Architecture dun Data


warehouse
autres
sources

Metadonnes

BD
Extraire
oprationnelles Transformer
Charger
Mettre jour

Monitor
&
Integrator

OLAP Server
Analyse
Requtes
Rapports
Data mining

Data
Warehouse

Data Marts
Sources

Stockage

OLAP

Outils Front-End

Architecture dun Data


warehouse
1 Les Bases de Donnes
Bases de donnes internes:
Bases de production de lentreprise
Bases cres par les utilisateurs
Bases de donnes externes lentreprise
qui ncessitent leur identification, leur
rapatriement et leur intgration.
Donnes achetes des fournisseurs
de donnes
Donnes rcupres sur Internet

Architecture dun Data


warehouse
2 Oprations sur les donnes
EXTRACTION
Extraire les donnes de leur
environnement dorigine (bases de donnes
relationnelles, fichiers plats, ).
Utiliser une technique approprie pour n
extraire que les donnes ncessaires :
donnes cres ou modifies depuis la
dernire opration dextraction.

Architecture dun Data


warehouse
2 Oprations sur les donnes
TRANSFORMATION
Une mme donne peut avoir une structure ou une
valeur diffrente en fonction de la base (production,
externe, utilisateurs) dont elle provient.
On peut tre confront des redondances (un mme
client peut apparatre avec diffrents attributs et
proprits selon la source consulte).
Il faut supprimer certaines donnes aberrantes qui
risqueraient de fausser les analyses.
Il faut donc purer et transformer les donnes.

Architecture dun Data


warehouse
2 Oprations sur les donnes
CHARGEMENT/RAFRAICHISSEMENT
Effectuer sur les donnes des oprations de calcul et
dagrgation.
Remplacer certaines bases si aucune solution dextraction
satisfaisante nest
possible.
Mettre en place des procdures de chargement et de
restauration (en cas de problme).
Typiquement, la frquence du chargement est quotidienne et il
est effectu en tout dbut de matine.
Si la disponibilit du systme ne peut tre interrompue, envisager
la mise en place de systmes redondants.

Architecture dun Data


warehouse
2 Oprations sur les donnes
LES OUTILS
On peut automatiser tout ou partie des
oprations dcrites.
Des outils sont disponibles : Extract dETI,
SIS de MICROSOFT, SAS/Warehouse
Administrator de SAS
Le dveloppement doutils spcifiques est
envisageable mais risque d alourdir les
tches.

Architecture dun Data


warehouse
3 Dictionnaire de Donnes
Le dictionnaire de donnes regroupe les mta-donnes.
Une mta-donne reprsente une donne sur les
donnes. Il sagit de lensemble des informations qui
permettent de qualifier une donne, notamment par sa
smantique, sa rgle de calcul, sa provenance, sa
qualit, etc
les mta-donnes permettent de prciser de quelle
table provient la donne, quelles dates et heures elle
en a t extraite, ltat de la base cet instant, etc...

Architecture dun Data


warehouse
3 Dictionnaire de Donnes
Une mta-donne permet de remonter la chane et
de reconstituer lensemble dvnements et donnes
qui ont servi obtenir linformation associe.
Le dictionnaire de donnes contient toutes les
informations permettant dexploiter les donnes.
Cest un rfrentiel destin aux utilisateurs et
ladministrateur du DW.
A ce jour, il nexiste pas de normes en ce qui concerne
la structure et la gestion des dictionnaires de donnes.
Chaque outil propose sa solution et son approche.

Architecture dun Data


warehouse
4 LES DATA MARTS
Un data mart (magasin de donnes) est un DW focalis sur
un sujet particulier, souvent au niveau dpartemental ou
mtier.
C est donc un mini DW li un mtier particulier de l
entreprise (finance, commercial, ).
Un DW est souvent volumineux (plusieurs centaines de Go
voire quelques To ) avec des performances inappropries
(temps de rponse trop longs). Un Data mart, quant lui,
comporte moins de 50 Go, ce qui permet des performances
acceptables.
La cration dun data mart peut tre un moyen de dbuter
un projet de DW (projet pilote).

Modlisation dun Data


warehouse
DIMENSION
On entend par dimensions les axes avec
lesquels on veut faire l'analyse. Il peut y avoir
une dimension client, une dimension produit, une
dimension
gographie (pour faire des analyses par
secteur gographique).
Une dimension est tout ce qu'on utilisera
pour faire nos analyses.

Modlisation dun Data


warehouse
FAIT
Les faits sont ce sur quoi va porter l'analyse. Ce sont
des tables qui contiennent des informations
oprationnelles et qui relatent la vie de l'entreprise.
On aura des tables de faits pour les ventes (chiffre
d'affaire net, quantits et montants commands,
quantits factures, quantits retournes, volumes des
ventes, etc.)
par exemple ou sur les stocks (nombre d'exemplaires
d'un produit en stock, niveau de remplissage du stock,
taux de roulement d'une zone, etc.

Un fait est tout ce qu'on voudra analyser.

Modlisation dun Data


warehouse
Le modle en toile
Command
e N Cde
Date Cde
Client
N Client
Nom
Client
Adresse
Client
Ville

Vendeur

Code
vendeur
Nom
Vendeur
Ville Vendeur
Quota

Produit
Code
produit
Nom Produit
Description
Produit
Catgorie
Description
catgorie
Prix unitaire

TABLE DE
FAITS
N Cde
Code vendeur
N Client
Clef date
Code produit
Nom Ville
Quantit
Prix total

Date
Ville
Nom Ville
Rgion
Pays

Clef date
Date
Mois
Anne

Modlisation dun Data


warehouse
Le modle en toile
Une (ou plusieurs) table(s) de faits : identifiants des tables de

dimension ; une ou plusieurs mesures .


Plusieurs tables de dimension : descripteurs des dimensions.
Avantages :
Facilit de navigation
Performances : nombre de jointures limit .
Gestion des agrgats
Fiabilit des rsultats
Inconvnients :
Toutes les dimensions ne concernent pas les mesures
Redondances dans les dimensions
Alimentation complexe.

Modlisation dun Data


warehouse
Proprits des mesures
Additivit : somme sur toutes les mesures
Exemple : CA ; Quantit vendue, ...
Semi-additivit : somme sur certaine
mesures :
Exemple : nbre de contacts clients, Etats des
stocks, ...
Non-additivit : pas de somme , recalculer
Exemple : encours moyen fin de mois, plus
grand CA pour lensemble des magasins

Modlisation dun Data


warehouse
La table de fait contient se qu'on appelle des "

mesures .
Les tables de dimension contiennent les
lments qu'utiliseront les dcideurs pour voir la
table de faits.
On n'utilise JAMAIS la cl d'un systme de
production comme cl de dimension.
Chaque ligne de la table de faits doit avoir une
relation avec chacune des tables de dimensions
Il n'existe de relations qu'entre les dimensions et
les tables de faits.

Modlisation dun Data warehouse


On vous demande de crer un data Mart (une toile) pour
l'analyse de l'activit des reprsentants d'une entreprise
de vente d'imprimantes. Le chef d'entreprise veut savoir
ce qui se passe pour ses vendeurs. Les employs font ils
leur travail, quelle est la zone de couverture des
vendeurs, ou sont les endroits o les vendeurs sont le
moins efficaces, quelle est la moyenne de ventes des
reprsentants, etc., etc. L'entreprise possde un
systme de gestion de ressources humaines, un
systme de gestion des ventes et des feuilles de routes
avec des informations concernant les vendeurs :
kilomtres parcourus, litres d'essence utilise, frais de
voyage, ventes, promesses de ventes, etc.

Modlisation dun Data


warehouse
Command
e N Cde
Date Cde
Client
N Client
Nom
Client
Adresse
Client
Ville

Vendeur

Code
vendeur
Nom
Vendeur
Ville Vendeur
Quota

Produit
Code produit
Nom Produit
Description Produit
Catgorie
Description
catgorie
Prix unitaire

TABLE DE
FAITS
N Cde
Code vendeur
N Client
Clef date
Code produit
Nom Ville
Quantit
Prix total

Date
Ville
Nom Ville
Rgion
Pays

Clef date
Date
Mois
Anne

Modlisation dun Data


warehouse
Le modle floconn
Command
eN Cde
Date Cde
Client
N Client
Nom
Client
Adresse
Client
Ville

Produit
TABLE DE
FAITS
N Cde
Code vendeur
N Client
Clef date
Code produit
Nom Ville
Quantit
Prix total

Vendeur

Code
vendeur
Nom
Vendeur
Ville Vendeur
Quota

Ville
Nom Ville
Rgion

Cathegori
e

Code
produit
Nom Produit
Description
Produit
catgorie
Prix unitaire

Date

Catgorie
Description

MOIS

Clef date
Date
Mois

Mois
Anne

Region
Rgion
Pays

Pays
Pays

ANNEE
Anne

Modlisation dun Data


warehouse

La modlisation en flocon tant une


variante de la modlisation en toile.

Le principe de la modlisation en flocon est


de crer des hirarchies de dimensions, de
telle manire avoir moins de lignes par
dimensions

Modlisation dun Data


warehouse
Modle floconn = Modle en toile + normalisation
des
dimension
Lorsque les tables sont trop volumineuses
Avantages :
rduction du volume,
permettre des analyses sur la dimension
hirarchise.
Inconvnients :
navigation difficile ;
nombreuses jointures.

Modlisation dun Data


warehouse
Constellation
Une constellation est une srie d'toiles ou de flocons
relies entre eux par des dimensions.
Il s'agit donc d'toiles avec des dimensions en commun. Un
environnement dcisionnel idal serait une place ou il
serait
possible de naviguer d'toile en toile, de constellation en
constellation et de Data Mart en DataMart la recherche
de l'information si prcieuse.

Le Concept OLAP
LOLAP ou Online Analytical Processing est une
technique informatique d'analyse
multidimensionnelle, qui permet aux dcideurs,
d'avoir accs rapidement et de manire interactive
une information pertinente prsente sous des
angles divers et multiples, selon leurs besoins
particuliers. A titre dexemple on peut reprsenter
de faon graphique des informations contenues
dans une base de donnes, sous la forme d'un
cube plusieurs dimensions, lequel cube permet
d'analyser ces donnes sous diffrents angles,
grce l'organisation de celles-ci en axes
d'analyses et en variables analyser.

OLAP et Data
Warehouse
Il est important de distinguer les capacits
dun data warehouse de celles dun systme
OLAP. Contrairement un data warehouse qui
se base le plus souvent sur une technologie
relationnelle, OLAP utilise des vues
multidimensionnelles de donnes agrges
afin de permettre un accs rapide des
informations stratgiques pour une analyse
plus fine. "

Le Concept OLAP
Les 12 rgles OLAP:
Vue multidimensionnelle.
Transparence du serveur OLAP a diffrents types de logiciels.
Accessibilit a de nombreuses sources de donnes.
Performance du systme de Reporting.
Architecture Client/serveur.
Dimension gnriques.
Gestion dynamique des matrices creuses.
Support multi-utilisateurs.
Calculs a travers les dimensions.
Manipulation intuitive des donnes.
Souplesse et facilit de constitution des rapports.
Nombre illimit de niveaux dagrgation et de dimensions

Analyse
Multidimentionnelle
Les serveurs OLAP ont t conus pour sintgrer dans un
environnement client/serveur afin den retirer les
possibilits offertes.
TEMPS
400
0 800

CLIENT

1200
0

100
0
700
0

400
0

PRODUIT

Analyse
Multidimentionnelle
1- obtenir des informations dj agrges selon les besoins de
lutilisateur.
2- simplicit et rapidit daccs
3- capacit manipuler les donnes agrges selon diffrentes
dimensions
4- un cube utilise les fonctions classiques dagrgation : min, max,
count, sum, avg, mais peut utiliser des fonctions dagrgations
spcifiques.

Analyse
Multidimentionnelle

Analyse
Multidimentionnelle
LES DIMENSIONS
LES VARIABLES
Lutilisateur formulera alors ses requtes en prcisant les
indicateurs a analyser(le chiffre daffaire),les dimensions sur
lesquelles ces analyseurs doivent tre projetes (le produit et
le client) et la population a observer (le mois mars 2010)

Analyse
Multidimentionnelle
Navigation dans les donnes:
DRILL-DOWN,DRILL-UP
Le drill-down/up dsigne la facult daller du niveau global vers le
niveau dtaill ,et inversement.
Ce mcanisme est totalement bas sur la notion de
hirarchie

SLIDE AND DICE


Dsigne la possibilit de faire pivoter dynamiquement les axes du
tableau danalyse croise.
DATA SURFING
La possibilit laisse a lutilisateur de circuler librement, de manire
intuitive et ergonomique dans un modle dimensionnel, lutilisateur
peut alors modifier dynamiquement ses axes danalyse ou appliquer
un nouveau filtre a ses donnes.

LES DIFFERENTS OUTILS OLAP


Deux versions d'OLAP s'affrontent
actuellement:
Les outils MOLAP (Multidimensional OLAP)

d'une part qui s'appuient sur une base de


donnes multidimensionnelle.
Les outils ROLAP (Relational OLAP) d'autre
part, qui reprsente leur quivalent sur une
base de donnes relationnelle.

LES OUTILS MOLAP


Data Warehouse

Donnes
Stockage des
donnes dtailles (et
agrges)

Moteur MOLAP

Traitements

Aide la dcision

Prsentation
Rapports
Multi-Dimensionnel

LES OUTILS ROLAP


Data Warehouse

Donnes
Stockage des
donnes dtailles (et
agrges) et
des mta-donnes

Moteur ROLAP

Traitements
Gnration de plans
d'excution SQL
afin d'obtenir des
fonctionnalits OLAP.

Aide la dcision

Prsentation
Rapports
Multi-Dimensionnel

Você também pode gostar