Você está na página 1de 66

Comit stratgique information et

communication numrique
Juin 2015

ATTENTES ET
I M PA C T S D E L A
N O R M A L I S AT I O N

Livre blanc

Donnes massives - Big Data


Impact et attentes pour la
normalisation
Animateur du groupe de travail Big Data :
Charles HUOT (TEMIS/APROGED)
Rapporteur : Jean-Franois LEGENDRE

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

SOMMAIRE
Synthse du livre blanc 4
Public vis par ce livre blanc 8
Introduction 9
Domaine d'application 10
Dfinitions 11

Enjeux 15
1.1. Perspectives et opportunits 15
1.2. Les freins 17

tat de lart 19
2.1. Un cadre conceptuel pour une architecture Donnes massives/ Big Data 19
6.1.1. La vue utilisateur : rles et sous-rles
6.1.2. Liste des activits identifies

20
22

2.2. Architecture fonctionnelle 24


6.2.1. Lien avec la R&D : les projets des ples de comptitivit, la R&D communautaire,

les initiatives en code source libre (open source)

25

2.3. Architecture technique et interfaces 26


6.3.1. Ltat de lart
6.3.2. Exigences en dcoulant pour la normalisation

26
30

2.4. Les cas d'usage 31


3.3.3. Les besoins fonctionnels
3.3.4. Liens avec les secteurs

34
34

2.5. Les questions dintrt pour les acteurs franais 37


6.5.1.
6.5.2.
6.5.3.
6.5.4.
6.5.5.

Les formats de donnes


La qualit des donnes
La proprit de donnes
Les licences et lintgration de donnes htrognes
Lvolution des ontologies

Lenjeu stratgique de la gouvernance des donnes


43
3.1. Ladministrateur gnral des donnes
3.2. Lorganisation des donnes
3.3. La gouvernance des rfrentiels de mta-donnes
3.4. Aspects de protection des donnes caractre personnel

37
38
38
39
40

43
44
44
45

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

La rglementation 47

Cartographie 51
5.1. Travaux et initiatives en cours relatives la normalisation du big data 51
5.1.1. Les responsabilits d'acteurs franais au niveau des instances de normalisation
5.1.2. Les acteurs franais participant aux instances de normalisation et leur degr de participation

5.2. tat de lart sur les normes de scurit internationales applicables au traitement Big Data
5.2.1. Les normes de la srie ISO 27001
5.2.2. La norme ISO 29100

53
53

55
55
56

Recommandations pour la normalisation 57

ANNEXES 61

Bibliographie 62
Les contributeuts aux travaux 63
Liste des logiciels 64

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

[ Synthse ]

BIG DATA :
IMPACT ET ATTENTES DE NORMALISATION VOLONTAIRE
Livre blanc du Comit stratgique AFNOR information et communication numrique - Juin 2015

CONTEXTE
En traduisant nimporte quelle donne en bits informatiques, partageables sur des rseaux sociaux, stockables distance avec
le cloud computing, les nouvelles technologies de linformation et de la communication ont ouvert une nouvelle re, celle
du big data : la production et la gestion de donnes massives (lquivalent franais de lexpression). Par massives , on
entend de grandes quantits dinformations (exprimes en milliards doctets), produites sur des supports varis (capteurs,
tlphones, etc.), avec des outils extrmement vloces permettant denvisager des dcisions en temps rel.
Ainsi dfini, le big data constitue un enjeu fort pour tous les acteurs conomiques. Pour les entreprises, le sujet est vu comme
un moyen de mieux matriser leur march, de conqurir de nouveaux prospects ou de mieux cerner les attentes de leurs clients
actuels. Linformation devient un actif stratgique. Par ailleurs, le big data est lui-mme un objet de cration de richesse, avec
des socits se positionnant sur des activits de collecte, de vrification, de traitement, dexploitation, darchivage de donnes.
Le big data ne saurait exclure les acteurs publics, qui disposent l dune opportunit pour proposer de nouveaux services aux citoyens.
En particulier dans les domaines en rupture technologique, comme la ville intelligente, le-sant ou les smart grids. Mais rapidement,
mergent plusieurs autres enjeux : celui du contrle, de la fiabilit, de la proprit intellectuelle des donnes, et celui de linteroprabilit
tant au niveau du processus de collecte que de lextraction de linformation et la restitution des rsultats. La normalisation volontaire est
un moyen efficace dy parvenir.

UN LIVRE BLANC POUR QUI, POUR QUOI ?


Le nophyte en big data apprciera ce livre blanc pour comprendre les enjeux du sujet, identifier les acteurs politico-conomiques en prsence et les normes volontaires sa disposition.
Les experts du sujet y trouveront des analyses pour orienter leurs choix de dveloppement et identifier les opportunits de
normalisation dans lesquels investir pour apporter des rponses aux nombreuses questions poses.

MTHODE
Le prsent livre blanc a t labor au nom du Comit stratgique AFNOR information et communication numrique1 par un
groupe de travail de 32 personnes impliques dans lcosystme big data (liste en page 63). Ce groupe tait anim par Charles
Huot (Temis/Aproged), avec comme rapporteur Jean-Franois Legendre (AFNOR).
Il sappuie notamment sur une tude qualitative des besoins de normalisation volontaire au moyen dun questionnaire, diffus
en 2014 au sein de la communaut franaise du big data, en particulier le rseau Alliance Big Data. 43 questionnaires ont t
remplis et retourns.

QUE FAUT-IL RETENIR ?


Le secteur du big data se structure en trois grands mtiers : production et collecte, traitement et infrastructure,
restitution et prsentation.
Ne pas matriser les processus dessine un risque de monopole de la part des grands acteurs du numrique
concernant la gestion des donnes massives et les mtiers de la relation client.
La normalisation volontaire est souhaite, pour sa capacit proposer des interfaces, des pratiques et des modes
dorganisation partags. Un point fondamental quand le big data exige qualit, traabilit, interoprabilit.
Les mtadonnes, cest--dire les donnes servant dcrire ou documenter dautres donnes, ncessitent plus encore
de parler un langage commun, car ce langage dsigne des donnes diverses provenant de mtiers divers.
1 -Le Comit stratgique assure la gestion collective des programmes de normalisation volontaire dans le secteur concern.

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

SYNTHSE DU LIVRE BLANC

LES CONCLUSIONS DU LIVRE BLANC


Un cosystme complexe
Le big data est gouvern par la rgle des 4 V :
volume, vlocit, varit, vracit. Le dfi est
daccder et de pouvoir exploiter ces donnes en
saffranchissant des contraintes lies la forme et
lorigine de linformation (donnes internes des
entreprises, internet des objets, web et rseaux
sociaux, voix, image, etc.). Le monde du big data
est structur en trois grands mtiers (production
et collecte, traitement et infrastructure, restitution et prsentation) et se travaille en vue utilisateur (avec rle et sous-rles).

Donnes

Donnes
publiques(Open Data)
Capteurs (IOT)
Production
audiovisuelle
WEB & Rseaux Sociaux
Data mtiers (Sant,
Tlcom, Banque,
Assurance, transport,

Des architectures et interfaces


bases sur lecloud

Traitement
/infrastructure

IT

Infrastructure
Stockage
Logiciel
Analyse de donnes
Linguistique
Modlisation
Prdictif
Qualit des donnes
Scurit
Protection des donnes
Web Smantique
Image \ Vido,
.

RESTITUTION
et Prsentation

Usages

Business Model
Ethique
Valorisation
Reporting
Business-intelligence
Organisation
Visualisation
Simulation
Formation

Les trois domaines du big data (p. 19)

Les premiers projets industriels de big data sont


linitiative des spcialistes de la requte sur le web. Sont ainsi apparus Google BigTable et surtout Apache Hadoop, la technologie de rfrence des big data, en java open source. Chaque oprateur utilise cette librairie pour apporter sa propre valeur
ajoute: IBM, EMC, Hortonworks, Oracle, SAP, etc. Au centre des architectures big data figurent aussi le modle noSQL,
qui saffranchit des bases de donnes orientes en colonnes. Enfin, le big data met fin au modle de la gestion de donnes internes lentreprise, o des statisticiens et des data-analystes graient des data warehouses : lexternalisation est dsormais
la rgle, grce lapport du cloud computing. Les donnes migrent sur des serveurs distants, les applications et traitements
galement.

Des donnes htroclites structurer


Comme lindexation en temps rel dinformation peu ou pas structure est une caractristique forte du big data, lapport
des technologies smantiques est dterminant: des informations de toute nature et de tout format sont captures et structures la vole en sappuyant sur des rfrentiels mtiers (banque, dition, sant, etc.) et des relations smantiques. Cest ce
quon appelle les ontologies de domaine. Se pose
alors la question de la norme volontaire: dans cet
univers htroclite, tout le monde a-t-il besoin
Collectivit locale
Utilisateur rseau social
de parler un langage commun ? En matire dinRle : Fournisseur de
Rle : Fournisseur de
frastructures, labsence de normes volontaires
donnes
donnes
ne semble pas tre un obstacle majeur ladoption gnralise dHadoop. Les systmes NoSQL
Entreprise Big Data
souffrent assurment dune absence de normes
Organisme de
Sous Rle: Fournisseur dinfrastructure
volontaires et il serait utile de dfinir un langage
Collecte de donnes
certification
Traitement
de base unifi pour la requte. Des acteurs ont
Rle : Gouvernance
Sous Rle : valuation
essay de pousser en ce sens.
et conformit
Sous Rle : Fournisseur dapplication

Analyse de donnes
prsentation

Entreprise Finance
Rle : Client de service
Big Data
Sous Rle : utilisateur

Exemple dun cosystme big data (p. 21)


AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

Des besoins exprims pour la


normalisation
Pour raliser ce livre blanc, une tude qualitative
des besoins a t mene au moyen dun questionnaire diffus auprs des porteurs de projets
big data. Ils ont exprim des besoins de dfinir
collectivement des repres partags sur des sujets
5

SYNTHSE DU LIVRE BLANC

trs varis : besoin de recourir des prestataires internes ou externes, diversit des donnes traites, grand nombre de processus, confidentialit, protection intellectuelle et respect de la vie prive ressortent comme des enjeux largement cits. La
pseudonymisation des donnes personnelles ou industrielles est un point cl : comment garantir des algorithmes non rversibles? En matire de traitement, les enjeux souligns concernent la dfinition des mtadonnes, pour faciliter lexploitation
et la catgorisation, ainsi que la traabilit des oprations effectues sur ces donnes.

Linteroprabilit smantique
Dans un contexte marqu par lessor de cinq types de donnes non structures (texte, image, image anime, son, donnes
de capteurs), lenjeu de la fusion des donnes devient majeur. Deux niveaux dinteroprabilit smantique apparaissent : lun
relatif aux contenus, lautre aux contenants (schmas XML, etc.). Linitiative internationale Research Data Alliance, laquelle
participe le ple de comptitivit franais Cap Digital, est ici souligner pour mieux cadrer les ontologies et la smantique
des contenus. La normalisation peut apporter des solutions complmentaires, limage des normes volontaires de systmes
denregistrement que dveloppe le comit technique ISO TC 46 sur la documentation (ISAN, ISBN, etc.). Dance ce contexte,
il y a lieu de mener un travail sur llvation des donnes que permettent les ontologies, cest--dire lextraction de leur format
dorigine pour leur confrer linteroprabilit. Il existe certes le LOV (Linked Open Vocabulary), une sorte de catalogue dontologies de plus de 450 rfrences (ontologies du tourisme, de la mto, de la sant, etc.), mais il ne fait lobjet daucune norme
volontaire et nest pas encore reconnu dans le cadre de lISO.

Lenjeu stratgique de la gouvernance des donnes


Le big data fait merger une fonction nouvelle et transverse aux mtiers au sein des organisations, celle dadministrateur des
donnes. lui de rpondre aux questions suivantes : qui est producteur de la donne ? Qui en apprcie le degr de qualit ?
Qui en garantit la qualit, la prennit, laccessibilit? Quel circuit de validation mettre en place ? Cette organisation suppose
des prrequis : existence dun identifiant, utilisation de celui-ci par les diffrents producteurs, activation de cet identifiant.
Dans le domaine des donnes culturelles, par exemple, de nombreuses normes volontaires existent en matire de mtadonnes et didentifiants. Pour les entreprises, des rfrentiel existent par secteurs mais ne rsultent pas de dmarches de normalisation et ne sont pas interoprables : PLIB pour les donnes industrielles, IFC dans la construction etc. Cet administrateur
des donnes doit matriser la rglementation applicable aux donnes, quelles soient publiques ou prives. Pour ces dernires,
il nexiste pas de rgime juridique unifi encadrant la proprit.

Les recommandations pour la normalisation


Lorganisme de normalisation amricain NIST2, relay par lISO/CEI JTC 13, travaille sur ltat de lart et les dmarches de
normalisation mener dans le domaine du big data, de mme que lUIT4. Du ct de lISO, plusieurs normes volontaires de
scurit se prtent lencadrement de lcosystme big data:
la srie ISO 27001 (systmes de management de la scurit de linformation) ;
la norme ISO 29100 (scurit technique pour la protection des donnes).
Mais la normalisation doit aller bien au-del. En particulier, il est ncessaire de pousser une norme internationale cadrant
larchitecture de rfrence et le vocabulaire du big data. Au total, six axes de dveloppement ont t identifis :
la gouvernance de la donne,
la qualit et lidentification,
les donnes ouvertes (open data),
les oprateurs dinfrastructures,
les oprateurs de service,
la normalisation technique.
2 - NIST : National Institute of Standards and Technology
3 - Le Joint Technical Committee 1, cr en 1987 par convention entre l'ISO (Organisation internationale de normalisation) et la CEI (Commission
lectrotechnique internationale) est l'organe de rfrence pour la normalisation des Technologies de l'Information au niveau mondial.
4 - UIT-T : lUnion internationale des tlcommunications est une agence des Nations unies

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

SYNTHSE DU LIVRE BLANC

Cartographie des instances de normalisation (p. 52)

Participer la normalisation volontaire


Dans un contexte de mondialisation et de concurrence accrue, les entreprises doivent la fois renforcer leur organisation et
leurs pratiques pour gagner en efficacit ; anticiper les nouvelles normes volontaires (et si possible les initier) pour sadapter
plus vite et innover ; et promouvoir leur agilit pour se diffrencier.

AFNOR est lorganisme franais de rfrence sur la vie des normes volontaires. Elle recense toutes celles qui existent, anticipe
celles venir, et accompagne leur cration aux niveaux franais, europen et international.
Une norme volontaire est un cadre de rfrence, positif et vertueux, qui vise lamlioration continue des produits, services ou
pratiques, au service de lintrt de tous : des consommateurs, des entreprises et de la collectivit au sens large.
Elle dfinit les exigences et fixe les standards en matire de qualit, de scurit, de performance.
Tout le monde peut participer sa cration. Elle est labore par consensus entre lensemble des parties intresses.
Elle est volontaire, tout acteur peut ou non sy rfrer.
En vritable moteur de cette dmarche, AFNOR accompagne celles et ceux qui, par leur expertise, veulent poser les bases de
lconomie et de la socit de demain. Un soutien unique et indispensable pour favoriser le progrs et faire rayonner la France
linternational.
Contact :

www.afnor.org

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

Jean-Franois LEGENDRE
jeanfrancois.legendre@afnor.org
01 41 62 83 57

PUBLIC VIS PAR


CE LIVRE BLANC
Ce livre blanc est destin avant tout sensibiliser les entreprises ainsi que les pouvoirs
publics aux enjeux des donnes massives et limpact potentiel de la normalisation dans
ce domaine.
Il propose quelques recommandations pour la normalisation drives des besoins des
acteurs franais et vise notamment soutenir lcosystme industriel qui se constitue
autour de lexploitation des donnes massives.
Bien qulabor dans le cadre du comit stratgique sur linformation et la communication
numrique, ce document concerne tous les secteurs, car les enjeux des donnes massives
se situent bien au-del des seuls aspects technologiques et impactent galement lorganisation de nombreux mtiers.

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

INTRODUCTION
Les perspectives conomiques, industrielles, techniques et socitales, associes la collecte et lexploitation de donnes
de plus en plus massives, reprsentent dimportantes opportunits, mais aussi des risques quil convient dapprhender,
danticiper et de matriser.
Lune des caractristiques des donnes massives ou Big Data est quelle concerne tous les secteurs et quelle interfre
avec tous les domaines qui connaissent des situations de rupture technologique comme la ville intelligente, le-sant, les
moyens de production, les rseaux intelligents, les objets connects, etc.
Le dfi est daccder et de pouvoir exploiter lensemble de linformation dans un monde de plus en plus complexe, connect et diffus. Cela suppose de saffranchir des contraintes lies la forme et lorigine de linformation.
Les technologies classiques de gestion des donnes, bases depuis des annes sur des mcanismes transactionnels partir
du stockage et de linterrogation de donnes structures, ne suffisent plus car elles prsentent des limites avec lavnement
de linternet social (social web), de la mobilit, des smart phones et des tablettes, des capteurs et des objets connects.
Pour la prise de dcision, force est en effet de constater que l'analyse des donnes transactionnelles est rtrospective et
que les analyses effectues sur ces ensembles de donnes caractrisent plutt des comprhensions de faits ralises ou
d'opinions sur le pass.
De nouvelles technologies prennent en compte les caractristiques des donnes massives et permettent leur analyse en
temps rel ou quasi rel. Cela rend par exemple possible la modlisation des phnomnes avec toute lagilit dont on a
besoin aujourdhui.
En termes dinfrastructures de services, linformatique en nuage cloud computing apporte la capacit d'ingrer, de
stocker et danalyser les donnes pour permettre aux organisations de relever les dfis associs aux donnes massives.
Cette conjonction dinnovations offre une opportunit pour de nouveaux acteurs, ceux issus de la rvolution du numrique, de pntrer les secteurs conomiques en apportant de la valeur ajoute. Ils peuvent ainsi se positionner en arbitre
ou intermdiation dans la relation entre des clients et des fournisseurs.
Tous les secteurs sont concerns, aussi bien dans la sphre publique et notamment les collectivits territoriales que dans
la sphre prive y compris lindustrie.
Dvelopper lexploitation des donnes massives demande cependant des leviers.
Les normes sont des outils volontaires venant en appui des entreprises pour apporter des solutions aux enjeux des donnes
massives. Elles sont un facteur douverture des marchs et de confiance entre partenaires. Leur dveloppement de mme
que leur adoption est un enjeu concurrentiel.
Dans un environnement national, europen et international de plus en plus complexe et multiforme, il importe que les
acteurs prennent conscience de limportance de ce levier et rflchissent une stratgie approprie dans le domaine cl
des donnes massives pour en faire des outils efficaces au service des diffrentes parties intresses.

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

DOMAINE
D'APPLICATION
Ce livre blanc traite des donnes massives ou Big Data . Par donnes massives, on entend lexploitation de grandes masses dinformations (teraoctets) composes de donnes souvent htrognes
(multimdia, capteurs, rseaux sociaux, tlphonie, etc.) avec des outils extrmement vloces (permettant denvisager des dcisions en temps rel), ce qui implique le cas chant des moyens non
conventionnels (exemple : base de donnes NO SQL).
Le prsent document analyse les enjeux pour la normalisation associs la mise en uvre de processus de collecte, traitement et exploitation de grandes masses de donnes, souvent htrognes et
non structures, par exemple en provenance dinternet, de rseaux sociaux publics ou dentreprises,
de rseaux de communication, de capteurs associs des rseaux intelligents, des objets mobiles, des
dispositifs de scurit ou des sites de production industrielle, etc.
Pour ce qui est des enjeux normatifs, on ne se limite pas aux questions technologiques, bien quelles
soient importantes, mais on considre loutil normatif dans sa capacit proposer aux entreprises et
aux acteurs des interfaces, des pratiques et des modes dorganisation partags et adapts aux changements profonds quimposent les modles conomiques des donnes massives.
Ce document se place dans une optique gnrique et intersectorielle.
Ceci tant, les enjeux tant fortement lis des besoins et des spcificits des secteurs dapplication, il
importe donc de prendre en compte cette dimension multisectorielle travers un certain nombre de
cas dusage sans pour autant prtendre rechercher une exhaustivit qui serait impossible atteindre
compte tenu de la complexit et de la diversit des approches possibles dans le Big Data .

10

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

DFINITIONS
Pour les besoins du prsent document, le glossaire suivant a t tabli :

ANALYSE DE CONTENUS ( DATA ANALYTICS )


Selon le livre blanc de janvier 2013 de lAPROGED, lanalyse de contenu / Content Analytics est
lanalyse et la reprsentation multidimensionnelle des donnes issues des donnes massives aprs un
traitement dextraction des contenus non structurs afin den faire ressortir des entits nommes, des
relations inter-entits, des thmatiques, des opinions.

ANONYMAT/PSEUDONYMISATION
LISO/CEI 29100 : Information technology - Security techniques - Privacy framework, propose les
dfinitions suivantes :

ANONYMAT
Caractristique dune information qui ne permet pas lidentification directe ou indirecte du porteur
lorigine de cette information caractre personnel.
Characteristic of information that does not permit a personally identifiable information principal to
be identified directly or indirectly

PSEUDONYMISATION
Processus par lequel une information caractre personnel est altre de faon irrversible, de sorte
que le porteur de cette information caractre personnel ne peut tre directement ou indirectement
identifi, que ce soit par un automate traitant linformation caractre personnel seul ou en collaboration avec tout autre dispositif.
Process by which personally identifiable information (PII) is irreversibly altered in such a way that a
PII principal can no longer be identified directly or indirectly, either by the PII controller alone or in
collaboration with any other party

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

11

DOMAINE D'APPLICATION

ANONYMIZED DATA
Donne qui a t produite en sortie dun processus danonymisation de donnes caractre personnel.
Data that has been produced as the output of a personally identifiable information anonymization
process

DONNE
Ensemble des indications enregistres en machine pour permettre l'analyse et/ou la recherche automatique des informations`` (CROS-GARDIN 1964).
(Ortoland - http://www.cnrtl.fr/definition/donne)

DONNES CARACTRE PERSONNEL


Selon la directive europenne 95/46/EC relative la protection des personnes physiques l'gard du
traitement des donnes caractre personnel et la libre circulation de ces donnes (note : actuellement en vigueur, mais rvision en cours un tat avanc) :
Une donne caractre personnel est dfinie comme toute information concernant une personne physique identifie ou identifiable (personne concerne); est rpute identifiable une personne qui peut tre
identifie, directement ou indirectement, notamment par rfrence un numro d'identification ou
un ou plusieurs lments spcifiques, propres son identit physique, physiologique, psychique, conomique, culturelle ou sociale. (art. 2a)

DONNES MASSIVES1 ( BIG DATA )


Selon lUIT-T, les Donnes massives Big Data sont dfinies comme un ensemble de technologies
et services permettant la collecte, le stockage, le partage, lanalyse et la prsentation de donnes fortement massives, vloces et variables.
(a category of technologies and services where the capabilities provided to collect, store, search,
share, analyse and visualize data which have the characteristics of high-volume, high-velocity and
high-variety.)
Un livre blanc publi par lUIT-T en novembre 2013 prcise les quatre caractristiques essentielles
des donnes massives:
1) Les volumes : des tera peta octets aujourdhui, sans doute beaucoup plus demain.
2) La vlocit : elle caractrise la rapidit avec laquelle une information est gnre, dlivre,
stocke et finalement enleve puis efface. Elle se mesure en des vnements de lordre de la
milliseconde et la capacit permettre des dcisions en temps rel ou proche du temps rel,
ce qui apparat ncessaire pour permettre la flexibilit des organisations.
3) La varit : on traite tout type et toute structure de donnes : textes, donnes de capteurs,
enregistrements, cartes, son, image, vidos, donnes lies issues des rseaux sociaux, fichiers
informatiques et plus. Les sources des donnes sont galement diverses.
4) La vracit : la qualit, la prcision et la crdibilit des donnes gouvernent la capacit
laborer des dcisions avec certitude dans un contexte de slectivit entre diffrentes sources
dacquisition des donnes.

12

1 - Le vocabulaire prconis par le dispositif ministriel denrichissement de la langue franaise est le terme mgadonnes

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

DOMAINE D'APPLICATION

DONNES OUVERTES ( OPEN DATA )


Une donne dite ouverte est une donne numrique d'origine publique ou prive dont la diffusion
est organise de manire structure selon une mthodologie et une licence ouverte garantissant son
libre accs et sa rutilisation par tous, sans restriction technique, juridique ou financire.
Cette notion est souvent associe aux donnes produites par une collectivit ou un service public
(service ventuellement dlgu).

MTADONNE
Une donne sur / propos de la donne, une donne servant dcrire ou documenter une autre
donne.

ONTOLOGIE
Une ontologie est la spcification d'une conceptualisation d'un domaine de connaissance.
Une ontologie inclut gnralement une organisation hirarchique des concepts pertinents et des relations qui existent entre ces concepts ainsi que des rgles et axiomes qui les contraignent. L'ontologie
dfinit ainsi des concepts (principes, ides, catgories d'objets, notions potentiellement abstraites) et
des relations.

TRAITEMENT (PROCESSING)
Selon la directive europenne 95/46/EC relative la protection des personnes physiques l'gard du
traitement des donnes caractre personnel et la libre circulation de ces donnes :
Traiter / processing signifie " toute opration ou ensemble d'oprations effectues ou non l'aide de
procds automatiss et appliques des donnes caractre personnel, tels que la collecte, l'enregistrement, l'organisation, la conservation, l'adaptation ou la modification, l'extraction, la consultation,
l'utilisation, la communication par transmission, diffusion ou toute autre forme de mise disposition, le
rapprochement ou l'interconnexion, ainsi que le verrouillage, l'effacement ou la destruction;". (art. 2 b)

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

13

14

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

ENJEUX

PERSPECTIVES ET OPPORTUNITS

1.1

Lexploitation des donnes massives bnficie de plusieurs ruptures technologiques rendant possibles
lintgration, le traitement, linterprtation et la reprsentation de donnes htrognes provenant de
diffrentes sources.
Ceci permet de placer dsormais les donnes au cur des modles conomiques et dapporter aux
organisations une forte valeur ajoute par un meilleur ciblage de leurs services travers la fois une
meilleure connaissance de leur environnement et une optimisation de leurs processus.
Une convergence entre les domaines d'affaires est ainsi possible et ceci marque sans doute le dbut de
nouveaux modles conomiques qui redfinissent les relations entre les producteurs, les distributeurs
et les consommateurs ou les biens et services.
Ceci tant, la complexit lie ces relations sest considrablement accrue rendant la prise de dcision
extrmement difficile pour une organisation donne.
La nouveaut dans les donnes massives rside dans le besoin dexploiter de gigantesques volumes de
donnes lis la diversit et multiplicit des sources qui sont dsormais accessibles et en particulier :
Les donnes internes des entreprises,
Les donnes issues de capteurs qui se multiplient avec linternet des objets soit dans une
approche B to B, soit dans une relation B to C,
Les donnes issues du Web et des mdias sociaux.
Le traitement permet de gnrer de linformation forte valeur ajoute pour lensemble de lentreprise. La finalit est daider la prise de dcision, dans un contexte o linformation est devenue lactif
stratgique majeur des entreprises.
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

15

1. ENJEUX

Pour les entreprises, mettre en uvre une dmarche de donnes massives est un enjeu de comptitivit avec la possibilit de gnrer de nouveaux profits et de se positionner dans de nouvelles activits.
Pour les acteurs publics, cest disposer dune capacit doptimiser leur fonctionnement et de proposer
de nouveaux services aux citoyens.
Pour les citoyens, cest une possibilit dtre acteurs conscients dans lcosystme des donnes massives, et de bnficier de nouveaux services qui amlioreront leur qualit de vie.
Pour bnficier de ce nouveau modle conomique, il est ncessaire de dcloisonner les silos et de
jouer sur la transversalit entre les mtiers, ce qui impose une dmarche de transformation de lentreprise. Il sagit en effet dtre en mesure dapprhender linformation mais aussi de prendre conscience
du patrimoine informationnel au sein des entreprises et des organisations.
Ceci suppose une comprhension et une matrise de la valeur des donnes, de ce qui est partageable
et de ce qui ne lest pas, dans quelles conditions, avec des enjeux en termes de proprit intellectuelle,
de connaissance de la rglementation notamment en matire de donnes caractre personnel.
Pour les acteurs publics, la donne devient essentielle pour le pilotage des Territoires. La donne se
retrouve au cur de nombreux concepts mergents (Open Data, Big Data).
Elle reprsente un enjeu pour les collectivits travers :
Un meilleur accs aux donnes qui permet de contrler les missions confies aux
dlgataires ou partenaires,
Une connaissance de lutilisation et de ltat des services publics qui facilite loptimisation des
ressources, pour les investissements ou la maintenance,
Une meilleure information des consommateurs, notamment des fins de sensibilisation.
Les entreprises comme les collectivits territoriales sont cependant confrontes des questions techniques :
En premier lieu, la qualit de linformation rsultant dune dmarche Big Data est directement lie
la qualit des jeux de donnes en entre.
La qualit des donnes est un enjeu important en raison de lexploitation de donnes de diffrentes
sources souvent non homognes, ce qui a des rpercussions sur les processus de traitement analytique et smantique.
Un effet induit peut tre de noyer les donnes pertinentes au sein de donnes inutilisables ou inutiles.
En second lieu, il est utile de pouvoir mettre en uvre une interoprabilit qui se traduit dans les
processus de capture des donnes, dans la mise en uvre de rfrentiels de mtadonnes, dans les
processus de filtrage et dextraction de linformation ainsi quau niveau de la restitution des rsultats.
En troisime lieu, il est ncessaire dassurer une scurit qui concerne les donnes afin den garantir
lintgrit et la confidentialit, et qui concerne le processus workflow afin notamment, de disposer
de mcanismes de non-rpudiation ( la source) et dapprobation (du rsultat).
Tout ceci ncessite un apport de comptences spcifiques (analystes, statisticiens, juristes de la
donne, ), mais aussi des infrastructures et des technologies particulires.

16

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

1. ENJEUX

LES FREINS

1.2

La constitution de nouveaux monopoles


Les grands acteurs du numrique comme Google, Apple, LinkedIn, Facebook, Amazon, etc. dont
aucun nest franais, offrent aux entreprises un accs direct aux donnes du grand public et parfois
mme leurs propres donnes (accs aux intranets des entreprises).
Le risque pour les acteurs traditionnels qui ont besoin des outils proposs par ces fournisseurs pour
se dvelopper est que ces grands acteurs utilisent cet actif et leur position dominante pour se positionner en inter-mdiateur dans la relation clients, puisquils cherchent imposer aux clients leurs
propres services par exemple dans l'assurance, le crdit, etc.

Le contrle sur les donnes


Les entreprises sont conscientes de limportance des donnes quelles dtiennent. Le caractre stratgique peut imposer que ces donnes ne puissent tre partageables. Ceci limite intrinsquement
leur exploitation dans un contexte de donnes massives du fait que celui-ci accrot le risque de fuite
dinformations.
Dune faon plus gnrale, les organisations sont susceptibles davoir une sensibilit renforce aux
vnements et aux incidents de scurit, puisque les dispositifs dexploitation de donnes massives
imposent des systmes trs intgrs (mme si linfrastructure technique est largement distribue) et
font appel des prestataires spcialiss.
Lorsquelles sont partageables, les donnes posent la question des licences dexploitation et de la
proprit intellectuelle associe, ainsi que celle de la traabilit de leur usage. Les notions de droits
dusage des donnes conduisent aussi des questions de non-rpudiation.
Lenjeu de traabilit des donnes et des traitements est dautant plus important dans un contexte
de donnes ouvertes. Ceci concerne en particulier lexploitation de donnes culturelles, celle des
donnes de la Recherche, et induit celle de lidentification des auteurs ou/et des chercheurs. Il existe
dj des pratiques, des rgles et des normes, mais dans des domaines limits que le Big Data
bouleverse.
Pour les acteurs publics, la question de la proprit Intellectuelle peut driver sur celle de l'acceptation des utilisateurs et des exploitants pour dlivrer les donnes dans un entrept public. Ainsi,
les conditions de gestion (exemple : mutualisation de Systmes dInformation Gographique) et de
transmission des donnes deviennent un lment dterminant dun projet dexploitation de donnes
massives entre entits publiques, ou publiques et prives.

La scurit juridique et lthique


La manipulation de donnes caractre personnel conduit des enjeux sur les processus danonymisation et soulve la question de leur cryptage non rversible.
Dautre part, le risque dimage peut tre important pour certains acteurs (collectivits publiques,
organismes financiers, etc.) en raison des effets et des drives Big Brother lis la collecte massive
de donnes.
Ce risque vaut aussi pour les grandes entreprises qui souhaitent matriser leur rputation sur les
rseaux sociaux et travers celle-ci leur relation client.
Les enjeux socitaux peuvent aussi se traduire par des contraintes sur les processus de prsentation
de linformation et leur usage.
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

17

18

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

TAT DE LART

UN CADRE CONCEPTUEL POUR UNE ARCHITECTURE


DONNES MASSIVES - BIG DATA

2.1

Le contexte des donnes massives se structure en trois grands domaines :


Donnes

Traitement
/infrastructure

Donnes
publiques(Open Data)
Capteurs (IOT)
Production
audiovisuelle
WEB & Rseaux Sociaux
Data mtiers (Sant,
Tlcom, Banque,
Assurance, transport,

IT
Infrastructure
Stockage
Logiciel
Analyse de donnes
Linguistique
Modlisation
Prdictif
Qualit des donnes
Scurit
Protection des donnes
Web Smantique
Image \ Vido,
.

RESTITUTION
et Prsentation
Usages
Business Model
Ethique
Valorisation
Reporting
Business-intelligence
Organisation
Visualisation
Simulation
Formation

Cette reprsentation peut tre complte par la dfinition plus formelle dune architecture de rfrence pour traiter les donnes massives. Ce qui suit sinspire dune mthodologie dj utilise pour
modliser une informatique en nuage ou cloud computing afin de mettre en vidence les besoins
fonctionnels et mieux prciser les besoins normatifs en tenant compte de lexistant dj exploitable.
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

19

2. TAT DE LART

Cette reprsentation fait intervenir :


une notion d acteur partie intresse ou partie prenante
une notion de rle
une notion de sous-rle
une notion d activit
Elle permet dans un deuxime temps de dfinir le modle fonctionnel en prcisant les couches
dabstraction concernes (reprsentation couramment employe dans les tlcommunications et le
numrique).
Dans cet effort de modlisation de systmes complexes (les donnes massives en sont un exemple),
il est utile de rfrencer des cas dusage et de vrifier que la modlisation propose en permet la
reprsentation.

2.1.1

2.1.1 - LA VUE UTILISATEUR : ROLES ET SOUS-ROLES


Lcosystme relatif aux donnes massives est dcrit suivant le modle de la vue utilisateur illustre
ci-aprs.
La vue utilisateur consiste dfinir lcosystme des donnes massives - Big Data en distinguant les notions dacteurs et de rles jous par ces mmes acteurs suivant un cas dusage.
Acteur

Rle

Cas d'usage

Sous-Rle

Activit

Rle

Sous-Rle

Activit

Activit

Utilisateur

Vue utilisateur
Cest ainsi que sont dfinis quatre rles principaux dans la fourniture de services Big Data et ce
indpendamment du type de services considr :
- le fournisseur de donnes ;
- le fournisseur de service Big Data ;
- le client de service Big Data ;
- la gouvernance (pour la protection de donnes personnelles).

20

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Ecosystme Big Data/Donnes massives


Rle : Producteur de donnes

Rle : Fournisseur service Big data

Rle :
Gouvernance

Rle : Client service Big Data

Ces quatre rles se dcomposent en sous-rles correspondant chacun un jeu dactivits (ou ensemble de tches) intervenant lors de la ralisation de cas dusage.

Exemples typiques de sous-rles :


Le rle fournisseur de service Big Data comporte deux principaux sous-rles, savoir :
Le fournisseur dinfrastructure Big Data : ce sous-rle offre des capacits de stockage, de
calcul et de rseau, assure la collecte des donnes ainsi que leur traitement et la scurit associe;
Le fournisseur dapplications Big Data : ce sous-rle couvre les activits danalyse et de
prsentation des donnes et assure galement la protection et la scurit des donnes.
Le rle fournisseur de donnes consiste exposer les donnes de manire scurise et protge et
le modle conomique associ.
Le rle client de service Big Data comprend les sous-rles dutilisateur des applications
Big Data et dadministration des comptes utilisateurs.
Le rle gouvernance comprend les sous-rles de :
conseil en matire dexpertise juridique ou technique ,
autorit de rgulation pour lautorisation, le contrle et les sanctions vis--vis de la rgulation ,
valuation et conformit (audit, certification) ,
etc.
La figure suivante illustre un exemple dcosystme Big Data :
Collectivit locale

Utilisateur rseau social

Rle : Fournisseur de
donnes

Rle : Fournisseur de
donnes

Entreprise Big Data


Sous Rle: Fournisseur dinfrastructure
Collecte de donnes
Traitement
Sous Rle : Fournisseur dapplication
Analyse de donnes
prsentation

Organisme de
certification
Rle : Gouvernance
Sous Rle : valuation
et conformit

Entreprise Finance
Rle : Client de service
Big Data
Sous Rle : utilisateur

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

21

2.1.2

2.1.2 - LISTE DES ACTIVITES IDENTIFIEES


Un exemple concernant les activits relatives aux rles :
Rle : Fournisseur de donnes
Capture de la donne (capteurs, applications, SI, ),
Mise disposition dune place de march de la donne (catalogue de donnes et
leurs caractristiques (ex : mtadata), ngociation contractuelle avec le fournisseur
de service Big Data),
Contrle de la qualit de la donne la source,
Acquisition du consentement de lindividu pour la mise disposition des donnes
personnelles,
Pseudonymisation des donnes personnelles ou commerciales avant mise
disposition,
Autorisation/consentement sur la mise disposition des donnes (licences),
Mise disposition informatique des donnes.
Rle : Fournisseur de service Big Data
Sous Rle : Fournisseur dinfrastructure Big Data
-- Collecte des donnes auprs des fournisseurs,
-- Gestion des mtadonnes (catalogues, ontologies, ),
-- Contrle et nettoyage des donnes,
-- Pseudonymisation des donnes (si dsign comme tiers de confiance),
-- Indexation, agrgation, intgration multi-sources (ex. synchronisation
temporelle, mise la maille spatiale, ) et multi-types des donnes
(ex.traitement automatique des langues, analyse des images, ),
-- Historisation des donnes,
-- Stockage des donnes,
-- Scurisation des donnes (accs, prennit),
-- Gestion du cycle de vie de la donne (archivage, destruction),
-- Traabilit de lhistorique des oprations sur les donnes.
Sous Rle : Fournisseur dapplication Big Data
-- Mise disposition de donnes (catalogue, gestion des licences gratuites ou
payantes, accs aux donnes, facturation),
-- Visualisation de donnes,
-- Services valeur ajoute sur les donnes : data mining exploratoire et
prdictif, traitement en flux,
Rle : Client de service Big Data
Acquisition des donnes ncessaires au service (auprs dun fournisseur de service
Big Data),
Acquisition des donnes du client ncessaires au service,
Opration et facturation du service (service mtier et non un service li la gestion
des donnes),
Mise disposition des donnes acquises au travers du service (cf. devient
producteur de donnes),
Passe un contrat avec le fournisseur de service,
Donne/refuse son consentement sur lutilisation de ses propres donnes,
Approuve/valide le rsultat de lanalyse.

22

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Rle : Gouvernance
Protection de la confidentialit des donnes,
Rgulation de lutilisation des donnes,
Certification/labellisation,
Dsignation des tiers de confiance,
Sous-rle Conseil : expertise technique et juridique en protection de la
confidentialit des donnes,
Sous-rle Autorit : Rgulateur de lutilisation des donnes,
Sous-rle Evaluateur : Conformit/Audit/Certification.

2.1.2.1

Processus de collecte, traitement et analyse de contenus

Liste des activits mises en vidence par ltude (questionnaire en annexe) :


Extraction (langage d'extraction),
Collecte,
Filtrage,
Indexation,
Dfinition des rfrentiels (mtadonnes),
lvation (ontologies),
Pseudonymisation des donnes personnelles (ou industrielles),
Rapprochement des sources, sdimentation, agrgation, data cleaning ,
Stockage, archivage,
Normalisation/harmonisation/tokenisation (des donnes),
Traitement la vole (stream processing),
Conversions (exemples : voix en texte, OCR pour des documents papiers),
Exploration des donnes,
Analyse linguistique, traitement automatique des langues, text mining,
Analyse prdictive / Data Mining (ex: service de prvision),
Analyse des rseaux sociaux,
Effacement des donnes,
Autres (ex: compression...).

2.1.2.2 Processus de restitution, reprsentation, visualisation post


traitement de l'information
Liste des activits mises en vidence par ltude (questionnaire en annexe):
Compte-rendu (reporting),
Approbation (meilleure comprhension) du rsultat de l'analyse du contenu,
Aide la dcision,
Reprsentation,
Visualisation des graphes (sociaux, smantiques, autres),
Reprsentation gographique (sur une carte), temporelle, chronologique,
Simulation 3D (reprsentations multicritres temporalises),
Intgration des rsultats dans une application (ex : recommandations sur un site web).

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

23

24

Traitement
par lots

Capture
de donnes
modifies

Messaging

Streaming

FLUX

Cycle temps rel ou fil de leau

Cycle temps diffr

Fichiers divers

Logs

AUTRES

Open Data

Mainframe

SGBDR

ENTREPOTS
DE DONNES

Capteurs

Rseaux sociaux

Email

Mobile

WEB

CANAUX DIGITAUX

SERVICES
DINFRASTRUCTURE

Interfaces de
chargement
de donnes
en temps
diffr

Administration

Stockage
natif des
donnes

Interfaces orientes service


pour lacquisition de donnes
en temps rel ou au fil de leau

INTERFACES ENTRANTES

Gestion de
la Scurit

Filtrage
Nettoyage
Anonymisation
Transformation
Normalisation
Partitionnement
Indexation

PREPARATION
DES DONNEES

FOURNISSEUR DE DONNEES

D
O
N
N

E
S

D
E
S

A
N
A
L
Y
S
E

Sauvegarde

C
I
B
L
E

S
T
O
C
K
A
G
E

TRAITEMENT DES
DONNEES

Supervision

Recherche de
donnes

Exploration de
donnes

Reporting
ad hoc

Reporting
dentreprise

Alerte

Scoring

Recommandation

APPLICATIONS
ET SERVICES

FOURNISSEUR DE DONNEES

FOURNISSEUR DE DONNEES

CLIENT

2.2

FOURNISSEUR DE DONNES

2 -Figure inspire de la documentation associe un projet dans le domaine de la sant source BUSINESS & DECISION

La figure ci-aprs2 dcrit une architecture fonctionnelle typique dun systme Big Data :

2. TAT DE LART

ARCHITECTURE FONCTIONNELLE

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

AFNOR Normalisation

2. TAT DE LART

Cette architecture est compose par de modules fonctionnels en lien avec les activits des rles et
sous rles dcrits prcdemment. Les modules fonctionnels du fournisseur de services Big Data permettent la collecte et lanalyse de donnes la fois trs varies (structures ou non structures) et
volumineuses en sappuyant sur un ensemble largi de systmes dacquisition capables de rpondre
aux exigences techniques et aux besoins des mtiers les plus contraignants.
La gouvernance sappuie sur une fonction de monitoring ou dhypervision tendue lensemble de
larchitecture et ne figurant pas sur le schma.
Cette architecture peut tre entrevue comme laboutissement final de lassemblage planifi dun ensemble de modules fonctionnels permettant au fournisseur de services Big Data de dgager, graduellement dans le temps, la valeur recherche dans la transformation de la donne brute en information
exploitable sous forme dactions et de prises de dcisions.
Dautre part, certaines sources de donnes ont, du fait dune nature vnementielle de porte phmre dans le temps et des dbits levs avec lesquels elles sont produites, un intrt tre collectes
en temps rel (ou en mode juste temps). Dautres sources de donnes ont, de par leur pertinence
dans la dure avec en contrepartie une volution souvent plus lente dans le temps, un sens tre collectes par lot en mode diffr (mode batch).
On distingue alors naturellement deux modes dacquisition de donnes complmentaires :
un mode dacquisition temps rel (en rouge sur le schma) dont le principal intrt est de
favoriser la prise de dcision immdiate en raction une suite dvnements avec une forte
dimension prdictive (ex : dtection de fraudes, recommandation webmarketing, rupture
produit en linaires) ;
un mode dacquisition temps diffr (en bleu sur le schma) offrant des approches
dexploitation plus classiques, telles que les activits de reporting, la fouille de donnes non
supervise (exploration de donnes), la recherche dinformation.
Suite une phase initiale didentification des sources de donnes ligibles en premire approche et de
mise en uvre du socle technique de collecte des donnes dhistorique partir des diffrents canaux,
lexploration de donnes doit tre ralise pour laborer les modles statistiques et analytiques sur
lesquels sappuieront les analyses de donnes ralises en temps rel.
Un processus damlioration itratif des modles doit tre immdiatement envisag pour prendre en
compte les retours dexploitation (robustesse des modles) faits par les utilisateurs des services Big Data
(par exemple le responsable du pilotage du dveloppement commercial du client des services Big Data).
De par sa modularit, larchitecture fonctionnelle Big Data offre la capacit dintgrer, avec une
grande agilit, de nouvelles sources de donnes participant ainsi lenrichissement et loptimisation
des modles danalyse reposant sur la dcouverte de corrlations de donnes souvent insouponnes.

2.2.1. - Lien avec la recherche et developpement (R&D): les


projets des poles de competitivite, la R&D communautaire,
les initiatives en code source libre (open source)

2.2.1

De nombreux appels projets sont identifiables autour du Big Data et en particulier une initiative
Paris-Saclay Center for Data Science vient dtre lance (2014) avec pour objectif dorganiser lexploitation des donnes scientifiques dans un contexte multidisciplinaire. Il sagit dun projet dinfrastructure (cluster) dont lune des retombes sera de proposer de nouveaux modles pour dissminer dans
un contexte douverture la connaissance sous forme de donnes et doutils associs. Un projet en
cours financ par lappel Big Data PIA 2012, Teralab, pilot par lInstitut Mines Telecom et le GENES
(Groupe des coles Nationales d'conomie et Statistique), offre une plateforme technique volutive
(hadoop et serveur in-memory) pour offrir un service ddi linnovation en matire de Big Data.
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

25

2. TAT DE LART

Au niveau applicatif, le Big Data devient un outil de la Recherche.


Lorsquon tudie les appels projets rcents, on constate que certains projets de R&D autour du Big
Data ont une relation directe avec les standards et les normes. Ainsi, le descriptif de 25 projets rcents
de R&D portant sur des secteurs trs varis citent explicitement le mot norme ou standard. Sur ces 25
projets, 5 expriment lintention de dvelopper une stratgie normative pour valoriser les rsultats de
leur recherche et 3 autres envisagent cette possibilit mais sans stendre sur la nature du livrable normatif espr. Les 17 projets restants de cet chantillon se positionnent dans lexploitation de normes
existantes dans leur domaine dapplication.
A titre dexemple, les thmes de normalisation lists portent sur lapport des standards du web smantique pour une application un domaine particulier (la sant), la mise en vidence de processus
permettant lamlioration de normes existantes (elearning, protocoles de communication multimdia), la dfinition de formats dinteroprabilit (robotique de service, communication avec des objets
internet en milieu avionique).
Lintention des projets cits nest cependant pas de contribuer au dveloppement de normes (ou
standards) spcifiquement ddies au Big Data lexception peut-tre du projet traitant de Web
smantique dans le domaine de la sant. Du point de vue de la normalisation, le Big Data est donc
plutt compris ici comme un ensemble de moyens permettant de rpondre une problmatique de
recherche dans un domaine dapplication.

2.3
2.3.1

ARCHITECTURE TECHNIQUE ET INTERFACES


2.3.1 - LTAT DE LART
Ltat de lart qui suit sappuie sur un tat de lart ralis dans le cadre dune journe dtude organise
par le GFII et sur la base de la prsentation de Jean Delahousse3
Les premiers projets industriels de Big Data remontent au dbut de la dcennie 2000. Ils sont
linitiative des acteurs du Search sur le web, alors confronts au problme de scalabilit des systmes, cest--dire de leur capacit changer dchelle de performance pour accrotre ou diminuer
leur capacit de calcul afin de sadapter aux rythmes de la demande et suivre la monte en charge.
Cette capacit ajuster les ressources selon les besoins souvent performance gale doit par ailleurs
tre regarde comme un paramtre dentre.

Google BigTable
En 2004, Google lance linterne le projet BigTable : une plateforme haute performance
pour le stockage et le traitement de vastes ensembles de donnes semi-structures. Lapplication,
qui repose sur une architecture distribue (serveurs rpartis en grappes / clusters ), est conue
pour pouvoir rpondre avec des temps de rponse trs courts aux requtes manant simultanment
de plusieurs milliers dordinateurs clients. BigTable est aujourdhui lpine dorsale de linfrastructure
Google qui lutilise pour faire tourner la plupart de ses services en ligne : indexation, crawl, moteur
de recherche, GoogleNews, GoogleAlerts, GoogleMaps, Gmail, GoogleBooks (Google a fait son
entre sur le march de l'informatique dcisionnelle allie aux Big Data ces derniers mois. Le service
BigQuery, lanc au printemps dernier aux Etats-Unis, propose aux dveloppeurs une plateforme IaaS
pour le chargement et le traitement de "donnes de masse". Si le moteur avait t prcurseur dans le
3 - Big Data : exploiter de grands volumes de donnes : quels enjeux pour les acteurs du march de linformation et de
la connaissance ? Dossier de synthse de la journe dtude du Groupement Franais de lIndustrie de lInformation
(GFII), Maisons de lEurope, Paris, Vivien Mann, Juillet 2012

26

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

domaine du calcul distribu avec BigTable , il n'avait pas encore capitalis sur ces investissements
pour se positionner directement sur la BI (Business Intelligence) et peut tre considr comme un
nouvel entrant sur ce secteur. On notera que, l'occasion de son lancement en France et en Europe
dbut octobre 2011, Google a nou un partenariat avec la startup franaise "We are Cloud", ditrice
de la solution BIME, permettant aux entreprises de concevoir leurs propres tableaux de bord, et
l'analytique qui les accompagne, partir de donnes mtiers pralablement charges dans BigQuery.

MapReduce
BigTable repose en partie sur lutilisation de MapReduce : un formalisme pour le dveloppement
de langages de programmation et dapplications optimises pour le traitement de donnes de masse
et leur mise lchelle . Les librairies MapReduce ont t implmentes dans de trs nombreux
dveloppements orients Big Data par la suite, notamment Apache Hadoop.

Apache Hadoop
Cre en 2004 par Douglass Cutting pour Yahoo, Apache Hadoop est la technologie matricielle de
lcosystme des Big Data . Il sagit dun framework Java en Open Source destin faciliter le
dveloppement de solutions optimises pour le traitement de gros volumes de donnes (les environnements Hadoop permettent dutiliser, en couche suprieure (top level programming language),
des langages de programmation simplifis par rapport au formalisme Map/Reduce, dont la syntaxe
se rapproche de celle des langages de dveloppement connus (Java, SQL, ) : Pig, Hive, Giraph,
Sqoop
(http://developer.yahoo.com/blogs/hadoop/posts/2008/ ).
Le projet dbouche sur le lancement en 2008 de lapplication Yahoo ! Search Webmap 10,000 core
Linux Clusters : lpoque premire et plus importante application oprationnelle de la librairie
open source, permettant de faire tourner de plus de 10 000 nuds (serveurs linux) pour crawler
lensemble du web.

Modle No-SQL (Not-Only-SQL)


Au centre des architectures Big Data , il y a la notion de bases de donnes non-relationnelles,
affranchies des contraintes du modle SQL, notamment les bases de donnes orientes colonnes,
permettant le stockage de trs grandes tables (les informations sont stockes par colonnes et non par
lignes ; le modle NoSQL permet de saffranchir des contraintes de larchitecture relationnelle classique, o les tables et les relations qui les unissent constituent lunit logique). Parmi les composantes
essentielles des environnements Hadoop, on trouve ainsi les applications Hadoop HDFS (Hadoop
Distributed Files System) et Hbase qui forment un systme de gestion de bases de donnes orientes
colonnes projetes sur des serveurs distribus en clusters.

In-Memory
Les changes entre niveaux de mmoire occasionnent des pertes de temps soit parce que les mmoires nont pas de temps daccs et de lecture/criture homognes, soit parce que les canaux qui
les relient ont des dbits pnalisants. Plusieurs facteurs dacclration sont alors possibles par une
dfinition architecturale approprie. A ce titre, sil est possible de cantonner le traitement au niveau
mmoire le plus rapide, alors le gain de temps est maximal.
Les traitements en mmoire vive (RAM, disques SSD ou mmoire flash) ont des temps daccs un
millier de fois plus rapide que pour les disques durs. La diminution du prix des mmoires vives
permet den mobiliser une trs grande quantit rendant possibles les solutions In-Memory qui
peuvent dsormais adresser le transactionnel.

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

27

2. TAT DE LART

Un cosystme complexe, domin par des gants


La librairie Hadoop est le point de dpart la cration dun cosystme Big Data dans lequel
chaque oprateur, limage de Yahoo !, utilise la librairie open source pour apporter sa propre valeur
ajoute : IBM, EMC, Hortonworks, Oracle, SAP, Amazon, Microsoft, Cloudera, Datasax,
Cet cosystme est trs cratif. Chaque acteur entretient sa spcificit et se positionne sur la chane
de la valeur : il y a ceux qui dveloppent et intgrent les bases de donnes, ceux qui les hbergent et
les maintiennent, ceux qui apportent la puissance de calcul et ceux qui les utilisent. Mais linnovation
reste essentiellement californienne, bien que des acteurs europens se dtachent, comme SAP en
Allemagne (spcialis dans les technologies de calcul In-Memory ), ou Quanta en Chine (fournisseur de datacenters), do lenjeu des projets de cloud souverain pour dvelopper des majors du
secteur en France et en Europe.
Lien vers une cartographie des relations entre acteurs de lcosystme Hadoop :
http://gigaom2.files.wordpress.com/2012/06/hadoop_ecosystem_d3_photoshop.jpg

Les ruptures technologiques, dusages et organisationnelles


Temps-rel / non-structur
Au-del du buzz word, les Big Data impliquent plusieurs changements de paradigmes (ruptures
technologiques et dusages) :

1. Un changement quantitatif : lchelle des volumes traiter explose, toute la chane de cration de
valeur est bouleverse.
2. Un changement qualitatif : - On ne traite plus des donnes pralablement chantillonnes et structures, mais htrognes et parses, structures et non-structures (texte, image, multimdia, traces
numriques). - On ne traite plus les donnes en diffr mais en temps rel : on passe dune logique
de silos (batch, tables, ..) une logique de flux. Lapport des technologies de visualisation est ce
niveau dcisif. On peut rsumer ces changements par la formule des 3V : Volume - Varit Vlocit. Ceci implique le dploiement dinfrastructures capables de supporter des applications haute
performance . La comparaison avec la Business Intelligence (BI) traditionnelle permet de saisir
les changements organisationnels. Avant, les entreprises dveloppaient linterne des entrepts de
donnes (data warehouse), formaient des statisticiens et des data analystes pour lancer des campagnes de fouilles prdictives. Dsormais, lexternalisation est ncessaire pour suivre la chane des
traitements qui se complexifie : il y a les prestataires spcialiss dans lhbergement de plateformes,
ceux spcialiss dans lintgration et la maintenance des bases de donnes, ceux qui quipent et apportent la puissance de calcul, les entreprises qui utilisent les applications

Cloud Computing
Le modle du Cloud est traditionnellement dcrit en plusieurs couches de services sur lesquelles
chaque acteur se positionne (IUT-T Y.3500 I ISO/IEC 17799):
1. Data Storage As A Service (DaaS) : les donnes, au centre de lcosystme, apportes par
des producteurs et des fournisseurs de donnes
2. Software as a Service (SaaS) : les logiciels pour traiter les donnes, fournis par les diteurs
de solutions
3. Plateforme as a Service (PaaS) : les plateformes pour hberger et intgrer applications et
donnes
4. Infrastructure As A Service (IAAS) : les quipements hardware, fournis par les
quipementiers rseaux et fournisseurs de datacenters.
28

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Le dveloppement du Cloud Computing est troitement li celui des Big Data . Des architectures plus agiles et plus puissantes sont requises pour optimiser les ressources et assurer la capacit
des infrastructures tenir la monte en charge sans faire exploser les dpenses dinvestissement et de
maintenance (scalabilit). Avec le Cloud, les DSI sont en capacit de faire voluer les infrastructures
progressivement sans quil y ait besoin dun Big Bang . Lhbergement et les oprations critiques
(migration, maintenance) peuvent tre externaliss. Les sources dconomie et de ROI sont nombreuses. Avec le Cloud , tout devient service . Pour autant, la notion ne doit pas tre rduite
lexternalisation des objets sur des serveurs distants (ex : GoogleDocs). Il ny pas que les donnes qui
migrent : les applications et les traitements migrent aussi. Le passage lchelle et le calcul distribu
font exploser la logique dunit centrale haute disponibilit, de supercalculateur (mainframe).

Lapport des technologies de visualisation


La visualisation temps rel (visual analytics), appuye par lanalyse smantique des contenus, apparat comme une technologie cl du Big Data . Seule la restitution visuelle permet datteindre le
niveau dabstraction ncessaire pour apprhender les donnes massives et leur donner du sens.
Des corrlations entre les donnes permettent dextraire des connaissances nouvelles qui resteraient
tacites et inexploitables sous une autre forme (donnes tabulaires, linarit textuelle). Lenjeu est aujourdhui de dvelopper des technologies permettant de visualiser des flux massifs en temps rel, sans
travailler partir dchantillons prconstruits, dans une logique de monitoring. Il sagit aussi de dvelopper lanalytique temps rel autour des tableaux de bords (dashboards), car la restitution visuelle
elle seule ne suffit pas (indicateurs, chiffres cls, ).

Collecte, Stockage et indexation temps-rel


Lindexation / catgorisation en temps rel dinformation non structure ou faiblement structure est
un des secteurs les plus porteurs du Big Data . Ceci dans la mesure o il constitue la brique de base
pour la cration de services plus labors. Lapport des technologies smantiques est ici dterminant:
linformation htrogne (format, nature) est capture et structure la vole en sappuyant sur des
rfrentiels mtiers et des relations smantiques (ontologies de domaine).
Le stockage et lindexation temps-rel exigent le dveloppement dinfrastructures rseaux et logicielles haute performance : distribution massive sur des corps de machines distants, utilisation
des algorithmes HADOOP / MapReduce pour assurer le passage lchelle linaire, de trs puissantes
capacits danalyse et dagrgation, des SGBD non relationnels mais aux proprits aussi ACID
que possible
A noter : les proprits ACID dsignent les 4 capacits traditionnelles des bases de donnes relationnelles : Atomicit Consistance Isolation Durabilit. Ces 4 proprits assurent la stabilit et la
cohrence des transactions clients / serveurs dans le modle relationnel. Mais ces contraintes sont
trop fortes pour assurer le passage lchelle linaire des Big Data . On ne parle plus dun million
denregistrements mais de plusieurs milliards. Pour traiter ces donnes de masse , il faut lcher
certaines de ces proprits pour garantir la performance oprationnelle des systmes. Il faut aussi
changer dunit logique par rapport au modle SQL (de la table la colonne), et sortir de stock, pour
entrer dans une logique de flux, propre aux SGBD non-relationnels.

Analyse et dcouverte
Cinq familles de technologies cls ont t identifies pour ce secteur des Big Data : text-mining,
graph-mining, machine-learning, data-visualisation, reprsentation de connaissances (ontologies).
Les comptences et le niveau de spcialisation propres ces segments diffrent considrablement de
lun lautre. Mais au-del du fourmillement des approches, toutes convergent vers un mme objectif: simplifier lanalyse de vastes ensembles de donnes (donner du sens) et permettre la dcouverte
de nouvelles connaissances.
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

29

2. TAT DE LART

En text-mining, deux approches cohabitent : lextraction de groupes nominaux (entits nommes),


et lextraction de relations. Dans les deux cas, il sagit dextraire de nouvelles connaissances partir
de donnes faiblement structures (fichiers logs, conversations sur des rseaux sociaux, forums). On
parle de plus en plus de sens-mining.
Le graph-mining consiste en lextraction de connaissances nouvelles sous la forme de graphes relationnels. Cette approche repose sur lisolation de clusters dinformation et leur catgorisation, le calcul
des hubs et autorits (les points nodaux), et le calcul de leur positionnement (ranking). Cette
mthode est utilise par les algorithmes de classification des moteurs de recherche sur le web (Page
Rank), mais aussi par de nombreuses applications mtiers spcialises. Par exemple, outils dextraction
au sein de bases de donnes en biologie molculaire, analyse des rseaux sociaux (dtection de communauts, dinfluenceurs, ), fouille en environnement brevets (dtection de collges dinnovation).
Le machine-learning est une technologie pivot pour le secteur des Big Data . Il sagit de concevoir
des systmes apprenants capables de raisonner rapidement sur des donnes faiblement structures.
Lapport de lIA et des approches statistiques sera ici dcisif. Les pistes de recherche et dveloppement
consistent dvelopper des algorithmes simulant le fonctionnement du raisonnement humain: infrences baysiennes, rseaux de neurones, mmorisation, conditional random fields, case-based reasoning Les formalismes existent mais le passage lchelle linaire reste un dfi. Il sagit de sortir
dune logique dapprentissage statique pour entrer dans une logique dapprentissage dynamique. Les
ressources (index, arbres, dictionnaires, ) ne prexistent plus la requte mais sont construites
au fil de leau, et nexistent que dans le temps de la requte. Dans le domaine de la rsolution de
problmes, les gains de performance sont majeurs. Par exemple, la plateforme IBM Watson est aujourdhui capable de battre des humains au jeu tlvis Jeopardy en analysant en temps rel des
noncs (technologie speech-to-text ), et en tablissant des infrences logiques partir de donnes
factuelles extraites de DBpedia8.
La data-visualisation est un champ dsormais bien balis dont lapport au secteur des Big Data
est indiscutable. Lenjeu technologique est aujourdhui de savoir comment faire passer ces technologies lchelle de milliards dunits dinformation. Il sagit aussi de dvelopper une culture de la
donne, de ses logiques de production / exploitation, et de son interprtation visuelle.
La reprsentation de connaissances (Knowledge Representation) sera aussi un des moteurs du
Big Data . La cration de rfrentiels mtiers (ontologies de domaines, de marques, ) doit servir
de socle aux dveloppements dapplications mtiers destination de contextes professionnels cibls.
Dans ce domaine, il existe de multiples approches normatives ou mergentes : taxonomie
(RDF), rgles logiques (OwL), classification supervise /non-supervise, clusterisation, Toutefois,
lavenir du Big Data sera dans le croisement des approches et la convergence de ces technologies
qui doivent se nourrir lune lautre. Sans cela, le Big Data restera Small Data !

2.3.2

2.3.2 - EXIGENCES EN DECOULANT POUR LA NORMALISATION


En matire dinfrastructure, l'absence de normes ne semble pas un obstacle majeur l'adoption gnralise dHadoop. Toutefois, un certain nombre de fournisseurs mergent autour dHadoop et offrent
leurs versions personnalises de Hadoop, ce qui conduit un risque de divergence qui nuit la portabilit des solutions et linteroprabilit au niveau technique.
Lengouement pour Hadoop pourrait cependant voluer pour aller vers des solutions moins gourmandes en mmoire.
Force est de constater par exemple quHDFS n'est pas une interface entirement portable au sens o
elle nest pas conforme la norme POSIX, ce qui signifie que les administrateurs systme ne peuvent
pas interagir avec lui de la mme manire qu'ils le feraient avec un systme Linux ou Unix.

30

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Dans le mme temps, de nombreux projets Hadoop exigent une personnalisation pousse et il manque
de guides de pratiques communment admises pour la mise en uvre de ces environnements. En outre,
l'intgration des grappes Hadoop avec les systmes existants est une tche complexe et lourde.
Par ailleurs, les systmes NoSQL (Not Only SQL) souffrent de labsence dacteurs du march en position dominante, mais aussi dune absence de normes.
Il y a une cause technique labsence de normalisation dans ce domaine : un langage de requte
destin une base de donnes de graphe n'est pas ncessairement exploitable pour une base de
donnes base sur une structure de paires de cl-valeur . Ceci tant, un point commun est que la
plupart de ces bases de donnes supportent une certaine forme de requte.
Il serait cependant utile de dfinir un langage de base unifi pour la requte et des acteurs ont essay
de pousser en ce sens, sans rsultat probant jusqu prsent.
Enfin, les entreprises nont pas ncessairement besoin dexploiter une infrastructure aussi complexe
quHadoop en permanence, sauf pour des fonctions spcifiques de traitement par lots qui impliquent
de trs grands ensembles de donnes. Aussi, le retour sur investissement (ROI) dun projet de dploiement sur site peut ne pas tre trs attrayant.
La question de la mutualisation de services Big Data via des prestataires de services et de la dfinition
dinterfaces adquates sen dduit. Or, le portage de ces environnements vers le Cloud est aussi un
enjeu car larchitecture a t pense initialement pour des grappes de machines ayant des caractristiques semblables, ce qui est rarement le cas dans un environnement Cloud, mme avec ladoption
de machines virtuelles.
En matire dinterfaces, les besoins concernent notamment la reprsentation de connaissances
(Knowledge Representation) sous langle de la smantique comme indique ci-dessus, mais galement sous langle de la capacit de lutilisateur manipuler aisment cette reprsentation.

LES CAS D'USAGE

2.4

Un ensemble de cas dusage est dsormais identifi et rfrenc par la normalisation. Par exemple,
lorganisme US NIST a rfrenc 51 cas dusage lors de travaux prliminaires ltude de lISO/CEI
JTC 1 sur le Big Data ralise courant 2014.
Pour ce livre blanc, la mthodologie de recueil de cas dusage a consist en une tude qualitative de
besoins auprs des acteurs franais du Big Data via la diffusion dun questionnaire. Cette tude a t
complte par un travail dtude de quelques cas dusage qui a t exploit notamment pour proposer
une approche de modlisation conceptuelle.

Ltude de besoins
Elle a donc t ralise en 2014 auprs de la communaut normalisation en France et auprs des
communauts autour du Big Data, en particulier le rseau Alliance Big Data4. Elle a t relaye auprs
des projets identifis dans le cadre du plan industriel sur le Big Data et auprs des dmarches filires
industrielles potentiellement concernes.
Le questionnaire soumis ne demandait pas une description formelle de cas dusage en France5 . Ceci tant
les rponses ltude de besoins, travers les 43 questionnaires reus (209 consultations enregistres),
apportent des indications trs intressantes sur les sphres dintrts des communauts et leurs besoins :
4 - http://alliancebigdata.jamespot.pro/
5 - au sens dune fiche de description de cas dusage telle que celle propose par lorganisme nord-amricain NIST

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

31

2. TAT DE LART

Domaines des projets applications envisages


Projets cits

5
4
3
2
1
0

es

utr

/a
tes

art

id

Gr

nt

rch

e
ech

R
/ sm
la
de
s
c

G
e
art
nn
Sm
Do
lis

ra
n

s
itie

ou

Sa

E-g

ie

str

u
Ind

ce

rce

an

Fin

e
mm

E-c

rit

sm

uri
To

cu
S

cosystme des donnes

10
8
6
4
2
0

es
d es
e
c
ir
tan rtena
i
a
tr pa
us-

ern

nt
ni

tio

ta
loi

Ex

s
Le

ux

de

nc

No

So

ern

c
on

Type de donnes exploites

20
cas d'usage

15
10
5
0
ia

ed

im
ult

32

ho

p
l

,
nie

lics

(c
et

ern

Int

S..

SM

e
sd

n
Do

...)

ats

ach

la

he

erc

h
rec

t,

n
Sa

gie

lo
Bio
s

n
Tra

io
act

res

ci

n
na
s fi

res

lai

u
orm

n
se

lig

OO

M
e,

tre

Au

ur

Co

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Processus mis en uvre


Processus de traitement

25

processus

20
15
10
5
0

tio

ac
xtr

ect

ll
Co

n
ta
es
ux
ge
ue
de
on
on
tio
n
atition versi
tiq
/Daing socia
genes chiva
n
s
s
e
i
i
a
o
l
y
iv in
r
a isa on
gu
y
sd
ict M eaux
Ind
tto on /a
C
lin
on
de
ormken
ed
ne d kage
s
e
t
r
N
s
/

o
An
n
p
r
t
c
e
aly
on
se
de
Sto
An
cem
ati
aly
se
a
g
n
y
f
l

f
A
r
a
E
Ag
An
e

ag

tr
Fil

tio

a
ex

sa
mi

tre

Au

Processus d'exploitation des rsultats

15
12
9
6

processus

3
0

rts

po

p
Ra

pr

Ap

n
isio

tio

tio

a
ob

la
mu

/Si

hs

ue
hiq elle
p
a or
gr
o temp
g
ion ou
ap

Gr
at

nt

e
rs

tre

Au

Re

Ces travaux ont galement permis de dduire une liste des rles et des activits qui est dcrite dans
les chapitres relatifs lapproche modlisation.

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

33

2.4.1

2.4.1 - LES BESOINS FONCTIONNELS


Les besoins fonctionnels qui ressortent de lenqute qualitative mene par AFNOR ont t regroups en distinguant ceux associs aux activits lies aux processus de collecte, traitement et analyse
de contenus des besoins fonctionnels associs la restitution, la reprsentation, et la visualisation
post-traitement de l'information ainsi que le prsentent les figures ci-aprs:
Besoins fonctionnels associs aux activits lies aux processus de collecte, traitement et analyse de contenus

Langages d'extraction

Normalisation
langages de requte NO SQL

Qualit (donnes - aprs nettoyage


indicateur de pertinence...)
Confidentialit des donnes

Anonymisation
Dfinition donnes signifiante
Efficacement

Non rpudiation

Authentification (Kerbedos) ?
Signature ?

Scurit ?

Rfrentiels de mtadonnes

Harmonisation
Terminologie, onthologies
Structure et Formats
(Accs/import/export)

Rversibilit/Non rversibilit
Traabilit des processus exploits dans un
traitement
Qualit (analyse prdictive)

Besoins fonctionnels associs aux activits lies aux processus de restitution, reprsentation, visualisation
post traitement de l'information

Approbation / non rpudiation

Aide la dcision

Exploitation / Export (simulation... )

Scurisation : contrle d'accs...

Le besoin de recourir des prestataires internes ou externes, la diversit des donnes traites ainsi
que le grand nombre de processus mis en jeu sont des enjeux largement cits.
Il en est de mme de ceux associs la confidentialit des donnes, la protection intellectuelle ainsi
quaux enjeux juridiques associs au respect de la vie prive.
La pseudonymisation des donnes personnelles (ou industrielles) est en soit une question technique
dimportance : comment sassurer dalgorithmes non rversibles ? Dfinir ce qu'est une donne signifiante qui impacte la "privacy" serait souhaitable, mais galement standardiser la manire de prsenter et exprimer un opt-in.
34

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

En ce qui concerne les formats des donnes, lhtrognit des formats de donnes ne constitue pas
vraiment une difficult. Toutefois, des enjeux sont cits en ce qui concerne linteroprabilit de mme
que la performance des traitements (plusieurs aspects associs OLAP, versus ROLAP, MOLAP, etc.).
Pour tre en capacit traiter l'ensemble de l'information se posent des enjeux en matire de qualit
des donnes (problmes rcurrents : interprtation des donnes manquantes, sparateur dcimal,
donnes infrieures la limite de dtection...) et de vracit des donnes. Ceci intervient ds la collecte des donnes htrognes.
En matire de scurit, le processus devra introduire des concepts de non-rpudiation afin de pouvoir
fournir terme des preuves pnales.
En matire de traitement, les enjeux mis en exergue concernent notamment :
La dfinition des rfrentiels (mtadonnes) pour faciliter l'exploitation et la catgorisation/
filtrage ainsi que le rapprochement des sources, la sdimentation, lagrgation et le nettoyage
des donnes "data cleaning", les ontologies par mtier,
La traabilit des oprations effectues sur les donnes : on pense souvent dvelopper
toutes les analyses effectues mais pas expliquer tout le travail en amont sur les donnes
depuis la rception, le nettoyage de la base, linterprtation...
La proprit Intellectuelle et l'acceptation des utilisateurs pour dlivrer les donnes dans un entrept
public sont galement des questions lies au volet gouvernance.
Aspects techniques mis en lumire :
Linteroprabilit des systmes et leur modularit (pour pouvoir facilement et rapidement changer de
solution et pour pouvoir mutualiser diffrentes informations qui sont rcupres par des solutions
diffrentes) est un enjeu cit plusieurs reprises.
Il en est de mme de lanalyse linguistique, traitement automatique des langues, text mining pour ce
qui est des conversions (exemples : voix en texte, OCR pour des documents papier) et le smantique
web indispensable avec l'arrive de lre des changes machine to machine.
La visualisation d'un grand nombre de donnes qui constitue un enjeu en lui seul !
Lextraction et les langages associs : il faudrait inventer (paradoxalement) le langage SQL du
NoSQL Collecte !
Les systmes de scurit et dauthentification sont aussi trs varis, bien que les mcanismes dauthentification autour de Kerberos semblent devenir un standard de fait parmi les solutions proposes
lutilisateur/lintgrateur.

2.4.2 - LIENS AVEC LES SECTEURS

2.4.2

De nombreuses initiatives font rfrence au Big Data dans les secteurs, mais il nest pas ais didentifier ce qui ressort effectivement du Big Data de ce qui relve dune problmatique de la donne
en gnral, sans pour autant prsenter des spcificits propres au Big Data (vlocit).
A titre dillustration, un focus est donn ci-aprs sur les besoins du Big Data dans un contexte de
mise en place de rseaux et territoires intelligents .
La Fdration Nationale des Concdants de Rseaux (FNCR) a ainsi regard sous loptique du BigData
les besoins exprims travers une tude ralise en 2013 sur les rseaux intelligents (smart grids)

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

35

2. TAT DE LART

La complmentarit des services publics et du numrique ressort en effet comme un lment dterminant pour la mise en place de dmarches de territoires intelligents.
Le Big Data prsente selon cette tude des opportunits importantes :
Partage de ressources (capteurs, collecte tlcom, stockage, etc.) offrant des perspectives
doptimisation des cots (CAPEX/OPEX),
Interoprabilit entre systmes pour permettre le croisement de donnes et le
dveloppement de services innovants,
Valorisation renforce des donnes.

Ce cas dusage peut sexprimer travers la figure ci-aprs (source FNCR):

Ltude FNCR fait ressortir 3 scnarios pour la gestion des donnes des diffrents rseaux grs par
une autorit publique :
le premier correspond la situation actuelle o les donnes sont gres en silos sans
interoprabilit et sans relle perspective dexploitation de type Big Data ,
le second reprsente une situation cible faisant intervenir une partie tierce qui serait une
autorit concdant dpositaire des flux de donnes et qui serait garante de linteroprabilit,
le troisime est un scnario intermdiaire qui permettrait de regrouper plusieurs silos de donnes
suivant leur typologie (exemple de rapprochement : les donnes relatives leau et au gaz).
36

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Les scnarios 2 et 3 mettent clairement en vidence limportance dun rle de gouvernance de la


donne qui a t intgr dans la modlisation prsente dans ce qui prcde.
De mme, lapproche modlisation propose prsente une gnricit permettant la reprsentation
dune situation avec un acteur tierce partie gestionnaire des donnes tel quvoqu dans ltude de la
FNCR.
En revanche, la question de linteroprabilit entre des silos de donnes ne pourra se rsoudre dans
la seule mise en place dun projet Big Data.

LES QUESTIONS DINTRT POUR LES ACTEURS FRANAIS


2.5.1 - LES FORMATS DE DONNEES

2.5
2.5.1

Les donnes se subdivisent en donnes structures et en donnes non structures. Les premires ont
t prises en compte trs tt par linformatique et concernent titre dexemple le transactionnel et les
modles.
Les secondes montent en puissance avec 5 grands types possibles :
1. Le texte
2. Limage
3. Limage anime
4. Le son
5. Les donnes de capteurs
La fusion des jeux de donnes savre dune complexit importante, ce qui est devenu un enjeu pour
lexploitation des donnes massives.
Ceci a conduit de longue date les spcialistes de la documentation distinguer deux concepts:
la donne : une description lmentaire d'une ralit,
la mtadonne : une donne sur / propos de la donne, une donne servant dcrire ou
documenter une autre donne. On peut ce sujet distinguer les mtadonnes descriptives
(du contenu) des mtadonnes dadministration et de gestion des donnes, y compris les
aspects juridiques associs.
Il convient donc de distinguer deux niveaux dinteroprabilit smantique : lun relatif aux contenus,
lautre aux contenants (schmas XML, etc.).
Cest au niveau des mtadonnes que les enjeux se focalisent car identifier des donnes de toute
nature dans diffrents domaines mtier concerne la recherche, mais galement les entreprises qui
dveloppent des services autour du Big Data .
Dans le domaine des donnes de la recherche, linitiative internationale RDA (Research Data Alliance) laquelle participent activement les acteurs franais autour du ple de comptitivit Cap
Digital, devrait permettre de fixer des objectifs dans le domaine des ontologies et de la smantique
des contenus en lien avec les pratiques du Big Data .
Ceci ne sera sans doute pas suffisant!

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

37

2. TAT DE LART

Pour illustrer le besoin daller vers/au-del de la standardisation et de la normalisation, considrons


un enjeu spcifique portant sur les adresses universelles URI qui permettent notamment de pointer
des ontologies. La question de la qualit et de la maintenance de ces catalogues dadresses dontologies disponibles publiquement sur linternet se pose si lon considre que de nombreux projets
BigData y compris dans lindustrie - exploitent ces ontologies en pointant ces URI sans trop se
poser de questions sur leur origine, qui les maintien et dans quelles conditions !
Actuellement, force est de constater que la communaut privilgie une approche organique et systmique de ce maintien (crowdsourcing, rating, controverses, etc.), mais cela sera-t-il suffisant lavenir ?
Si ces approches savrent insuffisantes lavenir, la normalisation peut apporter des solutions complmentaires limage des normes de systmes denregistrement que dveloppe le comit technique
ISO TC 46 sur la documentation (ISAN, ISBN, etc.).

2.5.2

2.5.2 - LA QUALITE DES DONNES


La qualit des donnes est ncessaire pour lensemble de la chane des traitements Big Data. Un enjeu
sera de parvenir qualifier cette qualit pour tre en mesure davoir confiance dans les traitements,
ce qui ne justifie pas ncessairement de viser une perfection.
Pour des analyses Big Data, il peut tre en effet plus important d'avoir le maximum d'informations
(mme imparfaites, mme partielles), si tant est que le fournisseur qualifie son niveau de confiance/
qualit perue.
Il apparat donc important de dfinir des mthodologies6 pour qualifier la qualit de la source d'une
part, et la confiance dans l'information d'autre part.
La mise en place de normes dans ce domaine permettrait de faciliter les relations entre les acteurs de
la chane et davancer vers un ensemble de mtriques de rfrence7.

2.5.3

2.5.3 - LA PROPRIETE DE DONNES


Les questions juridiques et de droits dusage associs sont galement dimportance pour les entreprises qui souhaitent mettre en uvre des processus de qualit dans une configuration prenne. On
constate sur ce sujet des analogies avec les enjeux associs lusage des logiciels libres en entreprise.
Les donnes, ds lors quelles circulent, quelles soient copies, transformes, etc. deviennent des
objets dchange. Si, de surcrot, elles ont ou gagnent de la valeur, alors il devient important den
connatre le propritaire. La question peut paratre simple, mais ce nest quun priori .
Qui est le propritaire ? Celui qui produit les donnes ? Celui qui possde linfrastructure qui produit
des donnes ? Celui qui opre linfrastructure qui produit des donnes ? Celui qui diffuse des copies?
Celui qui transforme ?
Une fois diffuss, le propritaire conserve-t-il la proprit ? Une donne peut-elle avoir plusieurs
propritaires ?

6 - Il serait par exemple possible de s'inspirer des qualificatifs de la Gendarmerie Nationale sur le renseignement.
7 - Il faudra analyser par la suite dans quelle mesure cette action relverait de comits existants tels que lISO/IEC JTC 1
SC 7, SC 40 ou SC 32

38

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Les traitements de donnes massives confrent de la valeur aux donnes, donc aux donnes utilisables. La notion de propritaire est-elle dpasse par celle dutilisateur ? En tout cas, on ne peut
plus parler de la seule proprit des donnes. Dans les rseaux sociaux comme Facebook, ou chez
Google, on ne parle plus que dutilisation, car il semble acquis du point de vue de ces socits quelles
possdent les donnes ! La proprit des donnes est donc un enjeu crucial de notre socit. Laissera-t-on les grands groupes mettre la main sur les donnes ? Il est trs probable que nous nous
engagions dans une poque de plus forte rgulation. Quelle soit nationale, ou transnationale, une
autorit doit dire le droit en matire de proprit et cela nest pas sans consquence dans larchitecture
des systmes de traitement Big Data . Il faut aussi dfinir les lieux o la rgulation doit sexercer.
Si lon considre les types de contenus traits dans le cadre dun processus de Big Data , la situation
au regard des systmes denregistrement nest pas la mme : si les publications exploitent de longue
date des systmes de registres normaliss (exemple : IBSN), la situation est diffrente et beaucoup
plus incertaine pour la musique et laudio-visuel (bien quil existe un identifiant duvre normalis
ISAN, celui-ci nest que partiellement mis en uvre8).
Les contenus non structurs de diverse nature : rseaux sociaux sont quant eux soumis des
rgimes varis tudier au cas par cas.
Il apparat donc ncessaire de rflchir la stratgie de normalisation la plus efficace pour intgrer les
informations de traabilit sur la proprit et lorigine dans les mtadonnes pour les diffrents types
de contenus susceptibles dtre exploits dans un projet Big Data.
Ce qui suit nest indiqu qu titre illustratif de la complexit de ces questions et des approches possibles.

2.5.4 - LES LICENCES ET LINTEGRATION DE DONNES HTROGENES

2.5.4

Dans le Web des donnes, qui est celui du Big Data , plus les donnes manipules sont volumineuses, plus le cot de leurs traitements augmente et les questions souleves par les usages de leurs
rsultats sont importantes. Il nest plus envisageable de laisser pour compte le problme de la dtermination des licences.
Les donnes, rgulirement constitues en jeux ou flux de donnes, sont des biens immatriels reprsentant un capital ou reclant une valeur qui peut tre extraite moyennant des traitements. L'ouverture
des donnes a pos de nouveau le problme de leur proprit et celui des conditions de leur copie, diffusion et rutilisation. Des nouvelles licences ont t cres pour rpondre un ensemble croissant de cas.
Mais, il faut dsormais ajouter un nouveau volet cette problmatique. En effet, prenons un exemple:
si on intgre des donnes ouvertes, libres dusage et de rutilisation, avec des donnes elles aussi ouvertes,
mais dont lutilisation est soumise une dclaration particulire, que doit-on faire de donnes obtenues
par le croisement de ces deux sources de donnes ? Il parat vident quil faudra soumettre ce nouvel
ensemble de donnes la dclaration particulire. Mais, ce nest pas toujours aussi simple trancher.
La fusion de deux jeux de donnes peut conduire trois sous-ensembles soumis autant de licences
diffrentes, celle de trois jeux sept sous-ensembles, etc. et la progression suit une loi quadratique.

Donnes A

Licence A

Licence
AB

Licence B

Donnes B

8 -tude paratre ralise pour le compte du Ministre de la Culture en 2014 par Bearing Point

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

39

2. TAT DE LART

Il est possible que certaines combinaisons conduisent aussi des impasses lorsque les contraintes
sont contradictoires. Mais on pourra aussi souhaiter trouver la licence qui sapplique lensemble
pour ne pas distinguer les parties. Les licences, linstar des donnes quelles conditionnent, doivent
donc elles aussi tre intgres si les donnes le sont. La question est complexe car, nous lavons dit,
les licences applicables aux donnes (jeux ou flux) sont nombreuses et la combinatoire qui dcoule
des traitements de croisement possibles est dun ordre de grandeur suprieur.

Les rsultats de recherche effectue dans le cadre du projet Datalift ont montr quune dmarche
novatrice9 apportait la solution la question pose grce lexamen de deux caractristiques pertinentes des donnes que sont leur provenance et leur licence. La premire fournit des instruments
pour dfinir, puis vrifier l'identit du fournisseur des donnes (l'identification de la provenance est
particulirement pertinente car corrle la confiance). La seconde offre des outils pour dfinir les
conditions dans lesquelles les donnes peuvent tre diffuses, et quelles sont les conditions de rutilisation. Le rapport prsente plusieurs approches qui ont leurs avantages et leurs inconvnients en
fonction des domaines d'application. En dcomposant sous forme de prmices logiques les informations de provenance et de licence, on obtient la base dun jeu de construction qui permet dassembler,
selon des rgles propres, de nouvelles licences.

Il est crucial pour le dveloppement du Web de donnes et celui du Web des objets de fournir des
outils permettant aux fournisseurs de donnes de dfinir les conditions dutilisation et de rutilisation de leurs donnes.

2.5.5

2.5.5 - LVOLUTION DES ONTOLOGIES


Il existe plusieurs faons dattribuer du sens aux pures donnes. Lune delle consiste les faire se
rfrer une ontologie, cest--dire un vocabulaire, ou une reprsentation de connaissances.
Celle-ci sexprime laide dun langage10 qui permet de capter ladite connaissance.
Il existe ainsi des ontologies du tourisme, de la mtorologie, des organisations, de spcialits mdicales, etc. Elles permettent llvation de donnes, cest--dire lextraction de leur format dorigine
pour leur confrer linteroprabilit. Si des donnes produites dans des circonstances diffrentes mais
relatives un mme domaine de connaissances sont leves laide de la mme ontologie alors lhtrognit due leurs origines disparat, les donnes rsultantes tant exprimes avec le mme vocabulaire. Llvation11 favorise lintgration des donnes.
Mme si lentreprise nest pas vidente, il se cre de plus en plus dontologies et on peut certainement
considrer cela comme un bien. Toutefois, ce nest pas sans inconvnient. En effet, si une ontologie
est utilise pour dcorer des donnes, cela cre une dpendance quil faut assumer comme lillustrent
ces quelques questions. Si une ontologie volue, les donnes obtenues avec la version prcdente,
quelles conditions sont-elles toujours valides ? Si on utilise une ontologie imparfaite, peut-on la
modifier pour son propre usage et comment le faire pour conserver le bnfice de linteroprabilit?
Que faire si le crateur dune ontologie ne la maintient plus (on parle ici dontologie orpheline) ?

9 - Serena VILLATA, State of art on data provenance and data licencing, 2011, www.datalift.org,
https://gforge.inria.fr/docman/view.php/2935/7606/DataLiftD3.5-v1.1-2011-08-08.pdf
10 - Le langage OWL est le plus rpandu http://www.w3.org/standards/techs/owl#w3c_all.
11 - Le terme lvation , ou lvation de donnes , est aujourdhui utilis dans la communaut du Web des donnes,
il devra certainement tre dfini dans le glossaire du livre blanc.

40

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

2. TAT DE LART

Il nexiste pas dautorit transnationale rgulant les ontologies. Et si certaines ontologies peuvent tre
regardes comme des standards de fait, cest par pure convention, cest--dire quune large communaut les utilise. Malgr leurs dfauts, ou leur manque de prcision, il est souvent prfrable dutiliser
des ontologies bien connues et rfrences que den dvelopper de nouvelles. Le propre dune ontologie est de partager des connaissances.
Il faut avant tout se prmunir de lcueil des donnes lies orphelines. Tout va bien tant que des
donnes smantises , importantes par leur volume et leur valeur sont lies leurs ontologies
de rfrence et que celles-ci sont en ligne. Cest la raison pour laquelle le registre Linked Open
Vocabulary (LOV) 12 a t cr. Il sagit dun catalogue dontologies. Il est aujourdhui reconnu au
niveau international par les communauts scientifiques et industrielles pour les raisons suivantes : les
ontologies qui lui sont soumises pour catalogage sont dabord values par un comit de curateurs
indpendants. Chaque ontologie est dcrite, ses diffrentes versions sont renseignes et un moteur de
recherche permet de rechercher et naviguer dans le catalogue. Les donnes de catalogage sont ellesmmes smantises. Enfin, pour dtecter et informer sur les mises jour, le catalogue est reconstruit
tous les jours.
Les donnes leves l'aide d'ontologies catalogues dans le LOV sont donc garanties interoprables.
Le LOV est un dispositif open source et actif depuis 3 ans, il contient actuellement plus de 450 ontologies de rfrence. Il ne fait en revanche lobjet daucune norme et nest pas reconnu dans le cadre
de lISO.

12 - Le LOV est un des rsultats du projet de recherche Datalift. http://lov.okfn.org/dataset/lov/

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

41

42

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

LENJEU STRATGIQUE DE
LA GOUVERNANCE DES
DONNES
Ce qui prcde met en vidence limportance stratgique de la gouvernance des donnes, bien sr pour
des raisons lies au respect de la rglementation, notamment en matire de protection des donnes
caractre personnel, mais aussi surtout pour faciliter une meilleure utilisation des gisements de
donnes des entreprises et afin doptimiser les processus au sein des organisations dans ce but.

LADMINISTRATEUR GNRAL DES DONNES

3.1

Il en drive une fonction nouvelle et transverse aux mtiers qui est la fonction dadministrateur
gnral des donnes, placer au plus haut niveau, comme peuvent ltre des fonctions stratgiques au
sein des organisations.
LEtat a bien peru laspect stratgique de ce rle et la nomination rcente dun chief data officer de
la France13 confirme limportance quune organisation lEtat en lespce doit accorder la question
de la gouvernance des donnes.
Cet administrateur gnral des donnes doit avoir des prrogatives particulirement tendues.

13 - Nomination en 2014 dHenri Verdier, le directeur dEtalab, en tant que nouveau chief data officer de la France par
Marylise Lebranchu, la Ministre de la Dcentralisation, de la rforme de lEtat, et de la fonction publique.

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

43

3. LENJEU STRATGIQUE DE LA GOUVERNANCE DES DONNES

Dans son communiqu, le ministre prcise ainsi quil sera autoris connatre les donnes dtenues par ladministration de ltat et ses oprateurs [... et] aura pour mission :
dorganiser une meilleure circulation des donnes dans lconomie comme au sein de
ladministration, dans le respect de la vie prive et des diffrents secrets lgaux ;
de veiller la production ou lacquisition de donnes essentielles, de lancer des
exprimentations pour clairer la dcision publique ;
de diffuser des outils, des mthodes et la culture de la donne au sein des administrations et
au service de leurs objectifs respectifs .
A leur niveau, les entreprises investissant dans les donnes massives seront galement amenes
mettre en place une fonction dadministration prsentant des similitudes.

3.2

LORGANISATION DES DONNES


Les questions qui se poseront toute organisation concernent en particulier :
qui est producteur de la donne ?
qui en qualifie la qualit et la compltude ?
qui en garantit la qualit, la prennit, l'accessibilit ?
quel circuit de validation mettre en place ?
Cette organisation suppose des prrequis :
existence dun identifiant,
utilisation de celui-ci par les diffrents producteurs,
identifiant activable et par qui ?
Dans le domaine des donnes culturelles par exemple, de nombreuses normes existent en matire de
mtadonnes et didentifiants. Toutes ne sont pas ncessairement aisment exploitables et la question
de passerelles ou de mtanormes facilitant linteroprabilit est une question ouverte14.
ces questions se surajoutent des sujets spcifiques au Big Data telles que la gouvernance des rfrentiels de mtadonnes.

3.3

LA GOUVERNANCE DES RFRENTIELS DE MTADONNES


Limportance des rfrentiels de mtadonnes a dj t mise en vidence dans ce document car ces
rfrentiels gouvernent dans une large mesure la qualit des processus et des rsultats dune tude
Big Data.
Il apparat donc ncessaire dorganiser la production, la diffusion et la maintenance des rfrentiels
de mtadonnes. Ceci concerne tant les rfrentiels internes aux entreprises que ceux gnrs par un
cosystme autour des mtadonnes.
Pour les donnes de la Recherche par exemple, on peut penser que des initiatives rcentes telle que
RDA, si elles aboutissent, pourront savrer particulirement utiles.
14 - Cf. journe BNF AFNOR du 27 juin expos de Katell Briatto.

44

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

3. LENJEU STRATGIQUE DE LA GOUVERNANCE DES DONNES

Pour les entreprises, il faudra sans doute sappuyer sur les nomenclatures et les initiatives dans diffrents domaines et ce qui existe dans diffrents secteurs, sachant quil nexiste pas de solutions universelles ni interoprables ce jour et que les efforts de normalisation restent partiels exemple : PLIB
pour les donnes industrielles, IFC dans la construction, etc.
Les donnes linguistiques en sont un aspect particulier, mais qui se rvle essentiel dans le cas de
lanalyse de donnes htrognes qui peuvent ncessiter des processus dextraction smantique, de
conversions de langues, de transcription oral vers crit, etc.

ASPECTS DE PROTECTION DES DONNES CARACTRE


PERSONNEL

3.4

Les traitements de donnes caractre personnel mis en uvre dans un contexte de Big Data sont
soumis la loi 78-17 du 6 janvier 1978 modifie en 2004.
Les principes de la loi Informatique et liberts sappliquent ces traitements de donnes, mme si
les donnes peuvent provenir de sources publiques (rseaux sociaux, etc.). Ces principes incluent
par exemple lobligation de scurit (article 34 de la loi), ou encore les droits dvolus aux personnes
auxquelles les donnes font rfrence : recueil du consentement, droit dinformation, opposition, etc.
Le cadre rglementaire qui sapplique en matire de localisation de donnes complique leur exploitation et leur stockage. En effet, la rglementation peut diffrer dun pays lautre, mme en Europe.
Il convient de noter toutefois que le projet de rglement en matire de donnes personnelles vise
uniformiser les rgles au sein de lUnion Europenne.
Ces difficults saccentuent davantage dans un contexte de Big Data, do lintrt de faire appel une
notion de tiers de confiance qui interviendra pour faciliter la gestion des processus complexes de
protection des donnes prives.
La prise en compte de ces enjeux doit se traduire diffrents niveaux :
technique : mise en uvre dune stratgie danalyse et dvaluation des risques, dune logique
de conception privacy by design prenant en compte la source la protection des donnes
caractre personnel et tout au long de la chane. En particulier, des processus sont dfinir
ds le dpart comme par exemple des processus de recueil du consentement par ceux,
consommateurs ou/et citoyens, qui fournissent leurs donnes (opt. in versus opt. out),
organisationnel : mise en uvre dune organisation prenant en compte la gestion du risque
en matire de donnes personnelles au niveau des diffrents intervenants : fournisseurs de
donnes, oprateurs dinfrastructure, oprateurs de services, utilisateurs des rsultats.

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

45

LA RGLEMENTATION
Donnes publiques

Le terme donne publique nest pas dfini par la loi franaise. Dans la loi n78-753 17 juil. 1978
dite CADA (Commission daccs aux documents administratifs), on utilise le terme informations
publiques .
Pour les informations publiques, le principe de disponibilit est inscrit dans la loi depuis 1978.
La Loi CADA susvise pose le principe de la libert daccs aux documents finaux pour le citoyen,
et dune obligation de communication pour les administrations. La mise en place dune politique de
diffusion est laisse lapprciation des administrations.
Le principe de rutilisation des donnes publiques a t inscrit beaucoup plus tard, par lOrdonnance n2005-650 du 6 juin 2005 et le dcret n2005-1755 du 30 dcembre 2005, en transposition de
la Directive europenne 2003/98/CE.
Ce nouveau cadre rglementaire consacre les modifications de la loi CADA et apporte de nouvelles
obligations pour les administrations :
Dsignation dun responsable la rutilisation des donnes (correspondant PRADA),
Possibilit de conditionner la rutilisation au versement dune redevance,
Condition : non altration, non dnaturation, mention de la source et date de la dernire
mise jour,
Plusieurs donnes sont exclues du champ du primtre : jugements, donnes des EPIC,
SPIC, donnes culturelles 15
Le principe de gratuit a t inscrit par le dcret n2011-577 du 26 mai 2011 et la Circulaire du
26 mai 2011.
Ce nouveau cadre rglementaire nonce que :
La rutilisation des donnes dautres fins que la mission de service public en vue de
laquelle les documents ont t labors ou sont dtenus est permise. La rutilisation des
fins commerciales est donc consacre ;
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

47

4. LA RGLEMENTATION

Lautorit comptente dcide si la rutilisation doit donner lieu une redevance ou non,
dont le calcul doit tre transparent et proportionn aux cots de collecte et de mise
disposition des donnes pour les administrations dtentrices. Une licence doit tre dlivre
si lutilisation donne lieu une redevance.
Il convient de rappeler que la loi CADA (article 10), exclut la possibilit de rutiliser les donnes :
a) Dont la communication ne constitue pas un droit en application du chapitre Ier ou
d'autres dispositions lgislatives, sauf si ces informations font l'objet d'une diffusion publique ;
b) Ou produites ou reues par les administrations mentionnes l'article 1er dans l'exercice
d'une mission de service public caractre industriel ou commercial ;
c) Ou sur lesquelles des tiers dtiennent des droits de proprit intellectuelle.
La cration de la Mission Etalab en charge de la coordination des politiques douverture des administrations centrales et de lalimentation du portail data.gouv.fr, ainsi que la mise sur pied de la
Licence ouverte de lEtat , conscutive la Circulaire du 26 mai 2012, marquent la reconnaissance
institutionnelle du mouvement Open Data en France. Ce mouvement milite pour louverture des
donnes publiques la plus large possible (et la gratuit de la rutilisation comme principe gnral),
ceci pour encourager la transparence des administrations.

Donnes prives
Les donnes publiques sont relativement permables aux principes du Big Data , dont elles
sont un des principaux gisements. Pour les donnes prives , la situation est plus complexe. Il ny a
pas de rgime juridique unifi encadrant la proprit des donnes. Selon la nature des donnes et le
contexte, le rutilisateur doit aller vrifier le rgime applicable.
Les donnes caractre personnel, sont rgies par la loi 78-17 du 6 janvier 1978
(Informatique et liberts) qui leur est applicable.
Selon cette loi, une donne caractre personnel est toute donne permettant didentifier directement ou indirectement une personne physique. Il sagit par exemples des noms et prnoms ou dun
numro de tlphone. Ladresse IP, donne importante dans le contexte de Big Data et qui identifie
-en principe- une machine, est considre par la Commission Nationale de lInformatique et des
Liberts (CNIL) comme une donne caractre personnel et donc soumise aux dispositions de la loi
Informatique et Liberts.
Tout traitement de donnes caractre personnel suppose le respect de lensemble des dispositions de
la loi Informatique et Liberts, y compris la ralisation des formalits pralables (dclaration auprs
de la CNIL voire une demande dautorisation pour certains types de traitement).
Il convient de rappeler que la notion de traitement de donnes caractre personnel au sens de la
loi Informatique et liberts est trs vaste. En effet, le traitement comprend toute opration ou tout
ensemble doprations portant sur de telles donnes, quel que soit le procd utilis, et notamment la
collecte, lenregistrement, lorganisation, la conservation, ladaptation ou la modification, lextraction,
la consultation, lutilisation, la communication par transmission, diffusion ou toute autre forme de
mise disposition, le rapprochement ou linterconnexion, ainsi que le verrouillage, leffacement ou
la destruction .
Ainsi, la simple consultation, communication ou rapprochement de donnes caractre personnel
constituent un traitement soumis aux dispositions de la loi Informatique et Liberts. Il convient de
rappeler aussi que le non-respect des obligations du responsable de traitement (dclaration/autorisation, scurit des donnes, etc.) peut tre sanctionn sur le plan pnal.

48

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

4. LA RGLEMENTATION

Les donnes des rseaux sociaux


Les traces numriques laisses sur les diffrents mdias sociaux par les utilisateurs sont un des gisements des Big Data forte valeur ajoute, mais l encore, les limitations la rutilisation sont
nombreuses. Le principe gnral pose quun profil dutilisateur est un espace rserv et donc priv.
Ce principe peut tre tempr par un autre, qui pose que la confidentialit des espaces personnels est
relative aux paramtrages de lutilisateur ( paramtres de confidentialit ). Les plateformes sociales
ont obligation lgale dinformer les utilisateurs de ltat de leur paramtrage et de toute rutilisation
de leurs donnes. Mais la modularit des espaces personnels, comme le degr de complexit des paramtrages et des politiques de confidentialit de certains services complique la donne : qui dtient,
de lutilisateur ou du rutilisateur, une donne personnelle publie sur un espace a priori ferm
mais dans une configuration ouverte ? Ce que jcris sur un mur et qui me concerne peut-il tre
considr comme une donne publique ?
En tout tat de cause, llment contractuel a toute son importance dans le cadre des rseaux sociaux
pour dterminer les limites de lutilisation des donnes des utilisateurs.
Les donnes non personnelles
Il sagit de toute donne qui ne rpond pas la dfinition des donnes caractre personnel au sens
de la loi Informatique et Liberts. Ces donnes peuvent tre protges par le droit dauteur si elles
correspondent une uvre de lesprit au sens du Code de la proprit intellectuelle (critre jurisprudentiel de loriginalit). A dfaut, les donnes peuvent tre dfendues sur le fondement du parasitisme, qui est un principe jurisprudentiel qui sanctionne le fait de bnficier du travail dun acteur
conomique sans bourse dlie et sans raison lgitime.
Le droit des bases de donnes le droit sui generis
Dans le contexte de Big Data, le moyen juridique qui parat le plus pertinent pour protger ses investissements est la loi dite sui generis . Cependant, pour pouvoir bnficier de la protection sui
generis, il y a des conditions spcifiques respecter.
La protection sui generis correspond la loi n98-536 du 1er juillet 1998 (en transposition de la Directive
du 11 mars 1996). Cette loi protge prcisment les investissements du producteur de la base de donnes.
La base de donnes est dfinie comme un recueil d'uvres, de donnes ou d'autres lments indpendants, disposs de manire systmatique ou mthodique, et individuellement accessibles par des
moyens lectroniques ou par tout autre moyen (art. L.112-3 Code de la Proprit Intellectuelle).
Le producteur, quant lui, est dfini comme la personne qui prend l'initiative et le risque des investissements correspondants, bnficie d'une protection du contenu de la base lorsque la constitution, la vrification ou la prsentation de celui-ci atteste d'un investissement financier, matriel ou humain substantiel.
Il sagit donc de linvestisseur.
Le producteur de bases de donnes a le droit d'interdire :
1 L'extraction, par transfert permanent ou temporaire de la totalit ou d'une partie
qualitativement ou quantitativement substantielle du contenu d'une base de donnes sur un
autre support, par tout moyen et sous toute forme que ce soit ;
2 La rutilisation, par la mise la disposition du public de la totalit ou d'une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu'en soit la forme .

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

49

4. LA RGLEMENTATION

Il convient de prciser que le producteur dune base de donnes peut ne pas tre propritaire des
donnes de sa base et bnficier tout de mme de la protection accorde par la loi sui generis. Cela
pourrait tre le cas de Google par exemple ou Twitter
Outre la protection par la loi sui generis, si la structure de la base de donnes est considre comme
une uvre de lesprit, elle peut bnficier, en mme temps, de la protection par le droit dauteur.

50

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

CARTOGRAPHIE

DES TRAVAUX ET INITIATIVES EN COURS RELATIVES A LA NORMALISATION DU BIG DATA

5.1

Lengouement pour les donnes massives ayant pris une importance croissante au niveau mondial, il
nest pas tonnant que la plupart des instances de normalisation sy intressent activement. Il convient
de souligner que lorganisme US NIST relay par lISO/CEI JTC 1 qui gouverne la normalisation des
technologies de linformation, ont engag un travail stratgique dtat de lart et de programmation de
travaux dans le domaine du Big Data .
Lorganisme international UIT-T de son cot a engag lui-aussi un travail sur le Big Data , mais
orient dans un contexte de Cloud computing.
En Europe, lETSI sintresse ces sujets et en a fait en 2014 le thme dune journe de travail de son
conseil technique ( Board ). Il est cependant peu probable que cet organisme lance un projet normatif dans ce domaine dans limmdiat.
La Commission Europenne avec le relais de la plateforme Multi-parties prenantes sur la standardisation est dsormais sensibilise et elle pourrait proposer des actions dans le cadre de la rvision de
son plan roulant sur la normalisation ICT ou dans le cadre de ses actions de soutien la R&D.
La cartographie suivante des instances potentiellement ou directement concernes par la normalisation (et la standardisation) dans le domaine du Big Data a t tablie :

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

51

5. CARTOGRAPHIE

52

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

5.1.1 - LES RESPONSABILITES D'ACTEURS FRANAIS AU NIVEAU


DES INSTANCES DE NORMALISATION

5.1.1

Les comits suivants pilots par des acteurs franais mritent dtre souligns :
UIT-T SG13 question 17 Animateur Jamil Chawki Orange
ISO TC 46 Documentation Prsident Galle Bquet ISSN
ISO TC 171 Applications en gestion des documents Prsidence Grard Cathaly-Prtou
(jusqu fin 2014)
ISO TC 184 Systmes d'automatisation et intgration Prsidence Alain Digeon
Schneider
ISO TC 290 rputation en ligne/E-reputation M. Laurent Petit OXYLANE (groupe
DECATLON)
ISO/CEI JTC 1 SC35 Interface pour lutilisateur M. Khalid Choukri ELDA
CEN/CENELEC JWG 8 Privacy Mme. Claire Waast-Richard - EDF

5.1.2 - LES ACTEURS FRANAIS PARTICIPANT AUX INSTANCES DE


NORMALISATION ET LEUR DEGRE DE PARTICIPATION

5.1.2

Diffrents niveaux dintervention sont possibles au niveau des instances internationales :


Animateur de groupe A
Editeur de norme E
Expert contributeur C
Observateur O
Scurit
scurit de l'information AEC
-- ISO/CEI JTC 1 SC 27
-- CEN/CENELEC/ETSI CS CG A
protection des donnes personnelles et nominatives AEC
-- ISO/CEI JTC 1 SC 27
-- CEN/CLT JWG8 A
Mtadonnes
ontologies
-- W3C
RDF
OWL

Identifiants AEC
-- ISO TC 46 (ISBN, ISAN...)
indexation AEC
-- ISO TC 46
Donnes de la Recherche
-- RDA Research Data Aliance
Rfrentiels mtiers/secteurs EC
-- GS 1 pour la distribution
-- ISO TC 37 (eClass ISO 22274)
-- ISO TC 184 (Plib) catalogues
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

53

5. CARTOGRAPHIE

Formats d'change
Secteurs
-- Smart Grid AEC

CEI srie de normes CIM (61970, 61968, 62325)


CEI srie de normes 61850
CEI 62056 (comptage lectrique en Europe) EC
DLMS/COSEM (format de donnes Linky) AEC
CEN, CENELEC, ETSI (mandat smart grid) EC

-- Smart Cities AEC

CIM/61850 (micros rseaux lectriques)


CEN, CENELEC, ETSI (coordination)A

-- Sant O (informatique de sant)


-- scurit socitale (ex: vidoprotection) AEC (EC sur certains sujets)
ISO TC 223 (ISO 22311) A

-- Business O

OASIS (XBRL...)

-- Finance AOC (France animateur sur le SC 7 services)


ISO TC 68 (ISO 22022)

-- industrie

OMG (ReqIF) ? (quelques industriels franais moteurs lOMG)

-- elearning EC

ISO/CEI JTC 1 SC 36 EC
CEN TC 353 C
| MOOC + NWI sur le Big Data

-- ...
Gnriques
-- multimdia (MPEG, JPEG, MP3...) EC
-- bureautique (OOXML, ODF...) O
-- rgles
W3C (RIF)

Langages de requte O
ISO/CEI JTC 1 SC 32 O
-- SQL
Archivage
ISO TC 171
-- PDF C
-- normes d'exigences de service (Z42013...) E
SNIA
infrastructures
Cloud
-- ISO/CEI JTC 1 SC 38 EC
-- ITU-T SG13 Question17
Big Data sur du Cloud AEC

Internet des objets


-- ISO/CEI JTC 1 (capteurs) O
-- ETSI oneMtoM A
-- EPC... C
-- Initiatives
Allseen Alliance ?
IPSO Alliance ?

IETF (JSON...)

54

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

5. CARTOGRAPHIE

Ressources linguistiques
ISO TC 37 SC4 O (EC au TC37)
ELDA ?
Processus de data mining
CRISP-DM ?
SEMMA ?
Modles de Data Mining
PMML ?
Statistiques
ISO TC 69 application des mthodes statistiques

TAT DE LART SUR LES NORMES DE SCURIT


INTERNATIONALES APPLICABLES AU TRAITEMENT BIG DATA

5.2

Au regard de la scurisation du Big Data et en particulier de la question de la protection des donnes


caractre personnel, il a t jug important de faire mentionner quelques normes particulirement
importantes

5.2.1 - LES NORMES DE LA SRIE ISO 27001

5.2.1

Selon la norme ISO IEC 27000 (Systmes de management de la scurit de linformation vue densemble et vocabulaire), la scurit de linformation est la prservation de la confidentialit, de lintgrit, et de la disponibilit de linformation. Cest suivant cette dfinition que lon protgera les
donnes dune manire gnrale.
Dautre part, les traitements de donnes susceptibles de gnrer de la valeur impliqueront dans de
trs nombreux cas des donnes personnelles. La loi franaise [Loi n 78-17 du 6 janvier 1978 relative
l'informatique, aux fichiers et aux liberts] en donne la dfinition suivante : Constitue une donne
caractre personnel toute information relative une personne physique identifie ou qui peut tre
identifie, directement ou indirectement, par rfrence un numro d'identification ou un ou plusieurs lments qui lui sont propres..
Par ailleurs, larticle 34 de la Loi dispose que Le responsable du traitement est tenu de prendre toutes
prcautions utiles, au regard de la nature des donnes et des risques prsents par le traitement, pour
prserver la scurit des donnes et, notamment, empcher qu'elles soient dformes, endommages, ou
que des tiers non autoriss y aient accs .
Dans le cas de traitement par un sous-traitant (article 35) :
Le sous-traitant doit prsenter des garanties suffisantes pour assurer la mise en uvre des mesures de
scurit et de confidentialit mentionnes l'article 34. Cette exigence ne dcharge pas le responsable du
traitement de son obligation de veiller au respect de ces mesures
Ainsi, on voit que la loi impose que des mesures de scurit soient prises de faon approprie au
regard des risques prsents par le traitement.
Lorganisation responsable dun traitement Big Data doit donc dcider et mettre en uvre des mesures de
scurit, en considrant au minimum celles qui sont communment admises dans ltat de lart et effectivement pratiques par lindustrie. Cest justement le propos des normes dtablir un rfrentiel de mesures
qui doivent tre considres lors de la mise en uvre et de lopration dun traitement informatique.
AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

55

5. CARTOGRAPHIE

La norme ISO IEC 27001 spcifie les exigences pour la mise en place et lopration dun ISMS (Information Security Management System) dans le contexte dactivit de lorganisation et des risques
encourus. On voit que cette approche rpond aux principes de la loi mentionns plus haut.
27001 constitue une rfrence en scurit informatique. Suivant les besoins et les secteurs, dautres
normes de la srie 27000 pourront tre utilises dans le cadre dun ISMS. Par exemple, la norme ISO
IEC 27018 sapplique pour la protection des donnes personnelles dans le cas des services de cloud
computing oprant comme sous-traitants dun responsable de traitement.

5.2.2

5.2.2 - LA NORME ISO 29100


Dans les cas o le traitement implique des donnes personnelles, limplmentation de 27001 sur
le processus de traitement requiert la mise en uvre de mesures spcifiques la protection de ces
donnes. Ces mesures doivent suivre les principes recueillis dans la norme 29100 Security techniques - Privacy Framework.
Les principes de 29100 sont largement inspirs des lignes directrices rgissant la protection de la vie
prive et les flux transfrontires de donnes de caractre personnel adopts par lOCDE le 23 septembre 1980.
Il sagit des principes de la qualit de linformation, de la spcificit des finalits, de la limitation de
lutilisation, des garanties de scurit, de la transparence, de la participation individuelle, de la simplicit de lexercice du droit daccs et du principe de responsabilit.

Ces principes se retrouvent galement dans la directive europenne de 1995 et larticle 6 de la loi
informatique et liberts et peuvent tre rsums ainsi :
1 Les donnes sont collectes et traites de manire loyale et licite ;
2 Elles sont collectes pour des finalits dtermines, explicites et lgitimes ;
3 Elles sont adquates, pertinentes et non excessives au regard des finalits pour lesquelles
elles sont collectes et de leurs traitements ultrieurs ;
4 Elles sont exactes, compltes et, si ncessaire, mises jour ;
5 Elles sont conserves sous une forme permettant lidentification des personnes
concernes pendant une dure qui nexcde pas la dure ncessaire aux finalits pour
lesquelles elles sont collectes et traites ;
6 Les traitements font lobjet des formalits pralables requises.

56

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

6
RECOMMANDATIONS POUR
LA NORMALISATION
Pour que lcosystme et des modles conomiques adapts aux donnes massives se dveloppent,
il convient de prendre en compte des problmatiques clefs relatives aux donnes :
Linteroprabilit des donnes et des systmes dinformation est essentielle pour
permettre une utilisation de la masse dinformations disponibles, dans une dmarche de
pilotage global.
La scurisation des donnes doit tre prise en compte dans les spcifications techniques
des systmes de collecte, de stockage et de traitement de linformation. Elle concerne aussi
le niveau juridique pour ce qui est de la proprit des donnes et des rsultats ainsi que
lexploitation des licences dexploitation.
Le respect des contraintes relatives aux donnes personnelles, encadres par la CNIL, doit
tre pens en amont de limplmentation du systme. Une pseudonymisation des donnes
est lune des techniques cls pour faciliter leur exploitation.
Les conditions de gestion de transmission des donnes, entre entits prives, publiques ou
publiques et prives doivent tre prcises par une organisation spcifique.
La normalisation est un outil pouvant apporter des solutions oprationnelles. Il est ncessaire de
pousser une norme internationale cadrant larchitecture de rfrence et le vocabulaire du Big Data.
En complment, 6 axes de dveloppement ont t identifis :

1) La gouvernance de la donne
Spcifier un rle de gouvernance de la donne au sein des entreprises est lune des consquences de
lavnement du Big Data. Ce rle de gouvernance est transverse au sein de lentreprise dans la mesure
o les projets autour de la donne concernent plusieurs mtiers. Il soriente suivant trois dimensions :

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

57

6. RECOMMANDATIONS POUR LA NORMALISATION

La ncessit pour lentreprise dexploiter au mieux les entrepts de donnes quelle dtient et
ceux externes auxquels elle a accs, tout en se prservant des fuites dinformation.
La matrise de la qualit des donnes qui reprsente un enjeu dont dpend la qualit des
rsultats des traitements Big Data. En ce qui concerne les mtadonnes notamment, cet
enjeu rejoint un besoin de traabilit et de persistance associ lexploitation des bases
dontologies existantes.
La scurit juridique qui est associe aux politiques relatives la conformit pour laquelle
des rfrentiels de management seront ncessaires avec en ce qui concerne le Big Data, une
sensibilit particulire lexploitation de donnes caractre personnel.
La normalisation doit appuyer une prise en compte des besoins du Big Data au travers de normes de
management dj existantes, voire llaboration dune norme de management autour de la donne.
Il sagira en complment dincorporer des exigences du Big Data dans les rfrentiels de comptences
en cours de normalisation qui serviront de briques pour prciser des nouveaux mtiers tel que lanalyste de donnes.
Enfin, les processus en lien avec la relation client tels que les mthodes deffacement de donnes pourront donner lieu des dveloppements normatifs dans le cadre du nouveau comit international sur
la rputation en ligne et o se situent les projets ports par la France sur lavis fiable de consommateur.

2) La Qualit et lidentification des donnes


Qualifier la qualit ncessaire des donnes est un enjeu important de la confiance dans les traitements
Big Data. Certains traitements augmentent la confiance, on pense aux techniques de recoupements.
D'autres peuvent tre sensibles une erreur qui vient corrompre tout un ensemble. Lorsque le Big
Data suppose lexploitation dune grande quantit dinformations, mme imparfaite ou incomplte,
la qualit n'est pas intrinsque, elle dpend des traitements oprs. Il faut donc pousser la normalisation de critres et de mthodologies pour qualifier les sources et linformation en termes de qualit
perue et de confiance dans un contexte donn et en permettre la communication.
Faciliter ladministration de rfrentiels de mtadonnes par lexploitation de registres didentifiants
normaliss peut complter des approches organiques et systmiques dj mises en uvre sur les
rseaux spcialiss (rating, controverses, etc.).
La capacit disposer de mtadonnes dont la dfinition est stable devient une question cruciale.
Cette question se pose notamment pour les structures de reprsentation des connaissances (taxonomies, thesaurus, ontologies).
Certains registres normaliss existent dj dans plusieurs domaines (les donnes textuelles structures notamment) mais une rflexion plus globale est mener, notamment en ce qui concerne lindexation des donnes non (ou peu) structures venant des rseaux sociaux ainsi que les donnes
associes la mobilit et aux capteurs.
Ceci tant, le reprage de certains types (ou sous-types) de donnes, par exemple les URIs pointant sur des ressources smantiques, reste peu satisfaisant. Il faudrait par exemple disposer dagences
charges didentifier, rpertorier et maintenir ces catalogues dontologies, ce qui supposerait le dveloppement (ou la mise jour) de normes didentifiants adaptes.
Ces travaux pourraient entrer dans le primtre des commissions de normalisation sur la documentation sachant que la France dispose dans ce domaine dun leadership international et quune collaboration existe dans ce domaine avec les instances de linternet que sont lIETF et le W3C.
Dautres instances pourraient tre concernes pour traiter des flux spcifiques lexemple des activits sur les normes JPEG et MPEG pour ce qui est des flux multimdia. Ainsi, lETSI ou lUIT-T
peuvent sans doute avoir un rle jouer dans le domaine des flux de donnes de tlphonie, etc.
58

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

6. RECOMMANDATIONS POUR LA NORMALISATION

3) Donnes ouvertes Open Data


De nombreuses organisations souhaitent mettre disposition publique des donnes et organiser
lOpen Data est ncessaire. Par exemple, les donnes culturelles et les donnes de la Recherche reprsentent dans le contexte de lopen data un enjeu important la fois intellectuel et conomique.
Il sagit de sujets complexes et il faudra suivre les travaux issus dinitiatives de R&D tels que le programme IDEX15 (Cap Digital et Systematic) en tenant compte de lavance des consortiums tel que
RDA. Une option sera dtudier sil faut favoriser terme un portage des rsultats de ces travaux vers
la normalisation.
Un outillage normatif est par ailleurs dj disponible pour certains contenus structurs mais la situation semble peu stabilise pour lessentiel des contenus traits par le Big Data16 . En ce qui concerne
les contenus non structurs notamment, rien nexiste ce jour pour construire des mtadonnes
dadministration.
Il apparat donc pertinent de revisiter les normes du domaine de la documentation sans langle des
enjeux des donnes massives et de lOpen Data.

4) Oprateurs dinfrastructures
Adapter au Big Data les infrastructures de services comme le Cloud Computing pour le stockage et
les architectures massivement parallles (clusters, calculateurs haute performance HPC, Plateforme
de services - PaaS) pour les traitements est prioritaire pour rpondre aux enjeux des entreprises et
des collectivits.
Une normalisation est en cours sur les services distribus, notamment lUIT-T et lISO. Il est donc
essentiel de prendre en compte par la normalisation les nouvelles exigences du Big Data pour que le
Cloud et les traitements distribus soient en mesure de supporter ces nouveaux services.
Ceci concerne notamment des questions dinteroprabilit, de scurit des donnes et des processus
(acquiescement, non rputation, identification et authentification des intervenants), de la traabilit
des processus (y compris archivage et effacement des donnes), mais aussi les sujets en lien avec la
rglementation en matire de protection des donnes caractre personnel notamment par la prise
en compte de modles de gouvernance de la donne, etc.

5) Oprateurs de service Big Data


Permettre quun cosystme se dveloppe autour de services de la donne est un nouvel enjeu de
dveloppement conomique.
La normalisation visera linteroprabilit technique et portera sur les schmas de fonctionnement,
par exemple les processus dacquiescement, la mise disposition des ressources, la traabilit des
traitements, en prenant en considration des questions spcifiques telle que la linguistique dont notamment les processus de conversion, la scurit avec, entre autres, leffacement des donnes, et les
questions de conformit rglementaire pour la gestion des donnes et des droits associs (recueil de
consentements), la qualification des oprateurs, etc.
La normalisation dAPI savre aussi ncessaire pour pousser le traitement au plus tt dans la chane.
Des travaux pourront ainsi tre entrepris au sein de comits spcifiques.

15 -IDEX voir le lien


16 - tude 2014 en cours de ralisation pour le compte du service du livre et de la lecture du Ministre de la Culture indiquerait que lusage didentifiants normaliss comme lISAN pour les contenus multimdia serait peu rpandu et entrerait
en comptition avec dautres standards.

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

59

6. RECOMMANDATIONS POUR LA NORMALISATION

La question de la reprsentation de donnes complexes suppose que lutilisateur dispose de moyens


de manipulation. La normalisation dinterfaces pourrait permettre une meilleure modularisation des
processus de prsentation, y compris sous la dimension simulation.
Lintrt de standardiser les SLAs est par ailleurs une question dimportance qui pourrait tre adresse par des comits de lISO/CEI JTC 1 sachant que le sujet des SLAs pour le Cloud computing y fait
dj lobjet dtudes normatives.

6) Normalisation technique
Des enjeux normatifs importants sont ressortis de cette tude.
Il sagit en premier lieu des processus et des mthodologies autour de la rversibilit des algorithmes
de pseudonymisation. Il faudra examiner de faon plus approfondie si cette question peut tre traite
de faon gnrique, en tant que norme de scurit de linformation, ou si elle demande tre adresse
au cas par cas dans un contexte dapplication sectorielle, par exemple pour ce qui est des donnes de
connexion tlphonique.
Autre question dintrt : lvaluation de la performance des systmes notamment pour des environnements comme HADOOP demanderait des mthodes stabilises.
Un besoin majeur concerne par ailleurs les langages de requte NoSQL.
Enfin, il faudrait codifier les processus de visualisation et de manipulation des rsultats Big Data.
Ces travaux devraient tre adresss par certains comits techniques au sein de lISO/CEI JTC 1 et il
convient dtre attentif aux recommandations que va produire fin 2014 son groupe dtude ddi la
normalisation du Big Data.

60

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

ANNEXES
ANNEXE 1 : BIBLIOGRAPHIE

58

ANNEXE 2 : LES CONTRIBUTEURS AUX TRAVAUX

59

ANNEXE 3 : LISTE DE LOGICIELS LIBRES AUTOUR DE LA


GALAXIE APACHE HADOOP

60

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

61

ANNEXES

ANNEXE 1 : BIBLIOGRAPHIE
ISO/IEC/ JTC1-SWG3_N0435_SC_32_Preliminary_report_on_big_data_.pdf
ISO/IEC/ JTC 1 groupe dtude Big Data - rapport paratre
Big Data : the next frontier for innovation, competition, and productivity, McKinsey
Global Institute, Juin 2011.
Big Data: la vision des grandes entreprises , cigref, rseau de grandes entreprises,
Opportunits et enjeux, Octobre 2013
Analyse des Big Data : Quels usages, quels dfis , Commissariat gnral la stratgie et la
prospective, La note danalyse n08, Marie-Pierre Hamel et David Marguerrit, Novembre 2013
Big Data : Comment les 3V bousculent les codes , lettre de veille #15, Cap Digital, 2013
Big Data et Rseaux Sociaux: Mythes & Ralits Livre blanc Jamespot, Alain Garnier, 2013
Big Data : Seizing opportunities, preserving Values , The white House, Washington, May 2014
Presidents Council of Advisors on Science & Technology, Big Data and Privacy: A
Technological Perspective, The White House, May 1, 2014.
Livre blanc Big Data UIT-T novembre 2013
Etude FNCCR sur Rseaux et Territoires intelligents septembre 2013
2013-Big-Data-Vision-grandes-entreprises-Opportunites-et-enjeux-CIGREF
Dossier de synthse de la journe dtude du GFII juillet 2012
Livre blanc APROGED sur content analytic juillet 2013
IEEE confrence October 6-9, 2013, Santa Clara, CA, USA dont je nai pas le compte rendu
Le Telemanagment Forum (TMForum) a publi au premier semestre 2014 un guide de
dfinition et dimplmentation des analyses de donnes massives "GB979 Solution Suite 2.0"
qui comprend :
un modle de rfrence darchitecture fonctionnelle ;
50 scnarios dusage ;

62

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

ANNEXES

ANNEXE 2 : LES CONTRIBUTEURS AUX


TRAVAUX
AIT-DAOUD, Sanaa - DIGITAL & ETHICS (France)
BAUDOT, Franck - CNIL
BENHABILES, Nora - CEA SACLAY
BERTHAULT, Denis - LEXISNEXIS SA
BONNET Laurent - BUSINESS & DECISION
BOUJEMAA, Nozha - INRIA
BRUNESSAUX, Stphan - CASSIDIAN SAS - EADS FRANCE
CAPITAINE, Philippe ALLDC - ASSO LEO LAGRANGE DEF CONSOMMATEURS
CHAWKI, Jamil - ORANGE
CHOUKRI, Khalid - ELDA
COTTE, Dominique - OUROUK
DE SOUSA, Maria - CFONB
DECLAIRIEUX, Valrie DGA - INGENIERIE DE PROJETS
DELEZOIDE, Bertrand - CEA SACLAY
DELOUCHE, Stphane - CAP DIGITAL
GIBERT, Paul-Olivier - DIGITAL & ETHICS
GIROUX, Patrick - CASSIDIAN SAS - EADS FRANCE (France)
GOUTTAS, Catherine - THALES GLOBAL SERVICES SAS - EPM
GRUSON, Manuel - DASSAULT SYSTEMES
HEBRAIL, Georges - EDF R&D
HOUZE, Paul - MICROSOFT FRANCE
HUOT, Charles - TEMIS SA
KEPEKLIAN, Gabriel - ATOS INTEGRATION
LARHER, Tanguy - DGE / SCIDE / SQUALPI
LEGENDRE, Jean Franois AFNOR
MAMOUN, Firas cabinet ITEANU
MORA, Cdric- DGE
RAVIX, Philippe SOGETI - HIGH TECH
SALLABERRY, Jean-Luc - FNCCR
SCHCK, Stphane - KAPPA SANTE
SOULIE, Franoise - Consultant
STEPHAN, Franois - INST RECHERCHE TECHNOLOGIQUE SYSTEM X
YVON, Franois CNRS - LIMSI CNRS

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

63

ANNEXES

ANNEXE 3 : LISTE DE LOGICIELS LIBRES


AUTOUR DE LA GALAXIE APACHE HADOOP
H Base

A key-value pair database management system that runs on HDFS.

Hive

A system of functions that support


data summarization and ad hoc query of the Hadoop MapReduce result
set used for data warehousing.

Pig

High-level language for managing


data flow and application execution
in the Hadoop environment.

Mahout

Machine-learning system implemented on Hadoop.

Zookeeper

Centralized service for maintaining


configuration information, naming,
providing distributed synchronisation
and group services.

Sqoop

A tool designed for transferring bulk


data between Hadoop and structured
data stores such as relational databases.

Mobius

une API Gnrique en JAVA, mme


de traiter des donnes de haut niveau, et qui se place au-dessus dun
cadre Apache Hadoop.
Cette API prend par exemple en
charge des fonctions de chanage et
des oprateurs de haut niveau tels
que rejoindre (interne ou externe)
ou groupement. Elle prend en charge
galement du filtrage.
Elle est utilise en interne chez eBay
pour diffrentes applications caractre scientifique.

64

AFNOR Normalisation

Juin 2015 - Donnes massives - Big Data : impacts et attentes pour la normalisation

ANNEXES

AFNOR Normalisation

Big Data : impacts et attentes pour la normalisation - Juin 2015

65

Contact :

S15 02 123 - ADE - Studio - DMK GROUPE AFNOR

Jean-Franois LEGENDRE
jeanfrancois.legendre@afnor.org
01 41 62 83 57

AFNOR Normalisation
11, rue Francis de Pressens,
93571 La Plaine Saint-Denis Cedex