Você está na página 1de 122

BIG DATa,

l a c c l r at e u r
d i n n o v ati o n

Livre blanc de linstitut


G9+
En partenariat avec

INTRO duction

Introduction

Partie I : Le Big Data : pourquoi parler de


rvolution ?

16

A- Big Data : dune dfinition classique un procd

18

I. La typologie des 3 V
II. Big Data : un concept large
III. Le Big Data : la dfinition par le procd

B- Big Data : en quoi est-il rvolutionnaire ?

24

I. La rvolution par la technique


II. La mise en donne du monde
III. Le principal dfi technique : linteroprabilit

Partie II : Lalgorithme, chef dorchestre de la


rvolution Big Data

36

A- Comment construit-on un algorithme ?

38

I. Quest-ce quun algorithme ?


II. Comment labore-t-on un algorithme ?
III. Lalgorithme autonome grce au machine-learning ?
46

B- Vers lalgorithmisation du monde ?


I. Lalgorithme : une construction humaine et politique
II. Connatre et prdire lalgorithme
III. Notre futur rduite une formule mathmatique ?

52

C- Penser la gouvernance des algorithmes


I. Lalgorithme : humain, trop humain ?
II. Trois scnarios pour rguler le Big Data

Partie III : La rvolution industrielle du Big Data :


un levier de croissance dans de nombreux secteurs

58

A- Le Big Data, moteur de croissance et de mutations

60

I. Premier marqueur - Lhybridation des mtiers


II. Deuxime marqueur - Evolution des industries traditionnelles vers des business-model
sous forme de service
iii. Troisime marqueur - Des business-model qui se rapprochent de ceux des startups
iv. Quatrime marqueur - Le modle Full-stack startup

B- Le Big Data : Une rvolution qui transforme tous les secteurs de notre conomie

62

C- Futurs usages des objets connects et big data ?

90

D- Quels sont les enjeux juridiques de cette rvolution ?

96

Partie IV : La France lheure du Big Data

104

A - Ltat, utilisateur exemplaire des technologies Big Data


B - Lcosystme franais : de vrais atouts pour devenir leader europen du Big Data
C - tre en tte de la rflexion sur la nouvelle rgulation lre de la donne

106
110
116

Conclusion

118

Copyright

Date de parution: dcembre 2014

Vice-Prsident
de lInstitut G9+
Administrateur
de Renaissance Numrique

Nous avons choisi en 2013 danalyser le


potentiel du march des objets connects et
ses dynamiques internationales en publiant,
sur la base dentretiens avec les meilleurs
spcialistes, notre livre blanc les nouveaux
eldorados de lconomie connecte et en
lui ddiant avec succs notre rencontre annuelle.

Luc Bretones
2014 est donc
naturellement lanne
du Big Data prdictif
pour lInstitut G9+ qui vient dorganiser au premier semestre la principale confrence sur le sujet en
France sous le titre ils font parler
les donnes pour acclrer linnovation .
Nous voyons en effet, dans lexplosion
des donnes gnres par les objets
connects et les activits humaines,
lmergence ultra rapide dun nouveau paradigme, celui de la mise en
donne de nos vies et des potentiels
danalyse de corrlations relatives.
Plus prcisment, la multiplication
des objets connects va acclrer lmergence de gisements de
donnes personnelles pour de nombreux acteurs conomiques dans

Copyright

tous les secteurs (oprateurs tlcom, banques, assurances, industriels, distributeurs, transporteurs...).
La rencontre des donnes issues
de ces objets connects, quelles
proviennent de grands groupes ou
dautres acteurs, peut permettre de
constituer des collections indites
de type Big Data, dont le volume,
la prcision, la richesse et la porte
seront la source dnormment
danalyses pousses, dopportunits
de croisement et de corrlations par
lintermdiaire de services et dapplications qui sauront rvler des
informations de plus haut niveau.
Dans le mme temps, les donnes
gnres par les particuliers et les
entreprises sont dsormais quasi exclusivement numriques et en croissance
volumique exponentielle.
Souvenons-nous quen 2007, dj,
seulement 7 % des donnes restaient
au
format
analogique,
or les donnes numriques font

Date de parution: dcembre 2014

05

plus que doubler tous les 14 mois.


Axelle Lemaire, secrtaire dEtat au
numrique, ny voit-elle pas le ptrole du XXIme sicle ? Certains
prconisent mme de les intgrer
systmatiquement au bilan des
entreprises. Et pour cause, la valeur de lconomie globale, aprs
stre dveloppe et concentre
massivement dans le logiciel, qui,
comme le dcrit si justement Marc
Andreessen1 , dvore le monde ,
tend prendre un nouveau virage
et une forme encore plus labore,
celle de lanalyse mais surtout de la
possession des donnes du monde.
Ce mouvement vers les acteurs qui
contrlent les donnes, au-del
des experts capables de les analyser, prpare des bouleversements
majeurs dans la chane de valeur
conomique mondiale et dans les
business modles des entreprises.
Sommes-nous lore dune mergence oligopolistique de gants mondiaux de la donne, ou au contraire
de nouvelles socits agiles, ultra expertes de ce domaine et bnficiant
de la taille sans la masse ? Dans
un monde ainsi mis en donnes, les
mathmatiques, les statistiques et la
programmation
deviendront-elles
les nouvelles langues vivantes, aussi incontournables que fondamentales ? Que devons-nous attendre
des Etats en matire dorientation de
lducation dune part et dinvestissement en infrastructure de lautre ?
Et au-del des opportunits, quels
sont les risques engendrs par ce

06

nouveau paradigme, sur notre


vie prive bien sr, mais galement sur notre libre arbitre, notre
choix individuel, face une dictature potentielle de la prvision.
Il semble que le principe de prcaution appliqu au Big Data porterait un coup darrt au potentiel
important de ce nouveau march.
Pour autant, il conviendra de dfinir rapidement les conditions dutilisations secondaires innovantes des
donnes collectes ou accdes.
De mme, lanonymisation parfaite
des donnes tant impossible partir dun certain volume, et la mise
jour de tout ou partie des graphes
sociaux porte dalgorithme, ces
conditions devront assurer aux individus et organisations un strict respect
et les moyens de leur protection.
Comme lhumanit a su le faire avec
les prcdentes rvolutions technologiques, je suis convaincu que
lusage du Big Data sera rgul ; ce
nest quune question de temps et
dapprentissage .Quant au dterminisme potentiellement extrme induit
par la mise en donnes du monde,
gardons lesprit que le gnie humain ne dpend pas du Big Data,
pas plus que linvention de la voiture na fait lobjet dune demande
prvisible des cavaliers, ou ceux de
lIpad dun besoin exprim par les
utilisateurs dordinateurs personnels.
Dans ce monde de donnes mises
nu en temps rel, je pense que
les dimensions humaines de discernement, dexprience et de

(1) Entre 2006 et 2014, le classement Financial Times 500 par secteur conomique mentionne une progression de
+116% des services logiciels et informatiques 1 744 928,4 millions de dollars contre une progression de seulement
+7% pour le secteur tlcom fixe et mobile.
(2) Selon lexpression du professeur Brynjolfsson (MIT Digital Business)
(3) Paul Ohm, professeur, Universit du Colorado Boulder

Copyright

Date de parution: dcembre 2014

crativit, seront encore plus cruciales, encore plus diffrenciantes.


Et comme le note Kenneth Cukier
dans son ouvrage Big data, la rvolution des donnes est en marche, le
monde prsent du Big Data nous paratra sous peu aussi dpass que les
quatre kilo octets de mmoire vive
de lordinateur de bord dApollo 11.

Copyright

Date de parution: dcembre 2014

07

Fondateur
de 1000mercis-numberly
Administrateur
de Renaissance Numrique

08

Si le Big Data reprsente une avance


technologique gnralement peu conteste, ses possibilits dutilisation cristallisent trop souvent les doutes et les peurs
dune large partie de la population.

Thibaut Munier

Big Data : une triple


opportunit ne pas
laisser passer
Si le Big Data reprsente une avance technologique gnralement
peu conteste, ses possibilits dutilisation cristallisent trop souvent les
doutes et les peurs dune large partie de la population. La complexit
du sujet et la varit des domaines
impacts conduisent parfois faire
des amalgames htifs et dangereux, ainsi quon a pu le voir aprs
les rvlations de Snowden sur les
systmes de surveillance massive.
A linstar de nombreuses innovations
technologiques, le Big Data peut
certes donner lieu des drives liberticides qui doivent videmment
tre identifies, rgules et si possible
radiques. Mais il parat tout aussi
fondamental de ne pas se contenter

de cette vision restrictive et de considrer avec au moins autant dattention les immenses opportunits que
cette rvolution contient en germe.
Le Big Data doit avant toute chose
tre considr comme une rvolution technologique dans la capacit de collecte, de stockage et
dexploitation des donnes. Apparu
sur la cte Ouest des Etats Unis la
suite du dveloppement massif des
usages digitaux4, le Big Data constitue aujourdhui une triple opportunit pour les consommateurs, les entreprises et la croissance de notre pays.
Une opportunit pour les internautes
et les consommateurs
Grce ces nouvelles capacits
de stockage et de traitement des
donnes, les consommateurs ont
progressivement pu dcouvrir des
services nouveaux, quils ont par-

(4) En fvrier 2001 Doug Laney, analyste au Meta Group, publie une note de recherche intitule 3D Data Management: Controlling Data Volume, Velocity, and Variety. 10 ans plus tard les 3 Vs sont les 3 dimensions gnralement
utilises pour dfinir le Big Data bien que le concept napparaisse pas dans larticle de Laney.

Copyright

Date de parution: dcembre 2014

09

fois plbiscits, entranant des besoins plus grands encore et souvent


une nouvelle grappe dinnovations.
titre dexemple de ces nouveaux
usages directement issus de lessor du Big Data, on pourrait citer les
moteurs de comparaison de prix qui
ncessitent bien sr dimmenses capacits de traitement de donnes
en temps rel et qui permettent
chaque mois des millions dinternautes dacheter mieux et moins
cher dans de multiples secteurs.
Une autre demande forte des
consommateurs qui a pu commencer tre adresse grce
aux technologies du Big Data
concerne la communication directe
Marques-Consommateurs.

10

Cest par le dveloppement dalgorithmes sophistiqus que chaque


marque peut esprer donner du sens
aux donnes collectes et simplifier la
vie de ses clients en limitant le nombre
de messages et en recrant de la valeur lors de chaque interaction. Par
une communication et des services
beaucoup plus pertinents, il sagit
en quelque sorte pour les entreprises
de rendre chaque consommateur la valeur des donnes confies.
Une opportunit pour les entreprises
Grce au Big Data les entreprises
ont galement devant elles des
opportunits
formidables
pour
revoir leur chane de valeur et
transformer leurs points de vente.

Devant lafflux de messages souvent non cibls et sans intrt pour


leurs destinataires, les internautes
ont jou de leurs contre-pouvoirs
digitaux : plaintes, dsinscriptions,
non ractions, rclamant avec
force une communication plus pertinente de la part des marques
dont ils sont par ailleurs des clients
exigeants
et
souvent
fidles.

Avec les produits connects, il devient en effet envisageable pour une


marque de capter de faon automatique et anonyme une quantit
importante dinformations sur lutilisation de chaque produit pour en amliorer la qualit, la dure de vie et en
cas de panne (par exemple pour
une voiture) pour tablir le diagnostic et dfinir la rparation ncessaire.

Grce aux possibilits offertes notamment par les bannires publicitaires


achetes aux enchres en temps
rel (Real Time Bidding) il devient aujourdhui possible pour les marques
de reconnatre leurs clients sur les diffrents terminaux de connexion quils
utilisent, et ainsi de les solliciter beaucoup moins frquemment mais
bon escient, dtre globalement plus
intelligentes et moins envahissantes.

Le Big Data permet enfin beaucoup dentreprises denvisager une


transformation de leurs points de
vente et du rle de leurs vendeurs.
Equip dune tablette un vendeur
pourra par exemple accder
lhistorique dactivits de ses clients
ou des recommandations personnalises et ainsi complter son
propre jugement en face face
sur un point de vente afin dap-

Copyright

Date de parution: dcembre 2014

porter un meilleur conseil dans le


cadre dune relation enrichie et
dun mtier totalement rinvent.
Connatre
et
comprendre
un
consommateur nempche dailleurs pas la surprise et linattendu :
tout algorithme de recommandation peut tre intgr une dimension de srendipit, dexploration
ou de hasard pour viter un systmatisme rapidement inefficace.
Une opportunit pour la croissance
et lemploi dans notre pays
Du fait de la qualit de ses structures
denseignement et de recherche en
mathmatiques appliques, notre
pays possde tous les atouts pour
tre aux premiers rangs dans la formation des Data Scientists et
dans la cration dentreprises et de
nouveaux usages qui en dcouleront. Cest dans lenvironnement actuel une opportunit rare en termes
demploi et de croissance et il ne serait pas concevable de la ngliger.

tue aujourdhui un champ unique


dopportunits et elles mritent une
grande attention si nous voulons
peser dans ce dbat global qui est
dj ouvert. De nombreuses questions relatives aux donnes, leur
collecte et leur utilisation notamment par la robotique vont en effet
se poser dans des domaines aussi
varis que la protection des donnes personnelles, la sant ou la
place de lhomme dans la socit.
Etudiants, entrepreneurs, dcideurs,
ou chercheurs doivent tous ensemble
participer cette construction et
ce dbat qui ne peuvent quavancer de pair. Avec une double exigence : tre rapide car la concurrence est mondiale et pragmatique
car cest en faisant quon comprend
les enjeux.

En conclusion, le Big Data offre aujourdhui un vaste champ dapplications possible, et demeurent
aux prmices de leur dveloppement5. Ces technologies et leurs
applications mritent bien quon
les observe sans navet ni a priori, dun il critique et avec discernement, mais de faon dabord
positive et entrepreneuriale avec
ambition et lenvie de construire.
Aprs tout, le Big Data ne sera que
ce que nous en ferons. Il consti-

(5) LAssociation franaise des diteurs de logiciels (Afdel) a ainsi estim que la cration de valeur lie au Big Data
pourrait atteindre en France 2.8 milliards deuro et 10 000 emplois directs dici cinq ans. Le cabinet amricain
Gartner estime de son ct que le secteur Big Data crera 4,4 millions demplois dans le monde dici 2015, dont
1,9 million aux tats- Unis.

Copyright

Date de parution: dcembre 2014

11

Prsidente
Institut G9+
AdministratRICE
Ingnieurs et Scientifiques de France
DIRIGEANTE IT
TRANSITION

08

La gestion des donnes tait jusque l rserve des domaines dexpertise, spcialistes
chacun de son mtier.

Valentine Ferrol
Big Data : un levier
supplmentaire pour
imaginer, construire,
sinspirer
Dimension industrielle
La gestion des donnes tait jusque
l rserve des domaines dexpertise, spcialistes chacun de son mtier. Quils soient techniques : stockage, sauvegarde, archivage au sein
de datawarehouse ; ou fonctionnels
: mathmaticiens, traders, exploitants de centrale lectrique, contrleurs ariens ou encore les services
publics, la sant, la culture etc
La performance - performance de la
chaine de valeur de nos entreprises
et de lconomie de demain - rside
dans le bon fonctionnement des rseaux qui cooprent llaboration
des produits ou services. Le Big Data
est un gisement colossal de gain en

Copyright

productivit si les donnes utilises


correspondent une facette de la
ralit que nous cherchons tudier.
En faisant parler les donnes, en
leur donnant du relief chaque acteur a potentiellement accs

une meilleure comprhension du


contexte de sa filire, son entreprise,
de son mtier, peut en percevoir
les volutions (service ou produit).
Cette mise en perspective gnre galement une sorte dEmpathie avec tous les acteurs de
la chaine de valeur quils soient
collaborateurs, fournisseurs, partenaires, clients. Cette coopration enrichie est le facteur-cl
de succs de notre conomie.
Dimension socitale
Les traces que nous laissons volontairement ou involontairement, directement ou indirectement, de part
nos comportements, nos actions, les

Date de parution: dcembre 2014

13

objets que nous utilisons, nos propos,


notre appartenances telle ou telle
communaut sont autant de data
utilises pour des tudes sociodmographiques, socioconomiques, sociologiques. Ces data sont elles aussi
utilises grce des algorithmes trs
sophistiqus qui ont pour objectif de
prdire nos comportements aussi
bien individuellement que par catgorie ou groupe dindividus.
Et quen est-il donc lorsque la signification, la porte, le contenu associs ces traces changent de
sens ? Car tous les codes voluent,
se cassent et se reconstruisent
une vitesse folle : langues, langages, codes informatiques, codes
culturels, les strotypes, le fonctionnement en tribu de communauts qui se font et se dfont.
Quelle valeur et quelle validit dans
le temps peuvent avoir les prdictions ainsi constitues ? A chaque
modlisation et chaque algorithme
sont associes des hypothses quil
convient de (re)prciser, des paramtres intrinsquement volutifs quil
convient de rajuster, qui mettent
en scne des donnes collectes
dans un contexte trs spcifique.

et des femmes bel et bien vivants,


avec notre quotidien, nos motions,
nos valeurs et nos rves.
Que portent donc ces fameuses
Data, devenues Big ? Imaginer,
concevoir, modliser, implmenter
et aussi observer. Observer pour (re)
trouver le sens et souvrir vers de nouvelles inspirations. Prendre en compte
lampleur de cette priode que nous
traversons, certes une priode de
crise permanente mais aussi fabuleuse car porteuse de tant davenirs
potentiels. Lampleur de cette rvolution que nous sommes en train de
vivre et dans laquelle aujourdhui
nous avons la possibilit et lambition
de redevenir partie prenante.
Alors, je dis oui aux big data !
Hackons ensemble, et que ce soit
pour le meilleur !

Il convient donc aussi de mettre


lpreuve de manire continue les
comportements ainsi modliss. Cela
revient modliser de manire dynamique lvolution des algorithmes
pour tendre les rendre intelligents.
Pour autantnous vivons dans un
monde rel. Augment ? Souvent.
Connect ? De plus en plus. Mais
dans un monde qui est toujours bel et
bien rel. Nous sommes des hommes

14

Copyright

Date de parution: dcembre 2014

15

PARTIE I

LE BIG DATA :
POURQUOI PARLER
DE RVOLUTION ?

Depuis des annes, les mathmaticiens laborent des modles mathmatiques pour faire parler des jeux
de donnes. Cela commence par
un simple modle statistique, bas
sur un jeu de quelques informations,
un modle prdictif labor, bas
sur des milliards de donnes, permettant de prvoir demain quelle rgion
du monde sera la plus touche par
une maladie ou comment rguler le
trafic pour viter les pics de pollution.

Outre la technologie mise en place,


laspect rvolutionnaire du Big Data
repose dans la multitude dapplications possibles, qui touche
tous les pans de notre socit. Les
ocans de donnes disponibles
sont au centre des choix stratgiques des organisations, alimentent
le dbat public (vie prive notamment) et modifient les comportements des individus (sant/bientre, gots culturels, vie sociale...).

Si le traitement de donnes massives existe depuis dj des dizaines


dannes, notamment dans les pratiques de marketing cibl utilises
par toutes les grandes entreprises
depuis leur fichier clients, pourquoi
le terme de rvolution est-il alors
tant employ aujourdhui ? Le Big
Data reprsente-t-il un vrai tournant,
et pour quels acteurs ? Sagirait-il
dune rvolution mathmatique,
technologique, politique et sociale ?

Cette premire partie a pour ambition de dfinir les facteurs qui font
que le Big Data peut tre considr
comme une rvolution aujourdhui.
Poser le postulat de cette rvolution
par la donne et son traitement exige
un travail de dfinition et de comprhension du concept de Big Data, souvent nglig par des discours marketing peu enclins sattarder sur cette
question. Quelle dfinition pour le Big
Data ? Quelles sont ses implications
tangibles ? Qui en sont les acteurs ?

Pour Henri Verdier, Administrateur


gnral des Donnes en France, la
rvolution de la donne que nous
traversons est le troisime acte de
la rvolution numrique6. Cette dernire a dbut dans les annes 1980
avec la rvolution informatique et
laugmentation fantastique de la
puissance de calcul des ordinateurs,
puis, partir des annes 1990, la rvolution Internet qui mit en rseau les
ordinateurs et, avec lavnement du
web 2.0, les humains du monde entier.
La rvolution de la donne sest
faite jour avec lintensification de
nos pratiques en ligne et la massification des capteurs, commencer par nos tlphones mobiles.

Copyright

Cest ce changement de paradigme qui nous permet de parler


de rvolution dans son sens le plus
strict : un bouleversement violent
dans notre perception du monde.
La valeur de linformatique tait de
crer des outils pour manipuler les
donnes puis dans la cration des
process qui manipulent ces outils.
Maintenant, on se rend compte que
la valeur se trouve dans la donne
elle-mme .
Galle Recourc, Directrice
Scientifique, Evercontact.

Date de parution: dcembre 2014

17

Big Data : dune dfinition


statique un procd
Demandez nimporte quel chief data officer de dfinir Big Data et il va se
mettre regarder ses chaussures. En ralit, il y a de forte chance pour que
vous obteniez autant de dfinitions diffrentes que le nombre de personnes
auxquelles vous poserez la question
MIT Review 7

Au cours des dernires annes, dfinir le terme "Big Data" sest rvl tre
un exercice prilleux. Quel est le critre de dfinition premier : le volume
de donnes traites ? Le logiciel de traitement de la donne ? La nature
des traitements qui leurs sont appliqus ?

i. La typologie des 3 V
Dans le maquis des dfinitions, les 3V
se distinguent comme le plus petit
dnominateur commun. Apparue
en 2001, elle est le fruit des analyses de Doug Laney, employ de

18

Gartner, dans son rapport 3D Data


Management: Controlling Data Volume, Velocity, and Variety 8. Omniprsente dans la littrature sur le
Big Data, elle identifie trois critres
dfinitionnels : le volume, la vitesse
et la varit des jeux de donnes.

(7) Big Data Gets Persona, MIT Review, Octobre 2013


(8) Cabinet Gartner, Janvier 2012, http://blogues.gartner.com/doug-laney/files/2012/01ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

Copyright

Date de parution: dcembre 2014

Volume

de manipuler de larges volumes


de donnes (Volume), possiblement disparates (Varit), ncessitant ou non dtre manipules en
temps rel (Vlocit). Selon le besoin, on va privilgier tel ou tel module de notre plate-forme, pour optimiser le traitement des donnes.

Le volume de donnes trait est


considr comme le premier critre pour quun ensemble de donnes relve du Big Data. Pourtant,
ce premier V est le moins oprant et
le plus variable en fonction du secteur et de lorganisation concerns
: o faut-il placer le curseur ? Peuton parler de seuil au dessus duquel
on entrerait dans le monde du Big
Data ? Pour Florian Douetteau, fondateur de Dataiku, ce critre confine
au non-sens : Jongler entre pta et
tra octet, aprs tout, il ny a quun
facteur mille entre les deux ... ! .

Ainsi, la vlocit est cruciale quand


il sagit de scorer un visiteur lors de
son parcours sur site, pour nourrir
les plate-formes de ciblage publicitaires ; a contrario, on privilgiera la capacit traiter en fort volume des donnes varies, quand
il sagit danalyser froid la valeur
lifetime dun client, ou de croiser
les parcours digitaux avec la base
CRM dun client pour affiner le risque
dattrition de sa base client .9 De
plus, la problmatique du seuil se
pose aussi pour ce deuxime critre.

Vitesse (Velocity)

Varit

Ce critre de vitesse renvoie la facult de traiter les jeux de donnes


en un temps record, voire, le plus
souvent, en temps rel. Cela permet
de crer des services directement
fonds sur les interactions prsentes.
Pourtant, parmi les organisations qui
traitent du Big Data, toutes noffrent
pas cette instantanit ou nen ont
tout simplement pas besoin : Nous
disposons dune plate-forme de mining propritaire qui nous permet

La varit des donnes traites est


un enjeu singulier au Big Data et incarne par l un critre important
de leur dfinition. La diversit des
sources et des formats des jeux de
donnes reprsente un vritable dfi
technologique. titre dexemple, le
CRM customer relationship management, gestion de la relation client
dune entreprise peut contenir des
donnes issues des rseaux sociaux,
des cartes de fidlit physiques ain-

(9) Entretien avec Arnaud Massonnie, Co-fondateur et Directeur Gnral de lagence fifty-five

Copyright

Date de parution: dcembre 2014

19

si que de linteraction en magasin.


Agrger ces donnes pour les traiter ensemble est la premire difficult que rencontrent entreprises
et organisations et souligne lenjeu
primordial de linteroprabilit des
donnes. La suggestion du cabinet
NewVantage Partners de remplacer le terme Big Data par Mashup
Data est cet gard trs significatif10.

Valeur et Vracit ?
En outre, il est frquent de voir la dfinition des 3 V complte par un 4me
voire un 5me V, pour vracit, qui
recouvre la prcision et lexactitude
des donnes, et valeur, portant son
attention sur la capacit intrinsque
de la donne de crer de la valeur.

ii. Big Data : un concept


large aux diffrentes
acceptions
La terminologie et les frontires du
Big Data sont floues parce que ce
concept connat des champs dapplications trs diffrente - Romain Lacombe, Charg de linnovation et du
dveloppement de la mission Etalab
Sant, sport, ressources humaines,
transports urbains : comme mode
opratoire, le Big Data recouvre une

20

multitude de ralits - ce qui, pour


certains acteurs, rend leur dfinition
complexe. Dans son rapport en mai
2011, McKinsey crivait : Il est important de noter que la dfinition peut
varier par secteur, en fonction de
quels types de logiciels sont disponibles et de la taille des jeux de donnes dans telle ou telle industrie .
Cette difficult dfinir ce quest
le Big Data provient de la diversit
des acteurs qui se sont empars de
cette expression. Chaque dfinition
est ainsi colore diffremment en
fonction dobjectifs et dintrts11.
Ainsi, il nest pas surprenant de
constater que la dfinition dOracle
met laccent sur linfrastructure
qui constitue le cur de son activit : Le Big Data est le rsultat
de lexploitation dune base de
donnes
traditionnelle,
enrichie
par des donnes non structures.
De la mme manire, Intel fonde la
sienne sur son exprience avec ses
clients : Les opportunits offertes par
le Big Data sont issues des organisations gnrant environ 300 terabytes
de donnes par semaine. Le type
le plus rpandu de donnes analyses de cette faon sont les transactions commerciales, suivies des
documents, emails, donnes capteur, blogues et medias sociaux.
Microsoft, quant lui, insiste sur le
besoin en puissance de calcul : Big
Data est le terme de plus en plus employ pour dcrire le processus qui
applique la puissance informatique
: machine learning et intelligence
artificielle un jeu massif et souvent trs complexe dinformations .

(10) Big Data Executive Survey, 2013, Cabinet NVP, http://newvantage.com/wp-content/uploads/2012/12/NVP-BigData-Survey-Themes-Trends.pdf


(11) Dfinitions collectes dans Undefined By Data: A Survey of Big Data Definitions, Jonathan Stuart Ward and Adam
Barker, School of Computer Science at University of St Andrews, UK, Octobre 2013, p.1

Copyright

Date de parution: dcembre 2014

iii. Le Big Data : la dfinition


par le procd
Les deux points prcdents illustrent
la difficult dfinir le Big Data
comme un fait statique. Pour mieux
apprhender la notion, il conviendrait de distinguer ce qui est nouveau nombre de donnes et nouvelles opportunits technologiques
de ce qui ne lest pas : son principe
de fonctionnement.
Un fonctionnement traditionnel en
trois temps
On peut dfinir le Big Data comme
un processus de traitement de
la donne qui comporterait trois
tapes : collection, agrgation et
analyse. Ce nest qu travers ces
trois actions que des ensembles de
donnes, si vastes et vloces soientils, deviennent du Big Data.
La collection des donnes
Construire une base de donnes
ncessite de rcolter une multitudes dinformations gnres tant
par la navigation en ligne (du clic
au surlignage dun texte), les objets
connects de notre quotidien, les organisations publiques ou prives qui
librent des jeux de donnes (Open
Data), etc.
Agrgation
Lobjectif est de prparer une base
de donnes oprationnelles partir de donnes initialement ht-

rognes et non exploitables telles


quelles. Cette tape est essentielle car elle conditionne le travail danalyse : seules des donnes
nettoyes et cohrentes peuvent
dlivrer du sens. Lagrgation de
donnes provenant de sources diffrentes constitue le dfi majeur.
Analyse
ce stade, les donnes sont interoprables entre elles et prtes tre
analyses. Les applications Big Data
varient naturellement dun secteur
et dun acteur lautre. On peut
distinguer trois utilisations majeures12 :

Dtecter et optimiser : Lafflux et le


croisement de donnes en temps
rel permettent une comprhension
fine de lenvironnement. La prise de
dcision est facilite et les activits
peuvent tre pilotes plus efficacement.
Tracer et cibler : La granularit des
donnes analyses autorise la dcouverte et le suivi un niveau trs
fin, par exemple lindividu dans le
cadre dune population dun pays.
Prvoir et prdire : Les vastes donnes disponibles sur un phnomne
ou une population permettent de
construire des modles prdictifs.
Leurs capacits sont puissantes mais
prsentent des limites dans lanticipation de phnomnes nouveaux.
Ce fonctionnement sinscrit dans les
pas du datawarehousing une technique vieille de plus de trente ans (cf
encadr).

(12) Institut de lEntreprise, Faire entrer la France dans la 3me Rvolution Industrielle, Mai 2014, p.19

Copyright

Date de parution: dcembre 2014

21

Nouvelles donnes,
anciennes techniques ?

Quest ce que le datawarehouse ?


Un datawarehouse (ou entrept de donnes) est un serveur
informatique dans lequel est centralis un volume important
de donnes consolides partir des diffrentes sources de
renseignements d'une entreprise. L'organisation des donnes est conue pour que les personnes intresses aient
accs rapidement et sous forme synthtique l'information
stratgique dont elles ont besoin pour la prise de dcision.
Le datawarehouse sest dvelopp tout au long des annes
1980 simultanment lessor de linformatique dans le monde
de lentreprise. La principale diffrence entre le datawarehouse et les Big Data ne reside pas dans le fonctionnement
mais plutt dans le volume et la complexit des donnes traites. Le Big Data renvoie ainsi aux jeux de donnes dont le volume dpasse les capacits de collecte du datawarehousing.
On peut mme remonter lorigine du Big Data encore plus
en arrire. En effet, si les progrs technologiques dans le
stockage et le traitement des donnes ont permis lmergence du Big Data, les analyses qui en sont dduites
restent en partie fondes sur des techniques statistiques anciennes. Pour Christophe Benavent, chercheur en marketing Paris-10 et membre de notre panel, une partie Big
Data nest quune industrialisation du thorme de Bayes
(ndlr: thorme fondateur de la statistique formul en 1761).
Il y a confusion entre les diffrentes tapes du traitement des
ensembles Big Data : Les pratiques corrlatives et prdictives
sur les bases de donnes sont employes depuis plusieurs dcennies voire plusieurs sicles. Ce qui change rellement, cest
le volume de donnes traites et comment elles sont agrges.
, Samuel Gota, doctorant Tlcom ParisTech - Sociologie
de la production et de la libration de donnes publiques.

22

Copyright

Date de parution: dcembre 2014

Big Data = big bang ou big bluff?


Le Big Data, cest avant tout le marketing qui nous dit : il
y a de la valeur exploiter les donnes disponibles .
Arnaud Massonnie, Co-fondateur et Directeur Gnral de
lagence fifty-five
Linnovation du Big Data est difficile cerner. Son fonctionnement sinscrit dans celui de techniques plus anciennes. Il est
galement difficile de dlimiter une dfinition prcise du Big
Data. On peut alors se demander si cette rvolution ne serait
quen ralit un phnomne marketing qui comme une bulle
retomberait dans peu de temps. Les entreprises sont de plus en
plus nombreuses saisir lintrt danalyser les donnes clients.
Mais cette prise de conscience consiste-elle en soi une rvolution indite ? Il semblerait plutt que cet actuel tat desprit
des dpartements marketing drive de la ncessit des entreprises de crer de lattraction autour de projets nouveaux
comme le souligne Arnaud Massonnie, Le marketing sest
empar du sujet de lexploitation des donnes et a rinvent
des choses existantes pour vendre linnovation, la rupture
. In fine, derrire le terme Big Data, il sagit essentiellement
de savoir valoriser et explorer son patrimoine data, au service
de lexprience client ou de la performance oprationnelle. .
Pour un certain nombre de penseurs du numrique, le pouvoir
transformateur du Big Data est une idologie ou un phnomne de mode. Sans nier la ralit des chiffres, ils adoptent
une posture critique qui fournit une base thorique lemballement mdiatique autour du Big Data, et un contrepoint intressant dans la littrature foisonnante sur le sujet
Clyde Thompson de Wired, dcrit son ouvrage Smarter Than You
Think linfluence du biais de la nouveaut dans lapprhension des technologies innovantes. Il explique que les contemporains de lapparition dune technologie tendent toujours
perdre le recul ncessaire pour juger le potentiel dune technologie. Rien de surprenant donc ce que les analystes rivalisent de milliards de dollars pour estimer le poids du Big Data.
O se cache la rvolution du Big Data ? Sceptiques ou non, le
constat de lentre dans lre de la donne massive est unanime. Il convient alors didentifier et de comprendre les leviers
de cette transition vers une socit o de plus en plus de faits deviennent des informations valoriser dans des bases de donnes .
Deux facteurs convergent : dune part, nos comportements
et notre environnement produisent plus de donnes que jamais, et dautre part, nous disposons de la technologie ncessaire pour stocker et analyser ces ocans de donnes.

Copyright

Date de parution: dcembre 2014

23

Big Data :
en quoi est-il rvolutionnaire ?
Les progrs technologiques ont rduit le cot de crer, capturer, analyser
et stocker de linformation au sixime de ce quil tait.
Rapport Podesta 14

i. La rvolution par la technique


Les progrs techniques et la baisse des prix associe dans la gestion de la
donne sont les premiers facteurs dmergence du Big Data. Ces progrs concernent la fois les logiciels de traitement de donnes et larchitecture informatique ncessaire son transit et son stockage.

Le tera data existe dj depuis trs longtemps car nous avons toujours
stock les donnes. Ce qui fait un projet Big Data, cest la technologie
que lon utilise. Avec ces technologies, ce qui change, cest la puissance
et la rapidit du calcul qui nous permet dtre davantage time to market
et de capter de faon plus automatique les comportements clients.
Ekbel Bouzgarrou, Chief Technologie Officier, Air France KLM

(14) Rapport Big Data: seizing opportunities, preserving values, Executive Office of the President, Mai 2014 http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf

24

Copyright

Date de parution: dcembre 2014

Une architecture agile : le cloud


computing
Avant la popularisation de linformatique dans les nuages, les donnes
taient rattaches lentrept de
donnes (datawarehouse) dans lequel elles taient stockes. Ainsi, au
sein dune entreprise ou dune organisation, chaque dpartement possdait son propre silo de donnes et
il tait ncessaire de relier physiquement les entrepts de donnes pour
les mutualiser. Aujourdhui, le cloud
computing stocke les donnes en
ligne et les rend ainsi accessibles
sans contrainte de lieu ni de temps.
Cette dmatrialisation du stockage
de donnes constitue la premire
couche technologique indispensable pour le traitement Big Data.
Un tiers des donnes seront stockes dans le cloud dici 202015, selon Stphane Grumbach de lINRIA.
Pour que les donnes donnent lieu
des opportunits innovantes, il est ncessaire de disposer dimportantes
capacits de calcul. Or, ces moyens
sont principalement disponibles dans
de grands data centers. Le cloud
computing permet de dpasser
cette difficult en louant puissance
de calcul et espace de stockage. En
effet, peu dentreprises et dorganisations possdent linfrastructure
ncessaire pour traiter du Big Data.
Le cloud computing permet deux
grandes innovations. Tout dabord,
une dmocratisation du Big Data.
Cette innovation devient accessible des PME ou aux acteurs peu

familiers du traitement de donnes.


Mais surtout, le cloud permet lanalyse de ces donnes en temps rel.
Lcosystme Hadoop : clef dentre dans le monde du Big Data
Pour Samuel Gota, doctorant Tlcom ParisTech, Avec le NoSQL,
Hadoop est le point de dpart technologique Big Data . Hadoop a
t cr en 2004 par Doug Cutting
qui voulait agrandir la taille de lindex de son moteur Open Source
Nutch. Le terme ne dsigne pas un
logiciel particulier mais un environnement technologique dont le but
est de raliser des traitements sur
des volumes massifs de donnes.
Son fonctionnement se base sur le
principe des grilles de calcul : rpartir lexcution dun traitement sur
des grappes de serveurs cest--dire
plusieurs ordinateurs indpendants.
La grande innovation de Hadoop
rside dans cette distribution de linformation. Les architectures plus traditionnelles adossent le traitement
de donnes une grappe unique.
Ltude de linstitut IDC16 souligne
que lcrasante majorit (98 %) des
entreprises portant des projets Big
Data ont recourt Hadoop. Nanmoins, le prix pour la migration de
ses bases de donnes sur Hadoop
reste un frein : 45 % des entreprises
interroges ont d dpenser entre
$100.000 et $500.000 et 30 % dentre
elles, plus de $500.000. Troquer une
architecture base sur un entrept
de donnes pour un projet Hadoop

(15) Stphane Grumbach, Big Data, the global imbalance, octobre 2012 ; www.fr.slideshare.net/slidesharefing/
lift12fr-stephane-grumbach
(16) http://www.redhat.com/rhecm/rest-rhecm/jcr/repository/collaboration/sites%20content/live/redhat/web-cabinet/static-files/library-assets/Trends%20in%20enterprise%20Hadoop%20deployments

Copyright

Date de parution: dcembre 2014

25

reprsente donc un cot elev.


Nanmoins, cette dernire technologie est en moyenne cinq fois
moins chre quun datawarehouse
classique. Ce chiffre comprenant
le matriel, le logiciel et le dploiement de linfrastructure. Sans compter quune plateforme Big Data
stocke environ cinq fois plus dinformations quun datawarehouse traditionnel. Aux donnes de ventes,
sont en effet associes toutes les
informations relatives aux comportements des clients en magasin, sur
le web ou les rseaux sociaux, etc.

Chiffre cl :
15 minutes : cest le temps
que met dsormais Suravenir Assurances, du Crdit Mutuel, pour simuler
les sommes provisionner sur trente ans pour
ses quelques deux millions
demprunteurs, grce aux
technologies
Hadoop.
Hier, il fallait 24 heures pour
ce mme calcul.

En fin de processus de lanalyse du


Big Data, grce Map Reduce,
lanalyse des rsultats prend la forme
de tableaux de bord, de reporting
ou de graphiques qui refltent les
interactions ou les corrlations entre
les donnes. Linterprtation de
ces sorties passe alors par ladoption dun raisonnement prdictif :
cest l le changement majeur opr par les technologies Big Data.
Une structuration spcifique des
bases de donnes : le NoSQL
Le NoSQL (Not only SQL) est un type
de systmes de gestion de base
de donnes (SGBD). Leur fonction
est de manier un grand volume
de donnes et une plus grande
chelle (habilit dun produit rpondre une mutation dordre
de grandeur de la demande).

Map reduce :
larchitecture analytique
Hadoop est compos dune architecture de dveloppement ddie
aux calculs parallles et distribus,

26

nomme
MapReduce.
Modle
de programmation, elle permet la
manipulation des donnes en trs
grande quantit, distribues sur le
cluster de nuds de serveurs qui
composent larchitecture de la solution Big Data dploye. Cest ainsi que des donnes non structures
peuvent faire lobjet dun traitement
analytique et que cette dcoupe
en blocs acclre le traitement,
jusqu se rapprocher du temps rel.

Leur grande innovation est de


pouvoir contenir des donnes htrognes. En effet, le NoSQL se
distingue des SGBD relationnelles
(SGBDR) qui sont construits pour
stocker des donnes normalises :

(17) http://www.zdnet.fr/actualites/quelle-est-l-activite-sur-internet-en-1-minute-39763269.htm
(18) http://www.liberation.fr/economie/2013/11/03/15-milliards-d-objets-connectes-et-moi(19) http://www.lesnumeriques.com/video-poids-lourd-reseau-n9201.html

Copyright

Date de parution: dcembre 2014

emoi_944254

les champs et les relations entre les


tables respectent le mme modle.
Le NoSQL est majoritairement utilis
par les sites grand trafic ou par des
rseaux sociaux comme Facebook
ou Twitter. Apparu la fin des annes 2000 aux Etats-Unis, le NoSQL a
perfectionn les analyses en temps
rel, les statistiques et les capacits
de stockage. Ce type de base de
donnes permet de soutenir la volumtrie trs importante du Big Data.

ii. La mise en donne du monde

messages instantans sur Facebook.


Ce dernier soccupe galement de
la gestion de 50 milliards de photos17.
2) Les objets connects
Selon
la
Commission
europenne, un Europen dispose en
moyenne de deux objets connects en 2012. En 2015, il en disposera sept. En 2020, il y aurait entre 30
et 80 milliards de nouveaux objets connects dans le monde18.
3) Les technologies mobiles

Le Big Data est n de lexplosion


de linformation disponible
Galle Recourc,
Directrice scientifique, Evercontact
Au del dun volume gigantesque,
cest la diversit des sources de donnes qui donne au Big Data toute
son ampleur. Deux leviers principaux
soutiennent cette croissance de la
production de donnes : leffacement de la frontire entre comportements online et offline et la mise
disposition des donnes publiques.
On identifie aujourdhui quatre
grands facteurs responsables de lexplosion de la production de donnes
par nos comportements connects.
1) Les rseaux sociaux
A chaque minute coule, on
compte sur internet au niveau mondial : 98 000 tweets, 695 000 mises
jour de statuts et onze millions de

On considre quun smartphone gnre environ 60 gigabytes chaque


anne. Si on multiplie ce chiffre par
le nombre de smartphones dans le
monde soit environ un milliard, on
obtient une production de donnes
par an de 56 exabytes soit la totalit de la bande passante consomme en 2013, dans le monde19.
Le terme Big Data prend alors tout
son sens. En 2018, les prvisions estiment quil y aura 3,3 milliards de
smartphones dans le monde20.
4) Les comportements numriques
scruts, analyss et stocks
A chaque minute coule, on
compte sur Internet 700 000 recherches Google, 12 000 annonces
sur Craigslist, 600 nouvelles vidos
Youtube et 1 500 articles de blogues
21
. Selon IDC, on comptera en 2016
dans le monde plus de deux milliards
dordinateurs connects Internet22.

(20) http://www.lefigaro.fr/flash-eco/2013/03/08/97002-20130308FILWWW00351-33-milliards-de-smartphones-en-2018.php
(21) ibid rfrence 17
(22) http://pro.01net.com/editorial/562702/pres-de-deux-milliards-dordinateurs-connectes-dici-2016/

Copyright

Date de parution: dcembre 2014

27

Pdg
dimage & dialogue group

Une des application du Big Data


consiste recueillir et analyser en temps
rel des milliers de donnes diffuse sur
Internet

Olivier Gurin

Les outils Big Data


marquent-ils la fin des
sondages dopinion
classiques ?
Pour comprendre lopinion, pourquoi aller interroger des personnes,
effectuer des enqutes longues et
coteuses, parfois biaises par la
forme de lenqute alors quil suffit
de simplement rcolter et analyser
les milliers davis publis spontanment et gratuitement sur le web 2.0 ?
Cette analyse de lopinion sur Internet offre de nombreuses opportunits
tant pour la communication dune
organisation ou dune marque, que
pour la sphre civile ou journalistique.
Aujourdhui, il y a deux manires de
procder pour recueillir et analyser
les opinions.

Copyright

- Dun ct les analyses quantitatives


et qualitatives des contenus publis
sur le web partir du Text Mining
qui va permettre danalyser la volumtrie, les thmatiques, la tonalit
et les sentiments exprims au sujet
dune organisation, dune marque,
dune personnalit ou dun produit.
- De lautre ct, la technique, souvent trs pertinente dans la mise en
uvre de stratgies dinfluence,
celle du Link-Mining qui va permettre didentifier (ou non) une
communaut dintrt sur un sujet,
de cartographier cette communaut pour mieux comprendre les
diffrentes opinions exprimes, les
suiveurs , contributeurs et influenceurs de cette communaut.
Attention, de trs nombreux logiciels
dits de-rputation se vantent
doprer de telles analyses, mais
souvent aux travers de mthodologies ou dalgorithmes peu fiables.

Date de parution: dcembre 2014

29

Avec lanalyse de cette masse de donnes haute valeur


ajoute, nous pouvons aller plus loin, dans la mesure o ces
donnes sont traites en temps rel. En effet, il est possible,
au sein de lnorme bruit gnr par les milliers de conversations, de dtecter les signaux faibles, cest--dire, linformation qui va prendre de limportance rapidement voire
mme gnrer du buzz et parfois, des crises. Cest, bien
entendu, un moyen de mesurer la notorit ou linfluence
dune entit sur internet mais surtout au sein dun environnement, dune communaut et auprs dinfluenceurs.
Ce lien permanent hyper personnalis et en temps rel
avec lopinion est en train de bouleverser les stratgies et lorganisation des organisations en les obligeant
revoir leurs modles, leurs produits et leurs services.
Enfin, un cran plus loin, nous pouvons entreprendre dextrapoler voire de faire du prdictif bas sur ces millions
de donnes. Avec le think tank Renaissance Numrique,
image & dialogue group a men de telles analyses lors
des dernires lections europennes et municipales. En
avril-mai 2014, en recueillant les propos de 145 candidats
aux Europennes, il apparaissait dj que le Front National remportait un cho trs important. Le dcoupage
gographique de nos donnes permettait galement
de prdire, plusieurs semaines avant les lections, le trs
fort impact rencontr par ce parti dans certaines rgions.

30

Copyright

Date de parution: dcembre 2014

Leffacement de la frontire entre


comportements online et offline
Tout dabord, parce que les individus connectent de plus en plus
leur quotidien et gnrent par l
mme de plus en plus de donnes
facilement exploitables. Ainsi, chacune de nos actions en ligne, du
clic au temps parcouru sur une
page, des images ou commentaires posts sur les rseaux sociaux,
produit une multitude de donnes.
De plus, les objets connects et les
capteurs intelligents font exploser les
compteurs en transmettant un flux
permanent de donnes. Les voitures,
llectromnager domestique, les
vtements et le mobilier urbain deviendront des sources inextinguibles
de donnes. Pour Jean-Luc Errant,
directeur de CityzenSciences, dici
2020, les objets connectes seront
le principal adjuvant du Big Data

En 2013, dans son rapport annuel23,


la socit Ericsson annonait que
le nombre dabonnements avec
un smartphone tait de 1,1 milliard
fin 2012 et [] quil atteindra 3,3
milliards dici la fin 2018 . Que
ce soit lenvoi dun message, lutilisation dune application, une recherche sur Internet, un coup de fil,
un email, une photo ou une vido
partage ou tlcharge le smartphone gnre et stocke une masse
de donnes trs importante qui peut
avoir un intrt pour une quantit
infinie de services : gestion des flux
automobiles, offres commerciales
spcialises Une utilisation bnfique est son usage par les autorits
mdicales en cas de pandmie. En
Afrique, des scientifiques utilisent ces
donnes pour dterminer lorigine
des foyers du paludisme et la localisation des individus malades. La finalit est alors doptimiser la logistique
et la distribution des traitements24.

(23) Ericsson, rapport annuel 2012 : Bringing the networked society to life
(24) http://m.technologyreview.com/featuredstory/513721/big-data-from-cheap-phones/

Copyright

Date de parution: dcembre 2014

31

Le traitement informatique
de la langue et de limage

La structuration de linformation vise transformer


le texte en langage informatique. Les linguistes-informaticiens dveloppent une grammaire de dtection qui structure linformation textuelle pour la
rendre comprhensible par une machine. Lentreprise Evercontact, par exemple, analyse les signatures des mails pour en extraire automatiquement
des fiches de contact. De la mme manire, dun
mail, dun tweet mais aussi dune image ou photo
poste sur un rseau social, il est possible dextraire
une donne quantifiable traduisant une motion,
un sentiment ou une satisfaction.

Il faut crer de lintelligence partir


des octets qui circulent
Galle Recourc,
directrice scientifique de Evercontact
Cette discipline, o la France possde une filire
dexcellence, participe la croissance exponentielle de la production de donnes. Elle permet
llaboration dune couche de services intelligents
o la donne cre est mise au service de lutilisateur.
Le web smantique (ou langage naturel ou encore le web de donnes) apparat aujourdhui
comme la nouvelle qute du Saint Graal des chercheurs en informatique. Il soppose au web actuel
dit syntaxique.
Cette volution consiste rendre le web intelligent
cest--dire que les informations ne seront plus seulement stockes mais galement comprises par les
ordinateurs. Le web smantique permettrait ainsi

32

Copyright

Date de parution: dcembre 2014

dagrger diffrentes donnes par exemple pour


une image : la localisation, la date, lidentit des
personnes y figurant, son auteur
Les possibilits de recherches seraient bien plus
nombreuses. Le web de donnes transformerait
galement dautres aspects : recherche intelligente, classement documentaire, e-commerce

Dans son article The Prose of the Machines 25 Will
Oremus sintresse lmergence des robots journalistes le terme de systmes-journalistes est plus
adquat. Yahoo ou le site de vente en ligne de
voiture Edmunds utilisent ces logiciels pour crire
respectivement des articles sur les rsultats de
football amricain et pour des descriptions dautomobiles.
Ces systmes ne remplaceront pas les journalistes
de sitt. Le cerveau humain semble pour linstant irremplaable pour lcriture darticles de
fond. Ces systmes ne parviennent pas non plus
adopter un ton humoristique. Ce qui spare ces
systmes des journalistes nest pas la qualit dcriture des machines, cest la qualit des donnes.
Plus les donnes sont riches et diversifies, plus les
systmes seront capables de fournir une analyse
fine.
Ils prsentent de nombreux intrts : ils peuvent
rdiger de courts articles sur des brves pour un
cot proche de zro, une fois le systme achet
et install. Le principal logiciel dcriture automatique Automated Insights a rdig plus de 300 millions textes en 2013 un rythme de 9.5 textes par
seconde. Lobjectif du groupe pour 2014 est de
tripler ce chiffre.

(25) Publi le 14 juillet 2014 sur Slate.com - http://www.slate.com/articles/technology/technology/2014/07/automated_insights_to_write_ap_


earnings_reports_why_robots_can_t_take_journalists.html

Copyright

Date de parution: dcembre 2014

33

La libration des donnes


LOpen Data constitue une autre
source de gisement de donnes.
Cette dynamique de libration des
donnes publiques est porte par
de
nombreuses
administrations.
Malgr de nombreux freins techniques et politiques, ce mouvement
reprsente une opportunit pour
obtenir de nouvelles donnes. Cependant, le volume de ces jeux de
donnes publiques reste faible relativement aux autres sources de
donnes dcrites prcdemment.
Pour Samuel Gota, doctorant Tlcom ParisTech, ce nest pas son
volume que lOpen data apporte au
Big Data mais la fiabilit : les donnes publiques deviennent des donnes de rfrence .
Guillaume, fondateur de LMP, startup en stratgie lectorale qui dveloppe des modles prdictifs, souligne que les donnes fournies par
lINSEE sont un carburant indispensable son activit : taLab a fait
un travail remarquable pour rendre
accessibles tous des milliers de
jeux de donnes .
La libration des donnes est un levier de croissance. En rendant accessibles certaines informations, des
entrepreneurs peuvent y identifier
une offre pas encore prsente sur
le march. Edouard Schlumberger
aprs un chec lexamen du permis de conduire, dcide de se rinscrire dans une nouvelle auto-cole.
Il contacte alors les prfectures de
police pour accder aux taux de
russite des diffrentes agences. Il

essuie de nombreux refus alors que


ces donnes doivent tre publiques.
Il saisit alors la Commission daccs aux documents administratifs
(CADA) pour obtenir enfin les informations quil recherchait. E.Schlumberger dcide alors en 2013 de crer
vroomvroom.fr, un site qui recense
le taux de russite de lensemble
des auto-coles franaises et qui
contre rmunration dveloppe
la visibilit de certaines dentre elles
sur le web. Lentrepreneur dclare:
LOpen Data, cest un produit dappel pour donner envie aux gens de
venir nous voir. Montiser la data
seule, a me parait compliqu. Ce
quil faut cest montiser la rsolution dune problmatique. La data,
cest un levier parmi dautres 26.
Les dbouchs de la libration des
donnes ne sont pas uniquement
conomiques. Elles peuvent galement tre politiques. La victoire
dObama en 2008 sexplique en
partie par le choix innovant de
son quipe de campagne de recruter de jeunes talents spcialiss
dans la collecte et lanalyse de donnes. Lquipe dmocrate utilisait
la technique du data-crunching, en
franais le croqu de donnes .
En sappuyant sur des systmes spcialiss dans le calcul (algorithmes)
de haute vitesse capables danalyser un grand volume de donnes,
le bureau de campagne dObama
parvenait identifier prcisment les
attentes de llectorat. En effet, le
croisement dinformations diverses
comme lge de llecteur, son origine ethnique, sa structure fami-

(26) http://lentreprise.lexpress.fr/open-data-liberer-les-donnees-mais-pour-quoi-faire_1534854.html#DdYzEouTCiE7Arm8.99

34

Copyright

Date de parution: dcembre 2014

liale, sa catgorie sociale permet


de dresser le modle de llecteur
moyen du secteur tudi. Obama
pouvait ainsi moduler et personnaliser son discours et rpondre au
mieux aux attentes des lecteurs.
Cette technique a galement permis un meilleur ciblage dans lorganisation de la rcolte de fonds ou dans
lidentification des lecteurs indcis.
Par ailleurs, dans sa politique mme,
en tant que Prsident des Etats-Unis,
Barack Obama a cherch donner une vraie impulsion au mouvement de la libration des donnes
par les administrations. En 2009, il a
demand aux organismes fdraux
de publier un maximum de donnes possibles et cr data.gov.
Ce site est pass de 47 ensembles
de donnes en 2009 prs de 450
000 provenant de 172 organismes au
moment de son 3me anniversaire
en juillet 2012.
expliquent
Viktor
Mayer-Schnberger et Kenneth Cukier27. Deux
startups amricaines illustrent les
dynamiques de march et de service quengendre lOpen data :
OPower , qui utilise des donnes
nergtiques et climatiques pour aider des familles rduire leur facture
dlectricit et de gaz, et iTriage
qui aide les Amricains choisir des
professionnels de sant correspondant leurs besoins prs de chez eux.

iii. Le principal dfi


technique : linteroprabilit

manire. Depuis les annes 1980, il


existe de nombreux outils de stockage de donnes dont les infrastructures ne sont pas identiques. Elles ne
sarticulent pas entre elles : on parle
alors dabsence dinteroprabilit.
Un des intrts du Big Data est le
croisement de donnes. Il serait par
exemple intressant de regarder la
relation entre le nombre daccidents
de la route et lusage des transports publics dans un secteur donn
pour observer sil existe un lien de
causalit entre les deux lments.
Si ces deux jeux de donnes disposent dinfrastructures diffrentes,
il est impossible dtudier cette relation en temps rel. Le grand dfi
relever pour que la rvolution du
Big Data rponde ses promesses
est de trouver une architecture interoprable travers notamment
ladoption de normes communes.
LOrganisation internationale de
la normalisation (ISO) et plus particulirement le Comit Technique
Commun sur les technologies de
linformation (JTC1) est en train de
dresser un tat des lieux afin davancer des solutions sur cette question. La publication de leurs travaux
na pas encore de date prvue.
Lenjeu de linteroprabilit ne dpend pas uniquement dune question de normes. Une des innovations
du Big Data est de pouvoir croiser
un trs grand nombre de jeux de
donnes provenant de bases clates. Le problme de lagrgation
et de lindexation se pose alors.

Les donnes sont l. Nanmoins, elles


nont pas t stockes de la mme

(27) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, mars 2013

Copyright

Date de parution: dcembre 2014

35

PARTIE II

Lalgorithme :
chef
dorchestre
de la rvolution
Big Data

Un des aspects de la rvolution Big Data, on la


vu, repose sur des technologies plus puissantes
et accessibles et de lexplosion du nombre de
donnes disponibles. Mais un autre moteur indispensable cette nouvelle donne est la puissance de formules mathmatiques permettant
de faire parler les donnes : les algorithmes.

Au dpart une simple formule statistique, les algorithmes permettent aujourdhui, partir dun
traitement de donnes consquent, dtablir des
modles corrlatifs qui prvoient et prviennent
des lments futurs.

Ainsi, au coeur du Big Data se trouve les algorithmes : tels des chefs dorchestre, ils mettent
en musique des jeux de donnes massifs. Ils ordonnent, trient, hirarchisent les gigantesques
bases de donnes, et les rendent intelligibles
via un modle de corrlation ou de prdiction.
Pour lutilisateur, ce sont eux qui transforment des
ocans de donnes en des services personnaliss
en temps rel.

Copyright

Date de parution: dcembre 2014

37

Comment construit-on
un algorithme ?
De gigantesques ramifications dans lesquelles se succdent des dcisions
binaires suivant une suite de rgles pr-tablies.
Christophe Steiner

i. Quest ce quun algorithme ?


Formule mathmatique, un algorithme dsigne initialement la suite de calculs
ncessaires pour effectuer une opration complexe. Aujourdhui lomniprsence du calcul informatique dans nos vies quotidiennes a largi cette dfinition une suite dinstructions et de processus requis pour raliser une tche,
explique Dominique Cardon, sociologue au sein du dpartement SENSE des
Orange Labs, et professeur associ lUniversit de Marne la Valle-Paris Est.

Christophe Steiner, auteur de Automate This: How Algorithms Came to Rule


Our World (non traduit en franais) dfinit les algorithmes comme des gigantesques ramifications dans lesquelles se succdent des dcisions binaires suivant une suite de rgles pr-tablies.

38

Copyright

Date de parution: dcembre 2014

Aujourdhui, les algorithmes de recherche, de recommandation ou


de suggestion structurent notre manire de naviguer sur Internet et
la nature mme du rseau. Appliqus une autre chelle, comme
celle de la ville, les algorithmes
permettent de rguler la circulation des transports en commun.

ii. Comment labore-t-on un


algorithme ?
Un algorithme trouve donc sa dfinition et sa formule dans sa finalit. Selon quil recommande, ordonne ou
dduit, il sera construit diffremment.
Construire un algorithme de
recommandation
Pour Thibaut Munier, fondateur de
1000mercis-numberly, Administrateur
de Renaissance Numrique, un algorithme de recommandation comme
celui dAmazon, qui conseille sur
le choix dun livre en fonction des
choix prcdents du consommateur, est compos de trois types de
calcul distincts qui correspondent
trois questions diffrentes. Il est tonnant de constater quel point ces
questions relvent du bon sens humain plus que du savoir scientifique :

Similarit
Quels sont les ouvrages qui abordent
une thmatique ou un genre similaire
louvrage choisi ?

Copyright

Complmentarit
Quels sont les ouvrages qui compltent louvrage choisi ?
Diversit
Au sein de cette thmatique, quels
sont les ouvrages les plus loigns
de louvrage choisi ? Pour fournir la
liste de recommandations finales,
ces trois questions fondamentales
sont pondres par les informations
disponibles sur lutilisateur (ge, localisation, habitude de lecture, notations dautres ouvrages).
Algorithme de prdiction
La puissance et la qualit dun algorithme drivent directement de
la qualit et de la quantit de donnes que nous pouvons collecter
Rand Hindi, fondateur de Snips.
Guillaume Liegey, fondateur du cabinet LMP, souligne que llaboration
de modles prdictifs se fait en deux
tapes :

Identifier les variables et rassembler les donnes pertinentes.


Celles-ci sont de natures diffrentes :
donnes publiques fournies par lINSEE sur les chiffres du chmage, les
donnes lectorales passes fournies par le ministre de lIntrieur et
les donnes politiques publiques ou
rcoltes sur le terrain (popularit du
gouvernement et notorit du candidat). Il est ensuite ncessaire de
nettoyer ces donnes : colmater les
trous, corriger les erreurs et assurer
leur interoprabilit.

Date de parution: dcembre 2014

39

Affecter les pondrations.


Selon les analyses escomptes,
toutes les donnes croises dans une
mme base ne recouvrent pas le
mme intrt, do la ncessit de
les pondrer. ce stade, lquipe
du cabinet LMP utilise des modles
de rgression pour estimer les pondrations de chaque variable
laide de logiciels comme Stata ou
MathLab. Les donnes de llection
prcdente sont rentres dans ce
nouvel algorithme et compares aux
rsultats connus : les pondrations
sont ensuite modifies jusqu ce
que les prdictions de lalgorithme
correspondent aux rsultats rels.

iii. Lalgorithme autonome


grce au machine
-learning ?
Aujourdhui, pour produire un algorithme intressant, les technologies
de machine-leaning doivent tre au
cur de son fonctionnement
Rand Hindi, fondateur de Snips.
Le machine learning est linnovation
mathmatique qui permet, une fois

40

Copyright

encore, de parler dune vritable rvolution par le Big Data. Lapprentissage automatique, ou machine-learning, est la discipline de lintelligence
artificielle qui vise dvelopper la
capacit des machines et des logiciels apprendre de leurs rsultats.
Les algorithmes utiliss pour dvelopper ces systmes permettent
un systme dadapter ses comportements et rponses de faon autonome, en fonction dune base de
donnes empiriques.
Pour reprendre lexemple prcdent
des campagnes lectorales, on parle
de machine-learning dans le cas o
lalgorithme rectifie tout seul les pondrations des donnes en fonction
du rsultat obtenu llection prcdente, et rectifie sa formule pour ne
pas rpter les inexactitudes repres
dans llection suivante. En dautres
termes, lalgorithme apprend et
se corrige de faon autonome.
Lapprentissage automatique entre
donc pleinement dans les stratgies
danalyse prdictives, puisquil considre que les corrlations entre les
jeux de donnes suffisent pour prvoir
les nouveaux modles appliquer.

Date de parution: dcembre 2014

41

Senior Data Scientist


chez Parkeon

En cole dingnieur, on apprend


aux tudiants les fondements de
la thorie de linformation. Rapidement, llve connat les trois
niveaux (donnes, information et
connaissance) ainsi que la transition entre ces concepts.

Mehdi Chouiten

Machine Learning
et valorisation
des donnes

En dehors du stockage et de laccessibilit des donnes, la forte


valeur cre par le Big Data rside dans linterprtation et lexploitation
de
ces
donnes.

De manire trs basique, une information peut tre vue comme linterprtation dune ou plusieurs donnes. La connaissance peut tre vue
comme linterprtation dune ou
plusieurs informations. Par exemple :
Pierre et Paul ont obtenu 9 et 8 respectivement lexamen de Machine
Learning = donnes 9 > 8 = information Pierre est meilleur que Paul en
Machine Learning = connaissance.

Une exploitation statistique de ces


donnes est souvent faite pour
analyser des situations, des comportements dutilisateurs, des paramtres qui impactent les donnes et, le cas chant, essayer
den dduire des rgles business.

Par ce petit exemple, on comprend aisment que les donnes


en elles-mmes sont dune utilit
trs limite. Leur intrt rside essentiellement dans lexploitation
que lon en fait. Le parallle peut
tre fait avec la matire premire
utilise pour la fabrication dun objet forte valeur ajoute technologique. La valeur dun smartphone
par exemple reprsente plusieurs milliers de fois celle du plastique et des
mtaux utiliss pour sa fabrication.

Copyright

Outre lexploitation classique offline


de ces donnes, les algorithmes de
Machine Learning permettent dincorporer lexploitation des donnes
de manire dynamique au systme
qui permettra dune part de prdire
des situations futures. Et, dans un
second temps adaptera automatiquement son fonctionnement ce
quil apprend non seulement des
donnes disposition ainsi que des
rgles business tablies manuellement par des experts du mtier.
Le fonctionnement typique dun systme dapprentissage se droule
en plusieurs tapes. Lobjectif est de

Date de parution: dcembre 2014

43

construire en premier lieu un modle bas sur des donnes connues


et valides. Ce modle sert comprendre quel est limpact des
diffrentes donnes sur un objectif dtermin (Etape 1 de la figure
ci-dessous). Par exemple : pour un client de site de e-commerce,
comment lge, le genre, le nombre damis inscrits sur le site, et le
pays de rsidence affectent son panier dachat moyen. Une fois le
modle constitu, il peut tre exploit pour prdire le panier dachat
moyen dun nouveau client (Etape 2 de la figure ci-dessous).
Enfin, en fonction dobjectifs atteindre et connaissant la manire
dont les donnes influent sur ces objectifs (rgles business), nous
pouvons dcider des actions mener.
Dans lexemple prcdent, nous pouvons par exemple dcider
de crer un systme de parrainage si nous remarquons que le
nombre damis inscrits sur le site affecte le panier dachat moyen.
Selon le cas, certaines de ces dcisions peuvent tre semi-automatises en mettant disposition dun algorithme, un jeu doprations
possibles associes des objectifs / contraintes (rgles business).
A titre dexemple, pour un gant du commerce en ligne, des
exemples de rgles business peuvent tre :
- Maximiser le revenu par client dans les pays o la part de march
est suprieure ou gale 10 %
- Maximiser les parrainages pour les pays o la part de march est
infrieure 10 %
- Quand les surfaces de stockage sont remplies 80%, minimiser
pour chaque produit la variable (temps de stockage * surface occupe)

Figure 1. Processus typique dapprentissage,


dexploitation des donnes et cration de valeur

Dans un systme disposant de suffisamment de donnes, il est imaginable de se projeter dans une solution ne contenant que lobjectif atteindre et o les rgles mtier sont elles-mmes dduites par
le systme. Aujourdhui, ce sont ces rgles qui ncessitent le plus de
temps et de ressources humaines (data analysts notamment). Les
algorithmes et concepts mathmatiques utiliss pour la prdiction
sont trs similaires dune tche lautre. Cest notamment la dfinition des objectifs et des contraintes qui savre tre la tche la
plus complexe.

44

Copyright

Date de parution: dcembre 2014

1
Mach. Learn
Apprentissage

Modles

Donnes passes
connues

Donnes
incompltes

Mach. Learn
Prdiction

Donnes
prvisionnelles

3
Rgles
mtier

Jeu
doprations

Mach. Learn
Dcision
/Action

Actions
mener
Nouvelles
prvisions
optimises

valeur
cre

Pour les chercheurs en Machine Learning, le Saint Graal serait de


disposer - la manire des tissus crbraux humains - dalgorithmes
gnriques qui sadaptent chaque tche et dmontrent une capacit identifier delles-mmes les features les plus pertinentes
pour la russite dun objectif.
En effet, un cerveau humain est capable dapprendre en
utilisant les mmes tissus, distinguer une moto dun vlo
(tche et features visuelles) aussi bien quil peut distinguer une voix dun bruit tiers (tche et features sonores).
Les chercheurs poursuivant cet objectif appellent cela le
Deep Learning. Au-del du Buzzword, les applications sont
infinies. Bien que le deep learning nen soit qu ses balbutiements, il est dj appliqu par Google (notamment dans
la classification dimages par le contenu et non plus uniquement en se basant sur les mots cls prsents sur la page).

Copyright

Date de parution: dcembre 2014

45

Vers Lalgorithmisation
du monde ?
Si vous tudiez un systme dinformations sans tenir compte de sa structure,
ses rseaux et ses composantes, vous passez ct de dimensions essentielles : qui relvent de lesthtique, la justice et linnovation
Susan Leighn

Lagencement de notre fil Facebook, les recommandations dachats Amazon


ou bien le Page Rank Google sont autant dexemples quotidiens qui mettent
en lumire la place des algorithmes pour slectionner linformation laquelle
nous avons accs (dans un modle corrlatif) et ordonner lordre des choses
venir (dans un modle prdictif).
La puissance de ces formules mathmatiques invite sinterroger sur le primtre leur accorder dans lagencement du monde par lhumain. Si un algorithme peut grer mathmatiquement les flux des transports urbains, faire
baisser la criminalit et la pollution, alors quelle est la place du maire dans la
ville intelligente ?

46

(28) http://peerproduction.net/issues/issue-1/peer-reviewed-papers/caring-about-the-plumbing/
(29) Bruno Latour, La Vie de laboratoire : la Production des faits scientifiques), 1988
(30) http://www.framablogue.org/index.php/post/2010/05/22/code-is-law-lessig
(31) Dominique Cardon, revue Rseaux, Politiques des algorithmes, numro 177, http://www.cairn.info/revue-reseaux-2013-1-page-9.htm#no2

Copyright

Date de parution: dcembre 2014

i. Lalgorithme : une
construction humaine
et politique
Si vous tudiez un systme dinformations sans tenir compte de sa
structure, ses rseaux et ses composantes, vous passez ct de
dimensions essentielles : qui relvent de lesthtique, la justice
et linnovation 28 - Susan Leigh
Avant mme la naissance dInternet,
Bruno Latour affirmait que la structuration dun systme dinformation
tait de la politique par dautres
moyens 29. En 2001, Lawrence Lessing, dans son clbre article de
Code is Law , insistait sur la puissance
rgulatrice du code dans la manire
dont nous vivons le cyberespace 30.

En dcidant de ce qui doit tre vu,


ils encouragent ou dcouragent la
confrontation et la discussion, participent la construction de lagenda
public et slectionnent les bons interlocuteurs 31.
Pour Ted Striphas, auteur The Late
Age of Print, la personnalisation
des contenus proposs sur Internet
grce aux algorithmes de recommandation, reprsente un changement dcisif dans la culture occidentale. Pour lui, la massification des
algorithmes dans la programmation
culturelle tend crer une culture
algorithmique . Cest bien lessence
mme des activits culturelles qui
est remise en question : le choix
et la hirarchisation des hommes,
des uvres et des ides 33.

Aujourdhui, cette question de la


construction humaine et politique
de lalgorithme se pose avec plus
dintensit parce que les algorithmes
ont pntr de nombreux domaines
de notre vie quotidienne et structurent notre accs linformation.

Sur ce point, lexprience de Netflix est clairante : la plateforme de


diffusion a segment son public en
76 897 micro-genres cinmatographiques, tels que films daction et
daventure violents et suspens des
annes 1980 ou encore comdies
romantiques propos de mariages
ayant remportes des Oscars 34.

Dun ct, lapproche algorithmique


est une ncessit pour rendre intelligible la masse dinformations disponibles, de lautre, utilise mauvais
escient, elle peut orienter compltement la connaissance et donc la
dcision dun individu. En effet, les
algorithmes dcident de ce qui est
pertinent ou non pour lutilisateur. De
fait, ils dterminent dans le cas dun
moteur de recherche par exemple,
ce qui doit tre vu et ce qui doit rester cach, ou dans le cas dun algorithme prdictif, ce qui doit advenir
ou non. Pour Dominique Cardon, ce
pouvoir est minemment politique :

Plus encore, sa srie succs, House


of Cards, a t produite en fonction
des donnes des expriences culturelles de ses utilisateurs35. Le scnario
et le casting dHouse of Cards sont
une compilation des prfrences de
ses utilisateurs analyse sous le crible
du Big Data : la srie est une reprise
dune srie britannique succs des
annes 1990 produite par la BBC. Les
donnes de Netflix ont pu lier les gots
de ses utilisateurs pour ce drame politique avec un intrt pour les films raliss par David Fincher ou ceux dans
lesquels joue lacteur Kevin Spacey.

(32) https://medium.com/futurists-views/algorithmic-culture-culture-now-has-two-audiences-people-and-machines2bdaa404f643
(33) Ibid
(34) http://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
(35) http://rebellionlab.com/is-big-data-the-future-starting-point-of-creation/

Copyright

Date de parution: dcembre 2014

47

48

thique de la dcision l're de l'algorithme : un robot a-t-il le droit de


vie ou de mort ?
Dans son ouvrage Thorie du Drone36, Grgoire Chamayou donne un exemple extrme du pouvoir des algorithmes. Ce sont des algorithmes qui ont dtermin
les cibles des drones amricains la frontire du Pakistan et de lAfghanistan en scannant les communications des habitants et en valuant ainsi leur inclinaison
perptrer des actions terroristes. La liste de ces cibles
est in fine ratifie par la Maison-Blanche.
Dans la zone dmilitarise qui spare la Core du Sud
de sa voisine du Nord, des robots sur roues de la socit
Samsung Techwin sont capables de dtecter par infrarouges la prsence dtres humains. Ils sont pour le moment actionns par des soldats mais disposent dune
technique de tir automatique sactivant la dtection
de la chaleur.
Ainsi, si les drones-tueurs ne sont pas encore des armes
de guerre effectives, il convient de s'interroger sur la limite d'autonomie dcisionnelle donner un robot,
surtout quand il peut dcider de la vie ou de la mort
d'un tre humain. C'est la question qu'a soulev l'ONU
en avril 2014 dans le cadre de la Convention sur certaines armes classiques (CCA). D'un ct l'on avance
les arguments de rduction des budgets de dfense ou
de scurit des soldats, de l'autre on affirme qu'un robot dnu de compassion et d'empathie ne peut avoir
droit de vie sur quelqu'un.
On peut dfinir comme robot-tueur tout systme qui a
lautonomie dinterprtation dune situation, danalyse
du risque et de prise de dcision. Entre son capteur de
danger et laction ralise, il existe tout une chane qui
repose sur une sorte dintelligence artificielle "
Emmanuel Remy
Spcialiste des questions de dfense37
Les robots-tueurs prsentent un cas pratique qui interroge les limites juridiques, philosophiques et thiques
que posent les algorithmes grs de faon autonome.

(36) Grgoire Chamayou,Thorie du Drone, La Fabrique, 2013


(37 http://www.france24.com/fr/20140514-robots-tueurs-sont-plus-a-craindrele-cyberespace-ailleurs-armee-drone-ethique/

Copyright

Date de parution: dcembre 2014

49

ii. Connatre et prdire par


lalgorithme
Adosss au Big Data, les algorithmes
reprsentent une avance extraordinaire pour la recherche. Ils permettent dtablir des corrlations qui
seraient restes invisibles avec une
base de donnes plus rduite. Ces
corrlations peuvent tre la base de
mise en place de modles prdictifs.
Ce saut quantitatif a boulevers par
exemple la recherche gntique. La
dtection dun des gnes responsables de la schizophrnie tait impossible en analysant seulement 3 500
malades mais quand les chercheurs
ont pu faire fonctionner les algorithmes avec 35 000 cas, la dtection
a t trs rapide : il y a un point dinflexion partir duquel tout change 38.
Derrire cette rflexion, se trouve
lide que le quantitatif, un certain
niveau, modifie le qualitatif. Ce bond
est similaire au passage de la physiologie la biochimie : en changeant
dchelle, de nouveaux phnomnes
se font jour et des nouvelles techniques dinterventions apparaissent.
Avec le Big Data, il sagit du quoi, et
non du pourquoi. Il nest pas toujours
ncessaire de connatre la cause
dun phnomne ; laissons plutt les
donnes parler elles-mmes ! 39
Ainsi, quand la recherche de la causalit est un chec, il peut tre pertinent de se fier au modle corrlatif.
La mdecine bnficie, par exemple,
dune comprhension trs fine des

50

mcanismes causaux derrire le diabte, pourtant, elle est incapable


de prdire avec prcisions les hyperglycmies ou hypoglycmies.

iii. Notre futur rduit une


formule mathmatique ?
Le futur nest pas une dclaration
du pass Benjamin Sarda, Directeur
Marketing chez Orange Healthcare
Toutefois, il convient de se demander si toute corrlation peut servir
de base une vrit scientifique.
Dans le sens o le modle dductif
de la corrlation rpond la rgle
de la falsifiabilit de Popper, certainement : mais peut-on baser sur ces
corrlations nos hypothses futures ?
La donne brute est un mythe, elle
est toujours construite, elle ne vient
pas de la nature mais de linstrument
qui la mesure
Christophe Benavent, chercheur en
marketing Paris-10
Pour la recherche, le Big Data reprsente un gisement fantastique dinformations. Nanmoins, celles-ci ne
peuvent se convertir directement et
automatiquement en connaissance.
Lutilisation massive de ces donnes
est plus complexe quil ny parat. En
effet, toute donne comporte une
part darbitraire, quelle provienne
de linstrument de mesure ou de
lorganisation qui la collecte ; selon

(38) Manolis Kellis, Importance of Access to Large Populations, Big Data Privacy Workshop: Advancing the State
of the Art in Technology and Practice, Cambridge, MA, March 3, 2014,
(39) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, mars 2013

Copyright

Date de parution: dcembre 2014

le mot de Bruno Latour, il ny a pas


de donnes, il y a des obtenus .
Pour Thomas Lefvre, mdecin de
sant publique, ingnieur Mines-Tlcom, docteur en sciences, chercheur associ lIRIS (CNRS/INSERM/
EHESS/Paris 13), deux thories statistiques remettent en question la puissance prdictive des algorithmes.
Les attracteurs tranges :
Dans les annes 1960, le mtorologue E. Lorenz dmontre en trois
quations simples lexistence dattracteurs dit tranges. Autrement
dit, que certains systmes sont intrinsquement sujets des variations
imprdictibles moyen terme au niveau individuel, cest--dire que deux
sujets initialement infiniment proches
et semblables peuvent voluer compltement diffremment bien que
pris globalement, le systme auquel
ils appartiennent prsente un comportement bien dlimit dans lespace . Si les algorithmes prdictifs
sont performants pour un ensemble
dindividus, ils sont incapables de
prdire avec certitude ou prcision
les volutions individuelles. Cela a
des implications trs fortes, dans le
domaine de la sant notamment.
La maldiction de la dimension :
Richard Bellman, mathmaticien
amricain a mis au point ce concept
relativement jeune et encore peu
diffus dans le monde universitaire.
Cette thorie dmontre que pour
des systmes prsentant de nombreuses variables (possiblement,

Copyright

ds une vingtaine de variables),


les analyses classiques vont inexorablement tendre vers un rsultat
moyen et deviendront aveugles
aux spcificits de chaque objet.
Loutil statistique ne sera plus capable de diffrencier deux individus
: pour une population dindividus
dfinis par de nombreux traits (leurs
gnes, leur taille, ge, sexe, etc.),
mme si beaucoup prsenteront
des caractristiques trs diffrentes,
loutil statistique va les assimiler...
En plus de ces limites statistiques, les algorithmes prdictifs, parce quils sont
uniquement bass sur des donnes
antrieures ce quils essayent de
prdire, ne sont pas capables danticiper des variations dans le futur.
Un algorithme prdictif est extrmement puissant pour prolonger
la courbe mais est aveugle pour
anticiper linnovation. Cest tout le
sens du trait dhumour de C&WS,
Si Henry Ford avait demand des
algorithmes Big Data ce que les
clients dsiraient, ils lui auraient rpondu des chevaux plus rapides
La question de fond est celle de la
finalit : est-ce que vous voulez comprendre ou est-ce que vous voulez
prdire ?
Thomas Lefvre, mdecin de sant
publique, ingnieur Mines-Tlcom,
docteur en scienceshercheur associ lIRIS (CNRS/INSERM/EHESS/Paris
13)

Date de parution: dcembre 2014

51

Penser la gouvernance
des algorithmes
Les progrs de lingnierie algorithmique, les possibilits dautomatisation
quelle ouvre () nous obligent construire ds maintenant un corpus
danalyse et de rflexion qui pourra seul nous laisser en situation de
comprendre les enjeux de cette deuxime vague dexternalisation :
lexternalisation de nos stratgies dcisionnelles, motionnelles, affectives.
Olivier Ertzscheid

Olivier Ertzscheid40 : matre de confrences en Sciences de linformation


et de la Communication lUniversit de Nantes

i. lalgorithme : humain, trop humain ?


Parce quils constituent un prisme de lecture et de comprhension du rel
de plus en plus prsents, les algorithmes et les donnes doivent faire lobjet
de rgles de gouvernance rflchies. Plusieurs exemples mettent en lumire
comment une utilisation malintentionne ou malencontreuse des technologies Big Data peut transformer un algorithme en une machine discriminer,
systmique et silencieuse.

(40) http://ecrans.liberation.fr/ecrans/2014/05/12/bienvenue-dans-le-world-wide-orwell_1015427 (41)


http://europepmc.org/articles/PMC2545288/pdf/bmj00275-0003.pdf
(41) http://europepmc.org/articles/PMC2545288/pdf/bmj00275-0003.pdf
(42) http://knowledge.wharton.upenn.edu/article/the-social-credit-score-separating-the-data-from-the-noise/

52

Copyright

Date de parution: dcembre 2014

Le risque de lerreur humaine


Afin dliminer le biais humain et de
limiter le poids administratif dans son
processus dadmission, luniversit de
mdecine St Georges en Angleterre
a mis en place en 1988 un modle
algorithmique de slection des tudiants41. Durant les annes qui suivirent, le nombre dtudiants fminins
et dorigines trangres chuta svrement, jusqu ce que deux professeurs de luniversit dcouvrent
la prsence de biais discriminants
dans la composition de lalgorithme.
En ralit, lalgorithme se basait sur
les anciennes donnes dadmissions
de luniversit, une poque o les
femmes et les tudiants issus de communauts trangres taient minoritaires. Lalgorithme a transpos cette
ingalit passe et refusait des candidatures. Luniversit fut condamne
par la justice britannique et coopra
activement pour rparer sa faute.
Il est intressant alors de constater, dune part que lalgorithme est
bien le fruit dun cerveau humain,
puisquil vient mme en reproduire
les failles et les limites ; et dautre
part que les formules ne peuvent
exister en pleine autonomie, mais
ncessitent toujours un contrle
et une gouvernance humaine.
Les algorithmes rendent invisibles
des pratiques discriminantes
En avril 2014, le Wall-Street Journal42
a rvl que des compagnies de
crdits amricaines utilisaient des
donnes issues des rseaux sociaux
pour construire les algorithmes qui

dterminent laccs au crdit et


les taux pratiqus. Ces algorithmes
compltent le credit score officiel
de leurs clients43. Deux exemples :
La startup Neo Finance qui analyse
la qualit des connections Linkedin
dun individu pour estimer les revenus futurs et la stabilit de lemploi
de son client ;
Lenddo, base Honk Kong, puise
dans les donnes Facebook et Twitter pour dresser un profil social de
chaque client.
Les pondrations affectes chaque
variable restent inconnues et ne permettent pas de prjuger de lutilisation
qui est faite de ces donnes. Cependant, lutilisation de tels algorithmes
ouvre la porte des pratiques discriminantes et intensifie les ingalits.
En effet, ces pratiques permettent
aux individus qui disposent des ressources damliorer leur accs au
crdit en dynamisant artificiellement leurs profils en ligne. Noublions pas quil suffit de quelques
dollars pour acheter des followers
sur Twitter. Ainsi, des algorithmes
discriminants se superposent et amplifient les ingalits existantes44.
Quand on rduit une personne
une somme de statistiques et de
probabilits, on la transforme en
une caricature culturelle qui en dit
plus sur les maux de notre socit que sur les valeurs et comportement rels de cette personne. 45
explique Ccilia Rabess dans un
article de The Bold Italic.

(43) Aux Etats-Unis, un credit score est affect chaque titulaire dun compte bancaire en fonction de ses revenus et
ses mouvements financiers. Il est standardis et est partag par toutes les institutions financires. Cette pratique est
strictement encadre par le Equal Credit Opportunity Act.
(44) Gandy, Oscar (2010). Engaging Rational Discrimination: Exploring Reasons for Placing Regulatory Constraints
on Decision Support Systems, Ethics and Information Technology 12, no. 1, 2942.
(45) http://www.thebolditalic.com/articles/4502-can-big-data-be-racist

Copyright

Date de parution: dcembre 2014

53

54

La nouvelle fracture
numrique : celle de la donne ?
Aujourdhui, beaucoup des outils Big Data sont
calibrs pour un habitant de Manhattan qui
va gnrer de larges quantits dinformations.
Mais parmi les individus connects et dont les
donnes sont collectes, nombre dentre eux
gnrent une quantit trop faible de donnes
pour entrer dans le primtre danalyse des
entreprises qui utilisent les techniques Big Data
pour formuler leurs offres et leurs produits. Cest
ainsi quaprs laccessibilit et le haut dbit,
une nouvelle facette de la fracture numrique
se construit : celle du Big Data.
Pour Jonas Lerman, membre du Minister of State
amricain, il ne sagit pas simplement de passer
ct de promotions, mais bel et bien dtre
pnalis conomiquement et exclu de la vie
politique :
Les magasins nouvriront peut tre pas dans
leurs quartiers, jugs moins attractifs pour les
entreprises, tuant dans luf des possibilits
demploi () et ne seront plus dans le primtre
dintrt des partis politiques, qui est une condition dune citoyennet pleine.
Jonas Lerman suggre que les acteurs publics
fournissent des garanties ces Big Datas marginalized groups afin quils ne soient pas exclus
de la vie dmocratique. Cest paradoxalement
aux Etats-Unis, o la protection de la vie prive
en ligne est plus faible quen Europe, que le dbat sur cette nouvelle forme de fracture numrique est le plus vif 46.

(46) Pour aller plus loin dans ce dbat : Jonas Lerman, Big Data and
Its Exclusions, Stanford Law Review, septembre 2013, http://www.
stanfordlawreview.org/online/privacy-and-big-data/big-data-and-itsexclusions

Copyright

Date de parution: dcembre 2014

55

En se gardant de gnraliser les


deux exemples prcdents, les
risques inhrents lalgorithmisation du monde rendent ncessaire llaboration de mcanisme
de contrle. Ceux-ci renforceraient
la confiance des individus dans le
Big Data et serait, terme, bnfiques pour lensemble des acteurs.

ii. Trois scnarios pour rguler le Big Data


Notre incapacit dcrire et comprendre linfrastructure technologique rduit notre porte critique,
nous laissant la fois impuissants et assez souvent vulnrables. Linfrastructure ne doit pas tre fantme. 47
- Julian Oliver, membre du collectif artistique berlinois Weise 7 qui a
imagin des Hommes en gris : des
hommes qui captent et rcoltent
les donnes quchangent nos ordinateurs avec les routeurs des
hotspots Wi-Fi que nous utilisons, rcompens en 2010 Ars Electronica.
Une volution vers davantage de
transparence est la condition pralable la mise en place dune
rgulation. Se pose ensuite la question de linstance de contrle.

Le premier frein cette dmarche


rside dans la complexit technique : la composition dun algorithme requiert des comptences
trs leves en mathmatiques et
en statistiques pour tre dcrypte. De plus, limmense majorit
des algorithmes est la proprit
des entreprises qui les utilisent ; elle
est donc de fait protge par les
lois nationales et internationales
de proprit intellectuelle, ce qui
complexifie la tche du rgulateur.
Les algorithmes sont des secrets
bien gards et rendre publiques leurs
recettes poserait des problmes de
concurrence et de manipulation
- Governing Algorithms : a provocation piece48
Quel rgulateur ? Trois scenarios
Quand un dluge dinformations
financires a d tre gr au dbut
du XXme sicle, sont apparus les
comptables et les auditeurs.
Viktor Mayer-Schnberger
et Kenneth Cukier 49

Une exigence : la transparence


Lapplication du principe de transparence par une ou plusieurs entits

56

de contrle et rgulation aux algorithmes impliquerait que les donnes


utilises et les calculs effectus soient
accessibles afin de voir si les pratiques
mises en place sont respectueuses
des enjeux de vie prive et dthique.

Le contrle des algorithmes laune


de la lgislation en vigueur demande
une expertise technique semblable
celle dun Data Scientist et implique

(47) http://www.internetactu.net/2014/02/26/les-algorithmes-sont-ils-notre-nouvelle-culture/
(48) http://governingalgorithms.org/resources/provocation-piece/
(49) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, p.219

Copyright

Date de parution: dcembre 2014

la cration dune nouvelle catgorie dexperts. Celle-ci serait strictement encadre et pourrait agir en
interne et en externe des entreprises.
Ces algorithmists50 rpondraient
une demande du march pour anticiper et viter les problmes voqus plus haut et rpondre au besoin
de plus de transparence et de scurit des utilisateurs. Comme dans des
domaines aussi varis que la mdecine et le droit, les pratiques seraient
encadres par une rglementation
et un code dontologique stricts.

a) Lhypothse dune rgulation par


le haut, o les experts-contrleurs seraient employs par une institution
publique, est pertinente pour laudit
des algorithmes luvre dans les
organisations publiques. Ils pourraient
sappliquer de la mme manire que
des contrles administratifs ou de scurit. Cette instance conseillerait les
agences de ltat sur les meilleures
utilisations possibles des algorithmes.

aux utilisateurs une utilisation juste


de leurs donnes et prserveraient
la confiance avec les utilisateurs.
Ces rgulateurs posent alors la
puissance publique un nouveau
dfi : celle didentifier les comptences ncessaires et de les recruter au juste prix du march.
Lintensification et complexification
du trajet de linformation doivent
faire lobjet dune rgulation adapte. Celle-ci doit prendre en compte
le rle clef que jouent les algorithmes
et llaboration dune forme de rgulation centre sur la vrification
par des tiers certifis semble pouvoir
permettre de fluidifier le march tout
en prservant la confiance des utilisateurs.

b) Ces missions de contrles pourraient galement tre effectues


par des entreprises agrmentes,
la manire des cabinets de
comptabilit ou daudit. Ces organisations seraient certifies par
une institution de rfrence, qui
pourrait tre la CNIL ou une autre
institution publique ou ministre.
c) Les entreprises utilisatrices des algorithmes pourraient elles-mmes assurer le contrle en interne. la manire des mdiateurs en place dans
des grands mdias, elles assuraient

(50) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, p.219

Copyright

Date de parution: dcembre 2014

57

PARTIE III

LA RVOLUTION
INDUSTRIELLE DU
BIG DATA :
UN LEVIER DE
CROISSANCE DANS
DE NOMBREUX SECTEURS

Copyright

Date de parution: dcembre 2014

59

A$

LE BIG DATA,
MOTEUR DE CROISSANCE
ET DE MUTATIONS
Le Big Data est la rvolution technologique qui est le nerf de la guerre dune
rvolution industrielle en cours
Franois Bourdoncle

Franois Bourdoncle, fondateur et CEO de FB & Cie, rapporteur du plan Big


Data pour le Ministre du Redressement productif
Le Big Data est lcho dune dynamique transversale tous les secteurs de
lconomie qui fait de la donne la source de valeur principale. Dans ce nouveau paradigme o la donne devient matire premire, les conomies traditionnelles doivent questionner leur modle conomique.
linstar de llectricit au tournant XIXme sicle, le Big Data est le dclencheur dune nouvelle rvolution industrielle. Franois Bourdoncle identifie
quatre marqueurs de cette rvolution :

60

Copyright

Date de parution: dcembre 2014

i. Premier marqueur Lhybridation des mtiers

nimiser la prise de risque et devient


un avantage comptitif dcisif.

Issus des deux premires rvolutions


numriques, les gants de lindustrie numrique possdent dimportantes rserves de liquidits et une
flexibilit organisationnelle qui leur
permettent de conqurir de nouveaux marchs bien au-del de leur
activit traditionnelle. Parce que le
numrique a pntr toutes les facettes de notre quotidien, le cloisonnement entre les marchs devient
de plus en plus labile. Les entreprises
capables de donner du sens une
chane de donnes parses sont
avantages. Cest par exemple la
stratgie de Google qui investit autant dans la domotique que dans la
sant ou lautomobile afin de relier
toutes ces activits dans un mme
ensemble et chane de valeur.

iii. Troisime marqueur - Des


business-model qui se rapprochent de ceux des startups

ii. Deuxime marqueur - volution des industries traditionnelles vers des business-model sous forme de
service
Consquence de ces nouveaux entrants sur les marchs traditionnels,
les entreprises vont devoir recentrer leur modle conomique autour de lexploitation de la donne
et sur le service personnalis qui en
dcoule, plutt que sur un produit
uniforme. Autolib est lexemple
phare de cette servicisation de
lindustrie automobile. Cest donc la
connexion numrique directe avec
le client qui est essentielle pour comprendre les usages et in-fine vendre
le service. La connaissance prcise
des comportements permet de mi-

Copyright

Les modles conomiques classiques


des startups, qui consistent dgager un trs grand volume de liquidits pour linvestir trs rapidement sur
un nouveau march, migrent vers
lindustrie lourde. La leve de fonds
dun milliard de dollars dUber pour
semparer du march de la logistique urbaine est significative. Cela
est rendu possible par les capitaux
auxquels ont accs les fonds dinvestissement amricains aprs la croissance phnomnale de lconomie
numrique partir des annes 1990.

iv. Quatrime marqueur - Le


modle Full-stack startup
Ce dernier marqueur correspond
lvolution des entreprises vers une
matrise totale de la production. Le
meilleur exemple est la dcision de
Netflix, originellement distributeur de
contenu, de produire ses propres sries
pour ne plus dpendre dHollywood.
L encore, cette volution implique
une comprhension fine des usages
et un rapport direct avec le client.
Sous linfluence de ces quatre marqueurs, tous les pans de notre conomie, toutes les strates de notre socit
seront contraints doprer une mutation profonde pour mettre la donne
au centre de leur organisation. Cette
partie identifie la transition numrique
par le Big Data de plusieurs secteurs
de notre conomie traditionnelle.

Date de parution: dcembre 2014

61

LE BIG DATA, UNE RVOLUTION QUI


TRANSFORME TOUS LES SECTEURS
DE NOTRE CONOMIE

Le Big Data peut en particulier aider rduire les pertes et le gaspillage


au niveau du transport et de la distribution des produits agricoles.

Le Big Data et lagriculture

Chiffres cls :
20 milliards de dollars : ce sont les bnfices supplmentaires
obtenus par Monsanto grce ses technologies Big Data en 2013
10 000 : cest le nombre dexploitants franais qui utilisent les
techniques de lagriculture de prcision

62

Copyright

Date de parution: dcembre 2014

La technologie Big Data intresse de


plus en plus les industries agricoles
comme en tmoigne le rachat de
Climate Corp, entreprise danalyse
des donnes, par Monsanto. Alors
que la population mondiale va dpasser les 9 milliards dindividus dici
2050 et que les besoins alimentaires
grandissent, le Big Data esquisse une
des solutions pour amliorer et optimiser la production agricole mondiale.
Diminuer les risques inhrents la
culture du sol
Avec la baisse des cots des capteurs connects, il devient de plus
en plus attrayant pour les exploitants agricoles de se procurer des
systmes danalyse et de prvision
des alas climatiques. Donnes mtorologiques, pollinisation, qualits
des sols ou de lair (temprature,
humidit), les analyses agricoles
gagnent en prcision ce qui impacte directement les rendements
agricoles. Monsanto estime ainsi
20 milliards de dollars les bnfices
supplmentaires obtenus grce
cette agriculture de prcision .
La socit amricaine Farm Intelligence travaille par exemple dans le
Minnesota avec les producteurs de
mas et de soja pour aider identifier
les signes avant-coureurs de pucerons ou de maladies des plantations.
Par ailleurs, des images ariennes
des exploitations prises depuis des
satellites ou des drones donnent
des informations cruciales sur la
croissance des plantes et peuvent,
couples avec des donnes mtorologiques, tablir des modles
prdictifs analysant les qualits des

Copyright

cultures, les besoins en eau et engrais, et ce jusqu 48 heures


lavance. En France, dj 10 000 exploitants utiliseraient les techniques
de lagriculture de prcision selon lInstitut national de Recherche
en Informatique et Automatique.
Pour ce qui est de llevage, les
applications du Big Data peuvent
aller du suivi des animaux, la
dtection anticipe dinfections
(par exemple des infections mammaires la couleur du lait) jusqu
ladaptation
de
lalimentation.
Encourager une agriculture plus
respectueuse de lenvironnement
La transition vers une agriculture
connecte permet de grer des
systmes dirrigation intelligents, capables de sactiver automatiquement en fonction des donnes de prcipitations ou de scheresse du sol.
La socit Libellium fournit des capteurs connects des vignerons espagnols qui grce eux ont amlior significativement la productivit
de leurs exploitations : la productivit
des vignobles a augment de 15 % et
les pesticides ont t rduits de 20 %.
Le Big Data peut en particulier aider rduire les pertes et les gaspillages au niveau du transport et
de la distribution des produits agricoles. Au Brsil par exemple, de
nombreuses routes vtustes peuvent
tre rapidement impraticables pour
les camions de transport la suite
de fortes pluies. Les donnes mtorologiques et les cartes des rseaux routiers permettent alors en
temps rel de changer les itinraires
et damliorer les rseaux de distribution, en minimisant les pertes.

Date de parution: dcembre 2014

63

Le Big Data et lassurance

Si lassurance accde ces donnes, il lui sera alors facile de faire


voluer ses produits, ses garanties et ses mthodes de gestion
de risques pour envisager une
offre extrmement personnalise
en fonction du profil de lassur.

Chiffres cls :
800 millions deuros : Cest la
somme investie par Axa en
2014, sur trois ans, dans des
projets digitaux au niveau
mondial
67% : cest le nombre
dacheteurs dassurance qui,
aux Etats-Unis, ont obtenu
leur tarif en ligne

Lassurance, dont le modle conomique est bas sur la gestion du


risque et donc la connaissance des
individus et les analyses statistiques,
est logiquement un des secteurs les
plus impacts par lessor du Big Data.
En effet, lhyperconnectivit des individus et ainsi la rcolte de donnes
massives permettent une connaissance trs prcise des modes de
vie de chacun : lhygine de vie de
lindividu peut tre calcule grce
aux applications quantified self, la
qualit de sa conduite est limpide
si la voiture est connecte ou golocalise, ou encore, la gestion du
foyer est transparente si laccs est
donn aux compteurs intelligents
deau ou dlectricit. Avec cette
nouvelle volumtrie de donnes,
cest la matire premire de lassureur qui volue en profondeur.

64

Copyright

Cette motivation explique pourquoi les assurances rflchissent


toutes aujourdhui aux moyens de
mettre en place une collecte dinformations massives sur le mode de
vie de leurs assurs. Avec les objets
connects et les applications sant,
fini les longues fiches de renseignements et les questionnaires remplir par lassur ! On peut alors imaginer de nouvelles offres, aux tarifs
presque personnaliss, pour assurer
nos risques quotidiens, amenes
voluer en temps rel, en fonction
de la vie quotidienne de chacun.
Au-del de la tarification au plus
proche des risques, le Big Data offre
la possibilit deffectuer une lutte
contre la fraude lassurance redoutablement efficace en identifiant de manire automatique
les
comportements
anormaux.
Les assureurs auto ont t les premiers
explorer les opportunits Big Data
avec des formules Pay as you drive .
Les assureurs amricains Progressive
et Allstate viennent ainsi de lancer
des offres o le calcul de la prime
prend en compte non seulement
le nombre de kilomtres parcourus
mais aussi une valuation du comportement de lassur travers des
donnes comme lheure laquelle
il prend la route, le nombre de freins

Date de parution: dcembre 2014

brusques, le nombre dacclrations


rapides et la vitesse. Restitues sur
un espace priv en ligne, ces donnes une fois analyses donnent
lieu des tarifs minors ou majors.
Les dfis relever pour faire entrer
lassurance dans lre Big Data

La collecte de la donne
Puisque celle-ci constitue la matire
premire du march de lassurance,
cette dernire doit satteler nouer
des partenariats avec des entrepreneurs des objets connects ou applications mobiles pour collecter les
donnes la source : linstar du partenariat Withings / Axa nou en 2014
qui propose dquiper gratuitement
leur client de bracelets connects.

Certification de la donne
Si les sources de donnes sont multiples lre du Big Data, tablir leur
traabilit est de plus en plus complexe. Aussi, le cheminement de la
donne, son changement de statut,
peut se rvler tre un vrai cassette pour lactuaire charg de vrifier et certifier la donne. Pour Omptimind Winter51, lactuaire de demain
pourrait devenir le correspondant
du rgulateur sur les questions de
conformit dans le recueil et lusage
du Big Data .

Protection de la vie prive


Dans ce secteur particulirement, le
dploiement du Big Data doit tre
encadr par le rgulateur linstar

de la CNIL qui aujourdhui regarde


dun il attentif les pratiques des applications Quantified self ou des botiers connects aux voitures donnant
lieu des offres Pay-as-you-Drive.
On peut trs vite imaginer, par
exemple, les drives ingalitaires
dun systme de sant o les assurances se fondent sur lanalyse
des donnes personnelles pour finaliser les tarifs de prise en charge.
Lassurance nouvel acteur pour la
prvention
Ce pouvoir de collecte et danalyse des donnes, et les opportunits
quil fait natre, invite naturellement
les assureurs, mme de mieux
comprendre les risques encourus
partir dun comportement type,
devenir des acteurs de la prvention. Ainsi, lre du Big Data pour
lassureur rime-t-elle avec lmergence de nouvelles responsabilits ?

Lassurance
doit
prendre
conscience delle-mme comme
dun agrgateur et dun gestionnaire de donnes. Lassurance
transforme des donnes en services
de protection. Le service de lassurance consiste en effet isoler dans
la masse des donnes disponibles
celles qui ont un caractre prdictif et peuvent servir organiser des
services de protection contre les
consquences patrimoniales dvnements futurs.
Franois Ewald, Professeur honoraire au CNAM et International Research Fellow de la Law School
de lUniversit du Connecticut52

(51) Optimind Winter, Dossier technique dinformation Big Data, Octobre 2013, http://www.optimindwinter.com/
wp-content/themes/optimind/upload_dbem/2013/10/201310_Dossier_technique_Optimind_Winter_Big_Data.pdf
(52) Entretien avec Franois Ewald, Big Data et assurance , Institut Montparnasse, http://www.institut-montparnasse.fr/big-data-et-assurance/

Copyright

Date de parution: dcembre 2014

65

Le Big Data et la culture

Aux Etats-Unis, des chercheurs de


luniversit Stony Brook (New York)
ont dvelopp un algorithme capable de prdire avec 84 % le
succs dun livre. Le principe ? Le
programme se base sur lanalyse
dautres romans qui ont t choisis
pour leur succs littraires (rcompenses/critiques). A linstar des logiciels anti-plagiat, le systme tudie
le degr de similarit entre la base
dtude et luvre en question.

Chiffres cls :
Le magazine Forbes a estim
0,03 dollar la valeur dun got
individuel exprim sur un lien
culturel 53
Aujourdhui, 52 % des commentaires
sur
Facebook
portent sur les programmes
diffuss la tlvision 54

Selon le programme, les lments qui


font dun livre un succs sont le choix
des prpositions, noms, pronoms, dterminants et adjectifs ( linverse,
les mauvais livres utiliseraient plus de
verbes et dadverbes qui renvoient
des mots dactualits, des clichs,
des lieux communs). Les bons livres
aborderaient plus le vocabulaire de
la rflexion que celui de laction56

Sur Netflix, 75 % des programmes consomms le sont


grce au systme de recommandation. Prs de 800 ingnieurs travaillent, au sein de
lentreprise, llaboration et
lamlioration de ces algorithmes de recommandation.

La culture comprend deux dimensions. La premire relve de lintime


; nos pratiques culturelles dvoilent
nos gots, nos hobbies, nos aspirations notre identit, en somme.
La culture renvoie galement des
pratiques sociales et communautaires. La donne personnelle culturelle possde ainsi une valeur particulire : La donne personnelle
culturelle renferme des informations
contextuelles fortes et permet de
qualifier de faon assez prcise le
pouvoir dachat de ltre numrique
mais aussi de prvoir son comportement 55.

66

Le Big Data au service dune meilleure diffusion pour une grande interaction avec le public
Les acteurs de lindustrie culturelle
ont un double-dfi rsoudre : instaurer et assurer une relation privilgie avec ses clients. Le Big Data leur
permet datteindre cet objectif. En
scrutant et en analysant les rseaux
sociaux principalement lindustrie culturelle est en mesure dobserver quelles sont les attentes du
moment, mais aussi de les anticiper.
Les donnes personnelles culturelles
permettent galement de prolonger lexprience culturelle et la relation entre acteurs et usagers cultu-

(53) http://www.strategies.fr/etudes-tendances/tendances/224438W/le-big-data-au-service-de-la-culture.html
(54) Comportements culturels et donnes personnelles au cur du Big data EY & Forum dAvignon, 2013 : p.12
(55) Ibid
(56) http://substance.etsmtl.ca/un-algorithme-pour-predire-le-succes-litteraire-la-maniere-de-triz/

Copyright

Date de parution: dcembre 2014

rels. Aprs une exprience culturelle


que ce soit un spectacle ou la visite
dune exposition, la collecte et le
traitement des informations relatives lvnement donnent lieu
la cration de communauts web
ou de services complmentaires.
Lutilisation du Big Data dans le tourisme : lexemple suivre.
En 2012, le Comit Rgional de Tourisme Cte dAzur et Orange ont
quantifi et modlis les dplacements des touristes dans la rgion.
En utilisant les donnes de ses clients
notamment et en les croisant avec
les informations gographiques de
lI.G.N, Orange est parvenu produire des analyses quant aux dplacements des touristes, le temps
pass, les lieux les plus visits, nombre
de nuites La finalit de lopration tait doptimiser lexprience
touristique : emplacement des structures dhbergement, de restauration mais aussi de sadapter aux
coutumes nationales des visiteurs57.

Le Big Data : nouveaux gains pour


lindustrie ?
Lcosystme de la culture voit ses
sources de financement tarir cause
du contexte conomique difficile.
Largement dpendante des deniers
publics par le pass, la culture doit
trouver de nouvelles sources de financement. Le rapport EY & Forum
dAvignon 2013 prsente une nouvelle piste de rflexion intressante :
Un projet culturel pourrait demain
valoriser, au moment de son financement, sa capacit gnrer des donnes pour le distributeur, au mme
titre quil peut gnrer des ventes.
Les plans de financement de projets
cinmatographiques ou discographiques pourraient, par exemple,
intgrer la valorisation des donnes
nouvelles collectes : un producteur
excutif cderait un coproducteur
le droit dadministrer la communaut
de luvre cre, et les revenus publicitaires ventuellement gnrs.

Cette initiative peut tre reprise pour


dautres zones touristiques en France.
Son principe peut galement tre
appliqu une chelle plus modeste. Un muse pourrait analyser
de la sorte les donnes mises par
ses visiteurs afin damliorer sa logistique dorganisation (estimation en
temps rel de lattente pour lachat
des tickets) doptimiser le parcours
de lexposition (rendre plus accessibles les uvres qui plaisent le plus)
ou lemplacement de ses services
annexes (boutiques, restaurants).

(57) http://reseauculture21.fr/wp-content/uploads/2014/07/EtudeATELIER_FA_2013.pdf

Copyright

Date de parution: dcembre 2014

67

Universit Paris Dauphine


Vice Prsident
de Renaissance Numrique

Le commerce lectronique, quil soit


mobile, desktop ou sur tablette, gnre
quantit de donnes qui sont la base des
web analytics que tout e-commerant se
doit de suivre avec attention.

Henri Isaac
Le commerce lectronique,
quil soit mobile, desktop ou
sur tablette, gnre quantit de donnes
qui sont la base des web analytics
que tout e-commerant se doit de
suivre avec attention. Si les volumtries consquentes de donnes ont
longtemps t lapanage des principaux sites de-commerce, le dveloppement constant de ce secteur
amne de nombreux sites grer
des volumes croissants de donnes
lies au trafic, la navigation,
lachat, la relation client.
Larrive des technologies Big Data
change radicalement la donne dans
ce secteur et ce sur plusieurs problmatiques propres au commerce
lectronique : la conception des
interfaces marchandes, la recommandation et la personnalisation,
le pricing, la gestion du catalogue.

Copyright

Le Big Data pour optimiser les


interfaces marchandes
Afin damliorer les interfaces de
sites marchands, de trs nombreuses
socits proposent dutiliser des tests
A/B qui visent exposer deux groupes
de clients deux pages diffrentes
afin de dterminer la plus efficace
en terme de souscription ou de vente
ou de tout autre problmatique dergonomie. Si cette mthodologie prsente un intrt avr, elle prsente
en revanche des limites ds lors que
lon introduit simultanment plusieurs changements sur une page.
Si les mthodes du Big Data sont
depuis longtemps utilises dans la
recommandation de produits et
doffres (cf. suivant), elles investissent dsormais le champ de la
conception dinterfaces en analysant simultanment en temps rel des
milliers - voir des millions- de parcours
de navigation en y appliquant des
analyses statistiques afin de dtermi-

Date de parution: dcembre 2014

69

ner linterface la plus performante.


La socit Content-Square58 est trs
illustrative des mthodes du Big Data
appliques la conception dinterface. Un des principaux apports des
mthodes Big Data est leur capacit fournir des lments de rponse
dans des dlais fortement rduits
(quelques jours versus plusieurs mois).

Ladaptation de loffre dun site et


les algorithmes de recommandation
Un des enjeux du e-merchandising
est de fournir une assistance la
vente sans vendeur. Une mthode
pour y parvenir consiste dtecter un client et adapter loffre
de produits au profil, la navigation. Longtemps apanage de sites
marchands aux ressources importantes, les algorithmes de personnalisation et de recommandation
deviennent accessibles avec des
offres SaaS nombreuses (Sparkow,
Tynyclues, Nosto, Ezako, NuuKik,
Target2Sell,
PlanetWorld,
etc.).
Les moteurs de recommandation
sappuient tous sur de lapprentissage artificiel (machine learning)
afin dapprendre des comportements des internautes. La disponibilit dApache Mahout (https://
mahout.apache.org), logiciel opensource de machine learning issu du
projet Hadoop, va encore acclrer le dploiement du Big Data
sur de nombreux sites marchands.

La gestion dynamique des prix


(Dynamic Pricing)
Boomerang Commerce59 permet
aux e-commerants d'ajuster leurs
prix en temps rel en fonction de
ceux d'Amazon et d'autres e-commerants. Le logiciel parcours les
sites de la concurrence et analyse
les prix d'un produit donn. Il peut
ensuite ajuster le prix automatiquement, la hausse ou la baisse.
Il peut aussi faire des suggestions au
lieu d'un ajustement automatique,
et par exemple proposer d'augmenter un prix par rapport la concurrence, afin d'accrotre des marges
dans une catgorie de produits.
Ainsi, les e-commerants ont la possibilit d'automatiser leurs prix en fonction de nombreux facteurs, comme
leur stock, les changements de prix de
la concurrence, l'heure du jour ou la
mto. Boomerang Commerce offre
aussi de tester diffrentes stratgies
de prix via un indice de perception
des prix pour un produit donn. Il permet aussi d'optimiser les prix en fonction des canaux de distribution utiliss.
Le Big Data est utilis pour valuer
limpact dun changement de prix
sur le chiffre daffaires, et ainsi aider
chaque entreprise tablir la meilleure stratgie de prix en fonction de
ses objectifs. Les volumes des catalogues (SKUs) et le nombre de concurrents surveiller en temps rel ncessitent de recourir des technologies
de Big Data pour le stockage des
donnes et des algorithmes dapprentissage (machine learning) qui
reposent ici sur la thorie des jeux60.

(58) http://www.content-square.fr/
(59) http://www.boomerangcommerce.com
(60) http://www.ecommercebytes.com/cab/abn/y14/m07/i18/s02

70

Copyright

Date de parution: dcembre 2014

Performance des catalogues


e-commerce
Les catalogues des e-commerants
peuvent comporter de trs nombreuses rfrences de produits gnrant des bases de donnes de
plusieurs milliers, centaines de milliers, voire plusieurs millions de produits dans le cas des marketplaces61.
Les bases de donnes des progiciels
e-commerce doivent donc stocker
des fiches-produits avec des donnes trs htrognes un livre ne
se reprsente pas avec les mmes
attributs qu'un aspirateur. En outre
les caractristiques des produits
peuvent voluer dans le temps.
L'une des techniques classiques employe pour rpondre cette problmatique dans une base de donnes relationnelle est de proposer un
modle dit Entity-Attribute-Value62.
Le principe de cette modlisation est
de sparer les donnes fixes du produit de ses attributs qui sont stocks
dans des tables spcifiques (5 tables
au total dans le progiciel E-commerce Magento, par exemple).

passage un modle plat difficile


envisager. En contrepartie, le modle EAV prsente un cot important
pour certaines oprations basiques.
Ainsi pour obtenir un produit ou une
liste de produits, il est ncessaire de
procder des oprations de jointure assez lourdes pour rcuprer l'ensemble des attributs du produit. Sur un
petit catalogue, c'est tout fait acceptable. Mais ds lors qu'il s'agit de
manipuler une base de plusieurs millions de produits, le cot de ces oprations devient vite prohibitif. Sur une
base de 5 millions de produits avec une
moyenne de 20 attributs produits, on
effectuerait des oprations de jointure
sur une centaine de millions de lignes.
Ds lors, le recours une base NoSQL
documentaire comme MongoDB
est une solution idale pour amliorer les performances. La SSLL Smile
a ainsi ralis une adaptation du
progiciel e-commerce Magento en
y intgrant MongoDB63. Cette solution de base de donne NoSQL permet de grer des catalogues de trs
grande envergure avec des performances daffichage (temps de rponse) et de recherche optimises64 .

Ce modle prsente un avantage


important par rapport au stockage
plat des donnes lorsqu'il s'agit
d'oprer la mise jour du modle
de stockage des produits puisqu'il
n'est pas ncessaire de modifier la
structure des tables de stockage.
Cette opration est en effet trs difficile oprer ds lors que le volume
contenu dans une table devient important. Cela rend trs clairement le

(61) A titre dexemple, un site come Pcheur.com gre un catalogue de plus de 154 000 produits, Amazon.fr possde lt 2014 plus de 119 millions de rfrences et Amazon.com 253 millions. Source : Export.com
(62) voir une prsentation pdagogique de ce modle : http://www.magentix.fr/divers/modele-eav-magento-database.html
(63) disponible sur GitHub https://github.com/Smile-SA/mongogento
(64) http://www.ecommerce-performances.com/

Copyright

Date de parution: dcembre 2014

71

Le Big Data et la finance

cires sont les premires avoir


embauch en masse des profils
type Data-Scientists, notamment
travers la formation dexcellence
Polytechnique ENSAE qui est devenue la rfrence mondiale.
Aujourdhui, le secteur bancaire
est le premier client des entreprises
informatiques qui fournissent linfrastructure de gestion du Big Data.

Chiffres cls :
98 % : cest le pourcentage
de baisse du cot du stockage pour un gigabit de
data financire. Ainsi, une
entreprise oprant plus de 20
millions doprations quotidiennes fait passer le cot de
stockage de 17$ 21 cents
par gigabit avec une architecture Hadoop 65 .

Sur les marchs europens et amricains, sept transactions financires


sur dix sont automatises : le Big
Data, par le truchement du Trading Haute Frquence, sont au
cur des organismes financiers.
Les entreprises financires sont parmi les premires avoir compris que
la donne tait la nouvelle source de
valeur - Stphane Buttigieg, Directeur
gnral adjoint Institut Louis Bachelier
Ds les premiers pas de linformatique dans les annes 1980, le monde
de la finance a tent de matriser les
nouveaux flux dinformations numriques. Ce quon appelait alors le
Business Intelligence rpondait aux
mmes problmatiques que le Big
Data. La diffrence fondamentale
rside dans le volume alors trait.
Les banques, les socits dassurances et les entreprises finan-

La vente ou lachat automatiss


dactifs boursiers en lespace de
quelques nanosecondes est une pratique en place travers les places
boursires du monde entier. Pour
certains, elle favorise la spculation
outrance et est le reflet dune finance dconnecte des enjeux de
lconomie relle, alors que pour
dautres, le Trading Haute Frquence
est un moyen efficace de dgager
les liquidits ncessaires au march.
Un algorithme ne peut pas fonctionner seul : il doit tre rgulirement
contrl, corrig et rorient ! Pour
autant, le rle de lhumain reste primordial et la machine ne sera jamais
que lcho de ses choix, comme le
souligne Stphane Buttigieg Automatises ou pas, les dcisions prises
par la machine sont toujours le reflet dune intelligence humaine .
Les spculations sur les matires premires au dbut des annes 1990
ou encore la crise des SubPrimes
de 2008 sont le fruit de dcisions
humaines et leurs mcanismes
ne sont pas lis la gnralisation du Trading haute frquence.
En 2011, le piratage du compte
Twitter de lAssociated Press par

(65) http://inside-bigdata.com/2014/10/13/adopting-big-data-finance/

72

Copyright

Date de parution: dcembre 2014

des hackers syriens et la diffusion


dun prtendu attentat contre la
Maison-Blanche a bern les algorithmes de Wall Street : en lespace
de quelques instants, le march sest
effondr et a ncessit lintervention
humaine pour revenir la normale.

Le Big Data et la gestion des


ressources humaines

Chiffres cls :
22 % : augmentation de la
performance des centres
dappels Xerox qui ont automatis leur recrutement
4 millions : le nombre de profils de dveloppeurs analyss
et classs par lalgorithme de
Gild

Aprs lOrganisation Scientifique du


Travail de Taylor, le Big Data est la
nouvelle rvolution des techniques
de travail et doptimisation de la
chane de production.
Plus de productivit grce aux donnes
Nous assistons une Rvolution
de la mesure, et cette rvolution va
transformer lconomie de lorganisation et lconomie personnelle Erik Brynjolfsson, directeur du Centre

des affaires numriques la Sloan


School of Management du MIT.
Le Big Data provoque un changement dchelle dans les tudes du
comportement des travailleurs : de
la frquence des emails envoys
au moindre clic de souris, lintgralit de lactivit de milliers de travailleurs peut tre analyse et mise au
service de lefficacit de lentreprise. Ces donnes nouvelles tablissent des modles corrlatifs qui
identifient les variables explicatives
de la performance des employs.
Bank of America a quip 900 de
ses employs de badges dvelopps pour tudier leurs mouvements et interactions afin de comprendre la faon dont ils travaillent.
Rsultat
:
une
productivit
augmente
de
10
%66.
La socit Citizen invite ses employs renseigner leur rgime alimentaire, leurs activits sportives
et leur temps de sommeil afin de
dterminer
comment
augmenter leur productivit au travail.
Lutilisation de nouvelles technologies peut toutefois se heurter des
barrires juridiques en France. Lgalement, la surveillance des salaris
rpond un cadre lgal strict. Si elles
peuvent tre places dans un couloir,
les camras de vidosurveillance par
exemple ne peuvent servir espionner un employ. Un dispositif tel que
mis en place par Bank of America serait sanctionn par la CNIL en France.
Lautomatisation du recrutement :
une nouvelle mritocratie ?

(66) http://internetactu.blogue.lemonde.fr/2013/05/03/le-recrutement-et-la-productivite-a-lheure-des-big-data/

Copyright

Date de parution: dcembre 2014

73

Nous allons bientt assister la prolifration des systmes de recrutement


automatique qui feront automatiquement correspondre les candidats
aux emplois. Imaginez quau lieu
de recevoir des recommandations
de films de Netflix vous receviez des
propositions demploi de Monster ou
LinkedIn - et que ces emplois soient
effectivement bons pour vous.
Tomas Chamaro-Premuzic, contributeur lHarvard Business Review
I no longer look at somebodys CV
to determine if we will interview them
or not, - Teri Morse, responsable des
ressources humaines Xerox Services
Xerox, leader du march des imprimantes, a confi aux algorithmes de
la startup spcialise Evolv le remplacement de 22 000 oprateurs
pour ses centrales dappels67. Afin de
prdire quels seront les employs les
plus fidles et les plus performants,
Evolv a crois les rsultats de tests de
personnalits avec les donnes fournies par Xerox sur les comportements
de ses employs en central dappel.
Xerox bnficie alors dun portrait de
lemploy idal et peut automatiser
sa dcision en fonction de lcart
du candidat par rapport cet idal
type. Les rsultats contredisent les
ides reues : par exemple, une exprience pralable dans un centre
dappel ne conditionne par ncessairement une performance plus haute.
Cependant, lautomatisation du recrutement exclut les candidats qui
ne se trouvent pas dans le primtre
des outils scanns par le recruteur :
un candidat qui ne dispose pas de
profil Linkedin est-il une moins bonne
recrue que celui qui lalimente ?

Le Big Data et lcosystme


sportif

Chiffres cls :
25 par seconde : cest le
nombre
dinformations
qumettaient les joueurs de
la Mannschaft quips de
matriel connect pendant
la Coupe du monde 2014

Lmergence du Big Data dans le


monde du sport constitue une tape
clef dans le dpassement des limites
et des exploits sportifs. Le Big Data
permet daffiner avec prcision les
mouvements, les tactiques et les
prouesses des joueurs sur le terrain,
confortant la tendance contemporaine un culte de la performance
comme lobserve le sociologue
Alain Erhenberg. Les sportifs, mdias
et publics cherchent toujours plus
quantifier, chiffrer et objectiver les
performances sportives, les analyser
sous le crible de la puissance des algorithmes et in fine tirer de nouvelles
stratgies permettant de poursuivre
leffort vers le dpassement de soi.
Les joueurs, gnrateurs de donnes
Selon Philippe Gargov, le Big Data
reprsente les troisime et quatrime gnrations de statistiques
utilises dans le monde du sport :
La

golocalisation

ces

(67) http://www.ft.com/intl/cms/s/2/e3561cd0-dd11-11e3-8546-00144feabdc0.html#ixzz374JVEd7M

74

Copyright

Date de parution: dcembre 2014

vastes

plages de donnes servent alors


analyser en dtails les mouvements
des joueurs sur le terrain et affiner
les tactiques de dplacements.
Ds 2012, le club du Paris Saint-Germain sest ainsi dot de brassards
GPS quips sur ses joueurs lors
des entranements pour capter
leurs dplacements et leurs efforts.
Les donnes physiologiques : une
quatrime gnration de statistiques
fournies par le Big Data sintresse
aux donnes de sant des joueurs
travers des capteurs physiologiques.
Lquipe nationale dAllemagne a
largement eu recourt au Big Data
pour la prparation de la Coupe
du monde 2014 grce aux logiciels
de traitement de donnes de la socit allemande SAP capable de
rcolter plus de 25 informations la
seconde. Dun ct, des capteurs
biomtriques poss sur les joueurs
permettent de collecter des donnes physiques telles que le rythme
cardiaque, les acclrations et dclrations ou les distances parcourues, de lautre des camras fournissent des donnes vido captures
sous plusieurs angles dtaillant les
trajectoires des joueurs sur le terrain.
LInternet des objets sempare du
sport
En plus de connecter les joueurs,
ce sont tous les objets sportifs que
lon connecte : du ballon de basket-ball augments 94fifty pour Nike
au ballon de football Smart Ball
pour Adidas, afin de transmettre en

Copyright

instantan des supports connects des donnes sur la prcision, la


puissance ou langle des tirs dune
frappe et daccumuler leurs historiques. lavenir, lensemble de ces
dispositifs high-tech pourrait tre utilis en temps rel pour permettre aux
entraieurs de changer de tactiques
en cours de match, ainsi qutre
largi de nombreux autres sports.
Quantifier, chiffrer, rationnaliser les
prouesses sportives : quelle place
pour lhumain ?
Il y a vingt ans, on ne pesait ni les
chevaux ni les cavaliers avant une
course hippique. Dsormais, on pse
les chevaux, on regarde leur poids,
on les mesure, on collecte un certain
nombre dinformations qui ont un rle
crucial sur les paris sportifs. Le Big Data
permet de dmultiplier les sources
dinformations, ce qui permet daffiner le suivi de performances des uns
et des autres et in fine les paris sportifs. Le Big Data, cest le perfectionnement de linformation. Jean-Luc
Errant, Directeur de Cityzen Sciences
Nanmoins, le Big Data ne remplacera pas lhumain selon Jean-Luc
Errant. Les analyses algorithmiques
ne permettent pas tant de prdire
avec exactitude les rsultats sportifs - car malgr limmensit des
donnes la part dincertitude reste
grande - que damliorer la comprhension des performances sportives
et surtout de prvenir des situations
risque dans une dmarche oriente vers le bien-tre des joueurs.

Date de parution: dcembre 2014

75

DirecteuR
affaires juridiques
et affaires publiques
Microsoft

Dans un monde de plus en plus


interconnect, lheure o les flux
de donnes saccroissent de faon
exponentielle

Marc Moss
LE big data et la ville

Chiffres cls :
Prs de 50 % de la population mondiale vit aujourdhui dans une zone urbaine
25 % : cest le pourcentage
de rduction de la consommation lectrique de la ville
de Seattle grce lanalyse prdictive et loptimisation des quipements
lectriques contrls par
des logiciels
Le march des villes intelligentes devrait atteindre 39
milliards de dollars en 2016,
contre 10 milliards en 2010
selon ABI Research.

Copyright

Dans un monde de plus en plus interconnect, lheure o les flux de


donnes saccroissent de faon exponentielle et o les capacits analytiques des machines senrichissent
continuellement, le Big data reprsente la prochaine vague technologique qui impactera durablement
et positivement les services rendus
par les collectivits et renforcera le
potentiel des agents publics et des
citoyens. Adosse la puissance du
Cloud computing lie la diffusion
des objets connects et aux rseaux
sociaux, la rvolution du Big data que prolongent les potentialits du
Machine Learning - constitue une opportunit afin de changer les choses.
Les donnes sont une ressource
prcieuse, un vritable actif.
Toutes les villes du monde sont
submerges de donnes, mais
ne savent pas toujours comment
les utiliser de faon pertinente.

Date de parution: dcembre 2014

77

Les villes ont besoin de solutions qui


permettent aux donnes de circuler au
sein dune infrastructure, intgrant des
capteurs, des compteurs, des canaux
de mdias sociaux et des marchs
de donnes publiques collectant des
informations cruciales, mais aussi des
systmes de back-end o les donnes
peuvent tre transformes en informations et en ressources que la population et les machines savent exploiter.
Pour y parvenir durablement, il importe que la confiance, la scurit et
la protection soient au coeur de la collecte et du traitement des donnes.
Aujourdhui, nous sommes la fois des
tmoins et des acteurs privilgis de
ces grandes volutions qui aident les
mtropoles rpondre aux attentes
de leurs citoyens et de leurs agents. En
mettant lhumain et ses droits fondamentaux au centre de leurs priorits et
en sappuyant sur des partenaires stratgiques, les villes renforcent leur rle de
moteurs de linnovation et du progrs.
La ville intelligente passe par la
connexion des agents municipaux
La modernisation numrique des
villes doit sappuyer sur linnovation
en privilgiant lindividu et les usages
et en laissant le soin au secteur public, aux entreprises et aux citoyens
de btir lavenir de leurs villes. Privilgier lindividu signifie mobiliser toutes
les ides, toutes les nergies et toute
lexpertise des habitants de la ville
pour crer une cit plus dmocratique, plus durable et plus efficace.

78

Copyright

Cest aussi confier aux agents municipaux des appareils et des applications
de qualit professionnelle en leur donnant la possibilit de rester connects
via un appareil mobile avec leur bureau
et leurs collgues, quel que soit lendroit
o ils se trouvent, afin que le service apport aux citoyens ne soit pas interrompu ds quils quittent leur lieu de travail.
Prenant en compte les usages des
agents, le projet CityNext a mis au
point des offres sur mesure qui autorisent et facilitent le paramtrage et
lutilisation de divers types dappareils,
quils fonctionnent sous des systmes
dexploitation
Windows,
Android,
ou Apple. Les agents ont des ides
bien prcises quant aux appareils
quils souhaitent utiliser et nous pensons que linteroprabilit offre plus
de flexibilit et de confort de travail.
LAutorit portuaire de Hambourg
(HPA) gre le plus grand port dAllemagne. Elle souhaitait tirer parti des
appareils nomades de ses agents pour
accrotre la mobilit de ses collaborateurs. La HPA a collabor avec Microsoft et son partenaire, Blue Communications Software, pour adopter une
solution Office 365 ProPlus, base sur
le Cloud, afin de permettre ses collaborateurs dtre productifs quelque
soit lappareil utilis ou lendroit o ils se
trouvent dans le port. Les problmes de
compatibilit ont ainsi t rsolus et le
risque dinterruption limit conduisant
une rduction de 75 % du temps consacr par les administrateurs la gestion
du dploiement. Autant de temps
disponible pour un meilleur service.

Date de parution: dcembre 2014

Les Big Data pour valoriser le potentiel


humain de la ville
De nombreux projets dinnovation
urbaine de grande ampleur ont
pour principal objet de rendre les infrastructures intelligentes en y intgrant des capteurs et en accroissant les capacits des rseaux. Bien
que cet lment soit essentiel, se limiter aux infrastructures engendre le
risque de passer ct de lnorme
potentiel humain quoffre la ville. Les
villes de la prochaine gnration
comptent sur les personnes au sein
de lEtat et des collectivits, dans les
entreprises et les citoyens pour btir
via linnovation une cit durable
dans toutes ses sphres : conomique, environnementale et sociale.
Les technologies Big Data peuvent aider les villes relever des dfis de plus
en plus pressants. Aprs des annes
de collaboration avec des maires du
monde entier, Microsoft a identifi plus
de 40 domaines dapplications rpartis dans huit secteurs critiques : nergie et eau ; btiments, infrastructures
et planification ; transports ; scurit
publique et justice ; tourisme, loisir et
culture ; ducation ; sant et services
sociaux ; administration publique.

tion de la consommation lectrique


de 25% grce lanalyse prdictive
et loptimisation des quipements
lectriques contrls par des logiciels.
Pas de ville intelligente sans Open
Data
La ville intelligente se dploie galement grce louverture des donnes publiques et la cration dun
cosystme de dveloppeurs imaginatifs et crateurs dapplications mobiles. Lexemple de lentreprise grant
les transports du Grand Manchester
(Transport for Greater Manchester)
en tmoigne : Transport for Greater Manchester utilise la plateforme
Windows Azure, pour hberger des
donnes publiques recueillies. Il est
maintenant possible de connatre en
temps rel la localisation des transports en communs mais galement
le nombre de places disponibles
sur les itinraires les plus utilises68.

Lune des applications concrtes


du Big data sillustre en matire de
consommation dnergie avec les
rseaux intelligents (Smart grids) et
lanalyse prdictive. La ville de Seattle
sest associe Microsoft, Accenture,
un fournisseur dlectricit local et
une structure but non lucratif, pour
crer un programme de btiment intelligent qui rend possible une rduc-

(68) http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?casestudyid=710000003034

Copyright

Date de parution: dcembre 2014

79

Universit Paris Dauphine


Vice Prsident
de Renaissance Numrique

Le marketing fait dores et dj lobjet dune rvolution profonde grce la


donne. Larrive des donnes en volume
et en temps rel conduit dimportantes
transformations des outils, des mthodes
et des comptences ncessaires pour analyser et comprendre les comportements
dun prospect, dun client.

Henri Isaac
Le Big Data et le marketing

intensit, frquences dutilisation :


les variables tudier sont infinies).

De nombreuses mthodologies, au
cur du marketing sont questionnes : les tudes, la notion mme
de campagne. Au-del de la fonction marketing elle-mme, cest
un nouveau paradigme de pilotage de lentreprise qui est en jeu.

La micro-localisation : des capteurs


type iBeacon localisent un client au
sein dun centre commercial pour lui
proposer les promotions les plus adaptes son parcours, au mtre prs.

Le consommateur de plus en plus


dcrypt
Dabord, lomniprsence des capteurs gnrateurs de donnes, la
Rvolution des capteurs 69 selon les termes de Christophe Benavent, dmultiplie les possibilits de
connaissance du consommateur.
Lopinion et lattitude sont identifies au travers de lanalyse automatique des sentiments et de lanalyse usages dun service (temps,

Les dispositifs de reconnaissance


faciale disposs dans les affiches publicitaires prsentes dans le mtro
parisien.
Ciblage comportemental et reciblage (retargeting)
Le ciblage comportemental (Behavioral Targeting), dsigne l'ensemble
des technologies et des outils qui
permettent d'afficher des publicits,
des contenus ditoriaux en adquation avec le comportement d'un
internaute. Cette technique publicitaire consiste employer des l-

(69) http://www.butter-cake.com/big-data-christophe-benavent-de-letude-a-laction-en-marketing/

Copyright

Date de parution: dcembre 2014

81

ments comportementaux, comme


l'historique des pages visites, les recherches effectues sur les sites, les
produits mis en panier et/ou achets en ligne, le clic sur bannire publicitaire, pour dterminer avec
prcision les centres d'intrt d'un
internaute ou d'un mobinaute. La
construction de ces profils, leur analyse et leur commercialisation ncessitent des technologies Big Data.
Le ciblage comportemental est dsormais trs largement utilis par les
annonceurs. Il est dsormais mieux
compris avec le dveloppement du
retargeting, dont lentreprise franaise Crito est le leader mondial.
Du Real Time Biding (RTB) lachat
programmatique
Lexplosion des inventaires publicitaires en ligne a conduit des volumes despaces invendus consquents qui ont finalement t vendus
aux enchres par les diteurs. Progressivement, les techniques de
dachat-vente despace ont volu.
Les diteurs ont construits des plateformes de ventes (Sell-Side Platform,
SSP) o les agences peuvent acheter des audiences en temps rel.
Les annonceurs ont, quant eux,
construit des plateformes dachat
(Demand-Side Platform, DSP). Les
espaces sont commercialiss aux
enchres
(plusieurs
annonceurs
peuvent saffronter pour acheter un
profil dinternaute) et tout se droule
dans un temps qui est infrieur la
seconde et de lordre de la milliseconde. De chaque ct, les acteurs

82

ajoutent des donnes des Data


Management Platform (DMP) afin,
daugmenter la valeur de ces inventaires pour les diteurs en qualifiant
leurs audiences, et de cibler plus
prcisment les internautes du ct
des annonceurs. Ces techniques
dachat en temps rel sont appeles Real Time Biding (RTB). Cet cosystme publicitaire en ligne repose
fondamentalement sur des technologies Big Data par les volumes de
donnes traites, les algorithmes
mobiliss et les comptences ncessaires pour btir de telles mthodes.
Alors que les techniques du RTB ont
historiquement t utilises pour
acheter/vendre des inventaires publicitaires excdentaires, lachat programmatique est une gnralisation
et automatisation des achats mdias
tous les inventaires publicitaires (y
compris les Private MarketPlaces,
PMP)70. La croissance de lachat programmatique est forte en France
(hausse de 125 % en glissement annuel 2012/13) et 22 % au premier semestre de 2014 71. La conception des
campagnes et lachat despace reposent donc dsormais de plus en plus
sur des comptences Big Data, tant
pour les diteurs et les annonceurs.
CRM, DMP et gestion de campagnes
Le dveloppement de lachat programmatique et des technologies de
reciblage (re-marketing) fait voluer
les frontires traditionnelles entre les
mtiers du marketing. La capacit
didentifier les profils des internautes
permet galement, lorsque lon lie la

(70) voir IAB Europe, AppNexus and WARC, (2014), Why and How Programmatic is Emerging as key to RealTime Marketing Success , June
(71) Observatoire de le-Pub SRI et PwC
(72) http://www.orange-business.com/fr/big-data-analytics
(73) http://www.visitprovence.org/agence_flux_vision_tourisme.asp
(74) Voir par exemple les donnes de Google sur le sujet : http://www.thinkwithgoogle.com/tools/customer-journey-to-online-purchase.html

Copyright

Date de parution: dcembre 2014

base de donnes client enrichie (par


exemple par les donnes des rseaux
sociaux), la plateforme DMP (Data
Management Platform) ncessaire
aux campagnes digitales, de personnaliser les messages, leur contenu, leur nature. Outre lefficacit
accrue des campagnes et loptimisation des budgets, ces transformations lies lutilisation des technologies Big Data modifient les mtiers de
la relation client qui se rapprochent
des mtiers du media planning.
Le Big Data au service de la conception et de linnovation produit
La possibilit daccder de nouvelles donnes massives en temps rel
constitue une rupture forte dans la faon daborder les tudes, la conception et ladaptation des offres et services. A cet gard, loffre Flux Vision72
dOrange Business Service constitue
un exemple intressant de ces transformations dans la conception des
offres. Cette offre permet toute socit daccder en temps rel aux
donnes de dplacement des utilisateurs du rseau mobile Orange.
LOffice du Tourisme des Bouchesdu-Rhne utilise ces outils pour analyser en temps rel les flux touristiques
dans le dpartement73. Il obtient ainsi en temps rel des donnes sur les
vnements, les lieux, les flux de dplacement, la dure des sjours, les
lieux visits. Les donnes anonymises identifient plusieurs catgories
de touristes : les locaux, les excursionnistes, les trangers (grce aux donnes de roaming). On peroit bien au

travers de cet exemple le bouleversement potentiel que le Big Data apporte dans le champ du marketing.
Continuous commerce
Ce que le Big Data contribue certainement le plus transformer cest
la notion mme de campagne et
donc la faon dexcuter une stratgie marketing. Les processus de
dcisions dachat des clients se
sont complexifis74 (rseaux sociaux,
App mobile, magasin, TV, tablette,
ordinateur, catalogue, affichage,
radio, presse, etc.) du fait dune information disponible abondante et
accessible pour le consommateur75.
De nouveau vocable apparus dans
le champ du marketing illustrent
bien cette complexit croissante :
pre-marketing76 et re-marketing77 ne
sont que les phases plus complexes
et denses dun processus continu
et temps rel que lentreprise doit
analyser, suivre et sur lequel agir.
Certains, comme Ogilvy parlent de
continuous commerce78. La ncessaire matrise de cette complexit
et du temps rel ne font que renforcer lutilisation des outils Big Data.
De nouvelles organisations et comptences ncessaires
Larrive des mthodologies Big Data
bouscule quelque peu les mtiers
historiques du marketing. Loutillage
croissant des dcisions marketing,
le pilotage des actions et de leur
budget ncessitent de nombreuses

(75) voir les donnes de Google par pays et secteurs disponibles sur le processus de dcision dachat en ligne :
http://www.thinkwithgoogle.com/tools/customer-journey-to-online-purchase.html.
(76) Voir par exemple le cas dans lautomobile http://www.largus.fr/actualite-automobile/le-marketing-est-mortvive-le-pre-marketing-5132379.html
(77) http://www.thinkwithgoogle.com/products/remarketing.html
(78) http://continuouscommerce.ogilvydo.com

Copyright

Date de parution: dcembre 2014

83

nouvelles comptences79. Au ct
du Directeur Marketing (Chief Marketing Officer, CMO), on voit apparatre des Chief Data Officer, voir
des Chief Digital Officer. Si lenjeu
du digital pour les entreprises nest
pas fonctionnel, il nen demeure pas
moins que la fonction marketing est
en premire ligne dans cette phase
rapide de transformation. Si de nouveaux mtiers au sein de la fonction
marketing mergent (data scientist,
data analyst, data visualizer), ce sont
la plupart des mtiers historiques qui
voluent profondment avec le digital (tudes, media planning, RP, etc.)
Ce qui est en jeu, cest la matrise
des outils digitaux, des mthodologies et de la culture de cet environnement mouvant. Nombreux
sont ceux qui appellent une nouvelle relation entre la Direction Marketing et la Direction des Systmes
dinformation (DSI)80. Dautres appellent un directeur technique au
sein de la direction marketing81. Ce
dbat concerne dailleurs tout autant les agences qui conseillent ou
excutent les dcisions marketing.
Elles font face des enjeux tout
aussi complexes : comment attirer
des data scientists ? Comment faire
voluer et prserver la culture crative lre de la mathmatisation
des dcisions et des campagnes ?
Au-del de lorganisation de la direction marketing ou des agences,
cest le renouvellement constant de
ces comptences qui est le vritable
enjeu.

84

Le Big Data et la scurit


publique

Chiffres cls :
20 % : cest le nombre de
crimes qui aurait t commis
en moins Santa Cruz grce
lquipement des quipes
de police de technologies
prdictives fondes sur le
Big Data

Une surveillance grande chelle,


rempart contre le terrorisme ?
La protection et la dfense des
citoyens sont des missions rgaliennes pour lesquelles le Big Data
permet une efficacit accrue.
Toutefois, cest dans ce domaine
que la tentation Orwelienne est la
plus prsente, limage du scandale mondial dclench par les
rvlations dEdward Snowden.
Les documents fournis par cet ancien consultant informatique travaillant pour la National Security
Agency (NSA) ont lev le voile sur
certaines de ses pratiques contraires
au respect de la vie prive. Dans
un contexte de risque terroriste
accru, lutilisation du Big Data ne
peut se rduire une caricature
o les donnes deviendraient linstrument dune police politique.

(79) http://www.journaldunet.com/solutions/analytics/metier-big-data-data-scientist.shtml
(80) http://www.accenture.com/us-en/Pages/insight-cmo-cio-alignment-digital-summary.aspx
(81) Brinker, Scott, McLellan, Laura (2014), The Rise of the Chief Marketing Technologist , Harvard Business
Review. Jul/Aug, Vol. 92, Issue 7/8, pp. 82-85

Copyright

Date de parution: dcembre 2014

Surveiller pour ne plus punir ?


La capacit du Big Data tracer,
cibler et suivre un individu permet
de renforcer le contrle des populations, notamment dans le cadre
de menace terroriste. La coopration avec des entreprises gnratrices de donnes, comme des
fournisseurs daccs internet ou des
oprateurs tlphoniques, autorise
un niveau de profilage trs lev.
Par ailleurs, les capacits prdictives du Big Data ouvrent la porte
une lutte contre le crime a priori,
linstar du monde dcrit par Philip
K. Dick dans Minority Report. La collecte et le traitement des donnes
permettraient de cartographier de
faon trs fine les zones les plus
risque et, grce aux technologies
de Machine Learning, de prvoir,
peut-tre, le prochain crime ou dlit.
Un groupe de chercheurs de lUCLA,
men par le professeur Jeff Brantingham, a analys 13 millions de
crimes. Avec laide du mathmaticien George Mohler de luniversit
de Santa Clara, ils ont appliqu sur
ce corpus les algorithmes prdictifs
drivs de ceux annonant les rpliques dun tremblement de terre.
Le logiciel, exploit par la police de
Los Angeles, est maintenant capable
de dfinir une zone de quelques
centaines de m2 o un crime devrait se produire dans les 12 heures.

Gestion des risques et scurit


publique
La scurit publique, cest aussi la
gestion des risques quotidiens des
citoyens : accidents de la route,
scandales sanitaires, etc. Dans ces
domaines l galement, les analyses prdictives permises par les
technologies Big Data peuvent tre
des leviers defficacit redoutables.
Ellis-Car est une startup qui, grce
une solution permettant de connecter les flottes automobiles, souhaite
prdire les accidents de la route. Un
module embarqu sous le volant du
vhicule permet de rcuprer un
certain nombre de donnes sur ltat
de la voiture mais aussi sur le comportement du conducteur (vitesse,
acclromtre, donnes GPS etc).
Toutes ces informations sont ensuite
stockes par les serveurs de la startup
qui les conjugue toutes les donnes
ouvertes lies la mto et la circulation par exemple. partir de l,
un nouvel algorithme permettrait de
raliser des prdictions sur les risques
daccident. Le crateur de cette
startup, Rand Hindi, auditionn pour
ce prsent livre blanc, a t dsign
jeune innovateur franais de lanne
lors du concours organis par la MIT
Technology Review en avril dernier.

long terme, le risque thique est de


glisser vers une pnalisation des intentions .

Copyright

Date de parution: dcembre 2014

85

Bureau de lInstitut G9+


et Associe Tlcoms
Digital et Mdias chez Sia Partners

Limmortalit serait-elle porte de main ? Cest


ce que la croissance fulgurante des technologies NBIC (Nanotechnologies, Biotechnologies,
Intelligence Artificielle et Sciences Cognitives)
dans le secteur de la sant laisserait imaginer
terme.

Isabelle Denervaud

En effet, la recherche
dans ce secteur pourrait
terme faire des miracles
grce la croissance exponentielle des donnes issues des objets
connects, de la gnomique ou de
la biologie molculaire. Lannonce
rcente par Google dun projet de
recherche de diagnostic de maladies comme le cancer bas sur
lutilisation de nanoparticules artificielles en constitue un exemple frappant. Lassaut pour dpasser la mort
est donc officiellement lanc mais
jusquo ira-t-on pour prolonger la
vie ? LE Big data et la qute de limmortalit
Un champ des possibles inspirationnel...
Dans la sant, le squencement du
gnome dont le cot devrait pas-

ser de 1000$ 100$ dici 2020 1 ,


permet dj de dtecter certaines
maladies gntiques ou prdispositions des maladies. Cet examen
interdit en France permet galement
de fournir un traitement personnalis
aux patients selon leur patrimoine gntique. Sergei Brin, co-fondateur de
Google, a publi en 2008 lanalyse
de son ADN et sa sa forte probabilit
de dvelopper la maladie de Parkinson Il a chang ses habitudes de
vie pour minorer cette ventualit.
Demain, la constitution et lexploitation de bases de donnes sur le
gnome pourraient ouvrir la voie
une recherche grande chelle
sur les maladies gntiques, la rgnration des organes grce aux
cellules souches ou encore la greffe
dorganes artificiels. Limmortalit
ne serait donc plus qu quelques
pas si on imagine remplacer les organes dfaillants par de nouveaux
artificiels et chaque jour plus endu-

Le Monde, 2014

Copyright

Date de parution: dcembre 2014

87

rants. En France, Carmat a dj ralis deux greffes de cur artificiel


depuis le dbut de 2014, et a dmontr que malgr le dcs du premier patient deux mois aprs lopration en mars, le concept dune
telle prothse est bien valid. Ainsi,
un deuxime patient a bnfici
de cette greffe de cur artificiel et
dautres laboratoires et chercheurs
sintressent dores et dj au dveloppement dautres organes artificiels, comme le foie, les reins ou
encore les poumons, qui pourraient
un jour remplacer le don dorgane.
et sans limites thiques ?
Si les perspectives dallongement
de lesprance de vie se profilent
dj, de nombreux points thiques
demeurent en suspens, comme
celui de leugnisme induit par les
technologies NBIC et le Big Data.
La dtection prnatale de maladies gntiques, telles que la trisomie 21, est dj possible aujourdhui
grce au squenage de lADN
prsent dans le sang de la mre.
Pour les spcialistes du domaine
comme Alexandre Laurent, ce nest
que la premire tape du tri des embryons 2 : demain, ira-t-on jusqu
choisir les bons embryons selon les
gnes quils comportent ? Cette possibilit est dj ltude en Chine
o le Beijing Genomics Institute tudie le patrimoine gntique de 2200
personnes avec un QI suprieur
160 pour identifier les gnes de lintelligence. La slection et la modification des gnes dici quelques an-

88

nes ne semblent plus une utopie. La


protection et la commercialisation
des donnes de sant, dont le patrimoine gntique, restent galement sans rponse aujourdhui. Les
donnes de bien-tre sont quant
elles dj utilises pour ajuster au
mieux les prix des contrats dassurance selon le comportement des
clients, comme chez Axa o des rductions sont actives en fonction
du nombre de pas raliss par jour.
La prdictibilit personnalise des
risques pour affiner les tarifs peut tre
double tranchant pour le financement de la sant, notamment pour
les mutuelles, o les cotisations variabilises des membres pourraient provoquer un dangereux dsquilibre...
Vers un meilleur des mondes ?
Le dbat autour du progrs technique et scientifique apparat aujourdhui encore plus quhier un
incontournable. Il a t rcurrent
dans lhistoire, comme la illustre la
longue priode de transition prcdant la diffusion des ides humanistes
au XVIIIe sicle. Un nouvel quilibre
est rechercher entre idal, valeurs,
science et progrs, dans un monde
en acclration continue : une transparence sur la collecte, lutilisation
et la commercialisation des donnes
personnelles est attendue. Avec le
vieillissement de la population mondiale et son impact sur les dpenses
de sant, en particulier dans les
pays dvelopps, les Etats ont tout
intrt initier le dbat et mobiliser
les citoyens et entreprises pour non
seulement traiter la question cono-

Usbek & Rica, 2014

Copyright

Date de parution: dcembre 2014

mique, mais aussi dlimiter les terrains


de jeux des exprimentations pour
garantir un niveau de confiance.
En une dcennie peine, les NBIC et
le Big Data se sont imposs dans le
domaine de la sant comme potentiel ultime remde aux maux mdicaux de lhumanit. En labsence de
cadre lgal et thique dfini, gants
du web, acteurs de la pharmaceutique et start-up spcialises nont
pas attendu pour investir dans la recherche et lexprimentation de solutions pour allonger lesprance de
vie humaine. Cependant, un nouvel
quilibre reste encore construire au
vu des interrogations conomiques,
politiques et philosophiques souleves, entre libert et dterminisme individuel, afin de dessiner ensemble les
esquisses dun meilleur des mondes
possibles , diffrent de celui dcrit
par Aldous Huxley dans son roman en
1930, ou de celui de Candide dans
le conte philosophique de Voltaire.

Copyright

Date de parution: dcembre 2014

89

C$

Futurs Usages des


Objets Connects et Big Data ?
Loffre dobjets connects est trs en avance sur les usages. Le flot de donnes
grandissant dobjets connects soutient la croissance du Big Data qui, son tour,
facilite lexplosion des usages.
Yannick Lacoste,

CEO - beConect.com

Jean-Franois Vermont
Chaiman - beConect.com

Pour sa croissance, le Big Data attend beaucoup de linternet des objets,


que lon nomme et cest peu dire le web 4.0. Prvoir lvolution du Big
Data passe donc, en partie du moins, par la connaissance de ce que sera
cet inter- net des objets que lon voit comme la prochaine grande rvolution
du web.
Quelle projection, quelle anticipation, quelle esquisse peut-on faire de lvolution de ce secteur prometteur ? Nous avons choisi danalyser ce march par la dynamique dvolution des usages, qui est, selon nous, le meilleur moyen dy parvenir.
Aujourdhui, le march et les usages des objets connects peuvent se ranger
en plusieurs catgories distinctes.

90

Copyright

Date de parution: dcembre 2014

mdecin sur deux ayant un smartphone utilisait une application sant.*

Grand public
Lusage auprs du grand public se
propage en cercles concentriques
partir de besoins initiaux simples
pour la maison connecte, le fitness
(et les fameux wearables) et les loisirs, pensons notamment aux drones.
Au sein de la maison, le monitoring
(et plus largement la scurit) ainsi
que la gestion intelligente de lclairage sont les deux principaux points
dentre en terme dusage. Attention ! On ne dira plus domotique
pour ces nouveaux usages terme
renvoyant un contrle plutt dcentr de lusager mais bien maison connecte ou intelligente .
Les deux logiques de Big Data sont
dailleurs trs diffrentes : on passe
dun contrle unique, le plus souvent par le biais dun spcialiste,
un contrle multiple directement
par les usagers et les systmes de
traitement intelligent nodaux. On
touche ensuite aux besoins plus volus qui ncessitent des transformations parfois plus
coteuses
des objets traditionnels : chauffage,
climatisation,
lectromnagers.
La sant est un autre usage majeur
qui, en raison de sa forte rglementation, se dveloppe dabord par
des usages simples : tensiomtre,
pse-personne, brosse dents Ce
qui ne lempche pas dentrer, lentement mais srement, dans les hpitaux et dans les pratiques mdicales
en gnral. En 2012 dj, plus dun

Finalement, un ensemble dusages


divers apparat, allant de la localisation dobjets, perdus ou vols, au
microscope connect. ce titre,
il est intressant de noter toute la
richesse crative en cours qui, parfois et contre toute attente, amne
un usage massif et quasi instantan de lobjet peine cr, alors
quils tait inconnu auparavant.
Par exemple, une valise connecte
vient tout juste de rcolter 1,2 M$
via un financement participatif.
Professionnels
Il sagit ici traditionnellement de linternet industriel, ou du machine to
machine , qui repose sur des processus de production qui sappuient
sur des composants communiquant
entre eux et avec les acteurs de
lcosysteme de lentreprise : fournisseurs, clients pour la personnalisation des commandes, ressources
humaines ddies lexcution
de la production, logisticiens pour
lvacuation de la production, etc.
Cet usage est en profonde mutation.
Lcosystme, jadis centr sur les
professionnels, devient
dsormais
multicentrique. Le client en est un
picentre vident, par exemple
dans lautomobile, mais aussi diffrentes communauts jadis indpendantes le deviennent. Pensons
une communaut dutilisateurs de
voitures qui partageraient des informations entre eux, ou encore une

(82) http://www.euractiv.fr/sections/innovation-entreprises/la-commission-europeenne-met-la-protection-desdonnees-en-haut-de
*http://vidalfrance.com/presse/premier-barometre-sur-les-medecins-utilisateurs-dun-smartphone/

Copyright

Date de parution: dcembre 2014

91

interaction
entre
le
concessionnaire et son
client, entre
un
utilisateur et des stations-essence ou centres de services. Globalement, on considrera les fonctionnalits des objets connects
comme une rsultante de la juxtaposition de plusieurs couches :
- les
possibilits et caractristiques des capteurs aptes collecter des donnes mesurables
: vitesse, acclration, composition chimique, temprature ;
- les modalits de transmission des
in- formations collectes : RFID, BlueToo- th, WiFi, 4G, satellite data ;
- les
mthodes
de stockage et
donnes, cette
particulirement

de captation,
danalyse des
dernire tant
importante
;

- les
fonctionnalits support
aux services rendus lutilisateur, qui peuvent tre par
exemple un retour dinformation.
Chaque couche de cette pile constitutive des objets connects fait lobjet dintenses efforts de recherche, de
dveloppement et damlioration.
Les capteurs notamment se mniaturisent et se diversifient de faon
ingnieuse dans leur aptitude
collecter des donnes. Aussi, les
convertisseurs des variations de valeurs physiques des capteurs en
data se perfectionnent et sont de
plus en plus conomes en nergie.
Une illustration impressionnante de

92

Copyright

cette nouvelle gnration de capteurs est leur implantation dans une


lentille oculaire souple afin de corriger la vue. Un vritable exploit, fruit
de quinze annes de recherche.
Les mthodes de captation des
donnes changes se
diversifient galement et se miniaturisent (bornes relais de captation), ou sappuient, lorsquelles le
peuvent, sur des appareils existants,
comme les tlphones mobiles.
Un grand nombre dacteurs agissent
pour transformer les objets privs et
publics en vritable bornes de collecte. Dans le domaine du mobilier urbain, Citelium transforme par
exemple ses rverbres en antenne
4G, en borne Wifi, en support de
camra ou en borne de recharge.
Paralllement, les outils de traitement
du flux de donnes, de stockage et
danalyse dveloppent chaque jour
leur puissance (Cloud, Big Data).
Les fonctionnalits ouvertes aux utilisateurs se dveloppent sans limite,
et dpassent le plus souvent limaginaire dles utilisateurs potentiels.
quoi peut servir une brosse dents
connecte ? La rponse donne par

Date de parution: dcembre 2014

certains concepteurs : crer une


animation familiale parents-enfants
par un concours de celui qui se lave
le mieux les dents avec des points
gagner, des goodies, des paris, et la
possibilit de partager les rsultats
avec le dentiste. Nous laissons le lecteur apprcier la puissance de limaginaire des crateurs de ces objets.
Le nombre dentrepreneurs, dinventeurs, de dcouvreurs, de dveloppeurs et de chercheurs mobiliss crot de faon exponentielle.
Loffre
prend certes beaucoup
davance par rapport aux usages,
mais cet usage elle le cre !
Doit-on sattendre un effet souffl, une bulle qui va se dgonfler
et dcevoir les prvisions optimistes
de dveloppement du Big Data ?
Comme lexprimait Jacques Attali
le 25 novembre 2014 lors de la confrence du G9+ sur le thme Internet va-t-il tuer le capitalisme
? , les rvolutions venir seraient
plu- tt du ct des biotechnologies
et des nanotechnologies que de linternet des objets et du Big Data.
Une rponse est chercher dans la
dynamique de cration de ce march, qui en est dailleurs dj un.
Aujourdhui se met en place un mcanisme de cration dusage fond sur un web 4.0, web symbiotique
pour reprendre lexpression de Jol
de Rosnay dans lequel le rel et le
virtuel se rejoignent dans un continuum de perception et daction.
Il

ne sagit pas dune mcanique

Copyright

dopen innovation, ni de cration


collaborative dans laquelle crateurs et consommateurs exercent
une coresponsabilit de cration. Il
sagit dune mcanique communautaire dans laquelle des initiateurs sinvestissent dans la cration
tous azimuts dobjets connects
aux fonctions les plus rares, les plus
innovantes, en apparence futiles
pour certaines dentre elles, dans
lesquelles linitiateur recherche un
vote, un assentiment des utilisateurs
venir par tout type de mcanisme
social, comme par exemple la possibilit de prcommander des produits en cours de dveloppement.
Le ressort de la cration de la demande repose sur lappel aux besoins, aux dsirs et aux fantasmes
des premiers utilisateurs vouloir
non seulement un objet, mais un
objet et une communaut dappartenance, Dans un premier temps,
la communaut des utilisateurs de
ces nouveaux objets compltement
hybrides relient nolens volens les utilisateurs entre eux, avec les organisations qui les mettent en place.
Pour maximiser leur chance de succs, les initiateurs sont prts faire
pivoter leur modle et prendre en
compte les remarques des utilisateurs
et le rsultat des observations, dans
une approche web 4.0 entirement
en ligne avec laspect social des
objets et la numrisation des activits
en mode ralit augmente. Si lon
rsume, lalchimie qui se met en
place est fonde sur une hyperstimulation des
initiateurs, lenvie,

Date de parution: dcembre 2014

93

ou la ncessit, de servir une communaut aux quatre tages de la


pile constitutive des objets connects. Cette alchimie repose galement sur un gisement de latences et
dattentes de consommateurs, lesquels souhaitent vivre une existence
augmente et une forte intgration sociale dans leur communaut.
Ce modle est extrmement dynamique, gnrateur dinventions,
dusages et de marchs. En se limitant ce niveau dobservation, nous
pourrions en conclure que le Big Data
sera fortement propuls par tous les
flux de donnes capter, stocker,
analyser, rediriger et scuriser.
Toutefois, des
freins
puissants
peuvent venir casser la croissance
du march des objets connects.
Ces freins viennent du fait que les
objets connects touchent lintime
et au personnel. Les donnes collectes peuvent tre utilises pour
enfermer lutilisateur dans une relation conditionne et oblige , au
sens ancien du terme qui voque
une nouvelle allgeance venir.
Il est probable que certains acteurs conomiques et institutionnels
collecteront des donnes
dans le but premier de dvelopper des stratgies dinfluence et de
contrle, et ce en marge des attentes des futurs consommateurs.
Pour le comprendre, prenons une
analogie avec le reciblage publicitaire sur internet (le retargeting). Lorsquun internaute navigue sur un site,
plusieurs acteurs suivent sa navigation et ses cookies, principalement le

94

Copyright

responsable du site et le publicitaire


avec lequel il a pass un accord.
En temps rel, la navigation est dcortique et les cookies de tous les
sites consults sont pris en compte,
dgageant ainsi son historique dutilisation. Les donnes clients des sites
consults sont rapprochs des modles dinfluence qui dterminent,
grce au traitement que permet
le Big Data, des corrlations que
lon nimaginait pas il y a quelques
annes et qui dterminent les messages et les publicits que vous allez recevoir pendant et aprs votre
consultation, soit par email, soit
lors dune navigation ultrieure.
Les rsultats sont l, le modle
dinfluence est
tabli, et cela
fonctionne : les internautes sont influencs et oprent des transactions en conformit avec les modles dinfluences mis en uvre.
Maintenant, projetons-nous dans
le domaine des objets connects.
Sans rgulation, ni autolimitation,
ni moyen de rsistance, des informations bien plus personnelles et
intimes quune navigation internet
seront collectes, dissques et mis
dans des modles dinfluence, voire
de contrle. Pensons simplement
la mesure du rythme cardiaque :
que diriez-vous de recevoir une publicit pour lachat dun dfibrillateur alors quun stress rcent vous
aurait conduit avoir une mesure
anormale ?... Ou encore plus prs de
nous, les failles de scurit actuelles
sur lespoir dun eldorado et sur
des camras de surveillance rvles

Date de parution: dcembre 2014

par des sites comme insecam.com.


Avec la forte probabilit que certains acteurs conomiques et institutionnels soient malveillants et
cherchent considrer les consommateurs comme une ressource
exploiter et contrler leur profit,
et non pas au profit de leurs clients
et usagers, un cart grandissant
risque de se former entre les attentes des consommateurs et les
fournisseurs dobjets
connects.
De fortes tensions sont attendre
dans ce scnario, et il est tout
fait imaginable que se produisent
quelques scandales
mdiatiquement mis en scne dans les pays dmocratiques dnonant des acteurs
exploitant sans scrupule des donnes
intimes et crant un rapport dinfluence ressemblant de labus de
faiblesse. Il est alors aussi imaginable
que le march des objets connects
passe de lenthousiasme le plus dbrid une plus grande mfiance.
Lavenir du march
des objets
connects reposera donc sur le dveloppement
de
mcanismes
de confiance, titre dexemples :
- la proprit des donnes accorde
lutilisateur et linterdiction faite aux
acteurs dexploiter ces donnes sans
un consentement explicite, dont la
forme reste dailleurs imaginer ;
- la possibilit de se mettre en mode
maison , par analogie au mode
avion des tlphones mobiles,
afin de se dconnecter tout moment des remontes vers les acteurs

Copyright

conomiques et institutionnels, ou
de fonctionner dans un mode dgrad pour certains objets connects que lutilisateur jugerait pertinent.
Une conclusion provisoire est que le
Big Data est promis un bel avenir
pour les dix prochaines annes, et ce
travers lexplosion des usages des
objets connects qui seraient conus
et exploits dans une logique de respect et de bienveillance envers leurs
utilisateurs, ce qui il faut le dire est
encore loin dtre une vidence.
Avec les objets connects, les fournisseurs de solution touchent lintime, et donc une matire sensible,
voire potentiellement explosive.
Les acteurs conomiques, institutionnels et tatiques, devront reconnatre que les donnes personnelles ne leur appartiennent pas, et
que des mcanismes de contrle
par des autorits techniques, par
des lois et des juges, sont indispensables leur propre russite.
Nous recommandons au lecteur intress par le futur du Big Data et
des objets connects de se faire
son avis tout simplement en achetant des objets connects, en les
utilisant, en les observant et en
sintressant au dbat sur la vie
prive en lien avec le Big Data.
Pour ceux qui souhaiteraient prolonger le
dbat, vous pouvez
joindre les auteurs dans la rubrique
contact de beconect.com. Ils seront ravis dchanger sur les thmes
abords, dont les enjeux socitaux sont extrmement puissants.

Date de parution: dcembre 2014

95

D$

QUELS SONT LES ENJEUX JURIDIQUES


DE CETTE RVOLUTION ?

Un tat transparent sur son fonctionnement et protecteur des liberts


personnelles : voil les deux conditions dune dmocratie lre du Big Data
Romain Lacombe,

Charg de linnovation et du dveloppement de la mission Etalab

Dune part, la prsentation des diffrentes applications du Big Data prsentent un potentiel conomique, social et politique norme. Ces progrs technologiques viennent questionner de nouveaux enjeux thiques.
Ils concernent la vie prive des individus, la rationalisation des choix et la
place de lhumain dans les processus de dcisions, la confiance accorde
la technologie, la capacit de rguler des formules mathmatiques, etc.
La demande pour plus de transparence est une modification structurelle
face laquelle les instances de rgulations et les entreprises nont dautres
choix que de sadapter
Yves-Alexandre de Montjoye, chercheur associ au MIT

96

Copyright

Date de parution: dcembre 2014

Pour la puissance publique, la rvolution des donnes provoque par


le Big Data bouleverse le cadre lgislatif et rglementaire en place,
structur en France autour la loi
Informatique et Liberts de 1978.
Le lgislateur est confront une
double problmatique : comment
continuer assurer la protection
des donnes prives lre du Big
Data sans bloquer limmense potentiel dinnovation quil propose ?
En phase de concertation, le rgulateur rflchit de nouveaux
modles de rgulation, constatant
un certain essoufflement de la loi
actuelle base sur le principe de la
notification et du consentement. Le
rgulateur est en attente du General Data Regulation Plan europen
lordre du jour de lactuelle mandature europenne qui a jusquen
2015 pour achever ce texte82. Cette
rflexion est partage par ladministration amricaine qui jusquici
a adopt, comme de coutume,
une approche de self-regulation.
Le problme majeur est que la loi de
1978 est structure autour de la collecte des donnes et de la finalit de
cette collecte : si vous ne collectez
des donnes que pour X motif, vous
ne pourrez pas les utiliser pour un motif Y, Y tant juge incompatible avec
X. Franois Bourdoncle, Prsident
de FB&Cie, co-fondateur dExalead,
et co-rapporteur du plan Big Data
pour le Ministre de lEconomie

Big Data : lenjeu de la rgulation est


lutilisation de la donne, non sa collecte
La rgulation actuelle des donnes,
centre sur la modalit de sa collecte et non sur sa finalit, interdit
les croisements de jeux de donnes
de diffrentes natures et leurs utilisations par les entreprises. Pourtant,
la donne est ladjuvant essentiel
de la rvolution industrielle en cours
et les conditions de son utilisation
font maintenant partie des conditions de croissance des entreprises.
Le discours alarmiste sur les donnes
personnelles nourrit une dfiance qui
est un frein pour le dveloppement de
lconomie numrique de la France
Thibaut Munier, Fondateur de
1000mercis-numberly,
Administrateur de Renaissance Numrique.
crite en 1978 en raction au projet SAFARI qui visait croiser les fichiers nominatifs de ladministration,
la Loi Informatique et Liberts doit
oprer un changement de fond si
lon veut permettre aux entreprises
dexploiter le potentiel conomique
de leur base de donnes. lheure
actuelle, les autorisations de croisement des donnes sont dlivres
par la CNIL au cas par cas, en fonction de chaque entreprise. Ce processus ralentit la pntration du Big
Data dans les entreprises franaises.

(82) http://www.euractiv.fr/sections/innovation-entreprises/la-commission-europeenne-met-la-protection-desdonnees-en-haut-de

Copyright

Date de parution: dcembre 2014

97

La fin de l'anonymisation des


donnes = la fin de la vie prive ?

Avec la multitude de donnes collectes sur une


personne et ses diffrentes activits, il sera toujours
possible aujourd'hui de retrouver lorigine et donc
l'identit d'une donne, en la croisant avec les
autres informations contenues dans d'autres jeux
de donnes. Des tudes rcentes montrent les limites techniques de l'anonymisation comme protection efficace de la vie prive.
- En 2006, AOL avait ouvert les donnes de recherche de ses utilisateurs pour quelles puissent
faire lobjet de recherches : les historiques de recherche sur trois mois de 658 000 utilisateurs ont
t publiques. En thorie, les donnes avaient t
anonymises et les utilisateurs ntaient identifis
que par un numro. Pourtant, lensemble des requtes dun internaute peut savrer suffisant pour
identifier un individu. Ainsi, le New York Times est
parvenu identifier une utilisatrice du New Jersey
sur la base des ses recherches pour acqurir une
nouvelle maison.
- Dans son tude Unique dans la foule , lquipe
du MIT du professeur Sandy Pentland83 a dmontr que dans la base de donnes anonymises
dun oprateur de tlphone dun million et demi
de personnes, il suffisait de quatre lments spatio-temporels pour identifier 95 % des participants
de lexprience. Ces lments peuvent tre par
exemple un statut sur Facebook avec la mention dun lieu, mais aussi lusage dune borne libre
daccs Wifi. En dautres termes, la prvisibilit de
nos dplacements quotidiens nous rend identifiables malgr lanonymisation des mtadonnes
(date et heure de lappel, rcepteur et metteur
de lappel).
Bien que la puissance de calcul djoue les mcanismes danonymisation, cela ne veut pas dire que
toute vie prive est impossible l're de la collecte
des donnes et que l'on peut lire dans un jeu de
donnes comme dans un livre. C'est donc sur cet
aspect, lindividu derrire une donne que sest
concentr le rgulateur jusquici.

98

Copyright

Date de parution: dcembre 2014

La CNIL donne accs aux donnes


de soins des assurs Axa dans un
cadre exprimental

Remis en 2003, le rapport Barbusiaux prconisait


dautoriser, sous conditions, les complmentaires
sant davoir accs aux donnes de sant de leurs
assurs. Ainsi, la CNIL a permis Axa, en 2010, dans
un cadre exprimental, dobtenir les donnes de
soins en pharmacie de ses assurs sant en prservant le secret mdical. Lexprimentation a t
mene auprs dun panel de 41 000 assurs dans
dix dpartements de France.
Le but final est de proposer aux assurs des garanties pouvant mieux correspondre leurs besoins (remboursement optique en fonction du dfaut visuel, remboursement des mdicaments non
pris en charge par la Scurit sociale, etc) ,
explique Axa dans un communiqu.
Ici, par la multiplication, le croisement et lanalyse
de donnes, la voie vers une mdecine plus personnalise, plus performante et moins coteuse a
t ouverte.

(83) Yves-Alexandre de Montjoye, Csar A. Hidalgo, Michel Verleysen &


Vincent D. Blondel, Unique in the Crowd: The privacy bounds of human
mobility, Scientific Reports 3, Article number: 1376, Mars 2013 - http://
www.nature.com/srep/2013/130325/srep01376/full/srep01376.html

Copyright

Date de parution: dcembre 2014

99

Quelques pistes actuellement


en cours dexamen en Europe
et dans le monde pour faire
voluer le cadre juridique
qui encadre les donnes personnelles

Privacy by Default

We live in a Track-Me world, one


from which opting out is, as a practical matter, often not possible.

La Privacy by Default est au coeur de


la politique europenne de rgulation des donnes personnelles. Lancienne vice-prsidente de la Commission Europenne, Viviane Reding,
en a fait le 3me pilier du General
Data Regulation Plan, aux cts de
la transparence et du droit loubli.

Lauren E.Willis, Universit de Berkeley

Privacy by Design

La Privacy by Default consiste paramtrer par dfaut les plus hautes options de protection des donnes personnelles dans les produits et services
numriques. Elle est fonde sur trois
constats : (1) le paramtrage initial
propos nest pas modifi par lutilisateur, (2) lutilisateur est favorable
une meilleure protection de ses
donnes personnelles, (3) les entreprises devront tre plus transparentes
pour convaincre lutilisateur douvrir ses options de confidentialit.

N durant les annes 90 aux tatsUnis, le concept de Privacy by Design consiste mettre la protection
des donnes prives au coeur de
la conception mme du produit :
celles-ci sont protges a priori par
le design du produit ou service et
non plus par un contrle a posteriori. Son implantation dans larchitecture mme du produit ou service
permet dapporter une rponse
globale la protection des donnes personnelles, adapte au Big
Data. Cest le modle en place,
par exemple, dans la gestion des
donnes traites par les camras de surveillance aux tats-Unis.

En somme, le concept de Privacy


by Default considre que lutilisateur nest pas suffisamment inform
et comptent pour tre le seul responsable de la protection de sa vie
prive. En effet, en 2013, 63 % des
utilisateurs Facebook aux tats-Unis
nont jamais essay de rgler leurs
options de confidentialit. Celles-ci
doivent donc tre garanties dans

100

le paramtrage mme des plateformes en ligne. Lavantage de la


Privacy by Default rside dans le fait
que ce modle de rgulation systmique ne souffre pas du volume ou
de la varit des donnes collectes

Copyright

Prsente dans les textes europens, au coeur des rflexions


de la CNIL, la Privacy by Design
implique
de
lourds
investissements et manque dapplications
concrtes de la part des entreprises.

Date de parution: dcembre 2014

Le modle mergent de protection


par certifications
Cest le processus qui dtermine
la finalit des donnes qui importe:
pourquoi les croise-t-on ? Comment
? Aussi, ce que lon doit rguler et
juger cest la lgitimit des traitements qui sont faits par le croisement des donnes en fonction de
la finalit du processus lui-mme
et non la finalit de la collecte
Franois Bourdoncle, Prsident de
FB&Cie, co-fondateur dExalead,
et co-rapporteur du plan Big Data
pour le Ministre de lEconomie.
La rflexion autour de ce nouveau
modle de rgulation est encore
jeune. Il t mis en avant par John
Podesta dans son rapport pour la
Maison Blanche et par le rapport Big
Data remis par Franois Bourdoncle
et Paul Hermelin, PDG de Cap Gemini France, au Ministre du Redressement productif en 2014. Il fait cho
linadquation entre le cadre
Notice & Consent et le contexte Big
Data o la collection apparat incontrlable.
Lide sous-jacente est de ne pas
couper le robinet des donnes
la base mais bien de contrler leur
usage responsable a posteriori. Cette
rgulation sectorielle soppose une
tradition europenne de lgislation
avanant par grands textes fondateurs, comme cest le cas en ce
moment avec le General Data Protection Regulation actuellement en
cours de rdaction par la Commission.

Copyright

La restitution de leurs donnes aux


individus : les projets VRM dans le
monde
Le principe dun projet VRM, pour
Vendor Relationship Management,
est de restituer aux individus toutes les
informations quils dlivrent par leur
comportement. Le VRM ne suffit pas
constituer un cadre juridique structurant pour le Big Data mais cela peut
tre un levier vers plus dautonomie
et de libert pour les citoyens. Les
initiatives de Self Data tentent de
mettre mal lambigut autour de
la notion de donnes personnelles,
la fois perues comme une manne
par les entreprises et comme un
danger pour les opinions publiques.
Renaud Francou, porteur du projet
MesInfos pour La FING, indique ainsi que 78 % des consommateurs ne
font pas confiance aux entreprises
pour lexploitation de leurs donnes
personnelles : lasymtrie entre entreprises et consommateurs dans le domaine de la rcolte et de la gestion
des donnes personnelles engendre
un dlitement de la confiance de
ces derniers et la monte dun dsir de plus en plus fort de contrle
et de matrise de ses donnes.
En France, cest La FING qui, depuis novembre 2013, mne ce type
dexprience avec le projet Mes
Infos. Lexprimentation a ainsi runi pendant six mois 300 individus
volontaires clients dau moins deux
des huit entreprises partenaires qui
ont accept de participer ce retour de data, parmi lesquelles Axa,

Date de parution: dcembre 2014

101

le Crdit coopratif, la Banque postale, les Mousquetaires, Orange,


la Socit gnrale, Google et Solocal. Une plateforme scurise
de cloud personnel a t mise en
ligne sur laquelle les quelques 300
testeurs pouvaient avoir accs
lensemble de leurs donnes telles
que leurs relevs de comptes bancaires, leurs historiques dachats,
leurs donnes de golocalisation
ou encore de communications.
Dans le mme temps la FING a lanc en partenariat avec des dveloppeurs et des coles un concours
de cration dapplications et de services capables de rutiliser de faon
innovante les donnes mises en jeu.
Facilitation du quotidien, classements, alertes, self-coaching, mise
en relation, bons de rduction, la
crmonie a ainsi t loccasion
de prsenter les quelques trente
concepts et la dizaine de prototypes
labors pour loccasion, limage
de lapplication Moi qui propose
de fournir chaque mois dans une
dmarche de quantitative self un
relev de lensemble des activits
de lutilisateur, comme le nombre
de kilomtres parcourus ou lvolution des achats au supermarch.

tion de la vie prive dans le panel


des exprimentateurs mais qui ne
se concrtise pas directement par
une utilisation plus prcautionneuse
des services en ligne proposs.
Linitiative de la FING et la mouvance de Self Data repose
sur des projets similaires mens :
aux Etats-Unis, avec le projet Blue Button qui permet, en un
clic, de tlcharger ses donnes
dans les secteurs de lnergie,
de la sant ou de la formation ;
au Royaume-Uni qui a mis en
place avec le soutien des pouvoirs
publics le projet MiData : les entreprises participantes sengagent
rendre aux individus les donnes
personnelles et transactionnelles les
concernant, dans un format lisible.

Une quipe de sociologues a accompagn lexprience et men


une srie denqutes quantitatives
et qualitatives pour rendre compte
du ressenti des 300 testeurs. Les rsultats ont montr la confirmation
du phnomne du privacy paradox : un niveau de proccupation
lev pour les questions de protec-

102

Copyright

Date de parution: dcembre 2014

103

PARTIE IV

LA FRANCE
LHEURE DU BIG DATA

Les enjeux et dynamiques qui traversent la


rvolution du Big Data exigent des dcideurs
politiques et conomiques quils saisissent le
phnomne et sattlent favoriser son avnement en France.
Depuis plusieurs annes, les gouvernements
successifs montrent leur intrt pour le Big Data
et le levier conomique quil reprsente. Les
politiques publiques concernant le Big Data se
trouvent la confluence de deux problmatiques :
- Lquation entre vie prive et comptitivit.
La France ne doit pas laisser chapper de potentiels leviers de croissance, tout en agissant
dans un cadre lgal protecteur des liberts individuelles.
- Adapter lconomie traditionnelle aux modles conomiques bass sur lanalyse de
la donne. De nombreux pans de lconomie franaise peuvent tre bouleverss par
les acteurs qui matrisent la donne et qui ne
craignent pas de remettre en cause les quilibres conomiques traditionnels. Les grandes
entreprises nationales voient dj natre un
nouveau type de concurrence face auquel
elles peinent innover.

Copyright

Date de parution: dcembre 2014

105

Ltat, utilisateur exemplaire


des technologies Big Data
titre dexemple, pour faire tomber les peurs et parce que ces outils sont
redoutablement efficaces, la puissance publique pourrait tre le premier
acteur adopter en masse les technologies Big Data pour llaboration et
lvaluation de ses politiques publiques.

La rvolution de la donne constitue pour ltat une opportunit de dynamiser


les services publics, la lutte contre le chmage ou la gestion des hpitaux. Une
bonne matrise du Big Data permet une meilleure connaissance et un meilleur
suivi des citoyens et offre galement, dans un contexte de rduction budgtaire, la possibilit doptimiser lallocation des ressources.
Diffrents exemples illustrent la puissance du Big Data au service de lintrt
gnral :
La prdiction dans le domaine de la sant.
En 2009, une universit canadienne a dvelopp une plateforme danalyse
en temps rel des flux de lHpital des Enfants Malades de Toronto. Ltablissement est parvenu prvoir ainsi lapparition dinfections nosocomiales 24h
avant les premiers symptmes84.

(84) IHTT, Transforming Health Care Through Big Data, 2013, p.8

106

Copyright

Date de parution: dcembre 2014

Le ciblage dans la lutte contre la


fraude.
Avec cent millions deuros de
fraudes dtectes en 2009, Ple Emploi compte sur un meilleur traage
des utilisateurs pour limiter la fraude.
La Cour des Comptes85 prconise le
croisement des donnes avec la Scurit Sociale mais galement des
acteurs privs comme les banques
et les oprateurs tlphoniques. Il
serait par exemple possible de dtecter si un bnficiaire rside
ltranger alors que cela est interdit.
Des systmes similaires ont t mis
en place pour lutter contre la fraude
et lvasion fiscale dans plusieurs
pays. (cf encadr page suivante)
Une meilleure gestion des villes.
La population mondiale rside maintenant en majorit dans des zones
urbaines. La part des urbains au
sein de la population mondiale atteindra 70 % en 2050, soit 6 milliards
dindividus. Le Big Data apporte de
nombreuses rponses aux dfis engendrs par cette urbanisation en
pleine explosion. Les agents municipaux doivent en effet assurer la qualit des services publics tout en veillant une bonne gestion financire
: le contexte actuel valorisant le prcepte du faire plus avec moins.
A Issy-les-Moulineaux, la municipalit
a dcid de travailler avec dix entreprises pour dvelopper IssyGrid, le
premier rseau de quartier intelligent
en France. Parmi diffrentes innovations, ce rseau a permis doptimiser
la gestion de leau et le traitement

des eaux uses grce des systmes danalyse de consommation,


rduisant de 10 20 % la consommation et la facture nergtique.
La prdiction en matire de crimes
et dlits.
Dans sa nouvelle Minority Report,
Philip K.Dick dpeint un monde o
les crimes sont devenus impossibles
grce trois mutants qui ont le pouvoir de prdire lavenir. La ralit
dpasse la fiction. Le logiciel PredPol predictive policing fonctionne sur un algorithme dessin par
un mathmaticien, un anthropologue et un criminologue. En agrgeant des donnes aussi diverses
que la composition dmographique
dun quartier ou lhistorique des infractions passes par exemple, les
autorits policires peuvent distinguer les zones o les prochaines infractions sont les plus probables.
De cette manire, les forces de
lordre peuvent dpcher des
hommes sur des zones risques et
empcher une infraction de se produire. Les premiers tests du logiciel
PredPol ont t raliss ds 2011 par
la police de Santa Cruz, en Californie. Diffrentes villes ont rpt lexprience : New York, Los Angeles
Dans la mgalopole californienne,
PredPol a t utilis entre novembre
2011 et mai 2012. Les crimes et infractions ont diminu de 13 % alors
que dans le reste de lEtat qui na
pas dploy cette technologie
ce chiffre a augment de 0,4 %.

(85) www.ccomptes.fr/content/download/.../2_6_Pole_emploi_tome_II.pdf

Copyright

Date de parution: dcembre 2014

107

Le Big Data : nouvel arme contre


la fraude lassurance maladie.
Lexemple amricain du Fraud
Prevention System

En moyenne le montant de la fraude lassurance sant quivaut presque 7 % de la totalit des dpenses de sant dun pays soit pour
2014 un cot mondial quivalant 376 milliard
deuros.
La situation est particulirement inquitante
aux Etats-Unis. La fraude lassurance sant reprsente entre 3 et 10 % du total des dpenses
de sant soit entre 75 et 250 milliards de dollars
par an. Alors que le vieillissement de la population sacclre et que le nombre de maladies
chroniques augmente, les autorits ont dcid
dagir en consquence.
En juin 2011, le Ministre de la sant amricain
a dploy le Fraud Prevention System (FPS).
Cette technologie fonctionne selon des technologies du Big Data. Il collecte et agrge des
donnes. Puis un protocole danalyse fond sur
des algorithmes examine au fur et mesure les
demandes de remboursement prsentes. Ces
demandes sont notes en fonction du risque
de fraude. Si une demande semble prsenter de forts risques de fraude, les autorits sont
alertes avant de procder au remboursement
afin de vrifier lauthenticit du document.
Le contrle de donnes fonctionne sur quatre
types dalgorithmes :
- Rules-based models : filtrent les demandes de
remboursement. Ils identifient par exemple les
factures qui portent un numro didentification
Medicare vol ou utilis de manire anormale.

108

Copyright

Date de parution: dcembre 2014

- Anomaly models : dtectent les comportements anormaux en les comparant des comportements de rfrence. Par exemple, un
fournisseur de soins de sant facturant bien plus
de services de soins que 99 % des fournisseurs
analogues en une seule journe sera identifi.
- Predictive models : valuent des comportements laune de cas prcdemment identifis comme frauduleux.
- Network models : analysent des liens associs entre diffrents acteurs. Par exemple, les
services dun fournisseur li ayant un comportement frauduleux seront identifis comme frauduleux grce lanalyse de localisation.
Un retour sur investissement avantageux
Linvestissement pour construire et mettre en
place le FPS ft relativement lourd : environ 41
millions de dollars. Mais le retour sur investissement est trs intressant. En effet, le systme
prventif a permis Medicare dconomiser
210 millions de dollars. Ainsi pour un dollar dpens, cinq dollars ont t conomiss.
Informations et chiffres issus du livre blanc Dun
systme de sant curatif un modle prventif
grce aux outils numriques , Renaissance Numrique, Septembre 2014

Ltat pourrait ainsi, en utilisant les technologies


Big Data, tre valeur dexemple pour encourager dune part le march franais du Big Data
se dvelopper, et dautre part encourager
les grandes entreprises traditionnelles sengager dans le secteur du Big Data.

Copyright

Date de parution: dcembre 2014

109

Lcosystme franais :
de vrais atouts pour devenir
leader europen du Big Data

De nombreuses startups et agences spcialises sont nes de cette


ncessit de matriser la donne pour les entreprises et organisations.

Un cosystme en trois strates


De nombreuses startups et agences spcialises sont nes de cette ncessit
de matriser la donne pour les entreprises et organisations. Cet cosystme
florissant se compose de trois couches distinctes :
La production de la donne.
Il sagit des startups qui participent la production et collecte des donnes
en fabriquant des capteurs, linstar du tee-shirt connect produit par CityzenSciences, ou en rendant accessibles des donnes publiques, comme, par
exemple, Kel Quartier qui dessine le portrait-robot dune zone urbaine : revenu moyen des habitants, taux dinscurit ou densit du tissu commercial.

110

Copyright

Date de parution: dcembre 2014

Les outils de traitement et danalyse


de la donne.
Ce sont les entreprises qui proposent
aux grands groupes des solutions
technologiques et des conseils pour
mieux matriser la donne. cheval
entre lorganisation dune agence
et dune startup, elles dveloppent
des outils en interne quelles associent ceux existants comme Hadoop. En France, 1000mercis-numberly et Fifty-Five font figure de
leader du march qui connat un
taux de croissance formidable.
Fondes plus rcemment, des entreprises comme Dataiku, Captain
Dash et Squids Solution font galement parties dj des acteurs
de ce march dit de lanalytics .

dial en 2015, en France, il est estim


seulement 387 millions deuros en
2013. Notons toutefois, que la hausse
du secteur est estime 40 %. Si la
hausse prvue est donc dterminante, reste que le march franais,
qui dispose pourtant de tout un cosystme franais prt dvelopper
des projets Big Data, reste frileux.

Les applications qui exploitent la


donne pour proposer de nouveaux
services.
Cette dernire strate dentreprises
met en action les donnes disponibles
pour concevoir des applications innovantes. Ces donnes peuvent
tre publiques, comme lapplication
Transilien dvelopp par lentreprise
Snips et qui exploitent les donnes
fournies par le STIF, ou bien prives.
Cest par exemple le cas de Crito qui utilise les donnes fournies
par ses clients pour fournir une solution de re-ciblage publicitaire
travers un puissant algorithme.
Si IDC estime que le poids des technologies et services lis lanalyse
et lexploitation des donnes en
grande quantit en temps rel atteindra 16,9 milliards au niveau mon-

Copyright

Date de parution: dcembre 2014

111

Les Etats-Unis :
Passage obligatoire pour les
entreprises franaises de Big
Data ?

Le savoir-faire technique, la taille et la maturit du march amricain restent suprieurs


au march franais Thibaut Munier, Fondateur
de 1000mercis-numberly, Administrateur de
Renaissance Numrique.
Selon Transparency Market Research86 qui value les chiffres du march du Big Data dans le
monde, lAmrique du Nord capte aujourdhui,
elle seule, prs de 55 % du march mondial.
Sur ce march, les entreprises amricaines que
sont HP, Teradata, Opera Solution, Mu Sigma
and Splunk Inc dtenaient, en 2012, 60 % du
march.
Ainsi, pour les startups spcialises dans la mise
en place de projets Big Data, dmarcher en
France nest pas ais.
Nous avons de belles russites ici, mais en rgle
gnrale les grands groupes franais restent
trop frileux pour confier leurs jeux de donnes
une startup. Au-del du risque, ils nidentifient pas encore clairement le retour sur investissement direct du passage une approche
data-driven. Aux Etats-Unis, le march est plus
mature et nous ne rencontrons pas ce type de
barrire explique Marine Romezin, Communications Manager chez Squid Solutions, qui vient
douvrir un bureau San Francisco.

(86) Transparency Market Research, Big Data Market - Global Scenario,


Trends, Industry Analysis, Size, Share and Forecast, 2012 - 2018,
http://www.transparencymarketresearch.com/big-data-market.html
(87) On peut noter les rapprochements autour de cursus spcialiss
Big Data entre Grenoble Ecole de Management et lEMSI, entre lEPSI et
lIDRAC, HEC et Tlecom Paris Tech.

112

Copyright

Date de parution: dcembre 2014

Valoriser le savoir-faire
franais pour matriser le
Big Data

une comprhension des enjeux


commerciaux, financiers et managriaux ;

Lducation suprieure franaise


et la recherche sont les deux leviers pour la matrise technique des
flots de donnes ; condition sine
qua non lactivation du Big Data.
Elles sont traverses par une problmatique commune : approfondir
linterdisciplinarit pour rpondre
aux dfis techniques du Big Data

la gestion de projets Big Data qui


va de la phase de collecte auprs
des diffrents acteurs pertinents,
la visualisation et la comprhension
des analyses fournies par les technologies Big Data.

Le nouveau besoin en experts oprationnels saccrot fortement et les


formations proposes par les universits scientifiques et les coles dingnieurs sont fortement valorises. Sans
quaucun chiffre ne fasse autorit
sur le sujet, on peut raisonnablement
estimer que vingt-mille trente-mille
nouveaux professionnels seront ncessaires chaque anne pour rpondre aux besoins des entreprises
et des organisations franaises,
structurer et valoriser leurs donnes et automatiser leurs services.
La conduite de projets Big Data demande plusieurs comptences rpondant des formations distinctes :
bagage technique, fourni en
France par les coles dingnieurs ou
les facults de mathmatiques et de
statistiques ;

Cette hybridation des profils demande aux instituts dducation suprieure de se recomposer, limage
de linflation des doubles formations
coles dingnieurs coles de commerces 87. tant donne la diversit
des mtiers du Big Data et des comptences requises, tous les degrs
de luniversit sont concerns, des
formations technologiques et spcialises aux masters et doctorats.
Le leader de demain ne sera ni
ingnieur, ni manager : ce dont
nous avons besoin aujourdhui,
cest de caractres hybrides, capables de manier les donnes
mais galement daller chercher,
de trouver les bases de donnes
intressantes compiler, etc.
Nicolas Glady, Professeur Associ,
Titulaire de la Chaire Accenture
Strategic Business Analytics, ESSEC

On peut noter les rapprochements autour de cursus spcialiss Big Data entre Grenoble Ecole de Management et
lEMSI, entre lEPSI et lIDRAC, HEC et Tlecom Paris Tech.

Copyright

Date de parution: dcembre 2014

113

Quest ce quun Data Scientist ?


Un Data Scientist cest plus quun statisticien avec un Mac !
Ce trait dhumour de Florian Douetteau fondateur de Dataiku
rvle toute lambigut du mtier de Data Scientist, la fois statisticien, ingnieur et chef de projet.
Une solide formation en statistiques et en mathmatiques est ncessaire pour pouvoir dcrypter les donnes, formuler des intuitions et
in fine transformer la masse dinformations en intelligence au service
dune organisation.
Lefficacit dun Data Scientist provient galement de sa capacit se plonger dans des bases de donnes pour les nettoyer, les
rendre oprationnelles et construire des modles prdictifs. Rand
Hindi, fondateur de Snips, dplore le manque dexprience pratique
des tudiants franais dans llaboration de ce genre de modle :
la majorit des tudiants en mathmatiques anglais ont t amen construire des modles durant leurs tudes, notamment dans le
cadre de cours de finance quantitative : cest un vrai manque des
tudiants franais .
Transformer les mthodes de travail et de prise de dcisions laune
des connaissances obtenues grce au Big Data est la dernire facette du mtier de Data-Scientist. Elle requiert des comptences en
management et en business pour parvenir mettre le Big Data aux
services des quipes de lentreprise.

En octobre 2012, la Harvard Business Review affirmait que Data


Scientist tait le mtier le plus sexy
du XXIme sicle et, face la pnurie dindividus qualifis, prvoyait
une future guerre des talents. Le
cabinet Gartner prvoit la cration
de quatre millions et demi demploi
pour rpondre aux besoins du Big
Data dans le monde dici 2015.
Les mtiers de la donne requirent
des comptences spcifiques, la

114

croise des mathmatiques, de la


statistique, de linformatique et du
management. Face cette hybridation des comptences, les coles
dingnieurs et les universits88 ont
adapt leurs cursus pour proposer
des formations spcialement ddies au Big Data. Les entreprises
sarrachent ces tudiants extrmement qualifis et les salaires la sortie dcoles grimpent rapidement89.
Paralllement, on assiste une mi-

(88) Lcole Polytechnique, ENSAE, les coles Centrales, ParisTech et les facults dOrsay et de Jussieu on rgulirement t cit par notre panel
(89) tude de lentreprise amricainde Kforce et accessible sur http://www.lemondeinformatique.fr/actualites/lireles-salaires-des-8-competences-les-plus-recherchees-en-big-data-56610.html
(90) https://www.gov.uk/government/news/73-million-to-improve-access-to-data-and-drive-innovation

Copyright

Date de parution: dcembre 2014

gration des employs de la finance


quantitative, notamment des tudiant issus du cursus X ENSAE, vers
les socits technologiques. Cela est
d dune part, la baisse dattractivit de la finance et, dautre part,
limaginaire positif du monde de la
startup qui, par ricochet, valorise les
mtiers de linformatique. De plus, les
salaires des socits technologiques
tendent saligner avec ceux de
lindustrie financire et constituent
une incitation supplmentaire.
Lexcellence des coles dingnieurs franaises et des formations
universitaires en mathmatiques et
statistiques forment chaque anne
des milliers dtudiants trs comptents Florian Douetteau, fondateur
de Dataku .
Cependant, le recrutement ltranger, notamment dans les Ivy League
amricaines et en Angleterre, reste
une option pour beaucoup demployeurs franais. Pour Rand Hindi,
fondateur de Snips, un tudiant sortant de Stanford sera bien plus comptent oprationnellement quun
tudiant de lENS ou de lX .
Soutenir la cration dun centre de
recherche interdisciplinaire sur la
donne
En parallle de la formation, la recherche acadmique autour du Big
Data doit tre un levier dinnovation
pour les organisations. Lexemple des
centres de recherche amricains,
comme le MIT cit de nombreuses
reprises dans ce livre blanc, souligne

quils jouent aussi bien un rle clef


dans linnovation technologique
que dans les dbats sur la rgulation. Ils forment et attirent les talents,
nouent des partenariats avec des
entreprises nationales et conseillent
ltat sur les politiques publiques.
Les exemples anglo-saxons montrent
la marche suivre :
En fvrier 2014, lAngleterre a investi 98 millions deuros dans quatre
centres de recherche qui interrogent
le rle de la donne dans les problmatiques sant, urbanisme, nergie
et culture 90.
La Maison-Blanche a lanc, en
Novembre 2013, un plan dinvestissement de 200 millions deuros pour
la recherche en Big Data pour les
grandes entreprises et les universits,
notamment dans le domaine de la
sant 91.
Pour canaliser lexpertise franaise,
la cration dun centre franais,
voire europen, de recherche sur
la donne permettrait dallier recherche fondamentale en statistiques et en mathmatiques et travaillerait des applications dans tous
les domaines de laction publique.
Par exemple, linstar de lOpenPDS
dvelopp par une quipe du MIT,
des solutions techniques pour protger la vie prive de manire structurelle (Privacy by Design) pourraient merger dun tel institut.

(91) http://www.whitehouse.gov/sites/default/files/microsites/ostp/Data2Action%20Press%20Release.pdf

Copyright

Date de parution: dcembre 2014

115

tre en tte de la rflexion


sur la nouvelle rgulation
lre de la donne
De nombreuses startups et agences spcialises sont nes de cette
ncessit de matriser la donne pour les entreprises et organisations.

Parce quil nappartient ni la technique, ni aux intrts conomiques des


entreprises de dcider de lavenir de la socit, le lgislateur franais et
europen doit permettre nos conomies de tirer pleinement profit des
promesses du numrique, sans avoir abandonner un haut niveau de protection de la vie prive.
Penser la rglementation des risques algorithmiques
Lappareil lgislatif peut savrer trop lourd compar une rgulation par cas
ou par secteurs, dans le souci toujours de prserver les opportunits conomiques du Big Data. Les algorithmes luvre dans le Big Data ont une influence politique, culturelle et scientifique de plus en plus importante. Ils sont
dcisifs pour la personnalisation des contenus et services proposs lutilisateur
mais peuvent recler des biais discriminants. Lopacit qui entoure leur composition interdit une prise en compte des risques inhrents leur massification.

116

Copyright

Date de parution: dcembre 2014

117

conclu sion

Six propositions du G9+ pour faire de la France un acteur


moteur de la rvolution Big Data
PROPOSITION 1 : Dployer sur 3 ans
des programmes test dutilisation de
technologies Big Data dans certains
secteurs des politiques publiques
pour dgager des conomies directes : par exemple dans le cadre
de la lutte contre la fraude lassurance maladie, ou dans la gestion
de certaines politiques publiques de
sant. Les acteurs publics doivent
alors obtenir des drogations de la
CNIL. De telles initiatives dynamiseraient tout lcosystme Big Data,
en promouvant la coopration entre
les startups expertes de ces technologies et les grands groupes dtenteurs de donnes complmentaires.
PROPOSITION 2 : Une loi sur lOpen
data pour contraindre les administrations stratgiques ouvrir leurs
donnes concernant les vnements et statistiques qui touchent
directement la vie, la sant et le
patrimoine des personnes . linstar
de lEstonie, contraindre par la loi les
organisations publiques ouvrir leurs
donnes les diffuser sur la plateforme data.gov.fr, le portail national
des donnes publiques en France.
Inscrire dans cette mme loi, la gratuit des donnes : Aujourdhui larticle 15 de la loi de Juillet 1978 (mise
jour en 2003) postule que les donnes publiques peuvent avoir un
prix92. Cette facilit financire daccs aux donnes dynamiserait lcosystme de startup et interdit sa captation par un groupe dentreprises.

PROPOSITION 3 : Dvelopper une


offre de formation couvrant lintgralit de la chane de mtiers relis
au Big Data.
PROPOSITION 4 : Valoriser lexpertise
franaise en mathmatiques, statistiques et tlcommunications et parvenir les hybrider autour de projets
et centres de recherches communs.
PROPOSITION 5 : Faire merger le
dbat de lvolution de la rgulation Big Data au sein du gouvernement, des Parlements franais et europens et des CNIL europennes :
lthique de la dcision lre des
algorithmes ou encore la rgulation
par le traitement et le processus de
croisement de la donne sont des
enjeux dont les pouvoirs publics et
la socit civile doivent se saisir.
Evoluer vers une rgulation unifie
pour lEurope permettant aux acteurs europens innovants de bnficier dun march continental.
PROPOSITION 6 : Rflchir la possibilit daudit des algorithmes par
un rgulateur certifi sur la protection de la vie personnelle lre
du Big Data : pour les entreprises
comme pour les acteurs publics.
Cela permet une forme dune rgulation qui se focalise sur la manire
dont les donnes sont utilises et
non comment elles sont collectes.

(92) La rutilisation dinformations publiques peut donner lieu au versement de redevances


Art. 15, Loi n 78-753 du 17 juillet 1978 portant diverses mesures damlioration des relations entre ladministration et le public et diverses dispositions dordre administratif, social et fiscal, http://legifrance.gouv.fr/affichTexte.
do?cidTexte=JORFTEXT000000339241

Copyright

Date de parution: dcembre 2014

119

Liste des personnes auditionnes pour le livre blanc :


Christophe Benavent

Olivier Gurin,

Chercheur en marketing Paris-10

Pdg dimage & dialogue group


adhrent de Renaissance Numrique

Franois Bourdoncle

Rand Hindi

Prsident de FB&Cie, co-fondateur


dExalead, co-rapporteur du
plan Big Data pour le Ministre
de lEconomie

fondateur de Snips

Romain Lacombe

Charg de linnovation et du
dveloppement de la mission Etalab.

Ekbel Bouzgarrou

Chief Technologie Officier


Air France KLM

Thomas Lefvre

mdecin de sant publique


Ingnieur Mines-Tlcom
Docteur en sciences
Chercheur associ lIRIS
(CNRS/INSERM/EHESS/Paris 13)

Stphane Buttigieg

Institut Louis Bachelier,

Mehdi Chouiten

Data Scientist senior chez Parkeon

Guillaume Liegey

Yves-Alexandre De Montjoye

fondateur de Liegey-Muller-Pons

Doctorant au MIT, laboratoire de


dynamique humaine du Media Lab

Arnaud Massonie

Co-fondateur et Directeur Gnral


de lagence fifty-five

Florian Douetteau

Fondateur de Dataiku

Thibaut Munier

Jean-Luc Errant

administrateur de
Renaissance Numrique

Fondateur de la socit Cityzen


Sciences-Cityzen Data

Galle Recourc

Nicolas Glady

directrice scientifique,
Evercontact

Professeur Associ
Titulaire de la Chaire Accenture
Strategic Business Analytics

Marine Romezin

Communications Manager
chez Squid Solutions

Samuel Gota,

doctorant Tlcom ParisTech

Equipe de rdaction du livre blanc :


Luc Bretones

Basile Michardiere

Henri Isaac

Camille Vaziaga

Jean-Franois Vermont

Pierre Balas

Vice prsident
Institut G9+

charg de mission
Renaissance Numrique

Vice prsident de
Renaissance Numrique

dlgue gnrale
Renaissance Numrique

Trsorier Institut G9+

Copyright

charg de mission
Renaissance Numrique

Date de parution: dcembre 2014

Você também pode gostar