Escolar Documentos
Profissional Documentos
Cultura Documentos
l a c c l r at e u r
d i n n o v ati o n
INTRO duction
Introduction
16
18
I. La typologie des 3 V
II. Big Data : un concept large
III. Le Big Data : la dfinition par le procd
24
36
38
52
58
60
B- Le Big Data : Une rvolution qui transforme tous les secteurs de notre conomie
62
90
96
104
106
110
116
Conclusion
118
Copyright
Vice-Prsident
de lInstitut G9+
Administrateur
de Renaissance Numrique
Luc Bretones
2014 est donc
naturellement lanne
du Big Data prdictif
pour lInstitut G9+ qui vient dorganiser au premier semestre la principale confrence sur le sujet en
France sous le titre ils font parler
les donnes pour acclrer linnovation .
Nous voyons en effet, dans lexplosion
des donnes gnres par les objets
connects et les activits humaines,
lmergence ultra rapide dun nouveau paradigme, celui de la mise en
donne de nos vies et des potentiels
danalyse de corrlations relatives.
Plus prcisment, la multiplication
des objets connects va acclrer lmergence de gisements de
donnes personnelles pour de nombreux acteurs conomiques dans
Copyright
tous les secteurs (oprateurs tlcom, banques, assurances, industriels, distributeurs, transporteurs...).
La rencontre des donnes issues
de ces objets connects, quelles
proviennent de grands groupes ou
dautres acteurs, peut permettre de
constituer des collections indites
de type Big Data, dont le volume,
la prcision, la richesse et la porte
seront la source dnormment
danalyses pousses, dopportunits
de croisement et de corrlations par
lintermdiaire de services et dapplications qui sauront rvler des
informations de plus haut niveau.
Dans le mme temps, les donnes
gnres par les particuliers et les
entreprises sont dsormais quasi exclusivement numriques et en croissance
volumique exponentielle.
Souvenons-nous quen 2007, dj,
seulement 7 % des donnes restaient
au
format
analogique,
or les donnes numriques font
05
06
(1) Entre 2006 et 2014, le classement Financial Times 500 par secteur conomique mentionne une progression de
+116% des services logiciels et informatiques 1 744 928,4 millions de dollars contre une progression de seulement
+7% pour le secteur tlcom fixe et mobile.
(2) Selon lexpression du professeur Brynjolfsson (MIT Digital Business)
(3) Paul Ohm, professeur, Universit du Colorado Boulder
Copyright
Copyright
07
Fondateur
de 1000mercis-numberly
Administrateur
de Renaissance Numrique
08
Thibaut Munier
de cette vision restrictive et de considrer avec au moins autant dattention les immenses opportunits que
cette rvolution contient en germe.
Le Big Data doit avant toute chose
tre considr comme une rvolution technologique dans la capacit de collecte, de stockage et
dexploitation des donnes. Apparu
sur la cte Ouest des Etats Unis la
suite du dveloppement massif des
usages digitaux4, le Big Data constitue aujourdhui une triple opportunit pour les consommateurs, les entreprises et la croissance de notre pays.
Une opportunit pour les internautes
et les consommateurs
Grce ces nouvelles capacits
de stockage et de traitement des
donnes, les consommateurs ont
progressivement pu dcouvrir des
services nouveaux, quils ont par-
(4) En fvrier 2001 Doug Laney, analyste au Meta Group, publie une note de recherche intitule 3D Data Management: Controlling Data Volume, Velocity, and Variety. 10 ans plus tard les 3 Vs sont les 3 dimensions gnralement
utilises pour dfinir le Big Data bien que le concept napparaisse pas dans larticle de Laney.
Copyright
09
10
Copyright
En conclusion, le Big Data offre aujourdhui un vaste champ dapplications possible, et demeurent
aux prmices de leur dveloppement5. Ces technologies et leurs
applications mritent bien quon
les observe sans navet ni a priori, dun il critique et avec discernement, mais de faon dabord
positive et entrepreneuriale avec
ambition et lenvie de construire.
Aprs tout, le Big Data ne sera que
ce que nous en ferons. Il consti-
(5) LAssociation franaise des diteurs de logiciels (Afdel) a ainsi estim que la cration de valeur lie au Big Data
pourrait atteindre en France 2.8 milliards deuro et 10 000 emplois directs dici cinq ans. Le cabinet amricain
Gartner estime de son ct que le secteur Big Data crera 4,4 millions demplois dans le monde dici 2015, dont
1,9 million aux tats- Unis.
Copyright
11
Prsidente
Institut G9+
AdministratRICE
Ingnieurs et Scientifiques de France
DIRIGEANTE IT
TRANSITION
08
La gestion des donnes tait jusque l rserve des domaines dexpertise, spcialistes
chacun de son mtier.
Valentine Ferrol
Big Data : un levier
supplmentaire pour
imaginer, construire,
sinspirer
Dimension industrielle
La gestion des donnes tait jusque
l rserve des domaines dexpertise, spcialistes chacun de son mtier. Quils soient techniques : stockage, sauvegarde, archivage au sein
de datawarehouse ; ou fonctionnels
: mathmaticiens, traders, exploitants de centrale lectrique, contrleurs ariens ou encore les services
publics, la sant, la culture etc
La performance - performance de la
chaine de valeur de nos entreprises
et de lconomie de demain - rside
dans le bon fonctionnement des rseaux qui cooprent llaboration
des produits ou services. Le Big Data
est un gisement colossal de gain en
Copyright
13
14
Copyright
15
PARTIE I
LE BIG DATA :
POURQUOI PARLER
DE RVOLUTION ?
Depuis des annes, les mathmaticiens laborent des modles mathmatiques pour faire parler des jeux
de donnes. Cela commence par
un simple modle statistique, bas
sur un jeu de quelques informations,
un modle prdictif labor, bas
sur des milliards de donnes, permettant de prvoir demain quelle rgion
du monde sera la plus touche par
une maladie ou comment rguler le
trafic pour viter les pics de pollution.
Cette premire partie a pour ambition de dfinir les facteurs qui font
que le Big Data peut tre considr
comme une rvolution aujourdhui.
Poser le postulat de cette rvolution
par la donne et son traitement exige
un travail de dfinition et de comprhension du concept de Big Data, souvent nglig par des discours marketing peu enclins sattarder sur cette
question. Quelle dfinition pour le Big
Data ? Quelles sont ses implications
tangibles ? Qui en sont les acteurs ?
Copyright
17
Au cours des dernires annes, dfinir le terme "Big Data" sest rvl tre
un exercice prilleux. Quel est le critre de dfinition premier : le volume
de donnes traites ? Le logiciel de traitement de la donne ? La nature
des traitements qui leurs sont appliqus ?
i. La typologie des 3 V
Dans le maquis des dfinitions, les 3V
se distinguent comme le plus petit
dnominateur commun. Apparue
en 2001, elle est le fruit des analyses de Doug Laney, employ de
18
Copyright
Volume
Vitesse (Velocity)
Varit
(9) Entretien avec Arnaud Massonnie, Co-fondateur et Directeur Gnral de lagence fifty-five
Copyright
19
Valeur et Vracit ?
En outre, il est frquent de voir la dfinition des 3 V complte par un 4me
voire un 5me V, pour vracit, qui
recouvre la prcision et lexactitude
des donnes, et valeur, portant son
attention sur la capacit intrinsque
de la donne de crer de la valeur.
20
Copyright
(12) Institut de lEntreprise, Faire entrer la France dans la 3me Rvolution Industrielle, Mai 2014, p.19
Copyright
21
Nouvelles donnes,
anciennes techniques ?
22
Copyright
Copyright
23
Big Data :
en quoi est-il rvolutionnaire ?
Les progrs technologiques ont rduit le cot de crer, capturer, analyser
et stocker de linformation au sixime de ce quil tait.
Rapport Podesta 14
Le tera data existe dj depuis trs longtemps car nous avons toujours
stock les donnes. Ce qui fait un projet Big Data, cest la technologie
que lon utilise. Avec ces technologies, ce qui change, cest la puissance
et la rapidit du calcul qui nous permet dtre davantage time to market
et de capter de faon plus automatique les comportements clients.
Ekbel Bouzgarrou, Chief Technologie Officier, Air France KLM
(14) Rapport Big Data: seizing opportunities, preserving values, Executive Office of the President, Mai 2014 http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf
24
Copyright
(15) Stphane Grumbach, Big Data, the global imbalance, octobre 2012 ; www.fr.slideshare.net/slidesharefing/
lift12fr-stephane-grumbach
(16) http://www.redhat.com/rhecm/rest-rhecm/jcr/repository/collaboration/sites%20content/live/redhat/web-cabinet/static-files/library-assets/Trends%20in%20enterprise%20Hadoop%20deployments
Copyright
25
Chiffre cl :
15 minutes : cest le temps
que met dsormais Suravenir Assurances, du Crdit Mutuel, pour simuler
les sommes provisionner sur trente ans pour
ses quelques deux millions
demprunteurs, grce aux
technologies
Hadoop.
Hier, il fallait 24 heures pour
ce mme calcul.
Map reduce :
larchitecture analytique
Hadoop est compos dune architecture de dveloppement ddie
aux calculs parallles et distribus,
26
nomme
MapReduce.
Modle
de programmation, elle permet la
manipulation des donnes en trs
grande quantit, distribues sur le
cluster de nuds de serveurs qui
composent larchitecture de la solution Big Data dploye. Cest ainsi que des donnes non structures
peuvent faire lobjet dun traitement
analytique et que cette dcoupe
en blocs acclre le traitement,
jusqu se rapprocher du temps rel.
(17) http://www.zdnet.fr/actualites/quelle-est-l-activite-sur-internet-en-1-minute-39763269.htm
(18) http://www.liberation.fr/economie/2013/11/03/15-milliards-d-objets-connectes-et-moi(19) http://www.lesnumeriques.com/video-poids-lourd-reseau-n9201.html
Copyright
emoi_944254
(20) http://www.lefigaro.fr/flash-eco/2013/03/08/97002-20130308FILWWW00351-33-milliards-de-smartphones-en-2018.php
(21) ibid rfrence 17
(22) http://pro.01net.com/editorial/562702/pres-de-deux-milliards-dordinateurs-connectes-dici-2016/
Copyright
27
Pdg
dimage & dialogue group
Olivier Gurin
Copyright
29
30
Copyright
(23) Ericsson, rapport annuel 2012 : Bringing the networked society to life
(24) http://m.technologyreview.com/featuredstory/513721/big-data-from-cheap-phones/
Copyright
31
Le traitement informatique
de la langue et de limage
32
Copyright
Copyright
33
(26) http://lentreprise.lexpress.fr/open-data-liberer-les-donnees-mais-pour-quoi-faire_1534854.html#DdYzEouTCiE7Arm8.99
34
Copyright
(27) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, mars 2013
Copyright
35
PARTIE II
Lalgorithme :
chef
dorchestre
de la rvolution
Big Data
Au dpart une simple formule statistique, les algorithmes permettent aujourdhui, partir dun
traitement de donnes consquent, dtablir des
modles corrlatifs qui prvoient et prviennent
des lments futurs.
Ainsi, au coeur du Big Data se trouve les algorithmes : tels des chefs dorchestre, ils mettent
en musique des jeux de donnes massifs. Ils ordonnent, trient, hirarchisent les gigantesques
bases de donnes, et les rendent intelligibles
via un modle de corrlation ou de prdiction.
Pour lutilisateur, ce sont eux qui transforment des
ocans de donnes en des services personnaliss
en temps rel.
Copyright
37
Comment construit-on
un algorithme ?
De gigantesques ramifications dans lesquelles se succdent des dcisions
binaires suivant une suite de rgles pr-tablies.
Christophe Steiner
38
Copyright
Similarit
Quels sont les ouvrages qui abordent
une thmatique ou un genre similaire
louvrage choisi ?
Copyright
Complmentarit
Quels sont les ouvrages qui compltent louvrage choisi ?
Diversit
Au sein de cette thmatique, quels
sont les ouvrages les plus loigns
de louvrage choisi ? Pour fournir la
liste de recommandations finales,
ces trois questions fondamentales
sont pondres par les informations
disponibles sur lutilisateur (ge, localisation, habitude de lecture, notations dautres ouvrages).
Algorithme de prdiction
La puissance et la qualit dun algorithme drivent directement de
la qualit et de la quantit de donnes que nous pouvons collecter
Rand Hindi, fondateur de Snips.
Guillaume Liegey, fondateur du cabinet LMP, souligne que llaboration
de modles prdictifs se fait en deux
tapes :
39
40
Copyright
encore, de parler dune vritable rvolution par le Big Data. Lapprentissage automatique, ou machine-learning, est la discipline de lintelligence
artificielle qui vise dvelopper la
capacit des machines et des logiciels apprendre de leurs rsultats.
Les algorithmes utiliss pour dvelopper ces systmes permettent
un systme dadapter ses comportements et rponses de faon autonome, en fonction dune base de
donnes empiriques.
Pour reprendre lexemple prcdent
des campagnes lectorales, on parle
de machine-learning dans le cas o
lalgorithme rectifie tout seul les pondrations des donnes en fonction
du rsultat obtenu llection prcdente, et rectifie sa formule pour ne
pas rpter les inexactitudes repres
dans llection suivante. En dautres
termes, lalgorithme apprend et
se corrige de faon autonome.
Lapprentissage automatique entre
donc pleinement dans les stratgies
danalyse prdictives, puisquil considre que les corrlations entre les
jeux de donnes suffisent pour prvoir
les nouveaux modles appliquer.
41
Mehdi Chouiten
Machine Learning
et valorisation
des donnes
De manire trs basique, une information peut tre vue comme linterprtation dune ou plusieurs donnes. La connaissance peut tre vue
comme linterprtation dune ou
plusieurs informations. Par exemple :
Pierre et Paul ont obtenu 9 et 8 respectivement lexamen de Machine
Learning = donnes 9 > 8 = information Pierre est meilleur que Paul en
Machine Learning = connaissance.
Copyright
43
Dans un systme disposant de suffisamment de donnes, il est imaginable de se projeter dans une solution ne contenant que lobjectif atteindre et o les rgles mtier sont elles-mmes dduites par
le systme. Aujourdhui, ce sont ces rgles qui ncessitent le plus de
temps et de ressources humaines (data analysts notamment). Les
algorithmes et concepts mathmatiques utiliss pour la prdiction
sont trs similaires dune tche lautre. Cest notamment la dfinition des objectifs et des contraintes qui savre tre la tche la
plus complexe.
44
Copyright
1
Mach. Learn
Apprentissage
Modles
Donnes passes
connues
Donnes
incompltes
Mach. Learn
Prdiction
Donnes
prvisionnelles
3
Rgles
mtier
Jeu
doprations
Mach. Learn
Dcision
/Action
Actions
mener
Nouvelles
prvisions
optimises
valeur
cre
Copyright
45
Vers Lalgorithmisation
du monde ?
Si vous tudiez un systme dinformations sans tenir compte de sa structure,
ses rseaux et ses composantes, vous passez ct de dimensions essentielles : qui relvent de lesthtique, la justice et linnovation
Susan Leighn
46
(28) http://peerproduction.net/issues/issue-1/peer-reviewed-papers/caring-about-the-plumbing/
(29) Bruno Latour, La Vie de laboratoire : la Production des faits scientifiques), 1988
(30) http://www.framablogue.org/index.php/post/2010/05/22/code-is-law-lessig
(31) Dominique Cardon, revue Rseaux, Politiques des algorithmes, numro 177, http://www.cairn.info/revue-reseaux-2013-1-page-9.htm#no2
Copyright
i. Lalgorithme : une
construction humaine
et politique
Si vous tudiez un systme dinformations sans tenir compte de sa
structure, ses rseaux et ses composantes, vous passez ct de
dimensions essentielles : qui relvent de lesthtique, la justice
et linnovation 28 - Susan Leigh
Avant mme la naissance dInternet,
Bruno Latour affirmait que la structuration dun systme dinformation
tait de la politique par dautres
moyens 29. En 2001, Lawrence Lessing, dans son clbre article de
Code is Law , insistait sur la puissance
rgulatrice du code dans la manire
dont nous vivons le cyberespace 30.
(32) https://medium.com/futurists-views/algorithmic-culture-culture-now-has-two-audiences-people-and-machines2bdaa404f643
(33) Ibid
(34) http://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
(35) http://rebellionlab.com/is-big-data-the-future-starting-point-of-creation/
Copyright
47
48
Copyright
49
50
(38) Manolis Kellis, Importance of Access to Large Populations, Big Data Privacy Workshop: Advancing the State
of the Art in Technology and Practice, Cambridge, MA, March 3, 2014,
(39) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, mars 2013
Copyright
Copyright
51
Penser la gouvernance
des algorithmes
Les progrs de lingnierie algorithmique, les possibilits dautomatisation
quelle ouvre () nous obligent construire ds maintenant un corpus
danalyse et de rflexion qui pourra seul nous laisser en situation de
comprendre les enjeux de cette deuxime vague dexternalisation :
lexternalisation de nos stratgies dcisionnelles, motionnelles, affectives.
Olivier Ertzscheid
52
Copyright
(43) Aux Etats-Unis, un credit score est affect chaque titulaire dun compte bancaire en fonction de ses revenus et
ses mouvements financiers. Il est standardis et est partag par toutes les institutions financires. Cette pratique est
strictement encadre par le Equal Credit Opportunity Act.
(44) Gandy, Oscar (2010). Engaging Rational Discrimination: Exploring Reasons for Placing Regulatory Constraints
on Decision Support Systems, Ethics and Information Technology 12, no. 1, 2942.
(45) http://www.thebolditalic.com/articles/4502-can-big-data-be-racist
Copyright
53
54
La nouvelle fracture
numrique : celle de la donne ?
Aujourdhui, beaucoup des outils Big Data sont
calibrs pour un habitant de Manhattan qui
va gnrer de larges quantits dinformations.
Mais parmi les individus connects et dont les
donnes sont collectes, nombre dentre eux
gnrent une quantit trop faible de donnes
pour entrer dans le primtre danalyse des
entreprises qui utilisent les techniques Big Data
pour formuler leurs offres et leurs produits. Cest
ainsi quaprs laccessibilit et le haut dbit,
une nouvelle facette de la fracture numrique
se construit : celle du Big Data.
Pour Jonas Lerman, membre du Minister of State
amricain, il ne sagit pas simplement de passer
ct de promotions, mais bel et bien dtre
pnalis conomiquement et exclu de la vie
politique :
Les magasins nouvriront peut tre pas dans
leurs quartiers, jugs moins attractifs pour les
entreprises, tuant dans luf des possibilits
demploi () et ne seront plus dans le primtre
dintrt des partis politiques, qui est une condition dune citoyennet pleine.
Jonas Lerman suggre que les acteurs publics
fournissent des garanties ces Big Datas marginalized groups afin quils ne soient pas exclus
de la vie dmocratique. Cest paradoxalement
aux Etats-Unis, o la protection de la vie prive
en ligne est plus faible quen Europe, que le dbat sur cette nouvelle forme de fracture numrique est le plus vif 46.
(46) Pour aller plus loin dans ce dbat : Jonas Lerman, Big Data and
Its Exclusions, Stanford Law Review, septembre 2013, http://www.
stanfordlawreview.org/online/privacy-and-big-data/big-data-and-itsexclusions
Copyright
55
56
(47) http://www.internetactu.net/2014/02/26/les-algorithmes-sont-ils-notre-nouvelle-culture/
(48) http://governingalgorithms.org/resources/provocation-piece/
(49) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, p.219
Copyright
la cration dune nouvelle catgorie dexperts. Celle-ci serait strictement encadre et pourrait agir en
interne et en externe des entreprises.
Ces algorithmists50 rpondraient
une demande du march pour anticiper et viter les problmes voqus plus haut et rpondre au besoin
de plus de transparence et de scurit des utilisateurs. Comme dans des
domaines aussi varis que la mdecine et le droit, les pratiques seraient
encadres par une rglementation
et un code dontologique stricts.
(50) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, p.219
Copyright
57
PARTIE III
LA RVOLUTION
INDUSTRIELLE DU
BIG DATA :
UN LEVIER DE
CROISSANCE DANS
DE NOMBREUX SECTEURS
Copyright
59
A$
LE BIG DATA,
MOTEUR DE CROISSANCE
ET DE MUTATIONS
Le Big Data est la rvolution technologique qui est le nerf de la guerre dune
rvolution industrielle en cours
Franois Bourdoncle
60
Copyright
ii. Deuxime marqueur - volution des industries traditionnelles vers des business-model sous forme de
service
Consquence de ces nouveaux entrants sur les marchs traditionnels,
les entreprises vont devoir recentrer leur modle conomique autour de lexploitation de la donne
et sur le service personnalis qui en
dcoule, plutt que sur un produit
uniforme. Autolib est lexemple
phare de cette servicisation de
lindustrie automobile. Cest donc la
connexion numrique directe avec
le client qui est essentielle pour comprendre les usages et in-fine vendre
le service. La connaissance prcise
des comportements permet de mi-
Copyright
61
Chiffres cls :
20 milliards de dollars : ce sont les bnfices supplmentaires
obtenus par Monsanto grce ses technologies Big Data en 2013
10 000 : cest le nombre dexploitants franais qui utilisent les
techniques de lagriculture de prcision
62
Copyright
Copyright
63
Chiffres cls :
800 millions deuros : Cest la
somme investie par Axa en
2014, sur trois ans, dans des
projets digitaux au niveau
mondial
67% : cest le nombre
dacheteurs dassurance qui,
aux Etats-Unis, ont obtenu
leur tarif en ligne
64
Copyright
La collecte de la donne
Puisque celle-ci constitue la matire
premire du march de lassurance,
cette dernire doit satteler nouer
des partenariats avec des entrepreneurs des objets connects ou applications mobiles pour collecter les
donnes la source : linstar du partenariat Withings / Axa nou en 2014
qui propose dquiper gratuitement
leur client de bracelets connects.
Certification de la donne
Si les sources de donnes sont multiples lre du Big Data, tablir leur
traabilit est de plus en plus complexe. Aussi, le cheminement de la
donne, son changement de statut,
peut se rvler tre un vrai cassette pour lactuaire charg de vrifier et certifier la donne. Pour Omptimind Winter51, lactuaire de demain
pourrait devenir le correspondant
du rgulateur sur les questions de
conformit dans le recueil et lusage
du Big Data .
Lassurance
doit
prendre
conscience delle-mme comme
dun agrgateur et dun gestionnaire de donnes. Lassurance
transforme des donnes en services
de protection. Le service de lassurance consiste en effet isoler dans
la masse des donnes disponibles
celles qui ont un caractre prdictif et peuvent servir organiser des
services de protection contre les
consquences patrimoniales dvnements futurs.
Franois Ewald, Professeur honoraire au CNAM et International Research Fellow de la Law School
de lUniversit du Connecticut52
(51) Optimind Winter, Dossier technique dinformation Big Data, Octobre 2013, http://www.optimindwinter.com/
wp-content/themes/optimind/upload_dbem/2013/10/201310_Dossier_technique_Optimind_Winter_Big_Data.pdf
(52) Entretien avec Franois Ewald, Big Data et assurance , Institut Montparnasse, http://www.institut-montparnasse.fr/big-data-et-assurance/
Copyright
65
Chiffres cls :
Le magazine Forbes a estim
0,03 dollar la valeur dun got
individuel exprim sur un lien
culturel 53
Aujourdhui, 52 % des commentaires
sur
Facebook
portent sur les programmes
diffuss la tlvision 54
66
Le Big Data au service dune meilleure diffusion pour une grande interaction avec le public
Les acteurs de lindustrie culturelle
ont un double-dfi rsoudre : instaurer et assurer une relation privilgie avec ses clients. Le Big Data leur
permet datteindre cet objectif. En
scrutant et en analysant les rseaux
sociaux principalement lindustrie culturelle est en mesure dobserver quelles sont les attentes du
moment, mais aussi de les anticiper.
Les donnes personnelles culturelles
permettent galement de prolonger lexprience culturelle et la relation entre acteurs et usagers cultu-
(53) http://www.strategies.fr/etudes-tendances/tendances/224438W/le-big-data-au-service-de-la-culture.html
(54) Comportements culturels et donnes personnelles au cur du Big data EY & Forum dAvignon, 2013 : p.12
(55) Ibid
(56) http://substance.etsmtl.ca/un-algorithme-pour-predire-le-succes-litteraire-la-maniere-de-triz/
Copyright
(57) http://reseauculture21.fr/wp-content/uploads/2014/07/EtudeATELIER_FA_2013.pdf
Copyright
67
Henri Isaac
Le commerce lectronique,
quil soit mobile, desktop ou
sur tablette, gnre quantit de donnes
qui sont la base des web analytics
que tout e-commerant se doit de
suivre avec attention. Si les volumtries consquentes de donnes ont
longtemps t lapanage des principaux sites de-commerce, le dveloppement constant de ce secteur
amne de nombreux sites grer
des volumes croissants de donnes
lies au trafic, la navigation,
lachat, la relation client.
Larrive des technologies Big Data
change radicalement la donne dans
ce secteur et ce sur plusieurs problmatiques propres au commerce
lectronique : la conception des
interfaces marchandes, la recommandation et la personnalisation,
le pricing, la gestion du catalogue.
Copyright
69
(58) http://www.content-square.fr/
(59) http://www.boomerangcommerce.com
(60) http://www.ecommercebytes.com/cab/abn/y14/m07/i18/s02
70
Copyright
(61) A titre dexemple, un site come Pcheur.com gre un catalogue de plus de 154 000 produits, Amazon.fr possde lt 2014 plus de 119 millions de rfrences et Amazon.com 253 millions. Source : Export.com
(62) voir une prsentation pdagogique de ce modle : http://www.magentix.fr/divers/modele-eav-magento-database.html
(63) disponible sur GitHub https://github.com/Smile-SA/mongogento
(64) http://www.ecommerce-performances.com/
Copyright
71
Chiffres cls :
98 % : cest le pourcentage
de baisse du cot du stockage pour un gigabit de
data financire. Ainsi, une
entreprise oprant plus de 20
millions doprations quotidiennes fait passer le cot de
stockage de 17$ 21 cents
par gigabit avec une architecture Hadoop 65 .
(65) http://inside-bigdata.com/2014/10/13/adopting-big-data-finance/
72
Copyright
Chiffres cls :
22 % : augmentation de la
performance des centres
dappels Xerox qui ont automatis leur recrutement
4 millions : le nombre de profils de dveloppeurs analyss
et classs par lalgorithme de
Gild
(66) http://internetactu.blogue.lemonde.fr/2013/05/03/le-recrutement-et-la-productivite-a-lheure-des-big-data/
Copyright
73
Chiffres cls :
25 par seconde : cest le
nombre
dinformations
qumettaient les joueurs de
la Mannschaft quips de
matriel connect pendant
la Coupe du monde 2014
golocalisation
ces
(67) http://www.ft.com/intl/cms/s/2/e3561cd0-dd11-11e3-8546-00144feabdc0.html#ixzz374JVEd7M
74
Copyright
vastes
Copyright
75
DirecteuR
affaires juridiques
et affaires publiques
Microsoft
Marc Moss
LE big data et la ville
Chiffres cls :
Prs de 50 % de la population mondiale vit aujourdhui dans une zone urbaine
25 % : cest le pourcentage
de rduction de la consommation lectrique de la ville
de Seattle grce lanalyse prdictive et loptimisation des quipements
lectriques contrls par
des logiciels
Le march des villes intelligentes devrait atteindre 39
milliards de dollars en 2016,
contre 10 milliards en 2010
selon ABI Research.
Copyright
77
78
Copyright
Cest aussi confier aux agents municipaux des appareils et des applications
de qualit professionnelle en leur donnant la possibilit de rester connects
via un appareil mobile avec leur bureau
et leurs collgues, quel que soit lendroit
o ils se trouvent, afin que le service apport aux citoyens ne soit pas interrompu ds quils quittent leur lieu de travail.
Prenant en compte les usages des
agents, le projet CityNext a mis au
point des offres sur mesure qui autorisent et facilitent le paramtrage et
lutilisation de divers types dappareils,
quils fonctionnent sous des systmes
dexploitation
Windows,
Android,
ou Apple. Les agents ont des ides
bien prcises quant aux appareils
quils souhaitent utiliser et nous pensons que linteroprabilit offre plus
de flexibilit et de confort de travail.
LAutorit portuaire de Hambourg
(HPA) gre le plus grand port dAllemagne. Elle souhaitait tirer parti des
appareils nomades de ses agents pour
accrotre la mobilit de ses collaborateurs. La HPA a collabor avec Microsoft et son partenaire, Blue Communications Software, pour adopter une
solution Office 365 ProPlus, base sur
le Cloud, afin de permettre ses collaborateurs dtre productifs quelque
soit lappareil utilis ou lendroit o ils se
trouvent dans le port. Les problmes de
compatibilit ont ainsi t rsolus et le
risque dinterruption limit conduisant
une rduction de 75 % du temps consacr par les administrateurs la gestion
du dploiement. Autant de temps
disponible pour un meilleur service.
(68) http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?casestudyid=710000003034
Copyright
79
Henri Isaac
Le Big Data et le marketing
De nombreuses mthodologies, au
cur du marketing sont questionnes : les tudes, la notion mme
de campagne. Au-del de la fonction marketing elle-mme, cest
un nouveau paradigme de pilotage de lentreprise qui est en jeu.
(69) http://www.butter-cake.com/big-data-christophe-benavent-de-letude-a-laction-en-marketing/
Copyright
81
82
(70) voir IAB Europe, AppNexus and WARC, (2014), Why and How Programmatic is Emerging as key to RealTime Marketing Success , June
(71) Observatoire de le-Pub SRI et PwC
(72) http://www.orange-business.com/fr/big-data-analytics
(73) http://www.visitprovence.org/agence_flux_vision_tourisme.asp
(74) Voir par exemple les donnes de Google sur le sujet : http://www.thinkwithgoogle.com/tools/customer-journey-to-online-purchase.html
Copyright
travers de cet exemple le bouleversement potentiel que le Big Data apporte dans le champ du marketing.
Continuous commerce
Ce que le Big Data contribue certainement le plus transformer cest
la notion mme de campagne et
donc la faon dexcuter une stratgie marketing. Les processus de
dcisions dachat des clients se
sont complexifis74 (rseaux sociaux,
App mobile, magasin, TV, tablette,
ordinateur, catalogue, affichage,
radio, presse, etc.) du fait dune information disponible abondante et
accessible pour le consommateur75.
De nouveau vocable apparus dans
le champ du marketing illustrent
bien cette complexit croissante :
pre-marketing76 et re-marketing77 ne
sont que les phases plus complexes
et denses dun processus continu
et temps rel que lentreprise doit
analyser, suivre et sur lequel agir.
Certains, comme Ogilvy parlent de
continuous commerce78. La ncessaire matrise de cette complexit
et du temps rel ne font que renforcer lutilisation des outils Big Data.
De nouvelles organisations et comptences ncessaires
Larrive des mthodologies Big Data
bouscule quelque peu les mtiers
historiques du marketing. Loutillage
croissant des dcisions marketing,
le pilotage des actions et de leur
budget ncessitent de nombreuses
(75) voir les donnes de Google par pays et secteurs disponibles sur le processus de dcision dachat en ligne :
http://www.thinkwithgoogle.com/tools/customer-journey-to-online-purchase.html.
(76) Voir par exemple le cas dans lautomobile http://www.largus.fr/actualite-automobile/le-marketing-est-mortvive-le-pre-marketing-5132379.html
(77) http://www.thinkwithgoogle.com/products/remarketing.html
(78) http://continuouscommerce.ogilvydo.com
Copyright
83
nouvelles comptences79. Au ct
du Directeur Marketing (Chief Marketing Officer, CMO), on voit apparatre des Chief Data Officer, voir
des Chief Digital Officer. Si lenjeu
du digital pour les entreprises nest
pas fonctionnel, il nen demeure pas
moins que la fonction marketing est
en premire ligne dans cette phase
rapide de transformation. Si de nouveaux mtiers au sein de la fonction
marketing mergent (data scientist,
data analyst, data visualizer), ce sont
la plupart des mtiers historiques qui
voluent profondment avec le digital (tudes, media planning, RP, etc.)
Ce qui est en jeu, cest la matrise
des outils digitaux, des mthodologies et de la culture de cet environnement mouvant. Nombreux
sont ceux qui appellent une nouvelle relation entre la Direction Marketing et la Direction des Systmes
dinformation (DSI)80. Dautres appellent un directeur technique au
sein de la direction marketing81. Ce
dbat concerne dailleurs tout autant les agences qui conseillent ou
excutent les dcisions marketing.
Elles font face des enjeux tout
aussi complexes : comment attirer
des data scientists ? Comment faire
voluer et prserver la culture crative lre de la mathmatisation
des dcisions et des campagnes ?
Au-del de lorganisation de la direction marketing ou des agences,
cest le renouvellement constant de
ces comptences qui est le vritable
enjeu.
84
Chiffres cls :
20 % : cest le nombre de
crimes qui aurait t commis
en moins Santa Cruz grce
lquipement des quipes
de police de technologies
prdictives fondes sur le
Big Data
(79) http://www.journaldunet.com/solutions/analytics/metier-big-data-data-scientist.shtml
(80) http://www.accenture.com/us-en/Pages/insight-cmo-cio-alignment-digital-summary.aspx
(81) Brinker, Scott, McLellan, Laura (2014), The Rise of the Chief Marketing Technologist , Harvard Business
Review. Jul/Aug, Vol. 92, Issue 7/8, pp. 82-85
Copyright
Copyright
85
Isabelle Denervaud
En effet, la recherche
dans ce secteur pourrait
terme faire des miracles
grce la croissance exponentielle des donnes issues des objets
connects, de la gnomique ou de
la biologie molculaire. Lannonce
rcente par Google dun projet de
recherche de diagnostic de maladies comme le cancer bas sur
lutilisation de nanoparticules artificielles en constitue un exemple frappant. Lassaut pour dpasser la mort
est donc officiellement lanc mais
jusquo ira-t-on pour prolonger la
vie ? LE Big data et la qute de limmortalit
Un champ des possibles inspirationnel...
Dans la sant, le squencement du
gnome dont le cot devrait pas-
Le Monde, 2014
Copyright
87
88
Copyright
Copyright
89
C$
CEO - beConect.com
Jean-Franois Vermont
Chaiman - beConect.com
90
Copyright
Grand public
Lusage auprs du grand public se
propage en cercles concentriques
partir de besoins initiaux simples
pour la maison connecte, le fitness
(et les fameux wearables) et les loisirs, pensons notamment aux drones.
Au sein de la maison, le monitoring
(et plus largement la scurit) ainsi
que la gestion intelligente de lclairage sont les deux principaux points
dentre en terme dusage. Attention ! On ne dira plus domotique
pour ces nouveaux usages terme
renvoyant un contrle plutt dcentr de lusager mais bien maison connecte ou intelligente .
Les deux logiques de Big Data sont
dailleurs trs diffrentes : on passe
dun contrle unique, le plus souvent par le biais dun spcialiste,
un contrle multiple directement
par les usagers et les systmes de
traitement intelligent nodaux. On
touche ensuite aux besoins plus volus qui ncessitent des transformations parfois plus
coteuses
des objets traditionnels : chauffage,
climatisation,
lectromnagers.
La sant est un autre usage majeur
qui, en raison de sa forte rglementation, se dveloppe dabord par
des usages simples : tensiomtre,
pse-personne, brosse dents Ce
qui ne lempche pas dentrer, lentement mais srement, dans les hpitaux et dans les pratiques mdicales
en gnral. En 2012 dj, plus dun
(82) http://www.euractiv.fr/sections/innovation-entreprises/la-commission-europeenne-met-la-protection-desdonnees-en-haut-de
*http://vidalfrance.com/presse/premier-barometre-sur-les-medecins-utilisateurs-dun-smartphone/
Copyright
91
interaction
entre
le
concessionnaire et son
client, entre
un
utilisateur et des stations-essence ou centres de services. Globalement, on considrera les fonctionnalits des objets connects
comme une rsultante de la juxtaposition de plusieurs couches :
- les
possibilits et caractristiques des capteurs aptes collecter des donnes mesurables
: vitesse, acclration, composition chimique, temprature ;
- les modalits de transmission des
in- formations collectes : RFID, BlueToo- th, WiFi, 4G, satellite data ;
- les
mthodes
de stockage et
donnes, cette
particulirement
de captation,
danalyse des
dernire tant
importante
;
- les
fonctionnalits support
aux services rendus lutilisateur, qui peuvent tre par
exemple un retour dinformation.
Chaque couche de cette pile constitutive des objets connects fait lobjet dintenses efforts de recherche, de
dveloppement et damlioration.
Les capteurs notamment se mniaturisent et se diversifient de faon
ingnieuse dans leur aptitude
collecter des donnes. Aussi, les
convertisseurs des variations de valeurs physiques des capteurs en
data se perfectionnent et sont de
plus en plus conomes en nergie.
Une illustration impressionnante de
92
Copyright
Copyright
93
94
Copyright
Copyright
conomiques et institutionnels, ou
de fonctionner dans un mode dgrad pour certains objets connects que lutilisateur jugerait pertinent.
Une conclusion provisoire est que le
Big Data est promis un bel avenir
pour les dix prochaines annes, et ce
travers lexplosion des usages des
objets connects qui seraient conus
et exploits dans une logique de respect et de bienveillance envers leurs
utilisateurs, ce qui il faut le dire est
encore loin dtre une vidence.
Avec les objets connects, les fournisseurs de solution touchent lintime, et donc une matire sensible,
voire potentiellement explosive.
Les acteurs conomiques, institutionnels et tatiques, devront reconnatre que les donnes personnelles ne leur appartiennent pas, et
que des mcanismes de contrle
par des autorits techniques, par
des lois et des juges, sont indispensables leur propre russite.
Nous recommandons au lecteur intress par le futur du Big Data et
des objets connects de se faire
son avis tout simplement en achetant des objets connects, en les
utilisant, en les observant et en
sintressant au dbat sur la vie
prive en lien avec le Big Data.
Pour ceux qui souhaiteraient prolonger le
dbat, vous pouvez
joindre les auteurs dans la rubrique
contact de beconect.com. Ils seront ravis dchanger sur les thmes
abords, dont les enjeux socitaux sont extrmement puissants.
95
D$
Dune part, la prsentation des diffrentes applications du Big Data prsentent un potentiel conomique, social et politique norme. Ces progrs technologiques viennent questionner de nouveaux enjeux thiques.
Ils concernent la vie prive des individus, la rationalisation des choix et la
place de lhumain dans les processus de dcisions, la confiance accorde
la technologie, la capacit de rguler des formules mathmatiques, etc.
La demande pour plus de transparence est une modification structurelle
face laquelle les instances de rgulations et les entreprises nont dautres
choix que de sadapter
Yves-Alexandre de Montjoye, chercheur associ au MIT
96
Copyright
(82) http://www.euractiv.fr/sections/innovation-entreprises/la-commission-europeenne-met-la-protection-desdonnees-en-haut-de
Copyright
97
98
Copyright
Copyright
99
Privacy by Default
Privacy by Design
La Privacy by Default consiste paramtrer par dfaut les plus hautes options de protection des donnes personnelles dans les produits et services
numriques. Elle est fonde sur trois
constats : (1) le paramtrage initial
propos nest pas modifi par lutilisateur, (2) lutilisateur est favorable
une meilleure protection de ses
donnes personnelles, (3) les entreprises devront tre plus transparentes
pour convaincre lutilisateur douvrir ses options de confidentialit.
N durant les annes 90 aux tatsUnis, le concept de Privacy by Design consiste mettre la protection
des donnes prives au coeur de
la conception mme du produit :
celles-ci sont protges a priori par
le design du produit ou service et
non plus par un contrle a posteriori. Son implantation dans larchitecture mme du produit ou service
permet dapporter une rponse
globale la protection des donnes personnelles, adapte au Big
Data. Cest le modle en place,
par exemple, dans la gestion des
donnes traites par les camras de surveillance aux tats-Unis.
100
Copyright
Copyright
101
102
Copyright
103
PARTIE IV
LA FRANCE
LHEURE DU BIG DATA
Copyright
105
(84) IHTT, Transforming Health Care Through Big Data, 2013, p.8
106
Copyright
(85) www.ccomptes.fr/content/download/.../2_6_Pole_emploi_tome_II.pdf
Copyright
107
En moyenne le montant de la fraude lassurance sant quivaut presque 7 % de la totalit des dpenses de sant dun pays soit pour
2014 un cot mondial quivalant 376 milliard
deuros.
La situation est particulirement inquitante
aux Etats-Unis. La fraude lassurance sant reprsente entre 3 et 10 % du total des dpenses
de sant soit entre 75 et 250 milliards de dollars
par an. Alors que le vieillissement de la population sacclre et que le nombre de maladies
chroniques augmente, les autorits ont dcid
dagir en consquence.
En juin 2011, le Ministre de la sant amricain
a dploy le Fraud Prevention System (FPS).
Cette technologie fonctionne selon des technologies du Big Data. Il collecte et agrge des
donnes. Puis un protocole danalyse fond sur
des algorithmes examine au fur et mesure les
demandes de remboursement prsentes. Ces
demandes sont notes en fonction du risque
de fraude. Si une demande semble prsenter de forts risques de fraude, les autorits sont
alertes avant de procder au remboursement
afin de vrifier lauthenticit du document.
Le contrle de donnes fonctionne sur quatre
types dalgorithmes :
- Rules-based models : filtrent les demandes de
remboursement. Ils identifient par exemple les
factures qui portent un numro didentification
Medicare vol ou utilis de manire anormale.
108
Copyright
- Anomaly models : dtectent les comportements anormaux en les comparant des comportements de rfrence. Par exemple, un
fournisseur de soins de sant facturant bien plus
de services de soins que 99 % des fournisseurs
analogues en une seule journe sera identifi.
- Predictive models : valuent des comportements laune de cas prcdemment identifis comme frauduleux.
- Network models : analysent des liens associs entre diffrents acteurs. Par exemple, les
services dun fournisseur li ayant un comportement frauduleux seront identifis comme frauduleux grce lanalyse de localisation.
Un retour sur investissement avantageux
Linvestissement pour construire et mettre en
place le FPS ft relativement lourd : environ 41
millions de dollars. Mais le retour sur investissement est trs intressant. En effet, le systme
prventif a permis Medicare dconomiser
210 millions de dollars. Ainsi pour un dollar dpens, cinq dollars ont t conomiss.
Informations et chiffres issus du livre blanc Dun
systme de sant curatif un modle prventif
grce aux outils numriques , Renaissance Numrique, Septembre 2014
Copyright
109
Lcosystme franais :
de vrais atouts pour devenir
leader europen du Big Data
110
Copyright
Copyright
111
Les Etats-Unis :
Passage obligatoire pour les
entreprises franaises de Big
Data ?
112
Copyright
Valoriser le savoir-faire
franais pour matriser le
Big Data
Cette hybridation des profils demande aux instituts dducation suprieure de se recomposer, limage
de linflation des doubles formations
coles dingnieurs coles de commerces 87. tant donne la diversit
des mtiers du Big Data et des comptences requises, tous les degrs
de luniversit sont concerns, des
formations technologiques et spcialises aux masters et doctorats.
Le leader de demain ne sera ni
ingnieur, ni manager : ce dont
nous avons besoin aujourdhui,
cest de caractres hybrides, capables de manier les donnes
mais galement daller chercher,
de trouver les bases de donnes
intressantes compiler, etc.
Nicolas Glady, Professeur Associ,
Titulaire de la Chaire Accenture
Strategic Business Analytics, ESSEC
On peut noter les rapprochements autour de cursus spcialiss Big Data entre Grenoble Ecole de Management et
lEMSI, entre lEPSI et lIDRAC, HEC et Tlecom Paris Tech.
Copyright
113
114
(88) Lcole Polytechnique, ENSAE, les coles Centrales, ParisTech et les facults dOrsay et de Jussieu on rgulirement t cit par notre panel
(89) tude de lentreprise amricainde Kforce et accessible sur http://www.lemondeinformatique.fr/actualites/lireles-salaires-des-8-competences-les-plus-recherchees-en-big-data-56610.html
(90) https://www.gov.uk/government/news/73-million-to-improve-access-to-data-and-drive-innovation
Copyright
(91) http://www.whitehouse.gov/sites/default/files/microsites/ostp/Data2Action%20Press%20Release.pdf
Copyright
115
116
Copyright
117
conclu sion
Copyright
119
Olivier Gurin,
Franois Bourdoncle
Rand Hindi
fondateur de Snips
Romain Lacombe
Charg de linnovation et du
dveloppement de la mission Etalab.
Ekbel Bouzgarrou
Thomas Lefvre
Stphane Buttigieg
Mehdi Chouiten
Guillaume Liegey
Yves-Alexandre De Montjoye
fondateur de Liegey-Muller-Pons
Arnaud Massonie
Florian Douetteau
Fondateur de Dataiku
Thibaut Munier
Jean-Luc Errant
administrateur de
Renaissance Numrique
Galle Recourc
Nicolas Glady
directrice scientifique,
Evercontact
Professeur Associ
Titulaire de la Chaire Accenture
Strategic Business Analytics
Marine Romezin
Communications Manager
chez Squid Solutions
Samuel Gota,
Basile Michardiere
Henri Isaac
Camille Vaziaga
Jean-Franois Vermont
Pierre Balas
Vice prsident
Institut G9+
charg de mission
Renaissance Numrique
Vice prsident de
Renaissance Numrique
dlgue gnrale
Renaissance Numrique
Copyright
charg de mission
Renaissance Numrique