Le big data : un enjeu pour les industries créatives

Article  par  Jean-Paul SIMON  •  Publié le 20.01.2015  •  Mis à jour le 17.12.2015
Le big data : un enjeu pour les industries créatives
Anticipation de la demande, création de nouveaux contenus ou mise en avant d'artistes, que font les industries créatives avec le big data ?


Sommaire

La notion de big data, en français « mégadonnées »[+] NoteTerme officialisé en France par la Commission générale de terminologie et de néologie (Informatique), Journal officiel du 22 août 2014 : « données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés » X [1] ou « données massives » s’est rapidement répandue depuis quelques années, portée par des sociétés de conseil et largement relayées par les médias, puis les pouvoirs publics, sans pour autant faire l’objet d’une définition précise. Ces données sont souvent présentées comme le « nouvel or noir de la croissance », voire le « futur moteur » de l’économie. Comment définit-on le big data, quel est son périmètre et la taille du marché ? Comment les industries créatives en tirent-elles parti ?

La valse des zettabytes ou la folie des grandeurs

Selon les estimations les plus plausibles[+] NoteIl convient d’être prudent avec ces chiffres, de ne les prendre que comme indicatifs de tendances.X [2], mais il ne s’agit que d’un ordre de grandeur, la masse de données disponibles dans le monde serait passée de 3 milliards de gigabytes[+] NoteExaByte, 1018 bytes, GigaByte, 109 bytes, MegaByte, 106 bytes, PetaByte: 1015 bytes, Zettabytes 1021bytes.X [3] en 1987 à 300 milliards en 2007 soit une multiplication par 100 en l’espace de 10 ans[+] NoteMayer-Schönberger, V., Cukier, K., (2013), A Revolution That Will Transform How We Live, Work, and Think. Eamon Dolan/Houghton Mifflin Harcourt.X [4]. L’explosion annoncée des données (jusqu’à 7 zettabytes prévues pour 2015) provient de la croissance exponentielle des données disponibles, combinée à une capacité toujours plus grande de collecter, traiter et analyser ces données. Elle aura été rendue possible par le déploiement des infrastructures de réseaux (haut débit et de plus en plus, très haut débit), ainsi que par l’équipement des ménages en terminaux divers, avant tout mobiles (smartphones, tablettes et phablettes).

Ces données proviennent de sources diverses et hétérogènes : des individus eux-mêmes, des machines ou des capteurs. Il s’agit à la fois d’informations générées passivement, sous-produits d’une activité communicationnelle, et d’informations délivrées volontairement sur Internet. La fusion des données provient donc de sources disparates, numériques ou analogues[+] NoteÉmanant certes du monde physique mais numériséesX [5].
L’indicateur le plus simple de cette explosion est la croissance impressionnante du trafic de données mobiles, suivie annuellement par Cisco qui souligne notamment la dominance des données vidéo[+] NoteInstagram indique qu’à partir de sa base de clientèle de 300 millions, 70 millions de photos et de vidéos sont échangés quotidiennement.X [6] (près de 80 % du total prévu à l’horizon 2018) ainsi que le rôle moteur des consommateurs.

Cette combinaison des infrastructures et des terminaux adéquats ouvre la voie à un développement de l’Internet des objets qui va encore accroitre le nombre de données. IDC prévoit la connexion de 212 milliards de terminaux pour 2020. De la même façon, les communications de machine à machine (M2M) sont en augmentation constante du fait de la baisse des coûts, d'une couverture améliorée, d'une offre de technologies radio plus pertinentes et d’un nombre croissant d’applications. SAP prévoit plus de 2 milliards de terminaux connectés pour 2021 contre seulement 200 millions en 2013.
En valeur, le marché des mégadonnées estimé par Transparent Market Research à 6,3 milliards de dollars en 2012, devrait atteindre 8,9 milliards en 2014 pour s’élever à 48,3 milliards en 2018. IDC indique 16,1 milliards de dollars pour cette même année 2014[+] NotePress, G. (2013),“$16.1 Billion Big Data Market: 2014 Predictions From IDC And IIA” X [7].
Revenir au sommaire

Des contours incertains

Il reste à se demander à quoi renvoient ces chiffres et quels processus ils recouvrent. La confusion règne le plus souvent en matière de définition. Malgré la pléthore de rapports en la matière,  il n’existe pas de définition reconnue des big data  il n’existe pas de définition commune des big data reconnue sur le plan international, pas plus que de définition opérationnelle qui servirait à comprendre les développements des marchés, les contours du secteur et la nature des activités qui s'y déroulent. Confusion qui pourrait bien être voulue, car le flou renvoie souvent à des stratégies de vendeurs, comme le note perfidement Tim Harford.

On peut faire remonter la notion de big data à un rapport du Meta Group de 2001 qui identifiait trois dimensions de la croissance des données, les 3V : le volume[+] NoteQuantité de données : petabytes ou plusX [8], la vélocité[+] NoteVitesse d’entrée et de sortie pour la collecte et l’analyse en temps réelX [9] et la variété[+] NoteÉtendue des types de données, formats et services, diversité des procédés de collecteX [10]. Sont venus s’ajouter trois autres V, la véracité[+] NoteCrédibilité des donnéesX [11], la valeur et la visualisation, ainsi que la complexité[+] NoteProblèmes liés au couplage, au nettoyage et à l’édition des donnéesX [12].

Les processus liés aux big data renvoient à l’extraction (« data mining ») et au traitement d’un volume très important de données afin de mieux comprendre le comportement du consommateur, de gérer les chaînes de production ainsi que de nombreux autres aspects de l’activité économique.

La chaîne de la valeur des big data comprend l’acquisition de données (structurées ou non), l’analyse, la conservation, le stockage et l'utilisation de ces données à des fins diverses : prévision, simulation, exploration, visualisation, modélisation. Les composants de base sont les logiciels (de loin le plus important selon IDC), le matériel et le stockage. De nouveaux outils sont apparus pour extraire, charger et transformer les données, et de nouvelles technologies telles Apache Hadoop[+] NoteDu nom de l’ours en peluche jaune du fils du fondateur. Le Guide du Big Data. 2014-2015 donne un historique de la société : pp.24-28.X [13] et NoSql sont au cœur du traitement.
Revenir au sommaire

Inflation verbale ou réalité économique?

Depuis 2001, de nombreux rapports, émanant de sociétés de conseil pour la plupart, se sont succédé pour enjoindre aux « naïfs » d’ouvrir les yeux face au phénomène des big data. Toutefois, le rapport de McKinsey de 2011 restait prudent, se contentant de fournir des exemples d’applications pour quelques secteurs alors impliqués. Toutefois, il notait déjà que tous les secteurs industriels n’étaient pas égaux face aux big data. Le rapport indiquait que les « suspects habituels » (fabricants de produits électroniques et acteurs du traitement de l’information) étaient les plus à même de bénéficier de manière substantielle de l’accès à de vastes quantités de données, ainsi des sociétés du monde de l’internet qui récoltent des masses de données. En revanche, des secteurs tels que la construction, l’éducation et les arts et loisirs donnaient des signes de productivité négative ce qui révélait la présence de barrières systémiques jouant contre l'accroissement de la productivité.

De la même façon le cabinet IDC[+] NoteIDC, (2012), Worldwide Big Data Technology and Services, 2012–2015 Forecast.X [14], notait que les bénéfices escomptés  n’étaient pas toujours clairs. La société indiquait notamment qu’en 2013 environ 5 % de la masse des données avait une utilité, même s’il prévoyait un doublement pour 2020. La pénétration du M2M serait de l’ordre de 2 % des abonnements aux réseaux dont on mesure le trafic, soit environ 0.1 % du trafic de données mobile.

De plus, selon le rapport SAS 2013, la plupart des organisations n’ont pas développé, mis en place, ni exécuté une quelconque stratégie concernant les mégadonnées. Rien d’étonnant alors à ce que les sociétés de conseil insistent sur la nécessité d’acquérir une « mentalité ouverte aux données ». Toutefois, toutes les sociétés ne disposeront pas de spécialistes en la matière, ce qui pourrait constituer a fortiori une barrière à l’entrée non négligeable, exigeant investissements en formation et en temps.

Dans un livre blanc (2014), le monde de l’édition de livre souligne déjà ce point particulièrement sensible pour les petites maisons d’édition, ajoutant que, de surcroît, l’expertise extérieure est coûteuse. Le livre blanc note que les fournisseurs de services de technologies, tels que Klopotek[+] NoteLa société se présente comme le premier fournisseur mondial de progiciels et de services à plus de 350 maisonsX [15] ou Publishing Technology[+] NoteFournit des services de contenus à plus de 400 éditeurs de par le monde dont HarperCollins, McGraw-Hill, Macmillan, Elsevier, Springer, Sage, Oxford University Press, BMJ Group, Brill, United Nations, American Institute of Physics, American Society for Microbiology, BioOne and Bloomsbury Publishing.X [16], privilégient les grands éditeurs internationaux ou les éditeurs scientifiques et techniques qui ont déjà sauté le pas, même si on peut espérer qu’à terme la baisse des coûts, ou une concurrence accrue, élargiront leur base de clientèle. En tout état de cause, Macmillan est devenu un partenaire incontournable de sociétés telles que Next Big Book qui offre des services de traitement des big data. Ces deux sociétés ont développé un tableau de bord pour identifier et suivre les facteurs ayant le plus d’influence sur les ventes de livres.
Revenir au sommaire

La signification du phénomène pour les industries de contenu

L'élimination de ces barrières provoquera des tensions et des conflits aussi longtemps que le rapport coût/bénéfice restera incertain, comme ce fut le cas de l’informatisation des sociétés dans les années 1970. Dès lors, la question qui se pose est de savoir ce que l’on peut faire, en réalité, de ces big data, car une estimation de la taille des marchés (volume, valeur) ne suffit pas à rendre compte du phénomène.

Les big data ont fait irruption au début de ce siècle, portées par des start-ups et des sociétés de l’Internet telles eBay, Facebook, Google ou LinkedIn, qui se sont construites sur ces mégadonnées, sans avoir à les intégrer à des sources de données plus traditionnelles. On leur doit d’ailleurs une partie des technologies actuelles dans le domaine: Google a été l’inspirateur de Hadoop, Facebook a développé Cassandra. Ces sociétés ont porté le passage de l’ « analytique 1.0 »[+] Note« analytics » : découverte et transmission de schémas significatifs à travers l’analyse des données.X [17], selon T. H. Davenport et J.Dyché, à l’ « analytique 2.0 » à partir de 2005 en exploitant leurs données en ligne, pour déboucher sur  « l’analytique 3.0 » à partir de 2012, qui ouvre la voie aux données « prescriptives ».

De fait, les « dragons numériques »[+] NoteAtelier Paribas, (2013), Big data, big culture? The Growing Power of the Data and its Outlook for the Economy of Culture. X [18] sont intrinsèquement les mieux placés pour tirer parti de cette évolution, des nouvelles formes d’analyse des mégadonnées et du « cloud computing »; Amazon (AWS) comme Google (Big Query) et Microsoft (Azure) en sont les principaux fournisseurs de services pour tiers. Les nouveaux acteurs du numérique sont aussi les pionniers de l’extraction des données pour la compilation des recommandations de leurs utilisateurs (Amazon, Netflix, Pandora, Zynga…).

Les fournisseurs de contenus créent des unités pour superviser leurs activités d’analyse, tels Amazon et LinkedIn créant des « centres d’excellence », Netflix centralisant complètement cette activité. La société de distribution de films a produit sa série à succès House of Cards  après analyse des données de sa base de clientèle, soit des millions d’interactions quotidiennes, des millions de recherches, ainsi que des tags et autres métadonnées. Amazon Publishing repère les œuvres épuisées (AmazonEncore) ou à traduire (AmazonCrossing) à partir des données clients. Google, comme Zynga, s’appuie sur un département opérationnel, la société de jeux vidéo ayant été la première à relier la conception de jeux à son modèle d’affaires[+] NoteLes animaux de la première version de Farmville n’étaient que décoratifs, l’analyse des données à repéré leur utilisation par les joueurs ainsi que leur propension à payer à cette fin, ce qui conduira à Farmville 2.0. X        [19](jeux gratuits et ventes d’articles virtuels). Spotify s’est illustrée par ses prévisions pour les Grammy Awards effectuées à partir de l’analyse des flux de données.
Revenir au sommaire

Big data : de nouveaux services pour les industries créatives

De nouvelles sociétés sont apparues pour offrir leurs services aux industries créatives. Les acteurs de la musique, du cinéma ou de l’édition se voient proposer toutes sortes de services à des fins commerciales.

Next Big Sound, une société lancée en 2009, analyse toutes sortes de données pour l’industrie de la musique (provenant de YouTube et Spotify, de statistiques issues des medias sociaux) afin de déterminer le meilleur canal de vente. La société indique traiter désormais les données pour plus de 85 % de l’industrie de la musique). Depuis son lancement en 2009, la société a recueilli plus de 4 années de données sur les réseaux sociaux pour des centaines de milliers d’artistes. Elle établit des corrélations entre les ventes et les chiffres de streaming. Elle entend contribuer à une redéfinition de la façon dont les musiciens sont découverts, commercialisés et évalués en liant perception, implication et recettes. Sa filiale, Next Big Book suit auteurs et livres par l’intermédiaire de plusieurs réseaux sociaux, des données de vente et provenant d’événements.

Persistent Systems a aidé Chennai Express, l’un des films les plus gros vendeurs d’entrée du box-office indien, pour sa campagne de marketing, en analysant plus d’un milliard de réactions et un nombre total de plus de 750 000 tweets pendant les 90 jours de cette campagne.
United Talent Agency et Rentrak, société spécialisée dans les mesures d’audience cinéma et TV, ont créé un service PreAct à l’intention de l’industrie du cinéma qui dissèque, à base d’algorithmes, les données de réseaux sociaux. La société a comme client Sony Entertainment et 20th Century Fox.

L’analyse des données permet aussi dans le cas du cinéma, comme de la musique de partir du piratage pour, à l’inverse, stimuler les ventes. Ainsi, le groupe de rock « Iron Maiden » qui avait repéré une forte croissance de fans et pirates en Amérique latine, y a organisé une tournée spécifique avec grand succès. La presse, elle, semble encore se chercher[+] NoteLe New York Times a annoncé en février 2014 l’embauche de son premier « chief data scientist » .X [20].
Revenir au sommaire

Mégadonnées ou méga-problèmes?

Les rapports et articles font souvent preuve de beaucoup d’optimisme en annonçant que le recours aux mégadonnées (big data) permettra, par exemple, aux cinéastes et à l’industrie cinématographique de prévoir les tendances. Ce déterminisme informationnel relève d’une conception mécaniste, quoique courante, du rôle de la technologie, qui comporte le risque de ne servir (souvent de façon inadéquate) que la majorité laissant de côté les minorités. De plus, les statisticiens le savent bien, corrélation ne signifie pas causalité. L’échec de la prévision de la grippe par Google (surestimation de l’ordre de 50 %)[+] NoteLazer, D, Kennedy, R., King, G., Vespignani, A., “The Parable of Google Flu: Traps in Big Data Analysis”. Science, Vol. 343, n°6176, pp. 1203-1205X [21] est là pour nous le rappeler.

Les applications les plus fréquemment mises en avant relèvent du marketing (exemple de Criteo[+] NoteStart-up française à succès fréquemment citée. La société offre de la publicité à la performance, pour tous les canaux de vente à travers un moteur de prédiction et de recommandation qui permet de traiter une grande quantité de données d'intention d'achat en temps réel afin d'identifier les acheteurs et de générer des publicités dynamiques personnalisées pour chaque consommateur.X [22]) ou d’une forme ou d’une autre de commerce électronique, dont on perçoit aisément l’apport potentiel. Ainsi, dans l’exemple cité d’Iron Maiden il s’agit d’une rationalisation de détection de la demande. Toutefois, d’un point de vue plus qualitatif, dans l’univers des contenus, l’analyse des données peut s’avérer être un cercle vicieux du point de vue de la création et de l’innovation.  La prévision de la demande peut relever du fantasme  Chercher ce qui est le plus populaire en musique comme au cinéma n’est pas forcément la meilleure façon de trouver des œuvres nouvelles et majeures. La prévision de la demande peut relever du fantasme et, en tout état de cause, les exemples cités, dont celui de Netflix, ne sont que des cas isolés jusqu’à présent. Il reste ainsi à voir si la firme de distribution peut confirmer ses succès dans la production, ou alors tomber dans les aléas habituels d’une profession marquée par l’incertitude. De fait, la dernière série en date, « Marco Polo”, ne semble pas susciter le même enthousiasme que Game of Thrones

Enfin, des problèmes plus généraux se posent en matière de protection de la vie privée : et de sécurité. Une enquête de 2012 de l’institut de recherche Pew Internet donnait un verdict pour le moins partagé entre ceux qui décelaient le fort potentiel des big data et ceux qui étaient de plus en plus préoccupés des abus possibles.

En ce qui concerne la protection des données, les normes de protection actuelles (anonymisation, consentement individuel et clause de retrait) s’avèrent de moins en moins appropriées et devront être modifiées notamment pour passer du contrôle des données elles-mêmes à leur utilisation, l’anonymisation des données devenant de plus en plus délicate. De plus, l’équilibre entre la collecte d’information à des fins sécuritaires et les droits fondamentaux se modifie.
 
La gestion de ces problèmes sociétaux majeurs prendra du temps, générera des tensions entre promotion de l’innovation et protection des droits. La technologie est autant une partie du problème que de la solution. Pour autant, les problèmes technologiques ne doivent pas être sous-estimés ni considérés comme réglés ou en voie de l’être. La poursuite de la croissance indéniable de cette valse des zettabytes passe par le déploiement de réseaux à même de traiter ces données (4G, 5G), de contribuer au développement de nouvelles applications, à la mise en place de nouvelles plateformes, au développement de nouveaux terminaux mobiles[+] NoteDotés de batterie durant plus longtemps afin de traiter les données.X [23] à des prix accessibles et d’une connectivité appropriée.
 
Passer au crible une masse d’information est une opération complexe, le stockage de terabytes n’est pas simple non plus. Si les barrières à l’entrée peuvent se réduire avec la chute des coûts, notamment avec le « cloud computing », l’expertise reste coûteuse et peu ou pas présente dans les industries créatives.
 
Cette inégalité entre acteurs traditionnels des médias et dragons numériques est source de conflits, comme on l’a vu dans le désaccord qui a opposé Amazon et Hachette. Ce conflit renvoie à un problème de concurrence, de concentration du marché entre les mains des oligopoles du big data, de ces « barons des données »[+] NoteHaire, A, J.,Mayer-Schönberger, V., (2014), Big Data - Opportunity or Threat, ITU GSR discussion paper, 2014X [24], même si pour l’instant, cette tendance a été contrecarrée par la vivacité de l’écosystème des start-ups dans le domaine.
En résumé, les mégadonnées sont peut-être là, mais la méga-vision manque encore à l’appel.
Revenir au sommaire

Références

Références:
T.H. DAVENPORT, J.DYCHÉ,.Big Data in Big Companies. International Institute for Analytics, 2013.
A.J. HAIRE, V. MAYER-SCHÖNBERGER, Big Data - Opportunity or Threat, ITU GSR discussion paper, 2014.
IDC, Worldwide Big Data Technology and Services, 2012–2015 Forecast, 2012.
D. LAZER, R. KENNEDY, G. King, A.Vespignani, “The Parable of Google Flu: Traps in Big Data Analysis”. Science, Vol. 343, n°6176, pp. 1203-1205.
V. MAYER-SCHÖNBERGER, K. CUKIER, A Revolution That Will Transform How We Live, Work, and Think. Eamon Dolan/Houghton Mifflin Harcourt, 2013.

--
Crédits photos
Neerav Bhatt / Flickr
BBVAtech / Flickr
Max Montagut / Flickr

À lire également dans le dossier « Les 10 articles qu'il fallait lire en 2015 » :
Médias et terrorisme, par la rédaction Ina Global
Qu'est-ce qu'un média de service public ? par la rédaction Ina Global
Infographie : OTT, comprendre les nouveaux usages de l'audiovisuel, par Emeline Gaube
Quand l'oligopole de l'internet courtise les éditeurs de presse, par Nikos Smyrnaios
Instant articles de Facebook : aubaine ou piège pour la presse en ligne ? par Nikos Smirnaios
Jusqu'où écrire pour Google ? par Guillaume Sire
« La concentration des médias va s’accélérer », par Guillaume Galpin
La concentration des médias menace le pluralisme, par Guillaume Galpin
Les médias régionaux sont plus concentrés que les nationaux, par Guillaume Galpin




Revenir au sommaire
  • 1. Terme officialisé en France par la Commission générale de terminologie et de néologie (Informatique), Journal officiel du 22 août 2014 :
  • 2. Il convient d’être prudent avec ces chiffres, de ne les prendre que comme indicatifs de tendances.
  • 3. ExaByte, 1018 bytes, GigaByte, 109 bytes, MegaByte, 106 bytes, PetaByte: 1015 bytes, Zettabytes 1021bytes.
  • 4. Mayer-Schönberger, V., Cukier, K., (2013), A Revolution That Will Transform How We Live, Work, and Think. Eamon Dolan/Houghton Mifflin Harcourt.
  • 5. Émanant certes du monde physique mais numérisées
  • 6. Instagram indique qu’à partir de sa base de clientèle de 300 millions, 70 millions de photos et de vidéos sont échangés quotidiennement.
  • 7. Press, G. (2013),“$16.1 Billion Big Data Market: 2014 Predictions From IDC And IIA”
  • 8. Quantité de données : petabytes ou plus
  • 9. Vitesse d’entrée et de sortie pour la collecte et l’analyse en temps réel
  • 10. Étendue des types de données, formats et services, diversité des procédés de collecte
  • 11. Crédibilité des données
  • 12. Problèmes liés au couplage, au nettoyage et à l’édition des données
  • 13. Du nom de l’ours en peluche jaune du fils du fondateur. Le Guide du Big Data. 2014-2015 donne un historique de la société : pp.24-28.
  • 14. IDC, (2012),
  • 15. La société se présente comme le premier fournisseur mondial de progiciels et de services à plus de 350 maisons
  • 16. Fournit des services de contenus à plus de 400 éditeurs de par le monde dont HarperCollins, McGraw-Hill, Macmillan, Elsevier, Springer, Sage, Oxford University Press, BMJ Group, Brill, United Nations, American Institute of Physics, American Society for Microbiology, BioOne and Bloomsbury Publishing.
  • 17. « analytics » : découverte et transmission de schémas significatifs à travers l’analyse des données.
  • 18. Atelier Paribas, (2013), Big data, big culture? The Growing Power of the Data and its Outlook for the Economy of Culture.
  • 19. Les animaux de la première version de Farmville n’étaient que décoratifs, l’analyse des données à repéré leur utilisation par les joueurs ainsi que leur propension à payer à cette fin, ce qui conduira à Farmville 2.0.
  • 20. Le New York Times a annoncé en février 2014 l’embauche de son premier « chief data scientist » .
  • 21. Lazer, D, Kennedy, R., King, G., Vespignani, A., “The Parable of Google Flu: Traps in Big Data Analysis”. Science, Vol. 343, n°6176, pp. 1203-1205
  • 22. Start-up française à succès fréquemment citée. La société offre de la publicité à la performance, pour tous les canaux de vente à travers un moteur de prédiction et de recommandation qui permet de traiter une grande quantité de données d'intention d'achat en temps réel afin d'identifier les acheteurs et de générer des publicités dynamiques personnalisées pour chaque consommateur.
  • 23. Dotés de batterie durant plus longtemps afin de traiter les données.
  • 24. Haire, A, J.,Mayer-Schönberger, V., (2014), Big Data - Opportunity or Threat, ITU GSR discussion paper, 2014
Vous souhaitez nous apporter un complément, rectifier une information ? Contactez la rédaction