Le numérique rebat les cartes du journalisme - épisode 2/3

Le journalisme de données

De la collecte à la scénarisation de larges bases de données pour en extraire de l’information compréhensible par tous, cette technique génère de nouveaux défis.

par Caroline Goulard

Publié le 31 août 2010

Temps de lecture : 22 min

Une étude des chercheurs de l’université de San Diego (1) a montré qu’un foyer américain est exposé, en moyenne, à 100 000 mots par jour. Dans un monde que le numérique a rendu hyper-mnésique, nous sommes submergés par des flots d’informations. L’enrichissement et la prolifération des sources d’information (blogs, agrégateurs, médias pure-players, consommation simultanée de plusieurs médias, etc) a ouvert la porte à l’infobésité et à la mal-info.

De nouveaux besoins en découlent : besoin de filtres pour distiller l’information, besoin d’expertise pour faire jaillir du sens à partir des gros volumes de données.

Parallèlement, la confiance envers les médias traditionnels s’érode, et le public souhaite se nourrir directement aux sources de l’information.

Le journalisme de données se cristallise à la rencontre de ces deux grandes tendances. Il consiste à collecter, trier, croiser, analyser, visualiser et scénariser de larges bases de données pour en extraire de l’information compréhensible par tous. Il crée une médiation visuelle, esthétique et cinétique pour faire entrer en résonance la complexité d’un monde inondé de données avec la compréhension du public. Le journalisme de données permet à la fois un accès direct aux données et une meilleure appropriation de ces données via de nouveaux modes de traitements et de visualisation.

Il soulève de nombreuses questions : peut-il séduire le public ? Quelles compétences sont nécessaires à sa mise en œuvre ? Quels revenus peut-il engendrer ? Pourquoi peine-t-il à se développer en France alors qu’il est florissant depuis 2007 aux Etats-Unis ?

Le journalisme de données : un nouveau mode de traitement de l’information

Le journalisme de données consiste à exploiter des bases de données, pour en extraire de l’information intelligible et pertinente, présentée de façon attractive. Il vise à donner du sens à d’obscures séries statistiques, à faire émerger des histoires dans de longues séries de données éparses.

En cela, il s’inscrit pleinement dans la tradition journalistique consistant à aller chercher de l’information brute pour la présenter de manière adéquate au public. Seulement, il envisage différemment le rôle médiateur du journaliste. Le journalisme de données s’adresse d’abord à l’intelligence visuelle du public, et non à son intelligence verbale. Pour cela, il peut prendre la forme de bases de données enrichies, d’infographies interactives, de timelines (2) et de cartes rich-media (3) , d’applications interactives, etc.

Capture d'écran d'une infographie interactive représentant le rythme de récupération de l'économie d'un pays après la crise. Chaque pays est représenté par un cavalier portant un drapeau sur un cheval. Les Etats-Unis sont en tête.

El Pais a mis au point une animation pour présenter les prévisions du FMI sur l’évolution du PIB des pays occidentaux.

Traditionnellement, l’unité de base de l’activité journalistique est l’article (story) ; avec le journalisme de données, la base de données s’impose comme élément premier. Le commentaire et la narration sont secondaires, les données chiffrées priment. Là où les journalistes traditionnels pensaient en terme de récit, de signature, de titraille, de chapeau et d’accroche, il s’agit de rendre visible les mêmes phénomènes mais à travers le langage des nombres, des bases de données, de l’infographie, de la cartographie et autres visualisations. « Newspapers need to stop the story-centric worldview », enjoignait déjà en 2006 le journaliste américain Adrian Holovaty, précurseur dans ce domaine

Compilation de visualisations et d'exemples de journalisme de données repérés entre novembre 2009 et janvier 2010

Ce changement de perspective a plusieurs atouts pour séduire le public.

Il vise d’abord à améliorer le traitement de certains types d’informations, celles se nourrissant de gros volumes de données. Le montant de la dette ? Le nombre des chômeurs dans la population ? Ces grands nombres ne produisent que peu de sens pour la majorité du public, à l’inverse des infographies, beaucoup plus interactives et intuitives. Le chiffre de la dette publique française devient tout de suite plus signifiant s’il est possible de visualiser son évolution dans le temps ou de le comparer à celui d’autres pays. Le journalisme de données offre ainsi la possibilité de mettre en contexte les éléments d’actualité. En compilant un grand nombre d’informations, il met en lumière les tendances de fond, les changements sur le long terme. Par une visualisation appropriée, des données compilées depuis des années peuvent ainsi raconter des histoires.

Par exemple, cette visualisation de Nathan Yan sur l’émergence de Walmart aux Etats-Unis relate une aventure et le déroulé des images fait sens.

Rapid Growth of Walmart by Nathan Yau – juillet 2008.

Un autre point fort du journalisme de données : les bases de données ne se périment pas. Les données et leur visualisation peuvent être réactualisées en permanence, voire être rafraîchies en temps réel si les bases de données sont reliées à des capteurs ou à des flux d’informations.

Le journalisme de données peut parfois se révéler plus efficace que les formes narratives non seulement pour faciliter la compréhension, mais également pour capter l’attention du visiteur. Ceci est confirmé par L’étude Eyetracking the News sur les habitudes de lecture de l’information (4) >.

Le journalisme de données s’adresse aussi aux consommateurs volages et pressés d’information, ceux qui n’ont ni le temps ni l’envie de lire un dossier d’une dizaine de pages pour comprendre la situation du conflit en Irak ou les relations entre les protagonistes gravitant autour de l’affaire Clearstream. En écho à l’adage selon lequel « une image vaut mille mots », l’Homme a en effet l’étonnante capacité visuelle d’assimiler presque immédiatement de gros volumes d’informations, pourvu qu’elles soient représentées graphiquement. Par rapport à une description textuelle, la visualisation de l’information permet une meilleure assimilation des données présentées.

Le Washington Post crée des nuages de mots à partir des discours politiques.

Le journalisme de données fait donc appel à la visualisation de l’information. Il est une des composantes du traitement rich media, une des applications du journalisme visuel. Dans cette première logique, le datajournalism permet de faire comprendre par l’image certaines idées bien plus efficacement que ne le feraient des mots. Pour cela, il fait appel aux compétences des graphistes et aux connaissances en sémiotique visuelle ou en sémiologie graphique : pour que chaque forme et chaque couleur fassent sens instantanément.

Pour cette visualisation des succès au box office américain depuis 1986, l’équipe du nytimes.com a particulièrement travaillé sur la forme des courbes, et leur couleur. Avec cette visualisation le nytimes.com voulait amener ses visiteurs a se demander si les films les plus primés sont aussi ceux qui ont rapporté le plus d’argent à leur producteurs.

Le journalisme de données ne fait pas uniquement appel à l’intelligence visuelle du visiteur, il travaille également sur la cinétique et l’interaction. Les exemples les plus réussis de journalisme de données présentent des visualisations interactives, autorisant l’internaute à jouer avec les données, à les manipuler, à se les approprier. Plongé dans une posture active, l’usager appréhende et mémorise plus facilement l’information : il peut rechercher dans une base, zoomer sur une carte, personnaliser une infographie, paramétrer les données à comparer, apporter ses propres données, etc.

Pour faire comprendre une affaire d’espionnage politique à Madrid, elpais.com a mis au point une visualisation animée et interactive.

Le journalisme de données répond aussi aux besoins grandissants de personnalisation de l’information. La délinéarisation, la fragmentation, voire l’individualisation, de la consommation d’information sont désormais caractéristiques des usages du Web. Pour y répondre, l’information à la carte s’impose. En bâtissant des interfaces graphiques pour accéder aux bases de données, le journalisme de données permet non seulement de proposer un aperçu de gros volumes de données, d’en faire jaillir le message essentiel, mais il offre aussi à l’usager la possibilité d’interroger n’importe quelle partie de cette base de données, de la rendre accessible et compréhensible instantanément : choix du zoom, délimitation de la zone géographique, sélection des dimensions comparées, personnalisation des critères de visualisation. Une application de journalisme de données peut alors répondre à toutes les attentes particulières des internautes.

Avec l’aide de plusieurs centaines d’internautes, l’équipe d’Owni.fr a géolocalisé les bureaux de votes français et a rendu cette base de données gratuite, ouverte et libre.

Non seulement les internautes ont la possibilité de personnaliser les infographies, mais ils peuvent également contribuer à récolter et à qualifier les données grâce au crowdsourcing(5) . Pour analyser les 458 mille pages sur les notes de frais des députés britanniques, le Guardian a par exemple demandé à ses lecteurs-volontaires d’analyser chacun un extrait du document. Lorsque la base de données n’existe pas, lorsqu’il est matériellement impossible qu’un petit groupe de personnes collecte toutes les données sur un sujet, la force du journalisme de données réside dans sa capacité à fédérer la participation des internautes pour obtenir des données.

En analysant un document de 458 mille pages sur les notes de frais des députés britanniques, le Guardian a révélé des abus dans l’utilisation des fonds publics britanniques. Pour cela le Guardian a fait appel aux contributions des internautes, demandant à chaque lecteur de lire un extrait du rapport.

Ainsi, le journalisme de données n’est pas uniquement une nouvelle façon de délivrer de l’information au public, il s’agit également d’une nouvelle façon de la collecter : en faisant appel aux internautes pour récolter des données, mais aussi en dépoussiérant de grosses bases de données, peu explorées (bilans de la cour des comptes, rapports du FMI, statistiques de l’OCDE, etc.), qui contiennent énormément de matériaux pour le journalisme d’investigation.

L'Enron Explorer, créé en 2006 par Trampoline Systems pour matérialiser les actions et réactions de l’équipe des cadres de l’entreprise Enron à partir de 200 000 e-mails internes datés de 1999 à 2002. La visualisation a mis en évidence les décalages entre les préoccupations des employés ou leurs relations et les activités qu’Enron était censé mener.

Le journalisme de données s’impose donc comme un nouveau genre journalistique, complémentaire à ceux qui lui préexistent. Il s’agit d’un genre qui, comme les autres, nécessite un travail journalistique de vérification, de mise en perspective, d’investigation et d’éditorialisation.

Un courant journalistique ancré dans les changements technologiques et sociaux

L’origine du journalisme de données s’ancre dans le CAR (Computer Assisted Reporting), un ensemble de nouvelles pratiques journalistiques utilisant les ordinateurs pour rassembler et analyser les données nécessaires à l’écriture des articles et à la recherche des scoops. La démocratisation de l’informatique et d’internet au début des années 90 - communications par e-mails, logiciels d’analyse statistique, tableurs, systèmes de cartographie, moteurs de recherche, etc. – a transformé la façon de travailler des journalistes aux Etats-Unis.

Adrian Holovaty -journaliste, entrepreneur et développeur- a écrit le manifeste fondateur du journalisme de données, A Fundamental Way Newspapers Need to Change, en septembre 2006. Il y prône la fabrication (et l’exploitation) de bases de données à des fins journalistiques. Pour Holovaty, les informations recueillies par les journalistes dans le cadre de leurs enquêtes peuvent être considérées comme des données « structurées » qu’il est possible d’agréger, de mixer, de compiler, comme des données chiffrées. Cette conception a incité plusieurs entreprises medias –dont la BBC, le Guardian, le New York Times et la American National Public Radio - à mettre librement à disposition du public des APIs(6) , initiant ainsi un renversement de perspective : désormais ces médias se considèrent aussi comme des producteurs de « data » et non plus uniquement comme des producteurs de « news ».

Le site TheyWorkForYou, de MySociety, lancé en 2004 au Royaume-Uni, peut être considéré comme le premier projet de journalisme de données, avec GovTrack.us de Civic Impulse, également initié en 2004 aux Etats-Unis et la carte ChicagoCrime.org d’Adrian Holovaty, dévoilée en 2005. Le journalisme de données s’est vraiment développé aux Etats-Unis à partir de 2007, avec des sites comme TheyWorkForYou et GovTrack.us (7) . Tous deux s’appuient sur des données déjà publiées sur des sites officiels tels que le Hansard au Royaume-Uni ou celui de la Library of Congressaux Etats-Unis, pour les présenter dans un format plus accessible, avec un moteur de recherche et un espace de débat. Les auteurs de ces deux applications ont donc passé outre les copyrights protégeant les bases de données originales. Via C. GOULARD, Opendata : les leçons des expériences anglo-saxonnes, 31 mai 2010. .

De nombreux sites américains d’information ont lancé des « data centers », espaces de publication en ligne de bases de données, avec des cartes interactives et des applications web hybrides (mashups)(8) .

Le quotidien américain The News Journal (Ganett Corporation) publie sur son site une cartographie de la criminalité de l’état du Delaware, partir d’une application Google Map.

Le succès de ces « data centers » de la presse locale américaine révèle une caractéristique du journalisme de données : il permet d’atteindre le micro-local, il autorise une granularité de l’information sans précédent. Les communautés de voisinage sont toujours intéressées par ces toute petites informations, qui ne valent pas la peine d’être mentionnées dans un journal local, mais qui peuvent répondre à la question « pourquoi la sirène a-t-elle sonné dans mon quartier ? ». Au niveau hyperlocal, le journalisme de données peut ainsi générer de la proximité entre les rédactions et les communautés d’habitants pour lesquelles elles travaillent.

L’importance du journalisme de données a été consacrée en 2007 par la Knight Foundation qui a attribué un prix de 1 100 000 $ au projet EveryBlock d’Adrian Holovaty. EveryBlock est un agrégateur de données micro-locales et urbaines. Lancé en 2007, il couvre aujourd’hui 16 villes aux Etats-Unis et attire chaque mois près de 200 000 visiteurs uniques, sans aucun travail éditorial. En avril 2009, le Politifact du St Petersburg Time a reçu un prix Pulitzer pour son projet de site de vérification des données énoncées par les hommes politiques dans leurs discours.

Le Politifact du St Petersburg Time tient le décompte des promesses tenues par le gouvernement en place.

Depuis 2009, le journalisme de données profite des initiatives anglo-saxonnes en faveur de la libération des données publiques, ou opendata. En lançant data.gov en mai 2009 et data.gov.uk en janvier 2010, le gouvernement Brown et l’administration Obama ont relancé l’intérêt pour les données et leur visualisation. Ces plateformes mettent à disposition de grands nombres de bases de données publiques gratuites et librement réutilisables : les journalistes et citoyens n’ont plus qu’à s’en saisir. Les expériences anglo-saxonnes ont ainsi renforcé le besoin pour du journalisme de données pour exploiter les mines d’informations publiques.

L’opendata n’est pas la seule évolution sociale à lancer un défi au journalisme de données : au fur et à mesure que se banalise la collecte automatisée de données - numérisation, puces RFID, technologies de connexion à distances, etc. –, se multiplient les données produites et stockées, d’où le besoin de modes de traitement de l’information susceptibles de synthétiser et de visualiser ce « data deluge ». Les enjeux du déluge informationnel débordent les préoccupations journalistiques pour devenir un thème d’exploration scientifique et artistique, à l’image des travaux de Manuel Lima, fondateur du site VisualComplexity.com.

Equation coûts-recettes du journalisme de données

Le journalisme de données a donc réussi son institutionnalisation comme nouveau mode de traitement de l’information. Reste à déterminer la rentabilité d’une telle activité.

En 2008, lors du Super Tuesday de la campagne électorale américaine, la page la plus vue du nytimes.com était une infographie interactive (9) . Plus particulièrement, les bases de données micro-locales génèrent beaucoup de pages vues. Sur le site d’information locale www.texastribune.org, les « données » génèrent presque trois fois plus de trafic que les « histoires ». Les bases de données représentent un tiers des 5,3 millions de pages vues depuis la création du site en novembre 2009 (10) .

L’audience semble donc être au rendez-vous, mais cela suffit-il pour constituer un modèle économique ?

Côté coût : le journalisme de données est consommateur de ressources humaines et de temps. Il demande des personnes pluri-compétentes et bien formées. Car il ne s’agit pas seulement de mettre à disposition des données, il faut également les collecter (ou acheter des bases de données), puis les interpréter, les explorer, les manipuler, les triturer et les mettre en forme, pour en extraire du sens, pour les faire répondre aux interrogations du public, pour permettre aux utilisateurs d’interagir avec elles. Une telle entreprise nécessite bien des compétences : celle d’un statisticien, bien sûr, mais aussi celles d’un graphiste, d’un webdesigner et de développeurs (développeur axés back-office et data, pour construire et gérer les bases de données, mais aussi développeurs axés animation et front office), sans oublier les précieux conseils d’un interaction designer(11) , d’un ergonome et d’un architecte de l’information. Toutes les rédactions ne pourront pas se permettre, comme celle du New York Times, de constituer un service infographie de trente personnes, en plus d’un service composé de développeurs et d’un service chargé du multi-média .

Signe que ces besoins sont de plus en plus pris au sérieux Outre-Atlantique, l’école de journalisme de Columbia a annoncé, au début du mois d’avril 2010, qu’elle proposerait un double diplôme avec l’école de sciences de l’informatique de Columbia, pour former des journalistes aux compétences à la fois éditoriales et technologiques et parlant le même langage que les développeurs. En France, la formation initiale des journalistes reste cependant très mal adaptée à ces nouveaux défis.

Une application pratique du nytimes.com pour jauger de l’intérêt comparer d’acheter ou de louer son logement.

Si ces contenus attirent l’audience, s’ils procurent une « expérience d’information » véritablement remarquable, ils peuvent devenir des écrins publicitaires particulièrement prisés, d’autant plus que les bases de données sont de puissants outils de fidélisation des visiteurs. Les éditeurs ont là toutes les cartes en main pour négocier des partenariats publicitaires rémunérateurs.

Les éditeurs pourraient ainsi tenter de faire payer les internautes puisque ces contenus offrent une réelle valeur ajoutée, puisqu’ils représentent un vrai service en rendant compréhensible rapidement de gros volumes d’information, et puisqu’il est difficile de leur trouver des substituts dans les blogs ou les agrégateurs. Reste à tester la disponibilité à payer des consommateurs d’information en ligne(12) .

Plus globalement, le journalisme de données peut aussi être considéré comme une vitrine de la marque-média, comme un outil de communication des éditeurs à destination tant de leur public que de leurs annonceurs. Dans l’univers français des grands sites d’informations, où les contenus différenciants sont rares, les premiers à proposer du journalisme de données acquerront immanquablement une image de précurseurs.

Par ailleurs, si les éditeurs consentent à s’éloigner de leur cœur de cible traditionnel, le journalisme de données peut leur ouvrir de nouveaux marchés. Si des journalistes consacrent du temps et des moyens à la collecte de données, il ne semble pas inconcevable de tenter de les revendre. Des bases de données inédites et à forte valeur ajoutée pourraient intéresser des acteurs du secteur économique, du domaine marketing ou de l’univers de l’éducation. Par exemple, une marque média crédible aurait toute légitimité à proposer des bases de données thématiques aux étudiants pour leurs révisions, à des directeurs financiers, de nouvelles visualisations des données clés de leur secteur d’activité.

Dernière piste à explorer : le canal de distribution. Quel est le meilleur support de consultation des visualisations interactives ? Est-ce l’ordinateur personnel ? Les tablettes tactiles ? Des bornes dans les lieux publics ? L’exemple de l’agence de presse spécialisée dans la finance Bloomberg est intéressant à méditer. Bloomberg rend disponible via un terminal propriétaire une mine d’informations : bases de données, tableaux historiques, liens sélectionnés, courbes descriptives des tendances du marché, frises chronologiques, etc. Ce service de mise à disposition de données est intégré dans le terminal, loué pour 1 800 euros par mois, ce qui représente une source de revenus plus que confortable. Tous les éditeurs n’ont, bien sûr, pas vocation à se lancer dans le hardware, par exemple. A la différence de la consultation de contenus sur un navigateur, la consultation via les applications natives réduit le papillonnement du public d’un site à l’autre et offre une expérience ergonomique ou esthétique décuplée. Non seulement cela renforce l’attention du consommateur d’information, mais cela permet aussi d’instaurer un péage à l’entrée des contenus.

Précurseurs anglo-saxons et timides initiatives françaises

Il faut bien se rendre à l’évidence : les précurseurs du journalisme de données ne sont pas français, mais anglo-saxons.

Le New York Times fait figure de pionnier. Ses infographies sont les plus innovantes et les plus esthétiques. Son partenariat avec IBM, concepteur du logiciel de visualisation ManyEyes, lui permet de proposer un « visualization lab » interactif et participatif, qui permet à chaque internaute de réaliser ses propres visualisations de données.

Le Guardian, avec son Datablog et son Datastore, milite activement pour la libération des données en Grande-Bretagne. Sa campagne de 2006 « Give us back our crown jewels » a joué un rôle important dans la libération des données publiques en Grande-Bretagne. Le Guardian réclamait que les données collectées grâce à l’argent du contribuable britannique soient accessibles gratuitement, afin de stimuler l’innovation. Il réalise régulièrement des visualisations de données très réussies et joue un rôle d’exemplarité, comme en lançant l’an dernier un concours de visualisations ou en publiant systématiquement dans des Google Doc les données utilisées par les journalistes. Ils encouragent aussi leurs lecteurs à réutiliser ces données pour créer des infographies et des applications.

Au-delà du monde anglo-saxon, El Pais se distingue grâce à sa rubrique dédiée au journalisme visuel. Au début des années 2000, elle accueillait surtout des infographies traditionnelles, illustratives et non-interactives. Désormais, cette section accueille de très belles visualisations, qui racontent des histoires.

Quant au paysage français… il est loin d’être aussi florissant. Les initiatives en matière de journalisme de données y sont venues des pure-players : Mediapart et Rue 89 ont lancé des cartes participatives. LePost.fr a mené l’expérimentation un peu plus loin avec un traitement « data journalist » du cumul des mandats des parlementaires.

Les initiatives restent balbutiantes, mais l’avenir semble prometteur, grâce aux initiatives de petits groupes de passionnés comme ceux à l’origine des projets d’ActuVisu(13) ou d’OWNI (14) .

A quelques exceptions près (Voir la carte interactive du chômage en France réalisée par Pierre Bance et David Castello Lopes, ou le Sarkomètre du Nouvel Obs.) , les médias français traditionnels se sont très peu saisis du data journalism, à la différence des médias anglosaxons. Comment expliquer le peu d’empressement des rédactions françaises à s’emparer du journalisme de données ? Pourquoi les initiatives en matière de data journalism sont-elles nées surtout hors du champ des marques médias traditionnelles ?

Plusieurs facteurs se combinent, certains relèvent des rédactions, d’autres de leur environnement.

Les rédactions traditionnelles, tout d’abord : la plupart consacrent généralement très peu de ressources à la R&D, et donc à du journalisme d’expérimentation, comme pourrait l’être la visualisation de données. La presse quotidienne et les pure-players n’en ont pas fait leur priorité ou n’en ont pas les moyens. La presse magazine ou le secteur audiovisuel pourraient peut-être plus aisément parier sur le journalisme de données, mais la crise économique ne les incite pas à de tels investissements.

Les rédactions ne sont pas seulement appauvries sur le plan financier, elles manquent aussi de ressources humaines. Car le journalisme de données nécessite du temps et des compétences : en datamining, en statistiques, en développement, en web-design, en interaction design, en sémiologie visuelle… Actuellement, en France, personne n’a réussi à réunir le bon mix de toutes ces compétences. Pourtant, c’est sans doute ce qui fait le succès des visualisations du nytimes.com depuis deux ans : le titre fait travailler ensemble des ingénieurs, des infographistes et des journalistes, tous payés le même salaire et sur un même pied d’égalité.

Le journalisme de données ne dépend pas uniquement des journalistes, mais également des données à leur disposition. Aux Etats-Unis, le journalisme de données est facilité par l’existence de très nombreuses et très diverses bases de données. Ici encore, on pourrait invoquer un fossé culturel : la culture anglo-saxonne de la transparence dans la gestion publique n’a pas d’équivalent en France.

En Grande-Bretagne et aux Etats-Unis, les acteurs politiques insistent sur l’enjeu économique de l’ouverture des données publiques : une meilleure valorisation des données stratégiques, plus de services, plus d’opportunités commerciales, plus d’innovation, moins d’asymétrie informationnelle et donc des marchés plus efficients, et au final, un plus grand dynamisme économique. En revanche, en France, il n’y a pas de consensus sur la valeur économique des données publiques. Les entreprises dont l’activité repose sur la privatisation de données n’ont pas intérêt à leur ouverture. L’avantage économique de la libération des données ne s’est pas imposé face aux gains espérés de leur monétisation via la vente de licences. C’est ainsi, par exemple, que l’IGN continue à faire payer l’accès à une importante partie de ses bases de données.

Par ailleurs, sans aller jusqu’à dire que l’appareil juridique français est un frein à l’ouverture des données, il faut garder en tête certaines particularités de notre droit des bases de données. Premier point : le droit d’auteur. Les données brutes ne sont pas, en elles-mêmes, soumises au droit d’auteur mais une base de données peut être protégée par le droit d’auteur si elle découle d’un acte de création intellectuelle. Cette protection garantit au producteur de la base de données un monopole d’exploitation, il peut interdire toute extraction substantielle de données à partir de sa base (15)

Conclusion

Le journalisme de données répond à de nouveaux besoins du public : le besoin d’assimiler rapidement de l’information complexe, le besoin de re-contextualiser les données chiffrées, le besoin de comprendre les tendances de fonds derrière les dépêches d’actualité, le besoin d’interagir avec les contenus pour mieux se les approprier, le besoin de formats personnalisés pouvant répondre à tous les cas particuliers.

Le journalisme de données offre également de nouveaux outils pour produire de l’information à forte valeur ajoutée : pour enquêter dans les séries de données délivrées par toutes sortes d’organisation, pour collecter des données locales grâce au crowdsourcing, pour raconter le monde autrement, pour fidéliser des communautés de visiteurs.

Face à ces nouvelles opportunités, le journalisme de données génère aussi de nouveaux défis. Les données sont coûteuses à collecter, à exploiter et à visualiser car, pour cela, il est impératif de faire travailler ensemble des journalistes, des développeurs, des graphistes, des statisticiens, etc.

Il n’est pourtant pas impossible de rentabiliser cette nouvelle activité car ses succès d’audience et sa haute valeur ajoutée lui ouvrent les portefeuilles des annonceurs et des visiteurs.

D’autant que tout converge pour renforcer l’attractivité du journalisme de données : d’un côté parce que les sources de données se multiplient et prennent de plus en plus de valeur (développement du web-sémantique, propagation de l’opendata, premiers pas vers l’internet des objets, multiplications des puces et des capteurs, etc.) ; de l’autre parce que les moyens de visualiser ces données s’enrichissent : apparition du langage Html5, popularisation de l’internet mobile, engouement pour la réalité augmentée, développement des tablettes et du tout tactile.

A l’heure où un grand nombre d’acteurs (des médias traditionnels, aux FAI, en passant par les agrégateurs et les moteurs de recherche) placent leurs pions sur le secteur de l’information en ligne, le journalisme de données doit être vu comme un contenu différenciant à ne pas négliger.

Ce mapping du marché de la visualisation de données en France classe les acteurs en fonction du nombre de visualisations qu’ils réalisent, et de l’éditorialisation de ces visualisations, c’est à dire de leur mise en perspective journalistique en fonction de critères tels que la hiérarchisation de l’information ou le suivi de l’actualité.

Bibliographie

ARTICLES

A. ALEVIN, Database journalism – a different definition of « news » and « reader », alevin.com, 23 mars 2009.

P. BELLEROSE, Les lecteurs sont plus attentifs sur le Web, infopresse.com, 3 mars 2008.

R. E. BOHN, How Much Information ? Report on American Consumers, University of California, San Diego, January 2010.

S. BUTTRY, Databases help you become the source for answers, newspapernext.org, 13 august 2007.

E. CASTELLI, Le data-journalisme peine à se développer en France, journalismes.info, 24 janvier 2010.

C. DESCHAMPS, Quand nous serons tous des dataminers, zdnet.fr, 25 septembre 2007.

F. EPELBOIN, Le journalisme de données, les données ouvertes, et la dictature de la transparence, fr.readwriteweb.com, 19 octobre 2009.

F. FILLOUX, Can Data Revitalize journalism, mondaynote.com, 28 juin 2009.

H. GUILLAUD, Demain, l’intelligence des données, InternetActu, 7 septembre 2007.

R. GORDON, Data as journalism, journalism as data, readership.org, 14 novembre 2007.

C. GOULARD, La visualisation de l’information au New York Times : structures, compétences, influences, blog.actuvisu.com, 24 mai 2010.

C. GOULARD, Opendata : les leçons des expériences anglo-saxonnes, 31 mai 2010.

C. GOULARD, 4 voies du datajournalism, 7 avril 2010.

C. GOULARD, Le datajournalism : pourquoi les médias français ne s’y mettent pas, 7 mars 2010.

C. GOULARD, 7 études de cas en datajournalism et visualisation de données, 21 février 2010.

C. GOULARD, Pourquoi le journalisme de données c’est mieux que le journalisme tout court, 10 novembre 2009.

C. GOULARD, Le database journalism pour nous sauver du frogboiling, 11 novembre 2009.

C. GOULARD, Le database journalism à la croisée des grandes tendances du Web, 2 novembre 2009.

A. HOLOVATY, A fundamental Way Newspapers Need to Change, holovaty.com, 6 septembre 2006.

J. JARVIS, APIs The News Distribution, buzzmachine.com, 10 mars 2009.

JEAN, Database journalism : « un renversement de perspective », espritblog.com, 4 juillet 2009.

MAURREEN, CMDROBOT, SMACK BOT, OFOL, S. BARBOSA, NICOLASKB, WOOHOOKITTY, Database journalism, Wikipedia, 28 mars 2010.

NARVIC, Pour un journalisme expérimental, novovision.fr, 18 mai 2009.
S. ROGERS, Information is power, guardian.co.uk, 24 mai 2010.

B. RAPHAEL, Les bases de données, nouveau métier du journaliste, demain tous journalistes ?, 15 août 2007.

REGINE, Visualizing : tracng an aesthetics of data, We Make Money Not Art, 8 janvier 2008.

E. SMITH, T-Squared: The Six-Month Stats, texastribune.org, 10 mai 2010.

TATIANA, Les données ouvertes, futur eldorado du journalisme, lavoixdudodo.info, 5 février 2010.

THE ECONOMIST, The Data Deluge, economist.com, 25 février 2010.

C. TRICOT, Pourquoi utiliser des cartes, point de vue scientifique, blog.onomia.com, 12 mai 2010.

N. VANBREMEERSCH, Pour un journalisme de données, slate.fr, 30 juillet 2009.

N. YAU, Rise of the Data Scientist, flowingdata.com, 4 juin 2009.

OUVRAGES

A. JOANNES, Communiquer en rich media : Structurer les contenus en optimisant textes, sons, images et liens, Paris, CFPJ Edition, 2009

R. KLANTEN, N. BOURQUIN, S. EHMANN, F. VAND HEERDEN, Data Flow : visualizing information in graphic design, Die Gestalten Verlag, 2008

E. SCHERER, Context is king, AFP Mediawatch, autonme/hivers 2009/2010

E. TUFTE, The visual display of quantitative information, Graphics Press, 1992

BLOGS

N. YAU, Flowing Data

A. VAN DE MOERE, Information Aesthetics

B. WIEDERKEHR, C. SIEGRIST, J. STUCKI, P. GASSNER, Datavisualization.ch, http://datavisualization.ch/

(1)

R. E. BOHN, How Much Information ? Report on American Consumers, University of California, San Diego, January 2010.

(2)

Frises chronologiques.

(3)

A. JOANNES, Communiquer en rich media : Structurer les contenus en optimisant textes, sons, images et liens, Paris, CFPJ Edition, 2009

(4)

Cette étude a été menée par Sara Quinn auprès de 600 Américains. Trois versions d’une même collecte d’informations sur la grippe aviaire ont été testées : la première était un texte narratif, la deuxième un texte narratif avec des graphiques, et la troisième ne comportait aucune structure narrative mais des tableaux, des chiffres, des cartes, etc. D’après Sarah Quinn, non seulement la dernière version facilitait le plus la rétention d’information, mais elle attirait également davantage les lecteurs. La chercheuse reconnaît cependant que les résultats de son test ne peuvent être extrapolés à tous les sujets. La narration reste appropriée pour des sujets plus subjectifs. Via P. BELLEROSE, Les lecteurs sont plus attentifs sur le Web, infopresse.com, 3 mars 2008,

(5)

Le crowdsourcing consiste à s’appuyer sur les savoir-faire, ou les disponibilités, des internautes, en misant sur la réunion d’un grand nombre de participants pour réaliser une tâche compliquée ou longue à traiter.

(6)

J. JARVIS, APIs The News Distribution, buzzmachine.com, 10 mars 2009.

(7)

TheyWorkForYou et GovTrack.us ont été lancés par des groupes de bénévoles qui voulaient faciliter le suivi de l’activité politique des parlementaires

(8)

Le site d’information hyper local du Washington Post, le Loudoun Extra, avait les chiffres de la délinquance, les résultats sportifs, ceux des écoles, etc. Entre mars et octobre 2007, les bases de données du site ont enregistré 7,2 millions de pages vues. Le site du quotidien régional Cincinnati Enquirer a aussi commencé en 2007 à poster des bases de données : statistiques des agressions sexuelles, plaintes pour tabagisme, gains aux casinos de l’Ohio River, prix de l’immobilier, boîtes de croquettes pour chien rappelées par leur fabricant, etc. Le jour de son ouverture au public, le Data Center du Cincinnati Enquirer a enregistré plus de 67 000 pages vues, soit deux fois plus de trafic que les galeries photos les plus populaires du site. Sur ces bases de données, le nombre moyen de pages vues par visite avoisinait 11,5, suggérant une audience impliquée et intéressée par les contenus qu’elle y trouvait. Six mois après son lancement en décembre 2006, le Data Universe du site de l’Asbury Park Press comptabilisait plus de 40 millions de pages vues. La base de données la plus populaire, concernant les salaires des employés fédéraux, a été vue 4 millions de fois en moins de trois mois. Via S. BUTTRY, Databases help you become the source for answers, newspapernext.org, 13 august 2007.

(9)

E. SCHERER, Context is king, AFP Mediawatch, autonme/hivers 2009/2010

(10)

E. SMITH, T-Squared: The Six-Month Stats, texastribune.org, 10 mai 2010.

(11)

Designer d’interaction : il étudie les outils et interfaces avec lesquels les usagers peuvent interagir.

(12)

La disponibilité à payer est une notion économique représentant le prix qu’un acheteur est prêt à débourser pour obtenir un produit ou un service.

(13)

Le projet ActuVisu ambitionne de renouveler le traitement de l’actualité grâce à la visualisation de données. Projet de fin d’étude d’une équipe d’étudiants du master Management des médias de Sciences Po Rennes et de l’Ecole des Hautes Etudes des Technologies de l’Information et de la Communication (HETIC Paris), ce site interactif entièrement dédié à la visualisation de l’information a été lancé en juin 2010. Pour information, l’auteur de cet article est à l’origine du projet ActuVisu.

(14)

La toute nouvelle équipe de data-journalistes du site Owni, emmenée par Nicolas Kayser-Bril, teste également depuis quelques mois de nouvelles façons de faire vivre et parler les données, via des applications et des mashups, via du crowdsourcing et de l’enquête. en matière de journalisme de données.

(15)

Pour plus de détails voir la très bonne synthèse de Didier Frochot sur les-infostratèges.com et l’étude de la jurisprudence par Bernard Lamon. Deuxième point : le droit des producteurs de bases de données. Lorsque la création d’une base de données nécessite un investissement financier, humain et matériel substantiel, le droit des producteurs reconnaît au créateur un droit de protection analogue à celui de l’auteur sur son œuvre.

Enfin, l’ouverture des données repose avant tout sur un enjeu d’accessibilité. Certes, de nombreuses données chiffrées sur des organismes publics ou privés sont aujourd’hui accessibles. Cependant, bien souvent ces données sont inutilisables car perdues au milieu de fichiers pdf, éparpillées entre des masses de documents aux formats disparates et peu malléables : en définitive, les données sont rarement structurées Bien sûr, la loi du 17 juillet 1978 reconnaît à tout citoyen français le droit d’obtenir la communication des documents détenus par une administration. Bien sûr, une autorité administrative dédiée, la commission d’accès aux documents administratifs, veille au bon respect de ce droit. Mais rien n’oblige les administrations à communiquer leurs données sous format numérique, encore moins de façon structurée. Sur ce sujet, l’expérience de Nicolas Kayser-Bril est édifiante (voir l’article "On l’a pas en format ordinateur").