Europeana Libraries : une collaboration à visée universitaire

Article  par  Samuel MILLER  •  Publié le 05.08.2011  •  Mis à jour le 08.08.2011
Logo of Europeana Libraries
[ACTUALITÉ] Europeana et plusieurs bibliothèques européennes lancent un projet ayant pour objectif de mutualiser et partager des millions de contenus numériques, ouvrant la voie à un nouveau réseau dédié aux chercheurs.
Le 29 juin 2011, lors de la conférence annuelle LIBER, le projet Europeana Libraries a été présenté : ce nouveau partenariat permettra de compléter les collections patrimoniales européennes avec des millions d’objets numériques incluant des trésors tels que des photographies de la guerre civile d’Espagne et des manuscrits serbes médiévaux, et issus d’un consortium de 19 bibliothèques universitaires et de recherche européennes.
 
Dans le communiqué de presse, Europeana Libraries annonce la mise en ligne, en deux ans, de « 5 millions de livres numérisés, rapports scientifiques, images et autres contenus numériques, incluant 1 200 films et clips vidéo, 850 000 images, et 4,3 millions de textes (livres, journaux, articles et thèses) ». Les contributeurs de ce projet font partie des bibliothèques et des instituts de recherches européens les plus prestigieux, tels que la bibliothèque Bodleian de l’Université d’Oxford, l’Université de Berne, le Collège de la Trinité de Dublin et la Bibliothèque du Parlement hongrois. Cette multiplicité des participants assure une bonne représentation de la diversité culturelle de l’Europe entière.
 
 
La fondation Europeana est une initiative commune des membres de la Commission européenne et se présente sous la forme d’un portail public donnant accès à des collections de contenus numériques provenant de plus de 1 500 institutions culturelles européennes (bibliothèques, musées, galeries et archives). Son objectif est de devenir le point de référence pour l’ensemble de l’héritage culturel européen accessible en ligne.
 
Le projet Europeana Libraries, qui débutera officiellement en janvier 2012, est financé principalement par la Commission européenne et représente un coût total de plus de 4 millions d’euros. La Bibliothèque européenne, à l’origine de cette initiative, en assurera la coordination au cours des 2 premières années. Le projet s’appuie sur 4 associations principales : la Conference of European National Librarians (CENL), le Consortium of European Research Libraries (CERL), la Ligue des Bibliothèques Européennes de Recherche (LIBER) et la Europeana Foundation.
 
 
D’après Aubéry Escande, chargé de la communication et des relations presse pour la Bibliothèque européenne, « l’objectif final d’Europeana Librairies est de regrouper sur la plateforme Europeana 5 millions de contenus numériques avec l’ensemble de ceux déjà archivés par la Bibliothèque européenne. Nous allons réunir des données provenant de différents réseaux de bibliothèques, de centres de recherche ou d’universités, les agréger et les mettre à disposition sur Europeana. »
 
Le partenariat Europeana Libraries a la particularité de réussir à réunir des bibliothèques universitaires et de recherche nationales dans un effort collectif sans précédent. Selon les discours officiels, le projet atteint une nouvelle étape au regard de la coopération et de la collaboration nécessaires au regroupement de contenus provenant de sources d’origines si variées, et « établie les fondements pour le regroupement d’une quantité importante de ressources pour la recherche ». L’espoir est alors qu’Europeana Librairies soit le déclencheur d’autres initiatives qui continueront le travail une fois les deux ans passés, et que le projet devienne un modèle de collaboration entre les institutions. Le résultat pourrait alors être une infrastructure durable d’agrégation pour le secteur de l’édition.
 
Pour éviter toute confusion, Aubéry Escande ajoute : “Précisons que pour le moment il y a deux types de services, ceux de la Bibliothèque européenne et ceux d’Europeana. Europeana Librairies ne fait, elle, que regrouper ces deux structures. Ce n’est pas un portail, mais plus un réseau ou un espace de collaboration. C’est un outil d’agrégation, et de curation, mais ce n’est pas l’outil définitif à destination des universitaires. »
 
Il y a pourtant un produit final en vue. La Bibliothèque européenne est en effet en train de développer un nouveau portail spécifiquement dédié aux chercheurs et universitaires et qui devrait être mis en place en 2012. Cette plateforme donnera également accès à l’ensemble des contenus numériques collectés durant le projet Europeana Libraries.
 
Ce portail offrira une large gamme de services spécialement pensés pour les besoins des chercheurs. En plus de la masse de données bibliographiques naturellement disponibles via le réseau des bibliothèques nationales, la plateforme aura des avantages dans des domaines tels que le partage de ressources (de listes de lectures entre professeurs et étudiants, par exemple), les citations, l’indexation complète de textes et leur mise à jour, et permettra à un chercheur d’être automatiquement informé des ajouts de « collections » en lien avec ses précédentes recherches.
 
L’une des fonctionnalités intéressantes est justement l’utilisation de ces « collections », regroupement de ressources indexées et organisées de façon thématique[+] Note« Si l'on s'en réfère à la définition donnée par le dictionnaire Larousse, la collection est une "réunion d'objets rassemblés et classés pour leur valeur documentaire, esthétique, pour leur prix, leur rareté, etc.". Le terme de "collections" implique donc une idée de sélection, de thématique et, surtout, d'enrichissement volontaire et ciblé. », CNC.X [1]. Toujours selon Aubéry Escande, il s’agit d’ « un concept important parmi la communauté universitaire. Très familière aux bibliothécaires, cette grande notion relative à la gestion des données n’intéresse peut-être pas le grand public. »
 
Ces outils, réponse partielle au rapide développement et agrandissement d’Europeana en tant que portail interdisciplinaire et interinstitutionnel cherchant l’audience la plus large, sont également liés aux habitudes de travail des chercheurs : « Nous savons par expérience que les chercheurs auront plus de plaisir à affiner leurs recherches, de manière approfondie, s’ils sont sûrs de pouvoir trouver ce qu’ils veulent. » Aubéry Escande réaffirme l’importance de cerner correctement les besoins des chercheurs et des universitaires avant de lancer le portail, lequel devra être capable de s’adapter à l’environnement et aux méthodes de travail de l’utilisateur, et ce, par exemple, grâce à des APIs.
 
Il ajoute que « le cœur d’activité de la Bibliothèque européenne, et d’Europeana, est l’agrégation. Nous ne détenons pas les contenus – nous y donnons accès. Ce que nous tentons de réaliser est de trouver le meilleur moyen d’y accéder et de proposer des services adaptés, et ce à l’échelle paneuropéenne. Ca ne s’adresse alors plus seulement aux universitaires européens mais à l’ensemble de la profession. Et c’est pourquoi il est vraiment important de ne pas minimiser le travail d’agrégation qu’il reste à faire. »
 

Le Livre de la naissance d'Iskandar,
  par Imad al-Din Mahmud al-Kashi (1411),
Wellcome Library, London Collection

 
De telles plateformes peuvent se trouver confrontées à des réserves exprimées par  certains chercheurs vis-à-vis de l’utilisation de ressources numériques. Selon un rapport commandé début 2011 par le Réseau d’information de la recherche, les étudiants en sciences humaines sont loin d’avoir pris totalement conscience des avantages importants induits par ces outils numériques, tels que la « fouille de texte » (text-mining)[+] Note« La fouille de textes ou l'extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining », Wikipedia. X [2], les bases de données enrichies, le partage de fichiers, le grid et cloud computing[+] Note« Une grille informatique (en anglais, grid) est une infrastructure virtuelle constituée d'un ensemble de ressources informatiques potentiellement partagées, distribuées, hétérogènes, délocalisées et autonomes. », Wikipedia,X [3] ou le Web sémantique. Bien qu’ils montrent un intérêt grandissant pour l’utilisation des ressources numériques, principalement pour des raisons de rapidité et de facilité, ils restent dans le fond réticents à citer les versions numériques de leurs sources. Ils préfèrent, pour l’instant, citer une copie physique, même s’ils ont passé plus de temps à consulter la version numérique. Et ce, d’après le rapport, principalement dans le but d’assurer une bonne et durable conservation de leurs citations. Le rapport identifie différentes barrières à une adoption plus large des ressources numériques : le manque de connaissances des outils et de standardisation des bases de données, des outils de citation inadaptés et des difficultés à relier les données.
                                                                                               
On ne peut pas parler de la numérisation de masse de contenu culturel et de la recherche en ligne sans évoquer l’initiative la plus remarquable du secteur privé : Google Books, le grand projet de Google. En plus de la mise en place d’un ambitieux planning de numérisation (visant à « scanner chaque livre dans le monde »), et des nombreux accords passés avec des institutions culturelles européennes, le groupe a récemment mis en place un outil de recherche quantitative, qui est d’ores et déjà disponible gratuitement en ligne et en téléchargement. Ce projet, Google N-grams, réalisé conjointement par Google Books et une équipe de chercheurs de l’Université d’Harvard, permet de chercher de manière précise dans le plus grand corpus d’informations lexicales au monde : 500 milliards de mots extraits de l’ensemble des ouvrages publiés entre les années 1800 et 2000. À titre d’exemple, on peut connaitre la fréquence d’occurrence de n’importe quel mot pour une période donnée ou ses différents sens sur de longues périodes, ou encore le moment où un nouveau mot est entrédans le lexique.De tels outils ont un énorme potentiel et donnent un avant-goût des avantages pour la recherche offerts par les projets de numérisation massive.
 
Quelles que soient les différences d’objectifs entre entreprises privées et institutions publiques – commerciaux ou patrimoniaux – le travail et l’investissement requis sont identiques ; la numérisation de l’héritage culturel mondial est une tâche trop importante pour être laissée entre les mains de l’une ou l’autre des parties. D’où les recommandations émises par la Commission européenne encourageant les partenariats public-privé dans la réalisation de son Agenda Numérique.
 
Europeana Libraries enrichira donc de manière significative les 15 millions d’ouvrages numérisés déjà disponibles sur le site Internet d’Europeana. Neelie Kros, Commissaire européenne chargée de l’Agenda numérique, a de grandes ambitions pour la plateforme. Elle veut ainsi y référencer 30 millions de contenus d’ici à 2015, et y inclure l’ensemble des chefs-œuvres du domaine public d’ici à 2016. À l’horizon 2025, ce projet pourrait alors mener à la numérisation de la totalité de l’héritage culturel Européen.
 Traduit de l'anglais par Yoann Digue.
Google poursuit son projet "bibliothèque" en Europe
Google database to become the "genome" of culture

--
Crédits photos et illustrations : Europeana Libraries

  • 1. « Si l'on s'en réfère à la définition donnée par le dictionnaire Larousse, la collection est une "réunion d'objets rassemblés et classés pour leur valeur documentaire, esthétique, pour leur prix, leur rareté, etc.". Le terme de "collections" implique donc une idée de sélection, de thématique et, surtout, d'enrichissement volontaire et ciblé. », CNC.
  • 2. « La fouille de textes ou l'extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining », Wikipedia.
  • 3. « Une grille informatique (en anglais, grid) est une infrastructure virtuelle constituée d'un ensemble de ressources informatiques potentiellement partagées, distribuées, hétérogènes, délocalisées et autonomes. », Wikipedia,
Vous souhaitez nous apporter un complément, rectifier une information ? Contactez la rédaction