L’archivage du web : un outil pour comprendre internet

Article  par  Alexandre FOATELLI  •  Publié le 22.11.2016  •  Mis à jour le 23.11.2016
Capture tf1.fr
Le dépôt légal du web a 10 ans. En effet, la BnF et l’Ina archivent l’ensemble du web français, offrant aux chercheurs des ressources conséquentes pour étudier l’histoire et l’évolution d’internet, ainsi que les phénomènes liés aux grands évènements qui font l’actualité.

Sommaire

Le dépôt légal fait indéniablement partie de l’Histoire. Cette obligation ou incitation pour les diffuseurs et producteurs de verser leurs contenus à une bibliothèque nationale à des fins de contrôle bibliographique et de préservation des documents trouve ses origines dans l’Antiquité. La Bibliothèque d’Alexandrie confisquait les originaux des textes arrivant en Égypte et restituait des copies. En France, c’est François Ier qui est considéré comme le père du dépôt légal, par une ordonnance de 1537. De nos jours, le dépôt légal concerne les livres, les périodiques, les films, les émissions de radio, les logiciels ou encore Internet.

C’est en 1996 que le projet Internet Archive voit le jour, par la volonté de l’Américain Brewster Kahle. L’archivage commence par les sites qui traitent de l’élection présidentielle américaine, opposant Bill Clinton et Bob Dole. L’année suivante, la Bibliothèque royale de Suède entreprend la collecte de son domaine numérique national. En France aussi l’initiative est venue des institutions publiques. La BnF a mené des tests de collecte automatisée à partir de 1999, dans le cadre d’un projet européen de préservation des publications numériques intitulé NEDLIB. L’Ina, de son côté, entame au même moment les tractations avec le ministère de l’Économie et des Finances pour archiver Internet, alors que le plan d’action gouvernemental pour la société de l’information (PAGSI) venait d’être lancé. Ce plan avait pour objectif de permettre le développement des technologies de l’information afin de combler le retard de la France dans ce domaine. Un dépôt légal contraignant n’était donc pas souhaité, pour ne pas gêner les acteurs du web. En juin 2002, la BnF réalise une première capture du domaine « .fr » avec le même outil utilisé par la Bibliothèque royale de Suède, avant d’effectuer une collecte ciblée sur les sites relatifs aux élections présidentielles et législatives la même année.

La loi DADVSI : un permis d’archiver

Le 1er août 2006, la loi relative aux droits d’auteurs et aux droits voisins dans la société de l’information (DADVSI) complète le champ d’action du dépôt légal en y incluant désormais les sites web. La loi précise également le champ respectif des données collectées par les deux organismes : l’Ina, dans la continuité de sa mission d’archivage de l’audiovisuel, se charge des sites des stations de radio et des chaînes de télévision, et la BnF s’occupe du domaine « .fr » dans son ensemble, exception faite des données dudit domaine déjà collectées par l’Institut. Cependant, il faut attendre 2011 pour que le décret d’application paraisse. Durant cette période, les deux institutions ne sont pourtant pas restées passives. L’Ina a lancé dès 2009 la collecte du périmètre du domaine du web français qui lui a été attribué. De son côté, la BnF collabore avec l’Afnic (Association française pour le nommage internet en coopération), qui gère le domaine national et régional, et Internet Archive pour répertorier tous les sites français, y compris en « .com », « .org » ou « .net ». La fondation Internet Archive a aussi donné accès à ses collections (moins exhaustives) à la BnF et à l’Ina pour les périodes antérieures à leur propre travail d’archivage.
Revenir au sommaire

Le web est vaste

 Chaque année, le fonds s’accroît de 10 milliards d’éléments nouveaux  Actuellement, à la Bibliothèque nationale de France comme à l’Institut national de l’audiovisuel, les services du dépôt légal emploient une demi-douzaine de personnes. Cependant, la BnF s’appuie aussi sur un réseau de 110 collaborateurs en interne et basés dans les bibliothèques du dépôt légal en région. Le personnel a notamment pour mission d’établir la liste des sites qui doivent être collectés, aussi bien pour les collectes annuelles de la BnF que pour les collectes ponctuelles liées à certains événements comme les attentats ou les Jeux olympiques. Les sites sont ensuite parcourus par des robots qui amassent les URL et les contenus qui seront stockés. Le plus utilisé est Heritrix, conçu par Internet Archive. « On travaille avec les bureaux d’enregistrement, notamment l’Arsys, qui mettent à notre disposition la liste des sites qui correspondent à notre périmètre. Cela représente 4,5 milliards de domaines ! », explique Marie Chouleur, cheffe de service du dépôt légal numérique à la BnF.

Pour l’Ina, la masse de sites est beaucoup moins élevée, puisqu’elle ne représente que 14 000 sites, mais la collecte est quotidienne. « Notre fonds d’archives représente 4 pétaoctets (soit 4 000 000 Go) pour 53 milliards d’éléments, c’est-à-dire les URL, les images, les vidéos, etc. Chaque année, le fonds s’accroît de 10 milliards d’éléments nouveaux à peu près », précise Thomas Drugeon, qui coordonne le dépôt légal du web à l’Ina. Loin devant les 668 To (668 000 Go) du fonds de la BnF en décembre 2015, qui s’accroît d’environ 120 To par an.
Revenir au sommaire

Mieux comprendre le web grâce au dépôt légal

L’archivage d’Internet permet de sauvegarder un patrimoine numérique en mouvement permanent, puisque beaucoup de sites sont éphémères. Mais garder une trace de ce qui se passe sur le web est aussi un moyen pour les chercheurs d’étudier des phénomènes inhérents aux usages des TIC. En outre, le dépôt légal permet une collecte bien plus complète que celles faites par Internet Archive. « La mission d’archivage de la BnF et de l’Ina est fondamentale. Internet Archive archivait des contenus français avant mais de façon beaucoup moins fréquente. Par exemple, en janvier 2015, la Wayback Machine, l’outil de recherche d’Internet Archive, avait 3 285 captures du site tf1.fr. L’Ina en avait 93 267 ! », explique Valérie Schafer, chargée de recherche à l’Institut des sciences de la communication, qui a coordonné le projet ASAP (Archives sauvegarde attentats Paris), un projet interdisciplinaire qui s’intéresse à la collecte des données liées aux attentats de janvier et novembre 2015. Les données archivées permettent aussi de comparer les phénomènes qui se produisent hors-ligne et sur le web.

Gérôme Truc, coordinateur du projet REAT, qui étudie les réactions sociales aux attentats : « J’avais travaillé sur les réactions aux attentats du 11 septembre, de Madrid et de Londres à partir des messages archivés, laissés sur les lieux ou sur Internet mais pas sur les réseaux sociaux qui n’existaient pas à l’époque. Le dépôt légal m’est donc particulièrement précieux. Il permet de mettre en évidence des spécificités pour les attentats de Paris. Je me suis rendu compte que le dialogue entre les journalistes pour comprendre l’événement avait eu lieu sur Twitter avant que les chaînes de télévision prennent l’antenne. »
 
Depuis l’année dernière, l’Ina s’est concentré sur la collecte de tweets, pour lesquels une interface spécifique a été développée. La BnF capte aussi plusieurs milliers de comptes Facebook et Twitter, mais seuls quelques comptes institutionnels font l’objet d’une collecte régulière. En revanche, les événements d’actualité, comme les primaires des Républicains, font l’objet d’un suivi accru. Ces données sont très importantes pour les chercheurs en sciences sociales, d’autant que, comme le mentionne Gérôme Truc « dans le monde entier, pour les travaux sur Twitter, vous avez des entreprises privées qui font du commerce de données ». Le recours à de telles entreprises est d’une part un frein pour la recherche, car cela demande des moyens supplémentaires, et d’autre part ne garantit pas la qualité de la collecte. Un des défis à relever reste l’accessibilité au fonds d’archives, puisqu’aujourd’hui, seules quatorze bibliothèques en France permettent un accès pour les chercheurs accrédités.

--
Crédit photo :
Exemple de navigation dans un site de l'archive : la page d’accueil du site de TF1 le 17 octobre 2012. [Dépôt légal du web audiovisuel - Ina]

Revenir au sommaire
Vous souhaitez nous apporter un complément, rectifier une information ? Contactez la rédaction