Faire réseau autour des archives du web : bilan et perspectives du projet ResPaDon

Bibliothèque nationale de France – 13 mars 2023

Catherine Désos-Warnier

De quoi parle-t-on ?

Les archives du web français forment un corpus de la première importance pour la communauté scientifique. Elles regroupent près de cinquante milliards de fichiers recouvrant des contenus très divers enrichis chaque année par une collecte large, qui cherche à couvrir l’ensemble du web français sous la forme d’un échantillon représentatif, et par des collectes ciblées, qui portent sur une sélection de sites web. Des collectes spécifiques ont été effectuées à l’occasion des grands rendez-vous électoraux (de 2002 à nos jours), des attentats de 2015 ou encore de la crise sanitaire liée au Covid-19. Ces archives, collectées et conservées par la Bibliothèque nationale de France (BnF), constituent des sources de premier plan pour les chercheurs d’aujourd’hui et de demain.

ResPaDon (pour Réseau de partenaires pour l’analyse et l’exploration de données numériques) vise à développer et à diversifier les usages par les chercheurs des archives du web collectées et conservées par la BnF.

Le soutien de CollEx-Persée au programme ResPaDon

Ce programme, ambitieux et novateur par de multiples aspects, avait été présenté dès septembre 2018 au GIS dans le cadre de son premier appel à projets. Le conseil scientifique avait alors accompagné les porteurs dans un processus itératif, pour affiner leur proposition en un véritable programme coconstruit avec les chercheurs et, finalement, bénéficiant d’un soutien à hauteur de 180 000 euros à l’issue de la validation du Conseil des membres d’octobre 2020. Autant dire que deux ans de dialogue sérieux et constructif ont démontré tout l’intérêt et le crédit accordés par les instances de l’infrastructure de recherche CollEx-Persée au projet porté par l’université de Lille, la BnF, Sciences Po (Direction des ressources de l’information scientifique [DRIS] et médialab), l’Humathèque du Campus Condorcet et l’Unité labellisée de recherche GERiiCO (pour Groupe d’études et de recherche Interdisciplinaire en information et communication).

La journée du 13 mars 2023

Cette journée est l’occasion de démontrer la maturité acquise par les porteurs de ce programme sur leur sujet et de lancer des pistes de travail pour une suite qu’on ne peut qu’appeler de nos vœux. Elle nécessitera une instruction fine pour démontrer le passage à l’échelle, l’ouverture internationale, dans une stratégie bénéfique à tous les acteurs déjà impliqués et, surtout, à venir, pour élargir le réseau de partenaires.

Il faut aussi noter qu’un prochain jalon conclusif (ou d’ouverture pour une suite ?) sera posé du 3 au 5 avril prochains, lors du colloque international « Le web, source et archive » 1

https://respadon.sciencesconf.org/

à LILLIAD.

Les coulisses du programme

Au-delà des personnes ayant pris la parole durant cette journée, il faut souligner que ce projet a fédéré un nombre de participants important et une vingtaine d’établissements dans le cadre de différents événements, ateliers, webinaires ou journée d’étude. En l’espace de deux ans et demi, c’est une vraie communauté qui a émergé. Emmanuelle Bermès (École nationale des chartes) et Madeleine Géroudet (Service commun de la documentation [SCD] de Lille), sont revenues sur les coulisses du programme. Leur description du découpage des étapes de travail illustre un mode projet maîtrisé, collaboratif et innovant dans ses méthodes, dans le but unique de permettre de consulter de vastes collections contemporaines, en développant des capsules en région, pour pousser les résultats au plus près des utilisateurs. La nature atypique des archives du web a été rappelée : singulière, interactive, construite dans le cadre d’un processus d’archivage, d’où l’importance d’en comprendre la fabrique afin de pouvoir l’étudier.

La fabrique du dépôt légal du web

Vladimir Tybin et Dorothée Benhamou-Suesser (Service du dépôt légal numérique [DLN], BnF) ont ensuite décrit les particularités des archives du web conservé à la BnF, les modes de collecte mais aussi les défis techniques, méthodologiques et épistémologiques de cet objet. Si le constat posé est bien que les archives du web sont sous-utilisées car le « coût méthodologique d’entrée » est trop élevé (accès seulement sur place, défis techniques liés aux interfaces, à la masse de données et aux formats utilisés, lacunes et temporalités variables des archives du web), l’enjeu est de réduire ces freins pour favoriser de nouveaux usages.

Retours sur le Datasprint organisé du 4 au 8 avril 2022

Audrey Baneyx (médiaLab de Sciences Po) et Eleonora Moiraghi (Sciences Po DRIS), ainsi que Fabienne Greffet (en visioconférence – université de Lorraine-Institut de recherches sur l’évolution de la Nation et de l’État [IRENEE]) ont exposé les résultats du Datasprint ResPaDon organisé au Datalab de la BnF du 4 au 8 avril 2022, dont les résultats sont accessibles sur le site dédié qu’on ne peut que vous recommander de consulter 2

https://respadon.medialab.sciencespo.fr/

(en particulier l’onglet Stories). Il s’agissait d’une expérimentation interdisciplinaire autour de la constitution et de l’analyse de corpus issus des archives de l’Internet en lien avec le web vivant. Durant ce datasprint, les participants ont d’abord été formés à la recherche sur les archives du web et à l’outil Hyphe (crawler développé par Sciences Po pour construire des corpus au sein des archives du web) 3

Les archives du web sont en constitution constante. Médialab a conçu le logiciel libre Hyphe, un crawler à profondeur réglable pour aider un chercheur à créer son corpus à partir du web vivant. Dans le cadre du projet ResPaDon, les fonctionnalités de cet outil ont été étendues pour pouvoir crawler également des archives du web (BnF ou Internet Archive). Une plateforme de test est accessible en ligne (pour le web vivant et les collections Internet Archive), et par le DataLab de la BnF pour crawler les collections de la BnF (voir https://hyphe.medialab.sciences-po.fr/).

. Des groupes réunissant différents métiers ont été créés pour travailler sur un corpus durant plusieurs jours et produire une recherche soulevant les difficultés méthodologiques rencontrées.

Quid de la capsule d’accès test à Lille ?

L’après-midi, la journée a repris avec l’intervention de Sara Aubry (Département des systèmes d’information [DSI] – BnF) et de Marie Cros (SCD de Lille) pour décrire le contenu de la capsule d’accès aux archives du web installé à LILLIAD et la manière de la faire vivre. Ce prototype est important pour concevoir un dispositif généralisé aux institutions de l’enseignement supérieur et de la recherche (ESR) et l’expérience de la BnF en matière de déploiement dans les bbliothèque de dépôt légal imprimeur (BDLI) a été un appui pour décliner l’accès dans une bibliothèque universitaire. On note cependant la nécessité de faire un grand travail d’accompagnement par des experts auprès de six médiatrices, ainsi que de la mise en place d’un kit documentaire pour les médiateurs et les chercheurs. Finalement, 46 personnes sont venues tester la capsule (dont 10 chercheurs et doctorants) avec des retours contrastés entre appréhension et engagement fort pour obtenir des outils complémentaires. En pratique, l’accès distant repose sur l’utilisation de postes virtuels configurés sur des ordinateurs mis à disposition avec deux briques sécurisées : inWebo et Wallix. La capsule comprend des corpus d’archives immédiatement accessibles, notamment le portail dédié à la collection des élections 2002 et propose la requête plein texte grâce à l’outil SolrWayback, une documentation poussée et Jupyter Notebook pour son exploitation en code. Un processus à valoriser mais demandant des compétences solides.

Quelles préconisations à l’issue du programme ?

Emmanuelle Bermès et Madeleine Géroudet ont résumé les résultats et préconisations du programme visant une forme d’idéal exhaustif. L’ensemble est assumé comme décorrelé, pour l’instant, de toute demande financière ou de calendrier de mise en œuvre. Il s’agit plutôt d’une vision complète des attendus repérés afin de poursuivre un tel programme. Cinq principes, déclinés en quinze sous-principes ont été identifiés :

Premier principe : en raison de la nature particulière du web, l’étude scientifique des contenus qui y circulent implique la fabrication d’une archive et partant, sa définition, des méthodes d’études qui lui sont propres, la normalisation pour la documenter et la citer, le développement d’une culture scientifique autour de cet objet 4
X
« L’archive du web : une nouvelle herméneutique de la trace ? ». En ligne : https://webcorpora.hypotheses.org/288
.
Deuxième principe : les archives du web ont vocation à constituer une source de la recherche parmi d’autres et à intégrer les pratiques de recherche. Cela suppose de mieux les faire découvrir et de penser la navigation et l’exploration du web vivant.
Troisième principe : les publics doivent être autonomes dans l’exploitation des archives du web. D’où l’importance de faire évoluer les conditions réglementaires actuelles et de déployer et pérenniser des capsules d’accès aux archives du web dans des établissements de l’ESR.
Quatrième principe : la médiation devrait passer par la constitution d’un réseau national composé de profils complémentaires, autour de nœuds bien identifiés.
Cinquième principe : la médiation des archives du web par des acteurs pluriels implique le développement de nouvelles compétences.

Perspectives ?

La table ronde finale animée par Julien Roche (SCD de Lille) et composée de Sophie Gebeil (Aix-Marseille, unité mixte de recherche TELEMME pour Temps, espaces, langages, Europe méridionale, Méditerranée), Stéphanie Groudiev (Humathèque de Condorcet), Grégory Miura (SCD de l’université Bordeaux-Montaigne), Claude Mussou (INAthèque) et Benoît Tuleu (Dépôt légal, Direction des services et des réseaux [DSR] – BnF) a approfondi ces différents principes. Les intervenants étaient d’accord pour souligner le bouleversement apporté par ces nouveaux supports et constater que la métamorphose du document ne fait sans doute que débuter. Pourtant, les fondamentaux restent les mêmes pour les professionnels de l’information : continuer à assurer un accès pérenne et universel au patrimoine documentaire que l’humanité a produit, d’où un enjeu important de normalisation, mais aussi de diffusion de la donnée. Sur ce dernier point, on est loin encore d’avoir levé le verrou juridique tandis que des moyens conséquents seront nécessaires pour consolider les capsules et assurer l’accompagnement.

Une intervention finale de Valérie Schafer, de l’université du Luxembourg, replace le réseau ResPaDon dans sa dimension européenne. Le programme pourrait ainsi être le nœud français d’un réseau international très vaste 5

À l’échelle internationale, des initiatives tentent de réunir les archives de l’Internet, grâce aux formats et protocoles d’archive partagés, comme le projet Memento, et permettent de signaler ces archives : http://mementoweb.org/about/.

. Notamment pour consolider les approches transnationales sur les archives du web et sensibiliser davantage les acteurs publics à l’importance de ces enjeux. Le prochain colloque de RESAW : Exploring the Archived Web During a Highly Transformative Age, du 5 au 6 juin 2023 à Marseille, sera un premier espace de partage intéressant 6

https://resaw2023.sciencesconf.org/

En guise de conclusion

Cette journée d’étude fut aussi riche que le programme développé et prometteuse pour l’avenir. La valeur des travaux et des expérimentations, l’importance de l’objet considéré et sa meilleure définition, l’enthousiasme de chercheurs déjà bien embarqués, la naissance d’un réseau de professionnels dédié sont pleinement apparus. Il reste cependant encore bien des incertitudes : de quelle manière prolonger les expérimentations dans le cadre d’un réseau de partenaires élargis et qualifiés ? Comment organiser la montée en compétences ? Et assurer une médiation plus large pour cet objet atypique ? Comment construire un véritable volet européen ? Et surtout, comment peser sur l’évolution des conditions réglementaires actuelles encore bloquantes ? Nul doute que ces points d’attention sont bien identifiés par le comité de pilotage actuel en vue de proposer une suite dans le cadre de CollEx-Persée 2, vers un ResPaDon + ?

Mes remerciements à Clément Oury, aux comptes Twitter de @RhesusNegatif, @figoblog, @cleymour, @Respadon_Projet, qui m’ont permis de confronter et compléter mes notes ! Je suggère que le DLN archive leur compte… si ce n’est déjà fait.

NDLR : L’article original a été publié initialement dans le carnet de recherche collaboratif DLIS.