entête
entête

Un partenariat à l’heure de l’interopérabilité

Le programme Polonsky de numérisation des manuscrits médiévaux de la BnF et de la British Library

Charlotte Denoël

Marilyne Devidal

Alix Lamé-Bergis

Alexandre Tur

 

Une collaboration à multiples facettes
entre la BnF et la British Library

Mené de juillet 2016 à décembre 2018 grâce à un mécénat exceptionnel de la fondation Polonsky, fondation anglaise à vocation philanthropique dont l’objectif est de favoriser l’accès au patrimoine culturel du plus grand nombre, le programme « France-Angleterre, 700-1200 : manuscrits médiévaux de la BnF et de la British Library » est un vaste programme de numérisation et de valorisation d’un ensemble de 800 manuscrits médiévaux de haute époque, conservés à parts égales entre la BnF et la British Library. Les manuscrits ont été sélectionnés en fonction de leur importance pour l’histoire des relations franco-anglaises au Moyen Âge, à l’image des manuscrits normands, ainsi que pour leur intérêt artistique, historique ou littéraire, de manière à constituer un corpus scientifiquement et historiquement cohérent. Produits entre le VIIIe et la fin du XIIe siècle, ces manuscrits couvrent des domaines très variés qui sont représentatifs de la production intellectuelle du haut Moyen Âge et de l’époque romane.

Pour la première fois dans le domaine des manuscrits, la BnF et la British Library ont réuni leurs collections patrimoniales, qui comptent parmi les plus riches au monde pour les premiers siècles du Moyen Âge, et leur expertise afin de construire un projet global et transversal qui répond pleinement aux défis actuels du numérique en faisant appel aussi bien au socle traditionnel de connaissances scientifiques qu’aux nouvelles technologies, projet qui s’adresse aussi bien à la communauté des chercheurs qu’à un plus large public. Le résultat est un programme innovant à multiples facettes, englobant différentes opérations de valorisation des manuscrits, aussi bien techniques que scientifiques, où les deux institutions ont travaillé de manière pleinement complémentaire, mettant leurs points forts respectifs au service du programme1.

Le site en marque blanche : IIIF et Mirador

Outre le catalogage, la restauration et la numérisation des 800 manuscrits du programme, l’accord entre la British Library et la Bibliothèque nationale de France prévoyait entre autres la conception de deux sites Internet dédiés à la valorisation2. Un site éditorialisé (« Interpretative Website »), composé de sélections thématiques à destination du grand public, était conçu par la British Library, tandis que la BnF devait mettre en place une bibliothèque numérique donnant accès à l’intégralité des manuscrits numérisés grâce à la technologie IIIF3.

Page d’accueil du site « France-Angleterre : manuscrits médiévaux entre 700 et 1200 » (marque blanche Gallica), https://manuscrits-france-angleterre.org/

 

Depuis plus d’une décennie, la mise en place de tels « portails » a constitué un passage obligé de tout partenariat de numérisation multilatéral, garantie essentielle pour les mécènes de la pérennité de leur action. En 2007, le premier partenariat d’ampleur impliquant la numérisation de manuscrits à la BnF aboutissait déjà à l’ajout de 300 manuscrits français à la Roman de la Rose Digital Library4. Entre 2010 et 2012, dans le cadre du partenariat Europeana Regia, la BnF avait conçu un portail spécifique rassemblant des notices succinctes, homogènes et multilingues, des 871 manuscrits médiévaux numérisés par les bibliothèques européennes participantes, ainsi que des liens vers les catalogues et bibliothèques numériques spécifiques de chacune d’entre elles5. Cette expérience et le recul qu’il est possible d’avoir aujourd’hui sur ces anciens portails ont nourri les choix techniques pour la bibliothèque numérique du projet Polonsky.

Adopter la technologie Gallica marque blanche développée par la BnF pour ses partenariats a paru l’option la plus pertinente pour la bibliothèque numérique Polonsky, à la fois pour des raisons de pérennité et d’entretien, et d’économie de moyens. Adossé à Gallica, le site bénéficiera des évolutions techniques de celle-ci même après la fin du projet ; lié aux catalogues des deux institutions, il répercutera d’éventuelles évolutions du contenu en cas de découverte scientifique sur les manuscrits concernés. Ces avantages apportent certes les contraintes correspondantes, en particulier des possibilités limitées d’adaptation de l’infrastructure, commune à Gallica et aux sites Gallica marque blanche, devant donc rester suffisamment généraliste pour s’adapter à tous types de documents numérisés (et non les seuls manuscrits médiévaux), et tributaire de choix techniques antérieurs, tels que l’utilisation de métadonnées au format Dublin Core. Il permettait cependant de limiter les coûts de développement d’infrastructure pour se concentrer sur le visualiseur IIIF, au cœur du projet.

Résultat d’une recherche grâce à la technologie Gallica marque blanche et aux métadonnées Dublin Core.

 

IIIF – International Image Interoperability Framework– est un ensemble de spécifications techniques destinées à rendre interopérables et faciles d’accès les résultats de la numérisation patrimoniale. Le rassemblement de numérisations de manuscrits conservés dans des institutions différentes, cruciale pour les études médiévales, constituait dès le départ l’une des motivations à la mise en œuvre de IIIF, dans lequel la British Library comme la BnF se sont précocement engagées. Depuis 2015, Gallica implémente une application IIIF, rendant l’ensemble de ses collections accessibles en haute définition par l’intermédiaire de protocoles normalisés, mais, malgré l’implication de la BnF dans des projets d’expérimentation des possibilités de IIIF tels qu’Europeana ou Biblissima6, elle ne tirait que marginalement partie de cette technologie pour afficher ses propres ­documents numériques ou ceux de ses partenaires.

L’un des enjeux techniques du partenariat, l’utilisation d’IIIF pour afficher les numérisations dans la bibliothèque numérique commune, permet d’éviter la copie et le transfert de fichiers. Chaque institution reste responsable de l’hébergement de ses manuscrits numérisés (voire, le cas échéant, de leur mise à jour) ; le portail commun fait directement la requête en temps réel à chacun des deux serveurs. Cela permet par exemple de rendre visible les 400 manuscrits de la British Library dans la bibliothèque numérique du projet sans les intégrer directement dans la chaîne d’entrée BnF. Comme pour les métadonnées, issues des catalogues de chaque institution, une modification sur les serveurs de chacune serait immédiatement répercutée sur le portail du projet.

Plutôt que de faire évoluer le visualiseur natif de Gallica, propriétaire et prenant peu en charge IIIF, ou Universal Viewer, progressivement déployé par la British Library, le choix s’est porté vers l’implémentation de l’application Mirador7. Ce visualiseur libre, déjà déployé par la Bayerische Staatsbibliothek ou, en France, par Biblissima et par la BVMM (Bibliothèque virtuelle des manuscrits médiévaux), a semblé particulièrement adapté pour un corpus de manuscrits médiévaux, grâce notamment à ses fonctionnalités avancées de manipulation d’image (contraste, colorimétrie, etc.). Des options supplémentaires de téléchargement, de partage et d’annotation ont également été mises en place.

Si l’articulation entre ce nouveau visualiseur et l’architecture Gallica marque blanche a pu être réalisée de façon harmonieuse, la diffusion des métadonnées selon les « manifestes » prévus par les spécifications IIIF a dû s’insérer dans un écosystème complexe, intégrant déjà un catalogage natif dans des formats différents et un export en XML/Dublin Core dans des sets OAI, indispensable à la recherche dans Gallica.

Manuscrits BnF Latin 9436 (Missel de saint Denis, reliure) et Latin 8846 (Psautier anglo-catalan, détail du f. 1v) dans le visualiseur Mirador. Ces deux manuscrits ont été restaurés, catalogués et numérisés dans le cadre du projet Polonsky.

 

L’interopérabilité des métadonnées

Les deux institutions ont une longue tradition de description scientifique de leurs collections de manuscrits, dont l’aboutissement a été la mise à disposition des catalogues en ligne BnF Archives et manuscrits (BnF) et Explore Archives and Manuscripts (BL). Le processus de création des données descriptives pour le portail numérique reposera de part et d’autre sur les données existantes dans les catalogues d’origine et leur mapping vers le format socle de Gallica, le Dublin Core.

Les deux institutions entreprennent un chantier de reprise et d’enrichissement des descriptions des 800 manuscrits sélectionnés afin de répondre aux exigences scientifiques du projet. À la BnF, par exemple, les notices provenant de la rétroconversion des catalogues imprimés sont intégralement reprises avec un haut niveau d’exigence scientifique : remise à niveau du point de vue de la qualité des données suivant les préconisations du Manuel de catalogage des manuscrits médiévaux et du Guide des bonnes pratiques de l’EAD en bibliothèque, enrichissement des descriptions incluant l’identification des auteurs et des œuvres, des copistes et des lieux de copie, ainsi que des anciens possesseurs ; un important travail sur la description physique est également effectué. Deux chargés de projet au sein du département des Manuscrits travaillent pendant deux ans à la reprise des 400 notices du corpus. Le département des Métadonnées est également mis à contribution pour la création, la mise à jour et le dédoublonnage des notices d’autorités noms de personnes et titres d’œuvres.

Si un consensus international ancien existe en matière de description de manuscrits, l’absence de norme écrite ainsi que le recours à des formats et des référentiels différents vont nécessiter de mettre en place un certain nombre de dispositifs pour permettre l’alignement des données provenant des deux catalogues. La British Library utilise en effet un outil de catalogage par formulaire fondé sur la norme ISAD(G), tandis que la BnF a recours à un outil de catalogage en EAD natif. D’autre part, les référentiels utilisés pour l’indexation des noms de personnes, des œuvres, des lieux et des sujets sont également distincts : recours au fichier d’autorité interne de la BnF d’un côté, recours à un fichier d’autorité interne ou à des fichiers externes pour la British Library (VIAF, LCSH, Getty Geo ID). Enfin, chaque catalogue est rédigé dans la langue nationale, plus le latin.

Si l’objectif, à terme, est bien l’interopérabilité et la symétrie des données à verser dans le portail, il n’est toutefois pas envisageable ni d’un côté ni de l’autre de dévier de la politique de catalogage ni du modèle de données en œuvre dans le catalogue, de manière à conserver une cohérence d’ensemble. On pourra consulter un article de Mélanie Roche et Maryline Devidal présenté lors du Congrès mondial des bibliothèques et de l’information organisé par l’IFLA en août 2018, sur la difficulté à construire un catalogue homogène faisant coexister des descriptions de manuscrits allant du codex médiéval à peintures au manuscrit dactylographié en feuilles d’un auteur contemporain, en passant par les estampages chinois et autres manuscrits en rouleaux, avec des descriptions de documents d’archives de tout type et de toute forme8 : il n’est ainsi pas question de mettre en péril ce fragile équilibre.

Ce sont donc les données Dublin Core, générées par mapping à partir des données sources, qui devront faire l’objet d’un alignement. Là encore, la marge de manœuvre est faible. En effet, le choix d’une infrastructure marque blanche implique pour les deux partenaires de travailler à partir du modèle de données établi pour les descriptions en Dublin Core dans Gallica, pour la constitution des index et les paramètres de la recherche avancée. Difficulté supplémentaire pour la BnF, un mapping unique de l’EAD vers le Dublin Core existe pour tous les documents décrits dans BnF Archives et manuscrits, qu’il s’agisse de manuscrits ou de documents d’archives et quel que soit le type de document (textuel, iconographique, audiovisuel, etc.). L’hypothèse de la création d’un mapping et d’un entrepôt OAI spécifiques pour les 400 notices du corpus est écartée pour des raisons de coût d’initialisation et de maintien. Il va donc falloir faire passer les données à l’épreuve du mapping existant afin d’en tirer les données attendues en sortie. De légers aménagements de ce mapping pourront toutefois être consentis lorsque le besoin spécifique du projet rencontre un besoin commun (par exemple l’identification des noms de personne ou des lieux de copie dans les niveaux décrivant les différentes parties d’un recueil composite).

Les manifestes IIIF, nécessaires à l’affichage des numérisations dans Mirador, font largement doublon aux descriptions Dublin Core de Gallica, mais, peu normalisés et pour l’instant uniquement exploités pour des manuscrits, ils laissaient davantage de latitude. Le choix a été fait de les dériver des notices Dublin Core tout en apportant des évolutions légères dans l’esprit des préconisations de la communauté IIIF-Manuscripts et de Biblissima (telles que privilégier la cote au titre pour le libellé principal). Dans la perspective de l’extension d’IIIF à d’autres collections, la pérennité de ce dispositif paraît cependant peu assurée.

Un autre écueil rencontré a été également la création d’index en recherche avancée pour les auteurs et les lieux de copie, en raison du multilinguisme d’une part et du recours à des référentiels distincts pour l’indexation des entités d’autre part. La solution mise en œuvre a été de créer des requêtes pré-câblées au service de recherche SRU Gallica d’après des tableaux de concordance entre les graphies d’un même nom en français, en anglais et en latin, ainsi qu’entre les identifiants des fichiers d’autorités (alignement des ISNI présents dans les fiches d’autorité « nom de personne » de la BnF avec les identifiants VIAF ; alignement des identifiants des notices d’autorité « RAMEAU Nom géographique » avec les identifiants du fichier du Getty Thesaurus of Geographic Names). Concernant la recherche par thématique, les données de la British Library contiennent une indexation matière qui n’existe pas dans les données de la BnF pour les manuscrits et qu’il n’était pas envisageable d’intégrer par souci de cohérence. La solution mise en œuvre a consisté à déterminer une douzaine de thématiques à partir du référentiel de la British Library et de leur associer des codes projets dans les notices de la BnF afin, là aussi, de construire une recherche pré-câblée dans le portail à partir d’un tableau de concordance.

Gallica marque blanche
et le travail de coopération numérique

Le choix de Gallica marque blanche dans le cadre du projet s’est imposé assez rapidement, la BnF ayant un recul de quelques années sur cette technologie.

Le dispositif Gallica marque blanche a été en effet initié en 2011 à la suite de la demande à la BnF d’un partenaire, la Bibliothèque nationale et universitaire de Strasbourg, de créer sa bibliothèque numérique en réutilisant l’infra­structure Gallica. À l’époque, Gallica avait près de 15 ans et comptait déjà plusieurs millions de documents, s’affirmant comme une bibliothèque numérique collective de référence.

Gallica marque blanche s’est ensuite adressé assez rapidement à d’autres établissements partenaires ayant numérisé ou souhaitant numériser une partie de leurs collections, mais ne disposant pas de plateforme de diffusion ou souhaitant renouveler leur plateforme actuelle. Chaque projet s’est ainsi concrétisé par la réalisation d’une bibliothèque numérique construite sur la base de l’infrastructure Gallica, utilisant le moteur de recherche Gallica, mais paramétrée et personnalisée aux couleurs du partenaire. Parallèlement, la BnF a amélioré le service rendu sur Gallica en proposant un fonds documentaire enrichi.

La maintenance et l’évolution de ces bibliothèques numériques ont été incluses dans le dispositif dès le démarrage : toute évolution majeure, toute amélioration de Gallica sont ainsi répercutées dans les sites en marque blanche. Et les collections des partenaires sont archivées dans l’outil d’archivage réparti SPAR, pour une conservation pérenne à long terme.

Sept bibliothèques numériques en marque blanche sont actuellement en ligne et sept sont en cours de construction, avec des bibliothèques municipales (Rouen, Pau, Toulouse, Brest, Grenoble) ou d’autres institutions (Bibliothèque nationale et universitaire de Strasbourg, Service interministériel des Archives de France, ministère des Affaires étrangères, Cirad…).

Au moment de la mise en œuvre du projet France-Angleterre, Gallica marque blanche avait donc déjà fait ses preuves avec plusieurs bibliothèques en ligne, comportant des collections de manuscrits, et répondait a priori bien à l’objectif de présenter, sur un même site, des collections de la British Library (BL) et de la BnF, en utilisant la robustesse et la puissance de l’infrastructure et du moteur de recherche Gallica. Néanmoins, le projet présentait certaines spécificités, qui n’étaient pas prévues dans le dispositif, notamment la réalisation d’un visualiseur IIIF, décrit précédemment, et la possibilité de gérer plusieurs langues (français, anglais, italien). Ces deux innovations techniques ont été conduites avec succès et ont permis, notamment pour la gestion du multilinguisme, de faire évaluer l’ensemble des systèmes : Gallica dispose aujourd’hui d’une interface complète dans plusieurs langues et les marques blanches qui le souhaitent peuvent également en bénéficier.

Au-delà de ces innovations prévues, le projet a permis d’acquérir de nouvelles approches, avec davantage de souplesse pour la valorisation de collections de manuscrits.

Le partage d’expérience avec nos partenaires de la British Library, leur approche très marketing et la nécessité de faire cohabiter deux sites frères, l’un géré par la British Library sur la partie médiation et l’autre géré par la BnF sur l’exploration des collections, ont incité à renforcer l’attention sur le fameux « parcours utilisateur », même si au départ de tout projet numérique, l’internaute, qu’il soit chercheur, érudit ou simple curieux, est au centre des préoccupations.

Cela s’est traduit par la mise en place d’un groupe de testeurs, qui a utilisé l’ensemble des fonctions du site avant mise en ligne et répondu à un questionnaire : leurs analyses ont permis d’ajuster certains aspects du site. Les fréquents échanges avec nos homologues de la British Library ont fait également évoluer sur l’aspect et la configuration de la page d’accueil, avec pour objectif de la rendre plus percutante. Enfin, la nécessité de guider l’internaute dans les collections a conduit à la mise en place d’abécédaire d’auteurs, d’accès par zones géographiques, thèmes ou époques, ou bien encore de pages recensant d’autres ressources disponibles sur les manuscrits médiévaux de cette époque.

L’ensemble de ces améliorations irriguent aujourd’hui la démarche et les échanges avec les nouveaux partenaires et permettent de mieux les accompagner.

Au-delà de l’aspect qualitatif, le bilan statistique, d’un point de vue quantitatif, est positif. Le site « France-Angleterre » en marque blanche voit une fréquentation notable, avec une audience plus de deux fois supérieure à la moyenne des autres marques blanches. Si ce nombre de visiteurs est certainement lié à l’attention portée au site, le rôle de la communication est également à souligner : des articles de blog, repris par les réseaux sociaux, la mise en ligne d’un documentaire, des colloques et conférences, ont préparé puis accompagné la mise en ligne des manuscrits.

L’intérêt porté par le public aux collections de manuscrits est probablement aussi une des raisons de cette fréquentation et encourage vers des projets intégrant ce type de fonds, qui trouve son public en ligne.

Il y aurait encore sans doute beaucoup à faire pour compléter ce projet, le faire vivre, l’actualiser. Une des limites de ce programme « France-Angleterre » réside dans sa durée : même si le site est prévu pour durer dix ans, ce partenariat dès le démarrage s’est limité à un corpus donné, avec une mise en ligne unique et pas d’actualisation ou d’enrichissement au fil des ans. Or – on le remarque pour d’autres projets – la durée permet de tirer pleinement avantage d’une coopération numérique. C’est en mettant en ligne de nouveaux corpus, de nouvelles pages éditoriales, de nouvelles fonctionnalités, que l’on rend complètement opérant un site, avec un noyau de visiteurs fidèles, de nouveaux prescripteurs, de nouvelles opportunités de valorisation et de rayonnement.

C’est dans ce sens que s’inscrivent généralement les dispositifs de coopération numériques avec la BnF, chaque partenariat pouvant s’additionner dans le temps avec d’autres, au fur et à mesure des besoins et des opportunités : participation au marché de numérisation de masse, subventions pour de la numérisation concertée, intégration ou moissonnage dans Gallica, médiation via des pages sélections, participation aux programmes internationaux « Patrimoines partagés ». La multiplication des canaux de diffusion dans le temps permet, pour un même document, d’en révéler plusieurs facettes et de faire découvrir et analyser, dans des contextes différents, les ressources de notre patrimoine.

 

1. Pour une présentation détaillée du programme, voir Charlotte Denoël, « Le programme Polonsky “France-Angleterre, 700-1200 : manuscrits médiévaux de la Bibliothèque nationale de France et de la British Library” : bilan et perspectives », éditorial du Bulletin du bibliophile, 2019, 1, p. 3-10.

2. Ces deux sites ont été mis en ligne le 21 novembre 2018 ; le site éditorialisé est accessible à l’adresse https://www.bl.uk/fr-fr/medieval-english-french-manuscripts et la bibliothèque numérique sur https://manuscrits-france-angleterre.org

3. Voir « API IIIF de récupération des images de Gallica » sur BnF API et jeux de données : http://api.bnf.fr/api-iiif-de-recuperation-des-images-de-gallica

4. La numérisation des manuscrits français du Roman de la Rose était le fruit d’un partenariat avec la John Hopkins University de Baltimore avec le soutien de la fondation Andrew W. Mellon. Remanié dix ans plus tard, le portail est désormais inclus dans la Digital Library of Medieval Manuscripts [https://dlmm.library.jhu.edu/] et a adopté des technologies modernes telles qu’IIIF, sans mise à jour des contenus (numérisations ou métadonnées).

5. Toujours en ligne à l’adresse http://www.europeanaregia.eu/, ce portail n’est pas sans poser des difficultés techniques de maintenance, mais également de pertinence de données à mesure que les notices sont mises à jour dans les catalogues propres de chaque bibliothèque, que de meilleures numérisations sont réalisées, et parfois simplement en l’absence d’adresses URL réellement pérennes.

6. Équipement d’excellence subventionné au titre des « Investissements d’avenir » (2013-2019), Biblissima est un consortium de douze institutions spécialisées dans la recherche en histoire des textes, bibliothèques et savoirs médiévaux et modernes. S’étant fait une spécialité des technologies IIIF pour la mise en œuvre d’un portail unique fédérant les ressources de diverses bases de données existantes, Biblissima joue également un rôle d’expertise et de promotion d’IIIF en France. https://projet.biblissima.fr/

7. Voir https://projectmirador.org/

8. Maryline Devidal et Mélanie Roche, « Cinquante nuances d’EAD : réconcilier la théorie et la pratique de la description des manuscrits à la Bibliothèque nationale de France ». Disponible en ligne : http://library.ifla.org/2267/1/124-devidal-fr.pdf


 

Ajouter un commentaire