Métadonnées en bibliothèques : attention, travaux !

BnF – 14 novembre 2017

Thierry Clavel

Organisée par le groupe Systèmes et données du programme national Transition bibliographique (TB) cette deuxième édition 1 de « Métadonnées en bibliothèques » a, cette année encore, rencontré un vif succès avec près de 400 participants, dans le Grand auditorium de la BnF pour les plus chanceux, en visioconférence dans une salle adjacente pour les derniers inscrits. L’objectif de cette conférence était de faire un état des travaux (plutôt informatiques) en cours dans le cadre de la TB.

Pour David Aymonin (directeur de l’ABES) qui a introduit cette journée, la transition bibliographique participe à la réalisation du rêve de Paul Otlet, le Mundaneum, qui visait à recenser et compiler toutes les connaissances humaines. David Aymonin a fait plusieurs annonces importantes : l’intégration de Rameau et de l’Encoded Archival Description (EAD) au programme TB et la stabilisation du programme, prévue pour 2020-2021.

Illustration
https://www.transition-bibliographique.fr/

LRM : le nouveau modèle FRBR 2.0 de l’IFLA

Après une présentation de la journée par Renaud Aioutz (médiathèque départementale du Puy-de-Dôme), responsable du groupe Systèmes et données, l’actualité de la transition bibliographique a été détaillée par Françoise Leresche (BnF) : le nouveau modèle LRM (Library Reference Model) publié en août dernier par l’IFLA, succède à FRBR ; il servira de référence pour le développement des règles de catalogage tant à l’étranger qu’en France avec RDA-FR et le référentiel RAMEAU. LRM est un modèle générique conçu comme une ontologie pour le Web sémantique. Il intègre les quatre entités FRBR de base (œuvre, expression, manifestation, item), en ajoute de nouvelles (res, agent, laps de temps, nomen), établit une hiérarchie entre entités et apporte des solutions sur des points où FRBR était lacunaire. Sur le plan international, RDA évolue : une nouvelle version du « rdatoolkit » est prévue courant 2018, qui comprendra l’implémentation de LRM, une nouvelle organisation du code et la gestion intégrée de RDA.

Au niveau français, rappelons que RDA-FR est publié progressivement depuis 2015. En 2017 ont été publiés les chapitres sur la description des manifestations, l’identification des œuvres, expressions, agents et l’enregistrement des relations principales. Notons que la norme AFNOR Z44061 2 sur la forme et la structure des vedettes noms de personnes et titres est remplacée par les chapitres 6 et 9 de RDA-FR.

Le projet TAPIR (Traitement Automatisé pour la Production d’Instruments de Recherche), porté par la BnF et présenté par Prêle Paris, est un outil de catalogage en EAD en cours de développement. Destiné à décrire les manuscrits du réseau CCFR non universitaire, il sera mis à disposition au second semestre 2018.

FRBRiser son catalogue avec l’aide de la BnF et de l’ABES

L’intervention commune de Sylvain Franceschi (médiathèques Montpellier) et Etienne Cavalié (BnF) intitulée « FRBRiser son catalogue en s'alignant avec les données de la BnF : pourquoi ? comment ? » illustre ce que pourrait être la collaboration future entre la BnF et les bibliothèques de lecture publique. L’idée générale étant de ne pas « FRBRiser seul dans son coin » et de bénéficier des données et du savoir-faire de la BnF en la matière, le projet utilise l’outil de traitement de données OpenRefine et consiste à aligner les notices de Montpellier avec celles de la BnF, afin de leur injecter un identifiant ARK (Archival Resource Key). Il est prévu de publier et de partager la méthodologie pour en faire bénéficier d’autres établissements considérés comme de futurs relais par la BnF. À cet effet, un atelier pratique est prévu le 19 mars 2018 : chaque participant pourra venir avec ses données et repartir avec des alignements. Signalons également l’ouverture du service SRU (Search Retrieve via URL) de la BnF, qui permet d’interroger automatiquement ses données et de récupérer de gros volumes de notices.

L’après-midi, quatre sessions parallèles, animées par les membres du groupe Systèmes et données, étaient proposées aux participants. L’atelier « Les datas sans aléas : connaître ses métadonnées pour FRBRiser son catalogue » a montré qu’un chantier de FRBRisation doit se préparer longtemps à l’avance : nettoyage du catalogue, préparation et enrichissement des données (ajout d’identifiants, etc.), maîtrise des normes et du format de catalogage. Bien connaître ses données, pouvoir les manipuler soi-même et disposer d’un SIGB paramétrable sont des prérequis pour la réussite de tels projets. L’atelier « Qu’attendre des agences pour la FRBRisation des catalogues ? » a permis de faire le point sur l’avancée des chantiers de FRBRisation par traitements algorithmiques de l’ABES et de la BnF. À l’ABES, la base de production s’enrichit chaque jour de 300 à 600 notices de regroupement créées de manière dynamique. À l’automne 2017, ce sont 1,5 million de notices de regroupement (œuvres) et plus de 4 millions de liens entre notices bibliographiques et notices de regroupements qui ont été créés. Du côté de la BnF, des algorithmes ont été développés dans le cadre du projet Data.bnf.fr puis reversés dans le catalogue général. En novembre 2017, on comptait environ 310 000 liens générés entre notices bibliographiques et notices d’œuvres déjà existantes. Avec l’outil RobotDonnées et un contrôle manuel des cas litigieux par une équipe d’experts, la BnF espère encore augmenter ce chiffre. La création de notices d’œuvres et des liens aux œuvres de type films et autres catégories de documents sont les principaux chantiers pour 2018.

UNIMARC et INTERMARC sont bien en vie !

Avec son diaporama, visuellement très réussi, « La vie quotidienne d’UNIMARC au temps de la Transition bibliographique », Philippe Le Pape (ABES, pilote du comité français UNIMARC) a une nouvelle (dernière 3 ?) fois régalé l’assistance du Grand auditorium. Débutant son intervention par la phrase «UNIMARC est en vie » , allusion au célèbre « MARC must die », Philippe Le Pape a démontré que Roy Tennant avait mis en évidence les limites du MARC21 et non des formats MARC en général. UNIMARC est un format plus structuré que MARC21 et permet depuis longtemps de faire des liens entre notices bibliographiques, ce que préconise RDA. Il a en outre évolué dès 2011, à l’initiative de la France, pour intégrer les entités et relations FRBR. UNIMARC devrait donc continuer à être utilisé dans les années qui viennent, au moins comme format de travail, notamment car il est plus « LRM compatible » que MARC21.

Illustration
https://rda.abes.fr/2017/11/18/la-vie-quotidienne-dunimarc-au-temps-de-la-transition-bibliographique-diaporama/

Si l’UNIMARC est en vie, et va probablement encore rester le format de travail du SUDOC quelques temps, pour Sébastien Peyrard (BnF) qui a présenté le projet Intermarc NG (nouvelle génération), « Intermarc n’est pas mort mais nécessite une cure de jouvence ». Dans ce contexte de transition bibliographique et de refonte des outils de production de métadonnées, la décision prise par la BnF est donc de conserver son format interne, suivant le principe « garder ce qui marche et développer ce qui manque », notamment en ayant pour règle de faire un type de notice par entité du modèle LRM. Une étude de faisabilité a été menée en 2017. Une charte d’évolution sera mise en place en 2018, avec comme fil conducteur de « changer le moins possible pour que tout change ».

Des autorités BnF et ABES au fichier national d’entités

Frédérique Joannic-Seta (BnF/ directrice du Département des métadonnées) a conclu cette journée en présentant le projet de Fichier National d’Entités (FNE). Actuellement dans la phase d’étude de faisabilité (livrables attendus pour décembre 2017 et mai 2018), ce projet comprendra une base centrale et un outil de production de données sous licence ouverte Etalab, co-construit par l’ABES et la BnF. Son périmètre correspondra aux entités du modèle LRM (agents, œuvres, expressions, lieux, laps de temps et sujets). L’alimentation du FNE sera mutualisée. Le fichier devrait entrer en production en 2020-2021 et s’ouvrir progressivement à d’autres communautés culturelles comme les archives et les musées.

Que retenir de cette journée très riche ?

Alors que l’on nous dit depuis des années que les formats MARC sont obsolètes, l’annonce du maintien d’UNIMARC et d’INTERMARC comme formats de travail pour les prochaines années a de quoi surprendre. Pour autant, les travaux en cours (FRBRisation, règles RDA-FR, refonte de RAMEAU, outils de production TAPIR et INTERMARC NG) et ceux annoncés (FNE) sont majeurs et témoignent d’une réelle volonté de changement, du dynamisme de la transition bibliographique française et de l’énergie que déploient les agences bibliographiques nationales.