Les métadonnées en bibliothèque : offres, usages, innovations

9 et 10 novembre 2016 – BnF

Thierry Clavel

Igor Milhit

Les temps changent. Si l’accueil du site François Mitterrand de la BnF n’a désormais plus rien à envier aux contrôles de sécurité des aéroports les plus modernes, c’est à l’intérieur, dans le Grand auditorium, que le changement bibliothéconomique était attendu. Aux 350 participants, plus question de parler de catalogage, encore moins de notices… L’heure est en effet, aux données, plus exactement aux métadonnées, que l’on souhaite exposer et lier sur le web (Linked Open Data) tout en ayant recours au modèle FRBR 1 et à la norme de catalogage RDA 2 : vaste programme que se sont fixés les deux agences bibliographiques nationales (ABES et BnF) dans le cadre de la Transition bibliographique 3. Un thème donc, et deux journées d’étude : l’une, organisée par le groupe Systèmes et données du programme Transition bibliographique et l’autre dédiée aux produits diffusés par la BnF.

Systèmes et données

La première journée 4 visait à présenter au public des projets et réalisations concrètes en lien avec FRBR, RDA ou le Web de données. Le programme, présenté par Renaud Aioutz, pilote du groupe Systèmes et données, comportait cinq présentations de 15 min. en session plénière de plusieurs solutions ou projets, suivies d’un innovant « forum des projets » composé de six ateliers.

Dans un discours d’ouverture orienté usager, Arnaud Beaufort (BnF/Direction des Services et des réseaux) donnait le ton : "On ne normalise pas pour le plaisir mais pour l'usager." Frédérique Joannic-Seta (BnF/ Département des métadonnées) prenait ensuite le relai. Pour la nouvelle directrice du département, "La transition bibliographique n'est plus le futur mais le présent" avec la publication progressive du profil d’application français de RDA, RDA-FR, insistant aussi sur les changements de structuration de l’information bibliographique, qui passe d’une logique de notice à une logique de données, ce qui n’est pas sans impact sur les fournisseurs de systèmes et de notices. Le nouveau directeur de l’ABES David Aymonin annonçait, quant à lui, la mise en œuvre des nouvelles règles publiées RDA-FR dès avril 2017 dans le Sudoc, son FRBRisation et une interface publique dans un affichage FRBR pour le printemps 2017, rappelant également que le projet de Fichier national d’autorités, commun ABES BNF est toujours d’actualité.

Sélectionnées par le groupe Système et données pour leur caractère innovant à la suite d’un appel à communication, les projets présentés ont mis en évidence la capacité des différents acteurs à s’approprier le modèle FRBR, n’hésitant pas, parfois, à le faire évoluer en fonction des besoins des bibliothèques et de leurs usagers. Les projets peuvent être répartis en deux catégories : projets commerciaux (SIGB, fournisseurs de données) et projets d’institutions culturelles ou d’enseignement.

Des SIGB qui s’approprient le modèle FRBR

Fort d’un catalogue en cloud de dix millions de notices, Decalog 5 a une interprétation particulière du modèle FRBR où manifestations et expressions sont regroupées dans une entité « document » tandis que l’œuvre est rendue optionnelle et que les relations sont simplifiées.

BGM 6, solution en mode SAAS conçue dès le départ sur une base relationnelle avec le modèle FRBR, a l’originalité d’avoir intégré data.bnf.fr ainsi que ses mises à jour. La démo sur la base de la BM de Fresnes, adepte de la dérivation 100 % (zero catalogage) a permis de découvrir des fonctionnalités intéressantes, comme la représentation d’autorités géographiques sur cartes ou la détection de liens FRBR à créer.

Syrtis de la société Progilone 7 reste fidèle au modèle FRBR dans sa conception et sa réalisation. La partie catalogue donne un réel aperçu des potentialités FRBR tant pour l’usager que pour le professionnel : regroupement par œuvres et expressions, distinction de différents types de relations entre œuvres, visualisation par graphes. La FRBRisation des notices importées (BnF ou autres) se fait à la volée et garantit la continuité d’un catalogue structuré selon FRBR.

Du côté des fournisseurs de notices, l’outil de production de données bibliographiques Calipse de la société Electre, en place depuis 2010, bénéficie d’un workflow nativement FRBR, développé en interne afin d’améliorer le catalogage, la pertinence et la cohérence des données. Autour de Calipse, Electre développe de nouveaux services, notamment la rétroconversion FRBR ou la réalisation de sites Web liés à des événements particuliers.

Intégration de FRBR à des projets innovants

Trois projets institutionnels plus ou moins en lien avec FRBR ont été présentés. Tout d’abord « Concordance 8 », mené par la BPI, est un projet classique de régénération et d’alignement de notices bibliographiques et d’autorité du SIGB de la BPI (logiciel Portfolio, société Bibliomondo) par celles de la BnF, afin d’améliorer le service au public et de bénéficier des évolutions liées à la transition bibliographique.

« Doremus 9 » est un projet dédié à la musique, qui s’appuie sur le modèle FRBRoo (orienté objet) et vise à interconnecter et partager différents référentiels d’œuvres musicales sur le Web de données : Radio France, BnF, Philarmonie de Paris. Une « preuve de concept », pour l’affichage des œuvres, peut être consultée : http://overture.doremus.org/. Par ailleurs, le modèle Doremus a été aligné avec Schema.org, afin de fournir une solution pour améliorer l’affichage des données concernant la musique complexe dans Google Search. Enfin, on peut noter que le projet DOREMUS, qui pour l’instant a délibérément peu traité le Jazz ou les musiques traditionnelles, permet de révéler le caractère ethnocentré du concept d’œuvre, central dans FRBR.

« Prévu 10 » est centré sur l’exploitation, la visualisation et la publication des données de prêt anonymisées. Travaillant sur les données Koha du SCD Paris 8, croisées avec celles de data.bnf.fr, le projet s’est intéressé au modèle FRBR afin, notamment, de pouvoir établir et manipuler des statistiques concernant les œuvres, par exemple pour quantifier tous les prêts d’une même œuvre ayant plusieurs éditions particulières, ce qui est difficilement réalisable avec un SIGB classique. Ce projet open-source, qui vise surtout à établir des typologies de lecteurs, a rencontré l’intérêt d’un certain nombre de bibliothèques publiques utilisant Koha, mais aussi des SIGB propriétaires.

La journée se terminait par une présentation des objectifs et réalisations des trois groupes de travail du programme transition bibliographique. Philippe Le Pape, du groupe normalisation-RDA en France, a précisé qu’une partie importante de la nouvelle norme RDA-FR sera publiée entre décembre 2016 et janvier 2017, notamment l’identification des œuvres et expressions ainsi que les relations entre les 4 entités principales du modèle. Par ailleurs, l’intégration du Comité français UNIMARC au programme transition bibliographique est désormais officiellement annoncée. Face aux changements imminents des règles de catalogage, Claire Toussaint, pilote du groupe formation, a fait un nouvel appel aux candidatures de formateurs à RDA-FR, tandis que Renaud Aioutz a rappelé que le groupe Systèmes et données ambitionne de contribuer à l’amélioration du traitement des données et des interfaces et se positionne comme un trait d’union entre éditeurs de SIGB, fournisseurs de données et bibliothèques.

C’est donc un pari réussi pour cette journée qui a eu les faveurs du public : le Grand auditorium était plein comme un œuf, la formule d’ateliers, bien agencée, donnant un aperçu complet des solutions et des échanges avec les différents acteurs des projets présentés, a connu un vif succès. La formule devrait être renouvelée en 2017.

Nouveautés et perspectives
des données diffusées par la BnF

La seconde journée débutait par la présentation des nouvelles interfaces des catalogues de la BnF. Pour le catalogue général, mis en production en début d’année, Clémence Agostini a donné les objectifs du projet, lequel se terminera en décembre 2016 : proposer une « vraie page d’accueil », des facettes et valoriser les autorités.

Des interfaces publiques renouvelées

Outre une meilleure visibilité des autorités, désormais dotées d’un pictogramme, trois univers sont accessibles : jeunesse, musique, images et cartes. Les résumés et images de couverture sont également récupérées de Gallica et de l’extranet réservé aux éditeurs pour le dépôt légal. Parmi les nouvelles fonctionnalités intégrées ou encore à venir, signalons la possibilité pour l’usager de corriger ou d’enrichir une notice, l’ajout de critères de recherche (dates de création ou de mise à jour) et la pertinence qui reste encore à paramétrer.

Patrick Le Bœuf présentait ensuite la refonte de l’interface du catalogue des archives et manuscrits. L’ancienne interface posait en effet des problèmes de maintenance et offrait une mauvaise ergonomie. En outre, l’affichage des listes de résultats par ordre alphabétique était de type anglo-saxon (renvoi des accents à la fin) et sensible à la casse. Développé par une équipe mixte BnF/prestataire, le catalogue a été mis en production en août 2016. Il compte désormais 3 axes de recherches : la recherche simple, accessible sur la page d’accueil, avec des filtres par type de documents ou par collection, la recherche avancée et enfin la possibilité d’explorer l’arborescence des collections.

La pertinence n’a pas encore été travaillée mais une première piste est envisagée : elle consiste à effectuer une pondération en fonction de la présence ou non des termes de la requête dans un même élément EAD.

Une nouvelle plateforme Z39.50 et
des formats MARC de diffusion actualisés

Caroline Demessence, amenée à quitter la BnF prochainement, a été applaudie par l’assistance pour ses 10 ans de bons et loyaux services aux « produits BnF ». Elle rappelait que l’ancienne plateforme Z39.50 est très utilisée mais n’est plus adaptée au nouvel environnement informatique de la BnF, tandis que les utilisateurs signalent des difficultés d’accès.

Le nouveau service était annoncé pour une mise en œuvre le 21 novembre 2016. Les paramètres d’accès sont inchangés. Les nouveautés sont les suivantes :

-Le contenu de la base est désormais identique au catalogue général.
- Les notices bibliographiques et les notices d’autorités sont toutes récupérables, sauf les notices de spectacles.
- De nouveaux attributs Z39.50 sont disponibles : identifiants ARK, EAN, ISMN, recherche par mots de la notice, recherche sur les formes retenues et rejetées.

De nouvelles informations, liées à RDA-FR ou des enrichissements extérieurs ont été ajoutées aux notices diffusées par la BnF : résumés (en provenance des éditeurs ou d’Electre), critiques, type de contenu, type de média, type de support (RDA et zone 0 de l’ISBD) accès titres, URL du document dans Gallica, identifiant ISNI. Pour plus de détails, on se référera aux pages « Récupération et utilisation des données de la BnF ».

Mathilde Koskas exposait ensuite les évolutions liées aux nouvelles règles RDA-FR dont on trouvera le détail sur le site de la BnF.

Les algorithmes de data.bnf.fr au service du catalogue général

Dans la perspective de FRBRisation du catalogue général, Etienne Cavalié présentait le principe des alignements, ainsi que les travaux réalisés et ceux à venir :

data.bnf.fr est un terrain d’expérimentation destiné à être utilisé par les catalogues de la BnF. Une fois testés et validés, les calculs algorithmiques ayant permis des alignements 11 pertinents sont appliqués aux données source du catalogue. 170 000 liens entre autorités titres déjà existantes et notices bibliographiques ont ainsi été reversés dans le catalogue. Le pourcentage d’erreur est plutôt faible, puisqu’il est de l’ordre de 0.1 %. Lorsqu’il y a des erreurs, les corrections sont faites manuellement. La stratégie future est de travailler sur des corpus de notices homogènes plutôt que sur l’intégralité des catalogues, afin d’améliorer la performance et la fiabilité des alignements.

En 2017, le programme d’alignements sera élargi aux spectacles et agrégats. De plus, des notices d’autorités œuvres seront générées à partir de calculs sur les notices bibliographiques (manifestations). L’identification des expressions dans data.bnf.fr est un point qui reste à travailler tandis que des alignements avec d’autres thésauri devraient démarrer, afin d’enrichir les autorités Rameau.

L’après-midi débutait par les interventions d’Anila Angjeli et Pauline Moirez consacrées aux données exogènes proposées par la BnF.

De l’importance de la traçabilité des données

La BnF intègre beaucoup de données de provenances diverses : réservoirs internationaux, éditeurs commerciaux, bibliothèques partenaires. Soucieuse de respecter le cadre réglementaire, la BnF conserve la traçabilité des données importées. Celle-ci se fait désormais avec une granularité plus fine que par le passé, au niveau de chaque champ avec l’ajout de la source en sous-zone MARC $2 . Il est également recommandé aux utilisateurs de toujours garder ces indications de sources lors des récupérations de notices BnF.

La récupération automatique des notices WorldCat est effective depuis 2011, afin de réduire l’effort de catalogage pour tout ce qui ne relève pas du dépôt légal. La description bibliographique des notices est laissée en l’état tandis que les points d’accès sont retravaillés. Notons que ces notices ne sont pas intégrées dans la bibliographie nationale française.

Les identifiants ISNI 12 et ISSN-L 13 (de liaison) sont également intégrés aux notices bibliographiques. L’ISSN-L sert à faire le lien entre les différents supports (imprimé et numérique) d’un même périodique.

L’extranet du dépôt légal, réservé au monde de l’édition, est en service depuis 2009. Il permet de déclarer en ligne les livres, périodiques, images de couvertures, partitions, estampes, cartes et plans… Depuis 2013, l’importation des métadonnées se fait par flux ONIX. Les notices sont ensuite mises aux normes manuellement par les catalogueurs de la BnF. L’ajout des résumés des éditeurs et des premières de couverture permettent d’enrichir le catalogue général. Pour le moment, seuls les résumés sont diffusés.

Le dépôt légal des livres numériques , encore expérimental, devrait voir le jour en 2017.

Plusieurs partenariats concernant les données sont en cours ou à venir :

- Constitution de bibliothèques numériques à partir de Gallica (projet Marque blanche).
- Fichier national d’entités.
- Coproduction , circulation et échange de données.

data.bnf.fr, 5 ans après l’ouverture : un bilan positif

La 2e partie de l’après-midi était consacrée à un bilan de l’expérimentation data.bnf.fr par Raphaëlle Lapôtre et Aude Le Moullec-Rieu.

Rappelons que data.bnf.fr sert à agréger les données des diverses ressources de la BnF : catalogue général, archives et manuscrits, Gallica, etc., et qu’il est aligné avec des référentiels extérieurs : WikiData, LoC, VIAF, DBpedia. 5 types d’entités composent le modèle : auteurs (personnes physiques ou collectivités), sujets Rameau, œuvres (autorités titres, périodiques, spectacles), lieux et dates.

data.bnf.fr est à la fois une interface de recherche et un ensemble de données. On peut l’utiliser de plusieurs manières : consultation publique via l’interface Web, téléchargement de l’ensemble des données, ce que les informaticiens appellent un dump, ou par requêtes SPARQL.

À l’avenir data.bnf.fr restera une application expérimentale au service d’autres applications comme le catalogue général. L’objectif du projet reste le même : poursuivre la coopération au moyen des alignements.

La BnF souhaitait mieux connaître les usagers de data.bnf.fr. À cet effet, ont été organisés des ateliers utilisateurs dont les résultats ont été communiqués aux éditeurs de SIGB le 28 octobre 2016. Dans l’ensemble, les retours sont très positifs. L’application est vue comme un lieu d’expérimentation et d’innovation, sa force étant de créer du lien entre les données et de permettre de comprendre et expérimenter l’intérêt du modèle FRBR.

Des pistes d’amélioration sont possibles : renforcement de l’entité expression, alignement avec d’autres jeux de données externes, ajout de relations FRBR, mais également une amélioration des outils de communications autour de data.bnf.fr, afin notamment de permettre aux utilisateurs de partager activement et simplement leurs questions et leurs connaissances à la fois avec l’équipe de l’application et entre eux.

Frédérique Joannic-Seta clôturait cette journée très riche et parfaitement organisée, en annonçant que l’activité produits va continuer à se développer. La prochaine « Journée données de la BnF » aura lieu en mars 2018.