Les catalogues au défi du web

Journée d’étude du pôle Culture CNFPT-INSET de Nancy – BNF, 19 novembre 2013

François Barblu

Web sémantique, web de données, FRBR, RDF, RDA, triplets… ces termes de vocabulaire peuvent sembler franchement obscurs pour la majorité des bibliothécaires encore à peine remis du passage en force des NTIC dans leur pratique professionnelle quotidienne. Pourtant ils appartiennent à l’évolution de la structure de l’internet, à celle des pratiques des internautes et, de fait, à celle des bibliothécaires.

C’est dans le but de communiquer sur ce thème auprès des professionnels des bibliothèques que le pôle Culture du CNFPT-INSET de Nancy a organisé sa 2e journée d’actualité intitulée « Les catalogues au défi du Web », le 19 novembre dernier, à la BnF – François Mitterand. Une soixantaine de participants se sont retrouvés autour d’une dizaine d’intervenants pour dresser un état de l’art de la question et échanger sur la présence des bibliothèques sur le web, identifier les mutations induites par une nouvelle conception des catalogues, mais aussi mesurer les enjeux politiques qui en découlent.

Une nécessité d’évoluer

Le début de cette journée fut marqué par l’intervention d’Emmanuelle Bermès (chef de projet multimédia, Centre Georges Pompidou). À travers une présentation générale et bien nécessaire des évolutions du web, elle a plaidé pour la place active que le monde des bibliothèques est amené à occuper. Si l’on ne devait retenir qu’une idée de cette intervention, ce serait cette citation : « Si les normes d’élaboration des catalogues évoluent, c’est en convergence avec celles du web. »

La vision initiale des bibliothécaires considérant le web fut celle d’un support de plus à maîtriser et à gérer. Rapidement, internet est devenu à lui seul le plus grand réservoir de connaissances jamais connu. À dire vrai, il aurait aujourd’hui plutôt tendance à maîtriser les bibliothécaires qui n’ont trop souvent comme seule parade que d’en brider l’accès, à défaut de ne pouvoir cerner son contenu.

Les travaux du W3C de Tim Berners-Lee, principal inventeur du World Wide Web, se concentrent aujourd’hui vers la mise en forme du web dit « sémantique ». L’objectif est de réussir à faire comprendre aux machines que les données ont un sens. En liant les données entre elles, par le moyen des marqueurs que sont les métadonnées (des données sur les données), une page web initialement écrite pour être lue par un humain pourra être aussi comprise par une machine, tels les moteurs de recherche. Ainsi, en s’appuyant sur ce web de données, les moteurs de recherche seront à même de trouver l’information la plus pertinente, plutôt que de s’arrêter aux mots de la recherche et au filtre intellectuel de l’internaute, comme c’est le cas actuellement avec la recherche plein texte.

Les possibilités créées par cette interopérabilité entre les données sont encore difficiles à appréhender, mais il est certain que cette évolution de l’acquisition de l’information est l’opportunité absolue pour les bibliothèques de devenir un acteur incontournable de l’infosphère. Par sa nature, le web sémantique met au jour le web profond, composé de véritables silos de données jusqu’ici inaccessibles pour quiconque ne connaît ni leur adresse ni leur existence. Les catalogues de bibliothèques sont l’exemple parfait de ces silos sous-exploités, alors même qu’ils contiennent des informations structurées et validées. Adhérer à la logique du web sémantique représente le défi majeur des bibliothécaires en tant que professionnels de l’information. L’enjeu est de reprendre l’initiative dans la communication du savoir sur le web grâce au partage des données validées, tout en participant à la dynamique de transparence et d’ouverture des données publiques.

Un changement technique articulé autour de clefs d’entrée du web sémantique

L’intervention de Françoise Leresche (département de l’Information bibliographique et technique, à la BnF), plus technique, s’est articulée autour des grands principes de constitution de catalogues, des scénarios d’implémentation les plus probables et de la promotion du groupe de travail RDA en France, chargé d’adapter ces nouveaux modèles aux contextes français et européen et plus particulièrement le code de catalogage RDA (Ressource Description Access) créé pour remplacer les AACR américains.

Les outils de langage informatique qui autorisent la formation du web sémantique sont réunis sous le modèle RDF (Resource Description Framework). RDF représente toute chose au moyen de phrases simples sur la base d’une syntaxe sujet-verbe-complément. Pour reprendre les termes dévolus, il se fonde sur l’association Sujet – Prédicat – Objet, chacun étant désigné par une URI (marqueur de base qui permet d’identifier une ressource sur le web, voire sa localisation dans le cas de l’URL qui est aussi une URI). Le Sujet désigne la ressource à décrire. Le Prédicat exprime une relation. L’Objet représente sa valeur, sa caractéristique. Cette association est communément appelée triplet. L’ensemble des triplets reliés les uns aux autres par les URI qu’ils ont en commun constitue un graphe. L’ajout d’un quatrième triplet est envisagé afin d’indiquer la source de l’information.

Dans un univers technologique RDF, les informations contenues dans les notices des catalogues de bibliothèques doivent être modélisées en s’appuyant sur le concept FRBR (Functional Requirements for Bibliographic Records), sur lequel l’IFLA travaille depuis le début des années 1990. Il repose sur l’association logique et systématique d’entités réparties sur trois niveaux :

– Œuvre et Personne

– Expression (langues, voix de…)

– Manifestation ou Item (édition, support…).

Chaque niveau d’entité est relié aux deux autres qui le sont eux-mêmes entre eux. Pour cette raison, on parle de l’interopérabilité des entités, qui est le principe même du web. Ce modèle offre la primauté à l’information dans les catalogues, alors que jusqu’à présent ces derniers se sont construits autour de l’exemplaire. Autrement dit, si l’on partait de l’exemplaire pour obtenir éventuellement l’information, à l’avenir nous partirons de l’information pour, peut-être, arriver à un exemplaire.

RDA intervient comme étant le vocabulaire qui permet l’élaboration des notices dans une architecture FRBR construite avec une technologie RDF.

Depuis quelques années, les agences bibliographiques nationales se sont engagées dans une phase de test de ces nouveaux modèles, permettant la réorganisation et la conversion des catalogues existants. Depuis l’automne 2012, le groupe Bibframework transition initiative, ou « Bibframe », formé à l’initiative de la Library of Congress, travaille à la conversion des données produites sous format MARC. En France, dans le cadre de l’Afnor, deux groupes se sont créés, l’un technique, l’autre stratégique, afin d’expérimenter et d’adapter RDA. Il s’agit bien de repenser l’organisation et la diffusion de l’information bibliographique, idéalement dans une finalité internationale.

Les premières réalisations

Si la réflexion sur les FRBR a été lancée il y a plus de quinze ans, les premières mises en forme sont très récentes.

Quelques projets ont vu le jour de manière isolée, tel celui de la Cité de la musique présentée par son responsable de la documentation, Patrice Verrier. L’établissement a lancé dès 2005 un catalogue partiellement « FRBRisé » en collaboration avec le fournisseur de SIGB, Opsys. La problématique était de regrouper l’information de la Cité, qui compte une bibliothèque, un musée et une salle de spectacle. Le portail ainsi créé rassemble les fonctions d’un catalogue et d’un site informatif, en incluant les pratiques de musique à la demande. Il permet l’accès à 5 000 œuvres musicales par le biais de notices enrichies de contenus numériques (enregistrements audios et vidéos) auxquels s’ajoutent les données liées à la programmation musicale de la Cité de la musique.

Plus récent, le programme data.bnf.fr, présenté au cours de la journée par Agnès Simon (BnF), est actif depuis 2011 et prend un rôle de pilote majeur dans le développement des projets à venir. Data.bnf.fr a pour but de rendre visibles les données bibliographiques de la BnF sur le web. Il organise ainsi la masse de données des catalogues (dont 200 000 auteurs, 160 000 sujets) autour de pages auteurs, œuvres et thèmes. Le programme s’insère dans la dynamique d’ouverture de données publiques et leur récupération par le plus grand nombre d’établissements. Travaillant en partenariat avec Logilab, une entreprise informatique spécialisée dans le web sémantique (sous le logiciel libre Cubicweb), ce sont plus de 40 % des données bibliographiques qui avaient déjà intégré data.bnf.fr en mai dernier. L’intérêt de ce réservoir est de présenter à l’utilisateur final (qui est avant tout un internaute) des données validées. Le plus par rapport aux moteurs de recherche tel que Google, qui commence à proposer des pages de résultats plus intuitives, plus pertinentes et visuellement plaisantes, c’est la finesse des liens renvoyant l’utilisateur vers des ressources structurées et de confiance. Data.bnf.fr apparaît comme un outil fédérateur et constitue le socle d’un écosystème de données culturelles.

Le catalogue prototype baptisé « OpenCat », présenté par Marianne Clatin (BnF), repose sur la réutilisation des données data.bnf.fr. Il est testé par la bibliothèque municipale de Fresnes (94). Marquées par des identifiants pérennes de référence (ARK) utilisés comme pivots vers d’autres ressources culturelles du web, Opencat agrège en plus des données locales de Fresnes des compléments bibliographiques, des informations contextuelles et des liens vers des ressources en ligne. Le tout sans aucune étape de catalogage ni besoin de sortir du portail de la bibliothèque.

Absents de cette journée d’étude et peu visibles parmi ces premières expérimentations, les fournisseurs traditionnels de notices et de SIGB semblent rester pour l’instant en retrait. De l’avis d’utilisateurs, tels la BDP de Saône-et-Loire et son directeur Éric Binet qui entament une conversion FRBR de leur catalogue, les avancées restent largement tributaires des fournisseurs. Certains participent au côté de la BnF aux groupes de travail précités, mais tous semblent avancer à pas feutrés. La tendance laisse penser que les produits à venir privilégieront l’interface portail comme vecteur d’enrichissement des catalogues, à la manière de ce qui s’est réalisé à la Cité de la musique.

La fin de la journée fut marquée par une conclusion à plusieurs voix, où il apparaît bien que le défi du web que doivent relever les nouveaux catalogues ne se limite pas qu’à une question de nouvelle pratique bibliographique. Il est déterminé avant tout par une implication forte de la maitrise des coûts. L’exemple du dépôt légal mis en avant par Gildas Illien (BnF) est significatif. L’augmentation de la masse de documents traités par le service et l’aspect multiforme des ressources déposées (e-books, sites web…), dans un contexte d’obligation d’économie (masse salariale en premier lieu, évidemment), nécessitent plus que jamais la systématisation d’un travail collaboratif. Pour faire mieux avec moins, il est impératif de maîtriser les enjeux et les contenus (Thierry Giappiconi), sans écarter la problématique du recrutement et de la formation des personnels (Pierre-Yves Renard, directeur de la BDP de Maine-et-Loire) et le retard technique qui persiste, alors que un tiers des bibliothèques françaises restent à informatiser (Fabien Plazannet, ministère de la Culture). Tout invite à renforcer le rôle de la BnF et de l’État afin d’accompagner dans cette transition des bibliothèques plus utilisatrices de services que véritablement coopératrices (Jean-Pierre Sakoun, Savoir Sphère).

Les deux modératrices de la journée, Marie-Christine Jacquinet (directrice de la BDP des Yvelines) et Françoise Bourdon (BnF), ont ramené les discussions et les mises en perspectives vers la question concrète des délais. Aux USA, le calendrier annoncé du basculement vers RDA est fixé pour la décennie 2013-2023. En France, la BnF annonce un versement de 80 à 90 % des données des catalogues dans data.bnf.fr à la fin 2015. La vraie échéance reste celle des mentalités, afin que l’utilisation du code RDA et de l’ensemble des évolutions qu’il induit devienne naturelle, culturelle et acceptable. En bref, la réorganisation des circuits de fonctionnement général des bibliothèques nous promet au moins une décennie de pédagogie et de « message national » auprès de l’ensemble de la profession.

Le mot de la fin est revenu à Jenny Rigaud, responsable du pôle Culture au CNFPT-INSET de Nancy, qui a organisé cette journée de main de maître. Elle nous fixe un nouveau rendez-vous pour le 24 novembre 2014.

Ressources

– Le web sémantique en bibliothèque, d’Emmanuelle Bermès, avec la collaboration d’Antoine Isaac et Gautier Poupeau, Éditions du Cercle de la librairie, 2013.

– Interventions filmées de Françoise Leresche et Philippe Le Pape, en ligne sur le site de l’ADBS.

Merci à Anna Marcuzzi, de la BM de Mulhouse, pour sa petite grammaire RDF à l’usage des bibliothécaires nuls.