Le web sémantique en bibliothèque

par Sébastien Peyrard, Agnès Simon

Emmanuelle Bermès

Emmanuelle Bermès
Avec la collaboration d’Antoine Isaac et Gautier Poupeau
Éditions du Cercle de la Librairie, collection « Bibliothèques »
2013, 171 p., ISBN 9782765414179 : 35 €

« Repositionner une partie de nos outils et de nos pratiques : le catalogue, comme un vivier de métadonnées structurées […] ; nos classifications et nos vocabulaires contrôlés, comme une modélisation de la connaissance ; nos sites internet, comme un autre libre accès, dans lequel chacun viendrait réorganiser les rayonnages à sa guise 1. »

En grande partie, l’objet du Web sémantique en bibliothèque argumente, explique et affine cette vision exprimée par l’auteure en 2007.

Qu’est-ce que le web sémantique ? En quoi parle-t-il aux bibliothèques, en s’inscrivant dans la continuité de leurs missions et activités traditionnelles ? En quoi constitue-t-il un puissant levier pour la visibilité des données de bibliothèques et leur mise en relation avec des données provenant d’autres univers professionnels ? Ce sont ces questions auxquelles ce manuel tente d’apporter une réponse.

La principale qualité de cet ouvrage est son accessibilité et sa simplicité. Tout en leur faisant un sort avec concision et précision, il ne s’appesantit pas sur les aspects techniques, abondamment couverts par d’autres ouvrages davantage destinés à des chercheurs ou des informaticiens 2 : comme les autres livres de la collection « Bibliothèques », il s’adresse explicitement au « métier » (bibliothécaires, archivistes, documentalistes, musées). La très grande concision de ce manuel (160 pages) est un atout majeur pour permettre une appropriation rapide de son contenu.

L’ouvrage se structure en deux parties. La première partie articule les problématiques du web sémantique avec celles des bibliothèques. Tout en gardant les bibliothèques dans son centre de gravité, l’ouvrage élargit la réflexion aux autres institutions culturelles telles que les services d’archives et les musées.

On y explique en termes limpides en quoi le web sémantique est une étape naturelle d’une nouvelle mutation des données de bibliothèques (notices catalographiques et d’autorité notamment) en les mettant non plus uniquement sur le web (sous la forme d’un catalogue en ligne ou d’un portail web), mais bien dans le web : avoir des données disponibles en ligne, possédant un identifiant permettant de les citer (URI), qui soient accessibles aux moteurs de recherche et aux réutilisateurs, exprimées selon des standards du web qui, par définition, ne sont plus spécifiques aux bibliothèques. Une large part y est faite à des aspects moins techniques qu’on peut facilement oublier. On insiste notamment sur l’ouverture juridique des données ou tout au moins la clarification des conditions de leur réutilisation comme préalable nécessaire à tout projet d’exposition des données sur le web. De par la clarté de ses explications, cette première partie peut servir de boîte à outils pour convaincre des décideurs d’allouer des ressources à ce type de projet, en lui donnant le visage concret et parlant qui lui manque encore souvent.

Tout en démontrant le caractère nouveau et disruptif du web de données, l’ouvrage les présente avant tout comme une évolution naturelle des données de bibliothèque, qui partagent avec le web de données un ensemble de problématiques : le besoin de données structurées, bien comprises depuis l’adoption du format MARC ; les identifiants stables pour identifier les données, qui existent déjà en large part pour les notices catalographiques et les documents numériques ; la cohérence des données, qui sont souvent au cœur des problématiques couvertes par les normes de catalogage ; la définition d’une sémantique dans les données, qui a émergé dans les années 2000 avec la définition et la propagation du modèle FRBR (Functional Requirements for Bibliographic Records).

Cette partie constitue en définitive une présentation théorique du web sémantique, présenté comme une résultante possible de la convergence entre les données des bibliothèques et le web. Il nous donne une définition du web sémantique et du web de données que l’on peut reproduire ici : « Le web sémantique est un ensemble de technologies développées par le W3C en vue de mettre en œuvre une vision : celle du web de données, un réseau où les données structurées qui se trouvent actuellement isolées dans des bases de données pourraient être exprimées sous une forme permettant aux machines de les interpréter et de construire de nouvelles applications et de nouveaux services. Pour cela, les données doivent être partagées dans un espace commun (le web) et reliées en utilisant des identifiants fiables et uniques » (p. 27).

La seconde partie apporte une vraie plus-value sur une question qui apparaît souvent trop abstraite ou technique à nombre de professionnels par manque d’exemples concrets. On y aborde des cas pratiques abondamment illustrés d’application des technologies du web sémantique à des données en bibliothèque : publier des données, enrichir des pages web existantes, agréger et réutiliser des données extérieures à celles produites par l’organisation, et lier entre elles des données dispersées au sein même de l’institution.

L’intérêt est de montrer différentes approches non exclusives, mais partant de quatre besoins qui parleront différemment aux lecteurs en fonction des données dont leur institution a la charge et de leur stratégie :

A. Publier des données

S’adresse principalement à des institutions qui ont des données et/ou des contenus qui leur sont spécifiques, afin de les publier en ligne. L’approche très progressive de cette partie permet de comprendre étape par étape, avec des exemples de complexité croissante, la manière d’exprimer des données selon le formalisme RDF, et la possibilité de les relier à d’autres données du web, décrivant des sujets proches dans une base de données extérieure.

B. Enrichir des pages web

S’adresse à toute institution qui publie des pages web portant sur des contenus culturels. Il s’agit ici d’inclure des informations structurées au niveau des pages web existantes afin d’optimiser leur référencement par les moteurs de recherche.

C. Agréger et réutiliser des données

S’adresse à des institutions qui souhaitent améliorer leurs propres données avec d’autres données provenant de sources jugées fiables, ou à toute institution qui n’a pas forcément de données spécifiques, mais qui souhaite construire des services innovants à partir de données externes disponibles et librement réutilisables. Cette partie propose une introduction à la manipulation de données avec les technologies du web sémantique (notamment le standard d’interrogation SPARQL).

D. Lier les données internes avec le LED (Linked Enterprise Data)

S’adresse à des institutions souhaitant utiliser les technologies du web de données en interne, pour faire communiquer les différentes applications de leur système d’information (catalogues, bibliothèque numérique, acquisitions de documentation électronique, site web institutionnel, documentation interne, environnement numérique de travail…). Cette partie présente les stratégies de rationalisation courantes utilisées dans les systèmes d’information actuels, en en démontrant les limites et l’apport des technologies du web sémantique pour y répondre en partie. Le lien avec les autres cas d’utilisation y est explicitement fait : le plus souvent, les données des différentes briques du SI ne sont pas nativement exprimées en RDF, ce qui nécessite de mettre en place un processus de publication (cas A) ; l’adoption de ce type de technologie facilite une future exposition web des données, le cas échéant ; enfin, elles permettent de construire de manière légère de nouvelles applications qui agrègent des données actuellement dispersées dans plusieurs bases du SI (cas C), et de rationaliser la production de données avec une promesse de diminution des coûts de production à court terme.

Cet ouvrage fonctionne donc comme une bible sur le web de données à destination des institutions culturelles. Il replace ces technologies dans le contexte de l’informatisation des catalogues, démarrée il y a bien longtemps, en en démontrant les atouts ; il démystifie en large partie les questions autour du web sémantique, qu’on envisage trop souvent sous un angle technique, en montrant que les choix cruciaux sont avant tout des choix documentaires ou stratégiques, à effectuer par le métier : choix d’identifiants ; définition des éléments à décrire ; établissement de passerelles entre différentes bases, dans et hors de l’institution. Ce manuel donne à des acteurs opérationnels de quoi comprendre le fonctionnement concret des données dans ce nouvel environnement, tout en donnant des éléments de langage à des coordinateurs pour expliquer les enjeux de telles évolutions à leurs décideurs. Il n’occulte pas les questionnements que pose encore une technologie d’adoption relativement récente : processus de mise à jour des données, industrialisation de la publication.

On aurait aimé avoir plus de détails sur la question de l’ouverture juridique des données, qui est une question cruciale et souvent assez délicate et doit être pensée le plus en amont possible d’un projet d’ouverture des données sur le web ; toutefois, cela aurait un peu déséquilibré l’ouvrage, qui renvoie d’ailleurs au Guide data culture qui a déjà effectué ce travail.

On pourrait reprocher la description relativement succincte des différents jeux de données disponibles sur le web de données ; toutefois, cela aurait eu le double désavantage d’alourdir l’ouvrage, de disperser son propos et de le rendre plus rapidement obsolète. Les informations sont à jour sur les différents sites web concernés.

Une bibliographie permettra enfin d’aller plus loin pour ceux qui souhaitent approfondir le contenu déjà extrêmement riche de cet ouvrage. Les implications du web de données sont si variées qu’il est recommandé de revenir à plusieurs fois sur certaines parties (notamment introductives) pour bien saisir les enjeux.

En conclusion, cet ouvrage démontre le tournant que le web de données promet aux institutions culturelles : celui d’être une part active et reconnue du web, non plus uniquement par les pages web mais aussi par les données structurées qu’elles peuvent publier ; et, au-delà d’une visibilité accrue, une promesse d’optimisation de la production de données à plus long terme. Espérons que cet ouvrage permette à ses lecteurs de se convaincre, et de convaincre à leur tour, de l’opportunité à saisir.