Calames, et après ?
Un catalogue de manuscrits, quatre leçons et mille mashups
L’auteur de cet article s’appuie sur l’expérience de Calames, catalogue en ligne des archives et des manuscrits de l’enseignement supérieur, pour dégager des pistes pour le développement de catalogues analogues : indexation et affichage adaptés aux moteurs de recherche, interface de recherche et de consultation à la fois riche et simple d’utilisation, etc. Il propose un modèle de « mashup patrimonial » permettant d’agréger des données dispersées grâce à des catalogues repensés pour favoriser l’interopérabilité et permettre l’exploitation de leurs données par d’autres sites.
Yann Nicolas takes the experience of Calames, the on-line catalogue of university archive and manuscript holdings, as a starting point to look at the possibility of developing similar services, exploring methods of indexing and posting results compatible with search engines, designing a search and display interface that is both rich in informational content and simple to use, and so on. The author puts forward a model of heritage mashups which make it possible to combine data from a number of sources by using catalogues designed to promote interoperability and facilitate the access of other sites to their data.
Der Autor dieses Artikels stützt sich auf die Erfahrung von Calames, Onlinekatalog der Archive und der Handschriften des Hochschulwesens, um den Weg für die Entwicklung analoger Kataloge frei zu machen: an die Suchmaschinen angepasste Indexierung und Anzeige, umfangreiche und gleichzeitig in der Benutzung einfache Such- und Benutzeroberfläche, etc. Er schlägt ein „mashup patrimonial“-Modell vor, das dank überdachter Kataloge die Zusammenfügung verteilter Daten ermöglicht, um die Interoperabilität zu fördern und die Auswertung ihrer Daten von anderen Webseiten aus zu ermöglichen.
El autor de este artículo se apoya en la experiencia de Calames, catálogo en línea de los archivos y de los manuscritos de la enseñanza superior, para despejar pistas para el desarrollo de catálogos análogos : indización y afichaje adaptados a los motores de búsqueda, interfaz de búsqueda y de consulta a la vez rica y simple de utilización, etc. El autor propone un modelo de “mashup patrimonial” que permite agregar datos dispersados gracias a catálogos repensados para favorecer la interoperabilidad y permitir la explotación de sus datos por otros sites.
Calames 1 est le catalogue en ligne des archives et des manuscrits de l’enseignement supérieur. Il a été conçu et développé par l’Abes en collaboration étroite avec un groupe d’experts 2. Il recense aujourd’hui les collections d’une quarantaine d’institutions. C’est un catalogue collectif vivant qui continuera de s’enrichir de nouvelles bibliothèques, de nouvelles notices 3 et de nouvelles fonctionnalités.
Le cœur des données de Calames provient de la numérisation en EAD 4 du CGM, Catalogue général des manuscrits des bibliothèques publiques de France 5. Calames, c’est donc l’histoire d’une série de catalogues imprimés qui passe du papier au numérique (océrisation), puis du numérique aux métadonnées (structuration fine en EAD), puis des métadonnées au web (mise en ligne de Calames en décembre 2007). Cet article ne vise pas à retracer l’histoire de cette numérisation, ni à décrire en détail les fonctionnalités de Calames 6. Il s’efforce plutôt de tirer quelques leçons de l’expérience Calames et de suggérer quelques pistes pour demain, pour Calames et d’autres catalogues analogues. Calames n’est qu’une pièce de ce puzzle qu’est le web patrimonial.
Leçon 1. Une notice de catalogue, ça ne se cherche pas, ça se trouve
On le sait désormais, le web est devenu un marché de l’attention, sur lequel une infinité de contenus se disputent une quantité finie d’attention. Les moteurs de recherche sont désormais les places de marché incontournables où se rencontrent les sites et les lecteurs. Google en est la principale. Calames se devait d’y être présent.
Mais que signifie « être présent dans Google ? ». Il ne suffit pas que le site Calames en tant que tel apparaisse dans la liste des résultats d’une requête comme « catalogue manuscrits ». Il faut aller plus loin : une requête comme « mazarine ms 364 » ou encore « Livre de prières de l’abbaye du Mont-Cassin » affiche un lien qui pointe directement vers la notice de Calames décrivant ce manuscrit, et ce dans les dix premiers résultats. D’une certaine manière, Google devient l’inter-face de recherche rapide de Calames (figure 1).
Mais il ne suffit pas de figurer dans la liste de Google, même dans les dix premiers résultats. Il faut encore que Google affiche les informations pertinentes, qui décident l’internaute à cliquer sur le lien qui mène à Calames – ou à ne pas cliquer. En effet, une (trop) bonne indexation dans Google peut aussi être source de spam pour certains utilisateurs. Pensons (exemple attesté !) au malheureux fétichiste qui, après avoir saisi « grosse sein », voit s’afficher le ms 2 900 de la BNU, intitulé « Das grosse Sein. » Sténographié 7. Pour éviter ces déconvenues, il faudrait qu’on puisse maîtriser la manière dont s’affichent dans un moteur de recherche les liens vers Calames. C’est ce que Yahoo vient de proposer, sous le nom de SearchMonkey 8. Yahoo nous permet désormais d’enrichir en métadonnées de qualité les pages que ce moteur de recherche exploite et d’utiliser ces métadonnées pour améliorer l’affichage des notices Calames dans sa liste de résultats figures 2 et 3).
On l’a vu, les moteurs de recherche ne sont pas loin de faire office d’interfaces de recherche rapide dans Calames. Avec SearchMonkey de Yahoo, le moteur s’occupe aussi de l’affichage court des résultats. Demain, pour peu qu’ils aient accès aux métadonnées, les moteurs permettront aussi d’effectuer une recherche avancée. Ce qu’il restera, peut-être, aux catalogues, c’est l’affichage détaillé d’une notice et surtout le mode de navigation dans le corpus de métadonnées.
Leçon 2. Un catalogue de bibliothèques n’est pas si différent d’un catalogue de chaussures
Le défi d’aujourd’hui pour un catalogue émanant du monde des bibliothèques est de proposer une interface de recherche et de consultation qui trouve le bon compromis entre la richesse des fonctionnalités et des contenus, d’une part, et la simplicité d’utilisation d’un moteur de recherche, d’autre part.
D’un côté, un site comme Calames doit proposer aux chercheurs des fonctionnalités avancées efficaces qui soient à la hauteur de tout l’investissement qui a été mis dans le catalogage, c’est-à-dire dans la structuration fine de l’information.
D’un autre côté, il faut veiller à ne pas décourager le lecteur en lui imposant une interface dont la complexité ne serait que le reflet mécanique et souvent stérile de la complexité des données elles-mêmes.
Comment approcher un tel compromis ? Bien avant les catalogues patrimoniaux, il existe d’autres sites qui sont à la recherche de modes de recherche et de consultation assez fins et efficaces pour satisfaire l’internaute aux habitudes et aux exigences alignées sur sa pratique de Google. Il s’agit des catalogues commerciaux, des sites de vente. Même s’ils ne relèvent ni du même registre ni de la même stratégie que les catalogues de bibliothèques, certains de ces sites commerciaux sont des sources d’inspiration majeures, tant sur le plan de l’ergonomie que sur le plan de l’exploitation avancée des données disponibles. Ceci ne vaut pas seulement pour les sites du secteur culturel marchand, comme Amazon, mais bien au-delà, quelle que soit la nature des articles. Ainsi, le site Endless a pu servir de référence pour le développement de l’inter-face de Calames. Ce site de vente de chaussures est une des plus belles bibliothèques numériques qui soit. Ironie de l’histoire : nous avons découvert en chemin que ce site était une filiale de… Amazon.
Une des fonctionnalités qu’on a vue migrer du web commercial vers le web patrimonial est la « recherche à facettes ». Il s’agit d’un mode de recherche qui permet de réduire progressivement la liste des résultats, en apposant des filtres successifs à partir d’une recherche initiale très générale. Ainsi, dans Calames, le lecteur peut commencer par une recherche large sur « Lyon », obtenir des centaines de résultats, puis restreindre ce nombre en utilisant la facette Bibliothèque, puis la facette Langue, puis la facette Propriétaire précédent. À chaque étape, il est sûr d’obtenir au moins un résultat. C’est une manière efficace d’exploiter les index spécialisés de la recherche avancée, systématiquement délaissée par les utilisateurs (figure 4).
Désormais, les bibliothèques ne sont plus un continent à part sur le web. Leurs technologies, leurs formats de données, et surtout leurs utilisateurs sont les mêmes que ceux de n’importe quel site commercial ou grand public. Mais le web ordinaire ne se limite pas à l’expérience minimaliste de Google ni au bric-à-brac stroboscopique des grandes surfaces virtuelles. Le web marchand (Amazon, Endless, iTunes d’Apple) et le web co-opératif (Flickr, Delicious, GovTrack. us) regorgent de solutions créatives et diversifiées aux défis du web patrimonial. Pour valoriser et diffuser leur contenu original, les catalogues doivent se banaliser.
Leçon 3. Un catalogue est une base de connaissance, par nature incomplète et faillible
Comme tout autre catalogue, Calames contient des erreurs, c’est-à-dire des affirmations fausses. En creux, ce truisme nous rappelle qu’un catalogue est une base de connaissance(s), au moins au sens ordinaire du terme : une collection d’affirmations qui prétendent être vraies. On raisonne trop souvent en termes de notices, ces paquets de données qu’on s’échange entre bibliothèques, qu’on charge dans nos systèmes, qu’on affiche aux utilisateurs. Au contraire, il faudra de plus en plus arracher la ficelle et l’enveloppe qui font tenir ensemble les données de la notice, et raisonner au niveau plus élémentaire de chaque affirmation de base :
Ce manuscrit a pour titre « xxx »
Ce manuscrit a pour auteur YYY
YYY a pour nom « Blaise Pascal »
…
Cette façon de penser nos données 9 explicite le sujet de nos catalogues : de quoi parlent-ils ? Quel est le sujet de ces petites phrases ? Une fois qu’on a répondu à cette question, il devient évident que nos catalogues n’ont pas le monopole du discours sur les objets qu’ils décrivent : Calames n’est pas le seul à parler de tel manuscrit, de telle personne, de telle famille, de tel sujet. D’autres catalogues, d’autres sites, des ouvrages, des encyclopédies, des annuaires, des anthologies… parlent des mêmes choses, et ce, de manière complémentaire ou redondante, parfois contradictoire.
Désormais, la mission d’un catalogue comme Calames n’est plus de présenter son propre corpus de données sur un mode autarcique. Il doit s’ouvrir aux compléments d’information diffusés par d’autres sources fiables disponibles sur le web. Pour Calames, dans un premier cercle, il s’agit de se connecter étroitement aux informations complémentaires présentes dans le catalogue Sudoc 10, grâce au mécanisme des autorités 11. Pour le lecteur, il peut être précieux de savoir immédiatement que l’auteur de tel manuscrit est aussi l’auteur de telle monographie ou le sujet de telle thèse. Au-delà du Sudoc, Calames devrait pouvoir « se brancher » sur les bases d’articles (HAL, Persée, Revues.org 12) ou les ressources pédagogiques (cours en ligne).
Le chantier est encore long qui permettra cette vraie interopérabilité, qui va à la racine de l’information, au lieu d’en rester au niveau de l’échange de notices ou de simples hyperliens. C’est dans cette perspective d’une connaissance partagée et distribuée sur les manuscrits ou les œuvres que les fonctionnalités web 2.0 prennent sens. Si Calames doit très bientôt offrir à ses lecteurs la possibilité d’annoter les notices de manuscrits, c’est bien pour faire remonter à la surface du web certaines connaissances sur ces mêmes manuscrits, émanant de chercheurs ou d’autres institutions patrimoniales. Mais ces connaissances ne doivent pas rester enfouies dans Calames. D’autres sources doivent pouvoir réutiliser les notices et les annotations savantes de Calames, dans un autre contexte. Cela suppose de mettre en place de nouvelles solutions techniques, qu’il n’est hélas pas possible d’expliquer ni même de résumer ici.
Leçon 4. Un catalogue est aussi un annuaire inversé
Truisme suivant : un catalogue de manuscrits parle de manuscrits. Ce n’est pas faux, mais c’est incomplet. Calames parle également, entre autres entités, de personnes physiques, de collectivités ou de familles. Quand Calames affirme que :
« Le ms 594 du Château de Chantilly
a-pour-auteur
Arnaud Vidal de Castelnaudary »,
il dit aussi bien que :
« Arnaud Vidal de Castelnaudary
est-auteur-de
Le ms 594 du Château de Chantilly ».
Sous un certain point de vue, Calames est autant un catalogue de personnes qu’un catalogue de manuscrits. Certes, le point de vue des bibliothèques est légitimement centré sur les documents. Selon cette perspective, on ne mentionne la personne qu’à titre de propriété du document. Mais le point de vue inverse est tout aussi justifié : le manuscrit est un épiphénomène de la personne. Actuellement, en tant que catalogue de bibliothèques, Calames privilégie l’accès par la cote et l’organisation hiérarchique des fonds. On pourrait imaginer un Calames inversé où l’index personæ serait mis en avant, avec possibilité de naviguer d’une personne aux personnes associées.
Les catalogues de documents contiennent de précieuses informations sur les personnes, qu’il serait souvent facile et utile d’expliciter, d’extraire et de publier à destination des chercheurs. Prenons un exemple simple. La notice en figure 5 établit implicitement une relation entre deux personnes :
Claude de Sainte-Marthe
a-écrit-à
Hardouin de Beaumont de Péréfixe,
ce qui implique trivialement que :
Claude de Sainte-Marthe
a-connu
Hardouin de Beaumont de Péréfixe
et que :
Hardouin de Beaumont de Péréfixe
a-connu
Claude de Sainte-Marthe.
Ces petites vérités sont des évidences pour le lecteur du catalogue, mais, aujourd’hui, elles ne sont pas exploitables aisément par des programmes. Il pourrait être utile de constituer une base de connaissance interrogeable qui agrège toutes ces petites informations élémentaires extraites de nombreux catalogues du web patrimonial. Chaque catalogue est un Who’s who qui s’ignore, ou plutôt un Who knew whom en puissance 13.
Patrimoine, puzzle, mashup
Le patrimoine documentaire est dispersé entre des centaines d’institutions de conservation. Chaque catalogue est une pièce de cet immense puzzle documentaire formé par l’histoire. Créer une interface de recherche fédérée sur les différents catalogues n’est pas la solution : un méta-catalogue ne fait que juxtaposer. Ce n’est pas en rassemblant toutes les pièces dans une grande boîte et en secouant le tout avec énergie et conviction qu’on reconstitue le puzzle. Le modèle à suivre est plutôt celui du mashup, patchwork numérique de différents corpus d’information accessibles en ligne. HousingMaps 14, par exemple, connecte un site d’annonces immobilières avec Google Maps. Dans le domaine des manuscrits, le projet de bibliothèque virtuelle de Clairvaux 15 a l’ambition de reconstituer en ligne la collection de la bibliothèque virtuelle de Clairvaux, aujourd’hui dispersée entre différentes institutions, dont certaines bibliothèques de Clairvaux. Un tel projet serait le candidat idéal pour un mashup patrimonial, à condition que cette reconstitution résulte de l’agrégation dynamique de données dispersées et non de la création d’une nouvelle base ad hoc.
Ainsi, c’est dans cet esprit du mashup que Calames et la base d’enluminures Liber Floridus 16 ont été connectées : c’est en temps réel que Calames va chercher dans Liber Floridus les images correspondant à ses notices.
Le catalogue en miettes
Pour que les chercheurs, les éditeurs et les institutions patrimoniales aient une chance de reconstituer ces puzzles documentaires, il faut que chaque catalogue s’assume comme base de connaissance. Qu’on fasse l’inventaire de toutes les entités dont parle un catalogue (collections, documents, personnes physiques, collectivités, concepts/sujets…). Qu’on baptise ces entités de façon à ce que n’importe quel autre site du web puisse les identifier, les nommer et ainsi partager à son tour les connaissances qu’il possède sur ces mêmes manuscrits, ces mêmes objets…
Dans l’environnement du web, ces noms propres prennent la forme d’URL (http://www.calames.abes.fr/pub/ms/res/MAZA10697). Mais, les cotes de manuscrits traditionnelles remplissent très bien leur fonction de nom propre global : Paris, Bibliothèque Mazarine, MS. 364. Il faut ensuite que chaque catalogue expose ses données de façon à ce qu’une autre application puisse les exploiter dans ses propres programmes. C’est la notion d’API 17 ou de web services. Par exemple, idéalement, une URL comme http://www.calames.abes.fr/pub/mazarine/res/364 devrait donner la description du manuscrit sous une forme exploitable par d’autres sites. Ce n’est pas le cas aujourd’hui dans Calames ni dans d’autres catalogues. Par contre, l’URL http//www.calames.abes.fr/prod/EadSearch.aspx?Query=Rech&histoire=fonds%20de%20clairvaux renvoie en XML toutes les notices de manuscrits provenant de Clairvaux – de quoi alimenter un beau mashup patrimonial sur Clairvaux. Enfin, pour favoriser l’interopérabilité, il faut désacraliser la notion de notice, l’éclater en une collection de petites vérités élémentaires dont nous avons donné des exemples plus haut. En d’autres termes, certes allusifs, on passe des blocs d’information XML aux assertions en RDF qui constituent les atomes du web sémantique.
Le document et ses collections
Le catalogue patrimonial fait l’inventaire d’une collection bien -spécifique, la collection d’une institution de conservation (ou de plusieurs, dans le cas d’un catalogue collectif comme Calames). Pourtant, les pièces de cette collection appartiennent aussi à d’autres collections, moins tangibles 18. Comme l’exemple de la bibliothèque virtuelle de Clairvaux le suggère, des documents physiquement dispersés peuvent être réunis virtuellement dans une collection numérique permanente. Mais, là encore, il s’agit de restaurer l’unité d’une bibliothèque physique, celle de l’abbaye de Clairvaux… en 1472. Or, le rapprochement de documents peut s’appuyer sur une infinité de critères, et pas seulement sur l’unité du lieu de production ou de conservation. Il existe des bibliothèques virtuelles qui rassemblent les documents d’un même auteur, d’une même école, d’un même sujet, d’une même époque, d’une même région… Aujourd’hui, la construction de ces bibliothèques virtuelles demande beaucoup d’efforts et, de ce fait, est menée par les institutions mêmes qui possèdent les documents. Or, il devrait être (presque) aussi simple de réaliser un mashup que de produire une bibliographie. Une bibliographie agrège des références dans un document ; un mashup patrimonial agrège des métadonnées, des textes et des images dans un nouveau site web.
Un catalogue patrimonial ne doit plus être seulement une interface de recherche et de consultation. Il doit devenir un vivier documentaire dans lequel un chercheur pourra venir puiser pour constituer et diffuser sa propre collection, son propre catalogue, sa propre bibliothèque numérique 19.
Septembre 2008