Le catalogue général des manuscrits des bibliothèques publiques de France : informatisation et avenir
Cet article présente les différentes étapes de l’informatisation, au format XML/EAD, du Catalogue général des manuscrits des bibliothèques publiques de France, qui s’est achevée en avril 2008 : études préliminaires, cahier des charges, numérisation, traitement des index et notices, encodage, hébergement des résultats. Consultables selon leur nature dans trois catalogues distincts, Calames, BnF archives et manuscrits et le Catalogue collectif des manuscrits de France (encadré sur l’interface Manuscrits du CCFr), les fichiers EAD doivent à présent être exploités, mis à jour et enrichis, en respectant la cohérence et l’interopérabilité (encadré sur l’EAD dans les bibliothèques françaises en 2008).
This article presents the various steps of the process to produce a general XML-EAD catalogue of manuscript holdings in French public libraries, completed in April 2008. The process included preliminary studies, drawing up specifications, digitisation, producing an index and entries, encoding, and building a host for the catalogue. Depending on the type, the EAD files can be accessed at three separate sites –Calames, the BnF archives and manuscripts catalogue, and the collective catalogue of French manuscript holdings (see the text box on the CCFr Manuscripts interface). The EAD files are now ready for use, updating, and improvement, bearing in mind the need for coherence and interoperability (see the text box on EAD in French libraries in 2008).
Dieser Artikel stellt die verschiedenen Phasen der Computerisierung des Generalkatalogs der Handschriften der Öffentlichen Bibliotheken in Frankreich im XML/EAD-Format vor, die im April 2008 beendet wurde: vorbereitende Studien, Pflichtenheft, Digitalisierung, Bearbeitung der Register und Aufnahmen, Verschlüsselung, Unterbringung der Ergebnisse. Je nach ihrer Art in drei verschiedenen Katalogen, Calames, Bnf archives et manuscrits und dem Catalogue collectif des manuscrits de France (Schaukasten zur Benutzeroberfläche Manuscrits des CCFr), zugänglich, sollen die EAD-Dateien jetzt ausgewertet, aktualisiert und angereichert werden, indem der Zusammenhang und die Interoperabilität respektiert werden (Schaukasten über EAD in den französischen Bibliotheken im Jahr 2008).
Este artículo presenta las diferentes etapas de la informatización, en el formato XML/EAD, del Catálogo general de los manuscritos de las bibliotecas públicas de Francia, que se acabó en abril 2008: estudios preliminares, pliegos de exigencias, digitalización, tratamiento de los índices y reseñas, encodificación, alojamiento de los resultados. Consultables según su naturaleza en tres catálogos distintos, Calames, BnF archivos y manuscritos y la catalogación colectiva de los manuscritos de Francia (recuadro sobre la interfaz Manuscritos del CCFr), los ficheros EAD deben en el presente ser explotados, puestos al día y enriquecidos, respetando la coherencia y la interoperatibilidad (recuadro sobre el EAD en las bibliotecas francesas en 2008)
Avec l’informatisation au format XML/EAD 1 du Catalogue général des manuscrits des bibliothèques publiques de France (CGM) s’est achevée en avril 2008 la plus importante conversion rétrospective d’un catalogue collectif imprimé. Les données en résultant sont désormais consultables sur internet et leurs exploitation, correction et enrichissement représentent maintenant un défi tout aussi grand que celui de leur création.
Dans un article du BBF de 2003 2, Fabien Plazannet (Direction du livre et de la lecture) avait exposé tout l’intérêt de ce projet d’informatisation et les raisons qui ont abouti au choix de l’EAD. L’objectif était d’améliorer la visibilité des collections de manuscrits par la mise en ligne des notices descriptives, ainsi que de relancer la dynamique de signalement en permettant les mises à jour et ajouts à l’issue du projet. Le CGM représentait alors un ensemble important de 106 tomes en 116 volumes (soit 72 000 pages, 182 000 notices et environ 917 000 entrées d’index) couvrant les collections de manuscrits de 519 établissements, dont 42 appartenant au réseau de l’Enseignement supérieur. La Sous-direction des bibliothèques et de la documentation ayant décidé de participer au projet, un comité de pilotage composé de représentants des deux ministères, de la Bibliothèque nationale de France (BnF) et de l’Agence bibliographique de l’enseignement supérieur (Abes) a été créé au début de l’année 2002.
Études préliminaires
Au printemps de la même année, ce comité a validé le choix du format EAD préconisé par le cabinet DoXulting, mandaté pour étudier le format de structuration de données le plus approprié. L’EAD, qui jusqu’alors avait uniquement fait l’objet d’expérimentations dans les bibliothèques françaises, avait le double avantage de pouvoir s’adapter à la diversité des notices du CGM 3, en particulier celles dont la description s’étendait sur de multiples niveaux hiérarchiques, et de garantir l’interopérabilité propre aux formats XML 4. Afin d’examiner l’application de l’EAD aux notices du CGM et surtout le degré d’automatisation du balisage, le comité de pilotage a alors fait réaliser deux tests d’encodage différents par les sociétés Jouve et AIS. Puis, les données créées ont été mises en ligne pendant une courte durée sur deux prototypes d’interface de publication conçus spécifiquement pour le projet par les sociétés Software AG et Xyleme.
La DLL souhaitait que le futur CGM informatisé fût accessible via le Catalogue collectif de France (administré par le département de la Co-opération de la BnF) et formât la base d’un futur catalogue national de manuscrits. Les notices en EAD seraient fournies aux établissements conservant les manuscrits afin qu’elles puissent être corrigées et que de nouvelles notices décrivant les manuscrits acquis depuis la publication des derniers suppléments imprimés puissent être ajoutées. Cet ancrage dans le CCFr et les expérimentations menées avec l’EAD au département des Manuscrits expliquent que la réalisation du projet ait été confiée à la BnF (département de la Coopération) en 2003.
Cahier des charges
En 2004, le chef de projet 5 a rédigé un cahier des charges complexe, avec l’aide du groupe de projet 6. Peu de prestataires ayant alors l’expérience à la fois de la numérisation et de l’encodage en EAD, il a été décidé de diviser le marché en deux lots : rendu en mode texte (numérisation et océrisation) d’une part, et encodage de l’autre. L’encodage a lui-même été divisé en deux sous-lots correspondant d’un côté aux notices des établissements de l’Enseignement supérieur, et de l’autre à toutes les autres notices, dont la conversion était financée par le ministère de la Culture. Cette division était induite par des contextes institutionnels et des objectifs différents : 93 % des notices de l’Enseignement supérieur correspondaient à six établissements 7 dont les conservateurs étaient prêts à participer au travail de relecture sous l’égide de l’Abes, et à procéder à des corrections poussées afin d’aboutir à un encodage plus fin. Pour le sous-lot Culture, en revanche, il était inconcevable d’impliquer plusieurs centaines d’établissements ; le traitement des données a donc été assuré par le chef de projet assisté d’un conservateur et d’un vacataire 8.
Numérisation
La numérisation des volumes imprimés, dont le marché avait été attribué à la société AIS 9, a démarré en janvier 2005. Le cahier des charges se montrait exigeant tant sur la qualité du rendu de l’océrisation (99,95 %) que sur la structuration des données. Habituellement, les logiciels de reconnaissance optique de caractères produisent un flux XML non mis en forme. Or, il était important ici que la page océrisée conserve le format de la page imprimée, d’une part pour faciliter la relecture en regard du volume originel, d’autre part surtout pour garder les informations de pagination et lier la notice aux entrées d’index qui y renvoyaient en fin de volume.
Les caractères latins, grecs et arabes devaient être rendus en Unicode, mais, à la suite des difficultés rencontrées par le prestataire pour traiter l’arabe classique, il a été décidé d’accepter que, comme les autres alphabets (copte, hébreu, etc.) et les éléments figuratifs, l’arabe soit rendu en mode image. Le contrôle de l’océrisation a été effectué à hauteur de 5 % des pages numérisées, grâce à la participation de tous les membres du groupe de projet.
Traitement des index et notices
La phase de traitement des données et d’encodage en EAD a débuté en novembre 2005 par plusieurs réunions d’instruction avec la société ArchProteus 10, titulaire de ce lot. Le cahier des charges avait prévu que la vérification des données avant encodage se ferait dans le logiciel Word, avec lequel chacun était familier. Après l’intégration des errata et addenda à l’intérieur des notices par le chef de projet, le prestataire a procédé au découpage des entrées d’index 11, qui étaient généralement structurées à deux niveaux (une entrée principale et plusieurs entrées secondaires). La restitution de chaque couple entrée principale/entrée secondaire a impliqué une relecture minutieuse imprévue, car la structure de l’entrée principale rendait parfois son articulation avec certaines entrées secondaires peu pertinente. Les correcteurs ont tiré profit de cette nécessaire étape supplémentaire pour caractériser les entrées en nom de personne, nom de famille, nom de collectivité, sujet, titre, etc., selon la nomenclature d’indexation de l’EAD.
Pour les notices, ArchProteus a d’abord identifié, grâce au format et à certains mots, les futurs éléments EAD dans la notice océrisée, puis a découpé ces éléments et les a exportés vers une base de données en leur donnant une structuration logique. Ensuite, un nouvel export vers un fichier Word a produit un tableau modifiable dans lequel les correcteurs ont pu procéder à des modifications de structure ou de balisage, des ajouts et des déplacements d’informations. On a, entre autres, précisé la langue des documents et réintégré manuellement toutes les entrées d’index que le prestataire, malgré plusieurs séries de recherches dans les notices, n’avait pu replacer dans un paragraphe précis.
Du côté de l’Enseignement supérieur, on a éventuellement précisé un rôle pour les balises de noms de personnes et de collectivités (auteur, copiste, ancien possesseur, etc.), travail qui n’a malheureusement pu être effectué que de manière très partielle pour le sous-lot Culture. L’utilisation de Word plutôt que d’une base de données, d’un tableur ou même d’un éditeur XML, a permis des extractions automatiques pour des vérifications globales de cohérence, ainsi que des modifications semi-automatiques par macros. Pour les institutions Culture, cela a permis de revoir les index et de corriger les notices d’une manière beaucoup plus détaillée que ce qui avait initialement été envisagé.
Encodage
À l’issue de la vérification, les tableaux corrigés ont été reversés dans la base de données, puis encodés automatiquement en XML selon des spécifications prédéfinies : la structure et le contenu des notices originelles, ainsi que le travail de correction entrepris, ont conduit à opter pour l’utilisation de 66 des 146 éléments de l’EAD et à définir les valeurs possibles de certains attributs essentiels 12. Certains choix et compromis peuvent paraître s’éloigner quelque peu de l’orthodoxie de l’EAD 13. Ils ont été dictés par les impératifs d’une conversion massive dans un temps limité. Une correction notice par notice et un encodage plus fin étaient inenvisageables et devaient être laissés pour une révision ultérieure 14.
Résultat
La structure EAD créée (fonds, série, groupe de notices, notice et divisions internes) colle au plus près aux catalogues imprimés 15. Toutefois, puisque les fichiers XML devaient être redistribués aux institutions conservant les manuscrits, on a éclaté les volumes contenant les descriptions de plusieurs bibliothèques afin de n’obtenir qu’une institution par fichier. Par ailleurs, pour une institution donnée, on a parfois obtenu plusieurs fichiers, correspondant par exemple à un catalogue principal et des suppléments 16. En termes de volumétrie, le projet a produit 762 fichiers pour la Culture (340 Mo de données) et 69 fichiers pour l’Enseignement supérieur (68 Mo de données).
Ces fichiers sont maintenant hébergés et consultables en trois endroits distincts : ceux de l’Enseignement supérieur dans Calames 17, ceux de la bibliothèque de l’Arsenal dans BnF archives et manuscrits 18, et les autres dans le Catalogue collectif de France, qui devra bientôt donner accès à l’ensemble par une interrogation distante (voir encadré).
L’interface Manuscrits du Catalogue collectif de France
Depuis mars 2008, le Catalogue collectif de France dispose d’une interface de recherche dédiée aux manuscrits * développée, comme l’ensemble du portail CCFr, par la société Ever. À la date de rédaction de cet article, seuls les fichiers des institutions hors Enseignement supérieur issus de la conversion de Palme (Répertoire des manuscrits littéraires français du XXe siècle) et du CGM sont consultables, mais, à terme, le CCFr permettra également l’interrogation de Calames et de BnF archives et manuscrits, ce qui représentera un catalogue collectif de plus de 800 institutions et environ 600 000 notices, et en fera l’un des plus importants catalogues informatisés de manuscrits en Europe. L’interface de recherche exploite l’encodage en EAD et comporte des critères propres aux documents manuscrits ou d’archives. L’affichage des notices s’effectue avec un écran en deux parties : à gauche la structure du fichier XML qui reflète celle de la collection de documents et à droite la notice détaillée du manuscrit avec affichage complet des données descriptives de tous les niveaux supérieurs. Un lien pointe vers la notice de l’institution de conservation dans le Répertoire national des bibliothèques et centres de documentation. Enfin, l’intégration dans le portail CCFr permet également une recherche globale à la fois sur les notices Marc des imprimés et sur les notices EAD des manuscrits.
F.P.
- (retour)↑ Consultable à http://ccfr.bnf.fr, onglet Manuscrits.
Exploitation, mise à jour, enrichissements
Pour l’Enseignement supérieur, la mise à jour et la publication des données se font d’ores et déjà via l’outil commun Calames 19. Les autres bibliothèques peuvent obtenir leurs fichiers EAD auprès du CCFr afin de procéder aux mises à jour 20. Pour ce qui est des enrichissements, la souplesse de l’EAD permet de signaler les manuscrits non catalogués par une courte description avant un approfondissement ultérieur, ou bien de s’attaquer à un fonds dont la notice sera ensuite intégrée dans un inventaire plus large.
L’adoption du catalogage en EAD doit cependant faire face à des enjeux techniques (outils de catalogage et de publication spécifiques), financiers (coût des développements informatiques) et humains (formation). Afin de tirer parti de l’élan apporté par l’informatisation du CGM, la Direction du livre et de la lecture et le Catalogue collectif de France sont en train de réfléchir à des solutions d’aide aux bibliothèques municipales. L’hypothèse vers laquelle on s’oriente actuellement débuterait par la réalisation d’un test d’utilisation d’un logiciel de catalogage EAD avec une dizaine de bibliothèques municipales, afin de mieux définir les besoins et d’identifier les problèmes à surmonter. La DLL proposera ensuite aux bibliothèques des collectivités territoriales intéressées une solution de financement permettant l’acquisition d’un logiciel de catalogage en EAD en vue de la mise à jour du CGM 21. L’aide aux bibliothèques conservant des collections de faible volumétrie interviendra dans un second temps, lorsque l’on aura tiré les leçons de cette première expérience.
La DLL et le CCFr n’ont pas souhaité mettre en place un outil commun de catalogage centralisé de type Calames puisque les municipalités restent libres de passer des marchés d’acquisition de logiciels. Cependant, le CCFr pourra aider les bibliothèques du réseau CGM-Culture en préparant les mises à jour par des corrections de masse 22 et une homogénéisation des fichiers. Ensuite, il pourra offrir des formations à l’EAD et à la correction des notices 23, une expertise sur la rétroconversion de notices de manuscrits catalogués en Marc ou sous Word, et produire une feuille de style permettant à chaque bibliothèque de publier ses notices en HTML, voire en PDF, sur son propre site. Par ailleurs, l’aide financière à la rétroconversion des catalogues de manuscrits sera inscrite dans les missions du département de la Coopération, sur le modèle des rétroconversions de catalogues d’imprimés.
L’EAD dans les bibliothèques françaises en 2008
Un symposium célébrant les 10 ans de l’EAD s’est tenu le 31 août dernier à San Francisco à l’issue du congrès annuel de la Société des archivistes américains. Cela a été l’occasion de faire un point sur l’utilisation de ce format dans les bibliothèques françaises 1. Depuis 2002 et l’adoption de l’EAD par la BnF ainsi que pour la rétroconversion du CGM, l’évolution s’est surtout faite par à-coups, à travers l’achèvement de projets d’envergure : rétroconversions de catalogues imprimés (catalogues du département des Manuscrits de la BnF, CGM), conversion de notices Marc (Répertoire des manuscrits littéraires Palme), mise en place d’outils de catalogage (PiXML 2, Calames), et enfin conception d’interfaces de consultation (BnF archives et manuscrits, CCFr, Calames). Malgré la masse de données désormais disponibles, l’EAD n’est pas encore très répandu au-delà de la BnF et du réseau Calames 3. Les mesures prises par la Direction du livre et de la lecture dans le cadre de la mise à jour du CGM doivent pouvoir amener davantage de bibliothèques municipales à adopter l’EAD. Ce format a désormais atteint une maturité qui permet de concentrer les efforts sur l’exploitation fine de la structure XML et de la richesse de l’encodage grâce à des outils de publication et de visualisation plus performants. L’évolution vers des schémas XML, qui permettraient de combiner l’EAD avec d’autres formats d’encodage et de mieux contrôler la saisie, paraît également prometteuse.
F.P.
- (retour)↑ Florent Palluault, « The adoption of EAD in French libraries », EAD at 10 : a Symposium Celebrating the 10th Anniversary of Encoded Archival Description, San Francisco, 31 août 2008 : http://www.archivists.org/publications/epubs/EAD@10/Palluault-EAD@10.pdf (consulté le 22 novembre 2008). Quelques jours auparavant, lors du congrès de la Société des archivistes américains, Florent Palluault, Aurélien Charot (Abes) et Fabienne Queyroux (bibliothèque de l’Institut) ont chacun présenté un aspect du projet CGM, respectivement l’opération d’informatisation elle-même et le portail CCFr-Manuscrits, l’outil de catalogage et de publication Calames et enfin le devenir de l’EAD et le Guide des bonnes pratiques.
- (retour)↑ Outil de catalogage en EAD conçu pour les besoins des départements spécialisés de la BnF.
- (retour)↑ Parmi les bibliothèques municipales qui ont mis en œuvre l’EAD, notons celles de Lille et de Lyon.
Cohérence et bonnes pratiques
À l’issue de ce travail sur les notices en EAD, il conviendra que les établissements renvoient les fichiers au CCFr pour inclusion dans le catalogue collectif. Les modifications doivent donc suivre un certain nombre de règles pour garantir que les descriptions soient indexées et affichées correctement par les interfaces de consultation. Cette question est particulièrement saillante pour le Catalogue collectif de France qui donnera accès aux descriptions contenues dans Calames et BnF archives et manuscrits, de même qu’à celles qu’il hébergera pour les bibliothèques dépendant de la Culture, que celles-ci proviennent du CGM, du répertoire Palme, de conversions d’autres catalogues ou de catalogage natif en EAD 24.
C’est dans le souci de garantir la cohérence des données du CGM, et plus largement l’interopérabilité des descriptions EAD au niveau national, qu’un groupe d’experts, chargé de rédiger un Guide des bonnes pratiques de l’EAD en bibliothèque, a été mis sur pied en juin 2008. Les rédacteurs envisagent de donner des recommandations générales d’encodage ainsi que des indications spécifiques sur l’utilisation de certains éléments et attributs afin de guider le catalogage natif en EAD et accessoirement la correction et la mise à jour du CGM. Ce guide devrait voir le jour vers la fin de l’année 2009.