Le catalogue général des manuscrits des bibliothèques publiques de France
La conversion rétrospective
La Direction du livre et de la lecture a entrepris depuis 2001 l’informatisation du Catalogue général des manuscrits des bibliothèques publiques de France. L’année 2003 a vu la réalisation d’un prototype XML consultable sur Internet ; il répond au format de la DTD-EAD, développé aux États-Unis et employé désormais par de nombreuses bibliothèques et services d’archives outre-Atlantique pour la structuration de leurs catalogues et inventaires en ligne. L’opération grandeur nature peut désormais débuter afin de déboucher à moyen terme sur la création d’un Catalogue collectif français de manuscrits permettant tant la correction des catalogues anciens que la saisie de nouvelles notices.
The Direction du livre et de la lecture has undertaken since 2001 the computerisation of the Catalogue général des manuscrits des bibliothèques publiques de France. The year 2003 has seen the achievement of an XML prototype available for consultation on the Internet; it conforms to the DTD-EAD format, developed in the United States and now used by numerous libraries and archival services across the Atlantic for making their catalogues and inventories available on-line. Full-scale operation can now begin on work in the medium term on the creation of a Catalogue collectif français de manuscrits, permitting the correction of old catalogues as well as the keyboarding of new information.
Seit 2001 führt die Direction du livre et de la lecture die Digitalisierung des Catalogue général des manuscrits des bibliothèques publiques de France durch. Im Jahr 2003 gibt es eine Ausgabe des Prototyps XML und ist im Internet abrufbar; dieser hat das Format DTD-EAD, das in den USA entwickelt wurde und seither von zahlreichen Bibliotheken und Archiven jenseits des Atlantiks für ihre Online-Kataloge und -Verzeichnisse angewendet wird. Dieses enorme Projekt kann mittelfristig in der Erstellung eines französischen Kollektivkatalogs münden, der sowohl die Überarbeitung alter Kataloge als auch die Aufnahme neuer Eintragungen ermöglicht.
La Dirección del libro y de la lectura emprendió desde el año 2001 la informatización del Catalogue général des manuscrits des bibliothèques publiques de France. El año 2003 ha visto la realización de un prototipo XML consultable en Internet; éste responde al fórmato de la DTD-EAD, desarrollado en los Estados Unidos y empleado de ahora en adelante por numerosas bibliotecas y servicios de archivos del otro lado del Atlántico para la estructuración de sus catálogos e inventarios en línea. La operación en tamaño real puede ya comenzar con el fin de desembocar a mediano plazo en la creación de un Catálogo colectivo francés de manuscritos que permitan tanto la corrección de los catálogos antiguos como la toma de nuevas reseñas.
Parmi les monuments bibliographiques présents dans nombre de bibliothèques françaises, le Catalogue général des manuscrits (CGM) occupe certainement une place de choix. Lancé sous la Monarchie de Juillet 1, ce catalogue a pour but de décrire l’ensemble des collections manuscrites des bibliothèques françaises à une exception notable, la Bibliothèque nationale de France (BnF) pour laquelle une série indépendante de catalogues se réalise à peu près à la même époque 2.
La parution
du Catalogue général s’étale sur plus d’un siècle et demi 3. Il constitue par conséquent un ensemble important 4 et logiquement disparate ; l’étude de ses différentes strates constitue un bon reflet des progrès de la normalisation. Après la parution d’une première série de sept volumes de 1849 à 1881, la fameuse série in-quarto consacrée à de nombreuses bibliothèques de province, la fin du XIXe siècle voit la mise en place du format in-octavo et de deux séries parallèles (1885), l’une numérotée, consacrée aux bibliothèques départementales, la seconde dévolue aux fonds des établissements parisiens. En l’espace de cinquante ans, ce sont plus de quatre-vingts volumes qui sont ainsi publiés, signe d’un intérêt soutenu de l’État et des bibliothécaires pour les fonds patrimoniaux.
Les années 1950 voient la relance d’une publication interrompue pendant près de vingt ans (depuis 1933). Ce temps n’a cependant pas été perdu : on peut mesurer dans les nouveaux volumes les progrès de la description et la plus grande rigueur qui préside désormais à la rédaction des notices. Cette évolution est l’aboutissement des travaux de normalisation importants qui se sont effectués à bien des niveaux depuis l’entre-deux-guerres 5. Pourtant, seulement douze volumes paraissent de 1951 à 1981. Tous les fonds sont désormais décrits dans une même série.
À partir de 1981, la responsabilité de la collection puis de l’édition échoit à la seule Direction du livre, mais la publication s’essouffle. La forme de la publication, la lenteur de sa parution 6 ne correspondent plus aux exigences nouvelles de la recherche documentaire qui se tourne vers les bases de données. Se pose enfin le problème des corrections, des ajouts et des mises à jour qui s’avèrent de plus en plus nécessaires et pour lesquels le cadre des suppléments imprimés apparaît désormais inadapté.
Un contexte en pleine évolution
Des réalisations en France
À première vue, le domaine des catalogues informatisés d’imprimés a connu de grandes réussites depuis vingt ans – citons les ouvertures successives de BN-Opale Plus, du Système universitaire de documentation (Sudoc), du Catalogue collectif de France (CCFr) –, tandis qu’assez peu de chose se passait dans le secteur du manuscrit.
Cette présentation est cependant un peu réductrice et doit être nuancée : du côté des manuscrits, on peut mentionner l’existence ancienne de la base des manuscrits médiévaux Medium de l’Institut de recherche et d’histoire des textes (IRHT) 7, la base Mandragore du département des Manuscrits de la BnF élaborée par le Centre de recherche sur les manuscrits enluminés 8, la création du Répertoire des manuscrits littéraires français du XXe siècle en 1995 9, une expérience menée en 2001 par la Bibliothèque nationale de France pour l’informatisation du dernier volume de la série des Nouvelles acquisitions françaises 10, l’ouverture récente des bases de données iconographiques Enluminures et Liber Floridus 11 …
Des réalisations importantes à l’étranger
À l’étranger, de grands catalogues de manuscrits ont vu le jour au cours des dernières années sous des formes variées : catalogue multimédia incluant de nombreux manuscrits dans le cas de la Library of Congress, catalogue collectif de manuscrits dans le cas allemand ou encore italien (projet Manus), catalogue des manuscrits de la British Library 12.
Il semblait donc souhaitable de réaliser en France une base de données de taille significative dans le domaine du manuscrit, susceptible d’une part de fédérer les diverses bases déjà existantes, d’autre part de compléter les bases étrangères.
Le choix d’un format bibliographique
La définition du format bibliographique est au centre du projet de conversion rétrospective. Le choix d’un format doit se faire en fonction des paramètres que sont l’adaptabilité aux fonds décrits, les possibilités d’exploitation par les systèmes informatiques et le souci de la meilleure interopérabilité entre catalogues équivalents.
L’adaptabilité du format aux fonds décrits
Que décrit le Catalogue général ? Les fonds recensés sont d’une grande variété : on peut trouver au fil des volumes aussi bien des manuscrits médiévaux enluminés que des manuscrits littéraires contemporains, des correspondances administratives, des papiers d’écrivain, des documents comptables, des fonds relatifs à l’histoire de l’art, des listes généalogiques, etc. Bref, des fonds concernant presque tous les domaines, toutes les époques et sous des formes matérielles très diverses.
Depuis plusieurs années, des débats divisent les bibliothécaires sur la question du traitement bibliographique informatisé des manuscrits. La question centrale est celle du niveau de description des documents : description pièce à pièce ou description globale de la collection ou du fonds avec son corollaire, l’utilisation ou non d’un format adapté du Marc et donc conçu à l’origine pour des imprimés.
Le format Marc permet un assez bon traitement pièce à pièce. Les adaptations réalisées dans le cadre de l’Intermarc intégré à la BnF ont montré qu’un Marc raffiné permettait de décrire de nombreuses notions chères aux spécialistes des manuscrits. Mais ce format a aussi ses défauts, en particulier la difficile gestion de multiples niveaux hiérarchiques au sein d’une collection, cas assez fréquent dans le domaine du manuscrit, en particulier pour les fonds contemporains. D’où le rejet du Marc par certains.
L’interopérabilité et le choix de la DTD EAD
De telles discussions ont eu lieu au sein de la Direction du livre et de la lecture 13 puis du comité de pilotage du CGM, constitué à l’hiver 2002 14. Pour sortir de ce débat sur le format, certains préconisaient une mise en ligne du CGM avec une très faible structuration, voire en plein texte.
Une étude de faisabilité a été réalisée en 2001 par la société Doxulting afin de faire le tour des solutions envisageables. Comme bien souvent, c’est du côté des États-Unis qu’une solution fut trouvée. À côté du Marc, une autre option fut relevée : celle du XML 15 et de la DTD EAD (Encoded archival description). Élaborée dans le cadre de l’université de Berkeley à partir de 1993 et promue aujourd’hui par la Société des archivistes américains, la DTD EAD est un mode de structuration de l’information, à la fois riche et souple, particulièrement adapté au traitement des fonds d’archives. Elle est notamment utilisée aux États-Unis par RLG (Research Libraries Group). En France, la Direction des archives de France défend depuis plusieurs années son utilisation pour les instruments de recherche des archives nationales et locales 16.
L’enthousiasme de nos collègues américains et de certains de nos collègues français, la garantie du soutien logistique de la Bibliothèque du Congrès, l’expérience concluante menée à la Bibliothèque nationale de France ont conduit le comité de pilotage à valider ce choix au printemps 2002.
Comment fonctionne la DTD EAD ?
Le langage XML suit le principe du balisage des données : dans un flux continu d’informations, chaque élément signifiant est séparé des autres éléments par deux balises, une balise ouvrante et une balise fermante, qui indiquent où débute et où s’achève l’information de tel ou tel type.
La DTD est la structure qui « déclare » quelles sont les balises employées pour organiser le flux de données 17. Dans l’EAD par exemple, il existe une balise <title> pour le titre, une balise <c> pour désigner un niveau hiérarchique, une balise <dao> pour lier une image numérique à une notice, des balises <abstract>, <scopecontent>, <notes>, <bibref> pour indiquer les résumés, les notes, les références bibliographiques, etc. Le principal avantage de l’EAD par rapport au Marc est la possibilité de gérer un grand nombre de niveaux hiérarchiques 18. Le passage d’une information en EAD à une information en Marc n’est pas une opération très complexe : il suffit d’établir une table d’équivalence entre une balise EAD et une zone Marc 19.
En pratique, ce travail n’est évidemment pas toujours si simple car la DTD EAD, comme tout format, évolue et une notion dans un format n’a pas toujours son strict équivalent dans un autre format (mais c’est un problème que l’on connaît déjà au sein des formats Marc !).
La réalisation d’un prototype
Un double prototypage
L’importance du projet et la nouveauté des choix envisagés ont conduit les partenaires à adopter une démarche prudente s’appuyant sur la réalisation d’un prototype expérimental dont la maîtrise d’œuvre fut confiée à la société Doxulting.
Plusieurs pistes s’avérant techniquement possibles, il fut même décidé de faire réaliser deux prototypes différents par les sociétés Jouve et AIS : un premier prototype s’attacherait à développer des procédures de balisage essentiellement automatiques, tandis que le second ferait davantage appel à un traitement humain. Dans les deux cas, trois étapes étaient à distinguer : la numérisation des volumes imprimés, le traitement des données par reconnaissance optique de caractères, le balisage pour finir.
Le double prototype fut réalisé à partir d’un corpus de volumes correspondant aux différentes tranches du CGM 20 : les pages du volume 1 concernant le fonds de la bibliothèque de l’École de médecine de Montpellier (1849), le premier volume de la bibliothèque municipale de Rouen (1888), les quelques pages du volume 31 concernant la bibliothèque municipale de Montauban (1898), deux volumes de la bibliothèque de l’Institut de France (1928 et 1965), les trois volumes de la bibliothèque du Muséum national d’histoire naturelle (le plus récent, non publié, ayant été achevé en 1995 ; ils présentaient l’intérêt d’avoir déjà été saisis sous Word).
Des spécifications à la mise en ligne
La rédaction des spécifications fut entreprise en novembre 2002 avec AIS et Jouve et achevée en février 2003. Ce travail délicat a montré la complexité du Catalogue, assez fortement structuré, mais riche en cas particuliers et autres « anomalies » potentielles. Par ailleurs, des contacts ont été pris avec plusieurs entreprises développant des logiciels gérant le XML en mode natif.
Ce sont finalement deux sociétés, Software AG et Xyleme, qui ont été retenues et mises en concurrence pour la mise en ligne des prototypes. Le développement des maquettes a nécessité quelques semaines, et les deux prototypes de Jouve et AIS ont donc été consultables sur Internet via deux interfaces différentes pendant plusieurs semaines en mars 2003.
À la fin de l’expérience, le cabinet Doxulting a rendu un rapport technique dressant le bilan des difficultés rencontrées et préconisant notamment la rédaction de spécifications par groupes de volumes selon la date de rédaction. Dans l’ensemble, le résultat du prototypage a été jugé très positif par le comité de pilotage qui a décidé le 11 avril le passage à la phase industrielle de l’opération.
D’une conversion rétrospective à un projet français autour du manuscrit ?
De la phase de production à un futur Catalogue national de manuscrits
En raison de l’importance de l’opération, la Direction du livre et de la lecture a proposé à la Bibliothèque nationale de France de prendre en charge la réalisation de ce projet à partir de l’été 2003 en lui affectant une dotation budgétaire spécifique 21. Cette orientation s’explique aussi bien par un souci de convergence avec la démarche menée depuis 2001 par la BnF autour de l’informatisation de son propre catalogue de manuscrits 22 que par le souhait de la DLL de placer la consultation du CGM dans le cadre du Catalogue collectif de France.
La structure de direction du projet est cependant maintenue et le comité opérationnel, assisté d’un consultant, va préparer la rédaction du cahier des charges en vue de l’appel d’offres. Un prestataire doit être choisi dans les mois à venir ; la conversion rétrospective s’étendra sur au moins deux ans. L’achèvement de cette étape, qui sera en soi d’une grande importance, ne marquera cependant pas la fin du projet. Ce sera simplement un tournant vers de nouveaux chantiers plus ambitieux auxquels le comité de pilotage réfléchit dès à présent, en particulier la réalisation d’un futur Catalogue collectif national de manuscrits permettant la saisie de nouvelles notices, la modification des notices existantes ou encore l’échange de données entre un système central et des systèmes intégrés de gestion de bibliothèque (SIGB) fonctionnant en Marc. L’architecture de ce futur catalogue demeure, bien entendu, à déterminer.
D’autres projets autour du manuscrit
Il a enfin semblé à la Direction du livre et de la lecture que cette opération était l’occasion de lancer d’autres actions autour du manuscrit. Rappelons que, depuis 2001, un cycle de formation à la description des manuscrits modernes et contemporains a été mis en place dans le cadre de la formation continue de l’École nationale supérieure de l’information et des bibliothèques (Enssib).
Le succès de ce cycle et le souci manifeste de nombreux collègues de mieux se former au traitement de ces collections ont conduit la DLL à proposer une réflexion sur la création d’une norme Afnor de description des manuscrits modernes et contemporains. La recommandation actuelle, élaborée par la DLL en 1980, apparaît aujourd’hui un peu succincte et ne bénéficie pas de la reconnaissance apportée par l’Afnor. Un groupe de travail a donc été constitué dans le cadre de la Commission générale 46 de l’Afnor et prépare une étude préalable sur les enjeux et les orientations possibles de cette future norme 23.
Comme on le voit, plusieurs choix importants ont désormais été faits et des pistes mieux « balisées » s’offrent à nous… Il convient cependant de ne pas mésestimer tout le chemin qui reste à parcourir et les difficultés qui ne manqueront pas. Le soutien de nombreux collègues et les exemples de réussites similaires à l’étranger constituent pourtant de bons aiguillons pour le succès de l’entreprise.
Juin 2003