Le catalogue général des manuscrits des bibliothèques publiques de France

La conversion rétrospective

Fabien Plazannet

La Direction du livre et de la lecture a entrepris depuis 2001 l’informatisation du Catalogue général des manuscrits des bibliothèques publiques de France. L’année 2003 a vu la réalisation d’un prototype XML consultable sur Internet ; il répond au format de la DTD-EAD, développé aux États-Unis et employé désormais par de nombreuses bibliothèques et services d’archives outre-Atlantique pour la structuration de leurs catalogues et inventaires en ligne. L’opération grandeur nature peut désormais débuter afin de déboucher à moyen terme sur la création d’un Catalogue collectif français de manuscrits permettant tant la correction des catalogues anciens que la saisie de nouvelles notices.

The Direction du livre et de la lecture has undertaken since 2001 the computerisation of the Catalogue général des manuscrits des bibliothèques publiques de France. The year 2003 has seen the achievement of an XML prototype available for consultation on the Internet; it conforms to the DTD-EAD format, developed in the United States and now used by numerous libraries and archival services across the Atlantic for making their catalogues and inventories available on-line. Full-scale operation can now begin on work in the medium term on the creation of a Catalogue collectif français de manuscrits, permitting the correction of old catalogues as well as the keyboarding of new information.

Seit 2001 führt die Direction du livre et de la lecture die Digitalisierung des Catalogue général des manuscrits des bibliothèques publiques de France durch. Im Jahr 2003 gibt es eine Ausgabe des Prototyps XML und ist im Internet abrufbar; dieser hat das Format DTD-EAD, das in den USA entwickelt wurde und seither von zahlreichen Bibliotheken und Archiven jenseits des Atlantiks für ihre Online-Kataloge und -Verzeichnisse angewendet wird. Dieses enorme Projekt kann mittelfristig in der Erstellung eines französischen Kollektivkatalogs münden, der sowohl die Überarbeitung alter Kataloge als auch die Aufnahme neuer Eintragungen ermöglicht.

La Dirección del libro y de la lectura emprendió desde el año 2001 la informatización del Catalogue général des manuscrits des bibliothèques publiques de France. El año 2003 ha visto la realización de un prototipo XML consultable en Internet; éste responde al fórmato de la DTD-EAD, desarrollado en los Estados Unidos y empleado de ahora en adelante por numerosas bibliotecas y servicios de archivos del otro lado del Atlántico para la estructuración de sus catálogos e inventarios en línea. La operación en tamaño real puede ya comenzar con el fin de desembocar a mediano plazo en la creación de un Catálogo colectivo francés de manuscritos que permitan tanto la corrección de los catálogos antiguos como la toma de nuevas reseñas.

Parmi les monuments bibliographiques présents dans nombre de bibliothèques françaises, le Catalogue général des manuscrits (CGM) occupe certainement une place de choix. Lancé sous la Monarchie de Juillet 1, ce catalogue a pour but de décrire l’ensemble des collections manuscrites des bibliothèques françaises à une exception notable, la Bibliothèque nationale de France (BnF) pour laquelle une série indépendante de catalogues se réalise à peu près à la même époque 2.

La parution

Illustration
Le Catalogue général des manuscrits sur un siècle et demi

du Catalogue général s’étale sur plus d’un siècle et demi 3. Il constitue par conséquent un ensemble important 4 et logiquement disparate ; l’étude de ses différentes strates constitue un bon reflet des progrès de la normalisation. Après la parution d’une première série de sept volumes de 1849 à 1881, la fameuse série in-quarto consacrée à de nombreuses bibliothèques de province, la fin du XIXe siècle voit la mise en place du format in-octavo et de deux séries parallèles (1885), l’une numérotée, consacrée aux bibliothèques départementales, la seconde dévolue aux fonds des établissements parisiens. En l’espace de cinquante ans, ce sont plus de quatre-vingts volumes qui sont ainsi publiés, signe d’un intérêt soutenu de l’État et des bibliothécaires pour les fonds patrimoniaux.

Les années 1950 voient la relance d’une publication interrompue pendant près de vingt ans (depuis 1933). Ce temps n’a cependant pas été perdu : on peut mesurer dans les nouveaux volumes les progrès de la description et la plus grande rigueur qui préside désormais à la rédaction des notices. Cette évolution est l’aboutissement des travaux de normalisation importants qui se sont effectués à bien des niveaux depuis l’entre-deux-guerres 5. Pourtant, seulement douze volumes paraissent de 1951 à 1981. Tous les fonds sont désormais décrits dans une même série.

À partir de 1981, la responsabilité de la collection puis de l’édition échoit à la seule Direction du livre, mais la publication s’essouffle. La forme de la publication, la lenteur de sa parution 6 ne correspondent plus aux exigences nouvelles de la recherche documentaire qui se tourne vers les bases de données. Se pose enfin le problème des corrections, des ajouts et des mises à jour qui s’avèrent de plus en plus nécessaires et pour lesquels le cadre des suppléments imprimés apparaît désormais inadapté.

Un contexte en pleine évolution

Des réalisations en France

À première vue, le domaine des catalogues informatisés d’imprimés a connu de grandes réussites depuis vingt ans – citons les ouvertures successives de BN-Opale Plus, du Système universitaire de documentation (Sudoc), du Catalogue collectif de France (CCFr) –, tandis qu’assez peu de chose se passait dans le secteur du manuscrit.

Cette présentation est cependant un peu réductrice et doit être nuancée : du côté des manuscrits, on peut mentionner l’existence ancienne de la base des manuscrits médiévaux Medium de l’Institut de recherche et d’histoire des textes (IRHT) 7, la base Mandragore du département des Manuscrits de la BnF élaborée par le Centre de recherche sur les manuscrits enluminés 8, la création du Répertoire des manuscrits littéraires français du XXe siècle en 1995 9, une expérience menée en 2001 par la Bibliothèque nationale de France pour l’informatisation du dernier volume de la série des Nouvelles acquisitions françaises 10, l’ouverture récente des bases de données iconographiques Enluminures et Liber Floridus 11

Des réalisations importantes à l’étranger

À l’étranger, de grands catalogues de manuscrits ont vu le jour au cours des dernières années sous des formes variées : catalogue multimédia incluant de nombreux manuscrits dans le cas de la Library of Congress, catalogue collectif de manuscrits dans le cas allemand ou encore italien (projet Manus), catalogue des manuscrits de la British Library 12.

Il semblait donc souhaitable de réaliser en France une base de données de taille significative dans le domaine du manuscrit, susceptible d’une part de fédérer les diverses bases déjà existantes, d’autre part de compléter les bases étrangères.

Le choix d’un format bibliographique

La définition du format bibliographique est au centre du projet de conversion rétrospective. Le choix d’un format doit se faire en fonction des paramètres que sont l’adaptabilité aux fonds décrits, les possibilités d’exploitation par les systèmes informatiques et le souci de la meilleure interopérabilité entre catalogues équivalents.

L’adaptabilité du format aux fonds décrits

Que décrit le Catalogue général ? Les fonds recensés sont d’une grande variété : on peut trouver au fil des volumes aussi bien des manuscrits médiévaux enluminés que des manuscrits littéraires contemporains, des correspondances administratives, des papiers d’écrivain, des documents comptables, des fonds relatifs à l’histoire de l’art, des listes généalogiques, etc. Bref, des fonds concernant presque tous les domaines, toutes les époques et sous des formes matérielles très diverses.

Depuis plusieurs années, des débats divisent les bibliothécaires sur la question du traitement bibliographique informatisé des manuscrits. La question centrale est celle du niveau de description des documents : description pièce à pièce ou description globale de la collection ou du fonds avec son corollaire, l’utilisation ou non d’un format adapté du Marc et donc conçu à l’origine pour des imprimés.

Le format Marc permet un assez bon traitement pièce à pièce. Les adaptations réalisées dans le cadre de l’Intermarc intégré à la BnF ont montré qu’un Marc raffiné permettait de décrire de nombreuses notions chères aux spécialistes des manuscrits. Mais ce format a aussi ses défauts, en particulier la difficile gestion de multiples niveaux hiérarchiques au sein d’une collection, cas assez fréquent dans le domaine du manuscrit, en particulier pour les fonds contemporains. D’où le rejet du Marc par certains.

L’interopérabilité et le choix de la DTD EAD

De telles discussions ont eu lieu au sein de la Direction du livre et de la lecture 13 puis du comité de pilotage du CGM, constitué à l’hiver 2002 14. Pour sortir de ce débat sur le format, certains préconisaient une mise en ligne du CGM avec une très faible structuration, voire en plein texte.

Une étude de faisabilité a été réalisée en 2001 par la société Doxulting afin de faire le tour des solutions envisageables. Comme bien souvent, c’est du côté des États-Unis qu’une solution fut trouvée. À côté du Marc, une autre option fut relevée : celle du XML 15 et de la DTD EAD (Encoded archival description). Élaborée dans le cadre de l’université de Berkeley à partir de 1993 et promue aujourd’hui par la Société des archivistes américains, la DTD EAD est un mode de structuration de l’information, à la fois riche et souple, particulièrement adapté au traitement des fonds d’archives. Elle est notamment utilisée aux États-Unis par RLG (Research Libraries Group). En France, la Direction des archives de France défend depuis plusieurs années son utilisation pour les instruments de recherche des archives nationales et locales 16.

L’enthousiasme de nos collègues américains et de certains de nos collègues français, la garantie du soutien logistique de la Bibliothèque du Congrès, l’expérience concluante menée à la Bibliothèque nationale de France ont conduit le comité de pilotage à valider ce choix au printemps 2002.

Comment fonctionne la DTD EAD ?

Le langage XML suit le principe du balisage des données : dans un flux continu d’informations, chaque élément signifiant est séparé des autres éléments par deux balises, une balise ouvrante et une balise fermante, qui indiquent où débute et où s’achève l’information de tel ou tel type.

La DTD est la structure qui « déclare » quelles sont les balises employées pour organiser le flux de données 17. Dans l’EAD par exemple, il existe une balise <title> pour le titre, une balise <c> pour désigner un niveau hiérarchique, une balise <dao> pour lier une image numérique à une notice, des balises <abstract>, <scopecontent>, <notes>, <bibref> pour indiquer les résumés, les notes, les références bibliographiques, etc. Le principal avantage de l’EAD par rapport au Marc est la possibilité de gérer un grand nombre de niveaux hiérarchiques 18. Le passage d’une information en EAD à une information en Marc n’est pas une opération très complexe : il suffit d’établir une table d’équivalence entre une balise EAD et une zone Marc 19.

En pratique, ce travail n’est évidemment pas toujours si simple car la DTD EAD, comme tout format, évolue et une notion dans un format n’a pas toujours son strict équivalent dans un autre format (mais c’est un problème que l’on connaît déjà au sein des formats Marc !).

La réalisation d’un prototype

Un double prototypage

L’importance du projet et la nouveauté des choix envisagés ont conduit les partenaires à adopter une démarche prudente s’appuyant sur la réalisation d’un prototype expérimental dont la maîtrise d’œuvre fut confiée à la société Doxulting.

Plusieurs pistes s’avérant techniquement possibles, il fut même décidé de faire réaliser deux prototypes différents par les sociétés Jouve et AIS : un premier prototype s’attacherait à développer des procédures de balisage essentiellement automatiques, tandis que le second ferait davantage appel à un traitement humain. Dans les deux cas, trois étapes étaient à distinguer : la numérisation des volumes imprimés, le traitement des données par reconnaissance optique de caractères, le balisage pour finir.

Le double prototype fut réalisé à partir d’un corpus de volumes correspondant aux différentes tranches du CGM 20 : les pages du volume 1 concernant le fonds de la bibliothèque de l’École de médecine de Montpellier (1849), le premier volume de la bibliothèque municipale de Rouen (1888), les quelques pages du volume 31 concernant la bibliothèque municipale de Montauban (1898), deux volumes de la bibliothèque de l’Institut de France (1928 et 1965), les trois volumes de la bibliothèque du Muséum national d’histoire naturelle (le plus récent, non publié, ayant été achevé en 1995 ; ils présentaient l’intérêt d’avoir déjà été saisis sous Word).

Des spécifications à la mise en ligne

La rédaction des spécifications fut entreprise en novembre 2002 avec AIS et Jouve et achevée en février 2003. Ce travail délicat a montré la complexité du Catalogue, assez fortement structuré, mais riche en cas particuliers et autres « anomalies » potentielles. Par ailleurs, des contacts ont été pris avec plusieurs entreprises développant des logiciels gérant le XML en mode natif.

Ce sont finalement deux sociétés, Software AG et Xyleme, qui ont été retenues et mises en concurrence pour la mise en ligne des prototypes. Le développement des maquettes a nécessité quelques semaines, et les deux prototypes de Jouve et AIS ont donc été consultables sur Internet via deux interfaces différentes pendant plusieurs semaines en mars 2003.

À la fin de l’expérience, le cabinet Doxulting a rendu un rapport technique dressant le bilan des difficultés rencontrées et préconisant notamment la rédaction de spécifications par groupes de volumes selon la date de rédaction. Dans l’ensemble, le résultat du prototypage a été jugé très positif par le comité de pilotage qui a décidé le 11 avril le passage à la phase industrielle de l’opération.

D’une conversion rétrospective à un projet français autour du manuscrit ?

De la phase de production à un futur Catalogue national de manuscrits

En raison de l’importance de l’opération, la Direction du livre et de la lecture a proposé à la Bibliothèque nationale de France de prendre en charge la réalisation de ce projet à partir de l’été 2003 en lui affectant une dotation budgétaire spécifique 21. Cette orientation s’explique aussi bien par un souci de convergence avec la démarche menée depuis 2001 par la BnF autour de l’informatisation de son propre catalogue de manuscrits 22 que par le souhait de la DLL de placer la consultation du CGM dans le cadre du Catalogue collectif de France.

La structure de direction du projet est cependant maintenue et le comité opérationnel, assisté d’un consultant, va préparer la rédaction du cahier des charges en vue de l’appel d’offres. Un prestataire doit être choisi dans les mois à venir ; la conversion rétrospective s’étendra sur au moins deux ans. L’achèvement de cette étape, qui sera en soi d’une grande importance, ne marquera cependant pas la fin du projet. Ce sera simplement un tournant vers de nouveaux chantiers plus ambitieux auxquels le comité de pilotage réfléchit dès à présent, en particulier la réalisation d’un futur Catalogue collectif national de manuscrits permettant la saisie de nouvelles notices, la modification des notices existantes ou encore l’échange de données entre un système central et des systèmes intégrés de gestion de bibliothèque (SIGB) fonctionnant en Marc. L’architecture de ce futur catalogue demeure, bien entendu, à déterminer.

D’autres projets autour du manuscrit

Il a enfin semblé à la Direction du livre et de la lecture que cette opération était l’occasion de lancer d’autres actions autour du manuscrit. Rappelons que, depuis 2001, un cycle de formation à la description des manuscrits modernes et contemporains a été mis en place dans le cadre de la formation continue de l’École nationale supérieure de l’information et des bibliothèques (Enssib).

Le succès de ce cycle et le souci manifeste de nombreux collègues de mieux se former au traitement de ces collections ont conduit la DLL à proposer une réflexion sur la création d’une norme Afnor de description des manuscrits modernes et contemporains. La recommandation actuelle, élaborée par la DLL en 1980, apparaît aujourd’hui un peu succincte et ne bénéficie pas de la reconnaissance apportée par l’Afnor. Un groupe de travail a donc été constitué dans le cadre de la Commission générale 46 de l’Afnor et prépare une étude préalable sur les enjeux et les orientations possibles de cette future norme 23.

Comme on le voit, plusieurs choix importants ont désormais été faits et des pistes mieux « balisées » s’offrent à nous… Il convient cependant de ne pas mésestimer tout le chemin qui reste à parcourir et les difficultés qui ne manqueront pas. Le soutien de nombreux collègues et les exemples de réussites similaires à l’étranger constituent pourtant de bons aiguillons pour le succès de l’entreprise.

Juin 2003

  1. (retour)↑  Circulaire de François Guizot, ministre de l’Instruction publique, du 22 novembre 1833 chargeant les bibliothécaires de lui adresser un catalogue « des manuscrits de tout genre confiés à leur garde ».
  2. (retour)↑  Rappelons pour mémoire que le premier catalogue spécifique des manuscrits de la Bibliothèque royale fut réalisé sous l’impulsion de l’abbé Bignon et publié en 4 volumes dans les années 1740. Ce catalogue est encore utilisé pour certaines tranches de cotes. Par ailleurs, la publication des catalogues des fonds latins et français fut entreprise sous le Second Empire. Pour plus de précision, nous renvoyons aux ouvrages classiques de Lydia Mérigot et Pierre Gasnault, Les Catalogues du département des manuscrits de la Bibliothèque nationale, Paris, 1974, de Werner Paravicini, Die Nationalbibliothek in Paris, Paris, 1981, ainsi que de Léopold Delisle, Le Cabinet des manuscrits de la Bibliothèque impériale, Paris, 1868-1881.
  3. (retour)↑  Sur les origines de l’entreprise et l’état de la collection en 1950, nous renvoyons à l’avant-propos du volume 49 du CGM sous la plume de Julien Cain lors de la reprise de la publication du Catalogue général en 1951.
  4. (retour)↑  Près de 110 volumes, environ 55 000 pages et 175 000 notices.
  5. (retour)↑  L’ISA, ancêtre de l’ISO, et l’Afnor furent créées l’une et l’autre en 1926.
  6. (retour)↑  Six volumes parus seulement depuis 1981 ; le dernier (no 66, Suppléments de la bibliothèque de l’Arsenal et de la bibliothèque de Reims) en 1993. Par ailleurs, plusieurs volumes n’ont pas été édités pour des raisons techniques et financières.
  7. (retour)↑  La base Medium décrit dans un format propre l’ensemble des manuscrits médiévaux présents dans le Catalogue général des manuscrits dont elle indique les numéros de notices. Elle est désormais consultable sur le site de l’IRHT : http://www.irht.cnrs.fr
  8. (retour)↑  http://mandragore.bnf.fr
  9. (retour)↑  La base Palme du Répertoire des manuscrits littéraires est hébergée sur la base BN-Opaline de la BnF. Elle contient désormais près de 50 000 notices de documents, en format Intermarc intégré.
  10. (retour)↑  Le volume imprimé paru en 1999 a été converti en XML (DTD-EAD) en 2001 sous forme de cédérom. Cette expérience est l’un des modèles retenus pour la conversion du CGM.
  11. (retour)↑  À l’automne 2002, la première (enluminures.culture.fr) par l’IRHT et le ministère de la Culture et de la Communication (enluminures d’un certain nombre de bibliothèques municipales principalement, à partir des campagnes de numérisation réalisées par l’IRHT et financées par le MCC) ; la seconde (liberfloridus.cines.fr) par le ministère de la Jeunesse, de l’Éducation nationale et de la Recherche (correspond actuellement aux manuscrits enluminés de la bibliothèque Sainte-Geneviève et de la bibliothèque Mazarine). Cf. l’article de Marie-Hélène de La Mure, « Le fruit, le flacon et l’ivresse », BBF, t. 48, no 2, 2003, p. 95-100.
  12. (retour)↑  Consultable à l’adresse http://www.molcat.bl.uk, ce dernier catalogue provient de la conversion de 70 volumes imprimés, soit 30 000 pages environ et 1 million de notices, et décrit la quasi-totalité des fonds de manuscrits entrés à la BL depuis 1753. La structuration des données s’est faite par un programme de balisage spécifique…
  13. (retour)↑  Une première présentation de ces débats avait été donnée par Jean-Arthur Creff dans son article « Quelle informatisation pour le Catalogue général des manuscrits des bibliothèques publiques de France ? », Gazette du livre médiéval, no 39, automne 2001, p. 41-45.
  14. (retour)↑  Le comité de pilotage réunit des représentants de la DLL, de la Sous-direction des bibliothèques et de la documentation au ministère de l’Éducation nationale, de la Bibliothèque nationale de France et de l’Agence bibliographique de l’enseignement supérieur. Il est assisté par un comité opérationnel chargé du dialogue avec les différents prestataires.
  15. (retour)↑  Le XML (eXtensible Markup Language) est un langage de structuration et de présentation des données créé en 1997 et issu du langage SGML, lui-même élaboré dans les années 1980 sous l’impulsion de l’armée américaine en vue de l’échange de données, notamment dans le cadre des programmes CALS de l’Otan. La DTD (structure type de document) la plus célèbre du SGML est le HTML pour les pages web. À la différence du SGML, le XML sépare nettement les informations sur les données des informations sur la présentation (feuille de style) d’où la garantie d’une grande pérennité des données.
  16. (retour)↑  Pour plus d’information, nous renvoyons au site Internet de la Direction des archives de France (http://www.archivesdefrance.fr) ainsi qu’au site de la Bibliothèque du Congrès, agence support de la DTD EAD (http://www.lcweb.loc.gov/ead/). Il faut savoir par ailleurs qu’une traduction en français de la DTD EAD est en cours au sein d’un groupe de travail de l’Afnor.
  17. (retour)↑  Dans le domaine du manuscrit, on peut citer aussi la DTD TEI (Text encoding initiative), plus ancienne (1994) et développée au niveau international pour structurer des textes littéraires ; elle est employée notamment à la Bibliothèque vaticane.
  18. (retour)↑  Jusqu’à douze niveaux en théorie.
  19. (retour)↑  La Bibliothèque du Congrès a déjà réalisé une telle équivalence entre EAD et Marc 21.
  20. (retour)↑  Dans cette phase essentielle des spécifications, je tiens à souligner le rôle capital de Fabienne Queyroux, responsable du fonds ancien de la bibliothèque de l’Institut et formée à l’EAD aux États-Unis, et de Pascale Heurtel, responsable des fonds manuscrits de la bibliothèque du Muséum, qui, antérieurement au projet, s’étaient livrées l’une et l’autre à des essais de structuration en EAD de leurs catalogues de manuscrits. Citons aussi la participation de Marie-Dominique Nobécourt-Mutarelli et de Pierre-Yves Cachard, de la bibliothèque municipale de Rouen, ainsi que de Danièle Duclos-Faure, de la Sous-direction des bibliothèques et de la documentation du ministère de la Jeunesse, de l’Éducation nationale et de la Recherche.
  21. (retour)↑  Le projet est évalué à 400 000 euros. La Sous-direction des bibliothèques et de la documentation, partenaire du projet, financera la part du CGM correspondant aux collections des bibliothèques universitaires (évaluée à 1/5 du CGM).
  22. (retour)↑  Dans le cadre du futur Schéma directeur de l’informatisation des collections spécialisées, réalisé par le Bureau Van Dijk en 2002.
  23. (retour)↑  Ce groupe de travail est placé auprès de la Commission de normalisation chargée des questions de modélisation, production et accès aux documents.