entête
entête

Le catalogue général des manuscrits des bibliothèques publiques de France : informatisation et avenir

Florent Palluault

Avec l’informatisation au format XML/EAD  1 du Catalogue général des manuscrits des bibliothèques publiques de France (CGM) s’est achevée en avril 2008 la plus importante conversion rétrospective d’un catalogue collectif imprimé. Les données en résultant sont désormais consultables sur internet et leurs exploitation, correction et enrichissement représentent maintenant un défi tout aussi grand que celui de leur création.

Dans un article du BBF de 2003  2, Fabien Plazannet (Direction du livre et de la lecture) avait exposé tout l’intérêt de ce projet d’informatisation et les raisons qui ont abouti au choix de l’EAD. L’objectif était d’améliorer la visibilité des collections de manuscrits par la mise en ligne des notices descriptives, ainsi que de relancer la dynamique de signalement en permettant les mises à jour et ajouts à l’issue du projet. Le CGM représentait alors un ensemble important de 106 tomes en 116 volumes (soit 72 000 pages, 182 000 notices et environ 917 000 entrées d’index) couvrant les collections de manuscrits de 519 établissements, dont 42 appartenant au réseau de l’Enseignement supérieur. La Sous-direction des bibliothèques et de la documentation ayant décidé de participer au projet, un comité de pilotage composé de représentants des deux ministères, de la Bibliothèque nationale de France (BnF) et de l’Agence bibliographique de l’enseignement supérieur (Abes) a été créé au début de l’année 2002.

Études préliminaires

Au printemps de la même année, ce comité a validé le choix du format EAD préconisé par le cabinet DoXulting, mandaté pour étudier le format de structuration de données le plus approprié. L’EAD, qui jusqu’alors avait uniquement fait l’objet d’expérimentations dans les bibliothèques françaises, avait le double avantage de pouvoir s’adapter à la diversité des notices du CGM  3, en particulier celles dont la description s’étendait sur de multiples niveaux hiérarchiques, et de garantir l’interopérabilité propre aux formats XML  4. Afin d’examiner l’application de l’EAD aux notices du CGM et surtout le degré d’automatisation du balisage, le comité de pilotage a alors fait réaliser deux tests d’encodage différents par les sociétés Jouve et AIS. Puis, les données créées ont été mises en ligne pendant une courte durée sur deux prototypes d’interface de publication conçus spécifiquement pour le projet par les sociétés Software AG et Xyleme.

La DLL souhaitait que le futur CGM informatisé fût accessible via le Catalogue collectif de France (administré par le département de la Co-opération de la BnF) et formât la base d’un futur catalogue national de manuscrits. Les notices en EAD seraient fournies aux établissements conservant les manuscrits afin qu’elles puissent être corrigées et que de nouvelles notices décrivant les manuscrits acquis depuis la publication des derniers suppléments imprimés puissent être ajoutées. Cet ancrage dans le CCFr et les expérimentations menées avec l’EAD au département des Manuscrits expliquent que la réalisation du projet ait été confiée à la BnF (département de la Coopération) en 2003.

Cahier des charges

En 2004, le chef de projet  5 a rédigé un cahier des charges complexe, avec l’aide du groupe de projet  6. Peu de prestataires ayant alors l’expérience à la fois de la numérisation et de l’encodage en EAD, il a été décidé de diviser le marché en deux lots : rendu en mode texte (numérisation et océrisation) d’une part, et encodage de l’autre. L’encodage a lui-même été divisé en deux sous-lots correspondant d’un côté aux notices des établissements de l’Enseignement supérieur, et de l’autre à toutes les autres notices, dont la conversion était financée par le ministère de la Culture. Cette division était induite par des contextes institutionnels et des objectifs différents : 93 % des notices de l’Enseignement supérieur correspondaient à six établissements  7 dont les conservateurs étaient prêts à participer au travail de relecture sous l’égide de l’Abes, et à procéder à des corrections poussées afin d’aboutir à un encodage plus fin. Pour le sous-lot Culture, en revanche, il était inconcevable d’impliquer plusieurs centaines d’établissements ; le traitement des données a donc été assuré par le chef de projet assisté d’un conservateur et d’un vacataire  8.

Numérisation

La numérisation des volumes imprimés, dont le marché avait été attribué à la société AIS  9, a démarré en janvier 2005. Le cahier des charges se montrait exigeant tant sur la qualité du rendu de l’océrisation (99,95 %) que sur la structuration des données. Habituellement, les logiciels de reconnaissance optique de caractères produisent un flux XML non mis en forme. Or, il était important ici que la page océrisée conserve le format de la page imprimée, d’une part pour faciliter la relecture en regard du volume originel, d’autre part surtout pour garder les informations de pagination et lier la notice aux entrées d’index qui y renvoyaient en fin de volume.

Les caractères latins, grecs et arabes devaient être rendus en Unicode, mais, à la suite des difficultés rencontrées par le prestataire pour traiter l’arabe classique, il a été décidé d’accepter que, comme les autres alphabets (copte, hébreu, etc.) et les éléments figuratifs, l’arabe soit rendu en mode image. Le contrôle de l’océrisation a été effectué à hauteur de 5 % des pages numérisées, grâce à la participation de tous les membres du groupe de projet.

Traitement des index et notices

La phase de traitement des données et d’encodage en EAD a débuté en novembre 2005 par plusieurs réunions d’instruction avec la société ArchProteus  10, titulaire de ce lot. Le cahier des charges avait prévu que la vérification des données avant encodage se ferait dans le logiciel Word, avec lequel chacun était familier. Après l’intégration des errata et addenda à l’intérieur des notices par le chef de projet, le prestataire a procédé au découpage des entrées d’index  11, qui étaient généralement structurées à deux niveaux (une entrée principale et plusieurs entrées secondaires). La restitution de chaque couple entrée principale/entrée secondaire a impliqué une relecture minutieuse imprévue, car la structure de l’entrée principale rendait parfois son articulation avec certaines entrées secondaires peu pertinente. Les correcteurs ont tiré profit de cette nécessaire étape supplémentaire pour caractériser les entrées en nom de personne, nom de famille, nom de collectivité, sujet, titre, etc., selon la nomenclature d’indexation de l’EAD.

Pour les notices, ArchProteus a d’abord identifié, grâce au format et à certains mots, les futurs éléments EAD dans la notice océrisée, puis a découpé ces éléments et les a exportés vers une base de données en leur donnant une structuration logique. Ensuite, un nouvel export vers un fichier Word a produit un tableau modifiable dans lequel les correcteurs ont pu procéder à des modifications de structure ou de balisage, des ajouts et des déplacements d’informations. On a, entre autres, précisé la langue des documents et réintégré manuellement toutes les entrées d’index que le prestataire, malgré plusieurs séries de recherches dans les notices, n’avait pu replacer dans un paragraphe précis.

Du côté de l’Enseignement supérieur, on a éventuellement précisé un rôle pour les balises de noms de personnes et de collectivités (auteur, copiste, ancien possesseur, etc.), travail qui n’a malheureusement pu être effectué que de manière très partielle pour le sous-lot Culture. L’utilisation de Word plutôt que d’une base de données, d’un tableur ou même d’un éditeur XML, a permis des extractions automatiques pour des vérifications globales de cohérence, ainsi que des modifications semi-automatiques par macros. Pour les institutions Culture, cela a permis de revoir les index et de corriger les notices d’une manière beaucoup plus détaillée que ce qui avait initialement été envisagé.

Encodage

À l’issue de la vérification, les tableaux corrigés ont été reversés dans la base de données, puis encodés automatiquement en XML selon des spécifications prédéfinies : la structure et le contenu des notices originelles, ainsi que le travail de correction entrepris, ont conduit à opter pour l’utilisation de 66 des 146 éléments de l’EAD et à définir les valeurs possibles de certains attributs essentiels  12. Certains choix et compromis peuvent paraître s’éloigner quelque peu de l’orthodoxie de l’EAD  13. Ils ont été dictés par les impératifs d’une conversion massive dans un temps limité. Une correction notice par notice et un encodage plus fin étaient inenvisageables et devaient être laissés pour une révision ultérieure  14.

Résultat

La structure EAD créée (fonds, série, groupe de notices, notice et divisions internes) colle au plus près aux catalogues imprimés  15. Toutefois, puisque les fichiers XML devaient être redistribués aux institutions conservant les manuscrits, on a éclaté les volumes contenant les descriptions de plusieurs bibliothèques afin de n’obtenir qu’une institution par fichier. Par ailleurs, pour une institution donnée, on a parfois obtenu plusieurs fichiers, correspondant par exemple à un catalogue principal et des suppléments  16. En termes de volumétrie, le projet a produit 762 fichiers pour la Culture (340 Mo de données) et 69 fichiers pour l’Enseignement supérieur (68 Mo de données).

Ces fichiers sont maintenant hébergés et consultables en trois endroits distincts : ceux de l’Enseignement supérieur dans Calames  17, ceux de la bibliothèque de l’Arsenal dans BnF archives et manuscrits  18, et les autres dans le Catalogue collectif de France, qui devra bientôt donner accès à l’ensemble par une interrogation distante (voir encadré).

L’interface Manuscrits du Catalogue collectif de France

Depuis mars 2008, le Catalogue collectif de France dispose d’une interface de recherche dédiée aux manuscrits * développée, comme l’ensemble du portail CCFr, par la société Ever. À la date de rédaction de cet article, seuls les fichiers des institutions hors Enseignement supérieur issus de la conversion de Palme (Répertoire des manuscrits littéraires français du XXe siècle) et du CGM sont consultables, mais, à terme, le CCFr permettra également l’interrogation de Calames et de BnF archives et manuscrits, ce qui représentera un catalogue collectif de plus de 800 institutions et environ 600 000 notices, et en fera l’un des plus importants catalogues informatisés de manuscrits en Europe. L’interface de recherche exploite l’encodage en EAD et comporte des critères propres aux documents manuscrits ou d’archives. L’affichage des notices s’effectue avec un écran en deux parties : à gauche la structure du fichier XML qui reflète celle de la collection de documents et à droite la notice détaillée du manuscrit avec affichage complet des données descriptives de tous les niveaux supérieurs. Un lien pointe vers la notice de l’institution de conservation dans le Répertoire national des bibliothèques et centres de documentation. Enfin, l’intégration dans le portail CCFr permet également une recherche globale à la fois sur les notices Marc des imprimés et sur les notices EAD des manuscrits.

F.P.

  1.  (retour)↑  Consultable à http://ccfr.bnf.fr, onglet Manuscrits.

Illustration
Un exemple de notice détaillée de manuscrit

Exploitation, mise à jour, enrichissements

Pour l’Enseignement supérieur, la mise à jour et la publication des données se font d’ores et déjà via l’outil commun Calames  19. Les autres bibliothèques peuvent obtenir leurs fichiers EAD auprès du CCFr afin de procéder aux mises à jour  20. Pour ce qui est des enrichissements, la souplesse de l’EAD permet de signaler les manuscrits non catalogués par une courte description avant un approfondissement ultérieur, ou bien de s’attaquer à un fonds dont la notice sera ensuite intégrée dans un inventaire plus large.

L’adoption du catalogage en EAD doit cependant faire face à des enjeux techniques (outils de catalogage et de publication spécifiques), financiers (coût des développements informatiques) et humains (formation). Afin de tirer parti de l’élan apporté par l’informatisation du CGM, la Direction du livre et de la lecture et le Catalogue collectif de France sont en train de réfléchir à des solutions d’aide aux bibliothèques municipales. L’hypothèse vers laquelle on s’oriente actuellement débuterait par la réalisation d’un test d’utilisation d’un logiciel de catalogage EAD avec une dizaine de bibliothèques municipales, afin de mieux définir les besoins et d’identifier les problèmes à surmonter. La DLL proposera ensuite aux bibliothèques des collectivités territoriales intéressées une solution de financement permettant l’acquisition d’un logiciel de catalogage en EAD en vue de la mise à jour du CGM  21. L’aide aux bibliothèques conservant des collections de faible volumétrie interviendra dans un second temps, lorsque l’on aura tiré les leçons de cette première expérience.

La DLL et le CCFr n’ont pas souhaité mettre en place un outil commun de catalogage centralisé de type Calames puisque les municipalités restent libres de passer des marchés d’acquisition de logiciels. Cependant, le CCFr pourra aider les bibliothèques du réseau CGM-Culture en préparant les mises à jour par des corrections de masse  22 et une homogénéisation des fichiers. Ensuite, il pourra offrir des formations à l’EAD et à la correction des notices  23, une expertise sur la rétroconversion de notices de manuscrits catalogués en Marc ou sous Word, et produire une feuille de style permettant à chaque bibliothèque de publier ses notices en HTML, voire en PDF, sur son propre site. Par ailleurs, l’aide financière à la rétroconversion des catalogues de manuscrits sera inscrite dans les missions du département de la Coopération, sur le modèle des rétroconversions de catalogues d’imprimés.

L’EAD dans les bibliothèques françaises en 2008

Un symposium célébrant les 10 ans de l’EAD s’est tenu le 31 août dernier à San Francisco à l’issue du congrès annuel de la Société des archivistes américains. Cela a été l’occasion de faire un point sur l’utilisation de ce format dans les bibliothèques françaises  1. Depuis 2002 et l’adoption de l’EAD par la BnF ainsi que pour la rétroconversion du CGM, l’évolution s’est surtout faite par à-coups, à travers l’achèvement de projets d’envergure : rétroconversions de catalogues imprimés (catalogues du département des Manuscrits de la BnF, CGM), conversion de notices Marc (Répertoire des manuscrits littéraires Palme), mise en place d’outils de catalogage (PiXML  2, Calames), et enfin conception d’interfaces de consultation (BnF archives et manuscrits, CCFr, Calames). Malgré la masse de données désormais disponibles, l’EAD n’est pas encore très répandu au-delà de la BnF et du réseau Calames  3. Les mesures prises par la Direction du livre et de la lecture dans le cadre de la mise à jour du CGM doivent pouvoir amener davantage de bibliothèques municipales à adopter l’EAD. Ce format a désormais atteint une maturité qui permet de concentrer les efforts sur l’exploitation fine de la structure XML et de la richesse de l’encodage grâce à des outils de publication et de visualisation plus performants. L’évolution vers des schémas XML, qui permettraient de combiner l’EAD avec d’autres formats d’encodage et de mieux contrôler la saisie, paraît également prometteuse.

F.P.

  1.  (retour)↑   Florent Palluault, « The adoption of EAD in French libraries », EAD at 10 : a Symposium Celebrating the 10th Anniversary of Encoded Archival Description, San Francisco, 31 août 2008 : http://www.archivists.org/publications/epubs/EAD@10/Palluault-EAD@10.pdf (consulté le 22 novembre 2008). Quelques jours auparavant, lors du congrès de la Société des archivistes américains, Florent Palluault, Aurélien Charot (Abes) et Fabienne Queyroux (bibliothèque de l’Institut) ont chacun présenté un aspect du projet CGM, respectivement l’opération d’informatisation elle-même et le portail CCFr-Manuscrits, l’outil de catalogage et de publication Calames et enfin le devenir de l’EAD et le Guide des bonnes pratiques.
  2.  (retour)↑   Outil de catalogage en EAD conçu pour les besoins des départements spécialisés de la BnF.
  3.  (retour)↑   Parmi les bibliothèques municipales qui ont mis en œuvre l’EAD, notons celles de Lille et de Lyon.

Cohérence et bonnes pratiques

À l’issue de ce travail sur les notices en EAD, il conviendra que les établissements renvoient les fichiers au CCFr pour inclusion dans le catalogue collectif. Les modifications doivent donc suivre un certain nombre de règles pour garantir que les descriptions soient indexées et affichées correctement par les interfaces de consultation. Cette question est particulièrement saillante pour le Catalogue collectif de France qui donnera accès aux descriptions contenues dans Calames et BnF archives et manuscrits, de même qu’à celles qu’il hébergera pour les bibliothèques dépendant de la Culture, que celles-ci proviennent du CGM, du répertoire Palme, de conversions d’autres catalogues ou de catalogage natif en EAD  24.

C’est dans le souci de garantir la cohérence des données du CGM, et plus largement l’interopérabilité des descriptions EAD au niveau national, qu’un groupe d’experts, chargé de rédiger un Guide des bonnes pratiques de l’EAD en bibliothèque, a été mis sur pied en juin 2008. Les rédacteurs envisagent de donner des recommandations générales d’encodage ainsi que des indications spécifiques sur l’utilisation de certains éléments et attributs afin de guider le catalogage natif en EAD et accessoirement la correction et la mise à jour du CGM. Ce guide devrait voir le jour vers la fin de l’année 2009.

  1.  (retour)↑   Description archivistique encodée : format XML, exprimé sous forme de DTD (définition de type de document), utilisé pour encoder des descriptions de manuscrits et de documents d’archives.
  2.  (retour)↑   Fabien Plazannet, « Le Catalogue général des manuscrits des bibliothèques publiques de France : la conversion rétrospective », BBF, 2003, no 5, p. 74-78. http://bbf.enssib.fr (consulté le 17 novembre 2008).
  3.  (retour)↑   La structure des notices, fluctuante jusqu’à la publication des règles de catalogage de Léopold Delisle (Note sur le catalogue général des manuscrits des bibliothèques des départements, suivie du catalogue de 50 manuscrits de la Bibliothèque nationale, Nogent-le-Rotrou, Impr. de A. Gouverneur, 1873), plus homogène après les travaux de la commission Ulysse Robert (« Note sur la rédaction des catalogues de manuscrits », Bulletin des bibliothèques et des archives, 1884, tome i, no 2), est de nouveau devenue mouvante après la reprise de la publication en 1951 (indexation mot à mot, utilisation massive d’abréviations).
  4.  (retour)↑   L’EAD n’en était alors qu’à sa version 1.0. La version EAD 2002 a été publiée en décembre 2002 ; c’est celle qui a été utilisée pour l’encodage du CGM.
  5.  (retour)↑   Laurence Le Bras, chef de projet pour la conversion rétrospective du CGM jusqu’au 1er juillet 2005.
  6.  (retour)↑   Ce groupe était composé d’experts en manuscrits des principales bibliothèques de l’Enseignement supérieur concernées par le projet, ainsi que de représentants de bibliothèques municipales (Lille, Lyon, Orléans, Valenciennes), des deux ministères, de l’Abes et de la BnF, dont les collections étaient représentées dans le CGM par la bibliothèque de l’Arsenal.
  7.  (retour)↑   Bibliothèque Mazarine, bibliothèque de l’Institut, bibliothèque Sainte-Geneviève, bibliothèque de la Sorbonne, bibliothèque centrale du Muséum d’histoire naturelle, Bibliothèque nationale et universitaire de Strasbourg.
  8.  (retour)↑   En termes de nombre de notices, le sous-lot Enseignement supérieur représentait 20 % du CGM et le sous-lot Culture 80 %. Les bibliothèques municipales de Lille, Lyon et Orléans ont également pris part aux corrections de leurs propres fichiers.
  9.  (retour)↑   Aujourd’hui Diadeis.
  10.  (retour)↑   Cette société est située à Vancouver (Canada).
  11.  (retour)↑   Il avait été décidé de réutiliser les index des volumes en les associant aux notices correspondantes. L’index Popoff (Michel Popoff, Index général des manuscrits décrits dans le Catalogue général des manuscrits des bibliothèques publiques de France, Paris, Références Cf, 1993) incomplet et soumis à droits, ne pouvait être retenu.
  12.  (retour)↑   Par exemple, l’attribut level de [c], l’attribut type de [unitid] ou l’attribut rôle de [persname].
  13.  (retour)↑   Pour le sous-lot Culture, par exemple, on a encodé la notion de provenance dans un élément [note] et les entrées d’index secondaires dans [name] au lieu d’éléments plus précis.
  14.  (retour)↑   Le détail des types et des méthodes de corrections effectuées sur les volumes du sous-lot Culture fait l’objet d’une synthèse en cours de rédaction qui sera fournie aux bibliothèques en même temps que leurs fichiers.
  15.  (retour)↑   La notion de « notice » est restée centrale dans la structure EAD.
  16.  (retour)↑   Le prestataire du portail CCFr avait préconisé une taille maximale de 4 Mo par fichier. Certains volumes de taille importante contenant les descriptions d’une seule bibliothèque ont donc été découpés en plusieurs fichiers.
  17.  (retour)↑   Catalogue en ligne des archives et manuscrits de l’Enseignement supérieur (http://www.calames.abes.fr) : à la fois outil de catalogage et de publication EAD conçu par l’Abes pour les bibliothèques de l’Enseignement supérieur.
  18.  (retour)↑   Catalogue des manuscrits et fonds d’archives de la BnF : http://archivesetmanuscrits.bnf.fr
    Les fichiers de l’Arsenal doivent y être intégrés en décembre 2008.
  19.  (retour)↑  Consultable à http://ccfr.bnf.fr, onglet Manuscrits.
  20.  (retour)↑   Voir : Yann Nicolas, « Calames, et après ? Un catalogue de manuscrits, quatre leçons et mille mashups », BBF, 2008, no 6, p. 29-33.
  21.  (retour)↑   Envoyer un message à manuscritsccfr@bnf.fr. La documentation nécessaire à la mise à jour sera envoyée en même temps que les fichiers.
  22.  (retour)↑   Les prestataires de SIGB commencent à développer des modules de catalogage en EAD.
  23.  (retour)↑   Entre autres, par l’intégration des informations sur les manuscrits disparus pendant les deux guerres mondiales, qui ont fait l’objet d’un volume du CGM.
  24.  (retour)↑   Deux sessions ont déjà eu lieu en juin et décembre 2008.
  25.  (retour)↑   Florent Palluault, « The adoption of EAD in French libraries », EAD at 10 : a Symposium Celebrating the 10th Anniversary of Encoded Archival Description, San Francisco, 31 août 2008 : http://www.archivists.org/publications/epubs/EAD@10/Palluault-EAD@10.pdf (consulté le 22 novembre 2008). Quelques jours auparavant, lors du congrès de la Société des archivistes américains, Florent Palluault, Aurélien Charot (Abes) et Fabienne Queyroux (bibliothèque de l’Institut) ont chacun présenté un aspect du projet CGM, respectivement l’opération d’informatisation elle-même et le portail CCFr-Manuscrits, l’outil de catalogage et de publication Calames et enfin le devenir de l’EAD et le Guide des bonnes pratiques.
  26.  (retour)↑   Outil de catalogage en EAD conçu pour les besoins des départements spécialisés de la BnF.
  27.  (retour)↑   Parmi les bibliothèques municipales qui ont mis en œuvre l’EAD, notons celles de Lille et de Lyon.
  28.  (retour)↑   La conversion en EAD des 122 000 notices du Répertoire des manuscrits littéraires français du XXe siècle (Palme) a fait l’objet d’un article récent dans le BBF (Gérard Cohen, « Le Répertoire national des manuscrits littéraires français du XXe siècle », BBF, 2007, no 5, p. 72-77. http://bbf.enssib.fr (consulté le 17 novembre 2008). L’avenir de Palme est plus délicat à déterminer que celui du CGM : Palme n’est pas un catalogue mais un répertoire de documents et de fonds liés à des auteurs du XXe siècle. Sa structuration EAD par auteur puis par cadre de classement (Œuvres, Correspondance, Papiers personnels) ne reflète pas l’organisation des fonds et se marie mal avec celle du CGM dont il doublonne parfois certaines notices. Il semble probable que certaines bibliothèques souhaitent laisser Palme en l’état et ne mettre à jour que le CGM, qui pourrait en englober les descriptions. Si toutefois on souhaite, au niveau national, mettre Palme à jour pour refléter les acquisitions intervenues depuis la fin du catalogage en 2005, il reste à imaginer une solution pour l’alimenter par une migration des données pertinentes depuis le CGM.