La dTD EAD dans les archives et les bibliothèques

Ghislaine Chartron

La Direction des archives de France, la Direction du livre et de la lecture (DLL) et la Bibliothèque nationale de France (BnF) s’étaient réunies pour organiser le 25 octobre 2002 une journée d’étude consacrée à la DTD EAD et à ses applications patrimoniales dans les de trois cents participants, archivistes, bibliothécaires et nombreux étudiants des écoles de préparation à ces métiers. Le grand auditorium de la BnF était comble, c’est dire l’intérêt porté à cette problématique qui, d’un premier abord, pouvait sembler assez technique. L’objectif de cette journée, organisée deux ans après la première réunion française sur l’EAD (Encoded Archives Description) en ces mêmes lieux, était de rendre compte des premières intégrations de cet outil, mais aussi de le promouvoir pour la description des fonds d’archives français. Une circulaire ministérielle publiée en juin 2002 1 recommandait fortement l’adoption de ce standard pour l’informatisation des descriptions de fonds d’archives, des instruments de recherche produits par les services d’archives territoriaux. Les premières réalisations françaises étaient donc à l’honneur, ainsi que les projets planifiés à court terme.

Qu’est-ce que l’EAD ?

L’EAD est un outil informatique, une DTD (définition de type de documents) particulière permettant de structurer en XML (eXtensible Markup Language) les instruments de recherche de type archivistique : inventaires, répertoires, catalogues de collections. Cet outil est compatible avec la norme de description ISAD(G), sa première version a été diffusée en 1998 par la Society of American Archivists, suivie en septembre 2002 d’une révision appelée EAD 2002 2.

Fabienne Queyroux, de la bibliothèque de l’Institut de France, a rappelé, dans une synthèse introductive, les origines, les principes et les enjeux de l’EAD. La création de ce standard résulte d’un besoin d’informatisation des inventaires détaillés d’archives et de catalogues de manuscrits, au-delà de la notice descriptive du fonds ou de la collection permise avec le format MARC AMC (Archival and Manuscript Control). L’EAD, fondée sur le formalisme d’XML, permet d’utiliser une profondeur de douze niveaux hiérarchiques pour la description des fonds, proposant une description et une interrogation très fine de ces sources, localement mais surtout à distance et de façon interopérable avec d’autres fonds. La dimension collective doit être soulignée : en imposant une normalisation minimale des descriptions archivistiques, l’EAD permet d’envisager la création de bases de sources collectives à différents niveaux 3. L’EAD est d’origine américaine mais le standard semble aujourd’hui s’étendre au niveau international. En France, un groupe spécifique de l’Afnor 4 l’a traduit et en a étudié la cohérence avec les pratiques nationales.

Les bibliothèques et l’EAD

La journée affichait des signes de convergence entre les bibliothèques et les archives dans le cadre de la numérisation des contenus. La matinée fut consacrée à des expériences de l’EAD en bibliothèque, alors que l’après-midi relata des expériences menées dans des services d’archives.

Pour les bibliothèques, les deux exemples présentés ont concerné des fonds de manuscrits ne disposant pas encore de catalogue informatisé, contrairement aux imprimés. Le terrain était alors propice à l’expérimentation de ce nouveau standard pour la création d’une description informatisée du contenu. Fabien Plazannet, de la DLL, a exposé le projet d’informatisation du catalogue général des manuscrits des bibliothèques publiques de France. Ce catalogue initié depuis 1849 comporte 107 volumes, 50 000 pages et est composé de fonds variés et d’une structure hétérogène. Son encodage EAD s’est trouvé confronté à différentes difficultés : variété de la typographie, des règles de catalogage, des différents niveaux de description disponibles. Une étude de faisabilité a justifié le choix du XML et de la DTD EAD ; un cahier des charges a précisé, sur un échantillon choisi, le degré de structuration des volumes, les paramètres de numérisation, le balisage associé, le traitement des index et la conversion des données en MARC (niveau moins riche que la description EAD). Le projet est actuellement sous-traité à des sociétés spécialisées, la mise en ligne du catalogue est annoncée pour 2004-2005. Ce projet devrait faciliter à plus long terme les échanges entre le niveau national (catalogue mis en place par le ministère) et les niveaux locaux des diverses institutions patrimoniales.

L’intervention de Marie-Laure Prévost, de la BnF, a permis de découvrir un prototype opérationnel, mais pour le moment interne à cet établissement. Il s’agit de l’informatisation en EAD du catalogue des manuscrits des nouvelles acquisitions françaises de la BnF. Sur l’exemple des manuscrits de La nausée de Jean-Paul Sartre, l’auditoire a pu apprécier la richesse d’interrogation des sources ainsi codées. L’accès à distance de plusieurs fonds de manuscrits (Proust, Hugo, Pasteur) est envisagé, une réflexion approfondie concernant le poste utilisateur est également en cours.

Une question importante pour les bibliothèques concerne la compatibilité de ce standard EAD avec les formats MARC des nombreux catalogues déjà établis. La notice MARC peut, en fait, devenir très facilement un produit dérivé d’un document numérique primaire encodé en EAD, le contraire semblant par contre plus difficilement réalisable.

Les archives et l’EAD

Ne disposant pas souvent de catalogues informatisés (contrairement aux bibliothèques), le domaine des archives est apparu particulièrement actif pour expérimenter l’encodage EAD des instruments de recherche de fonds patrimoniaux. À partir de son expérience, Martin Sevigny, de la société AJLSM, a évalué objectivement les différents niveaux de difficulté d’encodage EAD selon la forme initiale des documents : imprimé, format électronique peu structuré, format électronique typographiquement structuré, approches descriptives intégrées ou non, bases de données indirectement hiérarchisées… Ayant conduit différents projets (état des fonds d’archives privées du CHAN [Centre historique des Archives nationales], état des fonds du Centre des archives du monde du travail, état sommaire du fonds Napoléon, état général des fonds des Archives nationales…), M. Sevigny montra la difficulté d’automatiser complètement ces encodages, la nécessité d’une révision manuelle variable selon les cas et la nécessité d’un travail archivistique pour les documents non conformes initialement à l’ISAD(G).

Florence Clavaud, du CHAN (service placé sous l’autorité des Archives de France), a dressé les premiers résultats concernant l’introduction de l’EAD dans son institution. Le CHAN conserve et communique les archives de la France depuis les Mérovingiens jusqu’en 1958. Une centaine d’agents de la filière scientifique y travaillent pour classer, inventorier et communiquer ces fonds. Les instruments de recherche existants concernent 2 700 titres, un corpus peu normalisé, hétérogène, difficile à utiliser, quasi confidentiel, non informatisé. Malgré ce contexte difficile et des moyens limités, le service des nouvelles technologies affiche une stratégie volontariste de migrer progressivement vers une chaîne éditoriale EAD/XML. Une politique active de formation et de projets pilotes a été menée avec l’aide de la société AJLSM. Un programme de numérisation et d’encodage de certains catalogues ou inventaires a été lancé, un outil dédié (XMetaL de la société Softquad avec une configuration française) a été adopté. La stratégie est également de commencer à produire directement en EAD/XML et, à cette fin, le CHAN fait partie du groupe d’utilisateurs testant la plate-forme Proximus de production XML, que le ministère de la Culture et de la Communication a décidé de faire développer. L’évolution progressive du travail des archivistes est amorcée : normalisation des données, règles d’indexation, poste de travail informatisé. Le cœur du métier reste l’archivistique mais, comme le souligne Florence Clavaud, cette informatisation concourt à une plus grande ouverture de ces instruments de recherche (« Il est fondamental de placer le public au cœur des réflexions ») et donc œuvre pour une consultation élargie de ces fonds patrimoniaux que permettent les réseaux informatiques.

La volonté politique d’encourager l’intégration de l’EAD pour les différents services d’archives nationaux fut ensuite soulignée par Catherine Dhérent, chef du département de l’innovation technologique et de la normalisation à la direction des Archives de France. Différentes mesures ont été prises ou sont en cours de développement : la circulaire du 21 juin 2002, la mise en place du portail archivistique français Bora (base d’orientation et de recherche dans les archives), l’écriture de plusieurs DTD pour les documents contemporains (bordereau de versement notamment), la mise à disposition sur le site web des Archives de France de manuels d’accompagnement en français. Cet encodage des données en EAD est considéré comme une première étape, la suivante étant une modélisation plus avancée en XML de la gestion des archives, ainsi que des procédures transactionnelles associées.

Merrilee Proffitt du Research Libraries Group (RLG) fut la représentante américaine de cette journée. La base Archival Resources du RLG 5 est certainement l’une des plus importantes réalisations en EAD actuellement : elle contient 715 000 notices catalographiques et 32 000 guides pour des collections spécifiques ; sa couverture n’est pas exclusivement américaine. Les premières réalisations françaises sont interrogeables dans cette base (résultat d’un partenariat avec les Archives de France). Les développements en cours s’intéressent à l’interface usager pour l’interrogation de ces ressources.

Dominique Coq, de la DLL, Martine de Boisdeffre, directrice des Archives de France, conclurent cette journée. Dans le contexte du développement des contenus numériques accessibles sur des réseaux, furent notamment soulignés le renouvellement commun des pratiques professionnelles des bibliothèques et des archives pour la description documentaire, la nécessaire prise en compte d’un contexte élargi impliquant une coordination internationale renforcée, et enfin, l’importance constante des bonnes pratiques archivistiques afin de respecter les fonds décrits.