Le projet Dieper

Coordonner les initiatives de numérisation

Carole Letrouit

Les initiatives en matière de numérisation se multiplient. Elles devront cependant proliférer encore avant de surmonter la masse des documents à traiter. Or, l’ardeur déployée risque de retomber si trop d’opérations se recouvrent, au lieu de se compléter, et si des options techniques divergentes conduisent à créer des fichiers non lisibles par tous. Qui plus est, ces efforts se dilueront dans la vaste toile si les utilisateurs ne disposent pas d’un mode d’accès unifié aux ressources en texte intégral. Coordonner devient un impératif.

Le projet Dieper (DIgitised European PERiodicals), financé par l’Union européenne, poursuit cet objectif. Il fournit un point d’accès centralisé aux ressources numérisées et préconise l’adoption de certains standards pour les initiatives à venir. Neuf pays y participent. Piloté par l’université de Göttingen, il a débuté en novembre 1998 et s’achèvera en janvier 2001. Le Service commun de la documentation de Paris 5 est partenaire associé.

Le recensement de l’existant

Sur le modèle de Eromm (European Register of Microform Master), une base de données recense les périodiques numérisés ou en cours de numérisation dans le monde. Ces informations ont été collectées grâce aux partenaires et à la publicité faite à ce projet. Les établissements souhaitant signaler des documents qu’ils ont numérisés disposent d’un formulaire sur le Web 1 qui distingue les informations sur l’original papier de celles qui portent sur la reproduction numérique du périodique. Les notices ainsi créées sont en Unimarc. Les caractéristiques du fichier électronique sont entrées dans la zone 135 d’Unimarc, ce qui a nécessité une élaboration du format en cours de validation par le Puc (Permanent Unimarc Committee). Treize positions codées décrivent le son, la couleur, le support, la résolution… Cette codification évite les distorsions qu’introduisent immanquablement les règles et langues de catalogage. Cette méthode avait déjà été adoptée pour la description des microformes (zone 130 d’Unimarc). Un lien est établi avec les sites qui hébergent les documents.

Les ressources restent disséminées, mais un moteur de recherche permet une requête unique sur des sites multiples. Celle-ci peut porter non seulement sur les titres de périodiques, mais aussi sur ceux des articles et des parties, voire sur le texte intégral, tout dépend des techniques de numérisation employées. Un format d’échange de données a été défini afin de pouvoir utiliser pleinement les capacités du moteur de recherche. Il reprend les recommandations détaillées ci-dessous (RDF/XML et TEI/XML). Les utilisateurs se voient ainsi offrir un point de départ pour toute recherche sur des articles en texte intégral 2.

Au terme du projet, l’infrastructure bâtie pour Dieper doit persister. Les conditions de viabilité d’un service permanent de cette nature sont à l’étude. Les partenaires du projet accordent une importance particulière à ce point.

Les recommandations

Afin d’émettre des recommandations sur les standards à privilégier, le processus de numérisation a été étudié de façon très concrète. Six revues de mathématiques du XVIIIe siècle à nos jours ont été soigneusement sélectionnées. La focalisation sur une discipline garantissait une plus grande pertinence des tests effectués par les utilisateurs. Ces revues ont été soumises à des essais comparatifs en matière de capture d’image, d’indexation, de structuration et de gestion de documents. À l’issue de ces essais, les recommandations suivantes sont énoncées :

– adopter une résolution minimale de 600 dpi pour la scannérisation ;

– sauvegarder les images en Tiff ;

– convertir en Gif, PNG ou Jpeg pour la visualisation sur le Web ;

– indiquer les metadata en Dublin Core et les informations sur la structure du document en RDF/XML ;

– sauvegarder le fichier résultant de l’OCR en TEI/XML ;

– identifier tous les documents par un URN (Unique Resource Number) qui permet la recherche sur le Web indépendamment des URL. Le système d’identification des DOI (Document Object Identifier) n’est pas adéquat pour des projets tels que la numérisation de périodiques qui ont une faible valeur commerciale. L’article de Catherine Lupovici paru dans Documentaliste-Sciences de l’information éclaire ces choix pour le lecteur francophone 3.

La question des droits n’est pas éludée dans Dieper. Un partenariat a été signé avec le projet Tecup, lui aussi financé par l’Union européenne. Un premier projet (Ecup : European Copyright User Platform Concerted Action) avait eu pour ambition de discuter avec les auteurs, éditeurs, agences d’abonnement et bibliothécaires dans le but d’esquisser une licence type réglementant l’utilisation des documents électroniques. Cependant, il est apparu nécessaire de se référer à des expérimentations concrètes. Tecup vise donc à analyser les modèles mis en oeuvre dans un certain nombre de projets partenaires. En fait, l’objectif principal est d’amener tous les acteurs à collaborer dans le cadre de diverses entreprises, de façon à ce que les points de vue se rapprochent progressivement et qu’enfin un modèle économique émerge de ces échanges multiples.

Parallèlement, les partenaires de Dieper suivent de près les évolutions d’Ingenta 4 qui offre pour les périodiques numériques « de naissance » des services similaires à ceux que Dieper prévoit pour les périodiques numérisés.

La conférence de Copenhague

La conférence qui s’est tenue à la Bibliothèque royale de Copenhague les 13 et 14 mars 2000 procédait explicitement de ce besoin d’élaborer maintenant une politique européenne de numérisation et d’accès aux documents numériques. Elle était intitulée : Digitising Journals : Conference on Future Strategies for European Libraries et organisée conjointement par Liber (Ligue des bibliothèques européennes de recherche), la Danish National Library Authority, Dieper et Nordinfo. Elle avait pour objectif de préparer le terrain pour le développement de politiques nationales et d’identifier des domaines précis de coopération internationale.

À tout seigneur, tout honneur. La communauté des utilisateurs devait prendre la parole en premier. Elle s’exprima par la voix de Jean-Pierre Bourguignon, de l’Institut des hautes études scientifiques, ancien président de la Société européenne de mathématiques. Il évoqua les réalisations en cours dans le secteur des mathématiques qui offre l’avantage de ne compter que 400 périodiques environ. Selon lui, le mode d’accès le plus efficace aux documents numériques passerait par des liens établis à partir des bases bibliographiques vers le texte intégral des articles. Cette méthode peut d’autant mieux s’appliquer à la production mathématique que celle-ci est déjà recensée de façon quasi exhaustive dans deux ou trois bases de données. De fait, Jstor a entamé des négociations pour relier les articles numérisés par ses soins aux références de la base Mathematical Reviews. Jean-Pierre Bourguignon a insisté sur la nécessité d’anticiper les inévitables évolutions des standards afin de préserver à tout prix l’accès aux données anciennes. L’obsolescence n’existe pas en mathématiques. Et cet accès doit rester public dans la mesure où ces données font partie du patrimoine humain.

Elib, Delta, DigiZeit

Trois programmes nationaux ont ensuite été présentés : Elib (UK Electronic Libraries Programm), Delta pour les Pays-Bas et DigiZeit pour l’Allemagne.

Les projets Dieper et Jstor illustraient eux une approche multinationale de la problématique. À l’origine, Jstor 5 émane de la Fondation Andrew W. Mellon (États-Unis) et cherche à déterminer si la numérisation permet de réduire les coûts de stockage des collections de périodiques et d’améliorer en même temps l’accès à celles-ci. En cinq ans, cette organisation à but non lucratif a engrangé dans ses bases le texte de 120 titres de périodiques libres de droits en remontant loin dans le XIXe siècle, ce qui représente cinq millions de pages dans quinze disciplines différentes. Sept cents institutions académiques participent à ce jour à ce travail collectif, dont 550 aux États-Unis. Jstor emploie quarante personnes et dépense un à trois dollars pour chaque page traitée. Les documents sont numérisés en mode image et en mode texte. De cette expérience Kevin Guthrie et son équipe ont tiré plusieurs leçons : l’acquisition et la préparation du matériel source, c’est-à-dire des supports papier, exigent un travail largement sous-évalué dans la plupart des projets. Par exemple, chaque page est examinée par un oeil humain afin de détecter au préalable les difficultés de scannérisation. Un projet de numérisation ne peut être mené à bien à petite échelle, les moyens techniques et humains nécessaires fixent un seuil de faisabilité.

Trois communications portaient sur les standards préconisés par Dieper. Celle de Juha Hakala, de la bibliothèque universitaire d’Helsinki, abordait des thèmes particulièrement intéressants pour les bibliothécaires : les metadata et les identifiants. L’orateur a comparé les trois façons existantes de créer les metadata nécessaires pour accéder aux documents électroniques : le catalogage dans un format Marc, l’indexation du texte intégral ou l’insertion de metadata dans des documents structurés. Dieper a retenu cette dernière solution (Dublin Core-RDF/ XML). Concernant l’identification des périodiques électroniques, Juha Hakala a souligné le rôle que devrait jouer le standard Sici (Serial Contribution Identifier Standard-ANSI/NISO Z39-56-1996 Version2) qui englobe l’ISSN et peut aisément être inséré dans les URN.

Un modèle européen de bibliothèque électronique

La seconde journée de cette conférence permit d’amorcer une réflexion plus théorique sur un modèle européen de bibliothèque électronique. Quels sont les sujets qui peuvent être traités à l’échelon européen ? Comment organiser la numérisation à l’échelle européenne sachant que les ressources numérisées et reformatées ne constituent qu’une part de cette bibliothèque électronique qui inclut aussi les catalogues collectifs et les ressources électroniques « de naissance » ? D’après le directeur de la bibliothèque universitaire d’Helsinki, Esko Häkli, il est parfaitement irréaliste d’envisager une négociation et une gestion des licences d’accès à ce niveau. En revanche, l’Europe doit élaborer des critères de sélection des collections à numériser et ne pas se borner à coordonner les résultats des programmes nationaux. Elle doit encourager le choix de documents d’intérêt européen tout en donnant la place qui leur revient aux publications dans des langues « mineures ». Elle peut aussi recommander l’adoption de standards et guider dans leur mise en oeuvre. Organiser l’accès aux données numériques sous la forme d’un portail unique ouvrant sur des ressources disséminées constitue une mission majeure. Des pays créent déjà leur propre point d’accès à leurs collections électroniques. Faut-il distinguer les voies conduisant aux données numérisées de celles menant aux ressources numériques « de naissance » ? En matière d’archivage électronique, l’Europe peut également jouer un rôle décisif, mais là aussi les initiatives nationales fleurissent.

Cette conférence a réuni des participants de vingt-deux pays européens. Elle a permis des prises de contact fructueuses, en particulier entre les représentants de Gallica, Jstor et Dieper, puisqu’il a été convenu que la Bibliothèque nationale de France et Jstor fourniraient leurs notices bibliographiques pour l’alimentation de la base Dieper.

Cette réflexion sur les perspectives de coopération européenne dans le domaine de la numérisation doit être poursuivie par un groupe de travail 6 qui s’est réuni pour la première fois à l’occasion de la Conférence annuelle de Liber en juin 2000.