Mise en ligne des fonds patrimoniaux

Noëlle Balley

Maintenant que les bibliothécaires savent tout ou presque sur la création des documents numériques, de nouveaux thèmes d’étude et de préoccupation se font jour, à commencer par la conservation des données numériques, sur laquelle fleurissent actuellement les articles et journées d’information. La mise en ligne des documents n’a quant à elle suscité que peu de littérature professionnelle : le sujet ne va cependant pas de soi, comme le rappelle le résultat surprenant de l’enquête menée par la mission recherche et technologie du ministère de la Culture : 52 % des documents numérisés par les établissements culturels français ne sont toujours pas en ligne ! C’est dire si les obstacles sont nombreux et les questions multiples.

La journée proposée par l’agence de coopération champenoise Interbibly à la médiathèque de l’agglomération troyenne, le 22 novembre 2007, était donc particulièrement bienvenue.

Quels documents pour quels publics ?

Elle débuta par une présentation très concrète et détaillée des processus mis en œuvre par la BIUM (Bibliothèque inter-universitaire de médecine) pour sa belle bibliothèque numérique Medic@ 1 : l’organisation du projet, les acteurs, les bases de données, les logiciels, le temps passé, tous les aspects furent traités de manière très précise. S’agissant d’une bibliothèque destinée en priorité aux chercheurs, l’accent est mis sur la richesse de l’indexation et les clés d’accès aux contenus. À l’inverse, dans les archives et bibliothèques municipales, la numérisation cherche d’abord à mettre le patrimoine à la portée du grand public, et notamment des enfants : sites attrayants au graphisme soigné, dossiers pédagogiques, parcours de visite accompagnée, jeux, présentation des plus belles pièces, mise en ligne prioritaire de documents d’intérêt local ou généalogique sont privilégiés, parfois au prix d’une « numérisation gadget », comme le regrette Geoffroy Gressin (médiathèque de l’agglomération troyenne), même si toutes les institutions concernées mettent également en ligne des corpus de sources historiques à l’attention des chercheurs. Les archives départementales de l’Aube, par exemple, panachent une « chasse au trésor virtuelle » à l’intention des enfants, des documents primaires concernant l’Occupation, et les inévitables registres d’état civil que tous les services d’archives numérisent en priorité pour la communauté des généalogistes (Céline Guyon). On sait gré aux trois intervenants d’avoir insisté aussi concrètement sur les aspects organisationnels et logiciels de leurs programmes de numérisation. Dans un cas comme dans l’autre, l’indexation (et parfois l’absence de gestion électronique des documents) est bien le goulot d’étranglement : la mise en ligne d’un fonds dans l’année calendaire de sa numérisation semble relever de l’exploit.

Résultats et recherche

C’est donc avant tout le public visé qui détermine les choix de mise en ligne, la navigation et les outils d’accès aux documents. Mais pour quel résultat ? Louis Burle, directeur de la médiathèque de l’agglomération troyenne, affirme tout haut ce qui se murmurait depuis quelque temps : la fréquentation des bibliothèques numériques n’est pas à la hauteur des investissements consentis. Le magnifique site de la médiathèque troyenne 2 accueille tout de même 200 visiteurs par jour, avec une préférence pour les documents d’intérêt local, ce qui peut paraître dérisoire au regard des 15 millions de pages mensuelles de Gallica. Le référencement dans les moteurs de recherche, insiste Louis Burle, est une condition sine qua non du succès et de la pérennité de tels programmes.

Élisabeth Gautier-Devraux (archives départementales des Yvelines) présentait ensuite des projets de recherche, menés par son établissement en partenariat avec l’Inria (Institut national de recherche en informatique et en automatique) et l’Insa (Institut national des sciences appliquées) de Rennes : les archives des Yvelines bénéficient en effet d’une forte implication du conseil général dans les technologies innovantes. Celui-ci a financé deux thèses, l’une sur la reconnaissance optique des caractères manuscrits (qui, sur des écritures très stéréotypées du XIXe siècle, donne des résultats intéressants mais encore fragiles), l’autre sur la reconnaissance automatique de structures, par exemple pour masquer des données protégées par la loi dans un formulaire administratif. Un autre travail est en cours, sur la transcription automatisée de textes manuscrits cursifs. Un outil collaboratif d’annotations est proposé aux chercheurs. Contrairement aux bibliothèques, qui ont commencé par l’informatisation de leurs catalogues, les archives ont privilégié la mise en ligne de documents primaires : la numérisation des instruments de recherche est en cours.

Enfin, deux prestataires venaient présenter leurs produits : Éric Délot, pour Archimed, proposait un voyage à travers différents portails documentaires mis en place par sa société. Gilbert Tommasi (société BIT) présentait avec beaucoup d’assurance son logiciel d’OCR, dont les performances, paraît-il, dépassent de beaucoup celles du leader mondial du marché : la démonstration, sur des imprimés anciens mêlant plusieurs typographies, semblait en effet convaincante.

Au total, une journée très réussie et pleine d’intérêt, qui répondait à un grand nombre d’interrogations de la manière la plus concrète, tout en ouvrant des perspectives sur des technologies prometteuses. On regrette seulement que les programmes présentés soient, pour l’instant, uniquement en mode image, ce qui n’a pas permis d’aborder la question de l’océrisation et de la structuration des contenus. Il est vrai que la problématique est, pour l’instant, plus « BU » que « patrimoine » – mais qui sait ?