La numérisation des textes et des images

techniques et réalisations

par Yves Desrichard
textes réunis et éd. par Isabelle Wesreel, Martine Aubry. Villeneuve-d’Ascq : Presses de l’université Charles de Gaulle - Lille III, 2003. – 190 p. ; 24 cm. – (Collection UL3. Travaux et recherches). ISBN 2-84467-050-4 : 17 €

La numérisation des textes et des images : techniques et réalisations rassemble les contributions à deux journées d’études, les 16 et 17 janvier 2003, coordonnées par le conseil scientifique de l’université Charles de Gaulle de Lille III. Les textes ont été rassemblés par Isabelle Westeel, du Service commun de la documentation de Lille III, et Martine Aubry, du Centre de recherches sur l’histoire de l’Europe du Nord-Ouest, dépendant lui aussi de l’université de Lille III.

Même si l’ensemble est d’inégal intérêt, il convient avant tout de saluer cette initiative éditoriale, rare dans nos professions où, si les rassemblements ponctuels sur des sujets souvent pointus se multiplient, on ne dispose pas toujours in fine du texte des exposés. Tout en regrettant que certaines ne soient pas disponibles en ligne, il y a là un utile corpus de contributions diverses sur la numérisation et, plus largement, sur la constitution de ces fameuses « bibliothèques numériques » où les projets et réalisations français sont plus nombreux et plus diversifiés qu’il n’y paraît, souvent occultés par l’indéniable réussite que constitue Gallica, la magnifique bibliothèque numérique de la Bibliothèque nationale de France.

Une synthèse claire sur l’EAD

Comme il n’est pas possible de présenter, même succinctement, la quinzaine d’articles collectés, on insistera plus particulièrement sur quelques-uns, les plus remarquables ou les plus éclairants.

C’est le cas de « EAD, la description archivistique encodée » de Fabienne Queyroux, qui est sans doute la synthèse la plus claire sur l’Encoding archival description qu’on puisse lire. On peut définir l’EAD comme un format de description de sources archivistiques et de sources sur les archives, qui utilise le métalangage XML (Extensible Markup Language). L’EAD permet de décrire dans un format normalisé tout à la fois les inventaires d’archives, les catalogues de manuscrits, etc. – c’est-à-dire tous les outils descriptifs de fonds qui sont à la base du travail de description et de recherche archivistique – et les fonds eux-mêmes, ce qui le distingue par exemple des formats stricts de catalogage bibliographique. Comme toujours, les archivistes américains ont été les pionniers de l’utilisation de ce standard (qui n’est pas encore une norme), mais quelques projets français sont déjà en plein développement, notamment aux Archives nationales.

Des projets diversifiés

Les deux articles consacrés à NordNum, bibliothèque numérique d’histoire régionale du Nord-Pas-de-Calais, rédigés par Isabelle Westeel et Martin Sévigny, sont eux aussi des synthèses précises et absolument complémentaires. Isabelle Westeel s’intéresse aux aspects administratifs et bibliothéconomiques du projet, tandis que Martin Sévigny propose un aperçu beaucoup plus technique mais qui ne semble jamais ni abscons ni fastidieux. On pourrait seulement regretter l’absence d’illustrations, mais, bien évidemment, il suffit d’aller, livre à la main, sur le site de NordNum pour comparer explications et réalisations…

La même remarque vaut pour la présentation modeste d’un projet ambitieux, celui du Conservatoire numérique des arts et métiers, faite par Pierre Cubaud et Geneviève Deblock. Il s’agit là d’une réalisation exemplaire à plus d’un titre : d’abord parce qu’elle associe étroitement et harmonieusement bibliothécaires, informaticiens et chercheurs. Ensuite parce que les thématiques ont été précisément définies et que le souci premier a été celui d’un développement raisonné, sans être forcément spectaculaire.

« Le journal de Corberon. Édition numérique ou édition électronique ? », projet présenté par Dominique Taurisson, du Centre national de la recherche scientifique, relève d’une tout autre démarche. Elle n’en est pas moins absolument passionnante, puisqu’il s’agit – au-delà de la « simple numérisation » de ce texte, journal du chevalier Marie Daniel Bourrée de Corberon, écrit entre 1775 et 1781 et entre Paris et Saint-Pétersbourg – de constituer autour de cet ensemble une base documentaire (d’aucuns diraient, le concept est à la mode, une « base de connaissances ») qui prolonge la lecture du journal en s’intéressant aux sujets abordés, à des documents images ou sons, voire en constituant un véritable thésaurus à partir des relations de de Corberon… Travail foisonnant, étrange et pour le moins enthousiasmant !

L’aspect technique

Le projet Corberon fait appel à des techniques de reconnaissance de caractères sophistiquées : l’ensemble de ces techniques et les problèmes posés par la reconnaissance optique de caractères (OCR) sont parfaitement mis en perspective dans « La reconnaissance dans les images numérisées : OCR et transcription, reconnaissance des structures fonctionnelles et des métadonnées », cosigné par Hubert Emptoz, Franck Lebourgeois, Véronique Eglin et Yann Leydier. Pré-traitements des images, séparation encre/papier, transcription assistée, reconnaissance des structures, reconnaissance des formules de mathématiques, etc. sont passés au crible avec précision. Où l’on constate par exemple que la mise en page d’un journal, rapidement intelligible au lecteur moyen, reste souvent un obstacle insurmontable pour les logiciels les plus évolués, si « apprenants », soient-ils.

Cet ensemble est utilement complété (sans trop de redondances) par la présentation des « Techniques de numérisation » par Edmond Fernandez, de la Direction des archives de France, qui propose un utile vade-mecum sur des notions connues mais peu maîtrisées parfois comme la résolution, la taille des images, le taux de compression, le poids des images… en regard des choix préalables qui doivent dicter les caractéristiques de la numérisation envisagée.

Enfin, Martine Aubry propose avec « Libris : images régionales et recherche » une base de données multimédia du patrimoine régional encore en large devenir, mais prometteuse, et qui prouve en tout cas que l’on peut satisfaire bien des besoins d’usagers sans pour autant mobiliser de considérables financements.

Au total, un ensemble enrichissant incluant quelques textes de référence utiles à tout professionnel souhaitant mettre en œuvre un projet de numérisation.