Bibliothèques numériques
Institut national de recherche en informatique et en automatique
Bien que le thème des bibliothèques numériques soit omniprésent dans notre milieu professionnel, peu de présentations d’ensemble ont paru jusqu’ici en français. On ne manquera donc pas la publication d’un récent cours organisé par l’Inria (Institut national de recherche en informatique et automatique), surtout lorsqu’on connaît la qualité des précédentes livraisons élaborées par Jean-Claude Le Moal et Bernard Hidoine, comme le remarquable cours de 1994 sur le Traitement électronique des documents 1.
Les contributions dont se compose le volume, sobrement intitulé Bibliothèques numériques, abordent le champ de cette problématique de manière désormais classique. Les aspects suivants sont couverts : techniques (notions de langage structuré et métadonnées), politiques (programmes de numérisation publics), économiques (offre commerciale de documents électroniques) et juridiques (conséquences sur le droit d’auteur).
La numérisation par les bibliothèques
La première contribution analyse et classe les nombreuses initiatives de numérisation de collections déjà menées par les bibliothèques. Ce panorama – qui écarte délibérément les réalisations françaises – est assorti d’une (salutaire) réflexion critique : ces ensembles sont disparates et partiels ; quel public visent-ils ? – les chercheurs, les amateurs ou les deux ? Le lecteur se demande en effet si les nouvelles missions que s’assignent ainsi les bibliothèques ne sont pas en porte-à-faux avec leurs tâches primordiales.
Le fait de mettre à disposition des documents traditionnels sous forme numérique s’apparente à de l’édition de contenu. Les bibliothèques devancent les véritables éditeurs commerciaux là où ceux-ci s’aventurent peu, soit le patrimoine ancien. L’article de Jean-Michel Salaün est très éclairant sur cette apparente confusion des genres. La logique de la bibliothèque (satisfaire l’ensemble des besoins documentaires d’une clientèle limitée) s’oppose à celle de l’éditeur (satisfaire un maximum de clients au moyen d’un nombre réduit de titres). Si les bibliothèques deviennent, sans toujours s’en rendre compte, des maisons d’édition en sélectionnant les ouvrages de leurs fonds qui accéderont à l’existence numérique, les éditeurs empiètent également sur les prérogatives des bibliothèques et, dans certains secteurs, tendent à contrôler de façon exclusive l’offre documentaire grâce à des collections de plus en plus complètes, obtenues à la faveur des multiples concentrations qu’a connues l’univers éditorial.
Ghislaine Chartron observe depuis plusieurs années l’offre de l’édition électronique commerciale. Elle clarifie les positions dans cette profusion de produits, et souligne combien le paysage électronique en sciences humaines diffère structurellement de celui des STM (sciences, techniques et médecine). Les bibliothèques ont réagi à l’opacité de ce marché en mettant à profit leur tradition collaborative : la montée des consortiums de fourniture de ressources documentaires électroniques – dont le succès est surtout visible dans les pays nordiques ou à tradition anglo-saxonne – en témoigne.
Contrairement à ce que l’on entend parfois, l’information numérique ne s’exerce pas dans un vide juridique. Comme toute autre forme d’information, elle dépend des mêmes principes juridiques, le droit d’auteur par exemple. Des précisions seraient néanmoins nécessaires dans les législations, tentant un difficile équilibre entre le principe de rémunération des ayants droit et celui du droit à pouvoir s’informer. L’issue des négociations en cours, tant sur le plan européen qu’international, sera lourde de conséquences pour les institutions publiques.
Aspects techniques
Le livre approche aussi des aspects plus techniques, mais accessibles. Un article a trait à la numérisation en mode texte. L’acquisition automatique du texte à partir d’un document imprimé par OCR (Optical Character Recognition) fait toujours l’objet de recherches intensives, tant les enjeux sont importants : supprimer l’intermédiaire humain, indispensable pour la correction du texte obtenu, mais terriblement coûteux. La notion de document structuré, qui prolonge le texte brut, est un apport très prometteur des techniques numériques. La distinction essentielle entre apparence physique et structure logique est difficile à saisir dans un monde encore dominé par l’imprimé. Dans ce contexte, la jeune norme XML (eXtensible Markup Language) fait l’objet d’un engouement très large en informatique. Son potentiel dans le champ documentaire est prometteur, notamment dans la représentation des métadonnées, comme l’expose de manière pertinente un autre article.
Les différentes contributions se prolongent harmonieusement et offrent un remarquable aperçu des enjeux des bibliothèques numériques. Nous regrettons seulement, parmi les présentations à caractère technique, l’absence d’une approche de la numérisation en mode image. Non seulement elle est à la base de la filière textuelle des documents numériques obtenus par le traitement OCR, mais l’image garde une valeur informationnelle essentielle en tant que fac-similé de l’original dont les programmes de numérisation patrimoniaux ne peuvent se passer.