Le traitement numérique des documents

par Yves Desrichard

Hubert Fondin

Paris : Hermès, 1998. 382 p. ; 24 cm. ISBN 2-86601-689-0. 290 F

Autant l'annoncer d'emblée : même s'il n'est pas dépourvu d'intérêt, l'ouvrage d'Hubert Fondin ne traite que partiellement de ce qu'il est convenu d'appeler le « traitement numérique » du document : les praticiens confrontés au choix d'un système d'archivage numérique, les bibliothécaires soucieux de proposer à leurs publics l'accès à des fonds de documents numérisés, n'y trouveront pas les éléments nécessaires à un panorama exhaustif du domaine.

Les « informatistes » et le traitement documentaire

Pourtant, l'introduction indique que le propos est de s'attacher à la description du traitement documentaire de l'écrit papier et électronique, et de former les « informatistes » à « la problématique générale de l'information et de son traitement » sous-entendu, pour le lecteur, « information numérisée », dans un contexte où la prégnance du document numérique se fait chaque jour plus grande.

La première partie du livre tente, de manière très fouillée, d'installer un cadre théorique qui résume une fois de plus de larges pans de la théorie de l'information et de la communication. Hubert Fondin désigne les critères qui fondent la notion d'information, à savoir « obsolescence » et « fonctionnalité », et ce qui distingue l'information documentaire d'autres types d'informations, à savoir l'intentionnalité et le caractère utilitaire.

Diégèses absconses et considérations pratiques

Il décrit ensuite, dans une démarche qui mélange étonnamment des diégèses parfois absconses, des considérations pratiques et des exemples souvent justes mais quelquefois insuffisants, les différents types d'information, les objets documentaires, et le premier d'entre eux le texte. S'il note justement que « la notion de document change avec le document électronique », il n'en tire hélas pas les conséquences, ce qui nous vaut de nouveaux chapitres consacrés à la fourniture d'information, à sa recherche et à son traitement, et des survols du monde de l'information scientifique et technique, de son émission et de sa réception classant parmi les vecteurs de ce dernier le « système secondaire » duquel participent peu ou prou bibliothèques et centres de documentation. Un long chapitre évoque « l'intérêt des normes de description bibliographique », dont Hubert Fondin estime pourtant qu'elles sont devenues, avec le document électronique, largement obsolètes et produites de toute façon par et pour les professionnels de l'information ce sur quoi on serait tenté de lui donner raison.

L'heuristique documentaire

Plus avant, c'est aux techniques d'analyse documentaire qu'il s'essaie, évoquant les techniques d'indexation en langage naturel, toujours en devenir après quelques dizaines d'années de recherches et de développement, et les langages documentaires. Puis c'est au tour de « l'heuristique documentaire », ou comment apprendre à bien chercher : formulation de la recherche, équation et évaluation sont les maîtres mots d'un chapitre bienvenu, car ce thème est rarement traité dans les ouvrages de ce genre.

Si les développements sur la « recherche d'informations assistée par ordinateur » (RIAO) complètent utilement cette partie, il n'en est pas de même du chapitre consacré à la « mémoire documentaire », où l'auteur mélange de vagues évocations des « mémoires collectives », et une tentative de définition de la donnée, décrite comme une « transformation de l'information... pour en permettre... le traitement manuel ou automatisé ».

Cette première partie théorique a le mérite d'être fortement charpentée, et d'offrir des variations usuelles mais correctes de sujets qui, comme on le devine, ont maintes fois été débattus. On restera plus sceptique sur les schémas d'une complexité souvent décourageante, qui alourdissent le propos sans être forcément utiles à la compréhension.

Les développements techniques

C'est, en fait, la seconde partie, consacrée aux développements techniques, et dont on attendait beaucoup, qui se révèle la plus décevante. Après une mini-histoire de l'informatique, quelques développements sur les nouvelles technologies de l'information et de la communication et l'annonce d'un « système global d'information documentaire » qui ne constitue pas une bouleversante avancée, l'auteur s'attelle enfin à ce qui aurait dû constituer le coeur de l'ouvrage, le traitement informatisé des données textuelles puisqu'il a décidé de limiter à cela la notion de « document ». En fait, le contresens est presque total : traitant dans un éclair des modes de saisie et des supports de stockage, évoquant l'analyse automatique du texte et les techniques d'OCR (reconnaissance optique de caractères), puis s'égarant dans une énumération inutilement fouillée des modes de recherche documentaire, l'auteur vient clore, par quelques lignes sur les techniques de téléchargement et les formats d'échange, un chapitre où l'on n'apprend pas grand chose, et rien de nouveau assurément. Le dernier chapitre, qui propose d'établir le cahier des charges d'une base de données relationnelle, laisse abasourdi le lecteur professionnel dont le souci primordial est, justement, d'acquérir un système de gestion de base de données « clé en main », ou, encore mieux, un progiciel intégré largement paramétrable, et non de créer de toutes pièces ce que le marché propose déjà en abondance !

Un travail de spécialiste

Qu'en guise de conclusion, l'auteur souligne que « le traitement informatisé du document écrit » reste un « véritable travail de spécialiste », assurant par là les « informatistes » de la pérennité de leurs fonctions, pourra, dans ces conditions, être perçu comme une pirouette un peu amère... La seconde partie de l'ouvrage, en fait pas assez technique, n'apporte pas ce qu'on était en droit d'attendre. La première, plus théorique, contentera cependant les amateurs du genre.