Le traitement électronique du document

par Yves Desrichard

Institut national de recherche en informatique et en automatique

cours INRIA, 3-7 octobre 1994, Aix-en-Provence. Paris : ADBS Éditions, 1994. – (Sciences de l’information : études et techniques). – 287 p. ; 24 cm. ISBN 2-901046-76-2 : 280 F

Les activités de l’INRIA (Institut national de recherche en informatique et en automatique), tant pour ce qui concerne les programmes de recherche en matière de développements informatiques que pour ce qui est de la diffusion de l’information scientifique et technique sur ces sujets, sont bien connues. L’INRIA est, en particulier, le « correspondant » français d’Internet, même si, eu égard au mode de fonctionnement de ce méta-réseau, le terme paraît peu approprié.

Pendant longtemps, les activités de l’INRIA n’ont concerné que de très loin les bibliothécaires et documentalistes, à l’exception de ceux possédant une culture informatique plus que solide, voire une pratique avancée. Signe des temps et évolution des techniques, depuis quelques années, la confluence d’intérêts et de préoccupations s’accentue, jusqu’à aboutir à une série de documents, issus d’autant de cours et séminaires, dont l’un, malheureusement diffusé de manière par trop confidentielle à l’époque (1990), était consacré au document électronique.

Quatre ans plus tard, une nouvelle édition (correspondant à une nouvelle session) de ce séminaire paraît aux éditions de l’ADBS (Association des professionnels de l’information et de la documentation) et, plus largement qu’au document électronique stricto sensu, s’intéresse à ses modes de traitement, élaboration, création, diffusion, indexation, accès 1... La qualité de synthèse, la tenue documentaire et l’aspect prospectif de l’ensemble des interventions font que, si certaines parties de l’ouvrage seront rapidement obsolètes, l’ensemble est d’un intérêt qui dépasse largement l’anecdotique et le factuel.

Dans son introduction, Jean-Claude Le Moal souligne que le changement de titre, entre la version 1990 et la version 1994 du séminaire, n’est pas de pure convention, mais traduit un changement profond dans la nature même de ou plutôt des exploitations possibles du document électronique : s’il y a à peine cinq ans, le document électronique était perçu comme devant inéluctablement, en bout de chaîne, se concrétiser en un document papier, il n’en est plus de même aujourd’hui, où l’ensemble de la chaîne qui va de la création à l’exploitation de ce type de document est entièrement dématérialisée, non seulement sur un plan théorique et technique, mais surtout sur un plan applicatif. En d’autres termes, et même si le papier demeure dominant dans la majorité des usages, il existe un ensemble toujours grandissant d’applications où les documents, conçus électroniquement, sont utilisés de même, sans que l’usager s’en étonne.

Dématérialisation et non-interventionnisme humain

Cette dématérialisation de la chaîne « éditoriale », l’ensemble des exposés la traduisent et la développent. S’y ajoute une évolution que l’on peut qualifier de « non-interventionnisme humain » : si, aux deux bouts de la chaîne (création/utilisation), se trouve encore l’utilisateur humain, nombreuses sont les applications qui s’efforcent de s’affranchir de son intervention dans les autres maillons, avec plus ou moins de succès selon les domaines et les projets.

Dans son intervention, « Édition de documents structurés », Vincent Quint décrit d’une manière claire les concepts de base de la structuration des documents dès leur étape de création : structure physique, qui évoque à chacun d’entre nous son traitement de texte ou son logiciel de publication assistée préféré, mais aussi, plus difficile à appréhender, structure logique du document, où l’on gère à la fois du texte (surtout) et les liens qui les régissent, les attributs qui en gouvernent l’ordonnancement et la présentation. Il présente ensuite le langage SGML (Standard generalized markup language), « exploitation » logicielle des concepts exposés, destiné à faciliter la gestion des documents électroniques dans leur portage entre des applications hétérogènes, ou leur exploitation par des supports de diffusion différents (papier, CD-Rom, Vidéotex). A SGML, sont venus s’ajouter DSSSL (Document style semantics and specification language) et SPDL (Standard page description language), qui ont charge « d’accompagner » les documents SGML, pour les décrire qui du point de vue de la sémantique (DSSSL), qui du point de vue de leur présentation physique (SPDL). Si l’on parvient à maîtriser les aspects conceptuels de telles normalisations – ce qui est loin d’être évident – on restera dubitatif sur leur facilité d’usage dans un contexte quotidien : visiblement et pour l’instant, de tels outils sont plutôt destinés aux professionnels de l’édition.

Dans « Analyse et reconnaissance de documents », Abdel Belaïd présente les recherches actuelles sur les procédés de numérisation des documents traduisant des documents papier en fichiers de type ASCII, c’est-à-dire exploitables informatiquement, et non la scannérisation, qui s’apparente plutôt à une sorte de « photographie informatique » : exposant les principes de la segmentation physique des documents, puis de l’étiquetage logique des parties ainsi définies, il explique les différentes stratégies possibles dans ces deux modes de reconnaissance, avant de présenter une application qui intéressera tous les professionnels de la documentation (et en fera rêver plus d’un !) : la conversion rétrospective du catalogue de la Bibliothèque royale Albert Ier de Belgique, où des tests de rétroconversion automatisée en format Unimarc ont été réalisés, avec un « taux de reconnaissance » de près de 85 %... mais sans qu’on sache exactement ce que recouvre le terme « taux de reconnaissance » et, par conséquent, à quelle réalité correspond ce pourcentage plus qu’honorable.

Catherine Lupovici, dans le même ordre d’idée, mais avec un pragmatisme dû sans doute à ses activités au sein de la société Jouve Systèmes d’Information, propose une courte mais solide synthèse des différents types de documents électroniques, des différents biais de leur diffusion (la trilogie « services en ligne/mémoires optiques/papier ») et des stratégies afférentes. Elle présente ensuite succinctement (hélas) des projets aux noms quelque peu ésotériques, tels Capcas, Core (Chemistry online retrieval experiment), Elsa (Electronic library SGML application) et autres Tulip (The University licensing program), qui s’efforcent dans un cadre documentaire d’utiliser les techniques les plus avancées d’élaboration et de diffusion de documents électroniques. Il faudra suivre, dans la presse spécialisée, les comptes rendus de ces expériences – et leurs suites éventuelles. Certaines d’entre elles associant des éditeurs privés bien connus notamment dans les bibliothèques universitaires (Springer, Elsevier), nul doute que de tels projets, s’ils sont couronnés de succès, concerneront bientôt nombre de bibliothécaires et documentalistes.

Indexation humaine versus indexation automatique

Luc Ottavj, dans « Internet et outils de recherche documentaire » fait une fois de plus le point sur le sujet à la mode dans les médias grand public comme spécialisés, si l’on veut bien le combiner avec l’idée d’« autoroutes de l’information », et avec l’assurance qu’Internet, tout comme les-dites autoroutes, sera (en fait, est) multimédia ou ne sera pas. Mais, là où d’autres mettent en exergue les services de commande, via Internet, de « cyberpizzas », Luc Ottavj, on s’en doute, propose une tout autre approche : dépassionné quoique passionnant, clair quoique foisonnant, son exposé ne prétend pas remplacer des séances d’initiation à l’utilisation d’Internet, mais donner aux professionnels les principes de base sur ce méta-réseau : origine, historique, phases de développement, mode de fonctionnement actuel, prospective ; réseaux, protocoles, logiciels de connexion, liens, coûts, principaux produits et services proposés (Mail, Gopher, Wais (Wide area information servers), WWW (World wide web), FTP (File transfer protocol). Pas de folklore, pas de sensationnalisme et, même si d’aucuns regretteront le ton professoral de l’exposé, loin des élans des adeptes du net surfing (sic), les professionnels plus soucieux de développer leurs activités et d’améliorer leurs services plutôt que de céder aux sirènes médiatiques, fussent-elles ministérielles, feront de ces trente pages leur « bible Internet ».

Pierre Le Loarer, dans « Indexation automatique, recherche d’information et évaluation », s’inscrit lui aussi dans la lignée non interventionniste relevée plus haut : cette fois-ci, il ne s’agit pas de se substituer au travail de dactylographes éventuellement formés à l’utilisation des formats de type Marc, mais bien de professionnels plus ou moins hautement spécialisés, chargés d’une tâche « sacrée » entre toutes dans la mythologie des métiers du monde de la documentation, l’indexation documentaire, c’est-à-dire la description dans un langage synthétique du contenu d’un document, pour (du moins en théorie) faciliter l’accès à ce document par les usagers.

Présentant d’abord ce qu’il s’agit d’indexer, Pierre Le Loarer développe ensuite longuement les différentes méthodes, humaines ou automatiques, plaçant pour ce faire les unes et les autres dans un contexte « d’opposition », non par souci de la provocation, mais parce qu’il a bien conscience des implications sociologiques ou psychologiques de ses propositions : on remarquera en passant qu’il est le seul à faire montre de tels soucis, pour le regretter – même si Jean-Claude Le Moal, dans son introduction, souligne qu’il s’agit d’un ouvrage avant tout technique et applicatif.

Après avoir énuméré les différents modèles d’indexation (à plat, pondérée, à facettes, à rôles, structurée, sans ou avec langage contrôlé...), il présente les différentes techniques d’indexation automatique élaborées à partir de ces modèles, en en montrant les avantages respectifs lors des processus de recherche : traitements morpho-lexicaux, syntaxiques, sémantiques, pragmatiques, statistiques, par agrégation... sont successivement abordés, et permettent aux Messieurs Jourdain de l’indexation humaine de vérifier que les modes et les modèles en la matière sont, sinon infinis, du moins nombreux et hétérogènes. On ne peut s’empêcher d’observer, aussi, que les techniques d’indexation automatique sont souvent si complexes et si coûteuses à élaborer et à utiliser, que leur rentabilité économique, qui les fait réserver à des applications volumineuses (en documents comme en interrogations) est loin d’être vérifiée, et les cantonne le plus souvent au rang de projets séduisants et abondamment subventionnés.

Comparaisons

Un tel exposé ne pouvait se conclure sans un examen prospectiviste, forcément optimiste, et une comparaison entre le « travail humain » et celui de la machine, que l’auteur biaise à bon droit en montrant que, d’une part, les critères d’évaluation ne sauraient être comparés ni équivalents et que, d’autre part, on part du principe que l’indexation humaine est a priori parfaite, ce qui est loin d’être toujours avéré...

Vassilis Christophides, dans « Recherche documentaire par structure : une approche comparative entre SRI (système de recherche d’informations) et SGDB (système de gestion de bases de données) », évoque à nouveau les problèmes liés à la structuration des documents électroniques, puis à leur exploitation par le biais de la recherche, se plaçant ainsi dans une problématique complémentaire de certains des exposés précédents, ceux de Vincent Quint et Pierre Le Loarer notamment. Décrivant les SRI comme l’ensemble des processus permettant à un usager de sélectionner les bons documents utiles à sa recherche, il inclut dans ces systèmes tout à la fois la demande d’information, l’expression de la recherche, l’interrogation, la recherche, l’obtention de certains documents et leur sélection, faisant ainsi le lien avec les SGBD, leur structuration, leurs langages d’interrogation.

Rappelant que l’on s’oriente aujourd’hui vers la création de SGBDOO (système de gestion de bases de données orienté objet), c’est-à-dire de programmes utilisant des méthodes et des langages de programmation avancés où, pour schématiser, on ne décrit plus de façon indépendante un élément, mais, en plus, et liés à cet élément, l’ensemble de ses caractéristiques et des processus qui peuvent l’affecter. Il montre que de tels systèmes devraient faire évoluer en profondeur les langages de recherche et par conséquent les méthodes même sde recherche.

Présentant ensuite certains de ces systèmes « pionniers », tels Textriever, Maestro (Management environment for structured text retrieval and organization) ou SGML/Search, il s’efforce de prouver que des bases mieux structurées devront être interrogées par des outils plus puissants, plus sophistiqués, plus souples, permettant des équations de recherche plus élaborées : si l’exposé est de haut niveau, on reste cependant perplexe quant à la complexité de ces modes d’interrogation, qu’on suppose devoir être compréhensibles même par des usagers néophytes. Mais peut-être des interfaces masquant et simplifiant l’aridité et la sophistication de ces langages sont-elles, elles aussi, en cours d’élaboration ?

L’avènement normatif du multimédia

Pour conclure dignement un ouvrage qui a fait la part belle au texte, Bernard Hidoine propose de faire le point sur « le traitement électronique du document multimédia ». On s’en doute, l’exposé est plus complexe : le son, l’image, présentent des caractéristiques très différentes du texte, et souvent plus complexes à élaborer, à gérer, à indexer et à interroger. De plus, le concept de multimédia, qui suppose l’intrication d’informations de natures différentes, aboutit à créer des « types d’information » très différents encore, ayant leurs caractéristiques propres : c’est un truisme d’écrire qu’un clip vidéo n’est pas seulement un morceau de musique + un court métrage de cinéma ou de télévision, mais bien un « objet » spécifique, « obéissant » à ses propres règles documentaires.

Si l’aspect normatif était largement présent dans les articles précédents, il devient ici l’enjeu principal de la synthèse, tant la multiplicité des supports et des informations génère un nombre de normes impressionnant, à décourager le professionnel consciencieux soucieux de parfaire sa culture en la matière : TIFF, GIF, BMP, PICT, TGA, EPS, JPEG, JBIG, MIDI, MJPEG, MPEG... 1, 2 et 4, etc. 2.La liste est longue des efforts des différents comités internationaux pour imposer (mais c’est l’intérêt de tous) des normes permettant une portabilité au moins partielle de produits aussi complexes, et dont une large part sera, dans un avenir proche, destinée au grand public. L’exposé de Bernard Hidoine ne prétend pas, à l’évidence, épuiser le sujet : il a le mérite de montrer, comme l’article sur Internet, que, par-delà les effets de mode et les propos désinvoltes, il y a une réalité technique, documentaire, normative, une série d’intentions pour développer dans un contexte moins chaotique des produits « entièrement nouveaux », mais prolongements d’autres, déjà éprouvés.

Un regard complémentaire

Au total, fait rare dans ce genre d’ouvrage, l’ensemble des contributions présentées est de haute tenue, chacun ayant su se limiter strictement à son domaine de compétences, permettant au lecteur averti une vision éclatée, mais complémentaire, des principaux aspects du traitement et de l’exploitation du document électronique, qu’on peut d’ailleurs approfondir en puisant dans l’abondante bibliographie de chacun des articles (là encore point positif à souligner).

Par delà la haute technicité ou la conceptualisation avancée des diverses applications présentées, le sentiment général qu’inspirent de telles évolutions sera, lui, plus mitigé : il n’est que rarement question de conservation de ce type de documents, encore moins de sécurité de diffusion ou de transmission, et guère plus des besoins et comportements des utilisateurs finaux, hors les professionnels auxquels les exposés s’adressent. De même, ces projets, volontairement écartés de leurs implications politiques ou pratiques, paraissent parfois privés de sens, comme si, à la condition humaine, on avait préféré celle des machines comme fin en soi : à chacun de s’interroger, peut-être dans un autre cadre. Mais à tous d’avoir conscience que de telles évolutions ne sont jamais innocentes et que leur utilisation n’est jamais gratuite.

  1. (retour)↑  Saluons au passage la performance éditoriale qui consiste à publier les actes du séminaire en même temps que son déroulement, mais il y a là une nécessité liée aux évolutions à très court terme dont l’ouvrage se fait l’écho, sans pouvoir les décrire autrement qu’à « l’instant T », périmé avant même d’être publié.
  2. (retour)↑  TIFF (Tagged-image file format), GIF (Graphics interchange format), BMP (Bitmap), PICT (Programme on information and communication technologies), TGA (Targa), EPS (Encapsulated Postcript), JPEG (Joint photographic expert group), JBIG (Joint bi-level image expert group), MIDI (Musical instrument digital interface), MJPEG (Motion JPEG), MPEG (Moving picture experts group), etc.