Document numérique

L'indexation

par Muriel Amar
sous la direction de Jean-Michel Jolion. – Document numérique, vol. 4, n° 1– 2 / 2000. - Paris : Hermès Science Publications. – 182 p. ; 24 cm. ISBN 2-7462-0224-7 : 295,18 F – 45 euro

Ce numéro spécial de la revue Document numérique – consacré aux problématiques de l’indexation dans le contexte de l’information numérique – aborde plus particulièrement les méthodes d’indexation « conceptuelles » et « structurelles ». Comme le rappelle en introduction Jean-Michel Jolion, coordonnateur du numéro, l’enjeu de l’information numérique est celui des conditions de sa « réutilisabilité ».

Les réponses à ce défi, exposées dans les huit contributions de ce numéro, tendent à redéfinir l’indexation : il ne s’agit plus uniquement d’identifier des concepts, mais aussi d’interpréter des structures ; il ne s’agit plus uniquement de permettre la recherche de documents, mais aussi de guider leur exploitation.

Indexation et interprétation

Il revient à Y. Prié, qui ouvre ce numéro spécial, de définir l’indexation conceptuelle : une « connaissance ajoutée à un document pouvant servir dans le cadre de “calculs” sous-tendus par l’exploitation de ces documents » (p. 17), autrement dit une forme élaborée d’annotation. L’auteur entame dès lors une discussion stimulante sur les rapports entre indexation et annotation, même si les deux activités ne suivent pas a priori le même objectif (« On indexe pour retrouver un document » et « on annote pour donner des traces de son interprétation », p. 26).

Par un autre biais, M. Després-Lonnet aborde aussi la question de l’interprétation en indexation. La mise à disposition, via Internet, des bases de données iconographiques suppose acquis le partage des connaissances entre professionnels de l’information et grand public. Or la seule mise en ligne ne suffit pas. L’auteur examine six thésaurus iconographiques du double point de vue fonctionnel (analyse de la structure et des termes des thésaurus), et idéologique (étude de la place du terme « femme ») : l’analyse montre que « le traitement documentaire n’est jamais seulement une représentation cognitive des objets, il a toujours un caractère communicationnel », reposant sur une vision du monde (p. 164).

Indexation conceptuelle et indexation structurelle

Quatre articles précisent les techniques et les méthodes utilisées dans l’indexation conceptuelle et/ou structurelle. Dans le domaine de l’annotation, appréhendée comme pratique de surlignage, L. Denoue et L. Vignollet présentent leur outil Yawas (Yet Another Web Annotation System) : créé initialement pour faciliter la gestion des signets, cet outil se révèle aussi un instrument efficace de classification automatique des documents.

Dans le domaine de l’indexation structurelle, S. Lainé-Cruzel et E. Guimet exposent une méthode d’expertise des indices textuels et structurels d’articles scientifiques publiés sous forme électronique. Ce type d’expertise, dont l’automatisation est discutée dans l’article, constitue l’une des composantes d’un dispositif plus global visant, dans le cadre d’un système d’information, à « améliorer la précision des réponses en fonction des caractéristiques propres à l’utilisateur » (p. 60). La précision des réponses visée est fonction de la précision du découpage textuel effectué et de la précision de la qualification des unités textuelles proposée.

Se situant aussi dans les problématiques de l’indexation structurelle, B. Badjo-Monnet et M. Berthier abordent le traitement des objets non textuels. Le type de documents techniques travaillé par les auteurs comporte le plus souvent une double composante textuelle et visuelle. L’indexation de ces deux types de composante peut être unifiée si les descriptifs textuels des objets non textuels (notamment les légendes) sont intégrés dans la représentation structurelle des documents.

La combinaison de l’indexation conceptuelle et de l’indexation structurelle est l’objet de la contribution de L. Médini et al. L’indexation conceptuelle dont il est question ici repose sur la notion de « livre de connaissances électroniques ». Elle s’intègre dans un modèle d’accès à l’information qui cherche à prendre en compte l’expression du besoin d’information (intégration du profil de l’utilisateur et de l’indexation structurelle). Ce modèle d’accès à l’information vise à combiner les deux principaux modes de recherche : par interrogation et par navigation.

Indexation et parcours hypertextuel

Deux contributions permettent d’approfondir la problématique de la recherche par navigation. Celle de C. Paupe et P. Morizet-Mahoudeaux s’inscrit dans le cadre très précis de l’aide au diagnostic. La sensibilité au contexte est cruciale dans ce domaine : la navigation proposée dans les documents doit prendre en compte les données spécifiques du problème à résoudre, d’où la nécessité de concevoir une « navigation contextuelle ».

D. Cotte situe, lui, sa discussion sur l’hypertexte dans le cadre plus global des deux principaux modes de représentation des connaissances : la classification et le marquage. L’hypertexte relève-t-il naturellement d’une logique de marquage ? L’auteur introduit ici une distinction fructueuse : l’hypertexte comme système de lecture et l’hypertexte comme système d’écriture. C’est en tant que système d’écriture que l’hypertexte relève du marquage et qu’il peut être assimilé à l’indexation ; cependant, comme toute technique de marquage, il reste prisonnier des documents eux-mêmes. La logique classificatoire permet de dépasser ces limites. La convergence des deux modes de représentation, nécessaire pour rendre compte du document numérique, pourrait être réalisée grâce à une banque de données multimédias.

En dépit de l’absence d’organisation thématique et du caractère parfois très technique des contributions – certaines relevant de l’intelligence artificielle –, ce recueil présente le mérite de poser clairement la nécessité de structurer le document numérique, fût-ce en explorant deux directions opposées : interprétative (indexation conceptuelle) et athématique (indexation structurelle).