Les fondements théoriques de l'indexation

une approche linguistique

par Bertrand Calenge

Muriel Amar

Paris : ADBS Éditions, 2000. - 355 p. ; 24 cm. - (Sciences de l’information : Série Recherches et documents). ISBN 2-84365-042-9/ISSN 1159-77666 : 180 F/ 27,44 e

En publiant la thèse de doctorat en Sciences de l’information de Muriel Amar, conservateur à Mediadix, la collection « Sciences de l’information » d’ADBS éditions veut mettre entre les mains des professionnels de l’information et de la documentation des textes de littérature grise « en prise sur leurs pratiques et leurs réflexions ». Or, s’il existe une pratique fondatrice de la documentation, c’est bien l’indexation. Qui n’a pas débattu un jour des vertus comparées des thésaurus et des listes d’autorité, de la pertinence de la liste Rameau ou des indices classificatoires ? Qui ne s’est pas inquiété de l’avenir de cette activité essentielle devant les progrès de l’indexation automatisée ou des moteurs de recherche ? Et l’on se plaît à imaginer une thèse permettant de peaufiner les pratiques, de leur trouver des légitimités nouvelles, de rendre grâce enfin au méticuleux travail conduit depuis des décennies par des armées de bibliothécaires et de documentalistes…

Le mythe de la traduction

Las ! C’est à une remise en cause complète des objectifs, processus et outils de l’indexation que nous convie Muriel Amar. Abordant ce sujet avec les armes les plus sophistiquées de la linguistique, dans une démonstration étonnante de rigueur maîtrisée, elle commence par déconstruire les définitions usuellement acceptées. Grossièrement – on pardonnera au rédacteur de ces lignes la traduction simplificatrice d’analyses très complexes et spécialisées –, Muriel Amar démonte le mythe de l’indexation comme traduction neutre du contenu des documents en direction des usagers. Indexer des documents, ce n’est pas « traduire » le contenu de ces documents pour les rendre accessibles à la communauté des usagers possibles. L’indexation s’avère être un discours sur les documents et leur contenu, et doit être analysé comme tel. Dans le processus d’indexation traditionnel, on confronte deux textes : celui qui doit être codé – la source –, et le schéma d’indexation qui est lui-même un texte autonome. Et « ce document, ce texte classé, apparaît comme un construit, un reconstruit » (p. 95). Le langage documentaire est alors un outil non plus de représentation du contenu des documents traités, mais plutôt de construction d’un contenu original. Mais comment ce contenu « nouveau » se réfère-t-il aux documents sources ? L’auteur s’appuie sur une expérience d’indexation d’un numéro unique du quotidien Le Monde par dix organismes documentaires différents. Comme on s’en doute, les résultats des indexations diffèrent. Mais ce qui est encore plus intéressant, c’est de constater que les différences jouent aussi sur des sélections implicites des sources « aptes » à être indexées, à être reconnues comme documents. L’auteur note que sont particulièrement privilégiés dans cette expérience les textes qui comprennent un nom propre, qu’il s’agisse d’un lieu, d’une personne étudiée ou d’un personnage énonciateur, car le nom propre présente une moindre ambiguïté référentielle. Plus généralement, selon Muriel Amar, sont susceptibles d’être retenues comme documents indexables les sources ayant une autonomie physique (le fait d’être écrits), mais aussi une autonomie logique (la nécessité que les conditions de production de cette source laissent une trace dans cette source : un auteur, par exemple), que la source enfin puisse être détournée par l’utilisateur dans son propre contexte.

Langage documentaire et descripteurs

D’une certaine façon, « de même que le langage parle du “réel”, l’indexation parle aussi du “réel” ; elle manipule cependant des objets du monde réel au statut sémiotique particulier : les textes » (p. 161). Mais en manipulant des textes, l’indexation « construit ses propres objets à partir du monde des textes » (p. 161). Fondamentalement donc, l’indexation est un discours interprétatif. La question est de savoir quels sont ces « objets » nouveaux et comment ils sont construits. Muriel Amar remarque que le processus d’indexation traditionnel se construit curieusement en dehors des textes eux-mêmes, à tous les niveaux : la sélection opérée par les politiques d’acquisitions s’inscrit dans le schéma de classifications décimales, l’opération d’indexation s’effectue par un travail sur les thésaurus et autres listes d’autorité, la mise en espace est guidée à nouveau par les classifications décimales. Ne peut-on construire des descripteurs qui réfèreraient de façon stable aux textes comme aux utilisateurs potentiels ? L’auteur pense qu’on peut extraire ces descripteurs des textes eux-mêmes, pourvu qu’on ait défini préalablement un « modèle de description ». Si l’utilisation des noms propres présente une garantie de stabilité référentielle, elle reste insuffisante pour conduire un travail d’indexation interprétative. Par ailleurs, l’utilisation d’unitermes ne prend pas en compte la dimension discursive de l’indexation. En définitive, « la forme privilégiée du descripteur est celle du groupe nominal complexe pourvu de compléments » (p. 281), extrait du texte lui-même, soit des ensembles de type « le président de la République » ou « le chien de Pierre ». À partir de ces groupes nominaux, Muriel Amar note l’intérêt indexatoire des formes synaptiques englobantes qui conduisent un groupe nominal comme « base de données » à se retrouver dans un groupe élargi comme « gestion des bases de données » et plus loin encore comme « système de gestion de bases de données ». Ces formes peuvent être reconnues comme sources et outils d’une indexation signifiante des textes, extraite des textes eux-mêmes, et permettant aux utilisateurs de construire eux-mêmes l’« indexation » via une automatisation de l’analyse de ces textes. Cette approche originale et très intéressante s’appuie notamment sur les systèmes d’indexation automatisée élaborés par Michel Le Guern (Sydo) et Sophie David (Termino). Ces systèmes vont au-delà de l’extraction classique de chaînes de caractères, ils segmentent le texte en phrases et en mots (en redonnant à ceux-ci leur forme canonique lorsqu’ils sont conjugués ou déclinés), et effectuent une représentation syntaxique des énoncés du texte.

Appliquer la recherche ?

De cet ouvrage dense on n’aura donné ici que de brefs aperçus, parmi les conclusions qui intéressent les professionnels de bibliothèques. On me pardonnera mon incapacité à rendre compte des développements linguistiques complexes. Toutefois, derrière cette sans doute inévitable aridité du contenu, il faut saluer l’effort pédagogique de l’auteur, qui veille constamment à fournir explications, démonstrations, et en fin de chaque chapitre un condensé des étapes intermédiaires de sa recherche. Cela étant, le bibliothécaire ordinaire restera troublé en tournant la dernière des 355 pages de cette thèse remarquable. Troublé par la terra incognita que Muriel Amar lui ouvre sur son propre métier ; loin d’être un simple conservateur et passeur, le bibliothécaire contribue en quelque sorte à la création d’un monde ou d’un discours : la bibliothèque « se présente comme un auxiliaire précieux, indispensable, de la pensée humaine. Son caractère indispensable tient à ce que, en tant que “centre de calcul”, la bibliothèque s’approche comme un lieu de transformation » (p. 185). Troublé aussi par cette évidence nouvelle que les langages documentaires construits par les bibliothécaires sont bien un discours sur le monde, qui pourtant n’est souvent vécu que sous l’angle respectueux de la normalisation des outils et n’est pas discuté en lui-même. Troublé enfin par les perspectives de ce travail : si la manipulation d’unités synaptiques complexes extraites des textes sera peut-être en quelque sorte entre les mains des utilisateurs, avec l’aide de systèmes automatisés idoines, ce qu’on appelle aujourd’hui l’indexation change de statut : « L’indexation ne se définit pas uniquement sous l’angle de l’extraction d’unités de discours ; elle consiste essentiellement en l’organisation d’un espace de discours spécifique qui, lui, engage un travail scientifique sur les sources elles-mêmes, dont on envisage difficilement, pour le moment, les conditions d’automatisation » (p. 314). Autant dire que le travail professionnel sur les contenus, et plus généralement les politiques documentaires, entendues au sens large, offrent de vastes champs à défricher.