Thésaurus et indexation
Dominique Ménillet
Ce sont des documentalistes représentant des producteurs de bases de données scientifiques et techniques et des utilisateurs qui constituent le groupe qui se consacre aux travaux concernant l'analyse, l'indexation et des langages documentaires.
Analyse et indexation
L'indexation est l'opération qui consiste à décrire et à caractériser un document à l'aide de représentations des concepts contenus dans ce document, c'est-à-dire à transcrire en langage documentaire les concepts après les avoir extraits du document par une analyse.
La transcription en langage documentaire se fait grâce à des outils d'indexation qui appartiennent à deux grands types :
- classificatoire : les éléments d'information sont classés selon un ordre logique regroupant les notions plus particulières sous des notions plus générales. Il y a des emboîtements de classes l'une dans l'autre ;
- combinatoire : les notions sont rangées par ordre alphabétique des mots qui les expriment. Ces outils combinatoires rassemblent un ensemble de termes, descripteurs ou mots clés, pouvant se combiner entre eux lors de l'indexation pour exprimer des notions complexes.
Ces derniers ont l'avantage de permettre une description fidèle du contenu du document sans la contrainte d'une structure de classification préalable qui rend difficile l'introduction de tout aspect nouveau.
La recherche bibliographique automatisée et l'utilisation de la logique booléenne pour formuler les questions ont favorisé la recherche par mots clés. Les performances de cette recherche (pertinence et rappel) sont directement en liaison avec la qualité de l'indexation, c'est-à-dire de la saisie des données. Ceci implique des règles précises d'indexation d'une part, et l'utilisation d'un langage documentaire normalisé d'autre part.
Les thésaurus
C'est dans cette nécessité que se sont développés les outils linguistiques de type combinatoire dont le principal est le thésaurus.
Un thésaurus est un ensemble de termes appartenant à un domaine précis de la connaissance et représentant chacun un concept ou un ensemble de concepts. Les termes sont reliés entre eux par des relations qui permettent de déterminer leur environnement sémantique. Ces relations sont de trois ordres : relations d'équivalence, relations hiérarchiques et relations associatives. La valeur d'un thésaurus en tant qu'outil documentaire réside moins dans le choix de ses termes - toujours empreint d'une certaine convention - que dans le choix des relations conceptuelles qui en définissent les modalités d'utilisation.
Dans ce contexte, le groupe de travail « thésaurus et indexation » s'est fixé comme but d'établir des documents qui fassent référence pour lutter contre l'anarchie dans ce domaine et qui puissent être utilisés à des fins didactiques. Quatre normes ont ainsi été élaborées, qui sont plutôt des recommandations et / ou des énoncés de principes directeurs. Elles ont un enchaînement logique :
- règles d'établissement des thésaurus monolingues = norme NF Z 47-100 ;
- principes directeurs pour l'établissement des thésaurus multilingues = norme NF Z 47-101 ;
- principes généraux pour l'indexation des documents = norme NF Z 47-102 ;
- recommandations aux auteurs des articles scientifiques et techniques pour la rédaction des résumés = norme NF Z 44-004.
Pour les thésaurus monolingues, l'important est la définition des relations entre les termes. De ces relations découle la structure du thésaurus avec la possibilité de l'utiliser automatiquement, par exemple, pour la génération automatique des termes génériques à partir des termes spécifiques (autopostage) ou pour l'interrogation avec les synonymes d'un descripteur.
Les thésaurus multilingues ont été élaborés en raison de l'importance des collaborations entre producteurs de bases de données de différents pays et aussi de la volonté de fournir aux utilisateurs ne parlant pas la langue d'indexation la possibilité de l'utiliser à l'interrogation.
Le problème essentiel est celui de l'équivalence entre termes de langues différentes qui va de l'équivalence exacte à l'équivalence inexacte ou partielle à la non-équivalence (aucun terme équivalent n'existant dans la langue).
Les principes généraux pour l'indexation des documents ont pour objet d'établir une méthodologie cohérente pour la caractérisation d'un document par des concepts et les mots clés correspondants. Ils devraient permettre une coopération plus facile entre différents services d'information et l'établissement de règles adaptées à chacun des systèmes particuliers.
L'ensemble thésaurus-règles d'indexation devrait servir de base à la constitution de systèmes experts et de bases de connaissances pour l'indexation ou la recherche des documents ; la connaissance de ces normes est un préalable indispensable.
Enfin, si l'indexation doit s'effectuer automatiquement, un résumé informatif bien rédigé en devient le support essentiel. C'est dans cette optique que s'inscrivent les recommandations aux auteurs des articles scientifiques et techniques pour la rédaction des résumés. Le résumé permet au lecteur d'identifier rapidement l'intérêt d'un document et permet aussi, par son intégration comme tel dans une base de données, d'être interrogeable directement, tout comme les mots clés.
Ces quatre normes françaises ont été élaborées avec le même souci : mieux construire les systèmes d'enregistrement de l'information pour mieux répondre aux besoins des utilisateurs.
Mai 1993