Problèmes posés par la structure d'un thesaurus

Exemple d'un système à facettes

Magdeleine Moureau

Un service de documentation doit répondre à la double nécessité d'une diffusion rapide, périodique et systématique des informations et d'une recherche rétrospective de documents répondant à une question donnée. Les problèmes que pose cette conception, problèmes de classification, de sélection, nécessité de relations entre les éléments descripteurs sont étudiés à propos de la réalisation de l'outil d'indexation, le thesaurus

Actuellement, pour un service de documentation les objectifs de l'action documentaire se présentent de deux façons complémentaires mais correspondant à des démarches de l'esprit fondamentalement différentes :
- La diffusion sélective de l'information ou diffusion rapide, périodique et systématique des informations contenues dans les documents, aux usagers du service selon leurs pôles d'activité, leurs préoccupations du moment, leurs sujets d'étude ou de recherche.
- La recherche rétrospective d'information ou recherche de documents répondant le plus exactement possible à une question donnée.

La différence fondamentale réside dans la nature des questions posées. Dans le premier cas, la question couvre l'ensemble des préoccupations de l'utilisateur et englobe la totalité d'un sujet allant des informations les plus générales aux informations les plus particulières et incluant même des zones d'intérêt marginales.

Dans le deuxième cas, il s'agit au contraire d'une question précise sur un sujet qui doit être bien délimité.

Du point de vue de l'indexation, la réponse à ces deux types de questions sera atteinte par des moyens différents :
- indexation thématique et regroupement des notions d'un côté;
- indexation « fine », analyse en profondeur et éclatement des notions en leur plus simple constituant de l'autre.

Ces deux aspects indispensables ne doivent pas être perdus de vue, lors de la conception de l'outil d'indexation, et c'est d'abord les problèmes que pose cette conception, les buts à atteindre et les moyens pour y parvenir que nous allons étudier : problèmes de classification, problèmes de sélection et nécessité de relations entre les éléments descripteurs.

Les problèmes de classfication :

Pour indexer les documents nous pouvons opter entre deux systèmes de classification :

- Le classement logique qui regroupe de proche en proche les notions les plus fines sous les notions plus générales dont elles découlent, ce qui conduit à établir une classification systématique qu'on peut comparer graphiquement à un arbre renversé, et dans laquelle en principe une place et une seule est assignée à chaque notion.

En réalité, du fait de l'interdépendance des sujets, il est difficile d'éviter que des notions terminales soient communes à plusieurs sujets : « le traitement par ordinateur des données géologiques » peut aussi bien découler d'une classe « informatique » que d'une classe « géologie » et la nécessité de renvois s'impose rapidement.

- Le classement alphabétique qui range les notions dans l'ordre alphabétique des mots dont elles découlent, chaque mot ayant un caractère univoque, c'est-à-dire ne pouvant être employé que dans un sens.

Si le système logique est en principe le plus satisfaisant pour la raison, son inconvénient est d'être le reflet du passé : les documents sont rangés selon notre connaissance actuelle d'une science, les documents futurs devront s'intégrer dans le même cadre. Cela peut convenir un certain temps mais peu à peu de nouvelles notions apparaissent qui ne découlent plus logiquement des anciennes et l'ensemble du système perd son équilibre.

A ce cadre statique s'oppose l'utilisation du langage naturel qui apparaît comme essentiellement dynamique en permettant un accès direct à la notion cherchée, qu'elle soit novation ou néologisme.

La recherche d'une notion fine dans ces deux sortes de classification procède d'une démarche différente :
- dans la classification systématique nous nous trouvons devant une série de classes emboîtées ou d'inclusions successives que nous suivrons, du cas général au cas particulier;
- dans la classification alphabétique la recherche se fera par intersection de classes indépendantes, chacune représentant une notion.

L'utilisation d'une classification alphabétique est généralement la solution retenue dans les systèmes documentaires utilisant un ordinateur. L'utilisation du langage naturel apporte une grande souplesse de l'indexation et la combinaison d'un grand nombre de notions, ou descripteur, est facile à réaliser lors de la recherche des informations.

Les problèmes de sélection :

Cependant l'utilisation du langage naturel n'est pas suffisante pour obtenir une sélection rigoureuse. Ces imperfections de la sélection peuvent se présenter de deux façons opposées :
- d'une part certains documents qui ne répondent pas à la question peuvent être sélectionnés, c'est ce que l'on appelle le bruit;
- d'autre part certains documents pertinents figurant dans le stock des documents analysés peuvent n'être pas retrouvés, c'est ce que l'on appelle le silence.

a) les documents parasites sont ceux qui, bien qu'indexés par tous les mots clés de la question, ne répondent pas à cette question.

Cette ambiguité peut avoir plusieurs raisons :
* la polysémie : les mots milieu, recherche, structure ont plusieurs sens dans notre vocabulaire.
* l'homographie : plusieurs mots ont une même forme graphique. Le mot ferme peut être ou un substantif ou une forme verbale ou un adjectif; le mot plasma peut signifier du plasma sanguin ou un gaz ionisé.

Une autre raison du bruit tient aux phénomènes combinatoires des mots entre eux, dûs à l'absence de syntaxe. Un document caractérisé par dosage, eau hydrocarbures pourra aussi bien traiter du dosage de l'eau dans les hydrocarbures que du dosage des hydrocarbures dans l'eau. De même alimentation et démographie regrouperont les documents qui traitent de l'influence de la démographie sur l'alimentation et ceux qui traitent de l'influence de l'alimentation sur la démographie.

Les phénomènes combinatoires peuvent également découler de l'association de descripteurs qui caractérisent les différentes parties d'un même document : un article traitant de la production d'automobiles en Europe et du prix de l'essence en France sera analysé avec les mots :
Automobile, Essence, Europe, France, Prix, Production,
mots qui pourront se combiner pour donner par exemple :
Production Essence Europe
ou
Prix Automobile France.

Les phénomènes de ce genre peuvent être évités par l'adjonction d'indicateurs de rôle, de liaisons ou par le découpage d'un document en deux ou plusieurs éléments distincts.

b) Les documents manquants seront ceux qui, bien que répondant à la question posée et figurant dans le stock des documents analysés, ont été indexés à l'aide de mots-clés différents de ceux qui caractérisent la demande : plusieurs signifiants pour un signifié ou synonymie, par exemple : pétrole, pétrole brut, huile, huile brute, naphte, brut, peuvent selon les auteurs caractériser le pétrole brut.

En général, pour les synonymies on se borne à envisager le cas d'équivalence sémantique entre plusieurs mots différents alors que le phénomène s'observe aussi au niveau des phrases. On peut en effet remplacer dans un énoncé quelconque un mot par une définition. De même il arrive qu'on se trouve en présence d'un certain concept implicite dans une phrase où n'apparaît pourtant aucun mot correspondant à ce concept : passage de l'état solide à l'état gazeux correspond au mot clé sublimation qui n'est réductible à aucun des termes de l'énoncé pris un à un.

Naturellement on peut créer des dictionnaires de synonymes que la machine pourra associer automatiquement, mais, dès que l'on sort d'un domaine spécialisé, les glissements de sens amènent rapidement des décalages importants.

De même le silence peut provenir du fait que les documents n'ont pas été analysés avec des mots clés de la même généralité : halogène et chlore, éthylène et oléfines, roche carbonatée et calcaire. Ou alors, même si l'on a établi toutes les dépendances hiérarchiques d'un terme, celles de voisinage ne l'ont pas été : Indice d'octane et additifs antidétonants ne sont ni synonymes ni hiérarchiquement liés, cependant les documents sur les additifs antidétonants pourront répondre à une question sur l'indice d'octane.

Nécessité des relations entre les descripteurs :

De proche en proche nous avons défini la nécessité d'une restructuration du langage fixant la place de chaque mot dans un cadre multidimensionnel en établissant ses relations hiérarchiques et de voisinage avec les autres termes.

C'est ainsi que s'est développée la notion de thesaurus qui, à l'encontre du lexique, simple liste de mots classés alphabétiquement, présente une série de mots du langage (généralement techniques) avec les indications des différentes relations conceptuelles existant entre ces mots.

Pourquoi cette nécessité d'une restructuration ? c'est parce que dans la matière que nous traitons - les mots qui constituent la langue - il existe déjà des rapports qu'il convient de mettre en valeur.

Les rapports entre termes linguistiques s'établissent dans deux sphères distinctes dont chacune est représentative d'un certain ordre de valeur. Ils correspondent à deux formes de notre activité mentale qu'il faut prendre l'une et l'autre en considération dans nos problèmes de lexicologie.

a) D'une part des rapports sont fondés sur le caractère linéaire de la langue : les mots se rangent les uns à la suite des autres. Les combinaisons issues de leur enchaînement et qui modifient le sens des mots pris un à un ont été appelées rapports syntagmatiques :
* La vie humaine
* La teneur en soufre d'un pétrole brut
* La circulation des boues de forage

sont des syntagmes.

Placé dans un syntagme, un terme n'acquiert sa valeur que par rapport à celui qui le précède, celui qui le suit ou à tous les deux; il s'agit d'une relation horizontale et explicite.

b) D'autre part les mots offrant quelques chose de commun s'associent dans la mémoire. Le mot vie fera surgir inconsciemment une foule d'autre mots unis par des rapports très divers :
- par filiation : vivant, vivre, vif;
- par antonymie : mort, mourir ;
- par analogie : vis, vite.

Ce sont des rapports formés par association mentale ou rapports associatifs. Ces rapports sont appelés paradigmatiques : la relation ici est verticale et implicite 2.

Nous voyons donc que l'ordinateur n'étant pas à même de restituer les relations issues de la langue ou de notre fonctionnement intellectuel, nous devons les rétablir sous une autre forme.

Nous avons donc réintroduit la nécessité de relations et d'une hiérarchie entre les termes afin de pouvoir répondre à plusieurs niveaux de questions :

- un article sur l'ordinateur CDC 6 600 sera analysé avec ce mot afin d'être retrouvé dans une recherche spécifique. Il faudra qu'il le soit aussi avec le mot ordinateur pour être retrouvé lors d'une recherche plus générale.

Nous retombons donc sur un problème de classification et la nécessité d'inclusions successives réapparaît avec le principe de base de n'assigner qu'une place à chaque notion.

Si, dans l'élaboration d'une classification, la fixation des classes initiales et des premières classes dérivées est relativement facile, il est très difficile, comme nous l'avons déjà dit, lorsqu'on arrive aux classes terminales, de ne pas avoir de chevauchements.

Les systèmes manuels de classification s'accommodent généralement bien de renvois quelquefois anarchiques; il n'en est pas de même pour les systèmes automatisés qui ne sont utilisés qu'à partir d'un nombre très important de références et où tous les défauts possibles s'amplifient et se combinent.

En outre chaque document doit pouvoir satisfaire aux deux objectifs documentaires : diffusion systématique et recherche sur question, et pouvoir restituer le même document lors d'une question générique ou lors d'une question spécifique. Cette possibilité de répondre à plusieurs niveaux pourra s'obtenir de deux façons : soit par l'indexateur humain qui rajoutera pour chaque document particulier le thème général dont il procède, soit par la machine qui associera automatiquement certaines notions génériques à certaines notions spécifiques, par exemple Europe à France ou aromatique à benzène.

Systèmes à facettes :

Nous avons vu que le danger des classifications hiérarchisées résidait dans le fait que des notions terminales identiques découlaient de notions de base différentes. Il fallait donc rechercher un système dans lequel chaque notion ne puisse automatiquement relever que d'une seule hiérarchisation, ne prendre place que dans une seule case.

C'est pourquoi a été développé, pour certains thesaurus utilisés en documentation automatique, le principe de « facettes » ou des « concepts » qui limite la possibilité de hiérarchisation et assigne une seule lignée à chaque concept. Cette limitation de la remontée hiérarchique est importante car elle restreint ce qu'on peut appeler une recherche « en entonnoir » où, partant d'une question précise, on finit de proche en proche par regrouper toute la documentation ayant un rapport quelconque avec elle. En effet dans une structure imbriquée, partant d'une classe terminale, on remonte directement jusqu'à la classe initiale.

C'est pourquoi le thesaurus à facettes évite une hiérarchisation par discipline où les termes sont génériquement structurés par matières, comme la géologie ou la géophysique, pour préférer une orientation par concepts.

Dans ce système les descripteurs sont groupés et structurés génériquement selon des notions bien déterminées comme processus, propriétés, équipements ou matériaux.

Nous allons décrire les différentes facettes selon lesquelles s'agencent actuellement les descripteurs des principaux thésaurus pétroliers, en particulier ceux de l' « American petroleum institute » et de l'Université de Tulsa. Ces facettes sont actuellement au nombre de 10 : processus, phénomène naturel, équipement, matériaux, propriétés, conditions opératoires, organisme, place, facteurs économiques, attributs ou facteurs communs.

Deux restrictions dans les relations génériques à l'intérieur d'une facette :
- d'abord un terme spécifique ne peut être utilisé dans un sens qui n'est pas couvert par son terme générique;
- ensuite une partie ne peut être spécifique de l'ensemble;

Par exemple : racine ne peut être un terme spécifique du mot plante, ou moteur du mot automobile. Ils seront des termes connexes unis par la relation : voir aussi.

1. Le Processus est dynamique par essence. Dans certains cas quand un même mot peut avoir deux acceptions différentes comme revêtement qui peut être à la fois un processus ou un matériau, il est préférable d'ajouter « procédé de revêtement ».

A l'intérieur de cette facette se retrouvent quelques grandes catégories : procédé industriel, réaction chimique, opération physique. Les descripteurs de procédés sont séparés en groupe selon que domine le côté chimique ou le côté physique de l'opération.

Méthode d'analyse et essais : cette catégorie est considérée séparément puisqu'elle contient des techniques à la fois physiques et chimiques.

Les descripteurs concernant la conduite des affaires sont également inclus dans la facette processus, ils concernent des opérations dynamiques comme la comptabilité, la fabrication ou les relations publiques. Seront regroupés dans la facette facteurs économiques les descripteurs définissant un concept comme la demande, l'offre, le coût.

La section concernant les mathématiques a été incluse dans la facette Processus puisque en général les descripteurs traitant d'analyse mathématique sont dynamiques.

2. Phénomène naturel. - Le phénomène est considéré comme étant une action naturelle comme la pesanteur, un processus naturel comme la corrosion ou un fait comme le bruit. Dans certains cas, un même vocable pourrait désigner à la fois un phénomène naturel et un processus comme dans le cas du mot absorption. Dans de tels cas, il est souhaitable de considérer le mot absorption comme le phénomène, et d'utiliser l'expression « procédé d'absorption » pour définir le processus.

3. La facette Équipement ne contient pas de division spéciale : les différents types de vannes sont regroupés sous le descripteur vanne ou les différents types de pompes sous le descripteur pompe. Cependant il existe deux grandes subdivisions :
- l'une pour regrouper sous la rubrique équipement électrique les organes électriques tels contacteur, résistance, interrupteur;
- l'autre pour regrouper sous la rubrique instrument tous les types d'appareillage de mesure.

En outre, il n'existe pas une relation directe entre un procédé et son équipement. Une recherche sur les procédés de distillation ne permettra point de sélectionner automatiquement les plateaux de distillation, pas plus qu'une recherche sur le pompage, les pompes.

4. La facette Matériaux regroupe tous les termes de matériaux ou produits qui ne sont pas de l'équipement. Les matériaux sont divisés en trois catégories :
- par composition qui regroupe la plupart des produits;
- par utilisation qui regroupe les produits ayant une utilisation déterminée : carburant, catalyseur, détergent;
- par phase qui groupe quelques termes tels que : fluide, émulsion, mousse, solution, suspension.

5. Propriétés. Cette facette regroupe tous les termes décrivant les propriétés des matériaux. Elle est subdivisée en trois sections : la composition, les propriétés physiques, la structure. Cependant les propriétés vagues comme la taille et la forme n'y figurent pas.

6. Les Conditions opératoires. Les descripteurs inclus dans cette facette sont ceux qui caractérisent la marche d'un procédé ou d'un appareil. Ils comprennent par conséquent la température, la pression, le rendement et la vitesse. On peut également y inclure les problèmes inhérents au procédé et au fonctionnement de l'appareillage : la précision, la réponse, les défauts et défaillances.

7. La facette Organisme comprend tous les organismes qui sont ou ont été dotés de vie : les organismes vivants et les organismes disparus. Dans la plupart des cas, les descripteurs spécifiques concernent à la fois les organismes vivants et les organismes disparus. Cette facette comprend également certains descripteurs concernant les organismes fossiles comme les empreintes ou les coprolithes.

8. Facteurs économiques. Cette facette comprend tous les descripteurs qui ont une implication économique, exceptés ceux qui sont classés avec les processus. Les éléments typiques de ce chapitre sont la demande, l'offre, la déplétion, l'amortissement, la réserve et la valeur.

9. La Place, concepts relatifs à la terre et à l'espace. Cette facette comprend les pays, les océans, des notions relatives à l'atmosphère, à la physique du globe. Dans le Thesaurus géologique cette facette comprend les notions relatives à la topographie, au faciès, aux structures géologiques.

10. Attributs ou facteurs communs. Cette facette n'est pas une classe homogène, mais elle est, principalement, la réunion de petites catégories exprimant des qualités secondes. Les descripteurs qui sont regroupés ici sont généralement du type modificateur. Cette classe contient des groupes différents dont les principaux sont : la direction, la forme physique, la qualité, la quantité, la forme, la position ou la taille. Pour la plupart, les descripteurs de cette facette ne devraient être utilisés que pour modifier les données des autres facettes. C'est dans cette facette que se trouvent les descripteurs concernant les sciences et techniques telles qu'archéologie, biologie, géologie.

Quelques règles pratiques générales :

Quel que soit le type de lexique ou de classification employé, il est nécessaire de suivre quelques règles simples quant à la présentation graphique des descripteurs. Elles portent sur la forme et le nombre des descripteurs et sur l'emploi des mots composés.

- La forme : le substantif doit toujours être employé de préférence à l'adjectif ou au verbe : chaleur et non chaud, catalyseur ou catalyse mais non catalyser ou catalytique.

- Le nombre : le singulier doit toujours être préféré au pluriel. Le pluriel peut cependant être conservé dans certaines notions génériques quand il peut avoir un sens différent du singulier.

- Les mots composés : on devrait en principe éviter la multiplication des mots composés qui alourdissent le thesaurus et ensuite la recherche. Mais ils découlent des relations syntagmatiques du langage et il est difficile de les supprimer car ils permettent d'éviter un certain nombre de phénomènes combinatoires. Généralement on ne retiendra que les mots composés dont les composants pris séparément ont une valeur sémantique différente de l'ensemble.

Pour conclure sur la structure à « facettes » d'un thesaurus, nous devons constater qu'elle est pragmatique mais claire, simple mais rigoureuse. Le sens de chaque descripteur y est moins restreint que dans une classification par discipline et donc d'une utilisation plus aisée.

Enfin cet agencement par facette oblige l'indexateur à considérer les éléments des documents qu'il analyse sous les différents points de vue du cadre qu'il s'est fixé. Et c'est l'utilisation de cette « check list » qui doit permettre à des indexateurs différents de caractériser un même document avec des descripteurs identiques sans oublier aucun aspect important. C'est à ce résultat que doit tendre un thesaurus, c'est là son but principal : établir un vocabulaire qui soit vraiment commun à l'ensemble de ses utilisateurs à quelque point qu'ils se trouvent dans la chaîne des opérations :
- ceux qui génèrent l'information en indexant les documents;
- ceux qui la recherchent en posant des questions.

Illustration
Annexe

  1. (retour)↑  Travail effectué dans le cadre du Groupe d'étude de la documentation automatique ANRT.
  2. (retour)↑  Travail effectué dans le cadre du Groupe d'étude de la documentation automatique ANRT.
  3. (retour)↑  Les relations syntagmatiques et paradigmatiques sont étudiées dans de nombreux ouvrages de linguistique et en particulier dans le Cours de linguistique générale de F. de Saussure.