Principe et développement d'un thesaurus

Exemple d'application : Le Thesaurus pétrole

Magdeleine Moureau

Un thesaurus permet de traduire en termes d'indexation ou termes de recherche tout concept devant entrer ou sortir d'un système documentaire donné. La philosophie choisie pour la fabrication du Thesaurus Pétrole, la nature des relations retenues, la structure de la hiérarchisation sont expliquées de façon détaillée. La méthodologie de la fabrication du thesaurus est ensuite développée avec ses deux aspects : la technique retenue pour le choix des descripteurs et le programme Prothe avec ses différentes phases, écrit pour CDC 6 600 et qui a permis la fabrication matérielle du thesaurus.

Depuis l'antiquité l'homme est à la recherche de la classification qui lui permettra d'intégrer l'ensemble des connaissances du moment. Un système de classification demeure donc le plus parfait miroir des connaissances et de la démarche intellectuelle des hommes d'une époque donnée. Partageons ici l'émerveillement de Michel FOUCAULT dans Les Mots et les choses 1 devant cette taxinomie extraite d'une encyclopédie millénaire chinoise : « Les animaux se divisent en : a) appartenant à l'Empereur; b) embaumés; c) apprivoisés; d) cochons de lait; e) sirènes; f) fabuleux; g) chiens en liberté; h) inclus dans la présente classification; i) qui s'agitent comme des fous; j) innombrables; k) dessinés avec un pinceau très fin en poils de chameau; l) et cœtera; m) qui viennent de casser la cruche; n) qui de loin semblent des mouches ».

Actuellement, deux systèmes de classification sont en présence : le classement logique qui regroupe de proche en proche les notions plus fines sous les notions plus générales dont elles découlent et qu'on peut schématiser en gros sous la forme d'un arbre, ou le classement alphabétique des notions extraites des documents comme elles le sont actuellement dans des dictionnaires encyclopédiques courants. Et si le classement alphabétique est moins satisfaisant pour l'esprit qu'un classement logique, il est beaucoup plus facilement accessible.

Après avoir étudié les démarches qui président au choix de l'un ou l'autre de ces systèmes, nous allons décrire comment elles ont été intégrées dans la structure du Thesaurus 2 pétrole destiné à l'indexation et à la recherche des documents constituant l'ensemble d'une documentation pétrolière. Le Thesaurus pétrole est l'œuvre de la Commission Documentation du Comité des techniciens de la Chambre syndicale de la recherche et de la production du pétrole et du gaz naturel 3.

I. Les fondements logiques du thesaurus

Les classifications logiques sont conformes aux relations qui gouvernent l'ordre naturel qui va, par voie descendante, du général au particulier, de l'essence à l'existence, du genre à l'espèce; chaque notion y trouve sa place et doit n'en trouver qu'une seule.

Mais les systèmes logiques ont besoin pour se perpétuer d'être fondés sur une notion d'ordre relativement durable, et si à certaines époques le fondement de la science reposait sur la tradition, l'accélération de l'histoire a modifié de plus en plus rapidement et de plus en plus radicalement les notions acquises en les attaquant dans leurs fondements même.

En outre, une classification n'est jamais que le reflet du passé : sa structure reproduit le niveau des connaissances atteint lors de son édification; les connaissances futures devront s'intégrer dans le même cadre. Cela peut convenir un certain temps mais peu à peu de nouvelles notions apparaissent qui ne découlent plus logiquement des anciennes et l'ensemble du système perd son équilibre. Et le système classificatoire n'apparaît plus que comme un véritable lit de Procuste, où chaque élément doit être soit étiré, soit tronqué pour pouvoir s'intégrer dans l'ensemble.

Les ennuis d'un cadre rigide pour classer l'information scientifique et technique qui se veut essentiellement dynamique sont évidents. A cette structure statique s'oppose l'utilisation du langage naturel qui apparaît comme un moyen souple et rapide d'accès direct à la notion cherchée, qu'elle soit novation ou néologisme.

Cependant, l'utilisation du langage naturel génère d'autres problèmes, inhérents à la nature de la langue avec des phénomènes de synonymie, de polysémie, d'homographie, de substitution. Et l'emploi de descripteurs alphabétisés pour caractériser le contenu des documents a rendu nécessaire une restructuration de l'information.

Il ne faut jamais oublier que les relations des unités de la langue relèvent de deux plans bien distincts : les relations syntagmatiques et les relations paradigmatiques. Les relations syntagmatiques découlent du rapport des éléments dans leur succession matérielle dans le discours 4, de leur défilement linéaire où chaque unité signifiante peut être modifiée par celle qui la précède et celle qui la suit. Les relations paradigmatiques sont au contraire des relations en dehors du discours où chaque unité signifiante est considérée dans ses rapports associatifs ou de substitution à l'intérieur de sa classe formelle.

C'est ainsi que s'est développée la notion d'outils linguistiques et de langage documentaire dont fait partie le thesaurus. Un thesaurus ne doit être confondu ni avec un lexique, simple liste de mots classés alphabétiquement, ni avec un index qui pour un concept donné indique des références correspondantes, ni avec un dictionnaire qui fournit une définition de chaque concept qu'il comporte. Car le but du thesaurus est de donner pour une quelconque idée, notion, le ou les mots qui l'exprimeront avec le maximum d'exactitude et de précision alors que la démarche est inverse pour un dictionnaire qui, pour un mot donné, fournit la signification ou l'ensemble des idées qu'il explicite. Matériellement, un thesaurus présente une série de termes appartenant à un domaine précis et couvrant chacun un concept ou un ensemble de concepts déterminés, cette détermination s'opérant par le truchement des relations de ce terme avec d'autres termes, relations qui permettent d'en établir le contenu sémantique. Ces relations sont de trois ordres : relations hiérarchiques, relations associatives, relations d'équivalence. Et la valeur d'un thesaurus en tant qu'outil documentaire réside moins dans le choix de ses termes - toujours empreint d'une certaine convention - que dans le choix des relations conceptuelles qui en définissent les modalités d'application. La première relation sans laquelle un thesaurus ne peut exister est une relation hiérarchique spécifique-générique qui replacera chaque terme dans l'ensemble dont il fait partie : Bécassine, héroïne un peu surannée de livres enfantins, rangeait sur la même étagère les serviettes rouges et les tomates mûres, suivant en cela le principe qu'il faut mettre ensemble les objets de même nature. Si l'erreur classificatoire est ici flagrante : le choix de la couleur comme critère de base de l'ensemble, elle peut revêtir des formes plus subtiles tout en demeurant aussi fausse. Le problème du choix de la nature hiérarchique des ensembles est le premier problème qu'il faut régler lors de la constitution d'un thesaurus. C'est le problème majeur dont dépend la nature même du thesaurus et la philosophie de son utilisation. Sans cette structuration de base, un thesaurus aura les mêmes vices de construction qu'une statue humaine ou animale exécutée par un sculpteur ignorant tout de l'anatomie.

Après cette relation, dite verticale, une deuxième relation également nécessaire sera une relation horizontale entre des concepts qui ne sont liés par aucun rapport hiérarchique, mais par une inférence plus ou moins lointaine qu'il convient de rappeler à la fois pour l'indexation et la recherche de l'information; cette relation s'appelle relation associative ou de voisinage. Alors que la relation hiérarchique a pour but d'intégrer dans un ensemble les différents éléments qui lui appartiennent, la relation associative établira des ponts entre des ensembles de nature différente. C'est ce réseau de relation avec les autres termes du thesaurus qui définit pour un descripteur son champ sémantique exact.

Ces relations ont donc un but bien précis et ne doivent ni être choisies au hasard ni selon des associations d'idées purement personnelles, mais selon un plan d'ensemble qui replace tous les éléments les uns par rapport aux autres avec comme principal souci d'augmenter la précision de chaque notion et de supprimer les causes possibles de silence soit à l'indexation, soit à l'interrogation, silence dû à une vision trop étroite d'un sujet et qui en ignore certains aspects fondamentaux.

Une troisième relation sera enfin nécessaire : la relation d'équivalence. Le problème se pose sur deux plans : problème graphique et problème sémantique. Le problème graphique : plusieurs orthographes sont possibles pour un terme, problème du singulier ou du pluriel, pour les mots composés ou syntagmes, suppression des prépositions. On ne retiendra qu'une forme graphique parmi toutes les possibles. Du point de vue de la sémantique : même souci de précision et de lutte contre la redondance.

La redondance d'un langage documentaire provient du fait de disposer de plusieurs termes possibles pour couvrir un même concept. Si la littérature s'enorgueillit d'avoir une palette de termes très riche pour exprimer toutes les nuances de la pensée, ces nuances sont un gros handicap dans un langage documentaire. Elles pèsent aussi lourdement sur l'entrée de l'information (input) que sur sa sortie (output) par le fait que ne sachant quelle nuance adopter, on les adoptera toutes.

Nous allons maintenant à l'aide d'exemples concrets expliquer comment ces différents problèmes ont été résolus dans le Thesaurus Pétrole développé par la Commission documentaire du comité des techniciens.

II. Organisation du Thesaurus pétrole

L'organisation du thesaurus a été fixée bien avant que ne paraissent les Principes directeurs pour l'établissement et le développement de thesaurus scientifiques et techniques destinés à la recherche documentaire de l'Unesco ou les projets de normes ISO TC 46, mais rentre parfaitement dans le cadre ainsi fixé à l'échelon international.

Le thesaurus se présente d'abord sous la forme d'un corpus alphabétique dans lequel est regroupé l'ensemble complet des termes dont seulement une partie est retenue en tant que « descripteur » ou terme utilisé pour l'indexation des documents.

Chaque terme retenu sera univoque et caractérisé par son emploi et par ses relations avec d'autres descripteurs figurant dans le thesaurus, ce qui permet d'en déterminer le champ sémantique exact.

A. Présentation graphique des descripteurs.

Un descripteur représente une idée; il peut comprendre un ou plusieurs mots. Mais jusqu'à quel point faut-il établir des mots composés alors qu'une association de deux descripteurs pourrait représenter la même notion ? Une philosophie assez stricte doit être établie dans ce domaine. Les exemples célèbres de Pomme de terre et Bleu de travail montrent clairement qu'en linguistique comme ailleurs le tout n'est pas toujours identique à la somme des parties.

Les termes qui seront associés au moment de l'indexation et de la recherche pour couvrir un concept précis devront d'abord être un élément unitaire d'indexation valable, c'est-à-dire que si la notion AB est indexée par A et par B, A ou B devront également être des éléments valables d'indexation. Il faut également qu'il n'y ait aucune possibilité d'engendrer un phénomène combinatoire du type « ESSENCE MOTEUR et MOTEUR ESSENCE ». En outre, dans le cas de recherche manuelle, il est préférable que les descripteurs associés pour exprimer un nouveau concept ne soient pas l'un et l'autre des descripteurs de haute fréquence.

De plus la représentation d'un concept par l'association de deux descripteurs ne peut jouer que dans le cas d'un concept au niveau le plus fin et n'étant lui-même générateur d'aucune lignée.

La forme adoptée pour la présentation des descripteurs est la forme substantive. Seuls quelques adjectifs qualificatifs qui ne seront jamais employés seuls mais associés avec un autre descripteur (annuel, continu, numérique), seront conservés. Les descripteurs seront présentés au singulier sauf s'il y a un sens différent quand le descripteur est au pluriel. Exemple : Particule et Particules.

Les prépositions dans les mots composés seront systématiquement supprimées. Double avantage : réduire la longueur des descripteurs et les possibilités d'erreur quand la préposition est mal fixée. Exemple : additif pour boue de forage, additif à boue de forage, additif de boue de forage ? Le problème est résolu si l'on écrit : additif boue forage. Dans quelques cas seulement la suppression d'une préposition à l'intérieur d'un mot composé peut générer une ambiguïté; elle sera alors exceptionnellement maintenue. Exemple : Coefficient de capital.

La ponctuation, pour des raisons de simplification, a été exclue des mots composés. Seul le point a été conservé lorsqu'il s'agit de tronquer un mot. Exemple : Prop. physique pour propriété physique.

Des descripteurs composés seront présentés selon la séquence normale des mots en français. Cependant, quelques inversions sont rendues nécessaires pour regrouper, lors de la fabrication d'index, certaines notions. Exemple : Pression avec haute et basse pression, température avec haute et basse température.

B. Les relations.

Les relations sont représentées de la façon suivante :
I) Forme entière d'un descripteur abrégé..... *
2) Note explicative ............................................. **
3) Employer ................................................... EM
4) Employé pour................................................ EP
5) Terme générique ............................................ TG
6) Terme spécifique ............................................ TS
7) Voir aussi ................................................... VA

1. Forme entière d'un descripteur abrégé (*).

Le thesaurus ne se borne pas à répertorier des mots : il intègre aussi des mots composés et des syntagmes rendus nécessaires pour la précision et la finesse de l'indexation.

Le nombre de caractères retenus pour chaque descripteur a toutefois été fixé à 30. Au-delà la forme est abrégée.

Exemple : PROSPECTION SISMIQUE GRD ANGLE

* PROSPECTION SISMIQUE GRAND ANGLE

Il existe des domaines comme la pharmacologie où ce nombre de 30 caractères apparaît comme beaucoup trop restrictif, mais il apparaît comme suffisant dans notre domaine.

2. Note explicative définissant les modalités d'emploi d'un descripteur (**).

Il est très important de ne laisser subsister aucune des ambiguïtés du langage naturel, qui peuvent à la fois gêner au moment de l'indexation d'un document ou de la rédaction d'une question.

La note peut :

- soit préciser l'emploi d'un descripteur :

SÉDIMENTATION

**A utiliser pour indexer le phénomène ou son résultat, le dépôt. Si un type de sédimentation est caractérisé par plusieurs descripteurs, ils seront employés ensemble. La désimentation lacustre actuelle sera indexée :

SED. LACUSTRE

SED. ACTUELLE

- soit limiter l'emploi d'un descripteur :

ACCIDENT

**Ce descripteur sera réservé aux dommages corporels ou matériels résultant de défaillances opératoires; dans les autres cas, employer SINISTRE.

- soit indiquer quelques caractéristiques précises :

TEMPÉRATURE CRYOGÉNIQUE

**Au-dessous de 100° C.

3. Employer et employer plus (EM et EM PLUS).

Ils sont utilisés dans le cadre des relations synonymiques de substitution et indiquent le renvoi à un terme préférentiel retenu comme descripteur. Ce renvoi peut avoir plusieurs raisons :

a) Indiquer un synonyme préféré.

PRIMAIRE

EM PALÉOZOÏQUE

Ici, la préférence de « Paléozoïque » est due à l'ambiguïté que comporte « Primaire ».

b) Renvoyer un terme spécifique considéré comme trop fin à un terme plus général.

IMPSONITE

EM ASPHALTOÏDE

Il sera toujours possible par la suite d'éclater la rubrique « Asphaltoïde » si elle est trop encombrée.

c) Choisir une orthographe préférentielle, souvent pour des raisons de regroupement logique.

BASSE TEMPÉRATURE

EM TEMPÉRATURE BASSE

Rappelons que ce genre d'interversion ne se justifie que dans la fabrication d'index où seul le terme température se présente comme une entrée alphabétique valable.

d) Exprimer une équivalence entre deux concepts dont un seul sera retenu. ARGILE GONFLANTE

EM GONFLEMENT ARGILE

Ce genre d'assimilation n'est valable que s'il est difficile, comme dans ce cas, de distinguer utilement le processus de son résultat.

e) Éliminer des termes de jargon ou des termes étrangers couramment utilisés.

ARBRE DE NOËL WELL LOGGING

EM TÊTE DE PUITS EM DIAGRAPHIE

f) Éliminer la redondance due aux antonymes,

INSTABILITÉ

EM STABILITÉ

car il s'agit là de deux aspects d'un même phénomène.

g) Enfin, il peut s'agir d'un double renvoi, fait à deux descripteurs qui seront utilisés simultanément mais non liés,

GRADIENT GÉOTHERMIQUE

EM GRADIENT

PLUS GÉOTHERMIE

leur association donnant un concept nouveau. Cette association, qui a pour but d'alléger le thesaurus, ne sera utilisée que pour des concepts peu fréquents et ne risquant pas de provoquer des phénomènes combinatoires malheureux.

Les rapports synonymiques peuvent être déterminés impérativement comme c'est le cas dans ce thesaurus où un seul synonyme est conservé et utilisé. On peut aussi admettre, lorsque le thesaurus est géré par un ordinateur, de les conserver tous et de les faire associer automatiquement par la machine.

4. Employer pour (EP et EP AVEC).

C'est la relation symétrique d'Employer; elle rappelle pour un descripteur les concepts non retenus qu'il représente :

CALCAIRE FIN

EP CALCAIRE CRYPTOCRISTALLIN

EP CALCAIRE MICRITIQUE

EP CALCAIRE SUBLITHOGRAPHIQUE

EP MUDSTONE

EP WACKSTONE

EP CALCAIRE MICROCRISTALLIN

ou dont il est l'un des deux membres :

PLI

EP PLI DE FOND

AVEC TECTONIQUE FOND

5 et 6. La relation terme générique-terme spécifique.

Elle permettra de mener des recherches à des niveaux de spécificité très différents : recherche « large » ou recherche « fine ».

Terme générique (TG) : Désigne le terme plus large qui englobe le descripteur. Quand ce terme générique possède à son tour un terme générique, ce deuxième est également indiqué sous le premier, ainsi que le troisième s'il existe, etc. Ainsi il est possible d'embrasser d'un seul coup d'œil toute la lignée d'un descripteur.

BELEMNOIDE

TG DIBRANCHIAUX

TG CEPHALOPODE

TG MOLLUSQUE

TG ORGANISME ANIMAL

Terme spécifique (TS) : Désigne les divisions plus fines d'un descripteur :

ÉROSION

Ts ÉROSION ÉOLIENNE

Ts ÉROSION FLUVIATILE

Ts ÉROSION GLACIAIRE

TS ÉROSION MARINE

7. Voir aussi (VA).

Voir aussi désigne une relation non hiérarchisée, une relation paradigmatique ou relation horizontale, plus ou moins proche entre deux descripteurs de même nature, ou de nature différente.

a) L'accent peut être mis sur une ressamblance :

BRÈCHE

VA RUDITE

b) Ou sur une différence pour des concepts de même nature :

IMPLOSION

VA EXPLOSION

c) Il peut s'agir également de relations de voisinage pour des concepts de nature différente :

DÉTÉRIORATION

VA VIEILLISSEMENT

d) Ou de la relation tout-partie, constituant-constitué :

STATION POMPAGE FER

VA POMPE VA ALLIAGE FERREUX

e) Ou d'un rapport cause-effet, cause-remède :

ACCIDENT GRIPPAGE

VA SÉCURITÉ VA ADDITIF ANTIGRIPPANT

f) D'un rapport instrumental :

MAGNÉTOMÈTRE

VA PROSPECTION MAGNÉTIQUE

g) Voir aussi peut rappeler les différents aspects d'un même concept ne figurant pas dans la même lignée hiérarchique :

ESSENCE

VA ESSENCE AUTO

La liste de ces rapports d'association n'est pas limitative pourvu que le but de cette relation, permettre la formulation exacte d'un concept, ne soit pas oublié.

C. La hiérarchisation et sa philosophie.

La nature de relation hiérarchique (ensemble, sous-ensemble) entre les concepts est, comme nous l'avons déjà dit, d'une importance capitale dans l'organisation d'un langage documentaire. Quand on consulte un index purement alphabétique pour en extraire une notion quelque peu générale il est nécessaire de consulter à un moment ou à un autre un document de référence qui précisera le contenu de ce descripteur : une recherche sur les planètes devra aussi porter sur Mercure, Vénus, Terre, Mars, Jupiter, Saturne, Uranus, Neptune et Pluton, et une rechersur les céréales sur le blé, le seigle, l'avoine, l'orge, le riz, le maïs, le sorgho.

La hiérarchisation qui suppose l'établissement de classes hiérarchiques homogènes correspond exactement à la constitution d'ensembles et des éléments qui les composent du fait de la notion d'appartenance, ou du fait de la notion d'inclusion. Rappelons brièvement que la notion d'inclusion signifie que si A c B, tout élément de A est nécessairement élément de l'ensemble B et doit donc avoir les mêmes caractéristiques.

Et nous posons tout de suite les deux problèmes majeurs qui se manifestent lors de la construction d'une hiérarchie : la relation tout-partie et la polyhiérarchie.

La relation tout-partie est une relation tentante : l'arbre fait partie de la forêt, le moteur de la voiture et le poumon de l'homme. Nous voyons rapidement les dangers d'une telle relation : un arbre fait d'abord partie de l'ensemble plante, un moteur de voiture de l'ensemble moteur, le poumon humain de l'ensemble système respiratoire. Aussi pour faciliter la clarté du Thesaurus pétrole cette relation ambiguë a été bannie. Nous en venons au problème très voisin de la polyhiérarchie.

La polyhiérarchie est une conséquence de l'extension des mots et leur capacité d'adhérer à un plus ou moins grand nombre de concepts. Prenons un exemple simple : les Champignons, selon les règles de la taxinomie végétale, font partie de l'ensemble Thallophyte et se décomposent en un certain nombre de groupes dont le critère est le mode de reproduction : les phycomycètes, les ascomycètes, etc. Si l'on prend le terme Ascomycète on voit que des formes aussi diverses que la Morille ou l'Ergot du seigle, la Truffe ou l'Oïdium appartiennent à cet ensemble. Si l'on veut inclure le concept Champignon dans un concept Aliment, une des règles qui régit la logique des ensembles devient fausse. « Si A est inclus dans B tout sous-ensemble de A est sous-ensemble de B » d'où si les Champignons sont un sous-ensemble d'Aliment, les sous-ensembles de Champignon font partie de l'ensemble Aliment. Ceci est juste pour Morille ou Truffe mais faux pour Oïdium et Ergot du seigle.

Le problème sera le même pour le Vison ou le Renard : mammifère carnassier mais aussi fourrure; le Bois : matière végétale mais matériau de construction... Les exemples abondent. Mais si on examine le problème, on s'aperçoit que cette contradiction n'est pas aussi grave qu'il apparaît à première vue : le Champignon (botanique) et le Champignon (aliment) sont deux concepts différents et peuvent être différenciés dans leur présentation. On peut garder Champignon pour la notion botanique (ou son équivalent scientifique Eumycete) et construire un nouveau concept Champignon comestible pour l'alimentation. Il est donc possible d'extraire d'un mot les différents concepts qu'il recouvre et d'inclure chacun dans une hiérarchie appropriée.

La construction d'une hiérarchisation suppose l'établissement de classes, c'est-à-dire d'ensembles ayant une caractéristique commune. C'est du choix de cette caractéristique commune qu'on déterminera la nature même de la classification. Mais si le cadre de la hiérarchisation est le cadre des disciplines couvertes par le thesaurus, le choix de cette caractéristique essentielle est difficile : les mêmes descripteurs se répètent d'une discipline à l'autre. Le vocabulaire de la physique, de la chimie ou de la biologie est en grande partie le même, mais inclus dans des classes différentes.

La caractéristique essentielle ne réside pas dans une discipline; il fallait la définir dans un autre cadre. C'est ainsi que fut développée l'idée de facettes ou catégories dont l'idée remonte à l'Antiquité avec Aristote. Parmi les nombreuses applications nous en retiendrons deux pour mémoire : les catégories personnalité, matière, énergie, espace, temps de la classification de Ranganathan et les catégories abstraction, espace, matière, sensation, processus intellectuel, volonté, affectivité du Thesaurus de Roget.

Les différentes « facettes », « points de vue » ou « catégorèmes » moins ambitieux du Thesaurus pétrole sont, dans un souci de compatibilité, les mêmes que nous trouvons dans la Subject Authority List de l'« American Petroleum Institute » et dans le Exploration and Production Thesaurus de l' « University of Tulsa ». Elles sont actuellement au nombre de i 1 et si, dans la liste hiérarchisée, les catégorèmes apparaissent dans l'ordre alphabétique, nous adopterons pour les présenter une démarche logique :
1) Processus;
2) Phénomène naturel;
3) Conditions opératoires;
4) Propriétés;
5) Matériaux;
6) Équipement;
7) Organisme;
8) Facteurs économiques;
9) Concepts relatifs à la terre et à l'espace;
10) Facteurs communs;
II) Science et Technologie.

Ils n'apparaissent pas dans le corpus alphabétique. Cette relation un peu artificielle n'est générée que pour les besoins de la structure hiérarchique globale.

1. Le processus.

Il est dynamique par essence. C'est une action induite provoquée, voulue par l'homme. Dans certains cas quand un même mot peut avoir deux acceptions différentes, à la fois action et résultat de cette action : « forage » ou « revêtement » qui peut être à la fois un processus ou un matériau, il est nécessaire de lever cette ambiguïté et dans le premier cas conserver par exemple « forage » pour le processus, « puits » pour le résultat, et dans le deuxième cas écrire « procédé de revêtement » pour le processus « revêtement » pour le résultat.

A l'intérieur de cette facette se retrouvent quelques grandes catégories : procédé industriel, réaction chimique, opération physique. Les descripteurs de procédés sont séparés en groupes selon que domine le côté chimique ou le côté physique du processus.

Les méthodes d'analyse et d'essais sont considérées séparément puisqu'elles contiennent des techniques à la fois physiques et chimiques.

Les descripteurs concernant la conduite des affaires sont également inclus dans la facette processus; ils concernent des opérations dynamiques, comme la comptabilité, la fabrication ou les relations publiques. Ils forment l'ensemble « processus économique ».

La section concernant les mathématiques a été incluse dans la facette Processus puisque en général les descripteurs traitant d'analyse mathématique sont dynamiques.

2. Phénomène naturel.

Le phénomène est aussi action, mais qui échappe à l'action de l'homme. Il est action naturelle comme la pesanteur, ou fait spontané comme le bruit. Dans certains cas, un même vocable pourrait désigner à la fois un phénomène naturel et un processus comme dans le cas du mot absorption. Dans de tels cas, il est souhaitable de considérer le mot absorption comme le phénomène et d'utiliser l'expression « procédé d'absorption » pour définir le processus.

3. Les conditions opératoires.

Les descripteurs inclus dans cette catégorie sont ceux qui caractérisent la marche d'un procédé ou d'un appareil. Ils comprennent par conséquent la température, la pression, le rendement et la vitesse. On peut également y inclure les problèmes inhérents au procédé et au fonctionnement de l'appareillage : la précision, la réponse, les défauts et défaillances.

Cette catégorie pourrait ne pas exister : elle emprunte des termes soit au processus, soit au phénomène, soit aux propriétés. Elle a été établie de façon pragmatique, car elle est très utile pour couvrir un domaine dont le regroupement est un problème majeur.

4. Propriétés.

Cette catégorie contient tous les termes signifiant les propriétés des matériaux. Elle est subdivisée en trois sections : la composition, les propriétés physiques, la structure. Cependant, des propriétés vagues comme la taille et la forme n'y figurent pas; elles sont considérées comme des adjectifs qui viendront caractériser les matériaux qu'elles définissent (voir Facteurs communs).

5. Matériaux.

Cette catégorie définit des objets. Elle regroupe à la fois des matériaux ou produits manufacturés. Les matériaux divisés en six sections :
- Matériau de par sa composition, qui regroupe la plupart des produits de composition définie : tissu, papier, bitume;
- Matériau de par sa fonction qui regroupe les produits ayant une utilisation déterminée : carburant, catalyseur, détergent, mais dont la composition varie. Cette distinction est nécessaire pour introduire un ordre dans un domaine où la confusion fut la règle. Prenons le cas du descripteur « essence » en limitant son sens au vocabulaire pétrolier. Ce terme peut à la fois être considéré comme un sous-ensemble de « produits blancs » dans la mesure où le terme « produit pétrolier » aurait été lui-même dichotomisé en « produits blancs » et « produits noirs ». Mais ce terme peut également être un sous-ensemble de « fraction pétrolière », c'est-à-dire un produit issu de la distillation du pétrole considéré sous l'angle de ses propriétés physico-chimiques. Enfin, « essence » pourrait figurer dans l'ensemble « carburant » si l'on considère son utilisation finale. La solution peut être de faire dépendre hiérarchiquement « essence » de « fraction pétrolière », lui-même « matériau de par sa composition », et créer un deuxième descripteur « essence moteur » qui dépendra du carburant à l'intérieur du groupe « matériau de par sa fonction ».
- Matériau de par sa phase, qui groupe quelques termes tels que : fluide, émulsion, mousse, solution, suspension.
- Matériau de par sa structure qui regroupe les particules élémentaires.
- Enfin, nous avons regroupé dans une section les aspects chimiques des composés qui auraient dû être considérés à la rigueur comme faisant partie de Matériau de par sa fonction.

6. L'équipement.

Cette catégorie regroupe des objets fabriqués aussi bien un appareil ou un instrument qu'un barrage ou un bateau. Il existe quelques grandes subdivisions :
- pour regrouper sous la rubrique « équipement électrique » les organes électriques tels que contacteur, résistance, interrupteur;
- pour regrouper sous la rubrique « appareil mesure » tous les types d'appareillage de mesure :
- pour regrouper tout l'équipement de traitement de données.

Les équipements ne sont pas asservis au procédé ou au matériau qui les utilise ou qu'ils utilisent; une pompe à boue de forage fait partie de l'ensemble pompe et non de l'ensemble forage ou boue de forage.

7. Organisme.

La catégorie organisme est aussi une catégorie d'objets. Elle comprend tous les organismes qui sont ou ont été dotés de vie : les organismes vivants et les organismes disparus. Dans la plupart des cas, les descripteurs spécifiques concernent à la fois les organismes vivants et les organismes disparus. Cette facette comprend également certains descripteurs concernant les organismes fossiles comme les empreintes ou les coprolithes.

8. Les facteurs économiques.

Ils comprennent tous les descripteurs qui ont une implication économique et qui sont le résultat d'une action ou d'un ensemble d'actions. Les éléments typiques de ce chapitre sont la demande, l'offre, la déplétion, l'amortissement, la réserve et la valeur. Entre facteurs économiques et processus économiques, l'opposition est celle du statique au dynamique.

9. Les concepts relatifs à la terre et à l'espace.

Ils regroupent les notions relatives au lieu et au temps et à l'action du temps sur un lieu, d'où par extension à la physique du globe, à la topographie, à la géomorphologie, au faciès, aux structures géologiques, au cosmos. Ils incluent aussi des concepts relatifs à l'âge, telle l'échelle stratigraphique.

10. Les facteurs communs.

Il ne s'agit pas ici d'une classe homogène mais, principalement, de la réunion de petites catégories exprimant des qualités secondes. Les descripteurs qui sont regroupés ici sont généralement du type « modificateur ». Cette classe contient des groupes différents dont les principaux sont : la direction, la forme physique, la qualité, la quantité, la forme, la situation, la taille. Pour la plupart, ces descripteurs ne sont pas utilisés seuls mais pour modifier ou compléter un autre descripteur avec lequel on peut créer une relation syntaxique en les reliant par un lien matérialisé par un sigle identique (link).

11. Science et technologie.

Un descripteur constitué par le nom d'une discipline ou d'une technologie est employé d'une façon bien précise : pour caractériser un manuel ou un ouvrage théorique sur la question .« Géologie » ne sera utilisé que pour indexer un manuel de géologie; dans les autres cas, il est considéré comme trop général pour être retenu.

Les catégories ne sont pas limitatives, mais il ne faudrait pas les multiplier car l'intégration hiérarchique d'un descripteur pose des problèmes de plus en plus nombreux au fur et à mesure que les points de vue sous lesquels on peut les considérer se multiplient. Dans le thesaurus « Économie », à côté de la facette Facteurs économiques, trois nouvelles catégories ont été ajoutées : « Facteurs humains », « Facteurs juridiques » et « Facteurs politiques ».

L'intérêt de cette hiérarchie prend toute sa mesure lorsqu'elle est mise en ordinateur et que, lors de l'entrée des documents indexés, l'ordinateur rajoute automatiquement pour chaque terme spécifique les termes génériques successifs ou les associe automatiquement au moment de la recherche de l'information. Si l'indexateur choisit le terme fin « Campanien », l'ordinateur rajoutera « Sénonien », « Crétacé supérieur », « Crétacé » et « Mésozoïque », c'est-à-dire tous les niveaux supérieurs. Les documents ainsi réindexés peuvent à la fois faire l'objet de recherches fines ou larges et l'indexateur dégagé d'une partie de son travail analysera chaque document au plus haut niveau de spécificité. Cette possibilité de réponse homogène de différents niveaux est particulièrement importante, car elle permet d'intégrer des recherches bibliographiques à deux niveaux :
- La recherche rétrospective d'information ou recherche d'ensemble des documents répondant le plus exactement possible à une question donnée, par exemple : « Les Conodontes du Carbonifère inférieur de la Cornouaille ».
- La diffusion sélective de l'information ou diffusion rapide, périodique et systématique des informations contenues dans les documents, au fur et à mesure de leur parution, à des utilisateurs selon leurs pôles d'activité, leurs sujets d'étude ou de recherche. Cet intérêt se traduira par l'établissement d'un « profil » ou ensemble des descripteurs qui caractérisent le champ d'intérêt du demandeur, par exemple les fossiles du Paléozoïque en Grande-Bretagne.

La génération automatique de la relation spécifique/générique donne une indexation qui permet d'attaquer simultanément ces deux genres de recherche. Ainsi, un article intitulé A Lower Carboniferous Conodont Fauna from East Cornwall sera indexé au niveau fin par Conodonte, Carbonifère inférieur et Cornouailles et, à un niveau générique, par l'ordinateur qui ajoutera des niveaux de généralité croissante avec « Incertae-Sedis » et « Fossile » pour Conodonte, « Carbonifère » et « Paléozoïque » pour Carbonifère inférieur et « Grande-Bretagne » et « Europe » pour Cornouailles. Un indice différent placé devant le descripteur permet de savoir s'il s'agit d'un descripteur d'origine ou d'un descripteur ajouté par la machine. Ou, si l'on associe automatiquement les descripteurs au moment de la recherche, les possibilités de la logique booléenne, ET, ou, SAUF, permettent toutes les associations et les exclusions souhaitées.

Nous insisterons sur le fait que le passage automatique du spécifique au générique requiert une lignée hiérarchique stricte et qu'une polyhiérarchie compliquerait beaucoup l'opération. Rappelons notre exemple de l'Essence : considérée comme un produit de la distillation du pétrole brut, Essence engendre Fraction pétrolière; considérée comme un carburant, Essence engendre Carburant et est engendrée par Supercarburant (terme spécifique d'Essence). Aussi, dans une polyhiérarchie, Supercarburant remonterait dans sa filière normale à Carburant mais aussi dans la filière inexacte aux Fractions pétrolières.

Les descripteurs du thesaurus, par cette philosophie de « facette », sont dégagés de toute inclusion spécifique dans des techniques pétrolières. Ainsi, une pompe à boue de forage fait partie du matériel de forage et, dans une classification, y serait vraisemblablement rattachée. Dans l'optique du thesaurus, la pompe à boue est par son essence une pompe et est incluse dans l'ensemble « pompe », au même titre qu'une pompe centrifuge ou une pompe hydraulique.

C'est cette souplesse au niveau des descripteurs qui permet de résoudre le problème de l'antagonisme discipline-mission. Antagonisme dû au fait que les grands outils bibliographiques sont orientés par discipline (chimie, physique, biologie, médecine) alors que les recherches scientifiques ou techniques sont généralement orientées dans le cadre d'une mission (énergie, espace, mer, pétrole) et nécessitent un balayage horizontal de la masse des informations.

D. Présentation de la hiérarchie

L'agencement hiérarchisé du thesaurus, véritable schéma classificatoire, est également présenté dans le Thesaurus après la partie alphabétique. Les facettes qui n'apparaissent pas dans la partie alphabétique y sont présentées en tête du vocabulaire qu'elles comprennent. A l'intérieur d'un même niveau hiérarchique le classement est alphabétique.

Ceci n'est apparu gênant que dans le cadre de l'Échelle stratigraphique.

Un index alphabétique des descripteurs indique la place de chacun dans l'ensemble hiérarchique.

Cet index alphabétique ne fait pas double emploi avec le texte du thesaurus lui-même déjà présenté alphabétiquement. Les relais des catégories et de leurs sous-ensembles sont nécessaires pour la compréhension globale d'un ensemble hiérarchisé, compréhension nécessaire pour qui veut utiliser valablement le thesaurus. Sans cet index alphabétique, il est difficile pour l'utilisateur non averti de retrouver un descripteur dans sa filière hiérarchique.

III. Méthodologie de la fabrication du thesaurus

A. Le choix des descripteurs

L'utilisation d'un langage d'indexation commun est d'une importance considérable pour faciliter le transfert de l'information scientifique et technique et, pour cela, il doit être employé par le plus grand nombre de partenaires possibles. Ce langage est utilisé soit pour l'entrée des informations (indexation des documents) soit pour la sortie des informations (formulation des questions).

Rappelons la définition que nous avons donnée du « thesaurus » : il fournit des mots permettant d'exprimer une notion. Quand on travaille sur du langage naturel 1, le problème de récupérer pour chaque concept les termes spécifiques associés ou équivalents suppose soit une compétence quasi-universelle, soit l'utilisation de documents de référence. Et même pour qui ne souffre pas d'aphasie, il arrive que certains termes fuient obstinément la mémoire. Aussi un thesaurus, quand il existe, est l'outil par excellence qui permettra la formulation d'une question en langage naturel.

C'est pour cela que la Commission documentation du « Comité des techniciens de la Chambre syndicale de la recherche et de la production du pétrole et du gaz naturel », ayant pour but des travaux coopératifs, décida en 1965 la fabrication d'un thesaurus commun aux sociétés pétrolières françaises. Les travaux ont été menés également avec des représentants du C.N.R.S. et du B.R.G.M. pour permettre une compatibilité très large avec les travaux entrepris par ces différentes institutions. Primitivement, seul un thesaurus « Exploration Production » avait été envisagé. Mais devant l'intérêt du travail, la Commission a élargi son champ d'action et mis en chantier deux thesaurus supplémentaires : « Économie » et « Raffinage Pétrochimie ».

Ces thesaurus se veulent entièrement compatibles et possèdent des champs de recouvrement.

Ils sont également compatibles avec les deux thesaurus pétroliers américains : Exploration and Production Thesaurus de l' « University of Tulsa » et la Subject Authority List de l' « American Petroleum Institute ».

Les descripteurs retenus dans le Thesaurus Pétrole « Exploration-Production » ont été choisis à la fois par des spécialistes de l'information documentaire et par des spécialistes des sujets considérés, sujets relevant pour la partie Exploration-Production de ce thesaurus pétrolier du domaine de la géologie, du forage, de la production, des diagraphies, de la géophysique et du traitement de l'information appliquée à ces sciences et techniques.

La préparation de chaque séance de travail a consisté en l'élaboration d'une liste de mots-clé, regroupés selon la discipline des spécialistes réunis, dans laquelle on s'est efforcé de faire figurer le maximum de notions, en se référant :
- aux plans de classement traditionnels et aux thesaurus existants, essentiellement le thesaurus de l'Université de Tulsa;
- aux fichiers documentaires géologiques déjà constitués;
- aux manuels, nomenclatures, encyclopédies;
- à une liste de mots-clé expérimentalement établie par l'indexation libre d'un certain nombre d'articles.

Chaque liste a été présentée aux spécialistes scientifiques sous la forme hiérarchisée de la classification à facettes; l'intervention de ces spécialistes s'est révélée particulièrement indispensable :
- pour le choix des termes à retenir comme descripteurs, les critères étant alors :
. la fréquence d'apparition du terme dans la littérature scientifique;
. la possibilité exprimée par le spécialiste d'avoir ou de n'avoir pas de problèmes documentaires au niveau de spécificité du mot-clé proposé;
- pour l'établissement de relations de hiérarchie ou d'équivalence dans le cas de termes très spécifiques, ou de mots ayant fait récemment leur apparition dans la littérature. Ce dernier problème s'est posé par exemple lors de l'étude des roches carbonatées pour lesquelles des classifications nouvelles ont abouti, ces dernières années, à l'établissement d'une terminologie complexe.

Il nous a semblé indispensable de faire apparaître dans le thesaurus un maximum de termes, chaque mot non retenu faisant l'objet d'un renvoi au descripteur dont le contenu sémantique est le plus proche du sien et qui est alors considéré comme son équivalent documentaire.

Cette équivalence documentaire est rarement une équivalence scientifique car il est peu de termes qui désignent exactement les mêmes choses. Du moins permet-elle à un non spécialiste d'indexer un sujet qui lui est un peu familier d'une manière non aberrante, et au spécialiste de savoir, le jour venu, quel descripteur il doit utiliser pour retrouver les articles traitant de la notion précise sur laquelle il désire se documenter.

Il est à noter que le degré de précision des termes retenus est lié à l'optique pétrolière de ce thesaurus. En ce qui concerne la géologie par exemple, les concepts sédimentologiques, les notions traduisant le comportement des hydrocarbures dans le sol - genèse, empiègement, migration - sont finement subdivisés; en revanche, une étude sur le socle, les phénomènes volcaniques ou les gîtes minéraux ne pourra être indexée que par des descripteurs beaucoup plus larges destinés à traduire le contenu d'articles d'intérêt général ou de caractère marginal.

La formulation des notions définitivement retenues a posé de nombreux problèmes : on a dû trancher au mieux entre partisans du langage courant et puristes; on a été conduit, dans ce thesaurus français, à introduire des termes anglais non traduisibles; on a été amené à adopter certaines options par souci de compatibilité avec le vocabulaire élaboré par d'autres organismes; on a dû enfin se soumettre - quant au graphisme des mots-clé notamment - aux impératifs de l'ordinateur.

Dans certains cas, des schémas fléchés ont été établis pour faciliter l'expression des relations retenues et en vérifier leur bien-fondé.

Certains descripteurs peuvent paraître avoir, d'autre part, un caractère artificiel; ils l'ont en effet, ayant pour but de servir de termes génériques à des termes spécifiques qui n'en comportent normalement pas; mais nous avons vu antérieurement l'importance qu'avait, dans un thesaurus, l'existence d'une hiérarchisation élaborée.

Le thesaurus a été construit par retouches successives, les relations établies pour les différents termes étudiées au cours d'une réunion étant ensuite intégrés par ordinateur dans l'ensemble des descripteurs et des relations déjà existantes.

Dans le Thesaurus Exploration-Production, 3 ooo descripteurs environ ont été retenus qui représentent plus de II 000 relations. Une statistique des termes réellement utilisés pour l'indexation sera établie périodiquement; ceux dont la fréquence d'emploi sera trop faible seront supprimés en tant que descripteurs et un renvoi sera fait au mot-clé hiérarchiquement supérieur, tandis qu'un concept non encore retenu se trouvera introduit lorsqu'aura été franchi un certain seuil de demandes; ainsi, à la rigueur entraînée par la hiérarchisation s'allie cette souplesse qui permet au thesaurus de suivre de très près l'évolution du langage scientifique.

Deux mille huit cents descripteurs sont actuellement retenus pour le thesaurus « Raffinage » et 1 600 pour le thesaurus « Économie » qui ne sont pas encore terminés.

En outre, environ 3 ooo relations figurant déjà dans le thesaurus « Exploration-Production » ont été extraites par la sous-commission Raffinage, permettant ainsi une économie de travail et une homogénéité parfaite pour les champs communs couverts par le thesaurus « Raffinage-Pétrochimie ». Il en a été de même pour le thesaurus « Économie » qui a retenu environ 1 500 relations issues du premier thesaurus.

B. Programme d'élaboration du thesaurus

Mais si, sur le plan méthodologique, il est long et difficile de faire construire un thesaurus par des commissions différentes regroupant des participants d'horizons très divers, la mise en ordinateur et le traitement rapides de ces données nous ont permis de surmonter ce handicap.

En effet, la fabrication d'un thesaurus, même d'importance moyenne, si elle est menée manuellement, devient rapidement une entreprise très lourde. L'intégration des descripteurs nouveaux amène des répercussions sur l'ensemble des termes déjà existants; des corrections en chaîne sont nécessaires qui se répercutent à tous les niveaux du thesaurus. L'apport d'un ordinateur est, dans ce domaine, tout à fait intéressant. Il était normal que la Commission Documentation se souciât d'automatiser la partie matérielle dans la fabrication du thesaurus. Ce fut l'Institut Français du Pétrole qui prit en charge cette partie et réalisa dès 1968 un programme qui contribua grandement à hâter l'œuvre entreprise.

Le programme PROTHE est écrit pour être utilisé sur CDC 6600 en s'efforçant de tirer profit au maximum des ressources de la configuration de l'ordinateur de la société Franlab.

1. Description générale du programme.

Il permet à partir de certaines relations sémantiques associées à chacun des termes étudiés de générer automatiquement les relations d'ordre complémentaire ou.inverse. Il fournit la liste des termes dont les relations ne sont pas compatibles soit avec la logique de base du thesaurus, soit avec les termes déjà répertoriés, ainsi que la liste des termes dont le champ sémantique n'a pas été défini. Il permet à tout moment de vérifier la cohésion interne du thesaurus et l'homogénéité de la philosophie qui la guide dans le choix des relations hiérarchiques.

2. Organisation du programme.

L'élaboration du thesaurus fait intervenir un ensemble de programmes chaînés qui correspondent chacun à une phase d'organisation, de tri ou de contrôle.

a) Traitement du fichier « d'entrée » et création d'un fichier de « reprise ».

Le fichier « d'entrée » fournit les relations EM, PLUS, VA, et TG de premier ordre. Les relations TG d'ordre supérieur et les relations inverses seront générées par l'ordinateur.

Le format d'entrée sur carte perforée est le suivant :
- Colonnes 1 à 4 : code de la relation;
- Colonne 6 : code « suite »;
- Colonnes 9 à 38 : libellé du descripteur;
- Colonne 40 : indicateur de la parenthèse lorsqu'on veut qu'un concept « facette » ou « relais » apparaisse dans la hiérarchie sans apparaître dans la partie alphabétique.

Un fichier séquencé et codé est créé après contrôle des relations d'entrée, tri et élimination des descripteurs et des relations dupliquées.

Un listing est fourni pour correction.

b) Mise à jour du fichier de « reprise ».

Le programme correspondant peut supprimer, remplacer ou corriger certains descripteurs et/ou certaines relations associées, et en ajouter d'autres.

c) Traitement du fichier de « reprise ».

Celui-ci est éclaté en sous-fichiers. Les relations inverses sont générées. Il est créé autant de sous-fichiers séquentiels que de relations. En outre un fichier des relations génériques est organisé en accès direct.

A EM B - B EP A

A EM B - B EP A

PLUS C AVEC C

et C EP A

AVEC B

A TG B - B TS A

A VA B - B VA A

d) Contrôle des relations horizontales et verticales.

Le tri et la fusion des sous-fichiers VA, VA inversé, TG et TS permettent la vérification des chaînages hiérarchiques et l'édition des chaînons manquants, la vérification des liaisons interhiérarchiques, l'élimination des relations VA dupliquées.

e) Génération de la hiérarchie.

Le fichier TG en accès direct permet de constituer une pile à « l'envers » des descripteurs dépendants hiérarchiquement. Celle-ci, lorsque le dernier chaînon de l'arborescence est atteint permet de générer les relations génériques d'ordre supérieur à l'unité et les relations spécifiques associées.

Les descripteurs associés hiérarchiquement sont édités par ordre alphabétique de même que l'index correspondant.

f) Élaboration du thesaurus complet.

La fusion de tous les sous-fichiers générés au cours des phases ultérieures permet le regroupement par descripteur des relations qui lui sont associées. Après contrôle de celles-ci, le thesaurus complet est édité dans l'ordre alphabétique des descripteurs.

3. Mise en œuvre du programme.

Le programme permet d'intégrer au fur et à mesure qu'ils sont étudiés les descripteurs et termes. Les erreurs, duplications et omissions étant diagnostiquées, les corrections sont relativement simples et peuvent être effectuées rapidement.

Les diagnostics sur le vocabulaire sont les suivants :

a) Descripteur = A. Pas de carte TG ni de carte EMP.

En effet, de par la philosophie du thesaurus, le terme entré est soit un descripteur, et par là même inclus dans un ensemble hiérarchique (carte TG), soit un terme non retenu et possédant une fiche de renvoi au descripteur (carte EMP). Il s'agit généralement de terme entré dans le thesaurus par le truchement des relations associatives et dont l'intégration hiérarchique n'a pas encore été étudiée, ou d'un descripteur mal orthographié.

b) Descripteur = B. CARTE TG et carte EMP.

Si un terme est inclus dans une hiérarchie et par là descripteur, il ne peut faire l'objet d'une fiche de renvoi. Si un terme est non retenu il ne peut être inclus dans une hiérarchie. Il s'agit d'une antinomie qu'il faut résoudre.

c) Descripteur = c. Carte VA et carte EMP.

Le problème est le même que le précédent. Il y a antinomie entre une relation associative et une carte de renvoi.

d) Descripteur - D. Carte TG et carte VA.

Au sein des différentes sous-commissions, un même descripteur peut- avoir été retenu avec d'une part une relation hiérarchique et d'autre part une relation associative avec un autre descripteur.

Exemple : Viscoplasticité

TG Plasticité

et VA Plasticité

Il faudra choisir l'une des deux relations.

e) Descripteur = E. plus d'une carte TG.

Le même descripteur sera inclus dans deux lignées hiérarchiques. Là aussi, il faudra choisir. Une liste des relations TG en double établie à la suite des diagnostics facilitera le choix final.

f) Descripteur = F. suivi par un autre descripteur G (carte n° 5420). Il s'agit d'un terme entré sans aucune relation. Il faut donc intégrer une carte, dans ce cas sous la carte 5420, le dotant de la relation qu'il était destiné à avoir dans l'ensemble du thesaurus.

En conclusion, rappelons que sur le plan national toute une action est entreprise à l'heure actuelle pour doter la France et les pays francophones des outils linguistiques nécessaires au traitement de l'information documentaire en français. Dans le rapport des commissions du VIe Plan 197I-1976, le G. R. 5 « Information scientifique et technique du secteur Recherche » prévoit la « réalisation d'un ensemble cohérent de thesaurus sectoriels francophones et multilingues, ainsi que d'un macrothesaurus national ».

Le travail entrepris, voilà près de sept ans, par le Comité des techniciens a donc anticipé sur une préoccupation devenue nationale et peut servir de modèle à quiconque désire s'engager dans la même voie.

Illustration
Tableau I. Les catégories et leurs subdivisions (1/2)

Illustration
Tableau I. Les catégories et leurs subdivisions (2/2)

  1. (retour)↑  Cet article publié dans la Revue de l'Institut français du pétrole et annales des combustibles liquides, vol. 26, n° 10, octobre 197I a fait l'objet d'une communication au colloque franco-polonais sur L'Information pour l'industrie, Cracovie, 25-27 octobre 197I et sera, par ailleurs, publié dans les Actes de ce colloque.
  2. (retour)↑  Cet article publié dans la Revue de l'Institut français du pétrole et annales des combustibles liquides, vol. 26, n° 10, octobre 197I a fait l'objet d'une communication au colloque franco-polonais sur L'Information pour l'industrie, Cracovie, 25-27 octobre 197I et sera, par ailleurs, publié dans les Actes de ce colloque.
  3. (retour)↑  Les Mots et les choses : Une archéologie des sciences humaines - Paris : Gallimard, 1966. - 400 p.
  4. (retour)↑  Il ne faut pas confondre comme le fait la petite sœur de Charlie BROWN, une des héroïnes de la bande dessinée de Ch. SCHLUZ « Peanuts », les thesaurus avec les reptiles géants du mésozoïque du type Tyrannosaurus. Le mot « thesaurus » apparaît dans la langue française au XVIe siècle avec le Thesaurus linguae latinae de R. ESTIENNE qui sera le modèle de toute une lignée de dictionnaires lexicographiques recensant le vocabulaire d'une langue. Ce mot réapparaîtra au XIXe siècle avec le Thesaurus of English Words and Phrases Classified and Arranged so as to Facilitate the Expression of Ideas and Assist in Literary Compositions de Peter Mark ROGET. C'est ce type d'outil linguistique qui préfigure les thesaurus documentaires actuels.
  5. (retour)↑  La Commission documentation du Comité des techniciens est présidée par R.Byramjee (Total-C.F.P.). La vice-présidente en est M. Moureau (I.F.P.).
    Le choix du vocabulaire et les relations ont été et sont établis :
    - pour les sciences de la terre par la sous-commission présidée par M. Montouchet (I.F.P.),
    - pour le forage et la production par la sous-commission présidée par L. Bouvet (S.N.P.A.),
    - pour l'économie par la sous-commission présidée par J. Rossignol (Elf-E.R.A.P.),
    - pour le raffinage et la pétrochimie par la sous-commission présidée par A. Truchot (Total-C.F.P.),
    Le software de traitement a été écrit par J. Delaunay (I.F.P.) sur le CDC 6600 de la Société Franlab.
    Sont actuellement terminés :
    - le Thesaurus des termes géographiques.
    - le Thesaurus pétrole « Exploration-Production »
    parus aux Éditions Technip.
    A paraître :
    - le Thesaurus pétrole « Économie » (prévu pour début 1973),
    - le Thesaurus pétrole « Raffinage-Pétrochimie » (prévu pour mi-1973.)
  6. (retour)↑  Le terme « discours » est employé ici dans son sens linguistique, c'est-à-dire la suite des mots et des phrases dans lesquels s'actualise sous forme écrite ou parlée une langue donnée.
  7. (retour)↑  MOUREAU (M.), GIRARD (A.) et DELAUNAY (J.). - Recherche bibliographique en langage naturel : Programme PRETEXT. In : Rev. Inst. Français du Pétrole, 1970, XXV-10, p. 1117 à 1143.