Le développement de l'information en géologie et ses perspectives

Jean Roger

Marcel Locquin

L'ampleur que prend la documentation dans un secteur même limité, la diversité de nature et de langage des informations ont conduit les auteurs à développer l'utilisation d'une machine documentaire d'un type nouveau : l'eccetron. La machine et les méthodes utilisées sont décrites. Les perspectives de développement en géologie et dans d'autres secteurs du savoir sont indiquées

Dans un précédent article 1, j'ai tenté de donner une idée de la masse d'informations dans une discipline déterminée - les sciences de la terre - d'après, non pas une enquête, mais essentiellement d'après les travaux que le Service d'information géologique du Bureau de recherches géologiques et minières poursuit depuis plus de 15 ans.

La masse des informations est considérable et je laissais prévoir son accroissement. L'année 196I a confirmé cette vue tant par le nombre des périodiques que par le nombre des références et leur diversité. Alors qu'un graphique donné dans l'article précédent faisait apparaître une moyenne mensuelle de 2.500 références, l'année 196I donne une moyenne de plus de 3.000.

Au cours de l'année écoulée, le Service d'information géologique du B.R.G.M. a pu aussi préciser le sens dans lequel évolue la répartition des masses linguistiques. La langue anglaise représente le bloc le plus volumineux mais sa prédominance relative n'est guère, pour le domaine scientifique considéré, que de 10 % par rapport au russe. Le français se trouve dans le groupe des trois langues essentielles. Ensuite vient l'allemand, puis l'espagnol; le chinois et le japonais paraissent au niveau de l'italien. Enfin les autres langues occupent une place importante. environ 1/7 du total. Ces indications sommaires portant, rappelons-le, sur un sujet donné des sciences de la terre, correspondent à des ordres de grandeur suffisants pour conclure.

I. Aucune langue ne peut prétendre à une prédominance écrasante et en voie d'accentuation.

2. Le problème de traductions accélérées se pose donc avec une acuité croissante.

3. L'importance que prend le groupe « langues diverses » prouve que l'étude de la traduction ne saurait se limiter aux 4 ou 6 langues essentielles. Si les langues diverses, dans leur ensemble, occupent une place importante, il est à prévoir que parmi elles il en est qui, peut-être, viendront parmi les langues essentielles dans quelques années.

La nécessité pour la recherche et pour les études appliquées dans un domaine limité de faire appel à des disciplines diverses, parfois fort éloignées, n'a fait que se confirmer. De plus en plus on se rend compte qu'une distinction entre recherche fondamentale et recherche appliquée est artificielle. De même toute recherche doit de plus en plus s'inscrire dans un cadre économique général. Cela devient particulièrement apparent pour les sciences de la terre et leurs applications aux travaux miniers, ou autres, dans les états ayant accédé récemment à l'indépendance. Cela est cependant vrai aussi - et le sera de plus en plus - pour la recherche fondamentale et universitaire.

A la fin de l'article cité j'annonçais que, pour faire face à ces problèmes majeurs - abondance et multiplicité - et pour engager la documentation dans une voie offrant des perspectives, le Service d'information du B.R.G.M. effectuait des expériences.

Ce sont les résultats de ces expériences que j'exposerai sommairement. Ensuite je montrerai les développements prévus dans le cadre de notre programme et les extensions prévisibles pour la documentation en général.

I. Expériences effectuées au cours de 1961 dans le cadre de l'évolution du service d'information géologique du B.R.G.M.

Tant en ce qui concerne le traitement de l'information scientifique qu'en ce qui a trait à la traduction automatique, les travaux se sont effectués dans les divers pays essentiellement en partant des calculateurs, les autres moyens de tri ou de fiches pré-perforées s'avérant immédiatement inacceptables pour les masses d'information à traiter.

Il est difficile de conclure à la suite des expériences nombreuses, réalisées avec des moyens souvent importants, que des solutions satisfaisantes définitives et pratiques aient été apportées en suivant cette méthode.

Nous nous sommes donc engagés dans une voie totalement neuve en utilisant une machine d'un type entièrement nouveau : l'eccetron des Procédés Marcel Locquin. Outre qu'il est logique de chercher dans une direction originale les solutions d'un problème non résolu, le choix s'est porté sur l'eccetron 2 pour des raisons multiples et tout d'abord parce qu'il permettait une exploitation très rapide, associée à des possibilités très variées répondant aux principales exigences de la documentation moderne et de la traduction automatique.

1. L'appareil « eccetron ».

Quelques indications préliminaires sur le principe et les caractéristiques de la machine utilisée sont nécessaires (fig. I). Le principe fondamental de l'appareil de M. Locquin est l'arrêt du passage de la lumière résultant de la superposition de deux graphismes (mots, chiffres, dessins, etc...) rigoureusement identiques, l'un étant en positif et l'autre en négatif.

Un film négatif contenant les informations et la documentation qui les accompagne constitue une mémoire dite, par suite, photonique. Cette mémoire se fabrique donc par simple réduction sur microfilm (de 16 mm dans les travaux actuels) de la documentation préparée habituellement par le Service d'information géologique du B.R.G.M.

La question est posée directement sans réduction. La mémoire qui se déroule agrandie devant la question s'arrête automatiquement lorsqu'il y a obscurité.

La lecture de la légende accompagnant la figure 1 donnera l'essentiel des renseignements sur la constitution de l'appareil. Malgré la simplicité du principe, on pourra juger du nombre important de détails techniques qu'il a fallu réunir, accorder et étudier pour réaliser l'eccetron.

Ajoutons pour l'information des lecteurs quelques indications sur les normes et performances des eccetrons. La réduction de la mémoire est de 1 à 20. Elle peut être de 1 à 40 ou plus. Le défilement continu de la mémoire est réglable entre 1 cm par seconde à 50 m par seconde. Dans les expériences actuelles nous utilisons la vitesse de 1 m par seconde. La capacité de la mémoire est de 30.000 à 150.000 concepts par mètre, ce qui correspond à une condensation considérable de la documentation par rapport aux fiches perforées par exemple. La mémoire est accrue au fur et à mesure de l'arrivée d'informations nouvelles.

Il convient de préciser que les passages répétés de très nombreuses fois du film qui sert pour la mise au point de nos expériences a prouvé que celui-ci n'était absolument pas détérioré par l'usage. Soulignons d'ailleurs que la duplication de ces mémoires ne présente aucune difficulté et, en outre, n'est pas coûteuse.

Les possibilités et avantages de ces mémoires se préciseront d'ailleurs au cours de l'exposé sommaire qui va suivre des travaux réalisés au cours de 196I.

2. Expérience réalisée.

Nous avons décidé de poursuivre la première étude complète et concrète dans le domaine de la taxinomie, qui est dans ce cas d'un intérêt particulier en raison de sa complexité et de son originalité.

La taxinomie est la science de la classification et son terrain d'origine est la zoologie et la botanique. Faire l'inventaire et ranger dans des catégories hiérarchisées les animaux et les végétaux représente le but initial et fondamental des sciences naturelles. Naturellement la taxinomie s'étend à tous les domaines du savoir.

Un ensemble d'êtres vivants qui présentent de grandes ressemblances constituent une espèce et les espèces qui ont entre elles le plus de points communs forment un genre. Ainsi le chien domestique sera désigné comme étant du genre Canis espèce familiaris, tandis que le loup sera Canis lupus. Le même principe fondamental de nomenclature taxinomique s'applique aux fossiles et autres parties d'êtres vivants en général. C'est ainsi que la fine poudre jaune qui tombe des fleurs épanouies, ou pollen, est constituée par des grains microscopiques désignés eux aussi par un binôme, même quand on ne sait pas à quel végétal ils se rapportent, ce qui est le plus souvent le cas pour les fossiles. Ainsi Hymenozonotriletes proteus désigne de tels grains, ayant à peine quelques dixièmes de millimètres, découverts en grand nombre, mais isolés, dans des terrains très anciens du bassin de Moscou.

La science qui s'occupe de ces poussières se nomme palynologie. C'est donc par l'étude, la fabrication et bientôt l'exploitation d'une mémoire taxinomique palynologique que nous avons commencé nos réalisations.

Voyons comment est préparée cette mémoire. Chaque espèce est définie par des caractères communs qui permettent à tout observateur de reconnaître des individus qui en font partie. Ces caractères sont la taille, la forme, les ornementations diverses, etc... Désignons par A, B, C, D... les diverses catégories de caractères. L'espèce ainsi diagnostiquée est décrite et figurée dans une publication, elle appartient à une région donnée, se trouve dans un niveau stratigraphique donné et dans des roches de nature déterminée. Tout cela constitue la documentation attachée à l'espèce en question.

Il y a donc deux parties dans notre mémoire : la partie taxinomique, la partie documentaire (fig. 2). Dans la partie taxinomique, il est fondamental de disposer toujours suivant le même ordre les catégories de caractères et de toujours désigner une caractéristique donnée par les mêmes mots.

La palynologie, en ne considérant que les niveaux anciens de l'histoire de la terre, comprend environ 10.000 espèces. La mémoire palynologique comporte donc une succession de plusieurs milliers de documents comparables à celui représenté par la figure 2; sa longueur est pour l'ensemble de la palynologie d'une trentaine de mètres. Toute nouvelle description d'espèces s'ajoute facilement à la mémoire existante.

Voyons maintenant l'exploitation de cette mémoire. La question posée peut être la description d'une espèce de pollen. Quand il y aura coïncidence au cours du défilement de la mémoire, celle-ci s'arrêtera automatiquement. Il suffit alors de photographier la réponse qui est la partie documentaire. Cette opération, avec arrêt, qui permet une lecture avant la photographie, est de très courte durée. Le défilement d'une mémoire de 30 m représente une ou deux minutes, chaque photographie de réponse demande quelques secondes. Il est d'ailleurs possible de photographier automatiquement les réponses.

D'autres questions ont été posées au cours de ces expériences et permettront d'accroître considérablement le champ d'utilisation de la mémoire. On peut par exemple compter, sans arrêter le défilement, le nombre de fois où un caractère est présent, ou bien le nombre de cas d'association de 2, 3, n caractères 3. Il est possible de déterminer quelles sont les espèces d'un genre donné, ou d'un niveau déterminé, ou d'une région désignée. Dans ces cas les questions sont posées sur la piste documentaire. Une question peut être posée à la fois sur la partie documentaire et sur la partie taxinomique. Ainsi il est intéressant de connaître la fréquence d'un caractère dans une région donnée ou dans un niveau donné.

La diversité des problèmes qui peuvent être soumis à cette mémoire taxinomique apparaît clairement aux spécialistes paléontologistes, mais les quelques indications données ci-dessus peuvent en donner une idée pour tous.

La première partie de notre programme pour 1962 est naturellement de tenir toujours complète la mémoire palynologique en même temps que nous étendrons l'expérience à d'autres groupes de fossiles.

3. Préparation de la mémoire documentaire.

Le dépouillement régulier et complet, avec indexage des références bibliographiques suivant un plan codifié, constitue la préparation effectuée régulièrement depuis plus de 10 ans par le Service d'information géologique.

Donnons en exemple deux de ces fiches, afin de clairement montrer leur utilisation dans les mémoires.

Au degré de finesse de l'analyse actuellement pratiquée, une référence comporte ainsi en moyenne 8 lignes (auteurs, date et titre, 5 mots clefs en moyenne). Cela signifie que 3.000 références (donc un mois environ de l'information bibliographique du Service d'information du B.R.G.M.) occupent une longueur de 30 m sur la mémoire, soit un temps de défilement de 30 secondes environ.

Afin de ne pas trop allonger ces temps et accroître les possibilités de la mémoire, lorsque l'analyse documentaire sera plus poussée, nous adopterons la disposition suivante, avec une double piste.

Les questions à poser apparaissent immédiatement. Les unes comportant une seule notion correspondent en somme à ce que donne un fichier. On peut ainsi obtenir la liste des publications d'un auteur donné, ou les articles concernant le Jurassique, ou ceux qui traitent de Foraminifères. Remarquons qu'il est très facile et extrêmement rapide à l'aide de cette mémoire de juger de la répartition des masses documentaires suivant les langues.

Mais, et surtout, on peut poser une question comportant plusieurs notions simultanément, en un seul passage de la mémoire. Par exemple :
Foraminifères
Crétacé
Calcaires
Europe.

Cette possibilité d'analyse combinatoire est d'un intérêt considérable, compte tenu de la vitesse de réponse.

Sans nuire à cette qualité de rapidité, étant donné la grande capacité des mémoires, on peut envisager de pousser beaucoup plus loin l'analyse des documents. Cela suppose une lecture plus complète des textes, une normalisation plus élaborée de la terminologie, l'établissement de lexiques complets avec des traductions en un nombre assez grand de langues pour tenir compte des remarques faites au début de cet article. Cela d'ailleurs prépare à l'étude de la traduction automatique. La préparation terminologique apparaît donc comme une tâche de base.

4. Étude de la terminologie.

Dans toutes les disciplines scientifiques, l'étude du sens des mots, de ses variations au cours de leur usage est indispensable. Cette étude sémantique est sans doute plus nécessaire encore dans les sciences d'observation où les termes sont en majeure partie directement issus du rapprochement de données descriptives et sont soumis à l'épreuve des découvertes de nouveaux objets. La somme des observations influe sur les concepts, et, le plus souvent, leur délimitation exacte exigerait un nombre de faits constatés beaucoup plus grand que cela n'est le cas quand un terme est proposé.

Pour nos objectifs, ces remarques générales entraînent deux conséquences :
I. L'étude sémantique dans les sciences de la terre, comme dans beaucoup d'autres disciplines, est à peu près inexistante et exigera un temps très long. Pour le développement de la documentation, nous devrons nous contenter d'approximations qui devront être aussi bien fondées que possible, établies rapidement et, avant tout, demeurer constantes.
2. Tous les termes utilisés doivent être inventoriés et situés par rapport à des termes plus larges ou synonymes plus ou moins approximatifs. De même, les homonymes sont à identifier de façon précise.

En effet, il est fondamental que l'analyse soit effectuée de façon homogène et concordante par rapport à la façon de poser les questions.

Pour illustrer ces idées générales, citons quelques exemples simples à partir des deux références citées plus haut.

Le Carbonifère a été désigné aussi sous le nom de Houiller, les deux termes n'étant qu'approximativement synonymes; de même le Permien fut - et est parfois encore - désigné comme Dyas. Dans la fabrication de la mémoire, il faudra naturellement utiliser Carbonifère et Permien, mots qui devront figurer dans les éventuelles questions, même si le chercheur demande la documentation sur le Houiller ou le Dyas.

De même, on peut être amené à chercher des informations sur l'ère géologique dite Paléozoïque, souvent désignée comme Primaire. Il conviendra de savoir, d'après la préparation terminologique, que cette ère comprend les systèmes Cambrien, Ordovicien, Silurien, Dévonien, Carbonifère et Permien. Ces mots seuls étant retenus dans beaucoup d'analyses, une question comportant « Paléozoïque » (ou Primaire transformé en Paléozoïque) devra, outre ce mot, renfermer aussi les subdivisions ou systèmes cités ci-dessus.

En citant ces exemples, je tente de faire sentir l'impérieuse nécessité d'une étude terminologique et d'expliquer de façon aussi concrète que possible comment elle doit être conduite.

Le Bureau de recherches géologiques et minières a déjà largement entrepris cette tâche. Dans les limites du présent exposé il n'est pas nécessaire de donner des détails sur la façon de la conduire. Précisons seulement que, progressivement, chaque terme est traduit dans toutes les langues possibles.

Par contre, il est intéressant d'indiquer des ordres de grandeur. Les termes ou mots clefs actuellement utilisés pour l'analyse dans les sciences de la terre sont au nombre de I.500 environ. Il faut prévoir que 15.000 seront nécessairement retenus pour une analyse correspondant aux besoins futurs. Le choix de ces 15.000 mots demandera l'étude et l'inventaire de plus de 100.000. Naturellement, je ne comprends pas dans ce total la systématique animale et végétale.

Il va sans dire que je ne parle que des mots en français, mais l'inventaire dans les autres langues ne soulève pas de problèmes autres que matériels.

Ce dictionnaire devra - et est déjà - tenu sans cesse à jour.

Enfin, dernière remarque sur ce sujet, il sera possible de faire usage des mémoires photoniques pour les études terminologiques et ce sous différentes formes. Je citerai simplement la facilité avec laquelle ces mémoires permettront d'étudier la fréquence d'utilisation d'un mot donné.

Ce chapitre, qu'il serait hors de propos de développer plus largement, montre clairement que l'utilisation des eccetrons offre de vastes perspectives.

Je les examinerai rapidement et sommairement sous deux titres : extension dans le domaine des sciences de la terre; applications à d'autres domaines.

II. Extensions dans les sciences de la Terre de l'utilisation des eccetrons

1. Au point de vue strictement documentaire exposé ci-dessus :

a) L'analyse peut être portée beaucoup plus loin, ce que la multiplication des fiches ne permettrait qu'au prix d'un encombrement qui condamne le procédé.

b) L'association à la partie mémoire d'une partie documentaire plus ou moins complète est possible grâce aux téleccetrons. Les résumés d'articles en mémoire, ou même les articles en entier, peuvent être microfilmés et placés dans un autre eccetron synchronisé, grâce à une vitesse beaucoup plus grande de défilement, avec celui qui contient la mémoire et auquel les questions sont posées. Cet ensemble est désigné comme téleccetron.

2. Extensions de l'application documentaire :

a) Le téleccetron ouvre la voie à l'archivage de documents non publiés. Il y a là une perspective de modification fondamentale de l'édition actuelle.

b) Forages, sondages, travaux souterrains. - Les résultats des travaux souterrains sont d'un grand intérêt tant pour la recherche appliquée que fondamentale. Ces rapports, analysés suivant le procédé indiqué plus haut et mis en mémoire, pourraient très rapidement fournir des renseignements tels que : A quelle profondeur trouve-t-on la nappe phréatique dans une région donnée ? ou bien : Quelle est l'épaisseur des niveaux de calcaire compact dans telle région ?

c) Inventaires de collections. - Patrimoine scientifique de l'humanité, les collections de sciences naturelles ont une importance fondamentale et sont en constant accroissement. La tenue à jour d'inventaires est une tâche fastidieuse, leur publication s'avère fort onéreuse et leur utilisation incommode. On conçoit facilement tout l'intérêt que présente la mise en mémoire de tels inventaires au fur et à mesure de leur réalisation.

d) Listes de spécialistes. - Le nombre de chercheurs scientifiques est actuellement très fortement accru : « on estime que 74 % des hommes de sciences qu'a connus l'humanité sont aujourd'hui vivants » (M. Locquin, 196I, p. I). Connaître rapidement les chercheurs répondant à un certain nombre de caractéristiques est une nécessité. La publication de listes de spécialistes y répond très mal. Questionner une mémoire sans cesse tenue à jour sera un procédé beaucoup plus rationnel et efficace.

En passant, remarquons que l'établissement de ces mémoires, surtout celles comportant des inventaires et des listes de spécialistes, demandera la collaboration de nombreuses organisations et personnes pour la centralisation des renseignements.

3. Extension de l'utilisation taxinomique. Les mémoires taxinomiques actuellement réalisées, ou en cours de réalisation, pourront comporter ultérieurement la reproduction au trait ou par photographie des espèces. En outre, la même méthode pourra s'étendre à l'étude des minéraux, à l'analyse de diagrammes de rayons X.

4. Utilisation pour l'exploitation des observations en cours d'étude. Les chercheurs accumulent sur leur sujet de travail des observations multiples, touchant à des domaines divers. Le rapprochement de ces données, leur élaboration suivant les idées qui viennent à l'esprit du spécialiste, pourraient se faire très rapidement si ces faits étaient mis en mémoire. On conçoit aisément que de la coordination des observations jaillissent ainsi des idées nouvelles.

J'ai insisté un peu sur certaines des perspectives qu'offre l'expérience en cours dans le domaine des sciences de la terre, ces différentes applications faisant partie d'ailleurs d'un programme d'étude s'étendant sur plusieurs années.

Plus rapidement, j'indiquerai les possibilités d'utilisation dans d'autres secteurs.

III. Extension à d'autres secteurs du savoir

Il est inutile de chercher à citer toutes les applications des eccetrons ou téleccetrons dans tous les domaines, chaque lecteur les repérera pour son compte.

Les catalogues ou inventaires dont l'exploitation est tellement laborieuse et perd beaucoup de son intérêt quand un temps trop long s'écoule avant l'utilisation prendraient ainsi un intérêt nouveau. De même, l'utilisation taxinomique s'étend tout naturellement à des disciplines très diverses et aux stocks de n'importe quel produit.

Voyons des généralisations plus larges de l'usage des eccetrons pour la recherche documentaire.

1. Traductions.

Une analyse de plus en plus fine des textes à l'aide de mots ou notions clefs conduit directement à une forme de traduction automatique.

En effet, des pistes parallèles comportant les termes utilisés en plusieurs langues, on comprend facilement que l'analyse sous forme de mots clefs dans la langue d'origine servira de question dont la réponse sera la traduction dans la langue voulue. Elle n'exclut pas une étude des liaisons grammaticales, soit sous forme de liaisons simples entre les mots, soit en analysant des types de phrases.

2. Analyse de textes et résumés automatiques.

L'exploration directe et méthodique de textes à l'aide de mémoires comportant les termes recherchés conduit à un véritable résumé obtenu automatiquement.

3. Connexions à l'entrée et à la sortie avec les calculateurs.

L'entrée en mémoire est particulièrement laborieuse pour les calculateurs électroniques. L'eccetron permettra, avec ou sans traitement préalable, une entrée directe du décimal ou de l'alphanumérique. De même, à la sortie d'un calculateur, les listes données par les tabulatrices pourront être mises directement en mémoire eccetron et, par suite, considérablement condensées. Ces questions sont en cours d'étude.

Dans l'industrie, nous entrevoyons fort bien l'utilisation des eccetrons pour la programmation et le contrôle, mais ils semblent appelés à jouer un rôle beaucoup plus large dans le développement de la pensée humaine.

Les informations de toutes natures soumises à une élaboration intellectuelle sont, pour une partie, éliminées; les autres, enrichies, donnent lieu à des documents que la mémoire-machine stocke après analyse. Ainsi remises à la disposition des chercheurs qui peuvent y avoir accès dans un temps très court, ces informations suivront le même circuit. L'eccetron assure donc ainsi un accroissement qui n'est pas une simple accumulation; il est dynamique et correspond à une expansion génératrice de progrès. Grâce à leur capacité et leur vitesse d'exploitation, les mémoires eccetron permettent l'établissement de corrélations et de combinaisons que notre pensée ne pourrait établir.

La machine documentaire ne remplace pas l'intelligence mais, comme l'outil accroît les possibilités de la main, elle prolonge les capacités du cerveau.

Illustration
Fig. 2

Illustration
Fig. 3

Illustration
Fig. 4

Illustration
Fig. 5

Illustration
Fig. 1

  1. (retour)↑  Roger (Jean). - La Documentation en géologie. (In : B. Bibl. France, 6e année, n° 1, janv. 1961, pp. 1-15).
  2. (retour)↑  Du latin ecce : voici.
  3. (retour)↑  Il y a là un moyen d'étude rapide des affinités entre espèces. D'ailleurs, un réglage convenable du taux d'obscurité à l'aide de l'approximètre permet d'établir globalement le degré d'affinité.