Informations sur les techniques documentaires

Rapport du groupe d'étude

Le « Groupe d'étude sur l'information scientifique », créé le Ier avril 1963 à l'instigation de la Délégation générale à la recherche scientifique et technique, élabore la documentation de la documentation, en rassemblant, étudiant des informations relatives à la documentation scientifique dans les différents pays. Ses fichiers, accessibles au public, jouent un rôle de diffusion en la matière. Ses travaux, décrits dans cet article, concernent le traitement automatique de la documentation, auquel ils ouvrent des perspectives de collaboration internationale

Cet article reproduit, à quelques modifications près dues aux contraintes de publication dans cette revue, le rapport rédigé à l'intention de la Délégation générale à la recherche scientifique et technique au terme de trois ans de travaux.

Préambule

Le « Groupe d'étude sur l'information scientifique » est le nom que l'on a donné à une équipe constituée en 1963, sur l'initiative de la Délégation générale à la recherche scientifique et technique, pour combler certaines lacunes observées en France dans le domaine des études relatives à la documentation scientifique. Les pages qui suivent forment le rapport présenté par ce Groupe, au terme de la convention de recherche qui l'a établi. On y trouvera successivement :
a) un rappel des objectifs de la convention, ainsi que du programme de recherche suivi par le Groupe d'étude pendant la période 1963-1966 (chap. Ier);
b) l'exposé des différentes catégories de travaux accomplis par le Groupe à ce jour (chap. 2);
c) un tableau des mesures d'ordre technique ou politique qu'il conviendrait de prendre pour assurer la continuité de ces travaux, dont l'utilité est aujourd'hui généralement reconnue (chap. 3).

Ont contribué à l'élaboration des matériaux décrits dans ce rapport :
Mmes Muguette Cros;
Natacha Gardin;
Chantal Perriault;
Lydia Vishniakoff;
MM. Jean-Claude Gardin;
Francis Lévy.

Chapitre premier Genèse de l'étude

1.1 - Origine du Groupe d'Étude.

Dès 1960, le Comité d'étude DOCUMENTATION institué auprès de la Délégation Générale à la Recherche Scientifique et Technique, sous la présidence de M. Boutry, recommandait la création d'un groupe de travail sur l'information scientifique automatique, chargé notamment de constituer un inventaire des travaux en cours dans le domaine de la documentation automatique (Premier Rapport du Comité, 23 mars 1960, recommandation n° 6). Cette proposition devait aboutir en 1962 à un premier projet de « Centre d'information sur l'état des études de documentation et de traduction automatiques poursuivies dans le monde », soumis par le même Comité à l'approbation de la Délégation Générale à la Recherche Scientifique et Technique. Quelques retouches furent encore apportées au projet pendant l'année 1962, jusqu'à ce qu'une convention de recherche de la D.G.R.S.T. vint en décider le cours, à compter du Ier avril 1963.

1.2 - Exposé des motifs.

Les raisons invoquées à l'appui de ce projet touchaient au retard dont souffraient en France les études relatives au traitement automatique de l'information scientifique, considéré comme un domaine de recherches et d'applications nouvelles. Tandis que les initiatives étrangères se multipliaient dans ce domaine, principalement aux États-Unis et en U R S S, on observait en France qu'elles étaient encore peu connues, et qu'il n'existait en fait aucun moyen commode de s'informer de l'avancement des études en matière de documentation automatique. Là, par exemple, où la National Science Foundation, aux États-Unis, publiait deux annuaires chaque année plus volumineux sur les recherches et sur les applications nouvelles 1, il était impossible de trouver pour la France les mêmes informations, sous quelque forme que ce fût. Les projets d'enquête de la Fédération Internationale de Documentation se heurtaient au même obstacle, dans nombre de pays européens, où aucun organisme ne paraissait en mesure de rassembler et de diffuser les matériaux voulus, à l'instar de l' « Office of Science Information Service » aux États-Unis, ou du VINITI (Institut Fédéral d'Information Scientifique et Technique) en U R S S Par ailleurs, aucun signe n'apparaissait d'une évolution prochaine dans l'enseignement des techniques modernes de la documentation, où l'on pût avoir l'espoir de gagner à celles-ci, à terme, un nombre accru de spécialistes convenablement formés et informés.

D'autres faits témoignaient du même écart; il serait stérile et hors de propos de les rappeler ici. Seule importe l'argumentation qui en fut tirée, pour montrer l'utilité d'une action destinée à promouvoir en France la collecte, l'organisation et la diffusion d'informations relatives aux problèmes de la documentation scientifique, tels qu'on les pose dans les pays plus avancés en la matière.

1.3 - Programme de recherche.

La mission principale du Groupe d'Étude dès lors s'imposait: il fallait commencer par créer l'outil d'information indispensable, à savoir un inventaire permanent des recherches et applications visant à une meilleure mise en œuvre de l'information scientifique. Dans le texte de la convention instituant le Groupe d'Étude sur l'Information Scientifique, les fonctions de cet inventaire étaient définies comme suit :
I. fournir aux chercheurs, et le cas échéant aux administrateurs intéressés, toute information utile sur les types d'application (ex. : bibliographie automatique), les domaines scientifiques visés (ex. : médecine), les méthodes (mathématiques, linguistiques, etc.), les équipements (ordinateurs, imprimantes, lecteurs, etc.);
2. faciliter la diffusion systématique de ces informations, sous diverses formes (liste de titres, résumés bibliographiques, exposés de mise au point, etc.);
3. faire apparaître le degré de développement relatif des différents travaux en cours, dans le traitement automatique de l'information non-numérique, et fonder ainsi un programme d'actions prioritaires dans ce domaine.

Quelle que fut la forme matérielle du répertoire, il était évident qu'un ordre conceptuel devait présider à son élaboration, de manière à autoriser toute recherche sur un thème particulier. Les différentes « facettes » énumérées ci-dessus (alinéa I) n'avaient à cet égard qu'une valeur d'exemple, et il convenait d'abord de construire une grille détaillée, où devraient figurer en droit toutes les notions couramment mises en jeu dans les travaux relatifs au traitement de l'information scientifique. Cette grille servirait ensuite à l'indexation des travaux en question, en vue des opérations ultérieures de classement et de repérage, par quelque procédé que ce soit.

L'on définissait ainsi les deux premières tâches du Groupe d'Étude :
a) établir un lexique des termes d'indexation nécessaires pour caractériser le contenu des documents se rapportant au domaine visé;
b) construire un fichier analytique de ces documents, au moyen du « lexique » en question.

Le terme « fichier » était pris alors dans un sens abstrait, qui n'impliquait aucun choix particulier quant à la forme de présentation (bibliographie imprimée, fichier-matière, mémoire électronique etc.), ni quant au mode d'emploi (consultation directe, mécanographie, calcul électronique, etc.). En revanche, on apercevait immédiatement les « sous-produits » possibles - et sans doute désirables -d'un tel fichier :
c) publication de répertoires indiquant les personnes ou organismes engagés dans des applications nouvelles, à l'image des annuaires américains cités plus haut (notes 1 et 2);
d) édition de comptes rendus bibliographiques sur tout ou partie des documents analysés;
e) rédaction d'exposés de synthèse relatifs à des secteurs particuliers;
f) proposition de thèmes prioritaires en matière de documentation scientifique, fondés sur l'appréciation des possibilités et des besoins qui s'expriment dans la littérature, etc.

Ces différentes rubriques (de a à f) fournissent le plan du présent rapport; nous passerons successivement en revue les produits de l'activité du Groupe d'Étude sous chaque rubrique, après trois années d'activité.

Chapitre 2 Travaux lexicographiques

2.1 - Orientation générale.

Un des premiers objectifs du Groupe d'Étude était, on l'a vu, de constituer un « lexique documentaire » pour le domaine qui était le sien. Rappelons tout d'abord le sens que nous donnons à cette expérience : un « lexique documentaire » est une liste de termes, à chacun desquels est associée une définition, destinés à représenter les caractéristiques de documents quelconques, dans un champ donné (une discipline scientifique, un secteur industriel, etc.). Ces termes -diversement nommés : descripteurs, termes d'indexation, etc. - ne sont pas à proprement parler des mots-clés dont il s'agirait d'observer les occurrences dans les documents considérés, mais plutôt des étiquettes conventionnelles attachées à des notions plus ou moins complexes, qui peuvent s'exprimer de plusieurs manières à l'intérieur d'une même langue. L'objet des définitions associées à chaque terme, dans le lexique, est de préciser ce que sont ces notions, indépendamment des mots ou groupes de mots qui les dénotent dans telle ou telle langue particulière 2.

Un « lexique documentaire » ainsi conçu ne se confond donc pas avec les dictionnaires de mots naturels, établis pour inventorier voire pour normaliser la terminologie scientifique dans une branche particulière; et l'usage qu'on en fait, à savoir une indexation véritable, diffère également des procédures d'extraction de mots-clé, au moyen de tels dictionnaires 3. En choisissant de construire un lexique documentaire pour le domaine de l'Information Scientifique, le Groupe d'Étude optait donc pour une voie parmi d'autres, dans l'organisation et la mise en œuvre des données documentaires propres à ce champ. Bornons-nous à énumérer les raisons qui, ici comme ailleurs, nous parurent imposer ce choix :
a) Les procédures d'extraction de mots-clé naturelles, par quelque méthode que ce soit (statistique, consultation de tables, etc.), aboutissent à des « représentations » dont la formulation change selon la langue des documents considérés; elles laissent donc entier le problème des équivalences de contenu, d'une langue à une autre;
b) ces mêmes procédures se prêtent particulièrement bien à la mécanisation (exemple : les programmes KWIC et leurs nombreuses variantes diversement nommées : WADEX, TABLEDEX, PHYSINDEX, etc.), et l'on a parfois tendance à leur prêter pour cette seule raison des mérites inconsidérés; il a paru plus sérieux de suivre une démarche adaptée d'abord à l'objet même de l'analyse documentaire - la mise en évidence de parentés sémantiques -plutôt qu'à tel ou tel mode d'instrumentation;
c) en tout état de cause, la compilation de dictionnaires de termes spécialisés multilingues, avec les équivalences voulues, est une tâche plus lourde que l'établissement d'un lexique documentaire; et l'on a préféré s'orienter d'abord dans cette seconde voie - tout en s'engageant à plus long terme dans la première (infra, § 2.3) - pour assurer une organisation rapide des données inventoriées.

D'autres organismes suivaient d'ailleurs dans le même temps une démarche analogue; construction d'index et de classifications (lesquels ne sont évidemment que des modalités diverses de lexiques documentaires) destinés à faciliter la présentation et la recherche des travaux en cours dans le domaine des techniques documentaires. Tel était notamment le cas dans les deux institutions déjà citées, aux États-Unis 4 et en U R S S 5; et la question dès lors se posait de l'opportunité d'une étude où l'on risquait d'aboutir à des listes de notions identiques à celles qui existaient ou qui existeraient bientôt ailleurs, pour le même domaine.

Ce fut l'examen de ces lexiques documentaires déjà constitués qui nous conduisit cependant à maintenir notre projet d'en bâtir un nouveau. Sans entrer ici dans le détail de l'analyse, indiquons seulement que des différences - au demeurant fort naturelles - apparaissaient sur trois places : a) quant à la visée même, lorsque par exemple les notions retenues se limitaient à un petit nombre de « vedettes » destinées à un classement univoque des documents, plutôt qu'à une analyse multivoque de leur contenu; b) quant au domaine de référence, tantôt plus large que celui du Groupe d'Étude, tantôt notablement plus étroit; c) quant à la structure de ce domaine, enfin, telle qu'elle se reflétait dans les classifications proposées, où le développement inégal accordé à différentes facettes (ex. : ici les bibliothèques, là les machines, etc.) coïncidait rarement avec le découpage que nous avions nous-même à l'esprit.

Aucune de ces constatations n'impliquait alors, pas plus qu'elle n'implique aujourd'hui, un jugement de valeur sur la qualité relative des différents lexiques mis en cause. La seule conclusion recevable est que chacun d'eux répond à des impératifs ou à des habitudes de pensée qui peuvent légitimement varier d'un lieu à l'autre, surtout dans l'état encore mobile de cette nouvelle discipline à la recherche même de son nom (« Information Science » aux États-Unis, « documentologie » en France, etc.). L'entreprise du Groupe d'Étude n'échappe pas à ce particularisme ; mais elle se distingue néanmoins par un souci de compatibilité avec d'autres, dont il faut maintenant dire un mot.

Le caractère essentiellement relatif des appréciations que l'on peut porter sur un lexique, voire sur un système documentaire considéré dans sa totalité, tend à être aujourd'hui admis : on ne parle plus guère, enfin, de classifications « idéales », ni d'un langage documentaire « universel », mais plutôt d'outils d'indexation variables, adaptés chacun à des conditions d'exploitation particulières (nature et volume des documents à traiter, personnel et matériel disponibles, types de produits ou de services envisagés etc.). En contrepartie, l'accent est mis sur la recherche de certaines équivalences, d'un langage ou d'un système à l'autre, destinées à faciliter les échanges d'informations entre des centres de documentation différents, sans obliger ceux-ci à modifier les outils et les méthodes qui leur sont propres, et qui leur semblent - à tort ou à raison - convenir le mieux à leurs besoins. Ainsi, la mise en évidence de correspondances sémantiques entre des termes d'indexation appartenant à des lexiques différents, bien que relatifs à des domaines voisins, est un moyen de rendre « compatibles » - on dit aussi « convertibles » - les représentations documentaires établies indépendamment à partir de ces lexiques. Les matériaux indexés selon une liste de descripteurs donnés peuvent alors être ré-indexés mécaniquement selon une autre liste, à un degré de précision variable mais contrôlé; et il est facile d'imaginer dans ce cas une politique de répartition et d'échanges de services entre des organismes distincts, qui n'impose à proprement parler aucune standardisation .

Les théoriciens du traitement de l'information scientifique avaient déjà recommandé cette forme de coopération, dans divers secteurs spécialisés; mais ils n'avaient encore pas entrepris de la pratiquer eux-mêmes, dans leur domaine propre. C'est ce qu'a tenté le Groupe d'Étude, en provoquant en 1965, à Marseille, une première réunion d'experts chargés de rechercher les correspondances observables dès aujourd'hui entre un certain nombre de lexiques établis dans divers pays (États-Unis, U.R.S.S., Grande-Bretagne, etc.), pour l'indexation de la « documentation de la documentation ». Les résultats obtenus dans cette voie font l'objet d'un paragraphe distinct, plus loin (§ 2.3).

2.2 - Le lexique de descripteurs: genèse et structure.

La construction du lexique de descripteurs utilisé aujourd'hui par le Groupe d'Étude se déroule d'une manière toute empirique, comme il est ordinaire dans ce genre d'entreprise : l'indexation libre d'une première série de documents représentatifs de domaine 6 fait apparaître certaines notions élémentaires, que l'on organise dans une première ébauche de lexique, laquelle est ensuite mise à l'épreuve sur de nouveaux documents, pour être remaniée, complétée, etc., jusqu'à ce que l'accord des analystes se fasse sur une liste de descripteurs à peu près stabilisée. Ce premier stade fut atteint en juin 1964, quand fut diffusé sous forme multigraphiée, le Projet de Lexique documentaire du Groupe d'Étude, en deux langues (français et anglais); une version allemande fut établie ultérieurement, avec le concours de M. H. BUNTROCK (Centre de Traitement de l'Information Scientifique, Euratom, Ispra), ainsi qu'une version russe.

Comme l'indiquait le titre du document, il ne s'agissait là que d'un projet; l'analyse de nouveaux documents suggéra des additions, des regroupements, qui aboutirent un an plus tard à l'édition d'une première liste de révisions (mai 1965), puis à une seconde (août 1966). La version finale - ou plus exactement, actuelle - du lexique n'a encore été rédigée qu'en français, mais doit faire l'objet de traductions en anglais, en allemand et en russe, dérivées de celles de la première version. Nous nous contenterons ici d'en résumer la structure et les dimensions générales, toutes les explications de détail figurant dans l'introduction placée en tête du lexique.

Le champ sémantique que couvre ce dernier est le traitement de l'information scientifique, considéré sinon comme une discipline, du moins comme un domaine d'étude individualisé. Les quelque trois cents descripteurs définis dans le lexique désignent donc les notions qu'il a paru commode d'isoler, pour représenter, au moyen d'expressions formées de I, 2,3 ... n descripteurs, les différents sujets abordés dans les documents relatifs à ce domaine. Ces notions sont groupées en un certain nombre de chapitres, eux-mêmes divisés en sections, sous-sections, etc., selon leur parenté de sens; une distinction majeure est en outre posée entre les notions caractéristiques du champ de l'information scientifique proprement dit, et celles qui relèvent de domaines connexes (linguistique, mathématiques, etc.). Le plan d'ensemble est ainsi le suivant :
I. LE DOMAINE DE L'INFORMATION SCIENTIFIQUE proprement dit, divisé en chapitres, concernant principalement :
I. le fonctionnement des réseaux et organismes de documentation, l'organisation de la profession, etc.;
2. les techniques documentaires en général;
3. les outils linguistiques du traitement de l'information scientifique, en particulier.

II. LES DOMAINES CONNEXES, par quoi il faut entendre des ensembles de notions définies d'abord dans un champ de recherches ou d'applications distinct de l'information scientifique, mais qui ont aussi leur place dans les études propres à ce domaine : procédures linguistiques, outils mathématiques, machines et composants, algorithmes dits d'intelligence artificielle, etc.

A ces deux parties principales s'ajoutent :

III. LES ANNEXES, où sont enregistrés les termes spécifiques par lesquels sont nommés les cadres des études analysées (Pays, Personnes, Organismes, Domaines, etc.), ou les marques singulières de certains outils (Langages Documentaires, Langages Symboliques, Équipements, etc.). Aucune liste a priori n'est fournie pour ces annexes, qui se remplissent et s'organisent au fur et à mesure des analyses.

Le lexique de descripteurs n'est ici comme ailleurs qu'un filtre sémantique construit à l'intention des analystes, pour que les travaux d'indexation dont ils sont chargés aient quelque chance d'atteindre une relative homogénéité à défaut d'une rigueur absolue. La procédure d'indexation elle-même reste cependant largement empirique : les bordereaux d'indexation sont remplis par les analystes en fonction de leur appréciation du contenu de chaque document (choix du thème principal, parmi les différents sujets retenus; sélection des descripteurs convenables, pour désigner ceux-ci; rejet ou condensation de certaines données tenues pour secondaires, etc.). Une manière de régulariser cette interprétation est d'établir, au fur et à mesure de l'analyse, un dictionnaire des correspondances posées entre tel mot ou expression d'un langage naturel d'une part, et tel descripteur ou groupe de descripteurs du lexique documentaire d'autre part. On définit de la sorte un « thésaurus » multilingue, où chaque entrée naturelle - en français, en anglais, en russe, etc. - est mise en rapport avec une ou plusieurs étiquettes conventionnelles, dans le langage-cible. Il est aisé de voir que l'aboutissement est un « dictionnaire automatique », au sens où l'on emploie cette expression dans la traduction mécanique, lequel assure une stabilité absolue de l'analyse (jusque dans l'ignorance ou l'erreur...).

Dès que la structure du lexique fut à peu près fixée, en 1964, les analystes du Groupe d'Étude entreprenaient de lui associer un « thésaurus » de ce genre, au moins pour les termes naturels dont la traduction en descripteurs paraissait soulever quelque difficulté. Ce thésaurus, constitué sur cahiers à feuilles mobiles, comprend aujourd'hui quelque 1500 entrées, principalement en français et en anglais, mais accessoirement aussi en allemand et en russe. Étant donné qu'il s'agit d'un instrument de travail interne, il n'a pas semblé utile de diffuser ce thésaurus, ni par conséquent de le présenter en annexe au rapport final; il reste néanmoins à la disposition de tout chercheur qui souhaiterait en tirer des matériaux pour la compilation - hautement souhaitable - d'un dictionnaire automatique, destiné à des travaux d'indexation mécanique dans le même domaine 7.

2.3 - Le « Lexique intermédiaire » : recherches de convertibilité.

La liste de descripteurs que l'on vient d'évoquer n'est pas la première du genre; et nous avons exposé plus haut les raisons qui ont conduit le Groupe d'Étude à créer son propre lexique documentaire, malgré ces antécédents, en même temps qu'à rechercher les correspondances possibles entre toutes les listes concurrentes, à des fins de convertibilité (§ 2.1, fin). C'est cette seconde phase des travaux lexicographiques que nous examinerons maintenant.

La tâche initiale était évidemment de choisir et de rassembler les lexiques documentaires qui seraient soumis à l'étude. Les critères suivis furent essentiellement au nombre de deux; il fallait a) que ces lexiques fussent des listes de termes d'indexation liés entre eux d'une manière ou d'une autre en fonction du sens (renvois, classifications, réseaux), ou sinon (cas des listes alphabétiques), accompagnés de définitions; b) que le champ sémantique de référence comprît, explicitement ou implicitement, au moins deux des secteurs correspondant aux trois premiers chapitres de notre lexique (supra, p. II). On excluait par conséquent les glossaires ou dictionnaires de la terminologie en usage dans telle ou telle langue, pour le domaine du traitement de l'information scientifique, ainsi que les listes de descripteurs qui ne touchaient à ce domaine que d'une manière relativement incidente. Le produit de cette sélection fut un groupe de treize lexiques originaires de sept pays (Allemagne, États-Unis, France, Grande-Bretagne, Pologne, Tchécoslovaquie, U.R.S.S.); la liste en est donnée ci-dessous, dans l'ordre alphabétique des noms d'auteur :
I. AMERICAN STANDARD ASSOCIATION. American Standard Vocabulary for Information Processing. Business Equipment Manufacturers Association, New York (june 14, 1966), 30 pp.
2. P. ATHERTON, V. CLARK. A Suggested Classification for the Literature of Documentation, in American Documentation, 12, I. (janv. 196I), 38-48 pp.
3. BATTELLE MEMORIAL INSTITUTE. Clue Word List. Information Research Center, BMI, Columbus Ohio (May 1965), 35 pp.
4. H. BUNTROCK. Thesaurus de la Documentation. EURATOM/CETIS CCR Ispra (1964), 117 pp.
5. CLASSIFICATION RESEARCH GROUP. A Classification of Library Science. Preliminary Draft Edition, Prepared by a Sub-Committee for the Classification Research Group. Aslib, London (1965) IX + 33 pp. (présenté à Marseille par M. E.J. COATES).
6. I. DAHLBERG. Thesaurus der Dokumentation. Deutsche Gesellschaft für Dokumentation E.V., Frankfurt am Main (mai 1964), 67 pp.
7. DOCUMENTATION ABSTRACTS. Plan de Classement des Références Bibliographiques. I, 1 (mars 1965), p. 3.
8. LESKI. Polish Proposals for the Classification of Information Problems. (Plan), Varsovie (déc. 1965), 3 pp.
9. N. GARDIN, F. LEVY. Traitement Automatique des données non numériques. Projet de Lexique Documentaire. Groupe d'Étude sur l'Information Scientifique, c/o Section d'Automatique Documentaire, Marseille (1964), 85 pp. et révision n° 2, août 1966, 76 pp.
10. L. ROLLING. The Role of Graphic Display of Concept Relationship in Indexing and Retrieval Vocabularies, including a Thesaurus of Documentation Terms. EURATOM report n° 2291 C, Bruxelles (1965), 29 pp.
II. B. TELL. Klassifikation für Dokumentation, in Tidskrift für Dokumentation, 19, 5 (nov.-déc. 1963), 76-77.
12. D.L. THOMPSON. Stinfo Terminology. Air Force Office of Scientific Research. Office of Aerospace Research, Washington (oct. 1963), 151 pp.
13. J. TOMAN, A. MERTA. Faceted Classification in the field of information science used in the Czechoslovak Academy of Sciences. Document ronéotypé et diffusé par le Center for Inventions and Scientific Information, Czechoslovak Academy of Sciences, Prague (...), 15 pp.

Deux méthodes s'offraient à l'esprit pour étudier les correspondances sémantiques entre ces 13 lexiques : soit d'entreprendre toutes les comparaisons deux à deux - 78, dans le cas présent - soit de construire tout d'abord une sorte de liste étalon à laquelle serait ultérieurement comparé chacun des lexiques retenus. La seconde démarche avait l'avantage de la rapidité, mais sa validité était évidemment subordonnée à la qualité de la liste-étalon elle-même... Ce fut néanmoins, la voie que choisit le Groupe d'Étude, en 1965. Un premier projet de « lexique de base » fut élaboré dans le courant de l'année, à partir d'une étude approfondie de quatre des lexiques énumérés plus haut (nos 2, 4, 9, II); il aboutissait à la reconnaissance de 25 facettes distinctes, définies chacune comme un « groupe » ouvert de descripteurs plus ou moins nombreux selon le degré de finesse de l'analyse, mais toujours autonomes du point de vue de la signification, en même temps que librement combinables les uns avec les autres, indépendamment de leur appartenance à tel ou tel groupe 8.

Ces 25 facettes avaient été induites de quatre organisations sémantiques différentes ; il ne s'ensuivait pas que le « lexique de base » représentât nécessairement, quant à la structure et quant aux définitions, la vision commune que chaque spécialiste de l'information scientifique pouvait se faire de son domaine. Pour tenter d'évaluer l'écart, le Groupe d'Étude prit l'initiative de convoquer à Marseille un petit nombre de ces experts, choisis principalement parmi les auteurs des lexiques précités résidant en Europe. La réunion eut lieu le Ier, 2 et 3 Décembre 1965 au Centre national de la recherche scientifique, Marseille; elle groupait les représentants d'une dizaine d'organismes spécialisés dans l'étude des problèmes d'information scientifique.

Les débats portèrent essentiellement sur les mérites et les vices du « projet de lexique de base », et sur les chances d'une collaboration internationale en matière de travaux documentaires, fondés sur la compatibilité des grilles d'analyse utilisées concurremment dans divers organismes, chacun demeurant attaché à la sienne pour ses raisons propres. L'objectif parut raisonnable (il est d'ailleurs inscrit au programme de la Fédération Internationale de Documentation depuis plusieurs années), plus que ne l'eût semblée une normalisation proprement dite; et un programme de travail commun fut arrêté, pour aboutir en premier lieu à un système de correspondances entre les différents lexiques en présence. La première étape consistait en une révision du lexique de base qui tînt compte des observations formulées au cours de la réunion d'experts à Marseille, sur les groupements et définitions de descripteurs. Une seconde version fut donc établie, par les soins du Groupe d'Étude pour être diffusée aux mêmes experts au début de 1966.

Ultérieurement, chaque expert, ou plus largement tout auteur d'un lexique documentaire répondant aux critères indiqués plus haut, aurait à rechercher les équivalences totales ou partielles, entre les descripteurs appartenant à sa propre liste et ceux du « lexique intermédiaire ». Le Groupe d'Étude réunirait l'ensemble des équivalences ainsi proposées pour constituer enfin le tableau de concordance visé. Plusieurs mois furent nécessaires pour obtenir les premiers matériaux de cette concordance; et il fallut diverses missions - notamment aux États-Unis et en U R S S - pour en faciliter l'étude, auprès des auteurs eux-mêmes. A la fin de l'année 1966, cinq listes d'équivalences étaient constituées, avec les commentaires voulus.

En fait, les différences entre ces divers lexiques ne sont pas aussi profondes qu'on aurait pu le craindre, étant donné les circonstances et les objectifs fort divers qui présidèrent à la construction de chaque lexique. Plus exactement, ces différences, si nombreuses soient-elles, concernent moins la définition même du domaine, sous tel ou tel de ses aspects, que la manière dont les notions élémentaires sont prises en compte, tantôt par un terme spécifique, tantôt dans le champ d'un terme plus général, tantôt par une combinaison de 2, 3... n descripteurs, etc. Ce sont là surtout des variations de forme, qui ne sauraient masquer les correspondances de sens d'un lexique à l'autre, fût-ce au prix de certaines imprécisions forcées dans le processus de conversion (ex. : d'une notion fine à une notion générale qui l'inclut, d'une catégorie à une autre qui la recouvre seulement en partie, etc.). Il parait donc dès maintenant possible de traduire une représentation documentaire donnée, établie selon une liste de descripteurs Li, dans la terminologie d'une autre liste Lj, concernant à peu près le même domaine. Quelques remaniements dans l'organisation de ces listes suffiraient d'ailleurs à augmenter considérablement la sûreté ou la précision de telles traductions; et l'on aperçoit aisément le bénéfice qui pourrait en résulter, par l'échange systématique d'informations indexées dans divers pays, selon des grilles sémantiques libres mais harmonisées. Les perspectives ouvertes dans ce sens sont évoquées à la fin du rapport (chap. 6).

Chapitre 3 Fichiers

Les outils lexicographiques décrits au chapitre précédent avaient essentiellement pour fonction d'autoriser une analogie détaillée de la documentation relative au traitement de l'information scientifique (la « documentation de la documentation »), en vue de la constitution de différents fichiers. Ceux-ci pouvaient revêtir des formes diverses, selon le support matériel utilisé (fiches ordinaires, cartes perforées, etc.), le mode d'exploitation (manuelle, mécanique, etc.), les conditions d'accès, etc. Le choix du Groupe d'Étude s'est porté en l'occurrence vers les modalités les plus communes : enregistrement des informations sur fiches dactylographiées, classées sous autant d'« entrées » qu'il est nécessaire pour faciliter les repérages et les tris, lesquels se font à vue, par consultation directe des fichiers, etc. L'automatique n'a aucune part, on le voit, dans cette chaîne de traitement (décrite plus complètement au § 3.3); la raison en est que ni le volume des données, ni le genre d'exploitation que l'on avait à l'esprit, dans les premières années du Groupe d'Étude, ne semblaient imposer immédiatement la mécanisation. Celle-ci, n'en est pas moins concevable, voire recommandable dans un avenir proche, au Groupe d'Étude comme ailleurs (infra, § 6.4), de sorte qu'il ne faut retenir de ce chapitre que l'organisation générale des données, indépendamment des procédés modernes de stockage et de mise en œuvre.

3.1 - Sources dépouillées.

Tout document concernant un fait même local, un événement même éphémère dans le domaine de l'information scientifique, serait en droit justiciable d'une analyse, quelles que soient la forme et les circonstances de sa parution (article, rapport inédit, notice publicitaire, annonce, etc.). Il va sans dire que l'inventaire entrepris par le Groupe d'Étude n'a pas cette étendue. Plus que sur l'exhaustivité des dépouillements - condamnée d'ailleurs à n'être jamais qu'un idéal théorique hors d'atteinte - l'accent fut mis sur une tactique d'échantillonnage, qui devait assurer à moindres frais une « couverture » suffisante du domaine. Ainsi, les premières sources dépouillées seraient les grandes revues d'information générale sur la « documentation de la documentation » (exemple : Science Information Notes, FID News Bulletin, Referativnyj Zurnal, etc.) où sont signalées les principales recherches et applications en cours, les ouvrages récemment parus, les programmes ou comptes rendus de conférence, etc. Un nombre relativement limité de périodiques spécialisés par pays (exemple : Nachrichten für Dokumentation, pour l'Allemagne) ou par champs d'application (exemple : « M.U.L.L. », pour le droit, etc.) suffirait ensuite à enrichir l'inventaire, du point de vue de sa représentativité, sans que l'on prétende jamais analyser la totalité des revues où peuvent paraître, incidemment, quelques articles pertinents. Enfin, l'indexation de rapports inédits (états d'avancement, projets, etc.) quels que fussent les aléas de leur collecte, était un moyen d'augmenter l'actualité des informations extraites de la littérature imprimée.

On aboutissait ainsi à un programme de dépouillements limités aux revues que l'on jugeait, les plus riches, et aux documents inédits immédiatement accessibles au Groupe d'Étude; les ouvrages imprimés proprement dits étaient en revanche inclus, en raison de leur nombre, plus facilement maîtrisable, et aussi d'un certain retard inévitable qu'ils manifestent par rapport à la littérature périodique ou inédite.

3.11 - Périodiques.

La liste des périodiques analysés ne représente en aucune manière l'inventaire de toutes les revues qui touchent de près ou de loin au traitement de l'information scientifique; en effet, nombre d'entre elles ne sont pas accessibles en France, et le Groupe d'Étude n'avait ni mission, ni moyen de se les procurer. Ces dépouillements devaient donc se limiter à des revues choisies et reçues par d'autres organismes - notamment la Section d'automatique documentaire et le Centre de documentation du C.N.R.S. - pour des raisons propres à chacun; il est évident que l'homogénéité du corpus s'en ressent. Les quelque cinquante revues reçues et analysées par le Groupe d'étude sont passibles, selon les cas, d'un traitement différent (certaines d'entre elles, consultées pour élargir la base expérimentale du lexique de descripteurs, ont été abandonnées par la suite à cause de leur spécialisation trop marquée ou de circonstances plus contingentes telles qu'une barrière linguistique).

Une minorité de périodiques reçus est analysée en totalité, de façon régulière; la majorité ne l'est qu'en partie. Par « analyse », il faut entendre : a) dans tous les cas, une indexation par descripteurs; b) dans certains cas, la rédaction d'un résumé, de type indicatif (5 à 20 lignes); c) ou une transposition des « abstracts » trouvés dans la littérature elle-même, sous forme de résumés d'auteur, ou de compte rendus signalétiques. Ces modalités de l'analyse ont finalement été laissées à la discrétion des analystes eux-mêmes, après que deux années de travaux en commun leur eussent fourni des critères d'appréciation relativement stables, bien que toujours subjectifs.

3.12 Rapports inédits.

Par essence, les rapports inédits (ou « littérature souterraine ») sont difficiles à détecter : ils ne se trouvent que là où leurs auteurs ont bien voulu les envoyer, généralement en échange de documents de même genre intéressant des sujets voisins. Aussi est-il rare d'avoir accès à un même lieu à des collections tant soit peu complètes de ces notes à diffusion limitée. Le Groupe d'Étude, pour sa part, dut se borner à deux fonds, choisis en raison de leur proximité : la bibliothèque de l'A.T.A.L.A. (Association pour la Traduction automatique et la linguistique appliquée) à Paris, et celle de la Section d'Automatique Documentaire, à Marseille. L'inventaire étant centré sur les études relatives à la documentation, ce fut la Section d'Automatique Documentaire qui fournit la part principale (environ 500 notes ronéotypées, originaires pour la plupart des États-Unis, depuis 196I), tandis que d'autres bibliothèques spécialisées demeuraient inexploitées (notamment celle du Centre d'Étude pour la Traduction automatique, à Grenoble). L'élargissement de la collecte, pour ce genre de documents, est aussi souhaitable qu'il est difficile; nous reviendrons plus loin sur les mesures qui pourraient y aider (§6.I).

3.2 - Organisation des fichiers.

Publications périodiques et rapports inédits fournissent ainsi les documents soumis à l'analyse : études théoriques, annonces de congrès, compte rendus bibliographiques, etc. Chacun de ces documents fait l'objet d'une fiche signalétique, destinée à un classement par noms propres : noms d'auteurs, le plus souvent et/ou aussi noms d'organismes, titres de congrès, etc., le cas échéant. Quant à l'analyse elle-même, elle revêt l'une ou l'autre des deux formes : soit une « indexation » de document au moyen de descripteurs (§ 2.2), soit une « condensation » en un résumé de 5 à 20 lignes, rédigé dans un style abrégé en français. A de rares exceptions près, tout document visé par une fiche signalétique fait l'objet d'une indexation, c'est-à-dire d'une caractérisation par matières, si sommaire soit-elle; en revanche, seuls certains; d'entre eux sont résumés, lorsque l'importance de leur contenu - ou l'obscurité de leur titre - paraît l'exiger. Les résumés d'auteur ne sont pas retenus de façon systématique, ni traduits toujours littéralement. D'une manière générale, la proportion de résumés a diminué au fur et à mesure que se développait la finesse de l'indexation; l'ensemble des descripteurs portés sur la fiche signalétique (en clair) en venant à être considéré comme une forme suffisante de résumé.

Le répertoire se compose ainsi de trois catégories de fichiers :
a) Un fichier-auteurs, établi selon les normes bibliographiques habituelles, sur fiches 75 X 125, avec fiches signalétiques (blanches) et fiches-résumé, le cas échéant (jaunes). Sur les premières figurent tous les descripteurs de l'indexation, énumérés verticalement, au dessous du titre, dans l'ordre des chapitres du lexique.
b) Un fichier-matières, composé des mêmes fiches rangées par descripteurs, l'ordre des descripteurs dans le fichier étant celui du lexique.
c) Des fichiers-annexes (sur fiches 210 × 150), où sont rassemblées les informamations glanées dans des documents différents sur certaines « entités » singulières telles que Chercheurs, Organismes, Publications, Congrès, Machines, etc.

Ces fiches annexes donnent en quelque sorte le signalement de chaque individu, dans la catégorie qui est la sienne, selon un plan fixé a priori pour chacune d'elles. Toutefois, les informations recueillies l'ont été au gré des dépouillements bibliographiques, et non par des enquêtes systématiques, de sorte qu'elles présentent de nombreuses lacunes, qui obligent à considérer les fichiers-annexes comme de simples sous-produits, certainement imparfaits, de l'analyse documentaire.

Celle-ci consiste essentiellement à transcrire sur des bordereaux pré-établis les descripteurs choisis pour représenter le contenu de chaque document. Étant donné le principe même du fichier-matière, où chaque descripteur correspond à une « entrée », l'on est conduit à reproduire la fiche signalétique du document autant de fois que l'on compte de descripteurs distincts, sur le bordereau. Par suite de l'abondance des indications relatives à la partie dite « annexe » du lexique (noms de pays, de systèmes, de machines, etc.), ce nombre est rarement inférieur à 6; il atteint parfois 25, et oscille le plus souvent entre 8 et 12.

Les fiches signalétiques sont dactylographiées sur matrice offset; elles comportent : a) en haut, la référence bibliographique; b) au centre, les descripteurs, rangés verticalement dans l'ordre des chapitres auxquels ils appartiennent dans le lexique (les sigles à gauche - chiffres ou lettres - désignent les chapitres, les traits soulignés indiquent le ou les descripteurs qui correspondent au sujet principal du document); c) en bas, un numéro d'ordre, attribué au moment de la frappe, pour le classement et le repérage éventuel des matrices offset. Celles-ci sont tirées sur une machine de bureau, au nombre d'exemplaires que commandent la multiplicité éventuelle des noms d'auteurs et celle des descripteurs.

Les fiches ainsi tirées sont classées sous ces différentes entrées (auteurs et descripteurs), entourées successivement d'un trait qui marque l'emplacement de la carte dans le fichier. Ce dernier existe en deux exemplaires, actuellement déposés dans les locaux de la Section d'Automatique Documentaire, à Paris (23, rue du Maroc) et à Marseille (31, Chemin Joseph Aiguier); il comprend environ 30 000 cartes, concernant quelque 3 500 documents, tous postérieurs à 196I.

Chapitre 4. Inventaire des applications

Les informations considérées au chapitre précédent sont essentiellement d'origine bibliographique; elles ne parviennent au Groupe d'Étude que sous forme de documents écrits, imprimés ou non (textes scientifiques et techniques proprement dits, mais aussi annonces, notices, etc.). Or, il existe certaines catégories de données qui ne font pas régulièrement l'objet de communications écrites, et qu'il faut par conséquent recueillir par d'autres moyens que l'analyse bibliographique : ce sont notamment les applications nouvelles en matière de documentation, lorsqu'un organisme fait appel à des techniques modernes de traitement de l'information scientifique, sans pour autant prendre la peine d'en informer autrui par une publication. Dans la mesure où ces techniques sont encore peu répandues, l'on s'accorde généralement à penser qu'il est utile d'en recenser toutes les applications, pour que les caractéristiques et les enseignements de chacune soient portés à la connaissance de tous. Telle est encore aujourd'hui la pratique suivie aux États-Unis, où les applications qualifiées naguère de « non-conventionnelles » se comptent pourtant par centaines 9; et telle est aussi la politique recommandée par la Fédération Internationale de Documentation (F.I.D.) à tous ses pays-membres, depuis quelques années. Une dizaine d'entre eux ont d'ailleurs donné suite à ce vœu, comme le montre la publication récente d'un annuaire édité par la F.I.D. sous le même titre que son modèle américain. Les applications nouvelles sont groupées là par pays; la partie qui concerne la France n'est autre que la reproduction d'un premier inventaire établi par le Groupe d'Étude en 1965, et publié la même année dans le Bulletin des Bibliothèques de France 10. Nous nous bornerons à rappeler les circonstances de l'enquête : en 1964, le Groupe d'Étude établit le plan d'un formulaire relativement détaillé (9 pages), pour l'analyse des principales caractéristiques des applications documentaires : I. cadre institutionnel; 2. domaine et matériaux; 3. nature des travaux documentaires, outils linguistiques employés (classifications, langages d'indexation, etc.); 4. procédures et matériel de stockage; 5. moyens mécaniques de recherche documentaire, produits et services fournis (cf. modèle à l'annexe 7). Ce formulaire fut adressé à plusieurs centaines d'organismes publics ou privés, dont les services de documentation étaient connus pour leur importance, ou pour leur intérêt dans les techniques nouvelles. Celles-ci étaient par ailleurs définies dans le questionnaire au moyen de deux critères en principe indépendants : soit le développement d'outils linguistiques spécialisés, pour l'indexation des documents (classifications à facettes, lexique de mots-clé ou de descripteurs, thesaurus, etc.), soit la mise en œuvre de machines pour tel ou tel aspect de traitement de l'information (fabrication d'index, recherche rétrospective, reproduction, etc.).

L'analyse des réponses reçues - au nombre d'une centaine - conduisit au premier inventaire cité plus haut (note précédente), où seules furent retenues les applications qui répondaient à l'un et/ou à l'autre de ces deux critères : une quarantaine environ. Malgré l'étendue de la prospection, un tel remaniement ne pouvait prétendre être complet 11; en outre, l'évolution des techniques documentaires est d'ores et déjà suffisamment rapide pour que le dénombrement des applications soit à reprendre d'année en année, selon des modalités d'ailleurs changeantes au fur et à mesure que les outils deviennent plus raffinés, tant du point de vue linguistique que sur le plan de la technologie. On trouvera plus loin quelques indications sur la manière dont cette statistique permanente des applications nouvelles devrait être conçue, pour qu'elle ait quelque chance d'être complète, et qu'elle serve elle-même à promouvoir une meilleure organisation des travaux d'information scientifique en France (§ 6.5).

Chapitre 5. Comptes rendus et exposés de synthèse

Les fichiers décrits au chapitre 3 constituent un outil commode pour établir des bibliographies courantes sur les aspects les plus divers de l'information scientifique, selon les préoccupations des consultants. Encore faut-il que ceux-ci aient accès aux fichiers, et qu'ils aient une connaissance suffisante du domaine pour être en mesure de les utiliser avec profit. A défaut, il est bon de diffuser périodiquement des travaux bibliographiques d'un emploi plus direct, qui assistent les spécialistes dans la collecte des informations. Ces travaux peuvent être de plusieurs ordres : liste de titres ou table des sommaires, éditée à des intervalles rapprochés, et présentée le cas échéant sous forme d'index permutés (méthode des « Key-Word-in-Context », etc.); journaux de résumés, classés ou non par secteurs particuliers; monographies périodiques sur chacun de ces secteurs, etc.

Le Groupe d'Étude n'avait ni la mission ni les moyens de donner un caractère systématique à des publications de cet ordre. Son rôle s'est ici borné à l'examen de ce qui pourrait être sa politique en la matière, dans une phase ultérieure, en fonction des initiatives ou des intentions parallèles qui se manifestent depuis peu, principalement à l'étranger. Le paragraphe 6.4, plus loin, est consacré à l'exposé de cette politique. Cependant, il faut citer quelques travaux bibliographiques du Groupe d'Étude, qui déjà préfigurent ce genre de publications : des comptes rendus d'ouvrages inédits, d'une part, et des exposés de synthèse en second lieu.

5.1. Comptes rendus bibliographiques.

Les livres, voire aussi les articles publiés sur les problèmes de l'information scientifique font déjà l'objet de comptes rendus dans des revues spécialisées, principalement de langue anglaise et russe; en revanche, les rapports multigraphiés sont rarement signalés, alors qu'ils constituent une part importante de la documentation pertinente, tant par la qualité que par la quantité. Une manière d'attirer l'attention sur cette lacune consistait à publier des comptes rendus limités à cette « littérature souterraine », comme on l'appelle parfois. C'est ce que le Groupe d'Étude entreprit, en choisissant parmi les rapports techniques reçus par la Section d'Automatique Documentaire ceux qui paraissaient mériter d'être analysés, pour une première livraison de comptes rendus. L'organe de diffusion choisi pour la circonstance fut la Revue française de traitement de l'information - Chiffres, sans cependant que ce choix engageât aucunement l'avenir. Quant aux critères suivis pour la sélection des rapports signalés, ils étaient de trois sortes : a) la date, tous ces documents devant avoir moins d'un an au moment de la parution des comptes-rendus ; b) la généralité du sujet (organisation globale de l'information scientifique, systèmes intégrés de traitement de l'information, modèles linguistiques ou mathématiques, etc.); c) la continuité de l'étude, manifestée par le nombre de rapports successifs diffusés sous le même titre, sur un même thème. Ainsi, aux dix titres retenus correspondaient en fait trente-sept rapports distincts, dont les derniers parus dans chaque série étaient datés de 1964. Les comptes rendus - en moyenne quatre cents mots par titre - furent publiés dans la revue présentée, R.F.T.I.-Chiffres, vol. 8, n° 3, 1965, pp. 215-233.

5.2. Exposés de synthèse.

Au fur et à mesure que s'enrichissait le fichier-matière décrit au chapitre 3, il apparaissait de plus en plus facile d'en tirer en quelque sorte « à la demande » des exposés sommaires de mise au point sur tel ou tel aspect particulier de l'Information Scientifique. Deux sujets furent retenus comme matières à des exposés de ce genre : les enseignements nouveaux portant sur les techniques modernes de la documentation, d'une part, et les travaux de lexicographie documentaire d'autre part.

Ce choix était le reflet des lacunes observées en France sur chacun de ces deux plans : aujourd'hui encore, il n'y existe aucun enseignement de qualité sur les techniques avancées du traitement de l'information scientifique, non plus qu'aucune action d'envergure pour l'établissement des outils lexicographiques nécessaires à l'application de ces techniques. Dans un ordre comme dans l'autre, le contraste est égal avec le nombre et la qualité des initiatives étrangères; et il a semblé qu'un exposé sur chacun d'eux pourrait contribuer à susciter en France des efforts analogues.

Le premier de ces travaux fut un article de Mme L. Vishniakoff sur les Enseignements nouveaux dans les techniques de l'information scientifique (Bulletin des Bibliothèques de France, 9e année, n° 9-10, sept-oct. 1964, pp. 373-386) où l'on se borne à décrire en détail les programmes récemment institués par un certain nombre d'universités étrangères, pour la formation de spécialistes de tous ordres en matière de travaux documentaires. Les carences de l'enseignement français, en regard, sont évidentes; et l'on devra tôt ou tard revenir à ce bilan - convenablement mis à jour - pour tenter de les réduire.

Quant à la lexicographie documentaire - fabrication de listes organisées de descripteurs, dictionnaires d'équivalence entre termes naturels et descripteurs, etc. - elle n'est pas inconnue en France, mais souffre plutôt des incertitudes qui pèsent encore sur ses fonctions et sur ses méthodes. La seconde étude évoquée plus haut visait donc à clarifier le contenu de ce secteur de recherches, à partir des travaux qui s'y rapportent, plutôt qu'à dresser un inventaire critique de ces derniers; d'où le titre adopté par J.-C. Gardin, éléments d'un modèle pour la description des lexiques documentaires (Bulletin des Bibliothèques de France, IIe année, n° 5, mai 1966, pp. 17I-182).

Chapitre 6. Orientation ultérieure

Les travaux rappelés précédemment ne sauraient être considérés que comme des antécédents ou prototypes nécessaires d'une action nationale plus soutenue, pour promouvoir la connaissance et l'application des nouvelles formes d'activité documentaire. Le Groupe d'Étude sur l'Information Scientifique, dont le statut aura été jusque-là celui d'une équipe temporaire, sans qualité véritablement officielle, devrait alors renaître sous l'aspect d'un service permanent, directement rattaché à l'organisme chargé de conduire l'action nationale en matière de documentation scientifique et technique. Ses fonctions ne seraient dans ce cas guère différentes de celles que l'on a évoquées dans les pages qui précèdent, à savoir la collecte, l'analyse, et la diffusion des informations relatives aux techniques documentaires, conçues dans le sens le plus large (organisation, méthodes, équipements, etc); mais ses moyens d'actions seraient en revanche considérablement accrus, en vertu même de ce nouveau statut. Les propositions qui suivent visent à préciser l'orientation générale des travaux à poursuivre, dans cette hypothèse.

6.1. Collecte des documents.

Le Groupe d'Étude était jusqu'ici tributaire des bibliothèques spécialisées (A.T.A.L.A., Section d'Automatique Documentaire, etc.), dans ses tâches de dépouillement; une première mesure devrait consister à lui adjoindre une bibliothèque propre, qui couvre tous les aspects de traitement de l'information scientifique : réseaux et organismes de documentation, vœux et pratiques des usagers, formation de techniciens, méthodes, équipements, etc. Cette bibliothèque serait la première du genre en France, où aucun organisme ne collecte de façon systématique les documents relatifs à l'ensemble de ces questions. L'utilité de la bibliothèque ne serait d'ailleurs pas seulement de faciliter la mission du Groupe d'Étude lui-même, dans la constitution de ses fichiers; étudiants et spécialistes trouveraient là l'outil qui fait actuellement défaut, pour prendre commodément connaissance, en un seul lieu, des travaux de tous ordres auxquels donne lieu le traitement de l'information scientifique.

Le problème de l'acquisition des documents demeure néanmoins entier : à supposer que le Groupe d'Étude dispose à la fois des locaux, des techniciens et des crédits nécessaires à la constitution de cette bibliothèque, est-il possible, est-il même souhaitable de viser à l'exhaustivité absolue de la documentation acquise ? La question n'est aucunement particulière au domaine de l'Information scientifique, considéré comme une discipline parmi d'autres; elle se pose de façon identique dans quelque domaine que ce soit, et la réponse que nous sommes enclins à lui donner est la même dans tous les cas. Il est sans doute utopique de prétendre réunir dans un centre unique toute la documentation que les chercheurs ou les praticiens seront conduits à demander, au fil des ans, dans un secteur quelconque de la connaissance. La justification de ce point de vue n'est pas ici notre propos; bornons-nous à citer un argument parmi d'autres, en faveur d'une politique d'acquisition plus mesurée. On sait que la littérature dite « souterraine » tient aujourd'hui une place non négligeable, dans la documentation technique; nous avons d'ailleurs souligné ici même la part qu'elle occupe dans les fichiers du Groupe d'Étude (§ 3.12). Le moyen le plus sûr, sinon le seul, d'acquérir cette littérature est par échange entre les personnes, ou plus souvent les organismes qui la distribuent; on la trouve par conséquent dans les centres de recherche spécialisés, plutôt que dans les bibliothèques proprement dites. Il est douteux, par exemple, qu'un organisme comme le Groupe d'Étude réussisse à obtenir que tous ces centres spécialisés, où qu'ils soient dans le monde, lui fassent régulièrement le service des rapports techniques diffusés par eux à quelque cinquante à cent exemplaires, parfois un ou deux ans avant leur publication proprement dite. Si l'on admet que ces rapports représentent l'avant-garde de la documentation scientifique et technique, il faut aussi admettre que les bibliothèques générales, du genre de celles que l'on évoquait plus haut, risquent de n'être jamais « complètes », au moins du point de vue des chercheurs avancés. La conclusion à tirer de cette observation - et de bien d'autres qui inclinent au même scepticisme - est qu'il faut attacher autant d'importance à la notion de réseaux d'acquisition qu'à celle de la bibliothèque centrale elle-même. Il s'agira moins de rassembler dans celle-ci une quelconque « totalité » des documents convenables, laquelle est une fiction, que de pallier les lacunes inévitables des collections par diverses mesures telles que :
- la création d'un fichier central, signalant l'ensemble des documents reçus par les centres spécialisés, en France;
- l'institution d'une sorte de bourse nationale de la littérature inédite, où les rapports français - astreints dans ce cas à une sorte de dépôt légal - pourrait être échangés contre des documents étrangers relatifs au même domaine 12;
- l'organisation de services de prêt ou de reproduction inter-centres, en France pour commencer, puis en liaison avec des organismes similaires à l'étranger, etc.

Aucune de ces mesures n'est originale, ni particulière, au domaine de la « documentation de la documentation »; elles ont toutes été proposées, sous une forme ou une autre, à propos du problème général de l'organisation documentaire en France. Il convenait seulement de rappeler que le prolongement des travaux du Groupe d'Étude, dans cette tâche première qu'est la collecte de documents, n'implique pas seulement des moyens nouveaux, mais aussi et surtout une politique raisonnée, conçue à l'échelle d'un réseau national et non pas dans les limites étroites d'une bibliothèque parmi d'autres.

6.2. Analyse des documents.

La même conclusion s'impose, et de façon plus évidente encore, en ce qui concerne la seconde catégorie de tâches assignées au Groupe d'Étude : l'analyse des documents. Nous laisserons volontairement à ce terme, le sens le plus vague, pour couvrir toutes les opérations que l'on peut souhaiter faire subir à un texte scientifique, pour en faciliter le repérage ou la consultation : résumé, extraction de mots clé, indexation par mots-vedette ou descripteurs, traduction, etc. Il n'est pas utile de démontrer une fois de plus que ces opérations sont le plus souvent menées de façon incohérente, en ce sens que les mêmes textes font plusieurs fois l'objet des mêmes travaux d'analyse, d'un pays à l'autre (voire à l'intérieur d'un même pays), tandis que d'autres échappent au contraire à toute recension. La littérature propre au domaine de l'Information scientifique elle-même ne fait pas exception : elle est analysée de façon indépendante par nombre d'organismes ou de revues, dont plusieurs visent simultanément à l'universalité, sans pour autant coopérer dans ce sens... Ainsi des deux principales revues bibliographiques à vocation générale, l'une américaine (Documentation Abstracts), l'autre russe (Referativnyj Zurnal, section Information Scientifique et Technique), où les résumés - lesquels impliquent aussi l'emploi de traducteurs dans bien des cas -concernent essentiellement les mêmes documents; ainsi encore des revues plus étroitement spécialisées, où ces derniers sont à nouveau cités, résumés, indexés, etc., sous d'autres rubriques (ex : Library Sciences Abstracts, Finite String, Computer Abstracts, etc). De l'aveu général, cependant, aucune de ces revues bibliographiques ne couvre, à nouveau, la « totalité » de la littérature spécialisée; tout au plus espère-t-on s'approcher de l'exhaustivité à l'échelle nationale, chaque pays étant en principe capable de traiter sa propre documentation (connaissance des sources, contrôle de la diffusion, absence de barrières linguistiques, etc.) plus sûrement que celle de ses voisins 13.

La conséquence de cette situation est double. En premier lieu, il paraîtrait déraisonnable que le Groupe d'Étude s'engageât à son tour dans la voie ambitieuse des « Documentation Abstracts » et du « Referativnyj Zurnal » : ici encore, il ne suffirait pas que la tâche devînt possible, sur le plan des personnes et des crédits, pour qu'elle fût aussitôt souhaitable. La création d'une troisième revue bibliographique de même nature, en France, ne ferait que multiplier les répétitions condamnées plus haut; en outre, cette revue concernerait des travaux et des documents originaires pour la plupart de l'étranger, que l'on risque d'analyser toujours avec quelque retard, par rapport aux bibliographies compilées dans les pays-source.

La seconde conséquence, corollaire de la précédente, est qu'il y aurait profit, inversement, à concentrer les moyens du Groupe d'Étude sur l'analyse des documents français, ou plus généralement de langue française, dont l'expérience montre qu'ils sont souvent peu ou mal représentés dans les bibliographies internationales. Cette politique aurait à nos yeux deux avantages : a) elle devrait aboutir à la production d'outils bibliographiques meilleurs, pour cette littérature d'expression française, que leurs équivalents étrangers (par « meilleurs », il faut entendre plus fins, plus rapides, et plus complets); b) elle fournirait ainsi à la France les objets d'échange qui lui font actuellement défaut, pour négocier des accords de coopération internationale concernant l'analyse et la recherche des documents dans le domaine de l'Information scientifique.

L'objectif n'est d'ailleurs limité qu'en apparence : le terme final reste le contrôle de la littérature spécialisée dans son ensemble, en quelque langue qu'elle soit écrite; seuls changent les moyens d'y parvenir, par une répartition internationale des tâches dans un cas, au lieu d'une concentration à la charge d'un organisme unique dans l'autre. En outre, cette répartition même laisse, ou pose nombre de problèmes irrésolus : d'abord le « découpage » de la documentation mondiale en autant de tranches que de parties prenantes aux travaux d'analyse; puis l'organisation de ceux-ci par chaque partie, dans ses limites propres - où l'on retrouvera nécessairement la nécessité d'un réseau national, comme dans le cas des tâches de collecte. Enfin et surtout, la coopération internationale n'est concevable que si l'on parvient à s'accorder sur la forme qu'il convient de donner aux produits de l'analyse - résumés, extraits, indexations, etc. pour les rendre véritablement interchangeables d'une institution à l'autre. On retrouve en particulier la nécessité des études de compatibilité ou de convertibilité décrites plus haut (§ 2.3), destinées à faciliter la mise en commun de travaux bibliographiques issus d'organismes différents, sans pour autant imposer à chacun des règles ou des langages d'indexation uniformes, également incommodes pour tous.

L'orientation des travaux du Groupe d'Étude, en matière d'analyse bibliographique, semble donc subordonnée, ici encore, à la formulation d'une politique nationale de l'information scientifique, celle que l'on vient de recommander n'en étant finalement qu'un cas particulier.

6.3. Services bibliographiques.

La raison d'être des travaux d'analyse que l'on vient de passer en revue est évidemment d'assurer une meilleure diffusion des connaissances dans le domaine de traitement de l'information scientifique. Les formes possibles de cette diffusion sont nombreuses, et il faut indiquer aussi celles qui paraissent devoir être retenues par le Groupe d'Étude dans la prochaine phase de son action.

Les fichiers décrits plus haut (chap. 3), dans la mesure où ils sont accessibles au public, constituent un premier mode de diffusion : chacun peut y chercher les références ou les données qui répondent à ses questions du moment, au moins dans les limites des sources et de la « grille » utilisées. Il y a tout lieu de penser que ces fichiers devront être régulièrement entretenus, pour satisfaire aux mêmes besoins. Toutefois, leur forme de présentation pourrait être remise en question; en particulier, au lieu des fichiers-matière de type traditionnel, où chaque carte est reproduite autant de fois qu'il est nécessaire pour paraître sous chacune des entrées voulues (§ 3.2), il serait concevable de constituer un fichier mécanographique, voire électronique, dont le contenu serait rigoureusement le même, mais dont l'exploitation offrirait plus de souplesse : recherches sur plusieurs notions, impression mécanique des références, « disséminations sélective » de l'information selon des profils d'intérêt personnels, etc. C'est la voie qu'ont choisie nombre d'organismes américains, plus cependant pour accélérer la fabrication périodique de bibliographies imprimées selon un plan prédéterminé (ex. : Finite String, Documentation Abstracts, etc.) que pour assurer le traitement de questions occasionnelles. Rien n'interdit au Groupe d'Étude d'opter à son tour pour une forme ou une autre de mécanisation, dans la gestion de ses fichiers, si l'économie générale de l'exploitation l'impose. Le rattachement du Groupe à un Institut national de la documentation scientifique doté de moyens de calcul propres, pour des missions analogues, militerait évidemment en faveur de cette évolution.

Qu'ils soient ou non mécaniques, ces fichiers ne constitueront sans doute pas l'unique moyen d'information offert aux spécialistes; des bibliographies imprimées devront s'y ajouter, plus ou moins directement dérivées des fichiers eux-mêmes (et le cas échéant, par des moyens mécaniques). La principale serait cette bibliographie nationale 14 dont on a souligné l'intérêt à la fois scientifique et politique, au paragraphe précédent. Ce n'est pas ici le lieu, ni tout-à-fait encore le moment d'en arrêter la forme, non plus que les modalités de sa fabrication; bornons-nous à poser que l'édition d'une bibliographie périodique des documents de langue française intéressant l'information scientifique est une tâche à laquelle le Groupe d'Étude ne saurait à l'avenir se soustraire.

La ligne à suivre est moins claire en ce qui concerne la documentation étrangère, et en particulier celle de langue anglaise ou russe, convenablement couverte, on l'a vu, par des journaux tels que les Documentation Abstracts ou le Referativnyj Zurnal. La traduction pure et simple de ces journaux en français serait une entreprise moins absurde à tout prendre, que la répétition des mêmes travaux de résumé et d'indexation à partir des documents originaux (à supposer que ceux-ci fussent accessibles en France); elle n'en serait pas moins vaine, selon nous, dans la mesure où il paraît improbable que les spécialistes de l'information scientifique ignorent à la fois le russe et l'anglais. Reste une autre voie, qui consisterait à éditer une ou plusieurs bibliographies sélectives, en français, sur les travaux étrangers les plus marquants. C'est le parti que suit par exemple le VINITI, en U.R.S.S., dans la série « Express-Informatsija », où sont résumés (longuement) les ouvrages et articles d'actualité parus hors de l'Union Soviétique. Sans doute la difficulté est-elle de s'entendre au préalable sur les critères de la sélection; étant donné l'incertitude admise des limites, dans ce genre de bibliographies, ce ne devrait pas être un argument suffisant pour écarter celles-ci.

En tout état de cause, il est évident que les informations trouvées dans les revues étrangères devront continuer à venir grossir les fichiers cités plus haut - manuels ou mécaniques - indépendamment de l'usage que l'on aura décidé d'en faire dans les bibliographies imprimées. Les accords que l'on a préconisés, pour la collecte et l'analyse de ces matériaux, devraient ultérieurement conduire à des transferts quasi automatiques d'informations d'un organisme à l'autre, dans ce cas, de manière à réduire les tâches de chacun. Il n'est pas utopique de penser que les obstacles les plus sérieux ne seront en l'occurrence ni les machines (télécommunications) ni les méthodes (systèmes de conversion), mais plutôt certains réflexes conservateurs ou protectionnistes des hommes.

La dernière catégorie de services à considérer concerne les exposés de synthèse déjà cités plus haut (§ 5.2). Leur utilité est aujourd'hui largement reconnue, et il n'est pas nécessaire de démontrer qu'ils constituent, du point de vue de la documentation, la forme de présentation la plus savante des matériaux bibliographiques. A ce titre, ils peuvent d'ailleurs dépasser la compétence du Groupe d'Étude proprement dit, et incomber plutôt aux spécialistes avancés des techniques documentaires (études théoriques), ou à des praticiens que leur activité place au cœur de certains types d'application (études de matériel, inventaire de systèmes documentaires en usage, etc.).

6.4. Rôle de coordination.

Les différentes missions que l'on vient de passer en revue dans ce chapitre ont un caractère en commun : elles impliquent toutes la collaboration de nombreuses personnes ou institutions, à l'extérieur du Groupe d'Étude lui-même. La nécessité de ces collaborations est apparue dès l'examen des tâches de collecte, où pourtant on l'attendrait le moins (§ 6.1); elle s'affirme plus encore dans la conception que nous avons défendue d'une politique concertée de l'analyse et de la recherche documentaires, où l'action du Groupe d'Étude est celle d'un organisme coordinateur, parfois même seulement « aiguilleur », autant que d'un organisme d'exécution (§ 6.2 et 6.3). Cette orientation délibérément fédérale se définit aussi bien par égard à un réseau national d'information scientifique, dont il reste à matérialiser les points que par référence à une coopération internationale dont il est difficile d'éluder la nécessité, quelque idée qu'on en ait. Dans ce sens, l'action du Groupe d'Étude ne saurait être qu'une image en réduction - parmi d'autres - de celle qui ne manquera pas de s'imposer tôt ou tard en France, en matière de documentation scientifique.

Annexe I

Page extraite du lexique documentaire du Groupe d'étude 15

Problèmes humains : conversion : Problèmes psychologiques des documentalistes (formation, attitude, comportements), posés par la conversion d'un système documentaire tradition en un système mécanisé.

Problèmes humains utilisation : Problèmes psychologiques posés aux utilisateurs de systèmes mécanisés, notamment en ce qui concerne les programmes de collaboration entre un chercheur et des auxiliaires automatiques. Cette dernière classe ne recouvre pas toutes les études de liaison « homme-machine » (Man-machine problems), mais seulement ceux qui relèvent de l'utilisation de la machine par l'homme et non ceux où il y a apprentissage de la machine (pour ce terme, cf. section « Comportement artificiel » des

Domaines Périphériques).

Enfin, apparaissent ici les problèmes d'entretien posés par des systèmes mécanisés.

4. ORGANISMES

Deux catégories d'institutions sont regroupées dans cette section : d'une part celles qui « traitent » l'information scientifique, et d'autre part celles qui gèrent ou abritent les premières de façon occasionnelle ou permanente.

Par « traitement » on entend ici aussi bien l'acquisition et la diffusion de documents (bibliothèque) que l'exploitation effective des données documentaires (centre de documentation services de traduction, de calcul, etc.).

Annexe II

Page extraite de la première version du « Lexique de base » (lexique intermédiaire compatible [document de travail]).

Groupe 16 : CLASSIFICATION & INDEXATION 16.

Caractérisation ou représentation d'un document (forme et/ou contenu) au moyen de termes (mots-vedette, descripteurs, termes d'indexation, etc.) tirés d'un langage documentaire quelconque : classification, liste alphabétique de descripteurs, thesaurus, etc.; principes et méthodes.

Études sur des langages documentaires particuliers.

Mécanisation de l'indexation, i.e. de la conversion du langage naturel au angage documentaire, dans quelque domaine et pour quelque langue que ce soit.

Mécanisation de la classification, i.e. de la genèse des langages documentaires utilisés pour l'indexation.

  1. (retour)↑  Current Research and Development in Scientific Documentation, 15 volumes parus, 1957-1966 ; Non-conventional Technical Information Systems in Current use, dernier volume paru (n° 3), octobre 1962; n° 4 en préparation.
  2. (retour)↑  Cf. l'échantillon dans l'Annexe I.
  3. (retour)↑  Sur ces destinations, voir l'exposé de synthèse cité plus loin, § 5.2, fin.
  4. (retour)↑  L'Office of Science Information Service de la National Science Foundation présente son inventaire (cité p. 3, § 1.2) selon une classification qui se développe d'année en année, en même temps que se multiplient les index récapitulatifs.
  5. (retour)↑  Au VINITI les périodiques relatifs à l'Information Scientifique et Technique - Nauknaja i Tekhnisceskaja Informatsja, Referativnyj Zurnal (série 59), etc. - mettent également en œuvre des systèmes de classification et d'indexation fort détaillés.
  6. (retour)↑  L'échantillon choisi comprenait quelque 500 notices du Current Research and Development in Scientific Documentation, années 196I et 1962, ainsi que les articles parus dans la revue « American Documentation », années 1962 et 1963.
  7. (retour)↑  Ex. : travaux de J. NOEL, attaché au Fonds National de la Recherche Scientifique, Belgique, qui étudie le passage automatique de résumés en anglais à des représentations en termes de descripteurs tirés du lexique ci-dessus : L'indexation mécanisée de résumés anglais : quelques hypothèses et analyses sémantiques. Rapport adressé au F.N.R.S., Bruxelles, 30 octobre 1966, 44 pp.
  8. (retour)↑  Voir la première version d'un tel « groupe » dans l'Annexe 2.
  9. (retour)↑  Cf. l'annuaire périodique mentionné plus haut, § I.2, note I.
  10. (retour)↑  F. LEVY, Quelques applications des nouvelles techniques documentaires en France, [In : Bull. Bibl. France, 10e année, n° 6, juin 1965, pp. 193-231.]
  11. (retour)↑  Cf. les additions apportées par le numéro spécial de la revue Documentaliste, sur l'Automatisation documentaire en France, Ier trimestre 1966, pp. 117-127.
  12. (retour)↑  Cf. le rôle joué dans ce sens aux États-Unis par des organismes fédéraux tels que l'Office of Technical Services, le Defence Documentation Center, etc.
  13. (retour)↑  La bibliographie signalétique du Bulletin des bibliothèques de France manifeste, depuis quelques années, une tentative dans ce sens, mais sans que soit marqué avec quelque précision le domaine considéré ici.
  14. (retour)↑  Cette bibliographie devant comporter un aspect systématique dans le domaine qui nous occupe et qui la distinguerait de celle du Bulletin des bibliothèques de France, déjà mentionnée (p. 233, note 1).
  15. (retour)↑  Les termes soulignés sont les descripteurs. Trois versions du lexique, française, anglaise, russe, ont été rédigées.
  16. (retour)↑  N. B. - a .Les processus de la classification et de l'indexation paraissent indissociables, même si l'on peut parfois distinguer des outils tels que classifications d'une part, listes alphabétiques de termes d'indexation d'autre part.
    b. Le terme « mécanisation » est pris ici dans un sens large, qui comprend l'étude d'algorithmes, même lorsque ceux-ci n'ont pas fait l'objet d'applications sur machine.
    c. Les études théoriques sur les méthodes de classification automatique, intéressant quelque objet que ce soit - linguistique ou non - relèvent des mathématiques, cf. groupe 4; seules les applications à la documentation sont ici prises en compte. d. Sur les travaux de lexicographie entrepris dans le cadre de telle ou telle langue naturelle, et qui peuvent conduire à la construction d'un langage documentaire, cf. groupe 24.