Préparation automatique de bulletins bibliographiques

Trois exemples d'application : les publications bibliographiques périodiques du service central de documentation du Commissariat à l'énergie atomique

André Chonez

Le Service central de documentation du C. E. A. publie trois périodiques bibliographiques dont la préparation fait appel à des méthodes plus ou moins automatiques : - la Bibliographie scientifique hebdomadaire, dotée d'un index-matières exécuté à partir de cartes perforées obtenues par conversion automatique des bandes perforées issues des machines à écrire sur lesquelles elle est dactylographiée; - le Supplément à la Bibliographie scientifique hebdomadaire, produit par xérocopie des tables des matières des documents et, pour une faible partie, par dactylographie automatique sur machine à écrire à bande perforée; - Physindex, bibliographie auto-indexée entièrement préparée sur ordinateur électronique à partir d'un enregistrement initial sur bande perforée. Ces trois publications s'efforcent de concilier, en les sériant, les exigences contradictoires des chercheurs relatives à la rapidité et à l'exhaustivité du signalement des documents, et à la finesse de leur indexage.

Malgré son titre général, cette communication ne se propose pas de passer en revue les multiples méthodes ni les moyens mécaniques ou électroniques de préparation de bulletins bibliographiques. Elle se propose seulement, suivant son sous-titre, d'en donner trois exemples caractéristiques, empruntés aux réalisations du Commissariat à l'énergie atomique. Ces trois réalisations, qui font appel à des solutions allant des plus rudimentaires aux plus élaborées, présentent cependant un point commun : l'emploi de machines à écrire à bande perforée au stade initial de l'enregistrement des données bibliographiques. On se bornera ici à un très bref rappel des méthodes employées, renvoyant l'auditeur ou le lecteur intéressé aux textes plus détaillés signalés en références.

1. La Bibliographie scientifique hebdomadaire. (2) (3) (4).

Elle offre chaque semaine de l'ordre de 15 00 notices signalétiques d'articles de périodiques, traductions, rapports, comptes rendus de conférences et ouvrages intéressant directement l'activité des directions, départements et services scientifiques du C.E.A. Sélective, elle couvre cependant, mais de manière très inégale, un champ très vaste allant des mathématiques à la biologie, en passant par la physique, l'électronique, la technologie et la chimie (à l'exception des sujets traités depuis 1963 dans Physindex). Elle est dotée depuis 1962 d'un index-matières systématique détaillé, présenté selon la classification alphanumérique spéciale utilisée par les ingénieurs documentalistes du service pour indexer les documents qu'ils sélectionnent.

La liste des références bibliographiques est directement produite à partir de la dactylographie des notices signalétiques sur machines à écrire à bande perforée, par photographie et report sur plaque offset du texte dactylographié. La dactylographie de cette liste est faite par une équipe de trois opératrices disposant de trois machines Flexowriter utilisées à temps plein.

L'index-matières hebdomadaire est exécuté à partir de cartes perforées obtenues par conversion automatique des bandes perforées par les machines à écrire pendant la dactylographie de la liste des notices signalétiques. Cette organisation mécanographique permet d'obtenir le texte de l'index-matières ( comportant chaque semaine de l'ordre de 3 000 lignes ou rubriques) quelques heures après la fin de la dactylographie de la liste à laquelle il se rapporte.

Les cartes perforées produites dans la semaine sont ensuite intégrées automatiquement aux fichiers matières et auteurs de l'année en cours, permettant la préparation périodique d'index cumulatifs (trimestriels, semestriels et annuels) et facilitant, dans l'intervalle entre deux cumulations, les recherches documentaires (ces fichiers contiennent ensemble, en fin d'année, plus de 300 000 cartes).

L'installation mécanographique qui effectue ces travaux comprend : une poinçonneuse connectée à un lecteur de bande perforée, une interprète, une trieuse, une interclasseuse et une tabulatrice de la gamme LC.T. - SAMAS pour cartes de format réduit à 40 colonnes. Ces machines sont très loin de la saturation, et de nombreuses autres tâches (de gestion du fonds documentaire et d'inventaire, en particulier) leur sont ou leur seront confiées. Il n'en est que plus intéressant de souligner que, si l'on impute sur la Bibliographie hebdomadaire seule tous les frais de location ou d'achat des machines à cartes perforées et à bande perforée qui ont permis de la doter d'un index-matières et qui ont autorisé la suppression des fichiers centraux de type traditionnel, le prix de revient global de la Bibliographie hebdomadaire n'a augmenté que d'environ 15 %. Le personnel nécessaire ne s'est accru que de l'unique opératrice chargée de l'installation à cartes perforées.

Basées sur son rythme hebdomadaire, toutes les étapes de la préparation de la Bibliographie hebdomadaire (collecte des documents, indexage, dactylographie, impression) durent une semaine; il en résulte un délai d'au moins quatre à cinq semaines entre la réception des documents par la bibliothèque du service, et la diffusion des fascicules qui les signalent aux chercheurs. Il s'agit là d'un minimum irréductible avec les moyens dont dispose le service.

Satisfaisante, malgré ce délai, en tant qu'instrument d'information, la Bibliographie scientifique hebdomadaire l'est moins en tant qu'instrument de recherche rétrospective, à cause de son volume et de la lenteur des recherches effectuées dans ses index qui n'indiquent que les numéros des notices signalétiques intéressantes. D'ailleurs, leur volume considérable interdit pratiquement la diffusion de ses index annuels. La difficulté va être tournée par un appareil dont le prototype est en cours d'essai : il s'agit d'un lecteur-reproducteur de microfilm spécialement adapté à la recherche et à la reproduction instantanée des images microfilmées de la Bibliographie et de ses index annuels (la collection annuelle tiendra dans un unique chargeur interchangeable contenant 180 mètres de film). Cet appareil et l'édition microfilmée de la Bibliographie et de ses index seront mis à la disposition des différents centres du C. E. A.

2. Le Supplément à la Bibliographie scientifique hebdomadaire.

Il élargit le champ sélectif de cette Bibliographie à tous les documents reçus par le Service central de documentation. Il complète la Bibliographie hebdomadaire par la liste intégrale des périodiques arrivés, des listes de documents non indexés par elle, et la reproduction des sommaires des principales revues scientifiques et techniques non indexées ou incomplètement indexées par elle, ainsi que des sommaires des comptes rendus d'activité des principaux laboratoires et instituts scientifiques (« Progress reports »).

Les listes de périodiques et autres documents sont, au moins partiellement, préparées sur machine Flexowriter, en frappe automatique, à partir de fragments de bande perforée récupérés ou confectionnés spécialement au cours d'opérations antérieures d'enregistrement des documents et de préparation de la Bibliographie hebdomadaire ou de Physindex.

Les sommaires des périodiques ou des comptes rendus d'activité sont, après un travail de préparation très rapide (pagination et mise en place de titres et indications complémentaires éventuellement nécessaires) directement reportés sur plaques offset à l'aide d'un équipement Xerox 1385 ou, pour une part, sur machine Xerox 914.

Ce Supplément, qui peut compter jusqu'à 100 pages, est entièrement préparé en deux jours par deux personnes y travaillant chacune une journée (y compris la confection des plaques offset). Néanmoins, compte tenu des délais d'impression, et de la synchronisation de son expédition avec celle de la Bibliographie hebdomadaire, le délai minimal entre l'arrivée des documents et leur signalement par ce canal aux chercheurs dépasse une semaine. Étant, dans sa formule actuelle, entièrement synchronisé sur la Bibliographie hebdomadaire, il atteint la durée de quatre à cinq semaines pour les documents qu'elle indexe partiellement et dont il prend en charge le signalement intégral; il accélère par contre le signalement des documents pris en charge par Physindex, dont le délai atteint six à dix semaines.

Organe d'information transitoire, sans valeur permanente puisque non indexé, ce Supplément est préparé sans aucun luxe et avec le strict minimum inévitable d'efforts de présentation. Sa diffusion est limitée aux destinataires de la Bibliographie hebdomadaire appartenant au C. E. A.

3. Physindex (3) (5) (6).

Physindex est une bibliographie mensuelle auto-indexée des principaux domaines de la physique fondamentale intéressant l'activité du C. E. A., dont la publication a débuté en 1963. Elle est divisée en quatre séries, entre lesquelles se répartissent environ 1500 documents par mois :
- Série A : Physique des gaz ionisés et fusion thermonucléaire contrôlée;
- Série B : Physique des états condensés de la matière;
- Série C : Physique corpusculaire à haute énergie;
- Série D : Physique nucléaire.

Chaque fascicule comprend une liste de références bibliographiques, un index-matières alphabétique, et un index-auteurs préparés automatiquement sur un ordinateur électronique 1 B M 140I, à partir d'un enregistrement initial des notices signalétiques sur machine à bande perforée (Flexowriter).

L'index-matières est directement créé à partir des titres des documents lorqu'ils sont donnés en anglais (les titres non significatifs sont complétés par une ou plusieurs expressions caractéristiques); les titres non donnés en anglais dans la publication originale sont pris en compte après traduction en anglais de leurs éléments caractéristiques.

C'est l'ordinateur électronique qui procède lui-même au découpage des titres, c'est-à-dire à l'extraction dans ceux-ci, des mots et expressions significatifs, par repérage de mots « séparateurs » (par exemple : a, and, between, by, during, in, under, upon,...) dont certains sont « conditionnels » (par exemple : and, between, by, in,...), c'est-à-dire qu'ils jouent un rôle différent suivant leur contexte immédiat. Les programmes correspondants appliquent un ensemble de règles pseudo-grammaticales élaborées à la suite d'une étude menée sur plusieurs milliers de titres anglais sélectionnés (I).

L'ordinateur effectue ensuite le tri des mots et expressions ainsi isolés, puis l'impression de l'index-matières, pendant laquelle il élimine, par référence à un dictionnaire de mots sans intérêt, ceux d'entre eux qui ont un sens trop général ou trop imprécis et n'apportent de ce fait aucune information intéressante dans le domaine considéré (il en est ainsi pour les mots « Solution » et « Problem » dans l'exemple de la figure ci-contre).

L'index-matières ainsi préparé s'apparente par sa présentation au KWIC Index de Luhn, mais il en diffère profondément par sa conception qui en fait une formule intermédiaire entre ce dernier et les index conventionnels à vedettes-matières alphabétiques.

On peut reprocher précisément à Physindex de ne pas toujours donner un contexte suffisamment étendu, et d'accepter comme entrées dans l'index des mots isolés. Mais il s'agit là d'un défaut mineur en regard des avantages qu'offre son découpage comme base d'une étude continue du vocabulaire et de la structure des titres anglais et, à plus lointaine échéance, comme base d'une tentative d'indexage automatique généralisé avec transfert automatique d'une langue dans une autre des unités d'indexage (des essais préliminaires très limités laissent entrevoir la possibilité d'obtenir des résultats acceptables dans le transfert de l'anglais au français).

Autres défauts de Physindex, ces derniers partagés avec les KWIC Indexes : la perte d'information résultant de l'emploi de titres insuffisamment significatifs, et la dispersion des synonymes. Ces défauts pourraient être aisément corrigés au prix d'un effort supplémentaire (mots-clés, vedettes de renvoi et d'orientation); mais, à l'issue de sa première année d'existence, on peut dire que l'efficacité de Physindex, qui traite en quatre séries séparées des sujets assez nettement délimités, ne semble pas trop souffrir de ces défauts. Il apparaît plus simple et plus rationnel d'apprendre au lecteur comment tourner ces difficultés que de compliquer l'élaboration de l'index pour les éviter.

On espérait initialement faire de Physindex un organe d'information relativement très rapide, son traitement sur ordinateur électronique n'exigeant que quelques heures par mois. Malheureusement, ce résultat n'a pu être atteint, pour deux raisons : l'ordinateur utilisé, appartenant au Service de calcul électronique installé au Centre d'études nucléaires de Saclay, n'est mis à la disposition du Service de documentation qu'un temps très limité chaque nuit, et les phases indispensables de vérification et de correction des opérations d'élaboration de Physindex se sont révélées plus nombreuses et pénibles que prévu. Dans les conditions actuelles, six semaines s'écoulent entre la fin de l'enregistrement sur bande perforée des notices signalétiques du mois, et la diffusion du fascicule correspondant de Physindex, qui contient donc des références à des documents arrivés six à dix semaines plus tôt. Il s'agit là, comme dans le cas de la Bibliographie scientifique hebdomadaire, d'un délai irréductible avec les moyens en machines et surtout en personnel actuellement disponibles.

Ainsi, trois publications bibliographiques de caractère très différent, réalisées selon des méthodes également différentes, concourent à l'information des chercheurs et ingénieurs du C. E. A. Se complétant mutuellement, elles s'efforcent, dans la mesure des moyens mis à la disposition du Service central de documentation, de concilier leurs exigences souvent contradictoires quant à la rapidité et à l'exhaustivité du signalement des documents, et à la finesse de leur indexage.

La Bibliographie scientifique hebdomadaire, malgré l'amputation qu'elle a subie en 1963 des domaines de la physique traités dans Physindex, demeure la plus importante. Diffusée à 1000 exemplaires (dont 800 à l'intérieur du C. E. A.), elle a signalé en 1963 un peu plus de 52 000 documents (en 1962, elle en signalait plus de 60 000). C'est encore un instrument de type traditionnel, quoique son index-matières soit préparé par des moyens mécaniques.

Physindex, beaucoup plus spécialisé, n'est diffusé actuellement qu'à 300 ou 350 exemplaires dans chaque série (dont la moitié à l'intérieur du C. E. A.). Il ne touche donc qu'un public restreint de spécialistes, dans des domaines particulièrement difficiles, où l'indexage sur titres qu'il applique apparaît satisfaisant et efficace (la décision de réaliser et diffuser Physindex résultait précisément de la difficulté de recruter et conserver des documentalistes physiciens; l'expérience est donc entièrement positive de ce point de vue). L'ensemble des quatre séries a signalé près de 17 ooo documents en 1963.

Enfin, le Supplément à la Bibliographie scientifique hebdomadaire, publication rapide non indexée de caractère transitoire, diffusée à 800 exemplaires, élargit le champ sélectif limité de la Bibliographie et accélère le signalement des documents entrant dans l'élaboration de Physindex. On peut estimer qu'il a porté à 100 000 environ le nombre total de documents signalés par les trois publications bibliographiques périodiques du Service central de documentation en 1963.

Illustration
Principe et présentation de Physindex

  1. (retour)↑  Communication présentée au « Congresso internazionale sulla documentazione e l'informazione scientifico-tecnica ». Roma, 2-11 febbraio 1964.
  2. (retour)↑  Communication présentée au « Congresso internazionale sulla documentazione e l'informazione scientifico-tecnica ». Roma, 2-11 febbraio 1964.