Du bon usage de l'ordinateur par les centres de documentation spécialisés

Philippe Ariès

Définir les rapports entre l'homme et la machine, nommément ici l'ordinateur, ce fut le sujet d'un colloque organisé par l'Institut de recherches sur l'information et l'automatisation et par le centre de documentation du CNRS. Proximité, coordination dans le thésaurus, nécessité d'une graphie riche, usage du microfilm semblent être les conditions d'une bonne économie de la machine électronique

Pour la première fois, sans doute, en France, en novembre 1968, un colloque organisé par l'Institut de recherches sur l'information et l'automatisation et par le Centre de documentation du CNRS, a réuni dans les domaines que les nouveau-nés du Plan Calcul ont hérité de l'OTAN, à Rocquencourt, des documentalistes consommateurs d'informatique, et des informaticiens soucieux de connaître les besoins des documentalistes en mal d'automatisation : c'est tout de même un événement ! 1.

Cependant, je ne me propose pas ici d'en rendre compte. Je voudrais seulement dégager l'un des aspects de la situation documentaire française qui est apparu au cours des exposés et surtout des discussions : les caractères particuliers de l'application de l'informatique aux centres spécialisés de petite et moyenne dimension.

Selon que vous serez près ou loin de la machine

Le colloque, tant par la composition de ses membres que par les sujets traités a très bien montré les progrès récents de l'automatisation dans les entreprises documentaires. On ne parle plus seulement de projets ou d'essais, mais on présente des systèmes opérationnels depuis parfois des années, depuis assez longtemps souvent pour que leurs résultats soient vraiment significatifs.

Mais il faut reconnaître que les centres de documentation automatisés sont en général - sauf quelques exceptions, chères à l'auteur de cet article - des centres de grande dimension, traitant un nombre élevé de documents (10 000 par mois à l'Euratom), ou encore, et c'est plutôt là leur trait commun, disposant d'un accès facile à l'ordinateur, parce que l'ordinateur et le centre de calcul appartiennent à leur établissement, et sont géographiquement et psychologiquement proches. C'est le cas du CEDOCAR, de l'Institut Gustave Roussy, de la CSF, etc.

La proximité de la machine et du centre de documentation commande dans la pratique, toute l'économie du système. On peut dire aujourd'hui qu'il existe, malgré bien des différences dues à la nature plus ou moins élaborée du thesaurus et de l'indexation, et aussi, mais cela est secondaire, aux modes d'entrées et de sorties, une conception commune à tous les centres ou services d'entreprises ou d'administration automatisés, où un ordinateur est déjà employé à des fins de calcul ou de gestion. Dans ces conditions, ou bien la documentation est un sous-produit de la gestion, quand les problèmes documentaires n'ont pas reçu des informaticiens de la maison une solution spécifique, ou bien il a été créé un système documentaire valable, quand le documentaliste a eu l'habileté de profiter de la machine mise à sa portée, mais aussi assez de talent et de caractère pour défendre les particularités de sa vocation.

Tous les systèmes ont en commun une utilisation directe de la machine relativement élevée, plus encore par la fréquence des interventions que par leur durée : les temps-machine sont rationnés, mais on permet plusieurs traitements espacés, s'ils sont courts. Ces systèmes sont donc caractérisés par une mise massive en mémoire, et par l'interrogation directe de cette mémoire, par questions aléatoires, toute la difficulté étant alors de définir la meilleure stratégie de recherche; on ne s'étonnera pas que cette méthode paraisse aujourd'hui l'emporter, ni qu'elle soit favorisée par les constructeurs de machine.

Il ne s'agit pas ici de la critiquer. Quoique bien souvent elle me paraisse inutilement dépensière, il est des situations où il n'en existe pas d'autres; c'est le cas en particulier des grosses unités qui absorbent des milliers de documents par mois. Le « bruit » n'est alors qu'un inconvénient mineur à côté de la rapidité et de la valeur de couverture de la réponse. M. Maurice a montré comment à l'Euratom des tests astucieux de pertinence permettaient de réduire ce bruit, en un deuxième temps de traitement.

Il n'est donc pas question de critiquer cette méthode. En revanche, il convient de souligner avec vigueur qu'elle n'est pas la seule. Il importe que les documentalistes sachent qu'ils peuvent bénéficier des ressources de l'informatique sans dialogue homme-machine, et sans même demander l'accès à la machine pour interroger la mémoire. Il s'agit alors de se servir de la machine autrement que les familiers d'un centre de calcul.

Si l'on veut s'affranchir de la dépendance de la machine au moment de poser la question, il faut d'abord adopter une autre conception de l'économie du fichier et par conséquent du langage de l'indexage et de l'indexage lui-même.

Coordination des mots dans le thésaurus

Dans le système « mise en mémoire - question aléatoire », la machine intervient à deux moments : d'abord pour la mise à jour des fichiers sur support magnétique, ensuite pour comparer ce fichier avec les termes de la question. Nous nous proposons de supprimer cette seconde intervention de la machine.

Pourquoi est-elle nécessaire, dans le cas d'une recherche ? La question est généralement posée, on le sait par des opérateurs logiques : A et B, A ou B, A sauf B. On pouvait adopter une terminologie différente : celle-ci à l'avantage d'être à la fois commode et à-la-mode.

On remarquera que si la question se limitait à une réunion A ou B, il suffirait de découper dans le fichier linéaire, le tronçon A et le tronçon B, opération qui ne demande aucun tri. C'est donc à cette opération que nous allons réduire la question de la demande en évitant l'intersection A et B et la négation A sans B.

Nous ne pouvons évidemment supprimer ces deux opérations essentielles. Pour les éviter à l'interrogation, il faut donc qu'on les ait prévues ailleurs, c'est-à-dire à l'entrée. La méthode proposée consiste donc à déplacer principalement les intersections de la sortie à l'entrée, et plus précisément de les prévoir dans le thésaurus. Imaginons que nous ayons établi statistiquement (ou empiriquement!) la liste des intersections les plus fréquentes et les plus significatives A et B, A et C, etc. Il suffira de rendre cette liste normative et de la présenter dans le thesaurus au mot A. Le mot A dans le thesaurus sera donc suivi des renvois : employez, employé pour, voir aussi..., et en outre des expressions composées ou « syntagmes », qui représentent des intersections du concept A et d'autres concepts.

Ceci exige une organisation du thesaurus différente du thesaurus du type américain E.J.C. 2, actuellement le plus répandu et qui est seulement un lexique normatif complété par les relations de chaque mot avec d'autres mots du lexique, relations de hiérarchie ou de voisinage. A ces données, nous ajouterons la liste, contrôlée comme celle des mots, des expressions linguistiques où le mot est associé à d'autres mots pour signifier une notion qui serait autrement obtenue, à la sortie, par l'intersection des mots qui la traduisent. Ceci suppose une structuration plus profonde du thesaurus.

Examinons cet extrait d'un thesaurus ainsi conçu, qui est celui de l'IFAC :
Soufre (voir aussi..., ici une énumération correspondant aux termes étroits, larges et associés du modèle E.J.C.)
- Carence
* agrumes

Chacun de ces mots est codé. Le n° code de agrumes est 37780. Le document indexé à 37780 traitera de « la carence en soufre des agrumes »; c'est-à-dire : soufre et carence et agrumes.

Le fichier sera donc classé non seulement dans l'ordre des mots-clés, mais des intersections de ce mot-clé et des mots des deux autres catégories que nous appelons, dans notre jargon, des mots 2 (précédés d'un -) et des mots 3 (précédés d'un.). On trouvera alors, réunis à un même endroit du fichier, tous les documents définis par une intersection donnée.

Cette méthode exige, on le voit, un contrôle très attentif du thesaurus, qui est en réalité le corpus normalisé d'une littérature donnée, et aussi un indexage très soigné. Un « silence » pénaliserait une faute grave d'indexage. Aussi les indexateurs ne se contentent pas de traduire le résumé du document par une seule suite d'expressions du thesaurus, mais ils y ajoutent des généralisations et des redondances, choisies selon leur connaissance, non plus seulement du document, mais aussi de l'usager et de sa psychologie. Une telle méthode demande beaucoup de qualité d'indexage. Mais, justement, l'automatisation ne libère-t-elle pas les centres spécialisés des taches matérielles qui les accableraient, afin de leur permettre de mieux concentrer leurs efforts sur les opérations intellectuelles : gestion du thesaurus, qualité du résumé et de l'indexage?

On remarque que cette structuration en profondeur du thesaurus et l'indexage très fin et très sélectif qu'elle permet, rendent inutiles les « sauf ». Les « sauf » sont nécessaires dans les cas d'intersections de mots-clés élémentaires, pour réduire le bruit et préciser le sens. Or le bruit est ici éliminé, le sujet précisé dès l'origine, et les complémentarités naïvement exprimées.

Par conséquent, en coordonnant à l'avance les mots dans le thesaurus pour exprimer les notions obtenues autrement par des intersections ou des négations, nous ramenons le fichier à une suite d'informations consultables sans comparaison ni tri, comme les fichiers manuels traditionnels. On évite ainsi le recours à la machine pour l'interrogation, et on peut alors la remplacer par d'autres procédés de consultation moins coûteux, comme on verra plus loin.

On emploie donc l'ordinateur seulement pour la préparation et la mise à jour des fichiers, d'après des méthodes désormais classiques. Ces traitements peuvent se faire selon un calendrier prévu, une périodicité régulière, et par conséquent s'adaptent très bien à un travail à façon sur des machines louées, avec les services contractuels d'une société commerciale d'informatique. L'utilisation à l'entrée de l'ordinateur et les traitements de tri et de mise à jour permettent d'étendre les opérations sur des lots relativement importants, et donc d'améliorer la rentabilité. L'interrogation par question aléatoire à la sortie exige au contraire un recours fréquent à la machine et un traitement particulier à chaque question. Les mémoires à accès aléatoire allègent le traitement sans supprimer sa contrainte.

Index imprimés et nécessité d'une graphie riche

Nous avons donc fabriqué grâce à l'ordinateur un fichier qu'il suffira de découper en tronçons correspondant aux réunions conservées dans la question. Je demande : (glucides-fruits frais, orange) et aussi (Froid atmosphérique - influence sur les fruits, orange); je n'ai qu'à extraire du fichier les deux tranches correspondant à ces deux notions que je trouverai dans l'ordre alphabétique, la première à Glucides, la seconde à Froid atmosphérique.

Maintenant se pose la question du mode de consultation. Le fichier linéaire est établi et conservé sur des supports magnétiques qui ne sont pas lisibles. Aussi, jusqu'à présent le seul moyen de consulter ces fichiers est-il de les imprimer sous forme de bibliographies ou d'index. On pourrait aussi bien renverser la proposition, et démontrer que la structuration du thesaurus décrite plus haut est nécessaire pour obtenir des index où les rubriques sont à plusieurs niveaux, comme les index du Chemical Abstracts... ou des Patrologies de Migne. Il n'existe qu'un autre type d'index automatisé comparable : celui où tous les mots-clés significatifs d'un document sont ajoutés les uns aux autres, et où les documents sont classés selon chaque mot-clé, ensuite permuté (Index du Bureau de recherches géologiques et minières de la FAO, de l'Institut Gustave Roussy).

Nous considérons ici la forme de sortie qu'est l'index imprimé, non pas pour ses avantages particuliers, mais comme seul moyen de consulter un fichier pour répondre à une demande sans recourir à la machine. C'est d'ailleurs comme moyen le plus économique d'exploitation d'un fichier qu'une telle bibliographie a été retenue par Gardin, Cross, Lévy, Periault, dans leur expérience du CARDAN.

Mais on s'aperçoit alors, à l'usage, d'une difficulté qu'on avait tendance à sous estimer, celle de la graphie. Les index automatisés sont obtenus par réduction photographique des listages des imprimantes des ordinateurs, c'est-à-dire d'une graphie pauvre, n'utilisant que les capitales d'un seul et même caractère. On croit que le public acceptera cet appauvrissement que compensent une plus grande richesse d'information et un accès plus facile à cette information. En réalité une partie seulement du public : les chercheurs les plus directement intéressés, ou les demandeurs occasionnels, se résignent à affronter une lecture aussi fatigante. Les publications bibliographiques ainsi présentées risquent de perdre la partie du public qui les lisait comme on lirait une encyclopédie permanente. Elles ont une valeur pédagogique diminuée.

Alors se pose la question de la composition automatique. Elle est aujourd'hui primordiale. Les systèmes actuellement opérationnels sont parvenus à un équilibre à peu près satisfaisant et qui demande, de toute façon, l'épreuve du temps; ils ne peuvent modifier pour un oui ou pour un non des programmes désormais établis. C'est la présentation graphique qu'ils doivent améliorer, la diffusion et le rendement : c'est un point dont l'importance n'est pas toujours bien reconnu par les documentalistes spécialistes des sciences exactes.

Au Colloque de l'IRIA-CNRS, M. Periault a, dans un brillant exposé, fait le procès des « mariages contre nature » entre l'ordinateur et la Monotype, Linotype ou Intertype, et l'apologie des « mariages de raison » avec la Photocomposeuse. Il faut reconnaître cependant que l'un des index de notre groupe 3 vient de sortir avec une composition enrichie, faite à partir du fichier sur bande magnétique établi par l'ordinateur, sans aucune intervention manuelle, en faisant correspondre un type de caractère à chaque catégorie de code. Cet exemple a le mérite d'exister. Il a le défaut (à mon avis) 4 d'être encore trop cher : le coût de conversion entre la bande perforée sortie de l'ordinateur et celle de la Monotype est trop élevé.

Nous sommes à un moment de notre évolution où la sortie en graphie riche doit devenir l'un des premiers objectifs des centres de documentation éditeurs de bibliographies. Les milieux de bibliothécaires savent l'importance réelle - et pas seulement esthétique - d'une bonne lisibilité, dont la méconnaissance entraîne, on s'en aperçoit à l'expérience, non seulement une lassitude de l'usager mais des erreurs de transcription des références. Les documentalistes et les informaticiens ont encore besoin d'être convaincus.

Cumulation sur microfilm ou microfiches

Tel qu'il a été décrit jusqu'ici, le système n'est pas une vue de l'esprit : il est adopté depuis plusieurs années par un groupe de deux centres de documentation, appartenant au domaine public, éditeurs de bibliographies périodiques, et par le service de documentation d'une société privée 5.

Toutefois, il est permis d'imaginer une autre forme de consultation des fichiers qui évite à la fois ces opérations d'impression des index et le dialogue avec la machine.

En effet l'édition périodique d'index ne répond pas à tous les besoins. Cette édition revient à publier le sous-fichier des informations introduites dans le système pendant la durée correspondant à la périodicité adoptée (par exemple, mensuelle). Ensuite, une édition des index cumulés consiste à fondre les sous-fichiers en un seul fichier, et à faciliter ainsi la consultation pour la période correspondant à cet index : cette cumulation est en général annuelle. On a alors la formule la plus répandue d'index mensuels, remplacés en fin d'année par leur cumulation sous forme d'un index annuel. On peut également fondre plusieurs fichiers ou index annuels en un fichier ou index quinquennal. Cependant, ces cumulations sont dans la pratique limitées par les masses de papier imprimé qu'elles engendrent; la cumulation 1963-67 des index de l'IFAC représente 1 200 pages de 12 300 signes! Leur impression devenant trop longue et trop coûteuse, nous avons d'ailleurs décidé de substituer, dans ce cas, à l'édition imprimée, une édition de microfiches de 32 pages, en cours de fabrication au Service photographique du C.N.R.S.

On pourrait généraliser ce procédé et admettre que les cumulations pluriannuelles seraient toutes reproduites en microforme. Même dans de telles circonstances, la cumulation produirait toujours des milliers de listages d'ordinateurs. La difficulté ne provient pas seulement du tirage de nombreux exemplaires imprimés, mais de la sortie sur imprimante.

Dans ces conditions, l'efficacité du procédé que nous proposons aux centres moyens de documentation, pour leur éviter le dialogue du demandeur et de la machine, est donc limitée par les possibilités matérielles de cumulation des index. Ceux-ci ne sont qu'une forme améliorée des lisages de l'imprimante de l'ordinateur. On dispose donc seulement de sous-fichiers, correspondant aux périodes de cumulation, et il n'est pas permis de travailler sur le fichier entier, sans revenir à la machine pour le nouveau traitement que nous voudrions justement éviter.

Cette servitude devient d'autant plus insupportable qu'avec le temps, le fichier sur bande magnétique s'accroît. On regrette alors de ne pas mieux profiter de sa richesse.

Il existe peut-être un moyen qui permettrait d'accéder facilement au fichier entier : il consisterait à établir entre la mémoire sur support magnétique et l'usager, documentaliste ou demandeur occasionnel, un intermédiaire qui serait la microforme. Imaginons qu'au lieu de faire nos cumulations sur le papier de l'imprimante, nous les fassions sur le film d'un équipement composé d'un visionneur et d'une caméra photographique, et inclus dans le périphérique. Supposons que cette sortie sur film du contenu des bandes soit plus rapide et moins coûteuse que sur papier. Nous pourrions alors multiplier le nombre des cumulations et éditer sur film le fichier entier après chaque fusion, ou, si on préfère, après un certain nombre de fusion (les sous-fichiers constitués avant fusion et correspondant à chaque lot d'informations étant toujours traductibles dans des index imprimés et tirés à multiples exemplaires). Le Centre de documentation aurait alors, dans ses bureaux et à sa libre disposition, le fichier tout entier sur film. Si ce fichier était trop étendu, on aurait la ressource de le diviser selon ce qu'on pourrait appeler une stratégie de cumulation : par exemple, en deux parties, dont l'une correspondrait toujours aux cinq dernières années, la seconde à la période antérieure jusqu'à concurrence de 10 ans. Ou toute autre combinaison.

Au moment de la demande, on afficherait sur l'écran d'un micro-lecteur-reproducteur quelconque, le fragment du fichier correspondant à l'un des groupes de mots-clés de la demande. On se rappellera que les intersections ont été prévues au moment de l'indexation et qu'elles figurent à une place dans le fichier déterminé par le thesaurus. La question se ramène donc à la réunion de plusieurs mots-clés, ou groupe de mots-clés, réunion obtenue par une lecture linéaire du fichier.

On peut ensuite reproduire le fragment du fichier affiché sur le micro-lecteur et cette photocopie peut-être communiquée au demandeur comme un listage issu de l'ordinateur.

Autrement dit, on interrogerait sur un lecteur banal de microcopie un fichier mis à jour par un ordinateur. Les entrées, les traitements de mise à jour et les sorties périodiques sur film se feraient dans l'ordinateur et ses périphériques. L'interrogation et la consultation directe du fichier se ferait au contraire sur lecteur de microfilms ou de microfiches. Cette consultation serait obtenue par le défilement à la suite des images, sans aucune sélection par plages codées comme celles du Miracode ou du Filmorex : il est, en effet, bien entendu que les opérations de mise à jour et de classement en vue de la sélection seraient toutes assurées par l'ordinateur, le lecteur de microcopie n'ayant pour seules fonctions que l'affichage et la reproduction d'extraits du fichier.

Sans doute préférera-t-on alors la microfiche qui permet de lire à l'œil nu les premiers et les derniers mots-clés de chaque page. L'emploi du microfilm exigerait un défilement mécanique avec tous ses inconvénients.

Ainsi la machine crée-t-elle le fichier sur microcopie et le demandeur interroge-t-il directement la microcopie. Cette méthode d'interrogation suppose d'abord qu'il existe le matériel pour visionner et photographier, et ensuite que ce matériel soit d'un accès facile et surtout, moins, beaucoup moins coûteux, que l'imprimante, afin qu'on ne soit pas tenté de trop lésiner sur le nombre des cumulations. La première condition est bien remplie, mais non la seconde; d'après les renseignements glanés au cours du Colloque C.N.R.S.-I.R.I.A., il existe bien des matériels de ce genre dans la région parisienne, mais on dit qu'ils sont très chers. Leur prix élevé est-il dû à leur faible utilisation. Dans ce cas, il pourrait être réduit par le groupement des utilisateurs dont le nombre devrait augmenter. D'autres matériels plus abordables seraient-ils bientôt sur le marché 6?

Les visiteurs du SICOB de cette année ont pu voir, exposés par plusieurs constructeurs, des appareils spécialisés dans la micro-photographie des listages d'ordinateurs. L'opération inverse ne serait-elle pas préférable, et ne faudrait-il pas produire des dizaines de mètres de film plutôt que des kilomètres de papier ?

L'intermédiaire de la microcopie permettrait d'étendre à beaucoup de centres ou de services de documentation un usage intelligent et économique des ordinateurs, intelligent parce que limité aux opérations impossibles autrement, économique, parce que réglé selon une périodicité déterminée et qui peut être prévue et planifiée par le centre de traitement.

Conclusion

Nous avons voulu montrer comment il était dès maintenant possible à des centres spécialisés d'automatiser économiquement toute une partie de leur chaîne documentaire en ne recourant aux ordinateurs que pour les entrées, les mises à jour, les classements et quelques sorties globales, tout en évitant l'interrogation directe par la machine dont l'efficacité ne paraît pas certaine et qui est pour l'instant hors de portée des utilisateurs moyens.

Deux conditions doivent être respectées.

A l'entrée, avant l'indexage, il faut prévoir les intersections que le demandeur sera amené à formuler, en coordonnant à l'avance dans le thesaurus les mots correspondant. Ceci permet d'éliminer les intersections des demandes, et de réduire chaque demande à la consultation d'un ou de plusieurs extraits du fichier, sans aucun traitement.

A la sortie, on éditera de préférence selon une périodicité régulière, des divisions du fichier : sous-fichiers correspondant aux introductions pendant une certaine période ou à une bibliographie sur un certain sujet, ou relative à un certain profil. On peut enfin espérer un jour prochain multiplier sur microfilm ou microfiche les cumulations que limitent l'encombrement du papier, les lenteurs et le prix de l'impression des listages.

On le voit, les progrès dont profiteraient les centres petits et moyens ne dépendent guère du traitement proprement dit en machine. L'utilisation modérée des ordinateurs est d'ailleurs aujourd'hui rendu plus facile grâce aux sociétés d'informatique dont les spécialistes suivent nécessairement les progrès des méthodes et des techniques.

En revanche il y a beaucoup à faire dans le do maine des périphériques, soit du côté de la composition automatique pour obtenir une graphie plus riche, soit du côté des visionneurs et des appareils de photographie pour obtenir une sortie directe sur film. Il m'a semblé, au cours du colloque, que ces besoins n'étaient pas bien perçus. Il est souhaitable que les sociétés issues du Plan Calcul en prennent conscience. Il est aussi souhaitable que les centres spécialisés de documentation, utilisateurs moyens de l'informatique, se groupent afin de tirer un meilleur profit des équipements existants, de donner plus de poids à leurs propositions et de présenter une surface suffisante aux constructeurs et aux informaticiens, sollicités aujourd'hui dans d'autres directions.