L'accès automatisé à l'information

informatique documentaire et bases de données

par Andrée Pouderoux

Jacques Chaumier

Entreprise moderne d'édition, 1982. -142 p. ; 24 cm.
Bibliogr. p. 143-146. Index p. 147. - ISBN 2-7101-0397-4

Dans l'introduction, l'auteur rappelle par quelques chiffres particulièrement révélateurs l'importance actuelle de l'information dans l'économie mondiale. La rencontre de la technologie des ordinateurs et de celle des télécommunications (phénomène connu sous le nom de télématique) fait de l'information le concept technologique majeur de la période 1980-1990. La prévision pour la décennie suivante 1990-2000 pourrait être celle de la modélisation économétrique, ce qui montre bien dans quelles voies les systèmes d'information devront s'engager pour devenir des systèmes de décision. Il reste pas mal de travaux à entreprendre pour améliorer les bases de données et même quelquefois les repenser.

Pour gérer, traiter, accéder à cette masse d'information et la diffuser s'est peu à peu créé un secteur de l'informatique à savoir l'informatique documentaire.

Ce secteur, on peut le diviser en deux grandes branches :
1. Le traitement de l'information orienté vers les gestionnaires et comprenant deux axes différents : la recherche et la gestion de l'information.
2. L'accès à l'information orienté vers l'utilisateur final.

L'aspect le plus intéressant de l'informatique documentaire est représenté par la recherche documentaire. Dans les chapitres qui suivent, sont montrées les différentes composantes de l'informatique documentaire dans toute sa complexité.

Dans le premier chapitre la recherche documentaire ou information retrieval est présentée.

Les principaux logiciels sont comparés, les systèmes anglo-américains orientés vers le traitement en langage naturel ou en texte intégral, alors que les systèmes français ou allemands sont plutôt organisés pour le traitement en langage contrôlé à l'aide de thesauri. On traite donc de façon très détaillée de CH-HB MISTRAL, d'IBM STAIRS, de GOLEM de Siemens, d'ISIS et de BASIS, puis des logiciels sur miniordinateurs MILOR, MINISIS, JLB Doc.

Enfin on aborde la gestion documentaire, domaine qui intéresse tout particulièrement les bibliothèques car il couvre les grands secteurs de leurs activités : acquisitions, catalogage, prêt, gestion des périodiques, étant entendu que le secteur le plus important est le catalogage ou la réalisation de la description bibliographique ou la rédaction de la notice. Les possibilités de l'informatique liées à celles des télécommunications permettent de constituer des réseaux de catalogage partagé qui aboutissent pour les bibliothèques à un catalogue collectif unique. On voit bien l'avantage de tels instruments : OCLC et SIBIL sont cités en exemples. L'un des problèmes les plus importants à résoudre a été la normalisation tant sur le plan bibliothéconomique qu'informatique. Les grandes étapes de ces travaux, qui ont débuté vers les années 60, aux États-Unis et en Grande-Bretagne avec MARC et en France avec MONOCLE, sont évoquées. Pour résumer les faits, l'« International federation of library associations and institutions » (FIABB) a repris et coordonné ces travaux dans le cadre du contrôle bibliographique universel pour aboutir à l'ISBD-G ou description bibliographique normalisée générale à partir de laquelle sont définies des ISBD spécifiques pour chaque type de document, ISBD-M pour les monographies, ISBD-S pour les publications en série, etc. Un format Iso (2709) a été bâti comme format d'échange et de communication.

Dans le chapitre 2 on aborde le traitement linguistique, d'abord la gestion des thesauri ou dictionnaires de mots-clés qui sont les pièces maîtresses des systèmes documentaires. Il existe encore peu de programmes spécifiques informatisés pour la gestion de ces outils, si ce n'est PROTHEE réalisé par l'Institut français du pétrole ou la gestion du macrothesaurus de l'OCDE... Des programmes de gestion de thesaurus ont été développés dans le cadre de logiciels généraux de recherche documentaire, dont MISTRAL et la CH-HB. ASTUTE a été mis au point par la Commission des Communautés européennes ; il peut gérer cinq langues à partir d'une langue de référence, langue de création du thesaurus. A l'heure actuelle, le développement de l'informatique graphique devrait rapidement conduire à des thesauri graphiques dont l'archétype est le thesaurus à schémas fléchés. Grâce à eux on peut améliorer l'outil d'indexation, tant à l'entrée des documents qu'à l'interrogation.

La recherche en langage naturel est certes déjà pratiquée mais ses approches sont encore rudimentaires, la recherche s'effectuant sur les termes dits significatifs d'un texte expurgé de ses mots vides ou mots non significatifs à l'aide d'un dictionnaire de mots vides. On explique comment la recherche peut se pratiquer à l'aide de la troncature, quels sont les risques de « bruits », comment utiliser les outils linguistiques comme KLIC etc. Comme exemple TLS de STAIRS IBM ; PIAF-DOC utilisé dans le cadre de la BIPA ; SPIRIT créé par l'équipe de Fluhr et Andreewsky, premier système à reposer sur un modèle probabiliste, où l'efficacité du calcul statistique est renforcée par un traitement linguistique du texte avant la mise en oeuvre du module de calcul.

La traduction automatique a certes commencé très tôt mais elle a longtemps piétiné. Sont distingués d'abord les systèmes de traduction automatique post éditée qui partent du texte en langage naturel pour aboutir à une traduction qui nécessite encore l'intervention humaine, c'est le cas de SYSTRAN implanté sur l'ordinateur de la CEE. Puis les systèmes assistés comme DTAF qui considère la traduction comme un élément dans une chaîne intégrée de traitement de l'information, enfin les banques de données terminologiques de gros volume qui deviennent un élément essentiel des systèmes d'information tel LEXIS allemand, TERMIUM de Montréal, EURODICATOM.

Dans le chapitre 3 le traitement de texte est vu :
- sous l'aspect saisie et mise en forme ; saisir un texte c'est le transposer sur un support lisible par ordinateur. Cela se pratique sur des ordinateurs de gestion, sur des microordinateurs ou systèmes de traitement de texte. Elle peut être à caractère purement documentaire en vue de la création de bases de données bibliographiques ou à caractère général pour l'édition de documents. On utilise : - des logiciels de recherche documentaires présentant des modules de saisie conversationnelle STAIRS/CMS, GOLEM, BASIS, - des logiciels de saisie documentaire TEXTO, SAIDOC, ISARD donnant une bande magnétique formatée prête à l'introduction dans un système de recherche documentaire, - des logiciels de saisie et de mise en forme de documents en dehors de toute application particulière ATMS d'IBM, TEXTEFORMER de Siemens.
- sous l'aspect édition : les énormes volumes saisis pour les bases de données doivent être également édités sous diverses formes : bulletins, revues de résumés, catalogues, index, profils standards. On utilise : - la micromation, notamment les COM avec comme caractéristiques essentielles la grande compacité de l'édition et les facilités de duplication (réalisation d'index), - la photocomposition à partir d'un support magnétique ; la qualité du texte est bien meilleure. Signalons l'apparition d'un nouveau venu avec l'édition par impression à laser.

Le chapitre 4 se consacre à l'accès à l'information. Les systèmes d'information sont traités du point de vue technique en insistant sur deux éléments :
- les réseaux de télétransmission de l'information. Les réseaux sont définis selon leur type, banalisé, spécialisé, dédicacé, selon leur couverture géographique, national, européen, transatlantique, par des caractéristiques techniques, vitesse de transmission, code de transmission, type de transmission, mode de transmission, type de commutation (circuits, messages, paquets) ;
- les serveurs, organismes mettant l'information à la disposition des utilisateurs via les réseaux par l'intermédiaire d'un logiciel d'interrogation de banques de données. On les classe selon leur appartenance géographique, les serveurs français mono ou multibases, les serveurs européens, les serveurs nationaux, les serveurs américains.

Le problème essentiel demeure l'accession à l'information protégée par la barrière du langage. Entre le système d'information et l'utilisateur on se heurte au langage de commande des logiciels documentaires composé du langage de description des données (contrôlé ou naturel), au langage de commande du logiciel utilisé. Devant les difficultés résultant de l'absence de normalisation, la CEE tente d'implanter le Common command language ou CCL dont les principales instructions sont réduites.

Une nouvelle étape est à franchir pour parvenir au document. Le moyen le plus courant pour l'acquisition de documents demeure encore la commande auprès d'un éditeur ou d'un centre de documentation suivie de l'expédition postale, ce qui suppose un délai variable bien souvent trop long. La résolution de ce problème suppose deux conditions :
- le stockage des documents sur des mémoires de masse. Deux supports sont utilisables actuellement, le support photographique utilisé en micrographie, le support le plus fréquent étant la microfiche A6 24X qui peut être couplée à un accès automatique du type du CARD américain très rapide. Un nouveau support vient d'apparaître, le vidéodisque à savoir le disque optique numérique ou DON, support à grande capacité pour l'enregistrement de l'information alphanumérique par rayon laser. Les vidéodisques comprennent deux familles, le vidéodisque domestique ou grand public et le vidéodisque industriel ou institutionnel ;
- la télétransmission rapide des documents stockés. Le seul moyen actuel d'envoi d'un document d'un point à un autre par des moyens électroniques réside dans la télécopie, ou fac-similé, normalisée par le CCITT. L'avenir dans ce domaine on le trouvera dans la transmission par fibres optiques... La fourniture des documents en ligne ou commande électronique en est encore à ses débuts : les documents, dont les références ont été jugées pertinentes après une recherche conversationnelle, sont commandés directement au terminal en fin de session de recherche. Les commandes sont centralisées, puis les documents sont expédiés par voie traditionnelle. IRS, Lockheed et SDC pratiquent déjà ce travail. La seconde étape dans la fourniture des documents comprendra en plus la transmission électronique des documents eux-mêmes. ARTEMIS étudié par la CEE en vue de s'insérer dans le réseau EURONET sera l'un des premiers systèmes de ce type.

L'auteur termine son étude par un panorama du vidéotex, nouveau système d'information issu des trois technologies, télécommunications, informatique, télévision et dont la caractéristique est l'utilisation de l'écran Tv comme terminal d'affichage de données. On montre la différence entre le vidéotex diffusé du type ANTIOPE et le vidéotex interactif où il y a totale interactivité entre le serveur et l'utilisateur. Trois applications sont en cours de développement en France : les applications domestiques : TELETEL, les applications collectives : CLAIRE à Grenoble, les applications professionnelles : CITITEL base de données pour Paris et sa région (loisir, tourisme, affaires, etc.).

Dans le monde, la Grande-Bretagne a été le premier pays à s'être intéressé au vidéotex avec CEEFAX et maintenant PRESTEL. C'est le Canada qui est actuellement le pays le plus avancé avec TELIDON dont la caractéristique essentielle réside dans la définition d'un système de génération de caractères indépendants des terminaux de visualisation. La République fédérale d'Allemagne, le Japon, les États-Unis ont eux aussi leurs propres systèmes.