entête
entête

Internet ou la recherche interconnectée

Élizabeth Cherhal

Françoise Renzetti

Serge Rouveyrol

Le but de cet article est de faire découvrir aux documentalistes et aux bibliothécaires la richesse documentaire du réseau Internet, et d'indiquer les outils de base permettant d'y accéder.

Les uns et les autres sont convaincus depuis longtemps du caractère indispensable de l'utilisation des réseaux. Dans la communauté scientifique, les réseaux de données permettent en effet aux chercheurs d'envoyer programmes et données sur des super-calculateurs - afin qu'ils y soient traités -, de récupérer les résultats et d'échanger des informations scientifiques avec des collègues.

Interconnexion de réseaux

Malheureusement, la plupart des réseaux sont des entités indépendantes destinées à satisfaire les besoins d'un seul groupe, puisque les utilisateurs choisissent des systèmes adaptés à leurs problèmes de communication. Une nouvelle technologie a donc émergé, qui a permis l'interconnexion d'un grand nombre de réseaux physiques distincts et les a fait fonctionner comme un tout coordonné. La technologie de l'interconnexion masque les détails des réseaux physiques et permet aux calculateurs de communiquer indépendamment de leurs connexions physiques.

Depuis vingt ans, les agences gouvernementales américaines ont subventionné des travaux de recherche qui ont permis la réalisation d'une interconnexion couvrant tout le territoire américain grâce à la technologie DARPA (Defence Advanced Research Projects Agency). Cette technologie comprend un ensemble de normes réseau spécifiant les détails des communications entre calculateurs ainsi qu'un ensemble de conventions pour interconnecter les réseaux et « router » le trafic. Appelés « suite des protocoles d'interconnexion TCP/IP », ces protocoles peuvent être utilisés pour communiquer au sein d'un ensemble quelconque de réseaux interconnectés.

En 1979, la DARPA avait constitué un comité informel, la « Commission de contrôle et de configuration d'Intemet » (Intemet Control and Configuration Board, ou ICCB), pour coordonner et orienter la conception de protocoles et l'évolution de l'architecture d'Internet.

Intemet apparut vers 1980, lorsque la DARPA commença à faire évoluer les machines reliées à ses réseaux de recherche vers l'utilisation de nouveaux protocoles. Pour encourager les chercheurs à adopter et à utiliser les nouveaux protocoles, la DARPA en réalisa une version peu coûteuse. Comprenant que les communications deviendraient bientôt une partie vitale de la recherche scientifique, la National Science Foundation joua, aux Etats-Unis, un rôle actif et provoqua l'extension d'Internet. Début 1985, elle lança un programme pour constituer des réseaux d'accès centrés autour de six gros centres de calcul. En 1986, elle étendit ses efforts en matière de réseaux en subventionnant un réseau « grande distance », appelé NSFNET, qui relia tous les centres de calcul entre eux. Aujourd'hui Internet comporte des centaines de réseaux individuels répartis dans le monde. L'expansion rapide a posé des problèmes d'échelle inimaginables lors de la conception initiale et motivé les chercheurs pour imaginer de nouvelles techniques de gestion de grandes quantités de ressources distribuées.

On peut se faire une idée d'Internet en se représentant le prolongement d'un réseau local au monde entier. Les potentialités sont identiques aux potentialités qu'apporterait un réseau local : messagerie, connexion à une machine distante, transfert de fichiers... Extension gigantesque à une quantité énorme de machines dont la progression elle-même est significative : 213 ordinateurs en 1981, 80 000 en 1989, 313 000 en octobre 1990, 376 000 en janvier 1991, 727 000 en janvier 1992, 1 500 000 en janvier 1993 ! 47 pays répartis sur les sept continents sont connectés. La moyenne du trafic croît de 10 % par mois. De 5 à 10 millions de personnes utilisent Internet.

Les services de base

Trois services fondamentaux sont offerts par Internet : les échanges de courrier (ou « mail »), la possibilité de se connecter à une machine distante par « telnet », le transfert de fichiers, « ftp ».

Le mail

Le mail est le service le plus connu d'Internet. Grâce à des machines passerelles, le système de messagerie permet d'atteindre des usagers disposant d'un autre réseau (Bitnet...) et de communiquer simplement et rapidement avec toute personne disposant d'une entrée sur Internet. Les avantages sont nombreux : communiquer rapidement, sans attendre de joindre la personne au téléphone. simplement, et sans déranger quelqu'un dans son travail : le correspondant lit en effet son courrier quand il le veut et y répond à loisir.

Pour les utilisateurs disposant de Macintosh ou de PC connectés au réseau, des interfaces permettent une livraison du courrier sur le poste de travail, sans qu'ils aient à se connecter à une machine hôte. Ces interfaces 1 sont du domaine public et ne coûtent rien à l'utilisateur.

Telnet

Par telnet, un utilisateur peut se connecter à une autre machine connectée au réseau Intemet pour établir une session interactive. Des serveurs commercialisés tel Dialog sont accessibles. On peut ainsi atteindre plus de 400 bibliothèques américaines, européennes, australiennes...

La bibliothèque du Congrès, à Washington, offre le « LC Catalog ».

Ftp

Ftp est un logiciel qui permet le transfert de fichiers entre deux machines connectées au réseau Internet. A partir d'un PC, d'un Macintosh, d'une station Unix, on accède à un serveur distant sur lequel on est identifié au moyen d'un « nom d'utilisateur » et d'un « mot de passe », ou à un des nombreux serveurs ftp anonymes - c'est-à-dire ouverts à tous - dans le monde.

L'utilisateur dispose des sous-commandes ftp 2 qui lui permettent d'accéder à de véritables bibliothèques - depuis janvier 1993, on peut, par exemple, rechercher sur le « NASA Langley Technical Report ftp Site » les Technical memorandums, ainsi que les autres rapports et traductions techniques effectués à la NASA (Langley) au cours de l'année 1992 3, choisir le rapport qui intéresse plus particulièrement, et le recopier.

Les conférences électroniques ou « Usenet news »

Usenet est formé par l'ensemble de machines qui échangent des articles regroupés sous un « label » appelé « newsgroup » ou « group ». Les groupes sont classés selon leur centre d'intérêt, comme l'indique leur nom. Afin que l'ensemble des articles publiés demeurent pertinents à l'objectif primitif fixé, certains groupes sont diffusés par l'intermédiaire du « modérateur » 4. Les news permettent très rapidement d'obtenir de l'information comme d'informer la communauté.

Sous Unix, la commande « rn » (read news) présente à l'utilisateur les mises à jour des groupes auxquels il est abonné : fnet.general concerne les échanges généraux intéressant la communauté française ; comp.doc.techreports, les annonces relatives aux rapports de recherche publiés dans le monde dans le domaine de l'informatique ; imag.congres, imag.mac, imag.mediatheque sont des groupes locaux créés à l'IMAG.

Les news représentent un outil d'information documentaire de premier ordre car ils constituent le dialogue public d'une communauté de spécialistes. Certains groupes à parution régulière deviennent de véritables revues électroniques.

En février 1993, lors du colloque Les professionnels de l'information scientifique et technique au CNRS, deux newsgroups français ont été créés à l'intention des documentalistes et des bibliothécaires. L'un, « fr.doc.biblio », est la tribune professionnelle française ; l'autre, « fr.doc.magazines », se propose de diffuser le contenu des sommaires des revues françaises de mathématiques appliquées et d'informatique grâce à une saisie répartie. Ce deuxième groupe « modéré » sollicite vivement les collaborations 5. Le but est d'alimenter une base des publications françaises, équivalente à la base australienne qui dépouille les publications en langue anglaise 6, comme d'entraîner les documentalistes à utiliser Intemet.

Les nouveaux outils

Le serveur « Archie »

Ce service permet de retrouver la localisation des fichiers contenus sur l'ensemble des sites ftp anonymes maintenus dans le monde. Archie retrouve le contenu de 800 « sites d'archives » accueillant près d'un million de fichiers. Il a été conçu comme un moyen d'accéder rapidement aux fichiers que l'on cherche sans savoir à l'avance sur quelle machine ils se trouvent.

Wais

Wais est un nouveau logiciel de recherche d'information sur le réseau Internet.

C'est un logiciel « domaine public » de grand avenir. Il est très puissant et fonctionne selon un mode « client-serveur ». Une partie du logiciel s'exécute sur la machine de l'utilisateur, une autre partie sur la machine serveur. Il est basé sur le protocole Z 39.50.

Le principe général est le suivant : la base documentaire est constituée d'un ensemble de documents qui peuvent être de types différents (news, paragraphes...) ; chaque mot d'un document est indexé sur la « machine serveur » ; les questions posées sur la station de l'utilisateur consistent en un ensemble de mots ; le serveur répond par un ensemble de documents classés selon un « score », correspondant au maximum d'occurrences des mots de la question 7.

Pour retrouver les serveurs existant sur Internet, on utilise le Directory of servers, description de toutes les bases Wais. En interrogeant ce « Directory of servers », le client récupère en même temps le descripteur de la base pertinente et peut alors interroger.

Il existe actuellement 400 bases. Les sujets présentés sont variés : de grands corpus, la Bible, le Coran sont indexés en texte intégral ; on y trouve aussi de nombreuses revues, des catalogues de bibliothèques 8, et même une base multimédia des disques compacts musicaux de la discothèque de l'INRIA 9, à Sophia Antipolis !

Gopher

Ce système de recherche d'information, né à l'Université du Minnesota, se présente sous forme de menu guidé. Chaque serveur Gopher est lié aux autres serveurs Gopher, si bien que l'usager peut passer de l'un à l'autre sans percevoir de changement dans son environnement. Il existe des douzaines de serveurs Gopher présentant eux-mêmes des douzaines de « sous-menus ».

Pour localiser les ressources existant sur ces serveurs, on se promène, sans le voir, de l'un à l'autre, en suivant des menus. Initialement développé pour être un serveur d'informations au niveau d'un campus, Gopher, grâce à sa facilité d'utilisation, s'est rapidement étendu à tout le réseau Internet. On peut, par son intermédiaire, consulter des bases Wais, initialiser des sessions telnet, tout cela de façon transparente pour l'utilisateur. Des « clients » 10 existent pour pratiquement toutes les machines.

World-Wide-Web (WWW)

WWW est un puissant système hypertexte de recherche d'information, développé au CERN 11 à Genève. Il permet de passer facilemenent d'un sujet à l'autre. A la différence d'un outil comme « Hypercard », les liens entre les documents sont établis à travers le réseau. Pour avoir une idée des potentialités de WWW, on peut se connecter par telnet au site info.cern.ch.

Les trois systèmes, Wais, Gopher et WWW, sont souvent associés dans les gros systèmes d'information.

Si Gopher est un système susceptible de gérer des bases de données diversifiées, celles nécessaires à un campus, par exemple, Wais est l'outil de la recherche documentaire multi-bases, multiformats, multimédias, tandis que WWW est un système hypertexte permettant de « naviguer » au sein d'un corpus documentaire 12.

L'accès aux sources d'information

Si vous êtes dans un endroit « câblé », si vous avez un PC ou un Macintosh, il faudra ajouter une carte Ethernet dans celui-ci, et vous procurer un logiciel de communication.

Si vous disposez d'un terminal vous permettant l'accès à une machine Unix, qui, elle, est sur le réseau, vous pouvez accéder à travers cette machine à tous ces logiciels, mais au moyen d'une interface moins conviviale.

Un bibliothécaire isolé, qui n'a que des accès via Transpac pour interroger des serveurs documentaires tels Dialog ou l'ESA, et qui veut accéder à Internet pour ses ressources documentaires, doit s'adresser à un centre de calcul connecté à Internet. Dans ce cas, il utilise Transpac.

Les possibilités documentaires sur Internet se caractérisent par leur ampleur, leur diversité, la souplesse des nouveaux systèmes d'information qui se mettent aujourd'hui en place pour les gérer.

Internet est un puissant outil de transformation de la politique documentaire. Il met à disposition de tous l'information rétrospective comme l'information instantanée, - information dont nous avons donné un aperçu lorsque nous avons abordé la question des newsgroups. Par la messagerie, les connexions lointaines, par les possibilités de transfert de fichiers, Internet encourage la collaboration « distribuée » ; ainsi, Internet permet actuellement la constitution de serveurs locaux répartis sur ce réseau donnant à chaque laboratoire la possibilité d'exposer sur le réseau l'ensemble de ses publications, de les offrir à la communauté.

Le réseau national Renater, infrastructure de réseaux régionaux, permet l'accès au réseau Internet. L'année 1993 devrait en voir l'extension à tout le territoire et offrir ainsi de larges possibilités aux bibliothèques universitaires.

Décembre 1992

Illustration
Exemple de la commande telnet

Illustration
Exemple de news sous Unix

Illustration
Pour accéder à Archie

Illustration
World-Wide-Web. Exemple de connexion par Telnet

  1.  (retour)↑  Appelés Eudora ou Pop.
  2.  (retour)↑  Sous-coniniandes ftp :
    - lister le nom du répertoire sur lequel il se trouve (commande « pwd »).
    - lister les noms des fichiers du répertoire (commande « ls »).
    - changer de répertoire (commande « ed »),
    - prendre un fichier sur la machine distante (commande « get »),
    - mettre un fichier sur la machine distante (commande « put »).
  3.  (retour)↑  En se connectant à l'adresse suivante : techreports.larc.nasa.gov (ou 128.155.358).
  4.  (retour)↑  Véritable éditeur qui sélectionne les articles.
  5.  (retour)↑  Pour les lecteurs intéressés, adresser un courrier électronique à l'adresse suivante :fr-magazines@imag.fr
  6.  (retour)↑  Cs-journal-titles.src., base répertoriée dans le Directory des serveurs Wais.
  7.  (retour)↑  Pour permettre l'interrogation d'une base bibliographique sous Wais, il faut générer un fichier séquentiel dans lequel chaque notice est séparée par une ligne blanche ; chaque notice correspond à un document Wais. L'INRIA Sophia-Antipolis est le centre pionnier de Wais en France et offre, depuis plus d'un an, grâce à cet outil, ses catalogues et les rapports de recherche qu'il publie.
  8.  (retour)↑  En France, celle du Centre international de rencontres mathématiques à Marseille (CIRM), de l'Ecole normale supérieure de Lyon, de l'IMAG et du CICG...
  9.  (retour)↑  Institut national de recherche en informatique et en automatique.
  10.  (retour)↑  La partie client du logiciel.
  11.  (retour)↑  Organisation européenne de la recherche nucléaire.
  12.  (retour)↑  Hans NUSSBACHER, « Comparaison between Gopher, WAIS and WWW », comp.infosystems.wais., 1er oct. 1992.