La recherche d'information sur les réseaux

cours Inria, 30 septembre-4 octobre 2002, Le Bono (Morbihan)

par Yves Desrichard
coordonné par Jean-Claude Le Moal, Bernard Hidoine et Lisette Calderan. Paris : ADBS éd., 2002. – 322 p. ; 24 cm. – (Collection Sciences de l’information. Série Études et techniques). ISBN 2-84365-062-3 : 35 €

Depuis 1982, tous les deux ans, l’Inria (Institut national de recherche en informatique et en automatique) organise un cours sur l’information scientifique et technique qui fait l’objet d’un volume publié aux éditions ADBS (Association des documentalistes et bibliothécaires spécialisés), destiné à ceux qui n’ont pas la chance d’assister aux interventions proprement dites. Pour la première fois, comme le souligne Jean-Claude Le Moal dans sa préface, le thème de 2002, la recherche d’information sur les réseaux, reprend un sujet déjà traité en 1996. Mais, en moins de six ans, l’ampleur des changements constatés sur cette question est telle que les risques de redites et de répétitions sont réduits, comme le prouve d’ailleurs la teneur des différents chapitres.

Les outils changent …

Dans une préface comme toujours d’une lucidité modeste mais précise, Jean-Claude Le Moal rappelle quelques vérités aux zélateurs trop pressés du tout électronique : « Les outils changent mais les métiers restent ; il ne faut pas confondre technique et métier. » Même les métiers traditionnels des bibliothèques et des centres de documentation, s’ils voient la nature des documents traités évoluer, sont sans doute plus nécessaires que jamais à un usager qui « appréciera la fréquentation d’une bibliothèque virtuelle de qualité, lui donnant un accès aisé à des sources sélectionnées, analysées, classées, de la même manière qu’il appréciait hier de venir consulter dans une bibliothèque traditionnelle ».

Bref, si l’on ne craignait pas de ranimer quelques souvenirs plus ou moins bons, on oserait dire que c’est « la continuité dans le changement » : pour réaliser le centre de ressources virtuel idéal, les méthodes éprouvées avec le papier et les supports audiovisuels trouvent en fait une nouvelle vigueur, certes fort techniciste, mais dont le fonds commun n’a rien de révolutionnaire. Des modifications en profondeur de l’organisation et du mode de fonctionnement des bibliothèques sont cependant à prévoir, pour tenir compte des exigences toujours plus grandes des utilisateurs de l’outil électronique. Mais la disparition des centres documentaires semble moins que jamais à l’ordre du jour.

… mais les métiers restent

Dans « Instruments de recherche sur le web », Sylvie Dalbin fait un point complet sur des services souvent bien connus des professionnels : moteurs et annuaires généralistes ou spécialisés, dont elle détaille le fonctionnement (quelques exemples auraient été bien venus) en prédisant un rapprochement des deux types, d’ailleurs déjà effectif, puisque certains annuaires proposent en complément l’utilisation d’un moteur de recherche. Elle en montre aussi les limites, qui marquent le territoire du « web invisible », jamais ou rarement exploré par ces biais. Aux moteurs succèdent les métamoteurs et les moteurs… humains ! La formule est osée, voire tendancieuse. Mais elle traduit les tendances d’usage : disponibilité 24 heures sur 24, temps de réponse performants…

Dans ce dense chapitre, sont abordés les portails, les anneaux, les outils coopératifs… qui offrent des repères, automatiquement ou non, à l’explorateur parfois perplexe du web. D’utiles développements sur les techniques de recherche (filtrage, prise en compte de la polysémie…) montrent que celles-ci n’ont pas évolué quant à leur nature mais, comme le dit Jean-Claude Le Moal, quant aux programmes utilisés pour améliorer la recherche. Sylvie Dalbin nous propose en conclusion des grilles d’évaluation des sources d’information et des outils de recherche, fort détaillées : en cinquante pages, certainement ce qu’on a lu de plus pertinent sur la question depuis longtemps.

L’article suivant, « XML (eXtensible Markup Language) et la documentation structurée : des principes aux techniques », signé François Role, aborde l’un des développements les plus cruciaux en matière de structuration de la documentation électronique dans les années à venir : métalangage presque inconnu en 1996, XML est en train de s’imposer, lentement mais sûrement, dans tous les compartiments du world wide web. Comme l’indique clairement l’auteur, XML n’est pas un langage de balisage comme HTML (Hypertext Markup Language) par exemple. Il s’agit plus exactement d’une méthode normalisée pour baliser les structures logiques du document. L’aspect « logique » est l’autre différence fondamentale d’avec HTML. XML permet de structurer les documents en parties, pas de les mettre en forme : il faut, pour cela, des outils extérieurs à XML, comparables à des feuilles de style.

Le sujet est passionnant, et – tant dans le domaine de la création de documents que dans celui des métadonnées, dont plusieurs systèmes sont basés sur ce métalangage – vital pour nos professions. On en regrette d’autant plus que, fort clair au début, l’article deviennne progressivement exagérément technique, faisant craindre que l’élaboration des Document Type Definition (DTD) qui sont les bases d’utilisation de XML soit réservée à un premier cercle de spécialistes, seuls capables d’en maîtriser l’apparente complexité.

Des métadonnées …

De métadonnées justement, il est question dans « Les métadonnées : accès aux ressources électroniques », de Marie-Élise Fréon. De la zone 856 des formats Marc (Unimarc comme Marc21, mais avec des différences d’implémentation) au Dublin Core développé sous l’égide d’OCLC (OnLine Computer Library Center), les techniques sont connues, entre prolongement des pratiques catalographiques traditionnelles et invention d’un nouveau corpus qui semble, progressivement, se rapprocher des premières. La TEI (Text Encoding Initiative) et l’EAD (Encoded Archival Description) font aussi l’objet de descriptions presque trop détaillées. On regrettera par ailleurs que le nouveau standard ONYX ne soit pas mentionné, alors qu’il s’agit là d’un intéressant effort de normalisation descriptive issu, cette fois, directement du monde de l’édition et des professionnels du document.

Avec « Traitement automatique des langues et recherche d’information », de Pascale Sébillot, on renoue avec le serpent de mer de la « recherche en langage naturel ». La théorisation du domaine est séduisante, et les formules mathématiques utilisées pour définir le « pouvoir discriminant des termes » fort impressionnantes. Le problème est que, depuis de longues années déjà (voire des dizaines d’années), ces modélisations ont du mal à se concrétiser en applications logicielles.

Après ces hauteurs, « Des bibliothèques traditionnelles aux “bibliothèques virtuelles” », de Dominique Lahary, est un modèle de pragmatisme et de concision. Reprenant les choses au début – et on lui en sait gré – Dominique Lahary commence par définir ce qu’est une bibliothèque, ainsi que la « problématique traditionnelle de l’accès aux documents en bibliothèque ». Une présentation typologique des sources vient utilement souligner que l’offre en ligne, aux avantages nombreux, induit aussi une « perte de repères » due à la « granularité de l’information » : en d’autres termes, si le document traditionnel peut, au minimum, se définir par ses limites physiques, de telles notions n’existent pas sur le web, produisant des « objets » flous ou indéterminés et, surtout, susceptibles d’être traités de manière très différente pour ce qui est de leur analyse documentaire.

Après une présentation des différentes organisations possibles de l’accès aux catalogues et aux données secondaires et maintenant primaires (notamment par le biais de l’utilisation de Z 39.50), Dominique Lahary livre quelques conclusions lapidaires mais matière à réflexion : les outils de recherche se multiplient, de nature très diverse ; c’est donc qu’aucun d’eux ne répond complètement à tous les besoins. L’utilisateur a de plus en plus tendance à chercher en « langage naturel » : l’emploi du terme paraît impropre, ou a subi un glissement significatif de sens. Le « langage naturel » consistait à poser une question en respectant les contraintes de la syntaxe et de la grammaire de la langue. Visiblement, Dominique Lahary l’emploie dans l’acception : « recherche par mots sans recours à un vocabulaire contrôlé ». La « dérive » est avérée qui, de manière plus profonde, traduit un autre phénomène noté par l’auteur : les standards utilisés dans la recherche ne sont plus issus du monde des professionnels des bibliothèques, et l’influence du WWW consortium se fait chaque jour grandissante.

« De la sémantique des contenus à la sémantique des structures », signé Laurent Romany, laisse plus perplexe. Par sa complexité et le niveau de réflexion auquel il se situe, l’article s’adresse plutôt à des concepteurs (avisés) de systèmes de description qu’à des praticiens.

… aux recherches non textuelles

En revanche, approche totalement originale, « Recherche interactive d’images par le contenu visuel », de Nozha Boujemaa, est sans doute la contribution la plus stimulante, car proposant des points de vue totalement novateurs sur la recherche dans un contexte hautement spécialisé, la consultation d’images. Après avoir montré les limites de l’indexation textuelle d’images, Nozha Boujemaa présente le projet Ikona, qu’on pourrait décrire comme un outil de recherche de formes ou de structures dans une image, à partir de l’analyse fine de la pixélisation de l’image numérique. Certes, les résultats semblent encore bien imparfaits, mais on a plus que le sentiment que l’équipe de recherche Imedia (Images et multimédia), à l’origine de ce projet, est sur la bonne voie, et qu’il faudra suivre avec intérêt cette démarche nouvelle, dans un monde plus que jamais dominé (et manipulé) par l’image.

« Veille stratégique sur les réseaux », d’Armelle Thomas, est plus traditionnel, mais l’ensemble est de bonne tenue sur un sujet qui, effectivement, a connu avec l’avènement du web et la sophistication croissante des outils de recherche, des développements sans doute inespérés il y a six ans.

Un seul regret

On le voit, la variété et la qualité des contributions sont toujours au rendez-vous, même si quelques contributions semblent en retrait, tant dans le cours du volume que par rapport aux éditions précédentes. Les cours Inria ne sont ni des manuels pratiques, donnant des recettes d’accès aux réseaux, ni des apports purement théoriques : « objet » hybride, mais que la clarté des exposés rend accessible et utile à tout professionnel, capable ainsi d’ordonner son approche des réseaux et de leurs contenus, et notamment du web.

S’il fallait avoir un seul regret, ce serait peut-être de ne pas trouver dans La recherche d’information sur les réseaux un article sur les aspects purement techniques du web : ADSL, connexion à haut débit, Renater 2, tous les problèmes qui placent aujourd’hui l’ingénieur réseau au cœur vital de l’élaboration et de la gestion d’un système d’information, auraient mérité un chapitre entier. Mais ce regret « pointu » est à l’aune d’un ensemble comme à l’habitude dense et complet.