Information Retrieval
New Systems and Current Research
Le 15e congrès sur la recherche documentaire du Groupe spécialisé en information de la British Computer Society s’est tenu à l’Université de Strathclyde, à Glasgow, les 29 et 30 mars 1993. Les communications font le point sur l’état de l’art dans ce domaine. Elles traitent aussi bien des banques de données et d’hypermédia que d’intelligence artificielle, de logique et de logiciels d’interrogation sur l’environnement d’une recherche.
Élaborées par des spécialistes de renommée internationale, les interventions illustrées de calculs, de schémas, de copies d’écrans d’ordinateurs ne sont compréhensibles pour la plupart que par des techniciens en informatique d’un niveau scientifique élevé. Le non-informaticien admire les graphes et reste perplexe devant le calcul des « coefficients de similarité appliqués à l’étude des liens hypertextes » dans les documents en texte intégral.
Défense américaine et stratégie textuelle
La première communication expose les performances de recherche et d’échange que permet le logiciel encore trop peu connu CALS (United States Department of Defense Computers-aided Acquisition and Logistics Support). Peuvent être échangés et récupérés sans problème les documents numérisés, quelles que soient l’organisation et les options de ces derniers, à condition qu’ils aient été numérisés selon la norme SGML (Standard Generalized Markup Language) qui utilise elle-même le codage de caractères ASCII.
RADA, système d’information organisé par la recherche pour la recherche, permet de traiter toute l’information depuis les notes jusqu’au bouche à oreille.
ELINOR (Electronic Library Online Retrieval) enterre la bibliothèque informatisée d’aujourd’hui pour la faire mieux renaître sous forme électronique et numérique. Là encore, SGML et ODA (Office Document Architecture) sont les normes incontournables.
Expérimenté sur les banques de données MEDLINE, TEXTLINE et INSPEC, le logiciel de recherche HIGHBROWSE – ce grand « balayage » (ou Multilingual MenUSE : Menu-based User Search Engine) – ressemble à GOPHER et permet de contourner certaines difficultés d’interrogation que rencontrent communément les utilisateurs.
D’heuristique en bouquets et menus de botanique
Le lecteur se prend à rêver sur la fonction d’évaluation heuristique de la recherche documentaire, ou sur l’hypothèse des « bouquets » qui sous-entend que des documents similaires tendent à répondre à des recherches semblables. Des coefficients de proximité, de voisinage, de dissimilitude... sont affectés à chaque document et l’on va déterminer la pertinence de la recherche par rapport à la distance entre les documents.
Fondées sur le code bibliographique normalisé universel USBC (Universal Standard Bibliographic Code), les similitudes lexicales, permettent d’une part, de mieux accéder à l’information pertinente parmi des références bibliographiques et, d’autre part, de regrouper les références obtenues. Ce code est généré automatiquement par algorithme à partir des zones du titre, des accès auteurs, éditeurs, date, volume, etc. Les similitudes lexicales permettraient en effet d’effectuer des recherches plus pertinentes sur les bases bibliographiques en Marc et Unimarc, sans en connaître a priori le vocabulaire d’indexation ou sans que celui-ci soit unique. La fréquence de certaines occurrences permettrait de classer celles-ci selon la pertinence des documents. Les super menus et hyper recherches s’épanouissent à propos d’interfaces de recherche et de base d’information-promenade dans les jardins botaniques de l’Université de Liverpool.
Les bibliothécaires en charge de systèmes informatisés de leurs établissements ou ceux qui effectuent les recherches en ligne ne peuvent ignorer ces expériences qui ne sont que les balbutiements des avancées technologiques de demain dans nos bibliothèques.