Optimiser l'accès à l'information

Une opportunité pour les langages documentaires ?

Cécile Kattnig

Avec cette journée d’étude organisée à Paris le 20 septembre 2007, l’ADBS (Association des professionnels de l’information et de la documentation) se proposait d’aborder les modes de recherche d’information mis en œuvre par les différentes familles d’utilisateurs dans un environnement dominé par les moteurs de recherche statistiques. Le rôle des vocabulaires contrôlés (classifications, thésaurus, référentiels, nomenclatures, taxonomies) dans la recherche d’information a ainsi été analysé et illustré par des retours d’expérience.

Usages des moteurs de recherche

Majid Ihajadene, maître de conférences au CRIS (Centre de recherche d’information spécialisée) de l’université de Paris-X – Nanterre a présenté les tendances actuelles des usages des moteurs de recherche. Son objectif était de montrer au préalable les deux approches existantes en matière d’évaluation avec leurs limites respectives : l’évaluation système (dès les années 1960) et l’évaluation usager (développée dans les années 1990) avant de nous présenter son étude. Un rappel historique a permis de resituer ces études dans une continuité mais aussi dans une rupture : continuité avec les études antérieures consacrées aux cédéroms, Opac et serveurs commerciaux, mais rupture due aux mutations (grand nombre d’utilisateurs des moteurs, recherche d’information quotidienne et élargie, volonté d’accès direct au texte intégral, médiation via les langages modifiés). Dans les évaluations des SRI (systèmes de recherche d’information), l’approche système a privilégié les mesures de performance selon la précision et le rappel (bruit). De 1993 à 1997, plusieurs modèles d’approche usager se sont développés proposant une vision plus globale du processus de recherche (situation, motivation, représentation des connaissances, logiciel de recherche, fonds documentaire…) parfois difficiles à exploiter.

L’analyse des usages a porté sur la démarche de consultation, l’identification des problèmes rencontrés, l’exploration des modes d’appropriation des outils de navigation, catégorisation et visualisation et, enfin, sur l’étude des stratégies de formulation des requêtes. Il en ressort une similitude de comportement des usagers sur les moteurs de recherche généralistes et sur les intranets. Si la pratique est quotidienne, la formulation des requêtes est souvent simple (1 à 2 mots par requête, absence d’opérations booléennes, pas de recours aux fonctions avancées…) et la catégorisation des résultats peu développée.

Thésaurus à la recherche

Sylvie Dalbin 1, consultante en organisation et ingénierie documentaires, a développé les « métamorphoses du monde documentaire » et leurs conséquences sur les langages. La description très pédagogique des différentes étapes de recherche d’information (Où ? Comment ? Que fait la machine ? Exploiter les résultats ?) a permis d’identifier l’utilisation pertinente des vocabulaires contrôlés à travers la présentation d’outils opérationnels et de prototypes.

Le paysage documentaire a évolué, repositionnant le rôle des vocabulaires contrôlés. Dans les années 1980, les spécialistes des thésaurus anglo-saxons proposaient déjà l’étude de ce que pourrait être un « thésaurus à la recherche » afin de prendre en compte le développement de la recherche documentaire en ligne et la diversité des profils d’utilisateurs. Les constats sont pluriels : les acquisitions de ressources et leurs métadonnées associées ont eu pour effet une baisse de la pratique manuelle d’indexation ainsi que le développement de la classification automatique, les portails documentaires sur les intranets/extranets se sont développés, intégrant des données multiformes avec une incitation à l’enrichissement en métadonnées réalisé à la source, c’est-à-dire par les producteurs ou les auteurs eux-mêmes. Parallèlement à ce changement, les profils d’utilisateurs se sont multipliés et avec eux de nouvelles pratiques nécessitant l’utilisation d’interfaces ergonomiques. Les modalités d’accès à l’information se sont complétées : sélection au sein d’une liste de thèmes ou sujets, navigation au sein d’une représentation des connaissances ou formulation d’une requête avec ses propres mots.

Sylvie Dalbin s’est attachée, dans son exposé sur les étapes de l’activité de recherche d’information, à nommer les moments où l’usage de langages contrôlés pourrait être utile. À l’étape 2, « comment formuler la requête », elle a illustré la nécessité d’interfaces ergonomiques d’aide à la formulation par trois exemples : MyThesaurus 2 pour l’exploitation d’un thésaurus comme dictionnaire pour sélectionner les termes de la requête ; Belit 3 pour une consultation multilangue avec fonction panier et possibilité de sélectionner plusieurs descripteurs avant d’activer la requête sur les bases de données ; applications LOM-FR 4 pour des interfaces spécifiques intégrant des familles de métadonnées sélectionnées par l’utilisateur en rapport avec ses activités en fonction de l’audience, et exploitant des listes contrôlées associées.

À l’étape 3, « comment s’effectue le traitement automatique de la requête ? », l’illustration des possibilités actuelles d’exploitation automatique est faite à partir de trois démarches : enrichissement automatique de la requête par des listes de synonymes ou équivalents (logiciels d’Autonomy 5), exploitation d’un ou plusieurs thésaurus pour reformuler ou étendre la requête (assistant de recherche en ligne Exploredge 6), utilisation de thésaurus dans la recherche fédérée activée au niveau du traitement (Otaren 7) ou au niveau de la restitution des résultats (solution ITM 8 de Mondeca).

À l’étape 4, « la présentation des résultats » peut se faire par rapport à des métadonnées « métiers », des classes du plan de classement ou les descripteurs associés aux références. Visual Catalog 9 et AquaBrowser 10 offrent ainsi des représentations graphiques associées aux ressources documentaires et permettant d’étendre la recherche.

Cet exposé a donc confirmé l’importance de la construction d’interfaces de recherche riches s’appuyant notamment sur les vocabulaires contrôlés. La journée s’est poursuivie avec des retours d’expérience notamment de l’Institut national de recherche et de sécurité 11 et de BNP Paribas 12.

Pour conclure, la lecture du numéro 1 de février 2007 de la revue Documentaliste-Sciences de l’information est indispen-sable à ceux qui souhaitent aller plus loin sur ce sujet. Construit en deux parties, il comprend des articles sur la représentation des contenus d’une part et sur les normes, standards et interopérabilité d’autre part. À noter dès à présent sur vos tablettes le séminaire annuel de -l’Inria sur le thème « Métadonnées : mutations et perspectives », du 29 septembre au 3 octobre 2008. À suivre donc…