Principes et usages des nouveaux accès guidés à l'information

Claire Scopsi

Alexandre Bol

Jean Hervouet

Le monde des logiciels de bibliothèque et de documentation s’enrichit depuis quelques années de nouveaux vocables (catégorisation, classification, clustering) désignant de nouveaux modes d’accès guidés à l’information, issus de la veille et du text-mining et fondés sur la représentation des contenus par classes et concepts. L’apparente unité des interfaces masque cependant des technologies hétérogènes dont la mise en œuvre et les applications diffèrent considérablement.

Cent cinquante professionnels de la gestion de l’information, chercheurs, consultants et éditeurs de logiciels se sont réunis le 12 décembre dernier, au cours d’une journée d’étude 1 organisée par la Fédération des utilisateurs de logiciels de bibliothèque (Fulbi) et le club des utilisateurs des progiciels d’Ever Ezida, pour tenter d’éclaircir les définitions et comprendre l’enjeu que représentent ces nouveaux accès pour les logiciels de bibliothèque et de documentation.

À l’écoute des utilisateurs

Dominique Lahary (bibliothèque départementale du Val d’Oise) a insisté sur la nécessité de repenser l’accès aux bases de données pour les publics de bibliothèques. Membre de la « conjuration pour des accès thématiques aux catalogues 2 », il reconnaît « sous leurs beaux habits cousus en HTML la vieille carcasse qui déjà était celle des catalogues sur fiches, des catalogues imprimés ». Les clients utilisateurs sont à l’origine de l’amélioration des techniques de recherche. Aujourd’hui habitués aux caractéristiques de la recherche sur le web, ils réclament des conditions similaires en bibliothèque. Aux professionnels et aux éditeurs d’apporter de la valeur ajoutée aux produits existants !

Documentalistes et bibliothécaires ont pu voir dans la recherche sur le web une concurrence inquiétante mais on s’aperçoit aujourd’hui, à travers la pratique, qu’avec les techniques d’indexation automatique, ils ont un rôle essentiel à jouer dans la mise au point des outils, notamment la construction des catégories. L’enjeu de la technologie, souligne Christine Berdon (Radio France), est de se désengager de certains travaux répétitifs pour concentrer les efforts sur la performance de recherche et le confort des usagers. C’est l’occasion, renchérit Monique Joly (bibliothèque Doc’Insa à Lyon), d’améliorer la lisibilité des collections des bibliothèques universitaires en accès indirect, en établissant des classes rigoureuses s’appuyant sur les acquis de la classification Dewey, mais en veillant à simplifier et réduire le nombre des entrées.

Si la majorité de la profession reste en phase d’observation, le processus d’adoption des technologies de classification est donc entamé pour certains, selon des rythmes divers, guidés par les possibilités d’intégration dans les systèmes documentaires existants. Le projet de portail conduit par Michel Bernardini a permis à la documentation de BNP Paribas de se doter d’un outil innovant, Polyspot, pour fédérer et classer ses fonds répartis dans des bases hétérogènes ou issus des flux de la presse quotidienne, tandis que Richard Roy (médiathèque Cathédrale de Reims), convaincu de l’avantage de proposer des « bouquets d’indices » adaptés aux préoccupations des usagers de chaque établissement, a fait intégrer une arborescence de thèmes à l’Opac intranet du système de gestion de sa bibliothèque.

Classification et catégorisation

Claire François, chercheur à l’Inist, présente l’origine et les principes de la classification automatique. Tout d’abord, deux définitions essentielles sont posées : d’une part, la catégorisation, processus psychologique de base, est le fait de construire des catégories ou d’affecter un objet à une catégorie (un modèle existant) ; d’autre part, la classification est une opération intellectuelle consistant à organiser des connaissances dans un système méthodique et hiérarchisé.

L’automatisation de la classification consiste tout d’abord à appliquer aux textes une série d’analyses statistiques, notamment la lemmatisation (la réduction d’un terme à sa racine) et l’identification de segments répétés (suite de termes fréquemment associés comme « pomme de terre »). Ces traitements utilisent des ressources terminologiques (dictionnaires de mots vides, dictionnaires d’équivalences). Les données ne relevant pas de la linguistique pure comme les entités nommées (c’est-à-dire les noms de personnes, de lieux ou d’entreprises), les dates, les unités monétaires requièrent des grammaires spécifiques et parfois le recours à des « marqueurs linguistiques ». Ensuite interviennent les techniques linguistiques (qui permettent de repérer les variations flexionnelles et morpho-dérivationnelles) et l’analyse syntaxique. À l’issue de ces opérations, les textes sont convertis en concepts. Ils peuvent alors être représentés sous la forme de tableaux associant les concepts à leur fréquence d’apparition dans le corpus.

On distingue deux notions de classification : le clustering est une classification non supervisée, c’est-à-dire qu’elle regroupe des « individus » (ici les textes) sans a priori, en fonction de la structure thématique issue de l’analyse du corpus ; la catégorisation est une classification supervisée qui, au contraire, s’appuie sur des catégories pré-établies, en comparant le corpus à classer, à un corpus déjà classé et validé servant d’exemple. Certains produits procèdent de façon mixte.

Des outils pour naviguer dans les classifications

Si performants soient-ils, les outils destinés à améliorer l’accès à l’information doivent prendre en compte les pratiques des usagers. Selon Madjid Ihadjadene (département Information communication de l’université Paris X), la surcharge d’information, des stratégies de recherche trop élémentaires, notamment pour réduire les résultats de façon cohérente, des requêtes trop courtes sont autant de facteurs nuisant à la qualité de l’accès à l’information.

Divers catalogues en ligne offrent un accès « sujet » par le biais des indices de classification Dewey ou CDU (classification décimale universelle) en complément de la recherche par mots-clés. L’avantage est certain : les classifications assistent l’utilisateur dans la construction de sa requête et lui permettent de replacer les termes de sa recherche dans un voisinage sémantique. Mais l’usager doit connaître au préalable l’indice exact représentant son centre d’intérêt ou tout au moins la catégorie de départ sous laquelle il est rangé.

Certains projets concernent actuellement le développement d’interfaces de guidage dans les classifications. Elles permettent, à partir d’un mot-clé entré par l’usager, de l’orienter vers les catégories les plus appropriées à sa recherche (projet EVM Metadata de Berkeley 3, Visual Catalog de l’université Paris VIII 4) ou proposent des représentations graphiques du système de classes.

Une autre solution au problème de surcharge d’information consiste à organiser dynamiquement par catégories l’ensemble des résultats. On peut citer les moteurs de recherche NorthernLight 5, Vivisimo 6, Exalead 7.

Enfin, des recherches sont menées pour représenter graphiquement la ventilation thématique des résultats d’une recherche et l’importance relative des sous-classes.

Évaluer l’efficacité de l’accès par classification

La majorité des recherches porte sur le versant technique de la catégorisation. L’évaluation des outils ainsi que les problèmes cognitifs sont peu abordés. Les rares travaux relatifs à l’évaluation de la pertinence de la catégorisation montrent que les performances sont meilleures quand les sujets disposaient de l’outil de catégorisation.

Plusieurs évaluations ont été réalisées, souvent en milieu scolaire ou étudiant. Le « browsing » donne de meilleurs résultats que la recherche par mot-clé, auprès des élèves utilisant Yahooligans, mais une catégorisation post-recherche (catégorisant les résultats d’une recherche commencée à l’aide de mots-clés) est plus efficace que la recherche par catégorisation préalable. Le gain de temps lors d’une recherche est de l’ordre de 50 %. En revanche, des utilisateurs novices peuvent obtenir de moins bons résultats avec la post-catégorisation qu’avec l’indexation.

Le profil de l’usager, sa compétence dans le domaine recherché, son expérience de la recherche d’information, et enfin l’apprentissage du système influencent fortement les résultats des comparaisons, il est donc primordial que les évaluations des outils techniques s’effectuent selon une approche « orientée utilisateur ».

Catherine Leloup, ingénieur-conseil, a mis au point une méthodologie d’évaluation des logiciels de catégorisation permettant, concrètement et dans un contexte donné, d’évaluer la pertinence de cette approche technique. Il s’avère que plus on aide les outils, meilleurs ils sont : les documents structurés répondent mieux ; les thésaurus apportent beaucoup au classement, en traitant les synonymies et en établissant des relations entre les termes ; le typage des termes (noms de villes, de personnes) améliore la restitution ; les traitements linguistiques de base sont importants. Le rôle du traitement documentaire n’est donc pas à négliger dans la conception d’un système d’information intégrant une classification automatique.

La conclusion de cette journée ne peut être que provisoire et d’autres manifestations ne manqueront pas de contribuer à la connaissance du sujet. Si chacun est convaincu de l’utilité des accès thématiques, leur mise en pratique se heurte encore à deux écueils. D’une part, les classifications automatiques relèvent de techniques complexes dont les fonctionnements encore mal connus des professionnels de l’information sont malaisés à appréhender : difficile, en effet, de « regarder sous le capot », les rencontres avec les spécialistes du domaine sont donc à multiplier. D’autre part, les premières implantations, encore récentes en bibliothèques et centres de documentation ouverts au public, n’ont pas toujours fait l’objet d’évaluation. On ne mesure donc pas pour le moment avec certitude les gains objectifs ou ressentis apportés à l’usager. Ces évaluations in situ et leur méthodologie doivent entrer dans les préoccupations des associations d’utilisateurs de logiciels.

Enfin un point majeur émerge des témoignages : les professionnels de l’information ont tout avantage à s’approprier sans complexe ces technologies et à penser sereinement leur rôle vis-à-vis des classements automatiques. La disparition des pratiques documentaires n’est pas pour demain, loin de là, et l’expertise dans le pilotage et l’optimisation de ces process automatisés peut devenir une compétence classique et reconnue des professionnels de l’information.