entête
entête

Une nouvelle famille d’Opac

Navigation à facettes et nuages de mots

Marc Maisonneuve

Cécile Touitou

Depuis moins de deux ans, s’impose dans les bibliothèques anglo-saxonnes une nouvelle famille d’Opac (Online Public Access Catalog) que réunissent au moins trois points communs : le fait d’être vendus à part, à un prix qui n’a plus rien à voir avec celui de l’Opac classique ; l’adoption de logiques de recherche en rupture avec celles de la génération précédente ; la mise en avant de deux nouveautés, la navigation à facettes et les nuages de mots.

Supposés répondre aux besoins des usagers et s’appuyer sur une analyse préalable de leurs pratiques, ces outils semblent parfois complexes lors d’une première utilisation ; la multiplication des cadres (le premier pour des facettes, le deuxième pour des critères de tri, le troisième pour des restrictions par sujet, le quatrième pour un rebond sur des termes associés…) nécessite en effet la maîtrise de concepts que chacun ne situe peut-être pas de manière extrêmement précise. Largement mise en avant par les fournisseurs de ces outils, la navigation à facettes serait l’une des avancées majeures de ces outils de nouvelle génération.

Pour mieux situer l’apport de cette navigation, revenons au concept qui la sous-tend – la classification à facettes –, clarifions la définition de la navigation ou du feuilletage à facettes avant de tenter d’en définir, sinon le domaine d’emploi, du moins quelques conditions d’usage.

Une classification indienne bientôt centenaire

C’est généralement au bibliothécaire et mathématicien indien Shiyali Ramamrita Ranganathan que l’on attribue, en 1924, la création du concept de « facette » appliqué aux sciences de l’information. Révolutionnant la conception hiérarchique des grandes classifications du type Dewey ou LCC (classification de la Bibliothèque du Congrès) qui ambitionnent une organisation universelle de la connaissance suivant un arbre sémantique qui se ramifie à partir des branches de bases (dix pour la classification Dewey), Ranganathan a proposé une alternative fonctionnant sur la combinaison de cinq facettes qui sont : Personnalité:Matière:Énergie:Espace:Temps 1.

Chacune des facettes constitue un élément du concept décrit et peut être déclinée « à l’infini », à la différence de la logique de la classification décimale qui est fermée. Alors que le premier modèle permet d’inclure des concepts ou des objets au fur et à mesure de leur apparition, le second intègre difficilement la création de nouveaux concepts, en sciences et techniques par exemple, qu’il a du mal à décrire en conservant la logique de l’ordonnancement initial. C’est ainsi que l’informatique a difficilement trouvé une place dans la classification Dewey aux côtés de la bibliothéconomie.

La Colon Classification a été largement commentée. Les théoriciens lui ont trouvé un champ d’application d’autant plus pertinent que le domaine décrit était limité, ceci permettant de ramener à un volume raisonnable le nombre de catégories fondamentales (la CC comprend quarante-deux catégories fondamentales). On en trouve un exemple dans le thésaurus de l’American Petroleum Institute et de l’université Tulsa, présenté par Magdeleine Moureau dans un article paru en 1968 dans le BBF 2, qui retenait dix facettes (processus, phénomène naturel, équipement, matériaux, propriétés, conditions opératoires, organisme, place, facteurs économiques, attributs ou facteurs communs).

La logique de Ranganathan a été reprise et simplifiée dans certains thésaurus dits « à facettes » qui attribuaient aux facettes la simple idée de regroupement de termes de même nature. Ainsi, dans la présentation du Thésaurus de l’éducation de l’Unesco, on peut lire : « The thesaurus is built up of descriptors and identifiers grouped into facets representing subdivisions of broad fields 3. »

L’Afnor 4 définit les facettes comme étant « des catégories de notions de même nature ou exprimées d’un même point de vue telles que phénomène, processus, propriété, outil, permettant un regroupement des notions indépendamment des disciplines traitées ». Jacques Maniez, dans un article fort éclairant, propose une mise au point terminologique de ce terme souvent appauvri et dévoyé : les facettes d’une classification documentaire doivent être, selon lui, un nombre limité « d’aspects essentiels en contraste interactif les uns avec les autres 5 ». Il en propose la définition suivante : « Gamme d’attributs communs fondamentaux en nombre limité utilisée comme technique d’analyse et de classification des concepts et des sujets. » Il souligne à ce propos l’influence certaine de cette nouvelle classification sur des répertoires d’autorités matière comme Rameau ou la LCSH (Library of Congress Subject Headings).

De la classification à la navigation à facettes

Au concept de classification à facettes s’est ajouté, avec internet, celui de navigation à facettes (en anglais, faceted browsing ou faceted navigation). Ne s’appuyant pas nécessairement sur la classification du même nom, la navigation à facettes présente les caractéristiques suivantes :

  • elle s’appuie sur une recherche sommaire sans possibilité de combinaison de critères, en demandant à l’usager de saisir un mot sur lequel portera la recherche. C’est une recherche à la Google, sans distinction de critères de recherche ;
  • en réponse, le logiciel donne une vision globale des références répondant à la requête, sous forme d’une ventilation de ces réponses suivant diverses catégories accompagnées du nombre d’occurrences. Ainsi, pour une recherche sur Shakespeare, l’usager sera informé qu’il existe 238 documents dont Shakespeare est l’auteur et 388 documents où il en est le sujet. De multiples possibilités de ventilation des références sont proposées, que nous présentons ci-dessous. Ces différents angles de vue des résultats de la recherche sont les fameuses facettes de la navigation ;
  • l’usager peut alors sélectionner une facette, par exemple le type de document, et restreindre les résultats de sa recherche aux seules vidéos ;
  • tant qu’il demeure des références, l’usager se voit proposer des restrictions successives (ne sélectionner que les vidéos d’une période ou d’un réalisateur…), avec possibilité de retour en arrière.

Des sites commerciaux précurseurs

Depuis de nombreuses années, les sites marchands offrent une navigation à facettes. Les objectifs guidant la conception de ces sites sont en rapport direct avec trois principes directeurs :

  • l’usager ne doit pas avoir besoin de connaître la manière dont sont décrits les objets qu’il recherche ;
  • le silence de la recherche doit être évité par tous les moyens ;
  • des possibilités de feuilletage doivent compléter la recherche proposée à l’usager.

Visant un public très large, souvent non spécialiste des objets vendus, les sites marchands ont mis au point des logiques de recherche qui s’appuient sur une analyse des besoins et des attentes des usagers (illustration 1). Ainsi, dans les facettes proposées par La Redoute, l’usager en quête de vêtements se verra proposer des restrictions par couleur, par tranche de prix…

Illustration
Illustration 1. Les facettes permettant de restreindre la recherche dans trois sites de commerce en ligne.

La navigation à facettes dans les Opac

Aujourd’hui, la plupart des moteurs sur internet privilégient une fenêtre unique qui permet à l’internaute de formuler « librement » sa recherche. C’est pour cette solution d’extrême simplicité qu’ont opté les sites marchands, et dans la foulée la plupart des écrans de recherche des Opac de « nouvelle génération » (illustration 2).

Illustration
Illustration 2. Écran de recherche de la Nashville Public Library proposant une recherche à la Google.

Pour les bibliothèques, le choix de cette fonctionnalité oblige à repenser entièrement les accès au catalogue. La possibilité de rédiger une requête booléenne sur une sélection de champs comme le permettaient la plupart des options de « recherche avancée » est progressivement abandonnée, ou relayée au second plan. Cette option était calquée sur les modalités de la recherche professionnelle qui supposaient que l’usager connaisse (ou devine) à la fois la structure de la base, le type d’information contenue dans chacun des champs et la logique booléenne ! Cette époque, témoin d’une certaine forme de biblio-centrisme, est aujourd’hui dénoncée ici et là et supplantée progressivement par des outils aux vertus plus « démocratiques », à la mode du web 2.0.

Le défi pour les concepteurs de ces nouveaux produits est à la fois de favoriser l’expression « naturelle » d’une requête par un usager habitué à la logique des moteurs massivement utilisés 6 ; de ne pas l’exposer à une réponse « silencieuse », malgré l’utilisation d’un langage non contrôlé ; de ne pas l’exposer non plus aux recherches « bruyantes » qui, il y a encore quelques années, aboutissaient, après des dizaines de secondes d’attente, au message exaspérant: « Time out. Votre recherche aboutit à plus de 500 réponses, veuillez reformuler votre demande ! »

La navigation à facettes permet de fournir une solution séduisante à ce double problème, dans tous les cas où les données gérées sont volumineuses et peuvent être appréhendées selon de nombreux critères croisés : taille, couleur, marque, tissus, prix pour un vêtement ; ingrédient, régime, type de cuisson, pays, saison, type de plat pour les recettes de cuisine 7 ; support, langue, format, sujet pour un livre. Il est bien entendu nécessaire que la base ait été traitée préalablement selon ces facettes. Pour l’usager, les atouts de cette navigation sont multiples :

  • elle réduit le « bruit » généré par les recherches trop larges. Les angles de vue des résultats proposés à l’usager lui permettent de préciser sa demande en fonction des éléments contenus dans la base : il n’a pas besoin de connaître a priori l’architecture des données, qui lui sont présentées sous forme de facettes ;
  • elle « donne à voir » les ressources gérées par la bibliothèque ;
  • elle propose à l’usager une stratégie d’affinement de la recherche s’appuyant sur les résultats de sa première requête ; elle permet une démarche itérative laissant l’usager libre de consulter les résultats obtenus ou d’en restreindre la liste jusqu’à l’obtention d’un ensemble jugé suffisant ;
  • elle suggère également des solutions auxquelles l’usager n’avait pas initialement pensé.

Séduisante sur le principe, la navigation à facettes dépend toutefois de la pertinence du choix des facettes que la bibliothèque proposera à ses usagers. L’examen des Opac de nouvelle génération de six bibliothèques (bibliothèque publique de Nashville [E-U], bibliothèque publique de Phoenix [E-U], Bibliothèque royale du Danemark, bibliothèque publique de Géorgie [E-U], bibliothèque publique du comté d’Athens, Ohio [E-U], bibliothèque publique du Queens, New York [E-U]), toutes équipées d’outils différents, révèle des stratégies assez variées. Si les restrictions par auteur, sujet, date de publication et langue du document sont proposées par toutes ces bibliothèques, des restrictions plus particulières sont également offertes (voir tableau).

Illustration
Les principales facettes proposées par les Opac de nouvelle génération de six bibliothèques.

Les bibliothèques publiques de Phoenix et du Queens proposent toutes deux une restriction aux documents sélectionnés par l’équipe de bibliothécaires. S’y ajoute, pour la bibliothèque publique de Phoenix, la restriction aux documents les plus empruntés, aux documents analysés par le New York Times ou aux documents ayant fait l’objet d’un avis des usagers.

Les bibliothèques publiques de Phoenix, du Queens et du comté d’Athens (Ohio) proposent une restriction géographique.

De multiples autres possibilités sont offertes, notamment la restriction suivant la zone de la notice dans laquelle le terme recherché a été trouvé, la restriction par niveau de lecture, la restriction aux seuls documents effectivement disponibles ou empruntables, la restriction aux nouveautés et même la restriction à un nom de personne ! Trois des possibilités offertes s’appuient sur une décoordination des vedettes sujet : la restriction géographique, la restriction à une période historique et la restriction à un nom de personne trouvé dans une vedette matière. C’est la rencontre de la navigation à facettes et d’un répertoire d’autorités matières s’inspirant de la classification à facettes. Pour la première fois apparaissent des outils qui semblent en mesure d’exploiter de manière pertinente les sous-vedettes géographiques ou temporelles… de Rameau. Répondant à un vrai besoin, cette possibilité de décoordonner des vedettes construites sera fort probablement largement exploitée dans les futurs catalogues.

D’une conception assez différente, le produit Visual Catalog 8, conçu et développé par Fabrice Papy de l’université Paris-VIII, offre deux possibilités de restriction par sujet et par libellé des indices Dewey, en affichant immédiatement les premiers titres, les premiers sujets et les premiers indices des réponses. L’usager peut également, sans aucune recherche préalable, explorer la classification Dewey et parcourir les notices des documents associés à chacun des indices. L’une des particularités de Visual Catalog est de conserver et d’imposer une distinction des recherches par auteur, titre et vedette matière lorsque les outils américains demandent uniquement la saisie d’un terme sans précision de la zone de recherche.

La navigation à facettes ou comment favoriser les « heureuses coïncidences 9 »

Même si cette disposition est assez rare, la navigation est parfois proposée avant même l’expression d’une requête par l’usager, comme sur le site du projet Flamenco du musée des Beaux-Arts de San Francisco. Cette option est intéressante lorsque le corpus est relativement limité et homogène. Les facettes et sous-catégories proposées sont alors en nombre limité. L’usager peut « se promener » d’une rubrique à l’autre. Seuls les choix recouvrant effectivement des œuvres lui sont proposés (le nombre d’œuvres est affiché à droite de la thématique) au sein de chacune des facettes retenues. Les facettes du site Flamenco reflètent l’éclectisme de la collection des œuvres présentes dans le musée, on trouve côte à côte : type d’œuvre, lieux (d’origine de l’œuvre ou illustrés) ; type d’objet ; élément d’architecture ; animaux et plantes ; terre et cieux ; formes et couleurs ; métier ; artistes (illustration 3).

Illustration
Illustration 3. Écran de recherche du site Flamenco du musée des Beaux-Arts de San Francisco proposant des facettes a priori (avant toute saisie de requête).

Sur la plupart des sites, lorsqu’ils offrent un accès à de volumineuses bases encyclopédiques (certains sites marchands ou des catalogues de bibliothèques), la navigation à facettes est proposée après une première expression de la recherche et la fourniture des premiers résultats, afin de permettre à l’usager d’affiner sa recherche, tout en proposant un large panel de réponses proches ou connexes. Cette navigation s’apparente aux promenades dans les rayons de la bibliothèque où le regard traîne à la recherche de l’ouvrage inattendu qui saura fortuitement retenir notre attention. C’est ce que désigne le terme « sérendipité » largement évoqué par les commentateurs du web 2.0, que favorise désormais le feuilletage qui accompagne la navigation à facettes 10.

La navigation à facettes et la recherche simultanée dans plusieurs bases du web

Un outil de recherche sur le web, Grokker, propose une recherche simultanée dans plusieurs sources 11. La version d’essai, accessible gratuitement en ligne, permet de solliciter simultanément Yahoo !, Wikipédia et Amazon Books. Elle propose des restrictions par sources, par domaine et par date. S’y ajoute une technique de grappage des résultats visant à regrouper celles des références qui peuvent être appariées car présentant certains points communs. Ainsi une recherche sur  Tosca Consultants donne 92 résultats que l’outil regroupe en des facettes générées dynamiquement et présentées soit sous forme graphique, selon une présentation à la fois synthétique et parlante, soit comme ceci :

“tosca consultants” (92 results)

General (38)

Des Bibliothèques (13)

Des Documents (11)

Sur Les (10)

Sur Le (7)

Sur Les (5)

Gestion Des (3)

Dans Le (6)

Windows Live Search Wikipedia (6)

Des Sciences (5)

Du Réseau (5)

Par la Bibliothèque (5)

Archive (4)

En Ligne (4)

Gestion Documentaire (4)

RSS (4)

Serveur Web (4)

C Entre (3)

Lecture Publique (3)

N’exploitant qu’une information faiblement structurée, Grokker utilise une technique de clusterisation ou de regroupement en grappes des résultats de recherche. Cette version d’essai étant peut-être peu adaptée aux caractéristiques du français, l’outil propose quelques restrictions assez peu pertinentes, avec des rubriques que l’on peut juger saugrenues : « Sur Les », « Sur Le », « C Entre ». Cet exemple souligne la difficulté de générer des restrictions à la volée s’appuyant sur une analyse des résultats de recherche. Les Opac de nouvelle génération ont généralement proscrit cette technique, les facettes proposées sont prédéterminées et s’appuient sur de l’information structurée.

Quelques conditions d’usage de la navigation à facettes

Rarement associée à une classification à facettes, sauf dans le cas de la décoordination des vedettes LCSH ou Rameau, la navigation à facettes s’est construite dans le secteur des sites marchands avant de gagner le monde des bibliothèques, dans lequel elle peut s’appuyer sur une information structurée de qualité et produire ainsi des résultats tout à fait intéressants. Les exemples que nous avons choisis concernent des produits disponibles en France (Encore, Primo, AquaBrowser, Koha, Visual Catalog), mais la plupart du temps des réalisations anglo-saxonnes. Les bibliothèques françaises peuvent-elles sans aucune difficulté obtenir des résultats similaires ?

Le bon fonctionnement de la navigation à facettes dépend directement des caractéristiques de la requête adressée par l’usager au système. Il faut que celle-ci se traduise par la proposition de résultats, avec, si possible, de nombreuses notices, faute de quoi la proposition de multiples possibilités de restriction ne sera guère appropriée. Or les Opac de la génération précédente péchaient principalement par leur silence assourdissant. Dans les exemples des bibliothèques américaines que nous avons analysés, des stratégies ont été mises en œuvre afin d’éviter ce silence.

Certaines bibliothèques utilisent les contenus fournis par la société Syndetic Solutions, avec non seulement la première et la quatrième de couverture mais également le sommaire, le résumé, des analyses et des critiques… Les données s’en trouvent considérablement enrichies et la probabilité d’un silence en recherche considérablement amoindrie.

Les Opac proposent, aux côtés du cadre relatif aux facettes, un espace où est représenté un nuage de mots en relation avec le terme de la recherche (illustration 4).  Ainsi, avec AquaBrowser, apparaissent des termes associés, des termes traduits, des graphies proches ou des « chemins de découverte » qui permettent un rebond sur l’un ou l’autre des termes proposés. Ce mécanisme s’appuie généralement sur l’analyse préalable d’une copie du catalogue qui permettra d’établir a priori celle des associations qui sont les plus pertinentes. Selon Marshall Breedings 12, AquaBrowser estime pouvoir produire ainsi de bons résultats lorsque le catalogue compte plus de 150 000 entrées. Dans les autres cas de figure, Medialabs Solutions, l’éditeur d’AquaBrowser, propose une solution en mode hébergé qui sollicitera probablement les catalogues de plusieurs bibliothèques ou les bases terminologiques constituées par la société.

Illustration
Illustration 4. Deux présentations des nuages de mots, proposés en rebond, en complément de la navigation à facettes.

De plus en plus de bibliothèques ouvrent la porte aux commentaires des lecteurs sous forme d’analyses (fiches de lecture) ou de « tags ».

Notons par ailleurs que les pratiques d’analyse des ouvrages sont différentes de celles en usage dans nos bibliothèques puisque l’on a constaté une indexation relativement fine des sujets traités des œuvres de fiction.

Si l’offre d’Électre présente certains points communs avec celle de Syndetic Solutions, elle demeure tout de même encore en retrait quant aux exigences d’enrichissement du catalogue. En l’absence de notices récupérées auprès d’Électre et si l’on se contente d’une notice bibliographique classique, l’usager risque d’être tout autant face à une absence de réponse qu’avec les Opac de la génération précédente. Dans ce cas de figure, le seul point d’amélioration est une très légère réduction de la probabilité de silence, en raison d’une recherche à la Google portant sur tous les mots de la notice. L’absence ou la rareté des contenus enrichis est le premier facteur qui pourrait limiter les succès de l’utilisation de ces Opac de nouvelle génération par des bibliothèques françaises.

À l’exception de Visual Catalog, les outils que nous avons examinés ont été conçus pour des bases utilisant l’anglais. L’exemple de Grokker, dont la version d’essai propose des regroupements assez peu pertinents des références, montre qu’il est indispensable de prendre en considération ne serait-ce que les mots vides d’une langue pour améliorer les performances en recherche. Même si les Opac sont moins tributaires des langues utilisées par le catalogue, mieux vaut vérifier le bon fonctionnement de l’Opac de nouvelle génération sur une base en français avant tout achat. Lors de ce test préalable, l’attention devra porter moins sur le regroupement à la volée des résultats de recherche, peu pratiqué par les Opac, que sur la génération du nuage de mots apparentés.

Très séduisants, tant par leur conception graphique que par leurs performances en recherche, les Opac à facettes sont pour l’instant validés par leur utilisation dans de grosses bibliothèques américaines. Nul doute qu’à moyen terme, ces outils offriront des résultats tout à fait similaires dans les grandes bibliothèques françaises. Dans l’immédiat, mieux vaut adopter une démarche pragmatique où des tests viendront compléter le discours commercial de sociétés qui se battent pour gagner des parts d’un marché que l’on dit saturé.

Illustration
Illustration 5. Exemples de facettes proposées dans le cas d’une recherche portant sur Shakespeare.

Octobre 2007