Les obstacles à l'efficacité de la recherche par sujet dans les catalogues de bibliothèques - Identifying barriers to effective subject access in library catalogs

par Alain Gleyze

F.W. Lancaster, Tschera Harkness Connel, Nancy Bishop and Sherry McCowan
(Library resources & technical services, vol. 35, n° 4, 1991, p. 377-391)

A l'heure où se constituent en France de vastes catalogues collectifs informatisés de bibliothèques (Pancatalogue, Catalogue collectif de France), cet article dont l'un des auteurs, F.W. Lancaster, est l'une des principales autorités mondiales en matière d'analyse et de recherche documentaires, appelle l'attention sur la médiocrité des performances de ces outils pour la recherche par sujet.

L'état de la question

Les principaux travaux sur la question ont été conduits par des chercheurs de langue anglaise. Une typologie des différentes approches de ces travaux est dressée et constitue une synthèse très utile : ainsi sont distingués cinq groupes, tendant respectivement, pour améliorer les performances de la recherche par sujet dans les catalogues en ligne à :
- l'amélioration des points d'accès existants (par exemple, les vedettes matières) ou l'assouplissement des méthodes de recherche ;
- l'extension des points d'accès à d'autres éléments des notices catalographiques existantes ;
- l'addition de nouveaux points d'accès aux notices catalographiques (par exemple, la table des matières et les index) ;
- l'amélioration des procédures d'aide à la recherche, par exemple à la constitution de réseaux sémantiques de vedettes matière ou par l'utilisation de listes d'autorités structurées ;
- la limitation du nombre de notices retrouvées par des recherches simples (par exemple, un mot du titre) pour éviter des sélections trop importantes.

D'autres modes d'approche peuvent être cités, qui font appel à des interfaces conviviales entre le logiciel de recherche et l'utilisateur, ou encore à l'intelligence artificielle.

Quel que soit l'intérêt de l'ensemble de ces travaux, la plupart souffrent de deux limitations principales : leur mesure de la performance est assez simpliste, et leur méthodologie est jugée faible.

En effet, l'amélioration de la qualité de la recherche par sujet dans les catalogues en ligne nécessite un critère d'évaluation plus satisfaisant : « Une recherche par sujet dans un catalogue ne peut être considérée comme entièrement satisfaisante que si l'utilisateur est capable de retrouver les publications qui sont en un sens les meilleures, c'est-à-dire les plus complètes, les plus à jour (up to date) et les plus fiables (authoritative). Or aucune des études précédentes sur la recherche par sujet dans les catalogues n'a utilisé un critère aussi rigoureux ».

La méthode

Cinquante et une listes bibliographiques ont été constituées sur des sujets variés, soit en faisant appel à des experts du domaine, soit en relevant les titres cités dans des articles d'encyclopédies spécialisées récentes. On a ensuite éliminé de ces listes les articles de périodiques, que l'on ne peut retrouver par le catalogue utilisé dans cette recherche.

Une recherche sur chacun des cinquante et un sujets a ensuite été conduite dans le Full bibliographic record, catalogue en ligne de l'université de l'Illinois contenant 4,5 millions de notices. Ce catalogue permet des recherches par auteur, titre, mot du titre, vedette et sous-vedette matière et quelques autres points d'accès. Il existe aussi une possibilité limitée de recherche booléenne. Les recherches ont été conduites par deux membres de l'équipe de recherche, très au courant des possibilités du catalogue mais non informés du contenu des listes bibliographiques. Elles se sont déroulées en plusieurs étapes :
- Recherche par sujet au moyen des vedettes matières.
- Recherche par auteur et par titre des documents non retrouvés par la recherche par sujet. Après cette deuxième recherche, les documents non retrouvés ont été considérés comme absents des collections de l'université de l'Illinois et exclus de la suite des opérations.
- Analyse et évaluation des résultats, afin de déterminer pourquoi certains documents présents dans les listes bibliographiques n'avaient pas été retrouvés par la recherche par sujet et comment il aurait fallu modifier la stratégie de recherche pour les retrouver. L'objectif final restait de définir les caractéristiques d'un catalogue en ligne pour permettre de retrouver les documents les plus importants sur un sujet.

Analyse des résultats

Sur les 607 documents fournis par les cinquante et une listes bibliographiques et présents dans le catalogue, 327 ont été retrouvés par la recherche par sujet, soit 53,9 %. A première vue, ce résultat pourrait être considéré comme honorable, mais il faut tenir compte du fait que les expérimentateurs étaient très compétents dans le maniement du catalogue. En outre, ils avaient pour consigne de privilégier le rappel sans tenir compte de la précision. Ils ont donc pu obtenir, par exemple, quinze documents pertinents dans une liste de plusieurs centaines, ce qui paraîtrait intolérable à un utilisateur normal.

Comment ces résultats médiocres auraient-ils pu être améliorés ? Deux possibilités sont examinées : par une meilleure utilisation des éléments existants des notices catalographiques, et par un enrichissement des notices catalographiques.

En ce qui concerne la première, l'extension de la recherche à des vedettes matières associées proches (closely related subject headings) aurait permis d'améliorer le taux de rappel de six points (de 53,9 % à 60,1 %).

L'utilisation d'autres vedettes matières associées (somewhat related subject headings) aurait permis de porter le taux de rappel à 62,3 %.

Il faut bien entendu observer que toute amélioration même modeste du taux de rappel se paie par une dégradation supplémentaire du taux de précision : plus la recherche est élargie à des termes voisins, plus le nombre de documents retrouvés augmente et plus la proportion de documents pertinents diminue.

L'élargissement de la recherche à d'autres parties des notices bibliographiques existantes (en particulier le titre ou le sous-titre) n'aurait eu que très peu d'effet sur le taux de rappel (dix titres retrouvés de plus), ce qui suggère que le vocabulaire des vedettes matières est très proche du vocabulaire des titres et qu'il n'y a donc pas entre ces deux vocabulaires de véritable complémentarité. Le taux de rappel aurait alors été de 63,9 %.

La première conclusion est donc qu'il n'était pas possible d'améliorer les résultats de manière significative en travaillant sur les notices catalographiques telles qu'elles sont.

En effet, le caractère médiocre des résultats est avant tout la conséquence de la conception du catalogue. Il y a trop peu de points d'accès pour qu'une recherche combinant différents critères obtienne un niveau de rappel acceptable : deux ou trois vedettes matières seulement, à comparer à dix ou douze descripteurs et un résumé de deux cents mots dans la référence d'une banque de données bibliographique. Les sujets complexes ne sont identifiés dans les catalogues que dans la mesure où les vedettes matières combinées qui expriment ce sujet existent dans la liste de vedettes matières utilisée.

En laissant de côté les limitations inhérentes au catalogue utilisé, des améliorations pourraient être recherchées en imposant aux vedettes matières une structure de thésaurus, permettant ainsi d'élargir ou de préciser une recherche. Cependant, les résultats de l'étude conduisent à la conclusion qu'un utilisateur expérimenté et très compétent est incapable de retrouver plus de 50 à 60 % des documents inclus dans des listes bibliographiques préparées par des experts, et que ce résultat n'est atteint qu'au prix d'un manque de précision intolérable.

Pour ce qui a trait à l'enrichissement des notices catalographiques, il apparaît que les échecs de la recherche par sujet ont eu pour cause principale la représentation inadéquate des sujets dans la notice catalographique traditionnelle.

L'addition aux vedettes matières traditionnelles des termes contenus dans les index des documents permettrait de faire passer le nombre des documents retrouvés à 513 sur 607, soit un taux de rappel de 84,5 %.

L'addition des termes contenus dans les tables des matières permettrait de retrouver 86 documents supplémentaires (dont une partie déjà retrouvée par les termes des index).

Le recours au texte intégral (!) permettrait de retrouver 58 documents supplémentaires, portant ainsi le taux de rappel à 90,3 %.

Enfin, 8 documents ne peuvent être retrouvés par aucune méthode, car les mots utilisés pour les indexer n'apparaissent dans aucune partie du texte.

Ces résultats pourraient suggérer que l'addition sous une forme appropriée aux notices catalographiques traditionnelles des termes contenus dans les tables des matières et les index améliorerait la recherche par sujet.

Il n'en est malheureusement rien car, à supposer l'opération économiquement supportable, la dégradation du taux de précision qui en résulterait serait tout à fait intolérable, de nombreuses recherches retrouvant alors des milliers de documents.

Une autre conclusion de cette recherche pourrait être que l'augmentation du nombre des vedettes matières assignées à chaque document, qui pourrait être de vingt ou trente au lieu de deux ou trois, améliorerait la recherche par sujet. Mais là encore les mêmes obstacles se présentent : celui du coût, et celui de la dégradation inacceptable du taux de précision.

L'illusion disparaît

Si l'on admet que les documents cités par des experts sont les plus importants sur un sujet donné, et que ce sont ces documents qu'un utilisateur souhaite retrouver en priorité en consultant un catalogue de bibliothèques, on est conduit à la conclusion que les catalogues en ligne tels qu'ils existent ne permettent pas de répondre correctement à cette demande.

En effet, ces catalogues ne permettent qu'une recherche par sujet très superficielle : ils ne signalent pas les articles de périodiques, ni les contributions individuelles dans un volume collectif. Ils ne donnent donc accès qu'à une partie de la littérature sur le sujet, et pas nécessairement aux meilleurs documents.

Malgré une idée répandue, l'informatisation des catalogues n'a pas amélioré la situation. La fusion de catalogues dont chacun fournit des accès par sujet inadéquats a plutôt conduit à une détérioration car l'augmentation du nombre des notices n'a pas été compensée par l'amélioration des possibilités de sélection.

On peut donc conclure que des améliorations significatives ne sont pas possibles dans le cadre des pratiques actuelles de catalogage et d'indexation. Si l'on veut connaître les documents les plus importants sur un sujet, le mieux est encore de consulter un expert du domaine. Cela ne constitue pas vraiment une surprise, dans la mesure où des travaux antérieurs ont établi que les chercheurs d'information trouvent ce dont ils ont besoin dans les bibliographies spécialisées et dans les bibliographies annexées à des documents déjà connus plutôt que dans des banques de données, des catalogues de bibliothèques, ou en ayant recours aux bibliothécaires. Les outils informatisés de recherche par sujet, banques de données bibliographiques et catalogues en ligne ne permettent pas de retrouver tous les documents sur un sujet, ni de retrouver sur ce sujet les documents les plus importants.

Il est assez paradoxal de constater que l'essor de l'informatique et des télécommunications, qui a grandement amélioré l'accès aux documents primaires, a plutôt causé une dégradation de la recherche par sujet. Mais les bibliothécaires devraient admettre l'idée que des catalogues donnant accès à des millions de notices ne seront jamais que des instruments très rudimentaires pour la recherche par sujet et que pour affiner ce type de recherches, d'autres instruments devraient être élaborés.

Une option possible serait la constitution d'un catalogue collectif pluridisciplinaire, signalant des lectures recommandées à trois niveaux : élémentaire, contenant quelques articles de périodiques, chapitres de livres, ou monographies recommandés pour les débutants ; intermédiaire et avancé, ce dernier étant aussi complet qu'une bibliographie spécialisée détaillée. Il s'agirait d'une sorte d'encyclopédie bibliographique classée par sujets, ou encore d'un regroupement de bibliographies par sujets à différents niveaux de spécialisation. D'après les auteurs, quel que soit le coût de cette entreprise, les ressources qui lui seraient affectées seraient beaucoup mieux employées que dans des tentatives d'amélioration des outils existants.

Au-delà de ses résultats et conclusions, cet article semble témoigner de profonds changements dans la conception et l'idéologie des catalogues matières. Rappelons d'abord qu'il y a déjà longtemps que l'on a mis en doute l'utilité des catalogues matières à prétention exhaustive, d'où, par exemple, l'absence d'un tel catalogue à la bibliothèque de l'Ecole des chartes et l'existence en d'autres lieux de catalogues matières très sélectifs (limités aux ouvrages fondamentaux, ou contenant une bibliographie). On a aussi l'impression que, cent ans après l'utopie du « répertoire bibliographique universel » d'Otlet et de La Fontaine, l'illusion du catalogue parfait et exhaustif est en train de disparaître, ce dont on ne peut que se réjouir. D'autre part, il apparaît que la capacité de l'informatique à traiter de gros volumes ne remédie pas au caractère défectueux des méthodes de travail utilisées en amont, et que faire passer la technique avant les contenus conduit à bien des désillusions. Enfin, tous les documents ne sont pas d'un égal intérêt, et il est important de pouvoir distinguer les plus importants. Le concept fourre-tout et réducteur d'information serait-il en voie de céder la place à une approche plus qualitative et plus respectueuse du savoir des spécialistes ? Il convient, en tout cas, de saluer ce retour du qualitatif dans les préoccupations des bibliothécaires. Plus prosaïquement, toute l'énergie consacrée dans toutes les bibliothèques à inclure dans un ou plusieurs catalogues matières le signalement de tous les documents ne serait-elle pas digne d'un meilleur emploi ?