Les catalogues interactifs en Grande-Bretagne et aux États-Unis
Systèmes et interfaces
Panorama sur l'évolution des trois générations d'OPACs en Grande-Bretagne et aux Etats-Unis. Les OPACs de 1re et de 2e générations, qui utilisent essentiellement des systèmes de recherche pré- ou postcoordonnés, s'avèrent peu satisfaisants pour l'utilisateur. Les systèmes de 3e génération en sont encore au stade expérimental. S'appuyant sur de nombreux exemples, les auteurs présentent l'ensemble des recherches, notamment en ce qui concerne les interfaces, les possibilités de dialogue et d'aide à l'utilisateur, la modification même du contenu des catalogues.
Survey of the development of the three generations of OPACs in Great Britain and in the United States. The OPACs of the first and the second generation, which mainly use pre- or postcoordinated retrieval systems, do not meet the users' needs. The third generation systems are still in an experimental stage. Using various examples, the authors present the researches, above all on interfaces, the possible dialogues and help to the user, and the change in the content of the OPACs.
Les catalogues interactifs ou catalogues en ligne, Online public access catalogues dits OPACs, se répandent rapidement. A l'heure actuelle, ils gagnent en importance en France. Ce mouvement, amorcé aux Etats-Unis vers la fin des années 70 s'est étendu à la Grande-Bretagne au début des années 80. Un grand nombre d'OPACs sont maintenant disponibles dans les bibliothèques publiques, régionales, nationales, scolaires et universitaires outre-Manche et outre-Atlantique. De nombreuses bibliothèques en Scandinavie, Suisse, Allemagne, Belgique, Hollande, Canada, Australie et France se sont aussi mises à automatiser l'accès direct à leurs catalogues. Le présent article tente de dresser un panorama de la situation, mettant l'accent sur la mise en place et la conception des catalogues interactifs accessibles au public dans les bibliothèques anglaises et américaines. Il se concentre plus particulièrement sur les systèmes et les interfaces.
Il existe déjà une abondante littérature en langue anglaise sur les catalogues interactifs (1). C. Hildreth (2) a publié en 1988 un compte rendu sur les OPACs dans une revue américaine et un résumé semblable doit paraître en 1989 dans une revue britannique (3). Plusieurs conférences sur le sujet ont déjà eu lieu en Europe (4, 5, 6). Le tout premier ouvrage sur les OPACs (7) se concentrait sur leurs interfaces. Un autre ouvrage du même auteur, à paraître en 1989 (8), explore les nouveaux développements et futures directions des OPACs. Deux numéros spéciaux ont été réalisés, l'un par une revue britannique en 1986 (9) et l'autre par une revue américaine en 1987 (10). Un ouvrage américain présente les OPACs avec de nombreux exemples d'écrans de catalogues interactifs (11). Deux autres ouvrages résument les études nationales d'évaluation menées aux Etats-Unis par le Council on library resources en 1982-83 (12) et l'impact des OPACs (13). Un récent article (14) recense la littérature de langue anglaise sur l'accès par sujet. Les catalogues interactifs des bibliothèques universitaires britanniques sont accessibles gratuitement dans tous les établissements universitaires grâce au réseau JANET (Joint academic network), un répertoire est disponible (15). Une étude compare quelques-unes des caractéristiques de ces catalogues (16). Cependant, un grand nombre d'articles relatant la mise en place d'un OPAC et les réactions des utilisateurs dans une bibliothèque donnée sont purement descriptifs.
Trois générations
Une typologie des catalogues informatisés en accès direct a été suggérée par Charles Hildreth en 1983 (17). Il distingue trois grandes générations correspondant chacune à un degré croissant de sophistication. Actuellement, la grande majorité des OPACs opérationnels sont des OPACs de deuxième génération, qu'il s'agisse de systèmes développés sur place par exemple dans des bibliothèques universitaires de taille importante, ou de la plupart des systèmes commerciaux. Pour des raisons de simplicité, de présentation et de compréhension, ces trois générations seront décrites l'une après l'autre.
Les OPACs de troisième génération sont dans l'ensemble des prototypes expérimentaux - certains sont cependant disponibles pour les utilisateurs d'une bibliothèque -, mais ne sont pas des produits commerciaux. Il font toutefois preuve de beaucoup de dynamisme et d'ingéniosité dans leur conception, leur développement et leurs méthodes d'évaluation.
Ces générations, qui correspondent à différents principes d'automatisation de l'accès direct aux catalogues, seront présentées, pour l'essentiel, sous deux points de vue : techniques de recherche d'information assistée par ordinateur et interfaces ou dialogues homme-machine. Il est cependant utile de rappeler rapidement quelques points d'histoire sur l'automatisation des bibliothèques en général, aux Etats-Unis et en Grande-Bretagne, points qui ont beaucoup facilité l'automatisation de l'accès aux catalogues et ont influencé la première génération des OPACs.
La première génération
L'automatisation des bibliothèques anglaises et américaines a, dès les années 60, porté sur deux aspects : la gestion du prêt et le catalogage partagé en ligne. Les systèmes de gestion du prêt étaient, en général, des systèmes locaux, développés (surtout sur des mini-ordinateurs) par des compagnies commerciales d'informatique et vendus tels quels aux bibliothèques. L'information bibliographique de ces systèmes était des plus limitées, puisqu'ils servaient à identifier un ouvrage, par l'intermédiaire d'un code, abréviation ou « clé auteur/titre », afin d'assurer la gestion des prêts. L'accès automatisé des catalogues de première génération intégra cette technique de recherche par clé : l'utilisateur devait ainsi entrer les quatre premières lettres de l'auteur et du titre et construire une clé (« capi/marx »), afin de retrouver un ouvrage. Ce procédé a, depuis, été amélioré : la clé est dérivée automatiquement à partir de ce qui est entré par l'utilisateur.
Le catalogage partagé en ligne fut basé sur des réseaux de bibliothèques, par exemple RLIN-Research libraries information network aux Etats-Unis ou SWALCAP-South West automated libraries cataloguing project en Grande-Bretagne. Ces réseaux étaient souvent organisés en coopératives, partageant le coût d'un ordinateur central puissant avec accès à une base de données collective par des terminaux décentralisés sur chaque site. Les règles de catalogage AACR2 (Anglo-American cataloguing rules) furent utilisées afin de créer le format informatique commun d'échange bibliographique MARC (Machine readable cataloguing). Les ordinateurs centraux de chaque réseau étaient utilisés pour fournir à intervalles réguliers des catalogues locaux à chaque membre du réseau, soit sur fiches papier aux Etats-Unis, soit sur microfiches en Grande-Bretagne. Souvent les bibliothèques utilisaient deux systèmes séparés : un système local pour la gestion du prêt, un système partagé pour le catalogage.
Les coûts de matériel et logiciel informatiques ayant considérablement diminué, il ne fut plus nécessaire de recourir à des solutions coopératives pour l'informatique et la production de microfiches. Chaque bibliothèque d'un réseau put se procurer son propre ordinateur et plusieurs terminaux accessibles au public afin de consulter directement le catalogue. Cette évolution progressive, d'un type d'organisation à un autre, n'est pas allé sans problèmes. En Grande-Bretagne, la tendance est maintenant à l'intégration 1 : les sociétés de service vendent des systèmes locaux « intégrés », qui traitent pratiquement toutes les fonctions de gestion de bibliothèque (acquisitions, prêt, catalogage, accès au catalogue, contrôle des périodiques, et gestion de stock). Cette intégration est moins sensible aux Etats-Unis 2, où les bibliothèques ont aussi tendance à utiliser des moyens technologiques diversifiés tels les disques compacts (19).
Le catalogage partagé en ligne devait influencer la première génération d'OPACs dans la mesure où les catalogueurs effectuaient également des recherches d'ouvrages, utilisant d'abord des clés uniques d'identification des livres, mais aussi des noms, mots ou phrases précis correspondant au moins au début des noms d'auteurs, du titre ou de la vedette-matière, de la même façon que l'on cherche une entrée dans un catalogue auteur, titre ou matière sur fiches papier. L'information bibliographique contenue dans les catalogues partagés se conforme au format MARC ; elle est donc assez riche et comprend tous les champs de la notice bibliographique.
Les techniques de recherche d'information assistée par ordinateur de la première génération des catalogues en ligne suivent ainsi les principes de la précoordination et permettent de retrouver chaque champ catalographique tel qu'il apparaît dans l'enregistrement bibliographique. L'ordinateur effectue un appariement exact par « phrase », entre ce qui est entré par l'utilisateur et ce qui est contenu en mémoire. Ce procédé est très efficace et surtout très rapide si l'appariement réussit ; un de ses avantages tient à ce que l'on est certain de retrouver l'ouvrage désiré : si l'on veut le titre L'Economie on ne retrouvera que ce titre-là. Par contre, si l'utilisateur ne connaît pas à l'avance l'ordre exact de la phrase (le nom de l'auteur, le titre ou la vedette-matière exacts) et se trompe, l'enregistrement bibliographique ne sera pas retrouvé. Cependant, le mécanisme de recherche fonctionne souvent en présentant à l'écran la liste des « phrases » alphabétiquement proches de la phrase entrée par l'utilisateur, offrant une possibilité de « butinage » ou d'exploration du contenu des index par auteur, titre ou vedette-matière sur une base alphabétique. Ce procédé est très proche de l'examen des fiches classées par ordre alphabétique dans les catalogues traditionnels.
Les catalogues en ligne de première génération ont souvent été jugés inférieurs aux catalogues traditionnels. Cette opinion est entièrement justifiée. Ils n'étaient que des versions simplifiées des catalogues traditionnels sur fiches papier ou microfiches. Ils en reproduisaient les mêmes principes de consultation de fichiers (accès par phrase) et de façon plutôt moins efficace : il est plus facile de manipuler et d'examiner des fiches « matérielles 3 » que des pages d'écran, difficiles à lire et un clavier, difficile à manier. De plus, le dialogue homme-machine était peu satisfaisant : ces catalogues étaient pour la plupart plutôt primitifs et difficiles à comprendre, employant le vocabulaire spécialisé des catalogueurs, par exemple les noms des champs catalographiques. Par ailleurs, ils n'offraient que peu ou pas de messages d'aide ou d'explications à l'utilisateur ; ils ne comportaient qu'un seul format de visualisation des enregistrements, généralement difficile à comprendre (MARC ou dérivé de MARC) ; la qualité, la lisibilité et l'esthétique de leurs écrans laissaient à désirer (22) ; ils ne disposaient que d'un seul mode d'interaction entre l'utilisateur et le système, et non de deux, le niveau expert et le niveau débutant. S'y ajoutaient les problèmes suivants :
- le manque de points d'accès, en particulier pour les recherches par sujets, c'est-à-dire l'impossibilité d'accéder à n'importe quel mot du titre ou de la vedette-matière même s'il n'est pas au début de la phrase ;
- l'impossibilité de modifier et d'améliorer une interrogation à partir des premiers résultats obtenus ;
- la faiblesse des procédés de butinage et d'exploration de la base de données en dehors de la visualisation des entrées par ordre alphabétique ;
- l'absence d'exploitation des systèmes perfectionnés d'organisation de l'information des bibliothèques (les fichiers matière et leur structure de renvois et les systèmes de classification), mises à part les recherches de numéros de classification exacts, qui supposent qu'on les connaisse déjà.
La deuxième génération
Les catalogues interactifs de seconde génération actuels représentent un mariage (23) entre les catalogues interactifs de première génération et les systèmes commerciaux d'interrogation des bases de données couramment utilisés.
Cette évolution n'a pas été homogène : certains OPACs de première génération ont progressivement incorporé les techniques de la deuxième, parfois au niveau local (24) ; d'autres ont été conçus dès le départ comme les systèmes commerciaux d'interrogation de bases de données. Mais il est maintenant relativement clair pour la plupart des concepteurs que ces deux approches sont nécessaires et complémentaires l'une de l'autre.
Les systèmes commerciaux d'interrogation de bases de données ont, dès le début des années 60, utilisé la méthode de recherche d'information par « mot libre » ou postcoordination 4. En effet, les enregistrements signalant des articles de périodiques contiennent beaucoup de texte, en particulier dans leurs abstracts. Il est impossible d'interroger un abstract de vingt lignes en se servant uniquement de l'accès par phrase exacte. Les techniques de recherche d'information par mots libres et par combinaison booléenne de ces mots conviennent beaucoup plus à ce type de fichiers. Ces insuffisances des catalogues de première génération furent apparentes au bout d'un certain temps, en particulier l'absence de points d'accès pour les recherches par sujet.
Les moyens d'interrogation par mots libres mettent à profit les possibilités de l'ordinateur et donnent une grande souplesse d'utilisation. Beaucoup de catalogues de deuxième génération permettent de restreindre l'interrogation aux champs voulus, d'exécuter des troncatures à droite ou en milieu de mot, d'effectuer des recherches sur mots adjacents, et de limiter l'interrogation à certaines dates, langues, types de publications, etc. Les enregistrements retrouvés peuvent aussi être visualisés et imprimés selon différents formats, comme sur les serveurs et bases de données commerciaux. On a actuellement tendance à considérer les catalogues en ligne comme des systèmes de recherche d'information automatisée semblables à leurs grands frères, les bases de données bibliographiques accessibles sur les gros serveurs commerciaux. Cependant, les catalogues en ligne présentent quelques spécificités qu'il convient de ne pas oublier :
- un catalogue interactif doit être utilisable directement, sans intermédiaire professionnel, par des utilisateurs non formés et inexpérimentés ; un utilisateur final n'a ni le temps ni l'envie de consulter des manuels compliqués; des messages et des explications en ligne doivent être présents afin d'expliquer les mécanismes d'interrogation ;
- les enregistrements présents dans les catalogues informatisés sont relativement démunis de texte, ils n'ont pas d'abstracts, l'indexation par sujet est en général peu sophistiquée, le vocabulaire contrôlé assez rigide ;
- la base de données d'un catalogue couvre le fonds d'une bibliothèque et inclut donc souvent des données provenant d'un grand nombre de disciplines, alors que les bases de données commerciales sont en général très spécialisées. La nature encyclopédique des catalogues pose d'autres types de problèmes, en particulier en ce qui concerne l'orientation par sujet.
Les concepteurs des catalogues de deuxième génération ont tenté de faire face à quelques-unes de ces caractéristiques sous deux angles, celui des techniques de recherche d'information et celui de l'interface. Dans le premier cas, ils ont combiné l'approche des catalogues traditionnels de recherche sur phrases précoordonnées et de butinage alphabétique (sur les titres et les vedettes-matière) avec l'approche booléenne de recherche sur mots libres ; la méthode de recherche postcoordonnée sur des champs spécifiques (titres, collectivités auteurs, vedettes-matière, notes, titres de séries) tente de pallier la pauvreté de l'indexation par sujet et le manque de texte ; de répondre aussi au fait que les utilisateurs de catalogues ne sont pas experts dans l'usage des vocabulaires contrôlés d'indexation par sujet (par exemple PRECIS ou LCSH).
Les dialogues homme-machine sont plus orientés vers des usagers inexpérimentés. Ils comprennent des menus, des messages et explications, des suggestions en ligne, des messages d'erreurs plus clairs et explicatifs. En fait, les catalogues en ligne conçus dans cette optique sont souvent d'un usage plus facile que les systèmes commerciaux, dont les interfaces ne sont pratiquement que des langages de commande à syntaxe complexe, utilisables seulement par des intermédiaires professionnels. Améliorer la facilité d'usage de systèmes de recherche d'information basés sur les techniques de post-coordination et les principes booléens n'est pas un mince exploit, et les catalogues en ligne ont affronté cette gageure avec plus de succès que les bases de données commerciales. D'autant qu'on a en même temps rendu les catalogues en ligne plus faciles à gérer, à mettre à jour et à maintenir que les catalogues sur papier ou microfiches ; qu'on en a fait aussi des catalogues plus appréciés par les utilisateurs.
Les catalogues interactifs de deuxième génération peuvent donc être considérés comme des systèmes de recherche d'information à part entière, mais d'une nature particulière. La plupart d'entre eux répondent aux objectifs historiques du catalogue, énoncés par Cutter (25) :
- un catalogue doit permettre de trouver un livre dont on connaît l'auteur, le titre ou le sujet ;
- il doit pouvoir montrer quels ouvrages de tel auteur la bibliothèque possède, quels ouvrages elle possède sur un certain auteur, ou sur un certain type de littérature ;
- il doit aider à choisir un ouvrage d'après son édition ou son caractère (littéraire ou documentaire).
Réunir les structures du catalogue traditionnel aux possibilités et à la flexibilité des systèmes classiques de recherche d'information assistée par ordinateur permet de répondre à ces objectifs.
Insuffisances de la deuxième génération
Les catalogues de deuxième génération peuvent être utilisés de façon satisfaisante par les bibliothécaires et par les utilisateurs formés qui en comprennent les avantages et inconvénients. Néanmoins, il est encore exact que les catalogues de deuxième génération « ne sont pas des systèmes de recherche d'information faciles à utiliser et efficaces pour une large proportion d'utilisateurs occasionnels et inexperts » (26).
Interfaces
Les bibliothécaires et les concepteurs de système risquent de s'arrêter à ce plateau de la deuxième génération: ils croient souvent avoir résolu le problème en ayant inclus les techniques conventionnelles et reconnues de recherche d'information par mots libres et opérateurs booléens. Ces techniques sont bien adaptées pour les bases de données spécialisées, indexées en profondeur et qui comportent de longs abstracts, quand l'interrogation est faite par des intermédiaires professionnels ou des utilisateurs finals formés (en général à l'usage d'une ou deux bases de données), expérimentés et assidus - et encore ces derniers peuvent eux aussi avoir des problèmes (27). Mais il est moins évident que ces techniques booléennes soient adaptées dans d'autres contextes. En 1983, C. Hildreth exprimait déjà des doutes sur l'utilité des techniques booléennes dans le contexte des OPACs : « To Boolean or not to Boolean » (28). Ces techniques ne sont peut-être pas la meilleure ou l'unique façon d'interroger de larges fichiers encyclopédiques comme les catalogues en ligne, surtout en accès direct, sans passer par des intermédiaires professionnels.
Les interfaces des OPACs présentant les techniques de recherche sur mots libres sont plus simples que ceux des systèmes bibliographiques commerciaux en ligne : ils peuvent être des langages de commande plus ou moins simplifiés, améliorés grâce à des menus, messages et suggestions en ligne ; des dialogues plus rigides, où la possibilité de manipuler des mots libres est moins grande ; ou même des interfaces entièrement composés de menus, où l'utilisateur est guidé d'écran en écran, où il est difficile de revenir en arrière et où, pour chaque transaction, l'utilisateur doit passer par une série de choix obligatoires et répétitifs.
En général, la syntaxe et les aspects plus mécaniques de l'interrogation sont simplifiés au niveau de l'interface. Par exemple, pour sélectionner une recherche par sujet, l'utilisateur n'aura qu'à choisir dans un menu, presser une touche du clavier, ou même toucher l'écran (29). Si plusieurs mots sont entrés, le système effectuera une combinaison booléenne automatique simple sur ces mots en les combinant tous avec l'opérateur booléen et; certains champs seront automatiquement invoqués pour certaines interrogations, par exemple, si l'utilisateur a choisi une recherche par sujet sur mots libres, les champs suivants seront incorporés : titres, notes, titres de séries, vedettes-matière. Mais le degré de liberté et de souplesse possible avec un véritable langage de commande est en général réduit.
Les interfaces de deuxième génération présentent cette caractéristique : leurs concepteurs suivent pour l'essentiel le modèle des langages de commande même s'ils les ont améliorés. Un procédé assez commun consiste à construire deux interfaces: le premier, très semblable à un langage de commande classique, s'adresse aux utilisateurs expérimentés, tandis que le second procède par menus à l'attention des utilisateurs inexpérimentés. Ainsi, le système Melvyl à l'Université de California (30) et le système commercial URICA-SDI offrent ces deux modes d'interaction entre le système et l'utilisateur. Ce schéma suppose que les utilisateurs persévérants finiront par apprendre le langage de commande (les autres se débrouilleront avec les menus et s'en contenteront), ensuite que la seule véritable façon d'exploiter les techniques de recherche sur mots libres est de se servir d'un langage de commande. Un langage est sûrement plus efficace que des menus une fois appris, bien compris et maîtrisé. Tout cela demande beaucoup de temps (sans compter l'adaptation à un fichier particulier qu'il faut également connaître). C'est la raison pour laquelle les professionnels, documentalistes et bibliothécaires sont formés à l'interrogation des bases de données.
Facilités d'usage
Mais il faut pouvoir imaginer d'autres moyens que les langages de commande pour exploiter l'accès par mots libres. Il importe d'explorer de nouvelles façons de faire au lieu d'imposer un langage de commande à l'interface; cette procédure implique un apprentissage obligatoire pour l'utilisateur qui veut pleinement bénéficier du système. Un langage de commande ne propose qu'une seule façon de présenter les techniques de recherche d'information assistée par ordinateur. Il convient de dépasser l'opposition entre la facilité d'usage (représentée par les menus) et l'efficacité (représentée par les langages de commande), car elle limite les progrès dans le domaine de la conception d'interfaces et de systèmes.
Un autre facteur, tout aussi important, intervient : si nous n'envisageons que ces deux types d'interfaces, nous divisons nos utilisateurs en deux groupes, les novices et les expérimentés. Beaucoup d'usagers n'appartiennent ni à l'un ni à l'autre groupe (31). Linda Arrett (32) nous prévient que si nous associons les interfaces faciles à utiliser (donc peu efficaces) aux utilisateurs inexpérimentés, occasionnels et non persévérants, nous « sacrifions un apprentissage progressif » pour toute une partie de notre population d'utilisateurs. Il faut donc dépasser le système des menus, mais pas forcément en imposant les langages de commande.
Les systèmes en ligne commerciaux semblent avoir exercé une certaine fascination sur les concepteurs de catalogues interactifs et être considérés comme le modèle à suivre. Ce phénomène est dangereux de deux points de vue : blocage de l'innovation, non prise en compte des besoins de nos utilisateurs qui forment une population très large et variée. Ces deux aspects, au reste, ne sont pas isolés l'un de l'autre. Se concentrer sur les difficultés que les utilisateurs rencontrent lorsqu'ils interagissent avec nos systèmes permet précisément d'améliorer et de faire progresser les systèmes et leurs interfaces.
En fait, l'interface ou le dialogue homme-machine n'est pas non plus quelque chose de complètement séparé des techniques de recherche d'information utilisées par l'ordinateur. Tous deux sont intrinsèquement liés. La visibilité des techniques doit passer par un interface homme-machine, et cet interface révèle les problèmes et insuffisances de ces techniques. En fait, un interface devrait faire tampon, s'interposer, négocier entre ces insuffisances et l'utilisateur. Les OPACs de deuxième génération montrent quelques applications de ces principes.
Les interfaces présentant les techniques de recherche sur mots libres sont souvent rigides, dans la mesure où ils ne pardonnent pas les erreurs (en particulier les erreurs d'orthographe ou de frappe), et les techniques précoordonnées ne tolèrent pas, en plus, des erreurs dans l'ordre des mots. Le mécanisme de recherche sur mots libres ou sur phrases est toujours un appariement exact. Avec ce mécanisme, les documents ne seront retrouvés que s'ils correspondent exactement aux critères d'interrogation, qu'il s'agisse d'une phrase précoordonnée ou d'une équation booléenne avec plusieurs mots postcoordonnés. Dans les deux cas, le mécanisme est précis et rigide. La moindre rigidité des systèmes précoordonnés tient à une différence dans l'interface, la présentation ou l'organisation du dialogue de recherche. Dans les systèmes précoordonnés, la manière de présenter le résultat d'un appariement par phrase exacte tolère davantage les erreurs minimes de frappe ou d'orthographe.
Si un système, basé sur les recherches de mots libres ne trouve pas un terme donné, il répondra, sans autre commentaire, qu'il n'a rien trouvé, abandonnant l'utilisateur à son triste sort. Par contre, un système de recherche sur phrases donnera toujours une réponse, même s'il ne trouve pas le terme recherché, sous la forme d'écrans d'entrée alphabétiquement proches du terme recherché. Un simple examen visuel permettra de repérer le titre ou le nom d'auteur, si l'entrée correcte n'est pas trop éloignée alphabétiquement de la phrase qu'il a entrée (souvent, grâce à cette présentation des résultats, l'utilisateur ne se rend même pas compte qu'il a mal tapé son mot). Pour les mêmes raisons, à l'inverse de l'interface d'un catalogue précoordonné de première génération, l'interface des systèmes utilisant des mots libres et des opérateurs booléens n'offre pas de possibilité immédiate de « butinage » quand l'appariement échoue.
Les interfaces à langage de commande comportent bien une possibilité de butinage dans des listes de courts enregistrements d'une ou deux lignes (butinage selon l'ordre chronologique des enregistrements et parfois selon l'ordre de leurs numéros de classification), mais seulement si l'appariement a réussi. Les interfaces à langage de commande possèdent bien la possibilité de butiner dans les index ou listes alphabétiques de descripteurs, mais elle n'est pas intégrée dans le dialogue. L'utilisateur doit savoir qu'elle existe afin de pouvoir s'en servir. Ces exemples illustrent bien l'importance de l'interface dans la conception du système (33, 34). Ils illustrent aussi la nécessité de maintenir les modes de présentation et de dialogue des catalogues de première génération qui ne doivent pas être ignorés, voire totalement remplacés par des langages de commande.
Les exemples suivants concernent la présentation à l'écran des diverses techniques d'appariement et de recherche d'information.
La précoordination et la postcoordination constituent, comme on l'a vu, les deux méthodes fondamentales et complémentaires pour interroger les catalogues interactifs. Mais cette complémentarité peut s'avérer une source de difficulté pour l'utilisateur inexpert qui n'en comprend pas forcément les avantages et inconvénients respectifs. Il ne sait peut-être même pas que les deux méthodes existent, laquelle choisir et comment se servir de chacune. Sur un même catalogue, les deux méthodes peuvent, avec les mêmes termes, aboutir à des résultats opposés. Or, elles ne sont en général que très peu, ou pas du tout, intégrées dans le dialogue homme-machine. Les exemples de la fig. 1 illustrent ce problème : une interrogation sur « genetic research » en utilisant le catalogue interactif américain PALS donne des résultats très différents selon le critère d'interrogation. Une recherche sur le titre exact (c'est-à-dire l'accès par phrase) ne donne rien ; le titre tronqué trouve un enregistrement; les mots du titre (c'est-à-dire l'accès postcoordonné restreint au champ du titre) donnent deux enregistrements ; enfin une recherche sur les mots libres de tous les champs donne 18 enregistrements.
Le système suppose que l'utilisateur comprenne chaque méthode d'interrogation et en adapte l'usage à ses besoins. Ainsi, une recherche sur le titre exact n'est appropriée que si on cherche un ouvrage connu : trouver tous les titres contenant le mot « économie » est inutile et représente une perte de temps si on veut seulement L'Economie. Chercher les mots libres, souvent éloignés les uns des autres, dans plusieurs champs, est une bonne procédure quand le titre exact n'est pas connu ou quand l'utilisateur est intéressé par un sujet et entre des mots non contrôlés. PALS fait tout de même une suggestion lorsque l'interrogation sur titre exact a échoué ; le seul message d'aide présent propose à l'utilisateur d'essayer la recherche sur mots du titre (« try the title term search - it's more general »).
Mais de nombreux systèmes, bien que possédant tout l'éventail des techniques de recherche d'information assistée par ordinateur, les présentent à l'état brut: l'utilisateur se retrouve seul à devoir démêler leurs singularités, sans parler de la réflexion qu'il doit mener sur le sujet de sa recherche. Une prise de conscience des problèmes de communication homme-machine et de présentation des techniques de recherche employées par l'ordinateur devient indispensable.
Les utilisateurs
Peut-être toute réelle innovation devrait-elle commencer par le commencement, c'est-à-dire montrer un réel intérêt pour ceux qui sont les plus concernés, les utilisateurs. Les études sur l'utilisation des OPACs et sur la satisfaction des utilisateurs ont pris de nombreuses formes: enquêtes (35, 36), questionnaires (37), entretiens individuels et collectifs (38), observations directes ou indirectes (39), analyses de transactions enregistrées automatiquement (40, 41), expérimentations (42, 43). Quelques-unes de ces études ont permis d'améliorer les conceptions des OPACs (44), ou ont aidé à choisir entre deux systèmes (45, 46). Les résultats de ces recherches donnent les éléments suivants :
- beaucoup d'interrogations échouent: recherches interrompues et non menées à bout, appariements qui échouent ou qui produisent des quantités de références énormes et intraitables ;
- frustration et confusion sont fréquentes chez l'utilisateur durant l'interrogation : « Où suis-je ? », « Que puis-je faire maintenant ? », « Comment puis-je recommencer ? » ;
- l'utilisateur, très souvent, ne connaît ni le vocabulaire ni la politique d'indexation, d'où des échecs d'appariement entre les termes entrés et le vocabulaire du système ;
- les utilisateurs ne comprennent pas les différences fondamentales entre les diverses techniques de recherche d'information, c'est-à-dire les méthodes précoordonnées d'accès par phrase et les méthodes postcoordonnées d'accès par mots libres et opérateurs booléens ;
- de nombreuses stratégies de recherche sont partielles et il y a beaucoup d'occasions manquées de trouver des références pertinentes, par exemple : quand de nombreuses références sont trouvées, elles ne sont pas examinées et l'interrogation n'est pas reformulée de façon plus précise afin de diminuer le nombre de références ; des recherches sur mots du titre ne sont pas suivies de recherches sur les numéros de classification ou sur les descripteurs des enregistrements déjà trouvés et pertinents.
Les systèmes et interfaces des OPACs de deuxième génération laissent aux utilisateurs le soin de reformuler et de recommencer, sans aucune assistance, leur interrogation jusqu'à ce qu'ils soient satisfaits. Une large proportion d'utilisateurs n'a pas les moyens d'accomplir cette tâche.
Cette approche suppose que les utilisateurs sachent précisément ce qu'ils veulent et puissent le décrire avec le vocabulaire du catalogue utilisé, en employant de préférence des descripteurs ; qu'ils puissent aussi déterminer avec précision comment leurs termes sont reliés les uns aux autres, dans leur ordre de proximité et/ou dans leur relation logique booléenne. Dans ce cas-là, et celui-là uniquement, le mécanisme d'appariement exact marche parfaitement. Marcia Bates (47) critique l'approche, prédominante dans les OPACs autant que dans les serveurs commerciaux, qui nécessite « un appariement parfait avec un terme excellent et unique ». Le système divise en effet le catalogue en deux: les enregistrements qui répondent exactement aux critères d'appariement et tous les autres, délaissés. Il n'existe pas d'appariement partiel ou « approximatif » dans les OPACs de seconde génération.
Même les meilleurs de ces OPACs n'aident pas l'utilisateur à transformer une demande d'information, qui peut consister en un intérêt plus ou moins vague, en une description explicite compréhensible par le système. Ils n'aident pas non plus à progresser d'un élément connu à d'autres, plus ou moins voisins. Il n'est guère réaliste de supposer que les utilisateurs maîtrisent les langages et structures des fichiers de bibliothèque, ou qu'ils comprennent les techniques de recherche d'information. Il leur est plus facile de reconnaître ou de repérer quelque chose qui peut les intéresser, que de produire des descriptions formelles.
En fait, ils ont surtout besoin d'aide quand leur recherche manque de précision, quand ils ne parviennent pas à décrire leur besoin d'information et quand ils ne savent pas à l'avance quel résultat ils veulent obtenir. Tel est bien le but d'un système d'information. Les chercheurs qui s'intéressent aux utilisateurs et à leurs besoins en information (48, 49, 50) disent que ces derniers ne se servent d'un système d'information que lorsqu'ils ont reconnu qu'ils ne savent pas quelque chose, qu'il y a une brèche dans leurs connaissances. La nature même de cette brèche, de ce manque, fait qu'ils ne peuvent décrire ce qu'ils ne savent pas.
Ce phénomène amène à se poser des questions sur l'utilité des mécanismes exacts et rigides de recherche d'information assistée par ordinateur. Certains chercheurs (51, 52, 53) se sont plus particulièrement intéressés aux procédures de butinage, d'exploration et de navigation qu'ils opposent à la recherche exacte. Ils associent ces deux types d'interaction à des besoins d'information différents. Comme on l'a vu, quand un utilisateur cherche un ouvrage déjà connu ou peut exprimer sa demande de façon précise dans le langage du système, la procédure de recherche exacte convient parfaitement. Mais lorsque son but est moins bien défini, l'utilisateur a besoin d'aide dans sa démarche d'exploration de domaines inconnus. Les formes de butinage couramment disponibles ne permettent de naviguer dans des listes alphabétiques que de façon linéaire et rigide. Leur but sous-jacent est, en fait, de permettre à l'utilisateur d'identifier la forme « correcte » d'un terme dans le vocabulaire contrôlé. Il n'existe pas d'autres formes de navigation, comme, par exemple, une exploration non linéaire qui permettrait de « sauter » hors séquence d'un concept à un autre, menant ainsi à découvrir d'autres zones associées à l'intérieur de la base de données.
On peut faire le rapprochement avec la démarche de Christine Borgman (54), qui analyse les problèmes des utilisateurs de systèmes d'information interactifs, distinguant problèmes mécaniques et problèmes conceptuels. Manipuler le clavier, faire des fautes de frappe, utiliser les codes et la syntaxe des langages de commande constituent des problèmes mécaniques. Ils affectent principalement les utilisateurs occasionnels et inexpérimentés. Les problèmes conceptuels sont plus difficiles à résoudre et touchent autant les intermédiaires spécialisés que les utilisateurs novices. Nous avons aussi suggéré (55, 56, 57) une typologie plus fine des problèmes conceptuels des utilisateurs :
- leur difficulté à exprimer leur recherche à l'aide de critères d'interrogation précis, nécessaires dans les systèmes actuels, et, en particulier, leur difficulté à combiner des concepts selon la logique booléenne ;
- leur difficulté (et résistance) à faire correspondre leurs propres termes au langage de la base de données utilisée ;
- leurs propres problèmes conceptuels liés à la découverte d'un manque dans leur savoir : le sujet peut leur être en partie inconnu, ils construisent de nouveaux liens entre ce qu'ils savent déjà et ce qu'ils ont besoin de connaître et d'apprendre.
La troisième génération
Les innovations dans la conception des catalogues interactifs peuvent être présentées comme suit :
- d'abord celles qui aident à la formulation de critères d'interrogation et de combinaison booléenne et qui placent le problème de la manipulation des techniques d'interrogation dans le camp du système plutôt que dans celui de l'utilisateur ;
- puis celles qui attaquent le problème du vocabulaire de l'utilisateur par rapport à celui de la base de données ;
- et enfin celles qui s'intéressent à l'orientation de l'utilisateur et à son exploration et sa découverte de nouveaux domaines.
Techniques d'interrogation
La première façon d'améliorer le service est d'exploiter de façon active les éléments à la disposition du système : les champs catalographiques et l'ordre des mots dans ces champs, la nature et le nombre de mots entrés par l'utilisateur, le nombre de références initialement trouvées. Il existe plusieurs manières d'exploiter ces éléments. Certains systèmes, par exemple PALS (cf. fig. 1), suggèrent d'autres stratégies quand la première formulation produit trop, ou pas, de résultats. Mais le système reste toujours passif et laisse à l'utilisateur le soin de recommencer et de mener une nouvelle recherche lui-même ; ce dernier doit donc connaître les protocoles d'interrogation et les opérateurs nécessaires.
Le catalogue interactif de Dartmouth College aux Etats-Unis utilise une autre méthode : avec les mots entrés par l'utilisateur, il crée une équation booléenne « invisible » et recherche certains champs choisis automatiquement. Ainsi une recherche par sujet combine avec l'opérateur et les mots des champs du titre et des vedettes-matière. L'utilisateur n'a pas à combiner ses concepts lui-même ni à choisir des champs d'interrogation. Le système indique ensuite à l'utilisateur quels mots et quelles phrases appartenant à quels champs des enregistrements retrouvés ont été utilisés pour l'appariement. Cette opération reste tout de même relativement simpliste : combiner deux ou trois mots avec et ne donne souvent aucun résultat. Nous nous trouvons à nouveau face au même dilemme : améliorer la facilité d'usage et diminuer les capacités du système.
Une autre méthode, illustrée par le catalogue interactif expérimental Okapi (58, 59) financé par le British library research & development department, reformule automatiquement et refait l'interrogation automatiquement jusqu'à ce que l'appariement ait réussi. Il s'agit d'essayer (dans un certain ordre de priorité) toutes les stratégies possibles pour retrouver quelque chose dans le fichier, afin de ne pas laisser ce travail de reformulation à l'utilisateur. Plusieurs mécanismes peuvent être utilisés : le système peut se servir de certains critères pour prendre des décisions sur l'action à suivre en cas d'échec. Ces critères sont le but de l'interrogation (sujet, auteur, titre), le nombre de mots entrés par l'utilisateur, le type de champ à interroger et le nombre de références trouvées. Par exemple, si l'utilisateur est intéressé par un sujet, le système peut commencer par le descripteur exact (accès par phrase), puis essayer une approche par mots libres, d'abord sur les descripteurs, ensuite sur les mots du titre (d'abord en essayant les mots les uns à côté des autres, puis dans un ordre différent dans la même phrase), puis dans le même champ, dans des champs différents, etc.
Les arbres de décision d'Okapi incorporent ces principes (pour les recherches sur titre et auteur/ titre). Le catalogue interactif LCS/WLN de l'Université d'Illinois aux Etats-Unis (cf. fig. 2), après un appariement négatif sur la phrase speckle interferometry dans le champ des descripteurs, l'exécute à nouveau sur les mots du titre en les combinant avec l'opérateur booléen et.
D'autres systèmes intègrent de façon active des mécanismes plus sophistiqués de combinaison, de pondération et de tri automatiques. Ces mécanismes ont pour origine les recherches expérimentales sur les systèmes de recherche bibliographique traditionnels (61, 62). Ces mécanismes de combinaison commencent par chercher des enregistrements avec tous les mots présents dans l'interrogation (en les combinant avec et), puis combinent par exemple seulement 3 des 4 mots présents, puis 2 des 4 mots présents, etc. La pondération automatique sert à décider dans quel ordre éliminer les mots : les mots les plus fréquents, considérés comme plus communs que ceux apparaissant dans peu d'enregistrements, sont éliminés les premiers.
Le dernier recours du système, si ces méthodes s'avèrent inefficaces, consiste à utiliser l'opérateur booléen ou sur les mots les moins fréquents. Le système effectue automatiquement toutes les sortes de combinaisons booléennes avec les opérateurs et, ou et même quelquefois sauf (Tome/Searcher (63), un logiciel commercial anglais permet ainsi d'interroger les bases de données bibliographiques sans connaître les techniques booléennes). Ces mécanismes imitent l'intermédiaire professionnel lorsqu'il combine et recombine différents mots à l'aide d'opérateurs différents afin de mieux cerner et affiner la recherche.
L'utilisateur n'a pas besoin de comprendre les opérations booléennes ni de savoir les manipuler et reformuler sa question en cas d'échec. Le tri automatique permet de présenter les enregistrements dans un ordre de similarité décroissant avec les termes entrés ; les documents comportant le plus de mots et les mots les moins communs sont présentés les premiers. L'utilisateur doit seulement savoir ce dont il a besoin et le reconnaître. Okapi incorpore ces mécanismes de combinaison, de pondération et de tri automatiques dans ses arbres de décision (54).
Il existe encore un meilleur moyen d'améliorer les performances : si des documents sont retrouvés dans le fichier, un dialogue s'instaure avec l'utilisateur pour lui demander son avis sur la pertinence des documents trouvés et pour savoir s'il est satisfait. Ce mécanisme, appelé feedback de pertinence, est suivi d'une reformulation automatique de l'interrogation 5.
Une fois que l'utilisateur a émis ses jugements de pertinence, le système est à même de reformuler et de réexécuter une meilleure interrogation à l'aide de termes et de poids plus « justes » (du moins plus adaptés à l'utilisateur) : le système recalcule différents poids et révise son choix de termes et sa stratégie de recherche en fonction des caractéristiques des enregistrements jugés pertinents et non pertinents par l'utilisateur, tout comme le ferait un documentaliste professionnel après avoir demandé à l'utilisateur de donner son opinion sur les premiers documents retrouvés.
Un jugement de pertinence s'exprime souvent de manière binaire (pertinent, non pertinent). On a aussi proposé d'employer des jugements multiples, avec au moins trois catégories (oui, non, ne sait pas), sinon davantage. CITE (67), un catalogue interactif opérationnel spécialisé - qui se sert du vocabulaire contrôlé MeSH (Medical subject headings) - à la Bibliothèque nationale de médecine aux Etats-Unis, utilise ces techniques un peu différemment : il propose à l'utilisateur de juger de l'importance de chaque vedette-matière dérivée par le système à partir de la recherche exprimée en langage naturel par l'utilisateur, et de les ordonner afin que la pondération ne soit pas effectuée automatiquement par le système. Le principe d'affinage et de réajustement de l'interrogation s'applique tout au long de la recherche : les premiers documents retrouvés sont jugés par l'utilisateur, le système en dérive de nouveaux poids et termes et exécute une nouvelle stratégie de recherche, etc. Dans le cas de CITE, comprendre le vocabulaire contrôlé de MeSH représente un avantage certain et les utilisateurs sont en général des médecins ou des personnels paramédicaux.
D'autres mécanismes sont basés sur des techniques linguistiques morphologiques. Ils effectuent des procédures de vérification automatique de l'orthographe des mots à partir d'algorithmes d'appariement phonétique, et des troncatures automatiques sur les racines morphologiques des mots. L'équipe de recherche travaillant sur le système expérimental britannique Okapi (68) a exploré récemment ces possibilités: la figure 3 illustre quelques-unes des améliorations apportées au système. Celles-ci sont en grande partie dues à l'étude minutieuse (69) des échecs repérés dans les transactions enregistrées automatiquement.
Okapi a ajouté ces mécanismes dans ses arbres de décision. En particulier les troncatures « faibles » (qui ne suppriment que peu de caractères après la racine) sont effectuées avant les troncatures « fortes » (qui en suppriment davantage) et ont donc un poids plus élevé. Ces techniques ont été testées et comparées dans le détail pour vérifier si elles amélioraient vraiment les recherches d'information. Ainsi a-t-on pu établir que la troncature forte n'est en fait pas très performante et les auteurs conseillent de l'utiliser avec une extrême prudence (70). Quelques-unes de ces méthodes ont aussi été incorporées dans le système commercial britannique Libertas, développé par la compagnie SWALCAP et accessible sur JANET.
Les techniques de correction orthographique automatique tentent de résoudre les problèmes mécaniques de frappe et d'orthographe des utilisateurs, problèmes révélés par l'étude des transactions enregistrées automatiquement. Les techniques de troncature automatique reproduisent l'expertise des intermédiaires professionnels qui emploient la troncature pour reformuler leur stratégie et retrouver plus de références en cas d'échec. Toutes les méthodes présentées jusqu'à présent effectuent des recherches et combinaisons de mots « derrière l'écran » et évitent ainsi à l'utilisateur d'avoir à maîtriser le clavier, les principes et les tactiques de combinaison booléenne et les langages de commande.
D'autres systèmes ont choisi de perfectionner le mode d'entrée des concepts en assistant l'utilisateur dès ce stade. Ils lui permettent d'entrer ses termes tout en l'aidant à regrouper les concepts et à construire une relation logique entre ces concepts. Le catalogue interactif GRC sur CD-ROM (cf. fig. 4) se sert de « fenêtres » et de « boîtes » affichées sur l'écran: l'utilisateur les remplit pour y entrer ses concepts de manière organisée et logique. Le catalogue interactif LCS/WLN de l'Université d'Illinois permet d'accéder aux fichiers bibliographiques classiques et un dialogue préalable à l'interrogation de BRS, BRS/After Dark ou Dialog se déroule sur un micro-ordinateur IBM-PC local, afin d'aider l'utilisateur à regrouper ses termes et à créer une équation booléenne qui sera ensuite effectuée automatiquement sur le serveur (71).
Dans la mesure où ces systèmes choisissent d'apprendre progressivement à l'utilisateur les principes de regroupement de concepts et de combinaison booléenne de ces groupes, ils attirent notre attention sur le débat de la « transparence » : jusqu'à quel point peut-on exécuter des opérations « derrière l'écran » sans y faire participer l'utilisateur ? Comment faire participer l'utilisateur et lui laisser le contrôle de.la communication avec la machine sans lui imposer un long apprentissage ? Mais ce débat ne doit pas cacher le fait que les techniques booléennes, comme on l'a déjà dit, ne constituent pas non plus une panacée.
Vocabulaire de l'utilisateur et du système
D'autres systèmes aident l'utilisateur à associer ses propres mots à ceux du vocabulaire contrôlé. Par exemple, dans le catalogue interactif LCS/WLN déjà mentionné, si l'utilisateur juge qu'un enregistrement est pertinent, le système le guide vers les vedettes-matière de cet enregistrement et l'encourage à continuer sa recherche avec holographic interferometry (cf. fig. 2). La plupart des systèmes de deuxième génération présument qu'une fois qu'un enregistrement est trouvé et visualisé, la recherche est terminée. Un catalogue interactif affiche même à ce stade le message The end. Or, un enregistrement bibliographique comporte des données très utiles (auteurs, numéros de classification, vedettes-matière) qui peuvent être des points de départ pour créer des liens avec d'autres enregistrements du fichier.
Le logiciel TINlib de la société britannique IME Ltd (72) offre la possibilité de marquer avec le curseur un élément d'un enregistrement sur l'écran et d'accéder ainsi à d'autres enregistrements possédant le même élément. La figure 5 montre les possibilités de navigation de vedettes-matière vers des titres. Ce procédé permet de surmonter la distinction quelque peu arbitraire entre les recherches par sujet et les recherches par titres ou auteurs déjà connus. L'analyse des transactions enregistrées automatiquement a montré que souvent les utilisateurs passent d'un type de recherche à un autre durant une même session au terminal (73) : en faisant une recherche par sujet, l'utilisateur peut découvrir le titre d'une série qui l'intéresse, ou le nom d'un auteur dont il désire voir les autres ouvrages. Il lui est plus pratique de le faire sans avoir à quitter sa recherche et à en reformuler une autre. On voit tout l'intérêt de cette procédure si on se souvient des problèmes de confusion évoqués plus haut (« Où suis-je ? », etc). Des liens sophistiqués de précoordination peuvent ainsi être construits de manière à permettre à l'utilisateur de naviguer à travers les champs et enregistrements de la base de données. Ce qui nous amène à la dernière section qui traite des moyens d'aider l'utilisateur dans sa découverte et son exploration de nouveaux domaines peu ou pas connus.
Orientation et exploration du contexte sémantique
Les utilisateurs de systèmes d'information ont besoin d'être aidés dans leur quête d'information. Divers moyens permettant de se repérer dans le contexte sémantique sont déjà à la disposition des utilisateurs de bibliothèques et des catalogues. Certains catalogues de deuxième génération ont ajouté le nombre de termes associés ou signalent l'existence d'un renvoi dans les listes alphabétiques de descripteurs (cf. See also ou Voir aussi dans le système de l'Université d'Ohio, fig. 6), mais n'aident pas activement l'utilisateur à en tirer parti. En particulier, les interfaces n'exploitent ni les systèmes de classification ni les structures de renvois des listes de vedettes-matière. Cutter, qui exprimait déjà ce problème (74), propose une solution: afin de trouver des ouvrages sur un sujet, le catalogue doit fournir des vedettes-matière, des renvois et une table de classement par sujet.
Karen Markey et Anh Demeyer (75), chercheurs à l'OCLC, ont étudié l'utilité de la CDD (classification décimale Dewey) et de ses index : elles ont comparé un catalogue interactif expérimental qui les exploite et un catalogue-témoin qui ne s'en sert pas. Les deux catalogues étaient munis d'écrans très semblables pour ne pas biaiser l'expérimentation. Les tests et comparaisons menés sur les deux catalogues ont montré que la terminologie de la CDD permet de récupérer des enregistrements qui ne sont pas retrouvés avec les méthodes de recherche traditionnelles pré- et postcoordonnées. Outre le travail d'enrichissement du vocabulaire de la base de données, ce travail éclaire les avantages de l'approche systématique et contextuelle que ce système de classification peut procurer à l'interface. Le système expérimental associe les termes du langage naturel aux numéros de classification sous lesquels ils apparaissent, il précise le cadre hiérarchique de la recherche dans le classement général et il visualise différentes « perspectives » sous lesquelles le sujet de la recherche est traité si les termes apparaissent dans différentes sections de la classification (cf. fig. 7).
Ce système permet d'orienter l'utilisateur vers d'autres sections de la classification et d'autres domaines auxquels il n'aurait peut-être pas pensé. Après tout, c'est souvent au croisement de disciplines que se situent les problèmes et besoins d'information. Par habitude, les utilisateurs se concentrent souvent sur une seule section de la classification quand ils inspectent les rayons de la bibliothèque et les ouvrages ont rarement plus d'un numéro de classification. Les classifications sont souvent considérées comme un système de rangement matériel des ouvrages sur les rayons et les utilisateurs ne savent en exploiter ni la structure ni la logique. Peut-être les OPACs pourront-ils améliorer cette situation.
Un autre projet similaire, également dirigé par Karen Markey (76) et financé par le Council on library resources, étudie les procédures applicables aux termes employés par l'utilisateur. Il s'agit de situer ces termes dans le contexte du vocabulaire contrôlé LCSH (Library of Congress subject headings), de manière à guider l'interrogation vers des termes associés, grâce aux renvois du LCSH. K. Markey avait déjà examiné de très près (77, 78) l'usage du vocabulaire contrôlé LCSH. Elle avait pu établir qu'un très petit nombre des termes naturels entrés par les utilisateurs correspondent au vocabulaire contrôlé. Elle en concluait qu'il est très important d'assister l'utilisateur dans son choix de vocabulaire, et que des listes alphabétiques de vedettes-matières ou même des listes KWIC (Key word in context) ne font qu'effleurer le problème.
Faciliter le choix de vocabulaire grâce à des aides sémantiques, faciliter l'orientation contextuelle et l'exploration de divers domaines constituent pour les OPACs deux objectifs vitaux, du fait, surtout, de leur caractère encyclopédique : les mots peuvent y vouloir dire beaucoup de choses, et l'utilisateur peut se perdre facilement parmi toutes ces différentes perspectives et disciplines.
D'autres outils tels les thésaurus, les dictionnaires et les tables de synonymes peuvent faciliter ces tâches. Plusieurs projets britanniques s'y sont intéressés. Congreve (79) travaille sur PRECIS en tant que liste autorité-matière et thésaurus interactif. Le catalogue de l'Université de Californie, Melvyl, utilise le thésaurus médical MeSH en ligne (cf. fig. 8). M. Lesk (80) a ajouté divers dictionnaires (Oxford English dictionary, Collins, etc.) au catalogue du XVIIIe siècle de la British library, afin de faciliter le choix de vocabulaire à l'interrogation et d'élargir la recherche. Relier les définitions du dictionnaire au catalogue accroît la quantité de mots présents dans la base de données et leur procure des sens différents.
Ce système effectue également des pondérations automatiques (en fonction de la fréquence d'apparition des mots dans les définitions du dictionnaire) et un feedback de pertinence. Il propose d'autres termes à l'utilisateur et lui permet de les situer sur le plan sémantique. Ce mécanisme est parfaitement adapté compte tenu de l'évolution du vocabulaire depuis le XVIIIe siècle. A défaut de disposer d'un dictionnaire, d'un thésaurus, d'une liste d'autorité-matière ou d'une classification en ligne, un catalogue automatisé peut toujours inclure des tables relativement simples de synonymes et d'expressions composées fréquentes (81) telles que « first world war » (cf. fig. 3).
L'équipe d'Okapi a découvert que de telles tables permettaient des appariements plus précis et plus efficaces que les troncatures (notamment la troncature forte). Elles facilitent l'appariement entre le vocabulaire de l'utilisateur et celui de la base de données, mais on ne peut dire qu'elles permettent l'orientation contextuelle de l'interrogation, comme le fait l'usage d'une classification.
Les techniques des systèmes experts n'ont pas été appliquées à de larges fichiers multidisciplinaires tels les OPACs, car elles ne peuvent intervenir que sur des domaines très limités (82, 83, 84). Cependant, les recherches sur leur utilisation pour les systèmes de recherche, d'information bibliographique permettent d'avancer sur différentes questions : l'intelligence de leurs interfaces, de leurs outils de représentation des connaissances, et de leurs mécanismes d'inférence et de raisonnement. Les prototypes britanniques (85, 86) se servent de thésaurus, de réseaux sémantiques conceptuels, d'organisations à facettes, de classifications, de procédures de sélection heuristique, de représentations des tactiques booléennes, de catégories sémantiques, et de modélisations des utilisateurs. Ces procédés donnent les moyens de converser avec l'utilisateur sur le sujet de sa recherche. Bien que traitant de sujets limités (respectivement cancérologie et jardinage) pouvant être représentés et structurés de façon très fine, les interfaces de ces sytèmes orientent l'utilisateur et l'aident à situer sa recherche.
L'un des développements les plus récents et les plus stimulants concerne la représentation du domaine de la base de données et le dialogue possible avec cette représentation est celui des applications se servant de logiciels « hypertext », qui permettent à l'usager de manipuler directement ces représentations à l'écran (87). Des chercheurs en sciences de l'éducation à Aberdeen University (88) ont conçu un système de représentation graphique du thésaurus. Ce système donne une vue « panoramique » du domaine couvert et permet de focaliser à des niveaux de représentation différents, comme avec un téléobjectif. Il est possible de visualiser une carte de tout le système, de faire un zoom sur un détail, d'en extraire les relations sémantiques, de trouver un document, d'en sélectionner une phrase ou un nom qui le relie à d'autres mots, documents ou concepts (cf. fig. 9).
Ces logiciels permettent de réaliser concrètement le modèle d'hypercatalogue imaginé et théorisé par Hjerppe (89) . Pour le moment, ces logiciels ne peuvent être utilisés sur de grandes bases de données. Il faut avoir conscience du problème suivant : dans un gros fichier, il devient nécessaire de contrôler tous ces liens entre objets et représentations si l'on ne veut pas noyer l'utilisateur dans un « hyperespace » qui ressemblerait plutôt à une assiette de spaghettis...
Même si ces évolutions peuvent paraître futuristes et n'avoir qu'un lointain rapport avec les catalogues d'aujourd'hui, il importe de souligner l'évolution suivante : les catalogues interactifs aux Etats-Unis et en Grande-Bretagne changent de nature, et élargissent la notion même de catalogue. Les nouvelles technologies permettent maintenant d'imaginer d'autres modes d'interaction et ont déjà provoqué toute une série d'améliorations des services fournis par les bibliothèques. Les bibliothécaires exploitent ces nouvelles possibilités, afin de fournir un meilleur service et un meilleur accès à leurs collections. De telles évolutions ont eu lieu, d'abord en ce qui concerne l'évolution du format MARC et en particulier l'amélioration de l'accès par sujet. A Lehigh University (90), le catalogue contient des enregistrements « pseudo-MARC », qui permettent d'incorporer des entrées « guides par sujet » aux vedettes-matière et qui peuvent être visualisés. Ces guides, qui comportent des informations générales sur le fonds de la bibliothèque, sont accessibles soit dans les listes alphabétiques de vedettes-matière, soit par recherche sur mots libres.
A Purdue University engineering library (91), la plupart des sommaires des livres ont été ajoutés aux enregistrements du catalogue interactif ; on peut interroger leurs termes et les visualiser. Cette option accroît le nombre de termes de la base de données, évite à l'utilisateur d'avoir à connaître le LCSH et lui permet de mieux juger la pertinence quand il est visualisé.
Ajouter d'autres fichiers au catalogue est une autre manière de faire évoluer la notion de catalogue. Ainsi des index de périodiques (92) ou des données de type « information communautaire », particulièrement dans les bibliothèques publiques, ont été incorporés aux catalogues. De plus en plus, les catalogues facilitent aussi l'interrogation à distance des bases de données bibliographiques commerciales (93). En fait, on a de plus en plus tendance à considérer le catalogue comme une porte ouverte sur toute l'information disponible dans les fonds de bibliothèques, ouverte également sur le monde extérieur. Le terminal de l'OPAC devient un point convergent où l'utilisateur peut trouver de l'aide pour accéder à ce dont il a besoin.
Si les bibliothèques veulent, dans l'avenir, maintenir leur position, elles doivent remplir ce rôle de plate-forme d'orientation et s'adapter à un monde technologique où les gens auront la possibilité d'accéder à toutes sortes de services à partir d'un même terminal (vidéotext, CD-ROM, vidéodisques interactifs, logiciels, réseaux de bases et banques de données, édition électronique, etc.). Le monde des bibliothèques devrait peut-être être moins concerné par la notion de catalogue et se montrer plus réceptif à ces nouvelles évolutions ainsi qu'à leurs implications à long terme.
Les catalogues interactifs se sont développés dans plusieurs directions : accroître et élargir l'accès à divers fichiers et bases de données, améliorer le contenu des enregistrements, intégrer activement à l'interface toutes les techniques de recherche d'information assistée par ordinateur, étudier les problèmes d'appariement entre le vocabulaire de l'utilisateur et celui de la base de données, faciliter la navigation, l'exploration et l'orientation de l'utilisateur dans les domaines couverts par les bases de données. Tous ces développements ont pris place dans divers OPACs, chacun d'eux, opérationnel ou expérimental, s'étant concentré sur une façon particulière d'améliorer le système. Une question essentielle n'a toujours pas de réponse: comment réunir toutes ces approches, quelles sont les meilleures, dans quels cas, pour quels utilisateurs ? Nous ne trouverons pas de réponses à ces questions si nous ne soumettons pas nos systèmes à un processus itératif d'évaluation scientifique et si nous ne nous concentrons pas davantage sur les utilisateurs eux-mêmes.