Catalogues en ligne accessibles par le public

Recherche exploratoire

Danielle Roger

Une recherche exploratoire et systématique sur les catalogues en ligne a été menée d'octobre 1991 à mars 1992 par une équipe associant le centre de recherche de l'Ecole nationale supérieure des sciences de l'information et des bibliothèques, la médiathèque de la Cité des sciences et de l'industrie, le Centre for interactive systems research de la City University of London, la société GSI-ERLI. Ce travail a été réalisé dans le cadre de Parinfo. L'objectif de l'étude était de sérier les questions concernant les Opac, objet d'une abondante littérature professionnelle et scientifique, et d'aboutir à des propositions utiles pour les bibliothèques et le monde de la recherche en sciences de l'information. Pour y parvenir, l'équipe a choisi de se consacrer, en parallèle avec une analyse systématique et critique de la littérature spécialisée, à la collecte et l'analyse d'un corpus de sessions réelles effectuées par les utilisateurs d'un Opac (celui de la médiathèque de la Cité des sciences et de l'industrie).

A preparatory and systematic research regarding on-line catalogues has been made from October 1991 to March 1992 by a team associating the Centre de recherche de l'Ecole nationale supérieure des sciences de l'information et des bibliothèques, the Médiathèque de la Cité des sciences et de l'industrie, the Centre for interactive systems research of the City University of London, the GSI-ERLI society. This work has been carried out within the context of Parinfo (Programme d'aide à la recherche en information). The objective was to classify the questions conceming the Opac, subject of a wealth of professional and scientific literature, and to come to useful proposals for libraries and researches in information sciences. To succeed in this enterprise, the research team chose, with a systematic and critical analysis of specialized literature, to collect and analyse a corpus of real sessions made by the users of an Opac (Médiathèque de la Cité des sciences et de l'industrie).

Eine systematische Forschungsarbeit über die on line Kataloge wurde vom Oktober 1991 bis März 1992 durchgeführt von einer Forschergruppe, die das Forschungszentrum der École nationale supérieure des sciences de l'information et des bibliothèques (ENSSIB : Nationale Hochschule der Bibliothekare), die Mediothek der Cité des sciences et de l'industrie, das Center for interactive systems research der City University of London und die Gesellschaft GSI-ERLI im Rahmen des Plans Parinfo verband. Als Zweck dieser Arbeit wurde vorgeschlagen, eine Reihe der Fragen über die OPAC zu erörtern - darüber wird also eine zahllose berufliche und wissenschaftliche Literatur herausgegeben - und nützliche Bemerkungen auszusprechen, aus denen die Bibliotheken und die Forschungsgemeinschaft der Informationswissenschaften Nutzen ziehen kônnen. In dieser Absicht hat die Gruppe entschieden, die Fachliteratur systematisch und kritisch auszuwerten, indem sie auch ein Korpus tatsächlicher Vorgänge zerlegt, die die Benutzer eines OPAC in der Mediothek der Cité des sciences et de l'industrie aufgefordert haben.

L'abondance de travaux de recherches sur les Opac 1 dans le monde anglo-saxon contraste avec la situation française, où ce thème est pratiquement absent. De plus, les approches possibles de cette question sont multiples et recoupent les différents champs disciplinaires à l'œuvre dans les sciences de l'information.

Le projet Opac-Parinfo

Avant de lancer une recherche sur les Opac en France, il semblait utile d'avoir une idée claire de l'état des recherches sur la question.

C'est pourquoi l'idée qui a présidé à ce projet est celle d'une recherche exploratoire et systématique.

Les travaux publiés sur les Opac ont permis de mettre à jour les principales difficultés des utilisateurs. Ainsi observe-t-on avec régularité les phénomènes suivants :
- beaucoup d'usagers d'une bibliothèque possédant un Opac ne l'utilisent jamais : par exemple, à la Médiathèque de la Cité des sciences et de l'industrie, où il n'existe qu'un catalogue informatisé, un usager sur deux ne l'utilise pas.

Ce fait n'indique pas nécessairement que l'usager se détourne de l'Opac, puisque le développement du libre accès dans les bibliothèques permet d'autres modes de recherche du document, qui peuvent parfaitement répondre à ses besoins. Il suggère de s'intéresser aux démarches globales de recherche des utilisateurs et non strictement à ce qui se passe au terminal ;
- l'utilisateur fait une proportion importante d'erreurs élémentaires : erreur d'utilisation des touches du clavier, de compréhension des commandes, erreurs syntaxiques ou typographiques qui bloquent toute progression au-delà d'un stade d'initialisation de la recherche ;
- l'usager a une faible compréhension de la structure du système et se perd dans la succession des écrans ;
- ses attentes sont souvent inappropriées : les malentendus concement par exemple les types de documents, les domaines couverts, le type d'information proposé, le mode de consultation, la syntaxe de la requête. Lorsque la recherche ne donne aucun résultat, le diagnostic de l'usager est très souvent erroné :
- il a une faible compréhension de la structure du catalogue et une idée approximative des règles et du vocabulaire d'indexation ;
- il passe souvent à côté d'ensembles importants de références ; parallèlement, beaucoup de recherches échouent soit parce qu'elles n'aboutissent à aucune référence, soit parce que le nombre de références trouvées est trop grand pour pouvoir être exploité ;
- les ressources du système sont sous-utilisées : l'usager se limite généralement à des modes de recherche simples, il n'utilise pas les possibilités offertes par l'interactivité et modifie rarement la stratégie initiale ;
- le plus souvent, il ne recherche pas une information systématique, mais une information suffisante obtenue avec un effort minimum : cette dimension n'est pas prise en compte par les systèmes.

Alors que souvent l'utilisateur fait une recherche sur un sujet qu'il connaît mal ou pas du tout, l'accumulation de difficultés de nature différente lui interdit de maîtriser le processus. Finalement, les études comparatives permettent de constater que la consultation d'un Opac n'est pas plus performante que celle d'un catalogue manuel, ni en termes d'efficacité ni en termes de satisfaction de l'usager.

Les enjeux

L'enjeu du projet, du point de vue de la recherche, est d'ouvrir les études françaises en sciences de l'information au champ des Opac, champ de recherche (fondamentale et surtout appliquée) qui pose des questions intéressant plus généralement l'accès aux documents sous forme électronique. Les Opac sont l'un des lieux où se joue pour un large public l'accès électronique à l'information.

A plusieurs titres, les objectifs du projet répondent à ceux de Parinfo : - ils visent à favoriser le développement de recherches interdisciplinaires : le thème des Opac est un thème structurant, où les différents problèmes rencontrés sont au carrefour de plusieurs disciplines ;
- ils mettent en synergie des intervenants venant d'horizons différents (professionnels, universitaires, industriels), cherchant ainsi à éviter la coupure entre les « approches théoriques et les considérations empiriques » 2 ;
- ils favorisent la coopération européenne en sciences de l'information : participation d'une équipe de recherche britannique ; contacts pris avec une équipe allemande, celle de la bibliothèque universitaire de Düsseldorf.

Les objectifs

L'objectif de l'étude est de sérier les problèmes, structurer l'approche sur les Opac et aboutir à des recommandations et des propositions utiles pour les bibliothèques (et leurs utilisateurs) et le monde de la recherche en sciences de l'information en indiquant des pistes de développements et réalisations sur ce thème ou des thèmes très apparentés.

Les Opac ne peuvent être considérés comme un sujet de recherche aux contours bien définis qui relèverait d'une discipline de base bien identifiée. Qu'y-a-t-il de commun entre une étude sur les modes d'usage mis en œuvre par les utilisateurs d'un catalogue en ligne 3 et une analyse linguistique des requêtes mal formées 4 ? La littérature spécialisée sur le thème propose une diversité d'approches, de méthodes et d'outils, de niveaux d'analyse.

Outils de recherche documentaire, les Opac héritent d'abord de tous les problèmes et de tous les concepts de la recherche documentaire en général. Mais leur spécificité ouvre aussi d'autres champs de réflexion.

Appartenant incontestablement aux sciences de l'information, puisqu'il concerne précisément un outil d'accès à l'information, le thème des Opac se situe aussi à leur rencontre avec d'autres disciplines : d'une part, l'éclairage fourni par ces disciplines permet de renouveler les modes d'approche du chercheur en sciences de l'information ; mais aussi, ces disciplines peuvent trouver dans les Opac un terrain d'étude de leurs propres concepts.

Citons :
- la psychologie cognitive, pour laquelle par exemple le dialogue homme-ordinateur met en œuvre des représentations qu'il faudrait pouvoir caractériser ;
- la linguistique qui fournit les concepts et les théories utiles pour caractériser le langage de l'utilisateur ou les modes de représentation des documents ;
- la sociologie qui va s'intéresser aux pratiques liées à l'usage de l'Opac ;
- l'économie qui va s'intéresser aux modes de diffusion et de développement des Opac ;
- l'intelligence artificielle qui propose des outils pour la conception de systèmes mieux adaptés à l'usage réel.

Les catalogues en ligne sont doublement opaques :
- pour l'utilisateur, le dialogue avec le système est source d'incompréhension et de malentendus ; le système peut sembler obscur, ou stupide ;
- pour le chercheur en sciences de l'information, l'évaluation des Opac se heurte à la difficulté de démêler les différents phénomènes qui interfèrent dans leur fonctionnement et de définir des indices objectifs (par exemple, des critères de pertinence ou des indices de satisfaction).

En cela, les Opac ne sont qu'un cas particulier des systèmes de recherche documentaire pour lesquels ces questions sont l'objet d'études nombreuses.

La méthode choisie

L'étendue du projet ne permettait pas d'aborder toutes les questions. Deux actions ont été menées en parallèle :
- une revue systématique et critique de la littérature spécialisée sur le thème ou sur des thèmes connexes pour identifier les voies de recherche déjà explorées et celles susceptibles de l'être, et repérer les équipes de recherche menant des études sur ce sujet 5 ;
- la collecte d'un corpus de recherches réelles posées par les utilisateurs d'un Opac (celui de la Médiathèque de la Cité des sciences et de l'industrie) et une première analyse de ces données. C'est cette deuxième partie qui est présentée ici 6.

La réalisation

L'étude a duré 18 mois, d'octobre 1991 à mars 1992.

Les participants

L'équipe était constituée d'intervenants provenant d'horizons différents et complémentaires :
- une équipe de recherche placée au centre des travaux liés aux bibliothèques et à leur devenir : celle du Cersi (Centre d'études et de recherches en sciences de l'information) 7 ;
- une équipe de recherche britannique qui étudie depuis une dizaine d'années les problèmes liés aux Opac et a développé le prototype Okapi 8 : celle de la City University, Department of Information Science, Centre for Interactive Systems Research, à Londres 9 ;
- une institution confrontée à la pratique quotidienne et à la demande des utilisateurs, disposant d'un Opac (celui du système Geac 9000), la Médiathèque de la Cité des sciences et de l'industrie, qui a déjà montré son intérêt pour ces questions par plusieurs enquêtes auprès des utilisateurs et par l'organisation de journées d'étude sur les Opac (1990) 10 ;
- une société de services informatique spécialisée en intelligence artificielle et en traitement automatique du langage, la société GSI-ERLI, qui dispose d'un savoir-faire en matière d'analyse de corpus (textes, questions), de réalisation de systèmes (pages jaunes de l'annuaire électronique, minitel guide des services, service emploi des cadres au journal Le Monde, interrogation multilingue de bases de données...) 11.

D'autres personnes ont collaboré à ces travaux, des professionnels, des étudiants, des chercheurs, qui ont participé aux réunions de travail ou pris une part active à l'enquête. Une équipe d'enquêteurs extérieurs au groupe de recherche a été recrutée pour la durée de l'enquête.

Le financement

Le projet a été entièrement financé par le ministère de l'Education nationale, et fait partie de l'un des vingt projets de recherche agréés par le Comité Parinfo en 1991.

La démarche suivie

Pourquoi une collecte de corpus ?

L'intérêt du corpus est double :
- il constitue un matériau qui pourra être utilisé ultérieurement pour des analyses comparatives ou des recherches ayant une orientation différente 12 ;
- il peut être analysé pour répondre à une série de questions que l'équipe souhaitait éclaircir, les unes portant sur les aspects linguistiques, les autres sur les aspects psychocognitifs de l'échange avec le système.

Méthode de collecte

La méthode se situe dans la continuité des techniques d'analyse transactionnelle expérimentées à la City University, notamment par capture de sessions de recherches réelles d'utilisateurs accompagnées de questionnaires électroniques.

Le dispositif mis en place proposait automatiquement à l'utilisateur un questionnaire avant et après sa recherche dans le catalogue, l'ensemble réalisé sur le même poste de consultation. Les utilisateurs consultaient le catalogue pour les propres demandes de façon totalement libre. Une telle méthode permet d'obtenir des données sur l'usage réel et de confronter les affirmations et les jugements de l'usager recueillis dans les questionnaires électroniques avec les éléments de la recherche elle-même.

Le principe du questionnaire électronique présente d'autres avantages :
- il réduit la part d'interaction avec l'enquêteur : compte tenu du nombre de sessions collectées (598), le nombre d'enquêteurs nécessaires risquait d'entraîner des variations dans l'interprétation des réponses ;
- il supprime la discontinuité entre un entretien oral et la recherche sur ordinateur (la connexion se fait automatiquement) ;
- il permet à l'utilisateur, dans les questions ouvertes, de s'exprimer librement dans le cadre d'un dialogue homme-machine. Ce dernier avantage a justifié notamment l'intérêt de l'analyse linguistique.

Réalisation

Pour réaliser l'expérience, on a utilisé le logiciel Olive, conçu et mis au point par l'équipe de la City University. Ce logiciel a dû être adapté pour communiquer avec Geac 9000 sur le réseau de la Médiathèque et pour accepter les caractères diacritiques dans les questionnaires.

L'enquête a mobilisé une importante énergie : un tel recueil de données nécessite une organisation matérielle rigoureuse, un logiciel parfaitement fiable, une très bonne intégration du dispositif dans la bibliothèque, en particulier une excellente coordination avec le personnel de la bibliothèque, la formation et la mobilisation d'une équipe d'enquêteurs pour veiller au bon déroulement de l'enquête. C'est une opération coûteuse.

Un soin particulier devait être apporté à la mise au point du texte et de la structure des questionnaires électroniques : il fallait rendre le questionnaire le plus acceptable possible et éliminer rigoureusement toute ambiguïté (puisqu'elle n'aurait pas été corrigée par l'enquêteur humain). Plusieurs versions se sont succédé et un test a été effectué sur une vingtaine d'utilisateurs avant la mise en place de l'enquête.

Une formation a été donnée aux personnes participant au suivi de l'enquête et veillant à son bon déroulement : elles devaient très bien connaître l'Opac et le dispositif d'enregistrement des sessions, mais aussi avoir quelques notions sur le fonctionnement de la médiathèque pour pouvoir s'intégrer. Surtout, elles devaient avoir une parfaite compréhension des objectifs de l'enquête et de leur rôle. Avant de commencer véritablement l'enquête, on a dû procéder à des simulations.

Le rôle de l'équipe était précisé par un protocole d'enquête. Par exemple, une assistance pouvait être fournie aux utilisateurs qui avaient du mal à utiliser les touches ou ne comprenaient pas une question. En revanche, aucune aide ne devait être apportée pendant la recherche (choix d'un terme de recherche ou d'un mode de recherche), sauf pour signaler l'existence de la touche d'aide.

Les données recueillies ont subi une première série de traitements informatiques :
- le premier pour leur donner une forme lisible et exploitable et effectuer un certain nombre de calculs préalables (durée des sessions, temps passé sur chaque écran, temps passé à feuilleter des listes d'index, nombre de notices affichées) ;
- les réponses aux questionnaires ont également été traitées et codées.

Limites de l'enquête

Elles découlent de plusieurs considérations :
- seuls les utilisateurs de l'Opac ont été consultés : l'enquête ne permet pas d'étudier par exemple les causes de non-usage du catalogue informatisé ; une telle étude reste à faire ;
- les corpus ne fournissent que des informations de surface ne permettant pas de comprendre véritablement ce que voulait l'utilisateur : alors qu'il s'agit d'un problème central, on ne peut pas analyser complètement la démarche de l'usager sans données précises sur ses connaissances, ses buts, ses raisonnements pendant la session ; pour cela, un entretien aurait été nécessaire.

Quelques entretiens avaient d'ailleurs été réalisés à titre de test : on a pu rencontrer, par exemple, un utilisateur qui venait faire une recherche pour sa fille ; un autre, responsable d'une bibliothèque de laboratoire, vérifiait ce que la médiathèque achetait dans son domaine de spécialité par rapport à la bibliothèque de son laboratoire. Or, une interprétation correcte de la session de consultation nécessitait cette information sur les buts de la recherche : ainsi, dans le deuxième cas, l'absence d'affichage de notice (puisque la liste abrégée suffisait) laissait croire que l'utilisateur n'avait rien trouvé d'intéressant ;
- ce que l'on va observer est limité à un type de catalogue particulier, dans un contexte donné, celui de la Médiathèque de la Cité des sciences et de l'industrie ;
- l'usage même n'est-il pas bridé, contraint par les limites du système utilisé ? Est-il pertinent de se baser sur une observation d'un état de l'existant pour réfléchir à la conception des systèmes de l'avenir ? Une réponse tranchée ne peut être donnée à cette question. L'analyse linguistique présentée plus loin s'est affranchie de cette contrainte en étudiant des réponses à des questions ouvertes. Mais ne peut-on dire aussi que le public de demain, plus familier des technologies informatiques, sera différent du public actuel par ses attentes et ses habiletés 13 ?

Ainsi la prudence doit être observée dans l'interprétation des données : seule une expérimentation précise pourra confirmer certaines hypothèses.

Trois réponses peuvent être apportées pour justifier l'utilisation du corpus :
- il permet des études comparatives : c'est le premier corpus de cette taille recueilli dans une bibliothèque française ; or la diffusion du minitel en France, autant que les caractéristiques de la langue ou les usages culturels sont susceptibles d'influencer l'usage des Opac ;
- un cadre expérimental plus que la collecte de sessions réelles présenterait les garanties de rigueur nécessaires à la validation d'hypothèses : mais cette étape se situe dans un deuxième temps et l'observation de l'usage réel est précieux pour la formulation d'hypothèses pertinentes ;
- les questionnaires sont, notamment le premier, indépendants du catalogue.

Résultats bruts de l'enquête

L'enquête a été effectuée sur 5 postes de consultation (PC) installés dans des lieux de passage de la Médiathèque. Ces postes étaient connectés au réseau de la Médiathèque et utilisaient la version minitel 80 colonnes de l'Opac.

Les postes étaient répartis dans quatre secteurs :
- mathématique-informatique-électronique (212 sessions) ;
- univers-géologie-océans (187) ;
- accueil (84) ;
- technologie-transports (110) ;
- histoire des sciences (5) (poste mis en place en fin d'enquête).

598 sessions sur 650 ont pu être exploitées.

L'exploitation du corpus recueilli

Statistiques sur la population : les caractéristiques individuelles des utilisateurs ayant participé à l'enquête sont les suivantes :
- 75 % sont des hommes ;
- 86 % ont entre 19 et 45 ans ;
- 46 % sont des étudiants ;
- 81 % d'entre eux ont fait des études supérieures avec une répartition à peu près égale dans les trois cycles universitaires.

La connaissance de l'outil : la proportion de personnes utilisant un ordinateur ou un minitel est de 87 %.

La fréquence d'usage du catalogue se répartit ainsi :
- 20,5 % l'utilisent pour la première fois ;
- 30,5 % l'utilisent moins d'une fois par mois ;
- 49 % l'utilisent plus d'une fois par mois.

La demande : - 16,1 % des personnes sont venues à la médiathèque pour leurs loisirs ;
- 24,2 % pour un des besoins professionnels ;
- 52,3 % pour leurs études.

La recherche elle-même : on note la prédominance des recherches par sujet : 62 %.

40,3 % se déclarent satisfaits de l'utilisation du catalogue.

82,2 % trouvent la recherche facile ou très facile (13,4 % difficile, 4,3 % impossible).

Dans 18,5 % des sessions, aucune notice n'est affichée.

La durée moyenne des sessions est de 6 minutes 36 secondes.

Des méthodes d'analyse factorielle de correspondances multiples 14 ont été appliquées à la sous-population 15 ayant un niveau d'étude supérieur (485 sessions soit 81 % du corpus).

Elles font ressortir trois populations caractéristiques :
- un groupe d'étudiants, usagers fréquents du catalogue : ils viennent pour leurs études, ont trouvé ce qu'ils cherchaient et se déclarent satisfaits ; ils ont l'intention de consulter ou d'emprunter les documents trouvés ;
- un groupe de personnes ayant une profession, venus à la médiathèque pour leur travail ; ce sont des usagers réguliers (une à deux fois par mois), titulaires d'un diplôme de troisième cycle ;
- un groupe moins homogène, composé de personnes venant pour la première fois à la médiathèque ; ils n'ont rien trouvé dans le catalogue, ont jugé la recherche impossible et se préparent à repartir.

Ce type d'analyse fournit d'abord des informations - précieuses pour le gestionnaire - sur le public de la bibliothèque. Il peut être aussi utilisé comme complément ou comme outil pour des études ethnographiques de la démarche de l'usager : les outils statistiques permettent de repérer des types de comportement (groupes caractéristiques) ; en codant les suites d'actions effectuées par l'utilisateur au cours de sa recherche, on peut faire apparaître des types de démarche et les mettre en parallèle avec les autres variables.

L'analyse linguistique

L'évolution des systèmes de consultation (et des systèmes de dialogue homme-ordinateur en général) prend en compte l'utilisateur pour tenter de lui proposer un mode de dialogue le plus « naturel » possible. Bien entendu, ce qui est naturel pour le contrôleur aérien à son poste de travail ne le sera pas forcément pour l'utilisateur d'un catalogue de bibliothèque. Cette évolution se traduit par une explosion de la part consacrée aux interfaces dans le développement des logiciels.

La quête du « naturel » se heurte au problème de la compréhension de la langue naturelle par une machine. La richesse inépuisable de la langue ne peut être totalement intégrée dans les capacités cognitives d'un ordinateur. Cela dit, les recherches sur le langage naturel ont donné le jour à un certain nombre de prototypes ou d'outils parfois commercialisés (correcteurs orthographiques ou syntaxiques) sans que les catalogues de bibliothèque en aient vraiment bénéficié. Or la question d'un utilisateur à un catalogue de bibliothèque peut s'exprimer librement (naturellement) dans un langage restreint : la variété des énoncés possibles n'est pas illimitée. L'idée sous-jacente à l'analyse linguistique qui va être présentée est que la mise en évidence de régularités dans l'expression libre de la demande permet de proposer les types de traitement à utiliser pour interpréter la question.

L'analyse linguistique 16 visait à repérer les caractéristiques linguistiques (de tous niveaux : morpho-lexical, syntaxique, sémantique, pragmatique) de certaines formulations.

Les textes analysés sont ceux des réponses à la question 24 qui précède la session de recherche : « Décrivez assez précisément ce que vous voulez rechercher. Par exemple : Information sur la technologie des disques optiques ; Dernier ouvrage d'Asimov traduit en français » et ceux des réponses à la question finale 11 du 2e questionnaire : « Comment auriez-vous souhaité formuler votre question dans un système idéal ? ». L'analyse se limite aux recherches par sujet dans le catalogue.

Le traitement a été effectué essentiellement de façon manuelle, et complété par l'utilisation d'outils linguistiques de la société GSI-ERLI.

Les résultats font apparaître la diversité des phénomènes rencontrés :
- variabilité de la typographie : ponctuation, majuscules/minuscules, présence ou non des accents ;
- fautes de frappe ou d'orthographe : les outils de correction basés sur la phonémisation ou la proximité de chaînes de caractères donnent d'assez bons résultats (corrigeant, par exemple, algorithme, algoritme, alogorithme), mais les principales difficultés proviennent des mots segmentés (entre prise pour entreprise).

L'abus des procédures de correction peut conduire à des réponses aberrantes : l'étude suggère de prévenir l'utilisateur et de lui proposer une nouvelle formulation plutôt que de lui imposer une réponse inadaptée.

Les textes analysés comportent une prédominance de noms et d'adjectifs : « La plupart des libellés sont des syntagmes nominaux sans verbe conjugué ».

L'analyse des syntagmes nominaux fait apparaître des ambiguïtés, par exemple dans l'interprétation de la conjonction (« logique combinatoire et technologie »), des fonnules elliptiques (« pilotage avion, sur le sida »), des anaphores (« informations sur les microcontrôleurs et leurs applications »), des reformulations (« rôle infirmière de coordination pour les dons d'organes plus précisément les dons de rein »), des inversions (« minitel fonctionnement »). Tous phénomènes susceptibles de créer des difficultés dans un traitement automatique des questions.

Un mémoire de DEA de l'ENSSIB 17, prolongement à ce travail, s'est intéressé à la reformulation, en particulier la différence entre la formulation de la demande exprimée avant la recherche (question 24 citée ci-dessus), celle exprimée après (question 11 citée ci-dessus), et l'ensemble des termes utilisés pendant la recherche elle-même. A partir d'une analyse syntaxique et sémantique détaillée, l'étude met en lumière la faiblesse de la reformulation et des stratégies linguistiques de l'utilisateur.

L'analyse des échanges cognitifs

L'objectif de cette dernière analyse était de déterminer s'il s'effectuait chez l'usager un apprentissage du système d'interrogation et comment ? Une démarche descendante, dirigée par les concepts - où le comportement de l'utilisateur est lié à une représentation conceptuelle et procède de façon organisée - s'oppose à une démarche ascendante, dirigée par les données - où l'utilisateur se laisse guider par ce qu'il trouve et en quelque sorte « pilote à vue ».

L'étude cherchait à vérifier plusieurs hypothèses : la démarche descendante devait être davantage développée chez les utilisateurs plus familiers du système, ils devaient utiliser davantage de fonctionnalités et obtenir davantage de références.

L'analyse a porté sur 80 sessions enregistrées correspondant à un groupe de 40 « experts », utilisateurs de l'Opac plus d'une fois par semaine et un groupe de 40 « novices », qui l'utilisent moins d'une fois par mois. Pour éliminer l'influence du facteur de connaissance du sujet recherché, les utilisateurs sélectionnés avaient une connaissance élevée du domaine dans lequel se faisait leur recherche.

L'interprétation des résultats permet de conclure à un apprentissage de l'Opac, mais à un apprentissage limité.

L'expert échange moins de données avec le système et va plus vite : moins d'écrans, moins de termes de recherche, moins de temps passé sur chaque écran ; il tâtonne moins que le novice.

Il utilise davantage la recherche par titre : mais est-ce parce qu'il connaît assez bien la médiathèque pour savoir où se trouvent les ouvrages sur un sujet donné (ce qui le dispense d'utiliser l'Opac), ou bien parce qu'il a repéré la difficulté de la recherche par sujet et s'en tient à un mode de recherche plus sûr ?

En revanche, il y a une limite aux progrès de l'« expert » : la démarche ascendante, même si elle varie en sens inverse du niveau d'expertise, reste le mode dominant et les fonctionnalités évoluées (comme la recherche booléenne) sont ignorées. Enfin, on observe que les résultats des recherche des experts ne sont pas meilleurs que ceux des novices.

Cette première étude montre donc d'une part les limites de l'expertise qu'acquiert un usager dans l'utilisation d'un Opac et, d'autre part, conduit à s'interroger sur la nature de l'apprentissage qui s'opère (puisqu'il y en a un).

Un étudiant de l'ENSSIB 18 a analysé les flux d'information et étudié plus particulièrement les sessions sans affichage de notice. Les causes de l'absence de notice sont multiples et variables selon la localisation dans la bibliothèque et les postes de consultation.

Les perspectives

L'étude confirme s'il le fallait le caractère rudimentaire des Opac de deuxième génération. Mais le rapport et les études complémentaires suggèrent aussi de nombreuses pistes de recherche dont beaucoup sont à l'intersection d'autres disciplines.

Parmi les thèmes envisagés, les uns relèvent d'une approche sociologique, d'autres sont davantage centrès sur les aspects cognitifs ou linguistiques.

Quelques exemples :
- caractérisation des utilisateurs d'Opac par rapport aux autres usagers d'une bibliothèque ;
- logiques d'usage à l'œuvre ;
- interrogation d'un Opac et organisation des connaissances : le rôle des aides à l'organisation ;
- étude des stratégies mises en œuvre par les bibliothécaires pour répondre à des demandes d'information de nature documentaire ;
- comparaison de la logique de fonctionnement du système et de la logique d'utilisation réelle ;
- étude des correspondances entre les termes de recherche fournis par les utilisateurs et ceux du langage documentaire de la médiathèque ; comparaison avec la liste Rameau ;
- étude des phénomènes d'interactivité : essi de définition de critère ;
- niveau de généralités auquel l'utilisateur pose sa question ;
- comparaison des différentes formulations de la question par le lecteur et caractéristiques linguistiques (formulation « libre », formulation dans l'Opac, formulation orale).

Actuellement, l'ENSSIB mène une étude, en coopération avec la bibliothèque de la Part-Dieu, pour étudier certains types d'aide à l'accès sujet - dans le cadre d'une thèse de psychologie sur l'organisation des connaissances et l'expertise d'un domaine 19. On ne saurait trop souligner l'intérêt pour le chercheur d'être accueilli dans une bibliothèque pour expérimenter ou enquêter. Etudier et observer la réalité sont une étape indispensable pour certaines recherches. Mais la présence d'un dispositif de recherche dans un établissement ne va pas de soi : mal acceptée ou mal préparée, elle peut perturber le fonctionnement normal du service ou induire des effets pervers sur le déroulement de la recherche. L'expérience menée à la Villette plaide pour une telle coopération où chaque partenaire trouve un intérêt 20.

La réalisation de prototypes comme Okapi montre que l'améliorationdes systèmes de recherche documentaire n'est pas réservée à des bases de données spécialisées.

L'amélioration des Opac peut être envisagée selon trois axes :
- intégrer au système des outils de traitement du langage qui effectuent un traitement préalable - plus ou moins évolué - de la question ;
- donner au système des capacités de raisonnement basés sur les connaissances des professionnels, et prenant en compte la diversité des usages ; cette méthode doit s'accompagner d'une réflexion critique sur les pratiques et les savoirs professionnels ;
- améliorer le dialogue : proposer des niveaux de consultation différents selon l'expertise de l'utilisateur ;
- mais surtout, les Opac doivent être limpides : l'utilisateur s'attend à un dialogue, mais ne comprend pas comment fonctionne le système ; l'ergonomie du système devrait au contraire favoriser l'apprentissage.

Janvier 1994

  1. (retour)↑  Le travail présenté ici a été réalisé dans le cadre d'un projet Parinfo, Programme d'aide à la recherche en information, mis en place en 1991 par le ministère de la Recherche et de la Technologie en collaboration avec le ministère de l'Education nationale. Il a été entièrement financé par le ministère de l'Education nationale. Un rapport a été écrit à la suite de cette étude : Les Catalogues en ligne accessibles par le public (Opac) : recherche exploratoire, ENSSIB, février 1993
  2. (retour)↑  Le travail présenté ici a été réalisé dans le cadre d'un projet Parinfo, Programme d'aide à la recherche en information, mis en place en 1991 par le ministère de la Recherche et de la Technologie en collaboration avec le ministère de l'Education nationale. Il a été entièrement financé par le ministère de l'Education nationale. Un rapport a été écrit à la suite de cette étude : Les Catalogues en ligne accessibles par le public (Opac) : recherche exploratoire, ENSSIB, février 1993
  3. (retour)↑  Si le terme Opac (Online Public Access Catalogue) s'est imposé pour désigner les catalogues en ligne accessibles par le public, même en France où des propositions telles que Ciel (Catalogue informatisé en ligne) ou Scalp (Système de consultation automatisé en ligne pour le public) n'ont eu aucun succès dans un environnement pourtant sensible à la défense de la langue française, c'est probablement parce qu'il obéit indéniablement au principe d'économie de la communication linguistique : court et facile à prononcer, certes, mais surtout évocateur de l'insuffisance des catalogues en ligne, dont la mission est de faciliter un accès large à l'information bibliographique et dont la clarté devrait être la qualité première.
  4. (retour)↑  Martine POULAIN, « Parinfo », Bulletin des bibliothèques de France, t. 36, n° 2, 1991, p. 134-140.
  5. (retour)↑  Joëlle LE MAREC, Dialogue ou labyrinthe : la consultation des catalogues informatisés par les usagers, Bibliothèque publique d'information, 1989.
  6. (retour)↑  C. W. YOUNG, C. M. EASTMAN, Robert L. OAKMAN, « An analysis of ill-formed input in natural language queries to document retrieval systems », Information processing and management, t. 27, n° 6, 1991, p. 615-622.
  7. (retour)↑  L'ensemble du rapport, remanié, est en cours de publication aux Presses de l'ENSSIB.
  8. (retour)↑  Maria WITT a également présenté une communication sur ce sujet au congrès de l'IFLA à Barcelone en 1993 : « Survey on the use of the catalogue at the Médiathèque de la Cité des sciences et de l'industrie ».
  9. (retour)↑  Participants : Elisabeth KOLMAYER, Mohamed HASSOUN, Danielle ROGER.
  10. (retour)↑  Prototype d'Opac de troisième génération, expérimenté notamment à la bibliothèque universitaire de Bath.
  11. (retour)↑  Participant : Micheline HANCOCK-BEAULIEU.
  12. (retour)↑  Participant : Maria WITT.
  13. (retour)↑  Participants: Pierre LE LOARER, Bruno MENON.
  14. (retour)↑  Les données collectées, enregistrées dans des fichiers en mode ASCII, peuvent être mises à la disposition de tout chercheur qui souhaiterait les utiliser. Pour toute information à ce sujet, s'adresser à M. Hassoun CERSI/ENSSIB 17-21 boulevard du 11 novembre 1918, 69623 Villeurbanne Cedex.
  15. (retour)↑  Dans certains types de recherche, cette difficulté peut être éliminée en utilisant la technique du magicien d'Oz : c'est ainsi qu'a été réalisée une expérience décrite dans : POLITY, Yolla et al., « Recueil de dialogues homme-machine en langue naturelle écrite », Cahiers du CRISS, 1990, n° 17.
  16. (retour)↑  Ces analyses ont été menées par Thierry LAFOUGE, maître de conférences à l'ENSSIB, et complétées par Marie-Pierre ORIOL (DEA soutenu à l'ENSSIB).
  17. (retour)↑  Des analyses précédentes avaient montré que la population de niveau inférieur au baccalauréat présentait des caractéristiques atypiques et masquait les autres groupes. Elle nécessiterait une analyse à part.
  18. (retour)↑  Cette analyse a été effectuée par Bruno MENON et Pierre LE LOARER de la société GSI-ERLI.
  19. (retour)↑  Nathalie RAMEL, « Caractérisation linguistique des questions d'utilisateurs d'Opac », Mémoire DEA, ENSSIB, 1993.
  20. (retour)↑  Michel ENCRENAZ, Essai sur les facteurs de réussite et d'échec dans l'utilisation d'un Opac, Villeurbanne ENSSIB, 1993.
  21. (retour)↑  La responsable scientifique de cette étude est Elisabeth KOLMAYER.
  22. (retour)↑  Cette remarque vaut pour l'étude de l'usager, mais aussi pour l'étude de l'expert (bibliothécaire ou documentaliste). La conception de systèmes intelligents par exemple ne peut se faire sans une bonne connaissance des savoirs professionnels. On peut citer ici l'exemple de la thèse de psychologie, soutenue à Toulouse en 1993, par Annick BERTRAND, Compréhension et catégorisation dans une activité complexe : l'indexation de documents scientifiques.