Comparaison entre la recherche bibliographique au moyen des répertoires imprimés et la recherche documentaire informatisée

Alain Gleyze

Beaucoup d'analyses insistent aujourd'hui sur la nécessité de développer l'interrogation en conversationnel des banques de données. En même temps on assiste au renforcement des équipes chargées de la formation à l'utilisation des moyens modernes d'information. Dans ces conditions, la recherche d'une pédagogie appropriée à l'objectif poursuivi est d'actualité. Cet exposé a été conçu comme une contribution à l'élaboration d'une telle pédagogie.

Certaines formations à la recherche documentaire informatisée s'adressent à des professionnels des bibliothèques, qui ont déjà l'expérience de la recherche bibliographique au moyen des répertoires imprimés. A leur intention, il a paru utile de tenter une comparaison systématique entre ces deux modes d'accès aux informations bibliographiques.

Cette comparaison n'a pas été faite dans le but de mettre en évidence les avantages et les inconvénients de l'une et l'autre méthode. Elle cherche principalement à en exposer les caractéristiques, d'une manière aussi objective que possible. Il a semblé que cette démarche pouvait faciliter l'apprentissage d'une technique nouvelle à partir d'une technique connue. Peut-être aussi a-t-elle un intérêt pour améliorer les modes d'accès aux informations contenues dans les banques de. données.

L'esprit dans lequel ce texte est rédigé nous semble proche de celui de l'article de Michel Libes, Bibliographies en métamorphose, publié dans le Bulletin des Bibliothèques de France (7).

1. Comparaison générale

1.1 La recherche bibliographique au moyen des répertoires imprimés

Dans la recherche bibliographique au moyen des répertoires imprimés, l'utilisateur final a accès aux références bibliographiques qui représentent des documents primaires à travers un nombre réduit d'intermédiaires. Ces intermédiaires sont les rédacteurs et l'éditeur de la bibliographie. A eux deux, ils sont responsables du contenu et de la présentation du répertoire bibliographique. Ces deux caractéristiques sont généralement exposées dans une introduction. Leur complexité n'est pas telle que l'utilisateur final, qui est compétent pour apprécier la pertinence des références bibliographiques par rapport à la recherche, et pour exploiter les documents primaires correspondants, ait besoin d'une aide. Il a ainsi un contact peu médiatisé avec l'objet de ses recherches, et il peut par conséquent avoir accès aux références bibliographiques d'une manière autonome. Ajoutons que la présentation des répertoires bibliographiques offre des caractéristiques rassurantes : leur matérialité (il est possible de les manier et de les feuilleter), un nombre limité de tables et d'index, la simplicité de consultation et la stabilité dans le temps de leurs caractéristiques. Ces différents éléments renforcent la possibilité d'une recherche directe par l'utilisateur final.

1.2 La recherche documentaire informatisée

En revanche, dans la recherche documentaire informatisée, il s'interpose entre l'utilisateur final et l'objet de ses recherches un certain nombre d'intermédiaires techniques, qui nécessitent à leur tour la présence d'un utilisateur intermédiaire. Ces intermédiaires techniques sont de nature hétérogène, soit matérielle (le terminal), soit intellectuelle (le logiciel). Dans l'ordre utilisateur final-documents primaires, ce sont : le terminal avec ses différentes parties (clavier, écran, imprimante, modem), le réseau de transmission de données, le serveur, le logiciel. Rappelons que les producteurs de banques de données, dont le rôle est comparable à celui d'un éditeur, donnent accès à leurs produits par l'intermédiaire des serveurs. Les banques de données chargées sur les ordinateurs des serveurs sont rendues accessibles par un logiciel d'interrogation, et par l'intermédiaire d'un réseau de transmission de données (1, 4, 9).

Comme dans la recherche bibliographique manuelle, l'utilisateur final est compétent pour juger de la pertinence des références bibliographiques, et pour exploiter les documents primaires correspondants. Mais il a besoin d'un partenaire qui soit compétent pour les intermédiaires qui s'interposent entre lui et l'objet de ses recherches : terminal, réseau... et même producteur et indexeurs, dont il est nécessaire de connaître, par exemple, l'orientation en matière de couverture du domaine scientifique, ou les méthodes d'indexation. Ce partenaire est l'utilisateur intermédiaire. Cependant, la ligne de partage des compétences entre ces deux partenaires n'est pas aussi simple à déterminer. L'indexation, par exemple, fait appel à une terminologie spécialisée, qui est probablement mieux connue de l'utilisateur final que de l'utilisateur intermédiaire. D'autre part, ce dernier ne peut pas être confiné dans un rôle d'auxiliaire technique, « celui qui fait fonctionner le terminal ». Il doit être capable de dialoguer avec l'utilisateur final, ce qui implique que l'objet des recherches de celui-ci ne lui soit pas complètement étranger. Cette responsabilité à la fois scientifique et technique n'est évidemment pas facile à assumer.

On remarquera encore une autre opposition par rapport à la recherche bibliographique au moyen des répertoires imprimés. Des informations en grand nombre sont émises par les différents partenaires de cette nouvelle chaîne de recherche : réseaux, serveur, producteur. Elles concernent des modifications du logiciel d'interrogation, des horaires d'accès, du contenu de la banque de données, des méthodes d'indexation... Cet afflux d'informations s'oppose à la simplicité d'emploi et à la stabilité des répertoires bibliographiques imprimés. En outre, comme ces informations parviennent de façon dispersée et étalée dans le temps, il n'est pas facile de les mémoriser pour en faire usage le moment venu. Cette caractéristique rend plus nécessaire encore, mais aussi plus difficile, le rôle de l'utilisateur intermédiaire.

Une autre conséquence de cette complexité croissante du processus de recherche documentaire est la nécessité d'assurer une formation aux utilisateurs intermédiaires, et de diffuser une information sur ces nouveaux produits documentaires invisibles auprès des utilisateurs finals. Ces deux missions complémentaires sont assurées à la fois par les producteurs de banques de données, les serveurs, et des équipes de formateurs spécialisés (5).

2. L'accès aux informations dans les répertoires bibliographiques imprimés

L'accès aux informations contenues dans les répertoires bibliographiques imprimés repose sur plusieurs caractéristiques. La première de ces caractéristiques est le classement des références bibliographiques. D'autres caractéristiques sont la difficulté d'une recherche portant sur une combinaison de critères et le découpage chronologique des références bibliographiques.

2.1. Classement principal et classement auxiliaire

Nous entendons par classement principal celui sous lequel un répertoire donne les références bibliographiques avec le maximum de précisions. Nous rangeons sous le nom de classements auxiliaires des classements sous lesquels les références bibliographiques sont données avec moins de précisions, ou encore ceux qui n'ont pour fonction que de renvoyer au classement principal. Dans ce dernier cas, la notion de classement auxiliaire recouvre celles de tables et d'index.

Tout répertoire bibliographique imprimé comporte au moins un classement principal. Les classements auxiliaires sont facultatifs. Quand ils existent, on peut en trouver, selon les cas, un ou plusieurs. Une présentation classique d'un répertoire bibliographique imprimé, illustrée notamment par le Bulletin signalétique du CNRS, est :
- classement principal systématique, selon un cadre de classement propre à chaque publication ;
- classement auxiliaire alphabétique par noms d'auteurs (=index auteurs) ;
- classement auxiliaire alphabétique par mots-clés (=index matières).

La Bibliographie de la France : livres présente, quant à elle, le type :
- classement principal systématique (CDU);
- classement auxiliaire alphabétique par noms d'auteurs (=index auteurs) ;
- classement auxiliaire alphabétique par titres (=index titres).

Ces notions de classement principal et de classement auxiliaire permettent de décrire la présentation de n'importe quel répertoire bibliographique imprimé. Ces classements déterminent, comme on sait, l'usage qu'il est possible de faire d'un répertoire bibliographique donné (8).

2.2 Classements permettant la recherche par identifiant et la recherche par sujet

Tous les classements reposent sur le choix d'une caractéristique des unités recensées. Dans un répertoire bibliographique imprimé, les caractéristiques choisies peuvent appartenir :
- soit aux caractéristiques intellectuelles externes des documents, c'est-à-dire celles qui sont prises en considération pour leur description externe (=catalogage) auteur, titre, collection, périodique... ;
- soit aux caractéristiques intellectuelles internes des documents, c'est-à-dire celles qui sont prises en considération pour leur description interne (=indexation). Il s'agit là du contenu intellectuel des documents.

Les caractéristiques intellectuelles externes permettent une recherche par identifiant, c'est-à-dire au moyen d'un élément connu de la ou des références bibliographiques recherchées : auteur, titre, collection, année de publication... Cette recherche n'est bien entendu possible que dans un répertoire bibliographique imprimé qui présente un classement, principal ou auxiliaire, basé sur la caractéristique à laquelle appartient cet identifiant.

Les caractéristiques intellectuelles internes permettent une recherche par sujet, c'est-à-dire au moyen d'une caractéristique relevant du contenu intellectuel des documents.

Dans les deux répertoires cités en exemple au paragraphe 2.1, il est possible d'effectuer les deux types de recherche.

2.3 Accès séquentiel et accès direct dans la recherche par sujet

Le Bulletin signalétique du CNRS et la Bibliographie de la France : livres ne présentent pas exactement les mêmes caractéristiques du point de vue de la recherche par sujet.

Le Bulletin signalétique du CNRS présente une double possibilité: la recherche au moyen du cadre de classement systématique, et la recherche au moyen de l'index matières. La Bibliographie de la France : livres ne permet que la recherche au moyen du cadre de classement systématique.

Nous appellerons accès séquentiel l'accès autorisé par un classement systématique. Dans un tel classement, en effet, les références bibliographiques sont regroupées par classes, sous-classes, etc., selon l'ordre d'une classification. Le repérage des références pertinentes nécessite donc le balayage séquentiel des références contenues dans un ensemble plus vaste. En revanche, un classement alphabétique de matières autorise un accès direct, car il « pointe » précisément sur les références bibliographiques pertinentes, ou sur leur numéro s'il s'agit d'un classement auxiliaire (index).

Comme on sait, ces deux classements présentent des caractéristiques opposées : ordre logique, regroupement et faible précision pour le classement systématique ; ordre conventionnel, dispersion et précision pour le classement alphabétique de matières. En outre, les langages documentaires que ces deux classements mettent en oeuvre ne donnent pas accès au même type d'informations : les classifications privilégient une approche par discipline ou par point de vue, alors que les mots-clés permettent d'accéder aux unités d'information (sujets) traitées dans les documents (3).

2.4 Difficulté de la recherche multicritère dans les répertoires bibliographiques imprimés

Les travaux de Mortimer Taube sur l'indexation au moyen d'unitermes ont mis en évidence la difficulté d'effectuer une recherche multicritère au moyen de procédés manuels.

La question : « quelles sont les références des documents sur l'indexation automatisée qui ont Z pour auteur ? » nécessite soit la recherche successive dans les classements auteurs et sujets d'un répertoire bibliographique imprimé, et la comparaison des références citées ou de leur numéro ; soit le balayage séquentiel de toutes les références bibliographiques citées sous l'un des critères de recherche, pour repérer celles qui répondent simultanément à l'autre critère. La difficulté croît rapidement avec le nombre des critères de recherche.

Nous retiendrons simplement ici que ces travaux, ainsi que les applications pratiques qui sont basées sur les mêmes principes (fiches unitermes et fiches à superposition visuelle, notamment), ont conduit à une organisation des mémoires documentaires identique à celle qui est utilisée dans les systèmes documentaires informatisés. Il s'agit de la distinction entre fichier séquentiel et fichier inversé (2, 6). Il est évident, pour qui a pratiqué la recherche bibliographique au moyen de répertoires imprimés, que ceux-ci se prêtent avant tout aux recherches basées sur un nombre restreint de critères.

2.5 Découpage chronologique des références bibliographiques dans les répertoires bibliographiques imprimés

Cette caractéristique concerne surtout les répertoires bibliographiques périodiques. Le découpage chronologique a des conséquences sur la rigueur de l'indexation, qui peut être moindre si elle porte sur un nombre limité de références bibliographiques par livraison du répertoire bibliographique. Mais cette facilité se paye ensuite par les difficultés de la recherche à l'intérieur d'une tranche chronologique importante. On peut voir là la source des difficultés d'interrogation de certaines banques de données issues de bulletins bibliographiques périodiques.

Le découpage chronologique oblige évidemment à la consultation d'un nombre important de volumes ou de fascicules pour effectuer une recherche dans des limites de dates larges. Cet inconvénient est le résultat de contraintes propres à la chose imprimée, que ne connaissent pas les supports magnétiques de l'information utilisés dans les banques de données. Mais c'est aussi la contrepartie d'une antériorité importante des références bibliographiques contenues dans de nombreux répertoires bibliographiques imprimés, qui constitue par elle-même un avantage.

3. L'accès aux informations dans les banques de données

3.1. Classement principal et classement auxiliaire

Le classement principal des banques de données est constitué par le fichier séquentiel, dans lequel les références bibliographiques sont rangées dans un ordre aléatoire (ordre de saisie). Ce classement n'est donc pas directement utilisable, en raison de son caractère non signifiant. Nous entendons par classement non signifiant un classement basé sur un autre critère que le contenu intellectuel des documents recensés.

Seuls les classements auxiliaires, constitués par les fichiers inversés, sont utilisables. Rappelons que les fichiers inversés sont des fichiers classés dans un ordre propre au critère qui sert de base à un fichier donné : numérique ou alphabétique... Dans ces fichiers, on trouve, par exemple, un mot-clé ou un nom d'auteur. Sous ce mot-clé ou sous ce nom d'auteur, sont rangés les numéros (adresses) des références bibliographiques qui présentent cette caractéristique. La sélection des références s'effectue, en général, au moyen des fichiers inversés. La visualisation des références nécessite le passage du ou des fichiers inversés au fichier séquentiel. Le chaînage entre les deux fichiers est assuré par le numéro séquentiel des références bibliographiques, présent dans les deux fichiers.

Dans une banque de données, ces classements auxiliaires sont considérablement plus développés que dans un répertoire bibliographique imprimé. A la place des deux ou trois index qu'on rencontre habituellement dans les répertoires bibliographiques, ce sont jusqu'à plusieurs dizaines de classements auxiliaires qu'il est possible de consulter, et qu'il est en outre aisé de combiner entre eux (cf. ci-dessous § 3.4). Auteur, auteur cité, titre, source, langue, type de documents, etc., constituent autant de moyens d'accès à l'information bibliographique contenue dans les banques de données.

3.2 Recherche par identifiant et recherche par sujet

Ces nombreux classements auxiliaires rendent possible aussi bien la recherche par identifiant (auteur, titre, source...) que la recherche par sujet (mots-clés ou descripteurs, unitermes).

3.3 Accès séquentiel et accès direct dans la recherche par sujet

La majeure partie des recherches par sujet dans une banque de données s'effectue au moyen de mots-clés ou descripteurs, c'est-à-dire par accès direct. La possibilité de recherche au moyen d'un classement systématique (cadre de classement) peut exister, mais elle est peu utilisée. Cette sous-utilisation, particulièrement dans l'interrogation en conversationnel, a pour résultat l'absence d'accès séquentiel à l'information bibliographique.

Or, cet accès séquentiel ne présente pas que des inconvénients. Il est vrai qu'il oblige à parcourir un certain nombre de références sans intérêt à la recherche des références pertinentes. Mais il est possible de recueillir ainsi d'autres références qui permettent d'élargir une recherche, voire de lui donner une orientation nouvelle. Parmi les choses qui déroutent le plus lorsque l'on s'assoit face à un terminal pour les premières fois, figurent l'impossibilité de feuilleter physiquement la liste des références dans laquelle se trouvent celles que l'on cherche, et la nécessité de bâtir ce qu'on appelle une « stratégie d'interrogation », c'est-à-dire une succession de questions, sans savoir exactement si elles sont adaptées à la banque de données que l'on consulte, et si elles produiront un résultat intéressant. Souvent, en outre, l'interrogateur est bloqué psychologiquement par ce qu'on lui a dit du coût de l'interrogation, et il cherche par conséquent à ne pas s'attarder au terminal.

Cette difficulté d'un accès séquentiel aux informations contenues dans les banques de données nous semble l'une de leurs caractéristiques les plus importantes, et l'une de celles qui les différencie le plus de la consultation des répertoires bibliographiques imprimés. Il semble bien que ce choix ait été fait pour des raisons d'efficacité et d'économie. Mais l'efficacité peut perdre à ignorer les pistes un peu marginales qu'offrent à la recherche des références à la limite du domaine sur lequel porte l'investigation. Le hasard peut être productif... et un mode de consultation en partie aléatoire peut permettre de préserver, dans une recherche, un inattendu qui peut se révéler fécond.

3.4 Facilité de la recherche multicritère dans une banque de données

Les logiciels d'interrogation des banques de données ont tous été conçus de manière qu'il soit facile de combiner les différents critères d'une recherche, et que la réponse à la question ainsi posée soit fournie très rapidement. Ainsi, le traitement d'une question telle que : « Articles de périodiques en allemand sur la préhistoire en Afrique, publiés en 1979, à l'exception de ceux sur les hominiens » ne pose absolument aucune difficulté.

Cette aisance et cette souplesse de la recherche multicritère résulte à la fois des performances du matériel informatique, du caractère élaboré des logiciels, et de l'organisation des données en fichiers inversés (cf. ci-dessus § 3.1).

3.5 Cumulation des références bibliographiques dans les banques de données

Les références bibliographiques contenues dans une banque de données forment généralement Un seul ensemble, qu'il est possible de découper chronologiquement à l'interrogation, mais que l'on peut également interroger en totalité. C'est évidemment un avantage par rapport à la consultation des nombreux volumes annuels que nécessitent certaines recherches au moyen des répertoires bibliographiques imprimés.

On remarque toutefois que certaines banques de données très volumineuses sont découpées en plusieurs tranches chronologiques (par exemple, Pascal et Pascal rétrospectif). De plus, l'antériorité des références bibliographiques est bien plus réduite dans les banques de données que dans les répertoires bibliographiques imprimés. Cela constitue en soi un inconvénient non négligeable, en sciences humaines notamment. En outre, il est possible de penser que l'accroissement du nombre des références bibliographiques contenues dans les banques de données conduira à les scinder en tranches chronologiques, un peu de la même manière que les répertoires bibliographiques imprimés.

Conclusion

Au terme de cette étude comparative, il nous semble possible de résumer ainsi les caractéristiques de l'interrogation des banques de données par rapport à la consultation des répertoires bibliographiques imprimés :
- classement principal non utilisable ;
- abondance des classements auxiliaires ;
- recherche aisée par identifiant ;
- recherche par sujet seulement par accès direct ;
- facilité et rapidité de la recherche multicritère ;
- cumulation chronologique d'un grand nombre de références.

Nous espérons que cette analyse sommaire permettra aux professionnels habitués au maniement des répertoires bibliographiques imprimés d'aborder plus aisément, en ayant conscience des différences qu'ils sont appelés à rencontrer, la recherche documentaire informatisée.