Lekoukès

Coûts d'utilisation des banques de données dans les bibliothèques universitaires

Bernard Marx

Il y a maintenant dix ans que le ministère de l'Education nationale a débuté auprès des Bibliothèques d'université son action d'incitation et d'aide à l'interrogation des banques de données. Initié à l'Université Paris-Sud, Centre d'Orsay (1), le service de recherche documentaire informatisé est maintenant disponible dans toutes les sections de BU de BIU. Dès sa période opérationnelle, cette action a été confrontée au problème du coût de services extérieurs et de tarification à différents types d'utilisateurs. Il a paru intéressant de calculer, à partir de données fournies par les bibliothèques, les coûts actuels de l'interrogation.

L'évaluation du coût d'utilisation des banques de données dans les bibliothèques universitaires et interuniversitaires doit être située dans un ensemble de différerents services et produits qui ne seront pas pris en compte dans cet article, mais qui constituent l'environnement du service d'interrogation des banques de données « encadré).

Un coût peut en cacher un autre 1

Les différents éléments du coût d'utilisation à prendre en compte correspondent aux différents niveaux de l'interrogation elle-même, définis à partir des choix successifs de l'utilisateur :
- Serveur (2) :
* coût d'interrogation d'une banque de données sur un serveur comprenant les redevances au producteur (3) ;
* coût d'impression des résultats en ligne (4) ;
* coût d'impression des résultats en différé.
- Réseau de télétransmission :
* coût d'utilisation du réseau pour atteindre l'ordinateur serveur ;
- Réseau commuté :
* coût d'utilisation du réseau commuté pour atteindre le réseau de télétransmission.

D'autres services proposés par serveur (diffusion sélective de l'information, commande en ligne des documents primaires, commande de télédéchargement) ne sont pas pris en compte dans cet article.

Le calcul du coût moyen des recherches en ligne est effectué à partir des statistiques d'utilisation du deuxième trimestre 1986 fournies par les bibliothèques universitaires à la DBMIST. La répartition des résultats est effectuée suivant les différentes sections des bibliothèques : Sciences; Médecine, Pharmacie, Odontologie; Lettres, Droit, Sciences économiques.

Le total des temps d'interrogation du trimestre est de 905 heures réparties suivant les trois sections (fig. 1).

Cette utilisation correspond à 4 % du nombre d'heures payantes de l'estimation 1985 de l'enquête du Groupement français des fournisseurs d'information en ligne (5). Le même chiffre de 4 % correspond au pourcentage du nombre d'heures réalisées par la catégorie « Enseignement, Universités » dans l'utilisation des banques de données des serveurs français en 1984, résultats publiés par l'Association des centres serveurs français (6). En réalité, cette utilisation des banques de données dans les bibliothèques universitaires ne traduit qu'une partie de l'utilisation des établissements relevant du ministère de la Recherche et de l'enseignement supérieur, puisqu'il faut aussi prendre en compte les sept Unités régionales de formation et de promotion de l'information scientifique et technique (URFIST), dont l'utilisation totale est de l'ordre de 2 000 heures par an ainsi que l'accès direct aux banques pour les laboratoires des universités, des grandes écoles et des établissements relevant du ministère de la Recherche et de l'Enseignement supérieur que l'on ne peut pas aujourd'hui évaluer.

Sections Sciences

Les résultats correspondent aux temps d'interrogation (fig. 2). Les proportions des cinq banques les plus interrogées sont mentionnées : CHEMICAL ABSTRACTS, PASCAL, BIOSIS, INSPEC, SCISEARCH qui représentent 79 % du temps total d'interrogation. Les temps d'utilisation du logiciel DARC pour l'accès à CA sont comptés pour l'utilisation de cette banque (7). Plusieurs banques sont interrogées par les bibliothèques sur différents serveurs, dont les pourcentages sont indiqués pour chaque banque. D'autres banques de données sont interrogées, mais leur pourcentage respectif est inférieur à 1 % : METADEX, INPI, COMPENDEX, WPI, IALINE, FSTA, POLLUTION, NASA, MATHEMATICS ABS., etc.

La répartition en temps d'interrogation par serveur est indiquée. A part les cinq serveurs mentionnés, DATA-STAR, INKA et G.CAM sont aussi utilisés mais en très faible proportion.

Les réseaux de télétransmission utilisés sont TRANSPAC pour QUESTEL et G.CAM, la liaison TRANSPAC ou le réseau ITAPAC pour IRS-ESA et les réseaux nord-américains (TYMNET, TELENET, etc) reliés à TRANSPAC par le noeud de transit international.

Les durées moyennes des recherches effectuées dans les différentes banques et les différents serveurs sont calculées ainsi que le nombre moyen d'impressions en ligne et en différé pour la durée d'une recherche (fig. 3).

Ces résultats déterminent une durée moyenne d'une recherche en section sciences de 15 minutes. Les différents coûts correspondants (durée d'utilisation banque/serveur et résultats en ligne et en différé) sont calculés à partir des tarifs publics fournis par les serveurs aux utilisateurs (fig. 4). La plupart des serveurs proposent des remises de prix en fonction du volume d'utilisation, généralement à partir de 5 heures par mois. Des souscriptions obligatoires ou non, des prix forfaitaires d'utilisation permettent aussi des coûts réduits soit au niveau du serveur, soit pour certaines banques de données (8, 9). Dans le cas de QUESTEL, « les organismes publics de recherche et d'enseignement bénéficient d'une remise de 10 % sur le tarif de l'heure de connexion pour l'accès aux bases de données. Cette remise ne s'applique ni au coût de transmission ni aux impressions en différé ». Le coût du réseau TRANSPAC est celui qui est refacturé par le serveur à l'utilisateur, celui des réseaux pour utiliser un serveur en Europe ou aux Etats-Unis est une valeur moyenne, étant donné l'influence de la vitesse et du volume de transactions.

Les prix indiqués sont hors taxes, la TVA est applicable aux tarifs des serveurs français (coûts horaires et impressions des résultats) et au coût de TRANSPAC pour l'accès aux serveurs français.

Compte tenu de ces précisions (réductions QUESTEL, absence de taxes sur les prix des serveurs étrangers et des réseaux correspondants), les coûts moyens calculés à partir des tarifs publics peuvent être considérés comme des prix nets (fig. 5).

Au niveau horaire, l'élément le plus important est le coût de CHEMICAL ABSTRACTS sur les trois différents serveurs ainsi que le passage transatlantique, près d'un tiers des communications (STN et DIALOG) passant par les réseaux nord-américains. Le coût des résultats est particulièrement affecté par le prix élevé des références en ligne et en différé de CA/STN.

Ce coût de 580 F 2 par heure pour la partie coût horaire d'utilisation de la banque est plus élevé que celui de l'estimation 1985 de l'enquête du GFFIL (Groupement français des fournisseurs d'information en ligne) pour la catégorie sciences et techniques (422 F).

Cette différence provient essentiellement du fait que ce chiffre est calculé à partir de ceux indiqués par les seuls fournisseurs français d'information en ligne, tandis que les bibliothèques sciences utilisent aussi des banques étrangères (CA, BIOSIS, INSPEC, etc.).

D'autre part, le rapport du GFFIL inclut la rubrique médecine dans la catégorie sciences et techniques ; cette seconde remarque est moins importante, le produit prédominant, MEDLINE, étant un produit américain, il n'entre donc pas dans le calcul du GFFIL.

Il était une fois la préhistoire...

Le paysage actuel (fig. 2) est à la fois très proche (banques de données) et totalement différent (serveurs) de celui des temps préhistoriques de la recherche en ligne lorsque l'homo terminalis ne disposait pas de serveur français. Les statistiques de l'année 1979 sections sciences des bibliothèques universitaires (fig. 6) montrent pratiquement des utilisations analogues des mêmes banques de données, mise à part une diminution de l'utilisation de PASCAL en 1986 par rapport à un plus grand nombre de banques faiblement utilisées représentant 21 % du temps d'interrogation. Par contre, pour les serveurs, le changement est important, le partage par moitié entre serveur européen et serveurs américains en 1979 est remplacé en 1986 par 37 % des interrogations assurées par des serveurs français QUESTEL et CEDOCAR, les deux autres tiers étant assurés respectivement par IRS-ESA et par les serveurs américains (STN et DIALOG).

Les changements de structure des banques, en particulier de CA rendent difficiles les comparaisons avec les études de coûts de l'époque (11).

Sections Médecine, Pharmacie, Odontologie

Les consommations horaires montrent une utilisation très concentrée, puisque 90 % des interrogations utilisent trois banques (MEDLINE, PASCAL, CA) dont MEDLINE seule représente 73 % (fig. 7).

A part BIOSIS et EMBASE représentant chacune 2 %, d'autres banques ont une proportion inférieure à 1 % : CANCERLINE, TOXLINE, IPA, SCISEARCH, INTERNATEL.

Dans les serveurs, QUESTEL avec MEDLINE, PASCAL et CAS, dans une plus faible part, représentent plus des trois quarts des interrogations, les serveurs européens DATA-STAR et IRS-ESA (17 %) et les serveurs américains NLM et DIALOG (5 %). D'autres serveurs ont une utilisation plus faible: SUNIST, G.CAM. Les durées moyennes des recherches par banque et serveur et le nombre moyen de résultats visualisés en ligne et édités en différé sont indiqués dans la figure 8.

Les coûts correspondant à une recherche de durée moyenne de 11,5 minutes sont calculés ainsi (fig. 9) :

L'élément déterminant est essentiellement le coût horaire faible de MEDLINE, ainsi qu'au niveau du réseau, la forte proportion de trafic utilisant uniquement TRANSPAC pour atteindre QUESTEL. Une étude faite en 1985 dans le secteur médical indiquait des coûts par stratégie de recherche (de 9 à 52 F) correspondant à une durée moyenne de 2 à 6 minutes (12).

Sections Droit, Lettres, Sciences économiques

La répartition horaire montre que plus de la moitié des interrogations est effectuée sur FRANCIS (S et H), 73 % des interrogations sont réalisées sur quatre banques (FRANCIS, ISIS, PASCAL et SYDONI). A l'autre extrémité, 22 % des interrogations sont effectuées sur des banques représentant chacune moins de 1 % des interrogations : SOCIOLOGICAL ABS., SPHINX, ABI/INFORM, LEX, MANAGEMENT, etc.

Les serveurs français (QUESTEL, CDSH, G.CAM) représentent 90 % des interrogations (fig. 10). D'autres serveurs sont faiblement utilisés : SUNIST, CNUSC.

A ce panorama correspondent les durées et les nombres des résultats moyens exposés dans la figure 11.

A la durée moyenne d'une recherche de 14 minutes correspondent les coûts suivants (fig. 12) :

Les coûts pris en compte sont très différents, entre celui, faible, de FRANCIS/CDSH et les coûts plus élevés des banques de données juridiques, mélange qui correspond à celui des sections Lettres et Droit. Le coût du réseau reste limité étant donné la forte proportion d'utilisation de serveurs français.

Ce coût horaire banque/serveur de 373 F est proche des estimations 1985 du GFFIL pour les domaines d'activités suivants: Sciences humaines et sociales : 344 F; Droit : 370 F 3.

Tout est coût 4

L'ensemble des interrogations de banques de données effectuées durant le deuxième trimestre 1986 dans les bibliothèques universitaires et interuniversitaires montre l'importance des données d'origine étrangère, essentiellement américaine, ainsi que l'importance des données étrangères et françaises diffusées par les serveurs français, essentiellement QUESTEL.

En effet, les trois quarts de la durée des interrogations sont effectués sur des banques étrangères (américaines) : MEDLINE, CA, BIOSIS, etc. Le quart effectué sur des banques françaises l'est presque entièrement sur PASCAL et FRANCIS. La situation est inversée, au niveau des serveurs, 70 % des transactions ont lieu avec les serveurs français, principalement avec QUESTEL, les serveurs européens représentent 18 % et américains 12 %.

La production universitaire de banques de données n'apparaît pas dans ce panorama des services les plus utilisés. Cette situation peut évoluer rapidement du fait du plus grand nombre de banques disponibles sur le SUNIST, en particulier les outils communs accessibles par le kiosque : TELELAB, TELETHESES, TELEBANK, INTERNATEL, etc., mais cette utilisation, du fait même de sa facilité d'accès, n'apparaît pas dans la comptabilité des interrogations fournie à l'utilisateur par le serveur.

Les coûts moyens dans les différentes sections des bibliothèques traduisent les caractéristiques tarifaires des principales banques de données du domaine d'activité (fig. 13) :
- coût plus élevé en sections Sciences, étant donné les prix de CA aussi bien au coût horaire que pour les impressions des résultats ;
- coût faible en sections Médecine, avec des recherches plus rapides et un coût horaire faible de MEDLINE ;
- coût intermédiaire en section Droit, Lettres, avec un coût réduit (horaire et résultats), FRANCIS/ CDSH et un coût plus élevé pour les banques juridiques.

L'analyse de ces coûts montre un grand nombre d'éléments, visibles ou non, issus des différents partenaires et affectant le prix final que doit acquitter l'utilisateur :
- producteur : redevances sur la durée et les résultats en ligne et en différé ;
- serveur : exploitation de l'ordinateur intervenant sur la durée et les résultats ;
- réseau: durée de l'interrogation, volume d'information transmis.

En fonction de chaque contrat producteur-serveur, les tarifs montrent des politiques tarifaires très différentes pour l'utilisateur. L'évolution de ces prix est très rapide; chaque mois, les bulletins d'information des serveurs annoncent les modifications (généralement à la hausse) des coûts d'utilisation des banques ou le rééquilibrage de la tarification entre durée et résultats.

Quelques aspects de l'évolution politique et technologique peuvent modifier considérablement les coûts d'utilisation (méthodes de tarification ou montant du prix unitaire), la concentration verticale producteur-serveur, le nombre élevé d'utilisateurs correspondant à un faible volume d'interrogation individuelle et, bien sûr, le développement de banques de données sur CD-ROM.

La concentration verticale n'est pas nouvelle dans le domaine de l'information en ligne. Parmi les six serveurs qui dépassent le chiffre d'affaires du million de dollars par trimestre : MDC, DIALOG, BRS, SDC, NLM, STN, trois d'entre eux ont ce double rôle : MDC, NLM, STN; mais lorsqu'à cette concentration s'ajoute le monopole de diffusion, l'utilisateur ne peut que subir les méthodes de tarification et les montants des prix.

Les serveurs sont aussi, depuis de nombreuses années, confrontés à la difficulté de gestion d'un nombre considérable d'utilisateurs dont la plus grande partie interroge très peu; ceci est à relier au très grand nombre de banques disponibles, à l'intervention de l'utilisateur final à partir d'un micro-ordinateur individuel, et, en France, à l'utilisation du vidéotex professionnel géré par le serveur, principalement Télétel 1. En attendant les tarifs multipaliers de Télétel 3, les serveurs (et les producteurs) réagissent en demandant ou en incitant à un paiement forfaitaire ou à une facturation minimale en opposition au principe jusqu'à présent le plus fréquent du paiement directement proportionnel à la consommation.

L'impact du CD-ROM sur le marché de l'information en ligne n'est pas encore connu. Le producteur retrouve ses relations directes avec l'utilisateur, la durée de recherche n'intervient que pour une recherche locale et le paiement forfaitaire fait intervenir un nombre de données potentiellement intéressantes et non un résultat. Quelle sera l'influence de ce médium sur le coût des services en ligne et des produits imprimés des banques concernées et des autres banques et serveurs ?

Les services des grandes banques de données peuvent voir leur utilisation diminuer pour leurs clients les plus importants, avec une répercussion sur l'ensemble du service en ligne : ce sont probablement les « petites banques », qui bénéficient de la synergie due à la multiplicité des banques sur un même serveur, qui seraient alors les plus affectées.

Autre hypothèse qui n'exclut pas la précédente : le CD-ROM, dont l'actualisation fréquente est onéreuse, ne porterait guère préjudice aux services en ligne sans cesse mis à jour. Il deviendrait alors le principal concurrent des bibiographies imprimées disponibles localement.

Illustration
Services et produits indispensables

Illustration
Fig. 1 - Répartition des temps d'interrogation

Illustration
Fig. 2 - Sections sciences

Illustration
Fig. 3 - Les recherches en section Sciences

Illustration
Fig. 4 - Tarifications utilisées pour le calcul des coûts

Illustration
Fig. 5 - Sciences

Illustration
Fig. 6 - Sections Sciences 1979

Illustration
Fig. 7 - Sections Médecine, Pharmacie, Odontologie

Illustration
Fig. 8 - Les recherches en sections Médecine

Illustration
Fig. 9 - Médecine

Illustration
Fig. 12 - Droit, Lettres, Sciences éco.

Illustration
Fig. 10 - Sections Droit, Lettres, Sciences économiques

Illustration
Fig. 11 - Les recherches en sections Droit-Lettres

Illustration
Fig. 13 - Les coûts par section

  1. (retour)↑  « Le coût, qu'est-ce ? », Raymond Queneau
  2. (retour)↑  « Le coût, qu'est-ce ? », Raymond Queneau
  3. (retour)↑  Antoine Fouquier-Tinville.
  4. (retour)↑  Des coûts d'utilisation récemment publiés par la bibliothèque centrale de l'University of New Mexico (10) indiquent pour le secteur sciences-ingénierie un coût moyen par recherche (banque/serveur, réseau, résultats en ligne et en différé) d'environ 250 F.
  5. (retour)↑  La bibliothèque centrale de l'University of New Mexico mdique des coûts de recherche plus faibles en science de l'éducation et plus élevés pour les sciences humaines, sciences sociales et affaires (10).
  6. (retour)↑  Georges Bernanos