Du catalogue enrichi au métacatalogue

Thierry Samain

La plupart des services électroniques des bibliothèques sont désormais disponibles à partir de leur site web. Trois approches peuvent être envisagées pour fédérer avec cohérence et lisibilité l’accès à ces ensembles hétérogènes d’information, de références et de données : l’organisation du site web autour des contenus et services offerts, l’intégration centralisée par l’enrichissement du catalogue à sa source, et la structuration différenciée des corpus selon leurs propres normes et standards (notamment au niveau du format des données), en réservant le rôle unificateur à un « métamoteur ».

Most of the electronic services of libraries will be available on their websites from now on. Three approaches can be envisaged for accessing, with consistency and readability, those heterogeneous collections of information, references and data: the organisation of the website around the contents and services on offer, centralised integration by enrichment of the catalogue at its source, and the diverse structuring of the corpuses according to their particular norms and standards (notably at the level of the format of the data) while reserving the unifying role for a “meta-motor”.

Die meisten elektronischen Dienstleistungen der Bibliotheken sind heutzutage über ihre Websites zugänglich gemacht. Es gibt drei Möglichkeiten um diese vielfältigen Informationseinheiten, Referenzen und Daten auf kohärente und lesbare Weise zu erschliessen. Die Organisation der Website rund um die Inhalte und die angeboteten Dienstleistungen. Die Bereicherung des Bibliothekskatalogs durch zentralisierte Integration von Daten. Und schliesslich die differenzierte Strukturierung der verschiedenen Einheiten die ihren eigenen Normen und Standards entsprechen (besonders auf der Stufe des Datenformats), wobei man die Übereinstimmungsarbeit einem “Metamotor” überlässt.

La mayoría de los servicios electrónicos de las bibliotecas están de ahora en adelante disponibles a partir de su sitio Web. Tres enfoques se pueden contemplar para federar con coherencia y legibilidad el acceso a estos conjuntos heterogéneos de información, de referencias y de datos : la organización del sitio Web alrededor de los contenidos y servicios ofrecidos, la integración centralizada mediante el enriquecimiento del catálogo en su fuente y la estructuracón diferenciada de los cuerpos según sus propias normas y estándares (particularmente en cuanto al formato de los datos) reservando el papel unificador a un “metamotor”.

La plupart des services électroniques traditionnels proposés par les bibliothèques, ainsi que l’offre en développement constant de ressources en ligne sont de plus en plus rassemblés en la porte d’accès qu’offre le site web. La difficulté à proposer de manière cohérente cet ensemble hétérogène impose une réflexion sur la manière dont on envisage à terme de fédérer ces accès.

L’approche la plus naturelle pour un bibliothécaire paraît offerte par l’enrichissement à la source du catalogue qui, dans son interface web, autorise un passage naturel et souple des références au contenu signalé. Si cette solution apporte de manière transitoire une aide concrète et simple à mettre en oeuvre rapidement, il n’en reste pas moins nécessaire d’imaginer dès aujourd’hui des mécanismes d’intégration d’accès différenciés à un niveau supérieur. Le « portail » documentaire, métamoteur offrant des passerelles vers des bases structurées selon leur cohérence propre tout en respectant des normes et standards établis, semble se présenter comme l’un des modèles les plus satisfaisants.

Le point de départ

Tout débute par une mise à disposition de services mettant en jeu un accès à de la documentation électronique. Le développement de services proposés en ligne et notamment à partir du site web de la bibliothèque fournit le matériau propre à l’enrichissement du catalogue. Ce substrat peut se composer, en prenant exemple sur ce qui est disponible au service commun de la documentation (SCD) de l’université Lyon 3 :

– de ressources numérisées par la bibliothèque (tables des matières, documents spécifiques à une classe d’utilisateurs seule habilitée à y accéder, documents internes…) ;

– de périodiques (liste « enrichie » permettant de proposer, outre les données locales propres à l’établissement, un accès à différents éléments gratuits ou payants disponibles sur les sites web d’éditeurs ou d’agrégateurs) 1;

– de sélections de sites web généralement sous forme de liste ; la recherche sur ces éléments s’effectue par le biais d’un moteur de recherche plein texte propre au serveur web sur lequel les pages sont hébergées ;

– de bases de données en ligne gratuites ou payantes (accessibles par le biais d’agrégateurs, ou indépendantes) ;

– de bases de données sur cédéroms ; l’intégration de ce support aux autres ressources en ligne a été facilitée par le développement de clients web et de l’architecture client léger/serveur d’application, qui permet de centraliser la plus grande partie de la maintenance au niveau serveur.

Un premier degré d’intégration

Les différentes ressources en ligne présentées très brièvement ci-dessus sont souvent proposées avec plus ou moins de bonheur au travers des pages web de la bibliothèque. La première solution d’intégration de ces différents éléments est offerte par l’enrichissement du catalogue à sa source. Il s’agit pour cela d’utiliser les possibilités d’Unimarc 2 et des facultés de paramétrage de l’affichage détaillé des notices offertes par le client web du catalogue.

Par commodité, nous distinguerons par la suite deux notions : la ressource électronique qui recouvre une entité fermée se suffisant à elle-même (un article en ligne, la version électronique d’une revue papier), et le site web, multiforme et voué à des développements perpétuels.

Comment enrichir le catalogue à partir des différentes ressources évoquées précédemment ?

Les périodiques

L’enrichissement du catalogue par l’accès aux périodiques en ligne est tout particulièrement intéressant, car le plus facile à mettre en oeuvre à une grande échelle. Nous évoquerons trois cas.

– Celui des ressources électroniques à part entière (cas de revues n’existant que sous forme électronique). On utilise le champ 856 (localisation et accès à une ressource électronique), avec un premier indicateur (mode d’accès) 4 (pour http) et une sous-zone $u (pour URL) 3.

Pour les différents exemples cités en note, des réalisations concrètes peuvent être observées sur le site web du SCD Lyon 3 4. Les différents cas de recherche proposés permettent de visualiser des exemples avec lien vers des ressources d’accès libre ou sur souscription, par le biais de sites d’éditeurs ou d’agrégateurs.

– Celui des ressources électroniques reproduisant une version papier « originelle ». Si l’exemplaire n’est pas déjà disponible à la bibliothèque (et donc catalogué), le catalogage est réalisé avec le champ 856 ; si un exemplaire papier est déjà disponible dans la bibliothèque, on utilise le champ 452 (autre édition sur un autre support) avec la sous-zone $u 5.

Ce procédé soulève quelques questions : quelle est la frontière entre une ressource offrant une simple copie électronique du papier, et une ressource électronique qui dispose d’une originalité propre (par exemple le BBF en ligne qui propose une recherche sur l’ensemble des articles) ? À partir de quel moment doit-on créer une notice spécifique ?

Par ailleurs, qu’en est-il des publications plein texte avec retard d’un numéro (par exemple le Courrier de l’Unesco) ?

Afin de proposer l’amorce d’une réponse, on peut observer que le site de revue « enrichi » (contenu ou mise en page) est généralement le fait d’éditeurs qui ne publient qu’une revue (champ 856). Dans le cas des grands éditeurs, on dissocie nettement l’accès aux articles de chaque revue (champ 452) et l’interrogation d’une base globale portant sur l’ensemble des revues publiées.

– Celui des ressources électroniques offrant une partie de la version papier (sommaires ou résumés par exemple). On utilise le champ 464 (niveau de dépouillement) avec la sous-zone $u pour l’URL 6.

Le lien vers des parties électroniques de documents peut offrir un réel service ; il n’en reste pas moins important de suivre les évolutions futures, dans la mesure où aucune règle définie ne semble se dégager (en ce qui concerne le problème des tables des matières, cf. ci-après le cas des monographies). Les sommaires deviennent par ailleurs de plus en plus accessibles par le biais de bases de données globales (dépouillement, agrégateurs, fédérations d’accès), et vont nécessiter une intégration à un niveau supérieur (cf. dernière partie).

Les monographies

En ce qui concerne les monographies électroniques, le même type de catalogage peut être opéré à partir du champ 856 7.

Même s’il semble recommandé de pointer vers les ressources sur leur site de publication, il peut parfois s’avérer plus prudent de récupérer une copie de la ressource sur son propre serveur dans le cas de documents hébergés sans garantie de stabilité, en respectant, il va de soi, le droit d’auteur 8.

Les tables des matières peuvent enrichir le catalogue de différentes manières par :

– une numérisation en local (ou récupération sur sites web d’éditeurs), un stockage dans une base spécifique et un lien aux notices, dans la mesure où le client catalogue gère ce type d’accès 9 ;

– un repérage sur le web ou un stockage en local et un lien dans la notice par le biais du champ 464 ;

– une intégration directe à la notice par récupération auprès de fournisseurs de notices (comme c’est déjà le cas pour les résumés) : un service à venir ?

Les sélections de sites web

A priori, il est possible de cataloguer les sites web selon les mêmes règles que les ressources électroniques. Les avantages de l’enrichissement du catalogue à la source par le catalogage des sites web sont :

– une procédure unique de traitement des documents « traditionnels » et des sites web ;

– la disponibilité d’un vocabulaire contrôlé et structuré bien traité par les SIGB (systèmes intégrés de gestion de bibliothèque) ;

– l’utilisation d’un moteur de recherche unique au niveau du SIGB ;

– l’utilisation d’un format riche qui assure la conversion future vers d’autres types de format (Dublin Core).

Ce dernier avantage indique cependant qu’il est d’ores et déjà inévitable de réfléchir à une structuration autre pour une base de données propre aux signets. Le format Unimarc apparaît en effet souvent lourd et inadapté au signalement de ressources web.

Ceci dit, la difficulté à appliquer Unimarc aux ressources en ligne tient essentiellement au faible développement des normes de description et à leur manque d’illustration par des exemples variés. Concernant le format USMarc, la documentation la plus fournie est offerte dans le cadre du projet Corc d’OCLC 10 qui se donne pour objectif un catalogage partagé des ressources en ligne (il est à noter que les deux formats Marc et Dublin Core ont été retenus pour le signalement).

Par ailleurs, le PUC (Permanent UNIMARC Committee de l’IFLA) semble plutôt privilégier une extension du domaine de la zone 856 pour gérer les liens vers des URLs au détriment de la stricte logique du format UNIMARC qui prévaut à l’utilisation des zones 4XX (sous-zone $u) 11.

D’autres inconvénients apparaissent aptes à en déconseiller l’usage :

l’absence de règles éditoriales précises propres à la création des pages web qu’un manque de normes détaillées de catalogage rend difficile à traiter. Ainsi des informations primaires telles que la mention d’édition ou le titre (faut-il employer le titre le plus visible sur la page d’accueil ou se référer à la balise du document HTML ?) sont souvent difficiles à repérer ;

la volatilité des liens pose le problème de leur mise à jour ; si, dans les pays nord-américains, où le catalogage Marc des ressources électroniques est plus développé, les associations d’utilisateurs défendent auprès des développeurs de SIGB l’ajout de fonctionnalités permettant une veille automatisée des liens brisés ; aucun logiciel en France ne propose à notre connaissance cette fonctionnalité ;

la nécessité de se poser la question du catalogage dans une perspective nationale et internationale ; en effet, dans le cadre de l’intégration des catalogues locaux à des bases collectives, il semble peu raisonnable que chaque bibliothèque catalogue de son côté les mêmes ressources. L’approche du signalement exhaustif des sites web ne peut se concevoir, il nous semble, que partagée et dans le cadre d’un projet national. En ce qui concerne les bibliothèques universitaires, le projet WebDoc développé par l’Agence bibliographique de l’enseignement supérieur (ABES) 12 a pour vocation principale de permettre, au sein du Système universitaire, le référencement par chaque bibliothèque de ses propres ressources électroniques et la gestion de l’accès éventuel à des abonnements en ligne contractés par les établissements ;

de nombreux organismes documentaires ont entamé un signalement des ressources électroniques de leur domaine (bibliothèques publiques, universitaires, nationales, centres de documentation, éditeurs, libraires, etc.), mais ils ne sont pas les seuls à oeuvrer pour le défrichage de la Toile… Tous ces organismes n’ont pas une culture du Marc, et il apparaît décisif d’utiliser un standard moins « confidentiel », susceptible de favoriser la coopération entre différentes professions.

Les bases de données bibliographiques

Pour l’instant, peu de solutions sont proposées, mais il pourrait être envisagé, dans le cadre de l’enrichissement du catalogue à sa racine, le chargement de notices d’articles, avec un lien vers le texte intégral disponible en ligne. Cela nécessiterait, il est vrai, un travail lourd et régulier pour la mise à jour de la base locale, et apparaît, en conséquence, applicable essentiellement à de petites structures ne nécessitant l’accès au dépouillement que d’un faible nombre de revues.

L’avenir de l’intégration de ce type de données semble passer par une abolition de la frontière que crée localement l’hétérogénéité des supports (principalement cédéroms ou DVD et disques durs), ainsi que par une insertion de l’accès à un niveau supérieur, permettant ainsi de décentraliser la gestion d’une masse de données souvent imposante. Un niveau intermédiaire d’intégration est déjà proposé par certains fournisseurs de données par le biais d’une implémentation Z39.50. L’interrogation de bases d’articles peut ainsi être associée à celle des catalogues de bibliothèques supportant le même protocole.

Perspectives de développement

L’objectif devrait être l’intégration à un réel système d’information (portail constitutif d’un véritable intranet, voire Internet documentaire).

On le voit, l’intégration de l’accès aux ressources électroniques par le biais de l’enrichissement du catalogue propose une solution particulièrement intéressante dans la période de transition et d’évolution rapide que nous vivons, mais ne résout pas tous les problèmes.

Une autre approche pourrait être l’intégration de l’accès aux différentes ressources en ligne à un niveau supérieur : chaque type de données serait ainsi traité selon le modèle le plus approprié à sa spécificité structurelle, en respectant les standards internationaux, et la recherche unifiée sur l’ensemble de ces ressources s’opérerait par le biais d’un « portail » documentaire, véritable ante-serveur basé sur une passerelle principale pour l’interrogation de l’ensemble des données.

Actuellement, l’interrogation des ressources en ligne s’effectue souvent de manière séparée par :

– le catalogue de bibliothèque : moteur du SIGB ;

– les ressources locales : moteur du serveur web ;

– les ressources locales hors web ou ressources externes : moteur spécifique à chaque base.

Le moteur de recherche général du portail aurait vocation à fédérer les catalogues, les bases de documents numériques créées localement et les bases en ligne externes.

Les catalogues

Le volet du moteur permettant l’interrogation répartie des catalogues de bibliothèques reposerait sur la structure d’échange des données bibliographiques propre à la norme Z39.50 13.

Dans certains cas (constitution de portail dans le cadre d’une coopération étroite entre différents organismes), on pourrait tout à fait imaginer se passer de Z39.50 en opérant la conversion de l’ensemble des notices (ouvrages, articles, sites web,...) dans un format jouant le rôle de plus petit dénominateur commun (par exemple le Dublin Core) et en interrogeant une base d’index centralisée (toutes les données restant stockées de manière répartie).

Les bases de documents numériques (sommaires, signets…)

Il s’agit des bases créées localement et structurées selon des standards établis (XML pour le format de transmission, Dublin Core pour le format des métadonnées par exemple ; cf encadré Le site web enrichi)

Illustration
Le site web Enrichi

). Un exemple de base pouvant être constituée de cette manière est à l'étude dans le cadre d'un groupe de travail consacré au signalement partagé des ressources électroniques (cf encadré Les signets des bibliothèques).

Illustration
Les Signets des bibliothèques

Comme indiqué précédemment, l'on pourrait par ailleurs imaginer faire subir ce type de traitement à nos bases bibliographiques (dans un but de consultation publique), afin d’éviter le développement d’une passerelle spécifique pour l’interrogation des catalogues dans le cadre du portail.

Les bases en ligne externes

L’intégration de l’accès à ces bases à un niveau supérieur nécessite le développement spécifique d’une passerelle pour chacune de ces bases en fonction du format des données, d’où l’importance de l’utilisation progressive par les éditeurs de formats communs et standardisés (notamment SGML, avec des DTD communes).

Les agrégateurs peuvent égale ment jouer un rôle en offrant une porte d’accès unique (de plus en plus susceptible de s’intégrer à un portail documentaire dans la mesure où un accès Z39.50 est possible) à de grosses bases de données.

Il semble enfin primordial de réfléchir dès maintenant à la mise en place de structures nationales offrant de manière centralisée le stockage, pour une conservation raisonnée, et l’accès, afin de faciliter l’intégration de ce type de données.

En conclusion, le cheminement proposé a pour modeste objectif de dégager quelques pistes qui nous semblent incluses dans un processus d’intégration croissant des différents accès aux ressources électroniques, de l’organisation « rationnelle » des pages web en fonction des services que la bibliothèque se donne pour mission de rendre à la constitution d’un véritable « portail » documentaire, en passant par la centralisation qu’offre le catalogage à la source.

Si ces différentes pratiques sont pour un temps encore vouées à cohabiter, il nous semble important de réfléchir dès maintenant aux logiques dont elles procèdent et à leur place respective dans les systèmes d’information à venir.