Modéliser les données d'autorité

Françoise Bourdon

En juin 2000, dans le cadre de la Commission de normalisation 357 de l’AFNOR (Association française de normalisation) « Modélisation, production et accès au document » 1, a été créé un Groupe d’experts intitulé « Métadonnées d’autorité », présidé et animé par Françoise Bourdon, de la Bibliothèque nationale de France (BnF) et auteur de ces lignes. Ce Groupe, qui se réunit régulièrement, traduit bien l’esprit dans lequel la Commission 357 oriente ses activités depuis sa création en décembre 1999 2. Les normes propres au seul secteur des bibliothèques et de la documentation ont vécu et pour éviter d’être marginalisé, il est à présent nécessaire de s’insérer dans un processus de normalisation multisectorielle.

Le Groupe

Le Groupe « Métadonnées d’autorité » compte une trentaine de participants venus d’horizons différents :

– des bibliothécaires et des documentalistes représentant l’Agence bibliographique de l’enseignement supérieur (ABES), l’Association des utilisateurs d’OCLC, la BnF, la bibliothèque universitaire de Nice, l’École nationale supérieure des sciences de l’information et des bibliothèques (Enssib), la bibliothèque de la Fondation nationale des sciences politiques, l’Institut national des techniques de la documentation (INTD), la médiathèque de la Cité des sciences et de l’industrie ;

– des archivistes représentant la Direction des archives de France, le Centre historique des Archives nationales ;

– des responsables de bases muséographiques pour la Direction des musées de France, le Département des estampes de la BnF, la Bibliographie d’histoire de l’art ;

– des spécialistes de l’audiovisuel représentant l’Institut national de l’audiovisuel (INA), et plus précisément la Direction de la recherche et le département Inathèque ;

– des gestionnaires de droit sur la propriété intellectuelle pour la Société des auteurs et compositeurs dramatiques.

Cette composition très diversifiée est un véritable atout pour le Groupe qui a pour but de conduire une réflexion pluridisciplinaire sur le traitement des données d’autorité.

L’un des objectifs nationaux de la Commission de normalisation est la formation des experts aux techniques de modélisation des données et à l’étude des modèles existants. Le Groupe « Métadonnées d’autorité » s’inscrit parfaitement dans ce programme, puisque son objectif est de proposer une modélisation des données d’autorité en s’appuyant sur les travaux en cours au niveau international. Pour mener à bien cette tâche ambitieuse, la méthode de travail adoptée repose sur l’alternance entre ce qu’on pourrait appeler des « comptes rendus d’expérience » et des « considérations théoriques ».

Acquérir une culture commune

Au sein du Groupe, les « comptes rendus d’expérience » sont un moyen d’acquérir une culture commune en matière de données d’autorité. Quelles sont les pratiques dans les différents secteurs d’activité représentés dans le Groupe ? Qu’avons-nous en partage ? Quelles sont les spécificités de chacun ? Pour identifier les points de convergence et les points de rupture, chaque participant a été mis à contribution au cours de l’année écoulée sur des thèmes aussi variés que :

– les fichiers d’autorité en tant qu’outil de gestion des catalogues de bibliothèques : Patrick Le Bœuf, de la BnF, a présenté les fichiers d’autorité du catalogue BN-Opale Plus ; Olivier Rousseaux, de l’ABES, ceux du Système universitaire de documentation ; Catherine Marandas, d’AUROC (Association des utilisateurs du réseau OCLC en France), a montré leur place dans la gestion d’OCLC, notamment dans le programme CORC (Cooperative Online Resource Catalog) ;

– les lexiques et listes d’autorité dans les bases de données muséographiques et iconographiques ont donné lieu à des exposés de Jeannette Ivain, de la Direction des musées de France, sur les pratiques en vigueur au sein de la base Joconde, base documentaire gérée par le ministère de la Culture et de la Communication ; de Maryse Bideault, de l’Institut national d’histoire de l’art, sur le fonctionnement et l’organisation du travail sur le thésaurus et les fichiers d’autorité de la Bibliographie d’histoire de l’art (BHA) ; Marie-Claude Thompson a fait part de son expérience dans la gestion de la base iconographique du Département des estampes et de la photographie de la BnF (base BN-Opaline/Estampes) ;

– les référentiels des bases de l’INA ont été présentés par Jeannette Pichon ;

– la place des données d’autorité dans la description archivistique a été expliquée par Catherine Dhérent, de la Direction des archives de France, et par Florence Clavaud, du Centre historique des Archives nationales, qui, pour faire son exposé, s’est appuyée sur une démonstration de la banque d’images numériques ARCHIM 3 ;

– les données d’autorité matière ont été examinées sous deux angles : les principes d’élaboration des thésaurus dans un exposé d’Arlette Boulogne, de l’INTD, et les langages d’indexation comme outil d’aide à la recherche multilingue par sujet, avec une présentation du Projet européen MACS (Multilingual ACces to Subjects) par Max Naudi et Catherine Hetzel, de la BnF ;

– les données d’autorité utiles pour la gestion des droits sur la propriété intellectuelle ont été décrites par Violetta Mateo et Annie Trouvé, de la Société des auteurs et compositeurs dramatiques (SACD), grâce à Florence Roth, responsable de la bibliothèque de cette Société et membre du Groupe, qui a su les convaincre ;

– la présentation de modèles conceptuels de données qui ne se limitent pas aux seules données d’autorité, mais qui proposent une organisation des informations aidant le Groupe à se familiariser avec la technique bien particulière de la modélisation :

* les Spécifications fonctionnelles des notices bibliographiques, modèle « entité-relation » élaboré entre 1992 et 1997 par l’IFLA, et plus connu sous le sigle FRBR (Functional Requirements for Bibliographic Records), présentées par Patrick Le Bœuf ;

* le Modèle conceptuel de référence, élaboré de 1994 à 1999 par le Groupe de normalisation documentaire du Comité international pour la documentation du Conseil international des musées (ICOM-CIDOC), plus connu sous le sigle CRM (Conceptual Reference Model). Le CRM est un modèle de type « orienté objet », devenu en mai 2000 un document de travail ISO. Ce modèle a été présenté par l’un de ses principaux auteurs, Nicholas Crofts, de ICOM-CIDOC 4.

Tous ces exposés permettent de découvrir les objectifs, les procédures et les moyens mis en œuvre dans les différents secteurs d’activité représentés dans le Groupe. Chacun suscite un très vif intérêt et fait l’objet de discussions animées sur les pratiques de gestion et sur la terminologie employée : référentiel, thésaurus, lexique, liste d’autorité, fichier d’autorité, etc. Cet apprentissage de ce que font les autres est un investissement qui porte ses fruits quand le Groupe passe des « comptes rendus d’expérience » aux « considérations théoriques ».

Éléments de données d’autorité et terminologie

Le fait que le Groupe d’experts consacre la moitié de sa réunion mensuelle d’une journée à s’informer sur ce qui se passe en matière de données d’autorité au niveau national et international ne permet cependant pas de le confondre avec une classe de formation continue ! Le Groupe mène ses propres réflexions afin de proposer un dictionnaire des données d’autorité qui recense, nomme et définit chacun des éléments d’information qui contribuent à identifier une entité, et éventuellement précisent les sources à utiliser.

Et là encore le débat est souvent passionné ! Comment mettre en forme les résultats de ces discussions en rendant compte de toute leur richesse ? Les uns optent pour un schéma qui hiérarchise d’emblée les éléments d’identification 5. D’autres préfèrent s’en tenir à une liste alphabétique 6. D’autres encore essaient de croiser les éléments de données d’identification avec les entités pour mettre en évidence les éléments communs à plusieurs entités... 7. Les plus rationnels distinguent pour chaque élément de donnée : « type », « sous-type » et « éléments de structure » 8.

Bref, il n’est pas facile de trouver la meilleure méthode à appliquer pour mettre à plat tous les éléments de données qu’on souhaite manipuler et pour traduire toute la richesse des informations qu’on essaie de cerner. Pour chaque terme, une définition non équivoque doit être proposée et le consensus entre les représentants des différents secteurs d’activité doit être constamment recherché. C’est pourquoi il faut généralement trois à quatre ans pour élaborer un modèle de données !

Organiser les éléments de données : modéliser

Modéliser est l’ultime étape. Celle où les entités ainsi que leurs attributs sont identifiés et où l’on est en mesure de construire le réseau des relations entre les éléments de données. Qui hérite de qui et de quoi et dans quelles conditions ? Le Groupe n’en est pas encore là, puisque l’étape de recensement et de définition des éléments de données n’en est qu’à ses balbutiements. Le choix du type de modèle qui sera développé n’est pas fait – modèle entité/relation, modèle objet ou modèle sémantique ? –, mais le but à atteindre est connu : proposer un modèle générique de données d’autorité pour permettre l’interopérabilité.

Quelques prérequis s’imposent, dont la formation du Groupe à la modélisation. Une telle formation devra être progressive, pour ne pas dire itérative, et une sensibilisation pourrait avoir lieu cet automne. La principale difficulté est de dénicher le formateur idéal, incollable sur les techniques de modélisation, mais très averti aussi des préoccupations des spécialistes de l’information. Avis aux candidats !

Cependant, le Groupe continue ses travaux. Au programme de la rentrée figurent déjà : une séance de travail avec les gestionnaires de droit sur la propriété intellectuelle dans le domaine de l’audiovisuel, avec des représentants de l’Association des droits des artistes et musiciens interprètes (ADAMI), de la Société Perception Distribution des droits des interprètes musique et danse (SPEDIDAM), et peut-être de la Confédération internationale des sociétés d’auteurs compositeurs (CISAC) ; une présentation des modèles de données INDECS, ABC et HARMONY ; une présentation du Basic Semantic Repository (BSR) en cours d’élaboration dans le cadre de l’ISO ; une présentation du modèle FRBR appliqué aux publications en série ; une formation à la modélisation et une sensibilisation au langage UML, etc.

Les projets ne manquent pas. Que ceux qui veulent nous rejoindre pour participer activement à notre programme n’hésitent pas à le faire. Les travaux normatifs ont quelque chose de stimulant !