La modélisation

Pourquoi l'intégrer dans les systèmes d'information documentaire ?

Carole Letrouit

Pourquoi intégrer la modélisation dans les systèmes documentaires ? Tel était le sujet traité lors de la journée d’étude organisée le 20 mai 2003 par l’ADBS (Association des professionnels de l’information et de la documentation).

De l’approche cartésienne à l’approche objet

René Pelfresne, de la Direction des systèmes d’information du Centre national de la recherche scientifique, nous a d’abord décrit ce qu’était la modélisation et comment elle avait évolué depuis les années 1970. Un modèle est une représentation de la réalité. Il nécessite un processus d’abstraction qui consiste à dégager les caractéristiques intéressantes du système dont on veut donner un modèle. La modélisation permet de comprendre un système, puis de l’expliquer à d’autres.

Dans les années 1970, a prévalu une approche cartésienne de la modélisation. L’analyse procède du complexe au simple, de fonction en sous-fonctions jusqu’à atteindre un niveau de décomposition suffisamment simple pour la compréhension. Cette approche s’appuie sur le bon sens, mais elle privilégie les fonctions au détriment des données. L’approche systémique, développée dans les années 1980 (Merise), renforce la cohérence des données en appliquant un principe de non-redondance, mais souffre d’une dichotomie entre modèles de données et modèles de traitements. L’approche objet tente d’insuffler une dynamique aux modèles de données, aux objets. Elle se propage de la sphère des langages de programmation à celle de l’analyse.

Catherine Lupovici établit une transition vers l’intervention suivante en soulignant qu’il n’est pas facile de « penser objet », parce qu’il faut suivre une démarche à la fois itérative et incrémentale, mais que cette approche conceptuelle est indispensable pour assurer la survie des systèmes d’information au-delà de l’obsolescence des traitements informatiques.

L’Open Archival Information System

Catherine Lupovici présente ensuite l’OAIS (Open Archival Information System) et le format de données METS. Le web transforme notre vision du document. Celui-ci devient un objet vivant d’information numérique dont la notion de version ne suffit plus à appréhender les mutations. Il faut remplacer cette notion par celle de « vue » (snapshot). Afin de préserver cet objet, il importe de conserver tout ce qui en fait partie intégrante : la version stable et ses évolutions numérotées, le signalement avec un lien actif vers la ressource, l’historique de la conservation de l’objet et des environnements techniques qu’il a traversés, les conditions techniques de consultation. Le modèle fonctionnel OAIS fournit un modèle générique d’archivage de tout document numérique qui va de l’enregistrement du document à sa communication à la demande, en passant par la gestion documentaire et technique. Il est devenu une norme ISO en 2002 (14 721). Dans le cadre du projet NEDLIB, des bibliothèques nationales qui reçoivent le dépôt légal ont utilisé OAIS pour modéliser un système de dépôt des publications électroniques 1.

Les informations faisant partie intégrante de l’objet numérique sont stockées dans des métadonnées de différents types : descriptives, administratives, structurelles. Une DTD (Document Type Definition) XML, appelée METS (Metadata Encoding and Transmission Standard), a été définie afin de permettre l’identification des éléments constituant un même objet numérique.

Le modèle OAIS est désormais adopté par tous les programmes de bibliothèque de préservation et d’accès à long terme, ce qui permet des comparaisons fructueuses non seulement d’un point de vue technique, mais surtout fonctionnel.

En mars 2000, le Research Libraries Group (RLG) et le Online Computer Library Center (OCLC) ont franchi un pas supplémentaire en constituant un groupe de travail qui a pour tâche de fixer les missions et responsabilités d’archives électroniques certifiées (Trusted Digital Repositories). Des préconisations ont été publiées en mai 2002 2.

Le Conceptual Reference Model

Un deuxième exemple de modèle nous a été donné par Patrick Le Bœuf de la Bibliothèque nationale de France (BnF). Le CRM (Conceptual Reference Model) 3 est un modèle conçu pour la documentation muséographique. Il vise à expliciter le sens des informations relatives à un objet de musée, quelle que soit la structure des données véhiculant ces informations. Le CRM émane du Documentation Standards Working Group du Comité international pour la documentation (Cidoc) qui dépend du Conseil international des musées (Icom). Il a été soumis à l’ISO et fait actuellement l’objet d’un projet de norme (CD 211 27).

La notion d’événement occupe le cœur du CRM. L’objet décrit est envisagé comme un phénomène temporel. Il est constamment resitué dans un contexte historique. Les entités temporelles du modèle expriment le fait qu’un objet est dans tel état (classe État de conservation) ou le fait qu’il s’est produit quelque chose (Quand ? classe Tranche chronologique, Où ? classe Lieu).

Grâce à son formalisme orienté objet, le CRM peut aisément être transposé de façon à expliciter les informations bibliographiques contenues dans une notice en format Marc.

En rupture avec les modèles des années 1980 qui reposaient sur le postulat qu’échanger implique l’uniformisation des données, il s’inscrit dans une problématique de médiation entre données hétérogènes et se présente donc comme un modèle de concepts pouvant servir de référence et non comme un modèle de données, d’où le nom de Conceptual Reference Model.

L’Open Archive Initiative

La modélisation a montré toute son efficacité dans le cadre de l’Open Archive Initiative (OAI) 4. Sara Aubry, de la BnF, retrace les origines de ce projet. Devant l’essor des publications électroniques et le succès remporté par les expérimentations alternatives, il est apparu indispensable de rendre ces systèmes interopérables. La Convention de Santa Fe (février 2000) a déterminé un cadre général pour la fédération de contenus sur le web. Deux solutions concurrentes émergent : l’interrogation simultanée de bases de données hétérogènes réparties en Z39-50 ou la collecte massive de métadonnées dans un service central. Un comité scientifique et un comité technique de l’OAI sont constitués. Un protocole de collecte de métadonnées voit le jour : OAI-PMH (version 2, juin 2002). Il doit permettre de présenter et analyser le contenu d’une archive. Il repose sur un modèle de données et un modèle fonctionnel. Celui-ci distingue deux types d’acteurs.

Les fournisseurs de données offrent en fait des métadonnées. L’OAI-PMH exige qu’ils exposent leurs métadonnées au minimum en Dublin Core qualifié (ISO 15 836, février 2003) et mettent en place une application informatique capable de répondre aux six requêtes OAI-PMH et de renvoyer des documents XML valides. Ces fournisseurs de données sont d’origine universitaire et institutionnelle (PubMed central, Cellule Mathdoc) ou commerciale (Institut of Physics, Elsevier).

Les fournisseurs de services s’emparent des métadonnées mises à disposition par les fournisseurs de métadonnées et leur ajoutent de la valeur sous forme de services tels que la recherche bibliographique, le comptage de citations ou les alertes.

Ce protocole remporte un succès indéniable parce qu’il est simple. Il facilite le transport et l’échange de métadonnées et fournit donc une solution à la conception de sites portails.

Une nouvelle conception du document

La modélisation appliquée à des documents conduit à l’élaboration de formats structurés du type SGML ou XML. La question posée par Jean-François Vincent du Service commun de la documentation de Marne-la-Vallée, « Pourquoi se donner du mal pour produire du XML alors qu’il est si facile de produire du PDF ? », illustre à la fois les difficultés et les apports de la modélisation. Cette question a été soulevée à Marne-la-Vallée 5 et dans d’autres universités françaises à propos de la mise en ligne des thèses.

En fait, il ne s’agit pas simplement de choisir entre deux formats, mais bien entre deux conceptions du document électronique : si l’on considère qu’un document électronique est avant tout un document à imprimer, PDF est le bon format ; si l’on estime qu’un document électronique est une publication sur le web, XML s’impose. PDF respecte la forme originale du document, mais ce constat n’a de sens que si l’on reste dans une logique de production papier. XML permet une gestion fine du contenu des documents (droits sur les images, par exemple), des recherches documentaires et bibliométriques ciblées. Mais surtout, il ouvre des perspectives d’évolution des modes d’écriture et de lecture qui ébranlent notre conception du document et, en outre, joue un rôle fondamental dans tous les projets liés à la conservation des documents électroniques et à la gestion des archives.