Décrire, stocker et retrouver l'information sur son site Web

Les métadonnées

Ghislaine Chartron

La journée d’étude organisée par l’ADBS (Association des professionnels de l'information et de la documentation) sur le thème « Décrire, stocker et retrouver l’information sur son site Web : les métadonnées » a réuni le 2 février 1999 environ quatre-vingts personnes dans les locaux de « Sources d’Europe », dans le socle de la Grande Arche de Paris-La Défense. Face au développement du document numérique, un questionnement majeur de cette séance concernait les changements induits dans les pratiques professionnelles, questionnement souligné en introduction par Florence Wilhelm, présidente de l’ADBS. Cette journée visait également une information précise sur les normes et les standards actuels ou futurs pour le document numérique.

Les diverses interventions ont donné aux participants un ensemble de repères critiques, complémentaires ayant suscité des échanges intéressants tout au long de cette journée.

Les formats des documents numériques

Ce premier axe concernait la diversité actuelle des formats pour les documents numériques. Il visait aussi à mettre en évidence la logique d’intégration complète des métadonnées dans le codage du document numérique.

François Chahuneau, de la société AIS, s’est attaché à préciser le format XML (eXtensible Markup Language), format annoncé comme le successeur imminent du format SGML. XML a été adopté comme recommandation technique du W3C (World Wide Web Consortium) le 10 février 1998, ce n’est pas encore une norme ISO (contrairement à SGML, norme depuis 1988). XML est un sous-ensemble de SGML répondant mieux aux exigences du Web : langage avec une syntaxe simplifiée, plus flexible pour la création de documents structurés. XML est comparé à un « HTML sémantique » permettant de définir ses propres balises et dissociant le contenu de sa présentation (contrairement à HTML) par l’introduction de feuilles de style. XML apporte par ailleurs une richesse de décomposition sémantique qui devrait permettre des exploitations variées des documents et notamment l’intégration de métadonnées en vue de leur échange (XMI : XML Metadata Interchange). L’intégration de ce format dans les navigateurs Web devrait s’imposer dans un ou deux ans d’après les experts présents.

De façon très complémentaire, Benoît Drigny, de la société Jouve, a présenté une synthèse comparée de différents formats numériques (SGML, HTML, XML et PDF). HTML, XML sont des standards publiés par W3C, PDF est un standard publié par la société Adobe et enfin SGML est fondé sur la norme ISO8879. Le passage de HTML à XML se justifie certes pour des raisons d’extensions des fonctionnalités de codage, mais aussi, pour des raisons économiques visant à abaisser les coûts de diffusion du langage (la DTD-Document Type Definition, grammaire associée au texte, n’est plus nécessaire). Des comparaisons au niveau des caractéristiques intrinsèques du codage, mais aussi au niveau des utilisations privilégiées, ont été présentées : SGML est destiné à des documents structurés et complexes, HTML à Internet/intranet, XML à des documents structurés et à Internet/intranet, PDF essentiellement à la diffusion de documents numérisés destinés à être imprimés par le destinataire. Les avantages et inconvénients des formats ne peuvent s’apprécier qu’en fonction des exploitations envisagées.

Ainsi, pour la « gestion des documents numériques », XML s’avérerait être le format le plus performant selon les critères de lisibilité, de « révisabilité » et de convertibilité, le maillon faible étant sa pérennité dans le temps. PDF apparaît comme le format le plus faible dans ce contexte et selon cette grille. Pour la « diffusion des documents numériques », XML serait encore en tête selon les critères de performance pour la recherche documentaire, la navigation, la présentation et le volume, PDF affichant cependant une supériorité pour la qualité de présentation au lecteur. Pour des raisons de complémentarité, la solution optimale semble être l’association de plusieurs formats, les divers éléments du document numérique pouvant être codés dans des formats différents selon les utilisations prévues. « XML + PDF » serait le couple privilégié. L’exposé très riche fut une synthèse éclairante faite par un spécialiste des formats et de leur conversion.

Les métadonnées

Les métadonnées sont des données sur les données... Est-ce une nouvelle appellation de la notice de catalogage ou de la référence bibliographique ? Oui, mais le concept est aussi plus large.

Catherine Lupovici, de la société Jouve 1, a su donner une vision globale nécessaire à une bonne appréciation du sujet. Les objectifs visés par l’introduction de métadonnées dans le document numérique peuvent suivre différentes logiques : gérer le cycle de vie du document (GED-gestion électronique de documents), informer sur le contenu (localisation, identification), faire respecter les droits associés au document (commerce électronique). On comprendra ainsi la diversité des intérêts et a fortiori des acteurs impliqués dans la mise en place des standards pour ces métadonnées. L’enjeu, certes important, de l’amélioration des moteurs de recherche n’est cependant pas le seul. La diversité des intérêts rend difficile l’accord d’un standard unique. Plusieurs modèles de métadonnées coexistent selon les besoins, les domaines d’applications. Catherine Lupovici a souligné que le document numérique implique de penser ces « données sur les données » à la production même du document primaire et non plus a posteriori, prédisant aussi que, dans un avenir proche, « la métadonnée perdra son caractère immuable et se verra attribuer une qualification temporaire dans un contexte et un usage donné ». La phase transitoire actuelle donne un rôle important aux processus de mapping permettant de traduire un format de métadonnées dans un autre (citons par exemple la conversion entre les formats MARC et Dublin Core).

Jacques Ducloy, du laboratoire LORIA, a détaillé les métadonnées au format « Dublin Core » (DC) qui devraient devenir une norme ISO dans les six mois à venir. Le Dublin Core se situe au niveau d’une normalisation sémantique, définissant quinze champs de données relatifs à des champs de catalogage traditionnel (titre, auteur, date...), à des champs documentaires (description, mots clés), mais aussi à des champs de gestion des droits associés comme le champ « rights ». Les limites rapidement atteintes de ce format par rapport aux besoins spécifiques d’une communauté ont conduit au développement de nombreux « qualifieurs » permettant de préciser les métadonnées. OCLC est à l’initiative de cette norme, les acteurs impliqués sont majoritairement américains, anglais et scandinaves. L’INRIA (Institut national de recherche en informatique et en automatique) est pour le moment l’unique partenaire français du groupe de travail. L’intégration de cette norme dans la production des documents numériques progresse et devrait s’accélérer dès sa labellisation en norme ISO. Notons, par exemple, l’utilisation de ce format dans le dépôt légal des pages Web de certains pays nordiques. Pour les moteurs de recherche, l’exploitation du Dublin Core est encore peu répandue pour le moment.

Jacques Ducloy a également évoqué un autre format de métadonnées : l’EAD (Encoded Archival Description) utilisé notamment par le réseau de bibliothèques RLG (Research Libraries Group) pour l’élaboration d’un catalogue collectif réparti, format utilisé également dans le projet « American Heritage Virtual Archive Project » réunissant plusieurs universités américaines.

Quelle réalité pour les métadonnées ?

Le compte rendu de réalisations a permis de concrétiser l’usage des métadonnées. Elizabeth Cherhal, de la Cellule Mathdoc (Grenoble), a montré l’intégration et le rôle de métadonnées dans le projet européen EULER qui doit construire un point d’accès unique et multilingue pour la documentation mathématique (revues, prépublications, congrès...). L’utilisation des métadonnées vise ici à unifier la description des différentes ressources en vue de leur interrogation. Le format Dublin Core a été choisi. La base construite est une base répartie entre différents sites d’institutions impliquées, assurant chacune la production des métadonnées DC relatives à leurs ressources (ceci impliquant la réalisation de convertisseurs locaux ou l’utilisation de convertisseurs déjà disponibles). L’accès aux bases se fait via Z39.50. Dans l’organisation du travail décrite, il n’apparaît pas de changement concernant la production des documents de chaque base, mais le rajout a posteriori d’un module de conversion pour chacune d’entre elles afin de produire la fiche descriptive commune au format DC. Les problèmes documentaires traditionnels (doublons, homogénéité des informations) restent néanmoins récurrents dans un tel dispositif.

La table ronde finale animée par Jean-Claude Le Moal, de l'INRIA, a prolongé le partage d’expériences avec les témoignages de Marie-France Polack, du ministère des Affaires étrangères, et de Mme Cattelain, de la DGX/ Commission européenne. Dans ces deux expériences, la création de métadonnées a été pensée dès la production du document numérique dans un souci d’automatisation (même partielle) du processus. Au ministère des Affaires étrangères, la solution choisie consiste à associer une feuille de style standard aux documents créés, la formation des producteurs de documents restant un problème en soi.

Pour la DGX, l’expérience des métadonnées concerne la gestion du serveur Web Europa (1,5 million de documents HTML) dans un souci d’identification, d’administration et d’utilisation des documents. Il est souligné d’une part, comme dans l’expérience précédente, l’importance de mettre à la disposition des auteurs des outils permettant l’intégration facile de métadonnées et d’autre part les problèmes bien connus de normalisation et de cohérence du vocabulaire.

Cette journée aura démontré des réalités très diverses pour le concept de métadonnées. Le document numérique impose de repenser les pratiques professionnelles par rapport à la chaîne globale du document numérique en tenant compte, d’une part des nouveaux standards et normes associés, et d’autre part des diverses exploitations potentielles des documents. Les changements induits ne semblent pas impliquer une rupture, mais un repositionnement, un élargissement et un partage des fonctions de référencement.