Métadonnées : mutations et perspectives

Séminaire Inria IST 2008

Annaïg Mahé

« Ontologies, grammatisation, description formelle, prédicat, RDF et XML, etc. » : tel était le contenu des discussions animées d’une petite communauté d’environ 70 professionnels réunis lors du dernier Séminaire Information scientifique et technique de l’Institut national de recherche en informatique et en automatique autour de la problématique des métadonnées. Le défi n’était pas évident mais, pour cette nouvelle édition, qui s’est déroulée du 29 septembre au 3 octobre 2008 dans la « capitale des ducs de Bourgogne », l’équipe Inria organisatrice (composée de Lisette Calderan, Bernard Hidoine, Jacques Millet et Chantal Girodon) peut être remerciée d’avoir su proposer un programme particulièrement dense et stimulant, avec des interventions de très haute qualité et des ateliers permettant aux participants de « toucher du doigt » et de concrétiser les promesses plus seulement théoriques d’un web structuré ; le tout dans la plus grande convivialité et la bonne humeur.

L’impact du numérique sur la nature du document

Pour bien saisir les enjeux liés aux métadonnées, il faut tout d’abord comprendre leur contexte d’application et son évolution : l’explosion documentaire qui caractérise le web actuel ne correspond pas seulement à une inflation de la quantité de documents disponibles mais aussi à une fragmentation et à une dématérialisation des contenus. Grâce aux nouvelles technologies de la granularité documentaire, le document n’est plus une entité stable mais une déconstruction et une reconstruction dynamique permanente à partir de ses fragments : on n’accède plus à des documents mais à des ressources, une même ressource pouvant se démultiplier en fonction des supports et des usages. Le web sémantique en ce sens consiste à faire rentrer la couche du vocabulaire servant à décrire les contenus dans l’infrastructure même du web et à matérialiser ce vocabulaire sous forme de ressources, chacune pouvant être identifiée par un URI (Uniform Resource Identifier). Cela signifie, entre autres, que la documentation, l’indexation du document, n’est pas destinée à le remplacer (comme c’est le cas de la notice, à des fins de filtrage) mais à l’accompagner (à des fins de recomposition, de ré-éditorialisation).

« Libérez les métadonnées ! »

Puisque le domaine d’application des métadonnées est ainsi élargi à tout type de ressources et surtout qu’il est impossible de prédire tous les usages, il ne s’agit rien de moins que de « passer du paradigme des bibliothèques à celui du web ». Cela signifie pour les professionnels de l’information la nécessité de quitter « les schémas mentaux de la fiche catalographique » et de « rentrer dans le document » afin d’en décrire le contenu. Plus largement, les professionnels de l’information doivent (re)partir de la réalité et, dans l’idéal, travailler avec un public large de praticiens sur le développement de référentiels métiers avant la mise en place de modèles de données informatiques. C’est, en effet, grâce à ce travail commun sur la mise en place d’ontologies que les ambiguïtés et les désaccords sur le vocabulaire utilisé peuvent être explicités et qu’il devient possible d’aboutir à une représentation partagée de la réalité et à des modèles convergents, à la fois pérennes et évolutifs. Un web « intelligent » ne pouvant se développer que par le biais de formalismes ontologiques minimaux permettant l’interopérabilité des ressources et des services, c’est en rendant ainsi ces conceptualisations explicites qu’il devient possible à d’autres (utilisateurs/services/applications) de réutiliser les données d’une autre manière.

Promesses, risques et difficultés

Une telle formalisation est certes complexe, mais c’est par la mise en place de standards que les métadonnées peuvent jouer un rôle régulateur dans un écosystème informationnel inflationniste. La logique XML « écrire une fois, publier partout », et la norme RDF (Resource Description Framework) permettent de passer de la description (le web des annuaires) à la prescription (le web social et sémantique). Trouver sans chercher, telle est une des promesses de ce web implicite, dynamique et intelligent qui permet d’interroger tous les silos d’informations de manière simultanée sans avoir à connaître à l’avance les points d’entrée, d’envisager des usages différenciés d’un même type de document (exploitation autonome des parties généralistes et spécialisées d’une thèse, tris de recherche sur les méthodes utilisées, etc.), de proposer des services basés sur la personnalisation et le profilage des comportements informationnels ou de synchroniser des usages et des services variés et nomades.

Derrière ces promesses, des enjeux de taille. Les logiques de flux et la recomposition à l’infini du numérique posent la question de l’archivage et de la trace ainsi que celle de la redéfinition de l’intégrité, l’authenticité et la fidélité documentaires. Le développement des standards pose la question politique des acteurs et des choix opérés et l’ubiquité du web celle des logiques marchandes et de l’instrumentalisation des usagers (à des fins publicitaires).

Une fois encore, cette approche du monde numérique souligne les mutations documentaires en cours et de fait les mutations professionnelles qui les accompagnent. Loin de disparaître, les métiers du document se réinventent et se rejoignent de plus en plus autour des notions d’identification, de valorisation et de généalogie documentaires, auxquelles s’ajoute la fonction d’édition. Le développement du web entraîne aussi des convergences avec d’autres sphères professionnelles (les praticiens, les informaticiens), mais aussi avec les pratiques de la sphère profane des usagers. Cela ne va certainement pas dans le sens de la simplification, mais que de perspectives stimulantes entrevues au cours de cette dense semaine !