Métadonnées : mutations et perspectives

Séminaire Inria, 29 septembre-3 octobre 2008, Dijon

par Yves Desrichard

Ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet
Paris, ADBS éditions, 2008, 282 p., 24 cm
Coll. Sciences et techniques de l’information, ISSN 1762-8288
ISBN 978-2-8436-5104-5 : 26 €

C’est toujours avec une certaine impatience qu’on découvre, tous les deux ans, les actes du Séminaire Inria *, cette année consacré aux métadonnées, sujet classique mais essentiel de la gestion de la documentation numérique. Comme toujours, de solides contributions proposées par les meilleures spécialistes sont ici réunies – même si on ne peut se départir, à la lecture, d’un sentiment de déception persistant, présent dès le premier chapitre.

Adopter un esprit de liberté

Dans « Représentation et accès à l’information : transformation à l’œuvre », Sylvie Dalbin s’attache à présenter les nouveaux contextes (on comprend : les nouveaux paradigmes) dans lesquels s’inscrivent l’élaboration, la mise en place et l’administration de systèmes de métadonnées. Le but est de « modéliser la réalité » par la « formalisation du modèle conceptuel », le tout dans une perspective de traitements entièrement informatisés. Elle ne cache pas les difficultés à passer du modèle théorique aux applications. La solution ? « Adopter un esprit de liberté. » C’est peut-être un peu court… D’autant plus que les méthodes qu’elle explicite pour l’enregistrement des schémas de métadonnées (notamment en vue de leur interopérabilité) semblent bien complexes.

Dans un article complémentaire, « Métadonnées et normalisation », le même auteur propose quelques « cadres conceptuels pour représenter les données », dont certains sont désormais bien connus des professionnels, tels les FRBR (Functional Requirements for Bibliographic Records), la norme OAIS (Open Archival Information System) pour la pérennisation des documents d’archives, le protocole OAI-PMH (Open Archive Initiative-Protocol for Metadata Harvesting), le Dublin Core ou TEF (Thèses électroniques françaises). L’exercice est utile, ne serait-ce que comme prolongement des apports théoriques liminaires, mais nombre d’éléments d’information sur ces réalisations ont été déjà largement relayés ailleurs.

L’article d’Olivier Ertzscheid sur « Moteurs de recherche : des enjeux d’aujourd’hui aux moteurs de demain » est plus vertigineux. Vertigineux d’abord à regarder le chemin parcouru, dix ans à peine après l’apparition de Google. Vertigineux ensuite quant aux perspectives qui semblent s’ouvrir. Selon lui, les moteurs sont des « machines sociales » pour lesquelles « le repérage et l’accès [prennent] le pas sur la classification ordonnée ». C’est bien ce qu’on leur reproche, ainsi que les secrets qui entourent les algorithmes (programmes de recherche et d’affichage des résultats) propres à chacun d’entre eux. Et cela d’autant plus que l’auteur indique que « la neutralité est clairement absente » de ces algorithmes, qui obéissent chacun à des logiques qui ne sont pas toujours strictement documentaires. Il montre que nombre de bouleversements vont transformer rapidement les moteurs et leurs limites actuelles (« le web invisible »). La « recherche universelle » permettra de chercher partout, y compris dans les bases de données, largement inaccessibles aux outils actuels, et valorisera à nouveau des outils jusqu’alors bien méprisés : « le thésaurus [sera perçu] comme [un] trésor », lié aux ontologies, au web sémantique… avec les moteurs sémantiques comme proche horizon.

L’utilisateur comme moteur de recherche

Dans « Analyse des usages pour améliorer l’accès aux ressources », Anne Boyer montre quant à elle que ce peut être aussi l’utilisateur qui devient… moteur de recherche. Utiliser la façon dont l’usager cherche pour améliorer la pertinence des réponses, leur adéquation aux attentes, est désormais possible, que la collecte de ces données soit volontariste (l’usager émet des préférences) ou automatique (on exploite sans qu’il le sache les « traces » laissées par l’usager). Systèmes de recommandation, filtrages collaboratifs sont des solutions informatiquement fort complexes (peut-être trop, d’ailleurs, pour l’équilibre de l’article) que commencent à utiliser, bien après les moteurs de recherche et les fournisseurs commerciaux, les catalogues en ligne de bibliothèques.

Dans le prolongement de la contribution d’Olivier Ertzcheid, Bernard Vatant s’intéresse aux « langages du web sémantique ». Il montre qu’à la description des documents s’est substituée celle de « ressource[s] », qu’il définit comme « toute chose ou entité susceptible d’être identifiée, nommée, manipulée à travers ses représentations, par quelque moyen que ce soit, sur le web en général ou dans n’importe quel système d’information utilisant les technologies du web ». Pour ce souci, l’outil RDF (Resource Description Framework) semble l’un des piliers des développements futurs du web sémantique. De structure « extrêmement simple, générique et extensible », RDF est, sans entrer dans les détails, une sorte d’espéranto des systèmes de métadonnées tels que définis dans les articles pré-cités, « un langage de description généralisé ». Ensuite, les choses se compliquent… que l’auteur détaille pourtant avec beaucoup de clarté.

Avec les outils issus de RDF se posent « les différentes briques de langage du web sémantique ». Pour que ce passage annoncé se déroule dans les meilleures conditions, Bernard Vatant propose quelques principes d’utilisation qui permettront que « le web social-sémantique » se mette en place « dans les mois et années qui viennent ».

Une absence fondamentale

Dans « Audiovisuel et numérique : la reconstruction éditoriale des contenus », Bruno Bachimont s’intéresse quant à lui à la question de l’indexation, le plus souvent textuelle, des contenus audiovisuels. Sa présentation liminaire du document numérique (audiovisuel) est un modèle de clarté et de concision, qu’on conseillera à tout lecteur impliqué dans la gestion de fonds audiovisuels, documents dont il détaille les caractéristiques et les spécificités. Il est cependant dommage que la partie consacrée à l’indexation proprement dite, sujet effectif de la contribution, soit elle aussi bien générale – alors que la courte partie consacrée à « l’éditorialisation de l’indexation fine » laisse perplexe quant à sa pertinence, au moins dans ce contexte.

Le même malaise s’applique à la contribution suivante, « Méta-information et économie numérique » qui, si elle s’intéresse bien aux modes de l’économie numérique en en rappelant les différents avatars et les inconvénients (notamment pour ce qui est du respect de la propriété intellectuelle), n’apporte pas d’éléments décisifs sur la place des métadonnées et de leur gestion dans cet ensemble. « L’effet longue traîne », désormais antienne de l’approche économique du virtuel, cohabite avec le less is more qui ravira les nostalgiques – et les adeptes du désherbage – sans convaincre pour autant.

Quant à la présentation de Fabien Gandon sur « le futur du web à la lecture des recommandations du W3C », elle tourne assez rapidement au catalogue de projets, sans convaincre de ce que le « web sémantique, du web qui donne à penser au web qui pense », soit vraiment pour demain.

Au final, et comme on l’aura sans doute deviné au fil des résumés d’articles, le résultat laisse moins enthousiaste que nombre des séminaires qui ont précédé. Car il est une ambiguïté, ou plutôt une absence, fondamentale, et qui n’est que rarement effleurée. C’est que l’essentiel du trafic du web, de la recherche de documents, voire de leur exploitation, se fait par le biais des moteurs de recherche et que, seul à l’aborder « frontalement », l’article d’Olivier Ertzscheid offre dans ce domaine plus de pistes, pose plus de questions, qu’il n’explore de voies et n’apporte de réponses.

Et pour cause : la programmation est devenue un enjeu économique puissant, qui cultive donc mystères et effets d’annonce. Du coup, une large part des systèmes de métadonnées ici explorés, surtout dans leur veine théorique d’ailleurs, ressemblent à des mini-univers clos sur eux-mêmes, parfois remarquablement bien décrits, mais dont la portée pratique semble souvent singulièrement limitée. Le recours peu fréquent à des applications tangibles illustre bien ce qu’on pourrait qualifier de « détresse du concepteur », apte à proposer des modèles théoriques et pratiques de grande qualité – mais échouant à les imposer au mainstream des usagers du web.