Métadonnées et valorisation de l'information

Olivier Fressard

Une journée d’étude consacrée aux métadonnées était organisée le 4 avril dernier par l’ADBS (Association des professionnels de l’information et de la documentation) et l’INTD – CNAM (Institut national des techniques de la documentation – Conservatoire national des arts et métiers). Elle s’adressait en principe à tous les professionnels de l’information. Dans une assemblée dominée par les universitaires et les agents commerciaux de diverses sociétés, les bibliothécaires étaient peu représentés. Or, ce sujet, en apparence ésotérique et qui semble s’adresser à un auditoire d’initiés, constitue probablement, pour les années à venir, une question stratégique pour les bibliothèques.

Les défaillances du web

Comme le fait valoir Dominique Cotte (université Lille III) dans son exposé introductif, les métadonnées sont, en première approche, tout simplement des données sur des données. Elles sont, en particulier, des données servant à identifier et décrire les données de base. Si la problématique des métadonnées s’est affirmée avec le développement des ressources électroniques, bibliothécaires et documentalistes en connaissent déjà, en un certain sens, la réalité lorsqu’ils distinguent entre information primaire et information seconde. Les données de catalogage et d’indexation, transférées du support imprimé au support informatique, sont typiquement des métadonnées. À côté de ces métadonnées descriptives, existent également, comme le signalent plusieurs intervenants, des métadonnées assumant d’autres fonctions, administratives et structurelles (cf. infra).

La réponse à la question « des métadonnées pour quoi faire ? » découle par suite de source. Les métadonnées sont nécessaires à la recherche efficace de l’information pertinente. Dans la perspective de l’offre, elles permettent de valoriser l’information. Les catalogues informatisés sont d’excellents développements des métadonnées descriptives. C’est, fait valoir paradoxalement Bertrand Sajus (ministère de la Culture), dans le web et les moteurs de recherche, aspect le plus populaire du nouveau média, que les métadonnées sont défaillantes.

Si les moteurs de recherche sont devenus, depuis une dizaine d’années, l’outil emblématique de la recherche d’information sur support numérique, ils ont bien plus accru leur puissance quantitative que leur aspect qualitatif. Cette ressource reste par conséquent très en deçà de ce qu’on doit exiger d’un média qui prétend désormais jouer les tout premiers rôles dans l’accès à l’information. Or, c’est précisément du côté des métadonnées que doivent être recherchées les solutions.

La recherche de l’information au moyen des moteurs de recherche s’effectue, comme on sait, par l’indexation du texte même des pages d’Internet. Quelques balises élémentaires propres au codage en format HTML permettent de distinguer minimalement entre le titre, l’adresse et le corps du texte. Parmi les métadonnées sommaires ainsi introduites existe une mention keyword (mot clé). Son usage est cependant progressivement abandonné en raison du « spamdexing », pratique consistant à exploiter cette métadonnée pour influer sur l’ordre des résultats des recherches (B. Sajus).

Le projet de web sémantique

Ainsi, c’est vers d’autres formes de métadonnées qu’il convient de se tourner pour améliorer la pertinence des moteurs de recherche. Il existe d’ores et déjà toute une série de schémas différents de métadonnées qui mettent les professionnels de l’information devant l’embarras du choix. L’exposé de Patrick Le Bœuf (Bibliothèque nationale de France) fournit les indications de base permettant de s’orienter dans ce labyrinthe en fonction des besoins, selon les types de document ou les fonctionnalités. Une première solution nous est présentée par Louis Lecomte de la société Larousse qui, faisant valoir que la notion de métadonnée est en germe dans le concept même de dictionnaire, propose d’user d’un dictionnaire numérisé comme d’un copilote dans une recherche d’information sur Internet guidée par le sens.

L’indexation du sens débouche de façon plus ambitieuse sur le projet d’un « web sémantique », présenté par l’exposé de François-Yves Villemin (Cnam). Exploitant les ressources de la linguistique appliquée, il devrait permettre d’élaborer ce que les spécialistes appellent bizarrement, au regard du sens philosophique du terme, des « ontologies », c’est-à-dire des nomenclatures du sens intégrées aux documents, qui soient simultanément compréhensibles pour les usagers et lisibles ou déchiffrables par des ordinateurs, qualifiés pour cette raison, d’« intelligents ».

Le format XML symbolise aujourd’hui la perspective d’une indexation sur Internet s’étendant au sens. Ce format est malheureusement encore très peu utilisé. Or, il ne suffit pas de mettre au point des systèmes performants de métadonnées. Il faut encore qu’ils soient normalisés de telle sorte qu’adoptés par le plus grand nombre, ils produisent l’homogénéité et l’interopérabilité des formats nécessaires à la circulation et l’échange de documents conservant leurs métadonnées.

L’enjeu des métadonnées à l’âge de l’accès

Un aspect crucial des métadonnées se profile ici. Il tient à leur fonction organisatrice. Il y a en effet, à côté des métadonnées descriptives et administratives (gestion des droits d’auteur et de diffusion, accès, etc.), des métadonnées structurelles. Celles-ci participent de la structuration même du document. Elles ne sont donc pas ajoutées après coup pour les besoins de la recherche d’information, comme c’est le cas pour le catalogage traditionnel, mais introduites au moment même de la conception du document, de telles sortes qu’elles y sont comme « encapsulées » (P. Le Bœuf). Le principe n’en est, en un certain sens, pas nouveau. Dans les publications imprimées, les parties, chapitres et sections d’un texte, dotées d’un titre, sont simultanément des parties intégrantes du texte lui-même et des outils d’orientation dans le texte à destination du lecteur. Ainsi, tout document, tout texte anticipe, au moment même où l’auteur l’élabore dans la solitude, sur la réception du lecteur. Il possède d’emblée une nature communicationnelle. Les métadonnées informatiques autorisent une extension de ce procédé aux documents électroniques sous la forme de schémas structurels prédéfinis et automatisés. Ne doit-on pas s’inquiéter ici d’un projet de normalisation des métadonnées sémantiques contraignant les auteurs à insérer d’emblée leur propos dans un moule préstructurant ?

Les métadonnées apparaissent comme un phénomène stratégique à plus d’un titre. Elles intéressent aussi bien les producteurs et les diffuseurs, préoccupés par la visibilité et la valorisation de l’information, que les utilisateurs à la recherche de l’information idoine et pertinente. C’est donc sur la capacité à inventer et mettre en œuvre des schémas efficaces de métadonnées que va se jouer la crédibilité des ressources électroniques, des moteurs de recherche certes, mais aussi bien de l’ensemble considéré globalement dans son unité médiatique. C’est à « l’âge de l’accès » (Jeremy Rifkin) un enjeu décisif qui permettra d’élaborer pour les ressources numériques, d’un côté l’équivalent fonctionnel, pour le moins, des données de catalogage, de l’autre un enrichissement et un assouplissement des formats Marc auxquels sont attachés les bibliothécaires. Sinon, le public continuera à être livré au bruit informationnel, à l’éclatement des pratiques métadescriptives et à une information aux dimensions astronomiques, largement informe et dénuée des nécessaires marques d’orientation et des critères réfléchis d’évaluation.