Des métadonnées pour bien utiliser les ressources électroniques

Carole Letrouit

Cette journée d’étude, « Des métadonnées pour bien utiliser les ressources électroniques », organisée le 7 juin 2005 par la Commission Documentation de l’Afnor (CG 46) et la Bibliothèque nationale de France (BnF), visait à faire le point sur un sujet qui intéresse les professionnels de la documentation en tant à la fois que créateurs qu’utilisateurs de métadonnées 1.

À quoi servent les métadonnées ?

La journée était animée par Catherine Dhérent (BnF) qui a rappelé que les métadonnées sont des données décrivant et définissant d’autres données. Nos catalogues papier auraient pu à juste titre revendiquer le nom de recueils de métadonnées. Ces dernières se répartissent en plusieurs domaines : descriptif, administratif, technique, juridique (gestion des droits). Leur interprétation peut être entravée par leur polysémie. Il importe par la suite de décrire les métadonnées elles-mêmes, d’où la multiplication de normes et standards définissant des métadonnées adaptées à des fins particulières, entre lesquels il faut ensuite choisir. Patrick Le Bœuf (BnF) en a recensé une dizaine uniquement pour les documents textuels. La métalangue qu’est RDF (Ressource Description Framework) va plus loin que ces vocabulaires : elle définit des relations entre métadonnées. L’information est ainsi regroupée de façon utile, le web se structure (web sémantique).

Une des dernières nées parmi les normes traitant des métadonnées est TEF (Thèses électroniques de France) que Yann Nicolas (Abes) nous a présentée. La version 1.0 sortie en juin 2005 se limite aux métadonnées descriptives. Les métadonnées de gestion sont annoncées pour la fin 2005. TEF comprend un vocabulaire qui définit les métadonnées et un schéma XML destiné à l’échange et à la validation du document. Ce travail est sous-tendu par une réflexion sur le caractère local ou national d’une métadonnée et sur la pluralité des acteurs impliqués dans le circuit des thèses. Au-delà de cette formalisation de la syntaxe, il reste nécessaire de mieux définir de quoi l’on parle (de quelle thèse ? le document déposé ? le document validé par le jury ?). Cette explicitation de la sémantique devrait aboutir à un schéma RDF qui tisserait des relations avec d’autres vocabulaires (Dublin Core, ETD-MS de la NDLTD 2…).

Une question de l’audience a permis de lever une confusion entre la normalisation du document lui-même par le biais d’une feuille de style et la normalisation des métadonnées qui est l’objet de TEF. De même, la communication de Geneviève Drouhet (Médéric) sur le records management a illustré l’importance de la distinction entre cycle de vie du document et cycle de vie des métadonnées.

À chaque ressource ou service sa norme

Que ce soit dans le circuit électronique des thèses ou dans l’indexation des ressources pédagogiques, deux processus en cours de gestation dans nombre d’établissements, le documentaliste est appelé à intervenir au moment de la validation : c’est à lui que l’on confie le soin de vérifier la cohérence et l’exactitude des informations fournies par des acteurs multiples. La production des métadonnées propres aux ressources pour l’enseignement et la formation structure les informations nécessaires aux utilisateurs pour s’orienter devant une offre en plein essor et aux producteurs pour rendre les ressources créées « interopérables ».

Deux modèles prédominent dans ce domaine : Dublin Core et LOM (Learning Object Metadata). Ce dernier véhicule une approche très américaine de la pédagogie. Un profil français d’application, commandé par le ministère de l’Éducation nationale à l’Afnor, sera publié en juillet 2005 : LOMFR. À l’heure actuelle, le LOM est utilisé en région Rhône-Alpes par l’École nationale supérieure, l’université Lyon I, Formist et l’Institut national des sciences appliquées de Lyon (Insa) où travaille l’intervenante, Rosa Gomez de Regil.

La normalisation des métadonnées pour l’audiovisuel et le multimédia (MPEG 7 et MPEG 21), évoquée par Élizabeth Giuliani (BnF), sert des intérêts économiques évidents dans la mesure où elle permet des procédures intelligentes d’accès au contenu, des services à la carte utilisant des fonctions de filtrage.

Pierre Carbone (université Paris XII) nous révéla que l’évaluation des services et ressources électroniques suppose elle aussi des métadonnées, difficiles à définir et à réunir parce qu’elles proviennent de sources différentes : si la collection électronique est hébergée par un fournisseur, la bibliothèque ne peut tenir ses données statistiques que de celui-ci. Elle doit parfois aussi les collecter auprès d’un consortium ou d’un service informatique. L’architecture du système d’information influe sur la mesure de l’utilisation. Des unités de mesure stables et univoques doivent être déterminées. Les fournisseurs de services et de ressources électroniques ainsi que les bibliothèques y travaillent conjointement dans le cadre du projet Counter 3. Les normes ISO 2789 Statistiques internationales des bibliothèques et ISO 11620 Indicateurs de performance des bibliothèques sont en cours de révision.

Normaliser les échanges

Une fois les métadonnées normalisées, reste à normaliser leur échange (et donc celui des documents qu’elles décrivent). Deux protocoles de nature différente coexistent et prospèrent : OAI-PMH (Open Archives Initiative-Protocol for Metadata Harvesting) et SRW/U (Search and Retrieve Web Service). Ce dernier décline Z39-50 en technologie « web services » et autorise l’interrogation simultanée de bases de données réparties. OAI-PMH repose sur http et XML et fonctionne en mode asynchrone. Les uns « exposent » leurs métadonnées, les autres les « moissonnent » et leur ajoutent éventuellement de la valeur. La BnF s’est dotée d’un entrepôt OAI, ce qui a nécessité la conversion en Dublin Core de 30 000 notices à ce jour, et compte, par le biais de l’OAI, créer un moteur de recherche fédérée sur ses différentes bases. Emmanuelle Bermès justifia le choix d’OAI : ce protocole donne une visibilité en dehors des bibliothèques. Une évolution vers les web services aurait demandé des développements informatiques beaucoup plus conséquents.

La BnF œuvre par ailleurs, nous apprit Marie-Lise Fréon, à la constitution de métadonnées de préservation conformes à l’OAIS (Open Archival Information System) et au format de données METS, dans le but de maintenir sur le long terme la possibilité d’afficher, d’extraire et d’utiliser des collections numériques (projet Spar).

Les professionnels de la documentation sont convaincus du rôle décisif des métadonnées dans l’amélioration de la gestion et de l’utilisation des données. Souhaitons que les moteurs de recherche généralistes reconnaissent aussi leur rôle et en tirent les conséquences.