Référentiels, données d’autorité, thésaurus, ontologies, taxonomies… Pour en savoir plus !

Cécile Kattnig

Le 28 mars 2008, la journée d’étude organisée par la commission générale Afnor CG 46 Information et documentation dans le petit auditorium de la Bibliothèque nationale de France, réunissait 250 professionnels issus d’univers différents 1. Elle fut consacrée aux référentiels de représentation des contenus, à leur rôle dans l’interopérabilité des systèmes d’information hétérogènes et à leur exploitation dans le web sémantique. Ce propos a été abordé en trois points : la structuration des données, les usages actuels et l’interopérabilité sémantique.

Référentiels de représentation des contenus : typologie et terminologie

Sylvie Dalbin, consultante en organisation et ingénierie documentaires, posa le cadre de cette journée en dressant le panorama de la diversité des modèles de représentation des référentiels : quels outils ? pour quels besoins ? et quels sont les types de données qui s’y rattachent ? Son intervention, illustrée par des exemples issus de différents secteurs professionnels – comme les trois portails : Inventaire national du patrimoine naturel 2, Centre de ressources de la gestion de l’information du secrétariat du conseil du Trésor du Canada 3 et Réseau européen d’observation et d’information sur l’environnement 4 –, s’est voulue une explicitation de la terminologie.

Les référentiels existants sont de périmètre et de composition variables, utilisés pour représenter des objets-ressources (identifiants, schémas de métadonnées, vocabulaires contrôlés), pour produire des données (logiciels, Système d’information géographique) et également pour administrer (politiques, procédures, règles). Fut rappelée la nécessité de produire à la source une information qualifiée et normée, condition de l’interopérabilité et du partage dans tout secteur professionnel, du producteur qui crée la donnée source au diffuseur qui la met à disposition de l’utilisateur final, donnée rendue effective par une gestion constante.

Deux évolutions majeures donnent une nouvelle valeur aux langages de représentation dans leur utilisation pour la recherche 5, le développement de plates-formes logicielles comme la solution ITM de Mondéca, d’une part, et l’évolution des lexiques contrôlés vers des répertoires sémantiques, bases de connaissances qualifiées, de l’autre.

Structuration des données : bibliothèques de composants et modèles

Trois autres interventions ont témoigné chacune dans son univers spécifique – successivement documentaire, juridique et administratif – de l’évolution des modes de traitement des données de la structuration à la modélisation.

Anila Angjeli, du département de l’Information bibliographique et numérique de la BnF, retraça l’évolution de la structuration des données d’autorité dans le domaine des bibliothèques et des archives, depuis les formats Marc, en passant par les schémas XML comme MarcXML 6, Mads (Metadata Authority Description Schema), DTD EAC 7, jusqu’à la modélisation conceptuelle avec Frad (Functional Requirements for Authority Data) et le traitement des données d’autorité dans le modèle orienté-objet FRBR-oo (Functional Requirements for Bibliographic Records) 8.

François-Xavier Nuttall, de la Cisac (Confédération internationale des sociétés d’auteurs et compositeurs) 9 rappela les responsabilités de gestion des droits des auteurs et des compositeurs dans un environnement où l’exploitation est en pleine explosion. La stratégie de la Cisac est précise :

automatiser l’identification pour l’ISWC (International Standard Work Code) – identifiant de l’œuvre musicale éditée – et l’Isan (International Standard Audiovisual Number) – identifiant de l’œuvre audiovisuelle et cinématographique ;
normaliser les protocoles d’échange en implémentant notamment la norme d’échange dédiée à la musique en ligne DDEX (Digital Data Exchange) ;
fiabiliser les identifiants ISWC en introduisant la durée d’exploitation, Isan dont la base est centralisée, ISRC (International Standard Recording Code) – identifiant de l’enregistrement sonore ou audiovisuel – n’ayant pas de base de référence, Isni (International Standard Name Identifier) – identifiant du créateur, de l’interprète ou de tout autre contributeur ;
et les rendre interopérables.

Sylvie Colas et Sylvain Bellengier, de la Direction générale de la modernisation de l’État au ministère du Budget, ont présenté les méthodes engagées pour la mise en place d’un modèle de données avec les recommandations du Cefact-ONU (Centre pour la facilitation des procédures commerciales pour l’administration, le commerce et les transports) et de l’ISO, afin de permettre l’interopérabilité des échanges de données issues des systèmes d’information des administrations, et ce dans le cadre de la révision générale des politiques publiques (RGPP) avec le projet Esope (Exploitation sécurisée et optimisée des processus éditiques).

Usages et utilisations : point de vue de l’utilisateur des données

L’enquête ResearchLibrariesGroup, réalisée en juillet-août 2007 auprès de dix-huit institutions partenaires aux États-Unis et en Grande-Bretagne sur les pratiques effectives de métadonnées descriptives dans le domaine documentaire, a donné, selon Catherine Marandas, du département de l’Information bibliographique et numérique de la BnF, des résultats très mitigés. L’OCLC a d’ailleurs engagé plusieurs axes de travail pour développer les traitements partagés et optimiser les ressources 10. À suivre avec intérêt…

Le témoignage de la librairie Decitre, qui a mis en place un service en ligne 11, illustre l’importance de référentiels à l’usage de profils d’utilisateurs différents, dans l’univers du web 2.0. Patrick Lebœuf, en charge des services en ligne et du géoportail de l’IGN (Institut géographique national), a rappelé la valeur ajoutée de référentiels de géolocalisation précis. Christian Fluhr, de la société NewPhenix, a, quant à lui, mis l’accent sur les problèmes de l’indexation multilingue dans les banques d’images et les développements actuels sur la reconnaissance automatique des images 12.

Sémantique et interopérabilité des vocabulaires

Antoine Isaac, chercheur à la Bibliothèque royale des Pays-Bas et à la Vrije Universiteit d’Amsterdam, post-doctorant impliqué dans le projet TEL+ (The European Library) en partenariat avec la BnF, démontra comment le web sémantique s’appuie fortement sur des données déjà structurées et caractérisées comme les référentiels, les langages documentaires ou les listes d’autorité.

Le projet Stitch (Semantic Interoperability To Access Cultural Heritage) 13 lui servit à illustrer l’utilisation des techniques du web sémantique pour aligner automatiquement des vocabulaires spécialisés servant à l’indexation des collections patrimoniales. L’objectif est de les rendre sémantiquement interopérables afin de faciliter l’accès simultané aux collections qu’ils ont servi à indexer. Il prit comme exemple une expérience menée sur deux vocabulaires dans le cadre du projet Stitch : Iconclass, multilingue et le langage élaboré pour l’indexation des images de la base Mandragore en français. Pour cette expérimentation, les deux vocabulaires ont été représentés en Skos (Simple Knowledge Organization System), formalisme standard 14 ; les techniques d’alignement des ontologies ont ensuite pu être appliquées. Le prototype réalisé permet une interrogation simultanée, à partir d’une même interface, de deux bases de données différentes : Mandragore, base iconographique du département des Manuscrits de la BnF, et la base des enluminures de manuscrits médiévaux de la Bibliothèque royale des Pays-Bas.

En conclusion…

La modélisation et la normalisation sont des éléments-clés de la convergence des référentiels. L’interopérabilité est en marche comme l’ont bien montré les intervenants des secteurs professionnels. La participation dans les instances internationales de normalisation apparaît comme une nécessité, voire un enjeu permettant une réelle convergence des données.