Bibliothèques, archives et musées à l'heure de l'Open data. Bonnes pratiques, normes et retours  d'expériences

Journée d’étude AFNOR CN46 / BnF – 24/06/2016

Clément Oury

Le succès des journées AFNOR / BnF ne se dément pas. L’édition 2016, tenue le 24 juin, a ainsi attiré plus de 300 participants, issus des bibliothèques mais aussi, plus largement, des archives, des musées, du monde de l’édition ou de la documentation.

Ces journées ont de fait une vocation interprofessionnelle. La Commission Nationale 46 (ou CN46) de l’AFNOR, coorganisatrice de l’événement, s’intéresse à toutes les questions qui touchent, au sens large, à l’information et à la documentation. Elle représente le miroir français du Comité Technique 46 (ou TC46), qui traite de ces questions à un niveau international, celui de l’ISO. Après une journée consacrée en 2014 au thème « métadonnées et confiance », puis à la « Transition bibliographique » en 2015, ce sont les enjeux des données ouvertes qui ont été mis en lumière lors d’une conférence intitulée « Bibliothèques, archives et musées à l'heure de l'Open data. Bonnes pratiques, normes et retours d'expériences ».

La normalisation, un facteur d’innovation

Les trois allocutions d’ouverture ont permis de rappeler le rôle que les organes de normalisation jouent en faveur de la diffusion d’information, mais aussi de rappeler que l’implication des institutions culturelles et scientifiques est indispensable.

En ouvrant la journée, Arnaud Beaufort, directeur des Services et des réseaux à la BnF, a justement souligné les efforts de la Bibliothèque nationale de France dans ces domaines. De nombreux professionnels au sein de la BnF sont impliqués dans les commissions de normalisation ; l’institution elle-même s’est dotée d’une mission pour la normalisation documentaire qui fait partie du département des métadonnées créé récemment. La BnF est d’autre part la première institution culturelle à avoir diffusé ses données sur la plateforme data.gouv.fr et elle a en parallèle lancé un site web, data.bnf.fr, destiné à être son « fer de lance » en matière de données ouvertes et liées.

Pierre Fuzeau, président de la CN-46 Information-Documentation de l’AFNOR, et Gaëlle Béquet, présidente du TC-46 Information-Documentation de l’ISO, ont ensuite présenté une intervention à deux voix. Ils ont rappelé que la norme est le produit du consensus et qu’elle représente un état de l’art amené à évoluer. Son application n’est pas obligatoire mais le respect de la norme permet aux différents acteurs du marché de l’information de dialoguer et de coopérer. Ce marché représente un volume financier d’environ 15 milliards d’euros en France et la dimension économique est bien souvent présente dans les débats actuels sur les données ouvertes. Le TC-46 a organisé sa 43ème réunion plénière du 9 au 13 mai 2016 dans les locaux des Archives nationales et de la Bibliothèque nationale de Nouvelle-Zélande à Wellington. Cette réunion a rassemblé une centaine d’experts qui concourent à l’élaboration de normes dans les domaines aussi stratégiques que les statistiques et indicateurs de performance, les normes techniques d’interopérabilité, les identifiants (notamment l’ISBN dont la nouvelle version sera publiée prochainement et l’ISSN dont la révision systématique est mise au vote jusqu’en septembre 2016), sans oublier les travaux sur le records management et particulièrement la publication de la nouvelle norme 15489-1 consacrée à la gestion des documents d’activité.

Les enjeux de l'open data :
contexte juridique, économique et normatif

La parole était ensuite donnée à Romain Talès (responsable du recensement des données publiques, Etalab) qui a entamé la série de présentations sur le contexte juridique, économique et normatif de l’open data. Il a insisté sur les aspects législatifs, en rappelant que les principes de l’open data s’inscrivaient dans la continuité de l’article 15 de la Déclaration des Droits de l’Homme et du Citoyen : « La Société a le droit de demander compte à tout Agent public de son administration ». C’est le projet de loi pour une République numérique qui entend manifester le souci du gouvernement et de l’administration en ce domaine en instituant l’open data par défaut pour les informations publiques. Un « service public de la donnée » doit fournir et garantir la qualité des « données d’intérêt général » : les données identifiantes, utilisées par une multitude d’acteurs, qui doivent jouer un rôle de pivot. C’est notamment le cas des informations du SIREN. Enfin, Romain Talès a donné quelques exemples concrets de libre mise à disposition des codes des logiciels publics : le passage en open source de la « calculette » de l’impôt sur le revenu a permis d’optimiser son temps de calcul de 60%.

La dimension économique a davantage été évoquée par Denis Berthault et Alain Chaumet, co-pilotes du groupe de travail « Open data et données publiques » du GFII (Groupement Français des Industries de l’Information). Ils ont souligné que l’open data n’était pas une démarche facile : il s’agit tout d’abord d’un engagement, celui de la continuité. En effet, les institutions qui publient peuvent créer un écosystème autour de leurs données, qu’elles doivent constamment alimenter. Par ailleurs, le coût de diffusion est important, dans la mesure où ces données doivent être disponibles dans un format réutilisable, et qu’elles doivent être retravaillées pour être anonymisées. La question du retour sur investissement est donc posée : y a-t-il un risque que les « GAFA », les grandes compagnies du web, ne s’approprient toute la valeur ? Comment rééquilibrer les coûts et les bénéfices ? Par l’impôt ? L’open data est donc, aussi, un enjeu de souveraineté. Pour rester maître de ses données, il faut animer la communauté de ses réutilisateurs : cette confrontation entraîne le risque, indispensable, d’essuyer des critiques de leur part.

Marianne Aptel (cabinet Xdemat, membre de la CN46-11), a enfin donné une perspective internationale à ces initiatives. Les progrès politiques et légaux sur ces questions sont remarquables, les efforts en matière d’open data et de records management se renforçant mutuellement. Cependant, il reste encore beaucoup de travail à faire en matière d’interopérabilité. La question de la documentation du contexte de production de la donnée n’est pas non plus suffisamment traitée – ces enjeux de provenance, donc de confiance, de l’information sont revenues comme un fil rouge des interventions de la journée.

Deux grands jeux de données nationaux :
des formats aux usages

La dernière intervention de la matinée a été une présentation à deux voix, animée par Raphaëlle Lapôtre (BnF) et Romain Wenz (SIAF). Ce fut l’occasion d’un retour d’expérience sur les projets dont ils sont les responsables respectifs : data.bnf.fr, déjà évoqué, et le portail FranceArchives.fr, en cours de constitution, qui a vocation à fédérer les ressources de l’ensemble des services d’archives nationaux. L’ouverture des données publiques, selon les mots de Romain Wenz, est en phase d’adolescence, c'est-à-dire dans une phase de tensions. Les deux intervenants ont ainsi évoqué une contradiction entre les besoins de diffuser une donnée synthétique, aisément réutilisable mais sémantiquement pauvre pour le web, et la volonté de publier des données riches pour permettre à des chercheurs d’exploiter pleinement les connaissances détenues par les institutions. Les deux approches ne sont certes pas strictement contradictoires, mais leur conjugaison peut être coûteuse et il s’agit donc de fixer les priorités.

Les intervenants ont ensuite comparé les données à la monnaie : leur essence est de circuler, mais pour cela, elles doivent bénéficier de la confiance des réutilisateurs. Or ce qui génère la confiance, c’est d’abord la source de l’information ; mais c’est aussi la transparence sur les processus de production et de diffusion des données. De ce point de vue, l’ouverture est la suite logique d’une production de données fiables, structurées, validées.

Quelle ouverture pour quelles données ?

Le secteur de l’art et des musées entrait en scène lors de la table ronde interprofessionnelle animée par Antoine Courtin, responsable de la cellule d’ingénierie documentaire du Département des études et de la recherche à l’INHA. Y participaient Gaël Chenard (directeur des Archives départementales des Hautes-Alpes), Caroline Latour (responsable informatique/web/multimédia du Musée des Augustins de Toulouse) et Benoît Deshayes (Wikidata).

Malgré la diversité des contextes évoqués, quelques lignes de force se sont rapidement dégagées : tout d’abord, les difficultés politiques, juridiques, techniques et « psychologiques » du lancement d’un projet de libération des données. Ainsi, on libère souvent à regret les droits de documents qu’on a numérisés à grands frais. Cependant, lorsque les projets sont effectifs, l’effet d’entraînement est tel que la perspective d’un retour en arrière est difficilement envisageable. Les usagers adhèrent rapidement, parfois dans le cadre de projets inattendus (une interface de data-visualisation des données du Musée des Augustins a ainsi été développée), et les institutions similaires se voient contraintes d’accompagner le mouvement. Cette multiplication des initiatives donne justement toute sa valeur à Wikidata, un « hub d’identifiants » qui permet de créer des liens entre de très nombreux jeux de données.

Exposer ses données sur le web : pourquoi, pour qui ?

L’intérêt – mais aussi la complexité – de liens entre données était illustré par le projet DOREMUS, qui a fait l’objet d’une présentation à trois voix, correspondant aux trois parties prenantes du projet : Pierre Choffé (expert en modélisation, BnF), Isabelle Canno (responsable de la bibliothèque musicale, RadioFrance) et Cécile Cecconi (responsable Catalogue et normes, Pôle ressources de la Cité de la musique-Philharmonie de Paris). L’exemple utilisé était celui de la Sonate au clair de lune de Beethoven, que l’on trouve sous des dizaines de titres différents. Il servait à illustrer la difficulté d’identifier une œuvre, qu’il s’agisse de faire une recherche sur le web ou de recevoir des fichiers musicaux.

DOREMUS, ou DOnnées en REutilisation pour la Musique en fonction des USages, vise à proposer des modèles communs (ontologies) et des référentiels multilingues dans le domaine de la musique. L’objectif est non seulement d’aligner les données des trois institutions partenaires, mais plus largement, de fournir des outils pédagogiques pour faciliter l’appropriation des vocabulaires, référentiels et outils de DOREMUS. Les principes retenus, que l’on peut considérer comme les clefs du succès d’un projet open data, sont : l’utilisation de formats standards (notamment FRBROO, sur lequel se fonde l’ontologie DOREMUS), l’utilisation de référentiels, la fourniture d’outils pédagogiques, et la documentation des choix effectués.

L’open data, au-delà des technologies du linked data

Dans sa conclusion à la journée, Emmanuelle Bermès, adjointe au directeur des Services et des réseaux à la BnF, s’est attachée à synthétiser les apports de ces débats autour de quatre mots-clefs : qualifier, structurer, gérer et partager les données. Il s’agissait aussi de relativiser certains impératifs. Ainsi, la nécessaire recherche de qualité peut aussi être un frein : il faut accepter de diffuser ses données même si elles ne sont pas parfaites. L’utilisation des technologies du linked data et du format RDF n’est pas une fin en soi, mais un moyen : la diffusion d’informations structurées, et surtout d’identifiants pour ses ressources, est bien souvent une étape suffisante vers le web sémantique. En matière de gestion de données, l’utilisation des bases de données relationnelles peut rester pertinente. Enfin, même si les données ont vocation à être utilisées par des tiers, la meilleure façon d’en éprouver la valeur est de les utiliser pour ses propres besoins.

En définitive, quelles que soient les technologies employées, la réalisation de projets open data passe d’abord par la poursuite de certains principes : il ne faut pas oublier que sur le web, l’ouverture des données n’est jamais acquise.