Croissance et extension des données. Ce que les données font aux bibliothèques !

Médiadix, 8 décembre 2017

Cécile Arènes

Pour leur journée d’étude commune, le 8 décembre 2017, Médiadix et l’Urfist de Paris ont choisi d’évoquer la question des données. Les bibliothèques, à la fois productrices et gestionnaires de données, font face à des séries de questionnements concernant la conservation, la description et la diffusion de celles-ci, impliquant de nouvelles fonctions et de nouvelles activités pour ceux qui en ont la charge.

« Croissance et extension des données : ce que les données font aux bibliothèques » a rassemblé des professionnels de la lecture publique et de l’enseignement supérieur, autour de thématiques portant à la fois sur l’open data et les données de la recherche.

En ouvrant la journée d’étude, Gildas Illien (directeur des bibliothèques du MNHN) a d’emblée apaisé les inquiétudes : certes, tout semble différent, mais à y regarder de près, rien n’a vraiment changé. Une succession de persona pleine d’humour montrait aux participants que « depuis que je suis data librarian, je me challenge sur du big data » avait quand même bien à voir avec « plus trop le temps de faire de belles notices en Unimarc, je nettoie et enrichis le catalogue avec des scripts pour gérer des imports et des exports de masse ».

Une cartographie de ces données a permis aux participants d’en saisir davantage les contours. Métadonnées des catalogues, le champ est vaste bien sûr (documents des bibliothèques numérisées, ressources et publications nativement numériques, ainsi que données de la recherche) ; le panorama resterait incomplet sans les données d’activité – celles du SIGB (système intégré de gestion de bibliothèque) et des outils de gestion – et les données d’usage collectées. Les bibliothécaires, qui maîtrisent depuis toujours la structuration des données, ont plus d’un atout pour se positionner sur ces questions : ils ont la capacité à penser les données à la fois dans leur usage et dans leur durée et, bien qu’ils n’en soient pas convaincus, ils font preuve d’une réelle capacité d’adaptation collective. Lier les données entre elles, se saisir des questions juridiques et de la protection des données personnelles n’a pas de quoi effrayer ceux qui ont toujours traité les documents de la sorte. La granularité change, pas les pratiques. Ainsi, concluait Gildas Illien : « La valeur ajoutée première de la bibliothèque est sa maîtrise de la structuration normalisée de l’information […], de partage et de médiation de la connaissance. »

La première table ronde portait sur l’analyse des données, et s’intéressait au contexte éditorial et politique de leur collecte et de leur évaluation. Guillaume de la Taille et Joao Maciel (tous deux de la Ville de Paris) ainsi que Laurine Arnould (Service du Livre et de la Lecture – SLL) ont présenté un retour d’expérience. En effet, Paris a amorcé, dès 2016, un projet lié aux données d’usage de sa bibliothèque numérique. Guillaume de la Taille a rappelé la difficulté à produire des données, à partir des outils disponibles. Pour pouvoir disposer de données d’usage, deux sources ont été croisées : les statistiques provenant de la bibliothèque numérique et les données personnelles des usagers issues du SIGB, auxquelles le prestataire n’a pas accès. Joao Maciel a présenté les résultats obtenus, qui ont permis d’en apprendre davantage sur le profil de l’emprunteur de livres numériques, CSP+ et grand lecteur, se connectant tardivement pour lire la nuit. Les nouveautés ne sont pas les seules à être appréciées, puisque près de la moitié des titres au catalogue sont empruntés. Analyser ces données revêt, pour Laurine Arnould, un enjeu fort pour justifier la mise en place d’un tel service et évaluer l’expérience utilisateur. Des ateliers « Bibliothèques numériques de référence » ont été conduits par le SLL, afin de sensibiliser bibliothécaires et éditeurs à la qualité des données. En effet, ce travail a été mené sur un ensemble de données encore trop hétérogènes et disparates. Reste que les bibliothèques ne représentent qu’une petite part de marché pour les éditeurs et que leurs besoins sont encore mal identifiés par ces derniers.

La matinée s’est achevée par des échanges au sujet de la production et de l’exposition des données en lecture publique. Hélène Bert (chargée des ressources numériques à la bibliothèque départementale des Côtes-d’Armor) a présenté le « Hyblab », regroupement, sur le principe des hackathons, organisé par Ouest Médialab. La bibliothèque, qui alimente le portail open data du département, Dat’Armor, a proposé pour cet événement une trentaine de jeux de données – données de gestion, indicateurs du SIGB et de la bibliothèque numérique – complétés par des données d’usage importées de l’Observatoire de la lecture publique. L’impact de la bibliothèque sur le territoire a ainsi été mis en évidence grâce à la datavisualisation, ce qui a permis de valoriser la collectivité et ses activités.

Renaud Aïoutz (bibliothèque départementale du Puy-de-Dôme) a ensuite fait part d’un projet de services numériques mutualisés à l’échelle du département, dont la création d’un hub de métadonnées et d’une médiathèque numérique. Cette plateforme de services numériques est conçue avec la nouvelle agence départementale d’ingénierie territoriale. Son but est que les établissements municipaux s’appuient sur un outil commun – une agence bibliographique de proximité – pour que leur visibilité s’en trouve renforcée ; la bibliothèque départementale, quant à elle, est vouée à être connue des seuls professionnels. Le projet nécessite de former l’ensemble des agents concernés à la transition bibliographique, ce pour quoi la médiathèque départementale a passé une convention avec la BnF.

Il est revenu à Thomas Fourmeux, représentant de la commission Stratégie numérique de l’Association des bibliothécaires de France (ABF), de conclure cette riche matinée. Le rôle de cette nouvelle instance de l’ABF est de répondre aux impératifs numériques qui s’imposent aux bibliothécaires autour de la question de l’open data, de la neutralité du Net et de la diffusion du patrimoine numérisé. L’actualité 2018 s’annonce dense sur bien des plans et la commission souhaite mettre en avant une éthique du partage et de l’accès à la connaissance.

Deux retours d’expériences ont ouvert l’après-midi. Hélène Coste (animatrice de la commission Pilotage et évaluation de l’ADBU) a rendu compte de la journée Bibliovizz de juin 2017, organisée en collaboration avec la commission Signalement et système d’information. Les jeux de données de six établissements avaient été retenus, chacun a donné lieu à une expérimentation avec différents outils de visualisation, allant d’un tableau de bord de suivi des acquisitions à un outil de suivi dynamique de la dissémination de la production scientifique.

Frédérique Bordignon (responsable du pôle IST, école des Ponts ParisTech) a ensuite fait part des réalisations de son service en matière de données, qu’il s’agisse d’exploration ou de valorisation. Le chemin restant à parcourir, précisait-elle cependant, est long à l’heure où, sur 2 700 publications environ, seulement 26 d’entre elles sont associées à un jeu de données, pour la période 2013-2015. Les questions juridiques constituent aussi des embûches non négligeables pour les documentalistes confrontés au terrain. Plusieurs exemples passionnants de text and data mining ont étonné l’assistance, soulevant des questions sur l’investissement nécessaire pour pouvoir mettre en place ce type de services. Benchmarking, autoformation et expérimentation fouillée des outils permettent à l’intervenante d’offrir un service personnalisé aux chercheurs qui font des demandes d’analyses de corpus de textes. La question de l’autonomie des chercheurs a également été posée par le public : l’intervenante a répondu que les chercheurs attendaient de sa part une réponse, pas une formation.

La journée s’est achevée sur l’intervention de Raphaëlle Lapôtre (chef de projet data.bnf.fr), qui a esquissé les multiples possibilités de réutilisation de data.bnf.fr. Elle a souligné le rôle crucial des professionnels de l’information, producteurs de métadonnées décrivant une information surabondante pour l’utilisateur, là où les GAFA 1 ne tentent que de capter leur attention. Le modèle LRM 2 permet désormais de déplier la notice traditionnelle, en décrivant au maximum les entités d’un chapeau unique, l’œuvre. Raphaëlle Lapôtre rappelait qu’à la BnF les métadonnées reposent sur le dépôt légal, qui offre une assise juridique aux données produites. C’est précisément ce qui fonde l’attractivité et l’autorité de ces données pour l’utilisateur, assuré de l’exhaustivité éditoriale française. Deux types d’utilisateurs principaux de data.bnf.fr émergent : d’une part, le monde du livre (éditeurs et fournisseurs de SIGB), très attaché à la modélisation, s’intéresse avant tout aux structures de graphes ; d’autre part, les chercheurs utilisent les données en tant que matériau de recherche, ils sont moins intéressés par les relations et la visualisation que par les données elles-mêmes en tant qu’archives, qui leur permettent d’étudier la manière dont les collections ont été décrites. Le challenge de l’open data sera de pouvoir répondre de façon adaptée à ces différents types d’utilisateurs, dont les besoins sont extrêmement variés.

En concluant la journée, Luc Bellier (BnF) est revenu sur le risque de plateformisation des données par les éditeurs, risque qui place les bibliothécaires dans une délicate posture d’intermédiaire entre plusieurs acteurs. C’est pourtant de ce positionnement que les professionnels de l’information peuvent tirer un nouveau rôle et une vraie force, en participant à la construction de contre-pouvoirs. Ils ont un rôle de tiers de confiance à jouer entre les éditeurs et les chercheurs, pour œuvrer à la question de l’ouverture des données, tout en travaillant à limiter les risques juridiques. Enfin, la prolifération des outils de production de données et d’entrepôts de stockage a changé la donne, diversifiant les processus de travail. C’est pourtant la capacité des bibliothécaires à se saisir des questions liées au linked data qui permettra d’éviter que les données ne restent en silos, afin que l’open data garantisse un réel partage de l’information et de la connaissance.