La gestion des données de la recherche dans la valorisation de la production scientifique

L’offre de service des bibliothèques • Paris, 21 novembre 2017

Nathalie Marcerou-Ramel

Élisabeth Noël

L’ADBU et le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation (MESRI) se sont associés pour organiser une demi-journée d’étude, le 21 novembre 2017, autour de la question récente de la gestion des données de la recherche.

Après l’ouverture officielle de l’après-midi par Julien Roche (vice-président de l’ADBU, directeur du SCD Lille1-Lilliad), Alain Beretz (directeur général de la recherche et de l’innovation, MESRI) a introduit les débats et posé les grands axes. En effet, à travers la question des données s’opère une vraie révolution qui fait se rejoindre sciences humaines et sociales (SHS) et sciences dures, via la quantité de données produites, leur stockage, mais aussi un changement radical des méthodes de recherche et de la façon dont le chercheur va travailler. À travers l’open data et les données, souvent brutes, mises à disposition des autres chercheurs pour qu’ils les réexploitent, transparaissent les enjeux de la science ouverte. La loi Pour une République numérique a donné un cadre en France, même si certains articles, comme l’article 38, consacré au Text and data mining, sont actuellement insuffisamment définis.

La gestion des données fait maintenant partie intégrante des projets de recherche : organisation, planification, suivi des données, accessibilité, capacité à les rendre réutilisables, « data management plans » obligatoires, etc. Le rôle des bibliothèques consiste désormais à prendre la mesure de la révolution des données et de la recherche, ainsi que celle des services à offrir aux chercheurs. Alain Beretz invite les bibliothèques à ne pas travailler en circuit fermé et à inscrire toute action dans une stratégie plus globale. De même, si de grandes structures gérant les données existent déjà en France, il reste à intégrer ces données dans la démarche globale des universités et institutions.

Enfin, devant ces nouveaux « attendus recherche », certains éditeurs émettent des oppositions plus ou moins justifiées. En évitant toute diabolisation, il convient de trouver une cohérence entre tous les acteurs, de s’adapter au changement de paradigme. Au ministère, le sujet est pris le plus globalement et le plus stratégiquement possible. Un chargé de mission pour la science ouverte, Marin Dacos, a été récemment nommé et va produire une feuille de route pour la science ouverte. Sans nier les efforts déjà réalisés, le MESRI veut une stratégie d’intégration pour « mettre la barre très haut », au niveau des ambitions pour la recherche française. Le projet Cat OPIDoR (catalogue qui signale des services dédiés aux données de la recherche en France) mis en place par l’Inist et disponible via le portail OPIDoR va déjà dans ce sens.

Les bibliothèques et la science ouverte :
vision néerlandaise

Anja Smit (directrice des bibliothèques, université d’Utrecht) a enchaîné avec l’exemple d’Utrecht. Si les bibliothèques ont toujours joué un rôle important dans la communication scientifique en offrant, depuis des siècles, un accès à la connaissance et en construisant ainsi une véritable expertise, Internet est devenu la porte d’entrée vers la connaissance pour de nombreuses personnes, y compris les chercheurs. En parallèle, les données de la recherche se sont multipliées via le contexte numérique. Sur la base de principes élaborés de longue date pour la communication scientifique, les bibliothèques proposent de nouveaux environnements pour collecter, partager les données, produire les métadonnées, etc., et ont été les premières défenseuses de l’open access (OA), qui facilite le partage des données de la recherche.

Aux Pays-Bas, le ministère pour l’Enseignement supérieur a initié en 2013 un plan national pour l’OA, devenu la norme. Objectifs : que 100 % des publications soient publiées en OA en 2020, que les données de la recherche soient réutilisables, que se développent de nouveaux systèmes d’évaluation et de recherche. UKB (équivalent de l’ADBU aux Pays-Bas) est très impliquée dans l’implémentation de ce programme national dans les universités, les bibliothèques participant ainsi à quatre des cinq groupes de travail du « National Coordination Point » (à l’exception du groupe de travail sur les aspects financiers).

À l’université d’Utrecht, la bibliothèque est directement rattachée au recteur, qu’elle conseille sur la stratégie en matière d’OA. Le recteur considère la bibliothèque comme un accélérateur de stratégie en matière de management des données de la recherche. Ainsi, la directrice de la bibliothèque a été chargée de créer un groupe de réflexion sur l’Open Science et d’organiser l’Open Science Programme, lorsque l’université d’Utrecht a publié une nouvelle stratégie en 2016 sur l’impact de la recherche et de l’innovation.

Un programme mené en partenariat par la bibliothèque et le service informatique (IT service) de l’université vise à développer une infrastructure pour les données de la recherche, afin de les stocker sur le campus et de développer des outils pour un management plus simple – pour et par les chercheurs – (Research Data Management : RDM). Les facultés sont responsables de la mise en œuvre des infrastructures de données (frameworks). L’équipe de sept personnes reçoit des demandes croissantes de la part des chercheurs, pour revoir leur plan de gestion de données. Aussi Utrecht réfléchit à une autre organisation. La bibliothèque prépare ainsi un programme de formation en huit modules (online RDM training), un guide détaillant la démarche à mettre en place étape par étape, et un site internet (RDM website). Ce programme doit être intégré dans les cours avancés et la formation des doctorants.

Autre axe de travail, les bibliothécaires embarqués, « embedded specialists ». Ainsi, en géologie, dans un programme de recherche international intitulé EPS, le bibliothécaire, en ayant une vue globale du processus, peut traduire les besoins des chercheurs et les attentes de l’informatique en matière de données. En parallèle, deux membres de l’équipe de la bibliothèque ont mené une étude sur 101 innovations en matière de communication scientifique.

En septembre 2017, l’organisation de la bibliothèque (200 agents) a évolué. Les trois départements – « Collections services », « Library as a place » et Services académiques (dont le service de soutien à la science ouverte) – ont laissé place à un organigramme renouvelé, aux croisements assez complexes à lire entre les six sujets, les sept facultés et les six groupes d’experts (open access, RDM, propriété intellectuelle, outreach/assessment, formations, acquisitions/collections). L’ensemble de ces évolutions fait ressortir les nouvelles compétences attendues des professionnels : une expertise en data management, copyright, consultancy, voire en commerce, et des capacités à intégrer l’expérimentation et l’innovation ainsi qu’à tisser des liens avec la communauté universitaire.

Pour prendre en charge ces projets, la bibliothèque a réduit le catalogage et le temps passé au développement des collections (le maximum était déjà automatisé). Cela fait sens puisque les consultations de documentation électronique sont en augmentation exponentielle. Sur les questions juridiques, la bibliothèque travaille avec le département Droit de l’université et réfléchit à recruter un spécialiste du copyright. Mais l’expertise doit-elle être positionnée à la bibliothèque ? Quant aux compétences, la disparition des écoles de bibliothécaires aux Pays-Bas semble – selon Anja Smit – aider, car cela permet d’aller chercher les compétences nécessaires dans les formations universitaires (cependant, de nombreux bibliothécaires sont encore en poste).

The Cambridge & Bristol open story

Bristol et Cambridge sont de grandes universités de recherche dont la réputation est liée à l’intégrité de la recherche et des données que cette recherche produit. Une tache sur cette réputation aurait des impacts économiques directs pour les universités. Aussi l’objectif est d’assurer l’impact le plus élevé, ainsi que la transparence et la reproductibilité des résultats de recherche.

Jessica Gardner (directrice des bibliothèques, Cambridge) a insisté elle aussi sur le rôle que les bibliothèques ont toujours joué dans la communication des résultats de la recherche, rôle illustré par un manuscrit de Newton, c. 1669 et la thèse de Stephen Hawking en 1965, mise en ligne récemment.

Le Royaume-Uni a défini des principes communs pour l’open science en 2011, révisés en 2015, principes qui visent à modifier les pratiques des chercheurs dans un pays où il n’existe pas de service centralisé de la recherche du type CNRS mais beaucoup d’institutions individuelles qui doivent s’organiser localement.

Les services de bibliothèque dédiés à la science ouverte se composent de plusieurs briques : acquisitions ; recherche et dissémination des résultats ; information, conseil et aide ; recherche & développement. Plusieurs partenariats sont nécessaires : avec les chercheurs et les facultés, la présidence, le département de la recherche, les services informatiques, les services juridiques.

À Bristol, les services dédiés à la recherche (5,5 équivalents temps plein – ETP) sont dirigés par un directeur adjoint des Research services et un manager des données de la recherche. Ils produisent par exemple une vidéo en ligne : Sharing data from research participants. À Cambridge, l’Office of Scholarly Communication (OSC) comprend 3 ETP et est dirigé par le directeur adjoint (Scholarly Communication & Research Services). Ce service gère l’entrepôt Apollo, qui englobe toute sorte de documents et de supports, y compris des ensembles de données, et est porté par une infrastructure globale. Il comprend déjà 1 000 jeux de données, dans toutes les disciplines scientifiques. Des plans de management de données sont consultables en ligne. Produire les notices décrivant les données de recherche venant en support d’une publication relève maintenant des tâches de la bibliothèque.

Illustration
Notice de données de recherche dans le catalogue Apollo

Illustrations françaises

Sophie Forcadell (appui à la recherche, Direction des ressources et de l’information scientifique – DRIS, Sciences Po) a ensuite présenté un court historique de la gestion des données dans la bibliothèque (bibliothèque devenue DRIS). Une phase exploratoire a eu lieu en 2015-2016 et a permis de cartographier les compétences dans les laboratoires (onze à Sciences Po) et de faire des préconisations, suivies en 2017-2018 d’expérimentations « grandeur nature » du programme. La bibliothèque de Sciences Po expérimente ainsi un outil (DataVerse) et six projets, en collaboration avec les centres de recherche, et souhaite conserver cette dimension d’expérimentation, sans afficher immédiatement une offre de service. Si la bibliothèque travaille avec le Centre de données socio-politiques (CDSP), centre d’expertise sur les données d’enquête, et si elle a un rôle de conseil sur la planification de la gestion des données dès le montage du projet, il n’existe pas encore de gouvernance sur les données à Sciences Po.

Concrètement, les données sont déposées dans l’outil DataVerse orienté sur les objets des sciences sociales. Le catalogue DataVerse Archipolis, administré par le CDSP, est un outil libre et conforme aux standards internationaux. Il est notamment interopérable avec l’archive institutionnelle SPIRE de Sciences Po, même si les passerelles sont encore à développer.

Trois projets pilotes à Sciences Po :

  • Un projet achevé de valorisation de données d’échanges commerciaux. L’équipe de recherche a demandé à la DRIS de reprendre ses données, de les documenter et de les déposer dans le DataVerse. L’axe « documentation de données » pose question, car il s’avère très long et laborieux. Jusqu’où faut-il aller ? Le projet doit être remis en perspective et calibré.
  • Un projet européen H2020 sur les politiques publiques en matière de transport, mené par une équipe internationale. Les données sont très hétérogènes, primaires et secondaires, et présentent des enjeux juridiques et techniques. Le travail de la DRIS a porté sur le récolement des données, leur ré-encodage, leur conversion dans des formats ouverts et pérennes. Il faut accompagner le chercheur dans de nouvelles pratiques de travail et non pas lui imposer une méthode. Il faut aussi garder en tête que ce travail sur les données n’est pas le travail du chercheur.
  • Un non-projet, suite à une demande d’une chercheuse sur la gestion de photographies d’archives que cette dernière a prises en lieu et place de notes, photos qui sont sans métadonnées. Ce qui a posé la question des métadonnées à apporter aux images. La bibliothèque a sollicité son iconographe et a travaillé à créer une petite communauté pour monter en compétences dans ce domaine et aider les chercheurs à « s’y retrouver ».

Lille 1, où travaille Romain Féret (SCD Lille1-Lilliad), a lancé en 2012 une démarche pilote avec une enquête sur les pratiques de publication des chercheurs. L’unité de glycobiologie structurale fonctionnelle a servi de laboratoire pilote. Un correspondant « données de la recherche », ingénieur de recherche, a été nommé au sein du laboratoire, qui joue un rôle de bêta-testeur d’outils et de services pour la bibliothèque et crée un lien avec les autres chercheurs. Le directeur du laboratoire a soutenu ce projet.

Des actions ont été menées autour de l’accompagnement des doctorants, qui créent très tôt des jeux de données : une formation spécifique a été mise en place dans le cadre de l’école doctorale. Deux livrables ont été produits : un plan de gestion de données allégé et une proposition de suivi personnalisé, pour la mise en place de celui-ci.

Par ailleurs, une étude a été menée sur les méthodes de documentation des données par les chercheurs. La gestion des matériaux biologiques pose des problèmes particuliers et nécessite une bonne documentation sur ces données. Or, si les données de référence sont bien gérées par les chercheurs, les données de recherche sont moins bien prises en charge (données de microscope, par exemple).

Des questions importantes se posent aussi aux chercheurs en matière d’archivage et de diffusion des données, pour lesquelles les éditeurs commerciaux n’apportent pas de réponses. Le SCD de Lille 1 propose à ses chercheurs l’entrepôt de données Zenodo, qui permet de signaler, archiver et diffuser ses données. Il a aussi un projet d’archive ouverte avec une fonction de catalogue de données, ce qui pourrait permettre de lier publications et jeux de données.

L’université de Lille 1 tente également d’accompagner les projets européens. Le SCD voudrait intégrer la dimension de la science ouverte dès la réponse aux appels à projets, mais est souvent contacté très tard par les chercheurs, avec des délais trop courts.

Romain Féret a terminé son intervention en alertant sur le fait que des consultants sont en train de se positionner pour gérer les données des universités et incite à rester vigilants sur l’apparition de ces sous-traitants, dans des domaines que les bibliothèques peuvent tout à fait prendre en charge.

Joël Pollet (SCD de l’université de Nice Sophia Antipolis) a ensuite présenté les services à la recherche et les projets du SCD de Nice. Avec des fonctions traditionnelles d’accompagnement coexistent des services hier innovants mais aujourd’hui à la recherche d’un nouveau modèle – comme la plate-forme de revues Revel@unice.fr – mais aussi un projet d’accompagnement des projets de recherche et un projet de bibliothèque numérique. Ainsi, le SCD s’implique dans trois projets SHS : un livre blanc sur les études africaines, Zoomathia et Navigocorpus (visualisation de données de transactions maritimes du XVIIe au XIXe siècle).

Les laboratoires SHS ne disposent généralement pas d’informaticien. La bibliothèque a alors été sollicitée parce qu’elle a une certaine maîtrise de l’informatique, et doit donc faire le lien avec les infrastructures nationales : depuis septembre 2017, une personne du SCD est désignée comme correspondant de la TGIR Huma-Num pour l’établissement (0,3 ETP). Le SCD atteint les limites de ce qu’il peut soutenir en matière de projets. Les collègues intervenant dans ces projets, bibliothécaires, s’auto-forment et les profils adaptés sont difficiles à trouver. Cette évolution de profil semble intéressante pour les personnels, qui ont eux-mêmes expérimenté certaines automatisations dans leurs missions.

L’ensemble des interventions de cette riche demi-journée est disponible sur le site de l’ADBU.