Diffuser les données numériques en SHS
Le droit et l’éthique comme alliés – 3 octobre 2019
« Dépasser la vision du droit et de l’éthique comme obstacle à la diffusion des données. » C’est par cet objectif que Marie Masclet de Barbarin, vice-présidente du conseil d’administration d’Aix-Marseille Université, a lancé la journée d’étude sur la diffusion des données de la recherche en SHS, organisée par le groupe de travail Éthique & Droit, avec le soutien de l’Urfist Méditerranée, du SCD Aix-Marseille Université (AMU) mais aussi de la Maison Méditerranéenne des Sciences de l’Homme d’Aix-en-Provence (MMSH) qui a accueilli cette journée d’étude le 3 octobre 2019.
Le groupe Éthique & Droit, coordonné par Véronique Ginouvès (USR3125, MMSH AMU/CNRS) et Isabelle Gras (SCD AMU), est composé de chercheurs, de professionnels de la documentation électronique et de juristes et anime le carnet éponyme sur Hypothèses. De leurs travaux est né l’an dernier La diffusion numérique des données en SHS. Guide des bonnes pratiques éthiques et juridiques 1
Voir le compte rendu de cet ouvrage dans le Bulletin des bibliothèques de France (BBF), 2019, n° 17, p. 146-148. Disponible en ligne : http://bbf.enssib.fr/critiques/la-diffusion-numerique-des-donnees-en-shs_68980.
Tous les textes sont en licence CC-BY et sont consultables en open access : https://ethiquedroit.hypotheses.org/2970. La bibliographie est accessible sur Zotero : https://ethiquedroit.hypotheses.org/2207.
Le droit est-il un levier en la matière, un ami ou un ennemi, questionne Odile Contat, cheffe du département IST et réseau documentaire au ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation (MESRI), pour qui le principal problème réside dans son interprétation en fonction des usages. Certes, les politiques publiques, comme le Plan national pour la science ouverte, sont là pour aider à connaître et à comprendre la loi 3
Il est principalement fait référence ici à l’article 30 de la loi pour une République numérique (2016-1321), qui crée une exception pour les chercheurs leur permettant de diffuser leurs articles en libre accès après une période d’embargo.
Ce groupe est composé de membres de BSN 7, de l’Association des éditeurs de la recherche et de l’enseignement supérieur (AEDRES) et du réseau Médici (Cécile Beauchamps, Céline Barthonnat, Odile Contat, Denise Pierrot et Céline Vautrin). Voir le document réalisé par ce groupe : https://hal.archives-ouvertes.fr/hal-01960919.
Lionel Maurel, directeur adjoint scientifique à l’Institut des sciences humaines et sociales (INS), rebondit sur la problématique de l’interprétation du droit en axant sa présentation sur le principe désormais célèbre « As open as possible, as closed as necessary » énoncé par la Commission européenne dans les Guidelines de son programme H2020, auquel il ajoute les notions de FAIR et UNFAIR DATA pour interroger leur articulation. Certes, les principes FAIR sont présents dès la première phrase du Plan national, et mentionnés dans les recommandations du Plan de gestion des données demandé par l’Agence nationale de la recherche (ANR), mais le FAIR n’est pas tout à fait la même chose que l’Open. Dans la loi de 2016, l’open data vise les données des administrations qui doivent être ouvertes selon trois dimensions : leur format, leur licence et leur gratuité. Les données de la recherche, quant à elles, peuvent ne pas avoir vocation à être ouvertes mais répondre en tous points aux principes FAIR. Cela pourrait être le cas de données de recherche à caractère personnel pour lesquelles on évalue qu’une anonymisation ne favoriserait pas leur réutilisation. Pour les rendre FAIR, il est alors mis en place une procédure à destination d’un public dûment autorisé.
Se livrant au petit jeu de l’inversion (Ouvert, Fermé), Lionel Maurel interpelle sur le UNFAIR (ici traduit par « déloyal »), qui amènerait à des données « déloyalement » mises à disposition et propose le parallèle avec la citation « car tel est notre plaisir ». Il apparaît alors que, non seulement les principes FAIR ne dérogent pas à l’Open, mais qu’ils sont en réalité plus contraignants car il est demandé de mettre en place des formes de mise à disposition des données dans des conditions sécurisées et organisées. Il conclut en recommandant de ne pas penser d’abord à tous les aspects techniques de cette mise à disposition mais plutôt à l’Open by design, dès la conception des données. Répondant enfin à une question de la salle, il insiste sur cette question d’anticipation de la réutilisation des données car on assiste aujourd’hui à l’émergence de nouveaux acteurs privés qui se spécialisent dans l’agrégation de données ouvertes, prenant un avantage concurrentiel certain. À quand un Plan de production, de gestion et de partage des données ?
Au sein de la TGIR HumaNum, les demandes concernant le stockage, le partage, le signalement et la diffusion des données dans le cadre de la « FAIRisation » se font de plus en plus complexes, explique Olivier Baude, son directeur, du fait de la transdisciplinarité des projets notamment. Les chercheurs en traitement automatique des langues, en psychologie ou en ethnologie n’ont pas la même relation aux données. Il faut parfois travailler avec des bases de données importantes, comportant des données personnelles, liées à des traitements puissants dans l’optique de pouvoir faire de la fouille outillée. Pour combiner l’ensemble de ces éléments, Olivier Baude invite à se tourner vers les délégués à la protection des données dont dépendent les chercheurs dans leurs établissements, et dont l’expertise aide à sécuriser les données et à les archiver.
La table ronde de la fin de matinée, animée par Isabelle Gras et Philippe Mouron, membre du comité scientifique qui suit les réflexions du groupe de travail Éthique & Droit, est lancée par une interpellation : alors que la nouvelle directive européenne (2019/1024) concernant les données ouvertes et la réutilisation des informations du secteur public et intégrant les principes FAIR doit être transposée au plus tard en juillet 2021, où doit-on placer le curseur entre ouverture des données et degré de protection à l’égard des enquêté.e.s ? À travers cette question d’ordre juridique mais aussi éthique et déontologique, où se situent les bonnes pratiques en matière de diffusion des données ?
L’équipe de la banque d’enquêtes qualitatives en SHS BeQuali, représentée par Émilie Fromont et Émeline Juillard, présente cet instrument qui fait partie de l’équipement d’excellence DIME-SHS et qui est développé par le Centre de données sociopolitiques (CDSP, UMS 828 Sciences Po – CNRS) en mettant en avant les enjeux juridiques et éthiques inhérents aux données traitées (transcriptions d’entretien, entretiens audio…) qui décrivent souvent finement les personnes enquêtées. L’équipe s’appuie sur le régime dérogatoire du Règlement général pour la protection des données (RGPD) quant à la conservation et aux finalités spécifiques des traitements (article 89, paragraphe 1) pour la mise à disposition des enquêtes, qui répondent par ailleurs aux principes FAIR. Elle insiste également sur la lourdeur du processus d’anonymisation a posteriori lorsqu’il faut retravailler avec le chercheur qui n’a pas anticipé une éventuelle réutilisation de son enquête, en gardant à l’esprit qu’un autre chercheur qui souhaiterait réutiliser l’enquête doit pouvoir retrouver une information suffisante à cette fin. Une anonymisation n’est jamais parfaite ! Pour minimiser les risques de perte d’information et pour maintenir le pacte « enquêteur / enquêté », l’équipe propose, pour certaines enquêtes, des interviews audio de chercheurs chapitrés intitulés « L’enquête sur l’enquête. »
Autre équipe présente à cette table ronde, celle du projet Memoria portée par l’UMR 3495 MAP : Modèles et simulations pour l’Architecture et le Patrimoine, et représentée par Iwona Dudek et Jean-Yves Blaise. À travers ce projet de long terme de structuration et d’archivage des ressources et des données numériques produites par le laboratoire, et dont l’ambition est de reconstruire virtuellement le résultat du processus de la recherche, l’équipe vise à faciliter la transmission des méthodes en explicitant les choix, en décrivant les modalités d’obtention des résultats, et en structurant les activités (grâce à des descripteurs et à leur chaînage entre elles). À la question finale « Quels sont les obstacles que vous rencontrez dans votre projet au-delà des questions juridiques et éthiques ? », l’équipe n’hésite pas un instant : la tension entre le concept du projet qui traite de transmission sur le long terme et le système court-termiste dans lequel on s’enferme pour des questions pratiques comme les ressources humaines, par exemple…
La session de l’après-midi est introduite par Sophie Gebeil (Aix Marseille Université – Inspé, Institut national supérieur du professorat et de l’éducation) qui s’intéresse notamment au web comme source pour les usages mémoriels. La première intervention débute par la référence à l’ouvrage La cathédrale et le bazar d’Éric Raymond, co-créateur du terme open source, paru en 1999. Valérie Schafer, chercheuse au Luxembourg Centre for Contemporary and Digital (C²DH, à l’Université du Luxembourg), y trouve une métaphore des archives du web, avec d’un côté, les modèles verticaux et traditionnels, fermés, et de l’autre, le bazar (en référence à Wikipedia par exemple). Nous ne sommes pas tous égaux quant à la consultation et la réutilisation des archives du web, tant s’en faut ! Depuis la création d’Internet Archive et de sa Wayback Machine en 1996, les pays européens se sont dotés de législations distinctes pour réguler les lieux d’archivage du web, leurs collections et leurs conditions de consultation. Il faut encore passer d’un pays à l’autre pour consulter les archives nationales (si tant est que ce périmètre correspond à quelque chose de précis sur le web). À surveiller néanmoins : le projet RESAW (Research infrastructure for the study of Archived web materials) d’infrastructure d’archivage à l’échelle de l’Europe, soutenu par la Commission européenne.
Outre les dimensions juridiques soulevées par les archives du web, qui relèvent davantage du régime du dépôt légal que de celui des archives, Valérie Schafer évoque celles des choix de collecte des données qui sont censées faire mémoire et patrimoine. Les choix effectués correspondent-ils à ceux des chercheurs, qui souhaitent parfois avoir accès à des contenus moins « nobles » que ceux initialement sélectionnés par les spécialistes en charge de la collecte ? D’autres enjeux éthiques touchent à la représentativité des communautés dans ces archives. Est ici mentionné le projet DocNow, qui vise à collecter les archives des groupes les moins représentés dans les réseaux sociaux, ou encore les travaux de Ian Milligan, chercheur à l’université de Waterloo, qui part du principe que toutes les données sont sensibles peu ou prou et que ne pas oser les utiliser mène à privilégier une histoire « par le haut », nourrie uniquement de données autorisées, validées, etc.
Belle transition vers la table ronde qui suit, animée par Myriam Fellous Sigrist (King’s College London) et Véronique Ginouvès (phonothèque de la Maison méditerranéenne des sciences de l’homme, MMSH), centrée sur les contrats entre les enquêteurs et les enquêtés dans le cadre d’entretiens enregistrés, avec les réflexions des historiennes Florence Descamps (École pratique des hautes études - Paris sciences lettres, EPHE-PSL) et Anne-Marie Granet-Abisset (Université Grenoble-Alpes, directrice déléguée du Laboratoire de recherche historique Rhône-Alpes, LARHRA), et d’Anne Laure Stérin, juriste. Témoignant de leur expérience d’enquêtrices, mais aussi d’enquêtées, les chercheuses partent du principe que le contrat passé est avant tout un contrat de confiance, l’enquêté.e « confiant » quelque chose de précieux à l’enquêteur, d’où des engagements éthiques différents lorsqu’il s’agit d’anticiper une diffusion et/ou une conservation des enregistrements. D’ailleurs, le mot « déontologie » correspond mieux que le mot « éthique » par rapport à ce qui est attendu du chercheur, car cela implique que celui-ci a la responsabilité d’expliquer à l’enquêté.e ce qu’il est prévu de faire avec l’entretien pour que la personne accepte de « confier ». Et le dévoilement de soi peut être vécu comme une véritable violence symbolique menant l’enquêté.e à se poser la question du souhait (ou non) de laisser des traces de soi, d’évaluer le degré de confiance, y compris dans ses propres paroles. Certes, le contrat n’est pas une fin en soi concluent-elles, car si la confiance s’installe, il pourrait devenir superflu. Mais la question est plutôt de savoir ce que l’on veut faire de ces données demain et qui est susceptible de les réutiliser, le contrat permettant alors d’anticiper, à condition d’être concis et précis et de choisir le bon moment pour en parler et le faire signer.
Ainsi, même si un consentement éclairé à 100 % n’existe pas, il reste un instrument clé pour aller vers la science ouverte. Accompagnées de métadonnées et d’une documentation explicites, les enquêtes ainsi conservées permettront dans dix ou vingt ans, non pas tant une réplicabilité qui n’aurait parfois que peu de sens en SHS, mais plutôt un requestionnement.
À noter en fin de journée, un beau retour d’expérience présenté par Françoise Acquier, chargée de ressources documentaires au laboratoire Ambiance Architecture Urbanité (AAU) et membre de l’équipe du Centre de recherche sur l’espace sonore et l’environnement urbain (CRESSON), sur l’utilisation du Carnet « Éthique & Droit » pour une formation doctorale sur le droit à l’image, et l’exposé de Joël Gombin, cofondateur de Datactivist et chercheur en science politique, spécialisé sur les données publiques ouvertes, pour qui le droit serait en avance sur l’ouverture des données. Il s’interroge également sur les sanctions (non) prévues en cas de manquement aux obligations de diffusion des données ouvertes.
Alors, si le droit et l’éthique ne sont peut-être pas encore nos alliés pour tous les types de données que les chercheurs en SHS produisent, collectent et analysent, tous les intervenants de cette journée se sont accordés sur le fait de ne pas en faire nos ennemis !