Qu’est-ce que le travail scientifique des données ?

Big data, little data, no data

Élise Lehoux

Christine L. Borgman
Qu’est-ce que le travail scientifique des données ? Big data, little data, no data
Trad. de l’anglais (États-Unis) : Charlotte Matoussowsky
OpenEdition Press, 2020
Collection « Encyclopédie numérique »
ISBN électronique : 9791036565410
https://books.openedition.org/oep/14692?lang=fr

À l’heure où le paysage européen – et international – est en cours de structuration, où les universités et organismes de recherche réfléchissent à des plans d’actions et où les scientifiques sont invités à gérer et ouvrir leurs données, la publication en français de l’ouvrage de référence de Christine L. Borgman Qu’est-ce que le travail scientifique des données ? Big data, little data, no data vient combler un manque. Originellement publié au MIT Press en 2016, ce livre propose une réflexion synthétique sur les objets informationnels complexes que sont les « données de la recherche », dont l’intérêt n’a cessé ces dernières années de croître avec l’open data et le développement des politiques dites de « recherche ouverte ». À partir d’une riche bibliographie et d’un point de vue nord-américain, l’ouvrage s’inscrit dans la perspective des sciences de l’information, avec des emprunts à la sociologie des sciences. Il permet de prendre du recul pour envisager avec nuances, complexité et provocations la place de cette « matière noire » dans le temps long de la production des savoirs et de la communication savante (scholarship).

Les données prolifèrent et permettent, à travers le big data, de penser de nouvelles questions de recherche. Néanmoins, elles sont aussi fragiles, beaucoup plus que les sources physiques comme le papier ou le papyrus. Leur lecture requiert des technologies spécifiques, qui peuvent devenir très vite obsolètes ; elles doivent être accompagnées d’une documentation qui permette de savoir comment on les a obtenues, ce qu’elles contiennent afin de pouvoir les trouver et les réutiliser. Leur utilisation soulève des questions scientifiques, éthiques et politiques. L’apprentissage de leur gestion est bien souvent mimétique et peu de disciplines ont à l’heure actuelle une gestion organisée et collective de leurs données. Puissantes et fragiles, omniprésentes et éphémères, les données sont à la fois les « moyens, résultats et atouts de la recherche » (p. 25) et constituent autant une charge qu’une opportunité pour les scientifiques. Elles diffèrent fondamentalement des publications scientifiques. Enfin, les définir est une affaire complexe. Le livre de C. L. Borgman souhaite ainsi « ouvrir la boîte noire des “données”, y examinant les idées, les théories, les pratiques, les politiques, les valeurs, les incitations et les motivations intrinsèques » pour saisir le phénomène de la donnée dans toute sa complexité (p. 37).

Pour ce faire, la première partie pose le cadre théorique et épistémique nécessaire pour saisir ces objets et préparer le lecteur à une série d’étude de cas dans des domaines aussi variés que l’astronomie ou la philologie bouddhique. La dernière partie est consacrée aux politiques et pratiques en matière de données.

Partie 1. « Une entité ne devient donnée que lorsqu’elle est utilisée pour mettre en évidence un phénomène » (p. 52)

La première partie du livre éclaire la diversité des définitions apportées aux données à travers quatre chapitres. Le premier éclaire l’histoire déjà longue de l’accès ouvert aux données, dont certains épisodes remontent à la seconde moitié du XIXe siècle, et dont les récentes évolutions entraînent des mutations dans les politiques de recherche. Cette contextualisation permet d’expliquer certaines expressions utilisées pour qualifier la disponibilité des données : données de « longue traîne », indisponibles, non publiées, inutilisables jusqu’à l’absence même de data. Le chapitre se conclut par une série de fils rouges, appelés provocations car elles sont destinées à stimuler un débat approfondi et à étayer une des hypothèses du livre selon laquelle « la valeur des données réside dans leur usage » (p. 23). Parmi ces défis, on trouve la nécessité d’identifier le contrôle et la propriété des données, éléments clés permettant d’exploiter leur valeur ou encore la nécessité de comprendre la fonctionnalité des données dans leur contexte, afin de déterminer pratiques et politiques scientifiques (p. 36).

La section suivante envisage les différentes acceptions du terme de « données », dont le concept aurait été utilisé dès 1646 dans un sens théologique (Oxford English Dictionary, p. 39). À la fois faits, sources de preuve ou postulats, forme d’information, brutes ou traitées, primaires ou secondaires, données ou entités, définir les données n’est pas chose aisée : aucune définition n’est véritablement satisfaisante ni consensuelle. Faute de mieux, l’auteure propose d’envisager les données comme des « représentations d’observations, d’objets ou d’autres entités qui servent à mettre en évidence des phénomènes à des fins de recherche » (p. 52), démarche qui permet de rester au plus proche de la façon dont chaque communauté de recherche construit ses propres matériaux de recherche. Plutôt que définir ce qu’est une donnée, C. L. Borgman préfère s’interroger sur la manière dont quelque chose est institué en « donnée » afin de déterminer « comment les individus, les laboratoires et les communautés créent-ils, sélectionnent-ils et utilisent-ils les données » (p. 39).

Les deux dernières sous-parties sont consacrées au travail scientifique des données (data scholarship) et à leur diversité. L’auteure y présente ce qu’elle entend par « infrastructures de la connaissance », autant de réseaux qui « intègrent la technologie, les activités intellectuelles, l’apprentissage, la collaboration et l’accès décentralisé à l’expertise humaine et à une information étayée » (p. 57). Le travail sur les données intervient à plusieurs niveaux et exige une expertise dans les domaines concernés. Face à ces nouvelles responsabilités, les personnels de recherche réagissent différemment, de la paralysie aux craintes de mésusage, à la volonté de largement diffuser (p. 56).

Avant de dresser un panorama de l’accès ouvert aux résultats de la recherche et des politiques balbutiantes du début des années 2010, C. L. Borgman entrevoit un certain nombre de différences fondamentales entre l’accès ouvert aux publications et aux données, bien que l’on use dans le second cas également de la métaphore de la « publication des données ». Selon elle, les deux types d’objets diffèrent par leur valeur respective pour la recherche, les acteurs mobilisés, les conditions de circulation, les droits de leurs auteurs. Enfin, reprenant un postulat de Peter Suber 1

X

Peter Suber, Qu’est-ce que l’accès ouvert ?, trad. par Marie Lebert, Marseille, OpenEdition Press, 2016. En ligne : http://books.openedition.org/oep/1600.

, les données s’extraient beaucoup plus difficilement du processus de recherche, à l’inverse des publications et bénéficient rarement d’un examen indépendant par les pairs, étant difficiles à évaluer (p. 71). Dans ce cadre, les données se présentent davantage comme des atouts précieux que l’on accumule secrètement au cours d’une carrière. De plus, la chercheuse estime qu’il existe peu d’éléments pour affirmer que la citation de données constitue une incitation à la diffusion (p. 74). La prise en compte de la très grande diversité des données – depuis la variété des méthodes, aux modalités de représentations de ces « traces », aux disciplines, aux modes de circulation des matériaux, aux divergences sur les questions de valeur, de droit et d’éthique – intervient au premier plan dans la conception des infrastructures de connaissance (p. 109-110).

Partie 2. Des disciplines « confrontées à un déluge de données » (p. 203)

La deuxième partie retranscrit l’enquête menée par C. L. Borgman au sein de communautés savantes. Pour chacune d’elles, elle propose une immersion dans leur travail avec les données : au sein des sciences exactes (astronomie et science et technologie des réseaux de capteurs), des sciences sociales (sociotechnique) et des sciences humaines (histoire de l’art et archéologique antique d’une part et philologie bouddhique de l’autre) afin de rendre compte de leur communauté de pratique (Lave et Wenger) et de leur culture épistémique (Knorr-Cetina). Ces études de cas permettent de comparer « la sélection, la création, l’utilisation, le partage, la réutilisation, la gestion et la conservation des données dans les sciences exactes, ainsi que l’évolution de la recherche dans un monde interconnecté » (p. 115).

À chaque fois, l’auteure examine les principales sources de données de la discipline et termine par l’exemple d’une recherche précise. Ce voyage intra-disciplinaire permet de saisir par l’exemple et à travers un canevas précis l’ensemble des questions et mises en perspective présentées dans la première partie du livre en les envisageant sur le terrain : de l’astronomie, qui possède « l’infrastructure de la connaissance la plus complète de tous les champs évoqués dans les études de cas » (p. 125), aux sciences sociales, « en quête de nouvelles méthodes et sources » (p. 162) à la « difficulté de caractériser les données des sciences humaines » (p. 246). Ces investigations permettent de prendre conscience des grandes différences de maturité des disciplines face à leurs matériaux mais également de révéler le « travail invisible » 2

X

À ce sujet et dans le prolongement de ce travail, cf. Jérôme Denis, Le travail invisible des données : éléments pour une sociologie des infrastructures scripturales, Paris, Presses des Mines, 2018, et un compte rendu : Élise Lehoux, « DENIS, Jérôme, 2018. Le travail invisible des données : éléments pour une sociologie des infrastructures scripturales », Communication et organisation, no 57, 2020. En ligne : http://journals.openedition.org/communicationorganisation/9122. DOI : https://doi.org/10.4000/communicationorganisation.9122

et l’ampleur des investissements nécessaire à la gestion et au partage des données pour pérenniser et développer les infrastructures nécessaires.

Partie 3. « Galilée et Cavendish divulgueraient-ils leurs données de nos jours ? » (p. 253)

À partir de ces deux exemples, les trois chapitres de cette troisième partie traitent du partage, de la réutilisation des données, de leur découvrabilité et de ce qu’il est possible ou souhaitable de garder comme données. La première sous-partie vise à montrer que la capacité à diffuser, partager et réutiliser les données dépend de l’existence d’infrastructures pérennes, permettant de préserver les données qui doivent l’être. L’auteure explique que les politiques de partage en appellent, par des arguments historiques en faveur de l’ouverture, à la générosité des scientifiques mais prennent rarement en compte le caractère concurrentiel de la recherche, la quête de la récompense, la diversité des pratiques et des ressources entre disciplines, les difficultés à interpréter les ressources, etc. (p. 255-256). Pour cela, elle examine les discours des quatre raisonnements mobilisés pour justifier le partage de données – et leurs paradoxes – : reproduire la recherche, mettre les ressources publiques à la disposition des populations, optimiser les investissements dans la recherche, faire progresser la recherche et l’innovation (p. 256-262).

Pour C. L. Borgman, « traiter les données comme des produits à diffuser ou partager suppose des changements dans les méthodes et les pratiques de recherche » (p. 263). Elle revient sur les différences fondamentales entre données et publications. Pour certains chercheurs, les données servent de leviers dans les collaborations et perdent leur valeur d’échange en étant diffusées (p. 267). Par ailleurs, le taux exact d’« utilisation » ou de « réutilisation » est très difficile à cerner. Une des clés réside donc en l’investissement dans des infrastructures de la connaissance pérennes, envisagées comme une « responsabilité communautaire » (p. 293), prenant en charge « les nombreuses formes de données diffusables et les multiples manières dont elles peuvent être réutilisées, ainsi que de trouver des moyens de transmettre les connaissances relatives à ces données » (p. 275).

L’auteure aborde ensuite la « citabilité » des données, au sujet de laquelle les références bibliographiques traditionnelles ne peuvent s’appliquer car ces objets ne sont ni fixes, ni stables ni nécessairement complets (p. 296). Ainsi, la question centrale de la « découvrabilité » des données reste sans réponse (p. 326). Enfin, C. L. Borgman revient, dans un chapitre conclusif « Que garder et pourquoi ? », sur les provocations qui introduisaient le livre, afin de plaider pour l’investissement dans des infrastructures pérennes : « Unifier les nombreuses composantes mouvantes des infrastructures de la connaissance nécessite d’investir dans les personnes qui les font tenir ensemble par leur travail invisible » (p. 348), seule garantie pour assurer la découvrabilité des données, leur pérennisation et éviter qu’elles ne deviennent zero data.

Conclusion : « La valeur réside dans leur usage » (p. 348)

Ce livre, écrit au début des années 2010, porte en lui l’ensemble des propositions qui seront, pour certaines, formalisées dans les années qui suivront sa publication, comme la recommandation des principes FAIR 3

X

M. Wilkinson, M. Dumontier, I. Aalbersberg et al., « The FAIR Guiding Principles for scientific data management and stewardship », Scientific Data, 3, article no 160018 (2016). En ligne : https://doi.org/10.1038/sdata.2016.18

. Ces dernières années ont mis en évidence d’autres aspects, comme la grande fragilité des infrastructures de stockage numérique 4
X

Comme l’a montré le très récent incendie de l’entreprise de stockage strasbourgeoise OVH le 10 mars 2021. Cf. https://www.lemonde.fr/societe/article/2021/03/11/l-incendie-survenu-sur-le-site-de-l-entreprise-ovh-serait-d-origine-accidentelle_6072753_3224.html [consulté le 15 mars 2021].

, l’obsolescence des formats numériques, les nouvelles règles et politiques en matière de données, qu’elles soient top down ou bottom up, qui s’inscrivent comme des prolongements de cette étude indispensable, à la riche bibliographie. Bien qu’inscrit dans le contexte nord-américain, ce livre n’en est pas moins un excellent compagnon de route pour tous les professionnels de l’information qui souhaitent découvrir ou approfondir leur culture sur les données dans toute sa complexité : nous nous réjouissons pleinement de voir que sa traduction française peut dès à présent circuler librement en accès ouvert.