« Bibliothèques, éditeurs, libraires, face au mouvement de l’open »

Biennale du numérique organisée par l’Enssib – 22 et 23 novembre 2021

Caroline Blanc-Feracci

Marion Braud

Camille Forget

Eugénie Michel

Floriane Tournier

Les 22 et 23 novembre 2021, l’École nationale supérieure des sciences de l’information et des bibliothèques (Enssib), éditrice du Bulletin des bibliothèques de France, a organisé la 10e édition de la Biennale du numérique consacrée au thème « Bibliothèques, éditeurs, libraires, face au mouvement de l’open ». Nathalie Marcerou-Ramel, directrice de l’Enssib, a rappelé en préambule que l’expression retenue pour cette édition, « être open », correspondait aux valeurs de cette manifestation conçue comme une rencontre ouverte et interprofessionnelle. C’est une thématique importante liée aux évolutions des enjeux économiques, juridiques, sociaux et politiques de la diffusion des contenus, et qui traduit aussi la volonté de l’Enssib de défendre la liberté et l’égalité d’accès à l’information.

Pascal Robert, directeur de la recherche à l’Enssib, a, quant à lui, souligné que la question de l’open interpelle non seulement le monde de la recherche à l’Enssib sur les opportunités de publication des résultats, mais également le monde professionnel des bibliothèques et de l’édition. La Biennale est donc l’occasion d’articuler les expériences, de découvrir les différents acteurs, publics et privés, impliqués ainsi que les logiques complexes, à l’échelle locale et globale, qui animent les trajectoires de l’open.

La science ouverte : un concept vieux de plusieurs siècles

La conférence inaugurale présentée par Thomas Parisot, codirecteur de Cairn.info, et Jean-Yves Mérindol, ancien président de l'université Louis Pasteur de Strasbourg et de l'École nationale supérieure de Cachan, également fondateur du consortium Couperin, a donné la perspective historique internationale du développement de l’open afin d’en mettre en évidence les tensions.

Le thème de la science ouverte est un thème ancien qui prend forme au XVIIe siècle avec la parution du Journal des savants et du Philosophical Transactions par la Royal Society dans le but de rendre les découvertes accessibles et publiques. Les principes de l’édition savante sont définis au XIXe siècle : les chercheurs du domaine public doivent publier leurs résultats, relus par des pairs pour assurer leur fiabilité, publications qui sont assurées par des maisons d’édition en lien avec les milieux scientifiques. Des bibliothèques savantes de lecture publique sont mises en place avec un accès gratuit aux revues pour le grand public, notamment par l’intermédiaire de réseaux laïcs, d’associations catholiques ou ouvrières.

Si le numérique conserve certains invariants tels que le peer review et la question de la liberté d’accès aux publications, il introduit également quelques nouveautés avec la possibilité d’un accès libre et immédiat depuis tout poste numérique, et constitue un facteur de transition voire de déstabilisation de l’open access.

Jean-Yves Mérindol, auteur d’un rapport sur l’avenir de l’édition scientifique pour le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, a retracé ensuite le développement des archives ouvertes et des portails d’accès avant d’évoquer la Déclaration de Budapest de 2002 concernant l’auto-archivage et l’open access des revues : les articles sont rendus disponibles librement, immédiatement et sans condition par les revues, entraînant une disparition de l’abonnement et un essor du modèle auteur-payeur. Le numérique permet bien une concentration des publications, mais l’open access n’est pas susceptible de déstabiliser les grands éditeurs dont le prestige est assuré.

Un débat a été entamé sur la crainte que l’open access menace la liberté d’écriture. La responsabilité de l’auteur est engagée dans ses publications, il reste libre de faire la science qu’il souhaite. Néanmoins, Jean-Yves Mérindol a souligné que les libertés académiques doivent être garanties. La question de la liberté de publier se pose aussi pour les auteurs originaires de pays où les financements sont limités dans un contexte de pression économique.

Les accords transformants, une voie vers le libre controversée

Lors de la table ronde « Géopolitique et économie de l’open », les origines des « accords transformants » ont été présentés. Comme leur nom l’indique, ils ont pour but de modifier le modèle économique de l’édition scientifique, traditionnellement basé sur le paiement d’Article Processing Charges (APC, en français frais de publication d’un article), en couplant les tarifications pour lire et pour publier. Il existe de multiples accords transformants – pluralité liée à la diversité des institutions signataires – mais la volonté reste la même : opérer un basculement progressif vers l’accès ouvert.

Néanmoins, ces accords transformants, comme les désigne Irini Paltani-Sargologos, chargée d’études à la Direction des données ouvertes de la recherche du CNRS, sont encore controversés et présentent plusieurs limites. L’entérinement du modèle auteur-payeur profite aux grands éditeurs et contribue à rendre invisibles les coûts de publication auprès des chercheurs. À cela s’ajoute le risque d’un appauvrissement de la bibliodiversité, dû à l’accaparement des budgets des consortia pour le paiement d’accords.

Les interventions suivantes, par Marie-Noëlle Doutreix, maître de conférences à l’université Lyon 2, et Nikos Smyrnaios, maître de conférences à l’université Toulouse 3, ont mis en lumière l’articulation entre monde du libre et Internet propriétaire, notamment à travers l’exemple de l’interrelation entre la Fondation Wikimédia et les Gafam (acronyme pour Google, Apple, Facebook, Amazon, Microsoft). En effet, si les Gafam se sont réapproprié les contenus et les données des projets Wikimedia pour la création de leurs agents conversationnels (tels que Siri ou Ok Google), l’encyclopédie Wikipédia utilise, quant à elle, des outils développés par des Gafam, comme l’outil de traduction de Google. Autrement dit, cette relation est basée sur des intérêts économiques, techniques et juridiques réciproques, chacun bénéficiant des externalités positives créées par les actions des autres. Toutefois, cela entraîne un renforcement des acteurs qui dominent Internet grâce au travail des communautés du libre. Il existe donc un risque que la récupération d’un travail participatif, fourni dans une volonté d’ouverture des ressources informationnelles, favorise les intérêts économiques des Gafam, qui se renforcent au détriment de la juste rémunération du travail. Le mouvement open, qui était au départ une forme de critique du capitalisme, pourrait être à l’origine de l’oligopole actuel contrôlé par les géants du numérique.

Ce serait une vision très naïve que de ne pas prendre en compte les enjeux géopolitiques qui agitent le paysage de l’édition scientifique. La crise sanitaire, parce qu’elle a été un accélérateur de la science ouverte, a d’ailleurs révélé combien les enjeux de concurrence ont leur importance.

Favoriser la rencontre entre les contenus et les lecteurs

Comment les éditeurs de contenus peuvent-ils attirer l’attention des lecteurs en régime open dans un contexte d’explosion de la production de données ? Le glissement vers l’open induit en effet une contrainte de médiation qui était souvent assurée par la bibliothèque et sa plateforme. On avait donc un point focal unique, la bibliothèque, qui est aujourd’hui concurrencé par d’autres voies d’accès. L’enjeu devient la dissémination et la capacité à placer les contenus documentaires sur le chemin des usagers. Pour répondre à cette problématique, quatre intervenants, éditeurs de contenus ouverts, ont partagé leurs expériences professionnelles lors de la session « Construction de l’attention en régime open, l’offre et la demande ».

Pour répondre à la difficulté de pouvoir déterminer les lecteurs potentiels d’un contenu, Jean-Baptiste de Vathaire, directeur général de Cairn.info, mise sur trois types d’intervention : le travail éditorial de sélection, validation, enrichissement, édition, diffusion électronique ; les actions de diffusion qui correspondent à la nécessité d’être proactif dans le monde open où il ne suffit pas de publier le contenu et d’attendre que l’usager le trouve ; enfin, le travail sur la personnalisation de l’interface. Les recommandations jouent aussi un rôle crucial puisqu’elles permettent de savoir quels sont les utilisateurs intéressés par un contenu à l’aide d’algorithmes et d’alertes par mail.

David Aymonin, directeur de l’Agence bibliographique de l’enseignement supérieur (Abes) a confirmé être face au même défi : comment contribuer à mettre les contenus sur le chemin des utilisateurs ? Pour y répondre, il adopte le principe de l’offre et de la demande. La demande est celle des utilisateurs qui veulent lire des livres et des revues. Or, ces livres et revues sont achetés par les universités, les laboratoires et les bibliothèques. L’accès au contenu par l’utilisateur dépend donc des pouvoirs publics et d’une logique de marché. De l’autre côté, se trouve l’offre : les auteurs veulent publier. Pour David Aymonin, le vrai problème est que l’open access génère de plus en plus de contenus. Le nombre de revues se stabilise mais le nombre d’articles publiés a augmenté de 8 % soit un quart d’articles soumis en plus. Que faire alors pour gérer l’offre et la rendre accessible et visible ? Pour lui, il sera nécessaire de faire une régulation du marché notamment grâce aux acheteurs publics qui sont essentiels pour négocier le prix de l’open access. Il est aussi important de créer un accès international aux contenus à bas coût grâce à une seule plateforme. Il prône donc, pour baisser les coûts de production du contenu scientifique, de partager les métadonnées et de les rendre libres à l’achat et libres de droits.

Cécile Davrieux-de-Becdelièvre, responsable de Numelyo, la bibliothèque numérique de la Bibliothèque municipale de Lyon, a apporté un autre point de vue sur la question. Numelyo rassemble des œuvres patrimoniales numérisées, or le patrimoine doit relever du commun des savoirs. L’idée avec l’open est de créer une attention pour les données auprès de tout type d’internautes en partageant des fichiers en haute définition facilement manipulables. Avec la crise sanitaire, les fichiers numérisés ont gagné en valeur en raison de l’impossibilité d’accéder aux originaux. Des actions ont été mises en place pour favoriser l’accès des internautes au contenu numérique. Tout d’abord, des négociations ont été menées avec les ayants droit et avec les prestataires de numérisation pour prolonger la possibilité d’utiliser les fichiers numérisés. Ensuite, l’adhésion payante a été levée pour favoriser l’inclusion. Le public a par ailleurs été impliqué dans la production de contenu via Wikimédia. Néanmoins, le passage à l’open soulève une autre question pour les bibliothèques : permet-il de toucher de nouveaux publics ? La réponse est mitigée : les publics habituels s’en sont emparés mais il a fallu former et accompagner les publics moins familiarisés avec le numérique, transformant ainsi le rôle de médiation des bibliothécaires.

On peut donc conclure à la difficulté d’obtenir des données concernant les usages sur les plateformes en open. Les contenus documentaires sont difficiles à placer sur le chemin des usagers. Les statistiques sur les usages vont progresser pour chaque plateforme mais on peut aussi envisager une étude à grande échelle des usages qui fournirait des informations pour toutes les plateformes en open access. En attendant ces statistiques, la solution privilégiée pour l’instant est le système des recommandations faites au lecteur sur la base de ses lectures.

Mieux connaître les pratiques des chercheurs

La question des usages des ressources en open access est centrale. Pour François Gèze, ancien président-directeur général des éditions La Découverte où il intervient toujours en tant que directeur de collections, ces pratiques doivent être évaluées par des chiffres mais aussi par des études d’usages. L’étude du consortium Couperin publiée début 2021 a apporté des réponses inédites sur les pratiques des chercheurs : ces derniers utilisent principalement Google Scholar (57 %), SinHub (plateforme pirate d’articles scientifiques) et les réseaux sociaux. Le processus pour arriver à la ressource en passant par des plateformes d’open access est perçu par les chercheurs comme trop long. Cela interroge sur l’amélioration de l’ergonomie et de l’accès aux ressources de ces plateformes.

Thomas Parisot a indiqué que la base Cairn avait, elle aussi, mis en place une étude pour identifier les pratiques de documentation et de publication des chercheurs tout en identifiant la place de la plateforme Cairn dans ces pratiques. Cette étude a abouti à la même conclusion que celle de Couperin. L’étude a été menée en lien avec Ipsos sur un échantillon le plus représentatif possible grâce à un questionnaire envoyé par mail. Concernant l’accès aux ressources open, les plateformes de publications scientifiques arrivent en deuxième place dans les usages après Google Scholar. Les bibliothèques arrivent en troisième position alors qu’elles devraient constituer un point d’entrée dans ces ressources. L’étude a mis également en avant la double casquette des chercheurs, à la fois auteurs et lecteurs. Pour publier, ils souhaitent en majorité combiner le régime papier et le régime numérique. Ils sont favorables à un modèle de l’open de type Diamant (modèle gratuit, financé par les pouvoirs publics).

Sophie Forcadell, chargée de mission Science ouverte à Sciences Po Paris, a abordé la question de la visibilité de l’offre pour les usagers de la bibliothèque en faisant, elle aussi, le constat qu’il est difficile de connaître les usages de l’open. Il existe une double problématique : connaître les usages et rendre les ressources de l’open plus accessibles. La bibliothèque de Sciences Po Paris a mis en place plusieurs actions, avec plus ou moins de réussite, la plus importante ayant été de mieux signaler aux usagers les ressources libres sans que le catalogue ne devienne confus. Sophie Forcadell constate une amélioration dans la connaissance de l’open par les chercheurs et des réticences qui s’amenuisent. Elle a conclu sur les difficultés persistantes pour les bibliothèques : des ressources insuffisantes, mal référencées, éclatées ou mal signalées, la surcharge d’informations pour les professionnels eux-mêmes, la complexité de rendre l’open accessible (traduction, revue par les pairs, signalement), l’absence d’interface d’interrogation de l’ensemble de l’offre et la nécessité d’une politique construite ainsi que d’une base de données commune en collaboration.

Pour Annaïg Mahé, maître de conférences à l’Unité régionale de formation à l'information scientifique et technique (Urfist) de Paris, les pratiques des chercheurs les mieux documentées sont les plus anciennes : les preprints et les archives ouvertes. Le modèle preprint est un modèle qui reste dans le cadre de la publication classique. De même, le processus de passage des archives physiques aux archives numériques n’a pas fait évoluer les pratiques d’usages déjà présentes avec le papier. Les usages de HAL, archive numérique spécialisée dans les sciences dures puis ouverte aux sciences humaines et sociales, permettent de connaître les types de publications utilisées par les chercheurs, leurs habitudes de publication et leurs besoins. Cela permet aussi d’avoir des données sur la proportion des publications en open selon les champs disciplinaires. On observe alors des variations dans les usages en fonction des disciplines qui incitent plus ou moins à publier en open. Annaïg Mahé a terminé par une mise en garde : la récolte des données ne doit pas être une contrainte pour les chercheurs.

Les différentes interventions ont fait le constat de la difficulté à connaître les usages des chercheurs concernant l’open. Peu d’études sur le sujet ont pour le moment été menées et les enquêtes se heurtent à des questions éthiques de surveillance de l’activité des chercheurs. Les intervenants ont donc souligné l’importance de mettre en commun les données déjà récoltées pour éviter la multiplication des études. Par ailleurs, tous ont mentionné les difficultés auxquelles ils doivent encore faire face pour sensibiliser au régime open. Les plateformes tentent de se réinventer pour rendre l’accès aux ressources plus aisé mais cela n’a pour le moment pas totalement porté ses fruits auprès des générations de chercheurs pour lesquels l’open est une nouveauté. Promouvoir l’utilisation des ressources ouvertes et la publication en régime open reste donc un vaste chantier dont s’emparent les plateformes d’archives numériques aussi bien que les bibliothèques.

Frontiers, parcours d’un éditeur scientifique en libre accès

Lors de la conférence d’ouverture de la seconde journée, Frederik Fenter a présenté Frontiers la maison d’édition scientifique en libre accès dont il est le directeur exécutif. Cette start-up édite 134 revues scientifiques couvrant environ 1 000 domaines académiques, les biosciences et les sciences de la santé étant particulièrement représentées. Elle suit un modèle en open access et en quinze ans, elle est arrivée à la 9place du classement des éditeurs scientifiques (données 2021) et à la 3place des éditeurs les plus cités (données 2020). 1,5 milliard d’articles ont été vus et téléchargés. Selon Frederik Fenter, ces chiffres montrent que l’open access dans le domaine de l’édition permet la réussite d’un service de qualité et à grande échelle.

Pour l’intervenant, il est urgent de basculer le contenu scientifique dans des formats plus accessibles et il cite l’exemple de la base de données mise en place en open access par la Maison-Blanche autour du Covid-19. Lancée avec 40 000 documents au départ, elle en compte aujourd’hui 500 000. Frederik Fenter, qui trouve absurde que les documents critiques sur la recherche soient en accès payant, a formulé le souhait que l’expérience lancée par la Maison-Blanche autour du Covid-19 soit menée pour d’autres sujets comme les maladies respiratoires, le cancer, les maladies cardiovasculaires ou le réchauffement climatique.

Les piliers de Frontiers sont :

  • la collaboration : forums d’expertise des articles, collaboration en temps réel, validation de l’article ;
  • la responsabilité : l’éditeur et les reviewers sont nommés dans la publication afin que leur contribution soit reconnue ;
  • la transparence : chaque membre possède un profil avec ses qualifications ;
  • la rigueur.

L’intelligence artificielle (IA) est mise à disposition des équipes, notamment avec AIRA, un algorithme qui permet de faire des contrôles de qualité orthographique, de niveau de langage, de conflits d'intérêts entre articles ou de détection de fraudes en image.

S’appuyant sur des graphiques comparatifs, Frederik Fenter a affirmé que la publication d’un article coûtait moins cher en open access que sous un format hybride dans certaines maisons d'édition se présentant comme transformantes vers l’open access mais qui, selon lui, ne font pas de réel effort de transformation.

Mir@bel, un site qui facilite l’accès aux revues en accès ouvert

Le développement de l’édition scientifique sous format numérique a fait évoluer le monde de l’édition et le rôle des bibliothèques dans l’accès aux ressources et dans l’accompagnement des usagers. Ces mutations comportent des opportunités et des risques abordés de la table ronde « Open et nouvelles mutations de bibliothèques : accompagner et/ou produire ? ».

La question du repérage et de l’accès à la documentation a été détaillée par Sophie Fotiadi, chargée de ressources documentaires à Sciences Po Lyon et Bernard Teissier, responsable du centre de ressources documentaires et numériques à l’École nationale des travaux publics de l’État. Ils ont présenté Mir@bel, un site qui facilite l’accès aux revues en proposant des métadonnées autour des articles. Ce système permet de découvrir et de développer les contenus. Toutes les données sont produites par les gestionnaires du site ou agrégées avec la proposition de services associés pour les professionnels. L’open access facilite l’accès aux revues en ligne, mais la question des modalités de dépôt des revues en archives ouvertes est soulevée. Mir@bel propose un réseau documentaire de services dans les bibliothèques, les écoles, les laboratoires de recherche, qui produit un répertoire mutualisé, une base de connaissances publique sur les revues. Il s’agit d’un équivalent open des produits commerciaux : un service de gestion des accès pour les bibliothèques et un service de déclaration des politiques d’auto-archivage.

Mir@bel rassemble les actions suivantes : une identification bibliographique des revues (en alignement avec le Sudoc), un signalement des accès en ligne (accès libre ou accès par abonnement) et de la complémentarité entre accès en ligne et collection imprimée, l’intégration des politiques de publication (Sherpa Romeo), la localisation des collections en bibliothèque, la création de notices sur les éditeurs, le tissage de liens dans le paysage de l’open access. Le tout en maîtrisant les données qui ne proviennent pas d’un seul fournisseur mais de différentes sources. Les publics Mir@bel sont ceux des établissements membres de son réseau (étudiants, chercheurs, etc.) et les professionnels de l'information scientifique et technique (certaines bibliothèques utilisent le service pour des besoins tels que le renseignement des publics ou l’analyse des collections). Le réseau possède également une connexion à l’international : en Europe, Asie, Afrique et Amérique du Nord. Le travail dans un écosystème en open access permet de desservir bien plus que les publics des établissements partenaires, ce qui ouvre des questionnements : comment estimer les attentes des utilisateurs dans les communautés plus larges, au-delà de celles des établissements partenaires ? Comment mettre en place une intelligence collective pour analyser ces besoins et usages ? Le travail en open access est un travail en réseau qui permet de donner à tout le monde la possibilité de contribuer, Mir@bel possède de nombreux contributeurs tels que des portails de revues, des bibliothèques, quelques partenariats internationaux.

Le service d’enregistrement des politiques de publication de Mir@bel fonctionne comme tel : les éditeurs et plateformes (Cairn, OpenEdition, revues et éditeurs indépendants, EDP Sciences) ont une politique de publication qui est enregistrée et validée (Sherpa Romeo). Les fournisseurs de services vont ensuite diffuser les politiques de publications avec une visibilité internationale, ce qui permet à Mir@bel d’enrichir sa base de connaissances avec les données de Sherpa Romeo.

Pour réaliser l’open data, il faut un système d’information ouvert au niveau des codes, des métadonnées et de la licence même. Les évolutions futures de Mir@bel sont centrées sur un appel à projet pour 2022 porté par Sciences Po Lyon et dix autres partenaires dont Cairn et Persée. Ce projet développe trois axes majeurs :

  • référencer de manière partagée les revues d’éditeurs scientifiques et commerciaux ;
  • contribuer à accompagner les revues scientifiques françaises vers la science ouverte et améliorer leur accompagnement vers l’international ;
  • mettre à disposition en accès libre un outil d’exploration de l’édition des revues françaises pour proposer à tous un système d’information partagée non commercial au service de la production savante.

Repérer les revues « prédatrices »

Le rôle que peut avoir la bibliothèque dans le choix des revues et dans les stratégies de publications des chercheurs a été ensuite abordé par Paul Thirion, bibliothécaire en chef à la bibliothèque de l’université de Liège. La différence entre les bibliothèques et les éditeurs, c’est que les éditeurs publient en réalisant des bénéfices. « Pourquoi payer pour des données que la communauté scientifique a créées gratuitement ? », a interrogé Paul Thirion.

Il a expliqué les différentes « couleurs » de l’open access :

  • la « greenway », une liberté académique totale où l’auteur se fait publier où il le souhaite, à condition qu’une copie de son travail soit conservée dans une archive ouverte. À l’université de Liège, il existe depuis 2007 un mandat de dépôt obligatoire dans les archives institutionnelles de l’université (Orbi) ;
  • la « goldway » est la publication dans une revue en open access. Il y a évidemment des fonds pour financer ces revues, ce qui permet de distinguer plusieurs modèles : le modèle diamant lorsque les fonds sont fournis par une institution de recherche, le modèle Freemium (tel que OpenEdition) qui propose un accès gratuit dans un cadre d’utilisation restreint et un accès intégral payant, ainsi que le modèle gold lorsqu’il y a des APC. Cette formule « gold » se divise entre le fair et l’unfair gold. Selon Paul Thirion, les formules hybrides constituent une escroquerie destinée à faire gagner de l’argent à l’éditeur en faisant payer les lecteurs et les bibliothèques.

De nouveaux acteurs ont émergé dans le monde de la publication scientifique : les publishers, que Paul Thirion appelle les prédateurs. À l’université de Liège, les coûts en APC s’élevaient à 376 000 euros en 2020 et Paul Thirion craint qu’en 2021 cela n’augmente encore. Il a relaté l’expérience d’un de ses collègues chercheurs qui était harcelé dans ses emails par ces « prédateurs » et qui a envoyé à l’un d’entre eux un article structuré comme un réel article de recherche mais composé uniquement de la phrase « Get me off your fucking mailing list ». La revue « prédatrice » a accepté l’article qui a obtenu de très bons rapports des reviewers et de très bonnes notes. Un commentaire dit même « This revolutionary paper is so advanced that I’m not able to understand it ». Paul Thirion a expliqué que certains auteurs s’étant fait piéger viennent demander de l’aide aux bibliothèques. Il a donc voulu mettre en place une réponse structurée : formations aux chercheurs, outils d’information tels que les blacklists de Beall. Cependant, ces outils n’étaient pas suffisants car les blacklists étaient figées, suggestives et parfois discutables car il n’y avait aucune transparence concernant les critères sur lesquels les revues étaient considérées comme prédatrices.

Selon Paul Thirion, il faut replacer l’auteur au centre de la démarche et faire confiance à l’esprit critique pour l’identification de revues prédatrices. Il a conçu un site pour permettre à l’auteur de faire un diagnostic afin d’évaluer le degré d’authenticité d’une revue (authenticité ne voulant pas forcément dire qualité). Ce « compas » n’évalue pas la qualité des revues, ne propose pas de liste exhaustive et ne prétend pas fournir un diagnostic formel. Il offre un test de 26 questions qui permet de repérer la pertinence et certains éléments discriminants. Ce test, rapide et facilement compréhensible, propose ensuite une échelle d’authenticité mais c’est à l’auteur de décider si la revue est prédatrice ou non.

Le compas a une méthodologie complètement transparente et donne accès à ses critères. L’inquiétude est que les prédateurs profitent de cette transparence pour améliorer leur fraude. Pour l’instant, 3 000 tests ont été réalisés et les chercheurs expriment une grande satisfaction. Paul Thirion souhaite une montée en compétences de ses collègues et une meilleure prise de conscience de la problématique. Le travail du bibliothécaire intervient aujourd’hui plus en amont dans la production scientifique.

Paul Thirion a mentionné que le portail Popus de l’université de Liège fonctionnait entièrement sur le modèle « diamant ». Les auteurs ne paient pas de coût de publication et il y a un appui à l’édition électronique ouverte d’ouvrages en partenariat avec les Presses universitaires de Liège. La prochaine étape du projet est E & E, un outil pour accompagner les auteurs dans la production d’ouvrages scientifiques.

Les données de la recherche : un nouveau rôle pour les bibliothèques ?

Les bibliothèques ont un rôle de premier plan dans la construction de la science ouverte. Un nouveau statut émerge : celui de « data librarian », à la croisée de la documentation, de l’informatique et de l’accompagnement au pilotage de la recherche. Les bibliothécaires possèdent par ailleurs une expertise reconnue sur les métadonnées, qui sont au cœur de leur métier. La montée en compétences des personnels de bibliothèque s’opère grâce à des organismes de formation (Enssib, Urfist, centres régionaux de formation aux carrières des bibliothèques [CRFCB]). Cependant, le monde de la recherche n’a pas attendu pour élaborer des schémas de métadonnées disciplinaires (Core Scientific Metadata Model [CSMD], Data Documentation Initiative [DDI]). Cette problématique des métadonnées s’intègre dans une réflexion plus globale incluant les schémas de correspondance, les problématiques de moissonnage, etc.

Thomas Jouneau, de la Direction de la documentation et de l’édition de l’université de Lorraine, a pris l’exemple de son organisme où le comité de pilotage en science ouverte est un couteau-suisse rassemblant diverses compétences : directions opérationnelles, direction de la documentation, direction de la recherche, direction du numérique et de nombreuses autres composantes. L’accompagnement des chercheurs se fait durant leur formation doctorale par un accompagnement au plan de gestions de données, par le système des ambassadeurs de la donnée et par la participation à des groupes de travail locaux, nationaux et internationaux.

Le projet de manuel en open access Initiation aux études historiques : une expérience encourageante

Présenté lors de la table ronde « Un rôle d’éditeur de contenus », le projet de manuel en open access bimédia Initiation aux études historiques, mené conjointement par l’éditeur Nouveau Monde, l’opérateur Numérique premium, la bibliothèque de l’université Versailles-Saint-Quentin-en-Yvelines et le consortium Couperin, a été l’occasion de faire se rencontrer acteurs privés et publics autour d’un même objet éditorial alliant papier et numérique. Les enjeux étaient grands et les questions nombreuses : comment rendre différentes et complémentaires les deux versions, qui varient selon le format ? Comment rédiger un e-manuel qui réponde aux besoins des étudiants mais qui incite à l’achat du manuel papier ? Dans quelle mesure les bibliothèques, qui travaillent au contact des étudiants et des chercheurs – qui sont souvent auteurs – peuvent-elles participer à de tels projets ? Quelle est leur plus-value dans ce marché qui, comme l’ont constaté les initiateurs du projet, est très largement porté par des éditeurs privés ?

Plusieurs réponses ont déjà pu être apportées. D’une part, la mise en ligne en open access de la version enrichie a eu un effet intéressant sur les ventes en librairie. D’autre part, la complémentarité papier/numérique n’a pas seulement été économique, mais aussi structurelle. En effet, la malléabilité du format numérique permet de décortiquer le manuel papier et de réorganiser les sections qui le composent – bibliographie, boîte à outils, classes inversées, frises et cartes interactives. Cela fait du manuel numérique un outil intéressant pour les professeurs, qui peut venir compléter une utilisation plus étudiante du manuel papier. Expérimental, le projet apporte donc des conclusions encourageantes, basées notamment sur l’analyse de l'utilisation des fonctionnalités, des usages et des pratiques d’un tel objet.

Le rôle des plateformes dans l’édition de contenus

Les plateformes, tout comme les éditeurs privés ou les bibliothèques, ont également leur rôle à jouer dans l’édition et l’éditorialisation de contenus. Elles réunissent des publications scientifiques, proposent des fonctionnalités multiples, participent à la diffusion du patrimoine scientifique et interagissent avec plusieurs acteurs de l’écosystème de la recherche : chercheurs, lecteurs, auteurs, bibliothèque. L’intérêt de Persée, programme national de diffusion et de numérisation des publications scientifiques, ou de l’archive ouverte nationale HAL n’est plus à démontrer dans la mise en ligne de contenus. En revanche, le travail d’éditorialisation des plateformes est à souligner. Par exemple, comme l’a bien rappelé Gabrielle Richard, directrice de Persée, ouvrir des données, c’est ouvrir la possibilité de leur réexploitation. Persée travaille en partenariat avec le pôle éditorial Prairial sur le repérage des corpus à numériser et leur traitement.

Au-delà de la diffusion des publications et du soutien aux projets de numérisation, ces plateformes proposent aussi un troisième type de service, à la dimension plus économique. Le Centre pour la communication scientifique directe (CSSD) travaille par exemple à la diversification des sources de financement, l’idée étant non pas de lutter contre les pratiques des chercheurs, mais plutôt de simplifier les démarches dans un contexte de reconfiguration de la communication scientifique, portée par le modèle de l’open.

Quelles métriques en régime open ?

Au cours de la table ronde « Inventaire des métriques : mesure d’audience ou évaluation ? », Yann Mahé, directeur général de la plateforme MyScienceWork, a expliqué que l’évaluation de la qualité de la recherche repose sur des concepts abstraits très compliqués à matérialiser, un équilibre entre les indicateurs à disposition et une évaluation de la qualité. Y parvenir complètement est, selon lui, une utopie. Depuis des années, il est dit qu’il y a trop de publications scientifiques et qu’il faut en faire évoluer les méthodes de publication. Or, les chercheurs sont évalués sur le nombre de leurs travaux et publications, ce qui a un effet néfaste sur le fonctionnement même de l’évaluation. Du fait de cette abondance, le peer review connaît une difficulté grandissante à trouver des relecteurs et l’on voit une augmentation des fraudes, conséquence de cette course à la publication. Une étude de 2005 montre que sur 2 000 chercheurs, 35 % reconnaissent une pratique non déontologique du fait, par exemple, de la pression vis-à-vis de la source de financement. La manière d'évaluer se basant sur le nombre de publications montre donc ses limites.

Il y a aujourd’hui de nouveaux usages à prendre en compte dans l’évaluation comme la diffusion via Twitter, ResearchGate, Mendeley, etc., qui change la manière dont les publications vont être valorisées et diffusées à travers le monde (diffusion vers la société civile et non plus seulement vers la communauté scientifique). À prendre en compte également, l’utilisation de plateformes pirates comme Library Genesis ou Sci-Hub où toute une partie de la mesure d’audience est mise de côté. Se pose également la question de la manière dont la science ouverte, et les prépublications, sont prises en compte dans l’évaluation. Il faut maintenant trouver comment intégrer tout cela dans l’évaluation de la recherche.

Une prise de conscience s’opère mondialement, comme le montrent par exemple le Manifeste de Leiden ou la Déclaration de San Francisco sur l’évaluation de la recherche qui affirme : « Il est urgent d’améliorer les méthodes d’évaluation des résultats de la recherche scientifique par les agences de financement, les établissements d’enseignement et de recherche. »

Yann Mahé a proposé quelques pistes de réflexion concernant les métriques en mentionnant les indicateurs de nouveaux usages (pour mesurer la dissémination sur les réseaux sociaux) comme Altmetric et PlumX, la principale critique envers ces indicateurs étant cependant leur manque de transparence. Il y a également les indicateurs de plateforme (pour mesurer l’audience des plateformes) comme ResearchGate qui lance un score basé non seulement sur la visibilité mais aussi sur l’interaction autour de la publication, la question de la transparence est cependant à nouveau soulevée.

Pour mesurer la science ouverte, il y a par exemple les Open Science Badges du Center for Open Science, une tentative de mettre en place des indicateurs pour évaluer si le chercheur a mis à disposition ses données, si elles sont facilement trouvables, etc. On trouve également un badge pour l’Open Material (tout ce qui est développé autour de l’article comme les méthodologies de recherche).

La question de la mesure des résultats négatifs se pose également : les prendre en compte permettrait de faire avancer la recherche. Il y a également la valorisation de la relecture qui n’est actuellement pas prise en compte par les pairs dans l’évaluation alors qu’elle pourrait permettre de valoriser le chercheur qui effectue des relectures. L’évaluation du contenu des articles est également sujette à réflexion : dans quel contexte les citations sont-elles mentionnées ? Il faudrait encourager la mise en contexte des citations : trouver les citations importantes liées ou non à l’auteur, identifier un ensemble de mots-clés proches de la citation, classer les citations par sentiment (positif ou négatif).

En conclusion, Yann Mahé a expliqué qu’il n’y a probablement pas de solution miracle. Les choses avancent, peut-être pas assez rapidement, mais il faut continuer à déterminer des indicateurs permettant d’évaluer la recherche de la façon la plus qualitative possible.

Dominique Lechaudel, ingénieur d’études à l’INIST-CNRS, a posé, quant à lui, deux questions : quelles données d’usage en régime ouvert ? Et pourquoi ne pas utiliser les outils disponibles dans le cadre des ressources payantes pour surveiller l’utilisation des données mises en accès libre ?

Les données d’usage sont globalement toutes les données qu’on laisse sur Internet et qui sont collectées via des balises intégrées aux pages consultées ou via les traces de passage (collectées par le serveur web d’un éditeur/fournisseur ou sur un serveur mandataire intermédiaire proxy).

Les sources principales sur les usagers sont les rapports d’usage fournis par les éditeurs (comme Counter 5, dans le meilleur des cas), les métriques dites « Web » (via les extensions de navigateurs comme Lean Library, Click & Read), et les données collectées localement par les établissements (proxy de type ezPAARSE qui montre en direct l’activité bibliographique des chercheurs).

Il y a eu une proposition d’une suite logicielle intégrée pour les données d’usage des ressources (Read Metrics). Des évolutions techniques sont en cours : le matériau de base est le fichier log, or les proxy peuvent poser problème (il faut les maintenir, il y a des réglages à faire avec les cookies). De plus, la transition vers l’open access montre que l’authentification est devenue inutile. Des évolutions politiques sont également à prévoir avec la question du traçage des usages avec l’appel « Stop Tracking Science » ou l’initiative Forcell : « Les chercheurs ont le droit d’accéder librement et de façon ouverte aux métriques et autres métadonnées qui sont essentielles pour interpréter l’impact et le contexte des travaux universitaires. » Des révisions du Data Act européen sont également remises en question par la Bibliothèque nationale du Luxembourg et le consortium Couperin.

En conclusion, l’open access concernant un maximum de données y compris les données d’usage, ces dernières ne doivent pas résider uniquement chez les éditeurs et n’être exploitées que par eux. L’ouverture doit se faire sur les métadonnées au même titre que sur les contenus. L’usage d’outils open source peut favoriser ce mouvement en normalisant et en décentralisant leur accès.

Promouvoir la science ouverte et mener des actions de bibliométrie

Les bibliothèques s’occupent d’indicateurs depuis 1976. Pour les bibliothèques universitaires, le paradoxe aujourd’hui est d’être entre science ouverte et évaluation ainsi qu’entre science ouverte et mesure d’audience, a rappelé, lors de son intervention, Jérôme Poumeyrol, responsable du service Soutien à la recherche à la Direction de la documentation de l’université de Bordeaux. La feuille de route stratégique sur la science ouverte et en parallèle l’acquisition d’outils (Clarivate, Elsevier) permettent de faire des classements et d'évaluer l’audience. La création d’indicateurs sur l’open science et la mise en avant des impacts sur l’évaluation de la recherche crée un paradoxe sur lequel on peut jouer tout en répondant aux besoins de la gouvernance de l’université sur l’impact de la recherche.

L’université de Bordeaux mène une politique volontariste en matière d’open science à laquelle elle consacre environ 50 000 euros par an, alors que le coût de la documentation numérique est de 2,5 millions d’euros. Il y a donc une nécessité de calculer l’impact et l’efficience des politiques, d’autant plus que les politiques d’APC ne cessent d’augmenter. Il faut donc intégrer l’enjeu de l’audience et de l’évaluation dans les outils de publication et de diffusion en accès ouvert.

Oskar est l’archive ouverte institutionnelle en open source de l’université de Bordeaux, utilisable en interne pour du pilotage et de l’évaluation. Une autre plateforme de diffusion de revues en open access est Open U Journals qui suit un modèle diamant avec une intégration de métriques alternatives. Le travail d’analyses bibliométriques couvre des activités très larges, une bibliométrie évaluative et prospective sur les secteurs émergents.

Les pratiques des chercheurs évoluent. On passe du « publish or perish » au « promote or perish » : il faut publier dans une revue adéquate, déposer l’article, le présenter dans un blog, partager les données de l’articles, le signaler sur les réseaux sociaux, etc. Pour aller plus loin, Jérôme Poumeyrol recommande la lecture du numéro 103 sur la bibliométrie de la revue Ar(abes)ques.

Pour une bibliothèque universitaire, suivant les missions confiées, intervenir dans le domaine de la métrique peut se traduire par divers projets et activités. Mais être « open » en métrique, c’est faire avancer la nécessaire ouverture de l’évaluation et la construction des indicateurs dans ses méthodes et résultats, mais aussi faire avancer l’évaluation de ses pratiques.

Quelles réutilisations des données ouvertes ?

Les intervenants 1

X

Sébastien Oliveau, directeur de Progedo, Valentyna Dymytrova, maître de conférences à l’université Lyon 3, Violaine Rebouillat, attachée temporaire d'enseignement et de recherche en sciences de l'information et de la communication à l’université Lyon 1 et Frédéric Cantat, pilote de la transformation à l’Institut national de l'information géographique et forestière et animateur du groupe Open Data du Groupement français de l’industrie de l’information (GFII).

de la table ronde « Quelles réutilisations des données ouvertes ? » ont commencé par mettre en regard la notion de données et la notion de réutilisation. Les données sont des objets très complexes qui ne présentent pas de traces des conditions de leur production. Dès lors, comment déterminer ce qu’est une donnée ? Une donnée est la représentation d’une information sous une forme conventionnelle destinée à faciliter son traitement. Pour bien comprendre cette notion, il est nécessaire de faire la différence entre le matériau et la donnée.

Puis, la notion de « réutilisation » et la réalité qu’elle recouvre pour un chercheur ont été abordées. Que signifie réellement réutiliser des données de recherche ? Si on ouvre un dictionnaire, le terme « réutiliser » signifie « utiliser une nouvelle fois ». Dans le contexte scientifique, utiliser des données, que l’on a soi-même collectées dans un but précis, à plusieurs reprises n’est pas considéré comme une réutilisation. Il est ainsi moins aisé qu’on le pense de distinguer les processus d’utilisation et de réutilisation.

Les intervenants ont ensuite évoqué le cadre légal qui entoure la réutilisation des données. C’est un point épineux car il consiste à concilier des objectifs et des principes qui peuvent paraître opposés, à savoir la possibilité d’ouvrir les données tout en les protégeant.

La réutilisation de données répond à plusieurs objectifs : un objectif politique autour de la transparence démocratique ; un objectif économique autour de la création de valeur (data is the new gold) ; un objectif d’efficacité administrative dans la perspective d’une simplification des échanges administratifs.

Concernant le cadre légal en France, la loi pour une République numérique d’octobre 2016 est insuffisante. Quand on réutilise des données, on a généralement besoin d’avoir une vue globale sur le sujet et les seules données publiques ne suffisent pas pour avoir ces connaissances. Les données sont bien plus ouvertes pour les chercheurs que pour les citoyens.

Les fournisseurs des plateformes open data jouent un rôle important dans la configuration de l’environnement technique. Il faudrait aussi citer les médiateurs de données qui organisent des concours, animent la communauté des utilisateurs.

Le constat d’une pluralité des écosystèmes a été posé : chaque dispositif constitue son propre écosystème qui peut varier selon le domaine (public ou privé), la portée géographique mais aussi le niveau disciplinaire (généraliste ou plus spécialisé). Ces dispositifs varient aussi en fonction du stade du cycle de vie dans lequel ils sont impliqués. Cette pluralité est le reflet d’un écosystème émergeant avec des acteurs qui tentent de se positionner dans le domaine de la science ouverte. On retrouve les mêmes défis que ceux de l’open data : favoriser la visibilité, la protection et la compréhension de ces données. Une normalisation des principes d’ouverture pourrait faire converger les différents dispositifs de réutilisation de données.

Il y a une réelle nécessité à prendre en compte le profil des acteurs concernés par cette question, à savoir les producteurs de données (chercheurs, ingénieurs, techniciens) et les intermédiaires, ainsi que les différentes finalités de la réutilisation, comme la recherche ou l’enseignement. Les usages sont plus ou moins développés en fonction des disciplines. Rappelons qu’une donnée non documentée est une donnée inutile.

Enfin, les intervenants ont fait part de leur réflexion sur la question du modèle économique et ont souligné l’importance de faire en sorte que l’open data ne conduise pas au no data. Ils ont aussi évoqué la nécessité que les données soient d’abord diffusées sous forme d’Application Programming Interface (API, en français interface de protocole d’application), ce qui implique des infrastructures capables de tenir la charge. Car diffuser des données demande des moyens : une fois produites, il s’agit d’en assurer la cohérence et de les mettre à disposition.

Un cadre européen sur l’ouverture des données en pleine mutation

La conférence de clôture de la Biennale du numérique donnée par Antoine Petel, consultant au GFII, a porté sur les différents textes européens concernant l’ouverture des données et a fourni des clés de lecture pour comprendre la politique européenne dans ce domaine, actuellement en pleine mutation.

L’Union européenne compte trois institutions principales : la Commission européenne, le Conseil des États-membres et le Parlement européen. Fin 2019, la Commission européenne nouvellement élue a fait du numérique une thématique forte, au point d’être sa seconde priorité après le Green Deal. La crise du Covid-19 a renforcé le besoin d’agir vite et plus fort au niveau européen.

Le but de la politique européenne est de développer et de maîtriser l’IA, technologie stratégique dont dépend la place de l’Europe dans l’ordre mondial : développer l’IA permettra à l’Europe de ne pas être dépendante des technologies chinoises ou américaines.

L’Europe doit concilier volonté d’exploiter les données et respect des règles européennes sur les données personnelles, les droits de propriété intellectuelle. Elle doit chercher un équilibre difficile à trouver entre protection et exploitation.

La stratégie européenne pour les données a été publiée le 19 février 2020 et dresse plusieurs constats :

  • un manque de disponibilité de données, qu’elles soient du secteur public ou du secteur privé ;
  • des déséquilibres au niveau du marché européen : certains acteurs ont beaucoup de données, d’autres en ont peu ;
  • un problème de gouvernance des données, en l’absence d’un mécanisme pour gérer ces données.

Antoine Petel a ensuite présenté plus en détail la stratégie européenne en proposant deux approches : une approche horizontale et une approche sectorielle.

Du point de vue horizontal, la Commission européenne souhaite créer un marché unique des données selon les principes suivants : toutes les données sont concernées, il faut créer une gouvernance pour la gestion de ces données et trouver un système de rétribution.

Du point de vue sectoriel, la Commission européenne a fait le constat que tous les secteurs n’ont pas la même maturité en termes d’échanges des données. Il serait donc inutile de vouloir créer un même cadre horizontal pour l’ensemble des secteurs. Il faut au contraire diviser le cadre juridique en fonction des différents secteurs pour prendre en compte leurs spécificités respectives.

Par ailleurs, les demandes d’espaces communs de données, notamment sur le patrimoine culturel, se multiplient. Le Parlement européen a déjà manifesté sa volonté de créer un espace commun de données pour les médias. Dans les années à venir, de nombreux espaces communs de données, associant une plateforme de partage, un cadre de gouvernance adapté au secteur et différents droits d’accès, sont appelés à se créer. Il s’agira ensuite d’articuler ces espaces communs.

Pour présenter les initiatives de la politique européenne en matière d’ouverture des données, Antoine Petel a commencé par distinguer les données du secteur public et celles du secteur privé. Il a aussi tenu à rappeler la différence entre les directives (qui sont votées par les législateurs européens avant d’être adaptées par chacun des États membres dans le droit national) et les règlements européens (qui s’appliquent sans adaptation nationale).

Concernant les données du secteur public, les deux textes principaux sont :

  • la directive dite Open Data, déjà applicable et qui concerne l’administration au sens large ;
  • le Data Governance Act, qui sera bientôt finalisé et qui concerne les données soumises à des droits.

La mise en œuvre du Data Governance Act implique de grands investissements au niveau des infrastructures numériques. Antoine Petel a mentionné le cas particulier des données culturelles, comme celles des bibliothèques par exemple, et des données de la recherche. Quelle ouverture faut-il envisager pour ces données ? Les données culturelles sont peu prises en compte dans ces textes car ce sont des données soumises aux droits de la propriété intellectuelle. Par contre, le droit français, tel qu’il transpose la directive Open Data, englobe toutes les données culturelles. Pour les données de la recherche, la directive Open data est très proche de la directive pour une République numérique, les régimes sont donc similaires au niveau national et au niveau européen.

Pour les données du secteur privé, le texte principal est le Data Act qui devrait être présenté par la Commission européenne fin 2022 et qui comprend des thématiques variées comme le cloud ou l’Internet des objets. Pour ce qui a trait plus spécifiquement aux données, les points les plus importants concernent les cadres de partage B2G et B2B :

  • pour le cadre de partage B2G, le principe est le suivant : permettre à des acteurs publics, pour des motifs d’intérêt général, de piocher des données chez des acteurs privés. La difficulté dans ce cas, que ce soit au niveau national ou européen, est de définir quel motif d’intérêt général justifie cet accès. La problématique consiste aussi à savoir comment le détenteur du secteur privé est rémunéré, ou non, pour l’accès à ces données. Faut-il conserver un principe de gratuité ou bien penser à un tarif préférentiel ? Faut-il envisager une tarification alignée sur le prix du marché ? ;
  • pour le cadre de partage B2B, la Commission européenne n’intervient pas de façon aussi forte. Elle souhaite surtout favoriser l’échange de données volontaire entre les acteurs privés, et réglementer le déséquilibre du marché, notamment dans les relations contractuelles.

La Commission européenne souhaite adapter la directive Base de données pour mieux la rendre applicable dans l’économie des données en France. Cette directive ne protège pas les institutions concernant la création de données mais seulement les investissements pour l’obtention de données. C’est un point sensible.

Il existe trois principales limites à l’ouverture des données :

  • la protection des données à caractère personnel. Le Règlement général sur la protection des données (RGPD) est un facteur de contraintes pour les entreprises et les acteurs publics. Il y a ainsi un débat sur une possible adaptation du RGPD pour faciliter l’exploitation des données et notamment pour développer l’IA ;
  • la protection des données confidentielles et celles soumises aux droits de la propriété intellectuelle. Il s’agit de favoriser l’exploitation des données tout en assurant la rémunération des auteurs-créateurs ;
  • la confiance dans le partage des données. Le Data Governance Act y répond et la Commission européenne a proposé de créer des intermédiaires qui permettront de créer la relation commerciale entre le détenteur de données (l’entreprise, l’administration) et l’exploitant.

Toute cette législation s’inscrit dans une dynamique d’évolution et d’extension du cadre de l’ouverture des données. Ce cadre est très évolutif et a vocation à s’étendre à mesure que le numérique se répandra dans la société. Cela pose la question de la compréhension et de la lisibilité par les acteurs concernés, de ce cadre juridique très changeant. Il faut également faire une distinction entre les règles européennes et nationales : la politique européenne est axée sur la vocation économique de la donnée tandis que le droit français tend plutôt vers l’open data pour des finalités démocratiques.