Visibilité des archives ouvertes

Bibliothèque Marie Curie (INSA de Lyon), Villeurbanne – 20 novembre 2018

Marlene Delhaye

C’est aux questions « Où les archives ouvertes doivent-elles/peuvent-elles être visibles ? » et « Est-ce si facile d’être visible ? » que se sont attaché à répondre les intervenants, lors de cette journée d’étude à la bibliothèque de l’INSA de Lyon organisée par le groupe de travail « Open access » du consortium Couperin.

Au COAR des recommandations

William Nixon (représentant de l’association COAR – Coalition for Open Access Repositories), a introduit la journée par un rappel de l’objectif de COAR d’arriver à mettre en place un réseau mondial d’archives ouvertes interconnectées, centrées sur les ressources (et pas sur la plateforme), interopérables (vraiment), avec une couche de services à valeur ajoutée. Dans la première phase d’implémentation des recommandations du groupe de travail sur les archives de nouvelle génération, l’accent est mis sur les mécanismes d’aide au signalement et de découverte des contenus par les moteurs : ResourceSync pour la mise à jour des données et Signposting pour leur signalement aux robots du web. Ces recommandations ont commencé à être appliquées par différentes plateformes, un réseau d’échanges se met en place au niveau international. Il sera possible de voir ce qui s’y passe en participant à la prochaine conférence de COAR, accueillie par le Centre pour la communication scientifique directe (CCSD) à Lyon du 21 au 23 mai 2019.

Trouver

Les moteurs de recherche étant un point d’entrée majeur sur les contenus, ce sont ensuite trois moteurs spécialisés qui ont été présentés. Ils ont en commun un processus de repérage des sources (archives ouvertes thématiques et institutionnelles, archives de données, éditeurs en open access, bases de revues électroniques) à moissonner (majoritairement via le protocole OAI-PMH), de normalisation puis d’indexation.

Après une présentation détaillée de BASE (Bielefeld Academic Search Engine) et d’OpenAire, Friedrich Summann (bibliothèque de l’université de Bielefeld, Allemagne) s’est attaché à les comparer en matière d’usages, d’infrastructure technique, de contenus, d’interopérabilité. Il en ressort que, malgré les différences de statut (initiative locale pour BASE, fondation européenne pour OpenAire), de périmètre (tous azimuts vs projets financés par l’Union Européenne), de taille (petite structure flexible vs infrastructure de référence européenne) et d’organisation (gestion par un service dans une bibliothèque universitaire vs réseau de bureaux nationaux, les NOADs pour « National Open Access Desks »), les deux projets travaillent en complémentarité, collaborent dans de nombreux groupes de travail et projets communs et échangent également bonnes pratiques et expertise technique.

Nancy Pontika a ensuite détaillé le fonctionnement de CORE, un projet anglais financé par le JISC et l’Open University. Son originalité est de proposer des services s’adressant aux utilisateurs finaux mais aussi aux machines, pour faciliter le développement de services pour, par exemple, la détection du plagiat, l’analyse des tendances de recherche, la visualisation de données scientifiques, etc. Un tableau de bord pour la gestion des données et un outil de recommandation, pour élargir les résultats de recherche à des suggestions pertinentes, sont aussi proposés aux administrateurs d’archives ouvertes.

Jonathan Joly (Ebsco France) a présenté le point de vue des fournisseurs d’outils de découverte, en l’occurrence EDS (Ebsco Discovery Service). Il a indiqué que toute intégration se faisait dans un cadre contractuel, par conventionnement avec les détenteurs des droits, et ce, même pour les archives ouvertes. Les intégrations se font soit par repérage du fournisseur, qui ajoute les ressources à son index central, soit par demande d’ajout de ressources spécifiques de la part des clients. Leur système dédoublonne les résultats qui pourraient être communs à plusieurs sources et permet de filtrer les résultats en open access grâce à des facettes. Pour les ouvrages, l’élément pivot est l’ISBN : s’il n’est pas renseigné dans les ressources moissonnées, il ne sera pas repéré par EDS. Il est donc nécessaire de tester, puis de faire une sélection dans les ressources en open access à activer.

Rendre visible

Bénédicte Kuntziger (CCSD) a abordé la question du signalement sous l’angle de l’archive ouverte HAL. La visibilité passe à la fois par un référencement dans les annuaires et registres spécialisés tels que ROAR et OpenDOAR (préalable à une indexation par OpenAire) et par l’exposition des données pour les agrégateurs : HAL est ainsi moissonné par BASE, OpenAIre, CORE… Par ailleurs, HAL « pousse » certains contenus dans des archives thématiques, ce qui leur confère une visibilité supplémentaire ; des accords avec PubMed et Research Papers in Economics (REPEC) permettent, en un seul dépôt sur HAL, de faire apparaître les contenus sur ces archives, et donc de toucher des communautés plus larges. À l’inverse, des fonctions comme « LinkOut » sur PubMed et PubMedCentral permettent de renvoyer le lecteur vers le texte intégral sur HAL depuis une notice bibliographique. Le CCSD a également travaillé sur l’optimisation des métadonnées de HAL – pour « aider » Google et les autres moteurs de recherche à repérer ses contenus (« search engine optimization ») –, sur l’ajout de balises COINs – pour que ses données soient récupérables « proprement » dans les logiciels de gestion des références bibliographiques comme Zotero –, sur l’intégration d’une « sitemap » pour chaque portail… Dans la mesure où la moitié des connexions se font depuis les moteurs de recherche (majoritairement Google, mais pas seulement), et de plus en plus via les réseaux sociaux, ce travail d’optimisation est indispensable et nécessite un suivi régulier de l’évolution des technologies employées.

Petit nouveau (2016) dans le paysage des moteurs et autres agrégateurs, le service de profilage « Recherche-Innovation » ScanR, développé par le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation (MESRI), s’appuie sur le corpus de données ouvertes mis à disposition par les services de l’État. Emmanuel Weisenburger (département des outils d’aide à la décision du ministère) a rappelé les objectifs de valorisation, d’aide au pilotage et de mise en relation des acteurs de la recherche de l’outil. Pour les publications, ScanR s’appuie exclusivement sur HAL et le Répertoire national des structures de recherche (RNSR) pour les affiliations, ce qui pose certaines limites liées à la qualité des référentiels de HAL et à la couverture du RNSR. Il faudrait pouvoir trouver des sources complémentaires avec des métadonnées riches et une licence d’utilisation ouverte, ce qui n’est pas gagné… Une nouvelle version de l’outil est annoncée pour le premier semestre 2019, enrichie avec des données provenant d’Unpaywall et d’IdRef, ORCID, Grid, Wikidata.

Au final, cette journée a permis de constater que toute entreprise visant à améliorer la visibilité du contenu d’un réservoir ou à agréger des sources différentes se heurte, à un moment ou à un autre, aux questions de mapping et de dédoublonnage. La qualité des données est fondamentale pour le fonctionnement du système, et l’interopérabilité, qui semble être par essence au cœur des archives ouvertes, ne va techniquement pas de soi. Des journées comme celle-ci montrent la nécessité d’associer tous les acteurs pour leur permettre d’échanger sur ces questions de visibilité, tant du côté des producteurs de contenus que de celui des outils y donnant accès.

Les présentations des intervenants sont disponibles à cette adresse : https://visiarchives.sciencesconf.org/resource/page/id/2