Carrefour de l’IST

Les services aux chercheurs : innovations, évolutions, nouvelles interactions – Nancy, 25 et 26 novembre 2014

Aleth Tisseau des Escotais

Après une introduction par Raymond Bérard, la matinée de la première journée a été consacrée à une présentation du projet « Ingénierie des connaissances » de l’Inist et à plusieurs interventions sur les réseaux sociaux de la recherche.

Le projet « Ingénierie des connaissances » de l’Inist

Ce projet a été présenté par Raymond Bérard, directeur de l’Inist-CNRS. L’Inist, unité propre de service du CNRS, a la volonté de recentrer son action au profit de la recherche publique. Les bases de données bibliographiques Francis et Pascal ne seront plus alimentées à partir du 31 décembre 2014, tandis que RefDoc, service de livraison de documents de recherche, verra ses missions redéfinies.

Le projet « Ingénierie des connaissances » est fondé sur des partenariats et un ancrage territorial fort sur le pôle de l’IST lorrain. Il s’articule en 14 activités, comme exposé précédemment lors des journées de Meudon.

Chercheur 2.0 : retour d’expérience sur l’utilisation
d’Academia.edu et ResearchGate

Christophe Benech, de la Maison de l’Orient et de la Méditerranée, nous a présenté de façon très concrète les réseaux sociaux de chercheurs qu’il est amené à utiliser, avec leurs atouts et leurs défauts, ainsi que leurs évolutions récentes.

Academia : au niveau de l’identité du chercheur, il y a possibilité de créer des domaines de recherche sans contrôle (exemple du domaine « classical archaeology », orthographié de quatre façons différentes) ; les statistiques sont fondées sur la fréquentation ; les métadonnées des publications sont basiques. Sur le fil d’actualités, on trouve les publications des personnes que l’on suit et des personnes que ces dernières suivent ; les questions et les annonces ont été supprimées. Récemment, a été rendu possible le dépôt d’articles avec invitation de certains chercheurs à relire ces articles sur un temps limité.

ResearchGate : au niveau de l’identité du chercheur, les domaines de recherche sont prédéfinis, de même que les compétences personnelles, qui doivent être validées par les collègues ; le score est fondé sur le nombre d’articles déposés, le nombre de followers et l’activité sur le réseau ; s’y ajoute un Impact point ; les métadonnées des publications sont plus précises, des DOI peuvent être générés. Dans ses actualités, le chercheur peut différencier les diverses catégories (publications, questions). La catégorie projects a été supprimée.

Réseaux sociaux scientifiques et Open Access :
perception des chercheurs français

Cette étude Couperin.org 2014 (conduite avec Christine Okret-Manville et Stéphanie Vignier) présentée par Monique Joly (INSA Lyon) s’est tenue en mai-juin 2014 et comportait un questionnaire de 28 questions et quelques entretiens directs : 1 698 réponses complètes ont été collectées avec, parmi les répondants, une légère surreprésentation des femmes et des sciences de la vie et une nette surreprésentation des moins de 40 ans.

Quelques chiffres à retenir : 71 % des chercheurs ayant répondu sont utilisateurs des réseaux sociaux grand public, 60 % connaissent les réseaux sociaux de la recherche, 42 % les utilisent. Ceux qui ne s’en servent pas leur reprochent leur inutilité, leur caractère superficiel, ils n’ont pas de temps à y consacrer, manquent d’information, trouvent les services inadéquats, ou encore déplorent l’absence de maîtrise des données. 70 % connaissent le libre accès, 29 % déposent en libre accès, 11 % publient dans des revues ouvertes, 5 % acquittent des APCs. Pourquoi certains ne déposent-ils pas en libre accès ? Les arguments avancés sont la méconnaissance de ces possibilités, le manque de temps, les questions de droits, la stratégie de carrière, l’absence d’ergonomie des plateformes, ou le souhait de lignes politiques claires. 40 % des chercheurs n’utilisent que leur disque dur pour stocker les données de leurs recherches. À noter, des différences persistent d’une discipline à l’autre.

Nous dirigeons-nous vers des outils combinant réseaux sociaux de la recherche et Open Access ?

Twitter, la communication scientifique et la recherche

Frédéric Clavert, chercheur en histoire contemporaine, s’est inscrit sur Twitter, sous le pseudonyme @­inactinique en juin 2008, mais il n’y retourne vraiment qu’en juin 2009, pour suivre la conférence Digital Humanities à Washington.

Pour lui, Twitter a d’abord été un moyen de communiquer, puis, petit à petit, il s’est transformé en instrument de recherche. Par Twitter, il est possible de s’informer – c’est un bon complément des carnets de recherche, de faire de la veille et de débattre. Il est également possible, à condition de choisir les bons outils, d’y collecter des données, qu’il reste ensuite à analyser. C’est la stratégie que Frédéric Clavert a choisie pour étudier les commémorations de la Première Guerre mondiale. Il reste conscient, néanmoins, des problèmes de propriété intellectuelle et de confidentialité que cet instrument de travail pose.

En fin de compte, les possibilités offertes sont nombreuses, cela nécessite de prendre du temps, mais le gain de temps peut se révéler bien supérieur, à condition de connaître finement les rouages de fonctionnement et de prendre de la distance par rapport à son usage de ce réseau social.

L’après-midi était dédié à des ateliers, six en tout, répartis sur deux plages horaires.

Dans un premier temps, Annie Coret et Alain Zasadzinski présentaient « Conditor : un projet de référentiel bibliographique de la production scientifique française », pendant que Stéphane Pouyllau parlait du « démonstrateur ISIS, un lien entre ISIDORE (France) et NARCIS (Pays-Bas) : enjeux, gains et limites du web sémantique appliqué aux dispositifs d’accès à l’IST » et que Jean-Marie Pierrel et Claire François développaient les services à valeur ajoutée du projet ISTEX.

ISTEX, services à valeur ajoutée

Ce projet présenté par Jean-Marie Pierrel (ATILF) et Claire François (Inist-CNRS) comprend des services de base d’exploitation du plein texte : recherche de termes et de leurs variantes (LINA de Nantes, TermSuite), détection des entités nommées (Unitex, logiciel libre d’analyse lexicale automatique, et CasSys, définition de cascades de graphes) et balisage des principaux champs des références bibliographiques (trois outils : Grobid, Bilbo et Cermine).

Il inclut aussi des services à valeur ajoutée : classification automatique (projet Cillex), construction de cartes diachroniques pour caractériser l’évolution des recherches et des connaissances dans le temps (projet ISTEX-R, qui créera une dynamique locale de recherche et développement autour de la plateforme ISTEX) et bibliothèque open source de composants XML d’exploitation du corpus ISTEX (projet LorExplor).

Il conviendra, pour assurer la réussite de ce projet, de prévoir son intégration aux services numériques des établissements, à leur ENT et à leur Discovery Tool.

Dans un second temps, Sabine Barreaux, Nourdine Combo, Françoise Drouard, Isabelle Gomez et Dominique Vachez conduisaient un atelier intitulé « Représentation et usage de terminologies et de vocabulaires d’indexation », pendant que Laurent Capelli et Laurence Farhi nous parlaient d’« Identifiant et référentiel » et que Patrice Lopez et Patrice Bellot présentaient « L’extraction automatique d’information pour les bibliothèques numériques – des services aux usages et vice versa ».

L’extraction automatique d’information pour les bibliothèques numériques – des services aux usages et vice versa

L’extraction d’informations, présentée par Patrice Lopez (Inria) et Patrice Bellot (AMU-LSIS OpenEdition), a pour objectifs l’annotation de références bibliographiques, la classification automatique permettant d’identifier des comptes rendus de lecture et l’analyse des sentiments.

Bilbo structure et annote les références bibliographiques et les relie à un DOI. Echo identifie automatiquement les comptes rendus et fait de l’analyse d’opinions. Cooker permet de faire des recommandations. Grobid (generation of bibliographic data) est un outil d’analyse et d’extraction d’informations bibliographiques et de contenu pour les publications scientifiques et techniques, à partir des métadonnées d’en-tête, des références bibliographiques et du contenu structuré.

La matinée de la seconde journée a été consacrée aux services de publications et aux services de gestion et diffusion des données.

Episciences.org, une nouvelle dimension pour les archives ouvertes. – Soutenir l’émergence d’épi-journaux, le retour d’expérience du Service d’édition scientifique d’Inria

Episciences.org, présentée par Christine Berthaud (CCSD-CNRS), a pour but de fournir une plateforme technique d’examen par les pairs et de permettre l’émergence d’épi-revues. Il existe déjà deux communautés dans le domaine des épi-revues, épisciences-maths et épisciences IAM.

Le projet d’Inria, présenté par Gaëlle Riverieux (Inria), dépend d’un délégué à l’information et à l’édition scientifiques (IES) et d’un méta-comité IAM, indépendant. On trouve désormais trois épi-revues : Journal of Data Mining & Digital Humanities, Discrete Mathematics & Theoretical Computer Science, Journal d’Interaction Personne-Système. Les épi-journaux ont toute leur place : ils sont une réponse à l’importance des conférences dans le domaine des mathématiques appliquées, au besoin de reproductibilité en informatique et, plus généralement, aux exigences de rapidité dans la communication. Il y a une vraie attente concernant un nouveau modèle de publication (Nicolas Holzschuch, Open Archives and the Invisible College : driving forces towards a new publication model, Kurt Mehlhorn and Moshe Y. Vardi, Dagstuhl Perspectives Workshop : Publication Culture in Computing Research, novembre 2012, Dagstuhl, Germany).

Kairos : le moment ou jamais pour renouveler, par l’édition scientifique, les relations entre bibliothèque et recherche

Comment l’édition scientifique peut-elle refonder le paysage universitaire et les relations entre bibliothèque et recherche ? Il a fallu deux ans pour mettre en place, sans budget propre, le projet Kairos qui a été présenté par Olivier Legendre (BCU de Clermont-Ferrand) et Dana Martin (université Blaise Pascal de Clermont-Ferrand). Deux numéros sont actuellement en préparation, avec une révision par des relecteurs internationaux. Les chercheurs ont fait appel à la BCU en raison de son engagement dans le libre accès. Les principaux enjeux : la question de la légitimité, les problèmes d’organisation et la maîtrise de la plateforme Open Journal System. Hébergé par l’université dans un premier temps, ce projet a vocation à rejoindre revues. org. La création d’un POLEN (pôle éditorial numérique) est même envisagée.

Research data in the Netherlands :
Landscape, Collaboration and « Data People »

Les plans de gestion et de partage des données deviennent obligatoires pour bénéficier de financements, comme on le constate avec les projets européens Riding the Wave, H2020, Science Europe WG, ou RECODE. Les organisations impliquées dans les questions de données de la recherche sont nombreuses et il est nécessaire pour elles de collaborer toujours davantage. Research Data Netherlands (RDNL), présenté par Jeroen Rombouts (université de Delft), est le fruit de la collaboration entre 3TU : Datacentrum, Data Archiving and Networked Services (DANS) et SURFsara.

Les personnes travaillant dans le domaine de l’IST possèdent déjà beaucoup des qualités requises pour gérer les données de la recherche et, pour acquérir celles qu’ils ne posséderaient pas encore, des formations sont désormais disponibles.

Les données de la recherche en astronomie

Le centre de données astronomiques de Strasbourg (CDS), présenté par André Schaaff (Observatoire astronomique de Strasbourg), a été créé en 1972 pour collecter, enrichir et utiliser dans la recherche les données ainsi que pour distribuer les résultats à la communauté internationale. Composé d’environ trente personnes réparties entre astronomes, documentalistes et informaticiens, il a développé plusieurs projets, dont Simbad, base de données d’objets astronomiques, VizieR, collection de données sous forme de catalogues, et Aladin, atlas interactif du ciel avec accès à des bases de données. Ces deux dernières initiatives ont obtenu le Data Seal of Approval en août 2014.

La conservation et la mise à disposition des données de la recherche rendent possible leur réutilisation pour des objectifs différents des objectifs initiaux, permettant ainsi des retours sur investissement décuplés. La recherche en astronomie constitue une petite communauté qui a l’habitude de travailler dans des réseaux de collaboration internationaux. L’International Virtual Observatory Alliance (IVOA) coordonne les moyens à mettre en œuvre en vue de l’interopérabilité des données.

L’après-midi a été ponctué par trois interventions.

Protection et exploitation des données de recherche

Le droit d’auteur, dans le cas d’une œuvre de l’esprit, naît du seul fait de la création, sans qu’il y ait besoin de dépôt. Il n’est pas limité sur l’objet de la protection. L’œuvre doit être originale. Bruno Carbonnier (cabinet Christian Le Stanc) pose la question de savoir à partir de quand les données de la recherche constituent une œuvre. Il faut qu’il y ait une intervention humaine. Si le droit d’auteur ne s’applique pas, il existe toujours le droit sui generis des bases de données

L’exploitation de données protégées par le droit d’auteur nécessite de recourir à un contrat. Les droits ne sont pas les mêmes suivant qu’il s’agit d’une œuvre d’un auteur unique, d’une œuvre collective, d’une œuvre composite ou encore d’une œuvre de collaboration. Les œuvres produites par des agents publics dans le cadre de leurs fonctions – enseignants-chercheurs mis à part – font figure d’exception. Le data mining est-il destiné à former une nouvelle exception ? L’auteur peut également accorder des droits sur son œuvre de manière gratuite, comme dans le cas des licences Creative Commons.

Quels référentiels pour l’ESR ?

Les référentiels des systèmes d’information, abordés par Anne Sigogneau (CNRS), permettent la gestion de la qualité des données et visent l’interopérabilité des systèmes locaux.

On distingue les référentiels des structures de recherche (qui se fondent sur le répertoire national des structures de recherche, le RNSR), les référentiels des personnels des laboratoires (fondés sur Labintel pour le CNRS, sur des bases d’identification des auteurs de publications scientifiques comme Orcid, ResearcherID, ou IdHAL pour les autres) et les référentiels des programmes, projets et établissements de financement, en cours d’élaboration.

Vers une IST partagée

Laurence El Khouri a présenté plusieurs éléments qui contribuent à la construction d’une IST partagée, parmi lesquels : BSN, la nomination d’un directeur de l’IST ou la mutualisation de l’IST au sein de sites ou Comues, la création de la fonction de Chief Data Officer France en septembre 2014, des colloques partagés, la future loi sur les plateformes numériques prévue pour mai 2015.

Dans la foulée, Laurence El Khouri a conclu ces deux journées d’études.