entête
entête

Istex : un gisement documentaire producteur de connaissances

De l’idée de licences nationales à la construction d’un projet

Grégory Colcanap

L’idée d’acquérir des ressources documentaires électroniques sous forme de licences nationales a commencé à circuler à partir de 2006, introduite en France par Iris Reibel-Bieber  2 qui entretenait des relations régulières avec les bibliothèques universitaires allemandes et était informée du programme allemand de licences nationales soutenu par la DFG  3. Elle pensait que cette approche devait sérieusement être étudiée pour la France.

À partir de 2008, le nouveau bureau professionnel de Couperin a inscrit comme objectif prioritaire de porter politiquement le modèle des licences nationales et a commencé à instruire le dossier afin d’en préciser les modalités, d’en penser le fonctionnement pour la France et d’évaluer le coût d’un tel programme pour le pays. Ces travaux d’instruction donnèrent lieu à plusieurs exposés, notamment lors des réunions des directeurs de BU et de l’IST (information scientifique et technique).

Afin de définir un modèle français de licences nationales, nous avons analysé les expériences d’autres pays, au Brésil, en Russie, en Espagne, en Corée... mais notre principale source d’inspiration fut le modèle allemand, d’une part en raison de son antériorité mais aussi en raison de son caractère massif (110 millions d’euros dépensés de 2004 à 2011) et continu.

La création de l’Istex

Convaincre

L’idée de licence nationale apparaissait, dans le contexte des années 2008 – 2010, comme une idée séduisante mais qui se heurtait à plusieurs écueils. D’une part, le contexte politique avec la loi relative aux libertés et responsabilités des universités : en effet, l’idée de mener une politique d’acquisition au niveau national pouvait sembler peu compatible avec l’autonomie laissée aux établissements, libres de définir leurs besoins propres et les moyens alloués à la documentation pour y répondre. Le second écueil, plus sérieux, résidait dans l’absence de moyens financiers pour mener une politique d’acquisition d’envergure à l’instar de l’exemple allemand.

Mais l’environnement était aussi porteur d’aspects qui se sont révélés positifs comme la réunion sous une seule tutelle de l’ensemble des services documentaires de l’enseignement supérieur et de la recherche (ESR) avec la création de la Mission de l’information scientifique et technique et du réseau documentaire (MISTRD). Le rapprochement entre l’enseignement supérieur et la recherche à l’œuvre dans de nombreux secteurs a permis d’envisager puis de proposer des actions couvrant l’ensemble du champ avec un souci de coordination et d’efficience.

La publication du rapport Salençon  4 en mai 2008 fut un premier levier pour engager une démarche de rationalisation des politiques en place et de construction de nouvelles politiques. En décembre 2009, la publication du rapport Racine  5 marque une nouvelle étape, la seconde recommandation est explicite : « Mettre en œuvre une politique d’acquisition des ressources documentaires électroniques sous forme de licences nationales dans les cas qui s’avéreront les plus appropriés. »

Le soutien de la Conférence des présidents d’université au développement d’un projet documentaire bénéficiant à tous les établissements de l’ESR fut un élément déterminant, qui se traduisit notamment par un soutien au projet Istex par les différents projets Idex déposés.

Instruire

En 2009, le consortium Couperin a procédé à une formalisation précise des objectifs de la licence nationale française. Outre la fourniture de documentation pour une recherche plus performante, on peut dire qu’elle vise quatre grands objectifs :

  • l’égalité territoriale et institutionnelle, en offrant les mêmes ressources à tous les chercheurs, quel que soit leur lieu de travail ou leur institution de rattachement ;
  • la pluridisciplinarité, en développant un programme d’acquisition équilibré couvrant toutes les disciplines ;
  • la complémentarité, avec une articulation avec les abonnements courants des établissements pour les revues, les collections de livres électroniques ou les bases de données ;
  • une économie d’échelle, avec un poids des acheteurs publics renforcé par un achat unique national.
  • Il fallut répondre ensuite à plusieurs questions clés pour définir les contours du programme français :
  • définir le périmètre des ayants droit : au minimum l’enseignement supérieur et la recherche mais avec une volonté d’élargir le périmètre aux établissements publics de santé et à la lecture publique ;
  • définir la nature et le périmètre des ressources à acquérir : définition d’une typologie des ressources, priorité donnée aux acquisitions pérennes et définitives d’ensembles documentaires clos ;
  • définir les droits acquis dans le cadre des licences : propriété des données avec droit d’exploitation ;
  • définir les services attendus et l’articulation des ressources acquises dans un cadre national et celles acquises par les établissements : penser « l’écosystème documentaire » afin que les ressources acquises s’intègrent totalement dans les systèmes d’information documentaire des établissements ;
  • identifier les modes de financement possibles : priorité au financement central, même si des licences nationales par mutualisation de moyens pourraient être envisagées pour certains produits documentaires.

Un courrier fut envoyé aux éditeurs pour expliquer la démarche et les options retenues pour recueillir des devis pour l’achat de ressources en licence nationale (plus de 200 ressources identifiées).

En janvier 2010, le Ministère a mis en place un comité national de pilotage des acquisitions numériques. Ses missions étaient d’organiser une coopération entre universités et organismes en matière d’information scientifique et technique en visant l’efficience et la qualité des services rendus, et d’engager une réflexion devant aboutir à des achats à réaliser en licence nationale. Le comité avait aussi pour mission de se prononcer sur les orientations à donner pour les négociations d’envergure nationale. La MISTRD dégagea par la suite une enveloppe d’impulsion pour permettre l’acquisition de quelques ressources afin d’amorcer le dispositif.

Un comité technique travailla à la sélection des premières ressources à acquérir sur la base des travaux préliminaires de recensement menés par Couperin.

Construire

Tout le travail de conviction et d’élaboration va se concrétiser avec la création d’un cadre d’action : la Bibliothèque scientifique numérique (BSN) et d’un projet emblématique Istex.

L’opportunité donnée par les investissements d’avenir

En 2009, le gouvernement lance un grand programme d’investissements pour l’avenir, géré par le Commissariat général à l’investissement (CGI). Ce programme s’est traduit pour l’enseignement supérieur et la recherche par une série d’appels à projets : les Equipex, les Labex, les Idex, les Idéfi…

En 2010, l’Abes, le CNRS et Couperin, avec le soutien de la MISTRD, s’associent pour construire un projet à déposer dans le cadre compétitif des « investissements d’avenir ». Nous avons saisi l’opportunité du cadre donné par les « initiatives d’excellence » pour déposer un projet. Son caractère atypique résidait dans le périmètre des bénéficiaires : Istex, pour IST d’excellence, avait vocation à desservir toutes les communautés scientifiques et pas un projet en particulier. L’IST se présentait alors comme une infrastructure de recherche profitable à tous, élément d’égalité territoriale et d’équité entre les différentes communautés disciplinaires.

Formellement, le projet Istex fut porté par le projet Idex déposé par l’université de Lorraine le 7 janvier 2011, mais constituait un élément détachable autonome. En avril 2011, le jury international chargé d’évaluer le projet a donné un premier avis favorable au projet accompagné de plusieurs questions, notamment sur le positionnement d’Istex par rapport à d’autres projets comparables de pays européens, sur la définition des services qui seront proposés aux chercheurs, et sur une analyse plus fine des moyens humains et financiers à mobiliser, ainsi que les possibles articulations avec le secteur privé. Le groupe projet en charge du dossier Istex, après une mission auprès de collègues allemands pour mieux comprendre leur modèle, a répondu aux questions du jury. En juillet 2011, le jury a donné un avis favorable définitif et recommandé le financement du projet Istex. Le 14 décembre 2011, le Premier ministre signait la décision d’attribution de 60 millions d’euros au projet. La convention d’attribution des moyens financiers par l’ANR (Agence nationale de la recherche) et le CGI fut signée le 30 avril 2012, après la mise au point précise des rôles des partenaires du projet, du programme d’actions sur les trois années du projet et des indicateurs de suivi.

La Bibliothèque scientifique numérique

En 2011, la Bibliothèque scientifique numérique prend forme, le comité national de pilotage des acquisitions et son comité technique disparaissent et sont respectivement remplacés par le comité de pilotage de la BSN et par le groupe BSN 1, segment de la BSN dédié aux politiques d’acquisitions.

Les premières licences nationales financées grâce à l’enveloppe d’impulsion dégagée par la MISTRD sont signées par l’Abes  6.

En 2012, les recommandations de la BSN sur la coordination documentaire nationale débouchent sur une volonté affirmée d’intégration des établissements hors Couperin dans le consortium refondé pour construire la plateforme nationale de négociations.

Istex et BSN

Tout en répondant à un calendrier et un mode de suivi spécifiques aux investissements d’avenir, le pilotage d’Istex s’inscrit pleinement dans le cadre de la BSN, dont le comité de pilotage est compétent notamment pour valider les orientations en termes d’équilibre des acquisitions et de services offerts. Plusieurs segments de la BSN instruisent des dossiers qui intéressent au premier chef les réalisations qu’Istex va mettre en œuvre.

Les segments BSN sont pensés comme des espaces d’instruction des dossiers, des lieux d’échanges, un cadre où l’expertise des membres est mobilisée à différentes étapes du projet. Les instances de décision et d’arbitrage se placent au niveau du comité exécutif Istex pour le projet stricto sensu, et du comité de pilotage BSN pour les orientations politiques. Il est important de signaler le rôle précis de chaque instance et d’éviter tout risque de confusion. Les institutions, les structures collectives formelles et informelles, les espaces de réflexions… sont nombreux, et l’action de BSN est bien de donner un cadre structurant pour fédérer ces différentes actions.

NDLR : sur la BSN, voir aussi dans ce numéro l’article de Stéphanie Groudiev, « La Bibliothèque scientifique numérique : un cadre politique de coordination des actions en faveur de l’IST », http://bbf.enssib.fr/consulter/bbf-2013-01-0066-015

    Le contenu d’Istex

    Le projet Istex comporte deux volets, d’une part un programme d’acquisition de ressources doté d’un budget de 55 millions d’euros, et d’autre part le développement d’une plateforme pour exploiter et offrir l’accès aux ressources acquises (métadonnées et plein texte) aux bénéficiaires contractuellement identifiés, doté d’un budget de 5 millions d’euros.

    Le programme d’acquisition

    Le programme d’acquisition répond à plusieurs objectifs : porter à la fois sur des ressources d’intérêt général mais qui sont actuellement insuffisamment ou pas accessibles dans les établissements et sur des ressources spécialisées intéressant des communautés de recherche peu nombreuses ou très dispersées sur le territoire. Les acquisitions seront équilibrées et couvriront tous les champs disciplinaires.

    Les ressources visées sont uniquement des ensembles documentaires clos faisant l’objet d’une acquisition définitive et pérenne. On parle généralement d’archives pour caractériser ces ressources, terme porteur de confusion, il s’agit de collections rétrospectives de périodiques, de livres électroniques ou de données bibliographiques mais aussi de corpus de textes numérisés formant une base de données. Les ressources recherchées sont des ressources textuelles ; sont ainsi exclues les ressources telles que des cartes ou des images, même si elles peuvent avoir une indéniable utilité pour certaines communautés de recherche.

    Le programme d’acquisition se déroulera en trois phases correspondant aux trois années du projet, ces phases comportent les mêmes étapes : recueil des besoins des utilisateurs, définition des priorités d’achat, recueil des offres des éditeurs, négociations et acquisitions.

    Le recueil des besoins est une étape cruciale et il nous semblait essentiel de consulter les chercheurs pour recueillir leurs besoins même si les bibliothécaires et documentalistes peuvent avoir une idée précise des ressources utiles et dont l’acquisition serait nécessaire. À cette fin, une enquête, dont tout l’aspect opérationnel a été géré par l’Inist-CNRS  7, a été menée d’août jusqu’à la fin octobre ; elle comportait des questions permettant de qualifier le répondant (type d’institution, appartenance disciplinaire, centre d’intérêt...) et une série de questions ouvertes appelant le chercheur à faire part de ses besoins documentaires. Cette étape a parfois été jugée complexe par les chercheurs, notamment parce que nous avons délibérément fait le choix de ne pas proposer de listes de ressources mais de laisser le chercheur libre d’exprimer son besoin tel qu’il le perçoit, en proposant des titres de revues ou des bouquets de revues, des collections de livres électroniques ou des bases de données. Nous ne voulions pas influencer les réponses en les guidant ou les restreignant à une liste, qui aurait été immanquablement incomplète et nous aurait de ce fait aussi mis dans une position délicate avec les éditeurs absents de cette liste. Cette approche a dérouté certains chercheurs qui n’ont pas été en mesure de signaler des ressources en indiquant qu’ils ne connaissent pas ce à quoi ils n’ont pas accès, d’autres ont néanmoins pu très précisément caractériser leurs besoins. La population cible de l’enquête était estimée entre 100 000 et 120 000 chercheurs et enseignants-chercheurs. Au terme de l’enquête, le 31 octobre 2012, on comptabilisait 7 167 réponses, soit 5 à 7,5 % de la population de référence.

    L’analyse détaillée de l’enquête sera disponible en janvier 2013, les premiers retours donnent une répartition de l’origine des répondants avec 49 % des universités, 34 % des organismes de recherche, 14 % des grandes écoles, 1 % des CHU. La répartition par grands secteurs disciplinaires est la suivante : sciences et techniques 54 % ; lettres et sciences humaines 23 % ; bio-sciences, santé, médecine et alimentation 15 % ; droit, économie, gestion 7 %. Les ressources demandées sont très prioritairement des collections de périodiques, suivies des e-books, ensuite des archives de bases de données, et enfin des corpus de documents numérisés.

    La différence entre abonnements courants et achats rétrospectifs n’est pas toujours comprise par les chercheurs ; nous avions porté une attention toute particulière à cet aspect en explicitant bien le champ des ressources éligibles sachant que ces notions n’intéressent pas les chercheurs et de ce fait ne sont pas intégrées à leur perception des ressources documentaires. Nous ne sommes donc pas surpris de cette confusion attendue.

    Une fois les besoins clairement identifiés grâce à l’enquête mais aussi par la consultation de sociétés savantes, nous allons établir une liste des ressources à acquérir. Parallèlement, les éditeurs ont été invités à déposer des offres commerciales pour leurs produits. Une grille de présentation des offres ainsi que la licence type Istex proposée pour les acquisitions sont mises à leur disposition  8.

    L’analyse croisée des demandes et des offres permettra d’établir une liste de priorités pour 2013, l’analyse des produits nous permettra aussi d’estimer la valeur financière que nous donnons aux produits pour ensuite entamer des négociations avec les éditeurs. Pour la phase de négociation et d’achat, l’Abes sera l’opérateur avec le concours de Couperin pour les ressources nécessitant l’apport de son expertise. Au cours de l’année 2013, les premières licences nationales dans le cadre d’Istex seront signées.

    La licence Istex  9 proposée aux éditeurs comporte deux points essentiels propres au modèle français de licence nationale :

    • la définition des bénéficiaires en fonction d’un périmètre d’établissements définis par leurs missions et non une liste précise d’établissements, ceci afin d’éviter les problèmes qui seraient générés par les fusions et créations d’établissements ;
    • la fourniture des ressources acquises (métadonnées et texte intégral) pour une exploitation par le client par ses propres moyens avec un droit de modification à des fins d’enrichissement des données, afin de s’affranchir des éditeurs, de garantir la pérennité des accès aux ressources et de favoriser la production de nouvelles connaissances.

    La plateforme

    Avant que la plateforme ne soit opérationnelle, la consultation des ressources acquises se fera sur les sites des éditeurs.

    Trois partenaires sont principalement mobilisés par le développement de la plateforme : le CNRS assurera l’hébergement et l’exploitation des données, ainsi que le développement des services, l’Abes se chargera du signalement des ressources, et l’université de Lorraine du développement des services innovants en lien avec la recherche.

    La plateforme Istex doit permettre d’héberger les données acquises (métadonnées et texte intégral). Plusieurs opérations préalables sont nécessaires :

    • Vérifier les contenus transmis par les éditeurs : il s’agit dans un premier temps de vérifier si les ressources acquises correspondent aux ressources mises à disposition dans le cadre des licences signées.
    • Normaliser les données pour permettre une exploitation facilitée : les métadonnées reçues seront normalisées et enrichies. Les métadonnées des éditeurs sont de qualité inégale, avec des formats et des types d’informations différents selon les éditeurs mais aussi les contenus concernés. Les traitements envisagés visent à corriger les erreurs qui pourraient être identifiées mais surtout à enrichir les métadonnées fournies pour rendre leur exploitation plus performante. L’enrichissement peut, par exemple, consister en l’ajout automatique de termes d’indexation pour permettre une meilleure navigation et une meilleure recherche au sein de l’ensemble du corpus constitué, ou encore en l’ajout de données d’identification des auteurs ou des publications pour permettre une meilleure identification des publications et une possible mise en relation avec d’autres sources documentaires extérieures à Istex, le lien avec les données de la recherche étant aussi une préoccupation importante de plus long terme.

    Gérer les accès

    Les données étant hébergées en dehors des plateformes des éditeurs, Istex doit gérer l’accès aux ressources et garantir que ces accès sont limités aux seuls bénéficiaires prévus dans le cadre de la licence.

    S’interfacer avec les systèmes d’information des établissements

    Istex est une plateforme et non un portail, même s’il est fort probable qu’un portail soit créé à des fins de visibilité et pour proposer des services qui ne pourraient pas être intégrés dans le dispositif d’interfaçage avec les institutions bénéficiaires. Cette dimension est essentielle au projet, car il n’est pas question d’installer un nouveau portail documentaire dans le paysage actuel. L’objectif est de permettre l’intégration des ressources acquises dans le cadre d’Istex dans les systèmes d’information des établissements. Les chercheurs doivent trouver dans le portail de leur établissement toutes les ressources auxquelles ils ont droit d’accéder sans se soucier de l’origine des ressources (ressources achetées par l’établissement, dans le cadre d’Istex ou libres).

    Garantir l’archivage pérenne et l’indépendance

    L’archivage pérenne est essentiel pour garantir la lisibilité des données dans le temps ; les normes et procédures garantissant les opérations techniques sont connues, rodées et opérationnelles. Le patrimoine documentaire acquis dans le cadre d’Istex doit pouvoir être consultable sur la très longue durée. Cependant, eu égard aux volumes très importants de données, il sera certainement prioritaire de traiter les productions originales liées à la recherche sur les corpus et d’envisager des accords avec d’autres partenaires européens assurant l’archivage pérenne de certaines ressources acquises dans le cadre du programme d’achat.

    Mettre en relation avec d’autres données

    La connexion des publications présentant les résultats de la recherche avec les données de la recherche n’est pas prévue dans la phase initiale de construction de la plateforme, mais cette idée de mise en relation de ces deux types de ressources fera l’objet d’un examen approfondi.

    Mesurer et analyser les usages

    L’utilisation des ressources électroniques est un point important pour guider les politiques d’acquisition de ressources et aussi pour mieux comprendre les pratiques de recherche. Actuellement, ces analyses reposent sur deux types de dispositifs : les statistiques fournies par les éditeurs  10 et les statistiques issues de l’analyse des logs de connexions que peuvent réaliser les institutions. Sur ce dernier point, des travaux menés par le consortium Couperin, l’Inist-CNRS et l’université de Lorraine, sont en cours pour optimiser et rendre génériques des outils d’analyse des logs de connexions, en vue de la généralisation et de la dissémination de ce type de démarche.

    Développer de nouveaux services

    La plateforme doit offrir des services visant notamment à produire de la connaissance grâce à l’exploration de données (data mining) en utilisant l’ensemble des métadonnées fournies et surtout grâce à la fouille de texte (text mining). Istex offrira un corpus de documents en texte intégral d’une volumétrie exceptionnelle qu’aucun éditeur ne peut bien évidemment proposer. Ces dispositifs d’analyse requièrent des ensembles de métadonnées et de données exploitables et de qualité, la fourniture de documents en texte intégral est donc une nécessité, et l’enrichissement des métadonnées une priorité.

    Une grande partie des services est encore à imaginer, l’existence de la plateforme avec les contenus va permettre aux chercheurs d’utiliser la documentation comme un apport d’information, mais elle peut encore susciter des besoins qui ne sont pas encore exprimés, et donc qui ne sont ni modélisés, ni programmés. En disposant des données et de la capacité de les exploiter, nous garantissons un avenir ouvert.

    Les partenaires

    Le projet Istex réunit quatre partenaires dont les rôles ont été clairement identifiés (voir tableau page suivante). Le CNRS est le porteur du projet, le consortium Couperin, l’Abes et l’université de Lorraine sont partenaires. Cette dernière agit pour le compte de la Conférence des présidents d’université (CPU), elle assure le lien avec l’ensemble des établissements d’enseignement supérieur.

    Illustration
    Fonctions des quatre partenaires du projet Istex

    La gouvernance

    La gouvernance d’Istex est assurée par deux instances :

    • D’une part, le comité exécutif constitué des représentants des quatre institutions partenaires  11, un représentant de la MISTRD étant systématiquement invité à ses réunions. Ce comité se réunit régulièrement, instruit les différentes étapes du projet, arbitre en cas de besoin, prépare des décisions devant faire l’objet d’une décision du comité de pilotage de la BSN.
    • D’autre part, le comité de pilotage de la BSN, qui est consulté pour toutes les orientations stratégiques et qui valide certains choix du comité exécutif. Ce comité peut aussi être amené à trancher certaines questions au cas où le comité exécutif ne parviendrait pas à arrêter une décision sur certains points, faute d’avis majoritaire.

    Ce dispositif de gouvernance à deux niveaux concilie une forte réactivité en associant des experts de la documentation ayant en outre de fortes responsabilités politiques dans le champ de l’IST mais aussi les décideurs politiques du monde académique et de la recherche au plus haut niveau.

    La structuration du paysage documentaire

    Une des difficultés majeures de l’organisation actuelle du paysage documentaire réside en l’absence d’une structure unique d’instruction, de coordination et de pilotage des acquisitions au niveau national dont le périmètre d’activité couvrirait toute la chaîne documentaire, du recueil des besoins à l’achat en passant par l’évaluation des ressources, le regroupement des acheteurs publics et la négociation unique. La première recommandation de BSN1 pour le plan d’actions 2012 était : « Créer une structure commune de coordination des acquisitions à partir de l’expérience de Couperin. » Un travail commun a été mené avec les établissements  12 actuellement en dehors du consortium pour définir les conditions permettant leur entrée et pour identifier les aspects devant faire l’objet d’une évolution statutaire du consortium. En octobre 2012, le principe de l’entrée de ces établissements a reçu un avis favorable du comité de pilotage de la BSN. Les travaux de refondation du consortium Couperin sont en cours pour revoir les statuts du consortium afin d’adapter la gouvernance à l’entrée de ces nouveaux établissements.

    Coordination nationale des politiques documentaires et politique nationale de l’IST

    La démarche engagée avec le projet Istex, au sein de la BSN, consiste à mettre en place un dispositif de coordination des politiques documentaires pour développer une politique nationale de l’IST qui soit plus efficiente. La démarche choisie et portée par la MISTRD n’a pas été de décréter une nouvelle organisation mais de permettre aux différents acteurs de mieux travailler ensemble, de développer les synergies et d’être acteurs des transformations en cours. Cette méthode assez pragmatique permet d’avancer et d’amener chaque institution, chaque partenaire, à revoir son positionnement, ses activités et sa politique dans le cadre d’un dialogue continu. Ces évolutions, qui s’inscrivent dans la logique de rapprochement des organismes de recherche et des établissements d’enseignement supérieur, se concrétisent plus ou moins facilement mais s’inscrivent dans le temps et amèneront une modification durable du paysage de l’IST en France. •