Exploitons les données d’usage

Journée d’étude Counter 5 – 22 juin 2017

Delphine COUDRIN

Disposer de données et d’outils d’analyse des usages des collections numériques fiables et intuitifs est un enjeu majeur pour les établissements.

C’est aussi un défi complexe qui engage tous les acteurs : institutions, bibliothécaires et éditeurs.

l’occasion de la publication imminente de la version 5 de la recommandation COUNTER, le consortium Couperin organisait une journée d’étude sur ce thème dans les locaux de la Bibliothèque universitaire des langues et civilisations le 22 juin 2017.

Des nouvelles de COUNTER

Le projet COUNTER vise à garantir la fourniture par les éditeurs de données d’usages pertinentes, fiables, comparables entre elles et dans le temps.

Pour ce faire, les éditeurs doivent appliquer les modalités de production et de livraison des données statistiques définies dans la recommandation COUNTER (Code of practice).

La première recommandation, publiée en 2002, a fait l’objet d’améliorations et de révisions successives jusqu’à la version 4 en vigueur actuellement qui sera remplacée au 1er janvier 2019 par une version 5. Cette nouvelle version, publiée sur le site du projet 1, propose une toute nouvelle approche.

Avant de laisser la parole à Lorraine Estelle (directrice du projet COUNTER), Thomas Jouneau a introduit la journée en rappelant les travaux menés par le groupe de travail « indicateurs » du consortium Couperin : traduction française du Code of practice et des guides conviviaux destinés aux éditeurs, renforcement de l’intégration de la compatibilité COUNTER dans le cadre des négociations tarifaires, et démarches auprès de sociétés à même de proposer une certification COUNTER sur le marché français.

Thomas Jouneau a également souligné l’implication du consortium Couperin au sein de la commission AFNOR 46-8 pour inclure prochainement le Code of Practice COUNTER en annexe de la norme ISO 2789 2.

Lorraine Estelle a ensuite présenté les apports de la version 5 de la recommandation. L’objectif principal de cette refonte était de simplifier son application par les éditeurs et son utilisation par les institutions. En lieu et place des 24 rapports de la version 4, la version 5 inclut 4 rapports « maîtres » (master reports) appliqués aux entités suivantes : platform, database, title (granularité titre), item (granularité unité documentaire : article, chapitre…).

Chaque rapport peut être filtré sur différents critères et permet donc d’obtenir des vues dites « standards » (pré-paramétrées en fonction des besoins les plus courants des bibliothèques) ou personnalisées.

La typologie des éléments mesurés est considérablement simplifiée (12 valeurs possibles au lieu de 24 dans la version 4) et introduit une distinction entre « investigation » (exemple : consultation d’un résumé ou d’une table des matières) et (« request ») accès au texte intégral. Cette nuance sera particulièrement utile pour évaluer le degré d’usage des ressources.

Par ailleurs, une place importante est faite à l’open access sous ses différentes formes : gold open access, archives ouvertes. La mesure d’usage des ressources en open access avec embargo est également à l’étude pour une prise en compte ultérieure.

Enfin, les rapports seront tous structurés de la même façon (en-tête et ordre des colonnes identiques) et la version 5 simplifiera l’implémentation par les éditeurs du protocole SUSHI de récupération automatique des statistiques.

Si cette nouvelle version de la recommandation COUNTER propose donc de réelles avancées, elle ne permet toutefois pas de résoudre certaines difficultés identifiées de longue date, notamment l’impossibilité de distinguer les titres souscrits par l’institution dans les rapports de type « zero usage ».

La collecte des informations de souscription des institutions couplée aux statistiques d’usage pourrait remédier à ce problème et est actuellement étudiée dans le cadre de l’initiative « KBART-automation » menée par la NISO 3.

Publiée en juillet 2017, la version 5 entrera en vigueur le 1er janvier 2019 afin de laisser le temps aux éditeurs de l’implémenter (des guides et webinars seront produits à leur attention).

Après l’intervention de Lorraine Estelle, Yves Moly (société DEKRA) a présenté la prestation de certification COUNTER proposée depuis peu aux éditeurs par cette société 4. La certification est une étape obligatoire pour les éditeurs « compatibles COUNTER » et doit être menée chaque année. Il est donc appréciable de disposer d’un organisme de certification installé en France.

L’audit s’appuie sur l’annexe E de la recommandation et consiste à vérifier l’intégrité des données et la conformité du format de délivrance et de consultation des rapports pour un coût variable, de 600€ à 2000€ HT environ.

La matinée s’est achevée avec le retour d’expérience d’un éditeur. Représentant les éditions Techniques de l’ingénieur, Marie Lesavre (responsable site) et Alain Mahier (architecte SI) ont présenté le calendrier et les enjeux d’une démarche de déploiement COUNTER. Deux années ont été nécessaires pour mener ce projet, compte-tenu notamment de la spécificité des produits Techniques de l’ingénieur et au vu du volume et de la nature des données à traiter.

Bien que cet éditeur s’adresse aussi au monde de l’entreprise, il a fait le choix de privilégier la fourniture de statistiques COUNTER pour l’ensemble de ses clients.

Le point sur les outils

Les interventions de l’après-midi ont porté sur les outils de collecte et d’exploitation des statistiques proposés par le consortium Couperin et l’INIST.

Thomas Porquet (chargé de mission au sein du département Services et prospective de Couperin) a tout d’abord passé en revue les rapports annuels 2015 en cours de finalisation au sein du consortium : rapport statistique (basé sur les rapports fournis par les éditeurs) et rapport ERE 5(analyse des coûts).

Il a poursuivi son intervention avec Dominique Lechaudel (INIST-CNRS) en faisant un point sur les outils suivants :

- Le portail MESURE : mis en ligne en 2013, il met à disposition des établissements membres de Couperin les rapports JR1 et JR1a fournis par les éditeurs par le biais d’une collecte semi-automatisée (15 plateformes, soit 16 700 titres de revues couverts). Il n’est pas prévu de mener de nouveaux développements pour MESURE compte-tenu du projet « CC PLUS » en cours de réflexion au sein de l’ICOLC et portant sur le développement d’un logiciel libre du même type.

- Le logiciel open source ezPAARSE, qui analyse les logs des reverse-proxies des établissements à l’aide de « parseurs » couvrant plus de 150 plateformes éditeurs. Parce qu’il filtre et enrichit les logs du proxy avec les attributs présents dans les annuaires LDAP, ezPAARSE permet de qualifier finement les usages et de préciser les profils des utilisateurs. Les établissements souhaitant déployer le logiciel peuvent bénéficier du soutien de l’équipe de développement.

- EzMESURE, plateforme nationale de stockage et visualisation des données d’ezPAARSE. La mutualisation de cet outil et des données de chaque établissement permettra à terme de mener des analyses comparatives pour orienter les politiques documentaires et les négociations avec les éditeurs.

Deux établissements ont ensuite fait part de leurs retours d’expériences :

- Didier Gazeau et Annie Le Blanc, du CEA, ont tout d’abord présenté un exemple d’exploitation des statistiques d’usage propres à un portefeuille de revues. Cherchant à définir au plus juste le coût par article téléchargé dans le cadre de leur abonnement, ils ont affiné l’analyse du rapport JR1 en excluant le format HTML (parce que l’usage n’est pas identique chez chaque éditeur, et que les fournitures de documents se faisant au format PDF, ce dernier donne une bonne référence tarifaire) ; puis les téléchargements d’articles disponibles hors souscription (licences nationales, open access, accès promotionnels et nouveaux titres). Ces exclusions représentaient près de 58 % des usages. Une remise tarifaire importante a donc pu être négociée avec l’éditeur.

Cette expérience fait sens mais elle met aussi en évidence l’investissement nécessaire (quatre jours de travail pour analyser deux contrats) ainsi que la nécessité de pouvoir obtenir de l’éditeur des informations absentes des rapports COUNTER.

- Thierry Fournier et Anne-Claire Bernaudin ont alors présenté l’approche adoptée à Rennes 1. Les données d’usage y sont exploitées pour éclairer les décisions d’abonnement, analyser et répartir les coûts, mener des comparaisons entre établissements via MESURE… avec parfois des difficultés d’interprétation liées à des environnements changeants et à l’hétérogénéité des données disponibles.

EzPAARSE est en cours de déploiement mais la proxification totale des accès n’est pas envisagée dans l’immédiat, de premiers essais ayant conduit à une baisse significative des usages. Il s’agit donc pour le SCD de communiquer davantage avec la gouvernance et les chercheurs sur ce sujet.

La dernière intervention de la journée a permis d’amorcer une réflexion sur la mesure d’usage des données de la recherche. Nicolas Larrousse (responsable pôle archivage Huma-Num) en a évoqué les principaux enjeux : hétérogénéité des données de la recherche et des niveaux de granularité, notion d’ « usage » de ces données difficile à cerner.

Linked data, ranking et citation des données à l’aide d’identifiants uniques sont autant de pistes de réflexion en la matière.

Thomas Jouneau a conclu cette intervention et cette journée en précisant que le projet COUNTER avait d’ores et déjà initié une réflexion sur cette thématique. Gageons que ce champ d’analyse donnera lieu à de nouvelles initiatives.