Journée NumaHOP

BULAC, 18 octobre 2019

Clément Oury

Ceux qui participent à la gestion d’une chaîne de numérisation doivent souvent faire face à la prolifération d’une espèce invasive, celle des fichiers Excel : ceux que l’on s’envoie entre collègues, ceux que l’on transmet aux prestataires, ou encore ceux – faiblesse coupable – que l’on se crée pour son propre usage personnel. C’est pour se libérer de ce terrible fléau qu’a été développé le logiciel NumaHOP, qui était au centre d’une journée professionnelle organisée à la BULAC 1

X

Bibliothèque universitaire des langues et civilisations.

le 18 octobre 2019.

Ce logiciel libre permet de gérer une chaîne complète de numérisation de documents, du constat d’état à la diffusion et à l’archivage. En effet, il automatise la gestion des différentes étapes de la numérisation et offre une interface permettant de connecter les différents acteurs concernés (prestataires, bibliothèques, diffuseurs, CINES 2

X

Centre informatique national de l’enseignement supérieur.

).

Construire une communauté

NumaHOP a été développé, grâce à des fonds de la Ville de Paris, sous la direction de trois établissements pilotes : la bibliothèque Sainte-Geneviève, celle de Sciences Po et la BULAC. Le développement lui-même a été réalisé par la société lyonnaise Progilone. Cependant, il ne suffit pas de mettre un code source sur une plateforme d’hébergement, et d’en proposer l’utilisation gratuitement, pour faire un logiciel « libre » : il faut construire une communauté d’utilisateurs, susceptibles d’adapter l’outil à leurs besoins et à leur environnement, de le modifier et de le faire vivre.

Ce n’est pas la première fois que les créateurs de NumaHOP exposent les différentes fonctionnalités de cet outil. De fait, le logiciel avait déjà fait l’objet de présentations en marge des journées DIRBUIST 3

X

Directeurs de bibliothèques universitaires responsables du secteur « information scientifique et technique ».

(février 2019), lors des journées ABES 4
X

Agence bibliographique de l’enseignement supérieur.

, en mai, ou des journées CINES, en juin ; ou encore à l’occasion de conférences dédiées, déjà à la BULAC (11 avril et 10 juillet). Cependant, l’enjeu de la rencontre du 18 octobre était plus ambitieux : il s’agissait de réunir toutes les institutions s’étant déjà montrées intéressées par la réutilisation du logiciel, pour comprendre comment créer une communauté et en assurer la maintenance sur le long terme.

C’est pourquoi le programme du matin avait été scindé en deux parties. Ceux qui découvraient NumaHOP pouvaient bénéficier d’une présentation détaillée de ses fonctionnalités, tandis que les initiés assistaient à un retour d’expérience de la part des utilisateurs originaux. Cette séance était suivie par un panel où les opérateurs nationaux (BnF, CINES, GIS CollEx-Persée 5

X

Groupement d’intérêt scientifique CollEx-Persée.

, Persée) exposaient leur point de vue vis-à-vis de l’outil et de sa place dans l’écosystème de numérisation des institutions patrimoniales et de recherche. L’après-midi, plénière, était consacré à des questions plus concrètes : comment installer NumaHOP dans son établissement ? Faut-il avoir recours à un hébergement externe et à quel coût ? Qu’est-ce qu’un logiciel libre et comment animer une communauté autour d’un tel outil ?

Un chaîne complète de traitement

Pour définir ce qu’est NumaHOP, on peut d’abord souligner ce qu’il ne fait pas : NumaHOP n’est pas un outil de prise de vue ; ce n’est pas une bibliothèque numérique ni un système d’archivage. Ce n’est pas non plus un logiciel permettant de gérer les relations avec des utilisateurs qui demandent la numérisation d’un document. NumaHOP, en revanche, est la chaîne d’assemblage qui va permettre à tous ces éléments de communiquer ; alors que, dans la plupart des établissements, ces échanges sont traités par l’intermédiaire d’une foule de tableurs plus ou moins redondants.

NumaHOP intègre d’abord un module d’administration qui permet de créer les utilisateurs : un ou plusieurs établissements (si différentes institutions travaillent sur la même instance de NumaHOP) et, au sein de ces établissements, des utilisateurs ayant des rôles et des profils spécifiques. Chaque institution peut porter plusieurs projets de numérisation ; eux-mêmes subdivisés en lots et en trains de numérisation. Il est ainsi possible de gérer en parallèle des relations avec un ou plusieurs prestataires (qui ont eux aussi accès à certaines fonctionnalités de NumaHOP), ou de conduire des opérations de numérisation interne et externe.

Pour identifier et décrire les documents à numériser, NumaHOP intègre un module d’import de métadonnées qui prend en charge en grand nombre de formats : UNIMARC, CSV, Dublin Core (simple ou qualifié), JSON. Les données peuvent notamment être importées depuis le Sudoc ou Calames. Cela permet de créer des lots et des trains, qui sont transmis de façon dématérialisée, en parallèle des documents eux-mêmes.

Ces lots et ces trains sont accompagnés de constats d’état (dont le nombre et le périmètre sont paramétrables : constat d’état au départ, à l’arrivée chez le prestataire, constat après numérisation, constat de retour…). Ceux-ci peuvent être réalisés à différents niveaux de granularité (jusqu’à la pièce), en fonction du type de document.

Après la numérisation proprement dite vient la livraison des fichiers numérisés, toujours par le biais de NumaHOP (par serveur FTP). C’est alors qu’a lieu le contrôle qualité, en deux étapes : d’abord un contrôle automatisé puis un contrôle visuel. Le contrôle automatisé vérifie la conformité technique des fichiers (profil de couleurs, résolution, taux de compression, nombre de fichiers, nommage, présence de la table des matières…) et la conformité du format de fichier par rapport aux exigences d’archivabilité au CINES (le logiciel FACILE a été implémenté). La deuxième étape est le contrôle visuel du document numérique, par un agent, dans un onglet de prévisualisation (implémentant Mirador). La plateforme permet de sélectionner les images à vérifier au sein d’un même ensemble, selon la norme d’échantillonnage ISO 28590. Le lot peut alors être validé ou rejeté.

À partir des fichiers numérisés, NumaHOP peut produire les fichiers OCR au format AltoXML. Il est également possible, à partir des fichiers masters, de créer des formats intermédiaires (miniatures, images de moindre définition…). Cette fonctionnalité permet de limiter l’appel d’offres à la seule fourniture des fichiers masters et éventuellement des tables des matières.

En fin de chaîne, l’un des grands apports de NumaHOP est l’automatisation de l’envoi des fichiers vers des plateformes tierces : actuellement, celle du CINES pour l’archivage, et celles d’Internet Archive pour la diffusion ; un lien avec Omeka existe également mais de façon plus manuelle. Un connecteur vers Gallica pour les bibliothèques l’utilisant en marque blanche est aussi envisagé.

Enfin, NumaHOP offre divers outils de suivi statistiques pour vérifier le bon déroulement des projets.

Retours d’expérience

Lors de la phase de retour d’expérience, les intervenants sont revenus sur les bénéfices qu’avait apportés l’usage de NumaHOP à leur institution. Il y a d’abord une simplification considérable des procédures, grâce à l’automatisation, et donc un gain appréciable de temps de travail. La qualité s’est aussi améliorée : qualité des métadonnées (grâce à de meilleurs imports depuis Calames ou les SIGB) et qualité des données (contrôle visuel amélioré, vérification de la compatibilité CINES). C’est ainsi l’adoption de NumaHOP qui a permis à la BULAC, dans un temps court (en l’espace de six mois), de monter un circuit de dépôt au CINES.

Cela a aussi permis de simplifier les relations avec les prestataires externes qui, dans l’ensemble, ont adopté ce nouvel outil. Les bibliothèques intègrent désormais le respect des règles de NumaHOP dans leurs exigences techniques de numérisation précisées au cahier des charges.

Sollicités pour donner leur avis sur cet outil, les opérateurs ont fait part de leur intérêt : ils apprécient l’uniformisation technique qu’apporte l’utilisation de NumaHOP. Cependant, il leur est encore difficile de voir comment ils peuvent s’impliquer dans une adoption plus large. Des propositions plus concrètes ont cependant été émises de la part de l’équipe Gallica – qui, on l’a vu, travaille sur un connecteur entre NumaHOP et Gallica marque blanche. Au sein du GIS CollEx-Persée, on envisage aussi une « labellisation » de NumaHOP : les projets s’appuyant sur ce logiciel pourraient ainsi se voir favorablement évalués lors des appels à projets CollEx-Persée.

Implémenter NumaHOP

NumaHOP a vocation à être utilisé par un nombre croissant d’institutions. Cet outil a de fait été développé pour répondre aux besoins de trois établissements aux profils différents, que ce soit en types de documents (manuscrits, périodiques…), qu’en modes d’organisation ou en outils de diffusion.

Actuellement, les trois institutions pilotes utilisent une instance commune de NumaHOP, hébergée en cloud par un prestataire externe. Cette instance n’a cependant pas vocation à être ouverte à d’autres partenaires. La question s’est donc posée des modalités d’implémentation du logiciel. Certaines institutions ont testé une installation en interne, avec les ressources de leur propre DSI. De son côté, la société Progilone cherche à développer une offre d’hébergement en mode SaaS (Software as a Service), avec abonnement annuel. Au-delà du monde des bibliothèques, des services d’archives ou des musées ont exprimé leur intérêt.

Cependant, aucun de ces modèles n’est encore mûr. Les échanges entre les pilotes initiaux et ceux qui s’apprêtent à implémenter NumaHOP doivent être poursuivis ; une liste de diffusion a notamment été créée à cette fin. Il s’agira aussi d’élaborer la gouvernance du logiciel : qui doit être en charge de la maintenance du code (c’est-à-dire de décider quels développements peuvent être intégrés ou non) ? Qui doit prioriser les évolutions ? Où trouver les ressources ? Au-delà des questions techniques, c’est ainsi de redoutables enjeux d’organisation qui se posent désormais à la communauté des établissements intéressés.