La préservation des documents numériques

Solutions techniques, solutions politiques

François Cavalier

C’est le 14 septembre 2001, que s’est déroulée la journée d’étude de l’Association des directeurs des bibliothèques universitaires et de la documentation (ADBU), intitulée « Préservation du document numérique : solutions techniques, solutions politiques 1 ». Animée et conclue par Bertrand Calenge, elle a fait la part belle aux expériences menées à l’étranger, notamment britanniques, allemandes et hollandaises.

Une question complexe

La préservation du document numérique est une question complexe, qui met en œuvre diverses technologies non encore complètement stabilisées ni normalisées. Au cours de cette journée, le vocabulaire bibliothéconomique traditionnel a tout à coup paru démonétisé et révolu. La nouveauté des problèmes posés (mais non vraiment résolus) et celle des technologies logicielles et matérielles font basculer l’approche documentaire dans un univers encore largement méconnu. Quelques réflexions venues de l’assistance ont laissé percer la sensation que la distance est difficile à combler qui existe entre les problèmes concrets et déjà délicats affrontés aujourd’hui dans la gestion du document numérique par les bibliothèques universitaires, et les programmes lourds, en grande partie encore expérimentaux, menés par les grandes bibliothèques nationales européennes. Cette distance fortement marquée est vouée à se réduire très vite sans que l’on sache réellement quelle place précise nos établissements occuperont dans ce processus de préservation des documents numériques.

À Catherine Lupovici qui ouvrait la séance revint le mérite d’un exposé clair présentant à la fois les enjeux liés à la préservation de la documentation numérique et les différents moyens d’y parvenir.

1er constat. Le document est un objet mutant – Bertrand Calenge parle « d’OVNI documentaire ». Ce dernier se fragmente en objets d’information numérique dont les strates différemment configurées démultiplient le sens. Ce que souligne Catherine Lupovici, c’est que la notion de contenu caractérisée par un support fixe dupliqué en nombre limité de copies est en voie de disparition. Le document nouveau qui véhicule un message dématérialisé pose des problèmes inédits en termes de droit d’auteur et de reproduction.

2e constat. La pérennisation des documents numériques doit être approchée sous deux angles. D’une part, l’angle des supports : ceux qui sont utilisés pour les publications numériques ont une durée de vie probable plus courte que ceux qui sont utilisés jusqu’à maintenant (le disque plastique utilisé pour les cédéroms, les CD audio… sont limités à des durées de 10 à 25 ans). D’autre part, l’angle des contenus : le codage de l’information doit aussi être préservé puisque la disparition d’une partie de celui-ci aurait pour effet concomitant la perte d’une partie du message. Par ailleurs, le code n’est pas un élément isolable de l’environnement technique de création et d’utilisation. Or, cet environnement évolue souvent plus vite encore que le support : qui peut relire des textes écrits sous Word quinze ans plus tôt sans avoir conservé une des différentes versions du logiciel capables de les charger ?

La maintenance des accès à la documentation électronique peut prendre deux formes d’intervention technique. D’une part, la migration qui est un retraitement des données anciennes afin de les rendre compatibles avec l’environnement courant. Cette opération, qui implique la modification d’une partie du codage des documents initiaux, suppose donc que le droit a été donné pour le faire. Il s’agit d’une procédure longue et coûteuse qui doit être utilisée « avec modération ». D’autre part, l’émulation, qui consiste à faire fonctionner un environnement technique obsolète sur une plate-forme courante, est une solution plus abordable en termes d’efficacité/coûts, mais ne dispense pas de rafraîchir les supports de façon régulière.

Si l’on peut considérer que la technologie cédérom avec ses unités physiques bien identifiées n’a pas fondamentalement bousculé le traitement documentaire pratiqué en bibliothèque sur le modèle appliqué au livre, il n’en va pas du tout de même pour la documentation en ligne. Celle-ci échappe largement à la collecte et au traitement. L’approche du problème de la préservation est aussi question d’échelle : on peut considérer le web comme un document global à conserver sous forme d’un cliché stocké à intervalles réguliers ou comme la somme de documents traitables individuellement, ce qui pose dans ce cas le problème du partage des responsabilités au niveau national comme international. C’est le cas en Allemagne où la Deutsche Bibliothek voudrait obtenir la responsabilité de l’archivage des publications électroniques produites par les éditeurs allemands. Elle travaille pour cela en amont avec un groupe de cinq éditeurs dont Springer. Dans ce domaine, « la coopération est le maître mot » (Hans Liegmann).

Les expériences européennes

Le problème immédiat rencontré par tous les projets de préservation du document numérique est celui de la recherche d’un modèle pérenne. C’est le modèle OAIS (système ouvert d’archivage d’information), très largement adopté notamment par le groupe de travail français PIN (Pérennisation des informations numériques) au sein de l’association ARISTOTE, qui regroupe le Centre national d’études spatiales, le Commissariat à l’énergie atomique, les Archives de France, l’Institut national de l’audiovisuel, l’Institut Pasteur et la Bibliothèque nationale de France. Il est aussi repris par NEDLIB (Network Deposit Library) en Grande-Bretagne.

La nécessité de disposer de documentation technique, de méthodes et de savoir-faire pour piloter des opérations d’envergure dans ce domaine a conduit les Britanniques à créer le projet CEDARS (Curl Exemplar in Digital Archives, qui regroupe les bibliothèques de Leeds, Cambridge et Oxford) destiné à fournir des recommandations aux bibliothèques sur les bonnes pratiques de conservation numérique. Ce travail a suscité la création de la Digital Preservation Coalition qui devrait créer un portail pour diffuser un manuel de gestion de la préservation des documents numériques, nouer un dialogue avec les fabricants de matériel et de logiciel et établir une stratégie afin de partager l’archivage des revues électroniques commerciales et celui du web.

La question de savoir qui conservera quoi n’est pas encore tranchée. Un travail de même nature a été lancé aux Pays-Bas où la Bibliothèque royale a mis en place un projet de système de dépôt (deposit system) pour la documentation numérique. Cet établissement a réalisé de très lourds investissements financiers pour l’achat des matériels et logiciels, travaille en partenariat étroit avec le monde éditorial et a signé un accord avec Elsevier pour l’archivage de ses données.

Le souci des bibliothécaires est d’infléchir en amont les choix qui présideront à la mise en forme de l’archivage numérique : « Nous ne voulons pas de solutions propriétaires mais des solutions génériques. » (Titia Van der Werf, Bibliothèque royale des Pays-Bas).

Repositionnement des acteurs et nouveau partage des rôles

Tout projet de préservation numérique impose aujourd’hui une concertation très large des acteurs de la production et de la diffusion de l’information : collaboration verticale et horizontale, comme le souligne Hans Liegmann (Deutsche Bibliothek), entre auteurs, éditeurs, fabricants de logiciels et de matériels, bibliothèques et archives.

Ce phénomène avéré dans les expériences européennes citées est aussi clairement établi dans la présentation du travail des Archives nationales par Christine Pétillat. La préservation des archives administratives pose un problème de même nature : il faut agir en amont sur la production des données et instaurer des contrôles aux différentes étapes de leur production pour réaliser un archivage numérique dans de bonnes conditions. Il s’agit notamment de recueillir les informations qui donnent du sens aux données, qui fournissent les clés de sa lecture. L’exemple des tableaux statistiques de l’INSEE (Institut national de la statistique et des études économiques) est éclairant à cet égard : comment lire un tableau statistique sans connaître les éléments qui ont prévalu à sa construction ? En découle la notion d’objet documenté qui délivre, avec son contenu, les clés de la compréhension des données.

Les acteurs de fin de processus que sont traditionnellement les archives et les bibliothèques sont pris à revers par ces questions et catapultés à l’origine du processus. C’est ce changement technique, mais aussi culturel, majeur au sein de nos professions qui bouscule leur positionnement actuel et leurs pratiques.

Pourtant, la mutation a commencé partout et les bibliothèques universitaires prennent position dans l’archivage numérique avec la conduite de projets de numérisation patrimoniaux ou de diffusion électronique des thèses. L’intervention de Bernard Belloc (premier vice-président de la Conférence des présidents d’université et président de l’université de Toulouse 1), présentée par Marie-Dominique Heusse, donna les axes possibles de développement de la production et de l’archivage numériques et le positionnement du Service commun de la documentation aux côtés des producteurs d’information (presses universitaires, laboratoires et thésards) et des prestataires techniques (centre de ressources informatiques).

Certes, le chemin à parcourir est encore impressionnant : les solutions génériques ne sont pas au point, le partage des responsabilités entre les acteurs de la chaîne de production et de diffusion n’est pas tranché, le partage du travail et du niveau de conservation entre les bibliothèques non plus. Nous évoluons au sein d’un univers mouvant où les expériences tiennent plus du prototype que de la solution normalisée. Mais nous sommes face à nos responsabilités, comme le souligne Margaret Jones (British Library) : « Il est très tentant d’ignorer la préservation numérique en espérant que quelqu’un d’autre ou que la technologie elle-même résoudra comme par magie cette question. » À nous de prendre position dans la chaîne numérique. Ah ! les temps modernes !

  1. (retour)↑  Cette journée s’est tenue dans le cadre du 31e congrès qui s’est tenu à Marseille, le 14 septembre 2001. L’intégralité des contributions est consultable sur le site de l’ADBU : http://www-sv.cict.fr/adbu/