Pérenniser le document numérique

Séminaire Inria : 2-6 octobre 2006, Amboise

par Yves Desrichard
ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet.
Paris : ADBS éditions, 2006 – 206 p. ; 24 cm. – (Sciences et techniques de l’information).
ISBN 2-84365-087-9 : 22 €

C’est toujours avec une certaine impatience que l’on attend, tous les deux ans, la parution des actes du séminaire Inria (Institut national de recherche en informatique et en automatique), publiés la semaine même de la tenue dudit séminaire 1. Animées par les meilleurs spécialistes, ces rencontres sont toujours l’occasion de faire le point sur l’évolution du document numérique et de son appréhension, dans une série de conférences où la technicité ne sacrifie jamais ni au souci de vulgarisation ni, pour autant, à l’approximation.

Un sujet fondamental

Après ceux consacrés à « La recherche d’information sur les réseaux » et à « Publier sur Internet », les actes du séminaire qui s’est tenu à Blois dans le courant du mois d’octobre 2006 étaient consacrés au souci de « Pérenniser le document numérique », sujet fondamental mais dont, curieusement, hors les professionnels des bibliothèques, peu semblent réellement se soucier, à l’heure de la « dématérialisation » accélérée des supports d’information – à l’heure, en fait, où la question semble échapper aux utilisateurs pour ne plus être éventuellement que la préoccupation des fournisseurs d’information.

Si la tenue générale des contributions reste excellente, il serait cependant difficile de cacher une certaine déception. Celle-ci ne tient pas tant au contenu des contributions qu’à leur adéquation au thème proposé : nombre des intervenants, en effet, ne consacrent que très épisodiquement, de manière parfois annexe, parfois anecdotique, leur exposé à la pérennité des documents, insistant plutôt sur les conditions de production ou de diffusion. D’où un ensemble parfois disparate, où l’on privilégiera en toute logique, dans un premier temps, les chapitres liés au thème effectif du séminaire.

La réputation de Catherine Lupovici, de la Bibliothèque nationale de France, sur le sujet du document numérique, n’est plus à faire. Avec « Gestion de la pérennisation des objets numériques », elle offre le chapitre le plus fouillé sur le sujet, en relevant d’emblée que ce souci de conservation est « désormais clairement de la responsabilité des créateurs de données eux-mêmes » et que, en ce domaine, il faut se placer dans la conservation « préventive » et non « curative ». Le point de vue pourra laisser perplexe qui, transposé au document papier, reviendrait à confier aux éditeurs le soin de ne plus éditer que sur du papier permanent, et de s’assurer eux-mêmes de la conservation de leur production, ce qui semble loin d’être acquis.

Le modèle OAIS

Pour mettre en œuvre cette conservation préventive, la communauté informatique a développé le modèle OAIS, « Modèle de référence pour un système ouvert d’archivage d’information » – dans un premier temps pour la conservation des données des missions spatiales. Il s’agit d’un modèle conceptuel, c’est-à-dire théorique qui, d’ailleurs, pourrait s’utiliser dans des contextes autres que numériques. Catherine Lupovici détaille les « six entités fonctionnelles principales » d’un système d’archive OAIS, les « flux de données », le « modèle d’information », etc. On le voit, l’ensemble est relativement abstrait et, à vrai dire, manque cruellement d’exemples. On aurait aimé, en plus de cette présentation, quelques aperçus d’applications concrètes du modèle, par exemple à la BnF, institution avancée dans la mise en œuvre de tels projets – et dont c’est d’ailleurs l’une des missions.

Au lieu de cela, l’auteur souligne plutôt les grandes incertitudes liées à ces tentatives de conservation, partagées entre « émulation » (préserver les outils qui permettent de consulter l’information sur son support et avec son codage d’origine) et « migration » (transférer les informations sur un autre support et dans un autre système de codage pour en permettre la consultation avec les outils existants), sachant que, quelle que soit la stratégie mise en œuvre, elle modifie « la nature des objets ». Répertoriant ensuite les risques importants et de nature extrêmement diverse liés à la conservation, elle leur applique un « niveau de risque » qui n’a rien de vraiment rassurant. La « veille au niveau des outils et standards » finalement préconisée n’a, elle non plus, rien qui puisse inciter à l’optimisme quant aux conditions optimales d’archivage des objets numériques.

Et pourtant, de l’optimisme, il en faut quand on s’attaque à la tâche, immense, voire décourageante, de « l’archivage du web » (désormais l’une des missions de la BnF), comme l’expose Julien Masanès dans son chapitre éponyme. La présentation de l’article est brillante, quoique paradoxale, où l’auteur note que « les livres », pour ce qui est de leur pérennisation, sont « bien mieux lotis » les documents numériques. Leur « cardinalité, définie comme le nombre d’exemplaires ou d’instances d’une œuvre » est, grâce à l’invention de l’imprimerie, souvent importante. On a parfois l’impression que, dans le monde du document numérique, la « cardinalité » est elle aussi importante, mais, comme le souligne l’auteur, celle « des contenus [numériques] n’est pas simple mais complexe ». Car, en fait, « on ne pourra jamais conserver que des aspects et des portions d’un artefact vivant plus large » et l’une des solutions de conservation réside dans « une interopérabilité globale des archives web dans le futur ».

Dans le reste de sa contribution (la plus pertinente quant au sujet traité), Julien Masanès présente les différentes méthodes de collecte (en ligne, « transactionnelle », par le biais des serveurs), de stockage et d’accès du web. Comme Catherine Lupovici, lui aussi considère que « l’idéal d’une archive isomorphique […] est […], dans la majorité des cas, impossible à atteindre ». La « préservation numérique » suppose la mise en œuvre « d’une pratique et de méthodes nouvelles ». Vastes perspectives qu’une conséquente bibliographie pour l’article (une cinquantaine de références) invite à explorer plus avant.

L’usage des métadonnées

En matière de conservation préventive, Catherine Dhérent, elle aussi de la Bibliothèque nationale de France, estime que l’une des solutions est la création de « métadonnées utiles à la pérennisation des données ». Dans « Bien créer et ordonner pour assurer la pérennisation des documents numériques », elle explique que « la production électronique est venue rappeler des règles essentielles » aux archivistes, après les « producteurs un peu paresseux » de documents papier. Son exposé s’intéresse plutôt à la conservation des archives numériques, et plutôt de type administratif. Mais il peut aisément être étendu à d’autres types de documents et de contextes, d’autant plus qu’il s’appuie sur l’utilisation du désormais bien connu (sinon implémenté) « Dublin Core », ensemble relativement rustique d’une quinzaine de métadonnées fondamentales.

Pour Catherine Dhérent, l’usage des métadonnées doit s’ordonner autour de la nécessaire contextualisation des documents, qui elle-même suppose la mise en place de référentiels documentaires : plan de classement, typologie documentaire, etc. Pour illustrer son propos, elle prend, sans trop les détailler, quelques exemples issus du système mis en place à la BnF – et on regrette que le lien ne soit pas fait avec l’article de Catherine Lupovici présenté plus haut. Pour Catherine Dhérent comme pour Catherine Lupovici, « l’archiviste ne doit surtout pas intervenir pour décrire et contextualiser » (tâches pourtant traditionnelles dans le « monde » papier), ce sont les « records managers », les « gestionnaires des données et documents vivants », qui, au sein des services concernés, doivent s’en charger.

Les archives ouvertes

Comme souligné plus haut, les autres contributions, de bonne tenue, semblent plus éloignées du propos initial. C’est le cas de celle de Jean-Michel Salaün, « Économie du document scientifique : pour des archithécaires » et de Gabriel Gallezot, « Pérenniser la publication scientifique, le mode “Archives ouvertes” ».

Si Gabriel Gallezot insiste sur « la valeur d’usage […] clé de voûte de la diffusion des connaissances », il nous semble s’écarter du sujet en mêlant logique d’accès et pérennisation, dont Catherine Dhérent indique qu’elle concerne essentiellement « les données que l’organisme veut conserver plus de dix ans ». Il défend le même propos résolument optimiste (mais auto-convaincant ?) soutenu dans Les archives ouvertes : enjeux et pratiques autre livre de la collection « Sciences et techniques de l’information ». Pour finir par s’interroger sur la « pérennité du modèle d’auto-publication 2 » – ce qui n’était pas vraiment le problème posé.

Jean-Michel Salaün, lui aussi fin connaisseur du domaine, préfère un regard moins volontariste mais peut-être plus lucide. Il invite à la plus grande prudence sur les « succès et hésitations du libre accès », « en contradiction frontale avec le modèle économique traditionnel », et qui ne concernerait pour l’heure que « 15 % de la littérature scientifique ». Bref, « les chercheurs ne se précipitent pas pour déposer leurs articles en ligne » et les « dépôts institutionnels […] rencontrent un succès mitigé quand ils ne restent pas vides ». Va-t-on assister bientôt à une explosion de la « bulle libre accès »  ? La question mérite, en tout cas, d’être posée.

L’intelligibilité du document numérique

Comme le souligne Lisette Calderan dans son introduction, « le véritable défi [du document numérique] est celui de la pérennisation de son intelligibilité ». Est-ce pour cela que, étonnamment, à aucun endroit de l’ouvrage il n’est question de la fiabilité physique des supports ? Il n’est pas si loin pourtant le temps où l’on s’interrogeait sur la stabilité des plastiques utilisés pour fabriquer les cédéroms et autres vidéodisques, et où l’on développait des produits spéciaux censés assurer une conservation sur plus d’un siècle. Mais cette ère semble révolue car, comme l’indique presque benoîtement Jean-Michel Salaün, le « papier, avec quelques précautions de permanence, garde toute sa pertinence » et, en matière de documents numériques, on « ne parle […] pas de mémoire à long terme ». Dont acte, mais peut-être alors aurait-il fallu convenir, en préambule de l’ouvrage, d’un sens commun et partagé à la notion de « pérennisation » ?

Dans une conclusion fort brillante dans ses prémices (« Approche juridique et technique de la dématérialisation des documents »), Philippe Bazin montre en fait que ce souci de pérennité est lié à « notre culture du “matériel”, [à] notre crainte de l’immatériel », ce que le droit appliqué à l’immatériel prouve amplement. Ce qu’il résume en un axiome à méditer largement : « la dématérialisation se révèle une théorie contradictoire puisqu’elle désigne les objets créés par un système d’information, mais non pas le système lui-même »… qui reste « hypermatérialisé » ! Lui aussi souligne que, pour le savoir, « le support papier reste en ce domaine un élément incontournable », que « l’organisation à mettre en place pour permettre une alchimie féconde entre le papier et l’écran reste à concevoir », et que « ce modèle reste à construire, nonobstant les slogans péremptoires des marchands » : baumes et miels à foison pour ceux qui restent des bibliothécaires…

C’est, si l’on veut, la conclusion un peu paradoxale qu’on pourra esquisser à la lecture attentive de Pérenniser le document numérique. Que, dès qu’on fait l’effort de regarder vers l’avenir ou vers le passé, et non seulement vers le présent – ce qui devient de plus en plus difficile, et suppose un esprit critique de plus en plus trempé – les problèmes sont graves et les solutions souvent anciennes, que les incertitudes sont plus nombreuses que les assurances – mais que c’est, du coup, ce qui rend l’aventure passionnante à vivre.