Pérenniser le document numérique

Séminaire Inria 2006

Annaïg Mahé

Le Séminaire IST 2006 1 de l’Inria (Institut national de recherche en informatique et en automatique) a eu lieu cette année du 2 au 6 octobre, à Amboise. Par le choix des intervenants et du lieu, par la rigueur et la cordialité de l’organisation, le cru de cette année n’a en rien démérité dans la longue liste de ces événements bisannuels. Jean-Claude Le Moal, responsable de cette formation depuis 1994 (le cours Inria « IST et informatique » existe depuis 1982) peut être fier de la dynamique relève. Les participants auront, une fois encore, pu s’immerger avec beaucoup d’intérêt et d’énergie dans des sessions riches, ponctuées de moments d’échanges entre experts, grâce à la présence continue des intervenants mais aussi à celle des stagiaires, pour beaucoup non moins experts dans leurs domaines et tout aussi prêts à partager leur savoir-faire.

Gestion et archivage

D’emblée nous avons été mis en garde contre l’illusion de facilité du numérique : pas question d’envisager de conserver à tout-va. Bien au contraire : l’archivage pérenne entraînant une gestion lourde, nombre de considérations sont à prendre en compte dès la création des documents afin d’en optimiser le traitement. Ainsi, le format de fichier doit être choisi en fonction de l’objectif voulu (pérennisation du contenu indépendamment de sa forme ou conservation de l’œuvre dans son format d’origine). L’indexation doit être pensée dès le départ de manière rigoureuse (idéalement sur la base d’un plan de classement qui demande un gros travail de réflexion et de mise en place préalable) et intégrée sous forme de métadonnées afin de permettre la gestion du cycle de vie du document, et notamment l’automatisation des tâches (« un document bien documenté et bien normé rentre ainsi tout seul dans le magasin virtuel »). Dans ce cadre, bien loin de disparaître, la nécessité de sélection des documents est renforcée et la politique de collection doit être délimitée, discutée politiquement et clairement informée.

Quatre types de fichiers seulement représentent 90 % du web.  Afin de préserver non seulement le support mais aussi le contenu des fichiers numériques, il est nécessaire de se baser sur des formats ouverts et très répandus. Si le format XML offre des garanties à long terme c’est le format PDF-A qui s’impose comme format de fichier pérenne et comme standard d’archivage (plus simple d’utilisation, il permet de conserver la présentation du document). Pour le modèle fonctionnel, il existe la norme OAIS 2 (Open Archival Information System), adoptée depuis 1999, mais c’est justement son module de planification de pérennisation qui reste encore son maillon faible, et la veille ; les stratégies et les standards liés à cette problématique nécessiteraient d’être développés de manière plus pratique. Quant à la conservation de ce qui existe sur le web, il faut considérer que celui-ci n’a pas été conçu pour l’archivage mais pour sa créativité et sa dynamique : le web caché et la temporalité des pages font partie des écueils, et il n’existe pas de solution d’archivage idéale.

Des réalisations variées, riches mais encore à développer

L’archivage pérenne n’est pas qu’un classement sophistiqué dans des cartons virtuels : il permet aussi d’envisager le développement d’outils axés sur la construction et l’optimisation des connaissances ainsi stockées. Des archives ouvertes pour les chercheurs à la fouille de texte et à l’annotation sémantique en passant par les prouesses de la numérisation de documents anciens, nous avons pu entr’apercevoir une partie de la richesse des différentes applications en cours de développement et qui promettent de profondes évolutions de nos relations au document.

Les possibilités de multiplication et de modification des copies numériques entraînent une importance croissante de la notion d’autorité. Et nous le savons maintenant : preuve nous fut donnée que l’archivage légal n’existe pas, mais que « l’écrit sur support électronique a la même force probante que l’écrit sur support papier » (et selon la garantie de qualité de la conservation du document, d’où son extrême importance). Quant à la signature électronique, il vaut mieux savoir que, pour le niveau simple, c’est au signataire de prouver qu’elle est fiable en cas de contestation, alors que, pour le niveau sécurisé, c’est au contestataire de prouver qu’elle n’est pas fiable. À chacun de choisir selon le contexte.

Cette dense semaine nous a dépeint un domaine au haut degré de technicité (la fonction de « records managers » notamment est proche de celle de qualiticien) couplé de dimensions humaines et subjectives fortes. Les anciennes fonctions se remodèlent et de nouveaux métiers apparaissent ; les producteurs de documents deviennent conservateurs et les fonctions d’archiviste et de documentaliste se rejoignent ; le document n’est plus seulement archivé mais devient aussi interopérable ; de nouvelles relations des archives aux publics se mettent en place. Ces évolutions sont autant d’occasions de « remettre un peu de rêve » et de redorer le blason de métiers jusqu’alors « de l’ombre ». Encore faut-il pour cela que les institutions perçoivent pleinement la nécessité de se repositionner dans un contexte économique complexe et nécessairement international.