Les documents informatiques et l'avenir du dépôt légal
Olivier de Solan
La récente loi sur le dépôt légal tente de se confronter à l’arrivée attendue d’une masse considérable d’informations numériques mais contrevient au pluriséculaire principe d’exhaustivité, au nom du réalisme. N’y a-t-il pas là une conception erronée du dépôt légal ? A la notion matérielle de document, qui définit aujourd’hui son champ d’application, doit se substituer la notion intellectuelle d’œuvre, qui correspond vraiment à sa philosophie. L’erreur actuelle, qui n’a pas eu de grandes conséquences par le passé, pourrait se révéler coûteuse – au propre comme au figuré – dans le contexte de développement rapide de l’informatique et de la télématique qui est le nôtre.
The recent law on the legal deposit tries to face the expected arrival of a huge quantity of digitalized informations, but contravenes the multisecular principle of exhaustiveness, in the name of realism. This situation comes from an erroneous conception of the legal deposit : the intellectual notion of work, which really fits to its philosophy, must substitute itself for the material notion of document, which defines today its field of application. The present mistake, without important consequences in the past, could cost – in the literal as well as the figurative sense – within the context of rapid development of computerization and telematics.
Das neue Gesetz über den Dépôt légal versucht, der erwarteten bemerkenswerten Flut von digitalisierten Informationen gewachsen zu sein. Es widerspricht aber dem jahrhunderten Grundsätz von Exhaustivität im Namen des Realismus. Gibt es ja keinen fehlerhaften Begriff des Dépôt légal ? Das materielle Dokument als Datenträger ist nicht mehr zu behandeln, sondern das intellektuelle Werk, das gewiß dieser gesetzlichen Philosophie entspricht. Der gegenwärtige Irrtum, der in der Vergangenheit keine großen Konsequenzen hatte, könnte heute viel kosten – eigentlich wie bildlich – in Zusammenhang mit der raschen Entwicklung, die die EDV und die Telematik in unserer Gesellschaft erleben.
Le dépôt légal, en France, peut être défini comme le dépôt exhaustif, donc obligatoire, des œuvres de l’esprit se présentant sous forme de biens matériels et mises à la disposition du public. Les œuvres de l’esprit sont prises en considération à l’exclusion des produits de la technique, même s’il n’y a entre elles aucun fossé mais un dégradé subtil de nuances : tous les produits de l’activité humaine sont des œuvres de l’esprit et de la technique, du roman, sorti de l’imprimerie, à la chaise, résultat de la conception d’un artisan ; on ne considère en fait que la proportion des deux, un bon critère pouvant être la notion d’auteur identifié. Le roman est revendiqué par un auteur ; pas la chaise, en général. C’est pourquoi la chaise échappe au dépôt légal, mise à part toute considération pratique.
On ne peut retenir, cependant, que les œuvres qui se rapprochent suffisamment de la technique pour pouvoir être conservées, c’est-à-dire celles qui se présentent sous forme de biens matériels. On ne peut évidemment pas conserver un discours, à moins de le matérialiser sous forme d’un texte ou d’un enregistrement sonore.
La notion de mise à la disposition du public, critère essentiel de sélection, élimine du dépôt légal tous les documents d’archives, produits pour une seule personne ou pour un petit groupe. Le dépôt légal, depuis son origine, ne s’intéresse qu’aux idées qui circulent et irriguent la société. L’exhaustivité, enfin, est également un concept clef du dépôt légal, affirmée depuis toujours, vraiment réalisée depuis quelques décennies seulement ; elle garantit l’impartialité des choix, qui seraient soumis, on le voit dans les bibliothèques, à l’esprit du temps et à l’attente du public, et permet l’accomplissement de deux missions particulières : la surveillance des idées diffusées, qui était le but principal du dépôt légal lorsqu’il fut institué en 1537, et la protection du droit d’auteur. Ainsi se dégage la philosophie du dépôt légal : surveiller, protéger et garder en mémoire la circulation des idées.
La loi du 20 juin 1992
Pour l’accomplissement de cette mission, la loi définit des règles pratiques. En particulier, la liste des documents soumis à l’obligation de dépôt légal est essentiellement établie sur le critère de l’aspect matériel – mode de production, mode de diffusion, nature des signes. L’apparition de nouveaux types de documents s’accompagne donc d’une activité législative, comme on l’a vu récemment : la loi du 20 juin 1992 1, complétée par le décret d’application du 31 décembre 1993 2, a fait entrer dans le champ du dépôt légal, entre autres, les documents informatiques. Mais les dispositions les concernant contreviennent deux fois au principe d’exhaustivité : en effet, il est prévu que seul un échantillonnage de logiciels 3 sera conservé et les documents accessibles en ligne sont exclus, au nom d’une « approche réaliste du dépôt légal » 4. Visiblement, à cause des nouvelles technologies, on ne croit plus vraiment au dépôt légal et on se dirige vers une démarche d’archiviste.
En fait, le maintien du dépôt légal dans sa logique actuelle n’est pas si complexe qu’on pourrait le penser – on va le voir en décrivant son champ d’application idéal – même si certains aménagements sont nécessaires, à la lumière des difficultés pratiques : la philosophie du dépôt légal n’est pas tant menacée par l’information numérique que par l’analyse archaïque qu’on en fait généralement.
Banques de données et logiciels
L’information numérique peut être répartie en deux catégories fondamentales : les données, où les bits représentent des mots, des sons et des images selon un code particulier, et les programmes, où les bits représentent essentiellement des instructions compréhensibles par la machine.
Dans la plupart des produits numériques sont mêlés données et programmes. Dans le CD-Rom Francis, par exemple, les notices bibliographiques sont accompagnées de programmes qui en permettent l’interrogation, tandis que Word contient des données dans son vérificateur d’orthographe.
Cependant, ces produits, selon la prédominance des données ou des programmes, peuvent être répartis en banques de données 5 et logiciels. Les banques de données sont évidemment concernées par le dépôt légal. Les logiciels, en revanche, sont en quelque sorte une extension de l’ordinateur, dont ils font une machine virtuelle : un logiciel de traitement de texte le transforme en machine à écrire, un logiciel de système de gestion de bases de données en machine à trier des données, etc. A ce titre, les logiciels sont beaucoup plus près des ordinateurs que des données qu’ils ont à traiter, même s’ils se présentent sous des formes identiques ; le terme anglais de software est d’ailleurs très explicite.
La présence des logiciels dans la liste des œuvres de l’esprit définie par la loi sur les droits d’auteur du 3 juillet 1985 est abusive : ce sont plus des œuvres de la technique que de l’esprit ; d’ailleurs, comme le signale Daniel Bécourt, il existe une présomption de cession à l’entreprise des droits des logiciels créés par ses employés 6 : le critère de l’auteur joue plutôt en faveur du classement des logiciels comme œuvres de la technique. Le dépôt légal ne devrait donc pas avoir à s’en occuper.
D’ailleurs, les fonctions des logiciels se raffinant toujours plus, il n’y a pas lieu de regretter la perte de tel logiciel de traitement de texte vieux de dix ans, sinon comme un témoin de l’histoire industrielle ; en ce sens, c’est à un musée des techniques et non à la Bibliothèque nationale de France qu’il revient de s’occuper de la sauvegarde de spécimens.
Documents primaires et secondaires
Faut-il, en revanche, garder les documents accessibles en ligne ? Le dépôt légal s’intéresse aux documents indépendamment de leur moyen de diffusion ; seul compte le fait qu’ils soient mis à la disposition du public. Comme le dit Daniel Bécourt : « La banque de données informatisée et accessible, soit par terminal, soit par Minitel, au grand public ou à une large partie de celui-ci, réalise bien une véritable communication au public de son programme d’une part, des documents qu’elle répertorie d’autre part. Les conditions du dépôt légal se trouvent donc réunies » 7.
Cependant, il est essentiel de préciser de quels documents on parle. Quand il est connecté avec la base Frantext, l’utilisateur a l’illusion de consulter les romans dont il voit le texte, mais il n’en consulte en fait qu’une copie numérique, indexée par le producteur, puis par le serveur. Il paraîtrait inutile de conserver à la fois le roman sous forme papier et le texte numérique indexé, la préférence allant évidemment vers l’original, c’est-à-dire le roman lui-même. Cette remarque met en évidence une nouveauté fondamentale : chaque document est destiné à être représenté par de multiples autres documents, plus ou moins proches de lui, visant à l’utiliser comme source d’information.
Ces documents, qu’on pourrait appeler documents secondaires, sont plus ou moins proches de l’original, ou document primaire : il peut s’agir d’images, de copies 8, de résumés, de notices bibliographiques, etc. Ils ont toujours pour fonction de constituer un substitut de l’original exploitable par une machine, pour en faciliter d’une part le repérage, d’autre part l’accès. Ils sont numériques la plupart du temps mais, si l’informatique a considérablement accéléré leur développement, leur apparition remonte aux premières bibliographies.
Le deuxième paramètre qui les définit, outre la proximité à l’original, est leur code, déterminé par le type de machines sur lesquelles ils sont destinés à être utilisés : la banque de données bibliographique Francis, par exemple, a deux formes, la version pour CD-Rom fonctionnant avec autre langage d’interrogation, donc un autre programme, que la version accessible en ligne sur le serveur Questel. On imagine ainsi le nombre considérable de documents secondaires qui peut s’attacher à un même document primaire !
Mais le plus important, du point de vue du dépôt légal, est que ces documents ne peuvent pas être considérés comme des œuvres de l’esprit mais plutôt comme les produits d’une technique : en effet, ils sont réalisés automatiquement – pour les images et parfois les copies 9 – ou, du moins, selon un code très strict – pour les notices bibliographiques, plus élaborées par rapport au document primaire ; d’ailleurs, tous ces documents secondaires ont en commun de n’avoir pas d’auteur déterminé.
Par conséquent, ils ne relèvent pas du dépôt légal, à la différence des documents primaires, dont ils sont, avec les réseaux de télécommunications, le moyen, complexe et enrichi de nombreux services, de diffusion auprès du public. Il faut donc bien collecter les documents accessibles en ligne, mais les documents primaires seulement.
Deux cas peuvent alors se présenter : ou bien le document primaire est mis à la disposition du public par d’autres moyens que la télématique ; ou bien l’accès en ligne est son seul canal de diffusion. Dans le premier cas, aucun problème ne se pose puisque le document est déjà soumis à l’obligation du dépôt légal. Dans le deuxième cas, le document primaire est normalement un document d’archives, puisqu’il n’est pas physiquement mis à la disposition du public. S’il s’agit d’archives publiques, le problème est réglé puisque le document sera probablement conservé 10. En revanche, s’il s’agit d’archives privées, le document doit être déposé dans le cas où il l’aurait été s’il avait été édité.
Prenons un exemple de chacune de ces quatre possibilités. Les documents primaires accessibles à travers la banque de données MOND, c’est-à-dire les textes parus dans le journal Le Monde depuis 1987, sont déjà soumis au dépôt légal ; les brevets français gérés par l’INPI (Institut national de la propriété industrielle), accessibles sur FPAT, sont des documents consultables à l’INPI et qui seront conservés comme archives ; les articles non publiés dans le magazine américain Time faute de place, accessibles sur la base produite par le journal, doivent être déposés ; les petites feuilles roses, jaunes ou bleues donnant des informations sur les absences des professeurs et sur les cours de l’École nationale des chartes, accessibles sur son serveur, ne sont évidemment pas déposables. Il peut être délicat de demander des archives privées, mais ce ne serait pas une nouveauté puisque cela se fait déjà pour le dépôt légal des émissions télévisées 11. Il est tout à fait envisageable que le service du dépôt légal se contente d’un double électronique et laisse le document lui-même au producteur.
Par ailleurs, la distinction entre documents primaires et documents secondaires, créée pour les documents accessibles en ligne, peut également s’appliquer aux banques de données éditées et à n’importe quel document. Par exemple, il est inutile de garder les bibliographies, sur quelque support qu’elles soient : une bibliographie s’utilise mais ne se conserve pas. Par contre, il serait utile que les périodiques soient dépouillés, car chaque article est une œuvre de l’esprit à part entière et les bibliographies d’articles ne seront plus là pour remédier à ce défaut.
Au total, le champ du dépôt légal est le suivant : les documents primaires mis à la disposition du public ; sont donc exclus les documents secondaires – bibliographies et copies 12 essentiellement – et les documents primaires destinés à de trop petits groupes 13. Restent à examiner les difficultés pratiques qui pourraient s’y opposer.
La conservation des données
Les documents numériques sont le résultat d’un double codage : celui effectué par le logiciel pour le rangement des données, d’une part ; celui effectué par le périphérique de sauvegarde pour transformer les bits transmis par l’ordinateur en information magnétique ou en microcuvettes, d’autre part.
La gestion des documents numériques se heurte donc à deux difficultés pratiques : il faut pouvoir retrouver les bits à partir de l’état physique du support mais également transformer en mots, images ou sons ou encore en instructions les bits ainsi récupérés. Ces questions, qui sont en fait celles de l’archivage électronique, sont actuellement au centre des préoccupations de la Section du dépôt légal des documents informatiques à la BNF 14.
Le problème de la conservation des données sur leur support revêt deux aspects. D’abord, les données inscrites se détruisent progressivement, plus ou moins vite selon les supports, et surtout à des rythmes mal connus en raison de la relative jeunesse du marché. On estime la durée de vie du CD-Rom à quelques dizaines d’années tout au plus et celle du DON (disque optique numérique) à dix ans environ 15. Mais il existe également des supports très durables, dont le Century Disc, gravé sur verre, inventé par la société Digipress, censé durer un siècle au moins, et auquel s’intéresse la BNF. Ensuite, même si les données peuvent être confiées à un support durable, il est fort probable que le lecteur adapté devienne assez vite obsolète, à cause du rapide développement technologique. Il faut donc prévoir de transférer périodiquement les données d’un support à un autre. C’est évidemment très coûteux.
Le problème du décodage à long terme des informations binaires est plus complexe. Les données ne peuvent être lues normalement qu’avec les « couches » logicielles, dont le système d’exploitation, qui ont été nécessaires pour l’écrire, et par conséquent avec le matériel à destination duquel ont été écrits ces logiciels. Deux solutions peuvent être avancées pour résoudre ce problème : celle du transcodage, tout d’abord, c’est-à-dire l’adaptation des fichiers de données à l’évolution des standards 16. Cette solution aurait cependant l’inconvénient d’être lourde et délicate.
L’équipe de la BNF étudie une autre stratégie, qui consiste à attacher au fichier de données toutes les « couches » logicielles nécessaires à son fonctionnement, c’est-à-dire en fait le système d’exploitation, puisque les autres programmes sont livrés avec le fichier, et à simuler le matériel. Cette solution est la plus satisfaisante car elle est plus légère, mais elle consomme de l’espace et risque de provoquer des protestations de la part des propriétaires des systèmes d’exploitation à copier.
Enfin, on peut espérer une simplification du problème grâce aux progrès de la compatibilité et à la fixation de normes internationales acceptées par tous les constructeurs, comme le souligne Pierre de Peretti 17. Cependant, la logique économique est plutôt contraire à cette évolution. Les constructeurs ont intérêt à lancer des standards différents pour avoir une chance, grâce à l’exigence de compatibilité des utilisateurs et aux paris des éditeurs, d’être à terme en position hégémonique. Les périodes de non-compatibilité qui en découlent sont plus ou moins longues, mais existeront tant qu’il y aura un progrès technologique.
La collecte des données
D’autres difficultés peuvent être liées à la collecte des documents primaires accessibles en ligne et appartenant à des sociétés privées.
Premièrement, on peut se demander si la chaîne de production et de diffusion de l’information en ligne ne risque pas d’être plus difficile à contrôler que la chaîne de production et de diffusion des documents édités.
Les trois maillons essentiels en sont les producteurs, qui alimentent les banques de données, les serveurs, qui les organisent, et les réseaux de télécommunications, qui les acheminent vers l’utilisateur 18. Le trafic sur les réseaux est évidemment incontrôlable, du fait de la confidentialité des informations qui y circulent ; restent les producteurs et les serveurs.
Actuellement, en France, chaque service télématique doit être déclaré par un directeur de publication, avec son objet et le nom du fournisseur de services 19. Autrement dit, le serveur doit indiquer les banques qu’il héberge, leurs producteurs et leur contenu. Comme ce n’est pas lui qui détient le document primaire, le contrôle sur lui s’arrête là, mais les déclarations qu’il dépose peuvent permettre de repérer les producteurs, qui sont les véritables interlocuteurs du service du dépôt légal. Il arrive fréquemment, notons-le, que le serveur soit en même temps le producteur d’un unique service télématique.
Ensuite, le producteur doit indiquer s’il possède les documents primaires – des textes, des photos, etc. – et leur nature, ou s’il n’a que des documents secondaires de documents déposés – copie de film ou notices bibliographiques par exemple. Dès lors, un recoupement peut être effectué entre les indications du serveur et celles du producteur. De plus, les vérifications sont bien plus faciles à effectuer que pour les documents édités : il suffit de se connecter au service à contrôler et de comparer ce qui apparaît sur l’écran avec les déclarations du serveur et du producteur et le fichier du dépôt légal. Tout peut se faire en un même lieu, voire devant un même écran.
Le document primaire, une fois collecté par le service du dépôt légal, sera accompagné d’une notice bibliographique permettant de le retrouver et de l’utiliser et d’un double numérique, s’il n’était pas déjà sous cette forme : après avoir été « décapé » de tous ses documents secondaires, il sera pourvu de deux documents secondaires normalisés, attribués par la BNF. Ces derniers ne remplaceront évidemment pas la variété des documents secondaires produits auparavant, mais entreront cependant en concurrence avec eux, et en concurrence déloyale, puisque la BNF est un organisme public.
En fait, la question ne se pose pas vraiment pour la notice bibliographique : si le producteur est détenteur du document primaire, il met certainement un double électronique à la disposition du public, auquel cas la notice de la BNF peut constituer une promotion pour ce double ; s’il a réalisé une notice bibliographique à partir d’une œuvre qu’il ne possède pas, la BNF a autant de droit que lui d’en établir elle aussi une notice. Par contre, il est évident que la BNF doit s’interdire de rendre accessible le double numérique qu’elle détient tant que celui-ci est exploité par le producteur ou le serveur. On rejoint là le débat très actuel sur la reproduction des ouvrages détenus par les bibliothèques.
Un champ d’application à définir
Le dépôt légal n’est pas menacé par l’essor des documents numériques, pour la simple raison qu’il ne doit en garder qu’une petite partie. Les logiciels – qui sont des appendices fonctionnels de la machine –, et les documents secondaires (banques de données bibliographiques, copies ou images d’originaux, etc.) – qui sont des représentations de documents originaux destinées à en faciliter le repérage et/ou l’accès et généralement exploitables par une machine –, sont étrangers au dépôt légal car ils sont essentiellement des produits des techniques de traitement de l’information, et non des œuvres de l’esprit à proprement parler.
La formidable croissance prévisible de la masse d’information en circulation ne recouvre pas une croissance de la masse d’idées – il n’y a pas de raison que nous devenions tous géniaux d’un seul coup –, mais un développement considérable des techniques d’information. La science de l’accès à l’information est évidemment intéressante en soi, mais il est inutile, pour en conserver le souvenir, d’en garder toutes les productions : il suffit de garder des traités et quelques échantillons dans un musée ; de même, on comprend mieux le métier de luthier en conservant des descriptions de son travail qu’en entassant, sur des espaces considérables, des milliards de violons.
Avant le développement de l’informatique, les documents secondaires étaient beaucoup moins répandus et le critère de l’aspect matériel, encore retenu dans la loi du 20 juin 1992 20, suffisait à définir approximativement le champ du dépôt légal. Les conséquences à long terme d’un maintien de ce critère sont effrayantes et on peut aisément comprendre le déclin de l’idée d’exhaustivité du dépôt légal.
Aujourd’hui, il est devenu impossible de faire l’économie d’une définition intellectuelle du champ d’application du dépôt légal : l’ensemble des documents primaires mis à la disposition du public.
Le corollaire de cette nouvelle approche est que chaque unité matérielle qui arrivera au service du dépôt légal, après un premier tri effectué à la source, devra être décomposé en unités intellectuelles, qui feront l’objet de la bibliographie nationale ; en particulier, les périodiques devront être dépouillés.
Certes, cette approche demande de la volonté et des moyens mais ses avantages sont considérables : elle seule peut éviter l’afflux dans le dépôt légal de documents inutiles, dont la gestion serait extrêmement coûteuse ; elle amène même à diminuer légèrement le champ du dépôt légal pour les types de documents traditionnels – notamment les bibliographies et les recueils de copies sont exclus ; en somme, par le décapage des documents primaires, elle permet un véritable entretien de la mémoire. De plus, aucun obstacle technique spécifique ne s’oppose à sa mise en œuvre.
Ainsi, la loi du 20 juin 1992 se retrouve à la fois trop humble – puisqu’elle renonce à des pans entiers de la production des idées – et trop ambitieuse – puisqu’elle veut garder la trace de documents inutiles ; en tout cas, elle ne met pas en œuvre la réforme nécessaire. Puisse cet article susciter un véritable débat sur l’avenir du dépôt légal.
Mars 1995