Successes and Failures of Digital Libraries

par Yves Desrichard

papers presented at the 35th Annual Clinic on Library Applications of Data Processing, March 22-24 1998 ; ed. by Susan Harum, Michael Twidale. - Urbana-Champaign, Ill. : Graduate school of library and information science, 2000. – 134 p. ; 23 cm. - ISBN 0-87845-107-2 / ISSN 0069-4789 : 30 $

Les 134 pages bien serrées de Successes and Failures of Digital Libraries sont, malgré l’à-propos pesant du titre, une fort bonne surprise. Il ne s’agit certes pas d’un de ces recueils fastidieux où les orateurs rivalisent de truismes et de vérités révélées sur le passage inévitable ou bienheureux au tout-numérique. Mais il ne s’agit pas non plus d’un de ces méchants petits ouvrages bourrés d’indications techniques, de schémas complexes et de tableaux statistiques abscons qui n’ont d’autre intérêt que de prouver l’absence d’affect pédagogique de leurs auteurs.

Une mine d’informations

En fait, c’est une mine concise et bourrée d’informations et de réflexions sur le premier bilan de la « Digital Libraries Initiative (DLI) », un programme fédéral d’incitation à l’essor des bibliothèques virtuelles (équivalent pour le présent compte rendu de digital libraries), financé par la National Science Foundation (NSA), la Defense Advanced Research Projects Agency (DARPA) et la National Aeronautics and Space Administration (NASA, bien sûr). Ces organisations ont financé six projets orientés digital libraries, dont l’opuscule se propose de rendre compte, dans le cadre du 35th Annual Clinic on Library Applications of Data Processing [sic], sis à l’université d’Illinois à Urbana-Champaign.

En fait, seuls deux des projets retenus sont réellement analysés – et encore l’un d’entre eux, on va le voir, s’arroge-t-il la part du lion, avec plusieurs articles qui lui sont consacrés. De même, le parti délibérément provocateur du titre n’est-il qu’en partie comblé : il est peu question d’échec, même si, entre les lignes, le lecteur attentif pourra discerner aveux, réticences ou préventions. Remarquons au passage que l’existence même du programme relativise les illusions libérales que l’on entretient souvent quant à l’action gouvernementale, aux États-Unis, en matière scientifique ou technologique. À titre d’exemple, le principal projet financé dans le cadre du DLI l’a été à hauteur de… quatre millions de dollars (environ vingt millions de francs), ce qui, rapporté aux… mille utilisateurs effectivement concernés, semble considérable. Il est vrai que (credo) rien n’est trop beau pour les bibliothèques virtuelles qui font libérer le chercheur et fondre miraculeusement les budgets documentaires des établissements.

Le premier projet analysé concerne la collecte et le signalement de thèses électroniques. L’objectif de cet outil, le « Networked Digital Library of Theses and Dissertations » (NDLTD) est la description de 200 000 thèses par an, sur les quelque 400 000 et équivalentes produites rien qu’aux États-Unis. On utilise SGML pour le stockage des documents et, tout à la fois, le catalogue traditionnel en Marc et le Dublin Core pour la description des documents. Un peu rapide, le descriptif inclut cependant nombre d’indications éloquentes quant à l’intérêt d’un tel archivage, ainsi des 200 000 déchargements de thèses déjà réalisés pour les quelques milliers de documents (seulement) disponibles.

60 000 articles en texte intégral

Mais c’est un projet initié à l’université d’Illinois qui occupe l’essentiel du compte rendu. Les contributions suivantes sont, en effet, presque toutes consacrées à la mise en place d’un service de fourniture de textes intégraux d’articles, avec recherche tout à la fois en texte intégral et par le biais d’index spécifiques. Un compte rendu synthétique aurait peut-être été préférable, mais, si l’on n’évite pas de-ci de-là quelques redondances, cette multiplication des points de vue est finalement révélatrice, qui permet d’apporter des éclairages parfois fondamentalement différents sur un objet unique. 60 000 articles publiés depuis 1995, issus de 63 périodiques et relevant de ce qu’on appelle communément les « sciences de l’ingénieur », mais aussi la physique et l’informatique, ont été collectés à destination du public de l’université.

Fort classiquement, l’exposé initial nous renvoie aux schémas abscons évoqués plus haut, en résumant avec un enthousiasme caractéristique de la sphère informatique les principaux acquis techniques : SGML pour le format d’archivage des articles, le moteur de recherche OpenText DBMS, un navigateur finalement spécifique, même s’il n’est pas présenté comme tel, pour la recherche et l’exploitation des articles, et la mise en place de passerelles complexes entre les différents sites hébergeurs – puisque, désormais, les bibliothèques n’acquièrent plus des documents, mais le droit temporaire d’accéder à des documents sans les conserver – un peu comme les lecteurs d’une bibliothèque en somme…

Par-delà le lénifiant discours technique sur les supériorités de SGML par rapport à ses petits frères et sœurs (LaTeX, PDF, TEI, XML, HTML…), les auteurs laissent pourtant affleurer quelques réticences. Ainsi, le Dublin Core est-il qualifié de « minimal metadata tagging semantics », ce qui est à la fois strictement vrai et assez éloigné, nous semble-t-il, des intentions de ses concepteurs. SGML est écorné de ne pouvoir gérer de façon convaincante les formules mathématiques (fondamentales dans les disciplines traitées), et même si la mise en réseau virtuelle des différents serveurs privés que le projet prend en compte est présentée comme un grand succès, on ne peut s’empêcher d’y voir une cacophonie de gestion horriblement lourde : chaque serveur a ses propres contraintes et règles d’indexation, de présentation (par exemple pour ce qui est des DTD en SGML), etc., qu’il faut donc fédérer, avec les difficultés de gestion que cela suppose. On pourrait même y voir une sacrée régression, qui explique peut-être que les ambitions de départ aient finalement été largement revues à la baisse, comme dans tout projet de ce type, même aux États-Unis : des 100 000 documents pour 20 000 utilisateurs annoncés, on est finalement passé à 60 000 documents, ce qui n’est pas si mal, mais pour mille utilisateurs seulement.

Au passage, les auteurs avouent une grande dépendance à l’égard des fournisseurs privés pour les technologies « essentielles » utilisées, y compris au niveau des formats. Voilà qui vient un peu tempérer les discours optimistes sur l’indépendance des nouveaux formats par rapport aux fournisseurs et, donc, la non-collusion des intérêts publics des établissements avec les intérêts privés des prestataires. D’autant plus que, dans un autre article, l’American Institute of Physics, l’un des éditeurs partenaires, avoue tout de go que SGML n’est pas adapté à la gestion électronique de « leurs » publications, contrairement à PDF, format éminemment propriétaire comme chacun sait !

Making sense

En parfait contraste avec la doxa numérique, les points de vue sociologiques sur le même projet viennent quelque peu tempérer le volontarisme affiché. On y apprend ainsi que, dans la première version de l’applicatif, près de 90 % des usagers abandonnaient la consultation avant même d’accéder à leur premier article ! Quand on sait que le public est composé à 75 % d’hommes de moins de trente ans, a priori aguerris à la recherche en ligne, voilà de quoi engendrer une belle déprime quant au caractère fondamentalement intuitif des interfaces développées.

Comme l’invective une autre contribution, il faudrait « making sense of new online systems ». Dommage que, comme souvent dans ce genre d’étude des comportements des utilisateurs, par delà la constatation des faits ou des pratiques, on se contente de déclarations faciles sur les suites à donner : effort de simplicité, réelle connaissance des besoins des utilisateurs, nécessité d’informer les usagers. Une belle leçon d’humilité, mais que vient pour part contredire la présentation détaillée des interfaces utilisées pour l’accès aux documents : certes, on s’est efforcé d’intégrer le mieux possible l’outil au système d’information de la bibliothèque, mais le tout semble encore horriblement compliqué… Au final, l’un des contributeurs avoue ingénument que ce sont les relations humaines qui sont au cœur des collaborations réussies, grande découverte que feraient bien de méditer démarcheurs qualité et autres formalistes à tous crins…

Trois petits bijoux

Successes and Failures of Digital Libraries se termine par trois courts textes qui semblent n’avoir aucun rapport avec la DLI, mais qui, chacun dans son genre, sont de petits bijoux d’orfèvre de la science bibliothéconomique…

>« Lessons learned from full-text journals at OCLC » résume l’acquis sur les publications électroniques du plus grand fournisseur au monde d’information bibliographique – on ne peut donc y être indifférent. On y retrouve la concision d’OCLC et le pragmatisme anglo-saxon, le tout en cinq pages. Il faudrait citer chacune des leçons que l’auteur retient (onze en tout), mais n’en citons que quelques-unes : « SGML helps but not much » : les variantes de SGML propres à chaque éditeur sont trop délicates à gérer, vive PDF ! Sans commentaire par rapport à ce qui précède… ; « Production was as expensive as predicted » : les coûts de mise à disposition sont aussi élevés pour la fourniture électronique que pour la fourniture papier ; « Proprietary clients are wrong », et pour finir, celle qui résume tout : « It is the data that matters. » En quelques lignes, Thomas Hickey en dit plus que bien d’autres en cent pages. On reste admiratif…

>« The future of annotation in a digital (paper) world » propose rien moins qu’une écologie de l’annotation dans le contexte du document électronique ! L’auteur n’étant dépourvu ni d’humour, ni de poésie, l’exposé, qui emprunte inévitablement au « Memex » du père fondateur Vannevar Bush, embrasse aussi bien l’annotation proprement dite dans les marges matérielles ou virtuelles des ouvrages que les discussions informelles entre chercheurs. Il présente le projet « VIKI », un outil développé pour rassembler les documents disponibles sur un sujet donné justement dans une logique annotative, hypertextuelle comme l’on dit. Il est clair (et la bibliographie le confirme) qu’il n’a jamais entendu parler du fameux PLAO, Poste de lecture assistée par ordinateur, de la Bibliothèque nationale de France, avec lequel son projet présente pourtant bien des similitudes : sic transit…

Mais la perle de l’ouvrage est aussi sa conclusion. Dans « Give me documents or give me death » (quel titre !), David M. Levy, ancien du fameux Xerox Palo Alto Research Center, élève très nettement le débat. Pour lui, le chaos qu’est Internet (peut-être par essence) révèle à rebours, et fait mieux comprendre, les immenses efforts déployés depuis l’avènement du manuscrit, et plus encore l’invention de l’imprimerie, pour inventorier, classer, rendre accessible de manière intellectuellement compréhensible, la production culturelle humaine. Cet effort n’est pas spontané. Pour lui, il s’agit d’une « anxiété de l’ordre » qui est l’un des fondements de la culture occidentale. Si la culture, au sens (très) large est un besoin de faire face à la mort, et de la dépasser en lui survivant d’une manière ou d’une autre, alors l’anxiété de l’ordre participe de la même démarche de survie.

Le monde de l’imprimé, comme David Levy le souligne en puisant abondamment dans les œuvres de Roger Chartier, n’est pas plus ordonné que le web (pour faire vite). Mais les documents imprimés transmettent le « body and soul » de leurs auteurs, et leur support, si fragile soit-il, est la concrétisation qu’il s’agit de préserver de cette « âme transmise », qui donne à l’anxiété un point d’appui pour s’exercer. Les documents électroniques, eux, poussent la bibliothèque à s’étendre hors de ses murs, et finissent par rendre insupportable le hiatus entre l’ordre interne, soigneusement construit, et le désordre externe, de plus en plus difficilement canalisé. Cette entropie, ajoutée à l’absence de support à protéger propre au numérique, contribue à une renaissance de l’anxiété, qu’il s’agira (l’auteur veut rester optimiste) de surmonter une nouvelle fois.

Pour finir, l’auteur se déclare assuré de découvrir « [an] extravagant happiness » dans la maîtrise à venir des nouvelles formes de diffusion de l’information et de la culture. Quoi qu’esbaudi devant la teneur finalement poétique de la déclaration, on peut rester sceptique. Au moins Successes and Failures of Digital Libraries aura-t-il apporté, en peu de pages, matière à de riches et denses réflexions, en faisant un « must » à peine daté pour tous les amateurs du genre.