L'avenir des formats de communication

Yves Desrichard

La Bibliothèque nationale du Canada (BNL) et la Banque internationale d’information sur les États francophones (BIEF) de l’ACCT (Agence de coopération culturelle et technique) ont réuni à Ottawa, capitale fédérale du Canada, du 7 au 11 octobre 1996, des bibliothécaires et des professionnels de l’information du monde entier pour une conférence internationale 1. L’ambition de cette conférence était d’interroger « l’avenir des formats de communication », c’est-à-dire des formats et structures informatiques de description des informations, qu’elles soient textuelles ou sous forme d’images, de son, etc., et qu’elles soient constitutives des documents eux-mêmes, ou des descriptions de ces documents, ce que quelques conférenciers qualifièrent de « méta-information ».

Tous les types de formats

D’emblée, il fut évident que la notion de « communication » était suffisamment large pour englober tous les types de « formats » possibles, de la famille fortement structurée et normalisée – ou supposée telle – des formats marc jusqu’aux formats propriétaires de type Postcript qui se développent, voire s’imposent, dans une approche plus pragmatique liée à la « loi du marché ». Il fut également évident que, en l’espèce, les notions d’échange et d’interopérabilité constituaient, plus que les formats eux-mêmes, les points clefs des débats.

Derrick de Kerckhove, de l’université de Toronto 2, plaça d’entrée de jeu la conférence à un très haut niveau, invoquant tout à la fois les mânes d’Andrei Tarkovsky et celles de Molière dans un exposé brillant et stimulant qui mit l’ensemble des communications qui suivirent, très techniques pour la plupart, dans une perspective plus large, celle du phénomène humain, le père Teilhard étant lui aussi mis à contribution.

Les exposés proposés pendant ces quatre journées bien remplies brossèrent un panorama complet et étayé des formats disponibles : la famille des formats marc, et ses épigones comme le ccf (Common Communication Format), furent passés en revue, comme on pourrait le dire d’une armée... forte de plusieurs dizaines de variantes différentes ! Pour rester dans la métaphore militaire, Internet occupa tout aussi largement le terrain, tout à la fois par ses protocoles (qui ne sont pas à proprement parler des formats), comme le fameux tcp/ip (Transfer Control Protocol/Internet Protocol), ou l’incontournable Z39.50, mais aussi par les formats proprement dits de description de documents, comme html (Hypertext Markup Language). Comme le souligna avec humour Terry Kuny, du Global Village Research, the best thing about standards is that they are so many to choose from. De fait, le nombre de « formats », « normes » et autres recommandations évoqués était propre à décourager le professionnel de l’information le plus averti !

SGML

L’un des formats les plus discutés actuellement est le format SGML (Standard Generalized Markup Language). Élaboré il y a plus de dix ans maintenant, notamment pour répondre aux besoins de l’Office européen des brevets, SGML n’est pas à proprement parler un format, mais plutôt une méthode pour élaborer des formats, une « norme de normes », comme le résuma l’un des intervenants. Les documents élaborés en conformité avec sgml sont caractérisés par une DTD (définition de type de document), qui décrit la structure des documents dans un métalangage. Peuvent être ainsi isolés non seulement les constituants effectifs du document (chapitres, notes, encadrés), mais aussi les éléments descriptifs (titre, auteur, éditeur).

Dès lors, beaucoup s’interrogent sur la « fin du catalogage », puisque, en théorie, un logiciel qui traite sgml pourrait réaliser « automatiquement » la notice descriptive correspondante. Sur ce point, les intervenants, même non bibliothécaires, s’accordèrent pour dire que, si l’on s’oriente vers « le catalogage assisté par ordinateur » (CAO), il serait prématuré de remplacer « assisté » par « automatisé ». Cette crainte resurgit néanmoins quand on évoqua les accès possibles directement dans le texte du document, ou l’initiative controversée du Dublin Core, qui se propose d’établir pour les auteurs/producteurs de documents sur Internet une « charte » pour un catalogage minimal de tous les documents disponibles, soit plusieurs dizaines de millions de pages.

L’initiative, soutenue entre autres par OCLC, en laissa plus d’un perplexe, et l’on eut beau jeu de rappeler que, entre la gestion des abréviations, des sigles, etc., l’indexation matières, les formes des noms propres, d’importants efforts d’harmonisation et de normalisation étaient à prévoir... efforts qui, depuis des dizaines d’années, ont été et sont quotidiennement réalisés par les catalogueurs et les gestionnaires de bases de données bibliographiques ou documentaires !

Sally H. McCallum, de la Bibliothèque du Congrès, le souligna, tout en présentant l’impressionnant travail réalisé conjointement par des spécialistes de SGML et d’USMARC qui ont préparé la DTD 3 du format USMARC. Cet « effort » même prouvait ce que tous les intervenants qui traitaient de sgml avaient déjà déclarés : que, de par sa souplesse et sa puissance, SGML « englobe » les formats de type MARC, tout comme il englobe HTML, qui n’est qu’une dtd spécifique de sgml. Pour autant, l’utilité pratique d’une telle réalisation n’est pas encore avérée : il n’existe pas pour l’instant de gros systèmes de gestion de bibliothèques qui utilisent SGML, même si le catalogue de l’université de Berkeley est disponible dans ce format.

Les logiciels qui gèrent SGML sont chers et peu répandus ; les documents qui font l’objet d’une DTD sont, hors le cadre institutionnel, encore rares. C’est que, par-delà la complexité de fabrication d’une DTD, les problèmes de préservation du droit d’auteur et du droit de reproduction, sont, pour les documents électroniques, encore largement non résolus. Les techniques de « tatouage » ou de paiement automatique à la consultation sont, en théorie, prêtes : pour leur application, c’est une tout autre affaire.

Pour autant, et sans qu’on sache trop s’il fallait invoquer la méthode Coué ou le syndrome de l’œuf et de la poule, Claude Schneegans et Robert Dupuy, de Tecsult Eduplus, considérèrent que les systèmes de bibliothèques fondés sur la gestion de formats MARC avaient un « avenir flou », ce qui n’était pas le cas des systèmes, encore à venir, gérant des formats SGML 4. Il est vrai que l’idée de pouvoir utiliser dans un même « format » de la méta-information (notices bibliographiques en sgml) et des documents eux-mêmes est plus que séduisante à l’heure où les bibliothèques proposent de plus en plus de documents directement sous forme électronique.

Des professions convergentes

L’ensemble des intervenants souligna la forte convergence en cours, dans le domaine du document électronique, entre les acteurs « traditionnels » de l’ex-chaîne du livre. Les auteurs sont maintenant producteurs de documents, les éditeurs sont aussi diffuseurs, et les lecteurs sont bien souvent aussi producteurs. Quant aux professionnels de la documentation, et notamment aux catalogueurs, si leur rôle, pour beaucoup, reste essentiel, voire crucial dans un contexte de complexification des techniques et d’explosion de l’offre documentaire, ils ne peuvent plus considérer leur profession comme « à part » de cet univers, dont Internet est pour l’heure la manifestation la plus connue.

Pour preuve, les débats autour de sgml, les initiatives comme le Dublin core, ou la nécessité de prendre en compte des évolutions normatives sur lesquelles la profession n’a plus de maîtrise : si d’aucuns regrettèrent que les informaticiens redeviennent les « maîtres du jeu », beaucoup considérèrent cette évolution comme bénéfique. Enfin obligés de composer avec les contraintes des producteurs comme des consommateurs d’information, le « médiathécaire » peut désormais comme tout un chacun faire entendre sa voix, avec, pour le soutenir, ce capital de dizaines d’années d’effort dans le domaine du traitement raisonné de l’information.

Ceux qui étaient venus chercher des réponses définitives à des questions aussi brutales que « SGML va-t-il supplanter les formats marc ? » ou « La fonction de catalogage va-t-elle disparaître ? » repartirent sans doute déçus, non pas tant de n’avoir pas eu de réponse à ces questions... que parce que ces questions mêmes ne semblaient pas avoir une grande pertinence, la nécessité d’organisation de l’information, de son traitement, de sa recherche, de sa sélection, transcendant des problèmes techniques là où c’est la... métatechnique qui, pour une fois, l’emporta !

Les nombreux professionnels de l’information en provenance de pays « en voie de développement », notamment d’Afrique, surent par ailleurs, et fort opportunément, replacer ces débats techniciens dans le contexte plus large de la responsabilité humaine face à la transmission de la culture, qu’elle soit scientifique ou artistique. Soulignant le fossé qui peut exister, en termes de réseaux, d’infrastructure, de moyens et de méthodes, entre les pays du « Nord » et ceux du « Sud », ils montrèrent que, par-delà les agitations éphémères autour de tel format ou de tel protocole, il fallait traiter les biens d’information d’une manière non pas seulement mécanique mais aussi culturelle.

  1. (retour)↑  Les actes de la conférence internationale seront prochainement disponibles : des renseignements peuvent être obtenus sur le serveur www de la Bibliothèque nationale du Canada à l’adresse suivante : http://www.nlc-bnc-ca
  2. (retour)↑  Auteur du fameux ouvrage La Civilisation vidéo-chrétienne, Paris, Retz, 1990 (Actualité des sciences humaines).
  3. (retour)↑  En fait deux DTD, l’une principalement pour le format bibliographique, l’autre principalement pour le format d’autorités.
  4. (retour)↑  La cohabitation de différentes dtd, par exemple et pourquoi pas celles d’USMARC et d’UNIMARC, au sein d’un même système, ne semblant pas poser de problèmes techniques particuliers.