L'avenir des formats de données

Annie Garden

Afin de faire le point à un temps « t » sur les développements actuels de la formalisation de l’information bibliographique, la commission de concertation sur l’information bibliographique enrichie de l’Association des bibliothécaires français (ABF) et Médiadix consacraient le 30 mars 2001 une journée d’étude à l’avenir des formats de données. Perturbée en son démarrage par des transports en commun eux-mêmes perturbés, cette journée, qui a rassemblé un grand nombre de professionnels de toute la France, a été menée tambour battant et n’a pas épuisé le sujet même si elle l’a bien « balisé ».

Contexte historique

Dominique Lahary, directeur de la bibliothèque départementale du Val-d’Oise et coordinateur général de la commission sur l’information bibliographique enrichie, replaça le débat dans son contexte historique, n’hésitant pas à employer les termes de « bataille » et de « crise », tant il est vrai que ces dernières années ont pu voir un véritable raz-de-marée bousculer le domaine assez clos de l’information bibliographique. Depuis l’explosion de l’informatique et surtout d’Internet, de nouveaux besoins sont apparus que la tradition bibliothéconomique ne prenait pas en charge : échanger des données et décrire des documents numériques, permettre la recherche sur des données textuelles ou non, décrire des documents à plusieurs niveaux et éviter dichotomie ou redondance entre traitement des ressources physiques et traitement des ressources électroniques.

Nous sommes passés en quelques années du traitement de la seule information secondaire à un traitement associant des métadonnées à des documents primaires. Les bibliothèques disposent depuis de nombreuses années d’une formalisation structurée spécialisée (normes de catalogage et formats MARC) qui se heurte aujourd’hui à des limites : le monde MARC, qui reste réservé à celui des bibliothèques, est fractionné en sous-ensembles nationaux ou internationaux qui ne facilitent pas les échanges ; il évolue lentement dans un contexte multimédia qui, lui, change très vite.

Surtout, les formats MARC ne peuvent servir à structurer une information complexe en arborescence satisfaisante. Ce sont ces trois limites : limites des concepts bibliographiques classiques, limites du cadre descriptif et difficultés de l’interrogation simultanée qui invitent la profession à rejoindre le monde du World Wide Web et à utiliser d’autres formats. À cela s’ajoute la nécessité d’inclure les bibliothèques dans la chaîne numérique : du manuscrit à l’impression et à la diffusion de l’information. Les bibliothèques ne sont plus seules dans l’univers et, face à un patrimoine à réévaluer pièce par pièce, les notions de format d’échange et d’interrogation multibases sont cruciales.

Loin de l’intervenant l’idée de « faire table rase du passé », mais il insista sur le devoir d’inventer et de partager les technologies, les standards et les outils avec tous ceux qui, comme nous, œuvrent dans le monde du livre et du texte, dans celui de l’information et de la documentation, mais aussi avec le monde du commerce et de l’industrie et surtout avec celui de l’informatique. À nous de « relever le défi de la réunification sur la base de standards partagés ». Tout un programme…

Nouveaux standards

Mais comme l’a annoncé Pierre-Yves Duchemin, de la Bibliothèque nationale de France (BnF), « there is a life beyond MARC » : il a donc présenté les nouveaux standards. Avec l’augmentation de l’édition électronique et des bibliothèques numériques, avec la surabondance d’informations disponibles en ligne, est apparue la nécessité de nouveaux standards de structuration des métadonnées. Ainsi est né le Dublin Core : « L’association de métadonnées descriptives standardisées avec des objets en réseau offre un potentiel d’amélioration substantiel des possibilités de découverte de ressources : en permettant des recherches basées sur des champs (e. g. auteur, titre), en permettant l’indexation d’objets non textuels et en permettant l’accès à un contenu de substitution… » 1 Nous voilà bien à l’intersection de la formalisation ISBD et de la formalisation d’un accès bibliographique à plusieurs niveaux.

De nouveaux formats de structuration de l’information électronique ont vu le jour depuis les années 1980.

SGML (Standard Generalized Markup Language) définit la structure logique d’un document électronique et fonctionne grâce à des DTD (définitions de type de document) qui déterminent les éléments à coder avec leur syntaxe d’utilisation. SGML s’est développé dans le monde de la production de documents électroniques.

HTML (Hypertext Markup Language) est une sorte de DTD SGML simplifiée, utilisée pour concevoir des pages web. HTML définit plus la structure physique que la structure logique du document électronique.

XML (eXtensible Markup Language) est un sous-ensemble de la norme SGML conçu pour être aussi simple d’utilisation que HTML tout en offrant la possibilité de décrire des documents multimédias et/ou volumineux et dont la structure est complexe. Ce métalangage a également été conçu pour fonctionner aussi bien dans le monde de la documentation géré par SGML que dans le monde du web qui a produit HTML. En plus, XML offre une possibilité d’arborescence illimitée ; il est également UNICODE et offre ainsi des possibilités importantes de choix de caractères.

Il fonctionne avec des balises et des DTD : plusieurs DTD SGML traduites en XML existent déjà qui concernent le monde des bibliothèques, par exemple ISO12083 adaptée au traitement des imprimés, des périodiques, des articles et des formules mathématiques, TEI au traitement des thèses en texte intégral et EAD au traitement des fonds d’archives. D’autres DTD existent, par exemple MASTER pour les manuscrits médiévaux, et BiblioML, présenté au cours de cette journée.

XML à la Bibliothèque nationale de France

Pour illustrer l’utilisation d’XML comme nouveau standard de formalisation, Annie Imbaud, de la BnF, présenta les projets en cours à la BnF (Gallica, la revue de synthèse, l’intranet documentaire, le site web, les Signets et la Bibliographie nationale française), voulant ainsi montrer que XML permet de traiter de façon similaire tout ce qui peut être publié, qu’il s’agisse de données bibliographiques ou de documents numériques.

L’utilisation d’XML permet la structuration de l’information en séparant le contenu intellectuel et la présentation pour pouvoir faciliter la recherche et l’échange de cette information. Cela permet également l’automatisation de la production des publications pour des mises à jour rapides. Par exemple, pour la base de données Gallica, le traitement en XML permettra de regrouper toutes les informations pour un même document, alors qu’actuellement le catalogue, les documents numérisés texte, les images numérisées et les tables des matières sont hébergés chacun sur un serveur différent. Cet exemple montre bien l’éclatement actuel dû aux différents formats employés. En ce qui concerne les Signets, l’utilisation d’XML permettra une recherche plus riche pour l’utilisateur grâce à une indexation plus fine et, surtout, à l’automatisation de la composition des pages, de la validation et de la vérification des liens. Une structuration arborescente sera aussi possible.

BiblioML, autre application XML, fut présentée par Martin Sevigny, consultant en gestion de l’information électronique chez AJLSM. Issu de la volonté du ministère de la Culture et de la Communication de mettre en place un outil commun de gestion et de diffusion des références bibliographiques, BiblioML est une DTD qui permet de représenter toutes les informations que l’on trouve dans une notice Unimarc (bibliographique et autorités) en format XML. BiblioML est basé sur UNICODE, ce qui règle de nombreux problèmes de multilinguisme ; d’autre part, la taille des documents ou des champs n’est pas limitée. Pour le développeur du programme « a bit is a bit » ; l’intégration de la description, de la table des matières, du texte intégral et des images doit être naturelle. S’il n’y a pas encore de suite logicielle complète permettant une prise en charge intégrée d’un système documentaire basée sur XML, il existe un outil de conversion qui permet de récupérer des enregistrements Unimarc et de les convertir en format BiblioML 2.

En fin de journée, une table ronde regroupant les intervenants, ainsi que Laurent Dervieu de la société Électre et Jacques Kergomard de la société Opsys, permit de faire un point réel sur l’état de l’évolution sur le territoire français. Électre propose déjà une base de données structurée en SGML et envisage l’utilisation de XML très rapidement, car, pour Laurent Dervieu, cette formalisation en XML favorisera le dialogue entre fournisseurs d’information bibliographique, éditeurs et libraires. Quant à Jacques Kergomard, il est tout à fait acquis à l’idée de sortir du « ghetto » MARC et envisage un logiciel capable d’intégrer les différentes DTD.

Le débat avec la salle a reposé les questions de l’éparpillement des DTD, des nécessités d’échanger des notices et du remplacement du protocole Z39.50. Les inquiétudes face à ce bouleversement sont sensibles, mais chacun est bien conscient qu’il nous est en ce moment accordé une chance de pouvoir penser ensemble, tous acteurs confondus, à une structuration intelligente de l’information.