eXtensible Markup Language

Liliane Miremont

Le 9 novembre dernier, s’est tenue à l'École nationale supérieure des sciences de l’information et des bibliothèques (Enssib) la première journée d’études organisée par l’ISDN – l’Institut des sciences du document numérique 1.Récemment créé, cet institut regroupe 17 laboratoires de recherche de la région Rhône-Alpes. Cette journée avait pour thème le langage XML 2. Huit interventions regroupées en quatre sessions se sont succédé devant une salle fournie. Les interventions furent parfois un peu inégales, passant d’aspects assez techniques pour un public plutôt constitué de développeurs à des aspects commerciaux, dont le contenu paraissait en comparaison assez élémentaire. L’intérêt était tout de même bien là, notamment sur les applications du métalangage XML qui concernent des besoins bien réels. Deux interventions, qui portaient l’une sur BraMaNET (Braille Mathématique sur interNET) et l’autre sur la gestion de documents réglementaires pour la Caisse nationale des allocations familiales, furent à ce titre particulièrement convaincantes.

État de l’art

La première session fut consacrée à l’état de l’art. Daniel Veillard, de W3C (World Wide Web Consortium), a fait le tour des recommandations des spécifications liées à la norme XML1.0. Si le discours fut assez technique, il donna un panorama complet des outils à mettre en oeuvre pour l’exploitation et la production de bases de documents balisés en XML. Les langages XSLT ou XSL sont déjà utilisés pour la transformation de documents XML en HTML pour le web, mais les perspectives liées à XHTML (l’évolution du HTML vers le XML) ou XML Signature, sont très prometteuses notamment, pour ce dernier aspect, en ce qui concerne l’authentification des documents et l’utilisation des signatures.

Au cours de la deuxième session, « Bases de documents multimédias et bibliothèques numériques », la société Calliope présenta un outil « clé en main » d’administration de sites Internet/intranet, « AdmiXer Suite », dont l’objet est de « gérer le contenu du site en toute autonomie sans compétences informatiques particulières ». Ce produit semble s’appliquer à des problématiques simples de gestion de documents courts et bien typés. Claude Chrisment, de l’Institut de recherche en informatique de Toulouse (IRIT), présenta une utilisation de XML pour des bases de documents multimédias. Cet exposé, après avoir abordé l’utilisation du XML, s’est intéressé aux aspects d’exploitation de fonds multimédias : comment restituer le contenu d’un document combinant au moins deux médias – texte, image fixe, son, image animée – pour le segmenter, l’indexer, l’annoter, générer les métadonnées, et enfin, permettre l’interrogation du corpus ainsi défini.

Des applications prometteuses

Les deux interventions de la troisième session, « XML en production », ont présenté des applications prometteuses. La première, par André Violante, de Publilog, « Rtf4xml, un convertisseur global vers XML », avait pour objet de convertir automatiquement des fichiers RTF en XML.Il s’agit pour les éditeurs (ici dans les disciplines mathématiques) de générer rapidement du XML à partir des textes fournis par les auteurs en format RTF ou Latex. Cette conversion permet de générer automatiquement des fichiers XML bien formés et identiques à ce qui a été fourni par l’auteur. Ces textes peuvent ensuite être archivés pour des traitements ultérieurs (en XML ou autres formats) et, dans l’immédiat, être traités par des logiciels de publication assistée par ordinateur (PAO) professionnels, en vue de leur publication. Cette démarche paraît particulièrement pertinente pour qui doit gérer des contenus rapidement tout en garantissant l’avenir. À noter que le traitement des équations mathématiques semble particulièrement efficace. BraMaNET, présenté par Frédéric Schwebel pour la Mission Handicap de l’université Lyon 1, illustre encore le travail de cette cellule à destination des malvoyants. Il s’agit d’une feuille de style XSL associée à une interface graphique permettant de traduire des expressions mathématiques en code braille, lisible à l’aide de plages braille tactiles ou de l’impression sur des « embosseuses » braille. Cette traduction est destinée aux lycéens et collégiens à partir des équations écrites sous Word par les enseignants et autorisera, à terme, lors de la généralisation des technologies XML sur le web, la réutilisation sur n’importe quel serveur ou client XML.Au-delà du produit BraMaNET, cette démonstration a permis une sensibilisation aux besoins des malvoyants concernant l’ergonomie des sites web. Aujourd’hui plusieurs logiciels d’aide vocale leur offrent la possibilité de consulter Internet, mais un effort doit être mené par les concepteurs de sites pour la description des liens et des images par le biais des métadonnées ou des autres champs de description des pages HTML.

Enfin, lors de la dernière session, « XML pour la gestion de textes réglementaires, de corpus multilingues et de documents audiovisuels », Bertrand Chabbat présenta le « XML pour la gestion de documents réglementaires ». Il s’agit pour la Caisse nationale des allocations familiales d’effectuer, à l’aide de XML, une modélisation logique en relation avec une modélisation sémantique des textes réglementaires – du texte juridique aux textes de niveau inférieur appliquant la loi –, afin de rendre possible leur application. L’objet est de proposer « la maintenance » des textes réglementaires, la vérification de leur cohérence et de leur conformité, et à terme, leur consultation avec une navigation avancée. Catherine Roussey, du Laboratoire d’ingénierie des systèmes d’information (LISI-Institut national des sciences appliquées (INSA) Lyon), s’est intéressée à l’indexation multilingue de documents numériques. Les documents sont balisés en XML, ce qui permet de leur incorporer les éléments d’un index relationnel et des annotations contextuelles qui faciliteront ensuite la construction d’une ontologie définie par le documentaliste, puis qui seront proposés à l’utilisateur dans la langue de son choix. Si le projet est alléchant, on regrette que le prototype ne soit qu’en cours de réalisation, car sa présentation aurait permis une visualisation plus explicite.

Enfin, la dernière intervention, d’Elöd Egyed-Zsigmond donna une nouvelle illustration de l’intérêt apporté par la représentation des documents en graphes qu’offre XML. Cette représentation autorise la mise en relation de différents médias et la norme Mpeg7 permettra l’organisation des descripteurs des documents. L’intérêt à terme est également la possibilité de traiter, par le biais de cette structure en arbre, des documents répartis.

Pour conclure, cette journée fut une illustration supplémentaire de l’effervescence actuelle des recherches et des applications basées sur le langage XML. Si le discours s’adressait sans doute plus à un public de spécialistes, il n’en est pas moins resté riche pour tout le monde sur les perspectives à venir, mais également sur les applications que le XML permet déjà de gérer. À vos programmes…