Vous avez dit TEI ?

Blandine Nouvel

De la description des textes numérisés

Du 9 au 11 juin dernier se sont tenues à Lyon des journées de rencontres sur « La TEI en France, pratiques et perspectives ». Grâce au MutEC 1, soutenu par le TGE Adonis 2, une quarantaine de chercheurs ont trouvé là l’opportunité de présenter leurs projets. Ils se sont confrontés aux arcanes de l’encodage et ont débattu de leurs pratiques et de leurs usages de la TEI.

Liste des principaux sigles

TEI • Text Encoding Initiative (codage des textes électroniques en vue de leur échange)

Le consortium Text Encoding Initiative naît dans les années 1990. Son site fournit l’ensemble des recommandations et outils utiles à l’encodage d’un texte numérique, notamment la dernière version (2007) des Guidelines for Electronic Text Encoding and Interchange P5 : http://www.tei-c.org/index.xml

XML • eXtensible Markup Language (langage extensible de balisage)

Xpath • langage de requête pour le XSLT qui permet de sélectionner des parties d’un document en XML

XTF • XML Transformation Framework

XSLT • eXtensible Stylesheet Language Transformations (langage de transformation XML)

Le site français sur la XSLT : http://www.xslt.fr

Les secrets du « bon » encodage

Au départ, il y a un texte, élément d’un corpus. S’il est manuscrit, il est transcrit puis numérisé ; imprimé, il sera scanné. Le fichier produit est structuré en XML. Lui seront appliquées des balises de la TEI qui définiront les éléments informationnels et la structure logique du texte originel. Cette opération d’encodage peut parfois être automatisée, du moins en partie, mais le spécialiste devra nécessairement y mettre la « main » pour vérification et compléments. Le recours à des prestataires extérieurs au groupe projet pourra être profitable, par exemple pour l’acquisition de données.

Exposés théoriques, exercices d’application, partage d’expériences ont donné les moyens, aux néophytes comme aux plus aguerris, de percer les secrets du « bon » encodage. Rien n’est possible sans compréhension du texte, dans sa forme et dans son fond, puisque l’encodage doit restituer fidèlement la structure du document et les éléments à décrire. D’où l’importance des métadonnées, définies pour l’ensemble du corpus. La TEI n’impose que la description bibliographique comme élément obligatoire dans l’entête du fichier XML. On y définira alors dans un ordre déterminé l’ensemble des métadonnées en prenant soin de veiller à leur compatibilité avec les autres standards. Elles préciseront les éléments relatifs à l’origine du document, à son codage, son profil, ses éventuelles révisions.

Ceci explique le choix épineux du schéma TEI (sélection des balises et spécification de valeurs d’attributs) à définir pour tenir compte des spécificités de chaque projet. Largement discuté, documenté, testé et validé au cours de l’avancement du projet, il devra restituer tous les éléments porteurs de sens, la structuration du texte ainsi que les entités non textuelles, en veillant à clarifier les termes homonymes. En parallèle, on pourra exploiter un thésaurus, construire des listes d’autorité et inclure des liens vers des éléments différents du corpus ou associés. La question de la meilleure méthode reste cependant posée : faut-il intégrer dès le départ toute la bibliothèque TEI pour rejeter finalement les balises inexploitées ou bien sélectionner a priori les balises jugées utiles, quitte à en ajouter plus tard et à devoir corriger l’encodage déjà réalisé ?

D’où, enfin, la nécessité de définir les résultats à atteindre : s’agit-il de constituer une publication en ligne, d’organiser et de gérer un corpus pour l’étude, quel niveau de profondeur choisir dans la description ? Rassurons-nous, l’encodage parfait n’existe pas : le compromis se portera sur un rapport temps d’encodage/objectifs et tiendra compte de la capacité des outils et des logiciels de traitement à gérer toute la TEI.

XML-TEI et édition

Le XML structure l’information mais ne constitue pas la forme de lecture idéale ! En suivant l’exemple des Bibliothèques virtuelles humanistes 3, on peut gérer un site web en XML-TEI via XTF. Plus traditionnellement, on utilisera le langage de transformation XSLT pour gérer l’affichage des données. Puis un processeur type Xpath appliquera aux nœuds successifs du fichier XML un schéma XSLT défini afin de restituer le document mis en forme. Les applications sont multiples : d’abord, rendre lisible un fichier XML pour produire des documents et des outils électroniques de travail répondant directement aux besoins de la recherche, mais aussi élaborer des maquettes sophistiquées, propres à l’édition en ligne ou à la création de supports d’impression.

C’est, entre autres, parce qu’un seul fichier XML peut fournir autant de supports éditoriaux que le trinôme XML-TEI-XSLT est devenu le cœur de la nouvelle chaîne éditoriale des Presses de l’université de Caen, qui ont ainsi su préserver les spécificités des métiers de l’édition et favoriser les relations auteur/éditeur autour du texte, tout en négociant avec succès le tournant du numérique. D’autres expériences convergentes sont conduites 4, mais le modèle doit encore essaimer. Cependant, les obstacles demeurent dans les mentalités : la collaboration chercheur/éditeur et la relation à la publication scientifique doivent changer, les versions évolutives d’un texte doivent être intégrées, les publications électroniques reconnues par l’évaluation scientifique.

Une communauté française en devenir

Les projets exposés 5 et ceux recensés en France démontrent une présence forte dans les disciplines des humanités : linguistique, littérature, histoire, dans les domaines de l’archivistique, de l’édition et des bibliothèques. Malgré l’intérêt tout récent du secteur privé pour les formations proposées 6, se confirme en France le rôle majeur des structures de l’enseignement supérieur et de la recherche. Les compétences y sont fortes, voire uniques, puisqu’elles y trouvent logiquement la matière même de leur exercice : les corpus sont une tradition humaniste et universitaire.

Reste à organiser la communauté TEI nationale. Le TGE Adonis est idéalement positionné et sollicité pour jouer un rôle fédérateur. Les utilisateurs et praticiens doivent néanmoins se « prendre en charge », adhérer au consortium, s’entraider et discuter via les outils existants . Dans la mouvance des digital humanities 7, une nouvelle compétence émerge, à l’interface de l’informatique, de la recherche et de l’édition.