Les sciences humaines saisies par TEX

Roland Bertrand

Le 3 avril, s'est tenue une journée d'études intitulée « TEX et l'édition en sciences humaines », qui a présenté la caractéristique assez rare de réunir en un même lieu, en l'occurrence la salle de conférence du CNRS, quai Anatole France, des participants d'origines très diverses. Etaient en effet présents des représentants de sciences « dures » : mathématiciens, informaticiens, de sciences « molles » : historiens, sociologues, linguistes, ainsi que des professionnels de l'édition. A noter la participation de scientifiques américains, polonais et allemands.

L'objectif, nous verrons s'il a été atteint, était de montrer l'intérêt d'un logiciel d'édition, tel que TEX, pour les chercheurs en sciences humaines, ceux des sciences exactes étant supposés, sinon convaincus, du moins déjà informés. Pas moins de dix interventions furent offertes à notre réflexion.

Inter TEXtes

Après quelques mots d'accueil prononcés par Alain Giffard (DBMIST), Bernard Girard s'est attaqué méthodiquement à l'exposé des problèmes spécifiques de l'édition d'ouvrages en sciences humaines. Contrairement à une opinion assez répandue, il est apparu que la complexité de ces questions ne cède en rien à celles posées par les sciences exactes. Les difficultés proviennent de la structure même de ces textes et de l'appareil critique afférent. Il y a d'abord le problème des notes, celles-ci peuvent être marginales ou infrapaginales, un lien doit être effectué entre niveau de notes et typographie ; il est souhaitable d'adapter la longueur du texte à la longueur de la note et, bien sûr, il faut que note et appel de note soient situés sur la même page.

Viennent ensuite les problèmes de sommaire et d'index. S'il est souhaitable que leur constitution soit automatique, il ne faut pas oublier que leur mise à jour doit l'être également. Même chose pour la bibliographie qui fait intervenir de surcroît des contraintes typographiques.

Enfin, dernier degré de sophistication, les éditions bilingues cumulant les difficultés précédentes avec la mise en regard du texte original. Ceci nous conduit tout naturellement aux difficultés typographiques que représentent les césures en français ou dans d'autres langues, les signes diacritiques de diverses langues latines et, enfin, les langues non latines, dont le chinois est un exemple extrême puisque s'ajoutent les problèmes de représentation de pictogrammes ou d'idéogrammes et de gestion d'une grande quantité de signes, de 3 000 à 80 000 selon les utilisations. N'oublions pas, même si cela semble plus trivial, les éditions de tableaux et autres graphiques.

En conclusion, Bernard Girard a insisté sur le point suivant : pour sophistiqués que soient ces systèmes, ils ne peuvent se passer du savoir-faire typographique qui n'est ni un art, ni une science, simplement un standard connu depuis longtemps et accepté par tous.

Une première application de TEX aux sciences humaines a ensuite été évoquée par Jean Rispail et Danielle Bonnaud-Lamotte (CNRS Bellevue). Ils ont indiqué les problèmes auxquels ils ont été confrontés lors de la saisie d'articles de périodiques français (Monde, La Revue surréaliste), en vue de leur traitement informatique. Il s'agissait en fait d'une véritable entreprise de traitement lexicologique d'un corpus donné, qui débordait le cadre de cette journée.

Leur succéda un des TEXophiles français les plus connus, Jacques Desarmenien de l'université Louis Pasteur à Strasbourg, qui nous narra l'histoire du produit. C'est en 1976 que Donald Knuth, professeur d'informatique à l'université de Stanford, se voit refuser par Addison-Wesley l'édition et la photocomposition d'un de ses ouvrages. Ne voulant se résigner à recourir à la reprographie, il décide de s'attaquer à la réalisation d'un logiciel de composition et d'édition de textes mathématiques et s'engage ainsi dans un travail de dix années.

Deux versions naissent successivement : TEX 78 et TEX 82. Depuis la fin de l'année 1986, TEX est un produit fini, au sens de Donald Knuth, c'est-à-dire que son concepteur a atteint le but qu'il s'était fixé et s'est résolu à ne plus développer, modifier ni intervenir dans le produit. Le logiciel comporte 15 000 lignes de code - soit 600 pages de listing - et se trouve dans le domaine public. Cependant, quiconque le désire peut toujours l'améliorer ou le transformer, à une seule condition : qu'il ne s'appelle plus TEX.

Il s'en est suivi une présentation technique un peu plus détaillée de l'architecture interne des programmes pour terminer par un exemple d'utilisation de TEX à Strasbourg, à savoir l'édition d'un dictionnaire de théologie catholique en collaboration avec l'université. Il est clairement apparu que les gros problèmes se situent au niveau de la saisie. Plusieurs raisons à cela : c'est un système orienté vers le traitement par lot (batch) et donc pas du tout interactif, le texte est surenrichi de codes cabalistiques de mise en page, d'écriture des formules mathématiques etc., mais aussi le jeu de caractères utilisé (ASCII standard) ne comprend pas les caractères accentués, ce qui oblige à recourir à certaines acrobaties de programmation, et n'oublions pas les problèmes de coupure automatique des mots en français.

TEXtuel

Toujours à Strasbourg, une expérience d'enseignement de l'utilisation de TEX par des secrétaires a été menée, et exposée, par Raymond Seboul (université Louis Pasteur). Même si le bilan fut finalement positif, c'est-à-dire que des secrétaires ont effectivement saisi des textes avec cet outil, il semble que l'expérience soit difficilement généralisable. Tout d'abord, parce qu'il faut un noyau de TEXophiles convaincus - et convaincants - de l'intérêt et de l'utilité d'apprendre toutes les commandes spécifiques de ce logiciel, la simple autorité hiérarchique n'étant probablement pas suffisante, ensuite parce que les textes concernés étaient manifestement très simples, alors qu'il a fallu trois semaines pour y parvenir - l'auteur dixit -, à raison d'une heure de formation journalière et le reste en travaux pratiques. Pour des textes plus complexes, faisant intervenir des « boîtes », des « blancs élastiques », des « ressorts », Raymond Seboul parle de six mois d'apprentissage. Quant à programmer directement en TEX, le nec plus ultra en la matière, n'y pensons plus, lui-même n'en est qu'au tout début, après un an de pratique intensive.

Et Pierre Mac Kay vint ! Autrement dit le second de Donald Knuth, son bras droit, le meilleur défenseur international de la cause de TEX après son concepteur. A TEX, rien d'impossible ! Tel pourrait être le résumé de deux exposés très professionnels. Après avoir confirmé que Knuth considère comme achevé le développement de TEX, Pierre Mac Kay a exposé de prometteuses applications dans le domaine des langues latines et non latines. Le turc ne semble plus devoir résister très longtemps, pas plus que le japonais (des autochtones y travaillent). Et même le chinois puisque les nouvelles technologies optiques de stockage de l'information permettent d'installer sur un CD-ROM 5 fontes différentes de tous les caractères chinois utiles.

La brillante carrière internationale de TEX a été illustrée par trois exposés : Anna Kolodziejska (Institut FUW, Varsovie) sur le traitement des textes polonais, Reinhard Wonneberger (EDS Rüsselsherm, RFA) sur la composition de textes philologiques et Raymond Poggenbourg (Université Van der Bilt, USA) qui doit tout, ou presque tout, à TEX, ce logiciel sans lequel sa Chronologie et édition critique de Baudelaire n'aurait toujours pas vu le jour.

La voix du technicien fut celle de Bernard Gaulle. Le centre de calcul d'Orsay (CIRCE), auquel il collabore, offre depuis 1984 l'accès à TEX et à une imprimante laser Xerox 9700. La mise en oeuvre d'une application décentralisée sur micro-ordinateur avec PCTEX est à l'étude.

Parallèlement à ce produit, le CIRCE a implanté un autre système de PAO (Publication assistée par ordinateur) appelé TOUT INTEGRE qui figure au catalogue d'IBM. Aucun réel bilan d'utilisation n'a pu être effectué pour l'instant. Il semble cependant, d'après les premiers essais, que la faiblesse de l'un soit la force de l'autre, et réciproquement bien entendu. Si la qualité typographique de TEX est imbattable, l'accès à TOUT INTEGRE semble particulièrement convivial. Affaire à suivre... comme la liaison Wordstar-TEX qui n'était pas réellement au rendez-vous.

En résumé, un congrès pour quoi faire ? Pour se rencontrer tout d'abord, c'est-à-dire pour se connaître et également se compter. Il n'était en effet pas du tout évident que 150 personnes d'horizons si divers manifesteraient leur intérêt. Ce fut le pari réussi de Jacques André, initiateur et coordinateur de cette journée.

Enfin, pour mieux mesurer l'intérêt, actuel et prévisible, de TEX pour le secteur des sciences humaines : sur ce dernier point, les participants sont restés partiellement sur leur attente. Certes l'on dit beaucoup depuis quelque temps que TEX est en passe de devenir un standard. C'est peut-être vrai, mais un standard de quoi et pour qui ? Un standard de « formateur » de textes pour le monde de ceux qui gravitent autour de l'informatique ? Fort probablement. Un standard de PAO, de Desktop publishing, pour tout un chacun, c'est déjà beaucoup moins évident, car le produit est fondamentalement non interactif et toute tentative de lui adjoindre une interface de saisie conviviale n'est jamais réellement satisfaisante : on sait se reporter aux développements effectués à partir du système TITUS de Vincent Quint à l'IMAG (Grenoble).

Et puis, D. Knuth a arrêté tout développement de son produit dans le même temps où « le segment de marché explose » comme on dit dans les revues spécialisées.

Donald Knuth contre Apple + Xerox + IBM ! La lutte semble bien inégale...