Multilinguisme et multiscripts, l’avenir informatique

Marie-Renée Cazabon

Vendredi 21 juin 2002, de nombreux professionnels se sont rendus à la journée d’étude « Multilinguisme et multiscripts, l’avenir informatique » organisée par Médiadix. Une surprise « graphico-musicale » réalisée par des étudiants du département Communication audiovisuelle attendait tout d’abord les participants accueillis par Christophe Pavlidès, le nouveau directeur de Médiadix, avant de plonger dans le vif du sujet, sympathique façon de célébrer la fête de la musique en faisant un lien avec le programme.

Il s’agissait en une journée de passer de l’histoire des écritures, en évoquant leur diversité et les langues qu’elles véhiculent (ou non), au codage des caractères (latins ou non), pour finalement faire le point sur le profit que nous, professionnels de l’écrit, pouvions retirer d’Unicode.

De Lascaux à Unicode

La première intervention portait sur l’histoire des écritures. Annie Berthier, de la Bibliothèque nationale de France, en a évoqué la naissance, partant du dessin d’un objet sur les parois des grottes, passant par la représentation phonique et parvenant à la lettre prolongement du son.

Brutal, beaucoup moins poétique mais nécessaire, fut ensuite le saut dans l’histoire proposé par Jacques André, de l’Institut national de recherche en informatique et en automatique (INRIA), qui, du télégraphe de Chappe à Unicode, traita de l’ambiguïté du codage des caractères en passant par Morse, la fumée des Indiens, le langage des signes pour les sourds, les machines à composer, les premiers claviers (non accentués) de machines à écrire,… Cette intervention était complétée dans la foulée par celle de Sylvie Baste à partir de la rédaction de sa thèse, qui nous promettait de revenir sur le multilinguisme, les multiscripts, et, ce qui concernait la majorité des auditeurs, plus largement sur les usages d’Unicode en bibliothèque.

Ces deux présentations, denses et très documentées, devaient faire le point sur les lacunes révélées par les premières normes de codage, telles ASCII (American Standard Code for Information Interchange, standard sur un octet, destiné à écrire en anglais) ou Iso 646 (table de base semblable à ASCII mais complétée par des usages nationaux) et nous amener à la logique fonctionnelle d’Unicode. Ce standard et cette norme, fondés sur un codage à 7 bits, ne permettaient que 128 possibilités de caractères relevant d’alphabets latins. Le passage à un codage sur 8 et 16 bits prend aujourd’hui en charge les caractères latins accentués, étendus aux caractères grecs et cyrilliques propres aux langues européennes et les caractères hébreux, arabes, coptes, arméniens, ceux qui s’écrivent de droite à gauche, de haut en bas, en colonnes, les idéogrammes, les caractères chinois, japonais, coréens (CJK),…

Le rôle de la normalisation internationale dans ce développement a pour une fois été un puissant moteur. Contrairement à certains domaines où les concepteurs des technologies de l’information, soucieux de conserver leur monopole, perçoivent la normalisation comme une contrainte, le domaine du codage a vu émerger un compromis entre les deux parties. C’est ainsi que le consortium industriel Unicode et les instances de normalisation internationales ont adopté une table unique commune de 65 536 caractères sur 2 octets, voire plus. Avec ce jeu universel de caractères, on peut coder toutes les langues « industrielles ». Unicode, en supplantant l’ASCII, est un sous-ensemble de la norme ISO/IEC 10646 . C’est surtout un consensus pour ne pas compromettre les échanges internationaux multilingues de données informatiques. Il est toutefois important de noter qu’un certain nombre de langues de tradition orale, qui n’ont jamais fait l’objet de transcription, ne sont pas prises en compte par Unicode et l’Iso.

Les applications bibliographiques d’Unicode

Arrivés au terme des premières interventions de la journée, si éditeurs et imprimeurs, concepteurs de sites Internet y avaient trouvé leur manne, nous étions quelques-uns encore sur notre faim pour évaluer concrètement ce que recouvrait l’incorporation d’Unicode dans nos applications bibliographiques. Sylvie Baste, dans sa deuxième intervention, a alors décrit les difficultés rencontrées par les internautes dans leurs recherches d’informations bibliographiques ou textuelles sur des sites multilingues ne pouvant être lus que grâce à Unicode. En outre, elle a évoqué les caractéristiques du système d’écriture arabe où les lettres changent de forme selon leur position dans le mot, sont tributaires de la langue utilisée et des traditions esthétiques.

Une récente étude menée par un groupe de travail sous la responsabilité de Danielle Duclos-Faure, de la Sous-direction des bibliothèques, a fait en 2001 l’état des lieux des fonds en caractères non latins, dans les bibliothèques universitaires et de recherche 1. Il en ressort que l’on trouve actuellement environ un million de titres dans 44 établissements, pour des ouvrages en cyrilliques, CJK, arabes, et caractères latins étendus (diacrités). Les catalogues sont majoritairement manuels. Dans le Sudoc 2, qui comprend 5 millions de notices, 13 millions de localisations pour 113 établissements, on ne trouve actuellement aucun caractère non latin, les 133 250 notices d’ouvrages en caractères non latins sont transcrites selon les normes de translittération Iso, et le format de saisie est Unimarc. Danielle Duclos-Faure a également évoqué les missions de la future Bibliothèque universitaire des langues et civilisations (Bulac) et les choix à faire pour le catalogue : unicité, multi-écritures, participation au réseau du Sudoc. Les conditions du catalogue unique multi-écritures seront fondées sur :

– le jeu de caractères Unicode (ISO/IEC 10 646), pour le stockage et l’affichage des différents systèmes d’écritures utilisés ;

– des normes de translittération réversible, pour les écritures alphabétiques et syllabiques ;

– un format de catalogage (bibliographique et autorité) qui autorise le double enregistrement des zones en écritures originales et en romanisation, et qui permet l’identification du système de romanisation employé pour faciliter l’indexation, la recherche et l’affichage ;

– la mise en place de fichiers d’autorité multi-écritures liés aux fichiers bibliographiques.

Pour terminer cette journée, Philippe Corentin Le Pape, de l’Agence bibliographique de l’enseignement supérieur (Abes), a présenté les principes adoptés pour le Sudoc qui devrait migrer vers Unicode en 2003 :

– double écriture en transcrivant la plupart des données descriptives (vedettes et titres) une fois dans l’écriture du document, une fois en écriture latine selon un système de romanisation normalisé (Iso) ;

– format Unimarc, avec, dans chaque champ doublé, un sous-champ $6 donnant l’information sur la justification de la répétition du champ et un numéro d’appariement ; en outre, le second champ de chaque couple comprendra dans un sous-champ $7 le code de l’écriture des données du champ.

Pour les notices d’autorité, qui contiennent des noms propres, il reste le problème des données d’autorité fournies par la Bibliothèque nationale de France qui ne comportent pas de caractères non latins.

En forme d’exercice pratique, dans une préfiguration de ce que sera à l’Opac du Sudoc l’affichage d’une notice multi-écritures, Philippe Le Pape nous a proposé un exemple assez compliqué mais très parlant, comme il en a le secret, où les participants peu versés dans les étiquettes 200, 225, 410, 327 et autres dollars ont probablement perdu leur latin. Pour qui est familier des formats, la présentation était limpide.

Lors de la 24e conférence annuelle du Melcom International (Middle East Librarians Commitee) qui s’est déroulée le 28 mai dernier, une table ronde organisée par Annick Bernard, conservateur général honoraire, avait pour thème les échanges des autorités auteurs et titres arabes. L’une des résolutions portait sur l’adoption des formats Marc, du protocole Z 3950 pour l’accès à distance et d’Unicode pour la codification des caractères, mais aussi sur la conservation de la translittération normalisée, quelle que soit l’écriture originale, pour permettre la recherche dans des catalogues collectifs à partir des systèmes locaux qui ne sont pas adaptés à la recherche multi-écritures.

La Bulac devrait sans doute s’orienter dans la même direction. Les notices de son catalogue, fusion de sources multiples, refléteront dans la diversité de leurs écritures la diversité même des collections multilingues et multi-écritures. L’élaboration des index alphabétiques auteurs et titres, basés sur l’ordre séquentiel d’Unicode, sera certainement d’une construction délicate car il n’est pas envisageable de les scinder par langue, l’objectif des architectes de ces catalogues étant de faciliter l’interrogation et de rendre pertinente la recherche, quelles que soient la langue et l’écriture du lecteur, de l’ouvrage et de la notice.

La conception des catalogues des grandes bibliothèques nationales et des catalogues collectifs, la pratique d’Internet, passeront par des modifications et des choix nouveaux dans le traitement et la gestion des collections documentaires pour répondre aux attentes et exigences des utilisateurs.