Bibliothèques et écritures, d’ASCII à Unicode

par Yves Alix

Yves Desrichard

Paris, Cercle de la librairie, 2009, 121 p., 24 cm
Coll. Bibliothèques
ISBN 978-2-7654-0974-8 : 29 €

N’écoutant que sa bravitude, l’auteur de l’ouvrage justifie hardiment, dès la première ligne de son introduction, le fait que le mot bibliothèque figure dans le titre, alors qu’il n’en est question que de loin en loin : « Sans caractères, pas d’écriture, sans écriture, pas de textes, sans textes, pas de livres, et sans livres, pas de bibliothèques. » Ce qu’il fallait démontrer, en somme… Par les temps qui courent, on se demande quand même si la fin de la phrase ne va pas bientôt ressembler à une prophétie tout à fait crédible : plus de livres bientôt (ou alors électroniques, c’est dire), donc plus besoin de bibliothèques !

Mais je plaisante bêtement, alors que l’entreprise de ce livre, petit par la taille mais grand par l’intention et la pensée, ne mérite que des éloges. Résumons-nous. « La technique informatique s’est peu à peu imposée au monde en exportant ses modes de représentation, au premier rang desquels se trouve l’alphabet latin […] L’informatique devrait préserver la diversité des cultures humaines, plutôt que de l’uniformiser. Alors même que se développent enfin des outils informatiques permettant de prendre en compte pleinement cette diversité, rien de tel qu’une connaissance des techniques mises en œuvre dans la gestion des jeux de caractères, et de leurs modes d’utilisation, pour y parvenir. »

Le codage des caractères

Pour aborder ces techniques, Yves Desrichard nous convie tout d’abord à une promenade dans l’histoire des langues, des écritures et des caractères. Histoire qui aboutit, dans le monde contemporain, à une vaste entreprise de normalisation (normes ISO pour la représentation des noms de langues), de création de passerelles entre les langues et leurs représentations conventionnelles (normes de translittération, romanisation, transcription), enfin de codage des caractères. L’informatique n’a pas inventé ce codage, dont l’auteur rappelle que les principes étaient déjà inscrits dans l’organisation des casses d’imprimerie, et qui a par ailleurs connu une première réalisation restée célèbre (mais abandonnée, et je ne m’en consolerai jamais), l’alphabet morse, avant l’arrivée des binary digits, les bits du codage informatique, notre pain quotidien désormais. Mais, à défaut de l’inventer, la technique informatique a permis au codage des caractères de prendre une dimension nouvelle, et de s’affranchir progressivement des limites imposées par l’incroyable diversité des langues et des écritures, limites jugées infranchissables auparavant.

Le codage des caractères est la première étape dans l’élaboration de jeux de caractères, que l’auteur définit comme « la combinaison entre un répertoire de caractères et les codages correspondants ». Dans l’univers informatique, le premier jeu à s’imposer est l’ASCII, American Standard Code for Information Interchange, norme de 1967 fondée sur 7 bits, soit 128 caractères. Après ASCII, viennent les normes ISO 8859 (dont la plus connue pour nous est l’ISO-Latin-1), sur 8 bits et 256 caractères. En 1989 arrive Unicode : le passage à 16 bits, qui va devenir la norme des applications informatiques, permet de changer d’échelle. Vingt ans après, Unicode s’est imposé et a déjà défini plus de 100 000 caractères. Il s’accompagne d’outils comme UTF, Unicode Transformation Format, qui « permet de traduire n’importe quel caractère Unicode sous forme d’un nombre d’octets donné, variable selon le schéma de transformation ». Mais la norme ISO 10646, fondée sur l’utilisation de codes à 32 bits (et permettant en théorie le codage de plus de deux milliards de caractères différents) annonce déjà une nouvelle étape.

Jeux de caractères et bibliothèques

Ayant, avec ces nombres vertigineux, appâté, que dis-je, saisi son lecteur, l’auteur se lance ensuite dans des développements de plus en plus compliqués, sur les liens entre les jeux de caractères et le matériel informatique, sur les jeux de caractères et internet… Malgré l’immense effort du rédacteur, les fronts deviennent soucieux, l’aspirine guette. On fait semblant de comprendre, on revient en arrière, on relit. C’est difficile. Mais le bout du tunnel arrive enfin, la récompense tant attendue : « Jeux de caractères et système informatisé de gestion de bibliothèque ». Nous revoici en terrain connu, nous reconnaissons des visages familiers, des amis tous nommés Marc *, bref : nous respirons.

 

Assez décodé. Soyons bref. Je l’ai dit, ce petit ouvrage, fruit d’une passion manifeste de son auteur (personne n’est parfait, fût-il rédacteur en chef du Bulletin des bibliothèques de France !) est une mine d’informations, un modèle de clarté et de pédagogie – et il en faut, avec des lecteurs comme nous. Alors, disons-le sans ambages, en cinq caractères latins, une poignée d’octets : merci !

  1. (retour)↑   Marc est l’acronyme de MAchine-Readable Cataloging.