L'édition électronique

Annie Le Saux

La journée d’étude organisée par le Groupement français de l’industrie de l’information (GFII), le 22 novembre 1996 au ministère de l’Éducation nationale, de l’Enseignement supérieur et de la Recherche, a permis aux producteurs et aux utilisateurs présents d’échanger des informations et de tenter de faire le point sur l’édition électronique.

Différentes techniques électroniques existent sur le marché, qui ne simplifient pas le choix de l’une d’entre elles. Prévoir si celle que l’on a préférée sera toujours présente dans les années ou même les mois à venir relève d’une véritable gageure.

Les formats

L’off-line (CD-ROM) et l’on-line (réseau) peuvent tous deux produire du multimédia – images, son, vidéo –, avec des résultats plus ou moins satisfaisants, et du texte.

Dans le traitement du texte, la notion de format est primordiale. Le premier de ceux décrits par Guy Coquard, de Jouve Systèmes d’information, consiste à faire la photocopie numérique du document. Ce procédé ne permet pas la recherche plein texte et ce n’est qu’en l’associant à un index, que l’information peut être retrouvée. Nettement moins cher à distribuer que le papier, le fac-similé indexé est utilisé dans le cas de grands volumes de documents, où l’information prime sur le graphisme.

Un autre format, le plein texte tout structuré, a comme caractéristiques un texte en ascii, qui peut cependant s’enrichir de caractères spéciaux, utiles dans le cas de signes mathématiques ou chimiques. Sa structure, plus ou moins complexe, est construite selon la norme sgml, proche parent du html. Utilisé pour d’importants fonds documentaires nécessitant des mises à jour, de la documentation technique, juridique, ou pour des encyclopédies, ce format propose une exploitation multiple du fonds – on peut créer plusieurs produits – et permet une grande sophistication dans la recherche.

Le troisième format, de type PDF (Portable Document Format), qui part de fichiers postscript, a la particularité, fort attrayante, de reproduire le document original à l’identique. Malheureusement, il n’est pas toujours compatible avec le média de diffusion. L’exemple connu de format de type pdf est le logiciel Acrobat de la société Adobe.

Chacun de ces formats a ses avantages et ses inconvénients, et le choix de l’un d’entre eux ne doit pas se faire inconsidérément, mais en fonction de plusieurs critères finement analysés, dont les coûts, très variables suivant le degré de complexité et les fonctionnalités offertes, le volume d’informations à traiter, l’utilisation que l’on veut en faire et le public que l’on vise (grand public et professionnels). Des mixtes de ces formats sont aussi possibles.

Une numérisation de masse

Trois exemples concrets d’applications utilisant trois modes différents de représentation de l’information ont illustré ces propos.

Claude Breyer, directeur informatique d’or télématique, concessionnaire de l’INPI (Institut national de la propriété industrielle), a présenté la spécialité de sa société, à savoir la production à l’identique des pages de textes officiels, et à les diffuser via le réseau téléphonique, Numéris, Intranet et Internet. Ort assure la diffusion électronique du registre national du commerce et des sociétés. Toutes les données concernant les entreprises – bilans, comptes et rapports annuels, statuts et actes – sont numérisées et indexées pour former un document électronique. Cela signifie une immense masse d’informations constituée de 600 000 bilans et rapports annuels, de 700 000 actes et statuts traités chaque année (400 000 pages, correspondant à un à deux DON de 14 pouces, par jour) et consultables sur une période de trois ans. Le volume de stockage est de 5 tera-octets, soit 5 000 giga-octets.

La correspondance entre un document papier et un document électronique s’évalue ainsi : une page dactylographiée de 3 000 caractères (3 Ko) va générer une image électronique d’environ 500 Ko. Chaque image est compressée afin de diminuer son volume de stockage, et de passer de 500 Ko à 50 Ko en compression de type G4 1.

Après des travaux importants de gestion électronique des documents, entrepris afin d’indexer automatiquement chaque image, les documents électroniques sont stockés et conservés sur disque optique numérique de type worm (Write Once Read Mostly), donc non réinscriptibles. L’inviolabilité du système, dès la source, est indispensable pour garantir l’intégrité du document. Mais, si la sécurité est maximale au moment de sa production, ce n’est plus le cas lors de sa diffusion, sauf si le mode de diffusion choisi est le CD-ROM. Sur les réseaux, qu’il s’agisse d’Internet ou d’Intranet, n’importe quel utilisateur peut, en revanche, altérer l’original. Deux projets européens actuellement en cours s’intéressent d’ailleurs à ce problème. On parle notamment de techniques de signature électronique, qui permettront d’identifier l’émetteur.

Pdf vs sgml

L’Unesco a fait quant à elle le choix du format pdf d’Acrobat, choix expliqué par Denise Pelissier 2.

Les données sont les suivantes : la base de données Ulis/Ged, gérée par les logiciels Basis Plus et Acrobat, fonctionne depuis environ un an, et contient les textes intégraux des documents de l’Unesco : textes officiels de la conférence générale, du conseil exécutif, discours du directeur général, documents sectoriels et publications. Cela représente environ 200 000 pages par an (on est bien loin du volume décrit par Claude Breyer), dans six langues : anglais, français, espagnol, chinois, arabe, russe.

Ces documents ont une origine matérielle variée : ils peuvent avoir été créés sous des logiciels de traitement de texte, de pao (publication assistée par ordinateur), ou en conversion de fichiers postscript, ou ce peut être des documents imprimés, numérisés par Acrobat Capture, transformés en OCR, puis en PDF.

Le format PDF d’Acrobat permet la gestion de documents composites, c’est donc une des raisons pour lesquelles il a été choisi par l’Unesco. Les autres avantages d’Acrobat sont, répétons-le, qu’il présente et restitue à l’identique le document original, qu’il n’y a pas de modification possible par l’utilisateur, qu’il est indépendant du logiciel de création de document, et, enfin, qu’il permet une diffusion multisupports. De plus, le logiciel Acrobat Reader est gratuit, et permet à qui veut une visualisation des produits créés sous ce format.

Une illustration de sgml fut donnée par Samy Kaci, des éditions juridiques et techniques Lamy, qui ont choisi ce format pour leurs informations de type documentaire, synthétique, ou nécessitant une actualisation permanente. Dans leur banque de données unique, l’information brute, une fois rassemblée, est sélectionnée et structurée en langage sgml. Cette norme de balisage, assez complexe, exige des investissements importants, notamment dans l’analyse structurée des documents, mais elle ouvre des horizons intéressants pour l’interrogation, la production et la diffusion de documents à la demande et sur mesure, sous forme électronique et sous forme papier.

Pour l’utilisateur, le support électronique offre une masse d’informations sans commune mesure avec l’édition papier, ainsi qu’un mode de consultation et de recherche plus rapide. Un témoignage fut donné par François Berbinau, avocat au Barreau de Paris, et grand utilisateur de documentation juridique. L’édition électronique lui a entre autres permis de s’adapter à des pratiques professionnelles qui ont évolué (demandes de réponses précises et rapides, textes en augmentation constante, évolution permanente de la jurisprudence, interdépendance des différents domaines du droit...).

Tendances actuelles

Un panorama des produits disponibles sur le marché aujourd’hui et des tendances actuelles fut ensuite proposé par Carole Brochard, de Canope, société de conseil spécialisée dans le multimédia et l’informatique.

L’information électronique est diffusée selon deux modes principaux : le cd-rom et les réseaux. Le cd-rom, moins de dix ans après son apparition, semble, comme le souligne Carole Brochard, en perte de vitesse pour certaines applications du marché professionnel, face au réseau. Certains obstacles viennent de ce que la possession d’un nombre important de cd-rom nécessite la mise en place d’un serveur, opération très lourde qui nuit à la maniabilité du disque. D’autre part, la consultation d’un cd-rom par un lecteur immobilise les milliers d’informations que contient le disque et pénalise les autres lecteurs potentiels. Bien sûr, il existe la solution du déchargement des cd sur les disques durs, mais cela demande une mémoire qui se mesure en giga ou même en tera-octets.

Concurrencé par le réseau, le cd-rom reste cependant le support idéal pour l’archivage et pour des applications où le réseau n’est pas encore tout à fait au point. Les bases d’images fixes, de sons, d’images animées, qui nécessitent, du fait du faible – toute proportion gardée – débit des réseaux, un temps d’affichage relativement long, sont souvent stockées sur cd-rom en complément des services en ligne ou en association avec eux.

Associer les avantages du cd-rom à ceux du réseau fait partie des nouvelles tendances. Parmi celles-ci, Carole Brochard a mentionné les nouveaux types de bases de données, qui apparaissent sur le réseau et qui allient des données textuelles, factuelles à des possibilités de dialoguer (forums, chats), et donnent accès à une combinaison d’informations (inscription à un congrès, réservation d’un billet d’avion, d’une chambre d’hôtel...), à partir d’une seule et même connexion. Citons comme exemple de ce type de bases de données de deuxième génération l’Engineering Information Village 3, qui met aussi à la disposition de ses clients une documentaliste pour les aider à faire leur recherche.

La diffusion

La croissance exponentielle de l’information augmente la difficulté à rechercher et à trouver les données pertinentes. Les problèmes de localisation, de promotion et de sélection, qui existaient avec la documentation papier, se sont accrus avec l’électronique.

Si le choix des techniques est hasardeux, celui des produits ne l’est pas moins. Le manque d’informations sur les contenus des cd-rom et l’impossibilité de visualiser la majorité d’entre eux avant achat font partie des reproches que l’on entend fréquemment sur ce support.

Sensibles à ce problème, les librairies Decitre 4 ont tenté de le pallier en publiant un catalogue, dans lequel il est précisé entre autres si les cd-rom sont disponibles en démonstration dans leurs magasins. Les librairies Decitre ont aussi créé des labels 5, selon une grille d’analyse, qui tient compte du degré de « navigabilité » du produit, de son contenu (pédagogique, ludique, culturel), de la qualité du son, de l’image et du rapport qualité/prix. Enfin, un club Decitre offre aux éditeurs de cd-rom la possibilité de montrer leurs produits.

Deux éditeurs, l’un, privé, le journal Le Monde représenté par Michel Colonna d’Istria et l’autre, public, La Documentation française 6 représentée par Lydia Mérigot, ont choisi de diffuser leurs produits en fonction de leurs finalités sur cd-rom et sur Internet.

Le Monde, présent sur le réseau via le logiciel Acrobat, choisi pour les atouts que l’on connaît de respect du graphisme et de fidélité à l’original papier, figurera bientôt sous une version html, considérée comme plus souple. Michel Colonna d’Istria et Lydia Mérigot se sont accordés pour reconnaître que les choix techniques faits à un moment donné peuvent ne pas être durables, l’électronique étant un domaine qui évolue particulièrement vite. Mais le choix n’en est pas moins indispensable, même s’il s’agit d’un pari.

La gratuité ou le paiement des services, forfaitaire, à l’acte, par porte-monnaie électronique... firent aussi partie des autres choix évoqués. Enfin, l’éventualité du risque de « cannibalisation » de l’édition papier par l’édition électronique a été énergiquement rejetée par Michel Colonna d’Istria et Lydia Mérigot, pour qui l’électronique offre un nouveau marché, élargi, et un nouveau produit, amélioré.

  1. (retour)↑  C’est la norme de compression choisie.
  2. (retour)↑  Le site de l’Unesco est consultable à l’adresse suivante : http://www.unesco.org
  3. (retour)↑  EI Village est distribué en France par l’Inist à un prix forfaitaire de 3 500 $ par an.
  4. (retour)↑  Les librairies Decitre comprennent onze librairies sur la région Rhône-Alpes : huit à Lyon, une à Chambéry, une à Annecy et une à Grenoble. Leur adresse Internet est : http://www.decitre.fr
  5. (retour)↑  Les librairies de la Fnac ont, elles, mis en place un système de flèches pour faciliter la sélection des cd-rom par leurs clients.
  6. (retour)↑  Les produits de la Documentation française diffusés sur le Web seront accessibles au public vers la mi-février 1997.