Le périodique électronique

Catherine Lupovici

Les périodiques scientifiques, techniques et médicaux des grands éditeurs internationaux sont produits selon une chaîne d’édition électronique s’appuyant sur la norme SGML. La structure de ces articles est en cours de normalisation au niveau international. Elle sert de base à l’expérimentation de publications électroniques sur CD-Rom ou en ligne. Les expériences en cours avec la participation des bibliothèques nord-américaines et de certaines bibliothèques européennes, portent sur la définition des nouvelles fonctionnalités de recherche et de consultation que permettront ces nouvelles techniques. Elles servent également à définir la tarification et le droit d’auteur associés à ces nouveaux services.

Scientific, Technical and Medical journal articles are now published by the main STM publishers through an electronic production chain based on the SGML standard. The structure of articles is also standardized at the international level. CD-Rom and on-line publications are tested with the participation of North American and European libraries. The experiments will allow to define new search and browse functionalities as well as to determine the prices and the related copyright rules.

Die wissenschaftlichen, techniken und ärztlichen Zeitschriften der grossen internationalen Verleger werden herausgegeben mittels einer elektronischen Verlagskette, die der Norm SGML entspricht. Die Gliederung der Aufsätze wird auch unter internationaler Kontrolle normiert und dient dazu, daß die elektronischen Veröffentlichungen auf CD-Rom oder on line ausprobiert werden. Die laufenden, mit Hilfe der nordamerikanischen und einiger europäicher Bibliotheken durchgeführten Experimente betreffen die Definition der neuen Suche- und Nachschlagenmöglichteiken, die diese neuen Techniken erlauben sollen. Sie müssen auch dazu beitragen, die Gebührenfestsetzung und die Urheberrechte in bezug auf diese neuen Dienste zu bestimmen.

Les publications périodiques et en particulier dans l'édition scientifique, technique et médicale (STM), existent presque toutes depuis une décennie environ sous une forme électronique, à un moment ou à un autre de leur chaîne de production. Cette chaîne sert à produire de manière plus perfectionnée des publications papier, en s'appuyant sur des techniques qui permettent l'échange électronique du document entre les différents intervenants dans le processus d'édition.

Si l'on ajoute à l'échange électronique une saisie unique dans un format pivot approprié, on peut également créer plusieurs produits complémentaires susceptibles d'être diffusés sur des supports différents tels que le papier, le CD-Rom ou en ligne.

Les éditeurs commencent à accepter l'idée de diffuser des produits électroniques destinés à d'autres intermédiaires de la chaîne de distribution, voire à l'utilisateur final lui-même. Ils sont conscients que cette diffusion, pour être adoptée par les destinataires, qui vont devoir investir dans des plates-formes de stockage et de consultation, doit s'appuyer sur une offre comportant une masse critique de documents ainsi que sur une normalisation du codage de contenu et de structure des documents. Les technologies sont disponibles et les règles économiques et juridiques de distribution en cours d'élaboration sur fond de mise en place d'autoroutes de l'information.

Les techniques de l'édition électronique

La chaîne professionnelle

La chaîne professionnelle de l'édition électronique se fonde aujourd'hui sur la mise en œuvre d'une structuration de l'information selon la séquence théorique suivante :

- phase de création par l'auteur, généralement par l'utilisation d'un traitement de texte ou d'outils plus élaborés, tels que le logiciel TEX qui permet de saisir les formules de mathématiques ;

- phase de mise à niveau dans un format logique unique sophistiqué, permettant de maintenir une base de données de tous les articles des différents titres jusqu'à l'ensemble du numéro avec tous les articles validés. La même information peut d'ailleurs servir à fabriquer plusieurs publications. On appliquera alors des filtres sélectionnant les informations appropriées destinées à chacune d'elles ;

- phase de traitement des articles constituant une livraison d'une des publications, pour en assurer la composition selon les règles typographiques de la revue considérée ;

- phase de traitement de mise en page dans le gabarit physique des pages de la publication.

Il y a en fait décomposition, voire inversion, des actions auxquelles nous ont habitués les traitements de texte, dans lesquels la feuille de style permet de manipuler la signification logique de la structuration d'un texte (titre, chapitre, paragraphe, sommaire...) par son interprétation physique (style, retrait, majuscules...) et la visualisation immédiate du résultat. Mais nous savons tous que les revues vont changer cette feuille de style qui nous a aidés à construire logiquement notre discours d'auteur afin d'uniformiser la présentation physique de tous les articles. La structuration logique uniforme réalisée par l'éditeur est un remodelage du discours, effectué selon les canons intellectuels qu'il fixe à ses revues. La structuration physique déduite de la structuration logique est une transcription à caractère esthétique de cette dernière affectant l'aspect graphique et visuel. Ce remodelage, qui pourrait être perçu comme une trahison, est une valeur ajoutée destinée à faciliter la lecture de la clientèle de la revue. Il fait partie intégrante de la fonction de l'éditeur qui sélectionne et présente des contributions différentes dans un tout éditorial cohérent.

Les éditeurs ont d'abord utilisé des codifications de structuration qui leur sont propres ; souvent en relation avec leurs imprimeurs, ainsi qu'avec les matériels informatiques et les logiciels utilisés. Puis l'époque de la normalisation est arrivée, qui permet de changer de système informatique et éventuellement de prestataire tout en conservant la pérennité de l'information. Cette normalisation des différents formats correspondant aux étapes de la chaîne de production appartient à la famille des normes associées à la norme SGML (Standard Generalized Markup Language).

En même temps, une discussion entre les grands éditeurs publiant dans les mêmes domaines a été initiée de manière à inclure dans le format logique les règles de la rédaction des articles scientifiques et à s'accorder à un niveau général sur le format commun fondé sur la norme SGML et traduisant ces règles.

Cette normalisation du format de l'article STM a tout d'abord fait partie de l'Electronic Manuscript Project, conduit de 1983 à 1986 entre divers partenaires de la chaîne de production et de distribution, tels que les éditeurs représentés par l'American Association of Publishers (AAP), les bibliothèques, avec la participation notamment de la Library of Congress et de la National Library of Medicine, les banques de données avec Chemical Abstracts et Medline. Cette première démarche subventionnée par le CLR (Council on Library Resources) * avait pour objectif de mesurer l'utilisation possible de SGML dans la chaîne allant de l'auteur à l'utilisateur, en passant par l'éditeur, et par les intermédiaires de la diffusion tels que les banques de données ou les bibliothèques. Une norme américaine a finalement été élaborée et introduite comme base de la norme internationale ISO 12083 Préparation et balisage des manuscrits électroniques, publiée en 1994, et qui sera reprise en norme nationale française (voir encadré). Un groupe d'utilisateurs, l'EPSIG (Electronic Publishing Special Interest Group), a été créé en 1988 au sein d'OCLC par un accord avec l'AAP, pour faciliter la maintenance de la norme américaine.

A la suite de ces premiers travaux, les éditeurs européens du secteur STM ont travaillé à l'application du standard AAP, au domaine particulier de l'article, scientifique, technique ou médical. Ils ont alors distingué deux parties dans la structure logique de l'article :

- l'en-tête comprenant le titre, les auteurs et leurs affiliations, la notion de congrès, les mots-clés, le résumé, c'est-à-dire toute l'information descriptive et signalétique de l'article ;

- le corps de l'article, c'est-à-dire toute la partie rédactionnelle.

Ils sont arrivés à un accord sur l'en-tête avec une structure logique commune écrite en SGML et publiée en 1991 par l'éditeur Springer sous le nom de Majour (Modular Application for Journals). Cette structuration met les éditeurs en situation de fournir sous forme électronique la description signalétique de leurs articles telle qu'on la retrouve dans les bases de données. Elle constitue le catalogage à la source des articles, dans un format pivot pouvant être décliné en Marc, en CCF (Common Communication Format), ou en format disquette Medline ou Current Contents par exemple, tout en permettant l'impression traditionnelle de l'article complet.

Les discussions relatives au corps de l'article et qui correspondent à la mise en SGML des règles de rédaction de l'article scientifique, ainsi qu'à la mise en SGML d'une structure rédactionnelle harmonisée n'ont pas abouti. Chaque éditeur convertit séparément son savoir-faire en SGML, en gardant cependant comme principe de base l'acquis du standard AAP.

Aujourd'hui tous les éditeurs internationaux de revues STM sont en train d'appliquer la famille de normes SGML à leur chaîne de production et effectuent même, dans certains cas, une conversion rétrospective des revues qui ne sont pas encore produites en SGML. Cette conversion rétrospective leur permet d'envisager un service de publication sur support électronique et, pour certaines, la constitution d'une banque de données exhaustive à caractère signalétique ou de document intégral.

Les formats

La publication sur support électronique est généralement conçue comme celle sur support traditionnel papier, c'est-à-dire offrant la double caractéristique du moule logique et de l'aspect esthétique, combinant un format logique et d'un format physique. Il existe très souvent un désir de projection à l'écran de l'esthétique du papier, qui peut aller jusqu'à la similitude entre l'information à l'écran et le résultat d'une impression à la demande effectuée à partir du produit sur support électronique.

Parmi les logiciels permettant la visualisation de documents stockés sous forme électronique, Acrobat, de la société Adobe, a la grande faveur des éditeurs. Il s'appuie sur le format propriétaire PDF (Portable Document Format). L'utilisation d'un tel format présente pour l'éditeur l'avantage de conserver sa griffe esthétique et de pouvoir fonctionner dans la logique actuelle de la propriété intellectuelle, en privilégiant les fonctions de consultation, de lecture et d'impression contrôlable. On est donc de plus en plus souvent dans la situation d'une production électronique fondée sur la mise en œuvre d'une structuration logique de haut niveau en SGML et d'un début de distribution électronique avec une codification au niveau physique. Ces deux types de codification n'offrent pas les mêmes possibilités d'utilisation du document.

Standard Generalized Markup Language

SGML est une méthode universelle de balisage de la structure logique des documents. Le balisage réalisé est indépendant du contenu et du support du document et c'est un format d'échange neutre, indépendant du système informatique offrant le document. La structure d'une classe de documents est déclarée, en langage SGML, dans une Définition de type de document (DTD). Des logiciels, ou « parseurs », permettent de contrôler que le balisage d'un document particulier appartenant à la classe considérée, appelé document instance, est conforme à la DTD qui définit sa structure.

Le langage SGML permet de coder la structure des documents ayant des contenus composites : texte, graphique, image, mais aussi des structures telles que celles des formules mathématiques, des formules chimiques et des tableaux. SGML permet également la notation des liens hypertexte. Il peut donc accepter des documents hypermédia qui ne demandent pas de synchronisation temporelle.

Enfin le document SGML est révisable, il peut être corrigé, mis à jour en utilisant un traitement de texte SGML. Le document SGML est donc potentiellement réutilisable sur un système différent de celui qui a servi à sa création, soit à l'aide d'outils SGML, soit dans des formats plus simples tels que les traitements de texte.

Un ensemble de normes internationales complète SGML, de manière à couvrir la totalité des traitements de la chaîne professionnelle de production du document. Ce sont :

- SGML (Langage normalisé de balisage généralisé) ISO 8879, de 1986. La norme française NF EN 28879, 1990 constitue la norme de base définissant le langage SGML ;

- DSSSL (Document Style, Semantic and Specifications Language). ISO DIS 10179 est une norme définissant le langage, la méthode et la sémantique pour le formatage physique des documents structurés logiquement en SGML ;

- SPDL (Standard Page Description Language). ISO 10180 est un langage normalisé de description de page pour coder la présentation des documents formatés ;

- SDIF (Format d'échange de documents SGML) ISO 9069. La norme française NF EN 29070 permet l'échange de documents codés en SGML ;

- Glyph Fonts Definition and Identification. ISO 9541 permet la gestion des polices de caractères ;

- HyTime (Hypertext Based Structuring Language) ISO 10744, 1992. C'est une extension de SGML aux documents hypermédia à synchronisation temporelle (gestion de la synchronisation des débits et de la durée dans le temps) et qui permet véritablement la navigation dans le multimédia.

- Enfin HTML (Hypertext Markup Language), qui est utilisé pour le codage de la structure des documents manipulés par les serveurs W3 sur Internet, est une application de SGML avec une DTD particulière, assez simple quant à la structure logique générique supportée, et qui utilise la notation SGML pour la codification relative à la navigation hypertexte à travers le réseau.

Portable Document Format

Le format PDF d'Adobe, société qui a auparavant développé le format Postscript de description de page, permet de supporter à la fois la structure et la forme du document. Ce format a été mis en œuvre en suivant la même philosophie que celle qui a présidé à la création de Postscript, c'est-à-dire de manière indépendante des matériels et des systèmes d'exploitation. PDF est fondé à la fois sur le langage de description de page Postscript pour les éléments visuels (imprimables) du document et sur une description de la structure, y compris d'éléments tels que les liens hypertexte.

Le logiciel Acrobat permet de transcrire en PDF des documents créés avec d'autres éditeurs tels que des éditeurs SGML ou des traitements de texte. Il traduit en PDF des balises SGML en fonction d'une DTD donnée, ou des codages de traitement de texte en fonction d'une feuille de style donnée.

L'objectif du format PDF est de permettre l'échange de documents formatés contenant à la fois l'aspect visuel et la structure du document, interprétables pour l'affichage et l'impression sur une large gamme de plates-formes : Macintosh, Windows, DOS et UNIX.

Adobe travaille à ajouter à Acrobat des fonctions de recherche et d'extraction de texte, ainsi que des fonctions de Reconnaissance Optique de Caractères. Adobe travaille également à la conversion inverse permettant de restituer le document SGML ou le format du traitement de texte d'origine.

La devise commerciale d'Acrobat est « le meilleur des deux mondes », celui de l'information structurée et celui du document formaté, donc du format logique et du format physique. Le document codé en PDF est principalement destiné à l'affichage ou à l'impression de l'information texte, image ou graphique, ce qui correspond aux besoins immédiats de l'édition électronique.

L'utilisation de l'information électronique

Pour les éditeurs, la mise sur le marché de l'information sous forme électronique nécessite des études de marketing approfondies qui devront permettre le retour sur les investissements qui sont considérables. Il ne s'agit pas à terme du simple transfert des produits papier vers le support électronique, mais surtout de créer des produits fondés sur les fonctionnalités supplémentaires offertes par les nouvelles techniques, d'en créer la tarification et d'en préciser le statut juridique quant à la propriété intellectuelle.

Les éditeurs scientifiques, techniques et médicaux sont donc entrés dans une phase d'expérimentation active et de test de commercialisation, destinée à recueillir toutes les informations nécessaires à la mise en place de ces nouveaux produits. Ceux-ci seront complémentaires les uns des autres et complémentaires du papier qui ne va évidemment pas disparaître du jour au lendemain.

Certains de ces éditeurs testent directement la réaction de l'utilisateur final, d'autres s'associent à des intermédiaires plus proches de celui-ci et dont l'intérêt est aussi d'explorer les nouveaux services à valeur ajoutée qui pourront être rendus. Les bibliothèques sont évidemment de tels médiateurs, puisqu'elles devront acquérir et gérer le stockage de documents électroniques, offrir des fonctionnalités de recherche ne portant plus uniquement sur le signalement, mais aussi sur le contenu du document électronique, offrir des postes de lecture et de consultation de documents électroniques. Bien entendu, toutes ces fonctions sont à imaginer sur le document issu de la chaîne d'édition électronique normalisée, et non pas sur ce que nous connaissons aujourd'hui, qui n'est que le substitut numérique du papier. Il faut donc réfléchir sur la base du document multimédia structuré plutôt que sur une image numérisée de document papier. Les formats de documents à considérer sont SGML et PDF aujourd'hui et HyTime demain, puisque les outils HyTime commencent tout juste à apparaître.

La recherche

Dans la tradition documentaire classique, la recherche d'information s'effectue soit sur une notice descriptive structurée, en interrogeant des champs spécifiques, soit en texte intégral sur le document complet sans structure particulière. Les bases de données correspondantes sont soit dans un format de type bibliographique, soit en fichier texte de type ASCII.

L'introduction de la structure de documents intégraux permet d'envisager d'utiliser cette structure pour faire des recherches directement dans le document. Aux fonctions de recherche classiques, on peut donc ajouter une notion de contexte lié à la structure : par exemple, faire une recherche de proximité avec des indications complémentaires telles que dans une même phrase, dans un même paragraphe, dans des sections particulières... On peut ainsi combiner des opérateurs classiques avec des recherches sur la structure, et faire porter une recherche textuelle sur des éléments particuliers du document, considérés par l'utilisateur comme importants pour son domaine d'intérêt. Une structure de type SGML pour un article scientifique permet par exemple de rechercher un paragraphe d'une section correspondant toujours dans les règles de rédaction du domaine à la description d'une procédure expérimentale. Un autre exemple serait de chercher sur les titres d'un certain niveau (c'est-à-dire sur une vue du document correspondant au sommaire classique).

La consultation

Des travaux sur la consultation de documents électroniques dans une bibliothèque ont déjà été conduits en France dans le projet de poste de lecture assistée par ordinateur (PLAO) de la Bibliothèque nationale de France, insistant sur l'environnement et la nécessaire polyvalence du poste de travail, ainsi que sur des fonctionnalités associées afin de faciliter la manipulation et l'utilisation de l'information.

Si on considère que, dans un tel environnement de travail, le lecteur pourra avoir accès à des documents issus de la chaîne normalisée de publication électronique, on peut commencer à imaginer des fonctions de consultation utilisant les nouvelles possibilités de recherche. On peut ainsi s'appuyer sur le codage de la structure logique pour feuilleter le document, non plus dans sa logique séquentielle, mais en construisant une nouvelle logique de consultation fondée sur un parcours personnalisé de la structure, créé et modifié par le lecteur à volonté (figures, formules, tableaux, bibliographie, résumé, section...).

Les services offerts

Un certain nombre de nouveaux services sont peu à peu offerts aux lecteurs par les producteurs d'information dans ce que l'on commence à appeler le concept de bibliothèque électronique ou virtuelle. Voici quelques exemples de services test ou d'expérimentation conduits dans le domaine des bibliothèques et s'appuyant sur l'édition électronique.

Electronic Journals Online

Ce nouveau service d'OCLC proposé aux bibliothèques offre à leurs lecteurs l'accès en ligne à des revues électroniques, que ceux-ci soient physiquement à la bibliothèque ou connectés à la bibliothèque à partir du lieu de leur choix. Quatre revues sont actuellement disponibles et deux autres sont annoncées pour 1995. La connexion s'effectue par le réseau commuté ou par Internet.

Les fonctionnalités de consultation offertes sont le feuilletage d'un article à partir de sélection de parties dans son sommaire, des liens hypertexte construits entre les articles des autres revues offertes par OCLC ou en relation avec les bases de données bibliographiques, un feuilletage des derniers articles « publiés » selon la date de leur introduction sur le système, la recherche documentaire classique sur le texte intégral des articles. L'interface de consultation développée par OCLC, dans un environnement Windows (nommée Guidon), offre une visualisation dans une typographie riche, la possibilité d'imprimer localement, de commander une impression différée à l'éditeur, de télédécharger des sections de documents sur la station de travail. Enfin, une fonction d'alerte permet de recevoir par messagerie électronique un avis de parution d'articles selon un profil.

ELSA Electronic Library SGML Applications

C'est un projet de recherche et développement sélectionné dans le cadre du deuxième appel à propositions du programme bibliothèques de la Communauté européenne. Les partenaires sont la Bibliothèque De Montfort University à Leicester, l'éditeur Elsevier Science et Jouve.

Une centaine de revues converties en SGML par l'éditeur et faisant partie des abonnements de la bibliothèque sera offerte à un groupe d'utilisateurs sélectionnés par la bibliothèque pour une évaluation des fonctionnalités qui seront proposées. Celles-ci comporteront la recherche documentaire classique sur le texte intégral des articles, la définition avec les utilisateurs de profils de feuilletage non séquentiel des articles, la prise de note, le surlignage, la constitution de dossiers, le téléchargement de parties du document dans des formats de traitement de texte ou en SGML, l'impression en local dans une typographie identique à celle de la version papier. La typographie de l'affichage sera riche, mais dans une mise en forme adaptée à l'écran. Le serveur de documents et le visualiseur en typographie riche, développés par Jouve, seront interfacés avec des outils très répandus sur le réseau Internet tels que WAIS pour le protocole de recherche documentaire et Mosaic pour le visualiseur.

Le système sera implanté dans la bibliothèque et la connexion se fera au travers du réseau local du campus et du réseau Janet de la recherche (le campus est éclaté en plusieurs sites très éloignés géographiquement, mais reliés par le réseau de la recherche). La bibliothèque souhaite dans le cadre de ce projet définir des services avancés pour les lecteurs en s'appuyant sur les fonctionnalités de consultation qui peuvent être construites sur un format logique tel que SGML.

Right Pages

Right Pages est un projet mis en œuvre par l'opérateur de télécommunications américain AT&T avec la participation dans un premier temps de l'éditeur Springer Verlag, d'autres éditeurs étant contactés pour l'extension du service.

L'objectif est de construire un réseau de serveurs de journaux électroniques relayant un serveur central. Le système s'appuiera à terme sur la production des journaux et sur leur stockage dans le format SGML. Aujourd'hui il s'agit d'une conversion rétrospective dans un format minimum. La connexion est prévue au travers du réseau Internet ou de réseaux commerciaux à large bande.

Les fonctionnalités offertes sont fondées principalement sur un abonnement à un service d'alerte s'appuyant sur un profil. Le profil est défini sur la base de titres de périodiques et de mots clés. Les abonnés sont avertis des nouveautés qui les intéressent par messagerie électronique et reçoivent le signalement des articles avec le résumé. L'utilisateur peut choisir de feuilleter les articles en ligne ou de commander directement l'édition papier des articles qui l'intéressent. En ligne, l'utilisateur peut consulter des images de pages. Les images contenues dans les articles peuvent aussi être consultées séparément en haute résolution. L'utilisateur peut disposer d'un fichier personnel en local qui lui permet de se connecter de nouveau et de retrouver ses documents toujours stockés sur le serveur. L'impression peut être commandée en local. Hors abonnement au service d'alerte, il est possible d'effectuer une recherche documentaire classique en utilisant le moteur de recherche développé par AT&T et de grands thésaurus tels que le MeSH ou INSPEC. Les documents sont indexés par des traitements automatiques par AT&T. Il est prévu que l'interface de recherche développée spécifiquement pour l'utilisateur final offre des passerelles vers d'autres banques de données.

Le périodique électronique publié indifféremment sur CD-Rom ou en ligne, mais selon des normes de codages identiques, sera l'un des premiers types de document électronique que les bibliothèques auront à traiter et communiquer. Comme les exemples ci-dessus le montrent, les rôles des intervenants dans la chaîne du périodique sont en train de se redéfinir, avec la participation des bibliothèques nord-américaines ou de certains pays de l'Europe. C'est d'ailleurs dans ces contrats d'utilisation de périodiques électroniques et d'expérimentation de bibliothèque électronique que se joue le droit de copie de demain.

Janvier 1995

Illustration
ISO 12083 - Préparation et balisage des manuscrits électroniques

  1. (retour)↑  Le CLR subventionne aux Etats-Unis tous les projets novateurs dans le domaine des bibliothèques, qui concernent le contrôle bibliographique aussi bien que l’accès au document. Les grands programmes subventionnés sont le format Marc, les AACR, les plans d’acquisition en coopération, l’Index Medicus, le programme CIP de Catalogage dans la Publication, le National Union Catalog, etc.