Interactive publications and the record of science

Colloque du conseil international pour l’information scientifique et technique (ICSTI)

Herbert Gruttemeier

Dans le cadre de son « winter meeting » annuel à Paris, le Conseil international pour l’information scientifique et technique (ICSTI) organisait, le 8 février dernier, une journée de colloque dédiée à l’évolution technologique de la publication scientifique, sous le thème « Interactive publication and the record of science ».

Dans un programme réparti en quatre sessions thématiques, des éditeurs commerciaux, sociétés savantes, chercheurs universitaires et responsables de grandes bibliothèques présentaient des outils et des projets actuels visant à enrichir les contenus en ligne par des technologies sémantiques, des outils de visualisation, des liens vers des données primaires, l’intégration de ressources multimédias, etc. Il s’agissait d’un état de l’art sur des modes récents d’exploitation des possibilités offertes par le web pour la publication scientifique et sur les nouvelles problématiques dans ce contexte : identification et préservation, accessibilité, coûts (dans un sens large) et modèles économiques, technologies propriétaires ou libres, etc.

Visualisation interactive

Elliot Siegel de la National Library of Medicine (NLM) démarrait la journée en présentant un projet de coopération entre la NLM et l’Optical Society of America (OSA), qui marque un avancement important dans l’intégration de l’imagerie médicale dans les publications. Grâce à une technologie open source co-développée par l’OSA, les auteurs peuvent publier, en complément de leurs textes, des données complexes, tridimensionnelles. Et les lecteurs disposent d’outils de visualisation et d’exploration interactive, sous forme d’applications activées par des hyperliens, permettant ainsi une meilleure vérification des résultats. Les articles publiés avec cette technologie sont jusqu’à présent librement accessibles, y compris par PubMed Central 1

Dans le même genre d’idées, Michelle Borkin (Harvard) intervenait sur les possibilités de visualisation basées sur des PDF 3D, y compris des premiers exemples d’articles de revues scientifiques majeures (comme Nature) proposant figures et graphiques manipulables en mode interactif, parallèlement à la présentation classique. La jeune chercheuse a appliqué ces outils à des domaines aussi divers que la médecine et l’astronomie, permettant la détection de phénomènes non visibles avec des méthodes conventionnelles. De manière générale, les solutions PDF semblent bien vues par les éditeurs (moins par les bibliothèques, semble-t-il…).

Brian McMahon, principal organisateur de cette journée, prenait manifestement beaucoup de plaisir à présenter ensuite les fruits de son travail d’enrichissement des publications de l’Union internationale de cristallographie (IUCr). Dans cette discipline, la visualisation et la manipulation des structures sont immensément utiles. Les options de créer et publier des figures interactives, grâce à un système développé par l’IUCr basé sur le logiciel de graphique moléculaire Jmol, qui s’exécute sous forme d’applet pour navigateur web, sont intégrées dans le processus d’édition, et dans celui du peer review en particulier.

Ajout de valeur, contenus enrichis et liens sémantiques

Les contraintes et opportunités spécifiques en termes de publication sémantique en chimie étaient l’objet de l’intervention de Richard Kidd, présentant les efforts de la Royal Society of Chemistry (RSC) d’enrichir le contenu de ses revues de manières diverses : mise en valeur de composées et termes spécifiques à partir de text mining, avec liens vers des bases de données (en particulier vers ChemSpider 2, base de référence acquise par la RSC), mise à disposition d’ontologies, options d’annotation par l’auteur, l’éditeur et le lecteur, nouveaux modes de recherche.

Jan Velterop introduisait l’approche de la Concept Web Alliance 3 face aux problèmes de volume et de complexité croissants de l’information et des données scientifiques, dans un contexte où l’édition classique atteint ses limites. De nouveaux formats semblent nécessaires, tirant profit du web sémantique et présentant des résultats scientifiques sous forme de concepts et de relations entre eux, lisibles par l’ordinateur, et qui peuvent être annotés. Une contribution scientifique dans ce contexte, appelée « nano-publication », serait l’ajout d’un nouvel élément au réseau du savoir ainsi construit.

Le désormais célèbre « Article du futur » de Cell Press/Elsevier était présenté par Emilie Marcus, responsable principale de ce projet 4. Il s’agit d’un ensemble de nouvelles fonctionnalités visant à redéfinir la structure et la présentation d’un article scientifique (voire redéfinir l’unité de publication), en exploitant davantage les possibilités du web. En commençant par un résumé graphique, le lecteur est invité à naviguer à travers l’article : sa lecture n’est plus simplement linéaire, il peut organiser lui-même l’affichage des informations et rencontre de nombreux liens vers des ressources supplémentaires (comme des vidéos des auteurs).

Archivage et infrastructures pour une identification pérenne

La présentation de Toby Green montrait, de manière très convaincante, comment les publications de l’OCDE (Organisation de coopération et de développement économiques), comprenant par nature de nombreuses séries de données statistiques et économiques (dynamiques, c’est-à-dire régulièrement mises à jour) ont bénéficié des nouveaux modes de visualisation et du nouveau statut accordé à ces données en tant qu’objets indépendants du texte et qui peuvent être cités, car identifiables, notamment grâce aux DOI (Digital Object Identifier), de façon unique et pérenne. À l’OCDE, les tables de données sont publiées au même titre que les documents textuels.

Le message de Jan Brase (de la TIB, Technische Informationsbibliothek, bibliothèque scientifique allemande) allait dans cette même direction : il faut valoriser le rôle des données primaires de la recherche, dans le processus de publication scientifique, dans l’amélioration des conditions d’accès aux ressources en ligne, dans les services des bibliothèques, dans l’évaluation des chercheurs. Le consortium DataCite, récemment créé et comprenant une douzaine de bibliothèques à travers le monde (dont l’Inist, Institut d’information scientifique et technique), veut contribuer à la réalisation de ces objectifs, en dehors de son cœur d’activité qui est d’attribuer des DOI à des datasets.

Les soucis de Richard Boulderstone étaient ceux liés à l’archivage de tout ce nouveau contenu, surtout sous l’aspect de la conservation des relations entre les composantes d’un objet numérique. Pour la British Library (BL), ces questions s’intègrent dans l’ensemble de sa politique d’archivage et ses missions de dépôt légal (plutôt volontaire dans le cas de ressources électroniques), et sont indissociables des conditions d’accès et de navigation à travers des contenus hétérogènes (la BL utilise actuellement le système Primo). En tant que bibliothèque nationale, elle a un rôle à jouer dans la recommandation de formats et de logiciels.

L’intervention de Geoff Bilder (CrossRef) 5 était centrée sur les enjeux des identifiants uniques et pérennes dans l’ensemble de la communication scientifique. Ces identifiants constituent la base des possibilités croissantes de citer et relier entre eux, à tous les niveaux de granularité souhaités, des types d’objets numériques très différents, et s’étendent actuellement à des projets majeurs de systèmes d’identification d’auteurs (ou plutôt de contributeurs, pour exprimer la diversité des acteurs concernés). G. Bilder insistait sur les aspects sociaux, plus importants d’après lui que les aspects techniques dans la réalisation des objectifs de pérennité.

L’édition de demain

Matthew Day tenait, quant à lui, à souligner le rôle de précurseur du groupe de presse scientifique Nature Publishing Group (NPG) dans l’orientation vers de nouvelles formes de publication, le NPG ne se définissant plus comme simple éditeur, mais comme « société de communication scientifique ». Une vue d’ensemble des services innovants créés ces dernières années était donnée : plateformes collaboratives et forums d’échange (Connotea, Scitable, Scintilla, Nature Network), serveurs de prépublications et de protocoles (Nature Precedings, Protocols Network), intégration de bases de données en sciences du vivant, options de text mining, etc. Avec une mention spéciale au tout nouveau service d’accès au texte intégral des articles de Nature sur iPhone.

Philip Bourne parlait, enfin, des progrès réalisés depuis ses premières expériences d’introduction de la vidéo dans son laboratoire à l’université de Californie, San Diego, jusqu’à la création du service SciVee, qui connaît aujourd’hui un grand succès en tant que « YouTube des sciences ». Il soulignait que, dans une situation d’explosion de l’information, les contenus multimédias ont un rôle positif à jouer, qu’ils répondent aux pratiques changeantes d’apprentissage, de consommation et de partage de l’information et que l’édition scientifique doit nécessairement s’y adapter (les pubcasts devenant parties intégrantes des publications).

Cette dernière intervention renforçait davantage l’impression que l’article scientifique classique est en train de devenir un anachronisme ; que le texte cédera de plus en plus de place à d’autres formats de production et présentation du savoir ; que les données primaires, résultats directs de la recherche, sont enfin valorisées ; que les technologies continuent à offrir aux scientifiques de nouvelles opportunités insoupçonnées de publier et de communiquer ; que néanmoins cette évolution doit être accompagnée d’efforts importants pour la conservation du « record of science ».

Notons que l’université Pierre et Marie Curie a eu la bonne idée de rendre les présentations de cette journée disponibles dans le cadre de son programme d’enregistrement d’événements 6.