Publier sur Internet
séminaire Inria, 27 septembre-1er octobre 2004, Aix-les-Bains
Tous les deux ans, c’est avec une grande impatience qu’on attend les « cours Inria » (Institut national de recherche en informatique et en automatique) publiés par l’ADBS. Ils sont l’occasion de faire un point complet, fouillé mais clair, de l’évolution des « nouvelles technologies » à l’usage des professionnels des bibliothèques et de la documentation. Après Bibliothèques numériques (2000) et La recherche d’information sur les réseaux (2002), la livraison de 2004 s’intéresse à la publication sur Internet. Une fois de plus, la question est envisagée dans tous ses aspects. Le présent compte rendu va s’efforcer de présenter l’ouvrage dans ses principales dimensions.
Formats et normes
Au commencement sont les formats et les normes. Publier sur Internet offre sur ces sujets relativement techniques deux exposés, signés respectivement par Thomas Dechilly (« Diffusion de contenus et de documents sur Internet ») et Cécile Roisin (« Adaptation aux différents modes de lecture »). On est presque surpris de constater qu’on n’y apprend pas grand-chose de nouveau – sans qu’il faille en faire reproche aux auteurs. Unicode, XML (eXtensible Markup Language) et même SMIL (Synchronized Multimedia Integration Language) sont des notions désormais bien connues, même si pas forcément toujours très utilisées. Tout au plus pourra-t-on remarquer que, pour ce qui est de XML, la notion de DTD (Définition de type de document), à peine installée, semble déjà abandonnée, au profit de la notion de « XML Schéma », de fait plus souple à implémenter, là où la fabrication d’une DTD et, surtout, la validation d’un document conforme à sa déclaration par un parser (outil de vérification de structure XML) pouvait se révéler une redoutable épreuve de patience.
SMIL est déjà un outil plus complexe d’utilisation, de même que XSLT (eXtensible Stylesheet Language Templates), pourtant indispensable à la mise en forme de documents en XML. Heureusement, XML semble de plus en plus « caché » par les différentes applications qui l’utilisent, ou plus exactement intégré à des ensembles plus vastes de gestion de connaissances et de données structurées, regroupés sous la notion (vague, reconnaissons-le) de CMS (Content Management System). De cette façon, et tout comme avec les éditeurs HTML (HyperText Markup Language), la connaissance des outils de structuration (XML) et surtout de mise en forme (XSLT) n’est plus indispensable à la production, puis à la diffusion de documents et de sites basés pourtant sur leur utilisation « en natif ».
Si ces chapitres sont correctement rédigés, on pourra regretter, une fois de plus, qu’une place plus grande n’ait pas été faite au protocole HTTP (HyperText Transfert Protocol) et au fonctionnement des serveurs web, même si, de fait, on entre là dans un domaine relativement technique, considéré comme « réservé » aux informaticiens (quoique). De même, HTML, qui reste encore, et de loin, le format de diffusion sur Internet le plus répandu, semble un peu vite enterré.
Web statique, dynamique, sémantique
Comme l’indique Thomas Dechilly, « mieux diffuser signifie mieux produire les contenus », sujet auquel s’attachent d’autres contributions. De ce point de vue, XML reste un format irremplaçable pour prendre en compte une dimension souvent absente ou sous-estimée lors de la création de sites web : la nécessité de « penser » l’information, sa rédaction et sa structuration, en fonction des canaux de diffusion et surtout des publics auxquels elle s’adresse, et de leurs habitudes de consultation. En effet, à partir d’une structuration XML, on pourra produire, selon les besoins et avec les mêmes informations, des fichiers HTML, mais aussi RTF (Rich Text Format), PDF (Portable Document Format), etc., sans grande difficulté.
Deux autres chapitres s’intéressent plus particulièrement à ces notions de production, signés Olivier Roumieux (« Production des sites : les enjeux actuels ») et Jérôme Euzenat et Raphaël Troncy (« Web sémantique et pratiques documentaires »).
Olivier Roumieux souligne que la grande évolution du web ces dernières années a été le passage du « web statique » au « web dynamique » 1. Cette évolution peut être dangereuse puisque, par le biais du travail collaboratif, elle ne permet plus à personne d’avoir une vue d’ensemble de sites qui peuvent devenir incroyablement complexes. Mais elle permet, comme le souligne Olivier Roumieux, d’assister « au déplacement du centre de gravité du projet [de site web] depuis la salle des machines vers le poste de l’utilisateur », autrement dit et pour ce qui nous intéresse, de l’informaticien au professionnel de l’information. Les CMS, introduits plus haut, sont au cœur de ces dispositifs de mise en commun des informations et des « forces de rédaction ».
Autre évolution fondamentale, le passage au « web sémantique », sujet à la mode s’il en est. De quoi s’agit-il ? Pour J. Euzenat et R. Troncy, « le but du web sémantique est de développer un web dont le contenu s’adresse, au moins pour partie, aux machines… Un tel web doit doter ses ressources d’annotations dont la vocation n’est pas d’assurer l’affichage des documents mais l’appréhension de son contenu par divers outils logiciels ». Si on va au-delà des euphémismes et des précautions de style, le propos semble clair : permettre une recherche documentaire par des opérateurs « non humains » à l’aide de données (de métadonnées) présentes dans les documents et, si possible, elles aussi créées par des machines.
Pour ce qui est des métadonnées, la grande affaire du moment semble être le RDF (Resource Description Framework) qui, comme son nom l’indique, n’est pas un format de description de ressources comme le Dublin Core, mais un langage de description de ressources ET de relations entre ressources. Autrement dit, RDF offre la possibilité de modéliser les données bibliographiques, ce que ni les ISBD (International Standard Bibliographic Description) ni les formats Marc (Machine Readable Format) n’ont jamais vraiment tenté. Grâce à l’article, on comprend mieux de quoi il s’agit – même si on reste un peu sur sa faim.
Diffuser sur Internet
Enfin, une fois produite, l’information doit être diffusée. C’est l’objet du chapitre introductif, signé Hervé Le Crosnier (« L’évolution des modèles éditoriaux confrontés aux documents numériques ») et du dernier, signé Sara Aubry (« Archives ouvertes : nouveaux modèles de publication et de diffusion et nouveaux outils »). Osera-t-on écrire que ce ne sont pas les plus convaincants ? Sans doute était-il difficile de parvenir, sur ce sujet, à une présentation aussi exhaustive et objective que pour les domaines précédents. Il nous semble cependant que les auteurs pêchent par un parti pris louable mais trop systématique.
Sara Aubry expose la notion d’« archive ouverte », alternative à la logique économique qui préside actuellement, très largement, à la diffusion de l’information scientifique de haut niveau. Elle présente de manière détaillée des outils qui ont été mis en œuvre pour promouvoir la diffusion gratuite, par les chercheurs eux-mêmes ou par les organismes de recherche, de la publication des résultats de leurs travaux. Une place spéciale est faite à l’Open Archives Initiative, aujourd’hui largement publicisée. En conclusion, Sara Aubry indique que « le rôle du bibliothécaire consiste maintenant à savoir naviguer dans [les] fonds en maîtrisant parfaitement les outils qui permettent d’y accéder » et « à organiser la mise en ligne des travaux des chercheurs de son institution, en devenant un brin éditeur ».
Enfin, l’article d’Hervé Le Crosnier laisse plus sceptique. Présentant de manière très générale les notions de « document numérique », puis d’« édition », faisant un petit détour par l’édition des revues scientifiques (en révolution), par l’édition musicale (en crise) et l’édition de presse (en manque de crédibilité), il en vient à son axe central, « du filtre à la percolation » : « Ce moment de percolation, dans l’édition, est celui qui voit un document ayant déjà un lectorat acquérir subitement une audience élargie. Le “coup de pouce éditorial” devient une des tâches essentielles de l’édition. » Autrement dit, puisque tout est déjà publié, le rôle de l’« éditeur » n’est plus que de mettre en avant ce qui lui paraît fiable et digne d’intérêt. On peut ne pas être d’accord, mais Hervé Le Crosnier a une connaissance si approfondie de ces sujets qu’on peut lui faire crédit de ses extrapolations, que l’avenir confirmera – ou non. Le reste du chapitre, consacré notamment aux métadonnées et à la « syndication » (agrégation de contenus venant de sources extérieures à l’agrégateur), mais aussi aux « blogs » et aux « wikis », formes d’auto-publication sur l’Internet, est plus décisif.
Pour finir (mais cela n’aurait-il pas dû être son introduction ?), Hervé Le Crosnier s’interroge sur « l’information, un bien public ? » pour conclure évidemment que oui, et qu’il faut « inverser le phénomène de restriction [de l’espace public] qui est en cours, étendre à nouveau le domaine public ». On pourra considérer la proposition comme plus angélique que réaliste.
Si on ajoute la contribution de Michèle Lemu sur le droit appliqué à la publication, on a un aperçu finalement assez complet de l’édition sur Internet. Cependant, les précédents volumes nous avaient laissés à un tel niveau d’exigence et de qualité qu’on s’accordera à trouver Publier sur Internet un peu en deçà de nos espérances et de nos attentes. Peut-être s’agit-il tout simplement du témoignage de la banalisation avancée des outils, des méthodes et des concepts liés à la publication électronique, signe d’une maturité qui, comme souligné à plusieurs reprises dans l’ouvrage, permet aux professionnels de la documentation et de l’information de se ré-approprier les outils en apportant au domaine leur compétence et leur expérience.