Semaine du document numérique

Isabelle Westeel

Si l’on devait qualifier d’un seul mot la Semaine du document numérique qui s’est tenue à l’Université de La Rochelle du 21 au 25 juin 2004 1, on pourrait sans aucun doute retenir celui de pluridisciplinarité. Autour du concept de document numérique, plus de cinq cents chercheurs, professionnels de la documentation, éditeurs, prestataires et industriels se sont réunis autour d’une vingtaine de manifestations scientifiques dont deux sessions plénières, trois conférences internationales francophones 2 et une quinzaine de colloques thématiques 3 et ateliers/journées d’étude. De très nombreux domaines de recherche et disciplines, rassemblés sur l’initiative du Réseau thématique pluridisciplinaire « Document » du département Sciences et technologies de l’information et de la communication du CNRS (RTP-Doc) 4 en association avec le laboratoire L3i de l’Université de La Rochelle, ont échangé autour de problématiques touchant à la numérisation et à la mise en ligne de documents, patrimoniaux ou non 5.

Numérisation et pluridisciplinarité

Il faut souligner la diversité des communications et la richesse des expertises dans les domaines de l’informatique, de l’ingénierie des connaissances, des sciences de l’information et des sciences cognitives. On peut regretter l’absence du point de vue juridique essentiel pour éclairer et préciser certains débats. Il est difficile de rendre compte ici de la variété des échanges et on peut souhaiter la mise en ligne prochaine des textes sur un site où les professionnels pourront puiser informations et inspiration 6

Plusieurs laboratoires de recherche ont montré les avancées dans les systèmes de reconnaissance de structures et de formes et donc d’écriture manuscrite, procédés déjà utilisés de façon courante pour le tri du courrier ou la lecture des chèques. Des outils similaires sont actuellement développés pour le document ancien – manuscrit ou imprimé –, qui permettent le repérage, la classification, l’extraction et par conséquent la recherche des structures et des formes : lettrines, notations marginales, ornementation typographique, caractères imprimés rares résistant aux systèmes d’OCR (reconnaissance optique de caractères). Les travaux réalisés dans ce domaine se montrent déjà efficaces dans les traitements automatiques de masse, par exemple pour les actes de l’État civil dans les services d’archives.

Les coûts excessifs de la numérisation – terme pris ici au sens large de conversion d’un support et de sa mise en ligne – ont été évoqués à plusieurs reprises et des outils de traitement automatique devraient permettre de compléter les traitements manuels trop coûteux et trop longs. Le seul danger serait de mettre en place des outils hors contexte et sans l’expertise des chercheurs, finalement utilisateurs désignés de ces procédés, par exemple en histoire du livre. Le terme de pluridisciplinarité prend ici tout son sens.

Indexation et usages des documents

Deux autres questions, très liées par nature, étaient sous-jacentes dans de nombreuses discussions : l’indexation et les usages. Comment structurer, décrire et indexer un document (texte ou image) ? Quelle place pour l’indexation ou l’annotation 7 ? Il manque un guide des bonnes pratiques dans ce domaine. Qui structure et indexe ? D’un commun accord, le spécialiste (professionnel de la documentation, chercheur, lecteur…) et non l’informaticien. Cela nécessite de réfléchir à la granularité de l’information pour une recherche efficace et, d’un point de vue technique, de travailler à la convivialité des outils de saisie des métadonnées. Les possibilités et la pérennité du langage de balises XML (qui évolue actuellement avec les combinaisons de DTD [définition de type de document] et l’apparition des schémas XML 8) l’ont désigné comme langage et système d’écriture majeurs, qualifié d’espéranto du web ou susceptible d’être déchiffré à très long terme comme les signes de la pierre de Rosette 9.

Au cours de la session plénière RTP-Doc du mercredi, les questions d’exploitation, de mise en ligne et d’usage des documents ont été abondamment discutées : « Le document doit redevenir l’objet central, il faut l’aborder par ses usages qu’il est toutefois difficile de prévoir et de définir à l’avance. » On reproche aux bibliothèques numériques – parfois à juste titre – d’avoir mis l’accent sur l’objet-document et pas suffisamment sur les questions d’interaction et d’interactivité dans toute sa dimension sociale. La constitution de « réservoirs 10 » était cependant une étape préalable nécessaire. Il faudrait maintenant veiller à replacer l’utilisateur au centre du processus de recherche et à améliorer les services rendus en termes d’annotations (manuelle, automatique, collective), de parcours de lecture, d’espaces personnels de travail, de forums de discussion, de FAQ (frequently asked questions), de DSI (dissémination sélective de l’information)… Cette question des usages renvoie d’une façon générale au devenir de la fonction éditoriale avec l’Internet, « espace mouvant et déstructuré », où l’utilisateur recrée le document par sa navigation.

En guise de conclusion à ces quelques pistes de réflexion, on peut proposer ici une liste des thèmes récurrents et émergents : organiser la pluridisciplinarité, multiplier les échanges, mutualiser les moyens et les compétences, s’interroger sur les usages, définir les missions, développer des outils, établir des ponts avec l’industrie, procéder à l’évaluation des systèmes existants, créer de nouvelles interfaces et donc travailler sur les modes d’indexation, accentuer la formation et la sensibilisation. L’aide que peuvent apporter dans ces domaines les programmes européens 11 a été rappelée à plusieurs reprises : il est essentiel de poursuivre le travail dans ce cadre vu les enjeux scientifiques, culturels et économiques.

  1. (retour)↑  http://sdn2004.univ-lr.fr/
  2. (retour)↑  Conférence internationale sur le document électronique (Cide) ; Colloque international francophone sur l’écrit et le document (Cifed) ; Colloque international sur la fouille de texte (CIFT).
  3. (retour)↑  Il est impossible de nommer ici toutes les manifestations. Citons cependant les premières rencontres « Numérisation et patrimoine », du 21 au 23 juin 2004, qui ont permis en particulier de dresser un panorama des problèmes et des réalisations en cours et à venir dans le monde des bibliothèques, des archives et des institutions chargées du patrimoine culturel et scientifique. Les communications devraient être mises en ligne sur le site http://liris.cnrs.fr/NumPat/
  4. (retour)↑  http://rtp-doc.enssib.fr/ Une table ronde présentait le travail collectif de réflexion du RTP-Doc cherchant à préciser la notion de document dans son passage au numérique, en privilégiant la forme (comme objet matériel ou immatériel), le signe (comme porteur de sens) ou le médium (comme un vecteur de communication).
  5. (retour)↑  La question de l’édition électronique scientifique a été posée à plusieurs reprises avec, par exemple, la présentation des projets de Revues.org http://www.revues.org
  6. (retour)↑  Les textes du numéro thématique de la revue I3 (Information-Interaction-Intelligence), La notion de document, paru à l’occasion de la SDN, ont été déposés sur le site http://archivesic.ccsd.cnrs.fr/SDN-I3/
  7. (retour)↑  La définition de ces deux termes est à préciser, les discussions ayant montré qu’ils recouvraient des significations différentes selon les métiers.
  8. (retour)↑  http://www.w3.org/XML/Schema
  9. (retour)↑  Remarque de Michel Bottin lors de la table ronde XML (rencontres « Numérisation et patrimoine »).
  10. (retour)↑  Un bilan réalisé par des représentants des différentes directions du ministère de la Culture et par la Mission de la recherche et de la technologie a permis d’établir le chiffre de 6 millions d’images numérisées en 8 ans (1996-2004) pour le patrimoine écrit (il faudrait ajouter les programmes concernant les fonds sonores et la vidéo). Cinq cents personnes ont également été formées depuis 1998.
  11. (retour)↑  Rappelons les programmes Minerva http://www.minervaeurope.org/ et Michael http://www.michael-culture.org qui prévoient la création de services nationaux interopérables et d’un portail multilingue du patrimoine culturel des pays d’Europe. La Mission de la recherche et de la technologie (ministère de la Culture et de la Communication) est le correspondant français du projet européen Minerva. Le site « Numérisation du patrimoine culturel » présente les versions françaises des documents Minerva http://www.numerique.culture.fr/