Semaine du document numérique
Isabelle Westeel
Si l’on devait qualifier d’un seul mot la Semaine du document numérique qui s’est tenue à l’Université de La Rochelle du 21 au 25 juin 2004 1, on pourrait sans aucun doute retenir celui de pluridisciplinarité. Autour du concept de document numérique, plus de cinq cents chercheurs, professionnels de la documentation, éditeurs, prestataires et industriels se sont réunis autour d’une vingtaine de manifestations scientifiques dont deux sessions plénières, trois conférences internationales francophones 2 et une quinzaine de colloques thématiques 3 et ateliers/journées d’étude. De très nombreux domaines de recherche et disciplines, rassemblés sur l’initiative du Réseau thématique pluridisciplinaire « Document » du département Sciences et technologies de l’information et de la communication du CNRS (RTP-Doc) 4 en association avec le laboratoire L3i de l’Université de La Rochelle, ont échangé autour de problématiques touchant à la numérisation et à la mise en ligne de documents, patrimoniaux ou non 5.
Numérisation et pluridisciplinarité
Il faut souligner la diversité des communications et la richesse des expertises dans les domaines de l’informatique, de l’ingénierie des connaissances, des sciences de l’information et des sciences cognitives. On peut regretter l’absence du point de vue juridique essentiel pour éclairer et préciser certains débats. Il est difficile de rendre compte ici de la variété des échanges et on peut souhaiter la mise en ligne prochaine des textes sur un site où les professionnels pourront puiser informations et inspiration 6…
Plusieurs laboratoires de recherche ont montré les avancées dans les systèmes de reconnaissance de structures et de formes et donc d’écriture manuscrite, procédés déjà utilisés de façon courante pour le tri du courrier ou la lecture des chèques. Des outils similaires sont actuellement développés pour le document ancien – manuscrit ou imprimé –, qui permettent le repérage, la classification, l’extraction et par conséquent la recherche des structures et des formes : lettrines, notations marginales, ornementation typographique, caractères imprimés rares résistant aux systèmes d’OCR (reconnaissance optique de caractères). Les travaux réalisés dans ce domaine se montrent déjà efficaces dans les traitements automatiques de masse, par exemple pour les actes de l’État civil dans les services d’archives.
Les coûts excessifs de la numérisation – terme pris ici au sens large de conversion d’un support et de sa mise en ligne – ont été évoqués à plusieurs reprises et des outils de traitement automatique devraient permettre de compléter les traitements manuels trop coûteux et trop longs. Le seul danger serait de mettre en place des outils hors contexte et sans l’expertise des chercheurs, finalement utilisateurs désignés de ces procédés, par exemple en histoire du livre. Le terme de pluridisciplinarité prend ici tout son sens.
Indexation et usages des documents
Deux autres questions, très liées par nature, étaient sous-jacentes dans de nombreuses discussions : l’indexation et les usages. Comment structurer, décrire et indexer un document (texte ou image) ? Quelle place pour l’indexation ou l’annotation 7 ? Il manque un guide des bonnes pratiques dans ce domaine. Qui structure et indexe ? D’un commun accord, le spécialiste (professionnel de la documentation, chercheur, lecteur…) et non l’informaticien. Cela nécessite de réfléchir à la granularité de l’information pour une recherche efficace et, d’un point de vue technique, de travailler à la convivialité des outils de saisie des métadonnées. Les possibilités et la pérennité du langage de balises XML (qui évolue actuellement avec les combinaisons de DTD [définition de type de document] et l’apparition des schémas XML 8) l’ont désigné comme langage et système d’écriture majeurs, qualifié d’espéranto du web ou susceptible d’être déchiffré à très long terme comme les signes de la pierre de Rosette 9.
Au cours de la session plénière RTP-Doc du mercredi, les questions d’exploitation, de mise en ligne et d’usage des documents ont été abondamment discutées : « Le document doit redevenir l’objet central, il faut l’aborder par ses usages qu’il est toutefois difficile de prévoir et de définir à l’avance. » On reproche aux bibliothèques numériques – parfois à juste titre – d’avoir mis l’accent sur l’objet-document et pas suffisamment sur les questions d’interaction et d’interactivité dans toute sa dimension sociale. La constitution de « réservoirs 10 » était cependant une étape préalable nécessaire. Il faudrait maintenant veiller à replacer l’utilisateur au centre du processus de recherche et à améliorer les services rendus en termes d’annotations (manuelle, automatique, collective), de parcours de lecture, d’espaces personnels de travail, de forums de discussion, de FAQ (frequently asked questions), de DSI (dissémination sélective de l’information)… Cette question des usages renvoie d’une façon générale au devenir de la fonction éditoriale avec l’Internet, « espace mouvant et déstructuré », où l’utilisateur recrée le document par sa navigation.
En guise de conclusion à ces quelques pistes de réflexion, on peut proposer ici une liste des thèmes récurrents et émergents : organiser la pluridisciplinarité, multiplier les échanges, mutualiser les moyens et les compétences, s’interroger sur les usages, définir les missions, développer des outils, établir des ponts avec l’industrie, procéder à l’évaluation des systèmes existants, créer de nouvelles interfaces et donc travailler sur les modes d’indexation, accentuer la formation et la sensibilisation. L’aide que peuvent apporter dans ces domaines les programmes européens 11 a été rappelée à plusieurs reprises : il est essentiel de poursuivre le travail dans ce cadre vu les enjeux scientifiques, culturels et économiques.