La bnF engagée dans un projet de R&D pour la conception de la plateforme Correct (Correction et enrichissement collaboratifs de textes)

Isabelle Josse

Depuis janvier 2012, la BnF participe, avec huit autres partenaires (Orange, Jamespot, Urbilog, I2S, ISEP, INSA Lyon, université Lyon 1, université Paris 8), au projet de recherche FUI12 Ozalid. L’objectif est de concevoir une plateforme de correction collaborative de documents numérisés afin de produire des documents rééditables et accessibles à l’ensemble des utilisateurs (en particulier les personnes en situation de handicap visuel). Cette plateforme, appelée Correct, envisage une approche par crowdsourcing pour permettre la correction collaborative des documents, appuyée sur un réseau social pour organiser cette collaboration.

Illustration
Plateforme Correct : plusieurs vues pour l’éditeur de correction.

Un projet de R&D en 3 phases

Ce projet de recherche se déroule en 3 étapes :

  • 2012-2013 : mise en place d’une interface permettant de corriger des textes numérisés.
  • 2013-2014 : mise en place de fonctionnalités permettant, pour un texte donné, de reconstruire la mise en forme du document et de reconstituer un ordre logique de lecture.
  • 2014-2015 : mise en place de fonctionnalités permettant un enrichissement éditorial des textes (indexation, vocalisation, annotation, etc.).

Dans le cadre de la première phase du projet, la BnF a fourni des documents provenant de sa bibliothèque numérique Gallica. Le mode texte de ces documents numérisés contient des erreurs, car il n’existe pas de solution d’OCR  1 infaillible permettant de passer d’un document numérisé en mode image à une version en mode texte parfaitement fidèle à l’original. Le seul moyen d’y parvenir est de passer par une phase de correction humaine pour détecter et éliminer les erreurs restantes.

L’amélioration du mode texte des documents de Gallica est un enjeu important pour la BnF, car plus la qualité du mode texte est élevée, plus la recherche au sein de ces documents est performante.

Les autres phases du projet vont permettre de proposer des documents accessibles à l’ensemble des utilisateurs et adaptés aux nouveaux usages, mais également d’explorer les possibilités offertes par le crowdsourcing pour l’enrichissement des documents.

Servir des projets divers, créer du lien, permettre différents modes d’appropriation

L’ambition finale est de mettre à disposition des utilisateurs de la plateforme des outils permettant de porter des projets aux finalités diverses :

  • Améliorer le mode texte et l’indexation de documents.
  • Diffuser un document au format ePub.
  • Produire une version accessible aux synthétiseurs vocaux.
  • Concevoir une édition critique d’un ouvrage numérique.

La plateforme pourra donc s’adresser à des utilisateurs ayant différents profils (professeurs, étudiants, érudits, retraités) et venant de communautés variées (généalogistes, scientifiques, associations d’aide aux personnes handicapées, universités, etc.).

L’objectif étant d’offrir à tous ces publics différents modes d’appropriation, le projet porte une forte dimension de recherche-innovation centrée sur la relation homme-machine notamment pour développer des interfaces intuitives et plaisantes, voire ludiques, et apporter des outils d’aide aux utilisateurs dans l’exécution de leurs tâches.

À l’instar d’autres projets de crowdsourcing menés par des bibliothèques et des services d’archives, la mobilisation et l’animation d’une masse critique de contributeurs sont des facteurs clés de réussite. L’approche choisie est d’utiliser le réseau social comme levier de crowdsourcing, en premier lieu pour communiquer sur les projets de correction déjà mis en place sur la plateforme et s’assurer ainsi une audience large auprès d’autres communautés. Il s’agit également de créer du lien entre les contributeurs : la mise en réseau devrait pouvoir amorcer une émulation entre les utilisateurs mais aussi favoriser l’entraide, l’organisation de la collaboration et le contrôle collaboratif de la qualité.

Mener en parallèle recherches et expérimentations

Le principe retenu est de mener parallèlement une activité de recherche et une série d’expérimentations. L’objectif de cette approche expérimentale est d’apporter une dimension opérationnelle dans le cadre des activités de recherche.

À chaque phase sont réalisées des mises en situation des prototypes développés proches d’une exploitation réelle. Ainsi, une première expérimentation de l’éditeur de correction a été réalisée en avril 2013, suivie en juin d’une expérimentation en réseau pour tester les fonctionnalités sociales mises en place et analyser l’organisation de la collaboration.

Dans le courant de l’automne sera mise en ligne la version bêta de la plateforme Correct permettant à tous de la découvrir et de participer à son expérimentation.

Pour en savoir plus : projetfui12.ozalid@bnf.fr

Septembre 2013

  1. (retour)↑  OCR (Optical Character Recognition = Reconnaissance optique des caractères) : permet de situer et de reconnaître les chaînes de caractères dans une image pour faire la conversion des mots dans un fichier texte. Cette conversion est assurée automatiquement par un logiciel.