entête
entête

L'indexation à l'heure du numérique

Françoise Prouvoyeur

Le 5 octobre dernier, l’ADBS (Association des professionnels de l’information et de la documentation) organisait, à Paris, une journée d’étude sur « L’indexation à l’heure du numérique ». Constatant que « le débat traditionnel entre texte intégral et langage contrôlé est dépassé », que « les contenus deviennent indépendants des supports et sont directement accessibles aux utilisateurs et aux programmes » et qu’il « est possible de gérer des ensembles de contenus de nature différente et également des portions de contenus en opposition à l’unité documentaire analogique », on peut se demander quelle est la place du professionnel et comment évoluent les métiers de l’information.

Une introduction théorique

C’est à Bruno Bachimont, enseignant-chercheur à l’Université de technologie de Compiègne et directeur scientifique à l’INA (Institut national de l’audiovisuel), qu’avait été confiée l’introduction théorique de cette journée. Il défendit l’hypothèse d’une utilisation conjointe de deux types d’indexation des documents numériques :

– une indexation basée sur les « données », la structure formalisable du document avec XML + DTD + Schémas XML et les outils du web sémantique (ontologies + OWL et RDF) à visée d’exploitation automatique par des machines ;

– une indexation « documentaire » qui enrichit le document d’informations (exemple : un fichier initial, formalisé, d’adresses peut être enrichi d’une information sur les prénoms des personnes qui seront regroupés dans un index).

Il propose d’intégrer les deux paradigmes plutôt que de les opposer, ce qui est réalisable avec l’outil Topic Maps.

Pour les documents audiovisuels, il y avait rupture technique lorsque l’indexation se faisait dans une base de données numérique sur un fichier d’images analogiques. À l’heure du tout numérique, l’emploi d’un même support pour le document et l’indexation est possible avec l’utilisation de métadonnées et d’une grammaire de manipulation du document, en rapport avec la grammatisation de la norme MPEG4.

Bruno Bachimont rappela que la manipulation du document a changé dès qu’il est devenu numérique. L’indexation classique d’un objet livre qui est manipulé physiquement donnait lieu à une unité globale documentaire, donc une indexation grossière suffisait, l’intervention du lecteur, livre en main, se faisait ensuite par sa sélection dans la table des matières. Dans le contexte numérique, la nature du document a changé, on entend maintenant par « document » une UTM (Unité technique manipulable) – chaîne de caractères, pixels – et une USI (Unité sémantique d’interprétation) qui représente son contenu. Un livre comme une phrase sont des documents. On a donc a priori un texte, un flux de caractères que l’on sait manipuler avec les logiciels, et a posteriori une USI qui demande un acte d’interprétation, donnant le sens du document. Tout segment de document doté d’une adresse est accessible, donc indexable. Mais alors, tout segment arbitraire devient manipulable et indexable. D’où le nouveau problème à résoudre : comment manipuler les USI de façon signifiante et automatisable pour récupérer les UTM qui correspondent à ce que l’on recherche ?

Réalisations et expériences d’indexation automatique

Catherine Leloup, consultante, a proposé un « état de l’art des outils d’analyse et de traitement documentaire automatique ». Elle distingua cinq grandes fonctions des moteurs de recherche qui catégorisent et classent l’information automatiquement : extraction, typage des concepts, proximité des concepts entre eux (classes), comparaison, catégorisation. Ces outils sont utilisés pour la veille, le hotline, l’alimentation de bases de connaissances, les portails d’entreprise, l’analyse de contenu. Ils intègrent la structure des langues, notamment pour indexer les articles de presse. En conclusion, Catherine Leloup constata que les outils automatiques de recherche documentaire sont matures, mais que leur utilisation doit être plus méthodologique.

L’intervention de Jean-François Cosandier (Radio suisse romande) sur la « gestion des sons numériques dans un environnement de production intégré » offrit des perspectives intéressantes. Quarante années d’archives sonores sont numérisées à des fins d’échange et de réutilisation depuis 1997. En 2003, le nouveau Système intégré radiophonique pour l’archivage audio (Siranau) marie essences et métadonnées dans une même base de données d’archives. Sont mises en place les normes d’archivage et de métadonnées XML, l’indexation sur thésaurus et Dublin Core.

Les nouvelles techniques d’automatisation du résumé, de séparation de la parole et de l’image, la reconnaissance automatique du locuteur, des titres de musique et la segmentation automatique de l’émission en unités de sens viendront améliorer le travail des documentalistes. Ceux-ci pourront se consacrer à un travail plus intellectuel de développement des applications, et au suivi des normes.

Cette expérience est aussi intéressante par l’organisation du travail d’archivage en workflow collaboratifjournalistes/documentalistes. Une interface de description détaillée est disponible en Intranet, sur tout le circuit bureautique. Les journalistes producteurs/utilisateurs y indexent leurs émissions.

Sylvie Grésillaud (Institut de l’information scientifique et technique, Inist) traita de « la visibilité de revues scientifiques : l’intégration d’une indexation “traditionnelle” dans les standards de référencement des documents électroniques ». Désormais l’indexation des bases Francis et Pascal est automatisée en partie, sur format XML, et intégrée au système manuel qui était pratiqué à l’Inist. Le module d’indexation automatique fonctionne sur un outil réalisé en interne. La base de métadonnées est alimentée par les ingénieurs-documentalistes. C’est la diminution des effectifs (40 %) et les restrictions budgétaires qui sont à l’origine de ce changement. Celui-ci est vécu comme une avancée positive.

Didier Rioux (Le Monde) a fait part de l’expérience d’indexation automatique et d’enrichissement documentaire mis en place en 2003 au service de documentation du quotidien. Un million d’articles ont été traités (de 1987, début de la numérisation, à 2003) en utilisant l’indexation automatique du logiciel Intuition de Sinequa, accompagnée du « marquage » manuel des documentalistes. Le dictionnaire mis en place permet une indexation plus légère en coût de personnel. Les problèmes liés à l’instabilité du vocabulaire ont été corrigés par de bons modules d’aide à l’interrogation, le soin donné à l’interface, des fonctionnalités bien adaptées. Le gain de temps réalisé à l’indexation a permis de se recentrer notamment sur les recherches documentaires pour les journalistes.

Quelles nouvelles compétences pour les professionnels ?

Florence Muet, consultante, livra des « pistes de réflexion sur les compétences à acquérir pour les professionnels de l’information au regard des évolutions de la fonction documentaire ». Elle écarta l’hypothèse de la disparition des documentalistes. Chaque nouvelle technologie repositionne le documentaliste. Le contexte implique une évolution de la fonction documentaire et doit guider les professionnels vers l’euro-référentiel des compétences.

La linéarité de la chaîne documentaire appartient au passé. Le traitement du document est désormais fait à la source : le producteur traite l’information, le documentaliste complète, teste, homogénéise. Il intervient en amont des systèmes et en aval pour alimenter et contrôler.

On assiste au développement d’un marché des contenus où on demande efficacité, rapidité, productivité aux acteurs. Les fonctions sont moins de support que de création de produits. Cette production documentaire se confond avec son traitement, la construction de métadonnées normalisées, adaptées à la situation plutôt que la rédaction de résumés et d’analyses.

En guise de conclusion, Florence Muet s’est interrogée : « Quel cœur de métier : la technique ou la relation ? Où se situe l’expertise du documentaliste ? Connaissance et maîtrise des sources, capacité à qualifier et cartographier l’information, capacité à gérer les systèmes d’accès à la connaissance, compréhension des besoins et “traduction” de l’information. »