entête
entête

Indexation des images et des sons

Le numérique a-t-il changé les pratiques ?

Cécile Kattnig

La journée « Indexation des images et des sons : le numérique a-t-il changé les pratiques ? », organisée le 9 mars dernier à Paris par le secteur audiovisuel de l’ADBS (Association des professionnels de l’information et de la documentation), faisait suite à celle du 6 octobre 2003 1. Son propos était de faire l’état de l’art, entre exposés théoriques et démonstrations, des outils de transcription automatique et de recherche par le contenu, et de montrer leur incidence sur notre pratique professionnelle. À travers l’illustration des trois médias (image fixe, image animée, document sonore) se sont trouvés ainsi posés les enjeux du traitement documentaire et de l’exploitation des métadonnées.

De l’indexation à l’éditorialisation

Bruno Bachimont, directeur de la recherche et de l’expérimentation à l’Institut national de l’audiovisuel (INA) et enseignant-chercheur à l’université de Compiègne, exposa les principes théoriques du numérique et l’évolution des pratiques documentaires.

La tendance du numérique est de fragmenter et de recomposer un contenu en unités arbitraires sans rapport au sens car recombinables à l’infini. Ce processus de « grammatisation » induit une influence du support sur le contenu. Le traitement documentaire se modifie de la description du document original à la déclinaison des usages possibles. Il devient interprétation à partir d’un modèle de représentation de la visualisation. Les informations détenues dans les métadonnées sont manipulées et permettent de pointer sur une partie arbitraire du contenu, l’objectif étant de sélectionner un segment et de le transformer pour l’exploiter. Ainsi, ce que l’on appelle document tend à n’être plus que le « contenant » à partir duquel sont extraits des fragments, nouvelles ressources numériques. Le travail documentaire glisse de l’indexation à l’éditorialisation, l’objectif étant de trouver des ressources pour créer de nouveaux contenus avec une recontextualisation liée à son nouvel usage (ex. : Images de guerre 1940-1945 de l’INA). La documentation ne consiste plus à documenter mais à éditer des ressources enrichies.

La mutation technique est en cours : la numérisation du système technique audiovisuel est effective, reste à le déployer. Les développements se concentrent sur les systèmes de repurposing, démultiplication technique et éditoriale d’un même contenu sur des cibles multi-usages, multi-supports, multi-formats (web, mobile, DVD…). Le nouvel enjeu est le passage d’un éditorial sur mesure à un éditorial de masse, c’est-à-dire la capacité de décrire et d’enrichir de grands volumes de ressources pour les utiliser et les éditer dans de nouveaux contextes.

Métadonnées et indexation automatique

Patrick Peccatte (Soft Experience) définit les métadonnées internes spécifiques aux images numériques, EXIF 2 et IPTC IIM 3, et les perspectives du format XMP 4, démonstrations à l’appui. Les métadonnées EXIF sont techniques et produites automatiquement à la prise de vue ; les métadonnées IPTC IIM sont textuelles et produites manuellement (rubriques auteur, légende, date de prise de vue, copyright…). En 2001, un nouveau modèle, XMP extensible, s’est développé, qui permet la résolution des problèmes de codage et de multilinguisme pour les légendes. Il s’appuie sur le Dublin Core, norme de description des ressources pour le Net, structuré en quinze éléments permettant de renseigner sur le contenu, la propriété intellectuelle et la version. L’IPTC Core for XMP, annoncé en 2005, permet la transition de l’IPTC IIM à XMP (ex. : portail Pixpalace et Musée du Louvre).

Indexation automatique d’images

Christian Fluhr (List, Laboratoire d’intégration des systèmes et des technologies du Commissariat à l’énergie atomique) exposa les différents aspects de l’indexation automatique des images associée aux textes et de la recherche dans des banques d’images. La société New-phenix, créée par le List, présenta ensuite un outil de recherche d’images associant la recherche de similarité visuelle et le traitement linguistique des légendes et mots clés, Newphenix picture. La société compte déjà parmi ses clients l’agence Roger-Viollet et Agenceimages.

Des « indexeurs », descripteurs de textures, couleurs et formes, caractérisent l’image à partir d’une analyse globale et locale. L’ensemble des caractéristiques constitue la « signature ». La recherche s’effectue à partir d’une image dont la signature est comparée à celles de la base de référence qui permet ensuite l’affichage des images les plus ressemblantes. La classification par proximité visuelle est couplée à l’apprentissage des mots clés en résultant (ex. : classes de voitures). Ainsi, le système génère automatiquement des descriptions d’images en langage naturel avec les « indexeurs » et les mots clés créés qui enrichissent des dictionnaires d’objets. Le traitement d’images complexes nécessite la génération automatique d’attributs (nature, contexte, thèmes) 5 et sa segmentation en zones (ciel, eau, herbe, largeur, bas, haut, gauche…). La mémorisation de ces éléments permet le développement de plusieurs dictionnaires, voire d’ontologies.

Le laboratoire List pilote, au sein du projet de recherche relatif à la sécurité Threat detection, les travaux sur la reconnaissance des visages. Citons d’autres projets de recherche : Imageval, européen et Ontoimage, international.

Transcription et description des documents sonores

Laurent Vinet, chercheur à l’INA, présenta une expérimentation de transcription automatique de la parole comme outil d’aide à la description des documents sonores. Elle permet une recherche plein texte dans une base de transcriptions indexées dont chaque mot est « time-codé ». En tant qu’outil de navigation, elle facilite la découverte et la description du document radio pour le documentaliste. Ce dernier peut avoir une vue globale de la temporalité du document, poser des marqueurs sur les parties les plus intéressantes, copier du texte vers les champs de la notice documentaire. Le système s’appuie sur des modèles 6 à enrichir par apprentissage : les modèles acoustiques (reconnaissance des phonèmes), dictionnaire et modèles de langage (issus de textes ou de transcription manuelle). L’évaluation est en cours et porte sur l’interface de description, le moteur d’indexation et la capacité à transcrire les entités nommées.

Hugues Vinet, directeur scientifique à l’Ircam (Institut de recherche et coordination acoustique/musique) et coordinateur du projet européen SemanticHifi, rappela les applications des métadonnées musicales (vente en ligne, surveillance du piratage, protection, segmentation de la parole/musique, identification du locuteur, manipulation et production du contenu) avant de décliner les descripteurs musicaux possibles. Le classement selon leurs fonctions de navigation inter-document ou intra-document permet de distinguer ce qui résulte de descriptions manuelles (informations éditoriales, données de production), automatisées (tempo, intensité, couleur orchestrale, structures temporelles, analyse harmonique, répétition et variations de motifs) ou subjectives comme les genres musicaux. Il déclina les différents types d’extraction automatique : analyse spectrale, analyse temporelle, extraction de structures composites, caractérisation.

Le projet SemanticHifi 7 se situe donc dans un environnement où le codage du contenu musical n’est plus limité aux enregistrements. L’objectif de ce projet est de concevoir « la chaîne hi-fi de demain » qui, outre des capacités de stockage importantes (base de 10 000 morceaux), offre des fonctionnalités pour la navigation, l’interaction, le rendu, la personnalisation et l’édition du matériel musical. Les fonctions visées prévoient la gestion de morceaux enregistrés avec une aide au classement et une navigation entre morceaux selon plusieurs modalités (recherche par chantonnement ; recherche textuelle par titre, auteur, genre, paroles ; génération automatique de listes) ainsi qu’une navigation à l’intérieur des morceaux musicaux (analyse de la structure temporelle ; déplacement virtuel dans la polyphonie et mixage assisté ; manipulation des structures internes des œuvres).

La réalisation d’outils de jeu instrumental et vocal (accompagnement automatique, transformations de la voix), d’outils d’édition et de composition personnalisés avec des applications DJ ainsi que le partage sur réseaux peer to peer (dans la limite juridique), auprès de communautés de pairs est le second volet de ce projet qui sera testé en juin 2006 auprès d’utilisateurs à l’occasion de la Fête de la musique à la Cité des sciences et de l’industrie. À suivre…

Le document numérique audiovisuel, dès lors qu’il s’accompagne de ses métadonnées formatées selon les normes reconnues, devient un produit « réutilisable » et « sécable ». Force est de constater qu’une utilisation « qualitative » des outils d’indexation automatique nécessite la constitution d’importants dictionnaires de référence. Le métier de documentaliste, en mutation, évolue vers une intervention « active », plus en amont de la chaîne de production, tenant compte de la multiplicité des usages.

  1.  (retour)↑  Voir « Images numériques : quels formats, quelles caractéristiques, pour quels usages ? », BBF, no 1, 2004 (Ndlr).
  2.  (retour)↑  Exchangeable Image File développé en 1995 par la Japan Electronic Industry Development Association.
  3.  (retour)↑  Information Interchange Model, développé en 1991 par l’IPTC (International Press & Telecommunications Council) et la NAA (Newspaper Association of America).
  4.  (retour)↑  Créé en 2001 par Adobe, Extensible Metadata Platform utilise une version simplifiée de RDF et une technologie XML.
  5.  (retour)↑  Nature : photo/dessin ; noir et blanc/couleur. Contexte : intérieur/extérieur. Thèmes : paysage/personne/ameublement.
  6.  (retour)↑  Le Limsi, Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur du CNRS à Orsay, collabore à l’élaboration de modèles pour des périodes chronologiques précises.
  7.  (retour)↑  http://shf.ircam.fr