Séminaire folksonomies et tagging au Cnam

Des balbutiements du Web 2.0 à nos jours, premiers bilans interdisciplinaires

Sylvie Dalbin

Les folksonomies 1 et l’activité d’indexation de ressources par les usagers deviennent aujourd’hui objets d’étude pour différentes communautés de chercheurs. Dans ce contexte, la journée du 26 mars 2010, organisée par Alexandre Monnin et Évelyne Bourdoux, de l’équipe de recherche Dicen 2 du Centre national des arts et métiers, visait à « amorcer un questionnement et un dialogue entre [ces] différentes communautés scientifiques pour créer des passerelles entre les approches ». Sujets – et querelles ! – de laboratoires se sont mêlés au cours de cette journée passionnante.

L’ambiance était sérieuse dans cet amphithéâtre du Cnam bien rempli par des chercheurs et de nombreux praticiens, mais qui aurait pu être bondé avec des étudiants. Il est en effet toujours étonnant que l’on ne profite pas de ces journées pour amener – au moins pour quelques interventions – les étudiants en Infodoc afin de leur faire partager ce moment privilégié avec ceux qui deviendront leurs collègues, mais aussi pour leur permettre d’expérimenter ce type d’événement.

La journée était organisée en deux temps : une matinée réservée à des exposés théoriques de chercheurs, et une après-midi dédiée à des présentations de réalisations par d’autres chercheurs.

Fabien Gandon, qui fait toujours l’unaminité lors de ses présentations, démarrait avec une étude sur les ontologies informatiques ou, pour être plus juste, une étude mettant en exergue le rapprochement des ontologies et des folksonomies. Dès cette première intervention, on comprenait que la réconciliation va passer par un double processus : « folksonomiser » les ontologies et « ontologiser » les tags !

Les techniques informatiques au service d’un dispositif social

C’est ainsi qu’une grande part des travaux ou systèmes présentés exploitent des ontologies informatiques ou, en tous les cas, des structures qui s’en approchent fonctionnellement pour « formaliser » les tags. Le système de tags de programmation (ou machine tags) de Flickr 3, présenté par Patrick Peccatte, propose d’injecter, au milieu des tags, d’autres tags structurés par des micro-schémas tels que des éléments de Dublin Core associés à un vocabulaire contrôlé. L’ontologie informatique NiceTag 4, présentée par Alexandre Monnin, capture les tags et les documente. Le tag ne se promène plus tout seul : il est accompagné de son identifiant et de son système de référence (ici du couple auteur-date), le système pouvant fournir lui-même automatiquement ces informations. Dans le cas des machine tags, le choix du tag est contrôlé puisque issu d’un vocabulaire choisi et structuré par des éléments d’un schéma, mais il se libère de son système source pour vivre sa vie avec la ressource à laquelle il reste associé, et surtout avec d’autres tags non contrôlés. Dans NiceTag, le choix du tag reste libre, mais on documente sa production en lui fournissant un peu de contexte de production. Une constante de ces interventions – et qui nous change du « tout automatique » ou du « tout humain » – est le déploiement de techniques informatiques au service d’un dispositif social.

Freddy Limpens, doctorant, centre son travail sur l’établissement de synergies entre des calculs automatiques et des contributions faites par des spécialistes de divers domaines à l’Ademe (Agence de l’environnement et de la maîtrise de l’énergie), en cherchant à résoudre les problèmes liés aux variations linguistiques ou sémantiques des tags et ceux liés au coût des ontologies. Le prototype traite les divergences entre les tags proposés, en leur donnant un statut de « candidat-concept ». Le système sociotechnique s’appuie tout à la fois sur des outils techniques structurants (SKOS ou Simple Knowledge Organisation System : ontologie légère dérivée du format de données des thésaurus) 5, sur des automates suggérant aux utilisateurs des rapprochements entre concepts-tags, mais aussi sur des processus (une gestion de cycle de vie de la folksonomie devenue structurée) et sur une organisation entre différents acteurs avec, par exemple, un « ReferenteUser » qui offre un point de vue consensuel de référence sans exclure les points de vue divergents. Tout à la fin de l’intervention, on apprend que les « documentalistes offrent leurs ressources » (un thésaurus), gèrent et récoltent ces candidats pour enrichir leur thésaurus. Le dispositif est en définitive tripartite. Reste à traiter dans la suite du projet la question essentielle des outils de gestion de ces vocabulaires. Cette intervention, la seule qui se déroule dans un contexte d’entreprise, marie des systèmes de concepts non contrôlés (tags) et contrôlés (thésaurus), une grande diversité d’acteurs (utilisateur, utilisateur référent, professionnel de l’infodoc et automates) et un processus s’articulant autour des usages.

Fabula 6, riche site internet construit et alimenté par « des chercheurs […] s’intéressant à l’articulation entre théorie et histoire littéraires » n’utilise pas, selon Alexandre Gefen, de vocabulaires contrôlés, mais des mots-clés ou tags. Il est intéressant de noter ici l’usage des mots « tags » ou « mots-clés » pour désigner, au sein d’une communauté de spécialistes, des mots-clés qui ne sont pas imposés par des personnes extérieures à la communauté… mais qui le sont par la communauté elle-même, car peut-on vraiment dire que le vocabulaire utilisé par une communauté aussi restreinte que celle des chercheurs francophones en théorie et histoire littéraires n’est pas « contrôlée » ? Dans un contexte où des experts parlent aux experts, il est souvent peu utile de déployer un vocabulaire plus contrôlé qu’il ne l’est déjà par nature. Mais peut-être peut-on penser que l’indexation n’est pas contrôlée ? Une fois encore, le dispositif semble dans la réalité très contrôlé : le vocabulaire déjà validé est suggéré à l’utilisateur qui alimente le site avec un outillage simple, mais, en back-office, quelqu’un « réorganise » ces indexations, c’est-à-dire corrige, supprime ou fusionne les mots-clés des utilisateurs. Un fonctionnement qui reporte après coup le nettoyage d’une indexation non contrôlée. Ces quelques remarques ne retirent rien à l’intérêt du travail fourni et à l’intelligence de la conception d’un système qui allie automatisme et interventions humaines.

Un désaccord entre communautés scientifiques

Assez rapidement dans la journée, nous avons pu saisir le désaccord entre deux communautés scientifiques, désaccord exposé par Manuel Zacklad. Il repose sur le postulat suivant : deux termes de deux langues culturelles ou de spécialités différentes correspondent-ils ou non au même concept ? Ainsi, « Car » et « Voiture », selon Manuel Zacklad, renvoient à des notions différentes. Dans cette communauté, le programme scientifique du web sémantique, qui énonce que « pour partager des informations, il faut remonter à des degrés de formalisation qui nous permettraient d’atteindre des concepts et ensuite de faire des inférences logiques », est réfuté. Le sens d’un terme est analysé comme dépendant à la fois du contexte et de la situation. Le web sociosémantique s’appuie ici sur deux fondamentaux : la cohabitation de plusieurs systèmes d’organisation des connaissances (SOC) suivant les différents points de vue, plutôt qu’une approche par une vision globalisante, et la notion de ROI (recherche ouverte d’information), correspondant à une assistance à la recherche, à l’intersection de la requête (la recherche vue du web sémantique), de la fouille et de la navigation.

La recherche scientifique, c’est aussi l’évaluation et l’analyse des objets de recherche, ici des folksonomies. L’étude explotatoire comparative de folksonomies scientifiques, menée par Dominique Besagni, Cécilia Fabri, Claire François et Évelyne Broudoux, fournit d’intéressantes données sur ces pratiques, malgré les grandes difficultés liées au terrain d’étude (mobilité forte des dispositifs de folksonomies).

Cette journée s’est achevée sur une intervention d’Olivier Le Deuff, qui centra son approche sur les réseaux, les aspects sociaux des tags, plutôt que sur le tagging lui-même (le « folklore de la folksonomie »), et l’usage « mémoriel » (hypomnemata numériques), individuel ou collectif du tag.

L’articulation entre travaux scientifiques et réalisations concrètes, toujours délicate à réaliser, nous semble avoir été un élément-clé de la réussite de cette journée, dont on espère la reconduite.