Folksonomies

Les usagers indexent le web

Olivier Le Deuff

Les folksonomies (terme forgé à partir de folk et de taxonomy) permettent aux internautes d’indexer des documents numériques pour pouvoir plus aisément les retrouver grâce à un système de mots-clés, les tags. Des débats agitent les spécialistes du web autour des avantages et des inconvénients de ce système d’indexation par rapport aux vocabulaires contrôlés élaborés par les professionnels de l’information.

Folksonomies (a term made up from folk and taxonomy) allows Internet users to index digitized documents in order to access them again more easily through a system of key words, known as tags. A debate is exercising web specialists about the advantages and inconveniences of this system of indexing compared with controlled vocabularies devised by information professionals.

Die Graswurzel-Gliederung („Folksonomies“, ein Wort das sich aus folk und taxonomy zusammensetzt) erlaubt Internetbenutzern digitale Dokumente zu indexieren um sie mit Hilfe von Stichwörtern, sogenannten „tags“ danach leichter wieder zu finden. Spezialisten auf dem Gebiet debattieren heftig über Vor- und Nachteile dieses Indexierungssystems im Vergleich mit den von Informationsspezialisten erarbeiteten kontrollierten Schlagwortsammlungen.

Las folksomías (término acuñado a partir de folk y de taxonomy) permiten a los internautas reseñar documentos digitaless para poder más comodamente encontrarlos gracias a un sistema de palabras de palabras-claves, los tags. Existen debates que agitan a los especialistas de la web alrededor de las ventajas e inconvenientes de este sistema de reseñamiento con relación a los vocabularios controlados elaborados por los profesionales de la información.

Le terme de folksonomie est apparu récemment sur le web pour désigner le phénomène d’indexation des documents numériques par l’usager. On rencontre également fréquemment le mot tag qui désigne en quelque sorte un mot-clé. Le terme de folknologie est aussi employé, mais plus rarement. L’usage du mot folksonomie semble donc plus opportun. L’architecte de l’information Thomas Vander Wal a forgé ce terme en combinant la taxinomie (règles de classification, taxonomy en anglais) et les usagers (folk).

Ce phénomène ne cesse de prendre de l’ampleur avec l’avènement des nouvelles technologies du web, dites « web 2.0 », qui donnent plus de possibilités d’expression à l’internaute. Les articles et les blogs sur le sujet ne cessent de croître mais l’essentiel de ce mouvement s’exprime en langue anglaise. Cependant, les usagers français pratiquent déjà les techniques de tags via le site Technorati qui recense les blogs par mots-clés. Ces pratiques suscitent plusieurs questions.

Le phénomène est-il durable ou n’est-ce qu’un effet de mode ? Les systèmes de classification et les thésaurus sont-ils menacés par ces systèmes ? Débats et interrogations sur ce thème sont actuellement en cours sur le web, notamment depuis l’article un peu provocateur du consultant et spécialiste en réseaux sociaux Clay Shirky [6]. Il est intéressant de noter que ce dernier et Thomas Vander Wal n’hésitent pas à répondre aux critiques émises sur les folksonomies, ce qui crée une dynamique intéressante à suivre.

Caractéristiques

Les folksonomies constituent la possibilité pour l’usager d’indexer des documents afin qu’il puisse plus aisément les retrouver grâce à un système de mots-clés. Le concept est lié à l’accroissement et à l’accélération de la production d’informations. Le système diffère donc nettement en cela des systèmes classificatoires classiques, comme la classification décimale universelle ou la classification Dewey, qui s’inscrivent dans des processus plus longs et dont le but est d’obtenir un classement cohérent de documents physiques dont le contenu est inscrit dans la durée. Les folksonomies, au contraire, ne reposent sur aucun thésaurus, ce qui confère à l’utilisateur une liberté totale quant au choix des mots-clés. Les folksonomies sont donc initialement centrées sur l’usager. Ce dernier les utilise dans un but personnel, afin d’organiser son propre système d’information.

Le paradoxe vient sans doute du fait qu’un esprit collaboratif marque le fonctionnement des systèmes dits de tags comme le fameux Technorati, l’un des plus importants moteurs d’indexation de blogs. Chaque usager s’organise en fonction de ses besoins propres d’information et n’est plus soumis à une organisation établie par des professionnels, qui s’imposerait à lui. Tout peut alors se trouver indexé par l’usager, depuis ses favoris jusqu’à ses photos, en passant par ses messages sur son blog. L’esprit collaboratif permet également d’indexer les documents produits par les autres selon ses besoins.

L’ouverture d’esprit caractérise la folksonomie, comme le web 2.0. L’un et l’autre se rapprochent des idéaux premiers d’Internet. Les folksonomies sont donc de ce fait plus proches du monde des logiciels libres que des systèmes propriétaires. C’est pourquoi la notion de partage est souvent évoquée. Les services de photos en ligne comme Flickr, Ryia, Yahoo Photos permettent de partager ses photos, qui peuvent être indexées par d’autres usagers et réutilisées pour d’autres fonctionnalités. Les sites de stockage en ligne comme Box.net ou Overdrive vont également dans cette direction en permettant de stocker des documents personnels qui seront indexés mais qui peuvent également être partagés.

La force des folksonomies réside aussi dans le fait qu’elles ne nécessitent aucun consensus, à l’inverse des taxinomies. Il ne peut leur être reproché a priori des visions politiques ou idéologiques. Un blogueur prétend même 1 : « Il n’y a pas de politique dans les folksonomies car le système ne comprend pas de niveau méta qui autorise les communautés d’usagers de tags à discuter de la pertinence ou non de taxinomies émergentes. Il y a seulement l’acte de taguer et le résultat cumulé et amplifié de ces tags. »

Cette affirmation est discutable : l’emploi de mots-clés n’est pas neutre, il est au contraire révélateur. En outre, il faudrait également se demander à qui bénéficie le développement de l’usage des tags.

Deux types de folksonomies

Thomas Vander Wal [8] distingue en effet deux types de folksonomies, les « étroites » (narrow folksonomies) et les « générales » (broad folksonomies). Il est possible de trouver le terme de personomie, qu’il faut alors rapprocher des narrow folksonomies.

Cette distinction est importante, car les premières sont surtout utilisées dans un objectif individuel tandis que les secondes privilégient l’aspect collectif et collaboratif du partage d’information. Ainsi les sites de partages de favoris, comme del.icio.us ou Connotea, sont plutôt des folksonomies générales puisqu’un même site peut être partagé par plusieurs utilisateurs et recevoir le même tag. Ce type de folksonomies s’appuyant sur des réseaux sociaux ne fait pas que classer de l’information et la partager. Il met en relation des usagers qui partagent les mêmes centres d’intérêts. L’usager indexeur devient à son tour un peu indexé et mis en relation à la fois avec d’autres mots-clés, d’autres sites et d’autres usagers.

Qu’est-ce qu’un tag ?

Le terme qui revient le plus souvent dans les folksonomies est celui de tag qui désigne en fait un mot-clé, une catégorie ou une métadonnée. Le mot tag signifiant en anglais : étiquette de balisage, étiquetage, fléchage, marquage, voire traçage, il est possible de rencontrer des traductions comme tagage collaboratif. Voici la définition qu’en donnent Guy Marieke et Emma Tonkin [2] :

« Que sont vraiment les tags ? Une définition simple serait de dire que les tags sont des mots-clés, des catégories de noms, ou des métadonnées. Essentiellement, un tag est simplement un jeu de mots-clés librement choisi. Cependant, du fait que les tags ne sont pas créés par des spécialistes de l’information, ils ne suivent aucune indication formelle. Cela signifie que ces items peuvent être catégorisés avec n’importe quel mot définissant une relation entre la ressource en ligne et un concept issu de l’esprit de l’usager. Un nombre infini de mots peut être choisi, dont quelques-uns sont issus de représentations évidentes tandis que d’autres ont peu de signification en dehors du contexte de l’auteur du tag. »

Le tag peut alors prendre toutes les formes possibles, selon le désir de l’internaute et surtout selon sa culture et sa maîtrise de la langue. Le système ne reposant sur aucun thésaurus, des mots absents du dictionnaire ou des néologismes peuvent devenir des tags. De même, certains sites permettent de lier le tag à un nom de personne. C’est le cas du site Tagalag.

Le mouvement ne cesse de s’accroître mais il n’est guère aisé de chiffrer le nombre de billets de même qu’il est difficile d’évaluer le nombre de blogs.

Inconvénients et avantages

Adam Mathes [1], dans son article paru en décembre 2004, résume le problème en une phrase : « Une folksonomie représente en même temps ce qu’il y a de meilleur et de pire dans l’organisation de l’information. » Mathes montre ainsi que la force des folksonomies constitue également sa faiblesse. Sa souplesse d’utilisation et son adaptabilité infinie font que l’organisation de l’indexation par l’usager est chaotique.

Les folksonomies suscitent par conséquent de nombreuses critiques, notamment de professionnels de l’information qui y voient parfois des similitudes avec l’emploi des métadonnées. Les folksonomies constituent également un moyen pour attirer des visiteurs sur un site par l’emploi de mots-clés détournés.

Elles peuvent dès lors être source d’info-pollution, pour reprendre l’expression d’Éric Sutter [7], vidant de leur sens de nombreux mots-clés. Les photos recevant les mots-clés de vacances sont tellement innombrables, que cela n’a plus grand intérêt si ce n’est pour celui qui les a indexés ainsi. Le fait qu’elles ne reposent sur aucun thésaurus fiable introduit de nombreuses confusions et des polysémies dérangeantes. Il en résulte une Babel sémantique qui peut finalement aboutir à un résultat inefficace et à une grande perte de temps.

Le nouveau danger est que certaines entreprises tentent de faire croire, via les systèmes de recommandation par les internautes, à la fiabilité de leurs produits. Or il n’est pas si difficile de créer de faux usagers. Cette pratique est qualifiée d’astroturfing.

Critiques et débats

Beaucoup de spécialistes de l’information, comme l’architecte de l’information sur le web Louis -Rosenfeld [5], se montrent très critiques à l’égard des folksonomies : « Il est facile de dire que les usagers des réseaux sociaux sont parvenus à réaliser ce que les bibliothécaires n’ont pas réussi : un moyen de faire fonctionner des métadonnées dans des collections de contenu largement distribuées et non connectées les unes aux autres. Facile mais faux : les folksonomies sont clairement convaincantes en favorisant une forme de navigation basée sur la sérendipité 2 qui peut être tout à fait utile. Mais elles ne favorisent pas la recherche et les autres types de navigation de manière aussi précise que des tags émanant de vocabulaire contrôlé par des professionnels. »

Clay Shirky lui répond sur un autre blog 3 : « Le problème de l’anayse de Rosenfeld provient de son manque total de sens économique. […] L’avantage des folksonomies n’est pas qu’elles sont meilleures que les vocabulaires contrôlés, mais -qu’elles sont meilleures que rien, car les vocabulaires contrôlés ne sont pas adaptables dans la majorité des cas où un tag est requis. Construire, maintenir et améliorer un vocabulaire contrôlé revient très cher par rapport aux folskonomies, à la fois en temps de développement et pour l’usager, notamment l’usager amateur dans l’utilisation d’un système normé. »

Des moyens de veille et de mesure

Cependant les folksonomies présentent un intérêt notable en ce qui concerne la traque de termes précis (tracking), notamment pour faire de la veille. C’est un élément intéressant pour des veilles spécialisées. Par exemple, nous utilisons le tracking de Technorati concernant le mot-clé information literacy. Nous pouvons ainsi consulter de nombreux blogs où ce terme est employé.

Les folksonomies sont aussi à la base des mesures de popularité. En effet, des sites comme Digg ou l’équivalent francophone Fuzz permettent de mesurer la popularité d’un message sur un blog et affichent sur leur page d’accueil les billets de blogs les plus vus du moment. C’est aussi un moyen de voir comment et à quelle vitesse se propage une information. Il existe pour cela plusieurs sites tels des agrégateurs de tags comme Guten Tag, qui affichent la popularité des tags utilisés.

Mais il ne faut pas confondre popularité et pertinence, qui sont parfois des notions opposées. De même que pour les métadonnées, ce type d’usages ne garantit pas la fiabilité de l’information et est source de manipulations évidentes pour figurer « en haut de l’affiche ». En effet, ces usages reposent aussi sur l’ego des blogueurs, qui cherchent à être lus et référencés. D’ailleurs, le site Technorati oblige les blogueurs qui veulent référencer leurs derniers billets à effectuer de régulières mises à jour de leur site par un ping (Packet Interner Groper) 4 sur le site.

Les nuages de tags permettent d’afficher l’essentiel des thèmes abordés de manière visuelle sur un blog, ce qui est pratique pour voir en un seul coup d’œil l’intérêt du site. Autre avantage de ce système, l’aspect linguistique. En effet, cela permet de voir quels sont les champs lexicaux prédominants ainsi que les langues les plus employées. Au vu du succès des tags en anglais, nous pouvons nous demander si les usagers ne vont pas être d’ailleurs tentés de n’employer que des termes anglais, voire de n’écrire qu’en anglais afin d’être lus par le plus grand nombre, ce qui n’est pas anodin en termes de rentabilité publicitaire du blog.

Néanmoins ces usages constituent avec les flux RSS une alternative intéressante à la seule recherche via les moteurs de recherche. D’ailleurs, les firmes comme Google et Yahoo surveillent de près les folksonomies et n’hésitent pas à acheter les plus populaires, comme ce fut le cas pour del.icio.us racheté par Yahoo.

Le web sémantique du pauvre ?

Le succès des folksonomies vient sans doute du fait qu’il s’agit, en quelque sorte, d’un web sémantique du pauvre. Il s’agit aussi d’un système qui change les méthodes de navigation et de recherche, puisqu’il permet d’accéder à des ressources pertinentes qu’un moteur de recherche aurait pu ignorer. Malgré des limites manifestes, les folksonomies mettent en évidence la possibilité de développer un système plus élaboré, auquel les internautes pourront être tentés de participer. Elles ont aussi le mérite d’exister face aux projets de web sémantique dont les applications concrètes sont encore limitées.

Il est donc probable que nous ne sommes qu’à une étape intermédiaire du système. Les micro-formats, avec X-folk 5, qui permet de définir des tags dans n’importe quelle page html, ou bien encore l’extension pour Mozilla Firefox Tagsy 6, sont parmi les projets les plus attendus.

Comment éduquer à l’indexation ou la Tag literacy

Une des solutions pour améliorer le système serait de former les utilisateurs à l’indexation par tag. Pour cela, il faudrait aussi que les sites permettent l’usage de plusieurs mots-clés pour définir un document. Mais il faut d’abord comprendre quels sont les mauvais tags.

Nous pouvons établir une liste de mots-clés mal indexés. Nous nous sommes inspirés des travaux du consultant en systèmes d’apprentissage Ulises Mejias [3] pour établir une liste de tags inefficaces : les tags mal orthographiés, les tags mal conçus, notamment les groupes de mots collés ensemble ou séparés sans utiliser l’underscore, ceux qui ne respectent pas les règles d’usage ou les conventions, les tags personnels n’ayant aucun intérêt collectif ou encore un tag unique qui n’apparaît qu’une seule fois dans une base de données.

Des règles de bonne indexation par tags ont été édictées :

l’utilisateur doit penser collectivement : les tags sont certes personnels mais peuvent également être utilisés par d’autres ;
employer le pluriel pour définir des catégories. Le pluriel est plus approprié car la catégorie peut contenir différentes variations ;
ne pas employer de majuscules, à moins que le mot ne puisse être compris sans ;
utiliser l’underscore pour définir un groupe de mots ;
inclure des synonymes afin d’éviter les confusions ;
observer et utiliser les conventions d’indexation des sites et des réseaux sociaux utilisés ;
contribuer à ce que les efforts d’indexation soient efficaces en collaborant et en ajoutant des tags à d’autres ressources.

Outre ces règles, des sites comme Tagyu tentent de mettre de l’ordre, en conseillant l’usager sur les tags à utiliser, par analyse des mots-clés utilisés par d’autres.

Cet ensemble de règles peut être utile. Toutefois, contribuer à une indexation efficace implique non seulement des compétences mais aussi du temps. C’est ce que souligne Ian Davis, spécialiste en bibliothéconomie 7. Selon lui, l’indexation par les usagers semble moins coûteuse en temps, mais c’est le temps passé à retrouver l’information qui s’accroît, contrairement aux systèmes d’informations hiérarchisées, où le coût d’indexation par les professionnels est plus élevé, mais la recherche d’informations facilitée pour l’usager. Partant de l’adage « le temps, c’est de l’argent », il en conclut que le système de tag devient dès lors onéreux.

Il émet même l’hypothèse que, dans cinq ans, les folksonomies seront petit à petit abandonnées pour un retour à la médiation des bibliothécaires et de Google (sic). On peut trouver cette vision tout aussi exagérée que celle de Shirky.

Conclusion

Les folksonomies s’inscrivent donc dans une « redocumentarisation » [4] qui voit l’usager conférer un sens au document, à partir de l’usage qu’il souhaite en faire. Cela entraîne des mutations qui peuvent laisser la place aussi bien à une nouvelle souplesse documentaire qu’à des manipulations.

Comme l’écrit Roger T. Pédauque [4], « les bouleversements induits par les nouveaux usages du web affectent autant la valeur attribuée aux contenus (crédit, autorité, représentativité) que les modes de médiation eux-mêmes (conditions spatio-temporelles de l’interaction, brouillage des rôles et des sphères « public/privé », camouflage des identités, rupture dans les genres, les discours et les usages, etc.) On se trouve désormais confronté à un jeu de rôles dont les règles changeraient en permanence, à l’insu même des acteurs qui tirent profit de cette permissivité ou subissent les désagréments des transgressions. »

On peut sans doute parier sur la coexistence des différents systèmes d’indexation, par les usagers et par des professionnels : les deux opérations ne répondent pas toujours aux mêmes objectifs. Les folksonomies présentent de forts avantages pour l’accès à de l’information rapide, voire dans le cas de la veille, tandis que l’intérêt de l’indexation professionnelle demeure, pour sélectionner de l’information à caractère plus durable.

Dans ce contexte, les folksonomies peuvent nous permettre d’envisager sur la Toile des systèmes de catalogues hybrides, permettant les deux types d’indexation.

Mai 2006