Les instruments d’organisation des connaissances à l’ère du web sémantique

Céline Brun-Picard

C’est dans une salle comble de l’université Jean Moulin Lyon 3 qu’a eu lieu, le 8 juin 2010, l’après-midi thématique d’Isko-France intitulée « Les instruments d’organisation des connaissances à l’ère du web sémantique ». Un titre pour le moins trompeur, car la rencontre ne s’est pas arrêtée à cette seule question : la succession des présentations a conduit l’assistance vers une réflexion finalement moins portée sur le web sémantique et ses standards que sur les procédés et pratiques d’adjonction de sens aux documents et informations, et plus globalement sur la manière dont l’information fait sens 1.

L’objectif des travaux défendus au titre du web sémantique, rappelons-le, est de rendre le contenu du web à la fois lisible par les humains et exploitable par les machines, afin de proposer de nouveaux services ou d’améliorer certains services existants, tels que, par exemple, donner accès au web caché, faciliter la recherche d’information ou l’agrégation de données dans un portail d’entreprise… L’ensemble de la démarche repose sur des données structurées ou semi-structurées et représentées dans un formalisme permettant leur manipulation par les machines : les métadonnées.

Le web sémantique dans les bibliothèques

Qu’en est-il dans la pratique ? Catherine Morel-Pair (Inist-CNRS) a d’abord rappelé qu’actuellement, les standards de métadonnées foisonnent. L’enjeu premier est donc de travailler à l’interopérabilité des métadonnées pour « libérer les données » des différents silos dans lesquels elles sont conservées, et ainsi de faciliter leur recherche, leur utilisation et leur (re)publication, tout en veillant à leur pérennisation, c’est-à-dire, notamment, en pensant à fournir des métadonnées d’ordre technique liées aux ressources mises en ligne.

Dans l’intervention suivante, Muriel Foulonneau (Centre de recherche Henri Tudor, Luxembourg) a énoncé différentes difficultés inhérentes à la mise en œuvre des projets dits de « web sémantique » par les bibliothèques. À l’heure du web sémantique, quelles données décrire, et comment les décrire ?

Précisons de prime abord que la communauté travaillant sur le web sémantique distingue les « ressources informationnelles », des « ressources non informationnelles ». Plusieurs types de données peuvent être déclarés « ressources » : le document, un paragraphe de ce document, l’auteur, une personnalité, le concept, etc. Chaque ressource informationnelle est identifiée via un URI 2, qui correspond, approximativement, à un identifiant unique permettant de localiser la ressource sur le web. Cette opération d’identification incombe d’ailleurs à quiconque publie sur le web (c’est l’essence même du projet DBpedia) 3.

Le nombre important de fournisseurs de métadonnées pose une première classe de problèmes, bien connue, mais non encore résolue : l’homonymie des termes utilisés. Faut-il adopter une solution de type « thésaurus », qui consiste (pour aller vite) à distinguer descripteurs et non descripteurs ? Comment procéder dans le cas où deux concepts équivalents sont utilisés, c’est-à-dire comment, techniquement, procéder au rapprochement de ces deux concepts ? Muriel Foulonneau a rappelé qu’il est possible d’ajouter a posteriori une équivalence entre deux concepts (« owl.same as »), et de procéder ainsi à la « fusion des graphes ». Des dérives existent cependant, qui consistent à utiliser ce procédé à outrance, à fins d’inférence : deux termes ne sont au final jamais vraiment tout à fait équivalents. La méthode de fusion de graphes et la pluralité des fournisseurs de métadonnées peuvent aussi conduire à des énoncés de propriétés contradictoires pour un même objet, entraînant des problèmes de cohérence. La question se pose alors de la qualité des métadonnées. Les bibliothèques ne peuvent-elles pas en être les garantes ?

La seconde classe de problèmes est liée à la préexistence de systèmes d’organisation des connaissances, construits hors web sémantique. Dans quelle mesure les vedettes matières (par exemple) peuvent-elles être utilisées pour le web sémantique ? Comment rendre une terminologie « sémantique » ? Faut-il la « skosifier » (à la manière de ce qui a été entrepris pour la bibliothèque numérique européenne), c’est-à-dire s’appuyer sur le langage « SKOS » développé sous l’égide du W3C ? La question demeure ouverte.

Folksonomies et thésaurus

Patrick Dugué, de l’entreprise GB Concept (éditrice du logiciel documentaire Alexandrie), a argumenté l’idée selon laquelle les deux systèmes d’organisation des connaissances ne sont pas concurrents, et qu’ils peuvent même se compléter. En effet, un bref retour sur l’histoire de la documentation permet de constater que l’opposition des techniques est vaine : le développement de la recherche en full-text n’a pas conduit à l’extinction des thésaurus, ni même à la fin de l’indexation « humaine », en particulier dans les structures documentaires les plus spécialisées. Du côté des professionnels de l’information, choisir d’utiliser telle ou telle technique d’indexation relèverait dès lors d’une question à se poser localement. Tout dépendrait du projet documentaire bâti autour des attentes des usagers. Voilà qui replace les professionnels de l’information au cœur des évolutions en cours.

Certes, mais les questions posées dans l’assistance ont également permis de soulever l’idée que tout n’est peut-être pas « si » simple. Le « projet documentaire » devrait-il uniquement être élaboré en fonction des attentes et des usages ? Par exemple, une logique exclusivement centrée – pour l’usage – sur l’agrégation d’informations hébergées par ailleurs ne pourrait-elle pas conduire à négliger la « pérennité » (C. Morel-Pair) des informations ? Voilà, en effet, une question fondamentale : si les discours sur le web sémantique nous conduisent à imaginer que les bibliothèques et centres de documentation sont des maillons d’une vaste chaîne documentaire, le risque est présent de sous-estimer les enjeux de l’interdépendance de chacun des maillons, au prétexte des bienfaits de la coopération avec la « société de l’information ».

Le dernier exposé, plus théorique, nous a invités à nous interroger sur la manière dont nous construisons le sens de l’information. L’ensemble de la démonstration de Sylvie Leleu-Merviel (université de Valenciennes) repose sur le constat d’un paradoxe : les scientifiques reconnaissent que le sens et l’information sont deux notions fortement imbriquées. Pourtant, au cours de l’analyse, l’habitude subsiste de les « dé-corréler ». Il existe donc, dans les milieux scientifiques – et au-delà –, une grande difficulté à appréhender l’information en n’éludant pas la question du sens. Comment la résoudre ? En s’appuyant sur l’approche diaphorique de Luciano Floridi et sur l’approche par patterns de Marcia Bates, Sylvie Leleu-Merviel parvient d’abord à montrer que l’information est non une donnée, mais le fruit d’un processus de filtrage des données lui-même défini par des savoirs, des expériences antérieures, une perspective propre, des éléments culturels, etc. L’apport spécifique de Sylvie Leleu-Merviel est alors de s’appuyer sur une étude de « monstres visuels » pour développer l’idée que ce sont les relations (les « lictions ») élaborées par l’individu qui construisent l’information. Cette première réponse appelle nécessairement toute une batterie de questions, dont la première – déjà largement débattue – est celle de savoir si l’information relève d’un construit individuel ou social. Ce à quoi Sylvie Leleu-Merviel répond en convoquant François Rastier : la signification n’est pas altérée par le contexte. Au contraire, le sens est premier. C’est sur la base de ces sens, tous différents, que la signification devient partagée, par un procès de légitimation de la connaissance.