Le web sémantique

De nouveaux enjeux documentaires ?

Juliette Doury-Bonnet

Une journée d’étude organisée par l’Association des professionnels de l’information et de la documentation (ADBS) et l’Institut universitaire de technologie de Paris V a été consacrée au web sémantique (WS), le 14 octobre 2003, dans les locaux du centre d’information sur l’Europe, Sources d’Europe, à La Défense. Chercheurs, étudiants, industriels et professionnels de l’information se rencontraient, afin qu’« un dialogue se noue » comme l’a souhaité en introduction Sophie David (Paris X).

Une extension du web

Le web aujourd’hui, c’est beaucoup d’informations, mais leur description est limitée. Le langage HTML ne donne que des liens sans sémantique, non utilisables par les machines. Philippe Laublet (LaLICC) 1 a défini le projet du WS. Initié par Tim Berners-Lee dès 1998, développé dans le cadre du W3C (World Wide Web Consortium) depuis 2001, c’est une extension du web actuel, « un vaste espace d’échanges de ressources entre machines permettant l’exploitation de grands volumes d’informations et de services variés, aidant les utilisateurs en les libérant d’une bonne partie de leur travail de recherche et de combinaison de ces ressources ». Les recherches en cours s’appuient sur un existant riche dans le domaine de l’intelligence artificielle, mais avec un changement d’échelle. Elles concernent les langages, les métadonnées et les annotations, les ontologies, l’intégration de sources d’information hétérogènes, la notion de services web. Le langage RDF (Resource Description Framework) est recommandé par le W3C.

Chantal Reynaud, professeur d’informatique (Paris X et Paris XI), a développé la notion d’intégration de sources de données très diverses et hétérogènes 2. L’intérêt du WS, en collectant toutes les réponses pertinentes provenant de sources multiples et en les combinant pour fournir une réponse globale, est de donner l’impression d’utiliser un système centralisé et homogène. Chantal Reynaud a souligné la nécessité d’équipes de chercheurs aux compétences multiples, citant l’exemple du projet Gemo qui associe intelligence artificielle et bases de données.

L’exposé d’Olivier Corby (INRIA, Sophia-Antipolis) était consacré à la gestion des connaissances via un WS d’entreprise. Le projet pluridisciplinaire Acacia (Acquisition des connaissances pour l’assistance à la conception par interaction entre agents) vise à développer des aides méthodologiques et logicielles pour la construction, la gestion et la diffusion de mémoire d’entreprise 3. Il s’agit de faciliter l’accès aux connaissances et aux informations d’une organisation et de permettre leur partage et leur réutilisation par ses membres. Il a insisté sur les rôles possibles de l’ontologie (c’est-à-dire tout simplement du référentiel de l’entreprise) : un composant de la mémoire, un outil d’indexation, une base de communication et d’échange entre des programmes et des logiciels. Une ontologie doit évoluer, or « il est très difficile de faire vivre des ontologies dans l’entreprise industrielle, car il n’y a pas beaucoup de documentalistes ». Pas plus que dans l’équipe de recherche représentée par l’intervenant, d’ailleurs.

Ontologies, métadonnées et annotations

Dans le contexte du traitement documentaire de textes de presse sur le web, Winfried Schmitz-Esser (Université des sciences appliquées de Hambourg) a comparé les ontologies médiatiques aux thésaurus traditionnels à partir d’exemples concrets, comme la modélisation du problème du voile à l’école. Les ontologies permettent « d’établir un pont entre le langage documentaire artificiel et le langage du texte ».

Bénédicte Pincemin, chargée de recherche au Laboratoire de linguistique informatique (Paris XIII), travaille sur la sémantique et l’interprétation des textes, le traitement automatique de corpus et la recherche d’information en texte intégral. Son exposé portait sur la comparaison entre thésaurus documentaires et ontologies du point de vue du linguiste. Ces deux concepts ne se recouvrent pas car ils sont apparus dans des contextes différents : la documentation et la communication.

Yannick Prié, du Laboratoire d’informatique en image et systèmes d’information (Liris, Lyon I), s’est attaché à définir les notions d’annotation et de métadonnée pour le WS. Une annotation est une « information associée à une ressource du web, permettant d’en favoriser l’utilisation par un agent humain, du fait de son exploitation par un agent logiciel ». C’est « un moyen de passage à un véritable hypertexte ». La description des ressources à partir d’ontologies se fait de façon manuelle, automatique ou semi-automatique. Yannick Prié a reconnu que si la différence entre « annotation » et « métadonnée » est assez vague, une annotation est plus libre, car « écrite au cours d’un processus d’annotation/lecture ». Il a souligné que des systèmes d’annotation sur le web existaient depuis 1994 et que les systèmes d’information documentaire n’étaient pas nouveaux non plus : autant profiter de toutes ces expériences. Et ne pas oublier le rôle des êtres humains…

Jean Delahousse a présenté la société Mondeca et son projet Hi-Touch à partir d’un exemple appliqué au tourisme.

La journée s’est achevée par une table ronde intitulée, bien entendu, « Vers de nouvelles collaborations ». Animée par le journaliste Philippe Collier, elle réunissait certains des intervenants précédents et deux nouveaux participants, Stéphane Cottin (Conseil constitutionnel) et Danièle Dégez (consultante, ancienne présidente de l’ADBS). Cette dernière, visiblement irritée par la profusion des concepts, peut-être redondants, maniés au cours de la journée, a voulu donner le « point de vue du terrain » et s’est interrogée sur les coûts dont il n’avait pas été question. Quant à Stéphane Cottin, il a lui aussi proposé « de revenir sur terre » et a souligné que dans le domaine juridique français, si le web a été « libéré », des DTD et des thésaurus créés, il n’y a pas encore d’outil opérationnel pour utiliser le WS. Dans la salle, Brigitte Guyot, maître de conférences à l’Institut national des techniques de la documentation (INTD), a posé le problème de la formation des documentalistes. Michèle Rive, documentaliste, a remarqué qu’au cours de la journée, « les documentalistes avaient été considérés comme des clients : ils aimeraient aussi être des acteurs ». Philippe Laublet, citant Ghislaine Chartron, a rappelé que des collaborations existaient déjà.