Congrès World Wide Web 2010

Julien Gibert

Le Congrès WWW (World Wide Web) 2010 s’est tenu en avril au Convention Center de Raleigh, capitale de l’État de Caroline du Nord. La conférence, organisée depuis 1994 par l’IW3C2 (The International World Wide Web Conferences Steering Committee)  1 a rassemblé quelque mille participants.

L’objectif de l’événement était, comme chaque année, de faire un état de l’art du web d’un point de vue technique, mais aussi d’évaluer l’impact d’internet sur la société et la culture.

On pouvait y croiser Tim Berners-Lee, créateur du web, Hubert Van de Sompel, créateur du protocole OAI-PMH  2, Paul Jones, directeur de ibiblio.org, ou encore David Ferriero, archiviste des États-Unis  3.

De nombreux thèmes furent abordés : protection des données privées, réseaux sociaux, linked data, html5, web sémantique…

Évolution des moteurs de recherche

Lors de l’atelier portant sur la recherche sémantique, Barney Pell de Bing faisait le constat que 50 % du temps passé sur internet est alloué aux recherches : 25 % d’entre elles se soldent par un clic sur la touche « précédente » du navigateur. Les moteurs doivent donc évoluer pour être au plus proche des besoins des utilisateurs. Plusieurs tendances se dessinent, notamment en exploitant les pistes ouvertes par le web sémantique.

Une première idée consiste à dégager des entités sur le web de données (personnes, lieux…). Les moteurs peuvent ensuite agréger les données autour de ces domaines. Lors d’une recherche, une fois la phase de « désambiguïsation » passée, l’utilisateur peut donc aboutir à une page présentant un ensemble d’informations, par exemple regroupées par thème (images, actualités, biographie, etc.) et qui peut être affiné en utilisant des facettes.

Un autre axe de progression du moteur de recherche est l’aide à la décision pour des tâches classiques comme préparer un voyage ou choisir un restaurant : le moteur doit assister l’utilisateur en lui proposant des plans, des photos, des avis de consommateurs. Ces fonctionnalités peuvent être récupérées via des API  4 offertes par d’autres sites pour être intégrées dans la liste de résultats et ainsi enrichir les traditionnels « dix liens bleus ».

Produire du rdf

Mais pour utiliser le web de données, il faut produire des données. Plusieurs présentations s’attelèrent donc à montrer comment transformer des ensembles de données pour les mettre à disposition sur le nuage de linked data. La démarche générique consiste à développer un module permettant de convertir l’existant depuis son format d’origine vers des triplets RDF  5. L’étape suivante est d’identifier les coréférences au sein des datasets obtenus. Il faut enfin lier ces datasets au nuage de données. Un exemple présenté lors de la conférence consistait à exposer via Scovo des données statistiques exprimées en premier lieu en SDMX.

La qualité des données

Alors que le web de données croît, la problématique de la qualité des données apparaît de plus en plus importante pour le groupe du « pedantic web ». Un bilan qui permet de constater un certain nombre de défauts et d’erreurs dans les fichiers RDF disponibles sur le web a ainsi été établi : des URI  6 sans fichier RDF, des « content type » invalides, des termes de vocabulaire inventés ou mal orthographiés, plusieurs personnes qui se retrouvent avec le même résultat de hachage pour leur adresse courriel (et donc le même courriel !) et plus généralement des erreurs sur le typage des données. Un outil de validation plus fort que les validations standards pour fichier RDF a donc été développé et mis en ligne sur le web.

Le web de données dans le temps

Le projet « memento » de Hubert Van de Sompel concernait la gestion des ressources du web dans le temps. Comment savoir à quoi ressemblait six mois plus tôt le document que je regarde aujourd’hui ? Un lien peut pointer sur une ressource pour illustrer un propos, mais cette ressource peut avoir évolué et le lien ne plus être pertinent. Pour résoudre ce problème, H. Van de Sompel propose de créer un timegate, ressource associée à une ressource originale. Le timegate possède son propre URI, et lorsque celui-ci est interrogé avec une date et une heure en paramètre, la ressource à cette date et cette heure particulière est renvoyée. La navigation peut se faire à partir des anciennes versions vers la version actuelle, mais pour récupérer une ancienne version, il faut obligatoirement passer par le timegate.

La mise en ligne de données publiques en Grande-Bretagne

Le site www.data.gov.uk est la concrétisation d’un projet du gouvernement britannique qui consiste à rendre disponibles en ligne des données publiques (Data.gov est son équivalent pour les États-Unis). Les données concernent en priorité les domaines de l’éducation et du transport.

Le premier objectif de cette démarche est d’aller vers plus de transparence, de rendre des comptes à la population. On dénote aussi une volonté d’ordre économique, en offrant aux entreprises la possibilité de développer des produits et services qui s’appuient sur ces données. Des statistiques et des bilans peuvent maintenant être dressés, et il s’agit désormais d’améliorer les services publics.

Jeni Tennison, chef de projet, a pu expliquer que, malgré l’enthousiasme des politiques, il a fallu à son équipe technique vaincre un certain nombre de difficultés. Tout d’abord justifier le choix des linked data, technologie récente et moins connue que les traditionnelles pages html. Ensuite, ils ont dû se frayer un chemin entre les tenants d’un web de données à la qualité très poussée, mais dont les raisonnements parfois un peu théoriques ne sont pas forcément à l’épreuve de la réalité, et le besoin de réaliser une application qui fonctionne dans les délais fixés.

Un sentiment d’essuyer les plâtres donc, d’autant plus qu’un certain nombre de spécifications autour du web sémantique ne sont encore quelquefois qu’à l’état de brouillon. Des réponses concrètes ont dû être apportées à des questions aussi diverses que : « Quel format choisir pour les uris ? » ou « Comment gérer les différentes versions des documents et notamment le concept de provenance (c’est-à-dire suivre l’évolution d’un document) ? »

Enfin, ils ont dû garder à l’esprit qu’ils devaient construire un site accessible puisque de nombreux développeurs se trouvent désemparés face aux nouveaux concepts du web sémantique. Sur les listes de discussions, ils ont rencontré beaucoup de demandes d’API classiques au lieu des outils du web de données. Le choix a donc été fait de fournir une interface entre l’utilisateur et SPARQL (langage de requête). Les développeurs peuvent ainsi interroger data.gov.uk via un service REST (Representational State Transfer).

Il faut maintenant des applications pour consommer ces données, si possible de façon créative et inattendue. Deux domaines semblent particulièrement intéressants :

  • les statistiques, les associations possibles via le nuage de données offrant la possibilité dete, de la mise en perspective ;
  • les données géospatiales permettent, quant à elles, d’obtenir des cartes révélatrices en croisant des datase créer du contexts judicieusement choisis.

Web 3.0

Le nombre considérable de présentations consacrées au web sémantique semble confirmer son importance pour le web à venir. Il s’agit bien de mettre le plus possible de données en ligne, dans un format qui permette de lier ces ensembles de données entre eux. À charge alors aux applications de se servir de ce gigantesque graphe pour créer de l’information et faire émerger du sens.

  1. (retour)↑  http://www.iw3c2.org
  2. (retour)↑   Open Archives Initiative Protocol for Metadata Harvesting, protocole de collecte de métadonnées.
  3. (retour)↑   L’archiviste des États-Unis supervise la Nara (National Archives and Records Administration). Il est responsable de la préservation de tous les documents publics importants du pays.
  4. (retour)↑   Application Programming Interface : interface de programmation.
  5. (retour)↑   Resource Description Framework.
  6. (retour)↑   Uniform Resource Identifier : identifiant uniforme de ressource.