Usages innovants d'Internet et outils intelligents

en direct de la Canebière...

Isabelle Gautheron

L'ADBS (Association des professionnels de l’information et de la documentation) organisait le 28 octobre 1999 à Marseille une journée d'étude nationale sur le thème des outils de veille sur Internet. Conçue par la délégation régionale Marseille-PACA (Provence- Alpes-Côte-d'Azur) de l'ADBS 1, en collaboration avec Toulon Var Technologies (TVT), cette journée d'étude avait pour objectif de faire un état de l'art des logiciels de veille (autrement dit « outils intelligents ») au travers d'interventions d'éditeurs et d'usagers éclairés représentés par des organismes comme l'ADIT (Agence de développement de l'information technologique de Strasbourg) 2 et l'Infothèque en ligne deTVT 3. La journée d'étude ayant lieu sur la Canebière, les 70 participants venus de la France entière purent également échanger avec différents acteurs professionnels d'Internet en région PACA.

Étaient invités à ce titre Martine Martelin-Gassama et Frédéric Briones pour l'École supérieure de commerce de Marseille 4 et Daniel Eymard pour le service commun de la documentation de l'université de Toulon et du Var. Enfin, Martine Sousse, responsable de la maison Orangina de Marseille 5, se fit le porte-parole du grand public et des jeunes créateurs. Un programme dense pour une journée qui fut riche d'enseignements à tous égards.

De l'agent intelligent aux logiciels de veille

Après les premières générations de moteurs et logiciels de recherche sur le texte intégral se sont développés des outils appelés intelligents en référence au domaine de l'intelligence artificielle dont ils sont issus. Ces logiciels de veille sont en réalité issus de la rencontre entre trois disciplines de recherche : l'intelligence artificielle, l'analyse sémantique et les sciences de l'information.

Utilisés pour la recherche d'information sur Internet et/ou sur des corpus de données locales, ils ont des fonctionnalités et appellations plurielles : agent intelligent, logiciel d'analyse sémantique, de text mining, de traitement d'information textuelle, de cartographie de l'information… Une complexité qui appelle explications et même vulgarisation !

Un agent intelligent est un logiciel qui permet de réaliser des tâches répétitives et qui a pour mission de rechercher de l'information sur le Web ou sur des corpus de données locales, de constituer des bases d'information; de surveiller et contrôler les ressources liées à une requête ; de visualiser et repérer les données.

L'agent intelligent fait ses recherches au travers de plusieurs moteurs de recherche. Il évalue les ressources, les classe, les filtre, les dédoublonne, vérifie les liens, le taux de pertinence des métatags 6. Il suit également les liens contenus dans les pages identifiées comme pertinentes. Il a donc des fonctionnalités sémantiques beaucoup plus avancées que les moteurs de recherche classiques.

Paradoxe s'il en est, alors que les outils de type « agent intelligent » font la part belle aux sciences de l'information, ils sont le plus souvent méconnus de la profession et sont peu utilisés dans les environnements documentaires.

Plusieurs raisons à cela : ces logiciels sont issus de la recherche et ils ont été développés pour cet environnement. Les clients directs des éditeurs de logiciels de veille sont principalement les services informatiques des entreprises, lesquels sont – cela n'est pas une nouveauté – assez peu sensibilisés aux notions d'usages, de méthodes et de démarches de recherche d'information. Ceci explique cela, et en particulier la complexité d'utilisation des produits. L'intention de la journée d'étude était donc bien fondée.

La méthodologie de l'ADIT

Jérôme Faure, veilleur à l'ADIT, a présenté la méthodologie utilisée au sein de l'agence. Cette dernière met en place des plates-formes de veille stratégique sur Internet pour les entreprises. Cette méthodologie est structurée en cinq étapes, chacune faisant appel à des ressources ou briques logicielles complémentaires.

Étape 1. Constitution d'une base de connaissances au moyen de requêtes transmises à plusieurs moteurs de recherche ou métamoteurs (les exemples cités furent Copernic 7, Bulleyes).

Étape 2. Rapatriement des données par télédéchargement (utilisation des aspirateurs de site Memoweb, E-Catch).

Étape 3. Traitement, filtrage, dédoublonnage, extraction de concepts (Sampler).

Étape 4.Création de clusters ou agrégats représentés sous la forme de cartes. Les principes de cooccurrence entre termes ou groupes de termes sont révélés.

Étape 5. Surveillance automatique (Sampler Scan, Netmind Push Verity) qui permet de suivre l'apparition de nouveaux concepts.

Cette méthodologie fait appel à des outils « gratuits » et payants, à utiliser en ligne ou hors ligne.

Petit catalogue de logiciels de veille

UMAP 8, analyse un stock de données en provenance d'Internet et de sources internes à l'entreprise ; il extrait l'ensemble des mots les plus fréquemment utilisés, et représente sous forme de carte les connaissances contenues dans les documents. L'utilisateur « navigue » sur cette carte selon ses centres d'intérêt et peut ainsi s'approprier l'information pertinente.

Selon la formule un brin lapidaire de Camille Guermonprez, représentant de l'éditeur, « l'agent (en soi) est stupide… Le logiciel ne se substitue pas à l'intelligence de l'utilisateur ; il permet au contraire à celui-ci de mieux l'exercer en lui fournissant rapidement une représentation graphique des informations traitées qui lui évite d'avoir à lire l'ensemble des documents ».

STRATEGIC FINDER 9 se définit comme un logiciel dédié à la veille stratégique sur Internet. Il interroge des dizaines de bases de données professionnelles sélectionnées par des experts et qui ne sont pas indexées par les moteurs de recherche traditionnels (1 000 bases étaient annoncées par Digimind pour la fin 1999). Il interroge simultanément des dizaines de moteurs de recherche et bases de données en exploitant les fonctions booléennes, effectue ensuite le déchargement des données répondant à la requête, le tri et dédoublonnage, gère la mise à jour et la diffusion des recherches.

DIGOUT4U 10, basé sur une technologie d'analyse sémantique, est un logiciel de recherche d'information sur le Web. Il récupère automatiquement des documents Web dont le contenu sémantique correspond à une requête en langage naturel.

SAMPLER 11 a été développé à partir de 1997 par Olivier Jouve. C'est un logiciel d'analyse sémantique et de cartographie de l'information mis en oeuvre dans des centres de recherche (Commissariat à l'énergie atomique- CEA, Institut national de la recherche agronomique- INRA), dans l'industrie et dans de grands organismes comme l'ADIT et le Cedocar (Centre de documentation des armées). Sampler est en général couplé à un moteur de recherche. Le complément du produit de base, Sampler Scan, permet d'assurer un suivi chronologique de l'information, un suivi des concepts et des relations entre concepts.

Appliqué à ce corpus textuel, le logiciel établit un lexique de mots (unitermes et multitermes grâce à un extracteur automatique de terminologie). Il permet ensuite de visualiser l'ensemble de ce lexique sous forme de représentation graphique après une étape de clustérisation correspondant à un regroupement des mots constitutifs du lexique par familles homogènes. Au sein d'un cluster, les mots sont reliés entre eux par des liens plus ou moins forts calculés en fonction des cooccurrences relatives des mots dans les textes. La sélection d'un mot au sein d'un cluster permet de retourner aux documents qui lui sont liés. Ce logiciel, qui permet d'appréhender le contenu du corpus textuel, peut ainsi être utilisé comme une aide à la reformulation d'une requête documentaire.

TROPES 12, outil d'analyse sémantique, permet d'extraire des concepts d'un corpus et d'élaborer un réseau de relations entre ces concepts sous forme de graphe. Basé sur un moteur d'intelligence artificielle, il est le fruit de recherches universitaires en linguistique, informatique et psychologie, ainsi que d'un dictionnaire français riche de 60000 mots et de 100 000 classifications sémantiques. Un graphe en toile permet d'identifier, autour du mot-clé, les thèmes situés avant et après ce mot dans les textes.

Des applications de ces produits sont visibles sur les sites de l'ADIT et de l'Infothèque en ligne, dont le principe fut présenté par Bruno Florence, de TVT.

Les perspectives

Une table ronde, animée par Catherine Fekrane, de TVT, clôturait la journée; elle permit d'en synthétiser les apports. Les outils de veille restent aujourd'hui peu accessibles à la fois en terme d'usage et en terme de marché, mais il est probable qu'un certain nombre de ces outils seront à l'avenir intégrés de façon transparente pour les utilisateurs dans des plates-formes de recherche.

Enfin les participants présents ont exprimé le souhait de voir se développer des liens plus étroits entre les éditeurs et les professionnels de l'information, ces derniers étant à même d'apporter leur expertise sur les méthodes et pratiques de recherche et sur la qualification des sources d'information. Puisque l'intelligence, c'est d'abord et surtout cette faculté de transformer de l'information en connaissance.