La recherche intelligente sur l'Internet et l'intranet
outils et méthodes
Henry Samier
Victor Sandoval
Henry Samier et Victor Sandoval proposent une seconde édition revue et augmentée de leur ouvrage La Recherche intelligente sur l'Internet et l'Intranet. L'objectif de l'ouvrage est d'aider l'internaute débutant ou même confirmé à trouver rapidement une information sur Internet grâce à des méthodes efficaces qui permettent de ne pas se laisser submerger par le nombre de réponses et par le bruit généré par les moteurs de recherche. Il ne s'agit donc pas, dans cet ouvrage, de donner un panorama des outils de recherche d'information existants (dont on trouvera toutefois une liste dans l'annexe) en décrivant les performances de chacun d'entre eux.
Après un premier chapitre présentant rapidement Internet et rappelant très utilement à l'internaute non averti quels sont les différents types d'outils de recherche, on en arrive au corps de l'ouvrage (chapitres 2 à 6) qui expose les méthodes de recherche préconisées par les auteurs. Les derniers chapitres (7 à 9) tentent d'ouvrir le sujet aux applications professionnelles et enjeux économiques de la recherche d'information sur Internet : la veille et l'intelligence économique (chapitre 8), la recherche documentaire, l'éducation, le commerce électronique, les sciences de l'innovation (chapitre 9). Ces chapitres, contrairement aux précédents, sont théoriques et semblent s'éloigner de la perspective concrète et pragmatique des précédents. Ils ont le mérite de rappeler que le sujet de la recherche d'information sur Internet est au cœur de bien des enjeux majeurs concernant les utilisations d'Internet tout comme de ceux concernant les logiciels qu'elles mettent en œuvre. Ainsi, par exemple, les auteurs soulignent que « nous assistons actuellement à une fusion des logiciels provenant des domaines de l'Internet, de l'intelligence économique et de l'aide à la décision. En effet, de même que les logiciels documentaires ont basculé sur des technologies Intranet, de même nous assistons à un phénomène général fondé sur la convergence de problématiques communes qui ont pour but de trouver l'information utile dans une masse d'information » (p. 93).
Typologie des recherches
Les auteurs distinguent la recherche manuelle, la recherche semi-automatique et la recherche automatique. Une recherche est d'autant plus automatisée qu'elle prend en charge une partie des tâches de recherche d'information dévolues à l'internaute. Les « outils d'aide à la consultation de moteur de recherche » et les « aspirateurs » (outils de téléchargement de pages ou de sites Web) permettent de passer de la recherche manuelle à la recherche semi-automatique. Cette dernière ajoute à la simple consultation des annuaires, moteurs par index et métamoteurs, des services automatisés tels que la sauvegarde des pages de résultats en local, la création éventuelle de carnets d'adresses (signet/bookmark /favori), la génération d'un résumé pour chaque page, l'édition d'un fichier de résultats (titre, résumé), éventuellement l'indexation en texte intégral. Les outils cités en illustration sont Bullseye, Copernic, Echosearch, Webseeker, etc. (p. 56). Les « aspirateurs » (Memoweb, TeleportPro, Websnake, Webwacker, Webzip) permettent non seulement de copier un site et de régénérer les liens en local, mais aussi de générer une table des matières, d'indexer les données téléchargées.
La recherche automatisée, quant à elle, se donne comme objectif « de constituer une base de connaissance pertinente et dynamique utilisable par l'entreprise, et, d'autre part, de réaliser des gains de productivité dans les recherches, le traitement et la diffusion des informations utiles à l'entreprise ». Les outils utilisés dans cette perspective, sont ceux qui permettent les six fonctions suivantes : recherche, indexation, filtrage, présentation, distribution (technologie push 1), aide à la décision. En illustration, les auteurs proposent un tableau récapitulatif des outils par rapport à ces fonctions (p. 98-99), en y ajoutant quelques recommandations selon qu’ils sont utilisés par une entreprise pour mettre en place un système de surveillance de l'environnement ou par une école ou université.
À chaque type de recherche sont associées des méthodes de recherche. Elles sont accompagnées d'exemples récapitulant, à l'occasion d'une requête, les résultats et le temps passé. La seconde édition a mis à jour la liste des outils de recherche destinée à illustrer chacune des méthodes, mais les exemples restent les mêmes. Ainsi le webring est introduit au chapitre 6.
Les méthodes proposées par les auteurs
Selon le premier type de recherche (manuelle), les méthodes préconisées par les auteurs sont les suivantes :
– RapidFind. Rapidfind consiste à formuler une requête, choisir un moteur de recherche permettant une recherche par niveaux (exploitant les balises HTML) et la recherche par expressions ;
– Detect Find. Avec Detect Find, il s'agit d'effectuer le même type de démarche que précédemment, mais avec l'objectif de rechercher des informations sur le sujet, déjà synthétisées dans des bookmarks ;
– AllFind. Allfind complète les résultats obtenus par les méthodes précédentes par l'utilisation d'annuaires et de métamoteurs.
Pour la recherche semi-automatique, les auteurs proposent la méthode ActiveFind, qui « permet de trouver les informations sur un thème donné, et de surveiller les sites (entreprises, organismes, universités…) périodiquement ». Après constitution d'une synthèse grâce à un outil du type Webseeker et sélection manuelle de l'information à retenir de ce dossier, choix de sites à aspirer et utilisation de l'outil adéquat (un exemple est donné avec Webwacker). Les moteurs ayant des fonctions utiles à la recherche automatique sont classés dans l'annexe (p. 187).
Un chapitre général sur les agents intelligents est introduit entre la recherche semi-automatique et la recherche automatique. Cette dernière repose sur la méthode appelée AutoFind (p. 100) illustrée par un exemple basé sur l'utilisation du moteur de recherche Wordscanning.
Le cas particulier du push
Intermédiaire entre les méthodes de recherche d'information et les applications et enjeux de celle-ci, se situe une présentation (chapitre 6) d'un type particulier d'accès à l'information qui ne relève pas de la recherche à proprement parler : il s'agit des outils push de diffusion d'information à la demande, visant soit directement un utilisateur final, soit le portail d'un intranet organisé et structuré grâce à des outils de classification automatique des documents (Class 4U d'Arisem est cité). Mais il faudra encore à ce niveau un knowledge worker, c'est-à-dire une personne chargée de la manipulation de ces outils, pour maîtriser la « recherche intelligente sur Internet et Intranet » qui, décidément, ne se fera pas sans médiateur humain, malgré l'aide de tous les agents intelligents évolués.