Recherche d'information et traitement de la langue

fondements linguistiques et applications

par Bénédicte Pincemin

Geneviève Lallich-Boidin

Dominique Maret

préface de Serge Chambaud. Villeurbanne : Presses de l’Enssib, 2005. – 288 p. ; 25 cm. -– (Les cahiers de l’Enssib ; 3).
ISBN 2-910227-60-X : 38 €

On ne s’y trompera pas, et le choix de l’éditeur est significatif : l’ouvrage s’adresse bien à des professionnels de l’information. Son apport relève des TAL (traitements automatiques des langues) et de leur application à la recherche d’information. Il donne ainsi des connaissances techniques et du recul pour une pratique éclairée et plus efficace des systèmes d’interrogation « en langage naturel ». Il rend compte de l’état de l’art des applications industrialisées, tout en renonçant délibérément à aborder les perspectives ouvertes par la recherche, critiques et innovantes mais certes foisonnantes.

Professionnels de l’information et interfaces en langage naturel

Ce manuel est très intéressant et riche pour le professionnel de l’information. En effet, comprendre le fonctionnement des logiciels (vs boîtes noires) n’est pas simplement satisfaire une curiosité intellectuelle : c’est essentiel pour en maîtriser l’utilisation (anticiper et contourner les limites, tirer pleinement parti des traitements avancés), ou pour faire des choix d’investissement.

De fait, on regrettera que la conclusion avance que le rôle des nouvelles interfaces présentées soit de « suppléer le rôle de médiateur » face aux collections documentaires et aux systèmes d’interrogation : ces interfaces, aussi élaborées soient-elles, sont loin de concurrencer le travail d’un professionnel. On peut penser qu’au pire, loin de rendre la recherche transparente, les interfaces en langage naturel l’opacifient en occultant les critères effectifs de sélection des informations ; et qu’au mieux, si elles sont conçues, ajustées et utilisées avec doigté, elles donneront des moyens complémentaires à la recherche d’information.

Un manuel de formation par des auteurs pédagogues

Les auteurs, l’un universitaire, l’autre industriel de la langue, sont pédagogues, compétents et expérimentés. La structure de l’ouvrage est claire, et sa présentation à la fin de l’introduction est très bien faite. Le découpage en chapitres de la première partie repose sur les différents niveaux classiquement distingués en TAL (du repérage des mots à la sémantique et à la pragmatique) et est adapté à la problématique de la recherche d’information. Deux chapitres sont consacrés à deux types de traitements ici centraux : la morphologie dérivationnelle, avec notamment l’affixation (créatrice de termes et des familles de mots), et la terminologie (définition et extraction de candidats descripteurs).

Le panorama théorique est large et assez complet relativement au volume de pages consacré, tout à fait raisonnable : il s’étend des formalismes syntaxiques (dont les grammaires catégorielles) ou mathématiques (chaînes de Markov), à la linguistique de corpus basée sur des décomptes d’observations en contexte, en passant par la sémantique distributionnelle théorisée dans les classes d’objets. Ceci étant, on reste dans les limites d’une linguistique computationnelle, qui privilégie une modélisation compositionnelle (bien calculable) au prix de certaines simplifications, discutables pour une linguistique plus traditionnelle.

Après cet exposé des théories et techniques, la seconde moitié décrit de façon précise leur mise en œuvre dans différentes applications. Quelques pages adoptent une approche formelle, mathématique, ou plus technique (p. 12, p. 131, chapitre 7) : elles n’apportent pas un surplus d’information décisif et n’ont pas à effrayer le lecteur.

Un index, qui recense efficacement le jargon du domaine, peut faire fonction de glossaire. Il offre une bonne couverture des termes techniques (tels que « entités nommées », « lemmatisation ») en français mais aussi en anglais, permettant de faire face à certains anglicismes (racinisation/stemming, mots vides/stopwords). Voici par exemple un résumé terminologique, limpide et utile, terminant une présentation de la notion de « catégorie syntaxique » : « Un synonyme de catégorie syntaxique est partie du discours issu de l’anglais (Part of Speech abrégé POS) » (p. 55). Ou encore, on pointe le faux ami « phrase », qui en anglais signifie « syntagme » (p. 179, la « phrase » française étant appelée « sentence »).

Application des techniques linguistiques à des textes minimaux

Les exemples sont bien choisis, parlants quand il s’agit d’illustrer un phénomène linguistique (morphologie p. 112, composés p. 130), et souvent réalistes quand il s’agit de montrer l’effet d’un traitement. Ainsi, en première partie, on apprécie d’avoir souvent de véritables textes (extraits de romans, articles de journaux), même courts (cf. réserves p. 28, 30), au lieu d’exemples simplifiés inventés.

Néanmoins, en seconde partie, on remarquera que les applications existantes présentées appliquent les techniques linguistiques essentiellement sur des requêtes (plutôt que sur les documents, p. 176), requêtes en pratique non rédigées, composées d’un à trois mots (p. 183, y compris pour la fameuse interrogation en langage naturel, p. 175 et 223, note 1). Et les fonds interrogés sont pour la plupart des bases de données où la recherche porte sur des descriptifs très courts tels que des libellés (p. 242) : noms d’artistes musicaux (p. 166), dénominations de marques déposées (p. 160 et 169), rubriques des pages jaunes (p. 243), nomenclature médicale MedDRA (p. 252). On est donc loin d’applications pour des textes dans toute leur ampleur.

Même l’exemple de l’interrogation d’une base d’articles de presse (et non véritablement de la Toile comme le laisserait entendre la conclusion p. 273), reste limité, puisqu’il s’agit soit d’extraction d’information, où la recherche est focalisée autour de quelques types d’information (dates, noms de personnes, d’organisations, de lieux), soit de recherche d’attestations (pour confirmer la traduction d’un terme par exemple), où l’on s’intéresse au mot et non au document dans son ensemble.

Quant à la base de brevets, au vu des copies d’écran (p. 217, 232), son contenu textuel semble constitué des intitulés et de résumés pas toujours présents, donc encore une textualité brève. De fait, cette textualité minimale (libellés et éventuellement textes courts, ou requêtes ciblant quelques mots ou informations ponctuelles précises) correspond sans doute au terrain d’application actuellement le plus réaliste et le plus approprié des techniques présentées, certes réellement élaborées et non triviales, mais linguistiques sans être encore textuelles.