Ingénierie linguistique et documentation

Jacques Maniez

Où en est aujourd'hui l'ingénierie linguistique et en quel sens influence-t-elle les techniques et la pratique documentaires ? Tel était le thème de cette journée d'étude organisée conjointement par l'ADBS et l'ENSSIB à Villeurbanne, le 23 novembre 1993.

En introduction, le professeur Bouché (Lyon I/ENSSIB) observe que les produits de l'ingénierie linguistique ont dépassé depuis plusieurs années le stade artisanal et que certains sont d'usage courant (correcteurs orthographiques, dictionnaires de synonymes, indexation automatique). D'où le titre donné aux interventions de la matinée : « Les industries de la langue ». Mais cette avancée industrielle pose deux questions : comment évaluer ces nouveaux outils ? Dans quelle mesure peut-on en attendre des progrès dans la normalisation et l'ergonomie des pratiques documentaires ?

Les domaines d'application

André Abbou, président de l'Observatoire français et international des industries de la langue (Ofil), présente sous forme de tableau les domaines d'application de l'ingénierie linguistique (d'autres disent « génie linguistique ») : services d'information en ligne (techniques vocales), traduction automatique, gestion documentaire, gestion automatique de documents, systèmes domestiques, bureautique, interface en langue naturelle des systèmes informatisés. Il commente le dernier inventaire de l'Ofil, qui répertorie près de 400 produits ou services disponibles en France, dont 110 pour la gestion des documents.

A. Abbou souligne l'importance politico-économique des problèmes de communication linguistique pour l'Union européenne : le traitement de l'information y représente un marché annuel de 50 milliards d'Ecus. Le Conseil de l'Europe prévoit d'engager des crédits substantiels pour un programme d'encouragement à la création, la standardisation et la compétitivité de produits européens.

Il prévoit pour la prochaine décennie une forte expansion des outils linguistiques à destination du secteur documentaire aboutissant à une reconfiguration des qualifications et des statuts documentaires.

Les moyens d'évaluation

Stéphane Chaudiron (DIST) traite des moyens d'évaluation des outils d'ingénierie linguistique. Cette préoccupation, restée longtemps l'apanage des producteurs, se manifeste aujourd'hui (en Europe et en Amérique) dans les instances gouvernementales qui financent en partie les études coûteuses de ce secteur (coût d'Eurolangues = 500 MF). Cette évaluation obéit à des objectifs techniques (normalisation), ergonomiques (convivialité), économiques (baisse des coûts). Elle prend en compte pour chaque système sept paramètres : couverture de la langue, couverture du domaine, extensibilité, portabilité, robustesse, profondeur de la compréhension, ergonomie. Des outils d'évaluation commencent à voir le jour, permettant une comparaison plus objective de ces produits.

De la discussion animée qui suivit ces interventions, retenons une question : quel critère discriminant permet de rattacher un outil documentaire à l'ingénierie linguistique ? Réponse : le logiciel producteur doit comporter au moins un analyseur morpho-syntaxique. On voit que, mesuré à cette aune, aucun de nos langages documentaires courants n'entre dans cette catégorie.

Les utilisateurs

Les interventions de l'après-midi étaient centrées non plus sur les produits mais sur les utilisateurs : l'ingénierie linguistique peut-elle contribuer à améliorer l'ergonomie des systèmes documentaires ?

Deux enseignants-chercheurs ont rendu compte de recherches récentes sur les nouveaux modes d'interrogation en langue naturelle, qui tendent à remplacer les langages de commande guidés dans les applications « grand public » (annuaire électronique), mais aussi dans les logiciels documentaires (Spirit). Yolla Politi (Grenoble), tout en saluant les avancées, montre les insuffisances d'une simple analyse morpho-syntaxique des requêtes (Ex. « Je cherche un article paru l'an dernier dans Documentaliste et qui traite de multimédia »). Il faudrait substituer le dialogue au monologue, et dépasser l'écrit en y associant le mode graphique et le mode oral.

Mais comment un système peut-il dialoguer avec un utilisateur dont il ne connaît rien ? Sylvie Lainé-Cruzel (Lyon I) présente quelques modèles qui veulent intégrer à la recherche le profil de l'utilisateur. Comment le définir ?

Une approche repose sur la paraphrase automatique, autrement dit la reformulation d'un énoncé par la machine sous plusieurs formes équivalentes. En recherche documentaire, la paraphrase pourrait porter sur l'énoncé de la requête. On propose plusieurs formules à l'usager et à partir de ses choix successifs, on affine son profil. Mais ce type d'approche est décevant, dans la mesure où on ne sait pas bien comment « personnaliser » l'analyse du contenu. Mieux vaudrait partager le corpus en une série de sous-ensembles définis par des critères objectifs (longueur, langue, type de revue...) et constituant chacun la bibliothèque virtuelle d'un type d'utilisateur, et faire précéder l'interrogation par l'élaboration d'un profil dynamique de l'utilisateur qui serait intégré au processus de recherche.

De la table ronde finale, animée par deux « industriels » de l'ingénierie linguistique, Christian Fluhr (CEA) et Bruno Menon (CSI-Erli), émane le sentiment que le traitement du langage a déjà modifié la fonction documentaire et qu'on peut prévoir de nouvelles évolutions.