L’apport des technologies linguistiques au traitement et à la valorisation de l’information textuelle

par Odile Riondet

Bernard Normier

Paris : ADBS éditions, 2007. – 65 p. ; 24 cm. – (L’essentiel sur…).
ISBN 978-2-84365-092-5 : 15 €

Les besoins en matière de traitement de l’information s’accroissent régulièrement : le volume des données, la diversité des langues, les évolutions du web sémantique, la concurrence économique en sont les causes principales. C’est pourquoi les technologies linguistiques se développent vers de multiples applications : recherche d’information, mais aussi traduction automatique, mise en visibilité des sites internet, veille automatique, toutes ces opérations devant être faites très rapidement et sur de gros volumes de données.

Cet ouvrage, qui reprend les principales conclusions d’une étude réalisée à la demande du ministère de la Recherche, fait le point sur les techniques de traitement automatisé de la langue, leurs différences et leurs complémentarités.

Dans la recherche booléenne en texte intégral, un module d’acquisition crée l’index d’un corpus de documents, index qui peut être interrogé par les opérateurs booléens, qu’ils soient exprimés ou pas (par exemple le « et » par défaut de certains moteurs). En retour, la présentation des résultats se fait selon divers critères : la zone dans laquelle on a retrouvé le mot recherché (dans le titre ou le corps du document), la fréquence relative du terme dans le document, l’indice de popularité (type Google). Ce type de moteur s’avère très adapté à des questions grand public, courtes et formulées en anglais, langue qui ne comporte pas de mots de liaison dans les expressions. Ils sont d’ailleurs largement dominants aujourd’hui sur le marché.

Les technologies statistiques permettent un affinement des recherches, car elles peuvent repérer des expressions, qui sont des mots proches et qui se répètent dans un corpus. Elles peuvent comparer le lexique de documents entre eux, la fréquence relative des termes employés. Elles sont simples à mettre en œuvre et assez présentes sur le marché.

Les technologies linguistiques, enfin, sont plus complexes à utiliser. Elles impliquent d’analyser les mots, de retrouver éventuellement leur racine, de repérer la multiplicité des formes (les pluriels par exemples), de reconnaître le genre grammatical des mots, d’avoir un dictionnaire répertoriant des grands traits de sens (tel terme désigne un animal, un humain, un artefact…). Si cette approche peut grandement améliorer les résultats d’une recherche, les systèmes sont plus lents et plus chers.

En réalité, il ne s’agit pas d’opposer le traitement du langage naturel aux autres approches. Car la linguistique peut améliorer l’interrogation d’une base en texte intégral, par exemple en utilisant parallèlement un réseau sémantique permettant de repérer les mots voisins des termes de la question. La linguistique permet aussi de générer des métadonnées pour cibler la recherche dans certaines zones du document, identifier les noms de lieux, d’entreprises, les dates. Il est possible enfin de combiner la linguistique et la statistique, par exemple, pour repérer les suites de mots les plus fréquentes. Bref, la tendance est aujourd’hui à la complémentarité des approches.

L’enjeu est d’importance, y compris sur le plan économique. Si Google domine le marché, de petites entreprises innovantes construisent des partenariats et l’on assiste à des mécanismes de concentration et d’alliances entre les entreprises du secteur. Et sur ce créneau, le secteur marchand est concurrencé en partie par les logiciels ouverts ou libres. Une concurrence malgré tout relative, car les solutions commerciales sont souvent plus complètes. En face de cette offre, les usagers qui ont à décider de l’emploi d’une technologie de traitement du langage naturel doivent bien évaluer le rapport de son coût avec son efficacité. Les critères déterminants seront la taille du domaine, le volume de l’application et le type de documents. Autrement dit, s’agit-il d’une recherche d’information, de traduction, de classement ? Combien de termes faut-il traiter ? Est-ce dans un domaine spécialisé ou large ? Combien d’utilisateurs sont à prévoir, quels temps de traitement sont acceptables ? Les textes sont-ils struc-turés ou pas, monolingues ou multilingues, spécialisés ou grand public ?

Ce petit livre (une soixantaine de pages) permet d’entrer rapidement dans la compréhension des techniques linguistiques qui conditionnent en bonne partie les résultats d’une recherche documentaire. Mais le fait que l’auteur appartienne à une société créatrice d’un moteur restreint souvent ses exemples à celui du produit qu’il connaît et promeut. Les applications proposées (l’accès à l’information sur les brevets et les outils sont disponibles pour analyser des CV et des offres d’emploi) sont d’ailleurs ses propres produits. Les lecteurs souhaitant une approche comparative devront aller se documenter ailleurs.