Un colloque sur « Le Mot en traduction automatique et en linguistique appliquée »

Pierre Barkan

Depuis une quinzaine d'années, la traduction automatique fait l'objet de recherches plus ou moins poussées à travers le monde, tout particulièrement aux États-Unis et en U. R. S. S., où diverses écoles se sont constituées, et, plus récemment, en Italie, en Grande-Bretagne et en France.

Cependant, il semble qu'un certain stade ne puisse être dépassé pour l'instant : celui de l'analyse rigoureuse de la phrase au niveau syntaxique.

Afin de clarifier quelques notions fondamentales, l'Association pour la traduction automatique et la linguistique appliquée qui, depuis quatre ans, en France, s'efforce de grouper tous les chercheurs de ce domaine, a pensé qu'il fallait reconsidérer le problème dans son ensemble et partir de l'unité fondamentale de la phrase : le mot. (Un seul mot pouvant d'ailleurs, dans bien des langues, constituer une phrase.)

Dans ce but, elle a organisé un colloque sur Le Mot en traduction automatique et en linguistique appliquée qui s'est tenu le 8 décembre 1962 dans la salle de conférences du C. N. R. S.

Une centaine de personnes assistait à cette importante manifestation au cours de laquelle dix-sept communications furent présentées (et une dizaine, résumées) par des documentalistes, des mathématiciens et des linguistes.

Contrairement à ce qu'on pouvait attendre, les définitions proposées ont fait apparaître que le problème était beaucoup plus complexe qu'il ne paraissait peut-être au premier abord. Un fait semble acquis : la notion de mot est beaucoup plus vaste que la définition grammaticale courante nous l'enseigne.

A côté d'une définition extrêmement restrictive du type : « ensemble graphique ne comprenant pas de blancs internes » (MM. Rey et Pottier), ou, plus simplement encore, « unité de comportement » (Mr B. Pottier), on s'est rendu compte qu'il ne fallait pas seulement envisager le côté graphique, mais aussi phonétique, et que, dans ce dernier cas, le « découpage » n'est pas superposable. Les spécialistes ont été amenés à distinguer plusieurs sortes de mots selon le rôle qu'on lui attribue dans la phrase.

C'est ainsi que les documentalistes ont défini : la « lexie » (Mr Pottier), le mot-machine-linguistique (C E T A P), le mot graphique, le mot phonétique, le terme, l'opérande (Mr Devèze), le mot-documentaire (WRU, Syntol, Grisa) subdivisé en mots-pleins et mots-outils, ces derniers subdivisés à leur tour en mots-outils autonomes et mots-outils dépendants.

Dans la série des « mots-documentaires », employés en bibliothéconomie, on trouve : le mot-typique, le mot-matière, le mot-vedette, le mot-souche, le mot de classement (ou d'ordre), le mot d'entrée, le mot-clef (Mr Barkan).

Pour un mathématicien (Mr R. Moreau) un mot (écrit) est caractérisé par un double aspect, le « token » (sa fréquence dans un texte) et ses « types » (différentes formes).

Pour les grammaires génératives (Chomsky), on distingue entre le plan mathématique (un mot est une donnée non analysée) et le plan linguistique où la définition varie selon le modèle choisi (« context-free » ou transformationnel) (Mr Gross).

Le statisticien (Mr J. Perriault) propose, d'après Brøndal et Ullmann : « unité de signification indécomposable en unités plus petites dotées de significations autonomes et appartenant à une classe syntaxique ». Grâce à cette définition à la fois plus précise et plus générale, on peut y faire entrer, à côté des mots en caractères latins, les symboles, les expressions et les formules mathématiques et chimiques, et les symboles numériques (et même les symboles graphiques imprononçables).

Un autre mathématicien (Mr Y. Gentilhomme), tentant de donner une définition purement mathématique du mot, démontre avec beaucoup de finesse qu'il est impossible de donner une définition unique et précise, de valeur générale. « Il faut une pluralité de définitions, ou sinon il faut se contenter d'un énoncé vague : séquence imaginée, déduite ou extraite d'un langage écrit ou parlé, de dimension intermédiaire entre l'unité linguistique élémentaire (la 2e articulation de Mr Martinet) et toute la phrase. »

Pour un lexicographe, le mot c'est « l'adresse », « l'unité délimitée par deux blancs typographiques réduite à la forme de paradigme considérée comme fondamentale » (Mr Cl. Dubois).

Les linguistes ont plusieurs points de vue selon qu'ils considèrent le mot strictement en langue écrite en traduction automatique, avec des critères de cohérence (commutation, écartement sémantique) et toujours en fonction de la langue d'arrivée (Mr G. Gougenheim), ou, pour la langue écrite et la langue parlée, sous le triple aspect : signifiant (réalisé), grammatical et signifié (de la « substance sémantique ») (Mr J. Greimas), ou selon la langue. C'est ainsi que pour le chinois, Mr A. Fabre distingue des monèmes monosyllabiques ou polysyllabiques et des syntagmes indissociables. Pour le persan, Mr G. Lazard envisage le cas des enclitiques, des composés plus ou moins complexes et des locutions idiomatiques (inanalysables sémantiquement). Pour l'allemand actuel, Mr J. Fourquet estime qu'il faut définir selon les niveaux d'analyse en recherchant le point d'insertion du blanc au niveau du « nœud de groupe spécifique ». Pour le français actuel, Mr A. Sauvageot pense qu'on peut se contenter des conventions usuelles.

Certains estiment qu'il est « impossible actuellement de donner une définition du « mot » qui puisse avoir quelque valeur : seuls un recensement de tous les cas d'expressions à éléments multiples et leur analyse subséquente pour distinguer les ensembles constants de ceux qui sont hasardeux feront peut-être apparaître des lois permettant de définir le « mot » (Mr L. Delatte).

Pour achever ce tour d'horizon, citons la conception très rigoureuse de Mr J. Gagnepain, professeur de linguistique à la Faculté des Lettres de Rennes, pour qui le mot est un point se trouvant à l'intersection d'un axe des substitutions et d'un axe des combinaisons. « Le mot étant dans le signifié ce que le phonème est dans le signifiant, un « bundle », c'est-à-dire un complexe de choix simultanés, ou, la limite, si l'on veut, au-dessous de laquelle l'analyse n'est plus actualisable. »

On se trouve donc en présence d'une bonne trentaine de définitions dont les points communs ne sont pas très faciles à distinguer. Il est bien évident que les divers spécialistes n'ont pas en vue les mêmes problèmes et n'utilisent pas le même langage. Dans l'état actuel des recherches, il semble bien qu'une mise en facteur commun soit impossible. Sans doute faudra-t-il d'abord éliminer a priori toutes les définitions qui ne tiennent pas compte du but recherché : la traduction automatique, en se cantonnant pour l'instant dans le domaine strictement graphique. Et ensuite, en présence des définitions retenues, se demander avec Mr Y. Gentilhomme quelle utilisation pratique on peut en tirer.

Il faudra donc procéder non à une synthèse unique, mais à plusieurs niveaux de synthèses, tâche ardue s'il en est une, mais cependant indispensable. Par avance, nous adressons nos plus vifs' encouragements aux organisateurs du colloque, et attendons avec intérêt la publication imminente de ses « Actes ».