entête
entête

Une information à valeur ajoutée

les données numériques de THERMODATA

Claude Bernard

L'information numérique est rarement livrée brute. Elle est traitée par la machine qui fournit à l'utilisateur les résultats d'un calcul. C'est un travail de production de données très différent de celui de l'information bibliographique. Nous avons réuni deux spécialistes, Bernard Marx, du Bureau de l'édition et des systèmes d'information à la DBMIST, et Claude Bernard, directeur de THERMODATA, pour en parler.

Bernard Marx. THERMODATA est une banque de données physico-chimiques, à la fois bibliographiques et numériques. Pouvez-vous nous en présenter les différents éléments ?

Claude Bernard. L'activité de THERMODATA est le fruit d'une longue gestation, dont le professeur Bonnier fut le promoteur, puisqu'il eut le premier l'idée de créer une banque de données scientifiques. Le CNRS y prit également une large part en finançant le programme de recherche coopérative internationale qui permit à des chercheurs de toute l'Europe de se réunir pour mettre sur pied ce projet, et la DBMIST, depuis 1982, y a apporté également son soutien de façon déterminante. C'est ainsi que l'Index thermochimique existe depuis 1965 au sein du LTPCM (Laboratoire de thermodynamique et physico-chimie métallurgiques) et que THERMODATA a été créée en 1974, sous forme d'une association selon la loi de 1901, pour produire et diffuser la banque de données en ligne. Pourquoi une association ? Les chercheurs qui ont quitté le CNRS pour fonder Thermodata, souhaitaient bénéficier d'une structure de gestion plus souple.

La banque comprend des données bibliographiques et numériques, des logiciels de calcul, spécifiques de l'industrie métallurgique au départ, et par la suite, de l'élaboration des matériaux en général. Ces logiciels sont directement connectés à la banque, de façon à éviter la manutention des chiffres et à gagner en efficacité. THERMODATA est une banque de données de troisième génération, autrement dit un système intégré.

Le fichier THERMDOC

Le fichier bibliographique THERMDOC, directement issu de l'Index thermochimique, recense tous les articles consacrés à la thermodynamique et à la chimie minérale sèche dans le monde. Le travail de signalisation et d'analyse des revues primaires est effectué par les chercheurs du LTPCM eux-mêmes, ce qui garantit sa qualité scientifique. Les références sont ensuite indexées par mots-clés construits à partir de la nomenclature internationale de la classification périodique des éléments chimiques, par le personnel de THERMODATA. Si l'on interroge la base sur les alliages aluminium-carbone-silicium (al-c-si), l'ordinateur affiche toutes les publications relatives soit aux diagrammes de phase, soit aux grandeurs thermodynamiques de ce système.

A raison de 10 numéros par an et de 400 notices par numéro, nous produisons chaque année environ 4 000 notices depuis 1965. Le tirage papier de l'Index thermochimique est de 250 exemplaires, dont une bonne centaine sert à des échanges avec des scientifiques étrangers. La banque est chargée sur le Centre interuniversitaire de calcul de Grenoble (CICG) et accessible en ligne via Transpac. Depuis le début de l'année 1986, un contrat a été passé avec l'Ecole polytechnique de Montréal pour sa diffusion en Amérique du Nord. Une publication papier de l'ensemble des notices est également en projet avec Elsevier. THERMDOC n'a en effet aucun équivalent. Si l'on interroge Metal abstracts ou Chemical abstracts, il est théoriquement possible de retrouver les mêmes références, mais elles sont noyées dans un énorme bruit de fond, alors que notre sélection est pointue et bien focalisée. De plus, THERMDOC étant une base signalétique (il n'y a pas de résumé de l'article), le délai entre la parution de l'article et son signalement est réduit au minimum : un à deux mois.

La validation des données numériques

BM. A la différence de l'information bibliographique, que l'on retrouve telle qu'on l'a introduite, la spécificité de l'information numérique est d'être enrichie par le traitement des logiciels de calcul. Quels sont les caractéristiques de ce type d'information « à valeur ajoutée » ?

CB. Il existe une banque numérique sur les composés et les éléments, qui comporte plus de 3 000 composés, et une banque sur les alliages actuellement en test et très prochainement en ligne, dans laquelle 150 alliages binaires métalliques et un certain nombre d'alliages ternaires sont déjà stockés en mémoire.

Les données numériques sont des valeurs qui sont prises dans la littérature spécialisée internationale, puis validées et mises en cohérence, avant d'être intégrées à la banque. Certaines sont passées au crible du Scientific Group Thermodata Europe (SGTE). Le SGTE rassemble les laboratoires européens qui travaillent sur le même sujet : deux en Angleterre, un en Suède, un en Allemagne, et trois en France. Nous ne travaillons vraiment ensemble sur des données utilisables et communes que depuis deux ans. Ces valeurs-là ont alors expressément le label SGTE. Par exemple, nous avons décidé de fixer les latice-stabilities, c'est-à-dire les stabilités, pour un élément donné, d'une structure vis-à-vis d'une autre. Il faut nous mettre d'accord sur les mêmes chiffres. Cela peut représenter des changements importants pour certains. Lorsqu'un laboratoire a pris une valeur pour le chrome et l'a utilisée dans 50 ou 100 alliages, toute sa structure de données repose sur cette valeur initiale. La changer peut lui faire perdre dix ans d'études critiques de systèmes. Chaque laboratoire conserve donc certaines données qui lui sont propres, le but étant de se rapprocher progressivement des valeurs communes et de leur assurer le maximum de fiabilité.

Le troisième élément constitutif de la banque est l'ensemble de logiciels que nous avons mis au point. Nous les avons conçus pour effectuer les calculs les plus généraux possibles afin qu'ils s'adaptent au plus grand nombre de problèmes. Dans nos derniers programmes, nous avons formulé les problèmes de résolution thermodynamique sous une forme mathématique très générale et fait apparaître les spécificités de chacun des modèles de métallurgie et de chacun des systèmes étudiés dans des modules extérieurs. Nous avons vraiment fait en sorte de pouvoir intégrer d'autres modèles que les nôtres et nous enrichir des apports extérieurs.

Reste le problème des échanges de logiciels entre les différents laboratoires qui coopèrent au sein du SGTE. Nous collaborons pour les valeurs numériques et pour la critique scientifique, mais chacun dispose de son équipement informatique particulier, et donc d'une structure de stockage des données différente. Pour pallier cet inconvénient, il existe des interfaces et des systèmes de transport. Nous pouvons récupérer les valeurs numériques dans la banque de Stockholm, qui est l'autre centre de diffusion en ligne, et les transférer dans la banque grenobloise selon une structure tout à fait différente, pour aboutir bien évidemment à des calculs de fonction identiques.

Des calculs pour les puces

BM. Pouvez-vous illustrer ce type de calculs par quelques exemples ?

CB. Dans l'industrie des semi-conducteurs, pour fabriquer les puces, toute une série de matériaux, comme le silicium, le tungstène, l'aluminium, sont empilés les uns sur les autres, à l'échelle du micron. C'est la phase vapeur de ces matériaux qui est utilisée pour opérer ces dépôts. Les gaz vont réagir à une température donnée. Toutes les conditions de l'expérimentation, la pression des gaz, celle du réacteur, la température de la plaquette où doivent s'effectuer les dépôts, sont entrées dans l'ordinateur qui calcule le résultat qui s'ensuivra.

Dans le domaine des fibres optiques, l'industrie a besoin de mettre au point des verres fluorés. Si nous questionnons la bibliographie sur les mélanges de fluorure, nous n'obtenons aucune réponse, mis à part quelques fluorures métalliques car les verres fluorés sont dans des systèmes inconnus.

Comment les chimistes ont-ils fait jusqu'à présent ? Ils partent d'une hypothèse de composition qui comprend trois sels qui forment un mélange ternaire et ils quadrillent complètement toutes les combinaisons possibles. Ils réalisent les produits qui correspondent à ces différentes combinaisons pour observer s'ils deviennent ou non des verres. Deux ans peuvent s'écouler en de telles manipulations, et s'ils ne trouvent pas de verre dans ce ternaire, ils passent au ternaire suivant. Il est certain qu'il est plus intéressant de calculer où peut être le verre a priori. Pour résumer brièvement ce calcul, nous utilisons un modèle afin de trouver le point où le liquide composé par ces trois sels reste le plus longtemps liquide à la température la plus basse possible, puisqu'il est prouvé que c'est dans ce domaine de composition que peut s'opérer un processus de vitrification. Ces calculs préalables permettent de gagner beaucoup de temps : soit il n'y a aucune chance de trouver quelque chose dans un ternaire donné, soit on peut indiquer deux ou trois compositions bien précises à réaliser.

Un dernier exemple tout à fait concret est celui des campagnes de prise de gaz sur les volcans en Italie, au Japon et aux Etats-Unis. A partir de l'analyse des gaz magmatiques, nous sommes remontés à l'équilibre initial, à la température et à la pression du magma qui les avait produits. Puis nous avons élaboré un modèle qui permet de calculer automatiquement l'état du magma en fonction de la composition des prélèvements, afin de pouvoir, sinon prévoir, du moins suivre ce qui se passe à l'intérieur du volcan.

Une production longue et onéreuse

BM. Quels problèmes particuliers pose la production des données numériques ?

CB. Le problème essentiel est celui du temps. Mettre au point un ensemble de données, même sur un petit système, est très long. Récemment, par exemple, le système gallium-chlore nous a pris deux ans.

Pour faire la critique d'une donnée, nous reprenons les informations sur telle ou telle expérimentation décrite dans une publication, et nous simulons à nouveau la manipulation sur ordinateur pour vérifier l'exactitude des résultats et de leur interprétation et pour les corriger le cas échéant. Ces calculs prennent beaucoup de temps et d'argent car ils nécessitent du personnel très qualifié.

En outre, l'obstacle à ce type d'études est que, pendant longtemps, elles n'étaient pas reconnues comme un travail scientifique. Un chercheur qui avait passé du temps à mettre d'aplomb les données qu'il avait utilisées pour sa thèse, ne pouvait même pas en faire état. Cette situation est en train de changer, puisque, maintenant, il n' y a plus de difficulté à faire publier dans de bonnes revues une étude critique solide.

L'utilisation de l'ordinateur rend absolument nécessaire de disposer de chiffres fiables. Le danger des logiciels sophistiqués est qu'ils parviennent toujours à une solution, mais que ce n'est pas forcément la bonne. Tout dépend de l'information que l'on a entrée dans la machine.

Aujourd'hui, nos systèmes sont beaucoup plus performants. Auparavant, par exemple, nous ne faisions les calculs, dans un diagramme de phase, que dans des domaines restreints de températures. Maintenant, nous en explorons toute la gamme et nous avons parfois des surprises comme la découverte d'un solide au milieu d'un liquide, où il n'a aucune raison d'être.

Sa présence intempestive n'est due qu'à des valeurs numériques qui ne supportent pas l'extrapolation en dehors du domaine pour lequel elles avaient été préalablement conçues.

Nous sommes obligés de décrire ces phases qui n'existent pas dans des conditions normales, qui sont métastables. Par exemple la phase ? pour un élément pur n'existe pas, sauf peut-être pour l'uranium. Mais nous avons besoin de la connaître car elle est une catastrophe en métallurgie. Il nous faut donc trouver son domaine d'existence dans les alliages industriels afin d'être capable justement de l'éviter, et, pour la décrire dans les alliages, il faut commencer par la décrire dans les éléments, où elle est métastable. Il est plus difficile d'obtenir un consensus sur ce genre de valeurs que sur celles des phases connues, qui reposent sur des mesures physiques.

Diffusion et tarification

BM. Comment les données sont-elles diffusées ?

CB. La banque peut être interrogée en ligne par le réseau Transpac. Les utilisateurs doivent faire partie de l'association THERMODATA pour avoir un numéro d'accès. Elle comprend à l'heure actuelle 121 membres, dont 56 % sont des sociétés industrielles, 30 % des universités ou des laboratoires CNRS et 14 % des organismes publics.

La tarification n'est pas uniquement établie sur une base horaire, qui entre peu en ligne de compte, mais selon le service fourni : une sélection bibliographique sur profil, une extraction de données numériques, une série de calculs plus complexes. Si nous ne facturons pas au temps, mais en fonction de la commande, c'est qu'il y a des commandes qui peuvent durer longtemps, mais qui font intervenir des logiciels simples, alors que d'autres peuvent aller très vite, mais utilisent des logiciels que nous avons mis des années à écrire et qui n'ont aucun équivalent ailleurs. Par exemple, une recherche bibliographique coûtera environ 600 F/heure, une tabulation de constantes thermodynamiques 800 F/heure et un calcul d'équilibres complexes à peu près 1 200 F/heure.

Il y a plusieurs modes d'utilisation des données numériques. Soit le client demande les données brutes et opère ensuite les calculs chez lui, soit il fait ses calculs en ligne. En fait, ces deux cas ne sont pas les plus fréquents. La plupart du temps, les utilisateurs s'adressent à nous, à l'équipe de THERMODATA, pour résoudre leur problème. C'est le cas pour environ 80 % de nos clients. C'est pourquoi, pour la nouvelle banque sur les alliages, nous n'avons pas fait le même choix que Stockholm, qui met à la disposition de ses utilisateurs des logiciels très complexes. Nous, nous faisons fonctionner ces logiciels à notre usage, et préférons que les utilisateurs nous posent directement leur question plutôt que d' essayer de les faire marcher sans y parvenir. Seuls deux ou trois ingénieurs extérieurs pourraient se servir de ce type de logiciels car il faut une formation très précise et surtout une longue pratique pour les utiliser de façon efficace. Les industriels n'ont pas les moyens de compter ce genre de spécialistes dans leur personnel.

Une clientèle industrielle

BM. Qui sont les utilisateurs de THERMODATA ?

CB. L'essentiel de nos clients sont des industriels ou bien des laboratoires étrangers, car pour la plupart des laboratoires universitaires français, nos données sont trop chères. Leur prix de vente n'a pourtant rien à voir avec ce qu'elles nous coûtent et reste bien inférieur à leur prix de revient, mais il reste trop élevé pour les laboratoires français. Pourtant, ils sont nombreux à être concernés, en particulier par la banque sur les éléments et composés.

BM. La DBMIST a pris en compte cette difficulté qu'ont les universitaires à payer les coûts d'interrogation des banques de données. Pour les aider, elle a mis en place un système de « ticket modérateur », valable pour tous les serveurs français, et donc pour THERMODATA sur le CICG. Les étudiants ne paient que 30 % du coût réel, et les chercheurs, 50 %. En 1986, une vingtaine d'universités, dont celle de Grenoble, en ont bénéficié. A l'heure actuelle, les utilisateurs de THERMODATA sont pourtant plutôt des industriels. S'en servent-ils plutôt pour la recherche ou pour la production ?

CB. Généralement, ils l'utilisent quand ils ont un problème de fabrication. Depuis qu'il y a la crise, les industriels se lancent moins dans des essais tous azimuts. Nous constatons aussi un changement dans nos relations avec eux. Auparavant, ils nous laissaient souvent tâtonner, sans nous expliquer la véritable origine du problème, parce qu'il y a une maladie du secret. Maintenant, ils vont droit au but, sans perdre de temps... et d'argent en recherches inutiles. Nous avons su peu à peu acquérir leur confiance.

Nous avons d'abord et surtout travaillé pour la métallurgie, avec les alliages de fer, puis les alliages légers et tout ce qui tourne autour, les céramiques, par exemple. Nous avons du mal à pénétrer l'industrie des semi-conducteurs et pourtant la connaissance des matériaux est ce qui fait le plus défaut à notre industrie de l'électronique.

L'improbable rentabilité d'une banque numérique

BM. Equilibrez-vous vos coûts de production par vos recettes ?

CB. Nos coûts de production proviennent essentiellement des salaires, qui représentent annuellement environ 500 000 F, puis des charges liées à l'informatique, à peu près 300 000 F. Nos frais de documentation sont de 10 000 F par an, étant donné que la bibliothèque interuniversitaire de Grenoble nous prête une grande partie des périodiques dont nous avons besoin pour l'Index thermochimique. Nous ne sommes pas encore en situation d'équilibre et une part de subventions nous permet de boucler notre budget. Pour l'année 1986, nos produits en ligne ont rapporté 100 000 F, les activités du bureau d'études 250 000 F et les contrats et subventions, 450 000 F.

En 1985, 25 % de nos recettes provenaient de la vente du logiciel documentaire SUPERDOC, car, pour combler le déficit, le travail de l'équipe avait peu à peu pris cette direction, au détriment d'ailleurs du développement de la banque. Mais depuis, deux personnes ont quitté THERMODATA pour fonder une société de service spécialisée dans ce type de logiciel et l'objectif de THERMODATA a été recentré sur la thermochimie. Nous avons, en 1986, augmenté la part du bureau d'études et des contrats qui y sont liés, pour développer nos recettes.

Il faut insister sur le fait que la critique des données numériques coûte énormément d'argent. Si nous facturons en heure « ingénieur » le temps passé sur une donnée, il est certain que personne ne peut en payer le prix. Elle est toujours trop chère, en tous les cas dans notre domaine. Le problème est sans doute différent, par exemple, pour les données financières et boursières.

Pour constituer une banque de données valable, nous ne pouvons pas éviter de perdre de l'argent et la banque, en elle-même, n'en rapportera jamais assez pour atteindre l'équilibre. En revanche, elle constitue une vitrine et elle draine des clients pour les activités d'étude et de conseil. Dans la mesure où il s'agit de résoudre des problèmes cruciaux, les industriels sont prêts à en assumer les coûts.

Les contraintes de la recherche pour l'industrie

Mais cela ne va pas sans risque. A THERMODATA, par souci d'équilibre financier, nous sommes obligés d'accroître nos activités d'études et nous nous engageons dans des recherches de longue haleine sur des questions industrielles. Cette orientation présente deux dangers : le manque de temps et de disponibilité pour la banque de données, et le fait que ce genre de travaux pour l'industrie sont souvent soumis au secret et que nous ne pouvons pas en publier les résultats. Nous en arrivons à ce paradoxe que si nous trouvons de bonnes valeurs, elles ne peuvent pas être versées dans la banque et que ce sont les fausses, ou disons les moins exactes, qui continuent à être diffusées publiquement. Ce type de contrats a un effet stérilisant pour la banque. Mais, quand on travaille pour le CEA, la Défense nationale ou l'industrie de pointe, il y a des secrets qu'il faut savoir préserver.

Par ailleurs, même si nous pouvons faire profiter la banque de nos recherches, nous ne les choisissons pas en fonction de ses besoins propres, mais en fonction des demandes de nos clients. Nous avons le même problème pour le LTCPM. Son budget est constitué, à 70 %, de contrats pour l'industrie. C'est trop. Le pourcentage ne devrait pas dépasser 50 %. Nous risquons de perdre la bonne réputation de fondamentalistes dont nous jouissions. Certaines dé nos équipes ne trouvent pas d'argent pour calculer a priori un diagramme de phase. Il est certain que nous pouvons le faire aujourd'hui autrement, de façon beaucoup plus rapide et moins onéreuse. Mais le calcul a priori continue à avoir toute son importance du point de vue de la recherche fondamentale. Même si personne n'est prêt à en payer le prix, nous devons poursuivre ce type de travaux, être au courant de tout de qui se passe et creuser dans toutes sortes de direction, alors même qu'elles ne sont pas immédiatement rentables. Un laboratoire ne peut pas travailler uniquement pour l'industrie.

THERMODATA, de même, doit veiller à ne pas sacrifier sa vocation de producteur de banque de données. Prenons l'exemple du laboratoire suédois : il est très performant en ce qui concerne les aciers sur lesquels portent tous ses contrats. Ses données sur les alliages d'acier sont très bonnes et très pointues. Mais il ne s'intéresse qu'à la métallurgie. Nous, nous voulons essayer de couvrir tous les domaines de la thermodynamique inorganique.

Améliorer la qualité de la banque

BM. Les problèmes financiers de THERMODATA devraient être progressivement réglés avec l'organisation depuis 1985 d'une structure « groupement scientifique » CNRS qui doit permettre la prise en charge des salaires par le CNRS et la DBMIST.

CB. En effet, si les postes promis nous sont donnés, nous voulons réduire le nombre des contrats directement liés à la production industrielle, pour développer la fourniture de données nouvelles, et améliorer la qualité de la banque. Nous souhaiterions aussi diffuser les valeurs numériques à des prix beaucoup plus abordables pour la recherche universitaire. Quand on visite certains laboratoires, on s'aperçoit qu'ils se servent de tables qui datent de 1967, dont une sur deux est fausse. Il faudrait qu'ils puissent disposer des données les plus récentes et les plus fiables. Les valeurs numériques ne cessent d'évoluer.

D'ores et déjà, ce souci d'améliorer la qualité de nos données nous a conduits à décider que, lorsqu'il y aura utilisation de la banque en ligne pour les activités internes de nos bureaux d'études, à Grenoble ou à Stockholm, il y aura 20 % de redevances pour le SGTE. Avec l'argent ainsi récolté, le SGTE peut financer des travaux extérieurs au bénéfice de la banque. Par exemple, nous avons demandé récemment au professeur Kubaschewski, qui est spécialiste des grandeurs thermodynamiques dans les oxydes, de nous faire une étude sur tous les doubles oxydes, car nos valeurs ne sont pas très bonnes.

BM. Craignez-vous le piratage, le pillage de données ?

CB. Nous aurions éventuellement le moyen de savoir ce que les utilisateurs ont fait pendant leur connexion, mais un tel dispositif est très coûteux à mettre en place. Si un utilisateur veut vraiment copier toutes les données en y accédant par le service en ligne normal, nous avons calculé qu'au tarif où elles sont, il ferait mieux de nous contacter et de les acheter dans la version sur micro-ordinateur, elles lui coûteraient moins cher.

En revanche, s'il s'agit d'un vrai pirate qui s'introduit à notre insu dans le système et efface les traces de son passage en se retirant, comme un Indien, le problème est tout à fait différent et il faudrait alors parler longuement de la sécurité des systèmes informatiques. A l'heure actuelle, nous sommes conscients qu'il y a un risque et nous faisons confiance à l'équipe technique du CICG (notre ordinateur d'accueil) pour le minimiser.

BM. Vendez-vous la banque sur micro-ordinateur ?

CB. Il existe effectivement une version de la banque sur micro-ordinateur. Mais nous sommes dans un domaine pointu où le marché est étroit. Si nous la vendons à un universitaire, elle sera copiée 100 fois, à un industriel, 10 fois. Nous sommes en pourparlers avec des Chinois qui veulent l'acheter. Il y aura un million de copies sous peu ! Nous n'en vendrons pas beaucoup d'exemplaires. Il serait plus intéressant de commercialiser des mises à jour annuelles.

BM. Avez-vous des projets pour élargir votre champ de compétences ?

CB. J'ai un projet qui, faute d'argent, est en panne : une banque qui intégrerait les données brutes. L'idée est de conserver dans la machine toutes les étapes intermédiaires du calcul d'une valeur et surtout toutes les données brutes qui ont été utilisées. De telle sorte que, si un chercheur interroge la banque, à propos de SiO gaz, par exemple, l'ordinateur lui donne la valeur de SiO, et également les autres données qui ont servi à son calcul, comme celle de GeO gaz. Lorsqu'une nouvelle mesure de GeO gaz est faite, la banque peut extraire toutes les valeurs pour lesquelles l'ancienne mesure a été utilisée, et on sait ainsi quels changements sont nécessaires et quelles données doivent être recalculées. Une telle mémoire du travail antérieur n'existe nulle part. Il est vrai qu'elle représenterait une somme énorme de données et qu'elle n'est possible que dans un domaine très précis et bien délimité comme celui des espèces gazeuses répertoriées par spectrométrie de masse.

Micro et EAO

BM. Quelles sont les perspectives à plus court terme pour la banque ?

CB. Il nous faut trouver un langage qui permette une portabilité plus grande. Avec le PL1, nous sommes isolés des autres laboratoires. La banque sur les alliages doit être écrite autrement pour être portée sur micro-ordinateur. Et cette évolution est nécessaire car nos clients importants préféreront disposer des données à domicile, du moins pour certaines d'entre elles. Par exemple Péchiney pourrait acheter les alliages d'aluminium. Nous envisageons de fixer des prix pour les vendre ainsi par blocs.

Une autre perspective de développement serait l'utilisation de la banque pour l'enseignement. Outre les problèmes de matériel et de coûts, le principal obstacle à l'heure actuelle est le manque de formateurs rompus au maniement de la banque. Mais celle-ci pourrait donner une tout autre dimension aux cours qui sont dispensés aux étudiants. L'enseignement par ordinateur me semble extrêmement riche de possibilités.

Illustration
Quelques coûts d'utilisation de Thermodata