L'information en chimie

Essai de synthèse

Christian Dutheuil

Présentation des services d'information en ligne (environ 350 dans le domaine de la chimie). L'auteur fait un inventaire commenté des principaux fichiers existant dans le domaine de la chimie et analyse les problèmes posés par l'utilisation de cette information. Des tableaux récapitulatifs sont donnés en annexe.

Presentation of online information services (about 350 in chemistry). The author lists and comments upon the main catalogs in the chemical field ; he studies the problems raised by the use of such an information. Summary figures are annexed.

Pour les chimistes, pour les utilisateurs de produits chimiques, pour les acteurs de l'entreprise, les besoins d'information en chimie sont nombreux et diversifiés. Il convient d'y adjoindre l'information sur la chimie à destination des scientifiques des autres disciplines et, plus généralement, du public. Il faut alors prendre un langage dépouillé des jargons professionnels afin d'être compréhensible par tous.

Le recensement de ces besoins d'information, l'étude des solutions documentaires qui tentent d'y répondre avec un degré de satisfaction plus ou moins élevé selon le domaine ont très tôt mobilisé l'intérêt des spécialistes de l'information et des documentalistes de la chimie. La création du Centre national de l'information chimique (CNIC) concrétisait, dès 1972, les initiatives des professionnels (UIC 1, grandes entreprises) et des pouvoirs publics dans ce domaine. Celles-ci s'intensifiaient en 1978 par la restructuration du CNIC, afin de lui donner une représentativité nationale et de lui permettre des activités internationales fructueuses. Ainsi la chimie est la seule discipline, en y associant l'industrie pétrolière avec l'IFP 2, à disposer d'un centre national de l'information, dont l'un des buts est de permettre à la communauté française l'accès à toutes les sources d'information disponibles.

L'information en chimie

Les problèmes rencontrés en information dans le domaine de la chimie sont suffisamment nombreux, complexes et importants pour justifier l'organisation de colloques spécialisés (1, 2).

Compte tenu de l'évolution rapide des services offerts, il est difficile de dresser un inventaire exhaustif des banques de données existantes (tout inventaire dans ses détails n'a qu'une validité temporaire). En dehors des grands systèmes d'information, il est bien difficile aux petites banques de données d'exister. Elles ont ainsi parfois des « vies publiques » tumultueuses, (accès aux utilisateurs), malgré leur grand intérêt.

Sur plus de 3 500 systèmes d'information disponibles en ligne, environ 350 concernent la chimie, à divers égards. Les principaux domaines couverts sont l'information scientifique et technique générale, la thermodynamique et les propriétés physico-chimiques, les spectrométries, les propriétés nucléaires, la sécurité et la toxicité des produits chimiques, la réglementation, la propriété industrielle, l'ingénierie et le génie chimique, la technico-économie, les utilisations spécifiques.

Ainsi le chimiste semble être privilégié par rapport aux autres scientifiques. Cependant, de nombreuses lacunes subsistent : les couvertures ne sont que partielles et certains systèmes proposés ne sont pas exempts de reproches. J'ai utilisé le terme système d'information de préférence à banque ou base de données, car il est bien difficile de décrire la réalité à l'aide des classifications qui doivent être de plus en plus précises alors que les systèmes documentaires se diversifient en prenant des natures hybrides. Par exemple, les systèmes EURECAS et CAS ONLINE sont constitués de banques de composés chimiques (EURECAS, POLYCAS, REGISTRY FILE), de bases de données bibliographiques (CAS, CA FILE) de banques de données factuelles (CA OLD). Pour intéressantes qu'elles soient, les tentatives de classification sont trop rigides (3, 4, 5). Il est plus simple d'utiliser les définitions générales officielles (6) : banques de données bibliographiques signalant l'information primaire sous forme de références (titre, auteur, indexation, résumé...), banques de données factuelles donnant un accès direct à l'information primaire, parmi lesquelles on distingue banques numériques (données chiffrées), banques textuelles (données alphanumériques), banques en texte intégral (texte original d'articles, de dépêches, d'encyclopédies).

De par leur nature, la chimie et la biologie sont deux domaines fondamentaux qui se trouvent au coeur de toute activité industrielle ou de recherche, de production ou de protection de l'homme et de son environnement. En tant que sciences, elles font appel à toutes les autres disciplines; en tant que techniques, elles sont impliquées dans tous les secteurs d'activité. De plus, il existe entre ces deux sciences de base de nombreuses inter relations (biochimie, biotechnologie, médicaments...) qui ont souvent des implications conjointes sur les autres domaines (interactions médicamenteuses, pharmacologie des molécules...).

La pérennité des informations relatives aux millions de substances connues (plus de 8 millions répertoriées dans les CAS) constitue un problème majeur et spécifique de l'information chimique. Il convient plutôt de parler d'information en chimie car il est nécessaire de répondre aux besoins du chimiste qui ne se limitent pas aux informations scientifiques et techniques, mais concernent aussi tous les besoins d'informations de son entreprise en matière de propriété et d'environnement industriels.

Pour le non-chimiste il faut être en mesure de fournir une information traduite en langage clair et des données générales sur la chimie et les produits chimiques.

Il est bien évident que la plupart du temps les besoins du chimiste et de l'entreprise se confondent. Il est inconcevable que la direction scientifique d'une entreprise se lance dans une recherche ou une production, sans avoir au préalable examiné tous les aspects de la propriété industrielle, de la sécurité ou de la réglementation. Les investissements de développement et de production sont tels qu'au sein des entreprises on confère une importance et une responsabilité particulière aux spécialistes de l'information.

Les besoins des non-chimistes peuvent être variés; ils se décomposent en trois grandes familles :
- ceux des professionnels d'une industrie utilisant des produits chimiques au cours d'un procédé ou d'une technologie particulière, dont les besoins en information sont les propriétés physico-chimiques, les réactivités, les dangers éventuels et la réglementation ;
- ceux des consommateurs qui cherchent à s'informer sur les dangers éventuels, l'impact sur l'environnement et la santé, en relation avec l'information sur la sécurité et la réglementation;
- enfin, ceux des économistes et des services douaniers qui s'intéressent aux produits chimiques en tant que biens de consommation sujets à des échanges commerciaux.

Compte tenu de ces besoins très variés, il est difficile de définir en quoi consiste l'information en chimie et préférable d'évoquer divers domaines d'information en chimie.

Les domaines couverts

A l'heure actuelle il existe plus de 350 banques de données d'accès public en ligne, mais cette abondance masque des problèmes réels : certains des domaines ne sont couverts que partiellement (quelques aspects, nombre limité de composés ou d'événements, inadéquation aux besoins réels).

On peut répartir les banques de données en : information générale, thermodynamique et propriétés physico-chimiques, spectrométries, propriétés nucléaires, réactions chimiques, ingénierie et génie chimique, utilisations spécifiques (médicaments, arômes et additifs alimentaires, produits agro-alimentaires, pesticides, peintures, caoutchouc et plastiques, biotechnologies..., propriété industrielle, sécurité-toxicité et réglementation, technico-économie.

Au niveau des utilisations spécifiques, il est difficile de préciser les frontières de la chimie (en fait, peut-on les délimiter ?), car les producteurs de banques de données et les services d'information ont une acception très large du terme chimie, à l'instar du Chemical abstracts service.

Les banques de données bibliographiques sont les plus satisfaisantes. Elles sont dotées d'outils documentaires permettant des recherches performantes (codes, classifications, hiérarchies, indexations...). Une longue pratique permet d'en maîtriser l'organisation et les outils logiciels. Il n'en va pas de même avec les banques en texte intégral, plus récemment introduites, pour lesquelles de nouveaux outils logiciels ont été développés. Leur utilisation actuelle est empirique et coûteuse. La meilleure solution pour accéder à ces banques serait mixte : une indexation classique permettant une pré-sélection, puis une recherche sur le texte intégral, ce que proposent certains systèmes sur disques compacts.

Les banques factuelles, numériques et textuelles sont très nombreuses. Le développement des télécommunications et de la technologie des micro-ordinateurs permet désormais à tout laboratoire de produire ses propres banques de données. Le « Numeric data group » de l'ICSTI 3 (7), pour lequel j'ai récemment effectué un inventaire, fait évaluer à plus de deux mille le nombre de banques factuelles en chimie. De cet ensemble, seuls quelques systèmes sont commercialisés 4. Toutefois se pose le problème de la diffusion, et donc de l'accès à l'information, qu'on peut résumer par le schéma ci-dessous.

Les problèmes rencontrés

Ils se situent à différents niveaux :

La classification

L'ICSTI vient d'achever un travail de révision de la classification de la physique et tente de l'étendre à la chimie, pour homogénéiser les vocabulaires employés par les différents producteurs. Cette classification est toutefois difficile à mettre en oeuvre en chimie à cause de la dualité substance-produit/propriétés-utilisation. Selon les systèmes documentaires, on trouve des classements par produit ou des classements par propriété ou utilisation. Les classifications qui se veulent mixtes introduisent des redondances néfastes, contraires au but recherché. A l'heure actuelle il faut se contenter des classements spécifiques (sections des Chemical abstracts; plan de classement Pascal).

La prise en compte des substances chimiques

C'est la nécessité de décrire et d'indexer les substances qui distingue l'information en chimie de celle des autres domaines. L'indexation peut se faire par le nom chimique (trivial, commercial, nomenclature), par un numéro d'enregistrement (RN de CAS, Uniterm de CLAIMS), par la structure du composé sous forme définie, génétique, ou de formules de Markush.

Il est le plus souvent nécessaire d'interroger les noms chimiques par fragments sémantiques (qualitatifs ou quantitatifs) et les structures des composés par sous-structures.

Le nom chimique attribué par un individu à une substance dépend en général de sa formation scientifique et de l'époque à laquelle il a fait ses études. Ainsi la même substance pourra être nommée formol, formal, formaldéhyde ou aldéhyde formique. Les nomenclatures, si elles sont correctement attribuées, permettent d'identifier sans problème la substance.

Au niveau des recherches par familles de composés, elles sont peu efficaces, car les règles d'attribution des nomenclatures sont basées sur un jeu de hiérarchies entre systèmes cycliques et groupes fonctionnels. Quelquefois une modification mineure du point de vue chimique entraîne un changement radical du nom. De plus, même au sein de la nomenclature IUPAC 5, il existe des nomenclatures substitutives et alternatives pour le choix des noms. A l'exception de celle des Chemical abstracts, les nomenclatures se prêtent mal aux manipulations informatiques.

Ces difficultés ont conduit, en 1965, Chemical abstracts service à attribuer un numéro de registre unique RN 6 à chaque nouvelle substance. Plus de 8 millions de RN ont ainsi été attribués aux composés décrits depuis 1962. Malheureusement ce numéro séquentiel ne contient aucune information sur la structure du composé. Il est devenu le numéro d'identité de la substance. Son emploi est demandé par de nombreux organismes nationaux et internationaux, ainsi que dans les banques de données. Certains organismes ont développé leur propre système d'enregistrement (ONU, CEE...).

Pour l'enregistrement et l'interrogation des structures chimiques, différents outils ont été mis au point (8) :
- les codes fragmentaires (CPI de Derwent, Ring code du pharmadokumentation Ring, GREMAS de l'IDC, Uniterm-fragment de Claims...). Exploités, à l'origine, de manière mécanographique, ils sont d'une manipulation souvent malaisée en informatique, mais ils sont propres à prendre en compte aussi bien les structures totalement définies que celles qui ne le sont que partiellement ou d'une manière générique (famille de composés, formule de Markush). Le codage est unique, mais les combinaisons de fragments ne conduisent pas à des restitutions univoques.
- les codes linéaires (WLN Wiswesser line notation) présentent les mêmes inconvénients et complexités que les nomenclatures. Ils ont l'avantage d'être plus compacts qu'elles et plus facilement manipulables par l'informatique. Ils peuvent également être transposés (transcodage) en codes fragmentaires, (avec appauvrissement du contenu) et, dans certaines conditions, en codes topologiques.
- les codes topologiques (matrice CAS, code DARC... ) permettent un enregistrement et une restitution bi-univoques des structures définies. Les développements des logiciels d'exploitation de ces codes ont conduit à des langages d'interrogation très conviviaux, très proches du langage du chimiste.

Il est également possible de formuler des questions génériques, c'est-à-dire comprenant certaines alternatives dans la définition des atomes, des liaisons, des substituants. La prise en compte codage-restitution est bi-univoque. Pour des systèmes de gestion de banques de données structurales en interne, de nombreux codes ont été développés (MACCS de Molecular design), mais, au niveau des serveurs d'information en ligne, seuls les systèmes de DARC (développé par l'équipe du professeur J.-E. Dubois à l'Université Paris VII et par Télésystèmes-Questel) et CAS ONLINE (développé par Chemical abstracts service) sont disponibles. Certains systèmes, indépendants des serveurs, ont été développés sur micro-ordinateur pour générer automatiquement les codes à partir du dessin de la structure.

Avec les formulations génériques, ce sont les représentations de Markush, si caractéristiques des brevets en chimie, qui sont approchées. Une formule de Markush est une représentation compacte d'un ensemble de composés ayant des éléments structuraux ou fonctionnels en commun. Certains éléments chimiques (atomes) de la formule développée peuvent être remplacés par une variable dont les valeurs possibles sont spécifiées, soit de manière précise (chlore, methyl), soit de manière générique (alkyl, aryl). Dans une telle formule, la position d'un substituant peut être localisée de façon plus ou moins précise. Par le jeu de la combinatoire, des milliers, voire des millions, de composés définis peuvent être générés à partir d'une seule formule de Markush.

La stéréochimie et l'isotopie sont parfaitement gérées au niveau des systèmes locaux (DARC in house), mais ne sont pas utilisables sur les services en ligne, car ces informations, à l'heure actuelle, ne sont pas prises en compte totalement dans le codage initial des structures (matrices de connectivité).

Cette approche structurale est très performante pour les recherches documentaires concernant les substances chimiques. Il est toutefois quelques domaines pour lesquels elle est encore insuffisante : chimie minérale, polymères (9), peptides et acides nucléiques, biomolécules de grosse taille. Les codes spéciaux (Uniterm de Claims, code Plasdoc de Derwent, système Diapason de Rhône-Poulenc) et les codes structuraux spécifiques (codes stéroïdes et peptides du Ring) ne constituent que des outils d'approche.

La transcription des problèmes chimiques

La transcription des problèmes d'isomérie, de délocalisation, de tautomérie et de mésomérie est en général résolue par des conventions de représentation, (on choisit systématiquement une forme), ce qui ne facilite pas l'utilisation des systèmes d'information par l'utilisateur final ou le néophyte. Des systèmes d'équivalences automatiques, développés au niveau du logiciel d'interrogation, devraient voir le jour rapidement pour résoudre ces problèmes.

La description des réactions

Bâtir un système d'information sur les réactions chimiques, c'est tout d'abord faire un choix sur le type de données signalées et sur leur organisation (10) :
- banque bibliographique décrivant, par des outils documentaires classiques, les principaux éléments d'une réaction;
- banque factuelle signalant les valeurs, numériques ou textuelles, des différents paramètres de la réaction;
- système de gestion de réactions permettant de prendre en compte l'ensemble des paramètres et des étapes d'une réaction et de la décrire sous ses différents aspects.

Pour décrire une réaction, de nombreux paramètres doivent être pris en compte : produits de départ et réactifs, produits et sous-produits synthétisés, milieu réactionnel (solvant, additifs...), inducteurs de réaction, catalyseurs ou modérateurs, conditions opératoires, stoechiométrie, contrôle, schéma réactionnel avec ses différentes voies, étapes réactionnelles avec leurs enchaînements, rendement, documentation et références bibliographiques.

La description des structures doit se faire en termes de structure définie, de formule de Markush ou de site réactionnel, et doit tenir compte de la stéréochimie et de l'encombrement stérique. Les différents aspects de la compréhension de la réaction doivent être abordés : mécanisme réactionnel, aspects énergétique et thermodynamique, aspect cinétique.

A ces données factuelles, qui doivent être validées (car leur qualité essentielle est la fiabilité) et respecter les conventions habituelles du chimiste, vient s'ajouter une indexation (typologie et dénomination des réactions). Dans le signalement des informations, il convient de différencier les réactions de laboratoire des réactions industrielles (ces dernières devant être accompagnées d'informations sur le contrôle et le pilotage du procédé). Il n'existe pas, à l'heure actuelle, de système qui rassemble ces éléments.

Les informations graphiques

Des informations graphiques, autres que les structures, sont nécessaires au chimiste. Elles concernent la cristallographie, les spectres, les schémas et dessins du génie chimique. Ce type d'information, quand il est pris en compte, ne l'est qu'au niveau des systèmes d'information spécialisés.

Les nouvelles représentations des molécules

Au niveau de la recherche, tant fondamentale qu'appliquée, on constate une orientation de la représentation de la molécule par une autre image que la structure développée. Des modèles quantiques, volumiques (rayon atomique, Van der Waals), isoélectriques (courbes de niveau), géométriques interactifs ont été développés. Ils ne sont utilisés que dans des systèmes de conception assistée par ordinateur (CAO et Drug design) ou à titre de gadget dans certains systèmes en local.

Inventaire

Banques bibliographiques spécialisées

Le domaine de la chimie est largement couvert par Chemical abstracts qui, depuis 1907, signale la littérature mondiale (revues, livres, congrès, brevets...). Tous les aspects de la chimie y sont pris en compte : biochimie, chimie minérale, chimie macromoléculaire, chimie physique, chimie analytique, ingénierie, radiochimie..., ainsi que les sciences en relation avec la chimie (physique, mathématique...) et les applications industrielles de la chimie (pétrochimie, agro-alimentaire, métallurgie et traitements de surface, pharmacie et cosmétique, polymères et plastiques, énergie, environnement).

Depuis 1967, le fonds est automatisé (CASEARCH) et accessible sur 7 serveurs dans des configurations différentes :
- base bibliographique uniquement (BRS, ESA-IRS);
- dictionnaires de composés interrogeables par fragments de nomenclature, associés aux fichiers bibliographiques (DIALOG, SDC, DATA-STAR, STN INT);
- fichiers structuraux (EURECAS et CAS ONLINE) interrogeables par structures et sous-structures (à l'aide de DARC sur QUESTEL, de MESSENGER sur STN INT) associés aux fichiers bibliographiques (CAS sur QUESTEL, CA File sur STN INT). Ce fonds représente plus de 8 millions de composés et 9 millions de références, en un seul ou plusieurs fichiers selon le cas. Sur le serveur STN INT, un fichier de correspondance entre numéro de référence et numéros de registre des composés cités par cette référence permet de compléter l'antériorité sur la période 1962-1966 (CA OLD).

Il faut regretter la disparition du fichier Index chemicus de l'Institute of scientific information (ISI) qui complétait la panoplie de l'organicien (3 millions de composés; 3 millions de références) sur QUESTEL. Ce fait traduit la difficulté d'exister des systèmes d'information. Au-delà de l'intérêt scientifique se situent les impératifs économiques (interrogation insuffisante) et politiques (diffusion sous forme exploitable par micro-information) des producteurs.

Les fonds Beilstein et Gmelin, dont la mise en ligne est souhaitée de longue date, seront prochainement disponibles. Parmi les fonds plus ciblés, citons ZLC (Zinc, Lead, Cadmium abstracts) produit par Zinc development association (GB) et accessible sur INFOLINE, qui concerne la chimie et la métallurgie des trois éléments. Un fichier des composés organiques du silicium, de l'étain, du germanium et du plomb est réalisé par l'UA 35 du CNRS/Université de Bordeaux 1.

Banques en texte intégral

Trois ouvrages essentiels pour le chimiste sont disponibles en texte intégral :
- les revues publiées par l'American chemical society depuis 1982, soit plus de 50 000 articles, sont interrogeables sur STN INT et BRS. Avec une mise à jour bihebdomadaire, le chimiste peut accéder à des textes qu'il n'a pas encore reçus sous forme imprimée ;
- l'Encyclopedia of chemical technology, Kirk-Othmer (12 000 articles, 6 000 tableaux, 5 000 figures), éditée par Interscience, est disponible sur BRS, DATA-STAR et DIALOG ;
- le fichier Heilbron, qui rassemble le Dictionary of organic compounds (5e éd.) et le Dictionary of organometallic compounds, édités par Chapmann and Hall Ltd, est disponible sur DIALOG.

Banques bibliographiques multidisciplinaires

De grands fonds multidisciplinaires contiennent une part importante d'information chimique :
- PASCAL, produit par le Centre de documentation scientifique et technique du CNRS accessible sur QUESTEL, ESA-IRS et DIALOG (antériorité 1973). Depuis 1980, dans certaines sections, des suffixes permettent de préciser les attributions d'un composé chimique dans son contexte (indicateur de rôle);
- SCISEARCH, le Science citation index de ISI, accessible sur DIALOG et DIMDI (antériorité 1974) ;
- Comprehensive disssertation abstracts, produit par University microfilm international (États-Unis), accessible sur BRS et DIALOG (antériorité 1861) ;
- NTIS, produit par le National technical information service de l'US department of commerce, accessible sur DIALOG, ESA-IRS (antériorité 1964), SDC et DATA-STAR (antériorité 1970), CEDOCAR et STN INT ;
- SSIE, produit par NTIS, accessible sur DIALOG, BRS, SDC (antériorité 1974) ;
- NASA, produit par l'agence aérospatiale américaine, accessible sur ESA-IRS et INKA (antériorité 1962) ;
- FIESTA, produit et servi par le CEDOCAR (FR) (antériorité 1972).

Il convient également de citer RINGDOC (de Derwent), les fichiers de l'American petroleum institute (APILIT et APIPAT) et, en atteignant les frontières de la chimie METADEX (de l'American society for metals), World aluminum abstracts (de l'ASM), Non ferrous metals abstracts (du British non ferrous metals technology center) pour les métaux, RAPRA (de Rubber and plastics Assoc. of GB), DKI (du Deutsches Kunststoff Inst.) pour les polymères, PAPERCHEM (Institute for paper chemistry, États-Unis) pour le papier, World textiles (de Shirley institute de Manchester) et TITUS (de l'Institut textile de France) pour l'industrie textile. Ces exemples ne sont pas, bien entendu, limitatifs.

Banques de composés chimiques

C'est encore Chemical abstracts service qui fournit le plus important fichier de composés : le RNSS comprend plus de 9 millions de RN et plus de 10 millions de noms chimiques interrogeables. Dans le tableau 1 sont écartés volontairement les fichiers d'activité et les fichiers commerciaux (nommés fichiers de produits), ainsi que les banques de séquences de nucléotides. A l'exception de ceux qui constituent une véritable banque de composés, ils seront cités plus loin.

Ingénierie et génie chimique

Dans le domaine du génie chimique, chemical engineering abstracts de la Royal society of chemistry (GB), 75000 références depuis 1970 (servi par INFOLINE, ESA-IRS et DATA-STAR) et DECHEMA de la Deutsches Gesellschaft für Chemisches Apparatewessen (RFA), 85 000 références depuis 1976 (servi par STN INT et FIZ TECHNIK), complètent avantageusement Chemical abstracts. Le fichier spécialisé le plus important, COMPENDEX, ne concerne que peu la chimie.

Banques de propriétés physico-chimiques et thermodynamiques

La plupart des propriétés physico-chimiques peuvent être calculées à partir des valeurs thermodynamiques, ce qui justifie le regroupement de ces deux types de banques. Les données obtenues sont, selon le cas, mesurées, calculées, ou évaluées.

Certaines banques enregistrent les valeurs dans un état de référence et permettent de les calculer dans d'autres conditions (température, pression), THERMODATA par exemple; PPDS offre même le choix de la méthode de calcul. D'autres se limitent aux paramètres de calcul (fichiers du National bureau of standards). Malheureusement la nécessaire homogénéité des informations oblige les producteurs à définir un domaine de couverture très limité. Le nombre de composés de chaque banque est donc réduit. L'accès par des serveurs grand public est rare. De nombreuses banques ne sont diponibles que sur disquettes à exploiter par micro-informatique (7) (cf. tableau 2).

Banques analytiques, spedroscopiques et cristallographiques

Parmi les nombreuses techniques analytiques, seules quelques-unes, particulièrement les spectroscopies, ont donné lieu à la réalisation de banques de données. Le travail effectué dans le cadre du NDG 7 de l'ICSTI (7) a permis de dénombrer dans ce domaine plusieurs dizaines de systèmes dont quelques-uns sont accessibles en ligne. Beaucoup ne sont que des collections de données sans procédure de validation et ne peuvent, quelle que soit leur valeur intrinsèque, constituer de systèmes d'information crédibles (cf. les tableaux 3 à 6 pour les banques spectroscopiques, le tableau 7 pour les banques cristallographiques, le tableau 8 pour les banques cinétiques, le tableau 9 pour les banques de chromatographie et le tableau 10 pour les banques diverses).

Banques de propriétés nucléaires

Ces propriétés physiques particulières méritent un classement à part, d'autant qu'elles sont utilisées pour des applications spécifiques : les besoins en information et la présentation sont différents de ceux des autres banques (cf. le tableau 11).

Banques de réactions chimiques

Dans le fichier PASCAL, pour les sections de chimie (ex. 170, 171 et 172), la notion de réaction peut être abordée grâce aux indicateurs de rôle. Avec les systèmes documentaires bâtis sur Chemical abstracts, des recherches par composés sur les fichiers dictionnaires ou structuraux peuvent être combinées sur les fichiers bibliographiques pour retrouver les signalements bibliographiques des réactions. Pour intéressante qu'elle soit, cette approche n'est pas satisfaisante, car elle ne prend pas en compte les paramètres de la réaction. Aussi des fichiers spécifiques ont-ils vu le jour :
- Chemical reaction documentation service (CRDS), de Derwent, qui correspond aux volumes 1 à 30 de Synthetic methods of organic chemistry, éd. par W. Theilheimer, depuis 1942, puis au Journal of synthetic methods (littérature et brevets) à partir de 1975. Ce fichier, d'abord réservé aux souscripteurs sur SDC, est ouvert depuis peu à tous ;
- KETO-REACT, produit et servi par l'ARDIC, contient 3 000 documents sur les synthèses de cétones.Avec les systèmes de gestion de réactions en local, des banques de données sont souvent proposées :
- FIZER and FIZER par Télésystèmes - Questel avec DARC in house ;
- THEILHEIMER et sous-fichiers de ISI par Molecular design avec MACCS.

Banques de congrès et fournisseurs de documents originaux

De nombreux serveurs ont mis en place, avec la collaboration des producteurs de banques et les grandes bibliothèques publiques, des services de commande en ligne des documents originaux. Il est, de plus, souvent utile de consulter en ligne :
- CASSI (Chemical abstracts service source index) sur ORBIT
- WORLD TRANSINDEX, produit par International translation centre de Delft et le CDST du CNRS, sur ESA-IRS
- CCN (catalogue collectif national des publications en série) et TELETHESES, produits par la DBMIST sur SUNIST
- il faut encore citer: Books information ; Books in print, LC Line, LC Marc, Remarc, UKMarc, Ulrich's int. period. directory, ISTP & B de ISI, et les catalogues des éditeurs.

L'INSERM propose une revue des sommaires scientifiques sur minitel.

Pour les congrès, il convient d'ajouter : Conference paper index (Cambridge scientific abstracts), Conference proceeding index (British library), El (Engineering information) et Meeting agenda (CEN-Saclay).

Banques sur la sécurité et la toxicité des substances

Un inventaire complet a été réalisé par la CNIC (11) qui recense aussi bien les fonds spécialisés que les fonds multidisciplinaires ou généraux. Deux serveurs, tous deux américains, paraissent spécialisés dans ce type d'information : Chemical information system, CIS, et la National library of medicine, NLM, représentée en France par l'INSERM, dont le réseau TOXNET propose une version révisée et enrichie du fichier Toxicology data bank (TDB données validées) et rassemble des données plus nombreuses mais non nécessairement validées (HSDB, Hazardeous substances data bank).

Au Canada, deux systèmes d'information orientés vers le poste de travail sont accessibles : INFOCHIM (1000 substances) et NM, constitué à partir des fiches de sécurité (18 000 produits) par le CCHST (Centre canadien d'hygiène et de sécurité du travail), et INFOTOX (3 200 substances; 2 300 préparations) par le CSST (Commission de la santé et de la sécurité du travail).

Le fichier européen ECDIN, séduisant dans son cahier des charges, pèche par manque massif de données. Quant aux informations retrouvées, elles se présentent le plus souvent sous forme de fiches signalétiques, avec les propriétés physico-chimiques en relation avec la sécurité et la toxicité, l'identité de la substance et les données toxicologiques (intoxication aiguë, expérimentale et chronique, écotoxicité).

Dans la plupart des banques, le RN est un des critères d'interrogation.

Normes et réglementation

L'aspect normes et réglementation est primordial dans un contexte industriel. Ces deux types d'informations sont rassemblés sur les banques, car la tendance du législateur est d'appuyer la réglementation par les normes. Le CNIC a développé, en collaboration avec l'AFNOR, un complément d'indexation de NORIANE et réalisé un dictionnaire des substances soumises à réglementation. Les fichiers nationaux de normes sont progressivement chargés sur les serveurs. (cf. tableau 12).

Banques technico-économiques

Les systèmes documentaires dans le domaine technico-économique et dans celui des affaires, accessibles en ligne, se multiplient rapidement. Ce sont actuellement les plus nombreux. Il suffit pour s'en persuader de consulter les annuaires de banques de données. Ils représentent économiquement la part la plus rentable des banques de données. Pour répondre aux besoins de l'industrie, il faut ajouter les informations financières, les mercuriales et les informations sur les sociétés. Les problèmes de ce domaine spécifique sont décrits par Marie-Françoise Mazières (12). Pour la technico-économie, on considère en général qu'un tiers seulement de l'information est publiée et que l'on n'en retrouve que le tiers dans les banques de données. Ces systèmes offrent des banques spécifiquement consacrées à la chimie :
- CIN, Chemical industry notes, produit par Chemical abstracts service, servi par DIALOG, ORBIT et DATA-STAR;
- CBNB, Chemical business news base, produit par la Royal society of chémistry, servi par INFOLINE, DIALOG et DATA-STAR, qui contient des références bibliographiques et des données numériques et factuelles;
- CHEM-INTELL, produit par Chemical intelligence service (GB), servi par DATA-STAR et INFOLINE, qui propose des rapports statistiques, sur 10 ans, d'une centaine de pays pour une centaine de composés organiques ;
- Chemical age project file, produit et servi par INFOLINE, qui propose 15 000 données textuelles et numériques sur les usines chimiques et para-chimiques depuis 1980 (couverture internationale) ;
- Chemical economics handbook online, produit par SRI international et servi par ORBIT, fournit des données textuelles et numériques sur 1300 produits chimiques commerciaux.

Parmi les nombreux fichiers de PREDICASTS, le PROMT (Predicasts overview of market and technology) contient une part importante d'information sur les composés chimiques manufacturés. Pour répondre avec le maximum d'exhaustivité aux questions, il est aussi nécessaire de consulter les fichiers du Centre français du commerce extérieur sur le serveur CISI, ceux de l'OCDE, entre autres, sur le serveur DRI, ceux de la CEE sur les serveurs ECHO et EURIS, ainsi que ceux du serveur français spécialisé GSI-ECO.

Les domaines stratégiques de la chimie, comme la pétrochimie (PE/NEWS de l'API) et la chimie pharmaceutique (PNI), ont leurs propres banques spécialisées.

Banques d'opportunités, de compétences et catalogues industriels

Les systèmes d'information sur l'innovation, les transferts de technologies, les appels d'offres et les compétences de laboratoire sont intéressants bien que limités. Les catalogues industriels devraient se multiplier dans un futur proche, d'autant que ce type d'information convient parfaitement à l'interrogation par le réseau vidéotex (cf. tableau 13).

Banques par applications des produits

Des répertoires encyclopédiques ont été constitués par domaine d'utilisation des produits. Ils apparaissent progressivement sur les serveurs.

Banques en biotechnologies

De nombreuses banques de données spécialisées dans le domaine des biotechnologies apparaissent. Ce concept récent recouvre pourtant des technologies anciennes, voire ancestrales, que les autres fichiers ont toujours signalées (cf. Chemical abstracts) L'information en biotechnologies peut revêtir quatre aspects :
- l'information scientifique et technique (13), cf. tableau 15 ;
- l'information technico-économique (14) ;
- les banques de séquences (15), cf, tableau 16 ;
- les collections de cultures (16), cf. tableau 17.

Information sur la propriété industrielle

Compte tenu du volume et de la pérennité des informations en chimie, les brevets y prennent une importance particulière. Il existe deux types de fichiers (17) : les fichiers administratifs (type fichiers de l'INPI), qui aident remarquablement à suivre la « vie » d'un brevet, et les fichiers documentaires (type WPI de Derwent), qui ajoutent une indexation permettant une recherche plus efficace que la classification internationale des brevets.

La plupart des grands pays ont mis, ou sont sur le point de mettre, leurs fichiers brevets en accès télématique. LEXPAT permet l'interrogation en texte intégral des brevets américains. INPADOC et EDOC décrivent les familles de brevets relevant d'une même invention. Pour les fichiers plus spécifiques de la chimie, cf. le tableau 18.

Les fichiers de marques déposées (nationales et internationales) apparaissent sur les serveurs (INPI-Marques, TMINT), de même que les fichiers relatifs aux aspects juridiques liés aux brevets (JURINPI, PATLAW). Des accords entre producteurs et serveurs se développent pour traiter spécifiquement les brevets de la chimie (INPI-DERWENT-QUESTEL). Enfin, de nombreuses banques de données prennent en compte les brevets, particulièrement Chemical abstracts.

Informations sur les pôles géopolitiques

Il existe des banques de données recensant l'information sur - et en provenance de - certains pays ou pôles géopolitiques. Ces systèmes sont particulièrement utiles (bien que fragmentaires) pour les pays peu représentés dans les banques internationales, ou dont la langue est inexploitable pour la plupart des utilisateurs (URSS, Chine, Japon). La banque de données JOIST offre des extraits (en version anglaise) des principales banques japonaises. Un bureau du Japan information center for science and technology (JICST) est installé à Paris, au CDST du CNRS. Une cellule « Japon » fonctionne au CNRS. Des sociétés privées (EURALIA, par exemple) fournissent des bulletins de surveillance sur l'IST japonaise. Au Japon, les banques spécialisées sont décrites dans des rapports de mission (18, 19, 20). Pour l'URSS, on peut consulter les banques Soviet science and technology (produite par IFI Plenum et servie par DIALOG), et East European monitor - the Chemical industry (produite par Business international et servie par DATA-STAR).

Pour l'Amérique latine, BIBLAT (produite par l'Université de Mexico) est disponible sur QUESTEL.

Banques de données et intelligence artificielle

Les systèmes d'intelligence artificielle (IA), particulièrement les systèmes experts, font appel à des banques de connaissance qui regroupent des « faits » ainsi que les « règles » des « inférences » permettant de les relier pour simuler le raisonnement d'un homme de l'art dans un domaine spécifique. De nombreux travaux, employant des techniques d'IA, sont en cours sur l'extraction d'informations contenues dans les banques de données, pour « instruire » des bases de connaissance. Les réalisations opérationnelles sont pour un futur proche.

Systèmes de corrélations et de modélisations

Des programmes de modélisation, de corrélation et d'interprétation sont accessibles au sein de systèmes documentaires sur certains serveurs (ou sur micro-ordinateur). Ces programmes permettent d'élargir le champ d'action du spécialiste de l'information et surtout de l'utilisateur final. Ceci est important car l'accès à une bibliothèque de programmes autorise l'utilisation ponctuelle de logiciels de calculs scientifiques sans avoir à les acquérir (avec toute l'infrastructure idoine). Au niveau du calcul des propriétés physico-chimiques citons: PROSIM de l'Institut de génie chimique de Toulouse et GC DATA de l'Ecole supérieure de chimie de Marseille (5, 7).

Observations générales

Il est difficile de dégager des généralités sur les systèmes documentaires, tant est spécifique l'appréhension des informations relatives à chaque secteur technique. Les besoins (nature et forme de présentation de l'information) et les marchés sont très variés. Des observations générales peuvent néanmoins être dégagées :
- par essence, une banque spécialisée est relative à un domaine très limité. Le nombre d'événements est faible. Si l'élargissement de la couverture est tenté, deux risques apparaissent : l'hétérogénéité des données et les « trous » d'information ;
- la crédibilité des informations contenues dans une banque dite factuelle est assujettie à des règles essentielles : validation des données, homogénéité et cohérence des «valeurs», mises à jour en fonction des progrès de la technique et de la précision des mesures, indication de la valeur nominale avec sa précision pour les valeurs évaluées, indication de la méthode, référence de la source ;
- la dispersion des banques sur les différents serveurs entraîne des difficultés particulières qui s'ajoutent aux problèmes de la connaissance du fonds.

Dans un avenir qui ne peut être précisé, des systèmes experts servant d'interface entre l'utilisateur final et le serveur seront disponibles. Ils relayeront le spécialiste de l'information pour permettre le dialogue entre l'utilisateur final et le serveur sur des questions simples.

Il faut savoir ce qu'on peut attendre des systèmes d'information en ligne et ne pas en aborder l'utilisation avec trop de naïveté. Le choix des banques de données à interroger pour répondre à une question nécessite la connaissance du fonds documentaire (couverture, politique d'indexation, outils documentaires, organisation) et la connaissance de l'organisation en banque de données sur un ou plusieurs serveurs (informations interrogeables, langage du serveur). Il est difficile d'être compétent pour toutes les banques. Et pour des informations particulières, il faut bien faire appel à des banques de données que l'on utilise peu. Les annuaires et répertoires (21, 22, 23), imprimés ou en ligne (CUADRA, REBK), sont alors très utiles bien que limités dans leur description.

Le devenir d'une banque de données en ligne est totalement lié à son succès commercial, à des problèmes financiers et juridiques entre serveur et producteur (politique de distribution, exclusivité...). C'est un monde en perpétuel mouvement, et l'accroissement du nombre de banques disponibles ne doit pas masquer le taux important de renouvellement. En fait, un grand nombre de banques disparaît chaque année.

Besoins non satisfaits et potentialités

Dans les domaines passés en revue, de nombreuses lacunes ont été constatées :
- en physico-chimie : handbook de propriétés, diagrammes pH-potentiels, diagrammes de phases, cinétiques, propriétés de surface... ;
- en analytique : au sein même des méthodes spectroscopiques, qui sont bien représentées, les lacunes sont nombreuses: UV, RPE, RAMAN, spectro laser, fluorescence, phosphorescence, spectro micro-ondes, spectro radiométrique, ESCA, ESR, NQR... Les autres méthodes mériteraient que des banques largement accessibles leur soient consacrées : chromatographie, HPLC, polarographie, électrophorèse, radio-chimie, immunochimie. Or, il n'existe aucune compilation des couplages de méthodes et de leurs interférences ;
- en technico-économie, il serait urgent qu'apparaisse, pour la France et l'Europe, un fichier du type Fine chemical directory. Sa réalisation technique serait relativement simple, par fusion des catalogues des producteurs et fournisseurs ;
- pour les applications : un fichier des principaux composés et substances industriels (5 000 substances) serait du plus haut intérêt, tant pour la médecine que pour rechercher des diversifications sur les marchés des produits. Un fichier des membranes et des résines échangeuses d'ions, avec leurs caractéristiques et leurs applications, aurait de multiples utilisateurs.

Les potentialités sont nombreuses. A n'en pas douter, toutes sortes de fichiers, sur fiches ou sur micro-ordinateur, ont été constitués pour des usages spécifiques et individuels (7). Toutefois, ces banques ne sont qu'exceptionnellement utilisables directement pour un usage public. Les laboratoires de recherche publics (CNRS, INRA, BRGM, IRCHA, INSERM, Universités...) et privés (grandes entreprises, experts, ingénieurs conseils...), ainsi que des associations professionnelles et de nombreuses agences nationales et internationales détiennent un volume considérable de données (25, 26, 27, 28, 29). Une liste détaillée des potentialités intéressant un large public a d'ailleurs été présentée au 1er colloque CNIC (5).

Un double langage

Un serveur confronté aux problèmes de diffusion des banques de données se trouve dans l'obligation de satisfaire deux catégories d'utilisateurs dont les besoins sont apparemment antinomiques :
- répondre aux exigences des spécialistes de l'information en développant des outils informatiques de plus en plus sophistiqués pour exploiter au mieux toutes les ressources, même potentielles, d'interrogation des banques de données ;
- dialoguer avec l'utilisateur final ou le néophyte en lui proposant un accès simplifié (avec un minimum de dégradation des taux de pertinence et de rappel) et assisté (logiciels par menus ; assistance en ligne...).

Ces problèmes peuvent être résolus en partie par les techniques d'intelligence artificielle. L'utilisation de la micro-informatique conduit à la production in situ d'une information élaborée multi-paramétrée (scientifique, technique, économique) et sélectionnée, triée (doublons éliminés), et présentée de manière agréable et synthétique (manipulation de l'information par traitement de texte).

Exploitation de l'information des banques

Il convient d'aller plus loin et de dépasser la seule amélioration des possibilités d'interrogation pour aboutir à une véritable exploitation des données. Celle-ci suppose l'utilisation des possibilités du télédéchargement sur micro-ordinateur pour combiner entre eux les éléments variés des banques, les sélectionner, les rendre accessibles dans un format unique. Afin de tirer tout le sens de cette information, il faudra ensuite la soumettre à des traitements particuliers, notamment des analyses de données (24). L'application des méthodes de la statistique et de l'analyse de données aux informations extraites des banques de données donne naissance à de nouvelles disciplines : bibliométrie, technométrie, scientométrie. Ces méthodes sont indispensables à l'exploitation stratégique de l'information.

Des outils de dénombrement sont apparus sur certains serveurs : GET sur INFOLINE, MEMTRI sur QUESTEL, ZOOM sur ESA-IRS. Certains d'entre eux proposent des outils plus élaborés : CISI, CITI2. Des logiciels sont disponibles sur micro-ordinateur, soit pour des usages non spécifiques, soit pour exploiter les données de systèmes documentaires particuliers : PATSTAT de Derwent pour les brevets. Des méthodes plus élaborées peuvent être utilisées, car leur mise en oeuvre ne nécessite plus de moyens informatiques importants. Il est possible de les classer par rapport à leur degré de performance :
- l'analyse en composantes principales,
- les classifications automatiques (hiérarchiques ou non),
- l'analyse factorielle des correspondances,
- l'analyse discriminante.

Il faut toutefois interpréter les résultats obtenus avec beaucoup de prudence. Ce ne sont jamais des « oracles » mais des « signes » qui doivent être soumis à critique (analytique, documentaire, scientifique), afin de discriminer les corrélations des artefacts. Cela nécessite la collaboration de trois compétences rarement réunies par un seul individu : la compétence documentaire, pour établir un corpus de données fiables, exhaustives et pertinentes, la compétence mathématique du spécialiste de la méthode et de sa mise en oeuvre informatique, enfin la compétence scientifique de l'expert spécialiste du domaine analysé.

Ces outils intelligents d'exploitation de l'information ne relèvent pas du domaine du rêve. Certaines entreprises et le CNIC s'efforcent de les mettre à la disposition de leurs utilisateurs (30, 31), et deux associations se sont constituées pour traiter de ces problèmes et de problèmes connexes : la Société française de bibliométrie appliquée, (SFBA), et la Société pour le développement de la scientométrie et de la technométrie (ADEST).

L'information est vitale pour le développement et l'innovation, tant dans les grandes entreprises que dans les PME, et pour la recherche, publique ou privée, fondamentale ou appliquée. Certes, les éléments tirés des banques de données doivent être complétés par la documentation manuelle; mais par le balayage systématique des données qu'elles permettent, elles constituent le moteur qui déclenche une analyse plus approfondie. Le bilan des possibilités existantes est résolument positif, même si nous avons pu en mesurer les limites. Les autres fonds pouvant être mis rapidement en ligne représentent un volume très impressionnant d'informations. A partir de ces éléments et des technologies existantes, il serait possible de bâtir des solutions réalistes, pour un serveur de banques de données spécialisé en chimie. Toutefois, au-delà des aspects techniques, il faudrait considérer les aspects économiques, culturels et politiques qui échappent au cadre de cet article.

Illustration
Les besoins du chimiste et de l'entreprise

Illustration
Schéma - Accès à l'information

Illustration
Tableau 1 - Fichiers de substances

Illustration
Tableau 2 - Propriétés physico-chimiques et thermodynamiques

Illustration
Tableau 3 - Banques de spectres RMN

Illustration
Tableau 4 - Banques de spectres de masse

Illustration
Tableau 5 - Banques de spectres IR et UV

Illustration
Tableau 6 - Banques des spectres autres

Illustration
Tableau 7 - Banques cristallographiques

Illustration
Tableau 8 - Banques en cinétique

Illustration
Tableau 9 - Banques de chromatographie

Illustration
Tableau 10 - Banques diverses en analytique

Illustration
Tableau 11 - Banques de propriétés nucléaire

Illustration
Tableau 12 - Banques de normes

Illustration
Tableau 13 - Catalogues industriels

Illustration
Tableau 14 - Banques d'application

Illustration
Tableau 15 - Banques en biotechnologes

Illustration
Tableau 16 - Banques de séquences

Illustration
Tableau 17 - Collections de cultures

Illustration
Tableau 18 - Brevets en chimie