Les nouvelles technologies au service de la littérature grise

Martine Comberousse

L’amélioration du repérage et de l’accès à la littérature grise est soumise à un large usage des nouvelles technologies de l’information aux différentes étapes du traitement des documents. Une chaîne électronique « de bout en bout » (de l’auteur au lecteur) est mise en place dans les « pôles » du programme national Griseli. Le dispositif comporte trois caractéristiques principales qui l’inscrivent d’emblée dans la perspective des autoroutes de l’information : la constitution d’un réseau réparti, l’utilisation de la norme SGML dès l’élaboration du document de littérature grise et la fourniture électronique des documents.

The improvement of the location and access to grey literature is subjected to a large use of new technologies of information, at the different stages of documents processing. An electronic line « from start to finish » (from the author to the reader) is organized in the « poles » of the national programme called Griseli. The operation is composed of three main characteristics which fit in at once with the perspectives of information superhighways : the constitution of a divided network, the use of the SGML standard immediately after the elaboration of the grey literature document and the electronic provision of documents.

Die Verbesserung der Suche und des Zugriffs zur Fachliteratur hängt davon ab, daß man die neuen Techniken der Information bei jedem Schritt der Dokumentenbehandlung meistert. Eine elektronische Kette « von Anfang bis zu Ende » (d.h. vom Verfasser bis zum Leser) wird in den sogenannten « Polen » des nationalen Vorhabens Griseli eingestellt. Drei Haupteigenschaften müssen dieses Vorhaben in die Aussicht der Autobahnen der Information sofort einfügen : die Gestaltung eines verteilten Netzes, die Benutzung der Norm SGML sobald das Fachliteraturdokument hergestellt wird, und die elektronische Lieferung der Dokumente.

La littérature grise, c'est-à-dire l'ensemble des documents comme les rapports, les thèses, les actes de congrès qui échappe aux circuits éditoriaux commerciaux 1, représente une source extrêmement riche d'informations inédites et à forte valeur ajoutée. Son caractère limité, confidentiel, réservé pourrait laisser croire que ce type de production, après un usage restreint, est voué à l'obscurité des tiroirs, sans que jamais les techniques modernes ne les atteignent.

Au contraire, la littérature grise possède des atouts qui la désignent particulièrement pour l'application des nouvelles technologies. Tout d'abord, c'est un vivier de données très sous-exploité que seules les techniques nouvelles de diffusion de l'information peuvent mettre en valeur en un court délai et à une grande échelle. C'est également un terrain favorable à l'introduction sans douleur de moyens nouveaux : les auteurs sont des chercheurs ou ingénieurs, accoutumés et très favorables aux innovations. Par ailleurs, les éditeurs de ces documents sont généralement des établissements publics de recherche ou d'enseignement soucieux de valoriser leur production scientifique au meilleur coût. Enfin, le dispositif repose sur une chaîne documentaire déjà largement rénovée.

Le dispositif national Griseli développé par la DISTB (Direction de l'Information scientifique et technique et des bibliothèques) du ministère de l'Enseignement supérieur et de la Recherche (MESR) exploite donc largement les nouveaux moyens de traitement et de diffusion des documents. Les trois éléments-clés du système d'information mis en place sont les suivants : un réseau réparti, l'introduction systématique de la norme SGML et la fourniture électronique des documents, par Internet notamment.

Un réseau réparti

Le système d'information repose sur un réseau de « pôles Griseli » auxquels incombent les charges de collecte de la littérature grise, de réalisation de banques de données locales de littérature grise (spécifiques ou non), de transfert électronique des références vers l'un ou l'autre des deux « guichets » de rassemblement des notices, enfin, le cas échéant, de fourniture des documents.

Ces « pôles » 2, actuellement au nombre de huit, détiennent la responsabilité du respect de la confidentialité ou de la restriction de diffusion, dans la mesure où celle-ci ne peut s'exercer qu'au plus près des auteurs. Il sont également garants de la sélection des références à transmettre aux deux « vitrines », ou points d'accès, de la littérature grise française : l'INIST (Institut de l'information scientifique et technique), pour les documents scientifiques et techniques, et La Documentation française, pour les documents administratifs ou politiques.

La norme SGML

Ce réseau repose – pour sa partie scientifique et technique – sur l'application de la norme SGML (Standard Generalized Markup Language). SGML est utilisé pour la création, les modifications, la consultation et la communication des documents de littérature grise.

Les notices seront captées par l'INIST sous SGML, ou reconstituées en SGML si le pôle n'a pas encore introduit cette norme dans ses notices. Actuellement, l'INIST met en place une nouvelle chaîne informatique qui reposera précisément sur ce format. Ce choix implique que les établissements respectent la liste des éléments de données et les règles d'écriture dans leurs propres banques.

La souplesse d'exploitation des textes ainsi que la rapidité de traitement qu'elle engendre justifient l'usage de cette norme pour la littérature grise. En effet, la majorité des acteurs de la recherche saisissent leurs rapports eux-mêmes avant de les communiquer à leurs correspondants. La littérature grise existe donc sous une forme numérique à sa source. Il est toujours possible de récupérer ces textes sur disquettes pour communication sous cette forme, mais les disparités de logiciels alourdissent les transactions. Il fallait choisir une norme qui permettait de récupérer facilement tous les textes et de les exploiter. C'est pourquoi la norme internationale SGML a été choisie ; elle a déjà fait l'objet de plusieurs applications dans les secteurs scientifique et industriel (par exemple dans les mathématiques, les grands organismes de recherche, ou l'aéronautique), et bénéficie d'une acceptabilité internationale satisfaisante.

Le programme Griseli vise à faciliter l'implantation de logiciels éditeurs SGML dans un très grand nombre de stations-auteurs pour la production de la littérature grise. Cette implantation devra être réalisée dans les pôles Griseli ; elle pourra être largement étendue aux établissements producteurs de littérature grise (universités, laboratoires, centres industriels, etc.).

Une étude, terminée en février 1995, propose :

- la typologie des documents de littérature grise et leur classification ;

- une DTD (définition de type de document) par classe de documents ;

- la DTD de la notice bibliographique Griseli.

Fourniture électronique des documents

Pour accélérer le processus de distribution des documents – point clé en matière de littérature grise –, plusieurs solutions sont envisagées. La photocopie de tout ou partie de documents avant envoi postal reste la technique de transition. La fourniture électronique des documents est la solution choisie pour Griseli. Deux procédures demeureront parallèles à court terme :

- La communication des documents sur fax, ordinateur-client, et même copies papier si nécessaire. C'est la procédure actuellement pratiquée par l'INIST pour répondre aux demandes, ainsi que par plusieurs services de documentation. Les documents peuvent alors être stockés systématiquement sur disque optique ou numérisés à la demande ;

– Dans le cadre du document structuré sous SGML, la réalisation d'une chaîne de traitement des documents de bout en bout. Cette solution est vivement encouragée par le ministère, car elle est la seule vraiment performante et pertinente pour la littérature grise 3.

Les documents sont stockés sur serveurs WWW (World Wide Web), ou autres, et accessibles par Internet. Leur adresse électronique est impérativement inscrite sur la notice Griseli. Les producteurs peuvent choisir de ne charger qu'une partie des documents (introduction, conclusion, table des matières, bibliographie, chapitre, etc.) afin de conserver la maîtrise de la diffusion électronique intégrale du rapport, pour des motifs aussi bien commerciaux que stratégiques. On conçoit également très clairement l'intérêt que ces choix apportent pour la réalisation de CD-Rom intégrant largement la littérature grise. Mais aussi pour faciliter la recherche d'information à l'aide d'outil de veille technologique ou d'interfaces intelligentes.

Perspectives

Si Griseli est aujourd'hui volontairement limité à un système documentaire, reposant sur le document de littérature grise, il est certain que les perspectives ouvertes par les « autoroutes de l'information » imposeront très rapidement de le transformer en un système d'informations permettant l'accès direct aux données contenues dans les documents. Ceci impliquera des logiciels d'extraction, de tri et d'exploitation du contenu des documents. Mais les autoroutes comme Internet imposent également de nouvelles formes de « littérature grise » comme les news, les messages, les interventions dans les forums, les prépublications électroniques, les démonstrations multimédia, etc. Or ces éléments, beaucoup plus fluides que les documents traditionnels, ne subissent aucune validation et échappent encore davantage à tout contrôle ou identification.

Les nouvelles technologies de l'information améliorent certainement les flux documentaires existants, mais suscitent de nouveaux problèmes à prendre en compte pour la maîtrise de la littérature grise.

Janvier 1995

Illustration
Griseli

Illustration
SGML

  1. (retour)↑  Définition de l’Afnor : « Document dactylographié ou imprimé, produit à l’intention d’un public restreint, hors des circuits traditionnels de l’édition et du contrôle bibliographique national ».
  2. (retour)↑  Le BRGM (Bureau de recherches généalogiques et minières) pour les sciences de la terre ; le CEA (Commissariat à l’énergie atomique) pour l’énergie ; le CTBA (Centre technique du bois et de l’ameublement) pour l’industrie du bois ; l’IMFC (Institut des microtechniques de Franche-Comté) pour les microtechniques ; l’INRA (Institut national de la recherche agronomique) pour l’agronomie ; l’INRETS (Institut national de recherche en informatique et en automatique) pour l’informatique ; le LRCCP (Laboratoire de recherche sur les caoutchoucs et plastiques) pour les plastiques.
  3. (retour)↑  La Sous-Direction des bibliothèques, pour sa part, étudie actuellement les scénarios possibles de numérisation de thèses.