Le logiciel qui dédoublonne

Anne-Marie Filiole

Avec MULTIFOR-DOUBLON, l'INIST 2 a voulu supprimer les doublons (ou notices en plusieurs exemplaires) lors de ses interrogations de bases de données bibliographiques. Pour répondre à une demande croissante d'applications sur mesure en matière d'information scientifique et technique, et permettre une meilleure adéquation, l'INIST doit en effet constamment inventer de nouveaux produits. Grâce à MULTIFOR-DOUBLON, il est maintenant possible de gérer plus efficacement des références bibliographiques tirées de différentes bases de données, de constituer des répertoires, et des profils bibliographiques. Le logiciel fonctionne sur micro-ordinateurs IBM/PC et PC compatibles. Constitué d'une chaîne de programmes indépendants - correspondant aux trois fonctionnalités de reformatage, de tri et d'élimination des doublons -, que l'utilisateur peut choisir, dans un menu, selon ses besoins, il permet, après interrogation et télédéchargement d'une ou plusieurs bases de données, le traitement automatique de détection et d'élimination des doublons.

Le reformatage

Les bases de données bibliographiques ont souvent des syntaxes et des contenus très différents. Aussi, avant de pouvoir les exploiter, est-il nécessaire de les homogénéiser. MULTIFOR peut modifier la présentation générale des notices, mais offre également la possibilité de normaliser un ou plusieurs champs (auteurs, par exemple) pour le rendre apte au tri ultérieur. Il permet entre autres également d'extraire des éléments d'information, d'éclater ou de concaténer des éléments d'information extraits d'un ou de plusieurs champs, de traduire le contenu d'un champ ou un élément d'information extrait de ce champ à l'aide d'une table de correspondance stockée dans un fichier, d'homogénéiser la typographie...

Loin d'imposer le format du logiciel documentaire dont il fait partie, comme le font la plupart des modules de reformatage commercialisés, MULTIFOR laisse une grande liberté à l'utilisateur, qui peut définir son format cible personnel, avec des champs pouvant être de longueur variable. Grâce à l'interface PARAM (créée en 1988), qui offre une série de menus successifs, celui-ci peut décrire les bases de données à traiter, définir le format cible et les traitements qu'il souhaite voir réaliser par MULTIFOR sur chacun des champs de chacune des bases de données à reformater. L'utilisateur peut ainsi, sans formation particulière, résoudre les difficultés inhérentes aux cas non prévus en modifiant lui-même le paramétrage et en réalisant d'autres applications de MULTIFOR. Ce qui entraîne un gain de temps considérable et évite, pour chaque cas non prévu, des mises à jour de paramétrage par le concepteur.

L'utilisateur peut décrire les formats logiques sources 3 correspondant aux serveurs dont il désire reformater les notices, décrire son format logique cible 4, créer ou modifier la liste des intitulés du format cible 5, créer ou modifier la liste dés intitulés d'un format source qu'il souhaite traiter, décrire les traitements à faire subir aux différents champs initiaux et leur destination dans le format cible, etc.

Le tri des notices

Le module TRI du logiciel permet de trier les notices provenant des diverses bases de données afin de détecter les « doublons ». Les critères de tri (trois au plus) sont les contenus des champs choisis et désignés par l'utilisateur. Le tri peut s'opérer sur le contenu entier du champ-critère ou sur une longueur définie par l'utilisateur. En cas d'absence du critère principal, l'utilisateur peut désigner un champ-critère alternatif. Ce module n'intervient, bien sûr, qu'après le reformatage préalable des notices, et en particulier la normalisation des champs-critères.

L'intérêt d'avoir un module indépendant pour le tri et le repérage des « doublons » est de permettre à l'utilisateur de vérifier et de valider ou non la pertinence de ce repérage avant de passer à l'étape finale d'élimination.

L'élimination des doublons

Par la suppression des doublons, MULTIFOR-DOUBLON permet l'élimination du recouvrement des informations lors de l'interrogation de plusieurs bases de données sur le même thème. Il permet également de créer des notices enrichies des bases d'origine en fusionnant les doublons : quand aucune des bases n'est préférentielle, on améliore la qualité du contenu en utilisant au maximum la complémentarité obtenue par la présence des doublons. Quand l'une des bases d'origine offre plus de garanties quant à la qualité et à la nature des informations présentées, on supprime les notices redondantes en retenant l'une d'elles en fonction de sa base d'origine. L'utilisateur définit un ordre préférentiel sur l'ensemble des bases d'origine avec la possibilité de garder certains champs des notices non retenues et de créer ainsi une notice « hybride », enrichie de la complémentarité des différentes bases de données interrogées.

Le département Recherche et produits nouveaux de l'INIST/CNRS projette de rendre l'interface du logiciel « intelligente », l'objectif étant, à moyen terme, d'aider l'utilisateur dans l'étape d'analyse documentaire des formats présentés par les bases d'origine. Mais, d'ores et déjà, MULTIFOR-DOUBLON est un logiciel complet qui, en s'adaptant aux cas particuliers de chacun, offre à tout moment un éventail d'applications très large. En supprimant les problèmes liés à un paramétrage figé, il permet une économie majeure de temps de travail pour l'obtention d'un produit fini.

Un exemple d'application probant : le Service central de documentation de la société Total, qui fut le premier client extérieur au CNRS à acquérir le logiciel, en décembre 1987. Assurant à 40 % de ses activités la diffusion de l'IST 6 pour les géologues et les géophysiciens, ce service souhaitait éliminer les doublons communs aux trois bases de données essentiellement interrogées par lui - TULSA, GEOREF et PASCAL 7 -, afin de minimiser le « bruit » des réponses et obtenir une meilleure adéquation. Pour adapter le logiciel à ses besoins, il a défini son format-cible de base et utilisé trois critères de tri: les champs date, auteur et pagination., dans cet ordre de comparaison.

Le « nettoyage » superficiel et la remise en forme d'un listing de 300 références - avec élimination des doublons et diffusion de l'information manuelle - qui nécessitait auparavant quatre jours de travail, se réduit, avec MULTIFOR-DOUBLON, à une trentaine de minutes. L'adjonction de l'interface PARAM, en juillet 1988, a permis de détecter 320 doublons sur les 1724 références bibliographiques que le service avait diffusées, à partir des trois bases, entre février et juin de la même année.

  1. (retour)↑  Cet article a pu être réalisé grâce à Martine GROSS, concepteur du logiciel, au département Recherche et produits nouveaux du CNRS, et à Laurence MANGE, du Service central de documentation de Total.
  2. (retour)↑  Cet article a pu être réalisé grâce à Martine GROSS, concepteur du logiciel, au département Recherche et produits nouveaux du CNRS, et à Laurence MANGE, du Service central de documentation de Total.
  3. (retour)↑  L'Institut national de l'information scientifique et technique, au CNRS.
  4. (retour)↑  Format initial, ou syntaxe présentée par la base de données à reformater.
  5. (retour)↑  Syntaxe présentée par la ou les bases de données après reformatage par MULTIFOR. Le format logique cible est défini par l'utilisateur.
  6. (retour)↑  Les intitulés sont les noms ou étiquettes des champs. Ex. : AU, dans de nombreuses bases, est l'intitulé du champ auteurs. L'utilisateur peut créer, abandonner ou choisir les intitulés des champs du format cible à sa guise. Il peut, par exemple, décider que l'intitulé du champ auteurs est AU dans le format cible, et créer un champ pagination PA, etc.
  7. (retour)↑  Information scientifique et technique.
  8. (retour)↑  TULSA : base bibliographique pétrolière produite par l'Université de Tulsa dans l'Oklahoma (Etats-Unis) ; GEOREF : base bibliographique géologique produite par l'American geological institute en Virginie (Etats-Unis) ; PASCAL : base pluridisciplinaire produite par le CNRS (Paris).