Techniques d'interrogation des bases de données brevets

Application opérationnelle en veille technologique

Éric Castano

Bernard Wallaert

Le choix des bases de données sur les brevets a au moins autant d'importance que les techniques d'interrogation de ces dernières. Il est possible d'en distinguer trois types : les bases de données généralistes (pluridisciplinaires et internationales) comme WPI, WPIL, WPAT, INPADOC ; les bases de données pluridisciplinaires (mais n'ayant pas une couverture internationale) comme FPAT, EPAT, PCTPAT, USPA, CLAIMS, JAPIO, CHINA-PATS... ; les bases de données spécialisées dans un domaine particulier : pétrole, pharmacie... à couverture internationale.

Cette étude, pour rester large, ne concernera que les bases généralistes ou pluridisciplinaires suivantes : WPIL, INPADOC, FPAT/EPAT/PCTPAT.

Méthodologies d'enregistrement propres à chaque base

DERWENT fait une seule fiche par demande (lors de la publication du premier brevet de la demande), puis tous les équivalents qui arrivent au fur et à mesure dans WPIL et WPAT (WPI ne fait plus l'objet d'enregistrement de nouvelles fiches) sont classés dans cette même fiche quels que soient leur nationalité ou leur statut juridique. L'augmentation du nombre de brevets de la demande est suivi par la modification d'un champ spécifique (champ publication). Toute la famille de brevets se retrouve donc dans la même fiche.

INPADOC crée une fiche à chaque nouvelle publication de brevet, sans regroupement par nationalité ; les brevets en phase B (déjà publiés en phase A) font l'objet d'un autre enregistrement. La notion de famille est cassée ; pour une seule invention on trouve autant de fiches que de brevets. La relation peut être faite, cependant, entre les brevets d'une même famille par la date et le numéro de priorité qui sont des invariants. De toute façon, il existe de nombreuses commandes, en ligne sur INPADOC, qui permettent de faire le lien (à partir d'un seul des brevets de la famille).

L'INPI (Institut national de la propriété industrielle) classe les brevets en fonction de leur nationalité : les brevets français (dépôt et publication en France) sont enregistrés sur FPAT ; les brevets européens sur EPAT ; les brevets mondiaux sur PCPTAT.

L'information en provenance de l'INPI (FPAT), de l'OEB (EPAT) et de l'OMPI (PCTPAT) est retranscrite immédiatement et telle quelle sur les bases de données, sans valeur ajoutée, conférant ainsi à ces bases de données une certaine « instantanéité » de l'information.

Rapidité /délais d'enregistrement

Le retard entre la publication d'un brevet et son enregistrement dans la base varie en fonction de la base mais aussi en fonction de la nationalité du brevet considéré. Les études comparatives (début de l'année 1994) sont faites sur une centaine de brevets (il s'agit donc de moyennes) : on mesure l'écart de temps entre la date de la première publication et la date d'entrée dans la base.

Exhaustivité/couverture temporelle

En ce qui concerne le volume de brevets, INPADOC est la base la plus fiable. Elle couvre les brevets issus des Offices de propriété industrielle qui adhèrent à l'OMPI (Organisation mondiale de la propriété industrielle). C'est là où on a le moins de risque de « perdre » un brevet. WPI, WPIL et WPAT recensent les brevets de 29 pays industrialisés, ainsi que les brevets européens (convention EPC) et mondiaux (traité PCT). La couverture est donc forte, mais plus faible que celle d'INPADOC. FPAT rassemble les brevets déposés en France, quelle que soit la nationalité du déposant. On trouve donc des brevets ayant aussi bien une priorité française qu'étrangère. EPAT et PCTPAT regroupent les brevets dont la demande a été étendue, respectivement en Europe et dans le monde.

Qualité de l'information/coût

- Les bases WPI, WPIL et WPAT fournissent le résumé mais ne contiennent aucune information sur d'éventuelles procédures d'opposition. De plus, le rapport de recherche n'est enregistré que pour les brevets européens, et avec du retard. L'information concernant les brevets français, européens et mondiaux est plus complète sur les bases FPAT (informations sur le rapport de recherche), EPAT et PCTPAT (les mêmes données sur le rapport de recherche avec, en plus, d'éventuelles informations sur les procédures d'oppositions engagées par des sociétés concurrentes). INPADOC ne fournit pas de résumé ni de rapport de recherche.

Les coûts d'interrogation de chaque base sont donnés ci-dessous par les catalogues des serveurs (début de l'année 1994).

- INPADOC est la base la moins chère, et de loin. Cela s'explique par le peu d'information disponible. Mais ceci doit être nuancé : les commandes spéciales qui permettent de retrouver la famille complète d'un brevet engendrent un surcoût important. De plus, pour visualiser toute une famille, il faut afficher autant de références que de brevets (alors qu'une seule visualisation sur WPIL suffit). Les bases produites par DERWENT sont très chères, mais la précision de ces bases permet d'extraire rapidement les références dont on a besoin. Les bases produites par l'INPI sont encore très compétitives ; elles sont accessibles à un coût inférieur à celui de WPIL tout en offrant une meilleure information. Il faut s'en servir dès que les restrictions propres à chacune d'elles ne sont pas gênantes.

Choix des bases de données à ufiliser et fréquence d'interrogation

La structure et le fonctionnement de l'entreprise ainsi que les domaines de recherches dictent l'utilisation d'une base de données plutôt que d'une autre 1. L'essentiel est de bien définir au départ ses besoins en matière de brevets et de choisir ensuite l'information la plus adéquate. Il est impératif de réaliser une étude approfondie (comparaisons des spécificités, des méthodes d'indexation, des structures et des coûts d'interrogation), pour définir les fichiers à utiliser. Un bon compromis rapidité d'accès à l'information / qualité de l'information est obtenu à l'aide des sources suivantes 2 : brevets français : FPAT ; brevets européens (convention EPC) : EPAT ; brevets mondiaux (traité PCT) : PCTPAT ; tous les autres brevets : WPIL.

La fréquence d'observation de ces bases de données brevets, dans le cadre d'une surveillance régulière, doit se faire en fonction du temps qui s'écoule entre la publication d'un brevet et son obtention sur la base de données. Ce délai dépend de deux opérations. La première est l'enregistrement du brevet dans la base par le producteur (cette opération ne dépend pas de l'opérateur), la deuxième est l'interrogation de la base (elle ne dépend que de l'opérateur). Les durées associées à ces deux opérations doivent être proportionnelles. Il serait en effet inutile et aberrant d'interroger WPIL toutes les semaines alors que le retard sur cette base est d'au moins un mois et demi ! De la même manière, il serait dommage de ne visionner FPAT qu'une fois par mois alors que l'information n'a aucun retard sur ce fichier. Les fréquences d'interrogation optimales sont les suivantes : WPIL : 1 fois par mois ; FPAT/EPAT/PCTPAT : 1 fois toutes les 2 semaines ; INPADOC : 1 fois toutes les 2 semaines.

Elaboration du profil de recherches

Définir une bonne stratégie de recherche, précise et exhaustive à la fois, est une opération très délicate. L'interrogation doit concerner trois niveaux clés.

- l'interrogation matière qui porte sur tous les champs « texte » dont le vocabulaire n'est pas contrôlé, c'est-à-dire le titre, le résumé et les termes non contrôlés par un thésaurus. Elle doit être très précise ; en effet, c'est elle qui permet d'obtenir le maximum d'information, mais c'est elle, aussi, qui risque de rapporter le maximum de « bruit » si l'on n'y prend garde. Le problème tient au fait que la sémantique que l'on emploie habituellement pour définir un thème scientifique ne correspond pas forcément à celle que l'on trouve dans la documentation (il peut y avoir une déformation due aux origines et à la culture de l'entreprise...). Une analyse rétrospective simple, sur un échantillon de documents jugés pertinents, suffit, dans la plupart des cas, à mettre en évidence les termes clé ;

- l'interrogation index qui porte, elle, sur les champs de termes contrôlés (classification et champs mots clés). Seules les bases spécialisées dans un domaine particulier peuvent bénéficier d'une indexation spécifique et sont concernées par cette interrogation. Les autres fichiers n'intègrent pas ce type d'information. La consultation des mots de l'index peut se faire à l'aide du thésaurus ou directement à partir de la base de données, à l'aide de commandes spécifiques ;

- l'interrogation code est la troisième forme d'interrogation. Elle correspond à l'utilisation des différentes classifications (internationales ou locales). En matière de brevets, on trouve trois classifications distinctes : les classifications DERWENT, propres au producteur (WPIL seulement) ; la classification interne de l'OEB ; la classification internationale des brevets (CIB), gérée par l'OMPI.

Il existe deux classifications DERWENT. La classification DERWENT CODE est gratuite et présente dans toutes les fiches ; elle a pour but de donner une première idée du brevet. Elle est bien sûr insuffisante et inadaptée pour une recherche pointue. La classification MANUAL CODE, elle, est beaucoup plus précise. DERWENT met en valeur son homogénéité : en effet, les brevets sont classés par une même équipe, qui utilise une même méthode (par opposition à la CIB). Pour utiliser les MANUAL CODES, il est cependant nécessaire de prendre un abonnement particulier auprès de DERWENT. La classification de l'OEB correspond à des recherches très poussées et très fines : par exemple, recherches d'antériorité. Elle est immense : 105 000 subdivisions (contre 64 000 pour la CIB) et sans cesse réactualisée, la mise à jour est mensuelle. Mais cette classification ne figure que sur les brevets européens. La seule classification que nous utilisons est la classification internationale des brevets. Elle est reconnue (tous les fichiers que nous étudions ici l'intègrent), stable et les interrogations sont aisées et d'une grande précision, permettant ainsi la recherche de l'activité inventive. La recherche des codes liés aux thèmes étudiés peut se faire à partir des documents édités par l'OMPI 3 ou directement sur la base de données CIB 4 du serveur Questel.

Le temps nécessaire à l'interception d'un brevet est une notion importante dans un système de veille technologique. On peut définir l'espérance d'obtention pour chaque base (propre à chaque système de surveillance) comme dans le tableau ci-dessus.

Illustration
Tableau 1 - Délais d'enregistrement des brevets

Illustration
Tableau 2 - Couverture temporelle des différentes bases

Illustration
Tableau 3 - Coûts d'interrogation des différentes bases

Illustration
Tableau 4 - Espérance d'obtention d'un brevet

  1. (retour)↑  M. E. MOGEE, « Using patent data for technology analysis and planning », Research-Technology, vol. 34, n° 4, p. 43-49, July 1991 ; A. CHAKRABARTI, « Composition in high technology : analysis of patents of US, Japan, UK, France, West Germany, and Canada », IEEE Transaction on Engineering, vol. 38, n° 1, p. 78-84, February 1991 ; P. STEELE, « Patents databases - User's view and concerns », Information World Review, n° 81, p. 19-20, May 1993.
  2. (retour)↑  E. CASTANO, Conception et installation d'un système de veille technologique ; application dans le domaine pétrolier, thèse de doctorat, université d'Aix-Marseille, juin 1994.
  3. (retour)↑  International Patents Codes Classification - 5th ed., World Industrial Property Organisation, 1993.
  4. (retour)↑  Base CIB ou base de la classification internationale des brevets ; producteur : INPI ; seul serveur distributeur : QUESTEL ; 65 000 indices disponibles en ligne.