Les dérives de l’évaluation de la recherche

Du bon usage de la bibliométrie

par Benjamin Caraco

Yves Gingras

Yves Gingras
Raisons d’agir éditions, 2014, 122 p.
ISBN 978-2-912107-75-6 :8 €

Pour beaucoup, la bibliométrie est synonyme d’évaluation des chercheurs 1. Il n’en a pas toujours été ainsi, comme le démontre le sociologue et historien des sciences québécois Yves Gingras dans son essai Les dérives de l’évaluation de la recherche, publié par les éditions Raisons d’agir, fondées par Pierre Bourdieu 2. Dans ce livre d’une centaine de pages, Gingras propose une synthèse mesurée de ses travaux sur l’histoire et les usages de la bibliométrie.

Une brève histoire de la bibliométrie

Comme l’auteur le rappelle en introduction, l’évaluation connaît une montée en puissance depuis les années 2000, tout particulièrement en Europe, la bibliométrie étant la méthode reine permettant le classement des chercheurs et de leurs institutions respectives. Bien qu’elle soit généralement décriée, la bibliométrie suscite des comportements paradoxaux : ainsi les chercheurs n’hésitent pas à mettre eux-mêmes en avant les revues avec un fort taux d’impact dans lesquelles ils publient. Toutefois, l’équation implicite entre évaluation et bibliométrie empêcherait toute réflexion sur la construction des données, chacun ne retenant que les classements où il figure le plus à son avantage. Gingras met d’emblée le lecteur en garde : il ne s’agit pas de dénoncer la bibliométrie mais de se pencher sérieusement sur son cas puisque : « Les problèmes récurrents résultent, d’une part, du flou entourant les différents concepts et indicateurs utilisés et, d’autre part, de désaccords sur l’échelle à laquelle ils peuvent s’avérer valides et utiles. À mon avis, l’importance de bien comprendre les propriétés spécifiques des indicateurs bibliométriques les plus courants, et leurs champs d’application, tient au fait qu’il est impossible (et même non souhaitable) d’échapper aux évaluations. Il est donc essentiel de critiquer rigoureusement les indicateurs mal construits, et dont l’utilisation peut engendrer des effets pervers » (p. 11-12).

À l’origine, la bibliométrie n’est qu’un « sous-ensemble de la scientométrie et se limite à l’analyse des publications et de leurs propriétés » (p. 15), cette dernière étant la « mesure quantitative de l’ensemble des activités scientifiques, toutes disciplines confondues » (p. 15). Les publications englobent les livres, la littérature grise et les articles, que l’on a aujourd’hui tendance à confondre avec les publications dans leur ensemble.

La bibliométrie naît dans les années 1920 et ses premiers usages se concentrent sur l’évaluation de la croissance des disciplines (comme la psychologie) et des collections. Les bibliothécaires s’en servent comme d’un instrument de gestion des collections face à la prolifération et au renchérissement des revues. L’on étudie l’obsolescence des revues, leur cycle de vie, à partir du nombre de citations. Après la Seconde Guerre mondiale, un tel suivi (manuel) des revues n’est plus possible : Eugene Garfield propose la création d’un index incarné par une base de données regroupant les citations entre articles. Le Science Citation Index voit ainsi le jour en 1963. Il ne vise alors pas à évaluer mais à permettre de constituer rapidement des bibliographies. Dans le même temps, la bibliométrie devient un outil performant pour les historiens des sciences ; les recherches de ce type restant toutefois confidentielles jusque dans les années 1970 où commencent à se développer les politiques publiques de la recherche qui transforment la discipline en science de l’évaluation avec l’élaboration d’indicateurs. Dans les années 1980-1990, avec les effets conjugués du knowledge management et du benchmarking, la bibliométrie se place au service de l’évaluation des carrières des chercheurs… la décrédibilisant par ricochet en tant que science.

La bibliométrie reste pourtant un outil indispensable pour l’étude de la dynamique des sciences. Elle intéresse historiens, sociologues et spécialistes désireux de retracer la dynamique de leurs disciplines. Certes, les données brutes doivent toujours être rapportées à leur contexte et demeurent toujours relatives, elles n’en restent pas moins l’objet de nombreuses applications (politique scientifique, bibliothéconomie, évaluation de la recherche). Elle devrait paradoxalement permettre l’adaptation des normes étatiques d’évaluation en saisissant les traits fondamentaux des différentes disciplines scientifiques mais aussi de lutter contre certains clichés, par exemple la prolifération prétendue de l’auto-citation.

La bibliométrie ne génère pas d’effets pervers d’elle-même mais sous le coup de l’évaluation des chercheurs, qui n’est pas un phénomène nouveau. Sa fréquence et son intensité ont en revanche indubitablement augmenté. L’évaluation (par les pairs) des publications remonte par exemple au XVIIIe siècle mais elle ne prendra sa forme actuelle que progressivement au cours du XXe. Dès le XIXe siècle, les enseignants-chercheurs sont évalués en vue de leur titularisation ; le recours à la bibliométrie s’intensifie seulement dans la seconde moitié du XXe siècle, l’un de ses défenseurs, E. Garfield, mettant toutefois en garde contre son application trop brutale : Lyssenko aurait du recevoir un Nobel en 1950 puisqu’il était alors l’un des auteurs les plus cités !

En dépit de ces avertissements, le physicien américain Jorge E. Hirsch invente l’index h (« Cet indice est défini comme étant égal au nombre d’articles n qu’un chercheur a publiés et qui ont obtenu au moins n citations chacun depuis leur publication »), ou plutôt l’improvise, puisqu’il mesure à la fois la quantité et la qualité des publications d’un chercheur. L’index h favorise la longévité dans une carrière par rapport aux jeunes (et brillants) chercheurs. Pour Gingras, les effets les plus pervers de la bibliométrie concernent les revues. Le facteur d’impact fait croire que certains articles sont de meilleure qualité que d’autres alors qu’il ne mesure que la diffusion des revues. Une telle construction avantage les disciplines dont la recherche est rapidement obsolète (médecine opposée aux sciences sociales). Les citations suivent par ailleurs une répartition de type Pareto : 20 % des articles recueillent 80 % des citations et vice-versa. Autrement dit, la publication d’un article dans Nature ou Science ne garantit en rien qu’il soit un jour cité ! L’usage par les décideurs de tels indicateurs n’est pas non plus sans problème : lien entre index h et rémunération, allocation de moyens aux laboratoires sous condition… Pis encore, pour Gingras, « un aspect peu discuté de l’importance accordée aux facteurs d’impact et au classement des revues est qu’elle détourne indirectement de l’étude de sujets locaux, marginaux ou peu à la mode » (p. 75), tout particulièrement en sciences humaines et sociales.

L’évaluation des indicateurs

Finalement, l’essai de Gingras pose in fine la question suivante : qui évalue les évaluateurs ? (« Ce qui est le plus surprenant dans la multiplication des indicateurs est qu’aucun critère bien défini n’est utilisé systématiquement pour contrôler leur validité », p. 83.) En règle générale, il faudrait d’abord déterminer les objectifs et les missions – d’une institution par exemple – avant de se soucier des indicateurs nécessaires, contrairement à ce qui se pratique à l’heure actuelle. Plusieurs indicateurs doivent souvent être combinés pour offrir un reflet correct de la réalité. Les indicateurs bibliométriques existants souffrent de plusieurs lacunes : ils ne rendent pas compte de la richesse des études locales, des spécificités des disciplines, de l’exhaustivité de la recherche, des monographies… Ils souffrent plus largement de notre tendance à résumer toute l’évaluation à un seul chiffre, ce qui revient à vouloir représenter un espace pluridimensionnel en dimension zéro pour Gingras !

De bons indicateurs devraient être nécessairement dotés de trois qualités : être en adéquation avec l’objet mesuré, ce qui implique de les tester par d’autres biais ; être homogènes dans la mesure afin de permettre la comparaison ; et respecter l’inertie propre à leur objet, c’est-à-dire se méfier de trop grands écarts qui révèlent plus une distorsion dans la mesure qu’un changement de performance, ou encore se caler sur la temporalité des phénomènes observés (il est par exemple peu pertinent d’évaluer une formation doctorale annuellement). La plupart des classements d’universités connus ne répondent à aucun de ces critères mais personne ne prend vraiment la peine de les critiquer sérieusement, l’intérêt des décideurs pour ceux-ci découlant de la libéralisation progressive du marché de l’enseignement supérieur, qui induit marketing et compétition entre universités.

Ces classements jouent le rôle de publicité (mensongère, selon Gingras) alors que les universités devraient en principe incarner la recherche de la vérité 3. Ils encouragent plutôt le cynisme des dirigeants d’université, qui oscillent entre dénonciation et manipulation, et ces classements profitent surtout à ceux qui les produisent. Fondamentalement, comme le rappelle Gingras dans les derniers passages de son intelligent, clair et instructif essai, la bibliométrie et ses applications pour l’évaluation nous interrogent sur notre conception de l’enseignement supérieur : simple produit avec des vendeurs et de potentiels acheteurs, ou phénomène complexe ne pouvant se réduire à quelques chiffres, dont on ne se soucie jamais d’ouvrir la « boîte noire » ?