Éléments de statistique et de mathématique de l'information
infométrie, bibliométrie, médiamétrie, scientométrie, muséométrie, webométrie
Thierry Lafouge
Yves-François Le Coadic
Christine Michel
Tous ceux qui ont à conduire des analyses visant à évaluer leur activité et à produire des outils d’aide à la décision savent combien il est difficile d’aller au-delà de quelques comptages et ratios relativement élémentaires, compte tenu de la culture plutôt médiocre des professionnels en matière statistique. C’est pourquoi l’initiative de publier un manuel de statistique et de mathématique spécialement orienté sur l’information semble tout à fait bienvenue. Les trois auteurs sont des universitaires bien connus dans le domaine des sciences de l’information, et ils ont fait ici œuvre pédagogique, chaque chapitre du manuel étant systématiquement accompagné d’exemples et exercices corrigés.
Une synthèse nécessaire…
L’ouvrage s’adresse d’abord à des étudiants, mais chacun pourra utilement s’y référer. Il débute par un chapitre tout à fait nécessaire, qui analyse les formes de la mesure de l’information. Puis, du point de vue de la statistique sont récapitulées les statistiques unidimensionnelle, bidimensionnelle, multidimensionnelle, et probabiliste ; la mathématique aborde quant à elle les séries, les fonctions, les équations et les ensembles.
Sous chacun de ces éléments, plusieurs chapitres exposent les différentes approches intéressant tantôt la bibliométrie, la webométrie, l’infométrie, et autres -métries, en tentant de prendre pour exemples des situations intéressant ces différentes spécialités : analyser la variation saisonnière des prêts dans une bibliothèque, étudier l’obsolescence de l’information, etc. Malgré cette volonté de rendre l’approche plus familière, le lecteur non spécialiste aura parfois un peu de mal à suivre des démonstrations souvent ardues : disons-le, il faut une bonne culture mathématique pour saisir l’ensemble du volume, même si un non-spécialiste regrettera de rares approximations dans la rigueur de l’expression... statistique (signalons dans l’exemple p. 54 : passer de (a)21 000 à (b)33 000 n’est pas « augmenter de 157 % », mais soit augmenter (a) de 57 %, soit dire que (b) représente 157 % de (a)…). Néanmoins on sera très intéressé de voir rassemblées et détaillées ici des « formules » dont tout bibliothécaire a une connaissance souvent vague : la loi de Morse, la loi de Bradford, le test du KHI_ [ici lettre grecque khi = X_] destiné à vérifier l’indépendance de deux variables…
… mais peu adaptée aux bibliothèques
Pourtant, si l’ouvrage sera indubitablement très utile aux étudiants en sciences de l’information, il ne répond que très partiellement aux besoins des professionnels des bibliothèques et de la documentation. Certes, ce public-là n’est que second dans les intentions des auteurs, mais il sera sûrement nombreux à espérer lire un manuel pratique pour « une conduite plus assurée de ses activités » (comme le souhaite la 4e de couverture), et c’est parce que cet autre public est visé que nous nous permettons d’aborder l’ouvrage de ce point de vue.
Or ne nous y trompons pas : ce n’est pas un manuel de statistiques appliquées, mais un manuel sur « l’ensemble des techniques d’interprétation mathématique appliquée à l’analyse des valeurs numériques » (p. 47). L’ouvrage reste extrêmement lacunaire quant à l’analyse de la pertinence de chaque approche proposée dans une situation professionnelle : pour ne prendre qu’un exemple trivial, si à la lecture on comprend parfaitement la différence entre moyenne, médiane et mode, rien ne dit dans quelles circonstances il vaut mieux utiliser celle-ci plutôt que celle-là ; ou encore les exemples statistiques tirés d’échantillonnages ne nous apprennent rien des règles de constitution des échantillons (et Dieu sait à quel point cette culture statistique élémentaire serait nécessaire non seulement pour les bibliothécaires, mais aussi pour tout citoyen confronté aux pronostics des instituts de sondage !) ; ou enfin, mis à part quelques classiques comme Bradford ou Morse, voire la formule dite de « Larbre-Dousset 1 » – mais sans référence à ceux qui l’ont vulgarisée dans la profession : parce qu’ils ne sont pas universitaires ? –, on constate la trop grande rareté d’exemples analysés à partir des efforts existants de formalisation statistique appliquée aux domaines professionnels, tels « la bibliothèque à 90 % » de Bourne ou l’analyse de frustration de Saracevik, pour ne citer que deux autres quasi classiques. En somme, si la culture statistique et mathématique des auteurs ne fait aucun doute, pour autant qu’un semi-profane puisse en juger, on pourrait regretter qu’ils n’aient pas pris à leur compte le reproche qu’ils adressent aux professionnels des bibliothèques, à savoir d’être trop peu orientés clients (p. 29).
À la recherche des statistiques
Néanmoins ne jetons pas le bébé avec l’eau du bain : un lecteur curieux pourra tirer tout à fait son miel de nombre des démonstrations de ce volume. Le chapitre initial déjà cité sur la notion de mesure est tout à fait limpide et digne de figurer dans tout manuel fondamental, l’analyse des modes de distribution en matière d’information ou les explications relatives aux statistiques probabilistes offrent des informations réellement nécessaires et utiles. Enfin les exercices sont pour la plupart abordables au moyen des « cours » qui les précèdent, et les corrigés bien conçus.
Mais si les auteurs signalent fort justement que « tout l’art des statistiques consiste à accepter une perte d’information en espérant obtenir en contrepartie un gain de signification » (p. 57), encore faut-il savoir quelle signification est recherchée : les exemples choisis par les auteurs relèvent certes des domaines de l’ « information », et on leur saura gré d’avoir fait l’effort de prendre des exemples qui sont souvent professionnellement parlants, mais leur travail n’est pas réellement appliqué à ces domaines. En effet, il convient de ne pas oublier que les statistiques (au sens large) n’ont de sens qu’avec l’objectif d’analyser une situation, et ne peuvent être mises en œuvre sans ce questionnement préalable. Donc une approche applicative de la statistique doit partir d’abord des questionnements, pour examiner ensuite les méthodes susceptibles de fournir des réponses à ces questionnements.
Soyons féroce jusqu’au bout : il semble bien que l’objectif de cet ouvrage est, outre de fournir un manuel pratique et rigoureux, de démontrer aussi la légitimité de la « science de l’information » comme science, dans l’esprit étonnamment positiviste et curieusement désuet que si « l’information peut faire l’objet d’une science », parallèlement « il n’y a pas de sciences et de technologies sans mesures » (p. 28). Pour la technologie peut-être, mais pour la science ! Il y a belle lurette que les sciences humaines et sociales ont fondé leur légitimité ailleurs que dans l’exactitude de la mesure, sans bien entendu renoncer à l’exigence de méthodes rigoureuses. On mesure (!) la distance qui peut exister parfois entre les scientométriciens ou autres infométriciens… et les praticiens de la gestion de collections et de publics, pour lesquels l’exigence réelle et nécessaire de mesures rigoureuses et d’indicateurs sophistiqués s’inscrit dans un objectif très pragmatique et complexe de pilotage et d’aide à la décision. Non que la recherche en statistique doive se plier aux seuls desiderata de commanditaires, mais nous parlons ici de travaux applicatifs et récapitulatifs destinés notamment, du moins est-ce annoncé, à ces commanditaires potentiels.
Un manuel de statistiques à l’attention des acteurs de l’information, à la fois ambitieux sur le plan méthodologique et attentif aux questionnements des professionnels des bibliothèques et de la documentation, reste à paraître. Avec des ouvrages comme Statistics for Library Decision Making 2, hélas un peu ancien, ou Basic Statistics for Librarians 3, peut-être trop peu ambitieux sur le plan de l’analyse statistique, les Anglo-Saxons ont tracé la voie. Espérons qu’un jour des francophones relèveront le défi.