The Future of classification

par Bertrand Calenge

ed. by Rita Maralla and Arthur Maltby. Aldershot : Gower, 2000. – XV-144 p.; 24 cm. ISBN 0-566-07992-5 : £ 55

CDD (Classification décimale de Dewey), CDU (Classification décimale universelle), LCC (Library of Congress Classification), classification de Bliss, classification NLM (National Library of Medicine), Colon classification, toutes ces appellations et bien d’autres encore rappellent aux bibliothécaires leurs années d’études, même si bien souvent leur pratique professionnelle les conduit à n’utiliser qu’une seule classification, et ce pour le classement physique des documents matériels en libre accès. À l’heure des moteurs de recherche et des agents intelligents, les jours de ces classifications encyclopédiques et spécialisées ne sont-ils pas comptés?

En réunissant plusieurs auteurs dans un mince ouvrage intitulé The Future of Classification, Rita Marcella et Arthur Maltby tentent de démontrer le contraire. La structure du sommaire qui organise la succession des dix contributions est simple : dans une approche transversale sont rappelés les atouts des classifications dans l’organisation du savoir et dans les possibilités de recherche d’information, avant que ne soient examinées les opportunités offertes par les outils électroniques et la nouvelle donne que représente le gisement d’Internet; puis sont analysées les évolutions des principales classifications ces dix dernières années, et données, en conclusion les sources bibliographiques disponibles sur le sujet.

Proposer des chemins

Les éditeurs du volume le rappellent : les classifications ne sont qu’un moyen, et non une fin. Moyen de mettre de l’ordre dans une collection, moyen d’offrir des éléments de réponse aux recherches des utilisateurs. Or ces recherches sont extrêmement variables selon les individus et les moments ou objets de leurs recherches. Eric Hunter souligne les limites des requêtes de type booléen, privilégiées dans les moteurs de recherche : les requêtes ne sont pas contextualisées, ce qui occasionne des bruits importants dans les résultats, voire des aberrations; qu’il s’agisse d’une requête simple (le terme « église » recouvrira les bâtiments comme l’organisation), ou complexe (la recherche des « soupes à la tomate en boîte » faisant appel à des contextes de « cuisines », « conditionnements » et « goûts », et recouvrant de multiples appellations telles que potages, à l’italienne, briques, conditionnements, etc.). Les classifications permettent, par leur construction, de contextualiser la demande sous ses divers de vue.

Mais surtout, comme le remarque Julian Warner, l’objectif des classifications réside dans l’offre de pistes pertinentes pour le demandeur. Un système d’indexation tente de fournir les documents précis répondant exactement à la requête. Un système de classification propose « des moyens d’élargir [notre] capacité de choix entre les représentations d’objets dans un univers donné du discours ». Sa valeur réside dans sa capacité d’offrir, de façon discriminante, des chemins variés.

Les facettes à l’honneur

Cette approche, aiguillée par la concurrence des agents intelligents et autres systèmes d’indexation, conduit à insister sur l’importance des différentes facettes que propose toute classification. A. C. Foskett souligne que l’efficacité d’une classification repose sur quatre piliers : les tables, la notation, l’index et l’organisation de maintenance/développement. Tables principales et tables auxiliaires constituent autant de facettes qui contextualisent le sujet concerné. Ce jeu de facettes s’inscrit dans une notation qui signale l’ordre des facettes, et qui peut évoluer avec le temps : par exemple, la 20e édition de la Dewey situait pour le droit la juridiction concernée avant l’objet du droit; la 21e édition propose une inversion de cet ordre.

L’index, qui synthétise les différentes facettes possibles pour un sujet donné, gagnera à être revu par des spécialistes des sujets concernés. Enfin, l’organisation qui maintient la classification est la garante des mises à jour (sur ce point, l’auteur signale que la Dewey, la LCC et peut-être la CDU sont les plus fiables aujourd’hui).

L’approche par facettes prend une nouvelle extension avec les possibilités offertes par la technologie. Si les troncatures des notations sont rendues aisées aujourd’hui, on recherche encore le moyen de décomposer une notation en ses multiples facettes. D’autres pistes s’ouvrent : Robert Newton insiste sur les possibilités informatiques de créer des liens entre les thésaurus et les classifications, sur les essais de classification automatique (par co-occurrence de termes, analyse sémantique liée à des cartes de concepts, etc.) sur les possibilités d’interfaces avec les utilisateurs, etc.

La richesse du principe classificatoire fait qu’il est spontanément utilisé par les nouveaux outils d’Internet que sont les annuaires ou portails de type Yahoo! Une enquête conduite en 1998 montre même que, sur 45 services de ce type, 23 utilisaient même ouvertement une classification traditionnelle (majoritairement la Dewey). Des projets ambitieux voient le jour, relatés par Allan Mc Lennan : le projet SCORPION d’OCLC, lancé en 1998, tente de construire des outils pour reconnaître automatiquement des sujets du type de Dewey, en ordonnant les requêtes; le projet NORDIC WAIS/WWW, également livré en 1998 par la bibliothèque de l’université de Lund, poursuit des objectifs similaires avec la CDU. On ne connaît pas encore les aboutissements de ces travaux.

Des classifications vivantes

Le dernier tiers du volume fait le point sur les principales classifications. Toutes ont en commun d’insister sur leur construction en facettes, et sur les recherches conduites quant aux outils informatiques. La classification de Dewey, présentée par sa responsable au sein d’OCLC, Joan S. Mitchell, cherche aujourd’hui à identifier les constituants d’une notation pour les décomposer et donc faciliter la recherche informatisée; en outre, des travaux sont conduits pour établir des corrélations entre la Dewey et des listes d’autorité matière (LCSH, MSH, ERIC); enfin, un « butineur » – Net First – a été conçu sur le principe de la Dewey 1. La classification décimale universelle (CDU), après avoir failli disparaître, renaît. I. C . McIlwaine retrace cette résurrection, qui date de la constitution en 1992 d’un UDC (Universal Decimal Classification) Consortium; là, c’est une réflexion sur les efforts de coopération en matière de révision de la classification qui attire l’attention : par exemple, en 1999, est intervenue une révision de la Médecine, en lien avec la Bliss classification 2. La classification de la bibliothèque du Congrès (LCC), présentée par Lois Mai Chan et Theodora L . Hudges, se porte bien également : de gros projets sont en cours pour organiser/classer les ressources d’Internet, à base d’arbres de sujets hiérarchiques, tels CyberStacks 3 et The Scout Report Signpost 4.

Enfin, M. P. Satija présente un impressionnant ensemble de sources bibliographiques intéressant les classifications; on y notera que 6 revues importantes sont signalées, mais qu’une fois encore aucune source en français n’est mentionnée, à l’exception des travaux d’Éric de Grolier.

Voici donc un point particulièrement bienvenu sur les classifications aujourd’hui. Les développements les plus récents montrent les grandes directions des travaux à venir : ils devront permettre à la fois de classer physiquement et de butiner; ils devront permettre de retrouver l’information; ils devront s’adapter aux besoins individuels des utilisateurs. Trois directions qui rappellent la nécessité du pragmatisme en matière de classification, voire l’exigence de la modestie : si les classifications ne sont pas un moyen universel d’organisation et de recherche de l’information (et on peut reprocher aux auteurs de n’en pas assez démontrer les limites), elles offrent un outil incomparable et évolutif pour donner une unité souple à des collections variées, et répondre à un très grand nombre de demandes des utilisateurs.