entête
entête

Taxilogie et classification

un essai de mise au point et quelques notes de prospective

Éric de Grolier

Les systèmes traditionnels de classification du savoir, qui reposaient sur une division disciplinaire des connaissances, semblent de moins en moins adaptés aux nouvelles exigences de la recherche d'informations, notamment sur banques de données. Les sciences de l'information ne sont d'ailleurs pas seules concernées par la taxilogie, ou étude scientifique des classifications, à laquelle contribuent d'autres disciplines, telles que la philosophie, la sémiotique, l'intelligence artificielle...

Présenter brièvement les grands systèmes de classification adoptés dans le monde et replacer les nouvelles tendances, qui se font jour dans les bibliothèques, dans le cadre plus vaste d'une recherche interdisciplinaire, tel est le propos de cette mise à jour concernant un domaine en pleine mutation.

Pourquoi distinguer classification de taxilogie ? La classification, comme activité et pratique humaine - pas seulement humaine d'ailleurs : tout être vivant exerce une activité classificatoire, et l'« attitude catégorielle » lui est indispensable pour orienter son action dans l'environnement - peut être l'objet d'une étude scientifique. Celle-ci, dénommée « taxinomie » par Durand (de Gros) en 1899, ou « classologie » par d'autres, constitue un champ de recherches interdisciplinaires, pour lequel je préfère le terme de « taxilogie ».

Composantes disciplinaires

On pourrait énumérer une dizaine ou une douzaine de disciplines intéressées par les recherches taxilogiques 1 depuis la philosophie jusqu'à la science de l'information. Je me limiterai ici à quelques notes concernant celles où l'à recherche semble avoir été la plus active au cours des deux dernières décennies.

Philosophie et « théorie des systèmes »

Wåhlin 2 regrette que les philosophes actuels, contrairement à ceux du XIXe siècle, s'intéressent peu aux problèmes de classification, et note qu'après Vannérus (214), aucun professeur de philosophie suédois n'a repris ce sujet. On trouve bien, en allemand, un livre de Rochhausen sur « la classification des sciences comme problème philosophique » (179), paru en 1968, mais il est vrai qu'il n'y a rien de comparable, depuis la Deuxième Guerre mondiale, à la floraison de « systèmes des sciences » entre la fin du XVIIIe siècle et les années 1920. favais noté ce fait en 1974 3. Dolby 4 a cherché à l'expliquer, sans peut-être insister suffisamment sur la raison probablement essentielle de cette désaffection : l'éclatement des disciplines traditionnelles et la prolifération des disciplines « mixtes », depuis l'astrophysique jusqu'à la sociobiologie.

En octobre 1971, un colloque mémorable, organisé par la Faculté de philosophie de l'Université d'Ottawa, cherchait à définir « les fondements de la classification des savoirs » (en anglais: The conceptual basis of the classification of knowledge, dont une traduction française plus précise aurait été Les fondements conceptuels de la classification des connaissances). La circulaire qui l'annonçait constatait que, si l'on disposait de « puissants modèles techniques de classification et de classifications très développées de diverses branches du savoir », il n'existait pas de « classification générale satisfaisante des connaissances » et que « les problèmes philosophiques fondamentaux posés par une telle classification n'étaient pas élucidés de manière adéquate 5. » Un des objectifs des organisateurs du colloque était de discuter le projet de création, à l'Université d'Ottawa, d'un Centre de recherches sur la classification des connaissances. Ce projet ne put cependant être réalisé.

Le changement de terminologie est en lui-même significatif : alors que l'on privilégiait l'idée d'un « système des sciences » - c'est encore le titre du livre de Goblot (87) -, on préfère maintenant celle d'un ordre global « naturel » des connaissances. Les « disciplines » n'ont en rien perdu leur rôle de « systèmes de contrôle de la production du discours » (75), mais elles sont désormais reconnues pour ce qu'elles sont : des institutions sociales, correspondant à la spécialisation (et même à la parcellisation) du travail scientifico-technique 6. Aujourd'hui, le mot d'ordre est interdisciplinarité ou, mieux, transdisciplinarité ; sans doute est-il lié d'ailleurs à un nouveau type d'organisation de la recherche « orientée » 7.

Mais sur quoi fonder cet « ordre naturel » du savoir ? Sur ce point, on en est encore, apparemment, à des recherches préliminaires et en ordre dispersé (18). Kedrov (125), dans une longue suite de travaux de 1947 à 1985, se veut continuateur d'Engels. Dahlberg (51, 52) s'appuie sur Nicolai Hartmann (102), lui-même héritier de toute une tendance de la philosophie allemande. Le statisticien Nalimov (157) et le biologiste Jacob (117) sont tous deux « probabilistes », comme l'était Monod (153), avec une autre orientation philosophique. Cependant, le courant le plus actif paraît être celui que l'on pourrait qualifier d'« organisationnisme 8 », qui englobe la cybernétique de Wiener (1949), la théorie de la communication de Shannon et Weaver (194), la « théorie générale des systèmes » du biologiste Bertalanffy (19), du mathématicien Rapoport (171) et de l'économiste Boulding (28), la théorie des systèmes dissipatifs de Prigogine (166) et celle de l'auto-organisation ou « autopoièse » de Maturana et Varela (145). Cet organisationnisme 9 se relie aisément à la philosophie de l'« émergence » ou des « niveaux d'intégration », pour inspirer des créateurs de classifications documentaires en Angleterre, en RFA et à l'Union des associations internationales, comme on le verra plus loin.

Science de la science

Si l'on définit les « systèmes généraux » comme les « systèmes théoriques s'appliquant à plusieurs disciplines 10 », la « théorie des systèmes » peut être considérée comme partie intégrante de la « science de la science ». Ce champ de recherches, apparu en Russie et en Pologne entre les deux guerres, intéresse la taxilogie du fait qu'il concerne, entre autres, la structure sociale de la science, de ses diverses disciplines, des relations entre celles-ci et de ses systèmes de communication intra- et interdisciplinaires. L'étude de ce dernier sujet a été grandement facilitée par l'analyse des co-citations, rendue possible grâce aux index de citations automatisés de l'Institute for scientific information (82, 150, 198). La science de la science et la scientométrie, qui en est l'aspect statistique, sont plus développées en URSS et dans quelques pays de l'Est européen : en Pologne, avec par exemple, Gockowski (88) ; en Hongrie, où l'on édite la revue Scientometrics, et en Amérique du Nord. Les « classiques » américains sont régulièrement traduits en russe (203, 110). A signaler une thèse particulièrement intéressante de Simon (197) en RFA, et la création, en 1988 à l'Université de Vienne, d'un Institut pour la théorie de la science et la recherche sur la science, dirigé par Oeser, auteur d'une importante étude sur la « science et l'information » (160).

Science(s) cognitive(s) et intelligence artificielle

La science cognitive - le singulier est préféré aux Etats-Unis et en Allemagne - ou les sciences cognitives - le pluriel est plus courant en France - représente(nt) un champ de recherches déjà ancien, dont on fait remonter les débuts à 1913. Toutefois, comme l'écrit Scheerer 11, ce champ de recherches ne s'est cristallisé » en une discipline nouvelle qu'au cours de la décennie 70. Il est étroitement relié aux « neurosciences » et aux travaux sur l'intelligence artificielle, baptisée comme telle en 1956, mais en gestation depuis 1936 (Turing).

Un récent numéro de la Revue internationale des sciences sociales (n° 115/ fév. 1988), consacré à la science cognitive, fait le point sur les tendances actuelles. Il suffira ici d'indiquer que l'intérêt majeur de ce domaine, du point de vue de la taxilogie, réside dans les travaux concernant la « représentation des connaissances » (knowledge representation). Sur ces travaux, on peut consulter un article écrit, du point de vue des « informatistes », par Vickery (215) et une liste de références tirées de la banque de données INSPEC (116) (192 items pour la période 1975-85). Un numéro de la revue Information processing and management, publié sous la direction de Croft (47), offre par ailleurs des aperçus sur diverses méthodes appliquées à ce qu'on appelle maintenant la « recherche intelligente d'informations » (intelligent information retrieval).

La méthode la plus utilisée demeure celle des « réseaux sémantiques », proposée dès le début des années 60 par Quillian (169) : sauf erreur, Zygouris (225) en tenta la première application en France, dans le cadre des recherches de l'équipe dirigée par Gardin sur le SYNTOL 12 (Syntagmatic organization language) (80). Il est cependant douteux que la théorie des réseaux sémantiques suffise à fournir une représentation adéquate des connaissances 13. Il est commode de rattacher au groupe des sciences cognitives les études sur le « développement conceptuel » (concept development) en ontogenèse et celles sur ce que l'on pourrait appeler la phylogenèse de la classification, généralement désignée sous le nom d'ethnoscience. Le premier thème a été au centre des travaux de Piaget et de son Centre d'épistémologie génétique à Genève, pendant plus d'un demi-siècle, mais le « paradigme piagétien » est aujourd'hui fortement contesté (146).

Il est assez symptomatique de voir que le nom de Piaget n'apparaît pas en 1988 dans la bibliographie de l'article de Glaser (86) sur la science cognitive et l'éducation, alors qu'en 1982 Marc de Mey lui consacrait le dernier chapitre de son livre sur le « paradigme cognitif » (56). Le recueil d'articles édité par Seiler en 1983 (193) lie étroitement l'analyse du développement conceptuel et celui de la compréhension du sens des mots : il pourrait tout aussi bien figurer dans la partie suivante de notre développement.

Pour ce qui est des études sur les classifications « populaires » ou « primitives », vigoureusement développées aux Etats-Unis depuis les premiers travaux de Conklin et de Goodenough, dans les années 50, il est bon de rappeler qu'elles ont été inaugurées par un article célèbre de Durkheim et Mauss 14 et illustrées depuis, en France, par Lévi-Strauss (136). Les textes rassemblés par Ellen et Reason (71) montrent la diversité des approches actuelles dans ce domaine, mais aussi leur rejet commun de la thèse soutenue au début de ses travaux par Lévy-Bruhl (thèse qu'il abandonna d'ailleurs à la fin de sa vie) sur l'existence d'une « mentalité prélogique ».

Linguistique et sémiotique

Dans un célèbre rapport commandé par la Fondation Sloan en 1978 sur « l'état de l'art » en science cognitive 15, les auteurs considéraient la linguistique comme un sous-domaine de la science cognitive. C'est un fait que, dans la pratique, il est très souvent impossible de séparer les travaux sur l'aspect cognitif de la représentation des connaissances de ceux concernant son aspect linguistique (sémantique).

J'ai personnellement tenté, à deux reprises, d'examiner les rapports entre classification et langages 16, mais ces textes devraient être maintenant largement revus et complétés. En effet, depuis les années 60 - et en grande partie grâce à l'impulsion donnée par les recherches sur l'intelligence artificielle -, les études sur ce sujet ont beaucoup progressé. Après ce qu'on a appelé aux Etats-Unis la « révolution chomskyenne » (1957-65) et les tentatives pour construire une théorie sémantique sur la base de la « grammaire transformationnelle », puis sous la forme de la « sémantique générative », diverses voies ont été explorées pour la recherche de structures sémantiques globales : celle de la théorie des catastrophes de René Thom (218), une réinterprétation de la méthode suivie par Roget dans son fameux Thesaurus de 1852 (40), une analyse empirique des « actes de langage» (9, 10, 11), une « taxinomie transitive » (30), et même un curieux essai pour répartir les mots du langage scientifique sur la base d'une classification fondée sur les trois notions de matière, mouvement et mesure (78).

Le projet TACITUS, à SRI International (Menlo Park) vise à construire des « théories de base » (core theories) permettant de caractériser des ensembles de termes du langage courant concernant les phénomènes physiques, les données spatiales et temporelles, etc. (105, 106, 107). Ces travaux peuvent compléter ceux poursuivis par ailleurs pour analyser les structures sémantiques des dictionnaires en ligne (5, 35).

Pour ma part, j'ai appliqué, avec quelques modifications, à des recherches de linguistique comparative, le schéma auquel avait abouti empiriquement Juret dans ses études sur le lexique indo-européen (122). Il est intéressant de constater que, séparément, Miller et Johnston-Laird (149) ont retrouvé certains des champs sémantiques de la classification juretienne, en recherchant un fondement psychologique à la signification des mots.

Comme l'on peut s'en convaincre à la lecture des rapports présentés au 1er Congrès international sur la terminologie et l'industrie des connaissances 17 (Trèves, 1987), les problèmes de classification occupent maintenant une place centrale dans les recherches terminologiques, y compris dans les sciences sociales. Pour ces dernières, Fred W. Riggs et le COCTA (Committee for conceptual and terminological analysis, comité permanent du Conseil international des sciences sociales) proposent de réaliser graduellement, avec l'appui de l'UNESCO, une « encyclopédie des termes de sciences sociales », sous le sigle INTERCOCTA (175). Un premier volume en trois versions est déjà paru - version américaine (176), version russe (29) et version française (98) ; il concerne les relations inter-ethniques. Riggs a proposé un néologisme, « onomantique », pour désigner le principe de ces glossaires, qui est de partir de l'analyse conceptuelle pour arriver à déterminer la nomenclature des termes correspondant aux différents concepts et à classer ceux-ci dans un ordre systématique. On rejoint évidemment ici les préoccupations de la sémantique structurale.

Ferdinand de Saussure, dans son cours édité en 1916 (édition posthume), et Charles Sanders Peirce, dans des études publiées seulement en 1931-34, avaient posé les principes de la sémiotique conçue comme une science générale des systèmes de signes : en font partie le langage parlé, mais aussi le langage gestuel, le graphisme, les mimiques, etc. Wolfgang Dahlberg a publié, en 1984, un court essai (53) sur l'alphabet, considéré comme le plus ancien des systèmes de classification, et en 1961, Yuen Ren Chao a publié une brève étude comparative des symbolismes linguistique et mathématique (34). Des recherches - en particulier aux Etats-Unis - nous ont beaucoup appris sur la sémiotique de nos cousins Primates supérieurs et sur celle des sourds-muets. Mais il s'en faut de beaucoup que le programme tracé il y a près d'un siècle par Peirce et Saussure ait été réalisé. On notera comme encourageant le fait que le Münster Arbeitkreis für Semiotik ait consacré sa sixième réunion (1984) à des études interdisciplinaires sur la classification, la systématique et la terminologie (70).

Une Society for conceptual and content analysis by computer (SCCAC) a été créée en 1983 ; huit réunions ont déjà eu lieu, la neuvième se tiendra à Toronto en juin 1989. Par ailleurs, cette société publie une Newsletter, dont le numéro 4 est paru en 1988.

Taxinomie numérique

Du 29 juin au 1er juillet 1987 s'est réunie à l'Université technique d'Aix-la-Chapelle la première conférence de la Fédération internationale des sociétés de classification (International federation of classification societies ou IFCS), qui rassembla 294 participants, dont 30 français ; les actes des 194 rapports qui furent présentés ont été publiés en 1988. La deuxième conférence se tiendra du 27 au 30 juin 1989, à Charlotesville (Etats-Unis).

C'est là le couronnement d'un mouvement commencé il y a vingt-cinq ans, avec la fondation de la Classification society au Royaume-Uni en 1964, celle de sa « branche américaine » (devenue en 1984 la Classification society of North America ) en 1968, de la Gesellschaft für Klassifikation en RFA en 1977, de la Société francophone de classification en 1978 et de la Japan classification society en 1983.

Le terme de « classification » est employé ici en un sens restrictif : il s'agit en fait de la taxinomie (ou taxonomie) numérique et des méthodes mathématiques d'analyse des données. Comme l'a fait observer Ingetraut Dahlberg (50), il ne s'agit pas de techniques nouvelles : la bibliographie à peu près exhaustive de Wilke (218) recense quelque 7 500 références de 1901 à 1975, mais l'informatique a permis leur développement accéléré depuis les années 50. L'IFCS est entièrement dominée par les mathématiciens et les informaticiens. Seule de ses cinq sociétés composantes, la société allemande est « mixte », puisqu'elle accueille également les spécialistes d'autres disciplines. La revue de l'IFCS, Journal of classification (New York/Berlin, été 1984 - ) est uniquement dédiée aux aspects mathématiques et informatiques.

Les méthodes de la taxinomie numérique ont d'abord été surtout appliquées à la systématique biologique - notons, en passant, que la Systematic association est aussi née en Angleterre, en 1937 -, mais jouent maintenant un rôle essentiel dans nombre de disciplines, depuis l'astronomie et les sciences de la terre jusqu'à l'administration des entreprises et l'archéologie.

La Classification society of North America publie une bibliographie de la taxinomie numérique (réservée à ses membres), Classification literature automated search service (CLASS), qui en est à son dix-huitième volume.

La classification en sciences de l'information

Fin juin 1989 est prévue, à Alberta, une conférence internationale (en fait, limitée aux Etats-Unis et au Canada anglophone) sur « la classification bibliothéconomique et ses fonctions ». Selon les organisateurs, celles-ci sont au nombre de trois : la fonction « bibliothécale » (bibliothecal) ou de « magasinage » (storage), la fonction bibliographique ou du catalogue systématique (classified catalog) et la fonction « cognitive », qui comporte « l'étude des thesaurus et la modernisation des listes de vedettes-matières. » La conférence étudiera aussi « l'impact des nouvelles techniques sur ces fonctions »: le rapporteur, G. Salton (Université Cornell), s'est employé depuis 1961 à développer un système de recherche d'information automatisé (System for the mechanical analysis and retrieval of text ou SMART) fondé sur l'extraction de termes pris, d'une part dans les demandes de recherche des usagers, et d'autre part, dans les documents susceptibles de répondre à ces demandes (182).

Les deux premières « fonctions » de la classification énumérées par le programme d'Alberta étaient déjà différenciées dans le manuel classique de Berwick Sayers, comme le rappelait Palmer 18. La troisième, si elle se voit dotée d'un adjectif nouveau et imprécis, mais au goût du jour - « cognitive » -, avait déjà été mentionnée par Bliss, et était considérée par Jesse H. Shera 19 comme la plus susceptible de tirer avantage de l'automatisation : il s'agit de l'exhaustive literature search, la recherche des informations les plus complètes possibles se rapportant à un problème donné.

Il y a déjà plus de cinquante ans, Grace Osgood Kelley 20 avait bien analysé le peu d'efficacité des méthodes traditionnelles des bibliothèques américaines quant à cette troisième fonction, mais elle s'était révélée fort peu inspirée quand il s'était agi de proposer des remèdes afin d'améliorer leur piètre rendement. A partir du moment où - vers la fin de la décennie 50 - les ordinateurs « de troisième génération » ont été disponibles sur le marché, ils ont permis à des gens qui « confondaient symboles et signification » de « jouer avec les mots de manière arbitraire 21 ».

Trente ans après, ces exercices ne sont pas encore passés de mode ; leur utilité avait paru confirmée par de premières « évaluations », conduites sur des corpus expérimentaux limités (181, 208). Mais quand David C. Blair (23) a pu réaliser une évaluation statistiquement rigoureuse sur 40 000 documents juridiques, représentant quelque 350 000 pages de texte, les résultats ont été beaucoup moins brillants : un taux global de rappel (documents « pertinents » retrouvés) de 20 % (pour un taux de précision - éliminant les documents retrouvés, mais non pertinents - de 79 %), alors que les juristes participant à l'expérience considéraient qu'un taux de rappel de 75 % était le minimum acceptable. Pour les documents considérés par les juristes comme d'intérêt « vital » par rapport au problème à résoudre, ils estimaient nécessaire un taux de rappel de 100 % ; il fut en fait de 48,2 %, avec un taux de précision tombé à 18,2 %... La conclusion de Blair mérite d'être citée : « Les recherches faites en utilisant le logiciel employé (STAIRS) n'ont permis de retrouver que 20% des documents pertinents. Il est donc évident que la plus grande partie des documents pertinents ne contenait pas les mots et les phrases utilisés dans les questions posées, en dépit du fait que ces documents pertinents non retrouvés concernaient des sujets qui intéressaient les chercheurs. Comme les techniques d'indexation automatique sont presque exclusivement fondées sur l'extraction de vocabulaires, il n'est nullement évident que ces techniques, si complexes soient-elles, puissent être efficaces en vue de fournir des représentations adéquates du contenu des documents 22. » On notera aussi avec intérêt le coût de l'évaluation de Blair: près de 500 000 dollars. Comme confirmation indirecte de l'inefficacité de ce genre de méthodes, on peut citer un résultat obtenu dans un tout autre domaine : dans une recherche en langage naturel portant sur la stratigraphie volcanique, Laursen (133) n'a retrouvé que 49 % des titres recensés par une bibliographie sur le sujet.

Naturellement, il y a beau temps que les chercheurs et les praticiens s'étaient persuadés de l'insuffisance des procédés traditionnels de recherche d'informations et ils sont en général aussi conscients des limites de l'interrogation des banques de données. Leur stratégie de recherche, telle qu'elle ressort de nombreuses enquêtes, est connue : elle consiste d'abord à être en contact avec ceux « qui savent », par les « collèges invisibles » et à l'occasion des congrès, colloques, séminaires, visites de laboratoires étrangers, à suivre la filière des références (ce qui est grandement facilité par les index de citations en ligne), à feuilleter régulièrement un choix de périodiques dont ils savent par expérience qu'ils peuvent contenir des informations pertinentes, et finalement à pratiquer le bouquinage (dit aussi « butinage » ou browsing) là où il est praticable, c'est-à-dire dans les librairies spécialisées, ainsi que dans les bibliothèques en libre accès et adoptant une classification systématique en rayons. Sur ce point, les bibliothèques françaises sont, en règle générale, lamentablement déficientes par rapport à leurs homologues anglo-saxonnes (sauf rares exceptions, telle la Bibliothèque publique d'information du Centre Georges Pompidou).

On peut tenter de dégager les principales tendances de la taxilogie appliquée au domaine de l'information - bibliothèques, bibliographies, services de documentation et banques de données.

Les Etats-Unis et leur zone d'influence

La position dominante des Etats-Unis dans l'économie et la politique mondiale se reflète dans l'influence encore prépondérante de leurs méthodes de classification et d'accès par sujets (subject access) dans toute l'étendue du « monde libre ». C'est à Washington - à la Library of congress - que sont mis à jour les trois principaux instruments dont disposent les bibliothécaires, documentalistes et informatistes des autres pays pour organiser leurs collections documentaires en vue de faciliter ce subject access: DDC (Dewey decimal classification), LCC (Library of congress classification) et LCSH (Library of congress subject headings). L'épidémie des thésaurus qui s'est répandue dans le monde entier (y compris dans les pays de l'Est et ceux du Tiers-Monde) est partie, en 1960, de l'ex-ASTIA (Armed services technical information agency, devenue le Defense technical information center ou DTIC). Qu'on s'en réjouisse ou qu'on le déplore, il faut bien en convenir.

On trouvera une vue d'ensemble sur la situation de la classification aux Etats-Unis dans un article de Robert P. Holley (108). Hormis quelques rares exceptions, cette situation peut se caractériser, comme le note Holley, par une très grande normalisation de fait en ce qui concerne les bibliothèques. La DDC règne pour ainsi dire sans concurrence dans les bibliothèques publiques et, pour la version qui leur est spécialement destinée, dans les bibliothèques scolaires. La LCC est largement majoritaire dans les bibliothèques universitaires, la plupart de celles qui utilisaient encore Dewey - voire pour quelques-unes Cutter ou une classification home made - l'ayant adoptée pour leurs nouvelles acquisitions dans les années 60 et au début de la décennie suivante. Quant à l'indexation par sujets dans les catalogues, elle est partout faite à l'aide des LCSH ou de la liste de Sears, qui en est une version simplifiée. Le fait que les cotes LCC et les vedettes LCSH soient indiquées pour toutes les bandes MARC (dont la plupart donnent aussi les indices DDC) a grandement contribué à cette normalisation, en même temps qu'il permet la mise à jour continue des tables de ces deux classifications et de la liste d'autorité LCSH.

Les avantages d'un tel système sont évidents, aussi bien du point de vue économique que d'un point de vue « psychologique » : les usagers qui y sont habitués ne sont nulle part dépaysés. En revanche, il conduit à un certain conservatisme ou, si l'on veut, à une certaine inertie: les changements d'indices ou de vedettes doivent être limités, afin d'éviter des coûts excessifs de reclassification ou de recatalogage. La structure de base de la DDC et de la LCC demeure donc identique à ce qu'elle était à leur naissance - 1876 pour la première, 1898 pour la seconde - et ne correspond plus à l'état actuel des connaissances. Quant aux vedettes LCSH, elles portent toujours la marque WASP (White Anglo-Saxon protestant) qu'elles avaient à l'origine et qui est aussi, du reste, celle des deux classifications précitées.

Ces défauts pour ainsi dire congénitaux du système américain n'ont pas entravé sa diffusion au-delà des frontières des Etats-Unis, principalement au Canada (Québec inclus), entièrement « colonisé », mais aussi au Royaume-Uni, conquis presque complètement et où la DDC domine très largement dans les bibliothèques .publiques. Elle a été adoptée par la British national bibliography et se partage, pour moitié, les bibliothèques universitaires avec la LCC, mais aussi, partiellement, d'autres terrains. Quelque 40 % des 47 000 exemplaires vendus de la 19e édition de la DDC l'ont été en dehors des Etats-Unis. Sous une forme ou sous une autre, la DDC est disponible dans au moins douze langues : elle a des éditions catalanes (la 1ere en 1920, la 3e en 1932), espagnole (1980), italienne (en préparation depuis 1982), françaises (1976, nouvelle édition d'une version abrégée en 1989), arabe (édition abrégée et adaptée de 1984 sous l'égide de l'ALECSO 23), chinoise (Taïwan, 3e édition en 1965). Depuis la 16e édition (1958), elle a introduit la pratique des phoenix schedules, qui consiste à refondre entièrement les classes les plus vieillies : elles ont porté jusqu'à présent sur 17 des mille premières divisions (41).

Le premier volume de la LCC (classe Z : bibliographie) est paru en 1898 ; il a fallu 85 ans pour que la classe K correspondant au droit soit enfin complétée (147). Cette classification a été conçue en fonction des besoins propres de la plus grande bibliothèque du monde actuel, à caractère encyclopédique certes, mais qui laisse très largement de côté les secteurs biologique/médical et agricole - on trouve ces deux secteurs dans deux autres bibliothèques fédérales, autonomes. Destinée en premier lieu à répondre aux besoins des parlementaires américains, elle privilégie évidemment les domaines qui les intéressent, depuis la politique, le droit et l'histoire, jusqu'aux techniques guerrières. L'adaptabilité d'un tel système pour d'autres institutions est réduite (21). On ne peut guère que l'adopter tel qu'il est - quitte à rajouter des indices supplémentaires pour détailler certaines divisions, comme l'a fait par exemple la bibliothèque du Musée de l'Homme à Paris.

La recherche en ligne

La liste d'autorité LCSH est maintenant publiée annuellement, au lieu d'une fois tous les quatre ans comme avant 1987. Elle est, de plus, disponible depuis 1988 sur CD-ROM, pour pouvoir être utilisée sur micro-ordinateurs PC et compatibles. Sa traduction française, réalisée à l'Université Laval à Québec, a été adaptée aux besoins des bibliothèques encyclopédiques françaises (système RAMEAU : Répertoire d'autorité matières encyclopédique et alphabétique unifié). Une édition en portugais (projet CAU) a été préparée à la Bibliothèque nationale du Brésil à partir de 1984, et la Bibliothèque royale de Belgique a travaillé de 1982 à 1985 sur une version trilingue (anglais, français et flamand) en ligne. Mais on doit noter que l'adaptation de la LCSH en Australie n'a pas été sans soulever maints problèmes (99, 141) et l'on peut se demander si la structure même des listes d'autorité de ce type est réellement adaptée à la recherche en ligne 24.

Le thème de la recherche par sujets en ligne est sans doute celui qui préoccupe le plus les informatistes américains, tant aux Etats-Unis qu'au Canada. Une des premières tentatives pour l'explorer - celle de Freeman et de Pauline Atherton Cochrane en 1968 - appliquait la CDU dans le domaine de l'énergie nucléaire. Elle tourna court, l'American institute of physics, qui la commanditait, ayant estimé - à juste titre - que la CDU était inapplicable en physique, du fait « qu'elle avait été développée au moment même où se déroulait la révolution fondamentale dans ce domaine, représentée par la mécanique quantique, et indépendamment de celle-ci » (4).

Toutefois, à la 4e Conférence internationale d'étude sur la recherche en classification (1982), cinq rapports furent présentés sur ce sujet : trois des Etats-Unis (Atherton, Borko et Travis) et deux du Canada (Schubas et Williamson). Deux ans plus tard, Pauline Cochrane le traita en six « leçons », qui furent publiées par l'organe de la puissante American library association ; ses divers articles dans ce domaine ont été repris dans une sorte d'anthologie (38). Deux autres mises au point ont été publiées (109, 221) et un numéro entier de Library trends lui a été consacré (144).

Entre-temps, Karen Markey avait conduit, pour le compte de l'OCLC (Online computer library center), un projet expérimental pour tester la recherche par cotes DDC en ligne (142, 143). Les performances obtenues sur des corpus très limités - entre un minimum de 7 613 notices à l'Université d'Illinois et 11 865 à la Bibliothèque du Congrès - ne sont pas très remarquables. Avec la présentation la plus favorable, incorporant les tables et l'index de la DDC, il y eut 25 % de cas où les usagers purent trouver des documents pertinents en réponse à leurs questions (sur un total de 160 questions) et 35 % de succès pour les recherches conduites par les bibliothécaires (sur un total de 180 questions) 25.

Depuis deux ans, Nancy Williamson mène une recherche parallèle à celle de Karen Markey, mais cette fois sur les indices LCC et pour le compte de l'IFLA (International federation of library associations). Les résultats n'en sont pas encore connus.

La NLM (National library of medicine, Bethesda) s'est engagée dans une voie quelque peu différente. Faisant appel à une série de contractors (cinq universités et deux hôpitaux) pour collaborer avec son propre personnel, elle expérimente un système complexe dénommé UMLS (Unified medical language system), dont les deux éléments essentiels sont un « macrothesaurus » et une « information source map » ; mais le projet fait aussi intervenir des procédés mis en oeuvre dans les recherches d'intelligence artificielle : réseaux sémantiques et système basé sur des « cadres » (frame based system), préconisé par Minsky. Ce projet, commencé en 1987, a pour but « de remédier au manque de coordination entre les différents systèmes automatisés du domaine biomédical. Le but n'est pas d'imposer un seul vocabulaire médical à tous les usagers et à tous les systèmes, mais de rendre invisible à l'utilisateur la myriade de classifications des connaissances médicales, tout en ménageant une voie d'accès logique unique à toute une série de sources d'information biomédicale 26 ».

Pour le moment, rien ne laisse entrevoir une réalisation prochaine des prédictions d'Harold Borko - inspirées par les travaux de G. Salton -, suivant lesquelles la « dynamic library 27 » du futur disposerait pour chaque document d'une « représentation » mise en mémoire sous forme d'un « vecteur de termes d'indexation dérivés ». Ces « vecteurs représentatifs de termes » permettraient d'obtenir des « groupes de documents... générés automatiquement de manière empirique », chacun d'entre eux étant représenté par un « vecteur appelé centroïde, qui représente un ensemble pondéré de termes issus des termes vecteurs présents dans les documents affectés à ce groupe 28 ». Le « bouquinage » (browsing) se faisant dès lors sur terminal, on pourrait, toujours selon Borko, éliminer complètement le classement systématique des documents sur les rayons.

Sur un plan moins futuriste mais plus concret, il faut souligner l'intérêt des travaux menés à l'ISI (Institute of scientific information, Philadelphie), grâce aux banques de données issues des index de citations, pour réaliser ce que Garfield appelle un « atlas de la science », c'est-à-dire une sorte de panorama des « fronts de la recherche » les plus actifs, en utilisant la méthode du couplage des citations (32, 82). La littérature nord-américaine sur l'accès par sujets est recensée annuellement dans la revue Library resources and technical services. Les recherches dans ce domaine font le plus souvent l'objet de présentations aux réunions du Classification research group de l'ASIS (American society for information science), qui publie une Newsletter - ce Special interest group (SIG/CR), fondé en 1966, comptait 234 membres en octobre 1980. Il existe d'autre part un Canadian classification research group ; il est présidé par Timothy C. Craven, auteur d'un rapport utile sur la recherche canadienne en matière de classification (1981) et de travaux sur les méthodes de string indexing inspirées par l'« indexation en chaîne » (chain indexing) de Ranganathan - et plus particulièrement sur le système NEPHIS (Nested phrase indexing system) (44, 45, 46).

Europe de l'Ouest

Royaume-Uni

C'est à Londres que se réunit régulièrement, cinq ou six fois par an, le groupe de chercheurs en classification appliquée le plus anciennement constitué et encore existant, le Classification research group (CRG), fondé en 1952. Contrairement au SIG/CR des Etats-Unis, il est autonome et beaucoup plus restreint : quelque 25 membres, dont rarement plus d'une dizaine sont présents à chaque séance. C'est là qu'ont été discutées presque toutes les principales « nouveautés » en matière de classification, apparues dans les Iles britanniques depuis bientôt quarante ans.

Le CRG a été à l'origine des conférences internationales sur la recherche en classification, dont la première s'est tenue à Dorking (Angleterre) en 1957. Il a propagé, en l'adaptant, la méthode de classification dite « à facettes », ainsi dénommée par Ranganathan, qui a ensuite servi à Jean Aitchison pour élaborer ses nombreux thesaurofacets à partir de 1969 (2). Très attiré par le courant philosophique des classifications par « niveaux d'intégration  29 », le CRG parraina, de 1963 à 1969, sur contrat de l'OTAN, une étude en vue de créer une nouvelle classification encyclopédique fondée à la fois sur cette théorie, sur la théorie des « systèmes généraux », sur le principe des « facettes » et sur un jeu de « relations » logico-sémantiques (36, 74). Le projet initial d'un nouveau système de classification encyclopédique ne fut pas continué, mais ces travaux aboutirent, en quelque sorte par ricochet, à un logiciel pour la production d'index alphabétiques assistée par ordinateur, adopté par la British national bibliography et connu sous l'acronyme PRECIS (Preserved context index system) (6).

Depuis quelque dix ans, le CRG a consacré une bonne part de ses travaux à collaborer à la préparation de la « BC2 », ou deuxième édition, très remaniée et « facettisée », de la Bibliographic classification de Bliss. Cette classification, américaine à l'origine (1910-1952), a été anglicisée depuis la fondation à Londres, en 1967, de la Bliss classification association, dont l'animateur fut et demeure Jack Mills. Mills considère la BC2 comme un ensemble de classifications spécialisées 30. Quatre volumes sont parus en 1977, puis le rythme de publication s'est sensiblement ralenti, jusqu'à ce qu'une souscription, lancée en 1984, vînt le relancer. Il faudra toutefois encore attendre dix ou quinze ans avant que sorte le dernier des 19 volumes prévus. Adoptée par les Colleges of education anglais, la partie « éducation » va faire l'objet cette année d'une troisième édition. Le CRG a discuté d'une autre classification intéressante : il s'agit de la classification établie par Bonner pour la National association of citizens advice bureaux, basée sur une analyse empirique des besoins des usagers et récusant la systématisation par disciplines (25).

En dehors du CRG, mais influencée comme celui-ci par les mêmes théories (niveaux d'intégration et organisationnisme), il faut mentionner la tentative de Jolley pour construire sous le nom de « holothème » un système global des idées à base binaire, qu'il a appliqué à des « index coordonnés » et à des buts pédagogiques (120). Beaucoup plus classique est la classification de la British library pour les collections en libre accès de la Science library (65, 183). Les techniques y sont placées à côté des sciences qui leur sont associées. Des essais de classifications par centres d'intérêt ont été réalisés dans quelques bibliothèques publiques 31. Comme je le signalais naguère 32, cette méthode, utilisée en Angleterre pour le classement en rayons, avait été longtemps auparavant utilisée en Russie (Rubakin) et en Allemagne (Hofmann), puis aux Etats-Unis, pour des catalogues et listes de livres recommandés.

RFA, Suisse alémanique, Autriche

Ces trois pays présentent une incontestable unité, due évidemment à l'usage d'une langue littéraire commune. Leurs spécialistes dans le domaine de la classification appliquée participent également, depuis 1977, aux réunions annuelles de la Deutsche Gesellschaft für Klassifikation.

La RFA ne s'est que partiellement convertie au « modèle américain » : si, après 1945, le libre accès aux rayons a été généralisé dans les bibliothèques publiques et les nouvelles bibliothèques universitaires, celles-ci n'ont cependant adopté ni la DDC ni la LCC (à l'exception, pour cette dernière, de la Bibliothèque universitaire d'Ulm ; un projet est également en cours à la Bibliothèque universitaire et de l'Etat de Basse-Saxe de Göttingen). La plupart des bibliothèques publiques ont adopté une classification systématique patronnée par le Verein der Bibliothekare an öffenlichen Bibliotheken 33 - comme l'est aussi la version destinée aux bibliothèques pour enfants et adolescents. La bibliothèque centrale de Berlin (Amerika-Gedenkbibliothek ou AGB) a, quant à elle, son propre schéma (2e ed., 1979). Un projet de « classification unifiée » (Einheitsklassifikation) avait été étudié à l'initiative de Rolf Kluth ; deux fascicules avaient été publiés, pour la philosophie et la physique. Ce projet a été abandonné en 1977, en partie à cause des recommandations faites par l'UNESCO et l'IFLA à la Deutsche Bibliothek, afin qu'elle utilise la DDC ou la CDU pour la bibliographie nationale (3). Les bibliothèques universitaires ont donc continué à développer individuellement des classifications autonomes : l'une des plus élaborées est celle de Bielefeld, complétée de 1979 à 1985 en quelque 25 fascicules (2710 pages), dont quelques-uns ont déjà eu plusieurs versions (4 pour les mathématiques, 5 pour le droit).

On trouvera un bref résumé d'ensemble de la situation en RFA au début des années 80 dans l'article de Günther Pflug (164) ; la Gesellschàft für Information und Dokumentation (GID), financée par le gouvernement fédéral et les Länder, a commandé à une firme de consultants privée (PROGRIS) une enquête, dont les résultats ont été publiés en 1982-83. La CDU conserve de fortes positions dans les centres de documentation technique: Volkswagen l'utilise par exemple pour un catalogue en ligne (LIDAS) (104). Toutefois, l'application en ligne la plus spectaculaire est celle de l'Ecole polytechnique de Zürich, avec le projet ETHICS (ETH information control system) portant sur quelque 500 000 documents et utilisant 50 000 indices CDU ; il a nécessité jusqu'ici 600 programmes, 400 autres étant prévus (112) ; ce projet fait suite à EDIS-1, commencé en 1976 (184). En ce qui concerne les systèmes en ligne, on peut remarquer qu'un des tout premiers à avoir réellement fonctionné a été celui de Henrichs pour la documentation philosophique (1968) ; il utilisait cependant une méthode d'analyse lexicale (202). Se basant sur son expérience à l'Université technique de Vienne, Otto Oberhauser a bien décrit les difficultés auxquelles se heurte l'usager des banques de données bibliographiques pour exploiter les possibilités offertes par leurs systèmes de classification (159).

De 1980 à 1983, toutes les bibliothèques du Goethe-Institut (130, dans 66 pays, 1,5 million de volumes au total) ont été réorganisées suivant une CDU adaptée et simplifiée (201). Un peu dans la même ontique que Jolley, déjà cité, mais adoptant une base ternaire et non binaire, Ingetraut Dahlberg travaille depuis 1970 à élaborer ce qu'elle appelle une « information coding classification » (ICC) basée sur les « structures ontiques » (trois « catégories générales de l'être » et trois séries de « facettes ») ; ces triades successives aboutissent à un schéma à notation décimale en 9 groupes, 81 divisions de second rang et 729 subdivisions. Elle l'a appliqué, entre autres, à la classification de la bibliographie publiée dans sa revue International classification (50).

Depuis la fin des années 60 jusqu'à sa disparition prématurée en 1983, le limnologiste Martin Scheele - auteur d'une monumentale bibliographie de la littérature biologique de langue allemande en 24 volumes - a travaillé à l'élaboration de ce qui devait être un non moins monumental thésaurus du vocabulaire encyclopédique allemand, classé suivant un système dénommé par lui « uiliversal faceted classification » (UFC). Il semble que seul le premier volume soit paru (190). Ce système, très discutable dans les détails, est cependant intéressant, du fait qu'il représente la tentative probablement la plus poussée pour établir une classification par « phénomènes 34 » et non plus par disciplines, sur la base de la théorie des niveaux d'intégration.

Pays scandinaves

C'est apparemment en Suède qu'est apparue la première classification « à facettes » inspirée de Ranganathan. Il s'agit de la classification mise au point par Giertz, de 1945 à 1948, pour le Samarbetskomitten for Byggnadsfragor (SfB) ou Comité de coordination pour le bâtiment (85, 152). A Stockholm, depuis 1949, l'ingénieur Wåhlin a publié toute une série de classifications - les unes appliquées à un certain domaine (bâtiment, produits, techniques), les autres universelles - en expérimentant divers procédés de symbolisation (215).

Au Danemark, il faut signaler la classification autonome élaborée par Bendtsen entre le début du siècle et 1950 pour la bibliothèque d'Etat d'Aarhus (151), ainsi que les recherches qui ont conduit, à l'Ecole de bibliothécaires du Danemark, à élaborer un système de classification des romans très intéressant (7, 163, 204).

France

Il ne semble pas qu'il y ait eu dans notre pays, depuis vingt-cinq ans, de recherches très originales en matière de classification appliquée, alors que les trois décennies 1940-60 avaient été productives 35. La raison en est sans doute l'attraction irrésistible que la mode américaine des thésaurus a exercée dans les pays francophones. On peut toutefois noter les études de Patrick Parmentier (162), Nicole Robine (178) et Anne Dujol (67) sur la perception du classement des bibliothèques publiques par leurs usagers. Il serait par ailleurs intéressant de comparer le système de classement particulier créé à la Médiathèque de la Cité des sciences et de l'industrie à la Villette, avec celui de la Science library de Londres, dont les fonctions sont similaires.

Le Groupe d'études sur l'information scientifique (GEIS) avait effectué entre 1965 et 1970 plusieurs enquêtes sur les classifications, les thésaurus, etc., utilisés en France - essentiellement dans les centres spécialisés. Le dernier de ces inventaires - encore partiel et insuffisamment poussé - est paru en 1970 (111), date à laquelle le GEIS avait cessé d'exister. Une partie de ses activités fut reprise par l'Institut national de recherche en informatique et automatique (INRIA) qui, depuis, travaille activement dans les domaines de la taxinomie numérique et de l'intelligence artificielle ; il a cependant laissé pratiquement de côté les questions de classification documentaire.

URSS et Europe de l'Est

Trois articles assez récents ont fait le point sur la situation des méthodes de classification, respectivement en URSS (206), en Pologne (20) et en Tchécoslovaquie (200), ce qui dispensera de longs commentaires à leur sujet. Il n'y a pas eu de nouveauté majeure dans ce domaine depuis le développement de la Bibliotecno-bibliograficeskaja klassifikacija (BBK), élaborée à partir de 1959, et dont la version complète, en 30 volumes, a été éditée de 1961 à 1968 - la préparation d'une deuxième édition a été décidée en 1982. Des versions abrégées existent à l'usage des bibliothèques régionales, des autres bibliothèques publiques, des bibliothèques enfantines et scolaires. La BBK a été plus ou moins adaptée et adoptée en Bulgarie - la revue Bibliotekar publie régulièrement des articles sur ce travail -, ainsi qu'au Vietnam. En Allemagne de l'Est, une version en six volumes dite « médiane » a été préparée à partir de 1979 pour les bibliothèques scientifiques (76, 192), mais les bibliothèques publiques ont un système indépendant (15).

La CDU est largement utilisée en URSS, mais seulement dans les domaines scientifique, technique, agricole et médical. Le système d'information scientifique et technique commun à l'ensemble des pays du COMECON (Council for mutual economic assistance) emploie une classification hiérarchisée dite « Rubrikator », qui n'est pas sans soulever certaines difficultés (213). En ce qui concerne la classification de la Chambre centrale d'Etat du livre, plus ou moins modelée, depuis 1978, sur la BBK, voir Azerskaja (8). L'adaptation de toutes ces classifications à la recherche automatisée est à l'ordre du jour, mais ne fait, apparemment, que commencer. Il existe, comme partout, de nombreux thésaurus sur le modèle américain - introduit en URSS dès 1965 - ainsi que de nombreux systèmes expérimentaux de recherche d'informations par des méthodes statistiques, souvent assez analogues à celles explorées dans les pays de l'Ouest.

Inde

Analysant la littérature sur la classification en Inde de 1932 à 1980, Kaula et Prasad (124) ont montré qu'à lui seul, Ranganathan (1892-1972) était responsable du quart de cette production. Il s'en faut cependant de beaucoup que son propre système de classification (Colon classification ou CC) soit d'usage général en Inde : la consciencieuse enquête de Satija (185) montre qu'il est employé par 17 bibliothèques universitaires sur 150 ; en 1973, 35 bibliothèques de Delhi l'utilisaient sur 332 (10,5 %). Etudiant d'autre part les écrits sur la CC parus de 1970 à 1984, Satija (186) a montré que 43 % d'entre eux provenaient du petit groupe « élitiste » formé par le personnel du Documentation research and training centre (DRTC) fondé par Raganathan en 1962 (1). Depuis sa première édition en 1983, la CC a été par deux fois profondément remaniée : pour la 5e édition en 1957, avec l'introduction des cinq « catégories générales » (PMEST : personnalité, matière, énergie, espace, temps), puis en 1987, pour la 7e édition préparée par Gopinath, qui a ajouté de nouveaux raffinements à une notation déjà fort complexe (61, 129, 187). A partir de 1950, des depth schedules (tables détaillées) de la CC ont été entreprises pour des domaines spécialisés : 152 sont parues jusqu'en 1980 36, 21 autres ont été publiées en 1981.

Par ailleurs, entre 1969 et 1986, une méthode de construction semi-automatisée d'index, identifiée sous divers sigles (POPSI, Classaurus, et finalement DSIS : Deep structure indexing system) a été étudiée au DRTC - principalement par Bhattacharyya, Neelameghan et, plus récemment, Devadason (59). Biswas et Smith ont publié une évaluation critique de ce système, à laquelle on pourra se reporter (22).

En 1983, a été créée une Classification society of India, dont le vice-president Bhattacharyya et le secrétaire Gopinath sont des membres du DRTC.

Chine

Zeng Lei a donné une vue d'ensemble des classifications et des thesaurus en République populaire de Chine (224) ; on pourra la compléter par l'article de Liu-Lengyel (139), plus spécialement dédié à la Chinese library classification (CLC).

La CLC s'est visiblement inspirée de la BBK soviétique, sans pourtant s'y conformer. Comme elle, elle commence par les « classiques » du marxisme-léninisme (en intégrant la « pensée de Mao-Zedong »), ce qui correspond à une vieille tradition chinoise : les anciennes classifications chinoises, qui remontent au 1er siècle avant J.-C., débutaient en effet par les « livres classiques » - évidemment pas les mêmes... Cette classification inverse l'ordre de la BBK, en plaçant les sciences sociales (au sens large) avant celles de la nature. Cette reprise d'une idée qui avait été longuement débattue, puis écartée, en URSS, donne beaucoup moins de place aux techniques et introduit une classe spéciale pour les « sciences de l'environnement ». La religion est absente du schéma des classes principales.

Indépendamment de Scheele, et sans connaître, semble-t-il, son travail, les bibliothécaires et informatistes de la République populaire ont réalisé ce qui est assurément le plus colossal thésaurus encyclopédique jamais entrepris : quelque 91 200 descripteurs, avec deux index alphabétiques bilingues (chinois et anglais) - l'un pour les sciences sociales et humaines, l'autre pour les sciences de la nature et les techniques - et deux index par « catégories de sujets » - 58 au total, dont 47 pour les techniques, un pour la médecine et un pour l'agriculture et la sylviculture. Les indices de la CLC et les descripteurs du « Chinese thesaurus » sont imprimés sur les fiches produites par la Bibliothèque d'Etat, mais ce service d'indexation centralisé n'est pas encore automatisé. En plus du thésaurus encyclopédique, une vingtaine de thésaurus spécialisés ont été publiés entre 1974 et 1984; ceux édités après 1980 ont cherché à être compatibles avec le « Chinese thesaurus ».

Organisations internationales

Ce tour d'horizon présente d'évidentes lacunes, dues probablement davantage à l'obstacle linguistique (pour le Japon) ou à l'insuffisance de ma documentation (pour l'Australie et l'Amérique latine 37), qu'à l'absence de recherches originales. On peut le compléter par quelques indications concernant les travaux à l'échelle internationale, en commençant par les organisations non gouvernementales (ONG).

Organisations non gouvernementales

Etant la plus ancienne - elle sera centenaire en 1995 -, la Fédération internationale de documentation (FTD) a tous les droits à la première place. Son « enfant », la classification décimale universelle (CDU), est encore bien vivant, malgré toutes les critiques qu'on peut, à juste titre, lui adresser. Les éditions « internationales » complètes se poursuivent régulièrement, tant en allemand - mise à jour par les DK-Mitteilungen - qu'en anglais - par les soins de la British standards institution. Il en existe également en russe, en hongrois, en italien, en polonais... Une édition « medium », rénovée, est parue en allemand (1978) et en anglais (1985), mais pas encore en français : elle comporte quelque 40 000 divisions, contre environ 140 000 pour l'édition complète.

La FID a eu moins de succès avec le Broad system of ordering (BSO), conçu comme un instrument d'interconnexion entre les banques de données. La classification, éditée en 1978, a été suivie d'un « manuel » en 1979 et d'une traduction française en 1981 ; en 1985, on a publié les résultats de tests conduits à l'Université de Londres sur 36 banques de données. Le système du BSO a été l'objet de critiques dans l'ensemble assez peu favorables (48, 211) et ne semble guère, en fait, utilisé.

En 1932, l'Institut international de bibliographie - actuellement la FTD - avait adopté ma proposition de créer une commission pour étudier les problèmes de classification en général, indépendamment de la CDU. Il fallut toutefois attendre 1951 pour que soit réellement constituée la commision FID/CA (« théorie générale de la classification »), dont Ranganathan fut le rapporteur et qu'il utilisa avec profit pour diffuser ses idées. Devenue en 1962 la FID/CR (commission de recherches sur la classification), elle organisa les deuxième, troisième et quatrième conférences d'études sur la recherche en classification (1964, 1975, 1982) - la cinquième aura sans doute lieu à Toronto (Canada) en 1990. Trois conférences régionales se sont par ailleurs tenues à Königstein (RFA) en 1979, à New Delhi en 1985, et à Montréal en 1986. La Commission publie depuis 1973 une Newsletter et a édité entre 1961 et 1988 une collection de 16 rapports, qui font suite à ceux publiés antérieurement dans la série « Etudes de classification » de la FID, ou simplement multigraphiés 38.

Au Congrès international des bibliothèques et de bibliographie qui s'est tenu à Madrid, en 1935, j'avais présenté un rapport sur « la coopération entre bibliothèques : classification et catalographie coopératives ». A la suite de cela, la Fédération internationale des associations de bibliothécaires (IFLA/FIAB) constitua une sous-commission chargée d'étudier la normalisation des catalogues, qui borna ses études aux problèmes des codes pour le catalogage alphabétique. On attendit 1978 pour réunir une « table ronde », s'occupant de la classification et du catalogage par sujets. Transformée en 1980 en section de la division du Contrôle bibliographique, elle prit, en 1986, son nom actuel de « Section on classification and indexing ». Elle tient séance à chaque congrès annuel de l'IFLA.

A l'Union des associations internationales (Bruxelles), Judge a élaboré une « classification fonctionnelle » sur des bases assez similaires à celle d'Ingetraut Dahlberg déjà citée. Il en a décrit le schéma en 1984 (121), et l'a appliquée aux deux suppléments du Yearbook of intemational organizations : global action networks (annuel depuis 1983) et Encyclopaedia of world problems and human potential (2e ed., 1986).

Organisations intergouvernementales

Il convient de commencer par l'UNESCO, dont les activités, dans le domaine ici traité, peuvent être divisées en trois périodes. Au cours de la première, une Conférence internationale sur l'analyse des documents scientifiques, convoquée en 1949, avait proposé que l'UNESCO donne son concours au développement d'une classification normalisée et à l'établissement d'un code international normalisé pour la « sélection mécanique des documents ». Le Comité consultatif international pour la documentation et la terminologie dans les sciences pures et appliquées, constitué par l'UNESCO (et connu sous son sigle anglais IACDocTerPAS), recommanda une étude comparative des systèmes existants, qui aboutit, en fait, à mon travail sur les « catégories générales applicables aux classifications et codifications documentaires » (90).

La deuxième période fut marquée par la préparation, en collaboration avec le Conseil international des unions scientifiques (ICSU), de ce qui allait devenir l'UNISIST - un système de coopération internationale dans le domaine de l'information scientifique et technique. Le rapport général, confié à Jean-Claude Gardin 39, préconisait, d'une part, une « liste de vedettes-matières » pour servir à la « catégorisation des sujets » à un « niveau très général », d'autre part, des « thésaurus intermédiaires » dans chaque spécialité, construits dans un « cadre formel commun 40 ». La première recommandation fut à l'origine du BSO ; la deuxième n'eut pas de suite directe, faute d'un accord sur le « cadre formel commun ».

Dans la troisième période, qui dure encore, l'UNESCO réalisa trois thésaurus pour ses propres besoins : le Thésaurus de l'Unesco, réalisé par Jean Aitchison (anglais, 1977 ; français, 1984), SPINES pour la politique scientifique (anglais, 1976 ; français, 1984) et le thésaurus « UNESCO/Bureau international de l'éducation » (4e éd., 1984). Le projet d'un thésaurus intégré pour les sciences sociales (138) n'aboutit pas, et l'Organisation appuie maintenant le projet INTERCOCTA mentionné ci-dessus (p. 470).

Parmi les autres organisations spécialisées des Nations Unies, l'Organisation mondiale de la santé (OMS/WHO) est restée fidèle à la classification systématique pour la classification des maladies (9e éd. en 1979) et celle des altérations de la santé, infirmités et handicaps (anglais, 1980 ; français, 1988). L'Organisation mondiale de la propriété industrielle (OMPI/WIPO) a publié la 3e édition de la classification internationale des brevets en 1979 - une 4e édition est en préparation. La Food and agricultural organization (FAO), qui avait hérité de l'ancienne classification de l'Institut international d'agriculture rédigée par Frauendorfer (1930, 3e éd. 1960), s'est convertie aux thésaurus (en 1979, AFSIS : Aquatic sciences and fisheries information system ; en 1982, AGROVOC, en collaboration avec la Commission des communautés européennes). Le Bureau international du travail (BIT/ILO) en est à la 3e édition de son thésaurus (1985). L'Agence internationale de l'énergie atomique révise le sien de manière continue (INIS : version russe, 1983). Les thésaurus de l'United nations industrial development organization (UNIDO) et de l'United nations centre for human settlements (UNCHS), respectivement pour le développement industriel et l'habitat, ont été édités en 1983 et 1986. L'Organisation des Nations Unies (ONU) elle-même a repris le thésaurus de Viet pour le développement économique et social, d'abord préparé pour l'Organisation de coopération et de développement économiques (OCDE) (1969, 1979 ; 3e éd., 1985), et publié le thésaurus UNBIS : Liste trilingue des termes utilisés pour l'analyse par sujets des documents et autres publications concernant les programmes et les activités des Nations Unies 1986).

En dehors de sa coopération avec la FAO pour AGROVOC, la Commission des communautés européennes a commandité deux thésaurus multilingues - pour l'environnement (1983) et pour l'éducation (EUDISED, nouvelle éd., 1984) - ainsi qu'un Thesaurus guide, qui décrit 654 thésaurus (84). La banque de données Thesauri-Echo, sur laquelle il est basé, est plus complète : en 1986, elle recensait 1009 thésaurus, dont 141 multilingues, 441 en anglais, 226 en allemand et 180 en français 41.

Bilan et prospective

Evoquant la première application, à la fabrication d'un index (1958), de la méthode KWIC (Key-words in context) - pour laquelle Luhn avait mis au point, peu avant, un programme d'ordinateur -, un article récent débute par cette phrase : « Il y a juste 30 ans que s'effectua la première vraie révolution dans le domaine de la recherche des documents » (155). Le terme de « révolution » appliqué à cette technique paraît excessif : Luhn lui-même reconnaissait volontiers que le principe du KWIC avait déjà été appliqué en Angleterre au milieu du XIXe siècle (1856) par Crestadoro (73). Mais ce qui a réellement marqué les « 30 glorieuses » évoquées par Magdeleine Moureau, comme elle le note d'ailleurs ensuite, c'est le développement accéléré des banques de données, d'abord bibliographiques, puis - et maintenant surtout - factuelles, accessibles en ligne, les premières dès 1968, aujourd'hui à la portée de tout détenteur d'un Minitel (plus de 3 millions en France)... à condition qu'il soit assez riche pour payer le coût des interrogations, relativement fort élevé pour la plupart des gens ne dépendant pas d'une entreprise ou d'une institution complaisante.

Cette prolifération des banques de données - quelque 4 000 actuellement, dont peut-être 80 à 90 % d'origine américaine ou reliées à une base américaine - s'est faite de façon parfaitement anarchique, chacune ayant son propre système de représentation des connaissances : on peut compter sur les doigts d'une seule main les tentatives réussies d'harmonisation, comme celle opérée pour le domaine de la physique. Ainsi, à six ans du centenaire de cette date de 1896, qui, avec le rejet de la CDU pour l'International catalogue of scientific literature 42 (ICSL), marqua le premier échec du projet otlétien de réaliser un Répertoire bibliographique universel, on se trouve plus loin que jamais, non seulement de l'unification des systèmes d'accès par sujets à laquelle tendait Paul Otlet, mais encore de la plus modeste coordination entre eux, comme le proposait Gardin pour l'UNISIST.

Par ailleurs, le succès mondial obtenu par les thésaurus semble avoir fait conclure le vieux débat entre partisans des répertoires méthodiques (qui dominaient en France depuis Naudé) et adeptes des index alphabétiques (plus nombreux et plus influents en Angleterre, depuis Maunsell) à l'avantage de ceux-ci. Et ce à tel point que Jean Aitchison (2) voit la principale utilité de la BC2 dans le fait qu'elle peut servir de source aux thésaurus.

Opposition sommaire

Cependant, on peut considérer comme aujourd'hui dépassée l'opposition sommaire que l'on rencontre assez souvent entre classifications et index - il est vrai, surtout dans des articles français comme celui déjà cité de Magdeleine Moureau. Celle-ci déclare: « La mise en ordre des notions caractéristiques contenues dans les document peut s'obtenir de deux façons: par un classement logique qui regroupe de proche en proche les notions plus fines sous des notions plus générales ou par un classement alphabétique des mots qui les expriment. La démarche est très différente dans ces deux approches: avec la première, classification systématique linéaire, on procède par inclusions successives dans des séries de classes emboîtées. Avec la seconde, index alphabétique, on procède par intersection de classes indépendantes chacune représentée par un mot 43 ». En effet, d'une part, il n'y a pas que des classifications « linéaires », et, d'autre part, la définition de la recherche par mots-clés, comme procédant par « intersection de classes indépendantes chacune représentée par mot », correspond aux idées courantes dans les années 50, quand florissaient les « unitermes » de Taube.

Il faut avouer que la théorie de ce qu'on appelle les « langages documentaires » (langages d'indexation, en anglais indexing languages) et de leur relation avec le langage naturel - (langage courant et langues de spécialités) - est encore fort peu satisfaisante : si l'on relit les rapports présentés il y a treize ans à la « Workshop on linguistics and information science », sous l'égide de la FTD (217), on s'aperçoit qu'on a, finalement, assez peu avancé depuis. Dans les années 60, une floraison d'études tentèrent d'évaluer les systèmes de recherche documentaire, mais elles furent, en général, menées sur des corpus expérimentaux trop réduits. L'un des auteurs qui ont poursuivi ce genre de recherches propose maintenant des « sites d'évaluation » nationaux, ou par aires linguistiques (123). Le responsable d'une des meilleures évaluations de la décennie 70, Lancaster, a tiré de son expérience la conclusion que l'on pouvait se passer des « vocabulaires contrôlés traditionnels », donc faire l'économie de toute indexation (systématique ou alphabétique) à l'entrée des documents dans le système, l'usager disposant d'une « certaine forme de thésaurus [non précisée] pour l'aider dans sa recherche sur une base de données en langage naturel 44 ». Cette théorie, reprise dans la 2e édition du manuel de Lancaster (132), n'a pas été acceptée, tant s'en faut, par l'ensemble de la profession. On peut s'en rendre compte à la lecture d'un manuel tout différent (199) primé par l'American society for information science (ASIS), ou à la lecture du compte rendu du livre de Lancaster par Fugmann (77), qui lui oppose des arguments pertinents en ce qui concerne son propre domaine, la littérature chimique.

On trouvera, par ailleurs, un exposé nuancé et prudent des diverses positions adoptées dans ce débat chez Deschâtelets (58). Celui-ci relève les limitations inhérentes aux diverses formules utilisées pour la recherche d'informations en ligne et note le développement (encore limité) des « interfaces intelligentes », destinées à se substituer plus ou moins complètement et efficacement au médiateur (bibliothécaire, documentaliste ou informatiste servant d'intermédiaire entre l'utilisateur final et les services des banques de données). Zarri (223) et Bassano (14) fournissent quelques indications assez sommaires sur les recherches récentes (surtout françaises) en informatique documentaire.

Une bonne partie de ces recherches suit encore la ligne tracée, en 1958, par Luhn, qui utilisait des méthodes statistiques fondées sur la plus ou moins grande probabilité d'occurrence et/ou de co-occurrence des mots dans les textes. C'est le cas, par exemple, des systèmes SPIRIT (Système syntaxique et probabiliste d'indexation et de recherche d'informations textuelles) en France (55), FAIRS aux laboratoires GTE (33), ou IRX à la National library of medicine des Etats-Unis (101), des travaux menés au Centre de documentation scientifique et technique du CNRS sur l'analyse des brevets afin de discerner les tendances de l'innovation technique (212) et du système « Who knows » développé à Bell communications research, en vue d'établir une sorte de registre des compétences à l'intérieur de la compagnie (205). En général, ces recherches comportent maintenant des modules d'analyse morphologique et syntaxique (plus ou moins développés) et, plus récemment, sémantique (souvent assez rudimentaire).

Une autre série de recherches fait davantage appel à des techniques de classification proprement dite : - simple classification en « prédicats » et « objets », ceux-ci étant répartis en classes hiérarchisées dans le système établi par la société ERU pour la partie professionnelle (« pages jaunes » de l'annuaire téléphonique français (37) ; un système analogue a été développé pour le MGS, Minitel guide des services ;
- structure en treillis dans le projet étudié à l'University of North Carolina (83) ;
- « réseaux sémantiques » dans l'étude du Brigham and women's hospital pour le projet UMLS (127) déjà évoqué ci-dessus ;
- lexiques du type de ceux naguère utilisés dans les travaux de Gardin au Centre de recherche sur les traitements automatisés en archéologie classique (CNRS/Paris X) dans le cadre du système SIGMINI (Centre d'automatique et d'informatique de l'Ecole nationale supérieure des Mines, à Fontainebleau, et Union minière, à Bruxelles (118). Des systèmes encore à l'état de prototypes à base de « représentation conceptuelle » des documents sont étudiés à la General electric à Schenectady (qui utilise des « graphes conceptuels » (172)) et au CNRS à Paris (RESEDA) 45.

Persistance de l'imprimé et du papier

Quarante ans après la vision prophétique de Bush (31), le « livre électronique » a commencé à devenir une réalité, sous la dénomination d'hypertextes (42) et, plus ambitieusement, d'hypermédias. Il semble fort intéressant de noter que nombre de recherches sur ces nouvelles formes de représentation des connaissances font appel à la taxilogie, en incorporant, à la structure de leurs produits, diverses formes de classification: « index hiérarchique » et « carte cognitive » à l'Université de Calgary (79) ; « classifications hiérarchiques multifacettes » à la NEC au Japon (100).

Si la prédiction de Bush est en train de se réaliser, il semble en aller autrement pour celle que formula Leroi-Gourhan, en 1965, suivant laquelle l'écriture était « appelée à disparaître rapidement ». Sans doute, les hypertextes sont-ils en voie de permettre, comme le prévoyait Leroi-Gourhan, de « présenter les livres de telle sorte que la matière des différents chapitres s'offre simultanément sous toutes ses incidences », mais nous n'en sommes pas au point où il pensait que « l'imprimé conserverait les formes de pensée curieusement archaïque dont les hommes auraient usé pendant la période du graphisme alphabétique 46 ». Je ne crois guère à cette paperless society dont, dix ans après Leroi-Gourhan, tant de futurologues américains nous avaient annoncé le prochain avènement. Les textes écrits sont une partie intégrante des hypermédias tels que nous les voyons apparaître, et l'on ne voit pas pourquoi ils cesseraient d'y figurer. Je ne crois pas non plus que les hypertextes et/ou hypermédias relégueront le livre tel que nous le connaissons, y compris le périodique qui, après tout, n'en est qu'une forme particulière, aux bibliothèques transformées en musées de l'imprimé. Voici quarante ou cinquante ans, on prédisait sa disparition au profit du microfilm ou de la microfiche ; cela ne s'est pas produit, et les gens qui acquièrent un document en microforme s'empressent, s'ils le peuvent, de transformer celui-ci en photocopie. Il y a fort à parier qu'ils feront de même dans nombre de cas avec les produits du courrier électronique, des electronic bulletin boards ou des Forums.

Cependant, le livre électronique, sur vidéodisques, noteCards, etc., se développe rapidement - et l'on peut sans doute prévoir que, dans un avenir assez proche, il remplacera le livre classique pour certains usages, notamment pédagogiques, ou pour l'accès des médecins généralistes et auxiliaires médicaux au savoir enregistré par des systèmes experts 47. Quelles sont les conséquences à prévoir dans le domaine de la classification ?

Un langage complexe

Comme on l'a remarqué ci-dessus, divers types de classifications, dont l'architecture est souvent sous forme de treillis et non d'arborescences, sont utilisés dans les sytèmes hypertextes/hypermédias ; toutefois, il s'agit de structures sous-jacentes, pratiquement invisibles pour l'usager, qui pose ses questions en langage naturel. L'on pourrait évidemment appliquer aux banques de données bibliographiques le même principe de séparation du code d'organisation interne par rapport au langage d'interrogation, ce qui permettrait d'utiliser pour le premier un mode de symbolisation (notation) aussi complexe que l'exigerait la structure des sujets sans inconvénient pour l'utilisateur final. Ingetraut Dahlberg avait déjà présenté une suggestion en ce sens dans un de ses éditoriaux d'International classification (1986). Elle estimait que la « notation analytique » correspondant au « langage codé de la classification » serait nécessairement complexe, et écrivait (51) : « L'on ne peut arriver à maîtriser la complexité de notre univers que par des systèmes fort complexes d'organisation des concepts et de leur synthèse à l'aide de structures et catégories syntactiquement définies. Nous devons donc consacrer plus d'efforts au développement de tels systèmes afin de décrire conceptuellement - c'est-à-dire de manière concise, contrôlée et logique - ce qui a été énoncé verbalement dans les textes compliqués des livres et des articles. »

L'occasion de ces remarques lui avait été fournie par une « Lettre à la rédaction » de Horst Körner. Celui-ci notait les difficultés rencontrées, en Inde, par les usagers des bibliothèques employant la Colon classification, du fait de ses indices compliqués. Dans la 7e édition de la CC parue un an après, cette complexité devait être encore accrue. On doit également noter que des codes antérieurement destinés à l'analyse de documents spécialisés, comme ceux de Pagès (1959) ou de Selye (1956), avaient eux aussi des systèmes de notation complexes 48.

Cette complexité est-elle réellement inévitable ? Dahlberg cite une solution proposée par Kluth, en 1977, dans son projet de classification unifiée, pour une « easy notation of complex cases ». Martin Scheele avait adopté une notation décimale avec un seul signe additionnel ( + ), ce qui conduisait à des indices assez longs - jusqu'à 20 chiffres 49. La notation de BC2, avec son emploi conjoint de majuscules latines et de chiffres arabes, n'est pas beaucoup plus compliquée, mais le système dit de « notation rétroactive » allonge les indices, qui peuvent atteindre facilement 8 signes pour des sujets encore moyennement complexes. Zygmunt Dobrowolski, dans sa classification pour l'Institut international de la soudure (1944, 1958), abandonnée ensuite au profit d'un thésaurus, était arrivé à une remarquable économie de symboles, grâce à son système de notation original qui, sans cependant s'y référer, appliquait la « loi d'Estoup-Zipf » observée dans les langues naturelles, où la longueur des mots est fonction de leur fréquence 50.

J'ai discuté ailleurs 51 ces questions de notation, qui ont fait l'objet, depuis, d'un regain d'attention aux Etats-Unis (115), en RFA (128, 196), en Inde (188), en Tchécoslovaquie (173). En France même, Anne Dujol a présenté d'intéressantes remarques sur la perception par les usagers des indices CDU à Beaubourg 52. Il conviendrait toutefois de revoir ses conclusions en tenant compte du célèbre article de Miller (148) et d'autres recherches psycholinguistiques sur les limites de la mémoire à court terme. Il y a dix-neuf ans, Foskett signalait une bibliographie rédigée, à l'Ecole de bibliothécaires du University college, sur les réactions psychologiques aux symboles, qui comportait 645 références 53. Si j'ai insisté un peu longuement sur le problème de symbolisation des classifications documentaires, c'est qu'il me paraît l'un des plus importants à résoudre si l'on veut aboutir à des systèmes plus satisfaisants que ceux dont on dispose actuellement. Bien entendu, il y en a d'autres, que j'ai abordés naguère 54.

De nouvelles recherches

D'une manière générale, cette fin de siècle devrait voir se développer de nouvelles recherches, tant en taxilogie théorique qu'en classification appliquée. Le pourcentage de la littérature en langue française dans ces deux domaines est encore trop faible : sur la bibliographie d'International classification, il est passé de 4,1 % en 1981 à 5,2% en 1984 et 5,1% en 1986 pour retomber à un bien maigre 2,1 % en 1988. La mise en œuvre du projet de Très grande bibliothèque (TGB) pourrait (devrait ?) être le point de départ d'une remise en question des méthodes d'accès par sujets dans l'ensemble des bibliothèques françaises. Il semble impossible, en effet, de continuer à utiliser pour le nouveau fonds de la TGB le vieux cadre de classement de la Bibliothèque nationale, qui remonte à Clément (1697), refondu en partie au XVIIIe siècle, puis au milieu du XIXe, mais ensuite réduit - sauf pour l'histoire de France - à son squelette des classes de base 55. Convient-il pour autant, comme semblent vouloir l'indiquer de récentes Instructions 56, de se diriger vers l'adoption de l'une ou de l'autre des classifications dominantes d'origine américaine, dont la structure de base - presque centenaire pour la LCC (fondée sur Cutter, 1891) et plus ancienne encore pour la DDC (1876) - ne correspond plus aux besoins de notre époque ? C'est, pour le moins, douteux. Mieux vaudrait reprendre l'idée de Kluth et chercher à élaborer un nouveau système unifié de classification qui bénéficierait de tous les progrès déjà réalisés dans la théorie taxilogique et ses applications pratiques, et serait enfin adapté aux possibilités (et exigences) des techniques actuellement à notre disposition : vidéotex comme recherche d'information en ligne. Ce qui pourrait se faire en collaboration avec d'autres pays - notamment européens - confrontés, en fait, au même problème, et serait, au surplus, renouer avec une vieille tradition française, remontant au moins à Gabriel Naudé (1627).

Par ailleurs, la création de l'INIST pourrait être l'occasion de procéder au réexamen des classifications utilisées jusqu'ici par les Bulletins signalétiques du CNRS (CDST et CDSH).

Six ans nous séparent de 1995, date envisagée pour l'ouverture de la TGB - en fait, le délai réel sera plus rapproché : si l'on veut traiter le million de volumes devant constituer le « fonds de base » de cette « BN2 », il faudra décider très rapidement de la méthode à utiliser. Rien ne serait plus préjudiciable que de baser une telle décision - qui engagera l'avenir pour plusieurs générations - sur des présupposés plus ou moins arbitraires, sans procéder auparavant à des recherches tenant compte des progrès déjà obtenus dans ce domaine de la « représentation des connaissances ».

Il semble opportun de rappeler à ce sujet l'excellente formule de Foskett: « La classification - la recherche des structures - est à la base de tout notre savoir, et devrait donc être le fondement de tous nos systèmes d'organisation de l'information  57 ». En cet anniversaire de la Révolution française, on doit noter que cette conception était celle d'Ameilhon et de Camus quand ils discutaient, en 1796, à l'Institut national des sciences et des arts, de la meilleure méthode à adopter pour classer les fonds de ce réseau national de documentation, dont Talleyrand avait exposé les principes dès 1791 58.

Ce n'est pas le lieu pour traiter du détail des travaux qui seraient nécessaires. Notons, toutefois, qu'ils devraient, entre autres, porter :
- sur les rapports entre la classification des macrodocuments (monographies) et celle des microdocuments (articles, rapports). Les uns et les autres semblent en effet constituer deux ensembles trop différents pour être traités selon un système uniforme 59 ;
- sur l'adaptation des classifications aux différents types de bibliothèques (voir, à cet égard, l'expérience instructive des quatre « versions » différentes de la BBK soviétique) (207) ;
- sur les relations entre systèmes encyclopédiques et systèmes spécialisés ;
- sur le problème épineux de la « reclassification », pour tenir compte des bouleversements entraînés par les « révolutions scientifiques » (130) ; Parent avait, dès 1801, perçu l'importance de cette question.