Subject cataloguing : Quo vadis ?

4 novembre 2016 – Francfort-sur-le-Main

Thierry Clavel

Pierre Durussel

A l’occasion de la réunion annuelle du Comité International qui gère la norme RDA (en anglais RDA Steering Committee, RSC), accueillie cette année par la Deutsche Nationalbibliothek (DNB), une journée d’étude « satellite » 1 consacrée à l’avenir de l’indexation matière était organisée par les bibliothèques nationales d’Allemagne, d’Autriche et de Suisse.

Celle-ci s’est déroulée à Francfort-sur-le-Main le 4 novembre 2016, et a été ouverte par Renate Behrens (DNB) qui représente le groupe d’intérêt européen EURIG au sein du RSC. Avec RDA en toile de fond, la journée avait pour ambition de montrer les tendances actuelles de l’indexation matière, tant dans l’espace germanophone qu’à l’étranger.

Heidrun Wiesenmüller (Haute Ecole des médias, Stuttgart), considérée comme LA spécialiste 2 FRBR/RDA du monde germanophone, a brillamment montré comment le nouveau modèle conceptuel FRBR_LRM, en cours de validation par l’IFLA 3, va prendre le relai des 3 modèles existants de la « famille » FRBR (FRBR, FRAD et FRSAD 4) à partir de 2017. Elle a ensuite exposé ce qu’il est raisonnable d’attendre des RDA pour l’indexation matière.

FRBR-LRM : une avancée pour l’indexation

Pour le Professeur Wiesenmüller, les entités FRBR des anciens modèles exprimant la relation de sujet (groupe 3 comprenant les concepts, objets, évènements et lieux en plus des entités des groupes 1 et 2), présentent quelques lacunes : la notion de laps de temps est absente, l’opposition concept vs objet n’est pas claire, les sujets complexes ne peuvent être exprimés. En résumé, le groupe 3 ne fonctionne pas complètement dans la pratique. FRBR-LRM corrige ces erreurs de jeunesse et modifie de manière significative l’organisation des informations liées à l’indexation : hiérarchisation des entités, suppression du groupe 3 du modèle FRBR d’origine, apparition de nouvelles entités : RES (générique), Nomen, Agent et Laps de temps, réduction de la distinction entre personne réelle et personnage fictif. LMR nécessite quelques adaptations mais constitue une réelle avancée pour l’indexation matière.

RDA couvre déjà partiellement l’indexation matière

En ce qui concerne l’indexation matière dans RDA, les règles prévues aux sections 4 et 7 dès 2010 pour les sujets n’ont été rédigées que pour les lieux. Si une bonne partie de RDA est utilisable pour l’indexation, concernant par exemple les personnes ou les collectivités, les tendances qui se dégagent laissent augurer d’une couverture inégale : RDA n’a pas vocation à remplacer des langages documentaires comme LCSH ou RAMEAU. La syntaxe des chaînes précoordonnées n’est pas traitée tandis que les lieux ne sont couverts que partiellement. Les données chronologiques et les sujets noms communs, non encore abordés, ne le seront peut-être jamais. Mme Wiesenmüller a conclu sur une note positive : en Allemagne, RDA a conduit à une coopération plus étroite entre catalogueurs et indexeurs.

Dans les pays germanophones (D-A-CH), ce sont les règles d’indexation “Regeln für den Schlagwortkatalog (RSWK)” qui sont suivies. Ce système précoordonné vieux de 30 ans, nécessite d’être revu et actualisé. Dans ce but, une enquête a été menée par un groupe d’experts germanophones piloté par la DNB. Esther Scheven (Deutsche Nationalbibiliothek) a présenté le résultat de l’analyse de plusieurs systèmes d’indexation étrangers, publics et privés, pour dégager les lignes de force à retenir. De cette enquête, il ressort que la qualité passe par une très bonne structuration des données et que la coopération, les échanges et l’interopérabilité sont essentiels.

Identifier le sujet d’une œuvre d’art :
un processus complexe

Angela Kailus (Bildarchiv Foto Marbourg) a tout d’abord rappelé que des collections d’images sont présentes dans de nombreux types d’institutions culturelles : musées, archives, bibliothèques, etc. Elle a ensuite exposé la problématique de leur indexation. L’identification du sujet d’une œuvre d’art est un processus complexe et avant tout une affaire d’interprétation. L’indexation va consister à passer du code visuel au code textuel en s’aidant d’informations complémentaires (titre, légendes, etc.) et en analysant l’œuvre selon différents niveaux d’interprétation 5. Elle a relevé les insuffisances actuelles d’un vocabulaire encyclopédique tel que le GND 6 pour indexer les images, et a insisté sur la nécessité de recourir à des langages documentaires plus spécialisés comme la classification Iconclass 7, disponible gratuitement sur le Web. Mme Kailus a conclu en soulignant l’importance de l’indexation des images et le besoin d’avoir davantage de normalisation du catalogage dans les musées et les archives photographiques. Avec RDA, les modèles CRM et FBBRoo, et les technologies du linked open data devraient permettre d’interconnecter et d’ouvrir sur le Web les collections des institutions culturelles (musées, archives, bibliothèques) pour le plus grand bénéfice des usagers.

Moissonnage de vedettes matières
et indexation automatique

Madeleine Boxler et Markus Zerbst (Zentralbibliothek, Zürich) ont présenté un projet très intéressant et novateur : FRED ( FREmdDaten). Il s’agit d’un outil développé en interne qui permet de moissonner des vedettes matières de livres imprimés ou de ebooks en se basant sur l’ISBN, puis de les intégrer aux notices du catalogue local. Plusieurs réservoirs sources sont moissonnés : LoC 8, DNB, BnF, etc. Cet enrichissement permet de récupérer des indexations de plusieurs référentiels : GND, LCSH 9, RERO 10, Rameau, Nuovo Soggetario, DDC 11, RVK 12. Les premiers tests ont été effectués en mars 2016. Le « Go live » a eu lieu en septembre dernier. Les chargements sont quotidiens et l’application détecte les doublons à ne pas charger dans le SIGB (logiciel Aleph 500). L’opération est doublement efficace : elle permet de récupérer des indexations dans différentes langues (allemand, français, anglais, italien) et réduit le temps de catalogage matière des collaborateurs du réseau. Si l’outil permet une indexation sans intervention humaine (les indexations en français et en anglais sont intégrées telles quelles), l’indexeur a encore un rôle à jouer : il contrôle les indexations en allemand (GND) afin de déterminer si elles sont correctes et les modifie si nécessaire. Cette validation intellectuelle « a posteriori » se fait sur la base de règles établies en interne et qui restent sujettes à interprétation.

La British Library goes FAST

Janet Ashton (British Library) a présenté le projet d’implémentation de FAST 13 à la British Library. Géré par OCLC, FAST est un vocabulaire post-coordonné basé sur les vedettes matières de la Bibliothèque du Congrès (LCSH) et utilisant des facettes (géographie, chronologie, sujet, forme, personnes, collectivités, etc.). Le choix de FAST permet de répondre à différents besoins : couverture d’un plus grand nombre de ressources, gain d’efficacité, amélioration de la recherche et des liens. Les avantages de FAST se manifestent en premier lieu sur les plans économique et pratique : l’outil est gratuit, simple à utiliser et à prendre en main, ce qui permet de réduire le temps des formations. Il assure en outre une transition facile puisqu’il permet de conserver le standard MARC et est maintenu par la Library of Congress. En outre FAST est mieux adapté aux interfaces en ligne car il utilise des termes et non des vedettes construites. L’avenir de FAST est cependant incertain : c’est encore un projet et non un service d’OCLC. Mme Ashton a ensuite donné les résultats d’une enquête menée en avril 2016 auprès de bibliothèques académiques, publiques, nationales et spécialisées potentiellement intéressées par FAST. Les questions portaient sur leur adoption sélective ou complète de FAST, ainsi que sur l’utilisation de la classification Dewey abrégée en complément. Sur 60 réponses reçues (Royaume uni, USA, Europe) les avis sont partagés, les positifs contrebalançant les négatifs, tandis qu’une majorité de neutres se dessine.

Le rôle majeur des URIs

Tiziana Possemato (société Casalini Libri) a ensuite présenté le projet « share catalogue 14 » , catalogue partagé par différentes bibliothèques italiennes, basé sur la mise en relation des entités, notamment personne, titre et sujet, au moyen d’URIs et des technologies du Web sémantique, notamment le modèle Bibframe. L’application, à l’image de VIAF 15, construit des « clusters », sorte de regroupements virtuels d’informations sur différentes entités (personne ou œuvre), ce qui permet de mieux les identifier. En ce qui concerne les sujets, le Share catalogue vise à enrichir les clusters autour des personnes avec des sujets, et à regrouper les variantes de leurs noms y compris leurs formes dans différentes langues. Mme Possemato a conclu en réaffirmant le rôle central des URIs dans l’information bibliographique de demain.

La journée s’est terminée par une table ronde, le « final pannel » réunissant des représentants de la Deutsche Nationalbibliothek (Ulrike Junger), de la Bibliothèque nationale suisse (Christian Aliverti) et de l’Österreichische Nationalbibliothek (Christoph Steiner). Mme Wiesenmüller, animatrice de la table ronde, régalait l’assistance d’une synthèse très pertinente des débats, reprenant sa phrase clé du jour, «well structured data can lead to good results 16 », et relevant l’importance de la normalisation, du modèle Bibframe et de la coopération, ainsi que le pouvoir de la « clustérisation ».

Partager, coopérer, réutiliser le travail
des autres bibliothèques

Appelés à donner leur vision de l’avenir de l’indexation matière, les participants ont mis en évidence son aspect culturel, le rôle essentiel des autorités, notamment au niveau national, l’importance de la structuration des données, et la promotion des métadonnées à l’attention de l’usager.

Avec l’augmentation considérable de la documentation numérique à traiter (le dépôt légal numérique en Allemagne représente 1,4 million de documents), les enjeux consistent à trouver des solutions pour continuer à assurer une indexation matière de qualité.

Plusieurs solutions émergent : le partage et la coopération, la postcoordination des descripteurs, la réutilisation des données et l’automatisation, notamment le moissonnage des métadonnées ou les alignements informatiques. La contribution humaine portera davantage sur le contrôle-qualité et moins sur l’indexation manuelle native.

L’avenir de l’indexation matière ne semble pas très différent de celui du catalogage : en effet, cette journée réussie a démontré que RDA, le linked data, la réutilisation et l’optimisation des données sont au cœur des scénarios envisagés. Quant à l’avenir des indexeurs et des catalogueurs dans ce nouvel environnement, il n’en a été que très peu question : ce sera, à n’en pas douter, un sujet d’actualité d’ici quelques années.