88e Congrès de l’IFLA, du 21 au 25 août 2023, Rotterdam

Intelligence artificielle et bibliothèques : quelles opportunités pour le catalogage ?

Clémentine Laurent

Le World Library and Information Congress 2023 (WLIC) a fait de l’intelligence artificielle (IA) son thème phare. Parmi les nombreuses conférences, l’une s’est montrée provocatrice en abordant le catalogage, et par-là même le futur du métier de catalogueur.

ChatGPT : le futur du catalogage ?

L’Universidad de León (Espagne) et la Library of Congress (États-Unis) ont testé ChatGPT version GPT-3.5. Dans l’ensemble, GPT est capable de cataloguer une monographie en MARC (les essais en RDA ou BibFrame ont échoué), mais non sans erreurs. Il faut réaliser plusieurs requêtes pour parvenir au résultat, et l’IA admet parfois ne pas disposer des bonnes données ou en inventer. Elle recommande même de consulter des professionnels. Par ailleurs, étant entraînée par des données s’arrêtant en 2021, elle n’a pas accès aux mises à jour récentes, et est incapable de citer ses sources.

Cependant, les points forts reposent sur sa capacité à corriger les fautes d’orthographe et l’emploi d’un mauvais vocabulaire. L’IA est utile pour valider ou corriger des données et éléments de description, et dispose de potentiel en termes de correction de données codées lors de conversions rétrospectives.

D’autres outils rivalisent avec GPT en termes de catalogage : NotionAI, Bard, et Rytr.me. Cependant, il serait nécessaire de développer une IA spécifique au catalogage, dont l’entraînement insisterait sur les règles et des notices.

Potentiel du machine learning

D’autres institutions se sont éloignées de GPT pour entraîner leurs propres machines.

L’Online Computer Library Center (OCLC) cherche par exemple à dédupliquer ses doublons. Le nouveau process implique une phase d’entraînement de l’outil, suivant la méthode du Gradient Boosting, qui permet de tenir compte des erreurs du modèle et d’en former un nouveau qui les prédise. L’outil a reconnu 5,1 M de duplicatas, dont 97 % ont été confirmés.

La Bibliothèque royale de Belgique (KBR) entraîne, quant à elle, un outil (via Microsoft Power Automate) permettant d’identifier les données bibliographiques depuis une page de titre. Il procède à la reconnaissance des champs et réalise une notice jusqu’à l’indexation. L’intégralité du process prend 2 minutes 30 et le résultat est interopérable. Les avantages sont une baisse des erreurs comparée à l’entrée manuelle, la reconnaissance de multiples écritures et langages, et une rapidité de traitement.

Illustration
Potentiel impact du catalogage automatisé à la KBR, par Hannes Lowagie (intervenant pour la KBR)

Conclusion

Les IA sont encore loin de fournir un travail aussi qualitatif que celui de nos catalogueurs, et l’œil humain sera toujours indispensable pour vérifier les cas particuliers. Mais la technologie est bien présente, et il est urgent de s’en saisir afin de l’utiliser comme il nous convient : pour valoriser nos compétences et réaliser nos objectifs de services.