Les futurs Fantastiques

Bibliothèque nationale de France et université Paris-Saclay – du 8 au 10 décembre 2021

Céline Leclaire

Les 8, 9 et 10 décembre 2021 avait lieu la 3e conférence internationale sur l’intelligence artificielle (IA) dans les bibliothèques, les archives et les musées. L’occasion de constater la maturité croissante de cette technologie dans les institutions culturelles, la force et la nécessité de la collaboration pour relever les défis qui se présentent (faire évoluer les organisations, industrialiser, suivre le temps réel, financer des projets complexes), d’entrevoir quelques externalités positives et de se plonger avec délice dans les méandres de l’intelligence humaine.

« Non seulement l’IA est là, mais elle nous est utile »

Jusque très récemment, l’une des principales qualités de celui ou celle qui s’impliquait dans l’IA – ou du moins un viatique pour approcher un public curieux mais peu formé voire sceptique – était sa capacité à inventer des modes de fonctionnement, des technologies, des services et des usages non encore advenus, et surtout à les raconter. La toute première édition de la conférence « Futurs Fantastiques » s’en amusait en 2018 : « Pourquoi la technologie d’aujourd’hui ressemble-t-elle tant à la science-fiction du passé ? Imitons-nous les fantastiques futurs du passé lorsque nous concevons notre progrès scientifique et nos innovations, ou se produit-il l’inverse, la science-fiction comportant une telle part de science que le futur qu’elle décrit est voué à se réaliser ? » 1

X

« […] Why does the technology of today look so much like the science fiction of the past? Do we mimic the fantastic futures of the past when we form our scientific progress and innovations, or is it the contrary, that science fiction has had so much science in it that it showed a future bound to happen? »

.

La troisième édition de la conférence, organisée à la Bibliothèque nationale de France (BnF) et à l’université Paris-Saclay avec la communauté AI4LAM4, si elle a confirmé le pouvoir enchanteur (mais sans illusionnisme) des projets en cours, a surtout montré à quel point les technologies dont ils relèvent sont désormais assises dans un quotidien où elles ont trouvé leur évidente place. Aslak Sira Myhre, directeur de la Bibliothèque nationale de Norvège, résume ainsi cette mutation : « En 2018, on imaginait. En 2021, on utilise. » Laurence Engel, présidente de la BnF, lui fait écho en constatant « non seulement l’IA est là mais elle nous est utile », ne serait-ce que pour répondre aux exigences d’une collection numérique en augmentation constante, qu’il s’agit de traiter et d’explorer.

Ainsi, les expériences conversationnelles inédites, la recréation d’ambiances festives en temps de confinement, les majordomes virtuels se présentant au-devant des visiteurs et les conduisant vers la salle de lecture à la fois la moins saturée et répondant le mieux à leur recherche documentaire, ou encore la création automatique de champs supplémentaires de métadonnées dans des notices bibliographiques existent moins suivant le registre de la conviction voire de l’expérimentation, que suivant un programme réel ou potentiel, dont la faisabilité est garantie par des équipes et des synergies constituées, et par des technologies éprouvées voire déjà entraînées (notamment dans le domaine de la reconnaissance de l’écriture manuscrite ou de la transcription de la parole orale), même si beaucoup reste à faire. De telles perspectives trouvent dans le présent des sources d’inspiration utilisables, de Siri (l’assistant d’Apple) aux agents conversationnels commerciaux (dits aussi chatbots), en passant par l’improbable Tamagotchi 2

X

Voir le projet LITTE-BOT : https://eur-artec.fr/projets/litte_bot, présenté par Arnaud Laborderie (BnF), Anna Pappa (Paris 8), et Rocio Berenguer (artiste pluridisciplinaire, dramaturge).

D’autres facteurs et avancées majeures complètent ce contexte favorable en ce début de la décennie 2020 : le développement des compétences et le recrutement de personnes formées pouvant se rassembler au sein de nouveaux environnements de travail, tels le DataLab inauguré en octobre 2021 à la BnF ou le Laboratoire interdisciplinaire des sciences du numérique (LISN) créé le 1er janvier 2021 au sein de l’université Paris-Saclay ; une approche documentée grâce à plusieurs enquêtes et études majeures, en particulier « AI in relation to GLAMs task force: Report and recommendations » publié par la communauté EuropeanaTech ; la formalisation de stratégies (feuille de route de la BnF sur l’IA) ; et surtout un énorme appétit, stimulé par la multiplication des prototypes, par l’amélioration des systèmes (capables par exemple de traiter des données multimédias) ou par la possibilité de disposer de corpus prétraités, fiables.

Trois défis majeurs

Davantage que l’éthique (qui semble désormais aller de pair avec l’IA dans la pensée des professionnels des GLAM 3

X

Galleries, Libraries, Archives, Museums (Galeries, bibliothèques, archives, musées).

), ce sont donc les conséquences organisationnelles du développement de l’IA qui ont été placées au cœur du programme de la conférence. L’évolution des organisations constitue en effet un défi pour accueillir pleinement cette IA cheminant vers sa maturité, au même titre que l’industrialisation des travaux (ou, à défaut, la transposition d’une recherche sur un corpus à un autre corpus), ou la gestion du temps réel. Ce dernier point a été souligné dans des cadres variés : il s’agit de passer d’un travail en laboratoire utilisant des données stables, à des dispositifs de traitement capables de tenir compte des nouveaux documents entrant par flux dans une base 4
X

Pour l’utilisation de l’IA afin d’indexer thématiquement les ressources d’une bibliothèque par exemple, voir la présentation : « IA et Data Mining au service de l'accès thématique aux ressources des bibliothèques » de Ronald Ganier (Progilone) et Julien Colin (Médiathèque départementale du Puy-de-Dôme). En ligne : https://www.bnf.fr/fr/captations-et-supports-de-la-conference-2021.

, ou à des systèmes de recommandation s’appuyant sur des sources d’information actualisées en permanence 5
X

Sujet abordé dans la présentation « Un chatbot pour les bibliothèques : exemple de collaboration entre une BU et un laboratoire », par Cédric Mercier (conservateur, Bibliothèques Paris-Saclay) et Mathilde Véron (doctorante LISN sur les chatbots).

. C’est une des formes de l’évolutivité appelée par Olivio Segura, porteur d’un projet de segmentation automatique des journaux télévisés à l’Institut national de l’audiovisuel (INA) : les outils élaborés resteront-ils pertinents si le contenu de ces journaux télévisés change radicalement ?

Pour parvenir à relever de tels défis, les institutions continuent de cultiver les thématiques phares identifiées par Emmanuelle Bermès 6

X

Emmanuelle Bermès, « Les fantastiques futurs de l’intelligence artificielle », Figoblog, 12 décembre 2019. En ligne : https://figoblog.org/2019/12/12/les-fantastiques-futurs-de-lintelligence-artificielle.

à l’issue de la deuxième conférence « Futurs Fantastiques » organisée à San Francisco en décembre 2019 : l’éthique, le standard IIIF, la formation, mais aussi les interfaces (dont l’enjeu peut même guider tout un projet, selon une logique d’utilisateur, sans nécessairement en être le cœur), et bien sûr, les données. En 2021, l’illustration des effets bénéfiques des exigences de l’IA sur la qualité des données suggère à quel point l’IA n’est pas seulement gourmande mais prodigue, puisqu’elle s’intègre dans des cercles vertueux déjà existants. Ces thématiques dressent un arrière-plan devant lequel en apparaissent de nouvelles.

Des projets interprofessionnels par essence

Comment naît une brillante idée comme celle qui consiste à rendre visible, à partir d’une analyse automatisée de contenus, la manière dont les médias se font le miroir – ou non – de l’actualité ? Au croisement d’approches multiples, ce projet de l’INA émane d’une connaissance des corpus et des technologies appropriées, de l’identification de thématiques (par exemple la diversité dans les médias), mais surtout d’une intelligence des liens, bien humaine cette fois : en somme, il suppose des rencontres entre des informaticiens qui savent ce qu’il est possible de faire, des métiers qui expriment des besoins, des chercheurs, des décideurs… Et cet ensemble facilite à la fois son développement et son financement. Ce mode opératoire a été érigé en archétype à plusieurs reprises au cours de la conférence 7

X

Sujet abordé lors de la table ronde « Archives, bibliothèques, et humanités numériques » avec Thierry Poibeau (CNRS) et Barbara McGillivray (Department of Digital Humanities, King’s College London), et dans la présentation « Data Practices for Machine Learning in Research Libraries : a critical reflection » par Nicole Coleman et Claudia Engel (Stanford University Libraries).

, teinté de science ouverte (qui pousse à choisir des logiciels libres et à partager les données et corpus), et nourrissant un dialogue fécond sur les spécificités des différents métiers. Même si l’on constate encore une étanchéité certaine entre le discours du chercheur, celui du technicien et celui du bibliothécaire ou de l’archiviste, les projets ont le plus souvent été présentés à plusieurs voix, ce qui n’était pas le cas lors de la conférence de 2018. Jean-François Moufflet, responsable de fonds aux Archives nationales (France) en est convaincu : un projet doit avoir des enjeux scientifiques (améliorer la recherche dans les documents, enrichir la connaissance des contenus) mais aussi techniques (expérimenter l’indexation automatique). La feuille de route de la BnF sur l’IA le suggère : les départements des systèmes d’information ont un rôle clé, un rôle en transformation, au sein des institutions, ce qui inaugure une nouvelle ère de l’informatique dans les établissements, laquelle consiste peut-être en l’importation directe de modèles de pensée propres à l’informatique dans les autres métiers, dans la continuité d’une mathématisation du monde. Complétez donc la phrase suivante : « On est des…………………., donc on automatise tout. » Qui parle ? 8
X

« On est des informaticiens, donc on automatise tout » (Anna Pappa, enseignant-chercheur, Paris 8, projet LITTE-BOT). Gageons qu’un catalogueur dans une bibliothèque pourrait dire lui aussi « on est des catalogueurs, donc on automatise tout », ne serait-ce qu’en vertu des habitudes que le numérique a introduites dans notre quotidien…

Au-delà des experts impliqués dans les projets, quiconque, quel que soit son niveau de qualification et d’information, peut être concerné par l’IA et s’y consacrer – heureuse nouvelle pour les non experts qui avaient encore besoin d’être encouragés. Le projet d’agent conversationnel présenté par Cédric Mercier et Mathilde Véron 9

X

Voir note 5.

a reposé sur la participation de trente-deux bibliothécaires à des tests sur un prototype. Ce travail de test, essentiel à la fiabilité et à la transparence de l’algorithme, a aussi inclus une attention au ressenti des collègues et une évaluation de la qualité qu’ils attendent en matière de service à l’utilisateur. Dans d’autres cas, ce sont des transcribathons collaboratifs qui sont organisés 10
X

Sujet abordé dans la présentation « Intelligence artificielle et institutions patrimoniales : gérer les langues peu dotées », par Chahan Vidal-Gorène, doctorant à l’École nationale des chartes-PSL.

. Par leurs questions, tous ces intervenants et testeurs sont susceptibles de contribuer à préciser les projets et les besoins en formation. Cette dimension traduit en outre la prise de conscience d’un changement d’échelle dans le travail sur les données : chacun est susceptible de contribuer à la qualité des données, et une information de base sur les données est requise pour toute personne travaillant dans les GLAM.

L’apport réflexif fondamental d’une approche artistique de l’IA

Ce qui vaut pour la rencontre entre professionnels et partenaires au sein de l’écosystème institutionnel vaut également au-delà : l’artiste Marion Carré, le chercheur Thierry Poibeau (CNRS) ou l’équipe de LITTE-BOT introduisent dans leur travail autour de l’IA une dimension particulièrement réflexive et font surgir une poésie inattendue, qui ébranle nos certitudes et suggère combien le périmètre de la collaboration gagne à inclure les parties les plus variées. Dans le cas de LITTE-BOT (un agent conversationnel alimenté à partir des textes de Molière), le décalage entre les questions posées par les publics et les réponses proposées par la machine fait partie du projet lui-même. Cette approche, qui doit beaucoup à l’artiste pluridisciplinaire et dramaturge Rocio Berenguer, rejoint la question des langues étrangères, du dialogue avec l’inconnu : c’est une expérience. Telle est sans doute une déclinaison de la « bibliothèque espiègle » inventée par Yves Citton, qui pour mieux exercer sa mission de service public et préserver la pluralité des mondes, se joue littéralement de la technologie, en musicien virtuose, sans chercher à cacher les rouages de l’instrument ni laisser imaginer sa toute-puissance. Pour initier de telles connivences entre les artistes et les futurs professionnels des institutions dès le temps de leurs études, Wendy Mackay (université Paris-Saclay) et Nicolas Taffin, designer et éditeur, ont conçu un créartathon dont de nouvelles éditions sont programmées.

Le bruissement fantastique des neurones

Émerge clairement ici ce qui fait tout l’intérêt de ces travaux et qui est au cœur de la définition même de l’IA : une meilleure compréhension des mécanismes de l’intelligence humaine. La dernière fois que vous lui avez parlé, avez-vous demandé à votre chatbot quel temps il fait ? Comment distinguez-vous le vrai du faux ? À partir de quel contexte, de quels stéréotypes effectuez-vous vos choix ?

Au-delà des aspects techniques, l’échange autour du projet LITTE-BOT lors de la conférence a surtout porté sur la notion de conversation humaine, sur le contexte commun sur lequel elle repose, et sur les bases du dialogue humain, qui n’a pas vraiment lieu lorsque le robot conversationnel n’a qu’un rôle utilitaire. Yves Citton, de son côté, a expliqué que le véritable enjeu derrière l’IA n’est pas l’automation mais les échelles planétaires, et que l’étude des sciences cognitives s’interroge sur des fonctionnements cérébraux universels : les opérations intellectuelles des bibliothèques sont-elles les mêmes à Paris et à Mumbai ? Les logiciels sont-ils homogénéisés ? Est-ce que ce sont les machines qui concourent à cette homogénéisation ?

Plus spécifiquement, à travers un projet en IA, le professionnel des institutions culturelles se confronte à l’intelligence de ses services : élaborer un agent conversationnel au sein d’une bibliothèque permet d’observer que certaines thématiques sont absentes (par exemple l’accueil du public en situation de handicap), de développer les thèmes sur lesquels il y a peu de données, voire de mettre en cause le bien-fondé même de certaines règles imposées aux publics…

Du bon usage de l’IA

De ce point de vue, l’approche de l’IA dans les GLAM n’est que le prolongement de leur attitude à l’égard des technologies en général, depuis le début du numérique : elles s’inscrivent dans une logique de service globale (par exemple, LITTE-BOT n’a de sens qu’inscrit dans une exposition sur Molière), et s’appuient sur leur expertise et leur position originale dans l’écosystème à la fois pour enrichir le matériau de la recherche (en particulier à l’aide de données uniques et élaborées de longue date) et pour dessiner des usages et des objectifs autres que ceux que portent d’autres instances, en particulier les entreprises commerciales. Laurence Engel insiste : de même que, dans les années 1990, la BnF a souhaité intégrer la numérisation et les compétences qui lui sont associées dans l’institution elle-même, sans considérer que cette nouveauté lui était extérieure et reposait sur une compétence extérieure à elle, de même, il s’agit de montrer que l’IA peut servir à autre chose, et de tenir compte des inquiétudes des usagers en termes d’éthique, de transparence des algorithmes…

Il en résulte de bonnes pratiques en matière de gestion de projet : faire preuve de bon sens, c’est-à-dire ne pas considérer l’IA comme une solution systématique, ne pas l’utiliser là où elle n’est pas nécessaire, mais également anticiper – et les institutions culturelles ont le recul nécessaire à l’anticipation – par exemple penser d’abord à l’industrialisation avant même d’explorer les algorithmes car c’est le travail d’industrialisation qui est le plus chronophage, comme le préconise Gautier Poupeau, architecte de données et administrateur général des données à l’INA.

En retour, que fait l’IA aux institutions culturelles ? Nous avons évoqué quelques externalités – l’accroissement de la qualité et du partage des données, l’amélioration globale du service, l’extension des logiques informatiques aux autres métiers – et le principal enjeu, résumé ici par Mike Keller, directeur des bibliothèques de l'université de Stanford : « Mieux comprendre les contenus dont nous sommes dépositaires et mieux les relier à d’autres ». Les contenus particulièrement ciblés sont le texte, les images, et tous les contenus audiovisuels (ressources clés des XXe et XXIe siècles, soulevant des défis particuliers).

Élargir les horizons de la découverte

Au-delà de la connaissance propre, c’est cependant la notion de découvrabilité qui s’enrichit le plus : les horizons de ce qui est découvrable s’élargissent. Si le texte devient sa propre description, si l’image devient sa propre description, peut apparaître un nouvel art de chercher (qui suppose de connaître finement les langues, et de délaisser des logiques aussi séculaires que l’ordre alphabétique) voire, in fine, un nouvel art de composer un texte ou une image (est-il encore besoin d’ajouter manuellement des tables des matières ?). Bien plus, la découverte peut s’appliquer à des contenus impossibles à interroger jusqu’alors, telle cette base de mouvements constituée dans le cadre du projet « Hong Kong Martial Arts Living Archive » et présentée par la muséologue Sarah Kenderdine (École polytechnique fédérale de Lausanne) : le mouvement vivant peut se transformer en données, et être archivé. Le corollaire de cette mutation, c’est la question suivante : que faire de ces résultats ? Dans ce domaine aussi des potentialités se développent qui renouvellent l’art de poser la question de l’interface. Le projet « Jazz Luminaries 2019 », également présenté par Sarah Kenderdine, vise à reproduire l’expérience ressentie quand on assiste à un concert.

Et comme rien n’est simple, les concepts les plus classiques s’enrichissent également : l’IA permet de développer des outils dont le concept s’inspire de la production éditoriale classique, tel cet outil clé qu’est le « dictionnaire de voix » dans le projet d’Olivio Segura (INA).

Bien entendu, l’IA apporte aussi un peu de magie, et de rêve, comme lorsque le Pianolatron se met à jouer.