Les bibliothèques et l’IA vues des États-Unis

Entretien avec R. David Lankes

Stéphanie Jaunault

Pascale Solon

R. David Lankes est professeur de bibliothéconomie à la Austin School of Information de l’Université du Texas 1

X

En savoir plus sur R. David Lankes : https://davidlankes.org/about-r-david-lankes/ et la Austin School of Information de l’Université du Texas : https://www.ischool.utexas.edu/

. Dans le cadre du Printemps des métiers de l’Enssib, le 11 mai 2023, sur le thème « 1, 2, 3… IA ! Intelligence artificielle, métiers et compétences » 2
X

Le programme et l’enregistrement des interventions sont en ligne : https://www.enssib.fr/printemps-des-metiers-2023-intelligence-artificielle-metiers-competences ; voir aussi le compte rendu de la journée d’étude : Maryline DEVIDAL, Yves GOUBATIAN, Hélène GUILLEMIN, Stéphanie JAUNAULT, Virginie JUSTIN-LABONNE, Anne-Laure PIERRE, Claudine QUILLIVIC, Pascale SOLON, Stéphane TONON, Anne-Marie VAILLANT et Stéphanie VINCENT, « Le printemps des métiers 1, 2, 3… IA ! Intelligence artificielle, métiers et compétences, une journée pour explorer les liens de l’IA avec le monde des bibliothèques », Bulletin des bibliothèques de France, 22 juin 2023. En ligne : https://bbf.enssib.fr/tour-d-horizon/le-printemps-des-metiers-1-2-3-ia-intelligence-artificielle-metiers-et-competences-une-journee-pour-explorer-les-liens-de-l-ia-avec-le-monde-des-bibliotheques_71308.

, il a prononcé une communication portant le titre « AI inspiring libraries » (« L’IA qui inspire les bibliothèques ») 3
X

L’enregistrement de la communication est en ligne : https://www.enssib.fr/bibliotheque-numerique/visionner/71193-ia-inspiring-libraries.

. Il a accepté de répondre à quelques questions supplémentaires sur le sujet.

Stéphanie Jaunault et Pascale Solon : Où en est la régulation de l’IA aux États-Unis ?

David Lankes : Il y a eu de nombreuses discussions sur la régulation de l’IA au niveau national. Plusieurs auditions ont eu lieu devant le Congrès. De nombreuses entreprises qui ont développé des IA, dont OpenAI (les développeurs de ChatGPT) et Google ont appelé à la régulation. Cependant, le diable se cache dans les détails. Mais est-ce que ces entreprises ne cherchent pas plutôt à consolider leur avance dans ce domaine ? Est-ce qu’il y aura des garanties suffisantes ? L’Europe est plus avancée que les États-Unis quant à la mise en place d’une politique dédiée.

Pour moi, la question est un peu floue. Pendant que l’IA générative est le centre de l’attention, ailleurs, l’IA est déjà très ancrée dans la vie des gens. Entre l’IA utilisée par les algorithmes des médias sociaux, son utilisation massive lors des procédures de recrutement, la surveillance de la population, l’IA impose déjà sa marque sur la société depuis plus d’une décennie avec très peu de contrôle du public.

S. J. et P. S. : Dans votre conférence dans le cadre du Printemps des métiers de l’Enssib, vous avez souligné l’importance pour les bibliothécaires de plaider pour une approche éthique et équitable de l’IA et pour l’IA explicable. Comment les bibliothécaires peuvent-ils relever ce défi et influer concrètement le débat avec de puissantes entreprises privées ? Pouvez-vous nous dire comment les bibliothèques américaines abordent ce sujet ?

D. L. : Il peut être confortable de se dire qu’il est difficile d’influer sur d’aussi grosses entreprises que Google ou Microsoft. Cependant, elles ont été créées par d’anciens étudiants qui ont proposé une solution inédite au bon moment. L’IA moderne doit beaucoup aux investissements publics et au développement académique en plus des moyens privés. Les bibliothécaires universitaires peuvent être de bons partenaires pour des spécialistes de l’information et des informaticiens afin de développer une IA éthique et explicable. Les bibliothécaires universitaires peuvent aider à faire progresser l’IA.

Les récents progrès de l’IA générative s’appuient sur de grands modèles de langage et des techniques équivalentes en génération d’image. Ceux-ci dépendent de la mise à disposition sur le web et du traitement de très grandes quantités de textes et d’images. Le droit d’auteur et la propriété intellectuelle demeurent des questions en suspens. Aux États-Unis, ils sont réglementés par le bureau américain des droits d’auteur qui a son siège à la bibliothèque du Congrès. La politique relative à la propriété intellectuelle sera établie par le Congrès au niveau national et par la myriade de législateurs de chaque état. Le service de recherche du Congrès américain et les bibliothèques d’État peuvent aider à informer et influencer ces processus. En dernier ressort, cela se décidera devant les tribunaux où les bibliothécaires spécialistes du droit dans les instances gouvernementales et dans les cabinets privés auront la possibilité d’élaborer les dossiers portés devant les tribunaux et de façonner ainsi le droit.

À la fin, c’est une question de volonté et d’engagement de citoyens. Soit en tant qu’électeurs, consommateurs ou contestataires. Les bibliothèques publiques devront éduquer et soutenir les actions portées par des membres de leurs communautés.

L’IA est un domaine dans lequel j’observe que les bibliothécaires sont très proactifs. Il existe une légère inquiétude quant à l’impact de l’IA sur la profession, mais la préoccupation est bien plus forte concernant les répercussions de l’IA sur les modalités d’examen, sur le monde académique, sur le développement d’idées pour l’enseignement, etc. Honnêtement, le défi le plus important aux États-Unis est de faire en sorte que nos communautés passent moins de temps à militer pour faire interdire des livres, mais investissent plus de temps à comprendre comment l’IA et la technologie en général agissent sur la société.

S. J. et P. S. : Quelles sont pour vous des applications probables de l’IA en bibliothèque ? Pensez-vous que des activités classiques, comme le catalogage, seront affectées par l’IA ? Y a-t-il des bibliothèques aux États-Unis qui développent leurs propres outils qui intègrent l’intelligence artificielle ?

D. L. : Bien sûr, le catalogage en sera affecté. En effet, l’efficacité a toujours été un leitmotiv du catalogage. Depuis la mise en œuvre d’un catalogue dérivé dans les années 1970, la question d’utiliser le moins de ressources possible tout en fournissant le plus de métadonnées utiles se pose. Nous pouvons reconnaître que le catalogage requiert des qualités intellectuelles humaines, mais il ne faut pas nier que, face au catalogage par dérivation, les rangs des catalogueurs se sont éclaircis, pratiquement cantonnés aux bibliothèques universitaires et nationales. Nous devons également reconnaître que, pour de nombreuses activités quotidiennes, les index générés machinalement à partir de textes, d’images, de musique sont non seulement plus rapides et fréquents, et, eu égard au vaste nombre de requêtes, de qualité supérieure.

C’est pourquoi j’aime l’idée d’une IA dans l’IA, c’est-à-dire l’intelligence amplifiée. Quand vous étudiez en profondeur des sujets et des archives, la capacité humaine à faire de la curation est remarquable. Quand vous étudiez un milliard de pages web, cela devient impossible. Au milieu des années 1990, nous avons essayé pendant cinq dures années de cataloguer le web. En vain. Donc, comment pouvons-nous améliorer la compréhension et les connaissances spécialisées du bibliothécaire avec la puissance de l’IA ?

Un de mes souhaits est que nous nous concentrions sur les services de nos institutions de rattachement. Prenez l’exemple d’une bibliothèque universitaire. Nous pouvons passer beaucoup de temps à rédiger des guides et à mettre à jour nos activités de formation. Mais la vraie question est de savoir de quelle façon l’IA générative va modifier le travail des enseignants-chercheurs. Nous devons répondre à des questions, telles que : Les étudiants remettront-ils des devoirs générés par l’IA ? Est-ce que cela constitue un cas de fraude ? Comment peut-on concevoir de meilleurs énoncés pour les exercices et les évaluations afin de prendre en compte les fonctionnalités de l’IA et de viser le développement de la pensée critique des étudiants ?

L’un des services clés auquel nous devons réfléchir est la crédibilité. Comment travaillons-nous avec nos enseignants et étudiants pour assurer que des informations crédibles soient utilisées dans la recherche et pour les examens, et comment garantissons-nous la crédibilité du corps enseignant au-delà de l’institution ? Comment établissons-nous la confiance dans des sources et leur crédibilité quand ces sources ne reposent pas sur une auctorialité humaine ? Des bibliothécaires pensent ainsi. C’est une approche très différente des celle des universitaires habitués aux « comités invisibles » et à leurs disciplines.

S. J. et P. S. : Dans votre présentation, vous avez indiqué que les professionnels des bibliothèques ont besoin de développer des compétences concernant les données, les algorithmes et l’apprentissage automatique afin de répondre aux défis posés par l’intelligence artificielle.

D. L. : Je voudrais faire un focus sur les programmes d’études supérieures en sciences de l’information et en bibliothéconomie aux États-Unis. Nous observons actuellement l’avantage que procure le développement du modèle des iSchools, à savoir des instituts universitaires en sciences de l’information. Dans ces structures qui ont ouvert en tant qu’écoles d’application dans le domaine de la bibliothéconomie, les programmes se sont ouverts au domaine de l’information au sens large, par la recherche, par la mise en place de diplômes et par le lancement de cursus de premier cycle. Bien qu’il y ait sûrement des programmes où cela a conduit à réduire l’accent mis sur la bibliothéconomie, là où cela fonctionne, cela signifie que les étudiants en bibliothéconomie accèdent facilement à des cours et à la recherche dans les domaines de l’IA, de la science des données et portant sur un grand nombre de sujets centrés sur la technologie.

C’est l’un des avantages des programmes universitaires en bibliothéconomie dans les meilleures universités de recherche. Non seulement les étudiants dans le domaine des bibliothèques profitent des programmes de recherche et de développement dans le champ de l’IA, mais les programmes portant sur l’IA peuvent bénéficier de l’apport de chercheurs disposant de connaissances de sources d’information crédibles, du développement des connaissances et de l’intérêt général, ainsi que de la valeur sociétale de l’ouverture.

Je peux vous donner rapidement l’exemple de trois universités dans lesquelles j’ai travaillé, c’est-à-dire l’université de Syracuse, l’université de Caroline du Sud et l’université du Texas – non pas parce qu’elles sont les meilleures ou parfaites, simplement parce que ce sont celles que je connais le mieux. À l’université de Syracuse, les étudiants inscrits dans le cursus bibliothèques peuvent suivre à leur guise des cours optionnels du programme du domaine de la science des données appliquée ou des systèmes d’information. En Caroline du Sud, les étudiants du cursus bibliothéconomie ont des enseignements en science des données. Ici, au Texas, les étudiants qui se forment aux bibliothèques côtoient des enseignants qui mènent des recherches sur les bibliothèques, sur les enjeux éthiques de l’IA et sur la diversité des environnements numériques en ligne. Des étudiants qui travailleront dans des bibliothèques sont assis à côté d’étudiants qui se destinent à travailler pour Google et Meta.

S. J. et P. S. : Pourriez-vous nous donner un aperçu des objectifs et du périmètre de votre projet de recherche « Library, AI, and Data Driven Education and Research » (LADDER), en français « Bibliothèque, IA et enseignement et recherche fondées sur les données » ?

D. L. : C’est une transition parfaite par rapport à la précédente question. Nous savons que ce n’est pas parce que les étudiants ont accès à ces cours sur l’IA et les données qu’ils les suivent. Cela tient en grande partie à la question de savoir si les étudiants en bibliothéconomie et sciences de l’information ont des affinités avec ces enseignements plus techniques. Et cela dépend pour une part importante aussi des enseignants-chercheurs qui assurent ces cours. Trop souvent, les enseignants qui dispensent des cours en sciences des données et IA n’ont aucune idée de ce qu’est le monde des bibliothèques. Ils ne sont donc pas en mesure de faciliter l’approche de ces sujets pour les étudiants ou de s’appuyer sur des exemples pertinents.

Le programme de recherche LADDER 4

est financé par le Institute for Museum and Library Services, l’agence fédérale américaine indépendante, et forme une promotion de futurs enseignants universitaires venant de disciplines techniques et qui disposera d’une compréhension du monde des bibliothèques. Mes collègues qui pilotent le programme de recherche avec moi, travaillent avec des doctorants sur la conception et l’implémentation de vrais protocoles de recherche dans de vraies bibliothèques. À l’automne 2023, nous allons travailler avec une bibliothèque publique pour concevoir une étude sur la manière dont les données peuvent contribuer à améliorer le service rendu. Au printemps 2024, nous travaillerons avec une bibliothèque scolaire et à l’été, avec une bibliothèque universitaire.

L’automne dernier, nous avons travaillé avec la Austin Public Library, la bibliothèque publique d’Austin au Texas, sur l’exploitation de données sur les collections de la bibliothèque pour voir si ces ressources documentaires étaient utilisées de manière équitable dans l’ensemble du réseau des bibliothèques de la ville. Au printemps 2022, nous avons élaboré une maquette de cours sur l’IA pour des élèves du secondaire. Cet été, nous allons travailler avec notre propre bibliothèque universitaire sur l’utilisation de l’IA pour l’élaboration de réponses du service questions-réponses.

L’idée est que lorsque ces doctorants auront des charges de cours, ils proposeront des enseignements dans le domaine de l’IA et des sciences des données qui soient attractifs et accessibles pour les étudiants dans le domaine de la bibliothéconomie.

S. J. et P. S. : Nous vous remercions vivement d’avoir répondu à nos questions.

Version originale

Libraries and AI seen from the US. An interview with R. David Lankes

Stéphanie Jaunault et Pascale Solon: What is the current state of AI regulation in the US?

David Lankes: There has been a lot of discussion about regulation at the national level. Several hearings before the US Congress. Many of the tech companies developing AI systems, including OpenAI (the developers of ChatGPT) and Google have called for regulation. However, the devil is always in the details. Are these companies looking to lock in their lead in the area? Will there be meaningful safeguards ? The EU is ahead of the US in putting down policy.

For me, the issue is a bit mirky. While generative AI is capturing all of the attention, there have been plenty of areas where AI is already affecting people’s lives. From AI behind social media engagement algorithms, to the massive use of AI in hiring and employment, to public surveillance, AI has been shaping society for over a decade with VERY little public oversight.

S.J. and P.S.: In your talk at the study day on library jobs at Enssib, you underlined the importance for librarians to advocate for an ethical and fair approach to AI and for explainable AI. How could librarians achieve this and influence effectively the debate with powerful private companies? Could you tell us how American libraries are tackling this issue?

D.L: It’s very easy to look at Google and Microsoft and see them as too big to counter or influence. However, they grew out of garage efforts of academics and former college students coming up with unique solutions at the right time. Modern AI owes a lot to public investment and academic development in addition to the private resources. Academic librarians can make great partners with the information and computer scientists seeking to develop ethical AI and explainable AI. So academic librarians can help influence the advancement of the science of AI.

Underneath the recent advances in generative AI is Large Language Models and equivalent techniques in image generation. These depend on ingesting and processing massive amounts of existing text and images from the web. There are obvious issues in terms of copyright and intellectual property. In the US, this is being regulated, in part, by the US Copyright Office…that sits in the Library of Congress. The intellectual property policy will be developed by Congress at the national level, and in the myriad state legislatures. Congressional Research Service, and State Libraries can help inform and influence these processes. Ultimately all this will end up in courts where law librarians in the government and private practices will also have the ability to shape cases and law.

Finally, it comes down the will and work of citizens. Either as voters, as consumers, or as protestors. Public libraries will need to educate and support these actions by members of their communities.

AI is an area where I have seen a lot of proactive work by librarians. There is a little worry about the impact on the profession, but a lot more on testing systems, thinking about academic impact, developing ideas for prompts and so on. Honestly, the biggest challenge in the States is to get our communities to spend less time trying to ban books, and more time on how AI and technology in general is shaping society.

S.J. and P.S.: What do you see as the most likely applications for AI in libraries? Do you think that classical activities, such as cataloguing, will be affected by AI? Are any libraries in the USA developing their own AI-based tools?

D.L.: Of course, cataloging will be affected. After all cataloging has always been driven by efficiency. Since copy cataloging of the 70s the question was always how to spend the least amount of resources for the maximum utility in metadata. We can talk about the human intellectual quality in cataloging all we want, but we can’t deny that the ranks of catalogers have been decimated and nearly relegated to academic and national libraries in the face of copy cataloging. We also have to recognize for so many daily activities machine generated indices in text, images, music, and more are not only faster and more prevalent, but for the vast number of queries, superior.

That’s why I like the idea of AI in IA, Intelligence Amplification. When you are looking deeply into topics and archives, human curation is amazing. When you are looking across a trillion web pages, it is impossible. We tried for 5 hard years to catalog the web in the mid-90s. It was a lost cause. So how can we augment the insight and domain knowledge of the librarian with the scale of AI?

One of my hopes is that we focus on the services of our parent institutions. Take an academic library, for instance. We can spend a lot of time doing LibGuides and updating our instructional activities. But the real issue is how generative AI will change the work of faculty. We have questions like : Will students be handing in AI generated assignments? Is that cheating? How can one better craft assignments to incorporate these functions and focus on improving students’ critical thinking?

One of the key services we should be thinking about is credibility. How do we work with our faculties and students to ensure credible information is used in research and assignments, and how do we ensure the credibility of the faculty beyond the institution? How do we establish trust and credibility in sources that do not rely on human authorship? Librarians think like that. It is a very different word from scholars initiated in invisible colleges and their disciplines.

S.J. and P.S.: In your presentation, you pointed out that librarians need to develop skills related to data, algorithms and deep learning in order to address the challenges of AI. Have training programs for librarians in the US already evolved to address AI? If so, could you give us some examples? If this isn’t the case yet, could you tell us more about the current status of the discussions in the library profession?

D.L.: I’ll just focus on library and information science graduate programs in the US. What we are seeing now is the advantage of the growth of the iSchool model. This is where programs that began as library science schools expanded through their research, their degrees, and their starting undergraduate programs into the larger information domain. While there are certainly cases where this led to less focus on librarianship, where it is working, it means that library students have ready access to faculty courses and research in the areas of AI, data science, and a host of technology-centered topics. These schools haven’t had to ramp up or write new curriculum, because they have been immersed in the issues of AI for a long time.

This is one of the values of having library science academic programs at top research universities. Not only can library students benefit from AI research and development programs, but these AI programs can benefit from scholars with a knowledge of credible information sources, knowledge development and the public good, and the societal values of openness.

So, briefly at the three universities I have worked: Syracuse, South Carolina, and Texas – not because they are the best, or perfect, just what I am most familiar with. At Syracuse, library students can take any elective courses they want from the programs in applied data science or information systems. At South Carolina, library students had course offerings in data science. Here at Texas, library students have access to faculty doing research in libraries, and ethical AI, and diversity in online environments. Students who will go onto work in libraries are sitting next to students bound for Google and Meta.

S.J. and P.S.: Can you give us a little insight in the aims and the scope of your current research project “Library, AI, and Data Driven Education and Research” (LADDER)? What areas of application are you working on with your three partner libraries?

D.L.: Actually, this is a perfect Segway from the previous question. We know that just because library students have access to these AI and data courses, doesn’t mean they take them. A lot of this has to do with whether LIS (Library and Information Science) students feel comfortable in these more technical courses. And that has a lot to do with the faculty who teach the courses. Too often faculty teaching courses in AI and data science have no idea what the library world is like. They can’t build bridges for students, or present relevant examples.

The LADDER 8

program funded by the US Institute for Museum and Library Services, is building a cohort of future faculty from technical backgrounds, that will understand the library domain. My fellow PIs work with doctoral students to design and implement real research in real libraries. So in the Fall, we work with a public library to design a study on how data can help improve service. In the Spring, we work with a school library. And in the summer, we work with an academic library.

Last Fall, we worked with the Austin Public Library to use data on library holds to see if resources were being used equitably around the whole system of library branches. In the Spring we worked on an AI curriculum for high school students. This summer we’re working with our own university library on how AI can be used in answering reference questions.

The idea is that when these doctoral students get their teaching jobs they can make classes on AI and data science attractive and accessible to library students.

S.J. and P.S.: We thank you very much for this interview.