entête
entête

Index, Google et bibliothèques

Dominique Maniez

Quand il entre dans le hall de l’Enssib, le flâneur observateur peut apercevoir, en levant les yeux sur sa gauche, un assemblage de néons multicolores qui sont du plus bel effet à la tombée de la nuit. Cette œuvre, que l’on doit à Maurizio Nannucci, laisse souvent perplexes les visiteurs et rares sont ceux qui découvrent immédiatement que l’artiste a tout simplement imbriqué les lettres du mot INDEX. Que l’école qui est chargée de la formation du personnel des bibliothèques soit, dès que l’on en franchit le seuil, placée sous le signe de l’index est un symbole fort qui, à ma connaissance, n’a jamais été questionné.

Illustration
L’œuvre de Maurizio Nannucci, Index, allumée à la tombée de la nuit.

Il faut préciser d’emblée qu’il y a quelque péril à parler des « bibliothèques » en général, tant il y en a de modèles différents. Cette précaution terminologique s’adresse également au deuxième objet d’étude, l’index, et on évoquera dans une rapide perspective historique des réalités très diverses qui partagent cependant le même nom. Il est important d’étudier les phénomènes techniques sur des temporalités longues, au rebours de la propension actuelle qui, quand on évoque des sujets touchant au numérique, fait fi des périodes antérieures dès qu’elles dépassent la vingtaine d’années, comme si la technologie pouvait être analysée intrinsèquement en éludant ses déterminismes socioculturels  1.

Même si cet article évoque des techniques documentaires très précises, il a pour ambition de rester dans un registre épistémologique et a pour objectif de montrer comment les domaines du livre et du document tissent un rapport dialectique avec cette technologie de l’intellect que l’on appelle index.

Des premiers index de livres au web sémantique

Il ne s’agit pas ici de retracer à grands traits l’histoire des index de livres  2, mais d’en extraire certaines caractéristiques qui sont susceptibles d’éclairer le propos. À l’échelle de l’histoire du livre, les index sont finalement apparus relativement tard, car l’ordre alphabétique a mis du temps à s’imposer et les pratiques de lecture médiévales ne permettaient pas d’envisager cet outil de repérage comme indispensable. Si les index de livres ont pu se développer à partir du xvie siècle, c’est bien entendu à cause de l’essor de l’imprimerie, mais il serait illusoire d’imaginer que cette invention en soit l’unique raison. C’est en effet une conjonction de facteurs techniques, linguistiques et culturels qui a permis la modélisation de cet auxiliaire de lecture qui a encore sa place de nos jours à la fin de certains ouvrages. En perdant de vue cette origine multifactorielle et en oubliant la longue histoire des index de livres, nous pensons que les informaticiens qui abordent aujourd’hui les problématiques de l’indexation du web vont dans la mauvaise direction, et laissent de côté des considérations épistémiques qui méritent d’être approfondies.

Il ne s’agit pas pour autant de reléguer aux oubliettes la technologie, et chacun, sans être spécialiste de la question, peut aisément constater que des progrès considérables ont été réalisés en matière d’indexation depuis une dizaine d’années. Dans cette optique, il est toujours intéressant de se replonger dans le passé, et nous renvoyons le lecteur à deux excellents articles de Dominique Lahary et de Jean-Claude Le Moal qui ont été publiés en 2002 dans le BBF 3. À la lecture de ces articles, qui ne sont finalement pas si anciens que cela, chacun voit bien que les choses ont évolué à grande vitesse. Dominique Lahary tenait, par exemple, les propos suivants : « Il y a enfin, ce qui agite les bibliothécaires qui peuvent y voir une confirmation ou au contraire une négation de leurs traditions, la notion de métadonnées (metadata), ces données sur les données qui peuvent être contenues dans la ressource électronique elle-même ou dans un enregistrement séparé, et qui font l’objet de formalisation comme le RDF (Resource Description Framework). »

Aujourd’hui, RDF et OWL  4 sont à la base du web de données, que l’on appelle également web sémantique  5 ou web 3.0. Et l’on est bien obligé de se rendre à l’évidence : ces technologies sont aujourd’hui matures et implantées dans des outils que nous employons couramment. Par exemple, c’est le projet Isidore  6 qui permet aux ressources de l’université ouverte des humanités (UOH) 7d’être moissonnées automatiquement. Projet d’envergure piloté par le TGE Adonis, Isidore est sans doute la réalisation française la plus emblématique du web sémantique à l’heure actuelle, mais il existe une myriade d’autres initiatives en cours dans ce secteur qui est foisonnant  8.

Le tour de force du web sémantique est sans doute d’arriver à extraire des informations pertinentes de données qui à la base ne le sont pas forcément. Par exemple, un projet comme DBpedia  9, qui vise à sémantiser Wikipédia, arriverait presque à vous réconcilier avec cette encyclopédie collaborative.

Toujours plus vite

Pour résumer, grâce au web sémantique, on dispose aujourd’hui d’index construits de manière automatique qui permettent d’accéder à des données pertinentes si l’on emploie les bons outils. Il demeure cependant une question embarrassante : combien sommes-nous à utiliser ces bons outils ? Il ne s’agit pas ici de reprendre un procès contre Google qui a déjà été instruit  10, mais bien de constater qu’une immense majorité des étudiants, des enseignants et des personnels de bibliothèque (pour ne citer que ces catégories socioprofessionnelles qui sont censées avoir des rapports privilégiés avec l’information scientifique et technique) utilisent systématiquement le moteur de recherche de la firme de Mountain View en première intention dès qu’il s’agit de trouver la moindre information, qu’elle soit factuelle, anecdotique, savante ou technique. C’est un fait établi que peu de gens de bonne foi osent aujourd’hui contester, et le recours à Google est devenu un réflexe conditionné contre lequel il est sans doute vain de vouloir lutter.

Il y a cependant une difficulté supplémentaire : dans l’esprit de bon nombre d’internautes, il existe une équation plus ou moins consciente que l’on peut formuler en ces termes : Google = internet = bibliothèque. Même si la métaphore d’internet vue comme une immense bibliothèque a été employée assez tôt, au fur et à mesure que l’on s’est rendu compte que le web engrangeait des documents à une vitesse exponentielle, l’équivalence symbolique entre le moteur de recherche et le contenu de ce qu’il est censé indexer a été relativement peu étudiée. Chacun voit bien cependant que le fait que Google soit la page d’accueil d’un grand nombre de navigateurs ou que la fenêtre de recherche du navigateur soit quasi systématiquement celle de Google entretient l’illusion que le navigateur Google est le seul moyen d’accéder au web. Et, dans les faits, c’est bien ce qui se passe. Si c’est le rôle du navigateur d’interpréter le code des pages web pour l’afficher, le recours à Google est devenu indispensable pour accéder aux sites web, car plus grand monde ne prend la peine de saisir directement une adresse dans la barre d’adresses du navigateur. Par métonymie, Google devient le web, ce qui, si l’on met à part les données du web invisible, n’est pas tout à fait inexact, puisqu’il a pris soin d’inclure dans sa base de données toutes les pages d’internet qu’il a pu télécharger.

Si l’on admet que Google se résume à son index, il en découle une autre équation : index = internet = bibliothèque. Ce renversement dialectique est saisissant, car un bibliothécaire a sans doute du mal à imaginer que le catalogue de sa bibliothèque soit équivalent à la somme des livres qu’il inventorie. Cette confusion se fait bien évidemment au détriment de la bibliothèque, que l’on n’a plus besoin de fréquenter puisque l’on a accès à internet. Dans cette dérive sémantique, l’index est confondu avec la bibliothèque, comme si les métadonnées étaient devenues aussi importantes que les données. On serait presque tenté de résumer cette situation par la formule suivante : « Quand le bibliothécaire montre la lune, l’imbécile regarde l’index. »

Cette hérésie se double d’une autre plaie du monde contemporain, la dictature du temps réel. Si Google a arrêté depuis longtemps de communiquer sur la taille de son index, il continue à afficher le temps de chaque requête effectuée sur le moteur de recherche. Plus la requête est rapide, plus les liens commerciaux s’afficheront vite. De nombreux théoriciens, notamment Paul Virilio, ont réfléchi à cette fuite en avant qui consiste à vouloir toujours aller plus vite, et il faut bien reconnaître que l’usage omniprésent des nouvelles technologies de la communication a contribué à renforcer cette pente dangereuse. Cette quête de l’urgence qui est caractéristique des sociétés capitalistes modernes  11 participe à l’aliénation de l’internaute, qui est avant tout considéré comme un client potentiel, plutôt que comme un citoyen souhaitant s’informer. Ce désir d’instantanéité, qui frise parfois la névrose, est bien entendu un frein à la formation scientifique et technique, mais tous ceux qui fréquentent de près des étudiants savent pertinemment que la concurrence est devenue déloyale entre internet et la bibliothèque universitaire.

Face au web qui est un monstre froid et secret  13 voyant en chaque internaute un consommateur potentiel  14, le bibliothécaire doit jouer un rôle citoyen de premier plan si l’on croit encore aux vertus du service public ainsi qu’à la fonction émancipatrice de l’éducation à l’Information Literacy. Par le jeu de dérives technicistes, un certain nombre de professionnels de l’information-documentation ont réussi à mettre l’être humain au second plan, et il convient aujourd’hui de reconquérir le terrain perdu. Il est sans nul doute plus facile de dresser un constat d’échec que de proposer une solution miracle à ce problème, mais nous avons le sentiment que le monde des bibliothèques doit avant tout miser sur ses atouts et ne pas courir après Google en multipliant les partenariats, même si cela fait augmenter dans des proportions importantes les statistiques de consultation des bibliothèques numériques. Il ne s’agit à ce stade-là même plus d’une question d’éthique, mais de stratégie. Si l’on veut que nos concitoyens retournent dans nos bibliothèques pour chercher de l’information et non plus consommer des données, il faut miser sur l’humain, sinon les bibliothèques seront mises à l’index. •