Google Books au service de la recherche historique, ou Éloge du chaos

Valérie Neveu

« Monstrum horrendum, informe, ingens… » (Virgile, Énéide, livre III, v. 658)

Google Books  1 présente de nombreux traits susceptibles de susciter l’indignation des bibliothécaires, sur le plan strictement technique – je m’abstiendrai ici volontairement de tout commentaire sur les points juridiques qui font habituellement polémique (contrats de Google avec les éditeurs et les bibliothèques, question du droit d’auteur, etc.). Techniquement donc, le produit est désordonné, mal fini, parfois mal numérisé (pages répétées, inversées, déformées), océrisé de façon calamiteuse – pour les livres anciens en tout cas. Certaines notices, collectées dans on ne sait quelles conditions, recèlent des fautes de catalogage grossières. La date est souvent fausse : le système prend pour la date de publication une date simplement mentionnée au titre, ou présente un fac-similé comme un original. Les doublons pullulent, tandis que les séries sont dépareillées : souvent on trouve quatre fois le même tome 2, et on ne trouvera jamais le tome 1. Et ainsi de suite ; on peut allonger à plaisir la liste des défauts.

En vérité, ce corpus n’est pas une « bibliothèque numérique » au sens où nous, professionnels, aimons à la définir. On n’y discerne ni contrôle qualité, ni organisation, ni politique documentaire, ou, en tout cas, s’il existe quelque chose d’approchant chez Google, le public n’en est pas averti. Quant aux services (accès gratuit, conservation des données), leur pérennité est incertaine. Ajoutons le secret industriel jalousement gardé par Google qui nous empêche de connaître le nombre exact d’ouvrages numérisés, leur répartition par pays et par siècle, la part d’ouvrages libres de droits ou non, toutes informations que les bibliothèques de service public doivent à leurs lecteurs.

Et pourtant… « Bibliothèque numérique » ou pas, Google Books est un outil « incontournable » pour le chercheur, malgré ou parfois grâce à ses défauts.

L’intérêt du chercheur

Quel est donc l’intérêt pour le chercheur d’utiliser Google plutôt qu’une bibliothèque numérique bien constituée et bien policée ? Avant tout, la masse des données disponibles, abondance inégalée à ce jour ; ensuite, l’absence de sélection qualitative des documents. Google ne trie pas, ne choisit pas, c’est entendu. Et d’ailleurs à quoi bon, si l’objectif est de numériser la totalité de la production écrite ? Une politique documentaire ne se conçoit que dans le cadre d’une collection limitée. Dans le grand tout visé par Google, l’organisation méthodique par rubriques et subdivisions du savoir est abolie au profit de la seule gestion d’une masse textuelle par le moteur de recherche (d’où la nécessité pour Google d’océriser tout, à tout prix, même si le résultat est souvent exécrable). Dans cet amas de données non hiérarchisées, la confusion peut donner le tournis. Mais, en contrepartie, des perles attendent le chercheur en quête de sources nouvelles ou inédites.

Avant tout, il convient de prendre Google Books pour ce qu’il est, un corpus de textes intégraux, que l’on ne pourra exploiter pleinement que si l’on rentre dans le jeu des outils Google. Google Books n’est pas vraiment une bibliothèque numérique, mais un service, autrement dit une application construite autour du moteur de recherche, le cœur de métier de Google qui continue à faire sa force. Le modèle Google reposant sur l’alliance de l’indexation plein texte, du moteur de recherche et de l’affichage ultrarapide des données trouvées reste d’une efficacité redoutable, même si les progrès constants des produits concurrents tendent, jour après jour, à effriter la position dominante du produit américain.

Le chercheur avisé commencera par poser un signet sur la page « Recherche avancée », étape indispensable pour sélectionner les ouvrages numérisés en plein texte (page que Google tend maintenant à cacher au grand public, pour des raisons sans doute liées à sa stratégie commerciale). Puis il fera une utilisation judicieuse des cases « pages contenant ». C’est là que le moteur de recherche donnera sa pleine mesure, pourvu que l’on soit plus rusé que la machine. Ainsi, le chercheur devra redresser de lui-même les aberrations de l’océrisation à la Google, non vérifiée par une intelligence humaine, et qui donne une physionomie si étrange à nos classiques : voyez par exemple « Rage defefpoir ô vieilleffe ennemie N ay ie dont tant vefcu que pour cette infamie » (Le Cid, éd. de 1639). Une fois que l’on a compris qu’il faut taper f au lieu de s, cela va beaucoup mieux… Et on est dès lors paré pour étudier – pourquoi pas – le thème de la vieillesse dans la littérature classique, à travers les occurrences du mot dans le théâtre ou le roman français.

Grâce à son océrisation intégrale, et malgré ses erreurs souvent grossières, Google Books reste aujourd’hui supérieur à toute autre bibliothèque numérique partiellement océrisée ou convertie en mode texte, pour la recherche de mots dans les livres anciens, tous pays et tous siècles confondus : rien ne vaut Google pour un balayage efficace et rapide de l’ensemble de la production, au moins dans une première phase de recherche. Certes, les erreurs feront manquer des occurrences, mais sur la masse traitée on arrivera toujours à remonter suffisamment de réponses pour obtenir des résultats significatifs. Par exemple, je me suis intéressée à l’usage du mot « hétérodoxe » aux XVIIe et XVIIIe siècles : qui l’emploie ? Dans quelles circonstances ? Avec quelles nuances de sens ? C’est Google Books qui m’a donné le panorama le plus large de ces usages, des Actes du synode national de Dordrecht (1624) à l’Encyclopédie ; panorama qui serait évidemment à affiner et à enrichir par des recherches dans des bibliothèques spécialisées par pays, par thème, par période, et de réalisation plus soignée. De même pour l’expression « lieux communs », thème auquel je me suis intéressée récemment : la recherche ramène plusieurs milliers de réponses dans Google pour le XVIe siècle, là où les réponses, dans d’autres bibliothèques numériques, se comptent sur les doigts d’une main.

Au sein de ces réponses, ce sont surtout les auteurs « petits, obscurs et sans grade » que l’on pourra redécouvrir, car ceux-ci sont numérisés et exposés dans la liste des résultats de recherche au même titre que les grands noms, sans aucune discrimination. Pour paraphraser Hugo, on peut dire que dans Google « sur le Racine [sous-représenté] le Campistron pullule », offrant ainsi une singulière cartographie littéraire, plus révélatrice sans doute de la composition réelle des fonds anciens que des collections numériques raisonnées qui traitent en priorité les auteurs majeurs du patrimoine intellectuel. Or les seconds couteaux, que la postérité n’a pas inscrits au catalogue des classiques, ne sont-ils pas d’aussi bons témoins, et parfois de meilleurs, des mentalités de leur temps ? Et la numérisation de leurs œuvres n’offre-t-elle pas une excellente occasion de renouveler le corpus de sources à étudier ?

Je vois un troisième avantage à l’aimable désordre cultivé par Google Books. Dans sa collecte tous azimuts, Google ne recule pas devant des pièces ne relevant pas de la « littérature » dans l’acception commune ; il fait ainsi une large place aux publications officielles, aux brochures techniques, aux publications éphémères publicitaires ou de circonstance, autant de documents précieux pour l’historien. Un exemple : c’est dans Google que j’ai découvert le mode d’emploi du fichier « Bonnange », matériel de bibliothèque aujourd’hui bien oublié mais qui a joué un rôle crucial dans le passage du catalogue-registre au fichier, à la fin du XIXe siècle.

À mettre enfin au crédit de Google Books : la diversité linguistique. Si le projet initial a suscité des craintes quant à l’hégémonie possible de l’anglais, force est de constater que ce phénomène ne s’observe pas du tout pour les livres anciens. Grâce au non-choix fait par Google, la composition des bibliothèques partenaires, situées dans plusieurs pays, s’en trouve fidèlement reflétée, et la palette de langues représentée permet au chercheur de trouver des sources issues de toutes les cultures européennes : moisson abondante en français, mais aussi en latin, en allemand, en italien, en espagnol. C’est ainsi que, pour ma recherche sur les lieux communs, j’ai pu très commodément faire le tour de la production européenne en variant la langue : « loci communes » (à décliner aux divers cas), « luoghi co(m)muni », etc.

Et demain ?

Cependant, au fil des ans, Google perd de sa singularité et de son originalité, à mesure que les autres bibliothèques numériques s’enrichissent, poursuivent leur océrisation, agrègent de plus en plus de données, et élargissent leur domaine de couverture à des types d’ouvrages nouveaux. Dans le champ de la recherche en histoire des bibliothèques, par exemple, la récente collection de l’Enssib « Classiques de la bibliothéconomie  2 », s’intéresse précisément à ces textes professionnels et techniques délaissés par les premiers programmes de numérisation, et qu’on ne trouvait naguère que sur Google. Du côté des services, si la rapidité de l’affichage reste un point fort, Google Books cède du terrain sur l’interface utilisateurs. Là où les vraies bibliothèques numériques offrent des comptes lecteurs très performants gérant mots-clés, collections personnelles, et parfois alertes, Google Books ne propose qu’une indexation par « étagères » malcommode, et dans son désir forcené de rediriger l’utilisateur vers l’ensemble des produits Google (désormais fédérés autour de Google Play  3), rend la recherche spécifique de livres de moins en moins visible, et la recherche avancée presque inaccessible.

Le chaos googelien, dont je peux encore faire l’éloge en ce début 2012, me semble porteur pour l’avenir de plus de risques (de confusion, de fermeture, de marchandisation) que de chances. Mais pour l’instant, ne boudons pas notre plaisir, et, bibliothécaires ou chercheurs, sachons faire feu de tout bois. Refusons toute exclusive et glanons, dans les collections numériques qui nous sont proposées, de quoi faire progresser notre recherche, ad majorem scientiae gloriam.