Gallica (1997 – 2016)

De la bibliothèque de « l’honnête homme » à celle du Gallicanaute

Sophie Bertrand

Aline Girard

Avec 3,7 millions de documents disponibles, la bibliothèque numérique Gallica proposée par la BnF connaît une évolution constante. L’accroissement de ses collections, l’optimisation de ses fonctionnalités, l’interaction dynamique avec de nombreux partenaires numériques, le renforcement des relations avec les Gallicanautes sont les principales caractéristiques de son développement, une vingtaine d’années après sa création.

The BnF's digital library Gallica and its 3.7 million documents is constantly growing. Expanding the collections, improving the interface, promoting dynamic interactions with the programme's digital partners, and furthering dialogue with users, known as "Gallicanauts", are key to the project's development, nearly twenty years after it was initially launched.

Gallica propose aujourd’hui 3,7 millions de documents issus majoritairement des fonds de la Bibliothèque nationale de France (BnF), mais aussi de ceux de ses partenaires. Cette bibliothèque numérique, devenue aujourd’hui collective, a une vingtaine d’années et connaît une évolution constante : accroissement de ses collections, fonctionnalités optimisées, interaction dynamique avec de nombreux partenaires numériques, relation de plus en plus étroite avec les Gallicanautes 1. Gallica n’est pas simplement une interface de mise à disposition de documents patrimoniaux, mais l’une des matérialisations complexes d’une politique de diffusion et de conservation du patrimoine menée par une institution nationale.

Mettre en ligne est-il un acte suffisant pour répondre au devoir de diffusion du patrimoine sur le web ? Le sentiment que tout numériser était possible n’est pas sans faire écho aux premières réactions des personnages qui découvrent la bibliothèque de Babel : « Quand on proclama que la bibliothèque comprenait tous les livres, la première réaction fut un bonheur extravagant  2. » Néanmoins, atteindre l’exhaustivité est à tel point un illusoire dessein qu’apparaît l’oxymore « d’exhaustivité relative » ou « exhaustivité raisonnée 3 » pour qualifier un des objectifs de l’entreprise d’enrichissement de Gallica 4 amorcée depuis deux décennies.

Gallica en chiffres (au 31 décembre 2015)

La fréquentation

Visites : 16 millions en 2015 (1*)

Nombre moyen de pages vues par visite : 21,1

Temps moyen par visite : 13 min 46 s

La collection

• Gallica

3 654 758 documents, soit 1 519 téraoctets de données.

Dont, par provenance

– 3 437 465 documents issus des collections de la BnF et des bibliothèques partenaires et pleinement consultables dans Gallica

– 217 293 documents issus des collections des bibliothèques partenaires et référencés par interopérabilité des bibliothèques numériques

Dont, par type de documents (contenus consultables dans Gallica)

– 314 902 livres, dont 201 902 en mode texte

– 1 522 504 fascicules de presse et revues, dont 1 063 138 en mode texte

– 1 226 940 images

– 49 999 manuscrits

– 39 924 partitions

– 95 026 cartes

– 34 431 documents sonores

– 178 608 objets

– 13 vidéos

Dont, par siècle (à titre indicatif, pour les contenus consultables dans Gallica)

Illustration
Gallica, la collection par siècle

• Gallica intra-muros

3 849 049 documents

(1*) Gallica, Gallica embedded, Gallica intra muros, Gallica Labs et Numistral, d’une part, et site mobile et applications Gallica pour iPad et Android, d’autre part.

    De quelle collection numérique parle-t-on ?

    Lancée dans les années 1990 dans la perspective de créer une bibliothèque numérique de « l’honnête homme », encyclopédique et raisonnée, Gallica a ouvert en 1997 avec 20 000 titres et visait un objectif de 100 000 titres : éditions consacrées par la postérité dans toutes les disciplines ; textes présentant les contextes culturel et scientifique des grandes œuvres ; documents connexes pour l’étude et la recherche, comme les périodiques et les ouvrages de référence. Une nouvelle version est mise en ligne en 2000, avec les premiers parcours thématiques structurés au sein des collections numérisées.

    En 2004, la première charte documentaire précisait l’évolution des collections 5 : les quelque 100 000 documents imprimés, 80 000 images et 30 heures de son alors disponibles dans Gallica s’inscrivaient dans une dominante disciplinaire en Histoire, Littérature, Sciences et Techniques. Majoritairement francophones, ces ressources libres de droits proposaient une large variété de supports et allaient de l’Antiquité à la première moitié du XXe siècle, avec une forte présence de documents publiés au XIXe siècle. Un premier programme ambitieux de numérisation était lancé en 2005, celui de la presse quotidienne. En 2007, Gallica offrait 350 000 titres.

    La période 2007-2009 a vu la mise en œuvre de la numérisation de masse en réaction à l’initiative de Google et le choix de la reconnaissance optique de caractères (OCR) pour une recherche au cœur des textes. Gallica s’est d’abord rapidement étoffée par la numérisation des livres et revues (2007), puis des collections spécialisées (2009) de la BnF. Ayant à conduire presque du jour au lendemain une entreprise industrielle de numérisation avec plus de 100 000 imprimés par an à dématérialiser, la BnF a procédé dans un premier temps non par sélection des documents, mais par désélection : une fois les fonds choisis par les départements d’imprimés  6 à partir de la cotation Clément qui classe en 23 divisions systématiques les imprimés entrés à la BnF de la fin du XVIIe siècle à 1996  7, étaient retirés les documents sous droits, les documents étrangers et ceux trop fragiles pour supporter la numérisation de masse.

    Ont été néanmoins affirmés trois grands principes pour la politique de numérisation, qui a pris progressivement en compte une grande variété de supports :

    • l’intérêt patrimonial : les documents auxquels la qualité esthétique, la valeur historique, la provenance, la rareté, confèrent un statut de chef-d’œuvre ou de trésor ;
    • l’intérêt documentaire : sanctionné par les pratiques de la recherche, il caractérise les ensembles le plus demandés ;
    • l’exigence de conservation : elle motive la numérisation des documents fragilisés ou dont l’état rend la communication difficile ou risquée  8. L’audiovisuel fait l’objet d’un traitement particulier (700 000 documents numérisés), les supports magnétiques, optiques et mécaniques étant fragiles et menacés de dégradation accélérée.

    Depuis 2009, la dématérialisation des imprimés se poursuit, tout en s’efforçant d’équilibrer quantité et sélectivité, à travers notamment la numérisation par corpus, et de répondre aux demandes des usagers (numérisation à la pièce). Ce concept s’applique également aux collections spécialisées, à partir desquelles sont également constitués des ensembles documentaires à la fois cohérents et massifs, comme c’est le cas pour les cartes et plans, les partitions ou les monnaies (un quart des 700 000 monnaies de la BnF est numérisé) 9.

    Illustration
    Programme de numérisation concertée de 1995 à 2013

    Mobilisée sur le front de la production et de la diffusion, la BnF a remis à plus tard la rédaction d’un document stratégique et programmatique pluriannuel. La Charte de la numérisation de la BnF est actuellement en cours d’élaboration couvrant la période 2015-2020 ; elle éclairera la politique de numérisation de l’établissement, tout comme la Charte documentaire des enrichissements des collections (mars 2016) en éclaire la politique d’acquisitions 10.

    Depuis la fin des années 2000, la BnF a fait de la numérisation l’axe central de sa politique de coopération en France comme avec l’étranger.

    Au plan national, elle s’attache à favoriser la numérisation du patrimoine écrit des bibliothèques françaises et à créer de manière collaborative de vastes ressources patrimoniales numérisées destinées à enrichir Gallica, mais aussi les autres bibliothèques numériques. Pour faire suite aux recommandations du Schéma numérique des bibliothèques (mars 2010) 11 – mais confirmant ainsi une démarche engagée par la BnF depuis la fin des années 1990 avec les premiers programmes coopératifs de numérisation (publications des sociétés savantes et des académies nationales) –, la numérisation partenariale est organisée préférentiellement autour de programmes structurants – disciplinaires et d’intérêt régional – et de programmes de corpus 12. La complétude documentaire est recherchée pour que les ensembles constitués soient cohérents et fassent sens. Ainsi les programmes de numérisation en Sciences juridiques, Art et Littérature pour la jeunesse ambitionnent-ils la mise en ligne à moyen/long terme d’ensembles homogènes scientifiquement pertinents (par exemple, pour les programmes évoqués, toutes les sources du droit coutumier, tous les catalogues de vente français, tous les abécédaires). Les projets de reconstitution virtuelle de corpus plus ciblés ont les mêmes objectifs (l’intégralité des portulans français) 13.

    Cette option n’exclut cependant pas des programmes bilatéraux spécifiques, également légitimes sur le plan documentaire et producteurs de ressources numériques de grande qualité  14. Les partenariats nationaux de recherche sont eux aussi apporteurs de contenus numérisés, comme dans le cas de l’Equipex Biblissima 15 ou du Labex Obvil  16.

    La coopération internationale et le mécénat font de leur côté entrer dans Gallica des contenus très diversifiés, dans le cadre de programmes européens (Biodiversity Heritage Library for Europe 17, Europena Regia 18, Europeana Collections 1914-1918  19), bilatéraux (France-Chine  20, France-Brésil  21, France-Japon  22), multilatéraux (International Dunhuang Project  23) ou sur projets (Roman de la rose  24, presse ottomane en français  25, numérisation de manuscrits arabes, turcs et persans, etc.), souvent ouverts aux autres bibliothèques françaises ainsi associées à des projets scientifiques à large visibilité  26.

    Aujourd’hui, Gallica s’enrichit grâce à trois modes d’entrée de contenus patrimoniaux externes dans la bibliothèque numérique : l’intégration par numérisation de documents physiques des partenaires dans les marchés de dématérialisation et ateliers de la BnF  27, l’intégration de fichiers numériques et le référencement des bibliothèques numériques des partenaires par moissonnage (interopérabilité OAI-PMH). Gallica donne accès aux collections numérisées de 300 partenaires, avec un apport de plus de 400 000 documents en provenance d’autres institutions  28.

    L’ancienneté de l’entreprise, l’éventail des axes de numérisation de la BnF, la diversité des programmes coopératifs et la variété des canaux qui alimentent Gallica obligent à s’interroger sur la nature de cette collection numérique hors norme de près de 4 millions de documents  29.

    Gallica se définit-il seulement par le volume croissant
    de son contenu patrimonial ?

    La Bibliothèque nationale de France  30 et les bibliothèques municipales  31 de l’Hexagone détiennent quelque 25 millions de livres ou de manuscrits antérieurs au XXe siècle. Il faut y ajouter les fonds patrimoniaux des bibliothèques universitaires et spécialisées, encore difficilement quantifiables à ce jour malgré les remarquables avancées de la description des fonds et de la rétroconversion des catalogues, que reflète le Catalogue collectif de France  32. Au regard de ces seuls chiffres, il apparaît donc que Gallica ne donne à voir qu’un faible échantillon des fonds disponibles dans les bibliothèques françaises. En 2012, Denis Bruckmann, à raison, pose la question de manière directe : « Que représentent les 300 000 ouvrages numérisés par rapport aux millions conservés  33 ? » Nombre de bibliothèques possèdent des fonds qui s’apparentent à un « bois dormant » avec des livres qui ne sont jamais empruntés ou feuilletés. Pierre-Marc de Biasi rappelle qu’« un calcul effectué en 1995 a montré qu’en moyenne chaque livre conservé à la Bibliothèque nationale de France avait une chance d’être communiqué à un lecteur tous les treize ans  34 ». Mais ce résultat doit être pondéré puisque certains titres suscitent plus de communications que d’autres. Numériser semble une entreprise presque dérisoire, il reste tant à faire.

    S’ajoute à ce constat le fait que, grâce au dépôt légal, la collection de livres et revues s’accroît à raison de 6 km de papier par an, sans parler des autres documents imprimés (presse, partitions, cartes, etc.). La révolution de l’édition numérique est en cours, mais pas au point de réduire drastiquement le volume de papier, d’autant plus que la production éditoriale est exponentielle au regard du nombre de titres publiés par an (près de 76 000 titres par an en moyenne sur les quatre dernières années). Le patrimoine n’est pas un ensemble aux limites clairement définies et doit s’appréhender comme une matière en perpétuelles extension et recomposition  35 du fait de la patrimonialisation progressive des collections. Le travail de catalogage a posteriori réalisé par le service de l’Inventaire rétrospectif de la BnF illustre à quel point le signalement des collections à travers les siècles peut s’avérer lacunaire. Tous les jours, par des dons et des legs de collectionneurs privés, le patrimoine s’enrichit et s’agrandit en parallèle de la procédure instituée du dépôt légal.

    Recenser le patrimoine écrit est donc un travail de navigateur qui se doit de tenir le cap face aux marées de documents « endormis », « oubliés » ou inédits qui sont stockés dans les bibliothèques. Aussi, à la question « peut-on tout numériser ? », la réponse est clairement « non ». Le principal enjeu n’est donc pas là, même si Gallica acquiert une visibilité et une notoriété internationale grâce à sa nature d’important « réservoir » documentaire  36.

    Gallica n’est-il pas aussi un miroir révélateur des enjeux numériques de la BnF ?

    Alors même qu’il s’agit d’une entreprise sans fin au regard de la définition dynamique du patrimoine écrit, un des paradoxes de la numérisation patrimoniale est de se fonder pour grande partie sur des processus industriels de traitement encadrés par des marchés publics de numérisation. Ce dispositif a l’avantage d’assurer une productivité certaine, puisqu’à peu près 1 500 nouveaux documents de tous types sont mis en ligne sur Gallica chaque semaine. Afin d’intensifier la production de fichiers numériques, la BnF a initié des partenariats publics/privés permettant, selon Bruno Racine, « une démultiplication phénoménale de l’accès à (une) collection quasiment inconnue et pratiquement inaccessible en dehors de quelques spécialistes  37 ».

    Une des premières raisons qui légitime la numérisation patrimoniale est donc la mise à disposition de ressources documentaires pour chaque citoyen. Le document numérisé devient alors un véritable bien commun dès lors qu’il est diffusé librement et gratuitement sur la Toile puisqu’il est non rival et non exclusif. Gallica représente tout à la fois un objectif (chaque citoyen doit avoir accès à un bien commun culturel) et un moyen (Gallica est un outil de diffusion). Cette dimension politique – dans le sens où cela participe à l’organisation de l’accès au savoir – a été perceptible à travers le positionnement de Jean-Noël Jeanneney  38 face au défi lancé par Google en décembre 2004. Lorsque l’entreprise californienne annonce qu’elle souhaite numériser sur six ans 15 millions d’ouvrages, le risque pressenti par le président de la BnF de l’époque est de voir, pour certains livres, se réduire leur capacité à demeurer un bien commun. Google pourrait décider un jour ou l’autre de restreindre les accès à ces documents patrimoniaux. Cette position a été largement soutenue par les pouvoirs publics qui ont donné à la BnF les moyens financiers d’une ambition numérique nationale à travers la numérisation de masse de ses seuls fonds dans un premier temps, des fonds d’autres bibliothèques dans un second temps.

    Mis à part cet événement, Gallica continue de se construire en « réaction » à de nouveaux enjeux proposés à la BnF. Il ne s’agit plus seulement de se positionner par rapport à certains acteurs du GAFA  39. Gallica révèle aussi les ressources numériques nouvellement créées par les différents professionnels du secteur du livre au travers de chantiers nationaux inédits, comme le projet de numérisation des livres indisponibles du XXe siècle  40 ou bien encore les partenariats publics-privés dans le cadre des Investissements d’avenir  41, sans oublier, bien sûr, le dépôt légal des livres numériques. Gallica n’est plus seulement une plateforme d’accès au contenu relevant du domaine public  42, mais devient peu à peu un outil de signalement. Ainsi, dans les listes de résultats de Gallica, sont aujourd’hui référencés des documents exclusivement consultables dans leur intégralité sur Gallica intra-muros  43 que ce soit des ressources nées numériques ou des avatars de documents physiques.

    Gallica mue régulièrement et le développement de ses fonctionnalités constituent autant de marquages explicites de ces évolutions  44 ; elle réinvente, au fil des nouveaux enjeux numériques de la BnF, l’imbrication pertinente qu’elle doit avoir avec les missions de l’institution. Gallica était à l’origine l’outil informatique de mise à disposition des documents à la BnF (sur des PLAO  45) avant de devenir un service « hors les murs » avec l’arrivée du web. Aujourd’hui, Gallica réaffirme sa complémentarité avec les salles de lecture de la BnF mais d’une manière différente. L’exemple des archives du Web, disponibles dans les emprises de la BnF, illustre le fait que le Gallicanaute, pour embrasser toutes les formes du patrimoine numérique, doit aussi exploiter des services en intra-muros.

    C’est un des paradoxes assumés de l’histoire de Gallica, qui tout en étant le symbole de la numérisation des fonds patrimoniaux, recrée avec régularité une logique d’ancrage dans les sites physiques de la BnF pour assurer un lien entre patrimoine dématérialisé et patrimoine né numérique.

    Les mues de Gallica en font-elles en soi un objet patrimonial ?

    Gallica répond à une définition plurielle à plus d’un titre. D’abord, la bibliothèque numérique propose de plonger dans un grand réservoir documentaire aussi riche que varié et suggère aussi des documents en les signalant sans rien dévoiler de leur contenu ou en n’en montrant que des extraits. Elle construit de plus en plus dans l’acte de recherche un lien entre le domaine public et les contenus sous droits en créant une étroite articulation avec Gallica intra-muros. Ensuite, Gallica offre une forêt touffue de documents mais, depuis 2013, trace avec régularité des chemins et des carrefours balisés vers des collections par le biais de la médiation numérique. Enfin, Gallica se laisse de plus en plus apprivoiser par ses usagers et tend à se définir à travers eux.

    Ces différents éclairages traduisent que Gallica n’est pas seulement un contenant dématérialisé mais est en soi un objet patrimonial révélant l’aventure de la numérisation de la BnF. La bibliothèque numérique traduit l’évolution méthodologique et technique de la numérisation patrimoniale réalisée par une institution nationale. La BnF, pour garantir la mémoire des objets qu’elle conserve, doit s’assurer que les différentes déclinaisons d’un contenu sont préservées. Gallica illustre non seulement les strates technologiques de la numérisation réalisée depuis vingt ans  46 mais exprime aussi le continuum qui existe dans les supports qui se succèdent, par exemple la numérisation en continu des microfilms. Ainsi, la conservation des documents patrimoniaux impliquerait une mise en abyme sans fin.

    Gallica est donc le résultat d’une double exigence : numériser toujours mieux pour améliorer le confort de lecture de l’usager, numériser toujours plus pour réduire le risque de perte irrémédiable d’un document. Bref, comme le dit joliment l’architecte Massimiliano Fuksas : « Réunir des besoins différents, souvent opposés, est une manière d’appréhender et de vivre les mille contradictions de notre temps. D’où le chaos. Un chaos sublime  47. »

    Le Gallicanaute est-il l’anima  48 de Gallica ?

    Ces contingences techniques mêlées à la productivité numérique exceptionnelle de ces quinze dernières années auraient-elles éloigné Gallica de sa définition initiale de « bibliothèque de l’honnête homme » du dix-septième siècle qui « sait quelque chose de tout » pour reprendre la formule pascalienne ? Gallica est-elle à considérer comme un avatar de fonds existants ou au contraire, reproduit-elle au niveau documentaire et, dans une certaine mesure, « un chaos sublime » comme l’évoque Fuksas ? Auquel cas, la collection numérique que présente Gallica serait à appréhender comme inédite. En effet, Gallica ne reproduit pas l’histoire de la constitution des fonds de la BnF et de celles des bibliothèques partenaires. Elle propose à l’usager une pluralité d’ensembles documentaires.

    Ce qui importe, ce n’est pas le nombre de documents ainsi rassemblés, mais l’écho signifiant qui naît de leur mise en interaction. La structuration de Gallica s’articule alors selon plusieurs modes : réticulaire (les documents entretiennent une relation « horizontale » où n’existe aucune priorisation) et arborescente (les documents entretiennent des relations « verticales », ils sont subordonnés les uns aux autres et présentent entre eux une hiérarchie génétique, structurelle, qualitative). Cette organisation à plusieurs facettes est riche : un même document peut appartenir à plusieurs corpus en révélant dans chacun d’eux une particularité différente. Le système est donc « plus » que la somme de ses parties. Il démultiplie le potentiel d’une unité documentaire.

    Cependant, la collection ne prend vie que si le Gallicanaute s’en empare. Cette prise de conscience est revendiquée explicitement sur la page d’accueil de Gallica depuis 2015 : « Une bibliothèque numérique n’est pas seulement faite de contenus numérisés et de services et fonctionnalités associés à ces contenus. Les usages et pratiques qui s’y greffent contribuent à en structurer l’identité. Aussi les Gallicanautes – internautes qui utilisent Gallica et participent activement à la diffusion de ses documents sur le web – ont leur place au sein de la bibliothèque numérique  49. » Pour s’en convaincre, il ne suffit pas de se contenter des 50 000 visites par jour sur le site. « Tomber sur Gallica » au détour d’une requête effectuée sur un des plus gros moteurs de recherche n’est pas « tomber dans Gallica » comme plusieurs usagers en témoignent à travers les réseaux sociaux. Par exemple, la communauté des généalogistes, qu’ils soient amateurs ou professionnels, par leurs fouilles approfondies dans Gallica, montrent comment la pertinence des ressources mises en ligne est sans cesse réinterprétée par eux. Sophie Boudarel commente en ces termes sur son blog le travail de médiation numérique sur les « Ressources généalogiques 50 » co-construites avec des Gallicanautes : « Nous sommes tous conscients que, si tout est potentiellement intéressant pour le généalogiste dans Gallica, tout ne peut pas être regroupé dans cette page  51. » La compilation de ressources, l’organisation des accès dans Gallica est nécessaire mais insuffisante. Aussi, les résultats de l’étude en trois volets  52 des usages de Gallica prévue en 2016 fourniront des éléments déterminants pour que la BnF s’achemine vers une bibliothèque numérique plus contributive.

    La numérisation patrimoniale de masse, dès lors qu’elle est mise en ligne, donne à voir autrement le patrimoine écrit. Le véritable enjeu d’une bibliothèque numérique qui rassemble en son sein un seuil volumétrique conséquent de documents est la manière dont elle va « multiplier les livres sans fin  53 » en proposant une diversité d’expériences de lectures. C’est là que se situe en partie l’ambition des humanités numériques. Lire ou relire autrement. Structurer, classer, définir sans restreindre les champs d’investigation possibles ajoutent à la puissance d’un corpus numérisé. Cependant, pour que le tissu dont résulte ce complexe maillage fasse sens, il lui faut un couturier. Gallica ne prend vie que si le Gallicanaute se l’approprie et invente de nouveaux usages. Le projet est donc ambitieux, collectif et passionnant.

    Illustration
    Les partenaires de Gallica